EST-46111 Fundamentos de Estadística ITAM Examen (Parcial 1) Prof.: Juan Carlos Martínez-Ovando 06 de octubre de 2016 1. Considera que X es una variable aleatoria que toma valores en 10 y 20 con probabilidad θx y (1 − θx ), respectivamente. A su vez, Y es una variable aleatoria que toma valores en 0, 5 y 10 con probabilidad γy1 , γy2 y γy3 , respectivamente. (a) Escribe la función de masa de probabilidad de X y Y respectivamente. (b) Describe el espacio parametral de FX y FY respectivamente. (c) Define W = X +Y . Deduce el soporte de W y define su correspondiente función de distribución en términos de los parámetros de FX y FY . (d) Si deseamos emplear el enfoque bayesiano de inferencia para completar la especificación del modelo, se requiere incorporar una distribución inicial. Describe qué distribuciones iniciales propondrías para cada FX , FY y FW . R.(a) Para X, F(X = x) = θx I{10} (x) + (1 − θx )I{20} (x), donde I{y} (x) = 1 si x = y e igual a 0 en otro caso. Para Y tenemos, F(Y = x) = γy1 I{0} (x) + γy2 I{5} (x) + γy3 I{10} (x). (b) El espacio parametral para FX es el espacio donde θx toma valores, i.e. Θ = (0, 1). Por otro lado, el espacio parametral para FY está dado por el simplex de dimensión 2, i.e. Γ = {(γ1 , γ2 ) : γ1 , γ2 > 0 y γ1 + γ2 ≤ 1}. Esto porque γy3 = 1 − γy1 − γy2 . (c) El soporte para W está dado por el conjunto de valores donde W tiene masas de probabilidad mayores a cero, i.e. W = {10, 15, 20, 25, 30}. La función de masa de probabilidades está definida como, Pr(W = 10) = Pr(X = 10,Y = 0) = γy1 θx Pr(W = 15) = Pr(X = 10,Y = 5) = γy2 θx Pr(W = 20) = Pr(X = 20,Y = 0) + Pr(X = 10,Y = 10) = γy1 (1 − θx ) + γy3 θx Pr(W = 25) = Pr(X = 20,Y = 5) = γy2 (1 − θx ) Pr(W = 30) = Pr(X = 20,Y = 10) = γy3 (1 − θx ), 1-1 Examen (Parcial 1) 1-2 los cuales se obtienen de suponer que X y Y son independientes. (Sería difícil hacer otro supuesto, pues no existe información para ello). (d) Respecto la distrbución inicial podemos plantear lo siguiente: • Para FX (·|θx ), la cual es Bernoulli con parámetro θx , podemos suponer que θx ∼ Be(θ |a, b) ∝ θ a−1 (1 − θ )b−1 I(0,1) (θ ), con a, b > 0. • Para FY (·|γy1 , γy2 ), podemos suponer que la distribución inicial está dada por c1 −1 c2 −1 (γy1 , γy2 ) ∼ π((γy1 , γy2 )|c1 , c2 , c − 3) ∝ γy1 γy2 (1 − γy1 − γy2 )c3 IS2 (γy1 , γy2 ), con c1 , c2 , c3 > 0 donde S2 denota el simplex de dimensión dos. Nota que la última expresión se parece a la de la distribución beta, y se conoce como distribución Dirichlet. • Finalmente, FW está parametrizada por (θx , γy1 , γy2 ), y podemos suponer que en bloque son mutiamente independientes, i.e. π(θx , γy1 , γy2 ) = π(θx ) × π(γy1 , γy2 ), con π(θx ) y π(γy1 , γy2 ) dadas como antes. Examen (Parcial 1) 1-3 2. Considera la función de densidad mostrada en la siguiente figura. Identifica: (a) El soporte de la variable aleatoria. (b) Al menos dos valores de localización asociados con la distribución. (c) Un valor asociado con la dispersión. (d) La región (intervalo) con el tamaǹo más pequeńo acumularía el 95 por ciento de la probabilidad. R.(a) Podemos suponer que el soporte de la variables aleatoria asociada con f (x) es la recta real o, alternativamente, el intervalo (0, 6), ya que la masa de probabilidad fuera del mismo es casi nula. (b) En este caso, siendo aparentemente una distribución (densidad) simétrica y unimodal, tres valores de centralidad comunes (media, moda y mediana) coincidirán. el valor 3 parecería ser razonable. (c) (d) El intervalo con menor longitud para el 0.95 de probabilidad sería (q0.025 , q0.975 ), donde qx Rx es tal que Pr(X ∈ (−∞, qx )) = −∞ f (u)du = x para x ∈ (0, 1). Examen (Parcial 1) 1-4 3. La probabilidad condicional de dos eventos X y Y se define como Pr(X|Y ) = Pr(X,Y )/ Pr(Y ). Considera tres eventos aleatorios: A, B y C. Muestra que Pr(A, B,C) = Pr(A|B,C) Pr(B|C) Pr(C). R.- Empecemos por expender recursivamente las probabilidades condicionales de A dado (B,C) y de B dado C, como Pr(A, B,C) = Pr(A, B,C) Pr(B,C)/P(B,C) = Pr(A|B,C) Pr(B,C) = Pr(A|B,C) Pr(B,C) Pr(C)/ Pr(C) = Pr(A|B,C) Pr(B|C) Pr(C). El resultado se sigue, entonces. Examen (Parcial 1) 1-5 4. Supongamos que podemos dividir nuestros emails en tres categorías: spam, ordinario e importante. Mi experiencia previa indica el 60 por ciento es spam y el 10 es importante. Definamos el evento de que un email contenga la palabra aviso. La experiencia previa me indica que el 90 por ciento de los emails que son spam incluyen la palabra aviso, mientras que sólo el 1 por ciento de los que son ordinarios la incluyen, lo mismo para los que son importantes. (a) Estoy por recibir un nuevo email. Cuál es la probabilidad de que sea importante? (b) Cuál es la probabilidad de que este nuevo email contenga la palabra aviso? (c) He recibido ya un email más con la palabra aviso en el asunto del correo. Antes de leer su contenido, cuál es la probabilidad de que sea spam? R.- Definamos A1 , A2 y A3 al grupo de emails spam, ordinario e importante, respectivamente. Denotemos por B al evento que un email contenga la palabra aviso en su contenido. (a) De acuerdo a la información proporcionada, las probabilidades marginales para el tipo de email son: Pr(A1 ) = 0.6 Pr(A2 ) = 0.3 Pr(A3 ) = 0.1. Así, la respuesta a (a) está dada por Pr(A3 ). (b) Por otro lado, tenemos que Pr(B|A1 ) = 0.9 Pr(B|A2 ) = 0.01 Pr(B|A3 ) = 0.01. De esta forma, la probabilidad de que este nuevo email contenga la palabra aviso está dada por 3 Pr(B) = ∑ Pr(B|Ai ) Pr(Ai ) i=1 = (0.6)(0.9) + (0.3)(0.01) + (0.1)(0.01). (c) Adicionalmente, la probabilidad de que un nuevo email sea spam dado que ya se observó que contiene la palabra aviso (sin considerarhaber leido el contenido el email), está dada por Pr(A1 |B) = = Pr(B|A1 ) Pr(A1 ) 3 ∑i=1 Pr(B|Ai ) Pr(Ai ) (0.6)(0.9) . (0.6)(0.9) + (0.3)(0.01) + (0.1)(0.01) Examen (Parcial 1) 1-6 5. Consideremos el problema donde N1 hogares con hijos menores reciben apoyo de un programa social y N2 hogares con características similares no reciben apoyo. Definamos X1i como el evento que al menos uno de los hijos del hogar i que recibe apoyo asisten a la escuela, para i = 1, . . . , N1 . Define análogamente X2 j dentro del grupo de hogares que no reciben apoyo, para j = 1, . . . , N2 . (a) Elabora acerca del supuesto de dependencia que podemos emplear entre los hogares dentro de los grupos de apoyo y no apoyo, y entre grupos. 1 (b) Describe qué modelo estadístico bayesiano podemos emplear para describir las variables {X1i }Ni=1 2 y {X2i }Nj=1 . R.(a) En principio, podemos suponer que marginalmente cada X ji se distribuye Bernoulli dado en θ j = Pr(al menos uno de los hijos del hogar asiste a la escuela| grupo j), donde j = 1 denota el grupo de hogares que reciben asistencia del programa, y j = 2 el grupo que no recibe apoyo del programa. Ahora, podemos suponer adicionalmente que las variables X j1 , . . . , X jN j son condicionalmente independientes dado θ j . (El supuesto de independencia no aplicaría aquí, porque trataremos cada θ j como aleatoria). La contribución relevante ahora consistiría en suponer que dados θ1 y θ2 , los bloques de variables aleatorias (X11 , . . . , X1N1 ) y (X21 , . . . , X2N2 ) son condicionalente independientes. Esto nos permitirá asociar ambos grupos posteriormente. (b) Derivado del inciso anterior tenemos que, condicional en θ j , la variable aleatoria X j = Nj ∑i=1 X ji se distribuye binomial, i.e. X j |θ j ∼ Bin(x j |N j , θ j ), para j = 1, 2. Como consecuencia del segundo supuesto del inciso anterior, tendríamos que X1 y X2 son condicionalmente independientes dado θ1 y θ2 , i.e. Pr(X1 = x1 , X2 = x2 |θ1 , θ2 ) = Pr(X1 = x1 |θ1 , θ2 ) Pr(X2 = x2 |θ1 , θ2 ) = Bin(X1 = x1 |N1 , θ1 )Bin(X2 = x2 |N2 , θ2 ). Ahora, el modelo se completaría con la especificación de la distribución inicial para (θ1 , θ2 ). En este caso, podemos suponer genéricamente una distribución inicial independiente para cada una de estos parámetros. Así, si adicionalmente adoptamos conjugacidad, tenemos π(θ1 , θ2 ) = Be(θ1 |a, b) × Be(θ2 |c, d). Un organismo internacional está interesado en evaluar la relevancia del programa social con base haber observado que en x1 hogares que recibieron apoyo los hijos asisten a la escuela y, complementariamente, x2 hogares que no reciben apoyo los hijos asisten a la escuela. c) Calcula, para los dos grupos de hogares, la probabilidad posterior que al menos uno sus hijos asista la escuela? d) El organismo dictamina que el programa social es relevante si la probabilidad que en un hogar que recibe el apoyo sus hijos asisten a la escuela es mayor a la de un hogar que no lo recibe. Examen (Parcial 1) 1-7 Cómo plantearías resolver acerca de la relevancia del programa con la información y modelos estadísticos elegidos? R.c) Por conjugacidad, sabemos que dada la muestra X1 = x1 y X2 = x2 , las distribuciones finales para θ1 y θ2 son π(θ1 |x1 , x2 ) = Be(θ1 |a + x1 , b + N1 − x1 ) π(θ2 |x1 , x2 ) = Be(θ2 |c + x2 , d + N2 − x2 ). d) La relevancia del programa social estará dictada por la nueva variable aleatoria γI = gI (θ1 , θ2 ) = θ1 − θ2 o γII = gII (θ1 , θ2 ) = θ1 /θ2 . Notemos que la distribución de γI y γII estará inducida por Be(θ1 |a + x1 , b + N1 − x1 ) y Be(θ2 |c + x2 , d + N2 − x2 ). Así, necesitamos evaluar Pr(γI > 0|x1 , x2 ) o Pr(γII > 1|x1 , x2 ).