CapIII.pdf

Capı́tulo 3 Distribuciones de Familias comunes Distribuciones estadı́sticas son usadas para modelar poblaciones. Nosotros usualmente trataremos con familias de distribuciones, en vez de con una simple distribución. Esas familias son indexadas por uno o más parámetros, lo cual nos permite variar ciertas caracterı́sticas de la distribución. Por ejemplo, podemos especificar que la distribución Normal es una elección de un modelo razonable para una población particular, pero no podemos especificar precisamente la media; entonces trataremos con una familia paramétrica, la normal con media µ, donde este es un parámetro no especificado −∞ < µ < ∞. En este capı́tulo serán catalogadas algunas de las muchas distribuciones estadı́sticas, algunas de las cuales ya hemos tratado previamente. Para cada una de las distribuciones que describamos, daremos su media y su varianza, y algunas otras descripciones adicionales ó medidas que pudieran agregar comprensión. También se indicará alguna aplicación tı́pica de esas distribuciones, e interrelaciones adicionales. 3.1. Distribuciones discretas Una va. X se dice tiene una distribución discreta, si su rango; e.d. el espacio muestral es numerable. En la mayorı́a de las situaciones, la va. es entero-positiva valuada. 75 Probabilidad y Estadı́stica 3.1.1. Distribución uniforme discreta Una va. X tiene distribución uniforme discreta (1, N ), si P (X = x | N ) = 1 , N x = 1, 2, . . . , N (3.1) donde N es un entero especificado. Esta distribución pone igual masa sobre cada uno de los resultados 1, 2, . . . , N . Una cuestión de Notación Cuando estamos tratando con distribuciones paramétricas, como será en la mayorı́a de los casos, la distribución depende de los parámetros. Con la idea de enfatizar este hecho, y de mantener visibles los parámetros, los escribiremos en la fmp precedido por un ”|”(dado). Esta misma convención también será usada con la fdp, la fda, la esperanza, y otros casos donde pudiera ser necesario. Cuando no haya posibilidad de confusión, los parámetros pueden ser omitidos para no desordenar tanto la notación. Calculemos ahora la media y la varianza de X. Entonces EX = N X xP (X = x | N ) = x=1 N X x=1 x 1 1 N (N + 1) N +1 = = N N 2 2 y 2 EX = N X 2 x P (X = x | N ) = x=1 N X x=1 x2 1 1 N (N + 1)(2N + 1) (N + 1)(2N + 1) = = N N 2 2 y ası́, V ar X = E X 2 − (E X)2 = = (N + 1)(2N + 1) ³ N + 1 ´2 − 2 2 (N + 1)(N − 1) . 2 Esta distribución puede ser generalizada, a un espacio muestral en cualquier rango de enteros, N0 , N0 + 1, . . . , N1 , con fmp P (X = x | N0 , N1 ) = 1/(N1 − N0 + 1). 3.1.2. Distribución Hipergeométrica La distribución hipergeométrica tiene muchas aplicaciones en muestreo de poblaciones finitas. Es mejor para su comprensión pensarla en el ejemplo clásico de un modelo de urna. Probabilidad y Estadı́stica Segundo Semestre 2005 76 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Supongamos tenemos una urna con N bolillas iguales, salvo por el color, es decir, hay M rojas y N − M verdes. K de tales bolillas son seleccionadas aleatoriamente (se toman una a una de la urna, sin regresarla a la misma; se trata de un caso de muestreo sin reemplazo). ¿Cuál es la probabilidad que exactamente x de las bolillas sean rojas?. El número total de muestras de medida K que pueden ser seleccionadas de un total de ¡N ¢ . Se requiere que x de tales bolillas sean rojas, lo cual puede ser realizado de N es K ¡M ¢ ¡M −N ¢ formas, dejando x K−x caminos para elegir las K − x restantes que no son rojas. Ası́, denotaremos por X la va. que mide el número rojas en la muestra de tamaño K, entonces X tiene distribución hipergeométrica dada por ¡M ¢¡N −M ¢ x P (X = x | N, N, K) = , ¡NK−x ¢ x = 0, 1, . . . , K. (3.2) K Note que hay implı́cita en (3.2), un supuesto adicional sobre el rango de X. Los coeficientes ¡ ¢ binomiales de la forma nr , han sido definidos solamente si n ≥ r, y ası́ el rango de x está adicionalemente restringido por el siguiente par de inecuaciones M ≥x y N − M ≥ K − x, las cuales pueden ser combinadas como M − (N − K) ≤ x ≤ M. En muchos casos K es pequeño comparado con N y M , ası́ el rango 0 ≤ x ≤ K estará contenido en el rango último anterior dado para x, y por lo tanto será apropiado. La fórmula para la función de probabilidad hipergeométrica es difı́cil de tratar. En efecto no es trivial verificar que K X P (X = x) = x=0 K X ¡M ¢¡N −M ¢ x=0 K x ¡NK−x ¢ = 1. El caso de la distribución hipergeométrica, ilustra la dificultad estadı́stica de tratar con poblaciones finitas (finito N ). La media de la distribución hipergeométrica está dada por EX = K X x=0 Probabilidad y Estadı́stica Segundo Semestre 2005 ¡M ¢¡N −M ¢ x x ¡NK−x ¢ K 77 = K X ¡M ¢¡N −M ¢ x=1 K x . ¡NK−x ¢ Prof. Magister Osmar Vera Probabilidad y Estadı́stica (el sumando es 0 en x = 0). Para evaluar estas expresiones, usamos las siguientes identidades, µ ¶ µ ¶ M M −1 x = M , x x−1 µ ¶ µ ¶ N N N −1 = , K K K −1 y obtener EX = K X M x=1 ¡M −1¢¡N −M ¢ x−1 ¡ K−x ¢ N N −1 K K−1 K KM X = N x=1 ¡M −1¢¡N −M ¢ x−1 ¡N −1K−x ¢ K−1 . Es posible reconocer la segunda suma anterior como la suma de las probabilidades de otra distribución hipergeométrica basada en valores de parámetros N −1, M −1, y K −1. Luego esa suma vale 1. Finalmente se tiene que EX = KM . N En forma similar, pero con más labor, es posible establecer que V ar X = KM ³ (N − M )(N − K) ´ . N N (N − 1) Ejemplo 3.1.1. La biblioteca de una escuela de estudiantes no graduados tiene 20 ejemplares de cierto tipo de texto de introducción a la economı́a, de los cuales 8 son primeras impresiones y 12 son segundas impresiones (que contienen correcciones de algunos pequeños errores que aparecieron en la primera edición). El instructor del curso ha solicitado que 5 ejemplares sean puestos en reserva de 2 horas. Si los ejemplares se seleccionan en una forma por completa al azar, de modo que cada subconjunto de tamaño 5 tenga la misma probabilidad de ser seleccionado, ¿cuál es la probabilidad de que x (x = 0, 1, 2, 3, 4ó 5) de los seleccionados sean segundas impresiones? Ejemplo 3.1.2. Cinco ejemplares de una población animal considerados en vı́a de extinción en cierta región han sido atrapados, marcados y puestos en libertad para que se mezclen en la población. Después de tener la oportunidad de mezclarse, se seleccionó una muestra aleatoria de 10 de estos animales. Sea X = número de animales marcados de la segunda muestra . Si hay en realidad 25 animales de este tipo en la región. ¿Cuál es la probabilidad de que (a) halla dos marcados en la muestra? Probabilidad y Estadı́stica Segundo Semestre 2005 78 Prof. Magister Osmar Vera Probabilidad y Estadı́stica (b) halla a lo sumo dos marcados en la muestra? (c) Determine la media y la varianza de X. 3.1.3. Distribución Binomial La distribución binomial, una de las distribuciones discretas más usadas, está basada sobre la idea de una ensayo de Bernoulli. Un ensayo de Bernoulli es un experimento con dos, y solamente dos, resultados posibles. Una va. tiene una distribución Bernoulli(p) si   1 con probabilidad p X= 0 ≤ p ≤ 1. (3.3)  0 con probabilidad 1 − p El valor X = 1 es a menudo tomado como un ”éxito p se refiere a la probabilidad de que 2 ocurra el éxito. El valor X = 0 es tomado como una ”falla”. También es posible realizar la siguiente interpretación de un ensayo de Bernoulli, si consideremos un evento A ⊆ Ω con probabilidad p, X = IA es una variable discreta con P (X = 1) = p, P (X = 0) = 1 − p. Calculemos con estas dos interpretaciones la media y la varianza de esta va. E X = E(IA ) = 1p + 0(1 − p) = p, V ar X = (1 − p)2 p + (0 − p)2 (1 − p) = p(1 − p). Muchos experimentos pueden ser modelados por una secuencia de ensayos de Bernoulli, tales como el lanzamiento de monedas, elección de candidatos polı́ticos, incidencia de una enfermedad, etc. Si con n indicamos la cantidad de ensayos de Bernoulli que son realizados, definimos los eventos Ai = {X = 1 en el i-ésimo ensayo}, i = 1, 2, . . . , n. Si asumimos que los eventos A1 , A2 , . . . , An representan una colección de eventos independientes (como es el caso del lanzamiento de una moneda), es fácil encontrar la distribución del número total de éxitos en n ensayos. Definamos la va. Y por Y = número total de éxitos en n ensayos. Probabilidad y Estadı́stica Segundo Semestre 2005 79 Prof. Magister Osmar Vera Probabilidad y Estadı́stica El evento {Y = y} ocurrirá solamente si, exactamente y de los eventos A1 , A2 , . . . , An ocurren, y n − y de ellos no ocurren. Un resultado particular de n ensayos (un particular ordenamiento de ocurrencias y no-ocurrencias) de los n ensayos de Bernoulli podrı́a ser A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ Acn−1 ∩ An . Este tiene probabilidad de ocurrrencia P (A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ Acn−1 ∩ An ) = pp(1 − p) . . . . . . p(1 − P ) = py (1 − p)n−y , donde nosotros hemos usado la independencia de los Ai s en este cálculo. Note que el cálculo no depende sobre cuales de los Ai s ocurre, solamente que algún conjunto de y de ellos ocurra. Poniendo todo esto junto, vemos que una secuencia particular de n ensayos con ¡ ¢ exactamente y éxitos tiene probabilidad py (1 − p)n−y de ocurrencia; ya que hay ny de tales secuencias (el número de ordenamientos de y unos y de (n − y) ceros), se tiene P (Y = y | n, p) = µ ¶ n y e Y es llamada una variable aleatoria Bin(n,p). Y puede ser definida en forma equivalente del siguiente modo: como una secuencia de n idénticas, e independientes ensayos de Bernoulli, cada una con éxito p y fracaso 1 − p, definiendo las variables X1 , X2 , . . . , Xn por   1 con probabilidad p Xi =  0 con probabilidad 1 − p 0 ≤ p ≤ 1. Entonces la va. Y = n X Xi i=1 tiene distribución Bin(n, p). Análogamente, usando funciones indicadoras, Y podrı́a escribirse como Y = n X IAi , i=1 y por lo tanto toda va. binomial se puede escribir como una suma de indicadoras. Hemos ya obtenido tanto la esperanza, la varianza y la fgm para una va. binomial. Para completar, afirmemos entonces que si X ∼ Bin(n, p) se tiene Probabilidad y Estadı́stica Segundo Semestre 2005 80 Prof. Magister Osmar Vera Probabilidad y Estadı́stica E X = np , V ar X = np(1 − p) , y su fgm es MX (t) = [pey + (1 − p)]n . Ejemplo 3.1.3. A cada una de seis personas que toman refresco cola, seleccionadas al azar, se les da un vaso que contiene refresco de cola S y uno que contiene refresco de cola F. Los vasos son idénticos en apariencia excepto por un código que se encuentra en el fondo para identificar la marca. Supongamos que en realidad no hay preferencia entre las personas que beben refresco de cola para preferir entre una marca u otra. (a) Determine la probabilidad de que exactamente tres prefieran la marca de cola S (b) Determine la probabilidad de que por lo menos tres personas prefieran la marca de cola S. (c) Calcule la probabilidad de que a lo suma 1 prefiera la marca de cola S (d) Calcule la E X, V ar X, σX . Ejemplo 3.1.4. Suponga que el 20 % de todos los ejemplares de un texto en particular fallan en una prueba de resistencia a la encuadernación. Si X es el número entre 15 ejemplares seleccionados al azar que fallan a la prueba. (a) ¿Qué distribución sigue X? (b) Determine la probabilidad de que a lo sumo 8 fallen a la prueba (c) ¿Cuál es la probabilidad de que exactamente 8 fallen a la prueba?, y ¿la probabilidad de que por lo menos 8 fallen a la prueba? (d) Halle la probabilidad de que entre 4 y 7 fallen a la prueba. (e) Determine la media y la varianza de X. Ejemplo 3.1.5. Un fabricante de equipos electrónicos argumenta que a los sumo el 10 % de sus unidades de fuentes de alimentación necesitan reparación durante el perı́odo de garantı́a. Probabilidad y Estadı́stica Segundo Semestre 2005 81 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Para investigar esto, técnicos de un laboratorio de pruebas compran 20 unidades y las someten a pruebas aceleradas para simular su uso durante el perı́odo de garantı́a. Denotemos por p la probabilidad de que una fuente de alimentación necesita reparación durante el perı́odo (la proporción de todas las unidades que necesitan reparación). Los técnicos de laboratorio deben determinar si los datos resultantes del experimento apoyan el argumento de que p ≤ 0,10. 3.1.4. Distribución de Poisson La distribución de Poisson es una distribución discreta ampliamente aplicada, y puede servir como un modelo de un número diferente de experimentos. Por ejemplo, si estamos modelando un fenómeno en el cual estamos esperando alguna ocurrencia (tales como esperando un ómnibus, esperando que lleguen clientes a la ventanilla de un banco), el no de ocurrencias en un intervalo de tiempo dado puede ser muchas veces modelado por la distribución de Poisson. Uno de los supuestos básicos sobre los cuales esta distribución se construye, es que, para pequeños intervalos de tiempo, la probabilidad de un arribo es proporcional a la medida del tiempo esperado. Esto lo hace un modelo razonable para situaciones como las que indicamos más arriba. Por ejemplo, esto hace razonable asumir que en un largo tiempo de espera, es más probable que un cliente entre al banco. Otro área de aplicación es en distribuciones espaciales, donde, por ejemplo, la Poisson puede ser empleada para modelar la distribución del estallido de una bomba en un area, o la distribución de peces en un lago. La distribución de Poisson tiene sólo un parámetro, λ, algunas veces llamado parámetro de intensidad. Una va. X que toma valores enteros no negativos, tiene una distribución Po(λ) si P (X = x | λ) = Para ver que P∞ x=0 e− λλx , x! x = 0, 1, . . . . . . (3.4) P (X = x | λ) = 1, debemos ocupar la expansión en serie de Taylor de ey , ey = ∞ X yi . y! i=0 Probabilidad y Estadı́stica Segundo Semestre 2005 82 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Ası́ ∞ X P (X = x | λ) = e −λ x=0 ∞ X λx = e−λ eλ = 1 x! x=0 La media de X se puede ver fácilmente, haciendo EX = ∞ X x e−λ λx x! x e−λ λx x! x=0 = ∞ X x=1 = λe−λ = λe−λ ∞ X x=1 ∞ X y=0 λx−1 (x − 1)! λy y! sustituyendo y = x − 1 = λ. Cálculos similares mostrarán que V ar X = λ, Ası́ el parámetro λ es el mismo tanto para la media como para la varianza de la distribución Poisson. También puede ser obtenida la fgm usando argumentos de cálculos análogos, siendo MX (t) = eλ(e t −1) . Ejemplo 3.1.6. Si X es el número de la fallas en la superficie de un calentador de cierto tipo seleccionado al azar. Suponga que X tiene una distribución de Poisson con λ = 5. Determine: (a) La probabilidad de que tenga exactamente dos fallas (b) La probabilidad de que un calentador contenga un máximo de dos fallas Ejemplo 3.1.7. Supongamos que llegan pulsos al contador con una tasa promedio de seis por minuto, supongamos α = 6. Para hallar la probabilidad de que en un intervalo de 0.5 min se reciba por lo menos un pulso, observe que el nro. de pulsos en tal intervalo tiene una distribución de Poisson con parámetro λ = αt = 6(0,5). Si X representa el número de pulsos recibidos en el intervalo de 30 segundos. Determine la probabilidad de que reciba más de una llamada. Probabilidad y Estadı́stica Segundo Semestre 2005 83 Prof. Magister Osmar Vera Probabilidad y Estadı́stica 3.1.5. Distribución Binomial Negativa La distribución Binomial cuenta el número de éxitos en un número prefijado de ensayos de Bernoulli. Supongamos que, en cambio, contamos el número de ensayos de Bernoulli requeridos para conseguir un número prefijado de éxitos. Esta última formulación nos anticipa la distribución binomial negativa. En una secuencia de ensayos independientes de Bernoulli(p), sea la va. X, que denota el ensayo para el cual el r-ésimo éxito ocurre, donde r es un entero prefijado. Entonces µ ¶ x−1 r P (X = r | r, p) = p (1 − p)x−r , r−1 x = r, r + 1, . . . (3.5) y diremos que X tiene una distribución binomial negativa (r,p). La obtención de (3.5) se sigue rápidamente de la distribución binomial. El evento {X = x} puede ocurrir solamente si hay exactamente r − 1 éxitos en los primeros x − 1 ensayos, y un éxito en el ensayo x. La probabilidad de r − 1 éxitos en x − 1 ensayos es la probabilidad ¡ ¢ r−1 binomial x−1 (1 − p)x−r y con probabilidad p hay un éxito en el ensayo x. Multiplir−1 p cando esas probabilidades se llega a la igualdad (3.5). La distribución binomial negativa es muchas veces definida en términos de la va. Y = número de fracasos antes del r-ésimo éxito. Esta formulación es estadı́sticamente equivalente a la dada antes en términos de X = ensayos en los cuales el r-ésimo éxito ocurre, en consecuencia Y = X − r. Usando la relación entre y y X, la forma alternativa para la distribución binomial negativa es µ ¶ r+y+1 r P (Y = y) = p (1 − p)y , y y = 0, 1, . . . . . . (3.6) A menos que sea notado, cuando nos hagamos referencia a la distribución binomial negativa(r, p) usaremos la fmp (3.6). La distribución binomial negativa, tiene ese nombre de la relación µ ¶ µ ¶ r+y+1 (−r)(−r − 1)(−r − 2) . . . (−r − y + 1) y −r = (−1) = (−1)y , y y y(y − 1)(y − 2) . . . 2,1 Probabilidad y Estadı́stica Segundo Semestre 2005 84 Prof. Magister Osmar Vera Probabilidad y Estadı́stica la cual es, en efecto, la definición para un coeficiente binomial con enteros negativos (ver Feller (1968) para un tratamiento con mayor profundidad). Sustituyendo en (3.6), se obiene µ ¶ y −r P (Y = y) = (−1) pr (1 − p)y , y = 0, 1, . . . . . . y la cual muestra un parecido muy llamativo con la distribución binomial. P El hecho que ∞ y=0 P (Y = y) = 1 no es fácil de verificar, pero proviene de una extensión del Teorema del Binomio, extensión que incluye exponentes negativos. No expondré esto aquı́. Una excelente exposición de este hecho lo puede encontrar en Feller (1968). La media y la varianza de Y puede ser calculada usando técnicas similares a las usadas para la distribución binomial: EY µ ¶ ∞ X r+y+1 r = y p (1 − p)y y y=0 ∞ X (r + y − 1)! pr (1 − p)y (y − 1)!(r − 1)! y=1 µ ¶ ∞ X r+y+1 r = r p (1 − p)y . y−1 = y=1 Ahora escribimos z = y − 1, y la suma se transforma en µ ¶ ∞ X r+z r EY = r p (1 − p)z+1 z z=0 ¶ ∞ µ (1 − p) X (r + 1) + z − 1 r+1 p (1 − p)z , = r p z z=0 este último sumando se corresponde con la fmp de una binomial negativa, de donde EY =r (1 − p) p Un cálculo similar mostrará que V ar Y = r (1 − p) . p2 La familia de la distribución binomial negativa incluye a la Poisson como un caso lı́mite. Si r −→ ∞ y p −→ 1 tal que r(1 − p) −→ λ, 0 < λ < ∞, entonces EY V ar Y (1 − p) −→ λ, p (1 − p) = r −→ λ, p2 = r lo cual se corresponde con la media y la varianza de la Poisson. Probabilidad y Estadı́stica Segundo Semestre 2005 85 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Ejemplo 3.1.8. Un pediatra desea conseguir 5 parejas, cada una de las cuales espera a su primer hijo, para que participen en un régimen de nacimiento natural. Sea p = P (una pareja seleccionada al azar acceda a participar). Si p = 0,2, ¿cuál es la probabilidad de que se le pida a 15 parejas que participen antes de encontrar 5 que accedan?. Esto es, si S={accede a participar}, ¿cuál es la probabilidad de que ocurran 10 fallas antes del quinto éxito?. 3.1.6. Distribución Geométrica La distribución geométrica es la más simple de las distribuciones, y es un caso especial de la distribución binomial negativa. Si se hace r = 1 en (3.5) tenemos P (X = x | p) = p(1 − p)x−1 , x = 1, 2, . . . la cual define la fmp de una variable aleatoria X geométrica con probabilidad de éxito p. X puede ser interpretada como el ensayo para el cual el primer éxito ocurre. Ası́, diremos P ”esperando el primer éxito”. El hecho que ∞ x=1 P (X = x) = 1 se sigue de la propiedad de series geométricas. Para cualquier a tal que | a |< 1, ∞ X ax−1 = x=1 1 , 1−a la cual ya ha sido probada anteriormente. La media y la varianza de X puede ser calculada usando las formulas de la binomial negativa y escribiendo X = Y + 1 para obtener E X = EY + 1 = 1 p y V ar X = 1−p . p2 La distribución geométrica tiene una propiedad interesante conocida como ”pérdida de memoria”. Para enteros s > t, esto significa que P (X > s | X > t) = P (X > s − t); (3.7) Esto significa que la distribución geométrica olvida lo que ha ocurrido. Probabilidad y Estadı́stica Segundo Semestre 2005 86 Prof. Magister Osmar Vera Probabilidad y Estadı́stica 3.2. Distribuciones Continuas En esta sección discutiremos algunas de las familias de distribuciones continuas más comunes, aquellas que tienen nombres bien conocidos. Las distribuciones mencionadas aquı́ no constituyen todas las distribuciones usadas en estadı́stica; pues además como vimos en secciones anteriores, cualquier función nonegativa, e integragrable puede ser transformada en una fdp. 3.2.1. Distribución Uniforme La distribución uniforme continua está definida de manera tal que se extiende masa uniformemente sobre un intervalo [a, b]. Su fdp está dada por   f (x | a, b) = Es fácil demostrar que Rb a  0 si x ∈ [a, b] (3.8) en otro caso f (x) dx = 1. También se tiene Z b x a+b dx = b−a 2 a+b 2 (x − 2 ) (b − a)2 dx = . b−a 12 EX = a Z b V ar X = a 3.2.2. 1 b−a Distribución Gamma La familia de distribuciones gamma es una familia flexible de distribuciones sobre [0, ∞]. Esta familia puede ser derivada por la siguiente construcción. Sea α una constante positiva, la integral Z ∞ tα−1 e−t dt 0 es finita. Si α es un entero positivo la integral puede ser expresada en forma cerrada, en otro caso no es posible. En cualquier caso, su valor define la función gamma, Z Γ(α) = ∞ tα−1 e−t dt. (3.9) 0 Probabilidad y Estadı́stica Segundo Semestre 2005 87 Prof. Magister Osmar Vera Probabilidad y Estadı́stica La función gamma satisface muchas relaciones muy usadas, en particular Γ(α + 1) = αΓ(α) , α > 0, (3.10) la cual puede ser verificada utilizando integración por partes. Combinando (3.9) y (3.10) verificando el hecho que Γ(1) = 1, se tiene para cualquier entero n > 0, Γ(n) = (n − 1)!. (Otro caso especial muy usado, que veremos en breve es: Γ( 12 ) = (3.11) √ π.) Las expresiones (3.10) y (3.11) dan relaciones recursivas para la función gamma, que hacen más fácil su cálculo. Ya que la integral en (3.9) es positiva, inmediatamente se sigue que f (t) = tα−1 e−t , Γ(α) 0<t<∞ (3.12) es una fdp. La familia gamma completa, sin embargo, tiene dos parámetros, y puede ser derivada por cambio de variables para conseguir la fdp de la va. X = βT en (3.12), donde β es una constante positiva. Al hacer esto, conseguimos la familia gamma(α, β), f (x) = 1 xα−1 e−x/β , 0 < x < ∞ , α > 0 , β > 0. Γ(α)β α (3.13) El parámetro α es conocido como el parámetro de forma, ya que es el que más influencia tiene en el pico de la distribución, mientras que β es llamado el parámetro de escala, ya que su influencia está sobre la cuan abierta o cerrada es la distribución. Hemos ya probado que la media de la distribución es 1 EX = Γ(α)β α Z ∞ x, xα−1 e−x/β dx. (3.14) 0 Para evaluar (3.14), note que el integrando es el núcleo de una fdp gamma(α + 1, β). De la (3.13) sabemos que para α, β > 0, Z ∞ xα−1 e−x/β dx = Γ(α)β α , (3.15) 0 Probabilidad y Estadı́stica Segundo Semestre 2005 88 Prof. Magister Osmar Vera Probabilidad y Estadı́stica ası́ tenemos EX = = 1 Γ(α)β α αΓ(α)β Γ(α) Z ∞ x, xα−1 e−x/β dx = 0 1 Γ(α + 1)β α+1 Γ(α)β α = αβ. Note que para evaluar la E X hemos usado la técnica de reconocimiento de la integral como el núcleo de una fdp. Este hecho ya fue utilizado en múltiples oportunidades. La varianza de la distribución gamma(α, β ) se calcula de manera análoga. En particular, en el cálculo de E X 2 nos manejamos con el núcleo de una distribución gamma(α + 2, β). El resultado es V ar X = αβ 2 . En un ejemplo anterior hemos calculado la fgm de una distribución gamma(α, β). Ésta está dada por ³ MX (t) = 1 ´α . 1 − βt Ejemplo 3.2.1. Existe una interesante relación entre las distribuciones gamma y la Poisson. Si va. X es una gamma(α, β), donde α es un entero, entonces para cualquier x, P (X ≤ x) = P (Y ≤ α), (3.16) donde Y ∼ Poisson(x/β). La ecuación (3.16) puede ser establecida por sucesivas integraciones por partes. Ya que α es un entero, podemos escribir Γ(α) = (α − 1)! para conseguir Z x 1 P (X ≤ x) = tα−1 e−t/β dt (α + 1)β α 0 hh ix Z x i 1 (α−1) β/t α−2 −t/β = − t β − t + (α − 1)t βe dt , (α + 1)β α 0 0 hemos usado la integración por partes, sustituyendo u = tα−1 , dv = e−t/β dt. Continuando con la evaluación de la probabilidad, tenemos P (X ≤ x) = = Z x −1 1 α−1 −x/β x e + tα−2 βe−t/β dt (α − 1)!β α−1 (α − 2)!β α−1 0 Z x 1 tα−2 βe−t/β dt − P (Y = α − 1), (α − 2)!β α−1 0 donde Y ∼ Poisson(x/β). Continuando de esta manera, es posible establecer (3.16). Probabilidad y Estadı́stica Segundo Semestre 2005 89 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Hay dos importantes casos especiales de distribución gamma. Si hacemos α = p/2, donde p es un entero, y β = 2, entonces la fdp de la gamma resulta f (x) = 1 x(p/2)−1 e−x/2 , 0 < x < ∞, Γ(p/2)2p/2 (3.17) la cual es la fdp de la chi cuadrado con p grados de libertad. La media, la varianza, y la fgm de la distribución chi cuadrado pueden todas se calculadas usando las fórmulas gamma derivadas previamente. La distribución chi cuadrado juega una papel importante en inferencia estadı́stica, especialmente cuando se muestrea de una distribución normal. Esto será estudiado con detalle más adelante. Otro caso especial importante proveniente de la distribución gamma se obtiene cuando se reemplaza α = 1. Ahora resulta, f (x | β) = 1 −x/β e , β 0 < x < ∞, (3.18) la fdp exponencial con parámetro de escala β. Su media y su varianza fueron calculadas en ejemplos anteriores. La distribución exponencial puede ser usada para modelar tiempos de vida, análogo al uso de la distribución geométrica en el caso discreto. Otra distribución relacionada con la exponencial y con la familia gamma es la distribución Weibull. Si X ∼ Exp(β), entonces Y = X 1/γ tiene una distribución Weibull(γ, β). fY (y | γ, β) = γ γ−1 yγ /β y e , β 0 < y < ∞, γ > 0 , β > 0. (3.19) La distribución Weibull juega un rol extremadamente importante en el análisis de tiempo de fracaso (ver Kalbfleidch and Prentice (1980)para un tratamiento de este tópico). La Weibull en particular es muy usada para modelar funciones de riesgo. 3.2.3. Distribución Normal La distribución Normal (muchas veces llamada Distribución gaussiana juega un rol central a lo largo de toda la estadı́stica. Existen tres grandes razones para ello. Primero, la Probabilidad y Estadı́stica Segundo Semestre 2005 90 Prof. Magister Osmar Vera Probabilidad y Estadı́stica distribución Normal y las distribuciones asociadas con ella, son muy tratables analı́ticamente (aunque no lo parezca con una primera mirada). Segundo, la distribución normal tiene una forma de campana familiar, cuya simetrı́a la hace elegible para modelar un sin fin de poblaciones. Aunque hay muchas otras distribuciones que tienen forma de campana, pero no poseen la tratabiliad analı́tica de la normal. Tercero, existe el Teorema Central del Lı́mite (más adelante se verá con detalle) el cual muestra que bajo algunas condiciones, la distribución normal puede ser usada para aproximar una gran variedad de distribuciones en grandes muestras. La distribución normal tiene dos parámetros, usualmente anotados por µ y σ 2 , las cuales son su media y su varianza. La fdp de la distribución Normal con media µ y varianza σ 2 (usualmente anotada N (µ; σ 2 )) está dada por, 1 2 2 e−(x−µ) /(2σ ) , −∞ < x < ∞. f (x | µ, σ 2 ) = √ 2πσ (3.20) Si X ∼ N (µ; σ 2 ), entonces la va. Z = (X −µ)/σ tiene distribución N (0, 1), también conocida como Normal estándar. Esto se establece fácilmente escribiendo ³ ´ P (Z ≤ z) = P X − µ)/σ ≤ z = P (X ≤ zσ + µ) Z zσ+µ 1 2 2 = √ e−(x−µ) /(2σ ) dx 2πσ −∞ Z z x−µ 1 2 e−t /2 dt, (sustituyendo t = = √ ) σ 2π −∞ mostrando que P (Z ≤ z) es la fda de la normal estándar. Lo último anterior muestra que todas las probabilidades normales puedes ser calculadas en términos de la normal estándar. Además, el cálculo de la media puede ser simplificado, calculándolo para la N (0, 1), y luego transformando para el caso de N (µ, σ 2 ). Por ejemplo, si Z ∼ N (0, 1), 1 EZ = √ 2π Z ∞ −∞ ze−z 2 /2 1 2 dz = − √ e−z /2 |∞ −∞ = 0 2π y ası́, si X ∼ N (µ, σ 2 ), se sigue que E X = E(µ + zσ) = µ + σE Z = µ. Probabilidad y Estadı́stica Segundo Semestre 2005 91 Prof. Magister Osmar Vera Probabilidad y Estadı́stica En forma análoga, se tiene que V ar Z = 1, y se prueba que V ar X = σ 2 . Ya hemos probado que (3.20) integra 1 sobre la recta real, o sea vimos, via integral doble que 1 √ 2π Z ∞ e−z 2 /2 dz = 1. −∞ Note que esta integral es simétrica alrededor del 0, lo cual implica que la integral sobre (−∞, 0) es igual a la integral sobre (0, ∞). Ası́ el problema se reducı́a a probar Z ∞ e −∞ Dijimos que la función e−z 2 /2 −z 2 /2 √ r 2π π dz = = . 2 2 (3.21) no tiene una antiderivada que puede ser escrita explı́citamente en términos de funciones elementales (esto es, en forma cerrada), por ello, no podemos resolver la integral en forma directa. Se resuelve vı́a una integral doble La integral (3.21) está relacionada con la función gamma; en efecto haciendo la sustitución w = 21 z 2 en (3.21) nosotros vemos que esta integral es Γ( 12 ). Si se es cuidadoso al conseguir las constantes correctas ,nosotros vemos que la sustitución propuesta implica ³1´ Z ∞ √ Γ = w−1/2 e−w dw = π. 2 0 (3.22) La distribución normal es un poco especial en el sentido, que sus dos parámetros, µ (la media) y σ 2 (la varianza), nos proveen una completa información exacta acerca de la forma y la ubicación de la distribución. Esta propiedad que tiene la distribución normal, no es sólo para esta fdp, pero está formada por una familia de fdp´s llamadas familias de localización y escala. Basta con resolver un elemental problema de cálculo para mostrar que la fdp normal (3.20) tiene un máximo en x = µ y puntos de inflexión (donde la curva cambia de cóncava a convexa) en x = µ±σ. Además la probabilidad contenida entre 1,2 ó 3 desviaciones estándar de la media es P (| X − µ |≤ σ) = P (| Z |≤ 1) = 0,6826 P (| X − µ |≤ 2σ) = P (| Z |≤ 2) = 0,9544 P (| X − µ |≤ 3σ) = P (| Z |≤ 3) = 0,9947 Probabilidad y Estadı́stica Segundo Semestre 2005 92 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Donde X ∼ N (µ, σ 2 ), Z ∼ N (0, 1) , y los valores numéricos provienen de una tabla de distribución normal. A menudo valores de dos dı́gitos son reportados, aunque no representan valores redondeados, se ocupan frecuentemente. Entre los muchos usos de la distribución Normal, uno de gran importancia es su uso como aproximación de otras distribuciones (los cuales son justificados por el Teorema central del Lı́mite). Por ejemplo, si X ∼ Bin(n, p), entonces E X = np y V ar X = np(1 − p), y bajo condiciones convenientes, la distribución de X puede ser aproximada con una va. normal con media µ = np y varianza σ 2 = np(1 − p). Las çondiciones convenientes”son que n debe ser grande y p no debe ser un valor extremo (ni estar cerca del 0, ni cerca del 1). Como es el caso de todas las aproximaciones no hay reglas absolutas, y para cada aplicación debe ser chequeada para decidir si la aproximación es buena para ese caso. Una regla conservativa que se sigue es que la aproximación será buena si min(np, n(1 − p)) ≥ 5. Ejemplo 3.2.2. Sea X ∼ Bin(25, 0,6). Aproximar X con una va. Y normal, y calcule la probabilidad de que X tome valores menores ó iguales que 13, y compare con el valor exacto. La aproximación puede ser grandemente mejorada, por una çorrección por continuidad”. Se describirá un método estándar para mejorar la calidad de la aproximación que se obtiene cuando se aproxima una probabilidad basada en una distribución discreta por una basada en una distribución continua. Supóngase, que la va. X tiene una distribución discreta con fmp f (x) y se desea aproximar esta distribución por una distribución continua con fdp g(x). Consideremos por simplicidad solamente una distribución discreta para la que todos los valores posibles de X sean enteros. Si la fdp g(x) proporciona una buena aproximación a la distribución de X, entonces para cualquier par de enteros a, b se puede aproximar simplemente la probabilidad P (a ≤ X ≤ b) = b X f (x) (3.23) x=a por la integral Z b g(x) dx. (3.24) a Probabilidad y Estadı́stica Segundo Semestre 2005 93 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Esta sencilla aproximación tiene el siguiente inconveniente: aunque P (X ≥ a) y P (X > a) en general tendrán valores distintos para la distribución discreta, éstas probabilidades serán siempre iguales para la distribución continua. Otra forma de expresar este inconveniente es la siguiente: aunque P (X = x) > 0 para cualquier x entero que es un valor posible de X, esta probabilidad es necesariamente 0 con la fdp aproximada. La fmp de X se puede representar por un histograma, ó diagrama de barras. Para cada entero x, la probabilidad de que x se representa por el área de un rectángulo cuya base se extiende desde x − 1 2 hasta x + 1 2 y cuya altura es f (x). Entonces, el área del rectángulo cuya base está centrada en el entero x es simplemente f (x). Desde este punto de vista se puede observar que P (a ≤ X ≤ b), como se especifica en la ecuación (3.23), es la suma de la áreas de los rectángulos formados por las barras que representan la distribución discreta que están centrados en a, a + 1, . . . , b. La suma de estas áreas se aproxima con la integral Z b+ 21 a− 12 g(x) dx. (3.25) el ajuste la integral (3.24) a la integral (3.25) se llama corrección por continuidad. Si se utiliza la corrección por continuidad se determina que la probabilidad f (a) del entero a se puede aproximar como sigue, ³ 1´ 1 P (X = a) = P a − ≤ X ≤ a + 2 2 Z a+ 1 2 ≈ g(x) dx. (3.26) (3.27) a− 12 Análogamente, ³ 1´ P (X > a) = P (X ≥ a + 1) = P X ≥ a + 2 Z ∞ ≈ g(x) dx. a+ 12 Ejemplo 3.2.3. Continuación ejemplo último anterior Determinar usando la corrección por continuidad P (X ≤ 13) y comparar todas las aproximaciones hechas sobre esta probabilidad. Probabilidad y Estadı́stica Segundo Semestre 2005 94 Prof. Magister Osmar Vera Probabilidad y Estadı́stica 3.2.4. Distribución Beta La familia de distribuciones beta es una familia continua sobre (0, 1) indexada por dos parámetros. La fdp de la beta(α, β) es f (x | α, β) = 1 xα−1 (1 − x)β−1 , 0 < x < 1 α > 0 β > 0, B(α, β) (3.28) donde B(α, β) denota la función beta, Z B(α, β) = 1 xα−1 (1 − x)β−1 dx. 0 La función beta está relacionada con la función gamma a través de la siguientes identidad: B(α, β) = Γ(α)Γ(β) . Γ(α + β) (3.29) La (3.29) es muy usada al ocupar la función Beta, permitiendonos ciertas ventajas tomadas de la funció Gamma. En efecto, nunca trataremos directamente con la Beta, sino con (3.29) para todas las evaluaciones que hagamos. La distribucuı́n Beta, es una de las pocas distribuciones, entre las más conocidas que dan probabilidad 1 sobre un intervalo finito, aquı́ el intervalo es el (0, 1). De esta manera, la Beta es muy usada para modelas proporciones, las cuales, naturalmente caen entre 0 y 1. Serán ilustradas algunas de estas situaciones en el capı́tulo 4. Calculemos los momentos para esta distribución. Resolverlo es fácil por la forma de la fdp. Para n > −α se tiene EX n = = Z 1 1 xn xα−1 (1 − x)β−1 dx B(α, β) 0 Z 1 1 x(α+n)−1 (1 − x)β−1 dx. B(α, β) 0 Reconocemos la integral como el núcleo de una densidad beta(α + n, β), de donde E Xn = B(α + n, β) Γ(α + n)Γ(α + β) = . B(α, β) Γ(α + β + n)Γ(α) (3.30) Usando (3.10) y (3.30) con n = 1 y n = 2, podemos calcular la media y la varianza de la distribución beta(α, β) como sigue EX = Probabilidad y Estadı́stica Segundo Semestre 2005 α α+β y V ar X = 95 αβ (α + β)2 (α + β + 1) . Prof. Magister Osmar Vera Probabilidad y Estadı́stica Como los valores de α y β varı́an, la distribución beta toma diversas formas, estrictamente decrece (α = 1, β > 1), forma de U (α < 1, β < 1) ó es unimodal (α > 1, β > 1). El caso α = β la fdp es simétrica alrededor de 1/2 y varianza (4(2α + 1)−1 ). La fdp se vuelve más concentrada cuando α crece, pero sigue siendo simétrica. Finalmente, si α = β = 1, la distribución se reduce a una uniforme en (0,1), mostrando que la uniforme puede ser considerada un miembro de la familia beta. La beta está tambiés relacionada, a través de una transformación, con la distribución F , una distribución que juega un papel extremadamente importante en análisis estadı́stico. 3.2.5. Distribución Cauchy La distribución Cauchy, es una distribución simétrica y con forma de campana sobre (−∞, ∞) con fdp f (x | θ) = 1 1 , −∞ < x < ∞ , −∞ < θ < ∞. π (x − θ)2 (3.31) A los ojos, en principio, no parece tener grandes diferencias con la normal. Sin embargo existe una gran diferencia entre ambas. Ya hemos vista que la media de esta distribución no existe, o sea hemos probado que E | X |= ∞. Es fácil probar que la (3.31) es una fdp para todo θ. Ya que la E | X |= ∞, se sigue que esta no existen momentos para la distribución Cauchy, o sea que el valor absoluto de todos los momentos es ∞. En particular la fgm no existe.E | X |= ∞. El parámetro θ en no mide (3.31) el centro de la distribución; sino que representa la mediana. De donde, se sique que si una va. X tiene distribución Cauchy con parámetro θ, entonces P (X ≥ θ) = 21 , mostrando que θ es la mediana de la distribución. La distribución Cauchy juega un rol especial en estadı́stica teórica. Ella representa, más bien un caso extremo contra conjeturas que pueden ser probadas; es decir en otras palabras propiedades que todas las distribuciones cumplen en general no de dan para la Cauchy!!. Diriamos que es un caso patológico. Por ejemplo es común en la práctica calcular cocientes de observaciones, esto es cocientes de va.. Una sorpresa es el hecho que el cociente de dos Probabilidad y Estadı́stica Segundo Semestre 2005 96 Prof. Magister Osmar Vera Probabilidad y Estadı́stica normales estándar tiene distribución Cauchy; de donde el hecho de tomar cocientes nos puede llevar a distribucines enfermas!!. 3.2.6. Distribución Lognormal Si X es una va. cuyo logaritmo está normalmente distribuı́do (esto es, logX ∼ N (µ, σ 2 ), entonces se dice que X tiene una distribución lognormal. La fdp de X puede ser obtenida por una transformación de la fdp Normal usando el teorema de las transformacines, obteniendose 1 1 −(logx−µ)2 /(2σ2 ) f (x | µ, σ 2 ) = √ e , 0 < x < ∞, ∞ < µ < ∞, σ > 0 2π x (3.32) para la fdp de la lognormal. Los momentos de X pueden ser calculados directamete, usando (3.32), ó explotando su relación con la normal. E X = E elog X Y = log X ∼ N (µ; σ 2 )) = EY = eµ+(σ 2 /2) . La última igualdad se obtiene reorganizando la fgm de la distribución normal (tomar t = 1). Es posible usar una técnica similar para calcular E X 2 , y conseguir asi 2 2 V ar X = e2(µ+σ ) − e2µ+σ . La distribución lognormal, es en apariencia similar a la distribución gamma. Esta distribución es muy común cuando se aplican modelos, donde interesa la asimetrı́a a la derecha. 3.2.7. Distribución Doble Exponencial La distribución doble exponencial se forma reflejando la distribución exponencial alrededor de su media. La fdp está dada por f (x | µ, σ) = Probabilidad y Estadı́stica Segundo Semestre 2005 1 −|x−µ|/σ e , −∞ < x < ∞ , −∞ < µ < ∞ , σ > 0. 2σ 97 (3.33) Prof. Magister Osmar Vera Probabilidad y Estadı́stica La doble exponencial provee una distribución simétrica con colas pesadas (mucho más pesadas que la Normal), pero tiene todos sus momentos. La esperanza y la varianza son muy fáciles de calcular, ellas son EX =µ V ar X = 2σ 2 . y La doble exponencial no tiene forma de campana. En efecto, tiene un pico (dicho de manera más formal, un punto de no diferenciabilidad) en x = µ. Es muy importante recordarlo al tratar con esta distribución en forma analı́tica. Existen muchas otras distribuciones continuas que tienen uso en diferentes aplicaciones estadı́sticas, muchas de las cuales quizas apareceran a lo largo de estas notas. El material bibliográfico referente para las distribuciones usadas en estadı́stica, puede ser el trabajo de Johnson y Kotz (1969,1970a,1970b). 3.3. Familias Exponenciales Una familia de fdp ó de fmp se denomina familia exponencial, si puede ser expresada como f (x | θ) = h(x)c(θ) exp k ³X ´ wi (θ)ti (x) . (3.34) i=1 Aquı́ h(x) ≥ 0 y t1 (x), t2 (x), . . . , tk (x) son funciones real valoradas de las observaciones x (ó sea, ellas no pueden depender de θ), c(ϑ) > 0 y w1 (θ), w2 (θ), . . . , wk (θ) son todas funciones real valoradas positivas del parámetro vector valuado θ (ellas no pueden depender de x). Muchas de las familias introducidas en las secciones previas son familias exponenciales. Ellas incluyen las familias continuas (normal, gamma, beta, etc.) y las familias discretas (binomial, Poisson, binomial negativa, etc.) La forma especı́fica (3.34) implica que las familias exponenciales tienen muchas propiedades interesantes desde el punto de vista matemático. Pero aún más importante para un modelo estadı́stico, esta forma (3.34) implica muchas propiedades estadı́sticas interesantes y de fácil deducción a partir de la misma. Para verificar que una familia de fpd´s ó fmp´s es una familia exponencial, nosotros debemos Probabilidad y Estadı́stica Segundo Semestre 2005 98 Prof. Magister Osmar Vera Probabilidad y Estadı́stica identificar las funciones h(x), c(θ), wi (θ), ti (x) y mostrar que la familia tiene la forma (3.34). Esto se ilustra en los siguientes dos ejemplos Ejemplo 3.3.1. Mostrar que la familia bin(n,p), con n entero positivo, 0 < p < 1, es una familia exponencial. Ejemplo 3.3.2. Sea f (x | µ, σ 2 ) la familia de densidades N (µ, σ 2 ), donde θ = (µ, σ) −∞ < x < ∞ σ > 0. Mostrar que esta es una familia exponencial. Probabilidad y Estadı́stica Segundo Semestre 2005 99 Prof. Magister Osmar Vera

CapIII.pdf

Productos

Apoyo

CapIII.pdf

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib