Capı́tulo 3 Distribuciones de Familias comunes Distribuciones estadı́sticas son usadas para modelar poblaciones. Nosotros usualmente trataremos con familias de distribuciones, en vez de con una simple distribución. Esas familias son indexadas por uno o más parámetros, lo cual nos permite variar ciertas caracterı́sticas de la distribución. Por ejemplo, podemos especificar que la distribución Normal es una elección de un modelo razonable para una población particular, pero no podemos especificar precisamente la media; entonces trataremos con una familia paramétrica, la normal con media µ, donde este es un parámetro no especificado −∞ < µ < ∞. En este capı́tulo serán catalogadas algunas de las muchas distribuciones estadı́sticas, algunas de las cuales ya hemos tratado previamente. Para cada una de las distribuciones que describamos, daremos su media y su varianza, y algunas otras descripciones adicionales ó medidas que pudieran agregar comprensión. También se indicará alguna aplicación tı́pica de esas distribuciones, e interrelaciones adicionales. 3.1. Distribuciones discretas Una va. X se dice tiene una distribución discreta, si su rango; e.d. el espacio muestral es numerable. En la mayorı́a de las situaciones, la va. es entero-positiva valuada. 75 Probabilidad y Estadı́stica 3.1.1. Distribución uniforme discreta Una va. X tiene distribución uniforme discreta (1, N ), si P (X = x | N ) = 1 , N x = 1, 2, . . . , N (3.1) donde N es un entero especificado. Esta distribución pone igual masa sobre cada uno de los resultados 1, 2, . . . , N . Una cuestión de Notación Cuando estamos tratando con distribuciones paramétricas, como será en la mayorı́a de los casos, la distribución depende de los parámetros. Con la idea de enfatizar este hecho, y de mantener visibles los parámetros, los escribiremos en la fmp precedido por un ”|”(dado). Esta misma convención también será usada con la fdp, la fda, la esperanza, y otros casos donde pudiera ser necesario. Cuando no haya posibilidad de confusión, los parámetros pueden ser omitidos para no desordenar tanto la notación. Calculemos ahora la media y la varianza de X. Entonces EX = N X xP (X = x | N ) = x=1 N X x=1 x 1 1 N (N + 1) N +1 = = N N 2 2 y 2 EX = N X 2 x P (X = x | N ) = x=1 N X x=1 x2 1 1 N (N + 1)(2N + 1) (N + 1)(2N + 1) = = N N 2 2 y ası́, V ar X = E X 2 − (E X)2 = = (N + 1)(2N + 1) ³ N + 1 ´2 − 2 2 (N + 1)(N − 1) . 2 Esta distribución puede ser generalizada, a un espacio muestral en cualquier rango de enteros, N0 , N0 + 1, . . . , N1 , con fmp P (X = x | N0 , N1 ) = 1/(N1 − N0 + 1). 3.1.2. Distribución Hipergeométrica La distribución hipergeométrica tiene muchas aplicaciones en muestreo de poblaciones finitas. Es mejor para su comprensión pensarla en el ejemplo clásico de un modelo de urna. Probabilidad y Estadı́stica Segundo Semestre 2005 76 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Supongamos tenemos una urna con N bolillas iguales, salvo por el color, es decir, hay M rojas y N − M verdes. K de tales bolillas son seleccionadas aleatoriamente (se toman una a una de la urna, sin regresarla a la misma; se trata de un caso de muestreo sin reemplazo). ¿Cuál es la probabilidad que exactamente x de las bolillas sean rojas?. El número total de muestras de medida K que pueden ser seleccionadas de un total de ¡N ¢ . Se requiere que x de tales bolillas sean rojas, lo cual puede ser realizado de N es K ¡M ¢ ¡M −N ¢ formas, dejando x K−x caminos para elegir las K − x restantes que no son rojas. Ası́, denotaremos por X la va. que mide el número rojas en la muestra de tamaño K, entonces X tiene distribución hipergeométrica dada por ¡M ¢¡N −M ¢ x P (X = x | N, N, K) = , ¡NK−x ¢ x = 0, 1, . . . , K. (3.2) K Note que hay implı́cita en (3.2), un supuesto adicional sobre el rango de X. Los coeficientes ¡ ¢ binomiales de la forma nr , han sido definidos solamente si n ≥ r, y ası́ el rango de x está adicionalemente restringido por el siguiente par de inecuaciones M ≥x y N − M ≥ K − x, las cuales pueden ser combinadas como M − (N − K) ≤ x ≤ M. En muchos casos K es pequeño comparado con N y M , ası́ el rango 0 ≤ x ≤ K estará contenido en el rango último anterior dado para x, y por lo tanto será apropiado. La fórmula para la función de probabilidad hipergeométrica es difı́cil de tratar. En efecto no es trivial verificar que K X P (X = x) = x=0 K X ¡M ¢¡N −M ¢ x=0 K x ¡NK−x ¢ = 1. El caso de la distribución hipergeométrica, ilustra la dificultad estadı́stica de tratar con poblaciones finitas (finito N ). La media de la distribución hipergeométrica está dada por EX = K X x=0 Probabilidad y Estadı́stica Segundo Semestre 2005 ¡M ¢¡N −M ¢ x x ¡NK−x ¢ K 77 = K X ¡M ¢¡N −M ¢ x=1 K x . ¡NK−x ¢ Prof. Magister Osmar Vera Probabilidad y Estadı́stica (el sumando es 0 en x = 0). Para evaluar estas expresiones, usamos las siguientes identidades, µ ¶ µ ¶ M M −1 x = M , x x−1 µ ¶ µ ¶ N N N −1 = , K K K −1 y obtener EX = K X M x=1 ¡M −1¢¡N −M ¢ x−1 ¡ K−x ¢ N N −1 K K−1 K KM X = N x=1 ¡M −1¢¡N −M ¢ x−1 ¡N −1K−x ¢ K−1 . Es posible reconocer la segunda suma anterior como la suma de las probabilidades de otra distribución hipergeométrica basada en valores de parámetros N −1, M −1, y K −1. Luego esa suma vale 1. Finalmente se tiene que EX = KM . N En forma similar, pero con más labor, es posible establecer que V ar X = KM ³ (N − M )(N − K) ´ . N N (N − 1) Ejemplo 3.1.1. La biblioteca de una escuela de estudiantes no graduados tiene 20 ejemplares de cierto tipo de texto de introducción a la economı́a, de los cuales 8 son primeras impresiones y 12 son segundas impresiones (que contienen correcciones de algunos pequeños errores que aparecieron en la primera edición). El instructor del curso ha solicitado que 5 ejemplares sean puestos en reserva de 2 horas. Si los ejemplares se seleccionan en una forma por completa al azar, de modo que cada subconjunto de tamaño 5 tenga la misma probabilidad de ser seleccionado, ¿cuál es la probabilidad de que x (x = 0, 1, 2, 3, 4ó 5) de los seleccionados sean segundas impresiones? Ejemplo 3.1.2. Cinco ejemplares de una población animal considerados en vı́a de extinción en cierta región han sido atrapados, marcados y puestos en libertad para que se mezclen en la población. Después de tener la oportunidad de mezclarse, se seleccionó una muestra aleatoria de 10 de estos animales. Sea X = número de animales marcados de la segunda muestra . Si hay en realidad 25 animales de este tipo en la región. ¿Cuál es la probabilidad de que (a) halla dos marcados en la muestra? Probabilidad y Estadı́stica Segundo Semestre 2005 78 Prof. Magister Osmar Vera Probabilidad y Estadı́stica (b) halla a lo sumo dos marcados en la muestra? (c) Determine la media y la varianza de X. 3.1.3. Distribución Binomial La distribución binomial, una de las distribuciones discretas más usadas, está basada sobre la idea de una ensayo de Bernoulli. Un ensayo de Bernoulli es un experimento con dos, y solamente dos, resultados posibles. Una va. tiene una distribución Bernoulli(p) si 1 con probabilidad p X= 0 ≤ p ≤ 1. (3.3) 0 con probabilidad 1 − p El valor X = 1 es a menudo tomado como un ”éxito p se refiere a la probabilidad de que 2 ocurra el éxito. El valor X = 0 es tomado como una ”falla”. También es posible realizar la siguiente interpretación de un ensayo de Bernoulli, si consideremos un evento A ⊆ Ω con probabilidad p, X = IA es una variable discreta con P (X = 1) = p, P (X = 0) = 1 − p. Calculemos con estas dos interpretaciones la media y la varianza de esta va. E X = E(IA ) = 1p + 0(1 − p) = p, V ar X = (1 − p)2 p + (0 − p)2 (1 − p) = p(1 − p). Muchos experimentos pueden ser modelados por una secuencia de ensayos de Bernoulli, tales como el lanzamiento de monedas, elección de candidatos polı́ticos, incidencia de una enfermedad, etc. Si con n indicamos la cantidad de ensayos de Bernoulli que son realizados, definimos los eventos Ai = {X = 1 en el i-ésimo ensayo}, i = 1, 2, . . . , n. Si asumimos que los eventos A1 , A2 , . . . , An representan una colección de eventos independientes (como es el caso del lanzamiento de una moneda), es fácil encontrar la distribución del número total de éxitos en n ensayos. Definamos la va. Y por Y = número total de éxitos en n ensayos. Probabilidad y Estadı́stica Segundo Semestre 2005 79 Prof. Magister Osmar Vera Probabilidad y Estadı́stica El evento {Y = y} ocurrirá solamente si, exactamente y de los eventos A1 , A2 , . . . , An ocurren, y n − y de ellos no ocurren. Un resultado particular de n ensayos (un particular ordenamiento de ocurrencias y no-ocurrencias) de los n ensayos de Bernoulli podrı́a ser A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ Acn−1 ∩ An . Este tiene probabilidad de ocurrrencia P (A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ Acn−1 ∩ An ) = pp(1 − p) . . . . . . p(1 − P ) = py (1 − p)n−y , donde nosotros hemos usado la independencia de los Ai s en este cálculo. Note que el cálculo no depende sobre cuales de los Ai s ocurre, solamente que algún conjunto de y de ellos ocurra. Poniendo todo esto junto, vemos que una secuencia particular de n ensayos con ¡ ¢ exactamente y éxitos tiene probabilidad py (1 − p)n−y de ocurrencia; ya que hay ny de tales secuencias (el número de ordenamientos de y unos y de (n − y) ceros), se tiene P (Y = y | n, p) = µ ¶ n y e Y es llamada una variable aleatoria Bin(n,p). Y puede ser definida en forma equivalente del siguiente modo: como una secuencia de n idénticas, e independientes ensayos de Bernoulli, cada una con éxito p y fracaso 1 − p, definiendo las variables X1 , X2 , . . . , Xn por 1 con probabilidad p Xi = 0 con probabilidad 1 − p 0 ≤ p ≤ 1. Entonces la va. Y = n X Xi i=1 tiene distribución Bin(n, p). Análogamente, usando funciones indicadoras, Y podrı́a escribirse como Y = n X IAi , i=1 y por lo tanto toda va. binomial se puede escribir como una suma de indicadoras. Hemos ya obtenido tanto la esperanza, la varianza y la fgm para una va. binomial. Para completar, afirmemos entonces que si X ∼ Bin(n, p) se tiene Probabilidad y Estadı́stica Segundo Semestre 2005 80 Prof. Magister Osmar Vera Probabilidad y Estadı́stica E X = np , V ar X = np(1 − p) , y su fgm es MX (t) = [pey + (1 − p)]n . Ejemplo 3.1.3. A cada una de seis personas que toman refresco cola, seleccionadas al azar, se les da un vaso que contiene refresco de cola S y uno que contiene refresco de cola F. Los vasos son idénticos en apariencia excepto por un código que se encuentra en el fondo para identificar la marca. Supongamos que en realidad no hay preferencia entre las personas que beben refresco de cola para preferir entre una marca u otra. (a) Determine la probabilidad de que exactamente tres prefieran la marca de cola S (b) Determine la probabilidad de que por lo menos tres personas prefieran la marca de cola S. (c) Calcule la probabilidad de que a lo suma 1 prefiera la marca de cola S (d) Calcule la E X, V ar X, σX . Ejemplo 3.1.4. Suponga que el 20 % de todos los ejemplares de un texto en particular fallan en una prueba de resistencia a la encuadernación. Si X es el número entre 15 ejemplares seleccionados al azar que fallan a la prueba. (a) ¿Qué distribución sigue X? (b) Determine la probabilidad de que a lo sumo 8 fallen a la prueba (c) ¿Cuál es la probabilidad de que exactamente 8 fallen a la prueba?, y ¿la probabilidad de que por lo menos 8 fallen a la prueba? (d) Halle la probabilidad de que entre 4 y 7 fallen a la prueba. (e) Determine la media y la varianza de X. Ejemplo 3.1.5. Un fabricante de equipos electrónicos argumenta que a los sumo el 10 % de sus unidades de fuentes de alimentación necesitan reparación durante el perı́odo de garantı́a. Probabilidad y Estadı́stica Segundo Semestre 2005 81 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Para investigar esto, técnicos de un laboratorio de pruebas compran 20 unidades y las someten a pruebas aceleradas para simular su uso durante el perı́odo de garantı́a. Denotemos por p la probabilidad de que una fuente de alimentación necesita reparación durante el perı́odo (la proporción de todas las unidades que necesitan reparación). Los técnicos de laboratorio deben determinar si los datos resultantes del experimento apoyan el argumento de que p ≤ 0,10. 3.1.4. Distribución de Poisson La distribución de Poisson es una distribución discreta ampliamente aplicada, y puede servir como un modelo de un número diferente de experimentos. Por ejemplo, si estamos modelando un fenómeno en el cual estamos esperando alguna ocurrencia (tales como esperando un ómnibus, esperando que lleguen clientes a la ventanilla de un banco), el no de ocurrencias en un intervalo de tiempo dado puede ser muchas veces modelado por la distribución de Poisson. Uno de los supuestos básicos sobre los cuales esta distribución se construye, es que, para pequeños intervalos de tiempo, la probabilidad de un arribo es proporcional a la medida del tiempo esperado. Esto lo hace un modelo razonable para situaciones como las que indicamos más arriba. Por ejemplo, esto hace razonable asumir que en un largo tiempo de espera, es más probable que un cliente entre al banco. Otro área de aplicación es en distribuciones espaciales, donde, por ejemplo, la Poisson puede ser empleada para modelar la distribución del estallido de una bomba en un area, o la distribución de peces en un lago. La distribución de Poisson tiene sólo un parámetro, λ, algunas veces llamado parámetro de intensidad. Una va. X que toma valores enteros no negativos, tiene una distribución Po(λ) si P (X = x | λ) = Para ver que P∞ x=0 e− λλx , x! x = 0, 1, . . . . . . (3.4) P (X = x | λ) = 1, debemos ocupar la expansión en serie de Taylor de ey , ey = ∞ X yi . y! i=0 Probabilidad y Estadı́stica Segundo Semestre 2005 82 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Ası́ ∞ X P (X = x | λ) = e −λ x=0 ∞ X λx = e−λ eλ = 1 x! x=0 La media de X se puede ver fácilmente, haciendo EX = ∞ X x e−λ λx x! x e−λ λx x! x=0 = ∞ X x=1 = λe−λ = λe−λ ∞ X x=1 ∞ X y=0 λx−1 (x − 1)! λy y! sustituyendo y = x − 1 = λ. Cálculos similares mostrarán que V ar X = λ, Ası́ el parámetro λ es el mismo tanto para la media como para la varianza de la distribución Poisson. También puede ser obtenida la fgm usando argumentos de cálculos análogos, siendo MX (t) = eλ(e t −1) . Ejemplo 3.1.6. Si X es el número de la fallas en la superficie de un calentador de cierto tipo seleccionado al azar. Suponga que X tiene una distribución de Poisson con λ = 5. Determine: (a) La probabilidad de que tenga exactamente dos fallas (b) La probabilidad de que un calentador contenga un máximo de dos fallas Ejemplo 3.1.7. Supongamos que llegan pulsos al contador con una tasa promedio de seis por minuto, supongamos α = 6. Para hallar la probabilidad de que en un intervalo de 0.5 min se reciba por lo menos un pulso, observe que el nro. de pulsos en tal intervalo tiene una distribución de Poisson con parámetro λ = αt = 6(0,5). Si X representa el número de pulsos recibidos en el intervalo de 30 segundos. Determine la probabilidad de que reciba más de una llamada. Probabilidad y Estadı́stica Segundo Semestre 2005 83 Prof. Magister Osmar Vera Probabilidad y Estadı́stica 3.1.5. Distribución Binomial Negativa La distribución Binomial cuenta el número de éxitos en un número prefijado de ensayos de Bernoulli. Supongamos que, en cambio, contamos el número de ensayos de Bernoulli requeridos para conseguir un número prefijado de éxitos. Esta última formulación nos anticipa la distribución binomial negativa. En una secuencia de ensayos independientes de Bernoulli(p), sea la va. X, que denota el ensayo para el cual el r-ésimo éxito ocurre, donde r es un entero prefijado. Entonces µ ¶ x−1 r P (X = r | r, p) = p (1 − p)x−r , r−1 x = r, r + 1, . . . (3.5) y diremos que X tiene una distribución binomial negativa (r,p). La obtención de (3.5) se sigue rápidamente de la distribución binomial. El evento {X = x} puede ocurrir solamente si hay exactamente r − 1 éxitos en los primeros x − 1 ensayos, y un éxito en el ensayo x. La probabilidad de r − 1 éxitos en x − 1 ensayos es la probabilidad ¡ ¢ r−1 binomial x−1 (1 − p)x−r y con probabilidad p hay un éxito en el ensayo x. Multiplir−1 p cando esas probabilidades se llega a la igualdad (3.5). La distribución binomial negativa es muchas veces definida en términos de la va. Y = número de fracasos antes del r-ésimo éxito. Esta formulación es estadı́sticamente equivalente a la dada antes en términos de X = ensayos en los cuales el r-ésimo éxito ocurre, en consecuencia Y = X − r. Usando la relación entre y y X, la forma alternativa para la distribución binomial negativa es µ ¶ r+y+1 r P (Y = y) = p (1 − p)y , y y = 0, 1, . . . . . . (3.6) A menos que sea notado, cuando nos hagamos referencia a la distribución binomial negativa(r, p) usaremos la fmp (3.6). La distribución binomial negativa, tiene ese nombre de la relación µ ¶ µ ¶ r+y+1 (−r)(−r − 1)(−r − 2) . . . (−r − y + 1) y −r = (−1) = (−1)y , y y y(y − 1)(y − 2) . . . 2,1 Probabilidad y Estadı́stica Segundo Semestre 2005 84 Prof. Magister Osmar Vera Probabilidad y Estadı́stica la cual es, en efecto, la definición para un coeficiente binomial con enteros negativos (ver Feller (1968) para un tratamiento con mayor profundidad). Sustituyendo en (3.6), se obiene µ ¶ y −r P (Y = y) = (−1) pr (1 − p)y , y = 0, 1, . . . . . . y la cual muestra un parecido muy llamativo con la distribución binomial. P El hecho que ∞ y=0 P (Y = y) = 1 no es fácil de verificar, pero proviene de una extensión del Teorema del Binomio, extensión que incluye exponentes negativos. No expondré esto aquı́. Una excelente exposición de este hecho lo puede encontrar en Feller (1968). La media y la varianza de Y puede ser calculada usando técnicas similares a las usadas para la distribución binomial: EY µ ¶ ∞ X r+y+1 r = y p (1 − p)y y y=0 ∞ X (r + y − 1)! pr (1 − p)y (y − 1)!(r − 1)! y=1 µ ¶ ∞ X r+y+1 r = r p (1 − p)y . y−1 = y=1 Ahora escribimos z = y − 1, y la suma se transforma en µ ¶ ∞ X r+z r EY = r p (1 − p)z+1 z z=0 ¶ ∞ µ (1 − p) X (r + 1) + z − 1 r+1 p (1 − p)z , = r p z z=0 este último sumando se corresponde con la fmp de una binomial negativa, de donde EY =r (1 − p) p Un cálculo similar mostrará que V ar Y = r (1 − p) . p2 La familia de la distribución binomial negativa incluye a la Poisson como un caso lı́mite. Si r −→ ∞ y p −→ 1 tal que r(1 − p) −→ λ, 0 < λ < ∞, entonces EY V ar Y (1 − p) −→ λ, p (1 − p) = r −→ λ, p2 = r lo cual se corresponde con la media y la varianza de la Poisson. Probabilidad y Estadı́stica Segundo Semestre 2005 85 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Ejemplo 3.1.8. Un pediatra desea conseguir 5 parejas, cada una de las cuales espera a su primer hijo, para que participen en un régimen de nacimiento natural. Sea p = P (una pareja seleccionada al azar acceda a participar). Si p = 0,2, ¿cuál es la probabilidad de que se le pida a 15 parejas que participen antes de encontrar 5 que accedan?. Esto es, si S={accede a participar}, ¿cuál es la probabilidad de que ocurran 10 fallas antes del quinto éxito?. 3.1.6. Distribución Geométrica La distribución geométrica es la más simple de las distribuciones, y es un caso especial de la distribución binomial negativa. Si se hace r = 1 en (3.5) tenemos P (X = x | p) = p(1 − p)x−1 , x = 1, 2, . . . la cual define la fmp de una variable aleatoria X geométrica con probabilidad de éxito p. X puede ser interpretada como el ensayo para el cual el primer éxito ocurre. Ası́, diremos P ”esperando el primer éxito”. El hecho que ∞ x=1 P (X = x) = 1 se sigue de la propiedad de series geométricas. Para cualquier a tal que | a |< 1, ∞ X ax−1 = x=1 1 , 1−a la cual ya ha sido probada anteriormente. La media y la varianza de X puede ser calculada usando las formulas de la binomial negativa y escribiendo X = Y + 1 para obtener E X = EY + 1 = 1 p y V ar X = 1−p . p2 La distribución geométrica tiene una propiedad interesante conocida como ”pérdida de memoria”. Para enteros s > t, esto significa que P (X > s | X > t) = P (X > s − t); (3.7) Esto significa que la distribución geométrica olvida lo que ha ocurrido. Probabilidad y Estadı́stica Segundo Semestre 2005 86 Prof. Magister Osmar Vera Probabilidad y Estadı́stica 3.2. Distribuciones Continuas En esta sección discutiremos algunas de las familias de distribuciones continuas más comunes, aquellas que tienen nombres bien conocidos. Las distribuciones mencionadas aquı́ no constituyen todas las distribuciones usadas en estadı́stica; pues además como vimos en secciones anteriores, cualquier función nonegativa, e integragrable puede ser transformada en una fdp. 3.2.1. Distribución Uniforme La distribución uniforme continua está definida de manera tal que se extiende masa uniformemente sobre un intervalo [a, b]. Su fdp está dada por f (x | a, b) = Es fácil demostrar que Rb a 0 si x ∈ [a, b] (3.8) en otro caso f (x) dx = 1. También se tiene Z b x a+b dx = b−a 2 a+b 2 (x − 2 ) (b − a)2 dx = . b−a 12 EX = a Z b V ar X = a 3.2.2. 1 b−a Distribución Gamma La familia de distribuciones gamma es una familia flexible de distribuciones sobre [0, ∞]. Esta familia puede ser derivada por la siguiente construcción. Sea α una constante positiva, la integral Z ∞ tα−1 e−t dt 0 es finita. Si α es un entero positivo la integral puede ser expresada en forma cerrada, en otro caso no es posible. En cualquier caso, su valor define la función gamma, Z Γ(α) = ∞ tα−1 e−t dt. (3.9) 0 Probabilidad y Estadı́stica Segundo Semestre 2005 87 Prof. Magister Osmar Vera Probabilidad y Estadı́stica La función gamma satisface muchas relaciones muy usadas, en particular Γ(α + 1) = αΓ(α) , α > 0, (3.10) la cual puede ser verificada utilizando integración por partes. Combinando (3.9) y (3.10) verificando el hecho que Γ(1) = 1, se tiene para cualquier entero n > 0, Γ(n) = (n − 1)!. (Otro caso especial muy usado, que veremos en breve es: Γ( 12 ) = (3.11) √ π.) Las expresiones (3.10) y (3.11) dan relaciones recursivas para la función gamma, que hacen más fácil su cálculo. Ya que la integral en (3.9) es positiva, inmediatamente se sigue que f (t) = tα−1 e−t , Γ(α) 0<t<∞ (3.12) es una fdp. La familia gamma completa, sin embargo, tiene dos parámetros, y puede ser derivada por cambio de variables para conseguir la fdp de la va. X = βT en (3.12), donde β es una constante positiva. Al hacer esto, conseguimos la familia gamma(α, β), f (x) = 1 xα−1 e−x/β , 0 < x < ∞ , α > 0 , β > 0. Γ(α)β α (3.13) El parámetro α es conocido como el parámetro de forma, ya que es el que más influencia tiene en el pico de la distribución, mientras que β es llamado el parámetro de escala, ya que su influencia está sobre la cuan abierta o cerrada es la distribución. Hemos ya probado que la media de la distribución es 1 EX = Γ(α)β α Z ∞ x, xα−1 e−x/β dx. (3.14) 0 Para evaluar (3.14), note que el integrando es el núcleo de una fdp gamma(α + 1, β). De la (3.13) sabemos que para α, β > 0, Z ∞ xα−1 e−x/β dx = Γ(α)β α , (3.15) 0 Probabilidad y Estadı́stica Segundo Semestre 2005 88 Prof. Magister Osmar Vera Probabilidad y Estadı́stica ası́ tenemos EX = = 1 Γ(α)β α αΓ(α)β Γ(α) Z ∞ x, xα−1 e−x/β dx = 0 1 Γ(α + 1)β α+1 Γ(α)β α = αβ. Note que para evaluar la E X hemos usado la técnica de reconocimiento de la integral como el núcleo de una fdp. Este hecho ya fue utilizado en múltiples oportunidades. La varianza de la distribución gamma(α, β ) se calcula de manera análoga. En particular, en el cálculo de E X 2 nos manejamos con el núcleo de una distribución gamma(α + 2, β). El resultado es V ar X = αβ 2 . En un ejemplo anterior hemos calculado la fgm de una distribución gamma(α, β). Ésta está dada por ³ MX (t) = 1 ´α . 1 − βt Ejemplo 3.2.1. Existe una interesante relación entre las distribuciones gamma y la Poisson. Si va. X es una gamma(α, β), donde α es un entero, entonces para cualquier x, P (X ≤ x) = P (Y ≤ α), (3.16) donde Y ∼ Poisson(x/β). La ecuación (3.16) puede ser establecida por sucesivas integraciones por partes. Ya que α es un entero, podemos escribir Γ(α) = (α − 1)! para conseguir Z x 1 P (X ≤ x) = tα−1 e−t/β dt (α + 1)β α 0 hh ix Z x i 1 (α−1) β/t α−2 −t/β = − t β − t + (α − 1)t βe dt , (α + 1)β α 0 0 hemos usado la integración por partes, sustituyendo u = tα−1 , dv = e−t/β dt. Continuando con la evaluación de la probabilidad, tenemos P (X ≤ x) = = Z x −1 1 α−1 −x/β x e + tα−2 βe−t/β dt (α − 1)!β α−1 (α − 2)!β α−1 0 Z x 1 tα−2 βe−t/β dt − P (Y = α − 1), (α − 2)!β α−1 0 donde Y ∼ Poisson(x/β). Continuando de esta manera, es posible establecer (3.16). Probabilidad y Estadı́stica Segundo Semestre 2005 89 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Hay dos importantes casos especiales de distribución gamma. Si hacemos α = p/2, donde p es un entero, y β = 2, entonces la fdp de la gamma resulta f (x) = 1 x(p/2)−1 e−x/2 , 0 < x < ∞, Γ(p/2)2p/2 (3.17) la cual es la fdp de la chi cuadrado con p grados de libertad. La media, la varianza, y la fgm de la distribución chi cuadrado pueden todas se calculadas usando las fórmulas gamma derivadas previamente. La distribución chi cuadrado juega una papel importante en inferencia estadı́stica, especialmente cuando se muestrea de una distribución normal. Esto será estudiado con detalle más adelante. Otro caso especial importante proveniente de la distribución gamma se obtiene cuando se reemplaza α = 1. Ahora resulta, f (x | β) = 1 −x/β e , β 0 < x < ∞, (3.18) la fdp exponencial con parámetro de escala β. Su media y su varianza fueron calculadas en ejemplos anteriores. La distribución exponencial puede ser usada para modelar tiempos de vida, análogo al uso de la distribución geométrica en el caso discreto. Otra distribución relacionada con la exponencial y con la familia gamma es la distribución Weibull. Si X ∼ Exp(β), entonces Y = X 1/γ tiene una distribución Weibull(γ, β). fY (y | γ, β) = γ γ−1 yγ /β y e , β 0 < y < ∞, γ > 0 , β > 0. (3.19) La distribución Weibull juega un rol extremadamente importante en el análisis de tiempo de fracaso (ver Kalbfleidch and Prentice (1980)para un tratamiento de este tópico). La Weibull en particular es muy usada para modelar funciones de riesgo. 3.2.3. Distribución Normal La distribución Normal (muchas veces llamada Distribución gaussiana juega un rol central a lo largo de toda la estadı́stica. Existen tres grandes razones para ello. Primero, la Probabilidad y Estadı́stica Segundo Semestre 2005 90 Prof. Magister Osmar Vera Probabilidad y Estadı́stica distribución Normal y las distribuciones asociadas con ella, son muy tratables analı́ticamente (aunque no lo parezca con una primera mirada). Segundo, la distribución normal tiene una forma de campana familiar, cuya simetrı́a la hace elegible para modelar un sin fin de poblaciones. Aunque hay muchas otras distribuciones que tienen forma de campana, pero no poseen la tratabiliad analı́tica de la normal. Tercero, existe el Teorema Central del Lı́mite (más adelante se verá con detalle) el cual muestra que bajo algunas condiciones, la distribución normal puede ser usada para aproximar una gran variedad de distribuciones en grandes muestras. La distribución normal tiene dos parámetros, usualmente anotados por µ y σ 2 , las cuales son su media y su varianza. La fdp de la distribución Normal con media µ y varianza σ 2 (usualmente anotada N (µ; σ 2 )) está dada por, 1 2 2 e−(x−µ) /(2σ ) , −∞ < x < ∞. f (x | µ, σ 2 ) = √ 2πσ (3.20) Si X ∼ N (µ; σ 2 ), entonces la va. Z = (X −µ)/σ tiene distribución N (0, 1), también conocida como Normal estándar. Esto se establece fácilmente escribiendo ³ ´ P (Z ≤ z) = P X − µ)/σ ≤ z = P (X ≤ zσ + µ) Z zσ+µ 1 2 2 = √ e−(x−µ) /(2σ ) dx 2πσ −∞ Z z x−µ 1 2 e−t /2 dt, (sustituyendo t = = √ ) σ 2π −∞ mostrando que P (Z ≤ z) es la fda de la normal estándar. Lo último anterior muestra que todas las probabilidades normales puedes ser calculadas en términos de la normal estándar. Además, el cálculo de la media puede ser simplificado, calculándolo para la N (0, 1), y luego transformando para el caso de N (µ, σ 2 ). Por ejemplo, si Z ∼ N (0, 1), 1 EZ = √ 2π Z ∞ −∞ ze−z 2 /2 1 2 dz = − √ e−z /2 |∞ −∞ = 0 2π y ası́, si X ∼ N (µ, σ 2 ), se sigue que E X = E(µ + zσ) = µ + σE Z = µ. Probabilidad y Estadı́stica Segundo Semestre 2005 91 Prof. Magister Osmar Vera Probabilidad y Estadı́stica En forma análoga, se tiene que V ar Z = 1, y se prueba que V ar X = σ 2 . Ya hemos probado que (3.20) integra 1 sobre la recta real, o sea vimos, via integral doble que 1 √ 2π Z ∞ e−z 2 /2 dz = 1. −∞ Note que esta integral es simétrica alrededor del 0, lo cual implica que la integral sobre (−∞, 0) es igual a la integral sobre (0, ∞). Ası́ el problema se reducı́a a probar Z ∞ e −∞ Dijimos que la función e−z 2 /2 −z 2 /2 √ r 2π π dz = = . 2 2 (3.21) no tiene una antiderivada que puede ser escrita explı́citamente en términos de funciones elementales (esto es, en forma cerrada), por ello, no podemos resolver la integral en forma directa. Se resuelve vı́a una integral doble La integral (3.21) está relacionada con la función gamma; en efecto haciendo la sustitución w = 21 z 2 en (3.21) nosotros vemos que esta integral es Γ( 12 ). Si se es cuidadoso al conseguir las constantes correctas ,nosotros vemos que la sustitución propuesta implica ³1´ Z ∞ √ Γ = w−1/2 e−w dw = π. 2 0 (3.22) La distribución normal es un poco especial en el sentido, que sus dos parámetros, µ (la media) y σ 2 (la varianza), nos proveen una completa información exacta acerca de la forma y la ubicación de la distribución. Esta propiedad que tiene la distribución normal, no es sólo para esta fdp, pero está formada por una familia de fdp´s llamadas familias de localización y escala. Basta con resolver un elemental problema de cálculo para mostrar que la fdp normal (3.20) tiene un máximo en x = µ y puntos de inflexión (donde la curva cambia de cóncava a convexa) en x = µ±σ. Además la probabilidad contenida entre 1,2 ó 3 desviaciones estándar de la media es P (| X − µ |≤ σ) = P (| Z |≤ 1) = 0,6826 P (| X − µ |≤ 2σ) = P (| Z |≤ 2) = 0,9544 P (| X − µ |≤ 3σ) = P (| Z |≤ 3) = 0,9947 Probabilidad y Estadı́stica Segundo Semestre 2005 92 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Donde X ∼ N (µ, σ 2 ), Z ∼ N (0, 1) , y los valores numéricos provienen de una tabla de distribución normal. A menudo valores de dos dı́gitos son reportados, aunque no representan valores redondeados, se ocupan frecuentemente. Entre los muchos usos de la distribución Normal, uno de gran importancia es su uso como aproximación de otras distribuciones (los cuales son justificados por el Teorema central del Lı́mite). Por ejemplo, si X ∼ Bin(n, p), entonces E X = np y V ar X = np(1 − p), y bajo condiciones convenientes, la distribución de X puede ser aproximada con una va. normal con media µ = np y varianza σ 2 = np(1 − p). Las çondiciones convenientes”son que n debe ser grande y p no debe ser un valor extremo (ni estar cerca del 0, ni cerca del 1). Como es el caso de todas las aproximaciones no hay reglas absolutas, y para cada aplicación debe ser chequeada para decidir si la aproximación es buena para ese caso. Una regla conservativa que se sigue es que la aproximación será buena si min(np, n(1 − p)) ≥ 5. Ejemplo 3.2.2. Sea X ∼ Bin(25, 0,6). Aproximar X con una va. Y normal, y calcule la probabilidad de que X tome valores menores ó iguales que 13, y compare con el valor exacto. La aproximación puede ser grandemente mejorada, por una çorrección por continuidad”. Se describirá un método estándar para mejorar la calidad de la aproximación que se obtiene cuando se aproxima una probabilidad basada en una distribución discreta por una basada en una distribución continua. Supóngase, que la va. X tiene una distribución discreta con fmp f (x) y se desea aproximar esta distribución por una distribución continua con fdp g(x). Consideremos por simplicidad solamente una distribución discreta para la que todos los valores posibles de X sean enteros. Si la fdp g(x) proporciona una buena aproximación a la distribución de X, entonces para cualquier par de enteros a, b se puede aproximar simplemente la probabilidad P (a ≤ X ≤ b) = b X f (x) (3.23) x=a por la integral Z b g(x) dx. (3.24) a Probabilidad y Estadı́stica Segundo Semestre 2005 93 Prof. Magister Osmar Vera Probabilidad y Estadı́stica Esta sencilla aproximación tiene el siguiente inconveniente: aunque P (X ≥ a) y P (X > a) en general tendrán valores distintos para la distribución discreta, éstas probabilidades serán siempre iguales para la distribución continua. Otra forma de expresar este inconveniente es la siguiente: aunque P (X = x) > 0 para cualquier x entero que es un valor posible de X, esta probabilidad es necesariamente 0 con la fdp aproximada. La fmp de X se puede representar por un histograma, ó diagrama de barras. Para cada entero x, la probabilidad de que x se representa por el área de un rectángulo cuya base se extiende desde x − 1 2 hasta x + 1 2 y cuya altura es f (x). Entonces, el área del rectángulo cuya base está centrada en el entero x es simplemente f (x). Desde este punto de vista se puede observar que P (a ≤ X ≤ b), como se especifica en la ecuación (3.23), es la suma de la áreas de los rectángulos formados por las barras que representan la distribución discreta que están centrados en a, a + 1, . . . , b. La suma de estas áreas se aproxima con la integral Z b+ 21 a− 12 g(x) dx. (3.25) el ajuste la integral (3.24) a la integral (3.25) se llama corrección por continuidad. Si se utiliza la corrección por continuidad se determina que la probabilidad f (a) del entero a se puede aproximar como sigue, ³ 1´ 1 P (X = a) = P a − ≤ X ≤ a + 2 2 Z a+ 1 2 ≈ g(x) dx. (3.26) (3.27) a− 12 Análogamente, ³ 1´ P (X > a) = P (X ≥ a + 1) = P X ≥ a + 2 Z ∞ ≈ g(x) dx. a+ 12 Ejemplo 3.2.3. Continuación ejemplo último anterior Determinar usando la corrección por continuidad P (X ≤ 13) y comparar todas las aproximaciones hechas sobre esta probabilidad. Probabilidad y Estadı́stica Segundo Semestre 2005 94 Prof. Magister Osmar Vera Probabilidad y Estadı́stica 3.2.4. Distribución Beta La familia de distribuciones beta es una familia continua sobre (0, 1) indexada por dos parámetros. La fdp de la beta(α, β) es f (x | α, β) = 1 xα−1 (1 − x)β−1 , 0 < x < 1 α > 0 β > 0, B(α, β) (3.28) donde B(α, β) denota la función beta, Z B(α, β) = 1 xα−1 (1 − x)β−1 dx. 0 La función beta está relacionada con la función gamma a través de la siguientes identidad: B(α, β) = Γ(α)Γ(β) . Γ(α + β) (3.29) La (3.29) es muy usada al ocupar la función Beta, permitiendonos ciertas ventajas tomadas de la funció Gamma. En efecto, nunca trataremos directamente con la Beta, sino con (3.29) para todas las evaluaciones que hagamos. La distribucuı́n Beta, es una de las pocas distribuciones, entre las más conocidas que dan probabilidad 1 sobre un intervalo finito, aquı́ el intervalo es el (0, 1). De esta manera, la Beta es muy usada para modelas proporciones, las cuales, naturalmente caen entre 0 y 1. Serán ilustradas algunas de estas situaciones en el capı́tulo 4. Calculemos los momentos para esta distribución. Resolverlo es fácil por la forma de la fdp. Para n > −α se tiene EX n = = Z 1 1 xn xα−1 (1 − x)β−1 dx B(α, β) 0 Z 1 1 x(α+n)−1 (1 − x)β−1 dx. B(α, β) 0 Reconocemos la integral como el núcleo de una densidad beta(α + n, β), de donde E Xn = B(α + n, β) Γ(α + n)Γ(α + β) = . B(α, β) Γ(α + β + n)Γ(α) (3.30) Usando (3.10) y (3.30) con n = 1 y n = 2, podemos calcular la media y la varianza de la distribución beta(α, β) como sigue EX = Probabilidad y Estadı́stica Segundo Semestre 2005 α α+β y V ar X = 95 αβ (α + β)2 (α + β + 1) . Prof. Magister Osmar Vera Probabilidad y Estadı́stica Como los valores de α y β varı́an, la distribución beta toma diversas formas, estrictamente decrece (α = 1, β > 1), forma de U (α < 1, β < 1) ó es unimodal (α > 1, β > 1). El caso α = β la fdp es simétrica alrededor de 1/2 y varianza (4(2α + 1)−1 ). La fdp se vuelve más concentrada cuando α crece, pero sigue siendo simétrica. Finalmente, si α = β = 1, la distribución se reduce a una uniforme en (0,1), mostrando que la uniforme puede ser considerada un miembro de la familia beta. La beta está tambiés relacionada, a través de una transformación, con la distribución F , una distribución que juega un papel extremadamente importante en análisis estadı́stico. 3.2.5. Distribución Cauchy La distribución Cauchy, es una distribución simétrica y con forma de campana sobre (−∞, ∞) con fdp f (x | θ) = 1 1 , −∞ < x < ∞ , −∞ < θ < ∞. π (x − θ)2 (3.31) A los ojos, en principio, no parece tener grandes diferencias con la normal. Sin embargo existe una gran diferencia entre ambas. Ya hemos vista que la media de esta distribución no existe, o sea hemos probado que E | X |= ∞. Es fácil probar que la (3.31) es una fdp para todo θ. Ya que la E | X |= ∞, se sigue que esta no existen momentos para la distribución Cauchy, o sea que el valor absoluto de todos los momentos es ∞. En particular la fgm no existe.E | X |= ∞. El parámetro θ en no mide (3.31) el centro de la distribución; sino que representa la mediana. De donde, se sique que si una va. X tiene distribución Cauchy con parámetro θ, entonces P (X ≥ θ) = 21 , mostrando que θ es la mediana de la distribución. La distribución Cauchy juega un rol especial en estadı́stica teórica. Ella representa, más bien un caso extremo contra conjeturas que pueden ser probadas; es decir en otras palabras propiedades que todas las distribuciones cumplen en general no de dan para la Cauchy!!. Diriamos que es un caso patológico. Por ejemplo es común en la práctica calcular cocientes de observaciones, esto es cocientes de va.. Una sorpresa es el hecho que el cociente de dos Probabilidad y Estadı́stica Segundo Semestre 2005 96 Prof. Magister Osmar Vera Probabilidad y Estadı́stica normales estándar tiene distribución Cauchy; de donde el hecho de tomar cocientes nos puede llevar a distribucines enfermas!!. 3.2.6. Distribución Lognormal Si X es una va. cuyo logaritmo está normalmente distribuı́do (esto es, logX ∼ N (µ, σ 2 ), entonces se dice que X tiene una distribución lognormal. La fdp de X puede ser obtenida por una transformación de la fdp Normal usando el teorema de las transformacines, obteniendose 1 1 −(logx−µ)2 /(2σ2 ) f (x | µ, σ 2 ) = √ e , 0 < x < ∞, ∞ < µ < ∞, σ > 0 2π x (3.32) para la fdp de la lognormal. Los momentos de X pueden ser calculados directamete, usando (3.32), ó explotando su relación con la normal. E X = E elog X Y = log X ∼ N (µ; σ 2 )) = EY = eµ+(σ 2 /2) . La última igualdad se obtiene reorganizando la fgm de la distribución normal (tomar t = 1). Es posible usar una técnica similar para calcular E X 2 , y conseguir asi 2 2 V ar X = e2(µ+σ ) − e2µ+σ . La distribución lognormal, es en apariencia similar a la distribución gamma. Esta distribución es muy común cuando se aplican modelos, donde interesa la asimetrı́a a la derecha. 3.2.7. Distribución Doble Exponencial La distribución doble exponencial se forma reflejando la distribución exponencial alrededor de su media. La fdp está dada por f (x | µ, σ) = Probabilidad y Estadı́stica Segundo Semestre 2005 1 −|x−µ|/σ e , −∞ < x < ∞ , −∞ < µ < ∞ , σ > 0. 2σ 97 (3.33) Prof. Magister Osmar Vera Probabilidad y Estadı́stica La doble exponencial provee una distribución simétrica con colas pesadas (mucho más pesadas que la Normal), pero tiene todos sus momentos. La esperanza y la varianza son muy fáciles de calcular, ellas son EX =µ V ar X = 2σ 2 . y La doble exponencial no tiene forma de campana. En efecto, tiene un pico (dicho de manera más formal, un punto de no diferenciabilidad) en x = µ. Es muy importante recordarlo al tratar con esta distribución en forma analı́tica. Existen muchas otras distribuciones continuas que tienen uso en diferentes aplicaciones estadı́sticas, muchas de las cuales quizas apareceran a lo largo de estas notas. El material bibliográfico referente para las distribuciones usadas en estadı́stica, puede ser el trabajo de Johnson y Kotz (1969,1970a,1970b). 3.3. Familias Exponenciales Una familia de fdp ó de fmp se denomina familia exponencial, si puede ser expresada como f (x | θ) = h(x)c(θ) exp k ³X ´ wi (θ)ti (x) . (3.34) i=1 Aquı́ h(x) ≥ 0 y t1 (x), t2 (x), . . . , tk (x) son funciones real valoradas de las observaciones x (ó sea, ellas no pueden depender de θ), c(ϑ) > 0 y w1 (θ), w2 (θ), . . . , wk (θ) son todas funciones real valoradas positivas del parámetro vector valuado θ (ellas no pueden depender de x). Muchas de las familias introducidas en las secciones previas son familias exponenciales. Ellas incluyen las familias continuas (normal, gamma, beta, etc.) y las familias discretas (binomial, Poisson, binomial negativa, etc.) La forma especı́fica (3.34) implica que las familias exponenciales tienen muchas propiedades interesantes desde el punto de vista matemático. Pero aún más importante para un modelo estadı́stico, esta forma (3.34) implica muchas propiedades estadı́sticas interesantes y de fácil deducción a partir de la misma. Para verificar que una familia de fpd´s ó fmp´s es una familia exponencial, nosotros debemos Probabilidad y Estadı́stica Segundo Semestre 2005 98 Prof. Magister Osmar Vera Probabilidad y Estadı́stica identificar las funciones h(x), c(θ), wi (θ), ti (x) y mostrar que la familia tiene la forma (3.34). Esto se ilustra en los siguientes dos ejemplos Ejemplo 3.3.1. Mostrar que la familia bin(n,p), con n entero positivo, 0 < p < 1, es una familia exponencial. Ejemplo 3.3.2. Sea f (x | µ, σ 2 ) la familia de densidades N (µ, σ 2 ), donde θ = (µ, σ) −∞ < x < ∞ σ > 0. Mostrar que esta es una familia exponencial. Probabilidad y Estadı́stica Segundo Semestre 2005 99 Prof. Magister Osmar Vera