Capı́tulo 4 Funciones de Distribución 4.1. Variables Aleatorias Supongamos que tiramos tres volados (con una moneda honesta) y queremos calcular la probabilidad de que el número de soles sea k. Entonces, el experimento consiste en aventar tres volados, en donde en cada volado hay sólo dos posibles resultados, águila(a) o sol(s), ası́ nuestro espacio muestral serı́a: S = {(a, a, a), (a, a, s), (a, s, a), (s, a, a), (s, s, a), (s, a, s), (a, s, s), (s, s, s)} Para hacer las cosas más fáciles, definimos una variable X que contará el número de soles en los tres volados. De esta manera X ∈ {0, 1, 2, 3}. Y las probabilidades deseadas las calcuları́amos de la siguiente forma: P (X = 0) = P ({(a, a, a)}) = 1/8 P (X = 1) P (X = 2) = P ({(a, a, s)}) + P ({(a, s, a)}) + P ({(s, a, a)}) = 3/8 = P ({(s, s, a)}) + P ({(s, a, s)}) + P ({(a, s, s)}) = 3/8 P (X = 3) = P ({(s, s, s)}) = 1/8 Si vemos a X como función, su regla de asignación serı́a la siguiente: 0 = X({(a, a, a)}) 1 = X({(a, a, s)}) = X({(a, s, a)}) = X({(s, a, a)}) 2 = X({(s, s, a)}) = X({(s, a, s)}) = X({(a, s, s)}) 3 = X({(s, s, s)}) Como los valores que X toma dependen de un experimento aleatorio, y las probabilidades P (X = k) para k = 0, 1, 2, 3 se inducen a partir del experimento original. A X se le llama función a variable aleatoria. Concretamente una variable aleatoria se define como: Definición Una variable aleatoria (v.a.) X es una función que toma valores en S (el espacio muestral de algún experimento de interés) y los manda a R (o un subconjunto de R). ¿Pero por qué son importantes las variables aleatorias? Primero, porque es más fácil trabajar en R que en cualquier espacio muestral S y segundo, generalmente cuando se realiza un experimento, no nos interesan todos los detalles del mismo sino sólo los valores de algunas cantidades numéricas determinadas por estos resultados. Ası́, las variables aleatorias medirán o modelarán estas cantidades de interés. 1 4.2. FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA Carlos Erwin Rodrı́guez 4.2. Función de Distribución de una Variable Aleatoria 4.3. Tipos de Variables Aleatorias 4.3.1. Variables Aleatorias Discretas Una v.a. que toma un número finito o infinito numerable de valores, es conocida como v.a. discreta. Definición La función de masa de probabilidad (fmp) de una v.a. discreta X es: PX (X = x) para un número a lo más numerable de x’s Entonces para v.a. discretas la función de distribución se puede expresar de la siguiente forma: Definición Sea X una v.a. discreta, la función de distribución (o distribución acumulada) de X, se define como FX (x) X FX (x) = PX (X ≤ x) = PX (X = z) ∀ x ∈ R z≤x Es importante notar que esta función esta definida para toda x ∈ R, además, caracteriza por completo las probabilidades de una v.a., por lo cual existen tablas y paquetes estadı́sticos para calcularla. Un comentario muy importante es que en general para v.a. discretas PX (X < x) 6= PX (X ≤ x), entonces para calcular PX (X < x) lo haremos mediante PX (X < x) = PX (X ≤ x) − PX (X = x), otro cálculo importante es PX (a < X ≤ b) = FX (b) − FX (a) y para hacer PX (a ≤ X ≤ b) = FX (b) − FX (a) + PX (X = a) etc. 4.3.2. Variables Aleatorias Continuas Las v.a. continuas son aquellas que pueden tomar un número infinito no numerable da valores. Definición La función de densidad de probabilidad (fdp) de una v.a. continua X, es una función que satisface: Z x fX (t)dt ∀ x ∈ R FX (x) = ∞ Entonces por el Teorema Fundamental del Cálculo ∂ FX (x) = fX (x) ∂x De forma general se tiene que: PX (X ∈ B) = 2 Z B fX (t)dt (4.1) 4.4. VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS Entonces de 4.1 se sigue que PX (X = x) = Z Carlos Erwin Rodrı́guez x fX (t)dt = 0. Como consecuencia inmediata si X es una v.a. x continua y a ≤ b tenemos que: Z b fX (t)dt = PX (a < X < b) a 4.4. = PX (a < X ≤ b) = PX (a ≤ X < b) = PX (a ≤ X ≤ b) = FX (b) − FX (a) Variables Aleatorias Discretas y Continuas Para caracterizar de manera formal a las v.a discretas y continuas, tenemos la siguiente Definición Una v.a. X es continua si FX (x) es continua como función de x y es discreta si FX (x) es una función escalonada de x. Existen dos requerimientos para que una función pueda considerarse fdp o fmp, los cuales son consecuencia inmediata de los axiomas de Kolmogorov: Teorema 1 Una función fX (x) es fdp (o fmp) de una v.a. X, si y sólo si: fX (x) ≥ 0 ∀ x ∈ R. X x fX (x) = 1 (fmp) ó Z ∞ fX (x)dx = 1 (fdp) −∞ En lo subsecuente para indicar que la v.a. X sigue cierta distribución FX (x), lo haremos de las siguientes formas X ∼ fX (x), X ∼ FX (x) ó X ∼ nombre de la v.a. y parámetros. Al inicio de este capı́tulo mediante un ejemplo muy sencillo describimos cómo a partir de un experimento sencillo, lanzar tres monedas, se genera una v.a. y cómo las probabilidades de que la v.a. tome ciertos valores son inducidas por aquellas del experimento original. Este ejemplo sirvió de motivación, sin embargo se hizo informalmente. A continuación, con el mismo ejemplo mostraremos cómo se hace de manera formal. Nuestro espacio muestral era S = {(a, a, a), (a, a, s), (a, s, a), (s, a, a), (s, s, a), (s, a, s), (a, s, s), (s, s, s)} Y definimos X como la v.a. que cuenta el número de soles, supongamos que queremos calcular PX (X = 1) PX (X = 1) = P ({ω ∈ S : X(ω) = 1}) = P ({a, a, s}) + P ({a, s, a}) + P ({s, a, a}) Los ω’s son los elementos de S y X es la v.a. que cuenta el número de soles en cada elemento de S. Aquı́ se puede apreciar claramente que la v.a. X es una función que va de S a R y además que PX es una probabilidad inducida por P . Ahora calculemos PX (X ≤ 2) PX (X ≤ 2) = P ({ω ∈ S : X(ω) ≤ 2}) = P ({ω ∈ S : X(ω) = 0}) + P ({ω ∈ S : X(ω) = 1}) + P ({ω ∈ S : X(ω) = 2}) 3 4.5. VARIABLES ALEATORIAS DISTRIBUIDAS CONJUNTAMENTE Carlos Erwin Rodrı́guez Muchas veces es importante saber qué significa cada cosa, lo que el ejemplo anterior nos enseña es que el cuando calculamos PX (X = x), el conjunto {X = x} en realidad es {ω ∈ S : X(ω) = x} ∈ S, sin embargo por economı́a sólo se escribe {X = x}. Lo mismo sucede con PX (X ≤ x), pero ya debe tenerse la idea de cómo leer al conjunto {X ≤ x}. 4.5. Variables Aleatorias Distribuidas Conjuntamente En esta sección sólo se pretende fijar la idea de que para manejar más de una v.a. siempre se tiene que trabajar con una distribución o densidad conjunta y como ese es el objetivo, daremos sólo un breve vistazo a este tipo de probabilidades. Para hacerlo más sencillo nos enfocaremos sólo en el caso continuo. Para especificar la relación entre dos v.a. con continuas necesitamos una función fX,Y (x, y) definida para todo (x, y) ∈ R2 con la propiedad de que para cualquer conjunto C ∈ R2 Z Z fX,Y (x, y)dxdy PX,Y ((X, Y ) ∈ C) = {(x,y)∈C} A fX,Y (x, y) se le llama fdp conjunta de X y Y . Entonces para calcular Z Z PX,Y (X ∈ A, Y ∈ B) = fX,Y (x, y)dxdy B A Por lo tanto la función de distribución conjunta de X y Y es Z FX,Y (x, y) = PX,Y (X ≤ x, Y ≤ y) = x −∞ Z y fX,Y (t1 , t2 )dt1 dt2 −∞ Un conocimiento de la función de distribución conjunta permite, por lo menos en teorı́a, calcular la probabilidad de cualquier afirmación relacionada con los valores de X y Y . Y de hecho a partir de la densidad conjunta de X y Y podemos obtener las densidades marginales. Z x Z ∞ fX,Y (t1 , y)dt1 dy FX (x) = PX (X ≤ x) = PX,Y (X ≤ x, Y ∈ (−∞, ∞)) = −∞ −∞ La segunda igualdad se debe a que {X ≤ x} = {ω ∈ S : X(ω ≤ x)} = {ω ∈ S : X(ω ≤ x)} ∩ S = {ω ∈ S : X(ω ≤ x)} ∩ {ω ∈ S : Y (ω) ∈ (−∞, ∞)} = {X ≤ x} ∩ {Y ∈ (−∞, ∞)} Anteriormente vimos que fX (x) = ∂FX (x) , de donde se sigue que ∂x Z ∞ fX,Y (x, y)dy fX (x) = −∞ Entonces si conocemos la fdp conjunta de X y Y , también conocemos sus densidades marginales fX (x) y fY (y), sin embargo si conocemos las marginales no necesariamente conocemos la conjunta, excepto cuando las v.a. son independientes, este será un supuesto muy importante en inferencia estadı́stica y lo definiremos a continuación, pero antes tenemos que decir que cualquier fdp conjunta debe cumplir dos cosas 1. fX,Y (x, y) ≥ 0 ∀(x, y) ∈ R2 Z ∞Z ∞ fX,Y (x, y)dxdy = 1 2. −∞ −∞ 4 4.6. VARIABLES ALEATORIAS INDEPENDIENTES 4.6. Carlos Erwin Rodrı́guez Variables Aleatorias Independientes Se dice que las v.a. X y Y son independientes si para cualesquiera dos conjuntos A y B de números reales PX,Y (X ∈ A, Y ∈ B) = PX (X ∈ A)PY (Y ∈ B) Esto lleva a que X y Y son independientes si FX,Y (x, y) = PX,Y (X ≤ x, Y ≤ y) = PX (X ≤ x)PY (Y ≤ y) = FX (x)FY (y) y esto a su vez conduce a que fX,Y (x, y) = fX (x)fY (y). En este curso vamos a trabajar casi todo el tiempo con una n v.a. independientes, entonces de forma general tendremos que fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) . . . fXn (xn ) = n Y fXi (xi ) i=1 4.7. Esperanza y Varianza La esperanza o valor esperado de una v.a. X es simplemente su valor promedio, sin embargo hay que tomar en cuenta que es un promedio ponderado de acuerdo a la distribución de las probabilidades. A continuación vamos a definir el valor esperado de una v.a. X y lo haremos de forma general, para esto tenemos que tomar en cuenta que si X es una v.a. entonces g(X) también es una v.a. Definición El valor esperado o esperanza de una v.a. g(X), denotado por E[g(X)], es P P x g(x)fX (x) = x g(x)PX (X = x) si X es discreta R E(g(X)) = ∞ g(x)f (x) si X es continua X −∞ Por ejemplo si quisiéramos calcular E(X), sólo tenemos que tomar g(X) = X. Directamente de la definición de esperanza se desprende el siguiente Corolario 1 Si a y b son constantes, entonces E(aX + b) = aE(X) + b El corolario 1 facilita el cálculo de la esperanza de muchas variables aleatorias. Sin embargo, además de la esperanza de una v.a. X, también necesitamos una medida de su dispersión. Definición Si X es una v.a. discreta con µ = E(X), la varianza de X se define como V ar(X) = E((X − µ)2 ) La varianza nos da una medida del grado de dispersión de una distribución alrededor de su media. En la mayorı́a de los casos calcular la esperanza vı́a la definición suele ser complicado, sin embargo se puede probar que Corolario 2 V ar(X) = E(X 2 ) − E(X)2 5 4.7. ESPERANZA Y VARIANZA Carlos Erwin Rodrı́guez Corolario 3 Si a y b son constantes, entonces V ar(aX + b) = a2 V ar(X) En esta parte vamos a dar algunos resultados acerca de las esperanzas y varianzas de sumas de v.a. Si tenemos dos v.a. X y Y y queremos calcular E[g(X, Y )], en donde g(X, Y ) es cualquier función de X y Y , necesitaremos la siguiente Definición XX g(x, y)PX,Y (X = x, Y = y) si X y Y son discretas x yZ Z E[g(X, Y )] = ∞ ∞ g(x, y)fX,Y (x, y)dxdy si X y Y son continuas −∞ −∞ Una consecuencia inmediata de la definición es que E[X + Y ] = E[X] + E[Y ]. Esto se puede generalizar para n v.a. de la siguiente forma # " n n X X E[Xi ] E Xi = i=1 i=1 El siguiente paso es ver cómo se comporta la varianza de sumas de v.a. Para introducir este punto vamos a calcular V ar[2X]. V ar[2X] = 4V ar[X] 6= 2V ar[X] = V ar[X] + V ar[X] Entonces la varianza no se comporta de igual forma que la esperanza. Sin embargo, se puede probar que V ar[X + Y ] = V ar[X] + V ar[Y ] + 2Cov[X, Y ]. En donde Cov[X, Y ] = E[XY ] − E[X]E[Y ] La covarianza es una medida de asociación entre v.a. de hecho es posible demostrar que si Cov[X, Y ] > 0 si X crece, entonces Y crece y si Cov[X, Y ] < 0 si X crece, entonces Y decrece. Como hemos mencionado, un supuesto fundamental en el curso de inferencia estadı́stica es la independencia entre v.a. entonces, ¿qué pasa con la varianza de la suma X + Y si X y Y son independientes? pues primero hay que ver ¿qué pasa con la covarianza? Un hecho fácil de probar es que si X y Y son independientes entonces E[XY ] = E[X]E[Y ], de donde tenemos que Cov[X, Y ] = 0 y por lo tanto V ar[X + Y ] = V ar[X] + V ar[Y ]. El resultado de que si X y Y son independientes se tiene que E[XY ] = E[X]E[Y ] es tan importante que lo enunciaremos de forma general en el siguiente Teorema 2 Sean X1 , X2 , . . . , Xn v.a. independientes y sean g1 , g2 , . . . , gn funciones en R tales que g(xi ) es función sólo de xi para i = 1, 2, . . . , n. Entonces E[g1 (X1 )g2 (X2 ) · · · gn (Xn )] = E[g1 (X1 )]E[g2 (X2 )] · · · E[gn (Xn )] Una consecuencia inmediata de 4.2 es que para n v.a. independientes # " n n X X V ar[Xi ] V ar Xi = i=1 i=1 6 (4.2) 4.8. MOMENTOS Y FUNCIÓN GENERADORA DE MOMENTOS 4.8. Carlos Erwin Rodrı́guez Momentos y Función Generadora de Momentos Los momentos de una v.a. son una importante clase de esperanzas. Definición Para cada entero n, el n-ésimo momento de X será E[X n ]. De la definición podemos ver que el primer momento de X es E[X] y que con el segundo momento E[X 2 ] y el primer momento de X podemos calcular V ar[X]. Los momentos de una v.a. son tan importantes que estableceremos la siguiente Definición Sea X una v.a. con función de distribución FX (x). La función generadora de momentos (fgm) de X, denotada por mX (t), es mX (t) = E[etX ] siempre y cuando la esperanza exista para −h < t < h con h > 0. Para saber por qué a esta función se le llama fgm, enunciamos el siguiente Teorema 3 Si X tiene fgm mX (t), entonces E[X n ] = ∂n m (t) X ∂tn t=0 Esto quiere decir que el n-ésimo momento de la v.a. X es igual a la n-ésima derivada de mX (t) evaluada en cero. La importancia de la fgm no se encuentra en el resultado anterior, pues puede ser más fácil calcular el n-ésimo momento directamente que vı́a la fgm. La importancia de mX (t) se encuentra en el siguiente Teorema 4 Sean X y Y dos v.a. con funciones de distribución de probabilidad FX (x) y FY (y) cuyos momentos existen. Si mX (t) = mY (t) para −h < t < h con h > 0, entonces FX (u) = FY (u) para toda u. Entonces si necesitamos demostrar que dos v.a. X y Y tienen la misma distribución, una forma de proceder serı́a la de encontrar directamente FX (u), FY (u) y compararlas. Otra forma de proceder, serı́a utilizar el Teorema 4, encontrando mX (t), mY (t) y compararlas. En este punto hay que hacer una observación importante; el procedimiento descrito anteriormente sirve para saber si dos variables aleatorias tienen la misma distribución de probabilidades, más no nos dice nada acerca de si las variables aleatorias son iguales o no. Para evitar confusiones, pensemos en el ejemplo de la v.a. X que cuenta el número de soles en el lanzamiento de tres monedas justas y en la v.a. Y que cuenta el número de águilas en el lanzamiento de tres monedas justas. Debe ser claro que X 6= Y , sin embargo FX (u) = FY (u) para toda u. 4.9. Distribuciones más Comunes En estadı́stica usaremos distribuciones de probabilidad para modelar poblaciones. Cualquier distribución depende de uno o más parámetros, y al variar estos parámetros, obtenemos distintos comportamientos de la misma distribución. Un supuesto fundamental en inferencia estadı́stica es que de antemano se conoce o se supone conocida la distribución de cierta población, sin embargo, lo que nunca supondremos conocidos son sus parámetros. Por lo tanto, es una buena idea lograr una familiarización con las distribuciones más usadas en estadı́stica ası́ como con su comportamiento al variar sus parámetros. 7 4.9. DISTRIBUCIONES MÁS COMUNES 4.9.1. Carlos Erwin Rodrı́guez Distribuciones Discretas Distribución Bernoulli Esta v.a. modela un experimento en donde sólo hay dos posibles resultados, éxito(1) ó fracaso(0). Al realizar el experimento, la probabilidad de que el resultado sea éxito es p y la probabilidad de que el resultado sea fracaso es 1 − p. A este tipo de experimento se les llama Bernoulli con parámetro p, y es la base para construir muchas v.a. Distribución Bernoulli(Bernoulli(p)) PX (X = x) = px (1 − p)1−x con x = 0, 1 E[x] = p V ar[x] mX (t) = p(1 − p) = pet + 1 − p Distribución Binomial Esta variable aleatoria cuenta el número de éxitos al realizar n experimentos Bernoulli independientes. Distribución Binomial(Bin(n, p)) n x PX (X = x) = p (1 − p)n−x con x = 0, 1, . . . , n x E[x] = p V ar[x] = np(1 − p) mX (t) = (pet + 1 − p)n Es importante notar que una v.a Bernoulli(p) ≡ Bin(1, p). La distribución binomial se usa frecuentemente para estimar o determinar la proporción de individuos de una población que tienen cierta caracterı́stica de interés. Una observación importante es que para resolver este problema si la muestra se extrae sin reemplazo y de una población muy pequeña, la distribución binomial no será apropiada; en este caso la distribución hipergeométrica es la que deberá usarse. Más adelante en el curso se dará la razón del porqué de esta observación. La respuesta tiene que ver con la noción de muestra aleatoria y a que se puede definir a la binomial como la suma de una muestra aleatoria de tamaño n en donde la distribución de cada v.a. de la muestra es Bernoulli(p). Existen tablas para calcular las probabilidades de la Bin(n, p), sin embargo utilizando R, lo podemos hacer de forma más precisa y rápida. Por ejemplo, supongamos que X ∼ Bin(100, 0.6) y queremos PX (X = 20) = FX (60) = 100 (0.6)20 (0.4)80 = dbinom(20, 100, 0.6) = 2.864017e − 16 20 X PX (X = x) = pbinom(60, 100, 0.6) = 0.5379247 x≤60 8 4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez 0.6 0.4 0.5 FX(x) 0.100 0.0 0.000 0.1 0.025 0.2 0.050 0.3 0.075 P(X=x) 0.125 0.7 0.150 0.8 0.175 0.9 1.0 0.200 En las figuras 4.1 y 4.2 se presenta la gráfica de masa de probabilidad y distribución para algunos valores particulares de p y n. Debe notarse que para cualquier gráfica de masa de probabilidad, las probabilidades se le asignan a cada punto que toma la v.a., el hecho de que se dibujaran lı́neas anchas en lugar de rectas es puramente para efectos de presentación. Para la Bin(0.5, 20) se observa que la fmp es simétrica, mientras que para la Bin(20, 0.3) las probabilidades son más grandes antes de x = 6 que de hecho es el valor esperado para esta v.a (E[X] = np = (20)(0.3) = 6). 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 x x 0.6 0.4 0.5 FX(x) 0.100 0.3 0.075 0.2 0.050 0.1 0.025 0.0 0.000 P(X=x) 0.125 0.7 0.150 0.8 0.175 0.9 1.0 0.200 Figura 4.1: Funciones de masa de probabilidad y distribución de una Bin(20,.5) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 x x Figura 4.2: Funciones de masa de probabilidad y distribución de una Bin(20,.3) 9 4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez Distribución Hipergeométrica Si se tienen claros algunos conceptos de la teorı́a de conteo, deducir la fmp de la v.a. hipergeométrica es muy sencillo. Pensemos en el siguiente ejemplo; tenemos un lote en donde en total hay N elementos, de estos N elementos M están defectuosos y por supuesto N − M no lo están. Si se extraen aleatoriamente n elementos sin reemplazo y definimos la v.a. X como el número de objetos defectuosos en la muestra, entonces se tiene que Distribución Hipergeométrica Hip(n, M, N ) PX (X = x) = E[x] = V ar[x] = M x N −M n−x N n con x = 0, 1, . . . , n nM N nM (N − M )(N − n) N N (N − 1) Adicionalmente tenemos que tener M − (N − n) ≤ x ≤ M . Es muy difı́cil trabajar analı́ticamente con la hipergeométrica, es por eso que se no se escribió su f gm. Cuando describimos algunas caracterı́sticas de la binomial se dijo que esta v.a. se usa para estimar p, sin embargo, si el experimento se realiza sin reemplazo y la población es muy chica entonces se utiliza la v.a. hipergeométrica. En general la hipergeométrica se utiliza para trabajar con poblaciones finitas y podremos utilizar una aproximación mediante la Binomial cuando la población sea finita pero muy grande. Ahora, ¿cómo estimar una proporción con la v.a. Hipergeométrica? Primero tendrı́amos que estimar M con alguna cantidad, digamos M̂ y luego simplemente la proporción deseada serı́a M̂ N . Más adelante desarrollaremos métodos para encontrar M̂ . La Figura 4.3 se hizo para comparar la Bin(20, 0.5) con la v.a Hip(20,50,100) con la idea de entender que realmente la Bin(n, p) puede aproximar a una Hip(n,M,N). Los parámetros de la hipergeométrica son: N el tamaño de la población, M el número total de objetos con cierta caracterı́stica y n el tamaño de muestra. Los parámetros para la binomial son: n el tamaño de muestra o el número de experimentos realizados y p la probabilidad de obtener un éxito. Para hacer el vı́nculo entre binomial e hipergeométrica hay que fijar los parámetros de ambas fmp de forma que p = M N y tengan la misma n. En la Figura 4.3 se hace la gráfica para una 50 población muy chica con N = 100 y M = 50 (P = 100 = 0.5), esta gráfica debe parecerse un poco a la Figura 4.1 y si lo que dijimos antes es cierto, al aumentar el tamaño de la población (o N para la hipergeométrica), pero manteniendo p = M N la gráfica resultante debe ajustarse más a la de la binomial. En la Figura 4.4 el tamaño de N se aumentó considerablemente, y como se observa el ajuste con la Figura 4.1 es casi perfecto. 10 Carlos Erwin Rodrı́guez 0.6 0.5 FX(x) 0.4 0.100 0.0 0.000 0.1 0.025 0.2 0.050 0.3 0.075 P(X=x) 0.125 0.7 0.150 0.8 0.175 0.9 1.0 0.200 4.9. DISTRIBUCIONES MÁS COMUNES 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 x 10 11 12 13 14 15 16 17 18 19 20 21 22 x 0.6 0.5 FX(x) 0.4 0.100 0.0 0.000 0.1 0.025 0.2 0.050 0.3 0.075 P(X=x) 0.125 0.7 0.150 0.8 0.175 0.9 1.0 0.200 Figura 4.3: Funciones de densidad y distribución de una Hip(20,50,100) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 x Figura 4.4: Funciones de densidad y distribución de una Hip(20,2500,5000) En R para calcular la fmp ó la función de distribución de una Hip(n, M, N ), se utilizan las funciones “dhyper” y “phyper”. 11 4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez Distribución Poisson Si X es la v.a. poisson entonces X cuenta el número de éxitos en un tiempo fijo si estos eventos ocurren con una tasa media conocida, y son independientes del tiempo desde el último evento. La v.a. poisson se utiliza mucho para aproximar las probabilidades de la binomial cuando el número de experimentos es grande y la probabilidad de éxito es pequeña. Distribución Poisson P oisson(λ) PX (X = x) = eλ λx con x = 0, 1, . . . x! E[x] = λ V ar[x] = λ mX (t) = eλ(e t −1) Ejemplos de eventos que pueden ser modelados por la distribución Poisson incluyen: El número de autos que pasan a través de un cierto punto en una ruta (suficientemente distantes de los semáforos) durante un periodo definido de tiempo. El número de errores de ortografı́a que uno comete al escribir una única página. El número de llamadas telefónicas en una central telefónica por minuto. El número de servidores web accedidos por minuto. El número de animales muertos encontrados por unidad de longitud de ruta. El número de mutaciones de determinada cadena de ADN después de cierta cantidad de radiación. El número de núcleos atómicos inestables que decayeron en un determinado periodo de tiempo en una porción de sustancia radiactiva. La radiactividad de la sustancia se debilitará con el tiempo, por lo tanto el tiempo total del intervalo usado en el modelo debe ser significativamente menor que la vida media de la sustancia. Vamos a mostrar cómo se realiza el cálculo de las funciones de masa de probabilidad y distribución de la P oisson(λ) en R. Supongamos que X ∼ P oisson(5), entonces 52 = dpois(2, 5) = 0.08422434 PX (X = 2) = e5 2! X 5x FX (10) = e5 = ppois(10, 5) = 0.9863047 x! x≤10 12 4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez 0.6 0.0 0.00 0.1 0.08 0.2 0.16 0.3 0.24 0.4 0.5 FX(x) 0.40 0.32 P(X=x) 0.48 0.7 0.56 0.8 0.64 0.9 0.72 1.0 1.1 0.80 Gráficas de la fmp y la función de distribución para algunos valores particulares de λ. 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 x x 0.6 0.4 0.5 FX(x) 0.10 0.08 0.3 0.06 0.2 0.04 0.1 0.02 0.0 0.00 P(X=x) 0.12 0.7 0.14 0.8 0.16 0.9 0.18 1.0 1.1 0.20 Figura 4.5: Funciones de densidad y distribución de una Poisson(.3) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 x 1 2 3 4 5 6 7 8 9 10 11 x Figura 4.6: Funciones de densidad y distribución de una Poisson(5) 13 12 13 14 15 16 17 18 19 20 4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez 0.06 P(X=x) 0.10 0.00 0.00 0.02 0.02 0.04 0.06 0.04 0.08 P(X=x) 0.12 0.08 0.14 0.16 0.10 0.18 0.12 0.20 Para aproximar los valores de una Bin(n, p) por los de una P oisson(λ) hay que hacer np = λ para n “suficientemente” grande y p “suficientemente” chica. En los libros a veces se dan condiciones para que esta aproximación sea buena, sin embargo, es mejor hacer el experimento uno mismo y verificar. A continuación mostramos una forma de hacer lo anterior. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 10 20 30 x 40 50 60 70 80 90 100 x Figura 4.7: Aproximaciones En lugar de hacer el gráfico de barras de la fmp como antes, en esta ocasión sólo se graficaron los puntos (x, PX (X = x)) para que se pudiera visualizar mejor la situación. En la primer gráfica de la Figura 4.7 se muestra cómo se aproximarı́an los valores de una Bin(20, 0.3), en rojo, por los de una P oisson(6), en azul (pues λ = (20)(0.3) = 6). Al parecer la aproximación no es muy buena pues hay sólo 20 valores y para x ≤ 12 se observan desviaciones considerables. En la segunda gráfica de la Figura 4.7 se muestra cómo se aproximarı́an los valores de una Bin(100, 0.2), en rojo, por los de una P oisson(20), en azul. Para estos parámetros, en general, la aproximación es mucho mejor. Distribución Geométrica Consideremos una sucesión de experimentos Bernoulli independientes en donde la probabilidad de éxito es p. Sea X la v.a. que cuenta el número de fracasos antes del primer éxito. Entonces la fmp de X viene dada por Distribución Geométrica Geo(p) PX (X = x) = p(1 − p)x con x = 0, 1, 2, . . . 1−p E[x] = p 1−p V ar[x] = p2 p mX (t) = 1 − (1 − p)et 14 4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez Para calcular la fmp y la función de distribución de esta v.a. en R, lo podemos hacer utilizando las funciones “dgeom” y “pgeom”. 0.6 0.0 0.000 0.1 0.035 0.2 0.070 0.3 0.105 0.4 0.5 FX(x) 0.175 0.140 P(X=x) 0.210 0.7 0.245 0.8 0.280 0.9 0.315 1.0 0.350 Se muestran dos gráficas de la fmp y de la función de distribución para algunos valores particulares de p. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 9 10 11 12 13 14 15 x x 0.6 0.4 0.5 FX(x) 0.30 0.24 0.3 0.18 0.2 0.12 0.1 0.06 0.0 0.00 P(X=x) 0.36 0.7 0.42 0.8 0.48 0.9 0.54 1.0 0.60 Figura 4.8: Funciones de densidad y distribución de una Geo(0.3) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0 20 x 1 2 3 4 5 6 7 8 x Figura 4.9: Funciones de densidad y distribución de una Geo(0.6) 15 4.9. DISTRIBUCIONES MÁS COMUNES 4.9.2. Carlos Erwin Rodrı́guez Distribuciones Continuas Antes de describir las v.a. continuas, definiremos una función que usaremos en esta parte, la función indicadora. La función indicadora es 1A (x) = 10 sisi xx ∈∈/ A A Esta función se emplea para hacer más económica la notación. Por ejemplo la fdp uniforme que veremos a 1 si x ∈ (a, b) y 0 en otro caso. Sin embargo, con la función indicadora continuación la escribirı́amos fX (x) = b−a 1 sólo escribiremos fX (x) = 1(a,b) (x). Lo mismo se hubiera podido hacer para v.a. discretas, pero debe ser b−a claro que en cualquier punto en el que no se haya definido a PX , la probabilidad de que la v.a. tome ese valor es cero. Distribución Uniforme La distribución uniforme asigna la misma probabilidad a intervalos de la misma longitud. Distribución Uniforme U(a,b) fX (x) = E[x] = mX (t) = 1 1(a,b) (x) b−a (b − a)2 a+b , V ar[x] = 2 12 tb ta e −e (b − a)t 0.5 0.0 0.00 0.1 0.2 0.12 0.3 0.4 0.24 fX(x) FX(x) 0.6 0.36 0.7 0.8 0.48 0.9 1.0 0.60 La distribución uniforme mayormente se usa para generar muestras aleatorias de otras distribuciones. A continuación se muestra la gráfica de densidad y de distribución de una U (3, 5). 0 1 2 3 4 5 6 7 8 0 x 1 2 3 4 5 x Figura 4.10: Función de densidad y distribución de una U (3, 5) 16 6 7 8 4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez Distribución Exponencial La distribución exponencial se utiliza comunmente para modelar tiempos de vida, o la cantidad de tiempo hasta que ocurre un evento especı́fico. Por ejemplo, la cantidad de tiempo hasta que suceda un temblor, o hasta que estalle una nueva guerra, o hasta que alguien reciba una llamada telefónica que sea un número equivocado. Distribución Exponencial Exp(β) fX (x) E[x] 1 −x/β e 1[0,∞) (x) , β > 0 β = β = V ar[x] = β2 mX (t) = 1 , t < 1/β 1 − βt En este caso no presentaremos gráficas pues la Distribución Exponencial es un caso particular de la Distribución Gamma que veremos a continuación. Distribución Gamma Distribución Gamma Gamma(α, β) fX (x) E[x] V ar[x] mX (t) 1 e−x/β xα−1 1[0,∞) (x) α, β > 0 Γ(α)β α = αβ = = αβ 2 α 1 , t < 1/β = 1 − βt Para operar con la fdp Gamma(α, β), conviene tomar en cuenta que Γ(α + 1) = αΓ(α), para α > 0. Si n ∈ N, Γ(n) = (n − 1)!, además, aunque puede parecer reiterativo, se tiene que Γ(1) = 1. Dos distribuciones son casos particulares de la Gamma(α, β). En primer lugar, si α = 1 tenemos una Exp(β). En segundo lugar, si α = n2 y β = 2, se obtiene una distribución Ji-cuadrada con n grados de libertad. La distribución Ji-cuadrada es una de las más usadas en inferencia estadı́stica. 17 4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez 1.0 0.8 0.4 0.9 0.5 A continuación se presentan algunas gráfica de fX (x), para valores particulares de α y β. 0.7 0.6 0.5 FX(x) 0.4 Gamma(1,0.5) Gamma(2,0.5) Gamma(3,0.5) Gamma(5,1) Gamma(9,2) 0.2 0.0 0.0 0.1 0.1 0.3 0.2 fX(x) 0.3 Gamma(1,0.5) Gamma(2,0.5) Gamma(3,0.5) Gamma(5,1) Gamma(9,2) 0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 x 8 10 12 14 16 18 20 x Figura 4.11: Funciones de densidad y distribución de varias Gamma(α, β) Distribución Normal o Gaussiana La distribución normal (a veces llamada distribución gaussiana) juega un rol central en inferencia estadı́stica. Existen principalmente tres razones para esto. 1. La distribución normal y las distribuciones asociadas a ella son fáciles de manejar analı́ticamente. 2. La fdp normal tiene forma de campana simétrica lo que la hace un buen candidato para modelar muchas poblaciones. 3. El Teorema Central de Lı́mite muestra que bajo ciertas condiciones, utilizando la normal, se pueden aproximar muchas distribuciones siempre y cuando se tengan muestras grandes. Distribución Normal N (µ, σ 2 ) fX (x) E[x] mX (t) Si X es una v.a. N (µ, σ 2 ), entonces Z = (x−µ)2 1 e− 2σ2 1(−∞,∞) (x) 2πσ = µ , V ar[x] = σ 2 = √ = eµt+σ X−µ σ 2 2 t /2 ∼ N (0, 1), a Z suele llamársele normal estándar. También se tiene que si Z ∼ N (0, 1), entonces X = σZ + µ ∼ N (µ, σ 2 ). Esta relación entre la normal estándar y cualquier N (µ, σ 2 ) facilita mucho el cálculo de probabilidades, para esta distribución. Si denotamos a la función de distribución de N (0, 1) como Φ(z), entonces Z z 2 1 √ e−t /2 dt Φ(z) = FZ (z) = PZ (Z ≤ z) = 2π −∞ 18 4.9. DISTRIBUCIONES MÁS COMUNES Carlos Erwin Rodrı́guez Y si Z ∼ N (0, 1) con X ∼ N (µ, σ 2 ), se tiene que FX (x) = PX (X ≤ x) = PZ Z≤ x−µ σ = Z (x−µ)/σ −∞ 2 1 √ e−t /2 dt = Φ 2π x−µ σ (4.3) Existen tablas para calcular Φ(z), entonces por 4.3, debemos ser capaces de calcular cualquier probabilidad de una N (µ, σ 2 ). Además también contamos con la función “pnorm” de R. Por ejemplo si X ∼ N (3, 25) PX (X ≤ 4.3) = Z 4.3 −∞ (t−3)2 1 √ e− 50 dt = pnorm(4.3, 3, 5) = 0.6025681 5 2π 0.5 0.0 0.000 0.1 0.2 0.090 0.3 0.4 0.180 fX(x) FX(x) 0.6 0.270 0.7 0.8 0.360 0.9 1.0 0.450 Se muestra la gráfica de una normal estándar y otra de algunas N (µ, σ 2 ), para varios valores particulares de µ y σ2 . −5 −4 −3 −2 −1 0 1 2 3 4 5 −5 −4 −3 −2 −1 x 0 1 2 3 4 5 x 1.0 0.9 0.9 1.0 Figura 4.12: Función de densidad y distribución de la normal estándar (N (0, 1)) 0.6 0.7 0.8 N(0,.2) N(0,1) N(0,5) N(−2,.2) 0.0 0.1 0.2 0.3 0.4 0.5 FX(x) 0.5 0.4 0.3 0.2 0.1 0.0 fX(x) 0.6 0.7 0.8 N(0,.2) N(0,1) N(0,5) N(−2,.2) −5 −4 −3 −2 −1 0 1 2 3 4 5 −5 x −4 −3 −2 −1 0 1 2 3 x Figura 4.13: Funciones de densidad y distribución de varias N (µ, σ 2 ) 19 4 5