Capı́tulo 2 Variables aleatorias 2.1. Introducción En muchos experimentos resulta más fácil manejarse con una variable resumen que con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinión, podrı́amos decidir entrevistar a 50 personas y preguntarles si les agrada ó no cierta cosa. Si usáramos un 1 para el que contesta ”me agrada un o para el que contesta 2 ”me desagrada”, el espacio muestral para este experimento tiene 250 elementos. Cada uno de estos elementos es un arreglo de dimensión 50, donde cada componente es un 1 ó es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de alguna manera razonable. Esto podrı́a hacerse si, por ejemplo, nos interesa solamente el número de personas a quienes les agrada (ó equivalentemente, les desagrada) de entre los 50 entrevistados. Nos podrı́a interesar calcular, por ejemplo, la probabilidad de que les agrade a la mitad, ó a la tercera parte; y ası́ definir la cantidad X = números de 1´s encontrados entre los 50, de esta manera tendrı́amos capturada la esencia del problema. Ahora el espacio muestral que recorre X es el conjunto {0, 1, 2, . . . , 50}, el cual es 35 Probabilidad y Estadı́stica mucho más fácil de manejar que el original. Para definir esta cantidad X es necesario definir una función del espacio muestral original, Ω, a un nuevo espacio, usualmente el conjunto de los números reales. En general se tiene la siguiente Definición 2.1.1. Una variable aleatoria es una función del espacio muestral Ω en los números reales. Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implı́citamente. Veamos algunos ejemplos en la siguiente tabla: Experimentos Variable Aleatoria Arrojar dos dados X = suma de los números obtenidos Arrojar una moneda 25 veces X = número de caras obtenidas en los 50 tiros Aplicar diferentes tipos de fertilizantes a grupos de plantas X = rendimiento por acre En la definición de v.a. tenemos definido un nuevo espacio muestral (el rango ó recorrido de la va). Ahora se debe chequear formalmente que nuestra función de probabilidad, la cual está definida sobre el espacio muestral original, puede ser usada para la v.a. Supongamos que se tiene el siguiente espacio muestral: Ω = {ω1 , ω2 , . . . , ωn } con una función de probabilidad P , y definimos una v.a. X con un rango en X = {x1 , x2 , . . . , xn }. Definiremos una función de probabilidad PX sobre X del siguiente modo: PX (X = xi ) = P ({ωj ∈ Ω / X(ωj ) = xi }) (2.1) Note que la función PX a la izquierda del igual en (2.1) es una función de probabilidad inducida por X , definida en términos de la probabilidad original P . La igualdad (2.1) formalmente define una función de probabilidad, PX , para la v.a. X. Por supuesto que se deberá verificar que PX satisface los axiomas de Kolmogorov, lo cual se deja como ejercicio. Como son equivalentes, simplemente (2.1) se escribirá como P (X = xi ) en lugar de PX (X = xi ) Probabilidad y Estadı́stica Segundo Semestre 2005 36 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Notación Variables aleatorias siempre serán denotadas por letras imprenta mayúsculas tales como, X, Y , Z, X1 , X2, Y1 , etc; y los valores de su realización (ó su rango) con su correspondiente letra minúscula. Ası́, la v.a. X diremos que puede tomar el valor x. Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Definimos la v.a. X = no de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro: ω X(ω) CCC 3 CCS 2 CSC 2 SCC 2 CSS 1 SCS 1 SSC 1 SSS 0 El rango de valores de la v.a. X es X = {0, 1, 2, 3}. Asumiendo equiprobabilidad, se tiene P ({ω}) = 1/8 x PX (X = x) 0 1/8 1 3/8 2 3/8 3 1/8 ∀ ω ∈ Ω. De este modo podremos confeccionar la siguiente tabla: Por ejemplo PX (X = 1) = P ({CSS, SSC, SCS}) = 38 . Ejemplo 2.1.3. Sea Ω formado por los 250 arreglos de tamaño 50 formado por 1´s y 0´s. Definimos X = cantidad de 1´s obtenidos. Se tiene entonces que X = {0, 1, 2, . . . , 50}. Supongamos que los 250 arreglos son igualmente probables. La P (X = 27) puede ser obtenida contando todas las cadenas que contienen exactamente 27 1´s en el espacio muestral original. Como cada cadena es igualmente probable, tenemos que ¡50¢ Nro. de cadenas con 27 1´s P (X = 27) = = 27 . Nro. total de cadenas 250 Probabilidad y Estadı́stica Segundo Semestre 2005 37 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica En general ¡50¢ PX (X = i) = i 250 Estos ejemplos anteriores tienen un Ω y un X finito. También X podrı́a ser numerable. Si X no es numerable, también es posible definir la función de probabilidad inducida PX de forma similar a la anterior: Para A ⊂ X , PX (X ∈ A) = P ({ω ∈ Ω / X(ω) ∈ A}). Esta también define legı́timamente una función de probabilidad que cumple con los axiomas de Kolmogorov. 2.2. Funciones de Distribución Con toda v.a. X, tenemos asociada una función llamada función de distribución acumulativa de X, dicha también f.d.a. Definición 2.2.1. La f.d.a. de una v.a. X, denotada por FX (x), se define por: FX (x) = PX (X ≤ x) ∀x ∈ R Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa la cantidad de caras obtenidas. Determinemos FX (x) x<0 =⇒ FX (x) = PX (X ≤ x) = 0 0≤x<1 =⇒ FX (x) = PX (X ≤ x) = P (X = 0) = 1/8 1≤x<2 =⇒ FX (x) = PX (X ≤ x) = P (X = 0) + P (X = 1) = 1/2 2≤x<3 =⇒ FX (x) = PX (X ≤ x) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8 x≥3 =⇒ FX (x) = 1 Finalmente, la función de distribución asociada a X es, 0 si x < 0 1/8 si 0 ≤ x < 1 FX (x) = 1/2 si 1 ≤ x < 2 7/8 si 2 ≤ x < 3 1 si x ≥ 3 Probabilidad y Estadı́stica Segundo Semestre 2005 38 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Le proponga al lector que grafique esta función, obtendrá un gráfico en R2 con las siguientes caracterı́sticas: (a) FX (x) está definida ∀ x, no solamente en X . Por ejemplo: FX (2,5) = 7/8 (b) Presenta saltos en los valores xi ∈ X , y la media de los saltos en xi es P (X = xi ). (c) Es nula para todos los valores de x < 0; y vale 1 para todos los x ≥ 3. (d) A pesar de presentar saltos en los puntos mencionados en (b), ó sea discontinuidades, la función alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad a la derecha. Simbólicamente se tiene: lı́m FX (x) = FX (xi ) si xi ∈ X x−→x+ i Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se piensa que están definidas en términos de probabilidad. Teorema 2.2.1. La función F(x) es una f.d.a. sı́ y sólo sı́ las siguientes tres condiciones se cumplen: (a) lı́m x−→−∞ F (x) = 0 ∧ lı́m F (x) = 1 x−→∞ (b) F (x) es no decreciente como función de x. (c) F (x) es continua a la derecha, esto es: lı́m F (x) = F (x0 ) x−→x+ 0 ∀ x0 . Prueba: Para probar la condición necesaria, basta escribir F (x) en términos de la función de probabilidad. Para la suficiencia ó sea, que si una función F satisface las tres condiciones del teorema entonces es una f.d.a. para una v.a., en mucho más complicado (no lo haremos), deberı́amos establecer que existe un espacio muestral Ω, una función de probabilidad P sobre Ω, y una v.a. X definida sobre Ω, tal que F es la f.d.a. de X. Probabilidad y Estadı́stica Segundo Semestre 2005 39 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener cara en cualquier lanzamiento. Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su f.d.a. X = {1, 2, 3, . . .}, entonces para x = 1, 2, . . . , P (X = x) = (1 − p)x−1 p , ya que debemos encontrar x − 1 fallas hasta obtener la siguiente cara, además los eventos ocurren de manera independiente. Para cualquier entero positivo x se tiene, FX (x) = P (X ≤ x) = x X P (X = i) = x X i=1 (1 − p)i−1 p , x = 1, 2, . . . i=1 recordar que la suma parcial de una serie geométrica es n X tk−1 = k=1 1 − tn , 1−t t 6= 1 (2.2) Este resultado se puede probar por inducción matemática. Aplicando (2.2) a nuestra probabilidad, encontramos que la f.d.a. de nuestra v.a. X es FX (x) = P (X ≤ x) = 1 − (1 − p)x p 1 − (1 − p)) = 1 − (1 − p)x , x = 1, 2, . . . La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se sugiere dibujar esta función, por ejemplo para p = 0,3. Es fácil mostrar que 0 < p < 1 para que FX (x) satisfaga las condiciones del teorema (2.2.1). lı́m x−→−∞ FX (x) = 0, ya que FX (x) = 0 ∀ x < 0 y lı́m FX (x) = lı́m [1 − (1 − p)x ] = 1. x−→∞ Probabilidad y Estadı́stica Segundo Semestre 2005 x−→∞ 40 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la función 1 , 1 + exp−x FX (x) = la cual satisface las condiciones de teorema (2.2.1). Por ejemplo, lı́m FX (x) = 0, ya que lı́m FX (x) = 1, ya que x−→−∞ lı́m x−→−∞ exp−x = ∞ y x−→∞ lı́m exp−x = 0 x−→∞ Si derivamos FX (x) una vez, tenemos d exp−x >0, FX (x) = dx (1 + exp−x )2 mostrando que FX es creciente como función de x. FX no solamente es continua a la derecha. Sino también continua. Este es un caso especial de la llamada distribución logı́stica. Si una f.d.a. es continua ó presenta saltos se corresponde con la asociación de una v.a. que sea continua ó no. En efecto, la asociación nos conduce a la siguiente definición, Definición 2.2.2. Una v.a. X es continua se FX (x) es una función continua de x. Una v.a. X es discreta de FX (x) es una función dada a trozos con respecto a x. Necesitamos definir la noción de cuando dos v.a. son idénticamente distribuidas. Definición 2.2.3. Se dice que dos v.a. X e Y están idénticamente distribuidas si para cualquier conjunto A, P (X ∈ A) = P (Y ∈ B) Note que dos v.a. que están idénticamente distribuidas no necesariamente son iguales. Esto es, la definición última anterior no dice que X = Y . Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres veces. Definimos las v.a. X e Y como sigue, X = número de caras obtenidas Y Probabilidad y Estadı́stica Segundo Semestre 2005 = número de cecas obtenidas 41 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica La distribución de X está dada en el ejemplo (2.1.2), y se verifica fácilmente que la distribución de Y es exactamente la misma; esto significa que para valores de k = 0, 1, 2, 3 P (X = k) = P (Y = k). Ası́, X e Y están idénticamente distribuidas, sin embargo, no para los mismos puntos se cumple X(ω) = Y (ω). ∴ X 6= Y . Igual distribución de v.a., no implica igualdad en las v.a. Teorema 2.2.2. Las siguientes afirmaciones son equivalentes: (a) Las v.a. X e Y están idénticamente distribuidas (b) FX (x) = FY (x) para cada x. Prueba: Para mostrar la equivalencia, debemos demostrar que cada afirmación implica la otra. Veamos que (a) =⇒ (b). Ya que X e Y están idénticamente distribuidas, tenemos, para cualquier conjunto A, P (X ∈ A) = P (Y ∈ B). En particular, para el conjunto (−∞, x] se tiene P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) ∀ x. Pero esta última igualdad es equivalente a: P (X ≤ x) = P (Y ≤ x) ∀ x, ó que FX (x) = FY (x) para cada x. La implicación inversa, (b) =⇒ (a) es mucho más difı́cil de probar. Para mostrarla se requiere usar una baterı́a pesada de σ- álgebras de Borel. No entraremos aquı́ en más detalles. Es suficiente saber (de acuerdo con el nivel de estas notas) que eso es necesario para probar que las dos funciones de probabilidad coincidan sobre todos los intervalos (Por ejemplo para más detalles ver Chung,1977). Probabilidad y Estadı́stica Segundo Semestre 2005 42 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.2.1. Densidad y Funciones de masa Asociada con una v.a.X y su f.d.a. FX (x) existe otra función, llamada según corresponda: función de densidad de probabilidad (f.d.p.) ó función de masa de probabilidad (f.m.p.). Los términos (f.d.p.) y (f.m.p.) se refieren, respectivamente, a los casos continua y discreto. Ambas funciones está relacionadas con probabilidades puntuales de v.a. Definición 2.2.4. Una función de masa de probabilidad, f.m.p., de una v.a. discreta está dada por: fX (x) = P (X = x) , ∀ x. Ejemplo 2.2.5. Para la distribución geométrica del ejemplo (2.2.2) tenemos la f.m.p., (1 − p)x−1 p si x = 1, 2, . . . fX (x) = P (X = x) = 0 en otro caso Recordar que fX (x) ó equivalentemente P (X = x) es la medida del salto de la f.d.a. en x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente sumar sobre todos los puntos de un evento en forma apropiada. Por lo tanto, para enteros positivos a y b, con a ≤ b, nosotros tenemos, P (a ≤ X ≤ b) = b X fX (k) = b X (1 − p)k−1 p. k=a k=a Ası́, se puede conseguir con esto un caso especial P (X ≤ b) = b X fX (k) = FX (b). k=1 Una convención ampliamente aceptada, la cual también nosotros adoptaremos, es la de anotar con letras imprentas mayúsculas las f.d.a.´s; y con la correspondiente minúscula la f.m.p. ó la f.d.p. respectiva. Debemos tener un poco más de cuidado en nuestra definición de f.d.p. en el caso continuo. Si ingenuamente tratamos de probar calcular P (X = x) para v.a. continuas, conseguiremos lo siguiente: ya que {X = x} ⊂ {x − ² < X ≤ x} para cualquier ² > 0, nosotros tendremos a partir del teorema (1.2.1) parte f. que, P (X = x) ≤ P (x − ² < X ≤ x) = FX (x) − FX (x − ²), Probabilidad y Estadı́stica Segundo Semestre 2005 43 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica para cualquier ² > 0. Por lo tanto, 0 ≤ P (X = x) ≤ lı́m [FX (x) − FX (x − ²)] = 0, x−→²+ por la continuidad de FX . Sin embargo, si nosotros comprendemos el propósito de la f.d.p., su definición será clara. Definición 2.2.5. La función de densidad de probabilidad ó f.d.p., fX (x), de una v.a. continua X es la función que satisface: Z FX (x) = x −∞ fX (x) dt para todo x. (2.3) Una nota sobre notación: La expresión ”X tiene una distribución dada por FX (x)”se abrevia simbólicamente por ”X ∼ FX (x)”, donde leemos el sı́mbolo ”∼çomo ”está distribuido como”. También podremos en forma similar escribir X ∼ fX (x) ó, si X e Y tienen la misma distribución, X ∼ Y . En el caso de v.a. continuas no necesitamos ser cuidadosos en la especificación de incluir o no los extremos de los intervalos para el calculo de probabilidades. Como P (X = x) = 0 si X es una v.a. continua, P (a < X < b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b). En este punto, ya debe estar claro que la f.d.p. (ó p.m.f.) contienen la misma información que la f.d.a. Según sea el caso se puede ocupar una u otra para resolver problemas, de acuerdo si facilita ó no su resolución. Ejemplo 2.2.6. Para la distribución logı́stica dada en el ejemplo anterior. Se pide, determinar su f.d.p. y determinar una metodologı́a para calcular la P (a < X < b) Deberemos derivar la f.d.a con respecto a X para determinar la f.d.p., en efecto fx (x) = d exp−x FX (x) = . dx (1 + exp−x )2 El área bajo la curva fx (x) dado un intervalo de probabilidad (ver Figura 2.1) es: Probabilidad y Estadı́stica Segundo Semestre 2005 44 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Figura 2.1: Area bajo la curva logistica Z P (X ∈ [a, b]) = FX (b) − FX (a) = Z b −∞ fX (x) dx − Z a −∞ fX (x) dx = a b fX (x) dx. Solamente existen dos requerimientos para una f.d.p. (ó f.m.p.), los cuales son inmediatas consecuencias de la definición. Teorema 2.2.3. Una función fX (x) es una f.d.p. (ó una f.m.p.) de una variable aleatoria X si y sólo sı́ (a) fX (x) ≥ 0 (b) P x ∀ x. fX (x) = 1 (f.m.p.) o R +∞ −∞ fX (x) dx = 1 (f.d.p.). Prueba: Si fX (x) es una f.d.p. (ó una f.m.p.), las dos propiedades son inmediatas de las definiciones. En particular, usando (2.4) y el Teorema 2.2.1, se tiene que , Z 1 = lı́m FX (x) = x−→∞ Probabilidad y Estadı́stica Segundo Semestre 2005 45 +∞ −∞ fX (t) dt. Prof.Mg. Osmar Vera Probabilidad y Estadı́stica La implicación inversa, es también muy fácil de probar. Una vez que se tiene fX (x) podemos definir FX (x) y recurrir al Teorema 2.2.1. Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X1 y X2 el puntaje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X = max{X1 , X2 }. Determinar la f.m.p y la f.d.a. de la v.a. X X ≤ x ⇐⇒ max{X1 , X2 } ≤ x ⇐⇒ X1 ≤ x ∧ X2 ≤ x. La última igualdad se deduce de la definición de máximo!. ∴ {X ≤ x} es equivalente a, {X1 ≤ x} ∩ {X2 ≤ x}. Al estar suponiendo que los dados se lanzan de manera independiente, resulta que P (X ≤ x) = P [{X1 ≤ x} ∩ {X2 ≤ x}] = P (X1 ≤ x) · P (X2 ≤ x). Si suponemos que los dados son equilibrados , se tiene que P (X1 = l) = P (X2 = l) = Luego, P (Xi ≤ x) = x X P (Xi = l) = l=1 x 6 1 6 con l = 1, . . . , 6. x = 1, 2, . . . , 6, i = 1, 2. Finalmente, P (X ≤ x) = x2 , 36 x = 1, . . . , 6. Siendo esta su f.d.a.. Pero P (X = x) = P (X ≤ x) − P (X ≤ x − 1 = Probabilidad y Estadı́stica Segundo Semestre 2005 x2 (x − 1)2 2x − 1 − = , 36 36 6 46 x = 1, . . . , 6. Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Siendo esta su f.m.p • ¿Qué ocurre si lanzamos ahora infinitamente el dado en forma independiente? Si razonamos como en la parte última anterior del ejemplo, sea Si el puntaje obtenido en el i-ésimo lanzamiento, i=1,. . . ,k. Nos interesa la v.a. Y = ”el puntaje máximo obtenido”: Y = max {S1 , S2 , . . . ,k }. Por definición del máximo, {Y ≤ y} es equivalente a, {S1 ≤ y} ∩ {S2 ≤ y} ∩ . . . ∩ {Sk ≤ y}. Luego, usando la independencia de los lanzamientos, se obtiene que P (Y ≤ y) = k Y P (Si ≤ y) = i=1 ³ y ´k 6 , y = 1, . . . , 6. Finalmente, para y = 1, 2, . . . , 6, P (Y = y) = P (Y ≤ y) − P (Y ≤ y − 1) = 1 k [y − (y − 1)k ]. 6k Calcular la probabilidad de que el máximo valor leı́do sea un valor y en infinitos lanzamientos, corresponde a tomar lı́m P (Y = y). k−→∞ Para calcular este lı́mite, debe notar que la f.m.p. de Y se puede escribir de manera equivalente como P (Y = y) = Al tomar lı́mite se obtiene: ³ y − 1 ´k i yk h 1 − . y 6k 0 si y < 6 lı́m P (Y ≤ y) = 1 si y = 6 k−→∞ Esto significa que en un número infinito de lanzamientos, la probabilidad de obtener un puntaje máximo entre 1 y 5 es cero, mientras que la probabilidad de obtener un puntaje igual a 6 es uno!!!. Probabilidad y Estadı́stica Segundo Semestre 2005 47 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Ejemplo 2.2.8. Probar que la función dada por 1 2 fX (x) = √ exp−x /2 . 2π (2.4) es una función de densidad de probabilidad En efecto, obviamente fX (x) > 0. Para verificar que es una densidad, falta comprobar R∞ que −∞ fX (x) dx = 1. Sea a = R∞ 2 e−x /2 dx. Deberemos probar que a2 = 2π. Para lo cual, notar que Z ∞ Z ∞ Z ∞Z ∞ 2 2 2 −x2 /2 −y 2 /2 a = e dx · e dy = e−(x +y )/2 dx dy; −∞ −∞ −∞ −∞ −∞ y tomando, en la integral doble, coordenadas polares (r, φ) queda Z 2π Z ∞ 2 2 a = dφ e−r /2 r dr = 2π. 0 0 Esta densidad se define como la densidad normal tı́pica (o estándar), y se la anota con la letra griega ϕ, de donde en adelante siempre que veamos ϕ(x), nos estamos refiriendo a la densidad de una v.a. con distribución Normal estándar, definida por (2.4). Ejemplo 2.2.9. Supóngase que la v.a. X es continua, y se tiene la función dada por kx si 0 < x < 1 f (x) = 0 en otro caso Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a. Nota ¡fX (x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo P (X = 0,5) = 0, y por lo tanto fX (0,5) no la representa. Sólo cuando la función se integra entre dos lı́mites produce una probabilidad. Sin embargo, es posible dar una interpretación de 4x fX (x) del siguiente modo. Del teorema del valor medio del cálculo integral se deduce que Z P (x ≤ X ≤ x + 4x) = x x+4x fX (s) ds = 4x fX (ξ) , x ≤ ξ ≤ x + 4x. Si 4x es pequeño, 4x fX (x) es aproximadamente igual a P (x ≤ X ≤ x + 4x). Si fX es continuo por la derecha, esta llega a ser más segura cuando 4x −→ 0. Probabilidad y Estadı́stica Segundo Semestre 2005 48 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.3. Transformaciones y Esperanzas A menudo, si nosotros somos capaces de modelar un fenómeno en términos de la va X con una FX (x), también tendremos la relación con la conducta de funciones de X. En esta sección estudiaremos técnicas que nos permitirán ganar información acerca de funciones de X que podrı́an ser de interés, que puede ir desde ser completa (las distribuciones de esas funciones) a muy vaga (la conducta del promedio). 2.3.1. Distribuciones de funciones de una Variable Aleatoria Si X es una v.a. con fda FX (x), entonces cualquier función de X, digamos g(X), es también una v.a.. A menudo g(X) es de interés en sı́ misma y escribiremos Y = g(X) para denotar nuestra v.a. g(X). Ya que Y es una función de X, nosotros podemos describir su conducta probabilı́stica, en términos de la de X. Esto es, para cualquier conjunto A, P (Y ∈ A) = P (g(X) ∈ A) , esto muestra que la distribución de Y depende de las funciones FX y g. Dependiendo de la elección de g, es algunas veces posible obtener una expresión tratable para el cálculo de esta probabilidad. Formalmente, si nosotros escribimos y = g(x), la función g(x) define una mapeo del espacio muestral de X, X , a un nuevo espacio muestral, Y, el espacio muestral de la v.a. Y . Esto es, g(x) : X −→ Y. Es posible asociar con g un mapeo inverso, denotado por g −1 , el cual es un mapeo proveniente de subconjuntos de Y a subconjuntos de X , y está definido por g −1 (A) = {x ∈ X : g(x) ∈ A}. Note que el mapeo g −1 está definido de conjuntos en conjuntos, esto es, g −1 (A) es el conjunto de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto Probabilidad y Estadı́stica Segundo Semestre 2005 49 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica formado por un sólo punto, digamos A = {y}. Entonces g −1 ({y}) = {x ∈ X : g(x) = y}. En este caso casi siempre se escribe g −1 (y) en lugar de g −1 ({y}). Sin embargo, la cantidad g −1 (y) puede aún ser un conjunto, si hay más de un x para el cual g(x) = y. Si hay solamente un valor de x para el cual g(x) = y, entonces g −1 (y) en el conjunto unitario {x}, y escribiremos g −1 (y) = x. Si la v.a. Y está definida por Y = g(X), es posible escribir para cualquier conjunto A ⊂ Y, P (Y ∈ A) = P (g(X) ∈ A) = = P ({x ∈ X : g(x) ∈ A}) (2.5) = P (X ∈ g −1 (A)). Esta define la distribución de probabilidades de Y . Serı́a justo mostrar que esta distribución de probabilidad satisface los Axiomas de Kolmogorov. Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es Y = {y : y = g(x), x ∈ X }, el cual también es un conjunto numerable; con lo cual Y es una v.a discreta. Usando (2.5), la fmp de Y es fY (y) = P (Y = y) = X P (X = x) = x∈g −1 (y) X fX (x), para y ∈ Y , x∈g −1 (y) y fY (y) = 0 para y ∈ / Y. En este caso para encontrar la fmp de Y sólo es necesario identificar g −1 (y), para cada y ∈ Y y sumar apropiadamente las probabilidades. Ejemplo 2.3.1. Una va. discreta X tiene una distribución binomial si su fmp es de la forma µ ¶ n x fX (x) = P (X = x) = p (1 − p)n−x , x x = 0, 1, . . . , n , donde n es un entero positivo y 0 ≤ p ≤ 1. Encontrar la fmp de Y = g(X), siendo g(x) = n−x Valores como n y p que al tomar diferentes valores producen diferentes funciones de probabilidad, se llaman parámetros de la distribución. Consideremos la va. Y = g(X), donde g(x) = n − x. Esto es Y = n − X. Aquı́ X = {0, 1, 2, · · · , n} y Y = {y : y = g(x), x ∈ Probabilidad y Estadı́stica Segundo Semestre 2005 50 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica X } = {0, 1, 2, · · · , n}. Para cualquier y ∈ Y, n − x = g(x) = y sı́ y sólo si x = n − y. Ası́, g −1 (y) es entonces simplemente el punto x = n − y, X fY (y) = y fX (x) x∈g −1 (y) = fX (n − y) µ ¶ n = pn−y (1 − p)n−(n−y) n−y µ ¶ n = (1 − p)y pn−y y Vemos que también Y es una va. con distribución binomial, pero con parámetros n y (1 − p). Si tanto X como Y son va. continuas, es posible en muchos casos encontrar fórmulas simples para la fda de Y en términos de la fda de X y la función g. Consideremos algunos de estos casos. La fda de Y = g(X) es FY (y) = P (Y ≤ y) = P (g(X) ≤ y) (2.6) = P ({x ∈ X : g(x) ≤ y}) Z = fX (x) dx. {x∈X : g(x)≤y} Muchas veces resulta difı́cil identificar {x ∈ X : g(x) ≤ y} y resolver la integral de fX (x) bajo esa región. Cuando hacemos transformaciones, es importante mantener presente los espacios muestrales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando hacemos una transformación de X a Y = g(X), lo más conveniente es usar, X = {x : fX (x) > 0} y Y = {y : y = g(x) para algún x ∈ X }. (2.7) La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal conjunto es llamado el conjunto soporte de una distribución, más informalmente el soporte de Probabilidad y Estadı́stica Segundo Semestre 2005 51 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica la distribución. Este terminologı́a puede también aplicarse para una fmp ó, en general, para una función no negativa. Es mucho más fácil tratar con aquellas g(x) que son monótonas, esto es aquellas que satisfacen a. u > v =⇒ g(u) > g(v) (crecientes) ó b. u < v =⇒ g(u) > g(v) (decrecientes) Si la transformación x −→ g(x) es monótona, entonces esta es (1-1) de X −→ Y. También para Y definida como en (2.7), para cada y ∈ Y, existe un x ∈ X tal que g(x) = y. Ası́ la transformación g unı́vocamente manda x´s en y´s. Si g es monótona, g −1 es univaluada, esto es g −1 (y) = x sı́ y sólo sı́ y = g(x). Si g es creciente, esto implica que {x ∈ X : g(x) ≤ y} = {x ∈ X : g −1 (g(x)) ≤ g −1 (y)} = {x ∈ X : x ≤ g −1 (y)}. Mientras que si g es decreciente, esto implica que {x ∈ X : g(x) ≤ y} = {x ∈ X : g −1 (g(x)) ≥ g −1 (y)} = {x ∈ X : x ≥ g −1 (y)}. Si g(x) es una función creciente, entonces usando (2.6), podemos escribir Z FY (y) = {x∈X : x≤g −1 (y)} Z fX (x) dx g −1 (y) = fX (x) dx −∞ = FX (g −1 (y)). Si g(x) es decreciente, se tiene, Z FY (y) = g −1 (y) −∞ fX (x) dx = 1 − FX (g −1 (y)). (aquı́ fue usada la continuidad de X) Resumimos estos resultados en el siguiente teorema Probabilidad y Estadı́stica Segundo Semestre 2005 52 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Teorema 2.3.1. Supongamos que X tiene una fda FX (x), sea Y = g(X), X e Y definidos como en (2.7). a. Si g es una función creciente sobre X , FY (y) = FX (g −1 (y)) para y ∈ Y. b. Si g es una función decreciente sobre X y X es una v.a. continua, FY (y) = 1 − FX (g −1 (y)) para y ∈ Y. Ejemplo 2.3.2. Sea X fX (x) = 1.I(0 < x < 1), de donde se tiene X ∼ U (0, 1). Esto último se lee ”X con distribución uniforme en el intervalo (0,1)”. Se pide determinar FX (x), FY (y), fY (y) si Y = g(X) = −logX. Se aconseja siempre verificar que, en este caso la fX es una densidad. Determinación de FX : Rx FX (x) = −∞ fX (t) dt para todo x ∈ R, por definición, i. Si x < 0 =⇒ fX (x) = 0 =⇒ FX (x) = Rx ii. Si 0 < x < 1 =⇒ fX (x) = 1 =⇒ FX (x) = iii Si x ≥ 1 =⇒ fX (x) = 0 =⇒ FX (x) = De donde se tiene, 0 dt = 0. −∞ R0 R0 −∞ −∞ 0 dt + 0 dt + R1 0 Rx 0 1 dt = 0 + t 1 dt + Rx 1 ix 0 = x. 0 dt = 0 + t i1 0 + 0 = 1. 0 si x < 0 FX (x) = x si 0 < x < 1 1 si x ≥ 1 Determinación de FY : Veamos si g(x) es monótona en el soporte de X, X . d 1 g(x) = − < 0 , dx x para x ∈ (0, 1) = X , de donde g(x) resulta ser una función decreciente. Veamos cual es el soporte de Y . Y definido como en (2.7), resulta ser Y = (0, ∞). Queda calcular la g −1 (y) para y ∈ Y = (0, ∞); la cual resulta de y = g(x) = −logx =⇒ −y = logx =⇒ x = e−y = g −1 (y). Finalmente, aplicando el teorema 2.3.1 parte b), resulta FY (y) = 1 − FX (g −1 (y)) = 1 − FX (e−y ) = 1 − e−y , y ∈ Y = (0, ∞) Probabilidad y Estadı́stica Segundo Semestre 2005 53 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Para determinar fY (y) queda diferenciar la fda de Y , ası́ fY (y) = d FY (y) = ey dy (y > 0) La fdp y la fda de Y respectivamente son: fY (y) = ey · I(0, ∞) , FY (y) = 0 si y ≤ 0 1 − e−y si y > 0 Este resultado afirma que si: X ∼ U (0, 1) =⇒ Y = −logX ∼ Exp(1). Si la fdp de Y es continua, puede ser obtenida derivando su fda. La expresión resultante está dada por el siguiente teorema Teorema 2.3.2. Supongamos X v.a. con una fdp fX (x). Sea Y = g(X), donde g es monótona una transformación de X; X e Y son respectivamente sus soportes. Suponga además que fX (x) es continua sobre X , y que g −1 (y) tiene una derivada continua sobre Y. Entonces la fdp de Y está dada por: fX (g −1 (y))· | fY (y) = 0 d −1 dy g (y)) | si y ∈ Y (2.8) e.o.c. Demostración: Aplicando al teorema último la regla de la cadena, se tiene fY (y) = fY (y) = d FY (y) = dy d FY (y) = dy d d FX (g −1 (y)) = fX (g −1 (y)) · g −1 (y) g creciente dy dy d d (1 − FX (g −1 (y)) = −fX (g −1 (y)) · g −1 (y) g decreciente dy dy La cual puede ser expresada en forma consisa como en (2.8). Ejemplo 2.3.3. Ses fX (x) la fdp de una va. gamma, entonces esta tiene la forma, fX (x) = 1 xn−1 e−x/β · I(0, ∞) (n − 1)!β n β representa una constante positiva, n entero positivo. Se quiere encontrar la fdp de Y = g(X) = 1/X . Probabilidad y Estadı́stica Segundo Semestre 2005 54 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el resultado último no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es monótona sobre ciertos intervalos. Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X 2 . En este ejemplo resultará que fdp de Y está expresada como la suma de dos términos, donde cada uno de ellos representa el intervalo donde g(x) = x2 es monótona. En general este será el caso, dado en el siguiente problema. Teorema 2.3.3. Supongamos X tiene una fdp fX (x), Y = g(X), y se define el soporte de X, X . Supongamos que existe una partición A0 , A1 , . . . , Ak de X , tal que P (X ∈ A0 ) = 0 y fX (x) es continua sobre cada Ai . Además, supóngase que existen funciones g1 (x), g2 (x), . . . , gk (x), definidas sobre A1 , . . . , Ak respectivamente, satisfaciendo: (a) g(x) = gi (x) , para x ∈ Ai (b) gi (x) es monótona sobre Ai (c) El conjunto Y = {y : y = gi (x) , para algún x ∈ Ai } es el mismo para cada i = 1, . . . , k y (d) g −1 (y) tiene derivada continua en Y, para cada i = 1, . . . , k, entonces P k fY (y) = i=0 fX (g −1 (y))· | d −1 dy g (y)) 0 | si y ∈ Y e.o.c. El punto más importante en este teorema es que X puede ser divididos en conjuntos A1 , . . . , Ak , tal que g(x) sea monótona sobre cada Ai . Es posible ignorar el conjunto excepcional A0 , ya que P (X ∈ A0 ) = 0. Esta es una técnica que puede ser usada para manejar los extremos de intervalo. Es importante notar que cada gi (x) es una transformación 1 − 1 de Ai en Y. Ejemplo 2.3.5. Sea X una va. con la distribución Normal estándar, entonces 1 2 fX (x) = √ exp−x /2 ·I(−∞, ∞) 2π Sea Y = X 2 . Halle fY (y) Probabilidad y Estadı́stica Segundo Semestre 2005 55 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado de libertad. Cerramos esta sección con una especial y muy conocida transformación, la transformación de probabilidad integral. Teorema 2.3.4. Consideremos X va. continua con fda FX (x) y se define la va. Y = FX (x). Entonces Y ∼ U (0, 1), tal que P (Y ≤ y) = y; 0 < y < 1. Antes de demostrarlo, daremos una mirada a FX−1 , la inversa de la fda con algún detalle. Si FX es estrictamente creciente, entonces FX−1 está bien definida como FX−1 (y) = x ⇐⇒ FX (x) = y (2.9) Sin embargo, si la fda llega a ser constante en algún intervalo, entonces su inversa no está bien definida por (2.10). Cualquier x ∈ [x1 , x2 ], por ejemplo (intervalo donde la FX (x) es constante), satisface FX (x) = y. Este problema se soluciona, definiendo FX−1 (y), para 0 < y < 1, del siguiente modo, FX−1 (y) = inf{x : FX (x) ≥ y}, (2.10) esta definición coincide con de FX−1 (y) cuando FX (x) = y no es constante, pero provee una FX−1 siempre univariada Dem. del teorema: Para Y = FX (X) = g(X); Y = (0, 1). P (Y ≤ y) = P (FX (X) ≤ y) = P (FX−1 (FX (X)) ≤ FX−1 (y)) (FX−1 creciente) = P (X ≤ FX−1 (y)) = FX (FX−1 (y)) (definicion de FX ) = y (continuidad de FX ) En los puntos extremos se tiene P (Y ≤ y) = 1 para y ≥ 1, y P (Y ≥ y) = 0 para y ≤ 1, mostrando ası́ que Y ∼ U (0, 1) Probabilidad y Estadı́stica Segundo Semestre 2005 56 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica ¿Cómo se razonó detrás de la igualdad P (FX−1 (FX (X)) ≤ FX−1 (y)) = P (X ≤ FX−1 (y))? esta requiere una particular atención. Si FX es estrictamente creciente, entonces es verdad que FX−1 (FX (X)) = X. Sin embargo, si FX presenta algún escalón, puede suceder que FX−1 (FX (X)) 6= X, pero eso se salva ocupando la definición para FX−1 con en (2.10). Una aplicación de este teorema está en la generación de muestras aleatorias provenientes de una distribución particular. Si se quiere generar una observación x proveniente de una población con fda FX , necesitamos generar solamente el número aleatorio uniforme u entre 0 y 1, y resolver para x la ecuación FX (x) = u. 2.4. Valores Esperados El valor esperado ó esperanza de una v.a. X es, su valor promedio. Aquı́ hablamos de valor promedio como de tal pensado de acuerdo con la distribución de probabilidad. El valor esperado de una distribución, también puede ser pensado como una medida de centralización, del mismo modo como se piensan los promedios estando en el medio de todos los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribución de probabilidad, queremos obtener un número que resuma un valor tı́pico o esperado de las observaciones de la v.a. Examinemos el siguiente ejemplo, Considere seleccionar al azar a un estudiante que está entre 15000 registrados para el perı́odo académico de una Universidad. Sea X = cantidad de cursos en los que el estudiante seleccionado se inscribe; supongamos que X tiene la siguiente fmp, x 1 2 3 4 5 6 7 fX (x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02 Probabilidad y Estadı́stica Segundo Semestre 2005 57 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Podemos considerar a la población como aquella formada por 15000 personas, cada una con su propio valor de X (según la cantidad de materias en las que inscribió en ese año académico); la proporción con cada valor X está dada por fX (x) de la tabla. Por ejemplo podrı́amos interpretar el valor fX (1) = P (X = 1) = 0,01, como que 1 de cada 100 estudiantes se inscribió en una sola materia; o sea que 150 del total de 15000 se inscribieron en una sola materia. Análogamente, fX (2) = P (X = 2) = 0,03, como que 3 de cada 100 estudiantes se inscribió en dos materias; o sea que 450 del total de 15000 se inscribieron en dos materias; y ası́ siguiendo, se genera la tabla (2.4) x 1 2 3 4 5 6 7 fX (x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02 No registrado 150 450 1950 3750 5850 2550 300 Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la población misma como formada por los valores X. Una vez que tengamos un modelo matemático para una población, el objetivo será utilizarlo para calcular valores caracterı́sticos de esa población (como por ejemplo la media µ) y hacer inferencias a partir de tales caracterı́sticas. Si se quisiera determinar el número promedio de cursos por estudiante, o el valor promedio de X de la población, debemos calcular el número total de cursos y dividir entre el número total de estudiantes. El valor promedio de X de la población es entonces, 1(150) + 2(450) + 3(1950) + · · · + 7(300) = 4,57, 15000 como 150 15000 (2.11) 450 = 0,01 = fX (1); 15000 = 0,03 = fX (2); . . . , etc., otra expresión para el cociente (2.11) es: 1 · fX (1) + 2 · fX (2) + 3 · fX (3) + · · · + 7 · fX (7) (2.12) Esta expresión (2.13) muestra que para calcular el valor promedio de X de la población, sólo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones). Probabilidad y Estadı́stica Segundo Semestre 2005 58 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica El valor promedio, o la media de X es entonces un promedio ponderado de los posibles valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores. La expresión (2.13), nos conduce la siguiente definición de valor esperado ó media de una población. Definición 2.4.1. El valor esperado ó media de una va. g(X), denotado por E g(X), es R ∞ g(x) fX (x) dx si X es continua −∞ E g(X) = P P x∈X g(x) fX (x) = x∈X g(x) P (X = x)) si X es discreta Suponiendo que la integral ó suma existen. Si E | g(X) |= ∞ diremos que E g(X) no existe. Ejemplo 2.4.1. Supongamos que X tiene una distribución exponencial λ, es decir su fdp es, fX (x) = 1 −x/λ e · I(0 ≤ x < ∞) λ λ>0 Se pide encontrar E X Rta. E X = λ Ejemplo 2.4.2. Si X tiene una distribución binomial con parámetros n y p, entonces su fmp es, µ ¶ n x P (X = x) = p (1 − p)n−x , x x = 0, 1, . . . , n donde n es un entero positivo, 0 ≤ p ≤ 1, y para cada par de valores fijos n y p, la fmp suma 1. Determine el valor esperado de X. Rta.: E X = np Ejemplo 2.4.3. Un ejemplo clásico de una variable aleatoria cuyo valor esperado no existe es la variable aleatoria Cauchy, cuya fdp es, fX (x) = 1 1 , π 1 + x2 −∞ ≤ x ≤ ∞. Mostrar, entonces que E | g(X) |= ∞. Probabilidad y Estadı́stica Segundo Semestre 2005 59 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica El proceso de tomar esperanza es una operación lineal, lo cual significa que la esperanza es una función lineal de X, la cual entonces puede ser fácilmente evaluada, notando que para cualquier par de valores a y b, E (aX + b) = aE X + b. El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para calcularla. La mayorı́a de tales propiedades se derivan de las propiedades de la integral ó la suma, y son resumidas en el siguiente teorema: Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g1 (X), g2 (X), funciones de la va. X, cuyas esperanzas existen, se cumple: (a) E (ag1 (X) + bg2 (X) + c) = aE (g1 (X)) + bE (g2 (X)) + c. (b) Si g1 (x) ≥ 0, ∀ x =⇒ E (g1 (X)) ≥ 0. (c) Si g1 (x) ≥ g2 (x), ∀ x =⇒ E (g1 (X)) ≥ E (g2 (X)). (d) Si a ≤ g1 (x) ≥ b, ∀ x =⇒ a ≤ E (g1 (X)) ≥ b. Ejemplo 2.4.4. También es posible interpretar el valor esperado de una va., pesándola con relación a considerarla como un ”buen acierto”para el valor de X. Supongamos que medimos la distancia entre una va. X y una constante b mediante la forma (X − b)2 , o sea buscamos el valor de b más cercano a X. Podemos ası́, determinar el valor de b que minimiza E(X − b)2 y, por lo tanto esto podrı́a interpretarse en términos estadı́sticos como la búsqueda de un buen predictor de X. (Note que no es bueno mirar un valor de b que minimice (X − b)2 , ya que la respuesta podrı́a depender de X, siendo ası́ un predictor inútil de X). Podrı́amos proceder a minimizar E(X − b)2 ocupando las herramientas que nos provee el cálculo, pero hay un método más simple, usando la creencia que existe algo especial en relación con este problema y la E X, ası́ escribimos E(X − b)2 = E(X − E X + E X − b)2 = E((X − E X) + (E X − b))2 = E(X − E X)2 + (E X − b)2 + 2E((X − E X)(E X − b)), Probabilidad y Estadı́stica Segundo Semestre 2005 60 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica en esta última igualdad hemos expandido el cuadrado. Ahora note que E((X − E X)(E X − b)) = (E X − b)E(X − E X) = 0 ya que (E X − b) es constante sale fuera de la expresión, y E(X − E X) = E X − E X = 0. Esto significa que E(X − b)2 = E(X − E X)2 + (E X − b)2 . (2.13) No tenemos control sobre el primer término del lado derecho en la igualdad (2.13) y el segundo término, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X. Por lo tanto, mı́n E(X − b)2 = E(X − E X)2 b (2.14) Existe un resultado similar para la mediana. Cada vez que evaluemos la esperanza de una función no lineal de X, podemos proceder de dos maneras diferentes. De la definición de E g(X), serı́a posible calcular directamente Z ∞ E g(X) = −∞ g(x)fX (x) dx. (2.15) Pero también podrı́amos primero encontrar la fdp fY (y) para la va. Y = g(X), y luego calcular Z ∞ E g(X) = E Y = −∞ y fY (y) dy. (2.16) Ejemplo 2.4.5. Sea X ∼ U (0, 1), Y = g(X) = −log X. Mostraremos que la E Y calculada de las formas mencionadas en (2.15) y (2.16) da el mismo resultado. 2.5. Momentos y Funciones Generadoras de Momentos Los distintos momentos de una distribución son una importante clase de esperanzas. Definición 2.5.1. Para cada entero n, el n-ésimo momento de X (ó de FX (x)), notado µ0n , es µ0n = E X n . Probabilidad y Estadı́stica Segundo Semestre 2005 61 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica El n-ésimo momento central de X, es µn = E (X − µ)n , donde µ = µ0 = E X Además de la media, E X, de una va., quizá el momento más importante es el central de segundo orden, más comúnmente conocido como la varianza. Definición 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X = E(X − E X)2 . La raı́z cuadrada positiva de la V ar X se denomina desviación estándar de X. La varianza de una medida del grado de diseminacion de una distribución alrededor de la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(X − b)2 es minimizada eligiendo b = E X. Consideremos ahora la medida absoluta de este mı́nimo. La interpretación agregada a la varianza es que valores grandes de la misma, significan que X es muy variable. En el extremo, si V ar X = E(X − E X)2 = 0, entonces X = E X con probabilidad 1, y no existe variación en X. La desviación estándar tiene la misma interpretación cualitativa: pequeños valores de la misma significan que X está probablemente muy cerca de E X, y grandes valores significa que X es muy variable. La desviación estándar es más fácil para interpretar, pues su unidad de medida es la misma que la de los datos originales en la va. X. Ejemplo 2.5.1. Supongamos X ∼ Exp(λ). Hemos calculado ya E X = λ. Se propone ahora calcular V ar X. Rta.: V ar X = λ2 Vemos que la varianza de una distribución exponencial está directamente relacionada con el parámetro λ. Es posible dibujar distintas distribuciones exponenciales, cambiando los valores de λ. De esta manera será posible notar como la distribución está más concentrada alrededor de su media para valores pequeños de λ. El comportamiento de la varianza de una va. exponencial, como una función de λ, es una caso especial del comportamiento de la varianza resumido en el siguiente teorema, Probabilidad y Estadı́stica Segundo Semestre 2005 62 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Teorema 2.5.1. Si X es una va. con varianza finita, entonces para cualquier par de constantes a, b se cumple, V ar(aX + b) = a2 V ar X. En muchos casos es más fácil usar una fórmula alternativa para la varianza, dada por, V ar X = E X 2 − (E X)2 , (2.17) la cual es muy fácil de demostrar. Ejemplo 2.5.2. Supongamos que X ∼ Bib(n, p). Hemos probado que E X = np. Se pide ahora calcular V ar X. Rta.: V ar X = np(1 − p) Para calcular momentos de orden más alto se procede de manera análoga. En aplicaciones, momentos de orden 3 ó 4 algunas veces resultan de interés, pero usualmente existen razones estadı́sticas para examinar momentos de orden más algo que 2. Ahora introduciremos una nueva función, la cual está asociada con distribuciones de probabilidad, la función generadora de momentos (fgm). Como su nombre lo sugiere, la fgm puede ser usada para generar momentos. En la práctica es más fácil en muchos casos calcular momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el de generar momentos, sino ayudar para caracterizar una distribución. Esta propiedad nos puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente. Definición 2.5.3. Sea X una va. con fda. FX . La función generadora de momentos (fgm) de X (o FX ) , denotada por MX (t) ,es MX (t) = E et X , suponiendo que la esperanza exista para valores de t en algún entorno del 0. Esto es, existe un h > 0 tal que, para todo t ∈ (−h, h) E et X existe. Si tal esperanza no existe en un entorno del 0, nosotros diremos que la fgm no existe. Probabilidad y Estadı́stica Segundo Semestre 2005 63 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Más explı́citamente, podemos escribir la fgm de X como MX (t) = MX (t) = R∞ −∞ et x fX (x) dx Si X es continua et x fX (x) Si X es discreta P x∈X Es muy fácil ver de que manera una fgm genera momentos. Se resume el siguiente teorema, Teorema 2.5.2. Si X tiene fgm MX (t), entonces (n) E X n = MX (0), donde se define (n) MX (0) = dn MX (t)|t=0 . dtn Es decir el n-ésimo momento de la va. X es igual a la n-ésima derivada de la fgm de X evaluada en t = 0 Del teorema último anterior es fácil mostrar que, d MX (t)|t=0 = E X et X |t=0 = E X. dt Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso general es, fX (x) = 1 xα−1 e−x/β , Γ(α) β α 0 < x < ∞, α > 0, β > 0, donde Γ(α) representa la función gamma. Determinar la MX (t) para esta va. ³ Rta.: MX (t) = 1 1−βt ´α si t < β1 . Ejemplo 2.5.4. Para otra ilustración sobre el cálculo de la fgm, consideremos una distribución discreta, la distribución binomial. Si X ∼ Bin(n, p), determina la fgm de X Rta.: MX (t) = [pet + (1 − p)]n . Podrı́a ocurrir que existan dos va. con distintas fdp, pero que generen los mismos momentos, e.d., X1 ∼ f1 Probabilidad y Estadı́stica Segundo Semestre 2005 , X2 ∼ f2 64 con f1 6= f2 , Prof.Mg. Osmar Vera Probabilidad y Estadı́stica pero tal que E X1r = E X2r r = 0, 1, . . .. Querrı́amos tener condiciones para poder caracterizar las distribuciones con iguales momentos. El siguiente teorema muestra como puede ser caracterizada una distribución usando su fgm. Teorema 2.5.3. Sean FX (x), FY (y) dos fda tales que sus momentos existen (a) Si FX y FY tienen soporte acotado, entonces FX (u) = FY (u) sı́ y sólo sı́ E Xr = E Y r r = 0, 1, . . .. (b) Si las fgm existen y se cumple MX (t) = MY (t) para todo t en algún entorno del 0, entonces FX (u) = FY (u) ∀ u. La demostración de este teorema recae en las teorı́a de las ”transformaciones de Laplace”(ver Widder 1946, Feller 1971) razones por lo cual su tratamiento escapa al nivel de estas notas. Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b está dada por MY (t) = MaX+b (t) = eb t MX (at). Probabilidad y Estadı́stica Segundo Semestre 2005 65 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.6. Ejercicios 2.1 De un lote que contiene 25 artı́culos, 5 de los cuales son defectuosos, se eligen 4 al azar. Sea X el número de defectuosos encontrados. Obtener la distribución de probabilidades de X si, (a) los artı́culos se escogen con sustitución (b) los artı́culos se escogen sin sustitución. 2.2 Supóngase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P (X = j) = 1/2j , j = 1, 2, . . . (a) Calcular P (Xsea par ). (b) Calcular P (X ≥ 5). (c) Calcular P (Xes divisible por 3) 2.3 Considérese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P (X = j) = (1 − a) aj , j = 0, 1, . . . (a) ¿Para qué valores a es significativo el modelo anterior? (b) Verificar que la anterior representa una legı́tima f.m.p. (c) Demostrar que para dos enteros positivos cualesquiera s y t, P (X < s + t | X > s) = P (X ≥ t). 2.4 Considere la v.a. X que mide la duración de un tubo electrónico, y supongamos que X se puede representar como una v.a. continua con f.d.p. fX (x) = be−bx I (x ≥ 0). Sea pj = P (j ≤ X < j + 1). Demostrar que pj es de la forma (1 − a) aj y determine a. 2.5 La v.a. continua X tiene f.d.p. fX (x) = 3x2 I(−1 ≤ x ≤ 0). Si b es un número que satisface −1 < b < 0, calcular P (X > b | X < b/2). 2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a., en donde X, 0 < X < 1, tiene la siguiente fdp: fX (x) = 20x3 (1 − x)I(0 < x < 1). Probabilidad y Estadı́stica Segundo Semestre 2005 66 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica (a) Obtener una expresión para fda, FX y dibujar su gráfico. (b) Calcular la P (X ≤ 23 ). (c) Supóngase que el precio de venta del compuesto depende del contenido alcohólico. Especı́ficamente, si 1 3 <X < 2 3, el compuesto se vende por C1 dólares/galón. Encontrar la distribución de probabilidades de la utilidad neta por galón. 2.7 Supóngase que X está distribuida uniformemente en [−α, α], en donde α > 0. Cada vez que sea posible determinar α de modo que se satisfaga lo siguiente: (a) P (X > 1) = 1 3 (d) P (X > 21 ) = 0,3 (b) P (X > 1) = 1 2 (c) P (X > 12 ) = 0,7 (e) P (| X |< 1) = P (| X |> 1). 2.8 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1. (a) fX (x) = 42x5 (1 − x), 0 < x < 1; Y = X 3 . (b) fX (x) = 7e7x , 0 < x < ∞; Y = 4X + 3. 2.9 Si X tiene fdp fX (x) = 1 −(x/σ2 )/2 xe · I(0, ∞), σ2 σ 2 es una constante positiva Determine la fdp de Y = eX . 2.10 Suponga que X tiene una distribución geométrica con fmp dada por fX (x) = 13 ( 32 )x , x = 0, 1, 2, . . .. Determine la distribución de probabilidades de Y = X/X + 1. Note que tanto X como Y son v.a. discretas. Para especificar la distribución de probabilidad de Y , especifique su fmp. 2.11 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1. (a) fX (x) = 1 2 e−|x| , −∞ < x < ∞; Y =| X |3 . (b) fX (x) = 38 (x + 1)2 , −1 < x < 1; Y = 1 − X 2 . (c) fX (x) = 38 (x + 1)2 , −1 < x < 1; Y = 1 − X 2 si X ≤ 0 e Y = 1 − X si X > 0. Probabilidad y Estadı́stica Segundo Semestre 2005 67 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.12 Suponga que X es una va. con la siguiente función de densidad 1 fX (x) = (1 + x) · I(−1, 1). 2 (a) Encuentre la fdp. de Y = X 2 (b) Encuentre la E X y la V arX 2.12 Una mediana de una distribución es un valor m tal que P (X ≤ m) = P (X ≥ m) = 12 . Rm R∞ (Si X es continua, m satisface −∞ fX (x)dx = m fX (x)dx = 12 .). Encuentre la mediana de las siguientes distribuciones (a) fX (x) = 3x2 · I(0, 1) (b) fX (x) = 1 π(1+x2 ) 2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad (a) fX (x) = axa−1 (b) fX (x) = 1 n 0 < x < 1, a > 0 x = 1, 2, . . . , n; n > 0 entero (c) fX (x) = 32 (x − 1)2 , 0<x<2 2.14 Sea µn el n-ésimo momento central de la va. X. Dos cantidades de interés, agregadas a la media y la varianza son, α3 = µ3 (µ2 )3/2 y α4 = µ4 . (µ2 )2 El valor α3 es llamado coeficiente de asimetrı́a, y el α4 es llamado de curtosis. La medida de asimetrı́a se refiere a cuanto se aparta la forma de la distribución simétrica la fdp. La curtosis, aunque mucho mas difı́cil de interpretar que la asimetrı́a, mide cuanta forma de punta ó chata tiene la fdp. (a) Muestre que si la fdp es simétrica alrededor de un punto a, entonces α3 = 0. (b) Calcule α3 para f (x) = e−x , x ≥ 0, una fdp que tiene asimetrı́a a la derecha. (c) Calcule α4 para cada una de las siguientes fdp. (i) f (x) = (ii) f (x) = √1 2π 1 2 e−x 2 /2 , −∞ < x < ∞ · I(−1, 1) (iii) f (x) = 12 e−|x| , −∞ < x < ∞ Probabilidad y Estadı́stica Segundo Semestre 2005 68 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.15 Sea MX (t) la fgm de una va. X, y se define S(t) = log(MX (t)). Muestre que, d2 S(t)|t=0 = V ar X. dt2 d S(t)|t=0 = E X dt 2.16 En cada uno de los siguientes casos verifique que la expresión dada para la fgm, y en cada caso use la fgm para determinar la E X y la V arX. (a) P (X = x) = e−λ λx x! , t −1) MX (t) = eλ(e (b) P (X = x) = p(1 − p)x , (c) f (x) = 2 /(2σ e−(x−µ) √ 2πσ 2) MX (t) = , MX (t) = eµt+σ , x = 0, 1, 2, . . . ; p 1−(1−p)et 2 t2 /2 λ>0 , x = 0, 1, 2, . . . ; 0 < p < 1 , −∞ < x < ∞, −∞ < µ < ∞, σ > 0 2.17 Determinar E X 4 para X ∼ N (0, 1) [use que ϕ0 (x) = xϕ(x)]. 2.18 Teorema: [Convergencia de fgm]: Suponga que {Xi , i = 1, 2, . . .} es una secuencia de va., cada una con fgm MXi (t). Además suponga que lı́m MXi (t) = MX (t) i−→∞ para todo t en un entorno de 0, y MX (t) es una fgm. Entonces existe una única fda FX , cuyos momentos son determinados por MX (t)y, para todo x donde FX (x) es continua, se tiene lı́m FXi (x) = FX (x). i−→∞ Esto significa, convergencia ∀ t, | t |< h, de fgm´s a fgm implica convergencia de fda respectiva.1 Una aproximación muy útil es la de la distribución Binomial a la distribución de Poisson. La distribución binomial está caracterizada por dos cantidades, n y p. La aproximación de Poisson es válida cuando ”n es grande y np pequeño”. La fmp de una va. con distribución de Poisson está dada por P (X = x) = e−λ λx , x! x = 0, 1, . . . , λ > 0. La aproximación afirma que si X ∼ Bin(n, p) e Y ∼ P o(λ), con λ = np, entonces P (X = x) ≈ P (Y = x) para n grande y np pequeño. 1 La demostración de este teorema también recae sobre la teorı́a de transformadas de Laplace Probabilidad y Estadı́stica Segundo Semestre 2005 69 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Se te pide demostrar esta afirmación siguiendo los siguientes pasos: (a) Encontrar MX (t), MY (t) (b) Reemplazar p = λ n en MX (t) (c) Calcular el lı́mn−→∞ MX (t), observando que su resultado es justamente MY (t) la fgm de la Poisson. (d) Ocupando Excel grafique en un mismo sistema de ejes coordenados la fmp de una Bin(15, 0,3) y de una P o(4,5); observe el resultado del teorema. Probabilidad y Estadı́stica Segundo Semestre 2005 70 Prof.Mg. Osmar Vera