CapII.pdf

Capı́tulo 2 Variables aleatorias 2.1. Introducción En muchos experimentos resulta más fácil manejarse con una variable resumen que con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinión, podrı́amos decidir entrevistar a 50 personas y preguntarles si les agrada ó no cierta cosa. Si usáramos un 1 para el que contesta ”me agrada un o para el que contesta 2 ”me desagrada”, el espacio muestral para este experimento tiene 250 elementos. Cada uno de estos elementos es un arreglo de dimensión 50, donde cada componente es un 1 ó es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de alguna manera razonable. Esto podrı́a hacerse si, por ejemplo, nos interesa solamente el número de personas a quienes les agrada (ó equivalentemente, les desagrada) de entre los 50 entrevistados. Nos podrı́a interesar calcular, por ejemplo, la probabilidad de que les agrade a la mitad, ó a la tercera parte; y ası́ definir la cantidad X = números de 1´s encontrados entre los 50, de esta manera tendrı́amos capturada la esencia del problema. Ahora el espacio muestral que recorre X es el conjunto {0, 1, 2, . . . , 50}, el cual es 35 Probabilidad y Estadı́stica mucho más fácil de manejar que el original. Para definir esta cantidad X es necesario definir una función del espacio muestral original, Ω, a un nuevo espacio, usualmente el conjunto de los números reales. En general se tiene la siguiente Definición 2.1.1. Una variable aleatoria es una función del espacio muestral Ω en los números reales. Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implı́citamente. Veamos algunos ejemplos en la siguiente tabla: Experimentos Variable Aleatoria Arrojar dos dados X = suma de los números obtenidos Arrojar una moneda 25 veces X = número de caras obtenidas en los 50 tiros Aplicar diferentes tipos de fertilizantes a grupos de plantas X = rendimiento por acre En la definición de v.a. tenemos definido un nuevo espacio muestral (el rango ó recorrido de la va). Ahora se debe chequear formalmente que nuestra función de probabilidad, la cual está definida sobre el espacio muestral original, puede ser usada para la v.a. Supongamos que se tiene el siguiente espacio muestral: Ω = {ω1 , ω2 , . . . , ωn } con una función de probabilidad P , y definimos una v.a. X con un rango en X = {x1 , x2 , . . . , xn }. Definiremos una función de probabilidad PX sobre X del siguiente modo: PX (X = xi ) = P ({ωj ∈ Ω / X(ωj ) = xi }) (2.1) Note que la función PX a la izquierda del igual en (2.1) es una función de probabilidad inducida por X , definida en términos de la probabilidad original P . La igualdad (2.1) formalmente define una función de probabilidad, PX , para la v.a. X. Por supuesto que se deberá verificar que PX satisface los axiomas de Kolmogorov, lo cual se deja como ejercicio. Como son equivalentes, simplemente (2.1) se escribirá como P (X = xi ) en lugar de PX (X = xi ) Probabilidad y Estadı́stica Segundo Semestre 2005 36 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Notación Variables aleatorias siempre serán denotadas por letras imprenta mayúsculas tales como, X, Y , Z, X1 , X2, Y1 , etc; y los valores de su realización (ó su rango) con su correspondiente letra minúscula. Ası́, la v.a. X diremos que puede tomar el valor x. Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Definimos la v.a. X = no de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro: ω X(ω) CCC 3 CCS 2 CSC 2 SCC 2 CSS 1 SCS 1 SSC 1 SSS 0 El rango de valores de la v.a. X es X = {0, 1, 2, 3}. Asumiendo equiprobabilidad, se tiene P ({ω}) = 1/8 x PX (X = x) 0 1/8 1 3/8 2 3/8 3 1/8 ∀ ω ∈ Ω. De este modo podremos confeccionar la siguiente tabla: Por ejemplo PX (X = 1) = P ({CSS, SSC, SCS}) = 38 . Ejemplo 2.1.3. Sea Ω formado por los 250 arreglos de tamaño 50 formado por 1´s y 0´s. Definimos X = cantidad de 1´s obtenidos. Se tiene entonces que X = {0, 1, 2, . . . , 50}. Supongamos que los 250 arreglos son igualmente probables. La P (X = 27) puede ser obtenida contando todas las cadenas que contienen exactamente 27 1´s en el espacio muestral original. Como cada cadena es igualmente probable, tenemos que ¡50¢ Nro. de cadenas con 27 1´s P (X = 27) = = 27 . Nro. total de cadenas 250 Probabilidad y Estadı́stica Segundo Semestre 2005 37 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica En general ¡50¢ PX (X = i) = i 250 Estos ejemplos anteriores tienen un Ω y un X finito. También X podrı́a ser numerable. Si X no es numerable, también es posible definir la función de probabilidad inducida PX de forma similar a la anterior: Para A ⊂ X , PX (X ∈ A) = P ({ω ∈ Ω / X(ω) ∈ A}). Esta también define legı́timamente una función de probabilidad que cumple con los axiomas de Kolmogorov. 2.2. Funciones de Distribución Con toda v.a. X, tenemos asociada una función llamada función de distribución acumulativa de X, dicha también f.d.a. Definición 2.2.1. La f.d.a. de una v.a. X, denotada por FX (x), se define por: FX (x) = PX (X ≤ x) ∀x ∈ R Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa la cantidad de caras obtenidas. Determinemos FX (x) x<0 =⇒ FX (x) = PX (X ≤ x) = 0 0≤x<1 =⇒ FX (x) = PX (X ≤ x) = P (X = 0) = 1/8 1≤x<2 =⇒ FX (x) = PX (X ≤ x) = P (X = 0) + P (X = 1) = 1/2 2≤x<3 =⇒ FX (x) = PX (X ≤ x) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8 x≥3 =⇒ FX (x) = 1 Finalmente, la función de distribución asociada a X es,    0 si x < 0       1/8 si 0 ≤ x < 1    FX (x) = 1/2 si 1 ≤ x < 2      7/8 si 2 ≤ x < 3       1 si x ≥ 3 Probabilidad y Estadı́stica Segundo Semestre 2005 38 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Le proponga al lector que grafique esta función, obtendrá un gráfico en R2 con las siguientes caracterı́sticas: (a) FX (x) está definida ∀ x, no solamente en X . Por ejemplo: FX (2,5) = 7/8 (b) Presenta saltos en los valores xi ∈ X , y la media de los saltos en xi es P (X = xi ). (c) Es nula para todos los valores de x < 0; y vale 1 para todos los x ≥ 3. (d) A pesar de presentar saltos en los puntos mencionados en (b), ó sea discontinuidades, la función alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad a la derecha. Simbólicamente se tiene: lı́m FX (x) = FX (xi ) si xi ∈ X x−→x+ i Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se piensa que están definidas en términos de probabilidad. Teorema 2.2.1. La función F(x) es una f.d.a. sı́ y sólo sı́ las siguientes tres condiciones se cumplen: (a) lı́m x−→−∞ F (x) = 0 ∧ lı́m F (x) = 1 x−→∞ (b) F (x) es no decreciente como función de x. (c) F (x) es continua a la derecha, esto es: lı́m F (x) = F (x0 ) x−→x+ 0 ∀ x0 . Prueba: Para probar la condición necesaria, basta escribir F (x) en términos de la función de probabilidad. Para la suficiencia ó sea, que si una función F satisface las tres condiciones del teorema entonces es una f.d.a. para una v.a., en mucho más complicado (no lo haremos), deberı́amos establecer que existe un espacio muestral Ω, una función de probabilidad P sobre Ω, y una v.a. X definida sobre Ω, tal que F es la f.d.a. de X. Probabilidad y Estadı́stica Segundo Semestre 2005 39 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener cara en cualquier lanzamiento. Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su f.d.a. X = {1, 2, 3, . . .}, entonces para x = 1, 2, . . . , P (X = x) = (1 − p)x−1 p , ya que debemos encontrar x − 1 fallas hasta obtener la siguiente cara, además los eventos ocurren de manera independiente. Para cualquier entero positivo x se tiene, FX (x) = P (X ≤ x) = x X P (X = i) = x X i=1 (1 − p)i−1 p , x = 1, 2, . . . i=1 recordar que la suma parcial de una serie geométrica es n X tk−1 = k=1 1 − tn , 1−t t 6= 1 (2.2) Este resultado se puede probar por inducción matemática. Aplicando (2.2) a nuestra probabilidad, encontramos que la f.d.a. de nuestra v.a. X es FX (x) = P (X ≤ x) = 1 − (1 − p)x p 1 − (1 − p)) = 1 − (1 − p)x , x = 1, 2, . . . La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se sugiere dibujar esta función, por ejemplo para p = 0,3. Es fácil mostrar que 0 < p < 1 para que FX (x) satisfaga las condiciones del teorema (2.2.1). lı́m x−→−∞ FX (x) = 0, ya que FX (x) = 0 ∀ x < 0 y lı́m FX (x) = lı́m [1 − (1 − p)x ] = 1. x−→∞ Probabilidad y Estadı́stica Segundo Semestre 2005 x−→∞ 40 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la función 1 , 1 + exp−x FX (x) = la cual satisface las condiciones de teorema (2.2.1). Por ejemplo, lı́m FX (x) = 0, ya que lı́m FX (x) = 1, ya que x−→−∞ lı́m x−→−∞ exp−x = ∞ y x−→∞ lı́m exp−x = 0 x−→∞ Si derivamos FX (x) una vez, tenemos d exp−x >0, FX (x) = dx (1 + exp−x )2 mostrando que FX es creciente como función de x. FX no solamente es continua a la derecha. Sino también continua. Este es un caso especial de la llamada distribución logı́stica. Si una f.d.a. es continua ó presenta saltos se corresponde con la asociación de una v.a. que sea continua ó no. En efecto, la asociación nos conduce a la siguiente definición, Definición 2.2.2. Una v.a. X es continua se FX (x) es una función continua de x. Una v.a. X es discreta de FX (x) es una función dada a trozos con respecto a x. Necesitamos definir la noción de cuando dos v.a. son idénticamente distribuidas. Definición 2.2.3. Se dice que dos v.a. X e Y están idénticamente distribuidas si para cualquier conjunto A, P (X ∈ A) = P (Y ∈ B) Note que dos v.a. que están idénticamente distribuidas no necesariamente son iguales. Esto es, la definición última anterior no dice que X = Y . Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres veces. Definimos las v.a. X e Y como sigue, X = número de caras obtenidas Y Probabilidad y Estadı́stica Segundo Semestre 2005 = número de cecas obtenidas 41 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica La distribución de X está dada en el ejemplo (2.1.2), y se verifica fácilmente que la distribución de Y es exactamente la misma; esto significa que para valores de k = 0, 1, 2, 3 P (X = k) = P (Y = k). Ası́, X e Y están idénticamente distribuidas, sin embargo, no para los mismos puntos se cumple X(ω) = Y (ω). ∴ X 6= Y . Igual distribución de v.a., no implica igualdad en las v.a. Teorema 2.2.2. Las siguientes afirmaciones son equivalentes: (a) Las v.a. X e Y están idénticamente distribuidas (b) FX (x) = FY (x) para cada x. Prueba: Para mostrar la equivalencia, debemos demostrar que cada afirmación implica la otra. Veamos que (a) =⇒ (b). Ya que X e Y están idénticamente distribuidas, tenemos, para cualquier conjunto A, P (X ∈ A) = P (Y ∈ B). En particular, para el conjunto (−∞, x] se tiene P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) ∀ x. Pero esta última igualdad es equivalente a: P (X ≤ x) = P (Y ≤ x) ∀ x, ó que FX (x) = FY (x) para cada x. La implicación inversa, (b) =⇒ (a) es mucho más difı́cil de probar. Para mostrarla se requiere usar una baterı́a pesada de σ- álgebras de Borel. No entraremos aquı́ en más detalles. Es suficiente saber (de acuerdo con el nivel de estas notas) que eso es necesario para probar que las dos funciones de probabilidad coincidan sobre todos los intervalos (Por ejemplo para más detalles ver Chung,1977). Probabilidad y Estadı́stica Segundo Semestre 2005 42 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.2.1. Densidad y Funciones de masa Asociada con una v.a.X y su f.d.a. FX (x) existe otra función, llamada según corresponda: función de densidad de probabilidad (f.d.p.) ó función de masa de probabilidad (f.m.p.). Los términos (f.d.p.) y (f.m.p.) se refieren, respectivamente, a los casos continua y discreto. Ambas funciones está relacionadas con probabilidades puntuales de v.a. Definición 2.2.4. Una función de masa de probabilidad, f.m.p., de una v.a. discreta está dada por: fX (x) = P (X = x) , ∀ x. Ejemplo 2.2.5. Para la distribución geométrica del ejemplo (2.2.2) tenemos la f.m.p.,   (1 − p)x−1 p si x = 1, 2, . . . fX (x) = P (X = x) =  0 en otro caso Recordar que fX (x) ó equivalentemente P (X = x) es la medida del salto de la f.d.a. en x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente sumar sobre todos los puntos de un evento en forma apropiada. Por lo tanto, para enteros positivos a y b, con a ≤ b, nosotros tenemos, P (a ≤ X ≤ b) = b X fX (k) = b X (1 − p)k−1 p. k=a k=a Ası́, se puede conseguir con esto un caso especial P (X ≤ b) = b X fX (k) = FX (b). k=1 Una convención ampliamente aceptada, la cual también nosotros adoptaremos, es la de anotar con letras imprentas mayúsculas las f.d.a.´s; y con la correspondiente minúscula la f.m.p. ó la f.d.p. respectiva. Debemos tener un poco más de cuidado en nuestra definición de f.d.p. en el caso continuo. Si ingenuamente tratamos de probar calcular P (X = x) para v.a. continuas, conseguiremos lo siguiente: ya que {X = x} ⊂ {x − ² < X ≤ x} para cualquier ² > 0, nosotros tendremos a partir del teorema (1.2.1) parte f. que, P (X = x) ≤ P (x − ² < X ≤ x) = FX (x) − FX (x − ²), Probabilidad y Estadı́stica Segundo Semestre 2005 43 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica para cualquier ² > 0. Por lo tanto, 0 ≤ P (X = x) ≤ lı́m [FX (x) − FX (x − ²)] = 0, x−→²+ por la continuidad de FX . Sin embargo, si nosotros comprendemos el propósito de la f.d.p., su definición será clara. Definición 2.2.5. La función de densidad de probabilidad ó f.d.p., fX (x), de una v.a. continua X es la función que satisface: Z FX (x) = x −∞ fX (x) dt para todo x. (2.3) Una nota sobre notación: La expresión ”X tiene una distribución dada por FX (x)”se abrevia simbólicamente por ”X ∼ FX (x)”, donde leemos el sı́mbolo ”∼çomo ”está distribuido como”. También podremos en forma similar escribir X ∼ fX (x) ó, si X e Y tienen la misma distribución, X ∼ Y . En el caso de v.a. continuas no necesitamos ser cuidadosos en la especificación de incluir o no los extremos de los intervalos para el calculo de probabilidades. Como P (X = x) = 0 si X es una v.a. continua, P (a < X < b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b). En este punto, ya debe estar claro que la f.d.p. (ó p.m.f.) contienen la misma información que la f.d.a. Según sea el caso se puede ocupar una u otra para resolver problemas, de acuerdo si facilita ó no su resolución. Ejemplo 2.2.6. Para la distribución logı́stica dada en el ejemplo anterior. Se pide, determinar su f.d.p. y determinar una metodologı́a para calcular la P (a < X < b) Deberemos derivar la f.d.a con respecto a X para determinar la f.d.p., en efecto fx (x) = d exp−x FX (x) = . dx (1 + exp−x )2 El área bajo la curva fx (x) dado un intervalo de probabilidad (ver Figura 2.1) es: Probabilidad y Estadı́stica Segundo Semestre 2005 44 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Figura 2.1: Area bajo la curva logistica Z P (X ∈ [a, b]) = FX (b) − FX (a) = Z b −∞ fX (x) dx − Z a −∞ fX (x) dx = a b fX (x) dx. Solamente existen dos requerimientos para una f.d.p. (ó f.m.p.), los cuales son inmediatas consecuencias de la definición. Teorema 2.2.3. Una función fX (x) es una f.d.p. (ó una f.m.p.) de una variable aleatoria X si y sólo sı́ (a) fX (x) ≥ 0 (b) P x ∀ x. fX (x) = 1 (f.m.p.) o R +∞ −∞ fX (x) dx = 1 (f.d.p.). Prueba: Si fX (x) es una f.d.p. (ó una f.m.p.), las dos propiedades son inmediatas de las definiciones. En particular, usando (2.4) y el Teorema 2.2.1, se tiene que , Z 1 = lı́m FX (x) = x−→∞ Probabilidad y Estadı́stica Segundo Semestre 2005 45 +∞ −∞ fX (t) dt. Prof.Mg. Osmar Vera Probabilidad y Estadı́stica La implicación inversa, es también muy fácil de probar. Una vez que se tiene fX (x) podemos definir FX (x) y recurrir al Teorema 2.2.1. Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X1 y X2 el puntaje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X = max{X1 , X2 }. Determinar la f.m.p y la f.d.a. de la v.a. X X ≤ x ⇐⇒ max{X1 , X2 } ≤ x ⇐⇒ X1 ≤ x ∧ X2 ≤ x. La última igualdad se deduce de la definición de máximo!. ∴ {X ≤ x} es equivalente a, {X1 ≤ x} ∩ {X2 ≤ x}. Al estar suponiendo que los dados se lanzan de manera independiente, resulta que P (X ≤ x) = P [{X1 ≤ x} ∩ {X2 ≤ x}] = P (X1 ≤ x) · P (X2 ≤ x). Si suponemos que los dados son equilibrados , se tiene que P (X1 = l) = P (X2 = l) = Luego, P (Xi ≤ x) = x X P (Xi = l) = l=1 x 6 1 6 con l = 1, . . . , 6. x = 1, 2, . . . , 6, i = 1, 2. Finalmente, P (X ≤ x) = x2 , 36 x = 1, . . . , 6. Siendo esta su f.d.a.. Pero P (X = x) = P (X ≤ x) − P (X ≤ x − 1 = Probabilidad y Estadı́stica Segundo Semestre 2005 x2 (x − 1)2 2x − 1 − = , 36 36 6 46 x = 1, . . . , 6. Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Siendo esta su f.m.p • ¿Qué ocurre si lanzamos ahora infinitamente el dado en forma independiente? Si razonamos como en la parte última anterior del ejemplo, sea Si el puntaje obtenido en el i-ésimo lanzamiento, i=1,. . . ,k. Nos interesa la v.a. Y = ”el puntaje máximo obtenido”: Y = max {S1 , S2 , . . . ,k }. Por definición del máximo, {Y ≤ y} es equivalente a, {S1 ≤ y} ∩ {S2 ≤ y} ∩ . . . ∩ {Sk ≤ y}. Luego, usando la independencia de los lanzamientos, se obtiene que P (Y ≤ y) = k Y P (Si ≤ y) = i=1 ³ y ´k 6 , y = 1, . . . , 6. Finalmente, para y = 1, 2, . . . , 6, P (Y = y) = P (Y ≤ y) − P (Y ≤ y − 1) = 1 k [y − (y − 1)k ]. 6k Calcular la probabilidad de que el máximo valor leı́do sea un valor y en infinitos lanzamientos, corresponde a tomar lı́m P (Y = y). k−→∞ Para calcular este lı́mite, debe notar que la f.m.p. de Y se puede escribir de manera equivalente como P (Y = y) = Al tomar lı́mite se obtiene: ³ y − 1 ´k i yk h 1 − . y 6k   0 si y < 6 lı́m P (Y ≤ y) =  1 si y = 6 k−→∞ Esto significa que en un número infinito de lanzamientos, la probabilidad de obtener un puntaje máximo entre 1 y 5 es cero, mientras que la probabilidad de obtener un puntaje igual a 6 es uno!!!. Probabilidad y Estadı́stica Segundo Semestre 2005 47 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Ejemplo 2.2.8. Probar que la función dada por 1 2 fX (x) = √ exp−x /2 . 2π (2.4) es una función de densidad de probabilidad En efecto, obviamente fX (x) > 0. Para verificar que es una densidad, falta comprobar R∞ que −∞ fX (x) dx = 1. Sea a = R∞ 2 e−x /2 dx. Deberemos probar que a2 = 2π. Para lo cual, notar que Z ∞ Z ∞ Z ∞Z ∞ 2 2 2 −x2 /2 −y 2 /2 a = e dx · e dy = e−(x +y )/2 dx dy; −∞ −∞ −∞ −∞ −∞ y tomando, en la integral doble, coordenadas polares (r, φ) queda Z 2π Z ∞ 2 2 a = dφ e−r /2 r dr = 2π. 0 0 Esta densidad se define como la densidad normal tı́pica (o estándar), y se la anota con la letra griega ϕ, de donde en adelante siempre que veamos ϕ(x), nos estamos refiriendo a la densidad de una v.a. con distribución Normal estándar, definida por (2.4). Ejemplo 2.2.9. Supóngase que la v.a. X es continua, y se tiene la función dada por   kx si 0 < x < 1 f (x) =  0 en otro caso Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a. Nota ¡fX (x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo P (X = 0,5) = 0, y por lo tanto fX (0,5) no la representa. Sólo cuando la función se integra entre dos lı́mites produce una probabilidad. Sin embargo, es posible dar una interpretación de 4x fX (x) del siguiente modo. Del teorema del valor medio del cálculo integral se deduce que Z P (x ≤ X ≤ x + 4x) = x x+4x fX (s) ds = 4x fX (ξ) , x ≤ ξ ≤ x + 4x. Si 4x es pequeño, 4x fX (x) es aproximadamente igual a P (x ≤ X ≤ x + 4x). Si fX es continuo por la derecha, esta llega a ser más segura cuando 4x −→ 0. Probabilidad y Estadı́stica Segundo Semestre 2005 48 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.3. Transformaciones y Esperanzas A menudo, si nosotros somos capaces de modelar un fenómeno en términos de la va X con una FX (x), también tendremos la relación con la conducta de funciones de X. En esta sección estudiaremos técnicas que nos permitirán ganar información acerca de funciones de X que podrı́an ser de interés, que puede ir desde ser completa (las distribuciones de esas funciones) a muy vaga (la conducta del promedio). 2.3.1. Distribuciones de funciones de una Variable Aleatoria Si X es una v.a. con fda FX (x), entonces cualquier función de X, digamos g(X), es también una v.a.. A menudo g(X) es de interés en sı́ misma y escribiremos Y = g(X) para denotar nuestra v.a. g(X). Ya que Y es una función de X, nosotros podemos describir su conducta probabilı́stica, en términos de la de X. Esto es, para cualquier conjunto A, P (Y ∈ A) = P (g(X) ∈ A) , esto muestra que la distribución de Y depende de las funciones FX y g. Dependiendo de la elección de g, es algunas veces posible obtener una expresión tratable para el cálculo de esta probabilidad. Formalmente, si nosotros escribimos y = g(x), la función g(x) define una mapeo del espacio muestral de X, X , a un nuevo espacio muestral, Y, el espacio muestral de la v.a. Y . Esto es, g(x) : X −→ Y. Es posible asociar con g un mapeo inverso, denotado por g −1 , el cual es un mapeo proveniente de subconjuntos de Y a subconjuntos de X , y está definido por g −1 (A) = {x ∈ X : g(x) ∈ A}. Note que el mapeo g −1 está definido de conjuntos en conjuntos, esto es, g −1 (A) es el conjunto de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto Probabilidad y Estadı́stica Segundo Semestre 2005 49 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica formado por un sólo punto, digamos A = {y}. Entonces g −1 ({y}) = {x ∈ X : g(x) = y}. En este caso casi siempre se escribe g −1 (y) en lugar de g −1 ({y}). Sin embargo, la cantidad g −1 (y) puede aún ser un conjunto, si hay más de un x para el cual g(x) = y. Si hay solamente un valor de x para el cual g(x) = y, entonces g −1 (y) en el conjunto unitario {x}, y escribiremos g −1 (y) = x. Si la v.a. Y está definida por Y = g(X), es posible escribir para cualquier conjunto A ⊂ Y, P (Y ∈ A) = P (g(X) ∈ A) = = P ({x ∈ X : g(x) ∈ A}) (2.5) = P (X ∈ g −1 (A)). Esta define la distribución de probabilidades de Y . Serı́a justo mostrar que esta distribución de probabilidad satisface los Axiomas de Kolmogorov. Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es Y = {y : y = g(x), x ∈ X }, el cual también es un conjunto numerable; con lo cual Y es una v.a discreta. Usando (2.5), la fmp de Y es fY (y) = P (Y = y) = X P (X = x) = x∈g −1 (y) X fX (x), para y ∈ Y , x∈g −1 (y) y fY (y) = 0 para y ∈ / Y. En este caso para encontrar la fmp de Y sólo es necesario identificar g −1 (y), para cada y ∈ Y y sumar apropiadamente las probabilidades. Ejemplo 2.3.1. Una va. discreta X tiene una distribución binomial si su fmp es de la forma µ ¶ n x fX (x) = P (X = x) = p (1 − p)n−x , x x = 0, 1, . . . , n , donde n es un entero positivo y 0 ≤ p ≤ 1. Encontrar la fmp de Y = g(X), siendo g(x) = n−x Valores como n y p que al tomar diferentes valores producen diferentes funciones de probabilidad, se llaman parámetros de la distribución. Consideremos la va. Y = g(X), donde g(x) = n − x. Esto es Y = n − X. Aquı́ X = {0, 1, 2, · · · , n} y Y = {y : y = g(x), x ∈ Probabilidad y Estadı́stica Segundo Semestre 2005 50 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica X } = {0, 1, 2, · · · , n}. Para cualquier y ∈ Y, n − x = g(x) = y sı́ y sólo si x = n − y. Ası́, g −1 (y) es entonces simplemente el punto x = n − y, X fY (y) = y fX (x) x∈g −1 (y) = fX (n − y) µ ¶ n = pn−y (1 − p)n−(n−y) n−y µ ¶ n = (1 − p)y pn−y y Vemos que también Y es una va. con distribución binomial, pero con parámetros n y (1 − p). Si tanto X como Y son va. continuas, es posible en muchos casos encontrar fórmulas simples para la fda de Y en términos de la fda de X y la función g. Consideremos algunos de estos casos. La fda de Y = g(X) es FY (y) = P (Y ≤ y) = P (g(X) ≤ y) (2.6) = P ({x ∈ X : g(x) ≤ y}) Z = fX (x) dx. {x∈X : g(x)≤y} Muchas veces resulta difı́cil identificar {x ∈ X : g(x) ≤ y} y resolver la integral de fX (x) bajo esa región. Cuando hacemos transformaciones, es importante mantener presente los espacios muestrales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando hacemos una transformación de X a Y = g(X), lo más conveniente es usar, X = {x : fX (x) > 0} y Y = {y : y = g(x) para algún x ∈ X }. (2.7) La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal conjunto es llamado el conjunto soporte de una distribución, más informalmente el soporte de Probabilidad y Estadı́stica Segundo Semestre 2005 51 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica la distribución. Este terminologı́a puede también aplicarse para una fmp ó, en general, para una función no negativa. Es mucho más fácil tratar con aquellas g(x) que son monótonas, esto es aquellas que satisfacen a. u > v =⇒ g(u) > g(v) (crecientes) ó b. u < v =⇒ g(u) > g(v) (decrecientes) Si la transformación x −→ g(x) es monótona, entonces esta es (1-1) de X −→ Y. También para Y definida como en (2.7), para cada y ∈ Y, existe un x ∈ X tal que g(x) = y. Ası́ la transformación g unı́vocamente manda x´s en y´s. Si g es monótona, g −1 es univaluada, esto es g −1 (y) = x sı́ y sólo sı́ y = g(x). Si g es creciente, esto implica que {x ∈ X : g(x) ≤ y} = {x ∈ X : g −1 (g(x)) ≤ g −1 (y)} = {x ∈ X : x ≤ g −1 (y)}. Mientras que si g es decreciente, esto implica que {x ∈ X : g(x) ≤ y} = {x ∈ X : g −1 (g(x)) ≥ g −1 (y)} = {x ∈ X : x ≥ g −1 (y)}. Si g(x) es una función creciente, entonces usando (2.6), podemos escribir Z FY (y) = {x∈X : x≤g −1 (y)} Z fX (x) dx g −1 (y) = fX (x) dx −∞ = FX (g −1 (y)). Si g(x) es decreciente, se tiene, Z FY (y) = g −1 (y) −∞ fX (x) dx = 1 − FX (g −1 (y)). (aquı́ fue usada la continuidad de X) Resumimos estos resultados en el siguiente teorema Probabilidad y Estadı́stica Segundo Semestre 2005 52 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Teorema 2.3.1. Supongamos que X tiene una fda FX (x), sea Y = g(X), X e Y definidos como en (2.7). a. Si g es una función creciente sobre X , FY (y) = FX (g −1 (y)) para y ∈ Y. b. Si g es una función decreciente sobre X y X es una v.a. continua, FY (y) = 1 − FX (g −1 (y)) para y ∈ Y. Ejemplo 2.3.2. Sea X fX (x) = 1.I(0 < x < 1), de donde se tiene X ∼ U (0, 1). Esto último se lee ”X con distribución uniforme en el intervalo (0,1)”. Se pide determinar FX (x), FY (y), fY (y) si Y = g(X) = −logX. Se aconseja siempre verificar que, en este caso la fX es una densidad. Determinación de FX : Rx FX (x) = −∞ fX (t) dt para todo x ∈ R, por definición, i. Si x < 0 =⇒ fX (x) = 0 =⇒ FX (x) = Rx ii. Si 0 < x < 1 =⇒ fX (x) = 1 =⇒ FX (x) = iii Si x ≥ 1 =⇒ fX (x) = 0 =⇒ FX (x) = De donde se tiene, 0 dt = 0. −∞ R0 R0 −∞ −∞ 0 dt + 0 dt + R1 0 Rx 0 1 dt = 0 + t 1 dt + Rx 1 ix 0 = x. 0 dt = 0 + t i1 0 + 0 = 1.    0 si x < 0    FX (x) = x si 0 < x < 1      1 si x ≥ 1 Determinación de FY : Veamos si g(x) es monótona en el soporte de X, X . d 1 g(x) = − < 0 , dx x para x ∈ (0, 1) = X , de donde g(x) resulta ser una función decreciente. Veamos cual es el soporte de Y . Y definido como en (2.7), resulta ser Y = (0, ∞). Queda calcular la g −1 (y) para y ∈ Y = (0, ∞); la cual resulta de y = g(x) = −logx =⇒ −y = logx =⇒ x = e−y = g −1 (y). Finalmente, aplicando el teorema 2.3.1 parte b), resulta FY (y) = 1 − FX (g −1 (y)) = 1 − FX (e−y ) = 1 − e−y , y ∈ Y = (0, ∞) Probabilidad y Estadı́stica Segundo Semestre 2005 53 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Para determinar fY (y) queda diferenciar la fda de Y , ası́ fY (y) = d FY (y) = ey dy (y > 0) La fdp y la fda de Y respectivamente son:   fY (y) = ey · I(0, ∞) , FY (y) = 0 si y ≤ 0  1 − e−y si y > 0 Este resultado afirma que si: X ∼ U (0, 1) =⇒ Y = −logX ∼ Exp(1). Si la fdp de Y es continua, puede ser obtenida derivando su fda. La expresión resultante está dada por el siguiente teorema Teorema 2.3.2. Supongamos X v.a. con una fdp fX (x). Sea Y = g(X), donde g es monótona una transformación de X; X e Y son respectivamente sus soportes. Suponga además que fX (x) es continua sobre X , y que g −1 (y) tiene una derivada continua sobre Y. Entonces la fdp de Y está dada por:   fX (g −1 (y))· | fY (y) =  0 d −1 dy g (y)) | si y ∈ Y (2.8) e.o.c. Demostración: Aplicando al teorema último la regla de la cadena, se tiene fY (y) = fY (y) = d FY (y) = dy d FY (y) = dy d d FX (g −1 (y)) = fX (g −1 (y)) · g −1 (y) g creciente dy dy d d (1 − FX (g −1 (y)) = −fX (g −1 (y)) · g −1 (y) g decreciente dy dy La cual puede ser expresada en forma consisa como en (2.8). Ejemplo 2.3.3. Ses fX (x) la fdp de una va. gamma, entonces esta tiene la forma, fX (x) = 1 xn−1 e−x/β · I(0, ∞) (n − 1)!β n β representa una constante positiva, n entero positivo. Se quiere encontrar la fdp de Y = g(X) = 1/X . Probabilidad y Estadı́stica Segundo Semestre 2005 54 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el resultado último no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es monótona sobre ciertos intervalos. Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X 2 . En este ejemplo resultará que fdp de Y está expresada como la suma de dos términos, donde cada uno de ellos representa el intervalo donde g(x) = x2 es monótona. En general este será el caso, dado en el siguiente problema. Teorema 2.3.3. Supongamos X tiene una fdp fX (x), Y = g(X), y se define el soporte de X, X . Supongamos que existe una partición A0 , A1 , . . . , Ak de X , tal que P (X ∈ A0 ) = 0 y fX (x) es continua sobre cada Ai . Además, supóngase que existen funciones g1 (x), g2 (x), . . . , gk (x), definidas sobre A1 , . . . , Ak respectivamente, satisfaciendo: (a) g(x) = gi (x) , para x ∈ Ai (b) gi (x) es monótona sobre Ai (c) El conjunto Y = {y : y = gi (x) , para algún x ∈ Ai } es el mismo para cada i = 1, . . . , k y (d) g −1 (y) tiene derivada continua en Y, para cada i = 1, . . . , k, entonces  P k  fY (y) = i=0 fX (g −1 (y))· |  d −1 dy g (y)) 0 | si y ∈ Y e.o.c. El punto más importante en este teorema es que X puede ser divididos en conjuntos A1 , . . . , Ak , tal que g(x) sea monótona sobre cada Ai . Es posible ignorar el conjunto excepcional A0 , ya que P (X ∈ A0 ) = 0. Esta es una técnica que puede ser usada para manejar los extremos de intervalo. Es importante notar que cada gi (x) es una transformación 1 − 1 de Ai en Y. Ejemplo 2.3.5. Sea X una va. con la distribución Normal estándar, entonces 1 2 fX (x) = √ exp−x /2 ·I(−∞, ∞) 2π Sea Y = X 2 . Halle fY (y) Probabilidad y Estadı́stica Segundo Semestre 2005 55 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado de libertad. Cerramos esta sección con una especial y muy conocida transformación, la transformación de probabilidad integral. Teorema 2.3.4. Consideremos X va. continua con fda FX (x) y se define la va. Y = FX (x). Entonces Y ∼ U (0, 1), tal que P (Y ≤ y) = y; 0 < y < 1. Antes de demostrarlo, daremos una mirada a FX−1 , la inversa de la fda con algún detalle. Si FX es estrictamente creciente, entonces FX−1 está bien definida como FX−1 (y) = x ⇐⇒ FX (x) = y (2.9) Sin embargo, si la fda llega a ser constante en algún intervalo, entonces su inversa no está bien definida por (2.10). Cualquier x ∈ [x1 , x2 ], por ejemplo (intervalo donde la FX (x) es constante), satisface FX (x) = y. Este problema se soluciona, definiendo FX−1 (y), para 0 < y < 1, del siguiente modo, FX−1 (y) = inf{x : FX (x) ≥ y}, (2.10) esta definición coincide con de FX−1 (y) cuando FX (x) = y no es constante, pero provee una FX−1 siempre univariada Dem. del teorema: Para Y = FX (X) = g(X); Y = (0, 1). P (Y ≤ y) = P (FX (X) ≤ y) = P (FX−1 (FX (X)) ≤ FX−1 (y)) (FX−1 creciente) = P (X ≤ FX−1 (y)) = FX (FX−1 (y)) (definicion de FX ) = y (continuidad de FX ) En los puntos extremos se tiene P (Y ≤ y) = 1 para y ≥ 1, y P (Y ≥ y) = 0 para y ≤ 1, mostrando ası́ que Y ∼ U (0, 1) Probabilidad y Estadı́stica Segundo Semestre 2005 56 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica ¿Cómo se razonó detrás de la igualdad P (FX−1 (FX (X)) ≤ FX−1 (y)) = P (X ≤ FX−1 (y))? esta requiere una particular atención. Si FX es estrictamente creciente, entonces es verdad que FX−1 (FX (X)) = X. Sin embargo, si FX presenta algún escalón, puede suceder que FX−1 (FX (X)) 6= X, pero eso se salva ocupando la definición para FX−1 con en (2.10). Una aplicación de este teorema está en la generación de muestras aleatorias provenientes de una distribución particular. Si se quiere generar una observación x proveniente de una población con fda FX , necesitamos generar solamente el número aleatorio uniforme u entre 0 y 1, y resolver para x la ecuación FX (x) = u. 2.4. Valores Esperados El valor esperado ó esperanza de una v.a. X es, su valor promedio. Aquı́ hablamos de valor promedio como de tal pensado de acuerdo con la distribución de probabilidad. El valor esperado de una distribución, también puede ser pensado como una medida de centralización, del mismo modo como se piensan los promedios estando en el medio de todos los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribución de probabilidad, queremos obtener un número que resuma un valor tı́pico o esperado de las observaciones de la v.a. Examinemos el siguiente ejemplo, Considere seleccionar al azar a un estudiante que está entre 15000 registrados para el perı́odo académico de una Universidad. Sea X = cantidad de cursos en los que el estudiante seleccionado se inscribe; supongamos que X tiene la siguiente fmp, x 1 2 3 4 5 6 7 fX (x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02 Probabilidad y Estadı́stica Segundo Semestre 2005 57 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Podemos considerar a la población como aquella formada por 15000 personas, cada una con su propio valor de X (según la cantidad de materias en las que inscribió en ese año académico); la proporción con cada valor X está dada por fX (x) de la tabla. Por ejemplo podrı́amos interpretar el valor fX (1) = P (X = 1) = 0,01, como que 1 de cada 100 estudiantes se inscribió en una sola materia; o sea que 150 del total de 15000 se inscribieron en una sola materia. Análogamente, fX (2) = P (X = 2) = 0,03, como que 3 de cada 100 estudiantes se inscribió en dos materias; o sea que 450 del total de 15000 se inscribieron en dos materias; y ası́ siguiendo, se genera la tabla (2.4) x 1 2 3 4 5 6 7 fX (x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02 No registrado 150 450 1950 3750 5850 2550 300 Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la población misma como formada por los valores X. Una vez que tengamos un modelo matemático para una población, el objetivo será utilizarlo para calcular valores caracterı́sticos de esa población (como por ejemplo la media µ) y hacer inferencias a partir de tales caracterı́sticas. Si se quisiera determinar el número promedio de cursos por estudiante, o el valor promedio de X de la población, debemos calcular el número total de cursos y dividir entre el número total de estudiantes. El valor promedio de X de la población es entonces, 1(150) + 2(450) + 3(1950) + · · · + 7(300) = 4,57, 15000 como 150 15000 (2.11) 450 = 0,01 = fX (1); 15000 = 0,03 = fX (2); . . . , etc., otra expresión para el cociente (2.11) es: 1 · fX (1) + 2 · fX (2) + 3 · fX (3) + · · · + 7 · fX (7) (2.12) Esta expresión (2.13) muestra que para calcular el valor promedio de X de la población, sólo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones). Probabilidad y Estadı́stica Segundo Semestre 2005 58 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica El valor promedio, o la media de X es entonces un promedio ponderado de los posibles valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores. La expresión (2.13), nos conduce la siguiente definición de valor esperado ó media de una población. Definición 2.4.1. El valor esperado ó media de una va. g(X), denotado por E g(X), es  R  ∞ g(x) fX (x) dx si X es continua −∞ E g(X) = P  P x∈X g(x) fX (x) = x∈X g(x) P (X = x)) si X es discreta Suponiendo que la integral ó suma existen. Si E | g(X) |= ∞ diremos que E g(X) no existe. Ejemplo 2.4.1. Supongamos que X tiene una distribución exponencial λ, es decir su fdp es, fX (x) = 1 −x/λ e · I(0 ≤ x < ∞) λ λ>0 Se pide encontrar E X Rta. E X = λ Ejemplo 2.4.2. Si X tiene una distribución binomial con parámetros n y p, entonces su fmp es, µ ¶ n x P (X = x) = p (1 − p)n−x , x x = 0, 1, . . . , n donde n es un entero positivo, 0 ≤ p ≤ 1, y para cada par de valores fijos n y p, la fmp suma 1. Determine el valor esperado de X. Rta.: E X = np Ejemplo 2.4.3. Un ejemplo clásico de una variable aleatoria cuyo valor esperado no existe es la variable aleatoria Cauchy, cuya fdp es, fX (x) = 1 1 , π 1 + x2 −∞ ≤ x ≤ ∞. Mostrar, entonces que E | g(X) |= ∞. Probabilidad y Estadı́stica Segundo Semestre 2005 59 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica El proceso de tomar esperanza es una operación lineal, lo cual significa que la esperanza es una función lineal de X, la cual entonces puede ser fácilmente evaluada, notando que para cualquier par de valores a y b, E (aX + b) = aE X + b. El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para calcularla. La mayorı́a de tales propiedades se derivan de las propiedades de la integral ó la suma, y son resumidas en el siguiente teorema: Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g1 (X), g2 (X), funciones de la va. X, cuyas esperanzas existen, se cumple: (a) E (ag1 (X) + bg2 (X) + c) = aE (g1 (X)) + bE (g2 (X)) + c. (b) Si g1 (x) ≥ 0, ∀ x =⇒ E (g1 (X)) ≥ 0. (c) Si g1 (x) ≥ g2 (x), ∀ x =⇒ E (g1 (X)) ≥ E (g2 (X)). (d) Si a ≤ g1 (x) ≥ b, ∀ x =⇒ a ≤ E (g1 (X)) ≥ b. Ejemplo 2.4.4. También es posible interpretar el valor esperado de una va., pesándola con relación a considerarla como un ”buen acierto”para el valor de X. Supongamos que medimos la distancia entre una va. X y una constante b mediante la forma (X − b)2 , o sea buscamos el valor de b más cercano a X. Podemos ası́, determinar el valor de b que minimiza E(X − b)2 y, por lo tanto esto podrı́a interpretarse en términos estadı́sticos como la búsqueda de un buen predictor de X. (Note que no es bueno mirar un valor de b que minimice (X − b)2 , ya que la respuesta podrı́a depender de X, siendo ası́ un predictor inútil de X). Podrı́amos proceder a minimizar E(X − b)2 ocupando las herramientas que nos provee el cálculo, pero hay un método más simple, usando la creencia que existe algo especial en relación con este problema y la E X, ası́ escribimos E(X − b)2 = E(X − E X + E X − b)2 = E((X − E X) + (E X − b))2 = E(X − E X)2 + (E X − b)2 + 2E((X − E X)(E X − b)), Probabilidad y Estadı́stica Segundo Semestre 2005 60 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica en esta última igualdad hemos expandido el cuadrado. Ahora note que E((X − E X)(E X − b)) = (E X − b)E(X − E X) = 0 ya que (E X − b) es constante sale fuera de la expresión, y E(X − E X) = E X − E X = 0. Esto significa que E(X − b)2 = E(X − E X)2 + (E X − b)2 . (2.13) No tenemos control sobre el primer término del lado derecho en la igualdad (2.13) y el segundo término, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X. Por lo tanto, mı́n E(X − b)2 = E(X − E X)2 b (2.14) Existe un resultado similar para la mediana. Cada vez que evaluemos la esperanza de una función no lineal de X, podemos proceder de dos maneras diferentes. De la definición de E g(X), serı́a posible calcular directamente Z ∞ E g(X) = −∞ g(x)fX (x) dx. (2.15) Pero también podrı́amos primero encontrar la fdp fY (y) para la va. Y = g(X), y luego calcular Z ∞ E g(X) = E Y = −∞ y fY (y) dy. (2.16) Ejemplo 2.4.5. Sea X ∼ U (0, 1), Y = g(X) = −log X. Mostraremos que la E Y calculada de las formas mencionadas en (2.15) y (2.16) da el mismo resultado. 2.5. Momentos y Funciones Generadoras de Momentos Los distintos momentos de una distribución son una importante clase de esperanzas. Definición 2.5.1. Para cada entero n, el n-ésimo momento de X (ó de FX (x)), notado µ0n , es µ0n = E X n . Probabilidad y Estadı́stica Segundo Semestre 2005 61 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica El n-ésimo momento central de X, es µn = E (X − µ)n , donde µ = µ0 = E X Además de la media, E X, de una va., quizá el momento más importante es el central de segundo orden, más comúnmente conocido como la varianza. Definición 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X = E(X − E X)2 . La raı́z cuadrada positiva de la V ar X se denomina desviación estándar de X. La varianza de una medida del grado de diseminacion de una distribución alrededor de la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(X − b)2 es minimizada eligiendo b = E X. Consideremos ahora la medida absoluta de este mı́nimo. La interpretación agregada a la varianza es que valores grandes de la misma, significan que X es muy variable. En el extremo, si V ar X = E(X − E X)2 = 0, entonces X = E X con probabilidad 1, y no existe variación en X. La desviación estándar tiene la misma interpretación cualitativa: pequeños valores de la misma significan que X está probablemente muy cerca de E X, y grandes valores significa que X es muy variable. La desviación estándar es más fácil para interpretar, pues su unidad de medida es la misma que la de los datos originales en la va. X. Ejemplo 2.5.1. Supongamos X ∼ Exp(λ). Hemos calculado ya E X = λ. Se propone ahora calcular V ar X. Rta.: V ar X = λ2 Vemos que la varianza de una distribución exponencial está directamente relacionada con el parámetro λ. Es posible dibujar distintas distribuciones exponenciales, cambiando los valores de λ. De esta manera será posible notar como la distribución está más concentrada alrededor de su media para valores pequeños de λ. El comportamiento de la varianza de una va. exponencial, como una función de λ, es una caso especial del comportamiento de la varianza resumido en el siguiente teorema, Probabilidad y Estadı́stica Segundo Semestre 2005 62 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Teorema 2.5.1. Si X es una va. con varianza finita, entonces para cualquier par de constantes a, b se cumple, V ar(aX + b) = a2 V ar X. En muchos casos es más fácil usar una fórmula alternativa para la varianza, dada por, V ar X = E X 2 − (E X)2 , (2.17) la cual es muy fácil de demostrar. Ejemplo 2.5.2. Supongamos que X ∼ Bib(n, p). Hemos probado que E X = np. Se pide ahora calcular V ar X. Rta.: V ar X = np(1 − p) Para calcular momentos de orden más alto se procede de manera análoga. En aplicaciones, momentos de orden 3 ó 4 algunas veces resultan de interés, pero usualmente existen razones estadı́sticas para examinar momentos de orden más algo que 2. Ahora introduciremos una nueva función, la cual está asociada con distribuciones de probabilidad, la función generadora de momentos (fgm). Como su nombre lo sugiere, la fgm puede ser usada para generar momentos. En la práctica es más fácil en muchos casos calcular momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el de generar momentos, sino ayudar para caracterizar una distribución. Esta propiedad nos puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente. Definición 2.5.3. Sea X una va. con fda. FX . La función generadora de momentos (fgm) de X (o FX ) , denotada por MX (t) ,es MX (t) = E et X , suponiendo que la esperanza exista para valores de t en algún entorno del 0. Esto es, existe un h > 0 tal que, para todo t ∈ (−h, h) E et X existe. Si tal esperanza no existe en un entorno del 0, nosotros diremos que la fgm no existe. Probabilidad y Estadı́stica Segundo Semestre 2005 63 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Más explı́citamente, podemos escribir la fgm de X como MX (t) = MX (t) = R∞ −∞ et x fX (x) dx Si X es continua et x fX (x) Si X es discreta P x∈X Es muy fácil ver de que manera una fgm genera momentos. Se resume el siguiente teorema, Teorema 2.5.2. Si X tiene fgm MX (t), entonces (n) E X n = MX (0), donde se define (n) MX (0) = dn MX (t)|t=0 . dtn Es decir el n-ésimo momento de la va. X es igual a la n-ésima derivada de la fgm de X evaluada en t = 0 Del teorema último anterior es fácil mostrar que, d MX (t)|t=0 = E X et X |t=0 = E X. dt Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso general es, fX (x) = 1 xα−1 e−x/β , Γ(α) β α 0 < x < ∞, α > 0, β > 0, donde Γ(α) representa la función gamma. Determinar la MX (t) para esta va. ³ Rta.: MX (t) = 1 1−βt ´α si t < β1 . Ejemplo 2.5.4. Para otra ilustración sobre el cálculo de la fgm, consideremos una distribución discreta, la distribución binomial. Si X ∼ Bin(n, p), determina la fgm de X Rta.: MX (t) = [pet + (1 − p)]n . Podrı́a ocurrir que existan dos va. con distintas fdp, pero que generen los mismos momentos, e.d., X1 ∼ f1 Probabilidad y Estadı́stica Segundo Semestre 2005 , X2 ∼ f2 64 con f1 6= f2 , Prof.Mg. Osmar Vera Probabilidad y Estadı́stica pero tal que E X1r = E X2r r = 0, 1, . . .. Querrı́amos tener condiciones para poder caracterizar las distribuciones con iguales momentos. El siguiente teorema muestra como puede ser caracterizada una distribución usando su fgm. Teorema 2.5.3. Sean FX (x), FY (y) dos fda tales que sus momentos existen (a) Si FX y FY tienen soporte acotado, entonces FX (u) = FY (u) sı́ y sólo sı́ E Xr = E Y r r = 0, 1, . . .. (b) Si las fgm existen y se cumple MX (t) = MY (t) para todo t en algún entorno del 0, entonces FX (u) = FY (u) ∀ u. La demostración de este teorema recae en las teorı́a de las ”transformaciones de Laplace”(ver Widder 1946, Feller 1971) razones por lo cual su tratamiento escapa al nivel de estas notas. Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b está dada por MY (t) = MaX+b (t) = eb t MX (at). Probabilidad y Estadı́stica Segundo Semestre 2005 65 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.6. Ejercicios 2.1 De un lote que contiene 25 artı́culos, 5 de los cuales son defectuosos, se eligen 4 al azar. Sea X el número de defectuosos encontrados. Obtener la distribución de probabilidades de X si, (a) los artı́culos se escogen con sustitución (b) los artı́culos se escogen sin sustitución. 2.2 Supóngase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P (X = j) = 1/2j , j = 1, 2, . . . (a) Calcular P (Xsea par ). (b) Calcular P (X ≥ 5). (c) Calcular P (Xes divisible por 3) 2.3 Considérese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P (X = j) = (1 − a) aj , j = 0, 1, . . . (a) ¿Para qué valores a es significativo el modelo anterior? (b) Verificar que la anterior representa una legı́tima f.m.p. (c) Demostrar que para dos enteros positivos cualesquiera s y t, P (X < s + t | X > s) = P (X ≥ t). 2.4 Considere la v.a. X que mide la duración de un tubo electrónico, y supongamos que X se puede representar como una v.a. continua con f.d.p. fX (x) = be−bx I (x ≥ 0). Sea pj = P (j ≤ X < j + 1). Demostrar que pj es de la forma (1 − a) aj y determine a. 2.5 La v.a. continua X tiene f.d.p. fX (x) = 3x2 I(−1 ≤ x ≤ 0). Si b es un número que satisface −1 < b < 0, calcular P (X > b | X < b/2). 2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a., en donde X, 0 < X < 1, tiene la siguiente fdp: fX (x) = 20x3 (1 − x)I(0 < x < 1). Probabilidad y Estadı́stica Segundo Semestre 2005 66 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica (a) Obtener una expresión para fda, FX y dibujar su gráfico. (b) Calcular la P (X ≤ 23 ). (c) Supóngase que el precio de venta del compuesto depende del contenido alcohólico. Especı́ficamente, si 1 3 <X < 2 3, el compuesto se vende por C1 dólares/galón. Encontrar la distribución de probabilidades de la utilidad neta por galón. 2.7 Supóngase que X está distribuida uniformemente en [−α, α], en donde α > 0. Cada vez que sea posible determinar α de modo que se satisfaga lo siguiente: (a) P (X > 1) = 1 3 (d) P (X > 21 ) = 0,3 (b) P (X > 1) = 1 2 (c) P (X > 12 ) = 0,7 (e) P (| X |< 1) = P (| X |> 1). 2.8 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1. (a) fX (x) = 42x5 (1 − x), 0 < x < 1; Y = X 3 . (b) fX (x) = 7e7x , 0 < x < ∞; Y = 4X + 3. 2.9 Si X tiene fdp fX (x) = 1 −(x/σ2 )/2 xe · I(0, ∞), σ2 σ 2 es una constante positiva Determine la fdp de Y = eX . 2.10 Suponga que X tiene una distribución geométrica con fmp dada por fX (x) = 13 ( 32 )x , x = 0, 1, 2, . . .. Determine la distribución de probabilidades de Y = X/X + 1. Note que tanto X como Y son v.a. discretas. Para especificar la distribución de probabilidad de Y , especifique su fmp. 2.11 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1. (a) fX (x) = 1 2 e−|x| , −∞ < x < ∞; Y =| X |3 . (b) fX (x) = 38 (x + 1)2 , −1 < x < 1; Y = 1 − X 2 . (c) fX (x) = 38 (x + 1)2 , −1 < x < 1; Y = 1 − X 2 si X ≤ 0 e Y = 1 − X si X > 0. Probabilidad y Estadı́stica Segundo Semestre 2005 67 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.12 Suponga que X es una va. con la siguiente función de densidad 1 fX (x) = (1 + x) · I(−1, 1). 2 (a) Encuentre la fdp. de Y = X 2 (b) Encuentre la E X y la V arX 2.12 Una mediana de una distribución es un valor m tal que P (X ≤ m) = P (X ≥ m) = 12 . Rm R∞ (Si X es continua, m satisface −∞ fX (x)dx = m fX (x)dx = 12 .). Encuentre la mediana de las siguientes distribuciones (a) fX (x) = 3x2 · I(0, 1) (b) fX (x) = 1 π(1+x2 ) 2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad (a) fX (x) = axa−1 (b) fX (x) = 1 n 0 < x < 1, a > 0 x = 1, 2, . . . , n; n > 0 entero (c) fX (x) = 32 (x − 1)2 , 0<x<2 2.14 Sea µn el n-ésimo momento central de la va. X. Dos cantidades de interés, agregadas a la media y la varianza son, α3 = µ3 (µ2 )3/2 y α4 = µ4 . (µ2 )2 El valor α3 es llamado coeficiente de asimetrı́a, y el α4 es llamado de curtosis. La medida de asimetrı́a se refiere a cuanto se aparta la forma de la distribución simétrica la fdp. La curtosis, aunque mucho mas difı́cil de interpretar que la asimetrı́a, mide cuanta forma de punta ó chata tiene la fdp. (a) Muestre que si la fdp es simétrica alrededor de un punto a, entonces α3 = 0. (b) Calcule α3 para f (x) = e−x , x ≥ 0, una fdp que tiene asimetrı́a a la derecha. (c) Calcule α4 para cada una de las siguientes fdp. (i) f (x) = (ii) f (x) = √1 2π 1 2 e−x 2 /2 , −∞ < x < ∞ · I(−1, 1) (iii) f (x) = 12 e−|x| , −∞ < x < ∞ Probabilidad y Estadı́stica Segundo Semestre 2005 68 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica 2.15 Sea MX (t) la fgm de una va. X, y se define S(t) = log(MX (t)). Muestre que, d2 S(t)|t=0 = V ar X. dt2 d S(t)|t=0 = E X dt 2.16 En cada uno de los siguientes casos verifique que la expresión dada para la fgm, y en cada caso use la fgm para determinar la E X y la V arX. (a) P (X = x) = e−λ λx x! , t −1) MX (t) = eλ(e (b) P (X = x) = p(1 − p)x , (c) f (x) = 2 /(2σ e−(x−µ) √ 2πσ 2) MX (t) = , MX (t) = eµt+σ , x = 0, 1, 2, . . . ; p 1−(1−p)et 2 t2 /2 λ>0 , x = 0, 1, 2, . . . ; 0 < p < 1 , −∞ < x < ∞, −∞ < µ < ∞, σ > 0 2.17 Determinar E X 4 para X ∼ N (0, 1) [use que ϕ0 (x) = xϕ(x)]. 2.18 Teorema: [Convergencia de fgm]: Suponga que {Xi , i = 1, 2, . . .} es una secuencia de va., cada una con fgm MXi (t). Además suponga que lı́m MXi (t) = MX (t) i−→∞ para todo t en un entorno de 0, y MX (t) es una fgm. Entonces existe una única fda FX , cuyos momentos son determinados por MX (t)y, para todo x donde FX (x) es continua, se tiene lı́m FXi (x) = FX (x). i−→∞ Esto significa, convergencia ∀ t, | t |< h, de fgm´s a fgm implica convergencia de fda respectiva.1 Una aproximación muy útil es la de la distribución Binomial a la distribución de Poisson. La distribución binomial está caracterizada por dos cantidades, n y p. La aproximación de Poisson es válida cuando ”n es grande y np pequeño”. La fmp de una va. con distribución de Poisson está dada por P (X = x) = e−λ λx , x! x = 0, 1, . . . , λ > 0. La aproximación afirma que si X ∼ Bin(n, p) e Y ∼ P o(λ), con λ = np, entonces P (X = x) ≈ P (Y = x) para n grande y np pequeño. 1 La demostración de este teorema también recae sobre la teorı́a de transformadas de Laplace Probabilidad y Estadı́stica Segundo Semestre 2005 69 Prof.Mg. Osmar Vera Probabilidad y Estadı́stica Se te pide demostrar esta afirmación siguiendo los siguientes pasos: (a) Encontrar MX (t), MY (t) (b) Reemplazar p = λ n en MX (t) (c) Calcular el lı́mn−→∞ MX (t), observando que su resultado es justamente MY (t) la fgm de la Poisson. (d) Ocupando Excel grafique en un mismo sistema de ejes coordenados la fmp de una Bin(15, 0,3) y de una P o(4,5); observe el resultado del teorema. Probabilidad y Estadı́stica Segundo Semestre 2005 70 Prof.Mg. Osmar Vera

CapII.pdf

Documentos relacionados

Productos

Apoyo

CapII.pdf

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib