pág. 1 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Combinatoria 1 Principios básicos La combinatoria es una disciplina que se ocupa de estudiar técnicas de conteo y enumeración de conjuntos, en especial cuando la cantidad de elementos que poseen es muy grande (de modo que una lista extensiva serı́a imposible o impráctica). Aplicada a la teorı́a de probabilidades permite en muchos casos determinar la cantidad de elementos de un espacio muestral finito y la cantidad de elementos de algún evento de interés. Presentamos dos reglas básicas de la combinatoria: Principio de la multiplicación Supongamos que un experimento consta de dos etapas. Si como resultado de la primera etapa pueden darse n resultados posibles y si, independientemente del resultado particular de la primera etapa, la segunda etapa puede dar lugar a m resultados posibles, entonces la cantidad de posibles resultados del experimento es n · m El principio se extiende de manera natural a un experimento en r etapas, donde la i-ésima etapa tiene una cantidad ni de posibles resultados (independientemente de los resultados particulares de las etapas anteriores), donde i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del r Q experimento es ni i=1 Ejemplo: Una caja contiene 5 cartas distintas de una baraja española. Se extraen dos cartas al azar. Si se realiza la extracción con reposición ¿ De cuántas maneras distintas es posible realizarlo? Rta: 5· 5 = 25 maneras distintas. Si se realiza la extracción sin reposición ¿ De cuántas maneras distintas es posible realizarlo? Rta: 5 · 4 = 20 maneras distintas. Principio de la adición Un experimento puede llevarse a cabo de dos formas. Cuando se lo realiza de una forma conduce a n resultados posibles. Cuando se lo realiza de la otra forma conduce a m resultados posibles. Entonces eligiendo una u otra forma para realizarlo, el experimento da lugar a n + m resultados posibles. El principio de la adición también se generaliza a un experimento que se realiza de una entre r maneras posibles, siendo ni la cantidad de posibles resultados cuando se lo realiza de la i-ésima forma, donde r P i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del experimento es ni i=1 Ejemplo: Para viajar de Buenos Aires a San Pablo se puede optar por tres compañı́as aéreas o por cinco empresas de omnibus ¿ Cuántas maneras diferentes existen para contratar el viaje? Rta: 3 + 5 = 8 maneras distintas. 2 Variaciones Se tienen n objetos diferentes y se quiere ordenar k de ellos en fila, siendo k ≤ n. Cada posible ordenamiento se denomina una variación de los n objetos tomados de a k. Para calcular la cantidad total de variaciones utilizamos el principio de la multiplicación: Para el primer lugar de la fila hay n posibles maneras de llenarlo con un objeto. Independientemente de cuál sea el objeto que ocupe el primero lugar, para llenar el segundo lugar de la fila disponemos ahora de n − 1 objetos dado que uno de los objetos ya fue utilizado para cubrir el primer lugar. Independientemente de cuáles hayan sido los objetos que llenan los dos primeros lugares de la fila, para cubrir el tercer lugar disponemos de n − 2 objetos pues dos ya han sido utilizados. Ası́ sicesivamente de modo que aplicando el principio Prof.J.Gastón Argeri 1 pág. 2 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 de la multiplicación, la cantidad total de posibles variaciones de n tomados de a k resulta ser: (n)k = n · (n − 1) · (n − 2) · · · · · [n − (k − 1)] = n! (n − k)! Ejemplo: En un club se postulan cinco miembros, digamos A,B,C,D y E, para ocupar las posiciones de presidente y secretario. Para identificar todas las posibles maneras de elegir entre ellos un presidente y un secretario, formamos las variaciones de 5 tomadas de a 2. En este caso la ”fila” tiene en primer lugar al presidente y en segundo lugar al secretario. El listado de las 5 · 4 = 20 variaciones es el siguiente: AB AC AD AE BA BC BD BE CA CB CD CE DA DB DC DE EA EB EC ED 3 Permutaciones Un caso particular de variaciones de n objetos tomados de a k se presenta cuando k = n. En tal caso las variaciones reciben el nombre de permutaciones de n objetos y corresponden a las diferentes maneras de ordenar en fila n objetos diferentes. La cantidad de permutaciones de n objetos resulta entonces ser: n · (n − 1) · (n − 2) · · · · · [n − (n − 1)] = n! Ejemplo: La cantidad de números de cuatro cifras que pueden formarse a partir de los dı́gitos 3, 5, 6, 8 sin repetir ninguno de ellos resulta ser 4! = 24. Damos un listado de dichos números: 3568 3586 3658 3685 3856 3865 4 5368 5386 6358 6385 8356 8365 5638 5836 6538 6835 8536 8635 5683 5863 6583 6853 8563 8653 Combinaciones Dados n objetos diferentes, cada conjunto formado por k de los n elementos se dice una combinación de los n elementos tomados de a k. La diferencia entre variaciones y combinaciones reside en el hecho que las combinaciones no tienen en cuenta el orden relativo entre los elementos (ya no podemos pensar en un ”fila”). Por ejemplo, si se tienen cuatro objetos A,B,C y D las posibles combinaciones de a 2 son: AB AC AD BC BD CD Compárese esto con las posibles variaciones de 4 tomados de a 2: AB BA AC CA AD DA BC CB BD DB CD DC Para determinar la cantidad de combinaciones de n tomados de a k procedemos de modo indirecto del modo siguiente: Anotemos provisoriamente x a dicha cantidad. Para una dada combinación existen k! maneras diferentes de ordenar sus elementos en una fila. Además, combinaciones diferentes darán Prof.J.Gastón Argeri 2 pág. 3 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 lugar a filas con diferentes configuraciones, dado que diferirán en al menos uno de los objetos presentes. De esta manera, tomando todas las posibles combinaciones y ordenando en fila los k objetos en cada una de ellas, obtendremos la totalidad de posibles ordenamientos en fila de k de los n objetos, es n! decir la totalidad de variaciones de n tomados de a k. Por lo tanto: x · k! = (n−k)! Despejando x resulta que la cantidad de posibles combinaciones de n objetos tomados de a k, ¡n¢ número que representaremos con el sı́mbolo k es: µ ¶ n n! = k k!(n − k)! Este número se denomina número combinatorio n sobre k. En precedente n = 4 , k = 2 de modo que la cantidad de posibles combinaciones es ¡4¢ el ejemplo 4! 4! = = 3! = 6 = 2!2! 4 2 Propiedad 1 µ ¶ n = k µ n−k Dem: La demostración queda a cargo del lector. Propiedad 2 µ n j−1 Dem: ¡ n ¢ j−1 + ¡n¢ j ¶ + n µ ¶ n j = ¶ µ ¶ n+1 j = n! (j−1)!(n−j+1)! + n! j!(n−j)! = n! (j−1)!(n−j)!(n−j+1) + n! (j−1)!j(n−j)! = n! (j−1)!(n−j)! ³ = n! (j−1)!(n−j)! = n!(n+1) (j−1)!j(n−j)!(n+1−j) 1 n−j+1 · + j+n−j+1 j(n−j+1) = ´ = = = (n+1)! j!(n+1−j)! ¥ 5 1 j = = ¡n+1¢ j Binomio de Newton Dados números a, b ∈ R sabemos que el desarrollo del cuadrado del binomio a + b viene dado por: (a + b)2 = a2 + 2ab + b2 Podemos reescribir este desarrollo como: µ ¶ µ ¶ µ ¶ 2 µ ¶ X 2 2 2 2 2 0 1 1 0 2 2 ak b2−k a b = a b + a b + (a + b) = k 2 1 0 k=0 Análogamente para el desarrollo del cubo de un binomio: (a + b)3 = a3 + 3a2 b + 3ab2 + b3 Prof.J.Gastón Argeri 3 pág. 4 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 que también puede reescribirse como: 3 (a + b) = µ ¶ 3 0 0 3 a b + µ ¶ 3 1 1 2 a b + µ ¶ 3 2 2 1 a b + µ ¶ 3 3 3 0 a b = 3 µ ¶ X 3 k=0 k ak b3−k La fórmula del binomio de Newton generaliza lo anterior al desarrollo de cualquier potencia natural de un binomio y se expresa de la siguiente manera. Teorema 1 (Fórmula del binomio de Newton) Para cualesquiera números a, b ∈ R y cualquier número n ∈ N se verifica: n (a + b) = n µ ¶ X n k k=0 ak bn−k Dem: Por inducción respecto de n demostraremos que la proposición n p(n) : ∀a, b ∈ R, (a + b) = n µ ¶ X n k=0 k ak bn−k es verdadera para todo número natural n. Paso base: Probemos que p(1) es V. 1 p(1) : ∀a, b ∈ R, (a + b) = 1 µ ¶ X 1 k=0 k ak b1−k El miembro izquierdo de la igualdad es simplemente a + b. El miembro derecho es: µ ¶ µ ¶ 1 1 0 1 a 1 b0 = b + a a b + 1 0 de modo que p(1) es verdadera. (HI)Hipótesis inductiva: Supongamos que p(n) es verdadera. Ahora probaremos que necesariamente p(n + 1) es verdadera, bajo el supuesto (HI). Para ello Prof.J.Gastón Argeri 4 pág. 5 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 procedemos ası́: (a + b)n+1 = (a + b)(a + b)n = (a + b) n ¡ ¢ P n k k=0 = a n ¡ ¢ P n k=0 n ¡ ¢ P n = k k=0 n+1 P = j=1 = = ¡n¢ n j=1 0 bn+1 ¡n¢ = = + 0 ¡n+1¢ 0 ak+1 bn−k + n ¢ j n−j+1 a b j−1 n ¢ j n−j+1 a b j−1 n h¡ P bn+1 + n ¢ j−1 + j n ¡ P n+1¢ j=1 n+1 P = j=0 + j=0 + j ¡n¢ 0 j j ak bn−k = ak bn−k+1 = aj bn−j+1 = n ¡ ¢ P n bn+1 + j=1 aj bn−j+1 ) + aj bn−j+1 + ¡n¢ aj bn−j+1 + ¡n+1¢ ¡n+1¢ j k n ¡ ¢ P n ¡n¢i n ¡ P n+1¢ j=1 a0 bn+1 + n ¡ ¢ P n k=0 j=1 k k=0 ¡ ( n ¡ ¢ P n ak bn−k + b n ¡ P an+1 + ¡n¢ k ak bn−k = n j ¡n¢ n aj bn−j+1 = an+1 = an+1 = n+1 an+1 b0 = aj bn+1−j que muestra que p(n + 1) es verdadera. Luego, por inducción completa p(n) es verdadera para todo n ∈ N ¥ 6 Permutaciones con repetición Supongamos que queremos determinar cuántas palabras de cuatro letras pueden formarse con las letras de la palabra AZAR. Aquı́ entendemos por ”palabra” cualquier secuencia que utilice las cuatro letras de AZAR, tenga o no significado en algún lenguaje. Para averiguar cuántas pueden formarse, digamos x (a determinar), consideremos el siguiente razonamiento: Si bien la palabra AZAR posee sólo tres letras diferentes, a saber A,Z,R, momentáneamente distingamos las dos apariciones de la letra A, por ejemplo podrı́amos ”pintar” de dos colores diferentes las dos letras A. En tal caso ya sabemos que la cantidad de posibles ordenamientos de las cuatro letras distintas es 4!. Ahora bien, cada ordenamiento de los x (que no distinguen entre ambas A) da lugar de manera natural a 2! ordenamientos (que sı́ distinguen entre ambas A), por simple permutación de las dos letras A entre 4! sı́. Por lo tanto podemos afirmar que: x · 2! = 4! Se deduce que: x = 2! El mismo tipo de razonamiento se generaliza cuando hay varias letras (objetos) repetidas. Formalmente: Si se tienen r objetos diferentes de los cuales se va a repetir el primero n 1 veces, el segundo n2 veces, · · · , el r-ésimo nr veces, la cantidad total de configuraciones en fila de n = n1 + · · · + nr objetos con las repeticiones especificadas anteriormente es: (n1 + n2 + · · · + nr )! n1 ! n 2 ! · · · n r ! Prof.J.Gastón Argeri 5 pág. 6 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 El número anterior se denomina coeficiente multinomial y suele anotarse también como ¶ µ (n1 + n2 + · · · + nr )! n = n1 , n 2 , · · · , n r n1 ! n 2 ! · · · n r ! Por ejemplo, con las letras de la palabra AZAR pueden formarse convencernos las listamos todas: AZAR AARZ ZAAR RAAZ AZRA ARZA ZARA RAZA 4! 2! = 12 palabras diferentes. Para AAZR ARAZ ZRAA RZAA Teorema 2 (Teorema multinomial) Para cualesquiera números x1 , x2 , · · · , xr ∈ R y cualquier número n ∈ N se verifica ¶ µ X n n xk11 · · · xkr r (x1 + x2 + · · · + xr ) = k , · · · , k 1 r 0≤k ,··· ,k r ≤n 1 k1 +···+k r =n 7 Distribución de bolillas en urnas Diversos problemas de ı́ndole combinatorio pueden representarse mediante problemas ”modelo” basados en disposiciones de bolillas en urnas. 7.1 7.1.1 Disposiciones de n bolillas distintas en r urnas distintas Más de una bolilla es admisible por urna En este caso simplemente se trata de un experimento en n etapas: La primera etapa consiste en ubicar la primera bolilla en alguna de las r posibles urnas. La segunda etapa consiste en colocar la segunda bolilla en alguna de las r urnas aún disponibles, etc. De manera que la cantidad de posibles disposiciones es en total n r | · r{z· · · r} = r n 7.1.2 A lo sumo una bolilla es admisible por urna Este caso exige que n ≤ r. Para la primera bolilla hay r posibles urnas donde ubicarla, para la segunda bolilla hay sólo r − 1 urnas vacı́as para ubicarla, para la tercer bolilla hay sólo r − 2 urnas vacı́as disponibles, etc. De modo que la cantidad total de posibles disposiciones es r · (r − 1) · (r − 2) · · · [r − (n − 1)] es decir igual al número de variaciones de r tomados de a n. 7.2 7.2.1 Disposiciones de n bolillas idénticas en r urnas distintas No pueden quedar urnas vacı́as En este caso debe ser n ≥ r pues de lo contrario necesariamente quedarı́an urnas vacı́as. Podemos asimilar este problema de combinatoria representando las bolillas indistinguibles por asteriscos ”∗” y las separaciones entre urnas mediante barras ”|” Ası́ por ejemplo una configuración con tres urnas y cinco bolillas podrı́a representarse por: ∗ ∗ | ∗ | ∗ ∗ Esto quiere simbolizar de algún modo que en la primera urna hay exactamente dos bolillas, en la segunda urna exactamente una bolilla y en la tercera urna exactamente dos bolillas. Si disponemos las bolillas en una hilera, ubicar las n bolillas idénticas en las r urnas diferentes equivale a ubicar r − 1 separadores ”|” en los n − 1 espacios entre bolillas consecutivas. Esto Prof.J.Gastón Argeri 6 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 puede realizarse de ¡n−1¢ r−1 pág. 7 maneras distintas. Ejemplo: Distribuir seis bolillas idénticas en tres urnas diferentes, sin permitir urnas vacı́as. Listamos las posibilidades: ∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗| ∗ ∗∗ ∗| ∗ ∗ ∗ | ∗ ∗ ∗| ∗ ∗ ∗ ∗|∗ ∗ ∗ | ∗ | ∗ ∗∗ ∗ ∗ | ∗ ∗| ∗ ∗ ∗ ∗ | ∗ ∗ ∗ |∗ ∗ ∗ ∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗|∗ ∗ ∗ ∗ ∗ | ∗ |∗ Ejemplo: Hallar todas las descomposiciones del número 8 como suma de tres números naturales. Considerar que el orden relativo de los tres términos en la descomposición es relevante. Se tendrán las siguientes posibles descomposiciones: 1|1|111111 1|11|11111 1|111|1111 1|1111|111 1|11111|11 1|111111|1 11|1|11111 1+1+6 1+2+5 1+3+4 1+4+3 1+5+2 1+6+1 2+1+5 11|11|1111 11|111|111 11|1111|11 11|11111|1 111|1|1111 111|11|111 111|111|11 2+2+4 2+3+3 2+4+2 2+5+1 3+1+4 3+2+3 3+3+2 111|1111|1 1111|1|111 1111|11|11 1111|111|1 11111|1|11 11111|11|1 111111|1|1 3+4+1 4+1+3 4+2+2 4+3+1 5+1+2 5+2+1 6+1+1 Es decir un total de 7.2.2 ¡8−1¢ 3−1 = ¡ 7¢ 2 = 7! 2!5! = 21 descomposiciones. Pueden quedar urnas vacı́as También aquı́ podemos pensar en bolillas ∗ y separadores entre urnas |, pero a diferencia de la situación previa, en este caso los separadores pueden quedar contiguos, como por ejemplo en la configuración siguiente: ∗ ∗ || ∗ | ∗ ∗ ∗ | que corresponde a n = 6 bolillas idénticas en r = 5 urnas distintas, donde hay 2 bolillas en la primer urna, la segunda urna está vacı́a, 1 bolilla en la tercer urna, 3 bolillas en la cuarta urna y la quinta urna está vacı́a. Se trata pues de disponer en fila n sı́mbolos ∗ y r − 1 sı́mbolos | Es¢ decir en un¢ total de ¡n+r−1 ¡n+r−1 n + r − 1 lugares. Luego, la cantidad de posibles disposiciones es = puesto n r−1 que basta con elegir los lugares que serán ocupados por ∗ (o equivalentemente elegir los lugares a ser ocupados por |). Ejemplo: Se desea invertir un capital de $20.000 en cuatro posibilidades de inversión (negocios). Se desea además que las inversión se realice en múltiplos de $1.000 a) Si se quiere invertir la totalidad del capital, ¿ de cuántas formas diferentes puede realizarse? Si ∗ representa una inversión de $1.000 el problema se asimila al de n = 20 bolillas y r = 4 urnas y donde pueden quedar urnas vacı́as (negocios en los cuales se decide no invertir monto). ¡ningun ¡23¢Entonces la cantidad total de maneras posibles de invertir el capital de $20.000 es 20+4−1¢ = = 1.771 20 20 b) Si se quiere invertir la totalidad o parte del capital, ¿ de cuántas formas diferentes puede realizarse? El análisis es similar al anterior sólo que ahora no es obligatorio invertir todo el capital disponible. Podemos entonces pensar que la parte del capital que se decida no invertir es un ”quinto negocio posible”. De este modo se trata de un problema de disposición de 20 bolillas en r = 5 urnas y ¡ ¢ n ¡= 24¢ donde no pueden quedar urnas vacı́as. Hay un total de 20+5−1 = = 10.626 posibles maneras 20 20 de invertir el capital (Una de dichas maneras consiste en no invertirlo en absoluto). Prof.J.Gastón Argeri 7 pág. 8 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Teorı́a axiomática de probabilidades 8 Experimentos aleatorios - Espacio muestral - Eventos Denominaremos experimento aleatorio a todo proceso (procedimiento, experimento, etc.) que conduzca a un resultado que cumpla con las siguientes caracterı́sticas: • El proceso es repetible en idénticas condiciones una cantidad ilimitada de veces. Cada realización particular del proceso conduce a un único resultado. • Se conoce a priori (es decir previamente a cualquier realización particular) todos los posibles resultados del experimento. • El resultado del experimento está sujeto al azar. Es decir que es imposible determinar a priori (es decir previamente a cualquier realización particular) cuál de todos los resultados posibles del experimento ocurrirá. Definición 1 Llamaremos espacio muestral asociado a un experimento aleatorio a cualquier conjunto que caracterice todos los posibles resultados de dicho experimento. El espacio muestral frecuentemente se anota mediante la letra griega omega mayúscula Ω. En este contexto caracterizar significa que cada elemento del espacio muestral se corresponde con uno y sólo un posible resultado del experimento y a todo posible resultado del experimento le corresponde uno y sólo un elemento del espacio muestral. En este sentido podrı́amos decir que un espacio muestral es una forma de ”codificar” los posibles resultados del experimento. Ejemplo: 1) Se arroja un dado una vez y se observa el número que sale. Claramente es un experimento aleatorio pues cada realización particular conduce a un único número saliente (es imposible que arrojemos el dado y salgan simultáneamente dos o más números) y además: • El experimento es reproducible en idénticas condiciones una cantidad arbitraria de veces (Al menos una versión idealizada del experimento, por ejemplo con un dado imaginario que nunca se desgasta o deforma). • Antes de arrojar el dado se sabe de antemano que los posibles resultados son los números 1, 2, 3, 4, 5, 6. • El resultado del lanzamiento es al azar puesto que es imposible determinar el número que saldrá, con anterioridad al lanzamiento. Un espacio muestral asociado a este experimento puede ser Ω = {1, 2, 3, 4, 5, 6} 2) Se arroja un dado dos veces y se anota el puntaje total (suma de los números obtenidos en ambos lanzamientos). En este caso un espacio muestral es Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} 3) Se arroja un dado hasta obtener por primera vez un 1 y se registra la cantidad de lanzamientos necesarios. En este ejemplo un espacio muestral es Ω = N 4) Desde una distancia de 3 metros se arroja un dardo a un blanco circular de radio 0, 25 metros. Suponiendo que el dardo da en el blanco, se registra la distancia desde el punto de impacto hasta el centro del blanco. En este caso un espacio muestral es Ω = [0 ; 0, 25] Un conjunto infinito A se dice numerable si sus elementos pueden ponerse en correspondencia 1-1 f con los números naturales, es decir si existe alguna función N → A con las propiedades siguientes: Prof.J.Gastón Argeri 8 pág. 9 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 i) ∀a ∈ A , ∃n ∈ N tal que a = f (n) ii) ∀m, n ∈ N m 6= n ⇒ f (m) 6= f (n) En tal caso la función f determina una ”enumeración” de A. Si en lugar de f (n) anotamos an entonces los elementos de A son precisamente los de la secuencia infinita a1 , a2 , a3 , · · · . Es decir A = {a1 , a2 , a3 , · · · }. Un conjunto que o bien sea finito o bien sea infinito numerable se dice un conjuto a lo sumo numerable. Si se omite la condición ii) pero conservando la i), se dice que f es una función suryectiva o sobre A. Se puede demostrar que A es a lo sumo numerable sii existe alguna función de N sobre A. Ejemplo: Mostremos que los siguientes conjuntos infinitos son numerables: N, Z, 2N, Q f • Basta considerarla función identidad N → N f • Por ejemplo tomando la función N → Z dada por f (n) = (−1)n f • Tomando N → 2N dada por f (n) = 2n £n¤ 2 • En este caso es más engorroso encontrar una fórmula explı́tica para una fución de N sobre Q. Es más secillo presentar un gráfico ilustrativo de tal función: 0 ²² // 1/4 // · · · // 1/2 1/3 1/5 << << { z z z z { z z z z { zz zz zz zz {{ z z z z { z z z z { zz }}{{ ||zz zz ||zz // 2/2 ·== · · 2/1 2/4 2/5 2/3 z<< z z {{ z z z { zz zz zz {{ zz zz zz {{ z { z z ||z { ||z z ··· 3/1 oo 3/5 3/2 3/3 3/4 z<< z<< z {{ z z z { zz zz zz {{ zz zz zz {{ z z { z ²² z }}{ z ||z // 4/2 ··· 4/4 4/5 4/3 4/1 << {== zz zz zz {{ z z z { z z z { zz zz zz {{ {{ ||zz ||zz zz ··· 5/1 oo 5/2 5/3 5/4 5/5 { {== {== || { { { | { { { || {{ {{ {{ || {{ {{ {{ | ²² { { { | { { { .. ~~| .. { .. }}{ .. // .. { 1/1 . . . . . Vamos a distinguir dos tipos de espacios muestrales de acuerdo a su cardinalidad (es decir su cantidad de elementos): Finito o infinito numerable Ω Infinito no numerable En los ejemplos 1) y 2) los espacios muestrales considerados son finitos. En el ejemplo 3) el espacio muestral es infinito numerable. En el ejemplo 4) el espacio muestral es infinito no numerable. Momentáneamente llamaremos evento o suceso a cualquier subconjunto del espacio muestral Ω. Más adelante precisaremos este concepto. Dos eventos de particular interés son el evento Ω (denominado evento seguro o cierto) y el evento ∅ (denominado evento vacı́o o imposible). Los elementos ω ∈ Ω del Prof.J.Gastón Argeri 9 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 10 espacio muestral dan lugar a los denominados eventos simples, que son los eventos de la forma {ω}. Todo evento no simple se dice compuesto. Los eventos suelen anotarse empleando las primeras letras del alfabeto en mayúsculas: A, B, C, D, etc. Ejemplo: 1) Lanzamiento de un dado. Podemos considerar los siguientes eventos: A = ”sale número par” = {2, 4, 6} B = ”sale múltiplo de tres” = {3, 6} C = ”sale 3” = {3} (suceso elemental) 2) Lanzamiento de dos dados. Podemos considerar los siguientes eventos: A = ”el puntaje total excede 8” = {9, 10, 11, 12} B = ”sale un par y un impar” = {3, 5, 7, 9, 11} 3) Arrojar una moneda hasta obtener ”cara” por primera vez y registrar la cantidad de lanzamientos que fueron necesarios. Eventos que podrı́an interesarnos: A = ”se requiere a lo sumo 5 lanzamientos” = {1, 2, 3, 4, 5} B = ”se requiere una cantidad impar de lanzamientos” = {3, 5, 7, 9, 11, 13, · · · } 3) Lanzamiento del dardo descrito anteriormente. Un evento en el que podemos estar interesados es A = {x ∈ Ω : x ≤ 0, 2} Consideremos un evento A en el contexto de un experimento aleatorio. Supongamos que la realización del experimento conduce a un resultado ω ∈ Ω. Cuando ω ∈ A se dice que el resultado del experimento es favorable a A o que ha ocurrido A en dicha realización. Caso contrario se dice que el resultado ω es desfavorable a A o que no ha ocurrido A en dicha realización. Notemos que el hecho de que ocurra cierto evento no quita la posibilidad que ocurran también, en la misma realización, otros eventos. Ejemplo: Un experimento consiste en lanzar una moneda dos veces de modo que Ω = {(C, C), (C, S), (S, C), (S, S)} donde C = ”sale cara” , S = ”sale ceca”, entonces si en determinada realización es ω = (C, C) y si A = ”la primera moneda sale cara” = {(C, C), (C, S)} y B = ”la segunda moneda sale ceca” = {(C, C), (S, C)}, entonces han ocurrido tanto el evento A como el evento B. Es decir que el resultado del experimento ha sido favorable tanto al evento A como al evento B. 9 Álgebra de eventos Sean A, B eventos. A partir de ellos construimos nuevos eventos del modo siguiente: • El complemento de A es el evento Ac = {ω ∈ Ω : ω 6∈ A}. Es el evento que ocurre cada vez que no ocurre A. Los resultados favorables a Ac son los desfavorables al A y viceversa. El complemento de A también suele anotarse A0 . • La unión de A con B es el evento A ∪ B = {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}. Es el evento que ocurre cuando al menos uno de los dos sucesos A, B ocurre. Es decir que A ∪ B ocurre sii o bien ocurre A pero no ocurre B, o bien ocurre B pero no ocurre A, o bien ocurren simultáneamente tanto A como B. Prof.J.Gastón Argeri 10 pág. 11 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 • La intersección de A con B es el evento A ∩ B = {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}. Es el evento que ocurre cuando A y B ocurren simultáneamente. La intersección de A con B también suele anotarse AB • La diferencia de A con B es el evento A \ B = {ω ∈ Ω : ω ∈ A evento que ocurre cuando ocurre A y simultáneamente no ocurre B. ∧ ω 6∈ B}. Es el Ejemplo: En el último ejemplo se tiene: Ac = {(S, C), (S, S)} A ∪ B = {(C, C), (C, S), (S, S)} A ∩ B = {(C, S)} A \ B = {(C, S)} y B \ A = {(S, C)} Más generalmente, sean A1 , A2 , · · · , An eventos. • La unión de tales eventos es el evento n [ i=1 Ai = A1 ∪ · · · ∪ An = {ω ∈ Ω : ω ∈ A1 ∨ ··· ∨ ω ∈ An } ∧ ··· ∧ ω ∈ An } • La intersección de tales eventos es el evento n \ i=1 Ai = A1 ∩ · · · ∩ An = {ω ∈ Ω : ω ∈ A1 Dicha intersección también se anota A1 A2 · · · An Más generalmente aún necesitaremos definir uniones e intersecciones de una cantidad numerable de eventos: Sea {An } una sucesión de eventos. • La unión de dichos eventos es el evento que ocurre cuando ocurre al menos uno de los eventos de la sucesión: ∞ [ An = {ω ∈ Ω : ∃n ∈ N , ω ∈ An } n=1 • La intersección de dichos eventos es el evento que ocurre cuando ocurren simultáneamente todos y cada uno de los eventos de la sucesión: ∞ \ n=1 An = {ω ∈ Ω : ∀n ∈ N , ω ∈ An } Ejemplo: Un experimento aleatorio consistente en arrojar una moneda tantas veces como sea necesario hasta obtener por primera vez ”cara”. Podemos considerar: Ω = {C, SC, SSC, SSSC, SSSSC, · · · } Consideremos los siguientes eventos: An = ”sale C en el lanzamiento 2n-ésimo” En este caso: ∞ [ An = ”sale C en una cantidad par de lanzamientos” n=1 Prof.J.Gastón Argeri 11 pág. 12 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Definición 2 Los eventos A y B se dicen incompatibles o (mutuamente) excluyentes o disjuntos si es imposible que ocurran simultáneamente. Es decir que cada vez que ocurre A no ocurre B y cada vez que ocurre U B no ocurre A. Para destacar tal situación nosotros anotaremos el evento unión A ∪ B como A B. Más generalmente dada una sucesión {An } de eventos, se dice que dichos eventos son dos a dos incompatibles o (mutuamente) excluyentes o disjuntos dos a dos sii se verifica: ∀m, n ∈ N , m 6= n Para destacar tal situación anotaremos la unión ⇒ ∞ S A m ∩ An = ∅ An como n=1 U∞ n=1 An Dados eventos A, B se dice que A está contenido o incluido en B o también que B contiene o incluye a A sii cada vez que ocurre A también ocurre B (pero no necesariamente a la inversa). Tal relación entre eventos se simboliza A ⊆ B o también B ⊇ A. En otras palabras: A ⊆ B sii todo resultado favorable a A es también favorable a B. En la práctica para demostrar que A ⊆ B es frecuente tomar un elemento genérico (es decir, no un elemento particular) de A y demostrar que necesariamente también pertenece a B. Naturalmente, dos eventos son iguales sii A ⊆ B y B ⊆ A. Por lo tanto una manera de probar la igualdad entre dos eventos consiste en probar que cada uno de ellos está contenido en el otro. Damos a continuación un listado de propiedades muy sencillas cuyas demostraciones formales omitimos: A⊆A A⊆B ∧ B⊆C ⇒ A⊆C A∩A=A ; A∪A=A A∪B =B∪A ; A∩B =B∩A A ∪ (B ∪ C) = (A ∪ B) ∪ C ; A ∩ (B ∩ C) = (A ∩ B) ∩ C ∅⊆A⊆Ω A∩B ⊆A⊆A∪B ∅∩A=∅ ; ∅∪A=A Ω∩A=A ; Ω∪A=Ω (Ac )c = A (A ∪ B)c = Ac ∩ B c ; (A ∩ B)c = Ac ∪ B c A ∪ B = A ∪ (B \ A) B = (B ∩ A) ] (B \ A) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) ; A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) ¶ µ n n S U c c Ai = A 1 ] A1 · · · An−1An i=1 µ ∞ S n=1 i=2 An ¶c Prof.J.Gastón Argeri = ∞ T n=1 Acn ; µ ∞ T n=1 An ¶c = ∞ S n=1 Acn 12 pág. 13 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 10 Algebras y σ-álgebras de subconjuntos de Ω - Espacio de probabilidad Todos hemos en algún momento realizado mediciones. Como ejemplo concreto supongamos que deseamos medir áreas de rectángulos. Como se sabe, el área de un rectángulo es un número positivo igual al producto base × altura. Supongamos ahora que construimos figuras planas a partir de una cantidad finita de rectángulos. Podemos asignar un área a cada una de tales figuras del modo siguiente: Primero descomponemos la figura en una unión finita de rectángulos disjuntos dos a dos y luego sumamos las áreas de tales rectángulos. Finalmente, supongamos que todos los rectángulos que consideramos están contenidos dentro de un ”gran” rectángulo que llamamos Ω. Cada vez que podamos medir el área de cierta figura contenida en Ω también podremos medir el área de la ”figura complementaria”, es decir la figura que se obtiene a partir de todos los puntos de Ω que no pertenecen a la figura original. En otros términos, si podemos medir el área de una figura también podemos medir el área de su complemento. Queda también claro que si hemos podido asignar un área A(F ) a la figura F ⊆ Ω entonces tendremos A(F c ) = A(Ω) − A(F ). Es decir que hay una cantidad de propiedades básicas que esperamos de todo número que represente una manera de medir. Para reflejar estas propiedades elementales es necesario determinar una cierta clase de conjuntos, que podrı́amos denominar ”medibles” que serán precisamente aquellos a los cuales asignaremos una medida. En nuestro ejemplo precedente, no queda claro en absoluto cómo podrı́amos medir el área de un cı́rculo contenido en Ω, pero sı́ podremos asignar áreas de modo sencillo tomando como conjuntos medibles la clase de todos los subconjuntos de Ω que sean o bien rectángulos, o bien uniones finitas de rectángulos o bien sus complementos sean uniones finitas de rectángulos. Una clase de subconjuntos de Ω con estas carácterı́sticas es lo que denominaremos un álgebra de subconjuntos de Ω. Definición 3 Dados un conjunto no vacı́o Ω y una clase A de subconjuntos de Ω, diremos que A es un álgebra de subconjuntos de Ω sii satisface las siguiente condiciones: i) Ω ∈ A ii) ∀A ∈ A , Ac ∈ A iii) ∀n ∈ N , ∀A1 , · · · , An ∈ A , n S i=1 Ai ∈ A Ejemplo: Sea Ω cualquier rectángulo no vacı́o. Definamos, como vimos anteriormente, la siguiente clase de subconjuntos de Ω: A = {A ⊆ Ω : A es unión finita de rectángulos} Veamos que A tiene las propiedades de un álgebra de subconjuntos de Ω: i) Ω ∈ A pues Ω es unión finita de rectángulos ya que es un rectángulo. ii) Supongamos que A ∈ A. Queremos ver que Ac es también unión finita de rectángulos. En primer lugar notemos que si R ⊆ Ω es un rectángulo entonces Rc = Ω \ R es unión finita de rectángulos (Esto le resultará evidente cuando dibuje el gran rectángulo Ω y un rectángulo arbitrario R contenido en él). n m S S Además, si B = Ri y C = Rj∗ son uniones finitas de rectángulos entonces: i=1 j=1 B∩C = [ 1≤i≤n 1≤j≤m ³ Ri ∩ Rj∗ ´ de modo que B ∩ C es unión finita de rectángulos (notar que Ri ∩ Rj∗ es un rectángulo). Esto se extiende a la intersección de un número finito de uniones finitas de rectángulos. Por lo Prof.J.Gastón Argeri 13 pág. 14 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 tanto podemos afirmar que la intersección de un número finito de miembros de A es también miembro de A. n S Como A ∈ A podemos escribir A = Ri donde los Ri son ciertos subrectángulos de Ω. i=1 Entonces: c A = à Ric n [ Ri i=1 !c n \ = Ric i=1 y dado que los son uniones finitas de rectángulos, la intersección de ellos también lo es. Por c lo tanto A es unión finita de rectángulos de modo que Ac ∈ A. iii) Fijemos n ∈ N y sean A1 , · · · , An ∈ A. Sabemos que cada Ai es unión finita de rectángulos. n S Pero entonces evidentemente A = Ai también es unión finita de rectángulos, de donde rei=1 sulta que A ∈ A. Consideremos ahora un ejemplo que nos servirá para generalizar la definición de álgebra de subconjuntos de Ω. Ejemplo: Supongamos que se tiene una secuencia {Rn } de rectángulos contenidos en el gran rectángulo Ω. Más aún, supongamos que los Rn son disjuntos dos a dos. Parece intuitivamente ∞ U Rn , de la manera siguiente: claro que también se le puede asignar un área al conjunto n=1 Cada Rn tiene asignada un área A(Rn ) Podemos asignar área al conjunto R1 ] R2 como A(R1 ] R2 ) = A(R1 ) + A(R2 ) Podemos asignar área al conjunto R1 ] R2 ] R3 como A(R1 ] R2 ] R3 ) = A(R1 ) + A(R2 ) + A(R3 ) µ n ¶ n U P etc. En genral: A Ri = A(Ri ) i=1 i=1 De este modo vemos cómo asignar un área al conjunto Sn = n U i=1 Ri , cualquiera sea n ∈ N. Natu- ralmente los números A(S1 ), A(S2 ), A(S3 ), · · · forman una sucesión creciente de números reales positivos. Además, dado que todos los Sn ⊆ Ω resulta A(Sn ) ≤ A(Ω). Un resultado matemático asegura que toda sucesión de números reales que sea creciente y acotada superiormente, posee un lı́mite finito. Por lo tanto existe y es finito el número: lim A(Sn ) n →∞ Resulta entonces natural definir µ ∞ ¶ U A Rn = n=1 = lim A n →∞ lim µ n P n → ∞ i=1 n U i=1 Ri ¶ = lim A(Sn ) = A(Ri ) = n →∞ ∞ P A(Rn ) n=1 Este ejemplo muestra que podemos ampliar la definición de álgebra de conjuntos para permitir que no sólo las uniones finitas de conjuntos medibles sean medibles, sino también las uniones infinitas numerables. Esto conduce a la definición siguiente. Prof.J.Gastón Argeri 14 pág. 15 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Definición 4 Una clase Σ de subconjuntos de un conjunto no vacı́o Ω se dice una σ-álgebra de subconjuntos de Ω sii verifica las siguientes condiciones: i) Ω ∈ Σ ii) ∀A ∈ Σ , Ac ∈ Σ iii) ∀ {An } sucesión en Σ , ∞ S n=1 An ∈ Σ Ejemplo: Consideremos un conjunto no vacı́o Ω. La clase que consta de todos los subconjuntos de Ω se denomina el conjunto de ”partes” de Ω y se suele anotar P(Ω). Claramente es una σ-álgebra de subconjuntos de Ω. De hecho es la más grande de todas. Propiedad 3 Sea Σ una σ-álgebra de subconjuntos de Ω. Entonces ∅ ∈ Σ Dem: Puesto que Ω ∈ Σ resulta ∅ = Ωc ∈ Σ ¥ Propiedad 4 Sea Σ una σ-álgebra de subconjuntos de Ω. Supongamos que Ω es finito o infinito numerable. Se verifica: ∀ω ∈ Ω , {ω} ∈ Σ ⇒ Σ = P(Ω) Dem: Sea A ⊆ S Ω. Puesto que Ω es finito o infinito numerable, lo mismo es cierto de A. Dado que: A = {ω} resulta inmediatamente que A ∈ Σ puesto que la unión anterior es a lo sumo ω∈A numerable y cada {ω} pertenece a Σ ¥ Propiedad 5 Sea Σ n S Ai ∈ Σ una σ-álgebra de subconjuntos de Ω y sean A1 , · · · , An ∈ Σ. Entonces i=1 Dem: Definamos An+1 = An+2 = · · · = ∅. Entonces la secesión {Ai } está en Σ. Se tiene pues: n [ Ai = i=1 ∞ [ i=1 Ai ∈ Σ ¥ Propiedad 6 Sea Σ una σ-álgebra de subconjuntos de Ω y sea {An } una sucesión en Σ. ∞ T An ∈ Σ Entonces n=1 Dem: ∞ \ n=1 An = à ∞ [ Acn n=1 !c ∈ Σ dado que cada Acn ∈ Σ ¥ Propiedad 7 Sea Σ una σ-álgebra de subconjuntos de Ω y sean A1 , · · · , An ∈ Σ. n T Ai ∈ Σ Entonces i=1 Dem: Definamos An+1 = An+2 = · · · = Ω. Tenemos ası́ una sucesión {An } en Σ. Por la propiedad anterior resulta: n ∞ \ \ Ai = Ai ∈ Σ ¥ i=1 Prof.J.Gastón Argeri i=1 15 pág. 16 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Propiedad 8 Sean Ω un conjunto no vacı́o y T{Σi }i∈I una familia no vacı́a, donde cada Σi es Σi es una σ-álgebra de subconjuntos de Ω. una σ-álgebra de subconjuntos de Ω. Entonces i∈I Dem: Anotemos Σ = T Σi . Debemos probar que Σ satisface los axiomas de σ-álgebra de i∈I subconjuntos de Ω. Sabiendo que cada Σi satisface dichos axiomas, se deduce que: • Ω ∈ Σ pues ∀i ∈ I , Ω ∈ Σi • Si A ∈ Σ entonces ∀i ∈ I , A ∈ Σi . Luego: ∀i ∈ I , Ac ∈ Σi . Entonces Ac ∈ Σ • Sea {An } sucesión en Σ. Entonces ∀i ∈ I , {An } ∞ ∞ S S An ∈ Σ ¥ An ∈ Σi . Luego: ∀i ∈ I , es una sucesión en Σi . Por lo tanto n=1 n=1 Propiedad 9 Dados un conjunto no vacı́o Ω y un subconjunto G σ-álgebra de subconjuntos de Ω que contiene a G de P(Ω), existe una mı́nima Dem: Basta considerar la familia de todas las σ-álgebras de subconjuntos de Ω que contienen a G (una de ellas es P(Ω)) y aplicarle la propiedad anterior ¥ Estamos ahora en condiciones de definir la noción axiomática de probabilidad. Definición 5 Sean Ω un conjunto no vacı́o y Σ una σ-álgebra de subconjuntos de Ω. Una medida de probabilidad o función de probabilidad o simplemente una probabilidad sobre Σ es una función P : Σ → R que verifica los siguientes axiomas: i) ∀A ∈ Σ , P (A) ≥ 0 ii) P (Ω) = 1 iii) Para toda sucesión {An } de elementos de Σ disjuntos dos a dos se cumple: à ∞ ! ∞ ] X An = P P (An ) n=1 n=1 Nota: Parte del supuesto en esta igualdad es que la serie en el miembro de la derecha sea convergente. Un espacio de probabilidad es una terna ordenada (Ω, Σ, P ) donde P es una probabilidad sobre Σ. Ejemplo: Sea Ω un conjunto no vacı́o a lo sumo numerable, que podemos anotar Ω = {ω n }. Sea Σ una σ-álgebra de subconjuntos de Ω tal que ∀n , {ωn } ∈ Σ. Como vimos antes esto implica que Σ = P(Ω). Si P es una probabilidad sobre Σ notemos que: • Las probabilidades pn = P ({ωn }) determinan la probabilidad de cualquier evento aleatorio. U En efecto: Sea A ⊆ Ω. Entonces A = {ωn }. Por lo tanto: ωn ∈A P (A) = P à ] ωn ∈A {ωn } ! = X ωn ∈A P ({ωn }) = X pn ωn ∈A • Dada una sucesión {pn } de números reales tal que: a) ∀n , pn ≥ 0 ∞ P b) pn = 1 n=1 existe una única probabilidad P sobre Σ tal que P ({ωn }) = pn Prof.J.Gastón Argeri 16 pág. 17 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 11 Espacios de equiprobabilidad 1 entonces se cumplen Si Ω = {ω1 , · · · , ωN } es finito y si definimos ∀n ∈ {1, · · · , N } , pn = N las condiciones a) y b) del item anterior, de manera que queda definida una única probabilidad sobre 1 1 Σ = P(Ω) tal que ∀n ∈ {1, · · · , N } , P {ωn } = N = #(Ω) . Esta manera de asignar probabilidades sobre un espacio muestral finito es lo que se conoce como espacio de equiprobabilidad. En un espacio de equiprobabilidad se tiene para cuanlquier evento A ⊆ Ω Ã ! ] X X #(A) 1 = P (A) = P {ω} = P ({ω}) = #(Ω) #(Ω) ω∈A ω∈A ω∈A Esta manera de asignar probabilidades en un espacio muestral finito suele resumirse del modo siguiente: P (A) = # {resultados favorables al evento A} # {resultados posibles del experimento} En la práctica cuando asociamos determinado espacio muestral Ω a un experimento aleatorio con una cantidad finita de resultados posibles, la asignación de probabilidades a dichos eventos elementales no siempre se reduce a considerar resultados equiprobables. Volviendo a uno de nuestros primeros ejemplos: Se lanzan dos dados ”normales” y se anota el puntaje total obtenido. En este caso podrı́amos tomar como espacio muestral Ω = {2, 3, 4, · · · , 12}. Sin embargo no es correcto asignar probabilidades del modo siguiente: 1 ∀n ∈ {2, · · · , 12} , P ({n}) = 11 ¿ Qué inconvenientes observa acerca de esta asignación de probabilidad? El mismo experimento aleatorio podrı́a modelizarse mediante el siguiente espacio muestral: Ω = {(i, j) : 1 ≤ i, j ≤ 6} Con este espacio muestral sı́ es adecuada la asignación de probabilidad en forma equiprobable: ∀(i, j) tal que 1 ≤ i, j ≤ 6 , P ({(i, j)}) = 1 36 Calculemos en este ejemplo la probabilidad de que el puntaje total obtenido sea 7. En este caso A = {(i, j) : 1 ≤ i, j ≤ 6 ; i + j = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. Por lo 6 = 36 = 16 tanto P (A) = #(A) #(Ω) Ejemplo: Una urna contiene 3 bolillas blancas y 2 bolillas negras. Se extraen al azar dos bolillas sin reposición. Calculemos P (A) y P (C) siendo: A = ”ambas bolillas son blancas” y C = ”ambas bolillas son negras” Una posible representación del espacio muestral asociado a este experimento aleatorio podrı́a ser Ω = {BB, BN, N B, N N }. Sin embargo, dada esta representación es evidente que no resulta natural considerar los cuatro posibles resultados como equiprobables puesto que hay más bolillas blancas que negras. De hecho, si utilizáramos el artificio de numerar las bolillas blancas como B 1 , B2 , B3 y numerar las bolillas negras como N1 , N2 resulta claro que el resultado A se da en más casos que el resultado C. De hecho: A = {(B1 , B2 ), (B1 , B3 ), (B2 , B1 ), (B2 , B3 ), (B3 , B1 ), (B3 , B2 )} tiene 6 elementos C = {(N1 , N2 ), (N2 , N1 )} tiene 2 elementos Lo natural entonces es elegir una representación del espacio muestral en la que resulte natural la equiprobabilidad. Tal representación podrı́a ser la siguiente: Ω = {(x, y) : x, y ∈ {B1 , B2 , B3 , N1 , N2 } , x 6= y} Prof.J.Gastón Argeri 17 pág. 18 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Con este espacio muestral es natural plantear equiprobabilidad. Se tiene: P (A) = #(A) #(Ω) = 3·2 5·4 = 3 10 = 0, 3 P (C) = #(C) #(Ω) = 2·1 5·4 = 1 10 = 0, 1 Otra posible representación del espacio muestral es la siguiente, que prescinde del orden en que se extraen las bolillas: Ω = {{x, y} : x, y ∈ {B1 , B2 , B3 , N1 , N2 } , x 6= y} También en este caso es natural la equiprobabilidad. Se tiene: P (A) = #(A) #(Ω) = (32) = (52) 3 10 = 0, 3 P (C) = #(C) #(Ω) = (22) = (52) 1 10 = 0, 1 Como era de esperar, se obtienen las mismas probabilidades que cuando se tiene en cuenta el orden de extracción. Ejemplo: Nuevamente consideremos una urna con 3 bolillas blancas y dos bolillas negras. Se extraen al azar dos bolillas, pero esta vez con reposición. Calculemos las probabilidades de los mismos eventos A y C del ejemplo anterior. En este caso conviene representar el espacio muestral como: Ω = {(x, y) : x, y ∈ {B1 , B2 , B3 , N1 , N2 }} Entonces: = P (A) = #(A) #(Ω) P (C) = 12 #(C) #(Ω) = 3·3 5·5 2·2 5·5 = = 9 25 4 25 = 0, 36 = 0, 16 Propiedades de una probabilidad Una cantidad de resultados útiles se desprenden de la definición axiomática de probabilidad dada en el parágrafo anterior. Propiedad 10 P (∅) = 0 Dem: Definamos ∀n , An = ∅. Claramente estos eventos son dos a dos disjuntos, de manera que: à ∞ ! ∞ ∞ ] X X P (∅) = P An = P (An ) = P (∅) n=1 n=1 n=1 Puesto que la serie a la derecha de la última igualdad es convergente, necesariamente su término general debe tender a 0. Pero dicho término general, siendo constantemente igual a P (∅), tiende a P (∅). Por lo tanto: P (∅) = 0 ¥ Propiedad 11 Sean A1 , · · · , An ∈ Σ dos a dos disjuntos. Entonces: ! à n n X ] P (Ai ) Ai = P i=1 Prof.J.Gastón Argeri i=1 18 pág. 19 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Dem: Definamos An+1 = An+2 = · · · = ∅. Se tiene: à n ! Ã∞ ! n ∞ X ] X ] P (Ai ) ¥ P Ai = P P (Ai ) = Ai = i=1 i=1 i=1 i=1 Propiedad 12 Sean A, B ∈ Σ tales que A ⊆ B. Se verifica: P (B \ A) = P (B) − P (A) Dem: Podemos escribir B = A](B \ A) siendo la unión disjunta. Por lo tanto: P (B) = P (A ] (B \ A)) = P (A) + P (B \ A). Despejando se tiene: P (B \ A) = P (B) − P (A) ¥ Propiedad 13 Sean A, B ∈ Σ (no necesariamente disjuntos). Se verifica: P (A ∪ B) = P (A) + P (B) − P (AB) Dem: Primeramente notemos que BAc = B \ AB. Ahora bien, por la propiedad anterior y teniendo en cuenta que AB ⊆ B se tiene: P (BAc ) = P (B \ AB) = P (B) − P (AB). Luego: P (A ∪ B) = P (A ] BAc ) = P (A) + P (BAc ) = P (A) + P (B) − P (AB) ¥ Corolario 1 Para cualesquiera eventos A, B ∈ Σ se verifica la siguiente desigualdad: P (A ∪ B) ≤ P (A) + P (B) Dem: P (A ∪ B) = P (A) + P (B) − P (AB) ≤ P (A) + P (B) pues P (AB) ≥ 0 ¥ Propiedad 14 Dados A, B, C ∈ Σ se verifica: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC) Dem: P (A ∪ B ∪ C) = P (A ∪ B) + P (C) − P ((A ∪ B) C) = = P (A) + P (B) − P (AB) + P (C) − P (AC ∪ BC) = = P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ACBC)) = = P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ABC)) = = P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC) ¥ Propiedad 15 Sea (Ω, Σ, P ) un espacio de probabilidad. Dados A1 , · · · , An ∈ Σ se cumple: n P P P (A1 ∪ · · · ∪ An ) = P (Ai ) − P (Ai1 Ai2 ) + · · · i=1 + (−1)r+1 1≤i1 <i 2 ≤n P P (Ai1 Ai2 · · · Air ) + · · · + .................................................... + 1≤i1 <i 2 <···<ir ≤n + + (−1)n+1 P (A1 A2 · · · An ) Prof.J.Gastón Argeri 19 (1) pág. 20 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Dem: Por inducción sobre n. • Paso base: n = 2 ya fue demostrada. • Hipótesis inductiva (HI): Suponemos válida (1) para n. • Supongamos A1 , · · · , An+1 ∈ Σ. P (A1 ∪ · · · ∪ An+1 ) = P (A1 ∪ · · · ∪ An ) + P (An+1 ) − P ((A1 ∪ · · · ∪ An )An+1 ) = = n P i=1 P (Ai ) − P 1≤i1 <i 2 ≤n P (Ai1 Ai2 ) + · · · P + (−1)r+1 1≤i1 <i 2 <···<ir ≤n P (Ai1 Ai2 · · · Air ) + · · · + + (−1)n+1 P (A1 A2 · · · An ) + P (An+1 ) − P (A1 An+1 ∪ · · · ∪ An An+1 ) = = n+1 P i=1 P (Ai ) − P 1≤i1 <i 2 ≤n P + (−1)r+1 P (Ai1 Ai2 ) + · · · 1≤i1 <i 2 <···<ir ≤n P (Ai1 Ai2 · · · Air ) + · · · + + (−1)n+1 P (A1 A2 · · · An ) − { n P i=1 P (Ai An+1 ) − P 1≤i1 <i 2 ≤n P (Ai1 Ai2 An+1 ) + · · · + (−1)n+1 P (A1 A2 · · · An An+1 )} = n+1 P i=1 P (Ai ) − + (−1)r+1 P 1≤i1 <i 2 ≤n+1 P (Ai1 Ai2 ) + · · · P 1≤i1 <i 2 <···<ir ≤n+1 P (Ai1 Ai2 · · · Air ) + · · · + + (−1)n+2 P (A1 A2 · · · An+1 ) ¥ Propiedad 16 Dados A, B ∈ Σ con A ⊆ B se tiene P (A) ≤ P (B) Dem: Como A ⊆ B resulta B = A ] BAc . Luego: P (B) = P (A) + P (BAc ) ≥ P (A) ¥ Corolario 2 Para todo A ∈ Σ es P (A) ≤ 1 Dem: Como A ⊆ Ω y dado que P (Ω) = 1 resulta P (A) ≤ P (Ω) = 1 ¥ Propiedad 17 Para cualquier A ∈ Σ se verifica: P (Ac ) = 1 − P (A) ; P (A) = 1 − P (Ac ) Dem: Puesto que Ω = A ] Ac resulta 1 = P (Ω) = P (A) + P (Ac ) ¥ Prof.J.Gastón Argeri 20 pág. 21 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 13 Propiedades de continuidad Propiedad 18 Sea {An } una sucesión en Σ. Supongamos dicha sucesión de eventos es creciente, es decir: A1 ⊆ A2 ⊆ A3 ⊆ · · · . Se verifica: ! à ∞ [ An = lim P (An ) P n →∞ n=1 Dem: Definamos los siguientes eventos: B1 B2 B3 ··· Bn ··· = = = ··· = ··· A1 A 2 \ A1 A 3 \ A2 ··· An \ An−1 ··· Se tiene ası́ una sucesión {Bn } en Σ tal que: n S Ai = i=1 n U Bi ∞ S y i=1 Ai = i=1 i=1 i=1 = n P i=1 Bi i=1 Por conveniencia definamos también Ao = ∅. Entonces: µ n ¶ µ n ¶ n P S S P (Bi ) = P Ai = P Bi = i=1 ∞ U P (Ai \ Ai−1) = n P i=1 (P (Ai ) − P (Ai−1)) = = P (An ) − P (Ao ) = P (An ) − P (∅) = P (An ) Luego: lim P (An ) = n →∞ lim n P n → ∞ i=1 = P µ∞ U Bi i=1 ¥ P (Bi ) = ∞ P P (Bi ) = i=1 ¶ =P µ∞ S Ai i=1 ¶ Propiedad 19 Sea {An } una sucesión en Σ. Supongamos dicha sucesión de eventos es decreciente, es decir: A1 ⊇ A2 ⊇ A3 ⊇ · · · . Se verifica: à ∞ ! \ An = lim P (An ) P n →∞ n=1 Dem: Notemos que dado que los An decrecen entonces los Acn crecen. µ ∞ ¶ µ· ∞ ¸c ¶ T T An An P = 1−P = n=1 n=1 = 1−P = Prof.J.Gastón Argeri lim n →∞ µ ¡ ∞ S n=1 Acn ¶ = 1 − lim P (Acn ) = n →∞ ¢ 1 − P (Acn ) = lim P (An ) ¥ n →∞ 21 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 22 Probabilidad condicional - Sucesos independientes 14 Probabilidad condicional Seguramente al lector no se le habrá pasado por alto, cuando definimos los axiomas de una probabilidad, la relación intuitiva que existe entre éstos y lo que se conoce como el enfoque ”frecuentista” de las probabilidades, que pasamos a explicar someramente. Supongamos, en el contexto de un experimento aleatorio concreto, que se desea asignar probabilidad a cierto evento A. El enfoque frecuentista consiste en repetir el experimento un número finito y grande de veces, digamos N veces. A continuación determina lo que se conoce como frecuencia relativa del evento A en esas N realizaciones del experimento. Dicha frecuencia relativa, que anotaremos f A , se define por: fA = número de veces que ha ocurrido A en las N realizaciones número total N de realizaciones Intuitivamente fA es un reflejo de la chance de ocurrencia de A en dichas repeticiones del experimento. En otro capı́tulo formalizaremos esta idea intuitiva. Por el momento nos conformamos con admitirla como natural y motivadora. Esta frecuencia relativa posee las siguientes propiedades: Dados eventos A, B se verifica i) fA ≥ 0 ii) fΩ = 1 iii) Si A y B son disjuntos entonces fA∪B = fA + fB Las propiedades anteriores nos hacen recordar propiedades análogas a las de la definición axiomática de probabilidad. Basados intuitivamente en esta idea frecuentista vamos a introducir el concepto de probabilidad condicional. La importancia de este concepto se debe a dos motivos principales: • Frecuentemente estamos interesados en calcular probabilidades cuando disponemos de alguna información parcial adicional acerca del resultado del experimento. En tal caso dichas probabilidades se dicen condicionales (a la información adicional). • Aún en situaciones en las cuales no disponemos de tal información parcial adicional, es frecuente el uso de la probabilidad condicional como herramienta que permite calcular las probabilidades deseadas de un modo más sencillo. Para fijar ideas consideremos el ejemplo que sigue. Ejemplo: Se arrojan dos dados normales, de manera que cada uno de los 36 resultados posibles son equiprobables. Supongamos que se observa además que el primer dado es un 3. Con esta información adicional, ¿ cuál es la probabilidad de que el puntaje total obtenido sea 8 ? Primeramente observemos que ”el primer dado es un 3” es un evento, que podemos anotar H. Dado que ha ocurrido H, el experimento se limita a arrojar el segundo dado y determinar el número que sale. Sabemos que los posibles resultados de este experimento parcial seran sólo seis y definirán un espacio muestral parcial: ΩH = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}. Es natural considerar estos seis resultados como equiprobables, es decir que podemos definir una probabilidad P H de modo que ∀j ∈ {1, · · · , 6} , PH ({(3, j)}) = 1/6. Esta probabilidad sobre el espacio muestral Ω∗ puede pensarse como una probabilidad ”condicional a H” en el espacio muestral Ω asociado al experimento original, definiendo: • La probabilidad condicional de {(3, j)} como 1/6. Anotamos P ({(3, j)} |H) = 1/6 Prof.J.Gastón Argeri 22 pág. 23 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 • La probabilidad condicional de {(i, j)} como 0 si i 6= 3. Anotamos P ({(i, j)} |H) = 0 si i 6= 3 Por lo tanto, la probabilidad condicional de obtener puntaje total 8 será P (”se obtiene puntaje 8”|H) = P ({(3, 5)} |H) = 1/6 Ejemplo: Más generalmente consideremos dos eventos E y H en el contexto de un experimento aleatorio. Queremos asignar una probabilidad al evento E bajo el supuesto o condición que haya ocurrido H. Intuitivamente lo que podrı́amos hacer es repetir el experimento un gran número N de veces y contar en cuántas de ellas ha ocurrido H, digamos NH veces, y luego contar en cuántas de estas NH ha ocurrido también E, digamos NEH veces. Entonces podrı́amos considerar el número: /N NE H Equivalentemente, dividiendo numerador y denominador por N se obtiene: NNEHH/N = ffEHH NH Dado que las frecuencias relativas son base intuitiva para las probabilidades, este cociente motiva la definición siguiente. Definición 6 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H) > 0. Dado un evento E ∈ Σ se define la probabilidad de E condicional a F como: P (E|F ) = P (EF ) P (F ) Ejemplo: Se lanza dos veces una moneda normal. Calculemos: a) La probabilidad de que ambas salgan cara. b) La probabilidad condicional de que ambas salgan cara dado que la primera sale cara. Para responder a) consideramos el espacio muestral Ω = {CC, CS, SC, SS} y naturalmente asignamos probabilidades uniformemente, de modo que cada uno de los cuatro resultados elementales tiene probabilidad 1/4. Luego: P (”ambas salen cara”) = P ({CC}) = 1 4 Para responder a b) utilizamos la definición de probabilidad condicional. Sean E = ”ambas salen cara” y H = ”la primera sale cara”. Entonces: P (E|H) = Propiedad 20 Sean (Ω, Σ, P ) P (·|H) P (EF ) P (F ) = P ({CC}) P ({CC, CS}) = 1/4 1/2 = un espacio de probabilidad y H ∈ Σ Sea Σ −→ R la función que asigna a cada E ∈ Σ (Ω, Σ, P (·|H)) es un espacio de probabilidad. 1 2 tal que P (H) > 0. el número real P (E|H). Entonces Dem: La demostración se propone como ejercicio al final del capı́tulo ¥ Propiedad 21 Sean Σ una σ-álgebra de subconjuntos de Ω y H ∈ Σ. Sea ΣH la siguiente clase de subconjuntos de H: ΣH = {EH : E ∈ Σ} Entonces ΣH es una σ-álgebra de subconjuntos de H. Dem: i) Dado que H ∈ Σ y H = HH resulta H ∈ ΣH Prof.J.Gastón Argeri 23 pág. 24 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 ii) Supongamos que B ∈ ΣH . Luego, existe cierto E ∈ E como H son miembros de Σ también lo es B. complemento de B relativo a H es H \ B = B c H. ΣH , siendo este complemento la intersección entre H Σ tal que B = EH. Dado que tanto Luego, también B c ∈ Σ. Entonces el Por ende este complemento pertenece a y un miembro de Σ. iii) Sea {Bn } una sucesión en ΣH . Luego, existe una sucesión {En } en Σ tal que ∀n , Bn = En H. Luego: à ∞ ! ∞ ∞ [ [ [ En ∩ H En H = Bn = Sea E = ∞ S ∞ S En . Dado que los En n=1 Bn = EH resulta que ∞ S n=1 n=1 Definición 7 La σ-álgebra ΣH reducción de Σ a H. n=1 n=1 n=1 son miembros de Σ Bn ∈ Σ H resulta E ∈ Σ. Pero como ¥ definida arriba se denomina la relativización de Σ a H o la Propiedad 22 Dados (Ω, Σ, P ) espacio de probabilidad y H ∈ Σ tal que P (H) > 0, la función PH Σh −→ R definida por PH (B) = P (B) P (H) es una probabilidad sobre (H, ΣH ). Más aún, se verifica: ∀E ∈ Σ , PH (EH) = P (E|H) Dem: La demostración se propone como ejercicio al final del capı́tulo ¥ Definición 8 Se dice que el espacio de probabilidad (H, ΣH , PH ) se ha obtenido reduciendo a H el espacio de probabilidad (Ω, Σ, P ). La idea es la siguiente: Calcular en Σ probabilidades condicionalmente a H equivale a calcular en ΣH probabilidades sin condicionar. En determinados ejemplos es más sencillo calcular probabilidades condicionales por definición mientras que en otros es más fácil calcularlas trabajando directamente sobre el espacio muestral reducido. Teorema 3 (Regla del producto) Sea (Ω, Σ, P ) espacio de probabilidad. i) Si A, B ∈ Σ con P (B) > 0 entonces P (AB) = P (A|B) · P (B) ii) Más generalmente, dados A1 , · · · , An+1 ∈ Σ con P (A1 · · · An ) > 0 se verifica: P (A1 · · · An+1 ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 A2 ) · · · · · P (An+1 |A1 A2 · · · An ) Dem: Por inducción sobre n. Paso base: n = 1 Este caso corresponde a demostrar i). Sean A1 , A2 ∈ Σ con P (A) > 0. Se tiene: Como P (A2 |A1 ) = Prof.J.Gastón Argeri P (A1 A2 ) P (A1 ) se deduce P (A1 A2 ) = P (A1 )P (A2 |A1 ) 24 pág. 25 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Hipótesis inductiva: Suponemos la propiedad válida para n Ahora queremos demostrar que vale para n + 1. Sean A1 , · · · , An+2 ∈ Σ. Se tiene: P (A1 A2 · · · An+1 An+2 ) | {z } | {z } A = B HI P (A1 · · · An+1 )P (An+2 | A1 · · · An+1 ) = | {z } | {z } | {z } A HI = B A P (A1 )P (A2 |A1 ) · · · P (An+1 |A1 · · · An )P (An+2 |A1 · · · An+1 ) Esto demuestra que la propiedad es verdadera para n + 1 bajo el supuesto que sea verdadera para n. Luego, por inducción es válida para todo n ∈ N ¥ Ejemplo: Una urna contiene inicialmente r bolillas rojas y b bolillas blancas. Se realiza el siguiente experimento aleatorio: Se extrae una bolilla al azar y se completa la urna con c bolillas de ese mismo color. Se extrae nuevamente una bolilla al azar y se completa la urna con c bolillas del mismo color, etc. Se quiere calcular la probabilidad de que las tres primeras extracciones resulten en bolillas rojas. Para resolverlo, dado que el experimento se lleva a cabo en tres etapas y cada etapa afecta la composición de la urna de extracción, es adecuado condicionar una extracción a los resultados de las extracciones previas. Definamos Ri = ”la i-ésima extracción resulta bolilla roja” (i = 1, 2, 3). Entonces lo que pretendemos calcular es precisamente P (R1 R2 R3 ). Planteamos la regla del producto: P (R1 R2 R3 ) = P (R1 )P (R2 |R1 )P (R3 |R1 R2 ) Por la composición inicial de la urna es claro que P (R1 ) = r r+b Por la composición de la urna inmediatamente luego que ha ocurrido R1 es claro que P (R2 |R1 ) = r+c r+c+b Por la composición de la urna inmediatamente luego que han ocurrido R1 , R2 se tiene análogamente P (R3 |R1 R2 ) = Por lo tanto: P (R1 R2 R3 ) = r r+b · r + 2c r + 2c + b r+c r+c+b · r + 2c r + 2c + b Definición 9 Sea (Ω, Σ, P ) un espacio de probabilidad. Una sucesión {An } en Σ se dice una partición de Ω sii se verifican: i) ∀n ∈ N , P (An ) > 0 ii) Ω = ∞ S An n=1 iii) ∀n, n ∈ N , n 6= m ⇒ A n ∩ Am = ∅ Ejemplo: Consideremos un espacio de equiprobabilidad Ω = {1, 2, · · · , 12}. Es decir: ∀i ∈ Ω , P ({i}) = 1/n > 0. Una posible partición de Ω es {A1 , A2 , A3 } donde A1 = {1, 3, 5, 7, 9, 11} ; A2 = {6, 12} ; A3 = {2, 4, 8, 10} Prof.J.Gastón Argeri 25 pág. 26 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Teorema 4 (Teorema de la probabilidad total) Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn } una partición de Ω. Entonces para cualquier B ∈ Σ se verifica: ∞ X P (B) = P (B|Hn )P (Hn ) n=1 Dem: ∞ S An = Ω. Por lo tanto Dado que {Hn } es una partición de Ω, sabemos que n=1 B =B∩Ω=B∩ à ∞ [ n=1 Además esta unión es disjunta dos a dos: n 6= m ⇒ Hn ! = ∞ [ BHn n=1 (BHn )(BHm ) = BHn Hm = B∅ = ∅ Luego: P (B) = ∞ X P (BHn ) n=1 Pero como ∀n ∈ N , P (Hn ) > 0 podemos escribir P (BHn ) = P (B|Hn )P (Hn ). Entonces: P (B) = ∞ X ∞ X P (BHn ) = P (B|Hn )P (Hn ) ¥ n=1 n=1 Nota: El teorema de la probabilidad total es también válido para particiones finitas. Ejemplo: Una caja C1 contiene n1 fichas marcadas con un 1 y n2 fichas marcadas con un 2. Se extrae una ficha al azar. Si sale 1 se extrae una bolilla al azar de una urna U 1 que contiene r1 bolillas rojas y b1 bolillas blancas. En cambio, si sale 2 se extrae una bolilla al azar de una urna U2 que contiene r2 bolillas rojas y b2 bolillas blancas. Calcular la probabilidad de extraer una bolilla roja. La composición de la urna de la que se extrae la bolilla depende de la primera etapa del experimento (extracción de ficha). Por lo tanto es de esperar que necesitemos condicionar al resultado de la primera etapa. Definamos F1 = ”sale ficha 1” y F2 = ”sale ficha 2”. Entonces {F1 , F2 } es claramente una partición de Ω. Definamos también R = ”sale bolilla roja”. Por lo tanto: P (R) = 2 X P (R|Fn )P (Fn ) = P (R|F1 )P (F1 ) + P (R|F2 )P (F2 ) n=1 Es claro que P (F1 ) = n1 n1 +n2 ; P (F2 ) = r1 r1 +b1 ; P (R|F2 ) = n2 n1 +n2 También es claro que: P (R|F1 ) = Por lo tanto: P (R) = r1 r1 + b1 · n1 n1 + n 2 + r2 r2 + b2 · r2 r2 +b2 n2 n1 + n 2 Teorema 5 (Regla de Bayes) Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn } una partición de Ω. Para cualquier B ∈ Σ tal que P (B) > 0 y para cualquier j ∈ N se verifica: P (Hj |B) = P (B|Hj )P (Hj ) ∞ P P (B|Hn )P (Hn ) n=1 Prof.J.Gastón Argeri 26 pág. 27 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Dem: Se tiene: P (Hj |B) = P (BHj ) P (B) P (B|Hj )P (Hj ) = ∞ P ¥ P (B|Hn )P (Hn ) n=1 Nota: La regla de Bayes también es válida para particiones finitas. Ejemplo: Una caja contiene N = n1 + n2 + n3 fichas, de las cuales n1 están numeradas con ”1”, n2 están numeradas con ”2” y n3 están numeradas con ”3”. Se dispone además de tres urnas U1 , U2 , U3 . La urna Ui contiene ri bolillas rojas y bi bolillas blancas (i = 1, 2, 3). Se extrae al azar una ficha de la caja. Acto seguido se elige al azar una bolilla de la urna rotulada con el mismo número que la ficha extraida. Sabiendo que la bolilla extraida fue roja, ¿ cuál es la probabilidad de que haya provenido de la urna U2 ? Sean Fi = ”sale ficha i” ; i = 1, 2, 3 R = ”sale bolilla roja” y B = ”sale bolilla blanca” Se pretende calcular P (F2 |R). Acá se quiere averiguar la probabilidad de un evento que ocurrió en una etapa previa del experimento basados en infromación de una etapa posterior. Es natural entonces ”revertir” este condicionamiento, para lo cual utilizamos el teorema de Bayes. Notemos que {F1 , F2 , F3 } es una partición de Ω. Entonces: P (F2 |R) = P (R|F2 )P (F2 ) P (R|F1 )P (F1 )+P (R|F2 )P (F2 )+P (R|F3 )P (F3 ) = = n2 r2 · r2 +b2 n1 +n2 +n3 r1 n1 r2 n r3 n3 · + r +b · n +n2 +n + r +b · r1 +b1 n1 +n2 +n3 2 2 1 2 3 3 3 n1 +n2 +n3 = r2 n 2 r2 +b2 r1 n 1 r n r n + r 2+b2 + r 3+b3 r1 +b1 2 2 3 3 = Ejemplo: Un procedimiento llamado fluoroscopı́a cardı́aca (FC) se utiliza para determinar si existe calcificación en las arterias coronarias. El test permite detectar si hay 0,1,2,ó 3 arterias coronarias calcificadas. Anotemos: Ti+ : la FC detecta i arterias calcificadas D + : hay enfermedad coronaria ; (i = 0, 1, 2, 3) D − : no hay enfermedad coronaria Supongamos que se conocen los datos de la siguiente tabla i 0 1 2 3 P (Ti+ |D + ) 0.41 0.24 0.20 0.15 P (Ti+ |D −) 0.96 0.02 0.02 0.00 a) Si P (D + ) = 0.05 calcular P (D + |Ti+ ) para i = 0, 1, 2, 3 b) Si P (D + ) = 0.92 calcular P (D + |Ti+ ) para i = 0, 1, 2, 3 En ambos casos el cálculo se reduce a utilizar la regla de Bayes: P (D + |Ti+ ) = Prof.J.Gastón Argeri P (Ti+ |D + )P (D + ) P (Ti+ |D + )P (D + ) + P (Ti+ |D −)P (D −) 27 pág. 28 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 donde P (D −) = 1 − P (D + ) Se obtienen los resultados siguientes: i 0 1 2 3 15 P (D + |Ti+ ) cuando P (D + ) = 0.05 0.022 0.387 0.345 1.000 P (D + |Ti+ ) cuando P (D + ) = 0.92 0.831 0.993 0.991 1.000 Independencia estocástica Sean A, B eventos con P (A) > 0 y P (B) > 0. Intuitivamente podemos decir que dichos eventos son independientes (entre sı́) si el hecho que ocurra A no influye sobre la chance de ocurrir B y recı́procamente, el hecho que ocurra B no influye sobre la chance de ocurrir A. Es decir si la ocurrencia de A ni afecta ni es afectada por la ocurrencia de B. Podemos expresar esta idea intuitiva diciendo que A y B son independientes sii P (B|A) = P (B) y P (A|B) = P (A). Expresando mediante intersecciones podemos reducir estas dos condiciones a una sola, con la ventaja adicional de no requerir que los eventos tengan probabilidades positivas. Esta idea es la base de la siguiente definición. Definición 10 Los eventos A y B se dicen independientes sii P (AB) = P (A) · P (B) Nota: No debe confundirse la noción de independencia con la de eventos excluyentes. De hecho, si A y B son mutuamente excluyentes y si P (A) > 0 y P (B) > 0, entonces A y B distan mucho de ser independientes pues P (AB) = P (∅) = 0 6= P (A)P (B) Ejemplo: Se elige al azar una carta de un mazo de 52 cartas francesas. Consideremos los eventos A : ”sale un as” ; C : ”sale una carta de corazones” Analicemos la independencia entre ellos: P (A) = 4 52 P (C) = P (AC) = 1 52 = 4 52 · 13 52 13 52 P (AC) = 1 52 = P (A)P (C) Por lo tanto A y C son independientes. Ejemplo: Se arrojan dos dados equilibrados, uno blanco y otro rojo. Consideremos los eventos A : ”puntaje total 6” ; B : ”el dado rojo sale 4” Analicemos la independencia entre ellos: P (A) = 5 36 P (B) = P (AB) = 1 36 6= 5 36 · 1 36 1 6 P (AB) = 1 36 = P (A)P (B) Por lo tanto A y C no son independientes. Propiedad 23 Los eventos A y B son independientes sii los eventos A y B 0 son independientes Dem: ⇒) Supongamos A y B independientes. Luego: P (AB) = P (A)P (B). Entonces: P (AB 0 ) = P (A\B) = P (A)−P (AB) = P (A)−P (A)P (B) = P (A)(1−P (B)) = P (A)P (B 0 ) Prof.J.Gastón Argeri 28 pág. 29 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Luego, A y B 0 son independientes. ⇐) Si ahora suponemos A y B 0 independientes, podemos aplicarles la parte ⇒) ya demostrada. Se deduce que A y (B 0 )0 = B son independientes ¥ Corolario 3 Los eventos A y B son independientes sii A0 y B 0 son independientes Generalicemos la noción de independencia a tres eventos A, B, C. Imaginemos que C represente la presencia de cierta enfermedad y que A y B representen la presencia de dos sı́ntomas clı́nicos. Supongamos que dichos sı́ntomas se presentan independientemente (que un paciente presente un sı́ntoma no lo hace más ni menos proclive a presentar el otro sı́ntoma). Supongamos también que A y C sean independientes y que B y C sean independientes. Podrı́a sin embargo ocurrir que la presencia simultánea de ambos sı́ntomas sı́ aumentara (o disminuyera) la chance de tener la enfermedad. En tal caso los eventos AB y C no serı́an independientes. Esto motiva la siguientes definición. Definición 11 Los eventos A, B, C se dicen independientes sii se verifican P (AB) = P (A)P (B) , P (AC) = P (A)P (C) , P (BC) = P (B)P (C) P (ABC) = P (A)P (B)P (C) Ejemplo: Sea Ω = {1, 2, 3, 4} un espacio de equiprobabilidad. Definamos los eventos: A = {1, 4} , B = {2, 4} , P (B) = C = {3, 4} , Entonces: P (A) = P (AB) = 1 4 = P (A)P (B) , 1 2 P (AC) = P (ABC) = 1 4 6= 1 4 1 8 1 2 , P (C) = = P (A)P (C) , 1 2 P (BC) = 1 4 = P (B)P (C) = P (A)P (B)P (C) Luego A, B, C no son independientes. Ejemplo: Sea Ω = {1, 2, 3, 4, 5, 6, 7, 8} un espacio de equiprobabilidad. Definamos los eventos: A = {1, 2, 3, 4} , B = {1, 2, 7, 8} 1 2 , , C = {1, 5, 6, 7} Entonces: P (A) = P (AB) = 1 4 P (B) = 1 2 , P (C) = 1 2 = P (A)P (B) , P (BC) = 1 4 = P (B)P (C) , P (AC) = P (ABC) = 1 8 = P (A)P (B)P (C) 1 8 6= 1 4 = P (A)P (C) Luego A, B, C no son independientes. Definición 12 Se dice que los eventos A1 , · · · , An son independientes sii para cualquier secuencia estrictamente creciente 1 ≤ i1 < · · · < ir ≤ n de enteros, se verifica P (Ai1 · · · Air ) = Prof.J.Gastón Argeri r Q j=1 P (Aij ) 29 pág. 30 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Nota: Vemos que en general es necesario verificar para asegurar la independencia de n eventos. ¡n¢ 2 + ¡n¢ 3 +···+ ¡n¢ n = 2n − (n + 1) condiciones Propiedad 24 Supongamos que A1 , · · · , An son independientes. Sean B1 , · · · , Bn eventos tales que Bi = Ai ó Bi = A0i (i = 1, · · · , n) Entonces B1 , · · · , Bn son independientes. Prof.J.Gastón Argeri 30 pág. 31 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Variables aleatorias - Distribuciones de probabilidad 16 Funciones X Sea Ω → C una función. Recordemos que esto significa que X establece una correspondencia entre elementos de Ω y elementos de C con la caracterı́stica que a cada elemento de Ω le asigna uno y sólo un elemento de C. Si dicha correspondencia asigna al elemento ω ∈ Ω el elemento c ∈ C decimos que c es el valor de X en ω o la imagen de ω por X, situación que se anota X(ω) = c. El conjunto Ω se denomina dominio de la función y suele anotarse Dom(X). La imagen o rango (o a veces el recorrido) de X es el conjunto de todos los valores de X, es decir el conjunto formado por todos los valores X(ω) cuando ω recorre Ω. Anotaremos la imagen de X como R X . Es decir: RX = {X(ω) : ω ∈ Ω} = {c ∈ C : ∃ω ∈ Ω , c = X(ω)} Dado B ⊆ C definimos la imagen inversa de B por X como el conjunto de todos los elementos de Ω cuyas imágenes por X pertenecen a B. Si anotamos X −1(B) a la imagen inversa de B por X esta definición establece que X −1(B) = {ω ∈ Ω : X(ω) ∈ B} X Ejemplo: Sea R → R dada por X(t) = t2 . En este caso la imagen o rango de X es RX = [0, ∞). Por otra parte: X −1 ({4}) = {2, −2} , X −1 ({0}) = {0} X −1 ((−∞, 0)) = ∅ X −1 ([4, ∞)) = (−∞, −2] ∪ [2, ∞) n √ √ o , X −1 ({0, 2, 4, 7}) = 0, ± 2, ±2, ± 7 , X −1 (R) = R X Ejemplo: Sea {ω1 , ω2 , ω3 , ω4 } → R dada mediante la siguiente tabla de valores: ω ω1 ω2 ω3 ω4 X(ω) 2 1 1 0 X −1 ({2}) = {ω1 } Entonces por ejemplo: X −1 ({0}) = {ω4 } X −1 ((−∞, 1]) = {ω2 , ω3 , ω4 } X −1 ({1}) = {ω2 , ω3 } X −1 ((−∞, 0]) = {ω4 } X −1 ((−∞, −1]) = ∅ Dado A ⊆ R se denomina función indicadora o función caracterı́stica de A a la función I A : R → R dada por 1 si x ∈ A IA (x) = 0 si x 6∈ A 17 Variables aleatorias y funciones de distribución Cuando se realiza un experimento aleatorio existen diversas caracterı́sticas observables o medibles. No obstante ello, generalmente el experimentador centra su interés en algunas de estas caracterı́sticas. Por ejemplo, si el experimento consiste en lanzar un dado N = 10 veces, podrı́amos interesarnos en las siguientes caracterı́sticas: ”cantidad de dados que salen 3”, ”puntaje total obtenido”, ”mı́nimo número obtenido”,etc. Cada una de estas caracterı́sticas relaciona cada posible resultado del experimento con un número real. Ası́ por ejemplo podemos considerar que ”puntaje total obtenido” relaciona el resultado ω = (1, 5, 4, 3, 4, 6, 5, 1, 2, 2) con el número real 1+5+4+3+4+6+5+1+2+2 = 33. Esto motiva la siguiente definición. Prof.J.Gastón Argeri 31 pág. 32 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Definición 13 Se denomina variable aleatoria (va) sobre un espacio de probabilidad (Ω, Σ, P ) a toda función X : Ω → R con la siguiente propiedad: ∀a ∈ R , X −1 ((−∞, a]) ∈ Σ (2) Las variables aleatorias suelen designarse mediante las últimas letras del abecedario y en mayúsculas: · · · , P, · · · , X, Y, Z. También se las designa mediante alguna de estas letras junto con uno o más subı́ndices, por ejemplo: X1 , X2 , S12 Nota: Dados un número real a y una variables aleatoria X, puesto que según la definición X es una función de Ω en R, tiene sentido calcular la imagen inversa de B = (−∞, a] por X, que es precisamente: X −1 ((−∞, a]) = {ω ∈ Ω : X(ω) ∈ (−∞, a]} = {ω ∈ Ω : X(ω) ≤ a} En el contexto de variables aleatorias es frecuente una notación alternativa y mucho más frecuente para las imágenes inversas por X. En general, para B ⊆ R la imagen inversa de B por X se anota también {X ∈ B}. Es decir: {X ∈ B} = {ω ∈ Ω : X(ω) ∈ B} = X −1(B) Por lo tanto la definición establece que una función X : Ω → R es una variable aleatoria sobre (Ω, Σ, P ) sii se cumple ∀x ∈ R , {X ≤ x} ∈ Σ Tengamos presente que cuando el espacio de probabilidad es finito (es decir cuando #(Ω) es finito) y Σ = P(Ω) es la σ-álgebra de todos los subconjuntos de Ω, entonces la condición (2) es superflua puesto que se satisface automáticamente. Lo mismo ocurre cuando Ω = {ω 1 , ω2 , · · · } es infinito numerable y cada {ωn } ∈ Σ puesto que: {X ≤ x} = {ωn : X(ωn ) ≤ x} = ∞ [ n=1 X(ωn )≤x {ωn } Siendo la unión a lo sumo numerable y cada {ω} ∈ Σ se deduce que {X ≤ x} ∈ Σ. Luego, en los casos donde el espacio de probabilidad es discreto, la noción de variable aleatoria coincide con la de función X : Ω → R. Definición 14 Sea X v.a. definida sobre un espacio de probabilidad (Ω, Σ, P ). Se dice que X es discreta sii existe A ∈ Σ, A a lo sumo numerable y tal que P (X ∈ A) = 1. Observemos que cuando el espacio muestral es finito cualquier variable aleatoria es discreta, pues basta tomar A = Ω. Propiedad 25 Dada una v.a. discreta X existe un mı́nimo A ∈ Σ con la propiedad que P (X ∈ A) = 1 Dem: Siendo X discreta, sea A ∈ Σ tal que A es a lo sumo numerable y P (X ∈ A) = 1. Definamos SX = {x ∈ R : P (X = x) > 0}. Entonces: A = SX ] (A \ SX ) de manera que 1 = PX (A) = PX (SX ) + PX (A \ SX ). Mostraremos que PX (A \ SX ) = 0. En c resulta ∀x ∈ B , P ({x}) = 0. efecto: Anotemos B = A \ SX . En primer lugar, como B ⊆ SX X Dado que A es a lo sumo numerable resulta B a lo sumo numerable. Luego: à ! ] X {x} = PX ({x}) = 0 PX (B) = PX x∈B Prof.J.Gastón Argeri x∈B 32 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 33 Es decir que hemos demostrado que si A es a lo sumo numerable y P (X ∈ A) = 1 entonces P (A \ SX ) = 0 En particular: PX (SX ) = 1. Es decir P (X ∈ SX ) = 1. Supongamos ahora que SX 6⊆ A. Entonces existirı́a xo ∈ SX con xo 6∈ A. Luego: P (X = xo ) > 0. Entonces PX (X ∈ A ] {xo }) = PX (A) + P (X = xo ) > PX (A) = 1. Absurdo. Entonces necesariamente es SX ⊆ A. Esto demuestra que: P (X ∈ SX ) = 1 Si A es a lo sumo numerable y P (X ∈ A) = 1 entonces SX ⊆ A Por lo tanto SX es el mı́nimo conjunto buscado ¥ Definición 15 Dada una variable aleatoria discreta X se denomina soporte (o rango esencial o simplemente rango) de X al mı́nimo A tal que P (X ∈ A) = 1. Anotaremos RX al rango de X. Cuando un experimento conduce a medir cantidades como ”peso”, ”altura”, ”temperatura”, ”duración”, etc, es de esperar que dichas variables aleatorias no estén restringidas a un rango a lo sumo numerable. Una posible clasificación de las variables aleatorias es la siguiente: discretas continuas variables aleatorias mixtas Son discretas aquellas variables aleatorias cuyo rango es a lo sumo numerable. Son continuas aquellas que poseen una ”densidad” (concepto que precisaremos más adelante). Las mixtas son aquellas que ni son discretas ni son continuas. Ejemplo: Se lanza una moneda tantas veces como sea necesario hasta que sale ”cara”. En este caso Ω = {C, SC, SSC, SSSC, · · · } y consideramos Σ = P(Ω). Sea X = ”lanzamientos necesarios hasta obtener cara”. Esta va. discreta tiene rango R X = N. Para familiarizarnos con la notación de imagen inversa vemos como ejemplo que: {X ≤ 0} = ∅ , {X ≤ 5} = {C, SC, SSC, SSSC, SSSSC} Ejemplo: Se lanza una moneda. Se tiene Ω = {C, S}. Consideramos Σ = P(Ω). Sea X = ”cantidad de caras obtenidas”. Entonces RX = {0, 1}. En este caso: ∅ si x<0 {S} si 0 ≤ x < 1 {X ≤ x} = {C, S} si x≥1 Recordemos que una bola abierta en Rn es el conjunto de todos los puntos de Rn que distan de un punto fijo ~ xo ∈ Rn (llamado el centro de dicha bola) en menos que una cantidad ² > 0 (el radio de la bola). Es decir B²(~ xo ) = {~ x ∈ Rn : k~ x−~ xo k < ²} Un subconjunto A ⊆ Rn se dice abierto sii para cada ~ x = (x1 , · · · , xn ) ∈ A existe al menos una n−bola abierta en Rn centrada en ~ x y completamente contenida en A. Formalmente: A ⊆ Rn es abierto sii se verifica ∀~ x ∈ A , ∃² > 0 , ∀~ y ∈ Rn , k~ y−~ xk < ² ⇒ y ∈ A Definición 16 Se denomina σ-álgebra de Borel en R a la mı́nima σ-álgebra de subconjuntos de R que contiene a todos los conjuntos de la forma (−∞, x] con x ∈ R. Anotaremos B a esta σ-álgebra de subconjuntos de R. Prof.J.Gastón Argeri 33 pág. 34 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Propiedad 26 Dada una variable aleatoria discreta X, se verifica: X ∀B ∈ B , P (X ∈ B) = P (X = x) x∈B∩RX Dem: ¢ ¡ c se deduce que: Como B = (B ∩ RX ) ] B ∩ RX c PX (B) = PX (B ∩ RX ) + PX (B ∩ RX ) c ) = 0. Luego: P (B ∩ Rc ) = 0, de manera que Pero como PX (RX ) = 1 entonces PX (RX X X X PX (B) = PX (B ∩ RX ) = P (X = x) x∈B∩RX Definición 17 Sea (Ω, Σ, P ) un espacio de probabilidad. Consideremos una variable aleatoria X : Ω → R. La función PX : B → R dada por E 7−→ P (X ∈ E) se denomina función de distribución de X. Propiedad 27 La función de distribución PX probabilidad sobre (R, B). de una variable aleatoria X es una función de Dem: En lo que sigue B, Bn ∈ B PX (R) = P (X ∈ R) = P (Ω) = 1 PX (B) = P (X ∈ B) ≥ 0 pues P es una probabilidad y {X ∈ B} ∈ Σ Supongamos {Bn } sucesión en B, tal que n 6= m ⇒ Bn ∩ Bm = ∅. Entonces: µ ∞ ¶ µ µ ∞ ¶¶ ¶ µ ∞ S S S −1 = P X∈ PX Bn = Bn Bn = P X n=1 n=1 n=1 = P µ ∞ S X −1(Bn ) n=1 ¶ = ∞ P n=1 ∞ ¡ ¢ P P (X ∈ Bn ) P X −1(Bn ) = n=1 puesto que los eventos {X ∈ Bn } son disjuntos dos a dos. ¥ Definición 18 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad. Se dice que X e Y son equidistribuidas o idénticamente distribuidas sii ambas poseen la misma función de distribución, i.e. ∀B ∈ B , PX (B) = PY (B) Nota: El hecho de ser X e Y equidistribuidas no significa que sean iguales. Esto se verá más adelante. Ejemplo: Un fabricante produce un artı́culo en dos variedades A y B. Desea recabar información acerca de la preferencia de los consumidores. Para ello seleccionará al azar 30 clientes a quienes se les preguntará si prefieren A o B. Se trata de un experimento aleatorio en el cual el espacio muestral Ω puede definirse como el conjunto de todas las 30-uplas de 1’s y/o 0’s, donde un 1 en la i-ésima coordenada de la 30-upla indica que el i-ésimo cliente encuestado prefiere la variedad A sobre la B. Supongamos que estos 230 posibles resultados de la encuesta sean equiprobables. Consideremos X = ”cantidad de consumidores que prefieren A”. Se tiene RX = {0, 1, · · · , 30}. Calculemos para cada 0 ≤ k ≤ 30, las probabilidades siguientes: P (X = k) = P (X ≤ k) = #{X=k} #(Ω) k P = (30 k) 230 (k = 0, 1, · · · , 30) P (X = j) j=0 Grafiquemos los valores de X sobre el eje de abscisas y las probabilidades halladas anteriormente sobre el eje de ordenadas: Prof.J.Gastón Argeri 34 pág. 35 P(X<=k) 0.08 0.0 0.0 0.02 0.2 0.04 0.4 0.06 P(X=k) 0.6 0.10 0.8 0.12 0.14 1.0 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 0 5 10 15 20 25 30 0 5 10 15 k 20 25 30 k Definición 19 Dada una variable aleatoria X : Ω → R se denomina función de distribución acumulada (fda) de X a la función designada FX y definida por: FX : R → R FX (x) = P (X ≤ x) dada por Nota: Para indicar que la variable aleatoria posee fda F anotamos X ∼ F . Ejemplo: Se arroja tres veces una moneda normal. Sea X = cantidad de caras obtenidas. Entonces RX = {0, 1, 2, 3}. La función de distribución acumulada de X es 0 si x<0 1/8 si 0 ≤ x < 1 1/2 si 1 ≤ x < 2 FX (x) = 7/8 si 2 ≤ x < 3 1 si x≤3 1.0 Distribucion binomial acumulada F(x) 0.6 0.8 ) 0.2 0.4 ) 0.0 ) ) -1 0 1 2 3 4 x Prof.J.Gastón Argeri 35 pág. 36 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Ejemplo: Se arroja una moneda normal hasta que sale cara. Sea X = ”cantidad de lanzamientos antes que salga cara”. Se tiene RX = {0, 1, 2, 3, · · · }. La fda de X es: 0 si x<0 1/2 si 0 ≤ x<1 1/2 + 1/4 si 1≤x<2 2≤x<3 1/2 + 1/4 + 1/8 si .. .. .. FX (x) = . . . k+1 ¡ ¢ P i 1 si k ≤ x < k + 1 2 i=1 .. .. .. . . . Propiedad 28 Sea X una variable aleatoria con función de distribución acumulada F X . Se cumple: i) ∀x ∈ R , 0 ≤ FX (x) ≤ 1 ii) FX es no decreciente, es decir: ∀x, y ∈ R , x < y ⇒ FX (x) ≤ FX (y) iii) FX es continua por la derecha, es decir: ∀x ∈ R , lim FX (t) = FX (x) t → x+ iv) lim x → −∞ FX (x) = 0 y lim FX (x) = 1 x →∞ Dem: i) Evidente pues FX (x) = P (X ≤ x) es una probabilidad. ii) Sean x, y ∈ R con x < y. Entonces {X ≤ x} ⊆ {X ≤ y}. Por lo tanto FX (x) = P (X ≤ x) ≤ P (X ≤ y) = FX (y) iii) Siendo FX no decreciente sabemos que para todo x ∈ R , lim FX (t) existe (es finito). Como t → x+ ª ¡ ¢ © 1 1 es una sucesión de términos a la derecha de x y tal que lim x + n = x, enx+ n n →∞ ∞ ¡ ¢ ª T © 1 1 tonces lim FX (t) = lim FX x + n . Pero: {X ≤ x} = X ≤x+ n . Como esta + n → ∞ t→x n=1 o n ª © 1 1 , entonces por propiedad ⊆ X ≤x+ n intersección es decreciente, pues X ≤ x + n+1 ¡ ¢ 1 de una función de probabilidad es P (X ≤ x) = lim P X ≤ x + n . Luego: n →∞ µ ¶ ¶ µ 1 1 FX (x) = P (X ≤ x) = lim P X ≤ x + = lim FX x + = lim FX (t) n →∞ n →∞ n n t → x+ iv) Dado que Ω = {X ∈ R} = ∞ S n=1 {X ≤ n} y siendo la unión creciente, por propiedad de una función de probabilidad se tiene lim FX (n) = lim P (X ≤ n) = P (Ω) = 1. Pero siendo n →∞ n →∞ FX no decreciente y acotada resulta lim FX (x) = lim FX (n). Entonces: x →∞ n →∞ lim FX (x) = lim FX (n) = 1 x →∞ n →∞ La demostración del otro lı́mite es análoga y queda a cargo de ustedes. ¥ Teorema 6 Sea F : R → R una función. Se cumple: F satisface las propiedades siguientes: i) F es no decreciente en R. Prof.J.Gastón Argeri 36 pág. 37 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 ii) F es continua a derecha en R iii) lim x → −∞ F (x) = 0 y lim F (x) = 1 x →∞ si y sólo si F es la función de distribución de probabilidad acumulada de cierta variable aleatoria. Dem: ⇐) Ya se demostró (Prop. anterior) ⇒) La demostración excede el alcance y los objetivos de este curso de modo que la omitimos. Sólo comentaré que es necesario demostrar que existe cierto espacio de probabilidad (Ω, Σ, P ) y cierta variable aleatoria X en dicho espacio, tal que FX = F ¥ Ejemplo: Consideremos la función F (x) = ½ 1 − e− x si x ≥ 0 0 si x < 0 El teorema anterior permite demostrar la existencia de una variable aleatoria X (definida en cierto espacio de probabilidad) tal que F = FX . En efecto: F es no decreciente. F es continua a derecha en R. De hecho F continua en R Se tiene lim x → −∞ F (x) = lim x → −∞ 0=0 y lim F (x) = lim x →∞ x →∞ ¡ ¢ 1 − e− x = 1 0.0 0.2 0.4 F(x) 0.6 0.8 1.0 La gráfica de F tiene el siguiente aspecto: -2 0 2 4 6 8 10 x Propiedad 29 Sean X una variable aleatoria, xo ∈ R. Se cumple: i) FX (xo ) − FX (xo −) = P (X = xo ) ii) FX es continua a izquierda en xo sii P (X = xo ) = 0 iii) FX posee una cantidad a lo sumo numerable de discontinuidades. Prof.J.Gastón Argeri 37 pág. 38 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Dem: i) Utilizando las propiedades de continuidad de una probabilidad resulta: FX (xo −) = lim x → xo − = P µ ∞ S n=1 FX (x) = lim x → xo − P (X ≤ x) = lim P (X ≤ xo − 1/n) = {X ≤ xo − 1/n} n →∞ ¶ = P (X < xo ) Por lo tanto: P (X = xo ) = P (X ≤ xo ) − P (X < xo ) = FX (xo ) − FX (xo −) ii) Evidente a partir de i). iii) Si FX es discontinua en xo entonces P (X = xo ) > 0. Anotemos A = {x0 ∈ R : P (X = xo ) > 0}. Queremos ver que A es a lo sumo numerable. Pero: A= ∞ [ Ak donde k=1 Ak = {x0 ∈ R : P (X = xo ) > 1/k} Bastará entonces mostrar que los Ak son finitos. Supongamos por el absurdo que existiera k tal que Ak fuera infinito. Entonces existirı́a una sucesión de términos todos distintos {x n } tal que ∀n , xn ∈ Ak . Luego: ! à ∞ ∞ X ] P ({xn }) = ∞ {xn } = P (A) ≥ P n=1 n=1 dado que la serie posee término general que no tiende a cero. Absurdo. Luego los A k finitos, con lo cual A es a lo sumo numerable ¥ son todos Propiedad 30 Sea X una variable aleatoria y sea FX su fda. Dados a, b ∈ R , a ≤ b, se cumple: i) P (a < X ≤ b) = FX (b) − FX (a) ii) P (a ≤ X ≤ b) = FX (b) − FX (a−) iii) P (a < X < b) = FX (b−) − FX (a) iv) P (a ≤ X < b) = FX (b−) − FX (a−) Dem: Demostremos i): {a < X ≤ b} = {X ≤ b} \ {X ≤ a} Entonces P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a) ¥ Definición 20 Para n ∈ N, se denomina sucesión de n ensayos de Bernoulli a todo experimento aleatorio que consiste en repetir n veces un ensayo sujeto a las siguientes condiciones: • Las n repeticiones son independientes entre sı́. • Cada ensayo tiene sólo dos posibles resultados, digamos E (”éxito”) y F (”fracaso”). • La probabilidad de E es la misma en cada uno de los n ensayos. Prof.J.Gastón Argeri 38 pág. 39 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Es frecuente denotar la probabilidad de fracaso en cada ensayo individual por q. De modo que p + q = 1, es decir q = 1 − p. El espacio muestral asociado a una sucesión de n ensayos de Bernoulli es Ω = {(ω1 , · · · , ωn ) : ωi ∈ {E, F } , 1 ≤ i ≤ n}. Ası́, el experimento consta de 2n posibles resultados. Notemos que, salvo cuando p = 1/2, los eventos elementales no son equiprobables. De hecho: P ({ω}) = pr · q n−r sii ω posee exactamente r éxitos Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale 3”, de modo que F = ”no sale 3”. Se trata de una sucesión de n = 5 ensayos de Bernoulli con probabilidad de éxito p = 1/6 en cada ensayo. Entonces, por ejemplo: µ ¶2 µ ¶3 1 5 P ({(3, 1, 1, 3, 6)}) = · 6 6 Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale múltiplo de 3”, de modo que F = ”no sale múltiplo de 3”. Se trata de una sucesión de n = 5 ensayos de Bernoulli con probabilidad de éxito p = 1/3 en cada ensayo. Entonces, por ejemplo: µ ¶3 µ ¶2 2 1 · P ({(3, 1, 1, 3, 6)}) = 3 3 Ejemplo: Dada un sucesión de n ensayos de Bernoulli, con probabilidad de éxito p en cada ensayo, sea X = ”cantidad de éxitos en los n ensayos”. Esta variable aleatoria tiene R X = {0, 1, 2, · · · , n}. El evento {X = k} estará formado por todos aquellos resultados elementales que consten exactamente de k ”éxitos” y n − k ”fracasos”. Dado que cada uno de ellos tiene probabilidad individual pk (1 − p)n−k, para calcular la probabilidad de {X = k} bastará multiplicar dicha probabilidad individual por la cantidad total ¡n¢ de resultados elementales que consten ¡n¢dekexactamente k ”éxitos” y n − k ”fracasos”, es decir k . Entonces se tiene: P (X = k) = k p (1 − p)n−k (k = 0, 1, · · · , n) Ejemplo: Consideremos un ensayo aleatorio con dos resultados posibles ”éxito” y ”fracaso”, donde la probabilidad de ”éxito” es 0 < p < 1. Nuestro experimento aleatorio consiste en repetir el ensayo en forma independiente hasta obtener el primer ”éxito”. El espacio muestral puede representarse como Ω = {E, F E, F F E, F F F E, · · · }. Los resultados elementales no son equiprobables. De hecho: P |F ·{z · · F} E = (1 − p)k p k Sea X = ”cantidad de ensayos hasta obtener éxito”, de modo que RX = N. Se tiene: P (X = k) = (1 − p)k−1p , k = 1, 2, · · · Hallemos la fda de la variable aleatoria X. Para x ≥ 0 se tiene: FX (x) = P (X ≤ x) = [x] X (1 − p)k−1p = p · k=1 1 − q [x] 1−q = 1 − q [x] donde [x] simboliza la ”parte entera de x”, es decir el mayor entero que es menor o igual que x. Por ejemplo: [4] = 4 , [4, 1] = 4 , [3, 9] = 3. Entonces: ½ 0 si x < 1 FX (x) = 1 − q [x] si x ≥ 1 Definición 21 Dada una variable aleatoria X se denomina función de probabilidad puntual o función de masa de probabilidad (fmp) de X a la función pX : R → R Prof.J.Gastón Argeri dada por pX (x) = P (X = x) 39 pág. 40 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Nota: Cuando la variable aleatoria X es discreta, con rango RX = {xn }, la fmp pX de X queda unı́vocamente determinada conociendo los valores pn = pX (xn ). Por este motivo nos referiremos indistintamente a pX o a {pn } cuando X sea discreta. Ejemplo: Consideremos una sucesión de n ensayos de Bernoulli con probabilidad de éxito p en cada ensayo. Sea X = ”cantidad de éxitos en los n ensayos”. En este caso RX = {0, 1, · · · , n}. La fmp de X es: ½ ¡n¢ x p (1 − p)n−x si x ∈ {0, 1, · · · , n} x pX (x) = 0 si x 6∈ {0, 1, · · · , n} Grafiquemos esta fdp en el caso n = 10, para p = 1/2 y luego para p = 1/4 0.25 0.20 0.0 0.05 0.10 0.15 fdp(x) 0.15 0.0 0.05 0.10 fdp(x) 0.20 0.25 0.30 p=0.25 0.30 p=0.5 0 2 4 6 8 10 0 2 x 4 6 8 10 x Propiedad 31 Para toda variable aleatoria X se cumple: ∀x ∈ R , pX (x) = FX (x) − FX (x−) Dem: Podemos escribir {X < x} = ∞ S © X ≤x− 1 n ª . Esta unión es creciente de manera que ¡ ¢ 1 por propiedades de las funciones de probabilidad vale: P (X < x) = lim P X ≤ x − n = n →∞ ¡ ¢ 1 lim FX x − n = FX (x−). Entonces pX (x) = P (X = x) = P (X ≤ x) − P (X < x) = n →∞ FX (x) n=1 − FX (x−) ¥ Nota: Obsérvese que FX (xo ) − FX (xo −) representa el valor del ”salto” de la fda de X en el punto x = xo . Cuando FX es continua en xo entonces no hay salto allı́ y en consecuencia la fmp de X es nula en x = xo . Propiedad 32 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad. Se verifica: X e Y son idénticamente distribuidas sii ∀x ∈ R , FX (x) = FY (x) Dem: ⇒) Supongamos X e Y idénticamente distribuidas. Sea x ∈ R arbitrario. Entonces (−∞, x] ∈ B de modo que FX (x) = P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) = FY (x). Luego, X e Y poseen la misma fda. ⇐) Supongamos que FX = FY . Consideremos la clase G de todos los miembros de B donde PX coincide con PY , es decir: G = {B ∈ B : PX (B) = PY (B)} = {B ∈ B : P (X ∈ B) = P (Y ∈ B)} Prof.J.Gastón Argeri 40 pág. 41 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Por construcción es G ⊆ B. Además por hipótesis, tomando B = (−∞, x] se tiene PX (B) = FX (x) = FY (x) = PY (B), de modo que G contiene a todos los subconjuntos de R de la forma (−∞, x] con x ∈ R. Pero dado que B es la mı́nima σ-álgebra de subconjuntos de R que contiene a todos los conjuntos de la forma (−∞, x], resulta G ⊇ B. Por lo tanto: G = B. Esto significa que ∀B ∈ B , PX (B) = PY (B) ¥ Ejemplo: Se arroja una moneda normal 3 veces. Sean X = ”cantidad de caras obtenidas” e Y = ”cantidad de cecas obtenidas”. Veamos que X e Y son idénticamente distribuidas. En efecto, dado que en cada ensayo la probabilidad de cara es igual a la probabilidad de ceca, se tiene: FX (x) = [x] µ ¶ µ ¶3 X 1 3 k=0 k 2 = FY (x) Observemos, de paso, que X 6= Y . Por ejemplo, para ω = (C, C, S) es X(Ω) = 2 en tanto que Y (ω) = 1 Propiedad 33 Sea X una variable aleatoria discreta con rango RX = {xn }. La fmp de X verifica las propiedades siguientes: i) ∀x ∈ R , pX (x) ≥ 0 ii) ∞ P pX (xn ) = 1 n=1 Dem: Ω = {X ∈ RX } = ∞ P n=1 P ({X = xn }) = ∞ S n=1 ∞ P n=1 {X = xn } siendo la unión disjunta. Por lo tanto: 1 = P (Ω) = pX (xn ) ¥ Propiedad 34 Sea X una variable aleatoria discreta con rango RX = {xn }. La fmp de X determina unı́vocamente su fda. En efecto: ∞ ∞ ∞ X X [ pX (xn ) P (X = xn ) = {X = xn } = FX (x) = P (X ≤ x) = P n=1 xn ≤x n=1 xn ≤x n=1 xn ≤x Ejemplo: Se lanzan dos dados. Consideremos la variable aleatoria Xi = ”número del dado i” (i = 1, 2). Sea X = ”máximo número en los dos dados”. Es decir: X = max {X1 , X2 }. Hallemos la fmp y la fda de X. Hallemos primeramente las fmp de X1 y X2 . Se tiene: RX1 = RX2 = {1, 2, · · · , 6} y por equiprobabilidad vale: pX1 (k) = pX2 (k) = 1/6 (k = 1, 2, · · · , 6) Por lo tanto: FX1 (x) = FX2 (x) = 6 X 1 k=1 k≤x 6 = [x] 6 Observemos ahora que {X ≤ x} = {X1 ≤ x} ∩ {X2 ≤ x} Por lo tanto y teniendo en cuenta la independencia de ambos lanzamientos: FX (x) = P (X ≤ x) = P ({X1 ≤ x} ∩ {X2 ≤ x}) = = P (X1 ≤ x)P (X2 ≤ x) = FX1 (x)FX2 (x) = Prof.J.Gastón Argeri ³ [x] 6 ´2 = [x]2 36 41 pág. 42 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Luego, para k = 1, 2, · · · , 6 se tiene: pX (k) = P (X ≤ k) − P (X ≤ k − 1) = FX (k) − FX (k − 1) = k2 − (k − 1)2 36 = 2k − 1 36 Generalicemos esta situación para el experimento que consiste en arrojar una dado normal n-veces. Definamos: Xi = ”número obtenido en el i-ésimo lanzamiento” X = ”máximo número obtenido en los n lanzamientos” Como antes: {X ≤ k} = n lanzamientos, resulta: n T i=1 {Xi ≤ k} Por lo tanto, teniendo en cuenta la independencia de los P (X ≤ x) = P = µ n Q i=1 Luego, para k = 1, 2, · · · , 6 se tiene: n T i=1 {Xi ≤ x} FXi (x) = pX (k) = FX (k) − FX (k − 1) = n Q i=1 µ ¶n k 6 ¶ i=1 [x] 6 − n Q = µ = ³ P (Xi ≤ x) = [x] 6 k−1 6 ´n ¶n = kn − (k − 1)n 6n La propiedad anterior no es válida para variables aleatorias no discretas. De hecho, existen fda que son funciones continuas en todo R. Si X una tal variable aleatoria entonces ∀x ∈ R , F X (x) = FX (x−). Por lo tanto: P (X = x) = P (X ≤ x) − P (X < x) = FX (x) − FX (x−) = 0 Es decir, para variables aleatorias continuas la fmp carece por completo de interés dado que es idénticamente nula. Propiedad 35 Sea {pn } una sucesión tal que: i) ∀n ∈ N , pn ≥ 0 ii) ∞ P pn = 1 x=1 Entonces {pn } es una fmp. Dem: ∞ P Definamos F (x) = pn . Dejo a cargo de ustedes verificar que F satisface las condiciones para n=1 n≤x ser una fda (Teorema 1) ¥ Motivaremos ahora la noción de variable aleatoria continua. Ejemplo: Consideremos una población formada por un gran número N = 1000 de personas. Supongamos que nos interesa la distribución de la variable aleatoria X que mide la altura de un individuo seleccionado al azar dentro de esta población. Supongamos para fijar ideas que las alturas se miden en cm y que se encuentran en el intervalo [150, 190] Dado el gran número de personas en la población podemos tener una idea aproximada de la distribución de alturas dividiendo el intervalo [150, 190] Prof.J.Gastón Argeri 42 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 43 en cuatro subintervalos de igual longitud [150, 160) , [160, 170) , [170, 180) , [180, 190) y determinando las frecuencias, es decir la cantidad de individuos cuyas alturas caen en el respectivo subintervalo. Para fijar ideas, supongamos que tales frecuencias resulten como muestra la tabla: Intervalo [150, 160) [160, 170) [170, 180) [180, 190) f (frecuencia) 80 150 500 150 f r(frecuencia relativa) 0.10 0.25 0.50 0.15 f r/(longitud subintervalo) 0.01 0.025 0.05 0.015 Si tomamos el extremo izquierdo de cada subintervalo como representativo de un valor en dicho subintervalo, la tabla anterior provee una variable aleatoria discreta D que aproxima a la variable aleatoria X y que toma los cuatro valores 150, 160, 170, 180 con probabilidades dadas por la columna f r y que podemos resumir en esta otra tabla: k 150 160 170 180 pD (k) 0.10 0.25 0.50 0.15 pD (k)/(long.subintervalo) 0.01 0.025 0.05 0.015 Para obtener una variable aleatoria discreta cuya distribución represente más fielmente la distribución de X podemos refinar nuestra partición del intervalo original [150, 190] y recalcular la fmp de la variable discreta obtenida. Siguiendo de este modo, aumentando cada vez la cantidad de subintervalos y reduciendo la longitud de los mismos (norma tendiendo a cero) e imaginando que la población es tan grande que puede suponerse ”infinita” y por ende este proceso podrı́a segir indefinidamente, obtendrı́amos por lo general una situación como se muestra en los gráficos siguientes, en la que se grafica pD /(long.subintervalo) versus x para particiones con norma cada vez menor. Comentemos algunas caracterı́sticas interesantes acerca de estos gráficos: • Permiten ”reconstruir” la fmp de la v.a.discreta simplemente hallando el área de cada rectángulo. • Dado que hemos considerado únicamente particiones regulares, los rectángulos más altos y los más bajos permiten visualizar los valores más probables y los menos probables de la variable discreta y, como la discreta aproxima a la v.a. X, también podemos localizar los intervalos donde X cae con mayor y con menor probabilidad. • Cuidado: Las alturas de los rectángulos no dan probabilidades sino probabilidades por unidad de longitud. • Si la variable aleatoria X es discreta, el proceso deja de ser informativo dado que a partir de cierto momento habrá una enorme cantidad de subintervalos donde f r/L (L la long. del subintervalo) será nula y algunos otros (a lo sumo tantos como valores tome la v.a. X) donde f r/L será muy grande (pues L tiende a cero en tanto que f r permanecerá fija). En el lı́mite podrı́amos decir que las gráficas tienden a ser nulas salvo en una cantidad a lo sumo numerable de ”picos infinitos”. • La suma de las áreas de los rectángulos es 1 • Las gráficas de las alturas de los rectángulos se asemejan cada vez más a la gráfica de una función, digamos f (x), de argumento continuo. Prof.J.Gastón Argeri 43 pág. 44 0.05 0.03 0.0 0.01 0.0 0.01 0.03 0.05 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 150 160 170 180 190 150 160 170 180 190 180 190 0.03 0.0 0.01 0.0 0.01 0.03 0.05 x 0.05 x 150 160 170 180 190 150 160 x 170 x Este ejemplo motiva la definición que sigue. Definición 22 Se dice que una variable aleatoria X es continua (o más precisamente absolutamente continua) sii existe al menos una función fX : R → R tal que: i) ∀x ∈ R , fX (x) ≥ 0 ii) ∀A ∈ B , P (X ∈ A) = R fX (x) dx A Una tal función fX se denomina una función de densidad de probabilidad (fdp) de X o de F X . Nota: • Dado que la integral involucrada en esta definición puede ser impropia, se presupone su convergencia. • Tomando A = (−∞, x] se tiene que FX (x) = Rx fX (t) dt −∞ En particular, si fX sea una función continua en el intervalo (a, b) resulta FX derivable en 0 (x) = f (x). (a, b) y vale ∀x ∈ (a, b) , FX X • Observemos que ∞ R −∞ fX (x) dx = P (X ∈ R) = 1. Es decir, el área bajo la curva y = fX (x) es igual a 1. Esto implica que una fdp, a diferencia de una fda, no puede ser monótona puesto que para la convergencia de esta integral impropia es necesario que se verifique: lim x → −∞ fX (x) = 0 y lim fX (x) = 0 x →∞ • Si X es variable aleatoria continua entonces para cualquier intervalo I ⊆ R de extremos a y b se tiene P (X ∈ I) = FX (b) − FX (a) = Zb −∞ Prof.J.Gastón Argeri fX (x) dx − Za −∞ fX (x) dx = Zb fX (x) dx a 44 pág. 45 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 0 (x) • Si fX es continua en x, entonces fX (x) = FX interpretación de la fdp: fX (x) = = lim h → 0+ fX (x+h)−FX (x) h de modo que se tiene la siguiente = lim h → 0+ P (X≤x+h)−P (X≤x) h = P (x<X<x +h) h h → 0+ lim Es decir que fX (x) representa la probabilidad de que X pertenezca al intervalo (x, x + h) dividida por la longitud de dicho intervalo. De ahı́ el nombre ”densidad” de probabilidad. Ejemplo: Sea F : R → R dada por F (x) = 1+e1− x . Comprueben que F satisface las condiciones de una fda, es decir que existe una variable aleatoria X tal que F = FX . Esta va es continua. Hallemos su fdp: d 1 dx 1+e− x 0 (x) = fX (x) = FX = e− x (1+e− x ) 2 = ex (1+ex )2 Propiedad 36 Sea f : R → R una función satisfaciendo las siguientes condiciones: i) ∀x ∈ R , f (x) ≥ 0 ii) ∞ R f (x) dx = 1 −∞ Entonces f una fdp. Dem: Definamos F : R → R por F (x) = Rx f (t) dt. Vamos a verificar que esta F es una fda. −∞ • F es no decreciente pues si x, y ∈ R con x < y se tiene: F (x) = Zx f (t) dt ≤ Zy f (t) dt = F (y) −∞ −∞ ya que f ≥ 0 y (−∞, x) ⊆ (−∞, y) • Para cualquier x ∈ R es F continua en x. Sólo demostraremos esto en el caso partirular en que f es continua en x. En tal caso el teorema fundamental del cálculo asegura que: lim 1 h→0 h lim à x+h Z f (t) dt = f (x) x Entonces: lim F (x + h) − F (x) = h→0 = h→0 lim h→0 x+h R −∞ à h· f (t) dt − 1 h x+h R x Rx f (t) dt −∞ f (t) dt ! ! = lim x+h R h→0 x f (t) dt = = 0 · f (x) = 0 Por lo tanto lim F (x + h) − F (x) = 0. Es decir: lim F (x + h) = F (x) h→0 Prof.J.Gastón Argeri h→0 45 pág. 46 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 • Finalmente: lim x → −∞ F (x) = x → −∞ −∞ Rx lim F (x) = lim x →∞ Rx lim x → ∞ −∞ f (t) dt = −∞ R f (t) dt = 0 −∞ f (t) dt = ∞ R f (t) dt = 1 −∞ Esto demuestra que F es una fda. Entonces por teorema 1 existe una variable aleatoria con fda F (y por ende, con fdp f ) ¥ Definición 23 Sea f una fdp. Se denomina soporte de f al menor conjunto cerrado que contiene al conjunto {x ∈ R : f (x) > 0}. Anotaremos RX al soporte de f . Propiedad 37 Sean X v.a. continua con fdp fX y sea B ∈ B. Entonces: P (X ∈ B) = P (X ∈ B ∩ RX ) Dem: R R R R P (X ∈ B) = B fX (x) dx = B∩RX fX (x) dx + B∩Rc fX (x) dx = B∩RX fX (x) dx = X R R P (X ∈ B ∩ RX ) puesto que B∩Rc fX (x) dx = B∩Rc 0 dx = 0 ¥ X Propiedad 38 La función f (x) = X √1 2π 2 /2 · e− x es una fdp. Dem: Claramente: ∀x ∈ R , f (x) > 0. Por otra parte: à !2 ! à à ∞ ∞ ∞ R R R 2 2 1 1 √ √ · e− x /2 dx · e− x /2 dx · = −∞ 2π = −∞ ∞ R ∞ R −∞ −∞ = 1 2π ∞ R 2 +y 2 )/2 · e− (x 2 /2 e− r 2π −∞ dy dx = ∞ R R 2π 0 0 r dr = 0 ∞ R 0 1 2π √1 2π 2 /2 · e− r ·e − y2 /2 dy ! = r dθ dr = ¯∞ e− t dt = − e− t¯0 = 1 En lo anterior hemos utilizado coordenadas polares (se multiplicó por r, el módulo del jacobiano). Luego, el cuadrado de la integral es 1. Pero siendo positiva la integral (pues f es positiva), resulta necesariamente: Z∞ 1 2 · e− x /2 dx = 1 √ 2π −∞ Esta fdp es sumamente importante en estadı́stica y se denomina densidad gaussiana (es frecuente llamarla también densidad normal standard). Suele anotarse ϕ(x). Ejemplo: Sea f (x) = ½ kx si 0<x<1 0 si x ≤ 0 ∨ x ≥ 1 Determinar el valor de la constante k de modo que f resulte ser una fdp. Hallar también la fda. En primer lugar debe ser ∞ R f (x) dx = 1. En este caso: −∞ 1= Z1 0 Prof.J.Gastón Argeri ¯1 x2 ¯¯ k kx dx = k = ¯ 2 0 2 46 pág. 47 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Por lo tanto k = 2. Hallemos la fda asociada: 0 si x≤0 Zx x≤0 Rx 0 si 2 2t dt si 0 < x < 1 = x si 0 < x < 1 F (x) = f (t) dt = 0 1 si x≥1 −∞ 1 si x≥1 Nota: El soporte de f en este ejemplo es [0, 1]. Ejemplo: El tiempo T en horas que funciona una computadora antes de descomponerse es una v.a. continua con fdp dada por: λe− t/100 si t ≥ 0 fT (t) = 0 si t < 0 Calcular la probabilidad de que una computadora funcione entre 50 y 150 horas antes de descomponerse. Calcular también la probabilidad de que funciones menos de 100 horas. Rta: Primero debemos hallar λ. Siendo fT una fdp se tiene: Z ∞ Z ∞ ¯∞ ¯ λe− t/100 dt = −100λ e− t/100¯ = 100λ fT (t) dt = 1= 0 0 −∞ Luego λ = 1/100. Entonces la probabilidad de funcionar entre 50 y 150 horas es: P (50 < T < 150) = Z 150 50 1 100 ¯150 ¯ e− t/100 dt = − e− t/100¯ = e−0.5 − e−1.5 ≈ 0.384 50 La probabilidad de que funcione menos de 100 horas viene dada por: Z 100 ¯100 1 − t/100 ¯ = 1 − e−1 ≈ 0.633 e dt = − e− t/100¯ P (T < 100) = 0 100 0 18 Cuantiles de una distribución Definición 24 Sea X una variable aleatoria con fda FX . Dado α ∈ R , 0 < α < 1, un número real xα se dice un α-cuantil de FX o de X sii se verifican: P (X < xα) ≤ α P (X > xα) ≤ 1 − α y Equivalentemente, xα es un α-cuantil de FX sii se cumplen: P (X < xα) ≤ α y P (X ≤ xα) ≥ α Suponiéndolos únicos, cuando α = 0.5 hablamos de la mediana de FX , cuando α = 0.25 hablamos del primer cuartil de FX y para α = 0.75 hablamos del tercer cuartil de X. Cuando se consideran cuantiles asociados a una división del intervalo (0, 1) en cien partes iguales es frecuente hablar de percentiles de FX . Nota: Cuando X es variable aleatoria continua (es decir que FX es función continua) la condición anterior se expresa de manera más simple: Z xα fX (x) dx = α sii P (X ≤ xα) = α xα es cuantil α de FX sii F (xα) = α sii −∞ De manera más gráfica, el cuantil α de una distribución continua es el punto del eje de abscisas que deja a su izquierda y por debajo de la gráfica de fX (obviamente por encima del eje de abscisas) un Prof.J.Gastón Argeri 47 pág. 48 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 área exactamente igual a α. Equivalentemente si se grafica FX (siempre supuesta continua), hallar el cuantil α de FX es hallar la abscisa del punto de la gráfica que posee ordenada igual a α Ejemplo: Si X es una variable aleatoria con distribución gaussiana standard entonces la mediana es x0.5 = 0 pues debido a la paridad de la fdp ϕ se tiene: FX (0) = Z0 ϕ(x) dx = −∞ Z∞ 1 2 ϕ(x) dx = 0.5 −∞ El cuantil α = 0.05 se determina planteando Φ(x0.05 ) = 0.05. Entonces x0.05 = Φ−1(0.05). Para calcularlo en forma concreta podemos utilizar tablas normales acumulativas o podemos por ejemplo recurrir al SPlus. Para ilustrar un poco más, veamos la siguiente tabla (junto con los comandos utilizados): p_c(0.01,0.05,0.1) alfa_c(p,0.5,1-rev(p)) round(qnorm(alfa),3) α xα 0.01 −2.326 0.05 −1.645 0.1 −1.282 0.5 0.000 0.9 1.282 0.95 1.645 0.99 2.326 Ejemplo: Sea X ≈ Bi(n, 0.5). Veamos que la mediana es única cuando n par pero deja de serlo cuando n es impar. • Si n = 2r entonces x0.5 = r pues: r−1 P ¡2r¢ ¡ 1 ¢2r 2 k k=0 P (X < r) = 2r P P (X > r) = j=r+1 ¡ 1 ¢2r = 2 ¡ 1 ¢2r r−1 P ¡2r¢ = 2 ¡2r¢ ¡ 1 ¢2r j 2 = 2r P ¡ 2r ¢ 2r−j j=r+1 k=0 ¡ 1 ¢2r 2 k 2r P j=r+1 ¡2r¢ j = ¡ 1 ¢2r r−1 P ¡2r¢ = 2 k=0 k Entonces P (X < r) = P (X > r). Pero P (X < r) + P (X = r) + P (X > r) = 1. Luego: P (X < r) = 1−P (X=r) ≤ 0.5 y P (X > r) = P (X < r) ≤ 0.5 = 1 − 0.5 2 • Si n = 2r − 1 entonces cualquier punto del intervalo (r − 1, r] es una posible mediana de X. En efecto: Sea x∗ ∈ (r − 1, r]. Se tiene P (X < x∗) = r−1 P ¡ k=0 P (X > x∗) = 2r−1 P ¡ j=r = Prof.J.Gastón Argeri 2r−1¢ ¡ 1 ¢2r−1 2 k 2r−1¢ ¡ 1 ¢2r−1 j 2 ¡ 1 ¢2r−1 2r−1 P ¡ 2 = j=r ¡ 1 ¢2r−1 r−1 P ¡2r−1¢ = 2r−1 ¢ 2r−1−j 2 k=0 k ¡ 1 ¢2r−1 2r−1 P ¡2r−1¢ 2 = j=r j = ¡ 1 ¢2r−1 r−1 P ¡2r−1¢ 2 k=0 k 48 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 49 Luego: P (X < x∗) = P (X > x∗). Pero como P (X < x∗) + P (X > x∗) = 1, necesariamente es P (X < x∗) = P (X > x∗) = 1/2. Luego: P (X < x∗) ≤ 0.5 y P (X > x∗) ≤ 1 − 0.5 = 0.5 Prof.J.Gastón Argeri 49 pág. 50 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Familias paramétricas de distribuciones univariadas 19 Distribuciones discretas 19.1 Distribución uniforme discreta Dado N ∈ N, se dice que una v.a. tiene distribución uniforme discreta en {1, · · · , N } sii su fmp viene dada por: 1 pX (X = k) = (1 ≤ k ≤ N ) N Obsérvese que RX = {1, · · · , N } y esta distribución de probabilidades es uniforme en el sentido que deposita la misma masa de probabilidad en cada uno de los N posibles valores 1, · · · , N de X. Podemos comprobar que pX verifica los axiomas de una fmp: • ∀k ∈ RX , pX (k) = 1/N ≥ 0 • N P pX (k) = k=1 N P k=1 1 N =N· 1 N =1 Ejemplo: Se arroja un dado equilibrado. Sea X distribución uniforme discreta en {1, · · · , 6} Ejemplo: Se extrae una carta al azar de un 1 2 X= 3 4 el puntaje obtenido. En este caso X posee mazo de cartas españolas. Sea X la v.a. definida por si si si si sale sale sale sale carta carta carta carta de de de de oro copa espada basto Entonces X posee distribución uniforme discreta en {1, 2, 3, 4} Ejemplo: Un sereno tiene un llavero con n llaves y sólo una de ellas abre la puerta de su habitación, pero no recuerda cuál. Decide probarlas una por una (separando las que no abren) hasta lograr abrir la puerta. Sea X el número de ensayos que necesita hasta abrir la puerta, de manera que RX = {1, 2, · · · , n}. Veamos que X posee distribución uniforme discreta en {1, 2, · · · , n}. En efecto: 1 P (X = 1) = n 19.2 P (X = 2) = (n−1)1 n(n−1) = 1 n P (X = 3) = .. .. . . P (X = n) = (n−1)(n−2)1 n(n−1)(n−2) = .. . = 1 n .. . (n−1)(n−2)···2·1 n! .. . 1 n Distribución binomial Una variable aleatoria X se dice con distribución binomial de parámetros n, p, siendo n ∈ N y p ∈ R , 0 < p < 1, sii su fmp viene dada por: µ ¶ n pk (1 − p)n−k (0 ≤ k ≤ n) pX (k) = k En tal caso anotamos X ∼ Bi(n, p). Obsérvese que RX = {0, 1, · · · , n}. Comprobemos que pX verifica los axiomas de una fmp: Prof.J.Gastón Argeri 50 pág. 51 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 • ∀k ∈ RX , pX (k) = • n P pX (k) = k=0 ¡n¢ k p (1 − p)n−k ≥ 0 k n ¡ ¢ P n k p (1 − p)n−k = (p + (1 − p))n = 1 k k=0 Además la fda de X viene dada por: FX (x) = [x] µ ¶ X n k=0 k pk (1 − p)n−k Cuando p = 1/2 la fmp resulta simétrica con centro de simetrı́a x∗ = n/2. En efecto: Consideremos por separado los casos n par e impar. • n impar. Anotemos n = 2r − 1. En este ¢ el simétrico de x = r − j respecto de ¡ caso 1 ∗ ∗ x = r − 1/2 es x = 2x − (r − j) = 2 r − 2 − (r − j) = 2r − 1 − r + j = r + j − 1 pX (r − j) = ¶ µ ¶n µ 1 2r − 1 pX (r + j − 1) = Pero µ 2r − 1 r−j ¶ = µ r−j 2 ¶ µ ¶n µ 1 2r − 1 r+j−1 2r − 1 (2r − 1) − (r − j) ¶ 2 = µ 2r − 1 r+j−1 ¶ • n par. Anotemos n = 2r. En este caso el simétrico de x = r − j respecto de x∗ = r es − (r − j) = 2r − (r − j) = r + j x = 2x∗ − (r − j) = 2 2r 2 pX (r − j) = pX (r + j) = Pero µ 2r r−j ¶ = µ µ ¶ µ ¶n 1 2r r−j 2 µ ¶ µ ¶n 2r 1 r+j 2 ¶ µ 2r (2r) − (r − j) = 2r r+j ¶ La distribución binomial Bi(n, p) frecuentemente surge cuando se mide la cantidad de éxitos en una sucesión de n ensayos de Bernoulli con probabilidad de éxito p en cada ensayo individual. Nótese que en tal caso la distribución del número de fracasos es una variable aleatoria con distribución Bi(n, 1 − p). Ejemplo: Se lanza 8 veces un dado equilibrado. Sea X = ”cantidad de ensayos en los que se obtiene múltiplo de 3” Se trata de una sucesión de 8 ensayos de Bernoulli, donde en cada ensayo: ”exito”=”sale múltiplo de 3”. la probabilidad de éxito en cada ensayo es pues p = 1/3. La distribución de X es entonces Bi(8, 1/3). Calculemos las probabilidades de los siguientes eventos: a) ”Cinco veces sale múltiplo de 3” ¡ ¢ ¡ ¢5 ¡ 2 ¢3 = 0.0683 Rta: P (X = 5) = 85 13 3 Prof.J.Gastón Argeri 51 pág. 52 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 b) ”Al menos dos veces sale múltiplo de 3” ¡ ¢ ¡ ¢8 ¡ ¢ ¡ ¢7 Rta: P (X ≥ 2) = 1−P (X < 2) = 1−P (X = 0)−P (X = 1) = 1− 80 32 − 81 31 · 23 c) ”A lo sumo cinco veces sale múltiplo de 3” Rta: P (X ≤ 5) = 1 − P (X > 5) = 1 − P (X = 6) − P (X = 7) − P (X = 8) = ¡ ¢ ¡ ¢8 ¡ ¢ ¡ ¢6 ¡ ¢2 ¡ ¢ ¡ ¢7 1 − 86 13 · 23 − 87 31 · 23 − 88 31 Propiedad 39 La fmp de una v.a. con distribución Bi(n, p) x∗ = [(n + 1)p] alcanza un máximo en el punto Dem: Dado que la fmp es discontinua, no es posible aplicar técnicas de cálculo (derivada) para obtener su máximo. Sin embargo el siguiente procedimiento es viable: Calculemos el cociente C(k) = pX (k)/pX (k − 1) Mientras este cociente se mantenga mayor que la unidad será pX creciente como función de k. En cambio mientras el cociente permanezca menor que la unidad entonces p X será decreciente. Ante todo hallemos este cociente: ¡n¢ (n − k + 1)p n!(k − 1)!(n − k + 1)!pk q n−k k ¢ = C(k) = ¡ n = k−1 n−k+1 k!(n − k)!n!p q kq k−1 Luego: C(k) > 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k < (n + 1)p C(k) = 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k = (n + 1)p C(k) < 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k > (n + 1)p Si (n + 1)p no es entero, lo anterior muestra que la fmp alcanza su máximo en un único punto (unimodal), a saber x∗ = [(n + 1)p]. Si, en cambio, (n + 1)p es entero, lo anterior muestra que la fmp alcanza su máximo en dos puntos (bimodal), a saber: x∗ = (n + 1)p y x∗∗ = x∗ − 1 ¥ Esta situación se puede comprobar en los siguientes gráficos: fmp de una Bi(8,1/3) 0.0 0.0 0.05 0.1 0.10 0.15 0.2 0.20 0.3 0.25 fmp de una Bi(6,1/3) 0 1 2 3 4 5 6 0 1 2 3 4 5 6 Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ Bi(n, p). Sea k (k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número). 7 8 un vector, k = dbinom(k,n,p) da como resultado el vector (pX (k1 ), · · · pX (ks )). Por ejemplo: Prof.J.Gastón Argeri 52 pág. 53 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 > n <- 8 > p <- 0.25 > k <- c(3, 4, 6, 7) > dbinom(k, n, p) [1] 0.2076416016 0.0865173340 0.0038452148 0.0003662109 > round(dbinom(k, n, p), 5) [1] 0.20764 0.08652 0.00385 0.00037 > k <- 0:8 > dbinom(k, n, p) [1] 0.10011291504 0.26696777344 0.31146240234 0.20764160156 0.08651733398 [6] 0.02307128906 0.00384521484 0.00036621094 0.00001525879 > round(dbinom(k, n, p), 5) [1] 0.10011 0.26697 0.31146 0.20764 0.08652 0.02307 0.00385 0.00037 0.00002 pbinom(k,n,p) da como resultado el vector (FX (k1 ), · · · FX (ks )). 19.3 Distribución geométrica Dado p ∈ (0, 1), una v.a. X se dice con distribución geométrica de parámetro p sii su fmp viene dada por: pX (k) = (1 − p)k−1 · p (k ∈ N) En tal caso anotamos X ∼ G(p). Observemos que RX = N. Verifiquemos que pX satisface los axiomas de una fmp. Para abreviar anotemos q = 1 − p: • ∀k ∈ N , pX (k) = q k−1p ≥ 0 • ∞ P pX (k) = ∞ P q k−1p = p Calculemos su fda: p 1−q q k−1 = k=1 k=1 k=1 ∞ P FX (x) = P (X ≤ x) = = p· 1−(1−p)[x] 1−(1−p) [x] P = p p =1 (1 − p)k−1p = p k=1 [x]−1 P j=0 (1 − p)j = = 1 − (1 − p)[x] = 1 − q [x] Algunas de estas gráficas se muestran en la figura siguiente: Graficamos también algunas fmp: Una propiedad interesante de esta distribución es la siguiente. Propiedad 40 (”Ausencia de memoria”) Sea X una v.a. con distribución geométrica de parámetro p ∈ (0, 1). Sean s, t ∈ N con s > t. Se verifica: P (X > s|X > t) = P (X > s − t) Dem: En efecto, anotemos q = 1 − p. Como s > t resulta {X > s} ⊆ {X > t}. Por lo tanto: {X > s} ∩ {X > t} = {X > s} Luego: P (X > s|X > t) = P (X>s , X>t ) P (X>t ) = P (X>s ) P (X>t ) = 1−FX (s) 1−FX (t) = = 1 − FX (s − t) = P (X > s − t) ¥ Prof.J.Gastón Argeri qs qt ¡ ¢ = q s−t = 1 − 1 − q s−t = 53 pág. 54 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 P( X = k ) 0 5 10 15 0.0 0.2 0.4 0.6 0.8 1.0 fda de una G( 0.4 ) 0.0 0.2 0.4 0.6 0.8 1.0 P( X = k ) fda de una G( 0.2 ) 20 0 2 4 6 k 4 6 8 0 1 2 k 4 5 0.0 0.0 0.1 0.2 0.10 P( X = k ) 0.3 0.15 0.4 0.20 fmp de una G( 0.4 ) 0.05 P( X = k ) 3 k fmp de una G( 0.2 ) 1 2 3 4 5 6 7 8 9 1 2 3 4 k 5 6 7 8 9 8 9 k 0.4 0.0 0.0 0.2 0.2 P( X = k ) 0.4 0.6 0.8 fmp de una G( 0.8 ) 0.6 fmp de una G( 0.6 ) P( X = k ) 12 0.0 0.2 0.4 0.6 0.8 1.0 P( X = k ) 2 10 fda de una G( 0.8 ) 0.0 0.2 0.4 0.6 0.8 1.0 P( X = k ) fda de una G( 0.6 ) 0 8 k 1 2 3 4 5 6 7 8 9 1 k 2 3 4 5 6 7 k Ejemplo: La distribución geométrica surge también en el contexto de ensayos de Bernoulli con probabilidad de éxito p en cada ensayo. Si X = ”cantidad de ensayos hasta obtener el primer éxito” entonces X posee distribución geométrica con parámetro p. Por ejemplo, si se arroja un dado equilibrado hasta que sale el número 6 y X representa la cantidad de lanzamientos necesarios, entonces R X = N y X = k sii en los primeros k − 1 lanzamientos no sale 6 y en el k-ésimo sale 6. Dado que los lanzamientos son independientes entre sı́, es claro que P (X = k) = (1 − p)k−1p, siendo p = 1/6. Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ G(p). Sea k (k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número). un vector, k = dgeom(k,p) da como resultado el vector (pX (k1 ), · · · pX (ks )). Por ejemplo: > p <- 0.25 > k <- c(1, 4, 6, 7) > dgeom(k, p) [1] 0.18750000 0.07910156 0.04449463 0.03337097 > round(dgeom(k, p), 5) [1] 0.18750 0.07910 0.04449 0.03337 Prof.J.Gastón Argeri 54 pág. 55 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 > k <- 4:10 > dgeom(k, p) [1] 0.07910156 0.05932617 0.04449463 0.03337097 0.02502823 0.01877117 [7] 0.01407838 > round(dgeom(k, p), 5) [1] 0.07910 0.05933 0.04449 0.03337 0.02503 0.01877 0.01408 pgeom(k,p) da como resultado el vector (FX (k1 ), · · · FX (ks )). 19.4 Distribución hipergeométrica Dados n, D, N ∈ N con n < N , D < N , se dice que una v.a. X geométrica con parámetros n, D, N sii su fmp viene dada por: ¡D¢¡N −D¢ pX (k) = k n−k ¡N ¢ n posee distribución hiper- para max {0, D − (N − n)} ≤ k ≤ min {n, D} En tal caso anotaremos X ∼ H(n, D, N ). Observemos que cuando n ≤ min {D, N − D} resulta RX = {0, 1, · · · , n} . Ejemplo: Un lote de tamaño N de cierta clase de artı́culos contiene D artı́culos defectuosos (y N − D artı́culos no defectuosos). Se extrae al azar una muestra de artı́culos de tamaño n, sin reposición. Sea X la cantidad de artı́culos defectuosos presentes en dicha muestra. Evidentemente el rango de X es de la forma RX = {m, · · · , M }, donde m = max {n − (N − D), 0} y M = min {D, n}. Dado k ∈ RX calculemos P (X = k). Abreviemos In = {1, · · · , n}. El espacio muestral puede pensarse como Ω = {A ⊆ {M1 , · · · , MD , B1 , · · · , BN −D} : #(A) = n} donde M indica defectuoso y B indica no defectuoso. Puesto que la extracción se realiza al azar, resulta natural considerar a los eventos elementales en este espacio muestral como equiprobables. Entonces: # {X = k} P (X = k) = #Ω Contar la cantidad de elementos en Ω equivale a contar¡ la¢cantidad de posibles subconjuntos de tamaño n elegidos entre N elementos diferentes. Hay N formas diferentes. Contemos ahora n en cuántas de ellas hay exactamente k objetos defectuosos. Para ello debemos ¡ ¢ contar de cuántas formas es posible elegir los k objetos defectuosos que participarán, a saber D , y por cada una de k estas elecciones habrá que determinar¡ de cuántas formas es posible elegir los otros n ¢− k elementos ¡D¢¡N −D N −D¢ participantes no defectuosos, a saber n−k . Por lo tanto # {X = k} = k n−k . Por lo tanto: ¡D¢¡N −D¢ P (X = k) = k n−k ¡N ¢ n Es decir, efectivamente X posee distribución hipergeométrica de parámetros n, D, N . Anotaremos esta distribución como H(n, D, N ). Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ H(n, D, N ). Sea k k = (k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número). un vector, dhyper(k,D,N-D,n) da como resultado el vector (pX (k1 ), · · · pX (ks )). Por ejemplo: Prof.J.Gastón Argeri 55 pág. 56 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 > D <- 6 > ND <- 8 > n <- 4 > k <- 0:3 > round(dhyper(k, D, ND, n), 4) [1] 0.0699 0.3357 0.4196 0.1598 phyper(k,D,N-D,n) da como resultado el vector (FX (k1 ), · · · FX (ks )). h i (n+1)(D+1) , como puede N +2 (n+1)(D+1) no es entero, el demostrarse y comprobarse en los siguientes gráficos. Nótese que si N +2 (n+1)(D+1) ∗ máximo se alcanza únicamente en k (unimodal), mientras que si es entero, entonces N +2 (n+1)(D+1) pX alcanza su máximo en los dos puntos k ∗ = y k∗∗ = k∗ − 1 (bimodal) N +2 La fmp de una v.a. H(n, D, N ) alcanza un máximo cuando k = k ∗ = fmp de H(7,6,10) 0.2 P( X=k ) 0.15 0.0 0.0 0.05 0.1 0.10 P( X=k ) 0.20 0.3 0.25 0.4 0.30 fmp de H(10,12,26) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 k 19.5 4 5 6 7 k Distribución de Poisson - Procesos de Poisson Dado λ ∈ R , λ > 0, se dice que una v.a. X posee fmp viene dada por: λk pX (k) = e− λ · k! En tal caso anotaremos X ∼ P(λ). El parámetro RX = N ∪ {0}. Verifiquemos que efectivamente pX • ∀k ∈ N ∪ {0} , pX (k) = e− λ · • 3 ∞ P pX (k) = k=0 ∞ P k=0 e− λ · λk k! λk k! = e− λ distribución de Poisson con parámetro λ sii su (k = 0, 1, 2, · · · ) λ suele llamarse intensidad. Observemos que es una fmp: ≥0 ∞ P k=0 λk k! = e− λeλ = e0 = 1 Cuando λ no es entero, la distribución P(λ) alcanza su máximo en el único (unimodal) punto k = [λ]. En cambio cuando λ es entero, la distribución alcanza su máximo en dos puntos (bimodal), a saber k = λ y k = λ − 1. Grafiquemos algunas fmp de v.a. Poisson: Uno de los contextos donde surgen naturalmente variables Poisson es en situaciones en las que determinado evento de interés ocurre aleatoriamente en puntos del eje temporal. Por ejemplo, si estamos en una parada de micros y el evento es la llegada de un micro a la parada, tal eventos ocurrirá en determinados instantes (horas). Supongamos que para cierta constante λ > 0 se verifican las siguientes suposiciones: Prof.J.Gastón Argeri 56 pág. 57 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 P( X = k ) 0.2 0.0 0.1 P( X = k ) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0.0 0.05 0.10 0.15 0.20 fmp de una P( 3 ) 0.3 fmp de una P( 1.5 ) 15 0 1 2 3 4 5 6 7 k 8 9 10 11 12 13 14 15 12 13 14 15 k fmp de una P( 6 ) 0.10 0.05 0.0 P( X = k ) 0.05 0.10 0.15 0.0 P( X = k ) 0.15 fmp de una P( 4.5 ) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 k 7 8 9 10 11 k 1. La probabilidad de que ocurra exactamente un evento en un intervalo de tiempo dado y de longitud h es de la forma: λh + o(h) 2. La prbabilidad de que dos o más eventos ocurran en un intervalo de tiempo dado y de longitud h de la forma: o(h) 3. Dados cualesquiera números n ∈ N , j1 , · · · , jn ∈ N∪{0} y cualquier conjunto de n intervalos temporales disjuntos dos a dos, si se define Ei como el suceso que exactamente ji de los eventos bajo consideración ocurran en el i-ésimo intervalo temporal (i = 1, · · · , n), entonces los sucesos E1 , · · · , En son mutuamente independientes. Intuitivamente hablando, el supuesto 1 significa que para valores pequeños de h, la probabilidad de ocurrencia de exactamente uno de los eventos en un lapso de duración h es λh más una cantidad despreciable respecto de h. Obsérvese que podemos interpretar λ como la tasa o razón instantánea de ocurrencia de un evento. El supuesto 2 significa que la probabilidad de que ocurran dos o más eventos en un lapso de tiempo de duración h es despreciable respecto de h. El supuesto 3 significa que la cantidad de ocurrencias de eventos en un intervalo temporal no afecta ni es influenciada por la cantidad de ocurrencias del evento en intervalos de tiempo disjuntos con el primero. Antes de continuar vamos a establecer un lema que nos resultará útil dentro de poco. Lema 1 Sea {αn } una sucesión de números reales tal que existe α ∈ R Entonces se cumple: µ ¶ αn n lim 1 − = e− α n →∞ n con lim αn = α. n →∞ Dem: Sea f (x) = ln (1 − x). Desarrollemos por Taylor de primer orden alrededor de x = 0. Se obtiene: f (x) = −x − x2 2 · 1 (1 − c)2 con c entre 0 y x Evaluando en x = αn /n y multiplicando por n se obtiene: ¶ µ α2 1 αn = −αn − n · n · ln 1 − n 2n (1 − cn )2 (3) Dado que cn se encuentra entre 0 y αn /n y como lim αn = α, resulta lim cn = 0. Luego, n →∞ n →∞ tomando lı́mite para n → ∞ en (3) vemos que la sucesión (3) tiene lı́mite − α. Tomando exponencial y teniendo en cuenta que esta función es continua, resulta lo afirmado en el teorema ¥ Prof.J.Gastón Argeri 57 pág. 58 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Teorema 7 Bajo los supuestos 1,2 y 3, la cantidad de ocurrencias de eventos en un lapso de tiempo de duración h es una variable aleatoria con distribución de Poisson de parámetro λh. Dem: Designemos N (t) el número de ocurrencias de eventos en el intervalo [0, t). Formemos una partición regular del intervalo [0, t] en n subintervalos: [0, t/n) , [t/n, 2t/n) · · · [(n − 1)t/n, t) . Consideremos los siguientes sucesos: A = ”k de los subint. contienen exact. un evento y n-k contienen 0 eventos” Bi = ”el subint. i-ésimo contiene dos o más eventos” (i = 1, · · · , n) B = ”al menos uno de los subint. contiene dos o más eventos” C = {N (t) = k} ∩ B Entonces claramente: n S B= Bi (unión no disjunta) i=1 P (N (t) = k) = P (A ∪ C) = P (A) + P (C) pues A y C son disjuntos Pero: µ ¶ µ ¶ µ ¶ n X t t o(t/n) o P (Bi ) = =n·o =t· P (C) ≤ P (B) ≤ n n t/n i=1 i=1 n X = 0. Luego: lim P (C) = 0. Por otra parte, si I es un intervalo Para cada t fijo es lim o(t/n) n →∞ n → ∞ t/n de duración h, los supuestos 1 y 2 implican que: P (”ocurren 0 eventos en I”) = 1 − P (”ocurre exact. un evento en I”)− −P (”ocurren dos o más eventos en I”) = = 1 − (λh + o(h)) − o(h) = 1 − λh − o(h) Además en virtud del supuesto 3 se tiene: ¡ ¢ h λt ¡ t ¢ik h ¡ t ¢in−k λt P (A) = n + o − o = 1 − k n n n n = n(n−1)···(n−k+1) · n1k k! = n(n−1)···(n−k+1) 1 · k! nk = 1 k! Pero como h n h ¡ t ¢iok n ¡ t ¢ion−k λt + o 1 − + o = n λt n n n n h h n h k ³ ¡ t ¢iok n ¡ t ¢ion n ¡ t ¢io−k Q λt λt 1− 1 − 1 − n λt + o + o + o n n n n n n i=1 lim n · λt µ ¶¸ t · o(t/n) = λt + lim t n →∞ n t/n i h ¡ ¢ se deduce del lema 1 con αn = n λt + o nt que: n ½ · µ ¶¸¾n λt t = e− λt +o lim 1 − n →∞ n n n →∞ (4) h n h ¡ t ¢iok n ¡ t ¢ion−k λt 1 − = n λt + o + o n n n n n +o ¸ i−1 n ´ = λt La primera expresión entre llaves en la última de las expresiones en (4) tiende a λ k y la tercera expresión entre llaves tiende a 0. La productoria consta de un número fijo de factores y cada uno de ellos tiende a 1. Por lo tanto: lim P (A) = e− λt · n →∞ Prof.J.Gastón Argeri (λt)k k! ¥ 58 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 59 Nota: Definamos para cada t > 0 la variable aleatoria Xt = ”cantidad de ocurrencias del evento en el intervalo de tiempo [0,t)” La colección de variables aleatorias {Xt : t > 0} se denomina porceso de Poisson de parámetro λ. Nótese que para cada t > 0 es Xt ∼ P(λt). Volveremos a los procesos de Poisson cuando presentemos las distribuciones exponencial y gama. Corolario 4 (Aproximación de Poisson a la distribución binomial) Sea λ ∈ R , λ > 0. Para cada k ∈ N ∪ {0} se verifica: µ ¶ µ ¶k µ ¶ λ n λ n−k λk 1− = e− λ · n →∞ k n n k! lim Nota: Este corolario suele utilizarse de la manera siguiente. Sea X ∼ Bi(n, p). Supongamos n grande, p pequeño y np es moderado. Entonces la fmp de X es aproximadamente igual a la fmp de Y , siendo Y ∼ P(np). La recomendación suele ser el uso de la aproximación cuando: n ≥ 100 ; p ≤ 0, 01 ; np ≤ 20 Mencionemos que las variables Poisson no ocurren únicamente contando ocurrencias de eventos en el tiempo. Damos algunos ejemplos de otras v.a. que usualmente tienen distribución de Poisson: • La cantidad de errores de impresión en cierta/s página/s de un libro. • La cantidad de bacterias en cierta región de cierto cultivo. Ejemplo: Supongamos que la cantidad de errores tipográficos por página de apuntes teórico-prácticos tipeados por Gastón Argeri posee distribución P(0.25) (i.e. en promedio Gastón comete un error de tipeo cada cuatro páginas). Si se escoge al azar un apunte teórico-práctico de Gastón, calcular la probabilidad de que la primera página presente al menos un error tipográfico. Rta: Si anotamos X a la cantidad de errores en la primera página entonces: P (X ≥ 1) = 1 − P (X = 0) = 1 − e−0.25 ≈ 0.221 Ejemplo: Supongamos que en promedio uno de cada diez artı́culos producidos por cierta máquina resultan defectuosos. Se eligen al azar 20 artı́culos producidos por la máquina. Hallar la probabilidad de que al menos 3 de ellos resulten defectuosos. Rta: Se trata de una sucesión de n = 20 ensayos de Bernoulli, donde ”éxito=se produce artı́culo defectuoso”, con p = 1/10 = 0.1 en cada ensayo. Si X representa la cantidad de defectuosos entre 20, entonces X ∼ Bi(20, 0.1) de modo que la probabilidad pedida es: P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) = = 1− ¡20¢ ¡ ¢ ¡ ¢ (0.9)20 − 20 (0.1)(0.9)19 − 20 (0.1)2 (0.9)18 ≈ 0 1 2 ≈ 1 − 0.1215767 − 0.2701703 − 0.2851798 ≈ 0.3231 Utilizando la aproximación de Poisson con λ = np = 20(0.1) = 2 se obtiene: P (X ≥ 3) ≈ 1 − 2 X k=0 e− 2 · 2k k! ≈ 1 − 0.1353353 − 0.2706706 − 0.2706706 ≈ 0.3233 En este caso la aproximación ha resultado muy buena. Prof.J.Gastón Argeri 59 pág. 60 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 19.6 Distribución binomial negativa Dados r ∈ N y p ∈ (0, 1), se dice que una variable aleatoria X posee distribución binomial negativa con parámetros r y p sii su fmp está dada por: ¶ µ k−1 r p (1 − p)k−r (k = r, r + 1, · · · ) pX (k) = r−1 En tal caso anotaremos X ∼ BN (r, p). Obseérvese que RX = {r, r + 1, · · · }. Verifiquemos que efectivamente pX es una fmp: ¢ r ¡ p (1 − p)k−r ≥ 0 (k = r, r + 1, · · · ) • pX (k) = k−1 r−1 • ∞ P pX (k) = ∞ ¡ P k−1¢ k=r k=r r−1 pr (1 − p)k−r = pr Consideremos la función g(q) = ∞ P qj = j=0 ∞ P ∞ ¡ P k−1¢ k=r 1 1−q r−1 (1 − p)k−r Si la derivamos r − 1 veces obtenemos: jq j−1 = 1 (1−q)2 j(j − 1)q j−2 = 2 (1−q)3 j=1 ∞ P j=2 ··· ··· ∞ P j=r−1 Es decir (r − 1)! pr ∞ P j=r−1 ¡ j ¢ j−r+1 q r−1 ¶ ∞ µ X k−1 k=r r−1 j(j − 1) · · · (j − r + 2)q j−r+1 = = (r−1)! (1−q)r (1 − p)k−r = pr (r−1)! (1−q)r Por lo tanto, tomando q = 1 − p se tiene: ∞ µ X j=r−1 ¶ pr (1 − p)j−r+1 = r = 1 r−1 p j La distribuciń binomial negativa surge naturalmente en el contexto de ensayos de Bernoulli con probabilidad de éxito p en cada ensayo individual. Recordemos que en dicho contexto la Bi(n, p) es la distribución de la cantidad de éxitos en los n ensayos. En cambio, la BN (r, p) es la distribución de la v.a. X definida como la cantidad de ensayos necesarios hasta obtener el r-ésimo éxito (es decir, la cantidad de ensayos es ahora aleatoria). En efecto, decir que X = k equivale a decir que el r-ésimo éxito ocurre en el k-ésimo ensayo. Por lo tanto en los k − 1 ensayos anteriores debe haber exactamente r − 1 éxitos y k − r fracasos. Entonces para calcular la probabilidad ¡ ¢ del evento {X = k} utilizamos asignación de probabilidad por ensayos independientes: Hay k−1 maneras r−1 de ubicar los r − 1 éxitos entre los k − 1 primeros ensayos (los lugares para los fracasos quedan automáticamente determinados). Cada de r éxitos y k − r fracasos tiene probabilidad ¢ r ¡ ordenamiento k−r Es decir X ∼ BN (r, p). p (1 − p) pr (1 − p)k−r . Luego P (X = k) = k−1 r−1 Nota: Comandos útiles eb SPlus son dnbinom , pnbinom Presentamos algunos ejemplos de fmp binomiales i negativas: Obsérvese que la fmp de una v.a. BN (r, p) h r+p−1 ∗ no es entero, el máximo se alcanza . Cuando r+p−1 alcanza su máximo en el punto k = p p únicamente (unimodal) en k = k∗. En cambio, cuando k = k∗ y en k = k∗ − 1 (bimodal). Prof.J.Gastón Argeri r+p−1 p es entero, el máximo se alcanza en 60 pág. 61 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 fmp de BN( 3 , 0.45 ) fmp de BN( 3 , 0.7 ) 4 5 6 7 8 9 10 11 12 13 14 15 0.1 0.0 0.0 3 3 4 5 6 7 8 k 20 0.2 P( X=k ) 0.10 P( X=k ) 0.05 0.04 0.0 0.02 P( X=k ) 0.06 0.3 0.15 0.08 fmp de BN( 3 , 0.25 ) 9 10 11 12 13 14 15 3 k 4 5 6 7 8 9 10 11 12 13 14 15 k Distribuciones continuas 20.1 Distribución uniforme Sean a, b ∈ R con a < b. Se dice que una variable aleatoria X posee distribución uniforme en el intervalo [a, b] sii X posee fdp fX dada por ½ 1 si a ≤ x < b b−a fX (x) = 0 si x < a ∨ x ≥ b Anotamos X ∼ U (a, b) para indicar que X posee distribución uniforme en [a, b]. Verifiquemos que fX es realmente un fdp: • ∀x ∈ R , fX (x) ≥ 0 • ∞ R fX (x) dx = −∞ Rb a 1 b−a dx = Obtengamos la fda. FX (x) = Rx 1 b−a Rb dx = a b−a b−a =1 fX (t) dt. Debemos distinguir tres casos, según el valor de x: −∞ • Si x < a: FX (x) = 0 • Si a ≤ x < b: FX (x) = • Si x ≥ b: FX (x) = Es decir: Rb Rx 1 b−a a 1 a b−a dt = x−a b−a dt = 1 FX (x) = 0 si x < a si a ≤ x < b si x ≥ b x−a b−a 1 Las gráficas de la fdp y la fda tienen el siguiente aspecto: 20.2 Distribución gaussiana Sean µ, σ ∈ R , σ > 0. Se dice que una variable aleatoria X posee distribución gaussiana (también llamada distribución normal) de parámetros µ, σ sii X posee fdp dada por fX (x) = √ Prof.J.Gastón Argeri 1 2π σ 1 2 /σ 2 · e− 2 (x−µ) ; x∈R 61 pág. 62 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 fda de U(a,b) 1.0 0.8 1.2 fdp de U(a,b) 0.6 y 0.0 0.0 0.2 0.2 0.4 0.4 y 0.6 0.8 1 / ( b - a ) 0 1 2 0 a x 1 b 2 x Para indicar que X posee distribución gaussiana de parámetros µ, σ anotamos X ∼ N (µ, σ). En particular, cuando µ = 0 y σ = 1 se habla de la distribución gaussiana (o normal) standard. Su fdp suele anotarse con la letra ϕ. Ası́, la fdp gaussiana standard está dada por 1 1 2 ϕ(x) = √ · e− 2 x 2π ; x∈R Mediante cálculo es posible estudiar las caracterı́sticas de la gráfica de ϕ. Resulta simétrica respecto del eje de ordenadas (función par), con máximo en el origen. Además tiene la conocida forma de ”campana de Gauss”. Volviendo al caso general, obsérvese que: µ ¶ 1 x−µ fX (x) = √ ϕ σ 2π σ Es decir que fX se puede obtener a partir de ϕ mediante una traslación paralela al eje de abscisas y cambios de escala en los ejes coordenados. Tales transformaciones conservan la forma acampanada de la fdp. Grafiquemos algunos ejemplos de fdp gaussianas: La fda asociada viene dada por: FX (x) = Zx −∞ 1 1 2 2 e− 2 (t−µ) /σ dt √ 2π σ La fda de una v.a. gaussiana standard suele anotarse Φ y viene dada por: Φ(x) = Zx −∞ 1 1 2 e− 2 x dt √ 2π Dado que esta función no es elemental (no puede expresarse elementalmente la integral indefinida correspondiente), para evaluarla en un punto se debe recurrir a tablas o se debe utilizar algún software o fórmula que aproxime sus valores. En el caso general, observemos que: µ ¶ x−µ FX (x) = Φ si X ∼ N (µ, σ) σ Nota: Comandos de SPlus dnorm , pnorm , qnorm. Ver el help del SPlus. Por ejemplo: help(dnorm) o simplemente resaltando ”dnorm” y clickeando sobre la flechita ”run”. Prof.J.Gastón Argeri 62 pág. 63 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Familia de densidades gaussianas misma sigma, distintas mu 0.0 0.1 0.2 y 0.3 0.4 0.5 N(4,1.5) N(2,1.5) N(7,1.5) -2 0 2 4 6 8 10 12 x misma mu, distintas sigma 0.0 0.1 0.2 y 0.3 0.4 0.5 N(4,1.5) N(4,3) N(4,0.75) -2 0 2 4 6 8 10 12 x 20.3 Distribución exponencial Dado λ ∈ R , λ > 0, se dice que una variable aleatoria X parámetro λ sii su fdp vien dada por: fX (x) = λe− λx posee distribución exponencial con (x > 0) En tal caso anotaremos X ∼ E(λ). El parámetro λ suele denominarse parámetro de intensidad. Verifiquemos que fX es efectivamente una fdp: • Para todo x ∈ R, fX (x) = λe− λx ≥ 0 • Efectuando el cambio de variables t = λx se obtiene: Z ∞ Z ∞ ¯c e−t dt = − lim e−t¯0 = − lim (e− c − 1) = 1 λe− λx dx = c →∞ 0 0 c →∞ Hallemos al fda de X: • Si x ≤ 0 entonces FX (x) = • Si x > 0 se tiene: FX (x) = Por lo tanto la fda viene dada por: Rx −∞ Rx −∞ fX (t) dt = 0 pues fX (t) = 0 si t ≤ 0 ¯x Rx fX (t) dt = 0 λe− λt dt = − e− λt¯0 = 1 − e− λx FX (x) = Prof.J.Gastón Argeri ½ 0 si x ≤ 0 − λt 1−e si x > 0 63 pág. 64 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Familia de densidades exponenciales fda 0.5 1.0 0.6 fdp 0.2 0.4 y 0.3 y 0.6 0.4 0.8 lambda=0.2 lambda=0.4 lambda=0.6 0.0 0.0 0.1 0.2 lambda=0.2 lambda=0.4 lambda=0.6 0 2 4 6 8 10 12 14 0 2 4 6 x 8 10 12 14 x Para observar las caracterı́sticas más importantes de la distribución exponencial, grafiquemos algunos ejemplos de fdp y fda en el caso exponencial: Propiedad 41 (”Ausencia de memoria”) Supongamos que X ∼ E(λ). Sean s, t ∈ R , s > t ≥ 0. Se verifica: P (X > s | X > t) = P (X > s − t) Dem: P (X > s|X > t) = P (X>s , X>t ) P (X>t ) = P (X>s ) P (X>t ) = 1−FX (s) 1−FX (t) = e− λs e− λt = e− λ(s−t) = P (X > s − t) ¥ Ejemplo: Consideremos un proceso de conteo (de ocurrencias de cierto evento) tipo Poisson {X t : t > 0} de parámetro λ, es decir que Xt ∼ E(λ). Definamos la variable aleatoria: T1 = ”tiempo hasta la primera ocurrencia del evento” Hallemos la fda de T1 . Para ello calculemos: P (T1 ≥ t) = P (”la primera ocurrencia se produce luego del instante t”) = = P (”no hay ocurrencias en [0, t]”) = P (Xt = 0) = e− λt · (λt)0 0! = e− λt Por lo tanto FT1 (t) = 1 − e− λt si t > 0. Naturalmente FT1 (t) = 0 si t ≤ 0. Por lo tanto la variable aleatoria T1 tiene distribución exponencial de parámetro λ. Nota: Comandos de SPlus dexp , pexp , qexp 20.4 Distribución gamma Se denomina función gama a la función Γ : (0, ∞) → R definida por: Γ(x) = Z∞ tx−1e−t dt (5) 0 Para ver que esta función está correctamente definida es necesario demostrar que la integral impropia en (5) es convergente. Obsérvese que el integrando es positivo y que cuando x ≥ 1 la integral es impropia en el infinito, en tanto que si 0 < x < 1 la integral es impropia tanto en el infinito como en el origen. Prof.J.Gastón Argeri 64 pág. 65 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Lema 2 Para cada u ∈ R , u ≥ 0 y para cada n ∈ N se verifica eu ≥ 1 + u + u2 2! u3 + 3! + ··· + un (6) n! Dem: Por inducción sobre n Paso base: Ru Dado que ∀u ≥ 0 , eu ≥ 0, la monotonı́a de la integral definida garantiza que 0 eu du ≥ 0. Luego: eu − 1 ≥ 0. Por lo tanto eu ≥ 1 Hipótesis inductiva (HI): Consiste en suponer que para todo u ≥ 0 la desigualdad (6) es verdadera. En base a la HI queremos probar que: eu ≥ 1 + u + u2 2! + u3 3! + ··· + un+1 (n + 1)! (u ≥ 0) Pero integrando ambos miembros de (6) en el intervalo [0, u] y teniendo en cuenta la monotonı́a de la integral, se deduce que eu − 1 ≥ u + u2 2! + u3 3! que es precisamente lo que queremos demostrar. n natural ¥ + ··· + un+1 (n + 1)! Luego, la desigualdad es verdadera para tono Corolario 5 Para cada u ≥ 0 y cada n natural (o cero) se verifica la siguiente desigualdad eu ≥ un n! Dem: Siendo u ≥ 0, todos los términos en el mienbro de la derecha de la desigualdad (6) son no negativos. Luego, la suma de los mismos es mayor o igual que cualquiera de ellos. En particular es mayor o igual que el último término. Este hecho, junto con la desigualdad (6) terminan de demostrar este lema ¥ Propiedad 42 Para cada x ∈ R , x > 0, la integral en (5) es convergente. Dem: Consideramos dos casos por separado. • Caso x ≥ 1 En el corolario anterior tomemos n = 1 + [x] de manera que n − x + 1 > 1. Entonces para t > 0 se verifica tx−1 tx−1n! n! tx−1e−t = ≤ = n−x+1 t n e t t R∞ n! Como la integral impropia 1 tn−x+1 dt es convergente, por criterio de comparación resulta R ∞ x−1 −t R1 e dt también convergente. Puesto que 0 tx−1e−t dt es propia (finita), se deduce 1 Rt ∞ que 0 tx−1e−t dt es convergente. • Caso 0 < x < 1 Prof.J.Gastón Argeri 65 pág. 66 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 – Para t ≥ 1 resulta t1−x = e(1−x) ln t ≥ 1 dado que (1 − x) ln t > 0. Entonces: tx−1e−t = 1 t1−xet ≤ 1 et = e−t R∞ R∞ Pero como 1 e−t dt es convergente, por criterio de comparación resulta 1 tx−1e−t dt convergente. 1 – Para 0 < t < 1 resulta e−t ≤ 1. Luego tx−1e−t ≤ tx−1 = t1−x . Puesto que R1 1 es convergente por ser 0 < x < 1, el criterio de comparación asegura que 1−x dt R01 tx−1 −t e dt es convergente ¥ 0 t Propiedad 43 La función gama verifica: i) ∀x ∈ R, x > 0, Γ(x + 1) = xΓ(x) ii) ∀n ∈ N , Γ(n) = (n − 1)! Dem: i) Integrando por partes con u = e−t, dv = tx−1 se tiene du = − e−t, v = tx /x µ ¶ Z Z Z 1 tx e−t 1 x −t x−1 −t x −t (x+1)−1 −t + t e dt = t e dt = t e + t e dt x x x Entonces: Rh 1 tx−1e−t dt = 1 x = 1 x ³ ³ ´ ¯h R h tx e−t¯1 + 1 t(x+1)−1e−t dt = hx e−h − e−1 + Rh 1 t(x+1)−1e−t dt Tomando lı́mite para h → ∞ se obtiene: ¶ µ Z ∞ Z ∞ 1 (x+1)−1 −t x−1 −t −1 t e dt t e dt = −e + x 1 1 ´ (7) Análogamente: R1 h tx−1e−t dt = 1 x = 1 x ³ ³ ´ ¯1 R1 tx e−t¯h + h t(x+1)−1e−t dt = e−1 − hx e−h + R1 h t(x+1)−1e−t dt Tomando lı́mite para h → 0+ se obtiene: ¶ µ Z 1 Z 1 1 x−1 −t (x+1)−1 −t −1 t e dt = t e dt e + x 0 0 Juntando los resultados (7) y (8) se tiene Γ(x) = 1 Γ(x x ´ (8) + 1) como se querı́a demostrar. ii) Para n ∈ N podemos aplicar repetidamente el resultado probado en el item anterior. Más formalmente, utilicemos inducción completa: • Paso base: Z Γ(1) = ∞ 0 e −t dt = Z 1 e 0 −t dt + Z ∞ 1 e−t dt = lim e−h + lim e−k = 1 = 0! h → 0+ k →∞ • Hipótesis inductiva (HI): Suponemos Γ(n) = (n − 1)! Prof.J.Gastón Argeri 66 pág. 67 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 • En base a la HI queremos demostrar que Γ(n + 1) = n!. Para ello: Γ(n + 1) = nΓ(n) = n(n − 1)! = n! Por lo tanto Γ(n) = (n − 1)! es verdadera para todo n ∈ N ¥ Dados α, λ ∈ R , α, λ > 0 se dice que una variable aleatoria X parámetros α, λ sii posee fdp dada por fX (x) = λα Γ(α) xα−1e− λx posee distribución gama de (x > 0) En tal caso anotaremos X ∼ Γ(α, λ). El parámetro α suele llamarse parámetro de forma (”shape”) y el parámetro λ se suele denominar parámetro de intensidad (”rate”). Verifiquemos que f X es efectivamente una fdp: • Para todo x ∈ R es fX (x) = λα Γ(α) xα−1e− λx ≥ 0 • Debemos verificar que la integral de fX sobre R es 1. Si en la integral se realiza el cambio de variables t = λx se tendrá: Z ∞ Z ∞ Γ(α) 1 λα α−1 − λx tα−1e−t dt = x e dx = =1 Γ(α) Γ(α) 0 Γ(α) 0 Grafiquemos algunos ejemplos de densidades gama: Familia de densidades gama alfa= 1.5 0.30 alfa= 1 lambda=0.2 lambda=0.4 lambda=0.6 0.6 lambda=0.2 lambda=0.4 lambda=0.6 lambda=0.2 lambda=0.4 lambda=0.6 0.15 y 0.3 y 0.0 0.02 0.04 0.06 0.08 0.10 0.0 0 0.0 2 0.1 0.05 4 0.2 0.10 6 y 8 0.4 0.20 10 0.5 12 0.25 14 alfa= 0.5 0 2 x 4 6 x 0 5 10 15 x Examinando los distintos gráficos se dará cuenta porque α y λ se dicen parámetros de ”forma” e ”intensidad” (para α ≥ 1, λ controla la rapidez con la cual la cola a derecha de la fdp tiende a cero para x → ∞), respectivamente. Observemos que la distribución Γ(1, λ) es precisamente la distribución exponencial de parámetro λ. En efecto, sea X ∼ Γ(1, λ): fX (x) = λ1 Γ(1) x1−1e− λx = λe− λx Nota: Comandos de SPlus dgamma , pgamma , qgamma Vamos a vincular las distribuciones gamma y Poisson. Prof.J.Gastón Argeri 67 pág. 68 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Propiedad 44 Sean n ∈ N, x > 0. Sea X ∼ Γ(n, λ). Si Y ∼ P(λx) entonces se cumple: FX (x) = P (X ≤ x) = P (Y ≥ n) = 1 − FY (n − 1) Dem: Mediante integración por partes, con u = tn−1 y dv = e− λtdt, se tiene: ½ ¾ Z Z n−1 − λt −1 n−1 − λt n−2 − λt t e dt = −λ t e + (n − 1) t e dt Aplicando la regla de Barrow entre t = 0 y t = x y anotando In (x) = λIn (x) = (n − 1)In−1(x) − xn−1e− λx Rx 0 tn−1e− λt dt resulta: (9) Queremos demostrar (lo haremos por inducción sobre n): ∀n ∈ N , ∀x > 0 , Z λn x 0 (n − 1)! t n−1 − λt e dt = 1 − n−1 X (λx)k k! k=0 e− λx En otro términos, queremos probar que: λn (n − 1)! In (x) = 1 − n−1 X (λx)k k=0 k! e− λx (10) Entonces: • Paso base: I1 (x) = n=1 Rx 0 ¯x λe− λt dt = 1 − e− λt¯0 = 1 − e− λx Esto es precisamente (10) cuando • Hipótesis inductiva (HI): Supongamos (10) es verdadera. • Utilizando (9) junto con (HI) se tiene: λn+1 n! In+1 (x) = λn n! ¡ ¢ nIn (x) − xn e− λx = = 1− 20.5 n−1 P k=0 (λx)k k! e− λx − λn I (x) (n−1)! n (λx)n − λx e n! − =1− (λx)n − λx e n! n P k=0 (λx)k k! = e− λx ¥ Distribución chi cuadrado Esta distribución es un caso particular de la distribución gama. Si en la familia de distribuciones gama se considera α = n/2, siendo n natural, y se toma λ = 1/2 se obtiene la llamada distribución chi cuadrado con n grados de libertad (g.l.). Es decir: Dado n ∈ N, se dice que una variable aleatoria X posee distribución chi cuadrado con n grados de libertad sii posee fdp dada por: fX (x) = 1 2n/2 Γ(n/2) x(n/2)−1e− x/2 (x > 0) En tal caso anotamos X ∼ χ2 (n). La distribución chi cuadrado con g.l.=2 tambiénse denomina distribución de Raleygh y la chi cuadrado con g.l.=3 también se llama distribución de MaxwellBoltzman (Estos términos son más frecuentes en mecánica estadı́stica). Presentamos algunos ejemplos de fdp chi cuadrado con distintos grados de libertad asociados: Nota: En SPlus los comandos útiles son dchisq , pchisq , qchisq. Prof.J.Gastón Argeri 68 pág. 69 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 0.25 Familia de densidades chi cuadrado g.l=3 g.l=4 g.l=8 0.0 0.0 0.05 0.5 0.10 y y 1.0 0.15 0.20 1.5 g.l=1 g.l=2 0.0 0.5 1.0 1.5 2.0 0 5 x 20.6 10 15 x Distribución beta Se denomina función beta la fuención B : (0, ∞) × (0, ∞) → R dada por B(α, β) = Z 1 0 xα−1(1 − x)β−1 dx Obsérvese que según los valores de α, β la integral que define a la función beta puede ser impropia en el origen (cuando 0 < α < 1) y/o en x = 1 (cuando 0 < β < 1), o directamente ser propia. Una aplicación trivial del creiterio de comparación muestra que la integral impropia es convergente para cualesquiera α, β > 0. Mencionemos dos propiedades útiles de la función beta. Propiedad 45 Para cualesquiera α, β ∈ R, α > 0, β > 0 se verifican: i) B(α, β) = Γ(α)Γ(β) Γ(α+β) ii) B(β, α) = B(α, β) Dados α, β ∈ R , α > 0, β > 0 se dice que una variable aleatoria X posee distribución beta con parámteros α, β si posee fdp dada por: fX (x) = 1 B(α, β) xα−1(1 − x)β−1 (0 < x < 1) En tal caso anotaremos X ∼ B(α, β). Verifiquemos que fX es realmente una fdp: 1 • Para x ∈ (0, 1) , B(α,β) xα−1(1 − x)β−1 ≥ 0 • R1 0 1 B(α,β) xα−1(1 − x)β−1 dx = 1 B(α,β) B(α, β) = 1 Grafiquemos algunos ejemplos de fdp para distribuciones beta: Prof.J.Gastón Argeri 69 pág. 70 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Familia de densidades beta alfa= 0.7 4 5 alfa= 0.5 4 beta= 0.4 beta= 1 beta= 1.5 y 0 0 1 1 2 2 y 3 3 beta= 0.4 beta= 1 beta= 1.5 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 x x alfa= 1 alfa= 1.3 0.8 1.0 0.8 1.0 6 0.0 6 beta= 0.4 beta= 1 beta= 1.5 y 3 0 0 1 2 2 y 4 4 5 beta= 0.4 beta= 1 beta= 1.5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 x 0.6 x Cuando α = β la distribución beta es simétrica respecto de x = 0.5 Un caso particular (evidente) de la distribución beta es la U (0, 1). Esto también se aprecia en el gráfico correspondiente a los valores α = 1 , β = 1 20.7 Distribución de Cauchy Dados λ ∈ R, θ ∈ R, θ > 0, se dice que una variable aleatoria tiene distribución de Cauchy con parámetros λ, θ sii posee fdp dada por: fX (x) = θ 1 π θ 2 + (x − λ)2 (x ∈ R) En tal caso anotamos X ∼ C(λ, θ). Se dice que λ es el parámetro de posición y θ el parámetro de escala. La fdp tiene forma similar a la gaussiana (acampanada) pero sus colas son mucho más pesadas, como veremos posteriormente. Esta familia de distribuciones es importante en estudios teóricos y de simulación. En la gráfica se observan fdp Cauchy para distintos valores de los parámetros: Nota: En SPlus los comandos interesantes son dcauchy , pcauchy , qcauchy. Prof.J.Gastón Argeri 70 pág. 71 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Familia de densidades Cauchy y 0.0 0.05 0.10 0.15 0.20 misma theta, distintas lambda C(4,1.5) C(2,1.5) C(7,1.5) -2 0 2 4 6 8 10 12 x misma lambda, distintas theta 0.0 0.1 y 0.2 0.3 0.4 C(4,0.75) C(4,1.5) C(4,2.25) 0 2 4 6 8 x 20.8 Distribución lognormal Sean µ, σ ∈ R , σ > 0. Se dice que una variable aleatoria X tiene distribución lognormal con parámetros µ, σ sii ln X posee distribución N (µ, σ 2 ). Para hallar la fdp de X, llamemos Y = ln X de manera que Y ∼ N (µ, σ 2 ), y procedamos como sigue: FX (x) = P (X ≤ x) = P (eY ≤ x) = P (Y ≤ ln x) = FY (ln x) Derivando ambos miembros respecto de x (usamos la regla de la cadena) obtenemos: fX (x) = fY (ln x) · 1 x = √ 1 2π σx 1 2 /σ 2 e− 2 (ln x−µ) Las caracterı́sticas salientes de la gráfica de una fdp lognormal puede estudiarse analı́ticamente. Presentamos algunos ejemplos: Nota: Los comandos útiles en SPlus son dlnorm , plnorm , qlnorm. Familia de densidades lognormales misma mu,distintas sigma 0.0 0.1 y 0.2 0.3 logN(1,0.25) logN(1,1) logN(1,2.25) 0 1 2 3 4 5 6 x misma sigma,distintas mu 0.0 0.10 y 0.20 0.30 logN(0.7,1) logN(1,1) logN(1.3,1) 0 1 2 3 4 5 6 x Prof.J.Gastón Argeri 71 pág. 72 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 20.9 Distribución t doble exponencial o de Laplace Dados µ, λ ∈ R , σ > 0, se dice que una variable aleatoria tiene distribución doble exponencial con parámetros µ, λ sii posee fdp dada por: fX (x) = 1 2λ e− λ|x−µ| (x ∈ R) En tal caso anotamos X ∼ DE(µ, λ). Obsérvese que, para µ = 0, esta fdp se obtiene al dividir por dos la fdp exponencial de parámetro λ y simetrizando por paridad con respecto al eje de ordenadas (Cada mitad encierra área 0.5 por debajo, de modo que el área total por debajo es la unidad). También notemos que ambas mitades se han ”pegado” de manera no suave en el origen, resultando una fdp no diferenciable allı́. En la gráfica se observa este hecho como un ”pico” en forma angulosa (en el origen duando µ = 0 y en x = µ en general). La doble exponencial resulta interesante puesto que posee colas más pesadas que la distribución normal. Entre otras razones resulta útil cuando se estudia la eficiencia asintótica de ciertos estimadores, como veremos posteriormente. Familia de densidades doble exponencial 0.6 misma lambda, distintas mu 0.0 0.2 y 0.4 DE(3,0.6) DE(2,0.6) DE(5,0.6) -2 0 2 4 6 8 10 x misma mu, distintas lambda 0.0 0.2 0.4 y 0.6 0.8 DE(3,0.3) DE(3,0.6) DE(3,0.9) -2 0 2 4 6 8 10 x Nota: La distribución doble exponencial no está disponible mediante comandos de SPlus, dada su sencilla vinculación con la distribución exponencial. 20.10 Distribución t de Student Dado n ∈ N, se dice que una variable aleatoria tiene distribución t de Student con n grados de libertad (g.l) sii posee fdp dada por: ¢ µ ¡ ¶− (n+1)/2 Γ n+1 x2 2 1+ fX (x) = ¡ n ¢ √ Γ 2 nπ n (x ∈ R) En tal caso anotaremos X ∼ t(n). Esta distribución es de aspecto acampanado, semejante a primera vista a la N (0, 1), pero es de colas más pesadas que ésta y cobrará importancia a medida que avancemos en este curso, cuando nos avoquemos a temas de inferencia. Un comentario interesante: La distribución C(0, 1) es precisamente la misma que t(1). Presentamos algunas fdp t de Student: Se observa que a medida que aumentan los grados de libertad, la distribución t de Student se aproxima cada vez más a la N (0, 1). Nota: Los comandos útiles en SPlus son dt , pt , qt. Prof.J.Gastón Argeri 72 pág. 73 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 0.4 Familia de densidades t de Student 0.0 0.1 y 0.2 0.3 t(2) t(5) t(12) N(0,1) -4 -2 0 2 4 x 20.11 Distribución F de Fisher Dados m, n ∈ N, se dice que una variable aleatoria X tiene distribución Fisher con m, n grados de libertad (g.l) sii posee fdp expresada por: ¢ ¡ µ ¶m/2 µ ¶ Γ m+n m mx − (m+n)/2 (m/2)−1 2 (x > 0) fX (x) = ¡ m ¢ ¡ n ¢ x 1+ Γ 2 Γ 2 n n En tal caso se anota X ∼ F (m, n). Esta distribución cobrará importancia cuando estudiemos problemas de inferencia más adelante. Nota: Los comandos de SPlus que utilizaremos son df , pf , qf. Familia de densidades F de Fisher Familia de densidades F de Fisher F(4,3) F(4,5) F(4,12) y 0.0 0.0 0.2 0.2 y 0.4 0.4 0.6 0.6 F(3,4) F(5,4) F(12,4) 0 1 2 3 x Prof.J.Gastón Argeri 4 5 6 0 1 2 3 4 5 6 x 73 pág. 74 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 20.12 Distribución Weibull Dados α, β ∈ R , α > 0, β > 0, se dice que una variable aleatoria X tiene distribución Weibull de parámetros α, β si posee fdp dada por: fX (x) = 1 βα α xα−1 e− (x/β ) (x > 0) En tal caso anotamos X ∼ W(α, β). La distribución Weibull es importante en el estudio de tiempos de sobrevida. El aspecto de la gráfica de una fdp Weibull puede observarse en las siguientes figuras: Familia de densidades Weibull W(1,0.5) W(1,1) W(1,1.5) 0.0 0.0 0.5 0.5 y y 1.0 1.0 1.5 1.5 W(0.5,1) W(1,1) W(1.5,1) 0 1 2 3 4 0 1 x 2 3 4 x Nota: Como caso particular, observemos que tomando α = 1 y λ = β −1 se obtiene la distribución exponencial de parámetro λ. 20.13 Distribución logı́stica Dados θ, λ ∈ R , θ > 0, se dice que una variable aleatoria X parámetros λ, θ si posee fdp dada por: fX (x) = 1 tiene distribución logı́stica de e− (x−λ)/θ £ ¤ θ 1 + e− (x−λ)/θ 2 En tal caso anotamos X ∼ L(λ, θ). Las gráficas de las fdp logı́sticas asemejan a la gaussiana, pero con colas más pesadas. Presentemos algunas figuras comparativas: Prof.J.Gastón Argeri 74 pág. 75 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Familia de densidades logisticas 0.4 misma theta, distintas lambda misma lambda, distintas theta L(0,0.5) L(0,1) L(0,1.5) N(0,1) -4 -2 0.0 0.0 0.1 0.1 0.2 y y 0.2 0.3 0.3 0.4 0.5 L(2,1) L(3,1) L(5,1) N(0,1) 0 2 x Prof.J.Gastón Argeri 4 6 8 -4 -2 0 2 4 6 8 x 75 pág. 76 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Funciones de variables aleatorias 21 Transformaciones de variables aleatorias 21.1 Distribución de una función de una variable aleatoria Supongamos que un experimento aleatorio está diseñado para estudiar el área de la sección transversal de una población de tubos cilı́ndricos (circulares). Posiblemente cuando se estudia una muestra aleatoria de tubos se mida el radio de su sección transversal, en lugar del área de dicha sección. Del mismo modo, podrı́amos conocer la distribución poblacional del radio de un tubo y estar interesados en investigar la distribución poblacional del área de la sección transversal del mismo. Si anotamos X a la variable aleatoria ”radio del tubo” e Y a la variable aleatoria ”área de la sección transversal del tubo”, existe una relación funcional determinı́stica entre ambas variables aleatorias, a saber: Y = πX 2 . Dado que la distribución de X queda determinada por FX , es de esperar que ésta también determine la distribución FY . Definición 25 Sean Σ (Ω, Σ) con rango RX una σ-álgebra de subconjuntos de Ω, X una variable aleatoria sobre g(X) g y D → R una función con RX ⊆ D. Definimos Ω → R la función compuesta g(X) = g ◦ X. Es decir, para cada ω ∈ Ω (g ◦ X) (ω) = g (X(ω)) como def se define (g(X)) (ω) = Recordemos que B designa la σ-álgebra de Borel en R, es decir la mı́nima σ-álgebra de subconjuntos de R que contiene a todos los abiertos. Nos preguntamos qué caracterı́stica debe tener la función g en la def. anterior de modo que g(X) sea una variable aleatoria sobre (Ω, Σ). Para responder a esta pregunta necesitamos una definición previa. g Definición 26 Diremos que una función D → R, con D ⊆ R, es boreliana sii se verifica: ∀B ∈ B , g −1(B) ∈ B Las funciones continuas son sólo un ejemplo de la amplı́sima variedad de funciones borelianas. Propiedad 46 Sean X , g como en la primera definición. Anotemos Y = g(X). Si g es una función boreliana entonces Y es una variable aleatoria sobre (Ω, Σ). Dem: Sea B ∈ B. Para ver que Y es variable aleatoria sobre (Ω, Σ) debemos verificar que Y −1(B) ∈ Σ. Pero: {Y ∈ B} = Y −1(B) = {ω ∈ Ω : Y (ω) ∈ B} = {ω ∈ Ω : g (X(ω)) ∈ B} = = = © © ª © ¡ ¢ª ω ∈ Ω : X(ω) ∈ g −1(B) = ω ∈ Ω : ω ∈ X −1 g −1(B) X ∈ g −1(B) ª Siendo g boreliana y B ∈ ¡B se cumple g −1(B) ∈ B. Pero puesto que X es variable aleatoria ¢ −1 −1 sobre (Ω, Σ) resulta X g (B) ∈ Σ. Esto demuestra que Y −1(B) ∈ Σ, como deseábamos ver ¥ Investiguemos la relación entre la fda de X y la fda de Y = g(X) (suponiéndola v.a.). Notemos ante todo que RY = g (RX ) = {g(x) : x ∈ RX }. Fijado y ∈ R hemos visto que © ª {Y ≤ y} = X ∈ g −1 ((− ∞, y]) Prof.J.Gastón Argeri 76 pág. 77 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Por lo tanto: ¡ ¢ FY (y) = P X ∈ g −1 ((− ∞, y]) Ası́, cuando X es v.a.discreta, digamos con RX = {xn }, resulta también Y discreta con RY = {g(xn )} (Notar que como g no necesita ser 1-1, los valores g(xn ) pueden estar repetidos). Si anotamos RY = {yn } se tiene: ∞ P FY (y) = pY (yn ) = n=1 yn ≤y ∞ P = ∞ P P (Y = yn ) = n=1 yn ≤y ∞ P n=1 yn ≤y ¡ ¢ P X ∈ g −1 ({yn }) = pX (xn ) n=1 g(xn )≤y Análogamente: ¡ ¢ pY (yn ) = P (Y = yn ) = P X ∈ g −1(yn ) = = ∞ P ∞ P P (X = xn ) = n=1 g(xn )=yn pX (xn ) n=1 g(xn )=yn En cambio, si X es v.a. continua con fdp fX , resulta: ¡ ¢ FY (y) = P X ∈ g −1 ((− ∞, y]) = R fX (x) dx g −1 ((− ∞,y]) En este caso no queda claro si Y posee fdp. Esta situación se analizará más adelante. Por ahora nos dedicaremos a presentar algunos ejemplos concretos de lo que acabamos de ver. Nota: Cuando X discreta, la función g no necesita ser boreliana puesto que en este caso es Σ = P(Ω). Ejemplo: Sea X ≈ Bi(n, p). Para fijar ideas podemos pensar en n lanzamientos independientes e idénticos de una moneda, con probabilidad de salir cara en cada lanxamiento igual a p, donde X mide la cantidad de caras que salen. Sea Y la cantidad de cecas que se obtienen. Entonces Y = n − X. Acá g(x) = n − x. Como RX = {0, 1, · · · , n} resulta RY = RX . Para k ∈ RY se tiene: pY (k) = P (Y = k) = P (n − X = k) = = P (X = n − k) = pX (n − k) = n ¢ n−k p (1 n−k ¡ − p)k = Esto muestra (aunque es obvio) que Y ≈ Bi(n, 1 − p). Ejemplo: Sea X ≈ E(λ). Determinemos la distribución de Y = Se tiene para y > 0: FY (y) = P (Y ≤ y) = P = ∞ R 1/y Por lo tanto: X k (1 − p)k pn−k Evidentemente RY = (0, ∞). ³ ¢ ≤y =P X≥ 1 y ´ = ¯∞ λe− λx dx = − e− λx¯1/y = e− λ/y fY (y) = FY0 (y) = Prof.J.Gastón Argeri ¡1 1 . X ¡n¢ λe− λ/y y2 (para Y > 0) 77 pág. 78 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Ejemplo: Sea X ≈ N (0, 1). Definamos Y = X 2 . Hallemos la fda de Y . Naturalmente RY = (0, ∞). Fijado y > 0 se tiene: p √ √ FY (y) = P (Y ≤ y) = P (X 2 ≤ y) = P (|X| ≤ (y)) = P (− y ≤ X ≤ y) = = Luego: √ Ry √ − y √1 2π 2 /2 · e− x √ √ √ dx = Φ( y) − Φ(− y) = 2Φ( y) − 1 ¡ ¢0 √ fY (y) = FY0 (y) = 2Φ( y) − 1 = = √1 2π · y − 1/2e−y/2 √ 2ϕ( y) √ 2 y = √ ϕ( y) √ y = (para y > 0) Habrán reconocido que ésta es la fdp de una v.a. chi-cuadrado con 1 grado de libertad, verdad? Es decir: X ≈ N (0, 1) ⇒ X 2 ≈ χ2 (1) Hay dos casos donde la relación entre FX y FY es muy sencilla: Cuando la función g es estrictamente g −1 monótona sabemos que existe la función inversa g(D) → D la cual verifica: • ∀x ∈ D , g −1 (g(x)) = x ¡ ¢ • ∀y ∈ g(D) , g g −1(y) = y Consideremos por separado los casos g creciente y g decreciente: • Cuando g es creciente también g −1 lo es. En efecto: Si y, u ∈ g(D) , y < u entonces no puede ser g −1(y) ≥ g −1(u) porque en tal caso, sabiendo que g crece resultarı́a la contradicción y = g(g −1(y)) ≥ g(g −1(u)) = u. Luego, necesariamente es g −1(y) < g −1(u). Por lo tanto podemos reescribir: X ∈ g −1 ((− ∞, y]) ⇔ g(X) ∈ (− ∞, y] ⇔ g(X) ≤ y ⇔ g −1 (g(X)) ≤ g −1(y) ⇔ X ≤ g −1(y) Entonces se obtiene: FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g −1(y)) = FX (g −1(y)) Dicho de otro modo: FY = FX ◦ g −1 • Cuando g es decreciente también g −1 lo es (sencillo de demostrar) y en tales casos la relación entre FX y FY viene dada por: FY (y) = 1 − lim FX (t). Si además FX es continua en el punto x = g −1(y) t % g −1 (y) esto se simplifica aún más: FY (y) = 1 − FX (g −1(y)) Teorema 8 Sea X ∼ N (µ, σ 2 ) y sean a, b ∈ R , a 6= 0. Entonces: Y = aX + b ∼ N (aµ + b, a2 σ 2 ) Prof.J.Gastón Argeri 78 pág. 79 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Dem: Consideremos primeramente el ³caso a > ´ 0. Se tiene: ³ F´Y (y) = P (Y ≤ y) = P (aX + b ≤ y−b y) = P (aX ≤ y − b) = P X ≤ a = FX y−b . Esto mismo se podı́a obtener a partir a de g(x) = ax + b hallando la inversa: g³−1(y)´ = (y − b)/a. Entonces según las observaciones anteriores es FY (y) = FX (g −1(y)) = FX y−b . a Luego, derivando respecto de y se obtiene: fY (y) = 1 a 0 FX ³ y−b a ´ = 1 √1 a 2π σ e µ − 1/2 y−b a −µ σ ¶2 = √ 1 2π aσ e ´ ³ y−(aµ+b) 2 − 1/2 aσ Pero esta es precisamente la fdp N (aµ + b, a2 σ 2 ) Ahora consideremos el caso ´ a < 0. Se³ tiene: ´ FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (aX ≤ ³ y−b y−b = 1 − FX . Por lo tanto, derivando respecto de y se tiene: y − b) = P X ≥ a a fY (y) = − a1 0 FX ³ y−b a ´ = 1 √1 |a| 2π σ e µ − 1/2 y−b a −µ σ ¶2 = √ 1 2π |a|σ e ³ ´ y−(aµ+b) 2 − 1/2 |a|σ Reconocemos aquı́ nuevamente la fdp N (aµ + b, (|a| σ)2 ) es decir N (aµ + b, a2 σ 2 ) Corolario 6 X ∼ N (µ, σ 2 ) X −µ ⇔ σ ¥ ∼ N (0, 1) Nota: A partir de una variable aleatoria X ∼ N (µ, σ 2 ), el proceso de restarle mu y dividir el resultado por σ, es decir obtener la nueva variable aleatoria Z = X−µ , se denomina standarizar X. σ O sea, Z es la standarización de X. Ejemplo: Si X ∼ N (2, 9) calcular: a) P (1 < X < 5) Rta: ³ < P (1 < X < 5) = P 1−2 3 0.841 − 0.369 = 0.472 X−2 3 < 5−2 3 ´ = P (− 1/3 < Z < 1) = Φ(1) − Φ(− 1/3) ≈ b) P (|X − 3| > 6) Rta: P (|X − 3| > 6) = 1 − P (|X − 3| ≤ 6) = 1 − P (−6 ≤ X − 3 ≤ 6) = = 1 − P (−6 + 3 ≤ X ≤ 6 + 3) = 1 − P ³ −3−2 3 ≤ X−2 3 ≤ 9−2 3 ´ = = 1 − P (−5/3 ≤ Z ≤ 7/3) = 1 − [Φ(7/3) − Φ(−5/3)] ≈ ≈ 1 − 0.990 + 0.048 = 0.058 g Teorema 9 (Teorema de cambio de variables) Sea [c, d] → R diferenciable con continuidad en [c, d] (es decir g 0 existe y es continua en [c, d]). Sea f continua en g ([c, d]). Se verifica: Z Prof.J.Gastón Argeri g(d) f (x) dx = g(c) Z d f (g(t)) g 0 (t) dt c 79 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 80 Nota: Siendo g continua en [c, d] resulta g ([c, d]) intervalo. Este intervalo contiene al intervalo de extremos g(c) y g(d). Dem: g 0 ,f ◦g G F Por hipótesis las funciones [c, d] −→ R son continuas. Definamos [c, d] → R y g ([c, d]) → R por Rt Rx G(t) = c f (g(s)) g 0 (s) ds ; F (x) = g(c) f (w) dw Por el teorema fundamental del cálculo se tiene: G0 (t) = f (g(t)) g 0 (t) para todo t ∈ [c, d] F 0 (x) = f (x) para todo x ∈ g ([c, d]) Las funciones G y F ◦ g son dos primitivas de (f ◦ g)g 0 en [c, d]. Por lo tanto existe alguna constante k tal que G = F ◦ g + k. Pero evaluando en t = c resulta G(c) = 0 = F (g(c)). Luego k = 0. Entonces G = F ◦ g. En particular, tomando t = d se obtiene lo deseado ¥ Corolario 7 Sea X una v.a. continua con fdp fX . Anotemos SX al soporte de fX y supongamos que es un intervalo. Sea g una función continua y estrictamente monótona en § X . Definamos def SY = g(SX ). Supongamos que g −1 es diferenciable con continuidad en SY aleatoria Y = g(X) es continua y su fdp viene dada por: ¯ ¢¯¯ ¯d ¡ fX (g −1(y)) · ¯ dy g −1(y) ¯ si y ∈ RY fY (y) = 0 si y 6∈ RY Entonces la variable Dem: Consideremos el caso en que g es estrictamente decreciente en RX Como g es continua resulta que g(RX ) es un intervalo. Anotemos IX e IY a las funciones indicadoras de SX y de SY respectivamente. Entonces: FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (g(X) ≤ y, X ∈ RX ) = P (X ≥ g −1(y)) = = R∞ g −1 (y) = − = = Ry −∞ Ry −∞ Ry −∞ fX (x)IX (x) dx = ¡ ¢ fX g −1(y) d dy ¡ ¢h fX g −1(y) − fX ¡ El otro caso es similar ¥ g −1(y) d dy R −∞ y ¡ ¢¡ ¢0 fX g −1(y) g −1 (y)IY (y) dy = ¡ −1 ¢ g (y) IY (y) dy = ¡ g −1(y) ¢i IY (y) dy = ¢¯¯ ¢ ¯¯ d ¡ −1 ¯ dy g (y) ¯ IY (y) dy Ejemplo: Veamos que si X ∼ U (0, 1) entonces Y = − ln(1 − X) ∼ E(1) Notemos que SX = (0, 1) Además en este caso Y = g(X) siendo y = g(x) = − ln(1 − x) Esta función es estrictamente creciente en SX como puede comprobarse vı́a gráfica o evaluando el signo g de g 0 en S¡X Se tiene: (0, 1) → (0, ∞) , g −1(y) = 1 − e− y es diferenciable con continuidad, ¢ d siendo dy g −1(y) = e− y Por el teorema resulta: fY (y) = fX (1 − e− y )e−y I(0,∞) (y) = e−y I(0,∞) (y) que es precisamente la densidad de una E(1) Ejemplo: Mostrar que si X ∼ U (0, 1) entonces Y = βX 1/α ∼ W(α, β) Prof.J.Gastón Argeri 80 pág. 81 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 g Se tiene SX = (0, ∞) En este caso (0, ∞) → ¡(0, ∞) es ¢ estrictamente creciente con inversa d continuamente diferenciable: g −1(y) = (y/β)α , dy g −1(y) = βαα y α−1 Por el teorema se tiene: fY (y) = fX ((y/β)α) · α βα y α−1I(0,∞) (y) = α βα y α−1I(0,∞) (y) que es precisamente la densidad W(α, β) -2 -1 0 y 1 2 3 Ejemplo: Si X ∼ U (0, 1) y si Φ es la fda normal standard entonces Y = Φ−1(X) ∼ N (0, 1) Por ejemplo con Splus o R podrı́amos generar n = 100 observaciones normales standard del modo siguiente: x_runif(100) y_qnorm(x) y qqnorm(y) qqline(y) cuyo resultado es: > y [1] 1.439656209 -0.153820818 -0.973364545 -2.670822995 1.573157002 [6] -1.515236540 -0.017587315 -0.277855490 1.522914668 0.805903825 [11] 1.390965278 1.081745384 -0.940007847 1.806211842 1.385184211 [16] 0.789081143 -0.572512513 -0.426706851 -1.619519525 -0.163684787 [21] 0.363264580 3.509691190 -0.358246089 -0.618651099 -0.440391503 [26] -0.463496951 -0.528399068 0.343278381 -0.798728454 -0.858057270 [31] -0.114529089 0.014408313 0.711339651 -0.702370373 1.151716769 [36] 1.222205661 0.553613844 -1.291154983 1.576725352 1.274922705 [41] 2.373343271 0.023516669 -1.179085855 0.376860986 0.837743375 [46] 0.638265270 0.200955245 -1.227181790 0.226847841 0.092363984 [51] -0.202351448 -1.194020555 -0.031555431 -0.276199872 -0.522546189 [56] -0.821240291 -0.829233179 -1.420151004 -0.018863978 1.071702472 [61] 0.952116827 -0.481977529 0.013052120 2.576981022 -0.240945446 [66] 1.061576194 -0.429587065 1.177723298 1.517133775 0.747041757 [71] -0.302776745 -0.606648062 0.159249318 -0.727483736 -0.209902629 [76] -1.468940054 -0.384172801 -1.107982526 1.475101839 0.794312989 [81] -1.684586480 -0.847926953 0.244018386 -0.143598695 0.614903554 [86] 0.592337464 0.417235128 1.225940136 1.156041361 0.214837671 [91] -0.005689715 -0.291107554 1.142520415 -0.036015666 1.284851222 [96] 0.343150051 0.431397104 -0.260146350 -0.297678363 0.857941106 -2 -1 0 1 2 Quantiles of Standard Normal Prof.J.Gastón Argeri 81 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 82 El teorema anterior tiene el inconveniente de requerir la monotonı́a de g Presentamos a continuación una versión menos restrictiva del mismo teorema. Teorema 10 ddd Prof.J.Gastón Argeri 82 pág. 83 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Esperanza y varianza 22 22.1 Valor esperado de una variable aleatoria Motivación Los ejemplos siguientes aclaran la situación que vamos a considerar. Ejemplo: Una prueba es calificada en una escala de puntajes 0, 1, 2, 3. Un curso de 35 alumnos realiza la prueba, con los siguientes resultados (en la tabla X indica el puntaje): Al. X Al. X Al. X Al. X Al. X 1 2 8 1 15 2 22 1 29 0 2 1 9 2 16 2 23 1 30 1 3 1 10 1 17 1 24 2 31 1 4 0 11 1 18 2 25 1 32 2 5 2 12 1 19 1 26 1 33 2 6 2 13 0 20 1 27 2 34 2 7 2 14 3 21 0 28 1 35 1 Supongamos que se extrae al azar un alumno entre los 35 evaluados ¿ Qué puntaje se espera observar? Dicho en otro términos, ¿ qué número podemos tomar como representativo del puntaje del curso? Naturalmente esperamos que el puntaje promedio del curso sirva a tales efectos. Sea X la variable aleatoria que mide el puntaje (de un alumno, en nuestro experimento aleatorio de extraer un alumno al azar y observar su puntaje). El rango de X es RX = {0, 1, 2, 3}. El puntaje promedio del curso es (n = 35): X̄ = 2+1+1+0+2+2+2+1+2+1+1+1+0+3+2+2+1+2+1+1+0+1+1+2+1+1+2+2+1+1 35 Para calcular el numerador de esta expresión podemos agrupar puntajes iguales, es decir que podemos agrupar de acuerdo a los distintos valores de la variable aleatoria X. Entonces el cálculo anterior adopta la forma: (X=2)+3·f (X=3) X̄ = 0·f (X=0)+1·f (X=1)+2·f = 35 = 0·4+1·18+2·12+3·1 35 En los cálculos f (k) = f (X = k) representa la frecuencia del valor X = k (k = 0, 1, 2, 3). Si ahora distribuimos el denominador, se obtiene: X̄ = 0·4+1·18+2·12+3·1 35 = 0 · f (X=0) +1· 35 = n P = k · f (X=k) n =0· 4 35 f (X=1) 35 +1· +2· 18 35 +2· f (X=2) 35 12 35 +3· +3· 1 35 f (X=3) 35 = = k=0 Ahora bien, los números f (X=k) vienen dados precisamente por la fmp de X, es decir pX (k) = n P (X = k). Entonces obtenemos el siguiente resultado: X̄ = n P k=0 k · pX (k) = n P k=0 k · P (X = k) = P k∈RX k · P (X = k) Ejemplo: Supongamos (para modelizar) que la altura X de un individuo adulto de cierta población Prof.J.Gastón Argeri 83 pág. 84 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 sigue una distribución N (1.70, 0.01). Si se extrae un individuo al azar de esta población, ¿ qué altura esperada tendrá? Es decir, ¿ qué número podrı́amos tomar como representativo de la altura de un individuo en dicha población? A diferencia del ejemplo anterior, en este caso la variable aleatoria X es continua. Podemos considerar un rango razonable [L, U ] de alturas (por ejemplo podrı́amos tomar L = 1, U = 2 por decir algo). Dividamos este intervalo [L, U ] en cierta cantidad n de subintervalos, mediante una partición regular: L = x o < x1 < · · · < x n = U y llamemos h a la norma de esta partición, es decir h = (U − L)/n. Recordemos que: fX (x) = lim h → 0+ P (x ≤ X < x + h) h Por lo tanto podemos escribir: P (x ≤ X < x + h) = hfX (x) + o(h) para h → 0+ o aproximadamente para h pequeño: P (x ≤ X < x + h) ≈ hfX (x). En cada subintervalo [x, x + h) es razonable considerar a x o a cualquier otro valor en tal intervalo, como represetativo de las alturas allı́ (h pequeño). Luego, imitando los cálculos del ejemplo anterior, tomarı́amos como altura representativa aproximada: n X k=1 xk P (xk−1 ≤ X < xk ) ≈ n X xk fX (xk )h = n X k=1 k=1 xk fX (xk ) · h El cálculo resultará más representativo cuanto más pequeño sea h. En el lı́mite el cálculo resultará exacto. Pero de acuerdo a la definición de integral definida se tiene: lim h → 0+ n X k=1 xk fX (xk ) · h = Z U xfX (x) dx L Pero hemos introducido un intervalo ”razonable” de alturas posibles. Si nos atenemos estrictamente a nuestro modelo N (1.70, 0.01), no hay razones por las cuales no debamos considerar cualesquiera posibles valores de X en su rango RX = R (recordemos que esto es sólo un modelo para la población real). Entonces lo lógico será tomar como representativo de la altura de la población al número: Z ∞ xfX (x) dx −∞ 22.2 Definición y ejemplos Definición 27 Sea X una variable aleatoria discreta con rango RX = {xk } (finito o infinito numerable) y sea pX su fmp. Se define el valor esperado o la esperanza de X como el número real: X X xpX (x) xP (X = x) = E(X) = x∈RX x∈RX siempre y cuando la serie converja absolutamente. En caso contrario se dice que X no posee esperanza o que la esperanza de X no está definda. Al hablar de convergencia absoluta queremos significar que la serie de los valores absolutos debe converger (suma finita), es decir: X |x| pX (x) < ∞ x∈RX Prof.J.Gastón Argeri 84 pág. 85 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Nota: Cuando RX es finito siempre existirá E(X) puesto que la serie en cuestión sólo consta de un número finito de términos. Definición 28 Sea X una variable aleatoria continua y sea fX su fdp. Se define el valor esperado o la esperanza de X como el número real: E(X) = Z∞ xfX (x) dx −∞ siempre y cuando la integral converja absolutamente. En caso contrario se dice que X esperanza o que la esperanza de X no está definda. no posee Nota: La integral puede ser propia o impropia, dependiendo de las caracterı́sticas y del soporte de f X . En todo caso, siempre debe analizarse su covergencia. Al hablar de convergencia absoluta queremos significar que la integral del valor absoluto debe converger (valor finito), es decir: Z∞ |x| fX (x) dx < ∞ −∞ Vamos a ilustrar estas definiciones calculando la esperanza de algunas de las distribuciones que hemos introducido anteriormente. Calcularemos también la esperanza del cuadrado de cada variable aleatoria, dado que nos resultará útil en el futuro (cuando definamos el concepto de varianza de una variable aleatoria) Ejemplo: Geométrica Sea X ∼ G(p). En este caso RX = N. Anotemos q = 1 − p. La esperanza se calcula como: E(X) = ∞ X kP (X = k) = k=1 ∞ X kq k−1p = p k=1 ∞ X kq k−1 k=1 Para sumar esta serie podemos recurrir al truco siguiente (que ya hemos utilizado): S(q) = ∞ X qk = k=0 1 (11) 1−q Derivado respecto de q (justificarán el intercambio de derivada con suma en alguno de los cursos de Análisis Matemático) se obtiene: µ ¶ ∞ X 1 d 1 1 0 k−1 S (q) = kq = = = 2 2 dq 1 − q (1 − q) p k=1 Luego: E(X) = p 1 p2 = 1 p Por otra parte: E(X 2 ) = ∞ X k=1 k2 P (X = k) = ∞ X k=1 k2 q k−1p = p ∞ X k2 q k−1 k=1 Para hallar la suma de esta serie, derivemos (11) pero en este caso dos veces: µ ¶ ∞ X d 2 2 1 00 k−2 S (q) = k(k − 1)q = = = 3 2 3 dq (1 − q) (1 − q) p k=2 Prof.J.Gastón Argeri 85 pág. 86 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Si separamos la suma obtenemos: S 00 (q) ∞ P = k2 q k−2 k=2 = = q −1 q −1 · ∞ P − ∞ P ∞ P k2 q k−1 k2 q k−1 ∞ X ∞ P − (S 0 (q) S 0 (q) ∞ P kq k−1 k=2 ¶ = − 1) = ¶ k2 q k−1 = qS 00 (q) + S 0 (q) = E(X 2 ) = p −1− ¸ k=1 Por lo tanto: k2 q k−1 k=1 −1− k=1 Despejando: = µ q −1 k=2 k=1 µ kq k−2 ∞ X 2q p3 k2 q k−1 = + 1 p2 = 2q + p p3 2q + p p2 k=1 Ejemplo: Binomial Sea X ∼ Bi(n, p). En este caso RX = {0, 1, · · · , n}. Anotemos q = 1 − p. Entonces: E(X) = n P k k=0 ¡n¢ k k=1 n ¡ P n−1¢ = np k−1 k=1 n P pk q n−k = kn! k!(n−k)! pk−1q n−k = np n P pk q n−k = k=1 n ¡ P n−1¢ k−1 k=1 n(n−1)! (k−1)!(n−k)! pk q n−k = pk−1q n−k = = np(p + q)n−1 = np Para calcular la esperanza del cuadrado de una binomial: E(X 2 ) = n P k2 k=0 = n P k=1 = np = np · · n n ¡n¢ k n−k ¡ ¢ k n−k P P p q = k2 n p q = k k k=1 nk(n−1)! pk q n−k (k−1)!(n−k)! n P k=1 n P k=1 k=1 = np n P k=1 (k − 1) ¡n−1¢ pk−1q n−k (k − 1) ¡n−1¢ pk−1q n−k k−1 k−1 k k2 n! pk q n−k k!(n−k)! = ¡n−1¢ k−1 n−k p q = k−1 ¸ n ¡ P n−1¢ k−1 n−k p q = + k−1 k=1 ¸ ·n−1 ¸ P ¡n−1¢ s n−1−s + 1 = np s s p q +1 = s=0 = np [(n − 1)p + 1] = np(np + 1 − p) = np(np + q) donde hemos utilizado que la última suma entre corchetes es la expresión de la esperanza de una Bi(n − 1, p), es decir (n − 1)p. Ejemplo: Poisson S Sea X ∼ P(λ) de modo que RX = N {0}. Calculemos su esperanza: E(X) = ∞ X k=0 Prof.J.Gastón Argeri k λk k! e −λ = λe −λ ∞ X k=1 λk−1 (k − 1)! = λe −λ ∞ X λs s=0 s! = λe− λeλ = λ 86 pág. 87 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Calculemos la esperanza de su cuadrado: E(X 2 ) = ∞ P λk k! k2 k=0 = λ · ∞ P s s=0 e− λ = λe− λ ∞ P λk−1 (k−1)! k k=1 λs s! e− λ + e− λ ∞ P λs s! s=0 ¸ = λe− λ ∞ P λs s! (s + 1) s=0 = ¢ ¡ = λ λ + e− λeλ = λ(1 + λ) Ejemplo: Gaussiana standard Sea X ∼ N (0, 1). Su esperanza se calcula como: Z ∞ Z ∞ 1 1 2 2 x√ x e− x /2 dx E(X) = e− x /2 dx = √ 2π 2π − ∞ −∞ Afortunadamente el integrando posee primitiva elemental. En efecto: Sustituyendo t = −x 2 /2 se tiene dt = − x dx Z Z 2 − x2 /2 xe dx = − et dt = −et + C = −e− x /2 + C Por lo tanto: Rb 0 R0 a R∞ 2 /2 x e− x 2 /2 x e− x 2 /2 dx = 1 − e− b 2 /2 dx = e− a −→ 1 b →∞ − 1 −→ −1 a →− ∞ − x2 /2 dx = −1 + 1 = 0. Esto muestra que E(X) = 0 De manera que: − ∞ x e 2 Calculemos ahora E(X ), es decir: Z ∞ Z ∞ 1 1 2 2 x2 √ E(X 2 ) = x2 e− x /2 dx e− x /2 dx = √ 2π 2π − ∞ −∞ 2 la integral indefinida por partes: u = x , dv = xe− x /2 dx. Entonces: du = dx , v = RPlanteamos 2 /2 2 − x xe dx = −e− x /2 . Luego: Z Z 2 2 − x2 /2 − x2 /2 x e dx = xe + e− x /2 dx Por lo tanto: Z b Z ¯b 2 2 ¯ x2 e− x /2 dx = xe− x /2 ¯ + a a Luego: R0 a Rb Z ∞ a →− ∞ 2 /2 x e 2 /2 2 /2 dx = be− b dx −→ + x2 e − x 2 2 /2 e− x − ae− a a 2 /2 x2 e − x 0 Por lo tanto: b dx = −∞ Z ∞ −∞ R∞ dx −→ + 2 /2 e− x 2 /2 e− x 0 b →∞ − x2 /2 R0 2 /2 e− x + Z b 2 /2 e− x a dx dx dx = √ 2π −∞ Finalmente: Por lo tanto: 1 E(X ) = √ 2π 2 Prof.J.Gastón Argeri Z ∞ −∞ 2 /2 x2 e − x 1 √ 2π = 1 dx = √ 2π 87 dx pág. 88 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Ejemplo: Exponencial Sea X ∼ E(λ). Calculemos su esperanza: Z ∞ Z − λx E(X) = xλe dx = λ 0 ∞ xe− λx dx 0 Planteamos la integral indefinida por partes: u = x , dv = λe− λx dx Z Z 1 xe− λx dx = −x e− λx + e− λx dx = −x e− λx − e− λx λ Entonces: ¯∞ 1 − λx¯¯∞ 1 ¯ E(X) = − x e− λx¯ − e ¯ = 0 0 λ λ En cuanto a la esperanza del cuadrado, planteamos: Z ∞ Z ∞ 2 2 − λx E(X ) = x λe dx = λ x2 e− λx dx 0 0 Nuevamente acá planteamos la integral indefinida por partes: u = x2 , dv = λe− λx dx Z Z 2 − λx 2 − λx x e dx = −x e +2 xe− λx dx Entonces: ¯∞ R∞ R∞ x2 e− λx dx = − x2 e− λx¯0 + 2 0 xe− λx dx = 2 0 xe− λx dx = R∞ E(X 2 ) = 0 = 2 E(X) λ = 2/λ2 Ejemplo: Binomial negativa Sea X ∼ BN (r, p). Su esperanza se calcula como: ∞ P E(X) = k k=r = r ∞ P k=r r p = ¡k−1¢ r−1 k! r!(k−r)! ∞ ¡ ¢ P k k=r pr q k−r = r ∞ P k2 k=r = r ∞ P pr q k−r = r pr+1 q k−r = k=r = r p r pr q k−r = r r p ∞ X ∞ P rkk! r!(k−r)! s=r+1 pr q k−r = pr q k−r = r s=r+1 | k=r ¡k ¢ ∞ ¡ ¢ P k k=r ∞ ¡k−1¢ r k−r P p q = r−1 k k(k−1)! (r−1)!(k−r)! k=r Para hallar la esperanza del cuadrado: E(X 2 ) = ∞ P µ s−1 (r + 1) − 1 {z ¶ pr+1 q s−(r+1) = } 1 pr q k−r = (s − 1) ¡s−1¢ r pr+1 q s−r−1 = ∞ ¶ µ ¶ ∞ µ X X s − 1 s − 1 pr+1 q s−r−1 − s pr+1 q s−r−1 = r r s=r+1 s=r+1 | {z } | {z } (r+1)/p Prof.J.Gastón Argeri r p r p ³ r+1 p 1 88 −1 ´ pág. 89 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Ejemplo: Gama Sea X ∼ Γ(α, λ). Calculemos su esperanza: R∞ R∞ λα E(X) = 0 x Γ(α) xα−1 e− λx dx = 0 α λ = R∞ λα+1 Γ(α+1) 0 λα Γ(α) x(α+1)−1 e− λx dx = x(α+1)−1 e− λx dx = α λ En cuanto a la esperanza del cuadrao, los cálculos son similares: R ∞ λα (α+2)−1 − λx R∞ λα xα−1 e− λx dx = 0 Γ(α) x e dx = E(X 2 ) = 0 x2 Γ(α) α(α+1) λ2 = R∞ 0 λα+2 Γ(α+2) x(α+2)−1 e− λx dx = α(α+1) λ2 Ejemplo: Beta Sea X ∼ Be(α, β). Su esperanza viene dada por: E(X) = = R1 0 R1 0 x 1 B(α,β) 1 B(α,β) xα−1 (1 − x)β−1 dx = R1 0 x(α+1)−1 (1 − x)β−1 dx = 1 B(α,β) α α+β R1 0 Calculemos la esperanza de su cuadrado: R1 R1 1 E(X 2 ) = 0 x2 B(α,β) xα−1 (1 − x)β−1 dx = 0 α(α+1) (α+β)(α+β+1) = R1 0 1 B(α+2,β) x(α+1)−1 (1 − x)β−1 dx = 1 B(α+1,β) 1 B(α,β) x(α+1)−1 (1 − x)β−1 dx = x(α+2)−1 (1 − x)β−1 dx = x(α+2)−1 (1 − x)β−1 dx = α(α+1) (α+β)(α+β+1) Ejemplo: Hipergeométrica Sea X ∼ H(n, D, N ). Sean m = max {0, n − N + D} , M = min {n, D}. Entonces si anotamos m∗ = max {0, (n − 1) − (N − 1) + (D − 1)} , M ∗ = min {n − 1, D − 1} resulta: ½ 0 si m = 0 ∗ = max {m − 1, 0} = max {m, 1} − 1 ; M∗ = M − 1 m = m − 1 si m ≥ 1 La esperanza de X viene dada por: E(X) = M P k k=m = = n N nD N Prof.J.Gastón Argeri −D ) (Dk)(Nn−k = N (n) M P k=max{m,1} k −D ) (Dk)(Nn−k = N (n) (N −1)−(D−1) D (D−1 k−1 )( (n−1)−(k−1) ) k=max{m,1} MP −1 M P s=max{m,1}−1 −1 (N n−1 ) = nD N (N −1)−(D−1) (D−1 ) s )( (n−1)−s = −1 (N ) n−1 M P k=max{m,1} nD N M P∗ s=m∗ (N −1)−(D−1) (D−1 k−1 )( (n−1)−(k−1) ) = −1 (N n−1 ) (N −1)−(D−1) (D−1 ) s )( (n−1)−s =n −1 (N ) n−1 89 D N α α+β pág. 90 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Calculemos la esperanza de su cuadrado: E(X 2 ) = M P k2 k=m = = = n N −D (Dk)(Nn−k ) = N (n) M P k M P k=max{m,1} ( MP −1 N −1 n−1 (s + 1) s=max{m,1}−1 · nD N h = nD N = N N −1 = ) M P nD N k k=max{m,1} (N −1)−(D−1) (D−1 ) s )( (n−1)−s = N −1 ( n−1 ) nD N M P∗ (N −1)−(D−1) (D−1 k−1 )( (n−1)−(k−1) ) = −1 (N n−1 ) (s + 1) s=m∗ (N −1)−(D−1) (D−1 ) s )( (n−1)−s = N −1 ( n−1 ) ¸ (N −1)−(D−1) (N −1)−(D−1) M P∗ (D−1 ) (D−1 ) s )( s )( (n−1)−s (n−1)−s s + = −1 −1 (N (N n−1 ) n−1 ) s=m∗ M P∗ s=m∗ (n − 1) ³ −D (Dk)(Nn−k ) = N (n) (N −1)−(D−1) D (D−1 k−1 )( (n−1)−(k−1) ) k=max{m,1} nD N k2 1+ D−1 N −1 n(D−1) N −D i +1 = ´ n D N ³ nD (n−1)(D−1)+(N −1) N N −1 1− D N =n ³ D N ´ 1 + (n − 1) D−1 N −1 ´ = Ejemplo: Chi cuadrado ¡ 1¢ Sea X ∼ χ2 (n) = Γ n , . Entonces por lo visto para la gamma, se tiene: 2 2 E(X) = n/2 1/2 =n E(X 2 ) = ; n 2 ( n2 +1) (1/2)2 = n(n + 2) Ejemplo: Uniforme Sea X ∼ U (a, b). En este caso: E(X) Rb = E(X 2 ) = a Rb a x2 x 1 b−a 1 b−a 1 b−a dx = dx = 1 b−a Rb a Rb a x dx = x2 dx = ¯b 1 x2 ¯ b−a 2 ¯a ¯b x3 ¯ 1 b−a 3 ¯a = = b2 −a2 2(b−a) b3 −a3 3(b−a) = = (b−a)(b+a) 2(b−a) = (b−a)(a2 +ab+b2 ) 3(b−a) a+b 2 = a2 +ab+b2 3 Ejemplo: t de Student Sea X ∼ t(n). Para calcular su esperanza observemos antes algunas particularidades. Debemos analizar ante todo la convergencia de la integral impropia. Por simetrı́a y dado que dicha integral √ es propia en el origen, vamos a estudiarla en [ n, ∞). De hecho, para que nos sirva después, estudiaremos la convergencia de la siguiente (un poco más general): Ik,n = Z ∞ √ n ³ 1+ xk dx ´ 2 (n+1)/2 x n √ Hacemos el cambio de variables (para deshacernos del n ”molesto”): t = x/ n. Entonces dt = √ dx/ n. Luego: Z ∞ tk (k+1)/2 dt Ik,n = n 1 (1 + t2 )(n+1)/2 Pero si t ≥ 1 se cumple: • • tk (1+t2 )(n+1)/2 ≤ tk tn+1 tk ≥ tn (1+t2 )(n+1)/2 tk (1+t2 )(n+1)/2 Prof.J.Gastón Argeri = 1 tn+1−k ≥ pues 1 + t2 ≥ t2 tn (2t2 )(n+1)/2 = 1 2(n+1)/2 t pues 1 + t2 ≤ t2 + t2 = 2t2 90 pág. 91 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Luego: Ik,n es convergente sii n + 1 − k > 1 sii k < n. Deducimos inmediatamente que si X ∼ t(1) entonces X carece de esperanza (finita). Si X ∼ t(2) entonces E(X) existe pero E(X 2 ) no existe. En cambio si X ∼ t(n) con n ≥ 3 entonces existen E(X) y E(X 2 ). Γ( n+1 ) Vamos a calcularlas: Para alivianar notación denotemos An = Γ n 2√nπ . Tengamos presente que (2) por definición de fdp (su integral sobre toda la recta es 1 ) se tiene para n ∈ N: Z ∞ Z ∞ ´−1 ³ dt dx 1/2 − 1/2 = n A = n n ´ ³ (n+1)/2 2 (n+1)/2 −∞ (1 + t2 ) −∞ 1 + xn √ Entonces usando consecutivamente las sustituciones t = x/ n , s = 1 + t2 se obtiene para n ≥ 2: R∞ R∞ x t E(X) = An − ∞ ³ dx = nA dt = ´ n (n+1)/2 2 (n+1)/2 −∞ 2 (1+t ) 1+ xn = nAn = 1 2 hR nAn 0 t − ∞ (1+t2 )(n+1)/2 hR 0 ds ∞ s(n+1)/2 + Análogamente, para n ≥ 3 se tiene: E(X 2 ) = An R∞ −∞ ³ = n3/2 An = n3/2 An = n3/2 An = n ·³ dt + R∞ t (1+t2 )(n+1)/2 0 ds 0 2 1+ xn R∞ s(n+1)/2 x2 ´ (n+1)/2 i = (1+t2 )−1 − ∞ (1+t2 )(n+1)/2 h n n−2 (n−2)1/2 An−2 ´1/2 An An−2 − −1 ds s(n+1)/2 R∞ + R∞ 0 t2 − ∞ (1+t2 )(n+1)/2 ds s(n+1)/2 i =0 dt = dt = ∞ 1 − ∞ (1+t2 )(n−1)/2 1 h R ∞ nAn − 0 dx = n3/2 An R∞ hR 1 2 i dt = dt − 1 n1/2 An ¸ R∞ i 1 − ∞ (1+t2 )(n+1)/2 i dt = = Utilizando las propiedades de la función gamma se puede verificar fácilmente que A n /An−2 = (n − £ ¤ 1)/ n(n − 2)1/2 . Reemplazando resulta: ½³ ¾ ´ ´1/2 ³ n−1 n−1 n n E(X 2 ) = n − 1 = n−2 − 1 = n 1/2 n−2 n−2 [n(n−2)] Ejemplo: F de Fisher-Snedecor El cálculo de E(X) y E(X 2 ) es un poco engorroso y lo omitiremos. El resultado es el siguiente: E(X) = E(X 2 ) = n n−2 ³ n n−2 para n ≥ 3 ´2 h m+n−2 1 + 2 m(n−4) i para n ≥ 5 Ejemplo: Lognormal Sea X ∼ logN (µ, σ). Calculemos su esperanza: Para la integral realizamos la sustitución t = ln x. Prof.J.Gastón Argeri 91 pág. 92 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Luego: dt = dx/x , x = et . Entonces: E(X) = R∞ = = 2 /(2σ2 ) √ x 2π σx 0 e− (ln x−µ) R −∞ √1 2π σ ∞ 2 /(2σ2 ) e− (t−µ) R∞ 2 /(2σ2 ) = √1 2π σ e− µ = √1 2π σ e− µ = √1 2π σ e− µ −∞ R∞ 2 /(2σ2 ) −∞ R∞ 2 /(2σ2 ) −∞ 2 /(2σ2 ) e(µ+σ 2 /(2σ2 ) e(µ+σ R∞ 0 √1 2π σ et dt = 2 /(2σ2 ) e− (ln x−µ) R∞ −∞ 2 −2µt+µ2 −2σ2 t)/(2σ2 ) e−[t 2 −2(µ+σ2 )t+(µ+σ2 )2 −(µ+σ2 )2 2 e−[t−(µ+σ )] R∞ −∞ 2 dt = ]/(2σ2 ) dt = ]/(2σ2 ) dt = /(2σ2 ) (µ+σ2 )2 /(2σ2 ) e √1 2π σ dx = e−(t 2 −2(µ+σ2 )t 2 )2 /(2σ2 ) = e− µ √1 2π σ e−[t 2 )2 /(2σ2 ) = e− µ dx = 2 e−[t−(µ+σ )] 2 /(2σ2 ) dt = dt = 2 /2 = eµ+σ El cálculo de la esperanza del cuadrado es completamente similar: E(X 2 ) = R∞ 2 √x 2π σx 0 = = √1 2π σ R −∞ ∞ √1 2π σ e− µ = √1 2π σ e− µ = √1 2π σ e− µ 2 /(2σ2 ) 2 /(2σ2 ) 2 /(2σ2 ) R∞ −∞ R∞ −∞ R∞ −∞ 2 /(2σ2 ) e(µ+2σ 2 /(2σ2 ) e(µ+2σ = e− µ dx = e− (t−µ) 2 /(2σ2 ) = = e− µ 22.3 2 /(2σ2 ) e− (ln x−µ) √1 2π σ e2t dt = R∞ 0 √1 2π σ 2 /(2σ2 ) x e− (ln x−µ) R∞ −∞ 2 −2µt+µ2 −4σ2 t)/(2σ2 ) e−(t e−[t 2 −2(µ+2σ2 )t e−[t 2 −2(µ+2σ2 )t+(µ+2σ2 )2 −(µ+2σ2 )2 2 e−[t−(µ+2σ )] 2 )2 /(2σ2 ) 2 )2 /(2σ2 ) R∞ 2 dt = ]/(2σ2 ) dt = ]/(2σ2 ) dt = /(2σ2 ) (µ+2σ2 )2 /(2σ2 ) e √1 −∞ 2π σ dx = 2 e−[t−(µ+2σ )] 2 /(2σ2 ) dt = dt = 2) = e2(µ+σ Propiedades de la esperanza Propiedad 47 (Linealidad de la esperanza) Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad. Supongamos además que E(X) , E(Y ) están definidas. Entonces para cualesquiera constantes a, b ∈ R la esperanza E(aX + bY ) existe y se verifica: E(aX + bY ) = aE(X) + bE(Y ) Dem: Esta demostración se dará más adelante, cuando desarrollemos la teorı́a de vectores aleatorios. ¥ Propiedad 48 Sea X una variable aleatoria. Dados m, n ∈ N , m < n se cumple: E(X n ) existe ⇒ E(X m ) existe Dem: Sólo demostramos el caso discreto (El caso continuo se demustra de manera completamente análoga, Prof.J.Gastón Argeri 92 pág. 93 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 reemplazando sumas por integrales). Tengamos en cuenta que: ∀x ≥ 0 , xm ≤ xn ⇔ x ≥ 1 P P P |x|m pX (x) ≤ |x|m pX (x) + |x|m pX (x) = E (|X m |) = x∈RX ≤ ≤ E(X n ) Por lo tanto si E(X m ) existe. ¥ P |x|n pX (x) + P |x|n pX (x) + x∈RX |x|>1 x∈RX x∈RX |x|≤1 x∈RX |x|>1 existe entonces E P pX (x) ≤ P pX (x) = E (|X n |) + 1 x∈RX |x|≤1 x∈RX (|X n |) < ∞ por lo cual E (|X m |) < ∞ de manera que Propiedad 49 Sea X una variable aleatoria tal que E(X) existe. Se cumple: P (X ≥ 0) = 1 ⇒ E(X) ≥ 0 Dem: Caso discreto: pX (x) = P (X = x) = P (X = x, X ≥ 0) + P (X = x, X < 0) Pero: P (X < 0) = 1 − P (X ≥ 0) = 1 − 1 = 0 Entonces como {X = x, X < 0} ⊆ {X < 0} resulta P (X = x, X < 0) = 0 Por lo tanto: pX (x) = P (X = x, X ≥ 0) = pX (x)I[0,∞) (x) Entonces: X X X E(X) = xpX (x) = xpX (x)I[0,∞) (x) = xpX (x) ≥ 0 x∈RX x∈RX x∈RX x≥0 El caso continuo es similar. ¥ Corolario 8 Sean X, Y variables aleatorias tales que existen E(X), E(Y ) Se cumple: P (X ≥ Y ) = 1 ⇒ E(X) ≥ E(Y ) Dem: Consideremos Z = X − Y Aplicándole directamente la propiedad anterior y utilizando luego la linealidad de la esperanza, se deduce el resultado a probar. ¥ Propiedad 50 (Desigualdad de Markov) Sea X una variable aleatoria tal que X ≥ 0 y E(X) existe. Entonces para cualquier número real c > 0 se verifica: P (X ≥ c) ≤ E(X) c Dem: Sea A = [c, ∞) La función indicadora de A es ½ 1 si x ∈ A IA (x) = 0 si x 6∈ A La variable aleatoria IA (X) es discreta con rango {0, 1} Calculemos su esperanza: E(IA (X)) = 0·P (IA (X) = 0)+1·P (IA (X) = 1) = P (IA (X) = 1) = P (X ∈ A) = P (X ≥ c) Además: x ∈ A ⇒ x ≥ c ⇒ x/c ≥ 1 Por lo tanto: x x ∀x ∈ R , IA (x) ≤ IA (x) ≤ c c Luego: IA (X) ≤ Prof.J.Gastón Argeri X c Tomando esperanzas y utilizando el corolario anterior se tiene: µ ¶ E(X) X P (X ≥ c) = E(IA (X)) ≤ E = ¥ c c 93 pág. 94 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Propiedad 51 Sea X una variable aleatoria. Se verifica: X≥0 y ⇒ E(X) = 0 P (X = 0) = 1 Dem: Fijemos x > 0 Por la desigualdad de Markov y utilizando que E(X) = 0 se tiene: P (X ≥ x) ≤ E(X) =0 x Entonces: ∀x > 0 , P (X ≥ x) = 0 Por lo tanto, si x > 0 vale: FX (x) = 1 puesto que: FX (x) = P (X ≤ x) = lim P (X < x + 1/n) = lim 1 − P (X ≥ x + 1/n) = 1 n →∞ n →∞ {z } | 0 Utilizando que X ≥ 0 también se tiene: ∀x > 0 , FX (−x) = 0 Por lo tanto: P (X = 0) = lim FX (x) − FX (−x) = 1 | {z } | {z } x → 0+ 1 0 como querı́amos demostrar. ¥ 23 23.1 Varianza de una variable aleatoria Motivación y definición Consideremos una variable aleatoria X que representa una caracterı́stica numérica de los individuos de cierta población. Supongamos además que existe E(X 2 ) Elijamos al azar un individuo dentro de tal población e intentemos ”predecir” el valor que tomará la variable aleatoria X en dicho individuo. Lo más razonable serı́a predecir el valor de X mediante el número E(X) ¿ Porqué? Supongamos que decidimos predecir el valor de X mediante un número c Tal predicción tendrá asociado un error (absoluto) aleatorio expresado por |X − c| Naturalmente ningún número c minimizará este error para todos los valores posibles de X precisamente por ser aleatorio el error. Pero podemos intentar buscar el número c que minimice la esperanza del error. Para evitar valores absolutos, busquemos el número c que minimice la esperanza del cuadrado del error, denominada error cuadrático medio(ECM): ¡ ¢ ECM (c) = E (X − c)2 = E(X 2 − 2cX + c2 ) = E(X 2 ) − 2cE(X) + c2 La expresión anterior es cuadrática en c Podemos reexpresarla como: o n ¡ ¢ E (X − c)2 = E [(X − E(X)) + (E(X) − c)]2 = ¡ ¢ ¡ ¢ = E (X − E(X))2 + 2 (E(X) − c) E (X − E(X)) + E (X − E(X))2 = ¡ ¢ ¡ ¢ = E (X − E(X))2 + E (E(X) − c)2 Como el primer término en esta expresión no depende de c y el segundo término se hace mı́nimo tomando c = E(X) deducimos que el mejor predictor ¡ constante de¢X es el número E(X) Además, el ECM de E(X) como predictor de X resulta ser E (X − E(X))2 Esta magnitud es tan importante en probabilidades y estadı́stica que recibe un nombre especial. Definición 29 Dada una variable aleatoria X se define la varianza de X como: ¡ ¢ V (X) = E (X − E(X))2 Prof.J.Gastón Argeri 94 pág. 95 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 siempre y cuando tal esperanza exista. 2 Otras notaciones comunes para la varianza de X son V ar(X) , σXX , σX El desvı́o standard o tı́pico de X se define como la raı́z cuadrada de su varianza: p SD(X) = V (X) El desvı́o standard de X también se anota σX Obsérvese que: • Si E(X 2 ) existe entonces V (X) existe puesto que por propiedades vistas anteriormente se deduce que E(X) ¡existe y por lo tanto, utilizando la propiedad de linealidad de la esperanza ¢ tiene: V (X) = E (X − E(X))2 = E(X 2 − 2E(X)X + E 2 (X)) existe. • Siendo V (X) la esperanza de un cuadrado, resulta siempre: V (X) ≥ 0 • Por propiedades vistas anteriormente se deduce que: V (X) = 0 ⇔ P (X = E(X)) = 1 • Si X se expresa en ciertas unidades, entonces V (X) se expresa en dichas unidades al cuadrado. Por ejemplo, si X representa altura y se expresa en cm entonces V (X) queda expresada en cm2 En cambio SD(X) queda espresada en las mismas unidades que X Tanto V (X) como SD(X) miden en cierto sentido cuán alejados se encuentran, en promedio, los valores de la variable aleatoria X respecto de su ”centro” o valor esperado E(X) Por ello decimos que V (X) y SD(X) representan medidas de dispersión de la variable aleatoria. 23.2 Cálculo y propiedades Propiedad 52 Sea X una variable aleatoria con E(X 2 ) finita. Se cumple: V (X) = E(X 2 ) − E 2 (X) Dem: Notemos que como E(X 2 ) < ∞ entonces por una propiedad anterior E(X) existe. Por lo tanto, utilizando la linealidad¢ de la esperanza se obtiene: ¡ V (X) = E (X − E(X))2 = E(X 2 − 2E(X)X + E 2 (X)) = E(X 2 ) − 2E 2 (X) + E 2 (X) = E(X 2 ) − E 2 (X) ¥ Ejemplo: X ∼ Bi(n, p) Ya calculamos E(X) = np , E(X 2 ) = np(q + np) de modo que se tiene: V (X) = np(q + np) − (np)2 = npq = np(1 − p) Ejemplo: X ∼ G(p) En este caso sabemos que E(X) = 1/p y E(X 2 ) = (2q + p)/p2 (2q + p)/p2 − 1/p2 = q/p2 = (1 − p)/p2 Ejemplo: X ∼ H(n, D, N ) D y E(X 2 ) = Vimos que E(X) = n N N N −1 ³ 1+ Entonces luego de operar se obtiene: V (X) = n D N ³ D nN 1− ´ N −n D n(D−1) N −D ³ 1− ´ N D N Por lo tanto V (X) = ´ N −1 | {z } (∗) El factor (∗) se denomina factor de corrección por población finita, en tanto que los tres primeros factores coinciden con la esperanza de una variable aleatoria con distribución Bi(n, D/N ) Esto no debe sorprendernos ya que la hipergeométrica surgió al contar la cantidad de objetos distinguidos en una muestra sin reposición de tamaño n de una población de N individuos entre los que hay un total de D distinguidos. Entonces cuando N es grande respecto de n y éste es pequeño respecto Prof.J.Gastón Argeri 95 pág. 96 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 de D es razonable que la no reposición afecte muy poco el resultado, de manera que contar la cantidad de distinguidos entre los n deberı́a dar resultados similares ya sea que la extracción se realice con o sin reposición. Pero si se realiza con reposición, la cantidad de distinguidos posee distribución Bi(n, D/N ) Ejemplo: X ∼ P(λ) En este caso vimos que E(X) = λ , E(X 2 ) = λ(λ + 1) Luego: V (X) = λ(λ + 1) − λ2 = λ Ejemplo: X ∼ N (µ, σ 2 ) Vimos que E(X) = µ , E(X 2 ) = µ2 + σ 2 Por lo tanto: V (X) = µ2 + σ 2 − µ2 = σ 2 Ejemplo: X ∼ Γ(λ, α) Probamos antes que E(X) = λ/α , E(X 2 ) = λ(λ + 1)/α2 Luego: V (X) = λ(λ + 1)/α2 − (λ/α)2 = λ/α Propiedad 53 Sea X una variable aleatoria tal que V (X) es finita y sean a, b constantes. Vale: V (aX + b) = a2 V (X) Dem: ¡ ¢ V (aX + b) = E (aX + b)2 − E 2 (aX + b) = E(a2 X 2 + 2abX + b2 ) − (aE(X) + b)2 = = a2 E(X 2 ) + 2abE(X) + b2 − a2 E 2 (X) − 2abE(X) − b2 = 24 ¡ ¢ = a2 E(X 2 ) − a2 E 2 (X) = a2 E(X 2 ) − E 2 (X) = a2 V (X) ¥ Esperanza y varianza de una función de una variable aleatoria Propiedad 54 Sea X una variable aleatoria y sea SX el soporte de su distribución. La esperanza de la variable aleatoria g(X) puede calcularse, siempre que exista, como: i) Caso discreto: X E(g(X)) = g(x)pX (x) x∈SX ii) Caso continuo: E(g(X)) = Z g(x)fX (x) dx SX Dem: Caso discreto: La fmp de Y = g(X) viene dada por pY (y) = P pX (x) Por lo tanto: x∈RX g(x)=y E(Y ) = P ypY (y) = y∈RY y∈RY = P y∈RY P P x∈RX g(x)=y y P pX (x) = x∈RX g(x)=y g(x)pX (x) = P P y∈RY P ypX (x) = x∈RX g(x)=y g(x)pX (x) x∈RX En el caso continuo la demostración es similar a la del teorema de cambio de variables que se demostró cuando se dedujo, bajo condiciones de regularidad, que Y = g(X) posee densidad. Omitimos la prueba. ¥ Prof.J.Gastón Argeri 96 pág. 97 UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 Ejemplo: Calculemos E(− ln X) siendo X ∼ U (0, 1) Sea Y = − ln X Anotando SX = (0, 1) y SY = (0, ∞) los soportes de X e Y respectivamente, se tiene: Z 1 Z 1 Z 1 dx = 1 ln x dx = − x ln x|10 + (− ln x) fX (x) dx = − E(Y ) = 0 Prof.J.Gastón Argeri 0 0 97