Probabilidad y Procesos Ingenierı́a de Telecomunicación Profesores: Jesús Ası́n Lafuente Marı́a Dolores Berrade Ursúa Centro Politécnico Superior Departamento de Métodos Estadı́sticos Curso 2009-2010 ÍNDICE Tema 1. Conceptos Básicos: Experimentos aleatorios versus experimentos deterministas. Espacio muestral y eventos. Algebra de eventos. Interpretaciones de la probabilidad. Axiomas de la probabilidad. Probabilidad condicional.Regla de Bayes. Independencia de eventos. (Pags 4-16) Tema 2. Variable aleatoria: Concepto de variable aleatoria. Función de distribución. Funciones de variables aleatorias. (Pags 17-28) Tema 3. Caracterı́sticas de una variable aleatoria: Valor esperado de una variable aleatoria. Momentos. Varianza y coeficientes de forma. Desigualdad de Chebishev. (Pags 29-34) Tema 4. Modelos de probabilidad: Modelos discretos (ensayos de Bernouilli, distribuciones binomial, geométrica, binomial negativa, hipergeométrica y Poisson). Modelos continuos (distribuciones uniforme, exponencial, Weibull, normal y gamma). El proceso de Poisson. (Pags 35-53) Tema 5. Variable aleatoria multidimensional: Distribuciones conjuntas. Independencia de variables aleatorias. Teoremas lı́mite. (Pags 54-71) 1 Bibliografı́a • Ası́n, J. et al. Probabilidad y Estadı́stica en Ingenierı́a: ejercicios resueltos. Prensas Universitarias de Zaragoza. • Canavos, G.C. Probabilidad y Estadı́stica. Aplicaciones y Métodos. McGraw Hill. • León Garcı́a. A. Probability and Random Processes for Electrical Engineering. Addison-Wesley. • Levine, D.M., Ramsey, P.P y Smidt, R.K. (2001). Applied Statistics for Engineers and Scientist. Using Microsoft EXCEL and MINITAB. Prentice Hall. • Terrien, C.W. y Tummala, M. (2004). Probability for Electrical and Computer Engineers. CRC Press • Papoulis, A. Probabilidad, Variables Aleatorias y Procesos Estocásticos. UNIBAR. 2 • Papoulis, A. Probability, Random Variables and Stochastic Processes. • Peña, D. Estadı́stica Modelos y Métodos, Vol 1. Alianza Universidad • Ross, S.M. (2003). Introduction to Probability Models (8th edition). Academic Press. • Ross, S.M. (2002). A First Course in Probability (6th edition). Prentice Hall. • Walpole, Myers, Myers, Ye (2002). Probability and Statistics for Engineers and Scientists (7th edition). Prentice Hall. • Yates, R.D. y Goodman, D.J. (2005). Probability and Stochastic Processes. A Friendly Introduction for Electrical and Computer Engineers. 2nd edition. Wiley 3 §TEMA 1: ELEMENTOS BÁSICOS DE PROBABILIDAD Relación de eclipses totales de sol hasta el año 2020: 11 de julio de 2010, 13 de noviembre de 2013 y 20 de marzo de 2015� , 9 de marzo de 2016, 21 de agosto de 2017, 2 de julio de 2019, 14 de diciembre de 2020. Los fenómenos que observamos se pueden clasificar en • deterministas • aleatorios Un fenómeno determinista es aquel cuya ocurrencia y resultado se conoce con antelación. En contraposición, son aleatorios aquéllos cuyo resultado no se conoce con total seguridad hasta después de que han tenido lugar. Ejemplos de fenómenos aleatorios: número de llamadas recibidas en una central telefónica en un dı́a, volumen de lluvia caida en una ciudad en un año, valor de una señal distorsionada por un ruido, la cotización que tendrá mañana un activo financiero . . . En todos los ejemplos anteriores no se dispone de una fórmula matemática explı́cita que nos proporcione por adelantado su valor. La evaluación de fenómenos aleatorios se realiza mediante probabilidades. 4 En la práctica, incluso en los experimentos controlados, es frecuente encontrar una componente aleatoria asociada a cualquier experimento debido al efecto de variables que no controlamos (ruido). Un objetivo de interés la construcción de modelos que incluyan tal variabilidad para que las conclusiones de nuestros análisis no queden invalidadas. Al igual que en otras áreas de la Ingenierı́a, los modelos aleatorios van a constituir aproximaciones a sistemas fı́sicos reales, si bien se contempla la posibilidad de variaciones en las salidas del sistema aunque no se haya producido cambio de las variables bajo control. Ejemplo: si en el diseño de un sistema de telefonı́a no se tiene en cuenta que las llamadas se reciben de forma aleatoria ası́ como la variabilidad de su duración, el sistema resultará inadecuado para su uso práctico. Un experimento que proporciona diferentes resultados aún cuando se realiza en idénticas condiciones, se llama experimento aleatorio. Por ejemplo, si medimos la corriente en un cable de cobre, según la ley de Ohm se tiene voltaje resistencia Sin embargo, un modelo más realista podrı́a ser corriente = corriente = voltaje + error resistencia 5 Espacio muestral y sucesos El conjunto de todos los posibles resultados del experimento aleatorio se llama espacio muestral y lo denotaremos por Ω. Algunos ejemplos son: i) Lanzamiento de un dado. Ω = {1, 2, 3, 4, 5, 6} ii) Si se controla el número de defectos en las piezas procedentes de una producción industrial, por ejemplo ruedas para vehı́culos, los posibles resultados son todos los números naturales incluido el cero. iii) Radiación emitida por una antena de telefonı́a móvil Ω = (0, ∞) Los espacios muestrales pueden ser finitos o no, ası́ como discretos o continuos. Cualquier subconjunto del espacio muestral, E, se denomina suceso. En el ejemplo i), ‘sale par’ se corresponde con E = {2, 4, 6} mientras que en el ejemplo iii), el suceso ‘la radiación es superior a 450 microvatios por cm2 ’ equivale a F = (450, ∞). 6 Operaciones y álgebra de sucesos Sean E y F dos sucesos cualesquiera en Ω. Se definen las siguientes operaciones: - Unión de E y F , denotada E ∪ F , es el conjunto formado por los elementos que están en E en F o en ambos a la vez. - Intersección de E y F , E ∩ F , es el conjunto formado por los resultados del experimento que están en E y en F . De la unión de dos sucesos se puede obtener la totalidad del espacio muestral, también llamado suceso seguro. Por ejemplo, E = ‘sale par’y F = ‘sale impar’. Por el contrario, la intersección de los sucesos anteriores no tiene elementos comunes dando lugar al conjunto vacio o suceso imposible. En este último caso E y F se dicen excluyentes o incompatibles. Para cualquier suceso E se define el complementario de E, denotado E c , el cual está formado por todos los posibles resultados del experimento aleatorio que no están en E. Por tanto se tiene que E c ocurre si y sólo si E no tiene lugar, es decir, ambos son excluyentes. 7 Las operaciones anteriores se pueden extender a n sucesos: A1, A2, . . . , An • A1 ∪ A2 ∪ . . . ∪ An • A1 ∩ A2 ∩ . . . ∩ An A1, A2, . . . , An se dicen mutuamente excluyentes si Ai ∩ Aj = ∅ i �= j Sean A, B y C tres sucesos de Ω. siguientes propiedades Se verifican las A ∪ ∅ = A, A ∩ ∅ = ∅, A∪A=A∩A=A A ∪ Ω = Ω, A ∩ Ω = A, A ∪ Ac = Ω • ∅c = Ω, A ∩ Ac = ∅ Ωc = ∅ • (A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C) • A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) • A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) • (A ∪ B)c = Ac ∩ B c , (A ∩ B)c = Ac ∪ B c 8 Ejemplo: Lanzamiento de un dado Ω = {1, 2, 3, 4, 5, 6} E1 = Salir múltiplo de 3 = {3, 6} E2 = Salir par = {2, 4, 6} E3 = Salir 6 = {6} E4 = Salir impar = {1, 3, 5} E1 ∩ E2 = {6}, E1 ∪ E2 = {2, 3, 4, 6}, E1c = {1, 2, 4, 5} E3 ⊂ E2 , E3 ⊂ E1 , E 4 ∩ E2 = ∅ Interpretaciones de la probabilidad 1.- En experimentos que pueden ser repetidos en las mismas condiciones, la probabilidad se interpreta como el lı́mite de la frecuencia relativa a medida que crece el número de experimentos. Por ejemplo, el número de caras en infinitos lanzamientos de moneda se aproxima a 12 o la estimación del número de piezas defectuosas en una producción es del 1%. 2.- En experimentos que no son susceptibles de ser repetidos una y otra vez, la probabilidad viene a significar una medida de certidumbre. Ası́ por ejemplo puedo apostar 10 a 1 a que el caballo A ganará al B en una carrera, significando que veo 10 veces más posible el éxito del caballo A. 9 Representación gráfica de la interpretación frecuentista de la probabilidad Simulación de 235 lanzamientos de una moneda legal. El valor 1 está asociado a la ocurrencia de cara. 01011011111010100100110100101000101001110110000 00010010001001001110010001000000000101000010111 11010101010111111100010111011010101000100011001 01001001111010000001101011110101011101101011011 01010101011001110101100111110001111010110001000 0,8 Frecuencia relativa 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 100 200 Número de intento Se constata cómo limn→∞ número nde caras → 1 2 10 Espacio muestral con resultados igualmente verosı́miles Si el espacio muestral consta de N resultados posibles, un modelo razonable es asignar a cada uno de ellos una probabilidad N1 . Un espacio muestral como este está ligado a situaciones de elección ‘al azar’ , sin sesgos. Si el suceso que se analiza está constituido por varios resultados de Ω, la probabilidad vendrá dada por la suma de las probabilidades de cada uno de ellos. Axiomas de la probabilidad Para modelar un experimento aleatorio, se construye una función P que a cada suceso, A, le asigna un valor numérico P (A). Los siguientes axiomas aseguran que tal función puede ser interpretada en términos de frecuencias relativas y de modo que sea consistente con las relaciones que estas verifican. La probabilidad es un número asociado a cada suceso E del espacio muestral Ω que verifica las siguientes propiedades: 1.- 0 ≤ P (E) ≤ 1 2.- P (Ω) = 1 3.- Si {Ei }∞ � j entonces i=1 verifican Ei ∩ Ej = ∅, i = �∞ � ∞ � � P Ei = P (Ei ) i=1 i=1 11 Las principales consecuencias de los axiomas de probabilidad son • P ( ∅) = 0 • P (E c ) = 1 − P (E) • Si E1 ⊆ E2 , entonces P (E1 ) ≤ P (E2) • Sean E1, E2�, . . . , En� tales que Ei ∩ Ej = ∅ i �= j, � entonces P ∪ni=1Ei = ni=1 P (Ei) • P (Ei ∪ Ej ) = P (Ei) + P (Ej ) − P (Ei ∩ Ej ) Asimismo se tiene la siguiente fórmula que generaliza la unión de n sucesos: P (∪ni=1 Ei) = − + n � i=1 � i<j P (Ei) − P (Ei ∩ Ej ) + � i<j<k P (Ei ∩ Ej ∩ Ek ) + . . . + + . . . + (−1) n � i1 <i2 <...<in−1 P (Ei1 ∩ . . . ∩ Ein−1 ) + (−1)n+1 P (E1 ∩ E2 ∩ . . . ∩ En) 12 Probabilidad Condicional En ocasiones la probabilidad asignada a un suceso en unas condiciones experimentales dadas, debe ser revisada al conocerse cierta información adicional que puede afectar al resultado de aquél. La probabilidad de un suceso, cuando se conoce que otro ha tenido lugar, se denomina probabilidad condicional. Ejemplo En sistema de comunicación la tasa de error es de un bit por cada mil transmitidos. Los errores se producen raramente pero cuando ocurren tienden a hacerlo de modo que afectan a varios bits consecutivos. Si se transmite sólo un bit, será erróneo con probabilidad 1/1000; sin embargo, si el bit anterior era erróneo, podrı́amos pensar en que el siguiente lo será también con probabilidad mayor que 1/1000. Ejemplo Supongamos que en un lote de 100 unidades de un determinado producto hay 2 que no cumplen las especificaciones, resultando, por consiguiente, defectuosas. Si se eligen dos unidades al azar, ¿cuál es la probabilidad de que la segunda sea defectuosa, siendo que la primera no lo era?, ¿cómo se modifica la probabilidad anterior si la primera resultó ser defectuosa? Definición 1 La probabilidad condicional de un suceso B dada la ocurrencia de otro, A, tal que P (A) > 0, se denota P (B|A) y viene dada del siguiente modo P (B|A) = P (A ∩ B) P (A) 13 Regla del producto La definición de probabilidad condicional se puede reescribir del siguiente modo. Sean dos sucesos A y B tales que P (A) > 0 y P (B) > 0, entonces se verifica P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A) De manera más general, se tiene n � P Aj = j=1 = P (A1 )P (A2 |A1)P (A3 |A1 ∩ A2 ) . . . P (An|A1 ∩ . . . ∩ An−1 ) Regla de la probabilidad total �∞ Sean {Ai}∞ tales que A ∩ A = ∅ , i = � j, i j i=1 i=1 Ai = Ω (sistema completo de sucesos) y P (Ai ) > 0, para todo i. Sea B otro suceso, entonces P (B) = ∞ � P (B|Ai)P (Ai) i=1 La regla de la probabilidad total constituye un método de cálculo de probabilidades de un suceso que depende de otros. 14 Regla de Bayes En ocasiones, conocemos cuál es la probabilidad de un suceso condicionado a la ocurrencia de otro, sin embargo desearı́amos saber la probabilidad condicionada a la inversa. Ası́ ocurre, por ejemplo, en las pruebas que se realizan en el diagnóstico de algunas enfermedades. En general, se suele conocer cuál es la probabilidad de error en el sentido de que la prueba de un resultado positivo siendo que la persona está sana; esta situación se denomina falso positivo. En este caso nos interesa conocer la probabilidad de que la persona padezca la enfermedad cuando la prueba da un resultado positivo. �∞ Sean {Ai}∞ tales que A ∩ A = ∅ , i = � j, i j i=1 i=1 Ai = Ω (sistema completo de sucesos) y P (Ai ) > 0, para todo i. Sea B otro suceso, entonces P (B|Ai)P (Ai) P (Ai|B) = �∞ j=1 P (B|Aj )P (Aj ) Independencia de sucesos En algunos casos, la probabilidad de un suceso B no depende de la ocurrencia, o no, de otro A. En estas situaciones, el conocimiento de que A ha tenido lugar, no afecta a la probabilidad de que el experimento aleatorio de B como resultado. 15 Dos sucesos A y B son independientes si y sólo si se verifica cualquiera de las siguientes condiciones • P (A ∩ B) = P (A)P (B) • P (B|A) = P (B) si P (A) > 0 • P (A|B) = P (A) si P (B) > 0 Teorema 1 Si A y B son dos sucesos independientes, entonces se tiene: • A y B c son independientes • Ac y B son independientes • Ac y B c son independientes Sucesos mutuamente independientes La anterior definición de independencia se refiere a parejas de sucesos. Si tenemos la independencia entre A y B, B y C ası́ como la de A y C, no se infiere que P (A ∩ B ∩ C) = P (A)P (B)P (C). Los sucesos (Ai)ni=1 se dicen mutuamente independientes cuando para cualquier subconjunto se verifica P �� Aij �k j=1 = k � j=1 P (Aij ), ∀1 ≤ i1 < i2 . . . ik ≤ n, 2 ≤ k ≤ n 16 §TEMA 2: VARIABLE ALEATORIA Ejemplo: Transmisión de un mensaje con n dı́gitos con posibilidad de error. Se emite un mensaje al azar, nos interesa saber: • número de dı́gitos enviados correctamente • tiempo empleado en la transmisión del mensaje Supongamos ahora la siguiente codificación: Anotamos un 1 por cada dı́gito bien emitido y 0 en caso contrario. Cada mensaje emitido es el resultado de un experimento aleatorio al cual se le asignan dos valores numéricos que responden a las preguntas anteriores: el número de unos y el tiempo que haya durado su emisión. Puesto que el resultado particular del experimento, el mensaje, no se conoce por adelantado, ocurre lo mismo con los resultados numéricos asociados, pudiéndose obtener resultados distintos cada vez que emitamos un nuevo mensaje. Definición 2 Una variable aleatoria, X, es una función medible que asigna un número real a cada posible resultado del espacio muestral en un experimento aleatorio X : Ω −→ RX 17 RX , denominado rango, recorrido o soporte es el conjunto de todos los posibles valores de X, siendo RX un subconjunto de los reales. Importante: a cada ω en Ω, X le asigna un único valor. Ejemplo: Se lanza una pareja de dados, obteniéndose premio si la suma de las puntuaciones de sus caras es 3. Ω = {(x1 , x2 ); x1 = 1, 2, . . . , 6; x2 = 1, 2, . . . , 6} RX = {2, 3, . . . , 12} La probabilidad de obtener premio es P (X = 3) = P ((1, 2) ∪ (2, 1)) = 1 1 1 = P ((1, 2)) + P ((2, 1)) = + = 36 36 18 En general, para cualquier B ⊂ RX , se tiene P (B) = P ({s ∈ Ω|X(s) ∈ B}) Para evaluar probabilidades podemos utilizar la función de distribución Definición 3 La función de distribución, FX (x), de una variable aleatoria X se define: FX (x) = P (X ≤ x), −∞ < x < ∞ Dado que FX (x) es una probabilidad, para cualquier x se debe tener 0 ≤ FX (x) ≤ 1. Además, FX (x) es no decreciente en x. 18 Dependiendo de su rango las variables aleatorias se clasifican en • discretas: si RX es finito o infinito numerable • continuas: si RX es un intervalo finito o infinito Ejemplos de variables discretas: número de bits recibidos con error en una transmisión, número de arañazos en una superficie, número de unidades defectuosas en un lote, . . . Ejemplos de variables continuas: corriente eléctrica que atraviesa un cable, radiación emitida por una antena de telefonı́a móvil, valor de una señal que se ve afectada por la presencia de un ruido, . . . Variable discreta Sea X : Ω −→ RX una variable discreta, RX = {x1 , x2, . . .} La función de probabilidad es una descripción de las probabilidades asociadas a los posibles valores de X: � p(xi) = P (X = xi) = P (s), i = 1, 2 . . . {s∈Ω:X(s)=xi } 19 Definición 4 Una función de probabilidad debe satisfacer las siguientes propiedades a) p(xi) ≥ 0, para todo i � b) xi ∈RX p(xi ) = 1 Si X toma sólo un número finito de valores, por ejemplo, x1 , x2 , . . . , xN , entonces p(xi ) = 0 para i > N , convirtiéndose el sumatorio anterior en una suma finita. Conocida la función de probabilidad de masa, se pueden calcular probabilidades de sucesos definidos mediante la variable X. Sea A ∈ RX , entonces � P (X ∈ A) = p(xi ) i:xi ∈A∩RX Para una variable aleatoria discreta el valor de la función de distribución en x se obtiene sumando las probabilidades de todos aquellos xi ∈ RX tales que xi ≤ x, es decir, � FX (x) = p(xi) xi ≤x Ejemplo: Supongamos que X es una variable aleatoria discreta con la siguiente función de probabilidad 1, P (X = 1) = 0.2 X = 2, P (X = 2) = 0.4 4, P (X = 4) = 0.4 20 La función de distribución asociada es 0, si x < 1 0.2, si 1 ≤ x < 2 FX (x) = 0.6, si 2 ≤ x < 4 1, si x ≥ 4 FX (x) es discontinua en los puntos x = 1, 2, 4, en los cuales da ‘saltos’ cuyas magnitudes respectivas son P (X = 1) = 0.2, P (X = 2) = 0.4, P (X = 4) = 0.4 La función de distribución de cualquier variable aleatoria discreta, X, verifica las siguientes propiedades: i) FX (x) es no-decreciente, es decir, FX (x) ≤ FX (y) para todo x ≤ y ii) limx→−∞ FX (x) = 0, limx→∞ FX (x) = 1 iii) FX (x) es continua por la derecha, es decir, lim FX (x + h) = FX (x), para todo x h→0 � � −� Denotaremos por FX y FX x los lı́mites de FX (h) cuando h converge a x por la derecha y por la izquierda repectivamente. En el ejemplo anterior se advierte que x+ � P (X = 1) = FX (1) − FX (1− ) = 0.2 P (X = 2) = FX (2) − FX (2− ) = 0.4 P (X = 4) = FX (4) − FX (4− ) = 0.4 21 Para una variable aleatoria discreta, X, las probabilidades de cualquier valor x se obtienen P (X = x) = FX (x) − FX (x− ) Asimismo, se tiene que para cualesquiera a y b reales tales que a < b se verifica P (a < X ≤ b) = FX (b) − FX (a) Variable continua Las variables continuas se caracterizan por tomar un número infinito no numerable de valores. Supongamos una rueda de la fortuna a la que se hace girar hasta que se para en un punto señalado por la punta de la flecha. Si la rueda no está trucada todos los puntos tienen la misma probabilidad de ser elegidos, en consecuencia, esta probabilidad no puede ser diferente de cero. En este caso no podemos hablar del i-ésimo valor de la variable y por tanto la función de probabilidad pierde su significado. En el caso de variables continuas, sustituimos p(x) por una función, f (x), definida para todo x de acuerdo a la siguiente definición: Definición 5 Se dice que X es una variable aleatoria continua si existe una función f (x), denominada función de densidad, que verifica las siguientes condiciones: i) f (x) ≥ 0, para todo x ii) �∞ −∞ f (x)dx = 1 22 f(x) C D La definición anterior significa que X es una variable continua si puede tomar todos los valores dentro de un intervalo (c, d), donde c y d pueden ser −∞ e ∞, respectivamente. La existencia de una función de densidad es un artificio para simplificar los cálculos que involucran a una variable aleatoria continua. �d P (c < X < d) = c f (x)dx y por tanto P (c < X < d) representa el área bajo la curva f (x) entre c y d. 23 Notas: Si X sólo toma valores en un intervalo finito [a, b], se establece que f (x) = 0 para todo x que no pertenezca a [a, b]. f (x) no es una probabilidad. Sólo cuando la función se integra entre dos lı́mites genera una probabilidad. Sin embargo, se puede dar la siguiente interpretación: � x+∆x P (x ≤ X ≤ x + ∆x) = f (s)ds = ∆xf (ξ) x siendo x ≤ ξ ≤ x + ∆x Por tanto, si ∆x es suficientemente pequeño f (x)∆x � P (x ≤ X ≤ x + ∆x) Definición 6 La función de distribución de una variable aleatoria continua con función de densidad f se define como � x FX (x) = f (u)du −∞ La función de distribución de una variable aleatoria continua es continua para todo x. Por tanto: P (X = x) = FX (x) − FX (x− ) = 0 y en consecuencia P (X ≤ x) = P (X < x) 24 Además se tiene el siguiente resultado: Sea FX (x) la función de distribución de una variable aleatoria con función de densidad f (x), entonces se tiene dFX (x) dx para todo x en el cual F es diferenciable f (x) = En cuanto al cálculo de probabilidades: P (X < a) = P (X ≤ a) = F (a) = � a f (x)dx −∞ � ∞ P (X > b) = P (X ≥ b) = 1 − F (b) = f (x)dx b � b P (a < X < b) = P (a ≤ X ≤ b) = f (x)dx a Distribución de la función de una variable aleatoria Supongamos que X es una señal aleatoria cuya función de densidad es f (x) y sea la función Y = h(X) = aX. Si a > 1, Y representa una versión amplificada de X, o atenuada en el caso a < 1. Y es, a su vez, una variable aleatoria y para cualquier suceso asociado con el recorrido de Y se tiene P (Y ∈ C) = P (h(X) ∈ C) = P (X ∈ h−1(C)) Si X es una variable discreta, Y es también discreta. 25 Ejemplo −1, P (X = −1) = X = 0, P (X = 0) = 12 1, P (X = 1) = 1 6 1 3 Sea Y = X 2 � 1, P (Y = 1) = P (X = −1) + P (X = 1) = Y = 0, P (Y = 0) = P (X = 0) = 12 1 2 Si X es una variable continua, Y puede ser discreta o continua. Ejemplo Supongamos que X es una variable aleatoria continua cuyo recorrido es toda la recta real. La variable Y = X 2 es también continua. Sin embargo, en el caso � 1, X > 0 Y = −1, X < 0 se tiene que Y es una variable aleatoria discreta. La situación de mayor interés y que se encuentra con más frecuencia, aparece cuando X es una variable aleatoria continua con función de densidad f (x) e Y =h(X) es asimismo una variable aleatoria con función de densidad g. Si tal es el caso, se distinguen las dos situaciones siguientes: 26 • h(x) es una función inyectiva: x1 �= x2 ⇒ h(x1 ) �= h(x2) • h(x) no es inyectiva: existen x1 , . . . , xk tales que h(x1) = . . . = h(xk ) = y Resultado 1: Sea X una variable aleatoria continua cuya función de densidad es f (x) con f (x) > 0 para a < x < b. Supóngase que la función y = h(x) es inyectiva y derivable para todo x. La variable aleatoria Y = h(X) tiene una función de densidad g(y) dada por � −1 � � � dh (y) −1 � � g(y) = f (h (y)) � dy � Si h es creciente el soporte de Y está dado por los valores h(a) < y < h(b). Por el contrario, si h es decreciente, el soporte de Y viene dado por h(b) < y < h(a). Resultado 2: Sea X una variable aleatoria continua cuya función de densidad es f (x) con f (x) > 0 para a < x < b. Supóngase que la función y = h(x) es derivable para todo x y tal que existen x1 , . . . , xk tales que h(x1 ) = . . . = h(xk ) = y. La variable aleatoria Y = h(X) tiene una función de densidad g(y) dada por � � k � � dxi(y) � � g(y) = f (xi(y)) �� � dy i=1 27 §TEMA 3: CARACTERÍSTICAS DE LAS V. ALEATORIAS Valor esperado de una variable aleatoria Uno de los conceptos más importantes en teorı́a de la probabilidad es el de valor esperado o esperanza matemática de una variable aleatoria X, denotado E(X). Si X es una v. a. discreta con valores posibles x1, . . . , xn . . . cuyas probabilidades son p(xi) = P (X = xi), se tiene E(X) = definida siempre que �∞ ∞ � xip(xi) i=1 i=1 |xi |p(xi ) <∞ es decir, la esperanza representa una media ponderada de todos los posibles valores que X puede tomar, ponderando cada valor por la probabilidad de su ocurrencia. Supongamos que X es una variable aleatoria continua con función de densidad f (x). Cuando dx es pequeño, se verifica f (x)dx ≈ P (x < X < x + dx) de donde se sigue que una media ponderada de todos los posibles valores de X, siendo el peso la probabilidad de que X esté cerca de x, es justamente la integral de xf (x)dx a lo largo de todos los posibles valores x. Ası́, se define � ∞ E(X) = xf (x)dx −∞ 28 E(X) existe siempre que Notas: �∞ −∞ |x|f (x)dx < ∞ • El concepto de esperanza es análogo al concepto fı́sico de centro de gravedad de una distribución de masas. • E(X) y X vienen dadas en las mismas unidades. Propiedades de la esperanza • Esperanza de la función de una v.a Y = h(X) Si X es discreta con función de masa p(x) � E(Y ) = h(x)p(x) x Si X es continua con función de densidad f (x) � ∞ E(Y ) = h(x)f (x)dx −∞ • Esperanza de una transformación lineal Y = aX + b E(aX + b) = aE[X] + b 29 La información que E(X) proporciona acerca de X es muy limitada. Por ejemplo si E(X) = 0 puede ser que X = 0 o bien que X tome con igual probabilidad valores de signo opuesto. La variación de X en torno a su media la proporciona la varianza. Varianza de una variable aleatoria Sea X una variable aleatoria con media E(X) = µ, la varianza de X denotada V ar(X) se define como σ 2 = V ar(X) = E(X − µ)2 = E(X 2 ) − (µ)2 Propiedades de la varianza Sea c una constante, entonces se tiene • V ar(c) = 0 • V ar(X + c) = V ar(X) • V ar(cX) = c2 V ar(X) | La varianza y su raı́z cuadrada σ = (V ar(X)) 2 , denominada desviación tı́pica, constituyen medidas de dispersión de X. La desviación tı́pica viene expresada en las mismas unidades de X, mientras que la varianza está en las unidades de X al cuadrado. 30 Una medida que compara la dispersión relativa de dos distribuciones de probabilidad es el coeficiente de variación σ CV = µ Momentos de una v.a. Los momentos de una v.a. son una colección de medidas descriptivas que pueden emplearse para caracterizar su distribución. Su uso particularmente útil en el caso de que no se conozca la distribución de probabilidad. Definición 7 Sea X una variable aleatoria. El momento de orden r respecto del origen se define como E(X r ) y viene dado por � r E(X ) = xr p(x), si X es discreta E(X r ) = �x ∞ xr f (x)dx, si X es continua −∞ Definición 8 Sea X una variable aleatoria. El momento de orden r respecto de la media se define como E((X − µ)r ) y viene dado por � r E(X − µ) = (x − µ)r p(x), si X es discreta E(X − µ)r = �x ∞ −∞ (x − µ)r f (x)dx, si X es continua Todas las definiciones anteriores están sujetas a la existencia de las correspondientes sumas o integrales. 31 La esperanza es el momento de orden uno respecto del origen, mientras que la varianza es el momento de orden dos respecto de la media. Para la descripción de una v.a. son útiles asimismo los coeficientes de asimetrı́a (CAs) y de apuntamiento o curtosis (CAp) E(X − µ)3 E(X − µ)4 CAs = CAp = σ3 σ4 CAs mide el grado de asimetrı́a respecto de la media, mientras que CAp es una medida de cuán puntiaguda es la distribución de probabilidad. Otras medidas de centralización Otras medidas de interés en la caracterización de una v.a. son los percentiles, xp , que dividen a la distribución de X en 100 partes iguales. Si X es una variable aleatoria continua, se tiene P (X ≤ xp ) = p Por ejemplo x0.1 verifica que P (X ≤ x0.1 ) = 0.1. Caso particular, los cuartiles: x0.25 , x0.5 , x0.75 . El percentil del 50%, x0.5 o segundo cuartil, también se denomina mediana y divide a la distribución en dos partes iguales. Definición 9 Para cualquier variable aleatoria X se define la moda como el valor que maximiza la función de probabilidad si X es discreta, o la función de densidad, si X es continua. 32 Si conocemos la función de probabilidad o la de densidad de una variable aleatoria X, podemos calcular E(X) y V ar(X). Sin embargo, a partir de la media y la varianza no podemos reconstruir la distribución de probabilidad de X. Si bien no se pueden evaluar probabilidades de manera exacta, sı́ que es posible dar una cota superior o inferior para tales probabilidades mediante la llamada desigualdad de Chebyshev: Si X es una v.a. cuya media y varianza son, respectivamente µ y σ 2, para cualquier valor k > 0 se verifica: P (|X − µ| < kσ) ≥ 1 − P (|X − µ| ≥ kσ) ≤ 1 k2 1 k2 De la desigualdad de Chebyshev se infiere que cuanto mayores son las desviaciones respecto de la media, son tanto más improbables. Por otra parte, cuanto menor sea la varianza, más concentrados tienden a estar sus valores en torno a la media. Lo más notable del resultado anterior, es que no hacemos ninguna suposición respecto a la distribución de probabilidades de la v.a., basta sólo que su media y su varianza sean conocidas. 33 Expresiones aproximadas de la media y de la varianza Según se ha indicado, para evaluar E(Y ) y V ar(Y ) donde Y = h(X), no necesitamos conocer la distribución de probabilidades de Y , sino que podemos trabajar directamente con la distribución de probabilidades de X. Si la función h(X) es muy complicada, el cálculo de de la media y varianza de Y puede involucrar integraciones o sumas muy complejas. Por este motivo, las siguientes aproximaciones puede ser de utilidad. Resultado: Sea X una v.a. con E(X) = µ y V ar(X) = σ 2 . Supongamos que Y = h(X), en tal caso se tiene: h�� (µ) 2 E(Y ) � h(µ) + σ 2 � �2 V ar(Y ) � h� (µ) σ 2 A fin de hacer útiles las aproximaciones anteriores, necesitamos que h sea diferenciable dos veces para H = µ. 34 §TEMA 4: MODELOS DE PROBABILIDAD Modelos de probabilidad discretos: Distribución uniforme sobre n puntos Una variable aleatoria X cuyo soporte está dado por {x1, x2 , . . . , xn }, se dice con distribución uniforme si su función de probabilidad está dada por: �1 , X = xi p(X = xi) = n 0, en otro caso Su función de distribución: 0, x < min{x1, x2, . . . , xn} = x(1) FX (x) = ni , x(i) ≤ x < x(i+1) 1, x ≥ max{x , x , . . . , x } = x n 1 2 (n) Su valor medio: E(X) = n � i=i 1 xi = n �n i=i xi n =X 35 Ensayos de Bernoulli Estan asociados con cualquier fenómeno aleatorio que se manifieste como una dicotomı́a: ‘éxito’o ‘fracaso’de un experimento, pieza defectuosa o no defectuosa, nivel de renta ≤ 10.000 ó > 10.000 euros , nivel de radiación de antenas de telefonı́a móvil ≥ 450 microvatios o inferior. X es una variable de Bernoulli si � X = 1, P (X = 1) = p X = 0, P (X = 0) = 1 − p = q E(X) = p, V ar(X) = p(1 − p) La distribución binomial está asociada a una repetición de varios ensayos de Bernoulli independientes y donde la probabilidad p permanece constante en todos ellos. Por ejemplo, denotemos por p a la probabilidad de producir una pieza defectuosa y supongamos que se producen n piezas de manera independiente. El estado de la pieza i se describe mediante Xi: � Xi = 1, si la pieza i es defectuosa Xi = 0, si es no defectuosa El número de piezas defectuosas �n en una muestra de n piezas viene dado por X = i=1 Xi , X se dice con distribución binomial con parámetros n y p. 36 La función de probabilidad de X con distribución B(n, p), está dada por � � n P (X = k) = pk (1 − p)n−k , X = 0, 1, 2, . . . , n k E(X) = np, V ar(X) = np(1 − p). E(X) representa la frecuencia esperada de ‘éxitos’en n repeticiones independientes de un experimento. Está asociada a • Muestreo con reposición en poblaciones finitas • Muestreo con o sin reposición en poblaciones infinitas Propiedad: Sean Xi, i = 1, . . . , n tales que Xi ∼ B(ni, p) independientes, en tal caso se tiene � n � n � � Y = Xi ∼ B ni, p i=1 i=1 37 Distribución geométrica Está asociada también a ensayos de Bernoulli para representar situaciones de espera. Por ejemplo, sea A el suceso tener seis aciertos en la primitiva una semana cualquiera cuya probabilidad es p. Sea X el número de semanas que debemos esperar hasta que ocurre A, X se dice con distribución geométrica con parámetro p, (G(p)), y su función de probabilidad está dada por E(X) = P (X = k) = (1 − p)k−1 p, 1 p y V ar(X) = k = 1, 2, . . . 1−p p2 Supongamos que llevamos un tiempo jugando sin haber obtenido premio, la probabilidad de que tengamos que esperar, por ejemplo, 5 semanas más para obtener el premio es independiente del tiempo que llevemos jugando. Esta propiedad se denomina ausencia de memoria y su expresión formal viene dada por P (X ≥ s + t|X > s) = P (X ≥ t) para cualesquiera s y t enteros positivos. 38 Distribución binomial negativa Se considera de nuevo un experimento dicotómico, por ejemplo, (éxito/fracaso) y la repetición de ensayos de Bernoulli hasta conseguir r ‘éxitos’. Sea X la v.a. que contabiliza el número de pruebas realizadas hasta lograr los r éxitos. La v.a. X sigue una distribución binomial negativa BN (r, p) y su función de probabilidad viene dada por � � k−1 P (X = k) = pr (1−p)k−r , k = r, r+1, r+2, . . . r−1 r(1−p) p2 E(X) = pr , V ar(X) = La distribución binomial negativa modela fenómenos de espera hasta que un determinado suceso ocurre r veces. En el caso r = 1 se tiene la distribución geométrica. Propiedad: Sean Xi , i = 1, . . . , n tales que Xi ∼ Ge(p) independientes, entonces Y = n � i=1 Xi ∼ BN (n, p) En el caso de que Xi ∼ BN (ni, p) independientes, entonces � n � n � � Y = Xi ∼ BN ni , p i=1 i=1 39 Distribución hipergeométrica Se utiliza para modelar extracciones sin reemplazamiento. Supongamos un almacén conteniendo N piezas de las que r son defectuosas. Si se extrae una muestra de n piezas del almacén, el número de defectuosas en la muestra es una v.a. X hipergeométrica (H(N, n, r)) cuya función de probabilidad es � �� � r N −r k n−k � � P (X = k) = N n E(X) = n Nr Si n N < 0.1, H(N, n, r) → B(n, p), siendo p = r N 40 Distribución de Poisson Con frecuencia existen situaciones en las que la probabilidad de ocurrencia de un suceso es muy pequeña, por ejemplo, el fallo de un componente electrónico, mientras que es muy grande el número de unidades a verificar. El cálculo de probabilidades con la binomial resulta muy costoso, sin embargo con p → 0 y n → ∞, la binomial se puede aproximar a X con distribución de Poisson con parámetro λ = np. Un criterio razonable para la aproximación es p < 0.1 y np > 1. La función de probabilidad de la poisson está dada por k −λ λ P (X = k) = e k! , k = 0, 1, 2, . . . E(X) = V ar(X) = λ Esta distribución se suele denominar como ley de los sucesos raros ya que se utiliza para contar el número de veces que ocurre un suceso cuya probabilidad de ocurrencia es baja. Ası́ ocurre, por ejemplo, con los accidentes de avión, escapes radioactivos, defectos en una superficie, . . . Propiedad: Sean Xi, i = 1, . . . , n tales que Xi ∼ ℘(λi) independientes, entonces � n � n � � Y = Xi ∼ ℘ λi i=1 i=1 41 Modelos de probabilidad continuos: Distribución uniforme continua La distribución uniforme en el intervalo [a, b] corresponde a la variable aleatoria que resulta de elegir un número completamente al azar en tal intervalo. Está asociada a la idea de elección al azar, sin preferencias. � 1 , a≤x≤b f (x) = b−a 0, en otro caso F (x) = E(X) = a+b , 2 0, � x<a = x>b x 1 du a b−a 1, V ar(X) = x−a , b−a a≤x≤b (b−a)2 12 Distribución exponencial Con frecuencia, la distribución exponencial se utiliza para modelar tiempos hasta el fallo de sistemas. Su función de densidad viene dada por � −λx λe , x≥0 f (x) = 0 x<0 � 1 − e−λx , F (x) = 0 x<0 E(X) = 1λ , V ar(X) = x≥0 1 λ2 42 La distribución exponencial sirve para modelar tiempos de espera y es la única distribución continua que presenta la propiedad de ausencia de memoria, esto significa que el tiempo de espera que nos resta no depende del que llevemos esperando. Es decir, para cualesquiera s, t > 0 se verifica P (X > s + t|X > t) = P (X > s) Propiedad: Sean Xi, i = 1, . . . , n tales que Xi ∼ Exp(λ) independientes, entonces Y = n � i=1 Distribución gamma Xi ∼ γ(n, λ) X se dice con distribución gamma, γ(p, a), p > 0 y a > 0, si su función de densidad está dada por � p a −ax xp−1 , e x≥0 f (x) = Γ(p) 0, x < 0 Γ(p) es la función gamma de Euler: � ∞ Γ(p) = e−xxp−1dx, p > 0 0 43 Γ(p) verifica � Γ(p + 1) = pΓ(p) � Γ(n + 1) = n! con n entero positivo � Γ �1� 2 = √ π E(X) = ap , V ar(X) = p a2 Propiedad: Xi ∼ γ(ni, λ) independientes, entonces � n � n � � Y = Xi ∼ γ ni, λ i=1 i=1 44 Distribución normal Constituye la distribución de mayor relevancia en la teorı́a y práctica estadı́sticas, apareciendo asociada a los errores de medida. Está caracterizada por su valor medio, µ, y su desviación tı́pica, σ. Su función de densidad es de la forma � � 1 (x − µ)2 f (x) = √ exp − , −∞ < x < ∞ 2σ 2 2πσ Esta distribución se indica, abreviadamente, N (µ, σ) y es simétrica respecto µ. Por consiguiente, el coeficiente de asimetrı́a es nulo. La función de distribución asociada a la normal estándar, Z = N (0, 1), está tabulada: � s 1 2 φ(s) = √ e−x /2 dx 2π −∞ por lo que el cálculo de probabilidades relativo a una normal no estándar, X = N (µ, σ), se realiza tras hacer el siguiente cambio de escala X −µ σ Por ejemplo: � � � � X −µ a−µ a−µ P (X ≤ a) = P ≤ =P Z≤ σ σ σ La distribución Z = N (0, 1) es simétrica respecto 0 y por tanto P (Z < −a) = P (Z > a) 45 Propiedad: Xi ∼ N (µi , σi), independientes, entonces � � n n n � � �� Y = Xi ∼ N µi , � σi2 i=1 i=1 i=1 La convergencia en distribución significa que la función de distribución correspondiente a (X1 + X2 + . . . + Xn) converge a la de N (µ, σ), a medida que n → ∞. Aproximación de otras variables aleatorias a la normal • Aproximación binomial-normal Si X es B(n, p) con np(1 − p) > 5, entonces � � � X ≈ N µ = np, σ = np(1 − p) • Aproximación Poisson-normal Si X es ℘(λ) y λ es suficientemente grande, entonces � √ � X ≈ N µ = λ, σ = λ 46 Al aproximar una distribución discreta por una continua, es preciso salvar la discrepancia entre ambas debida a el hecho de que los puntos pueden tener probabilidad positiva para la variable discreta y, sin embargo, ésta es nula para las variables continuas. Este inconveniente se resuelve mediante la denominada corrección por continuidad o corrección del medio punto. Si X es una v.a cuya distribución es B(n, p) tal que np(1 − p) > 5: � � a − 0.5 − np b + 0.5 − np P (a ≤ X ≤ b) = P � ≤ N (0, 1) ≤ � np(1 − p) np(1 − p) Si X es una v.a cuya distribución es ℘(λ) con λ > 5: � � a − 0.5 − λ b + 0.5 − λ √ √ P (a ≤ X ≤ b) = P ≤ N (0, 1) ≤ λ λ 47 La función caracterı́stica El cálculo de los momentos de variables aleatorias suele implicar cálculos costosos. La función caracterı́stica simplifica notablemente esas operaciones. Definición 10 Sea X una v.a. continua. La función caracterı́stica, denotada ϕX (ω) se define como � ∞ � jωX � ϕX (ω) = E e = ejωx fX (x)dx con j = √ −∞ −1 Es decir, la función caracterı́stica puede verse como el valor esperado de una función de X, ejωX . ejωX es una variable aleatoria con valores complejos: ejωX = cosωX + jsenωX � � E ejωX = E (cosωX) + jE (senωX) Ejemplo: Sea X v.a. exp(λ). � ∞ jωx −λx � ∞ −(λ−jω)x ϕX (ω) = −∞ e λe dx = λ −∞ e = λ λ−jω Si X es una v.a. discreta, la función caracterı́stica se define como � ϕX (ω) = p(X = x)ejωx x 48 Ejemplo: Sea X v.a. Ge(p). ϕX (ω) = ∞ � e k=1 = jωk (1 − p) pejω 1 − (1 − p)ejω k−1 p = pe jω n � � k=1 (1 − p)ejω �k−1 Propiedades de la función caracterı́stica • La función caracterı́stica siempre está definida. • |ϕX (ω)| ≤ 1 • E(X n) = 1 dn ϕX (ω) |ω=0 j n dω n Ası́, en el ejemplo de la exponencial, se tiene E(X) = 1 dϕX (ω) 1 jλ 1 |ω=0 = | = ω=0 j dω j (λ − jω)2 λ y en el de la geométrica: 1 dϕX (ω) 1 pieiω 1 E(X) = |ω=0 = | = ω=0 j dω j (1 − (1 − p)ejω )2 p 49 = Resumen propiedades reproductivas de variables aleatorias Sean� Xi, i = 1, . . . , n tales que Xi independientes y sea Y = ni=1 Xi • Xi ∼ B(ni , p), entonces, Y ∼ B ��n i=1 ni , p • Xi ∼ Ge(p), entonces, Y ∼ BN (n, p) • Xi ∼ BN (ni, p), entonces Y ∼ BN • Xi ∼ ℘(λi ), entonces Y ∼ ℘ ��n ��n i=1 ni , p i=1 λi • Xi ∼ Exp(λ), entonces Y ∼ γ(n, λ) • Xi ∼ γ(ni, λ), entonces Y ∼ γ( �n • Xi ∼ N (µi, σi), entonces Y ∼ N � � � i=1 ni , λ) �� n i=1 µi , ��n 2 i=1 σi 50 � El proceso de Poisson Se considera una situación en la que los eventos asociados a un experimento aleatorio ocurren con tasa constante λ en el espacio o en el tiempo. Por ejemplo, la ruptura de un componente en un sistema, las llamadas a una centralita telefónica, llegadas de clientes a un servicio . . . ξ(0, t)=‘número de ocurrencias en [0, t] ’ = Nt 1.- ξ(0) = 0. 2.- Si t1 < t2 < t3 < t4 , ξ(t1 , t2 ) y ξ(t3 , t4) son independientes. 3.- ξ(t1 , t2 ) y ξ(t1 +h, t2 +h) tienen idéntica distribución 4.- limh→0 P (ξ(t,t+h)=1) =λ>0 h 5.- limh→0 P (ξ(t,t+h)≥2) =0 h Si se verifican los postulados anteriores, entonces −λt (λt) k P (ξ(0, t) = k) = e , k = 0, 1, 2, . . . k! Es decir, Nt = ξ(0, t) es v.a. de Poisson de parámetro λt. Una colección de variables aleatorias {Nt, t ≥ 0} que satisface las anteriores propiedades, es un proceso de Poisson de tasa λ 51 Las propiedades que caracterizan al proceso de Poisson se resumen considerando un intervalo [0, t] dividido en subintervalos de corta duración δ = nt y los siguientes supuestos 1.- La probabilidad de que tenga lugar más de una ocurrencia en un subintervalo es nula. 2.- El hecho de que en un subintervalo tenga lugar o no un evento es independiente de lo que ocurra en los restantes subintervalos. Relación entre la exponencial y el proceso de Poisson Sea {Nt, t ≥ 0} un proceso de Poisson de tasa λ y denotemos por Xn al tiempo aleatorio entre las ocurrencias n − 1 y n. Xi se denominan tiempos entre llegadas del proceso. Propiedad: X1 , X2 , . . . son v.a. independientes con distribución exponencial de tasa λ. X1 representa el tiempo hasta la primera ocurrencia P (X1 > t) = P (ξ(0, t) = 0) = e−λt y por tanto X1 es exponencial de parámetro λ. 52 Asimismo se tiene que para s, t > 0 P (X2 > t|X1 = s) = P (ξ(s, s+t) = 0) = e−λt = P (X2 > t) se advierte que X2 es independiente de X1 y que tiene tambien distribución exponencial de parámetro λ. Reiterando el argumento, se tiene el resultado. Consecuencia: Las propiedades reproductivas de la exponencial implican que el tiempo que transcurre hasta que se producen n ocurrencias, Tn = X1 + . . . + Xn, tiene distribución γ(n, λ). Dada la relación entre la v.a. gamma y el proceso de Poisson se concluye que, si el tiempo transcurrido hasta que se producen n eventos es inferior a t unidades de tiempo, de modo equivalente en esas t unidades de tiempo se habrán producido, como mı́nimo, n eventos, es decir: ∞ � i (λt) P (T ≤ t) = P (γ(n, λ) ≤ t) = P (℘(λt) ≥ n) = e−λt i! i=n Propiedad: Si los tiempos entre ocurrencias de un proceso, X1 , X2, . . ., son v.a. independientes y con distribución exponencial de parámetro λ, entonces se verifica que las ocurrencias tienen lugar de acuerdo a un proceso de Poisson. 53 §TEMA 5: VARIABLES ALEATORIAS N-DIMENSIONALES Con frecuencia, un experimento aleatorio involucra a varias variables aleatorias. Se puede medir, por ejemplo, el voltaje en n puntos diferentes de un circuito, o bien hacer medidas repetidas de una determinada cantidad. Ejemplo: En la recepción de información digital cada bit se clasifica, dependiendo de la calidad de la señal recibida, en aceptable, medio o inaceptable. Las probabilidades de que un bit sea asignado a cada una de las clases son 0.9, 0.08 y 0.02 respectivamente. Supongamos que se emiten 4 bits. Sean X e Y las v.a. que cuentan el número de bits aceptables y medios. X ∼ B(4, 0.9) e Y ∼ B(4, 0.08). Por tanto, X = 0, 1, 2, 3, 4 e Y = 0, 1, 2, 3, 4. Sin embargo, si y = 3, se tiene x = 0 ó x=1 En este tema analizaremos el comportamiento conjunto de dos o más variables aleatorias. En particular nos interesará determinar si un conjunto de variables aleatorias son independientes, ası́ como establecer al grado de relación entre ellas cuando no lo son. Consideremos un sistema de tres componentes en serie cuyos respectivos tiempos son v.a X1 , X2 y X3 . El tiempo hasta el fallo del sistema en su totalidad está dado por min(X1 , X2 , X3 ) P (min(X1 , X2 , X3 ) ≤ a) 54 La función de distribución conjunta de dos variables aleatorias X e Y se define como: FXY (x, y) = P ((X ≤ x) ∩ (Y ≤ y)) = P (X ≤ x, Y ≤ y) 55 Propiedades de la función de distribución conjunta 1.- 0 ≤ FXY (x, y) ≤ 1 2.- FXY (x1 , y1 ) ≤ FXY (x2 , y2 ), x 1 ≤ x2 , y 1 ≤ y 2 3.- P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = FXY (x2 , y2 )+FXY (x1, y1 )− FXY (x1, y2 ) − FXY (x2, y1 ) 4.- FXY (−∞, y) = FXY (x, −∞) = FXY (−∞, −∞) = 0 5.- FXY (∞, ∞) = 1 6.FX (x) = P (X ≤ x) = P (X ≤ x, Y ≤ ∞) = FXY (x, ∞) FY (y) = P (Y ≤ y) = P (X ≤ ∞, Y ≤ y) = FXY (∞, y) Un vector aleatorio (X, Y ) puede ser • discreto si solo toma valores en un conjunto discreto • continuo si presenta un rango continuo de valores • mixto si no es discreto ni continuo 56 Variable aleatoria bidimensional discreta El vector de v.a. (X, Y ) es una variable aleatoria bidimensional dicreta si los posibles valores de (X, Y ) se pueden representar como (xi, yj ), i = 1, 2, . . . , n, . . . ; j = 1, 2, . . . , n, . . . La función de probabilidad conjunta, p(xi, yj ) especi� fica las probabilidades de (X = xi) (Y = yj ) Definición 11 La función de probabilidad conjunta de (X, Y ) satisface las siguientes propiedades 1.- p(xi, yj ) ≥ 0 para todo (xi, yj ) 2.- �∞ �∞ i=1 j=1 p(xi , yj ) =1 La probabilidad de un evento A viene dada por la suma de las probabilidades de todos los pares (xi , yj ) que estén en A: �� P (A) = p(xi, yj ), (xi, yj ) ∈ A i j En el ejemplo de los bits, denotemos por A, M e I los sucesos bit aceptable, medio e inaceptable P (X ≤ 1, Y ≤ 1) = = P (IIII) + P (AIII) + + P (IIIM ) + P (AIIM ) 57 Distribuciones de probabilidad marginales Cuando se tienen definidos vectores aleatorios es importante distinguir entre el comportamiento conjunto de las variables y el que presenta cada una de ellas aisladamente. Las distribuciones individuales de cada variable lo proporcionan las funciones de probabilidad marginales: pX (xi) = P (X = xi) = ∞ � p(xi , yj ) j=1 y similarmente pY (yj ) = P (Y = yj ) = ∞ � p(xi, yj ) i=1 Las distribuciones marginales son v.a. unidimensionales. En general, no es posible deducir la distribución conjunta de X e Y a partir de sus marginales. Funciones de distribución marginales FX (x) = FY (y) = ∞ �� xi ≤x j=1 ∞ �� yj ≤y i=1 p(xi, yj ) = � pX (xi) xi ≤x p(xi , yj ) = � pY (yj ) yj ≤y 58 Variable aleatoria bidimensional continua Un vector aleatorio (X, Y ) es continuo si existe una función fXY (x, y) no negativa denominada función de densidad conjunta tal que � x � y P (X ≤ x, Y ≤ y) = fXY (u, v)dudv −∞ −∞ La función de densidad conjunta se define como ∂2 ∂2 fXY (x, y) = FXY (x, y) = FXY (x, y) ∂x∂y ∂y∂x Propiedades de la función de densidad conjunta 1.- fXY (x, y) ≥ 0 para todo x, y 2.- �∞ �∞ f (u, v)dudv −∞ −∞ XY 3.- FXY (x, y) = 4.- =1 �x �y f (u, v)dudv −∞ −∞ XY FX (x) = FXY (x, ∞) = FY (y) = FXY (∞, y) = � x � ∞ −∞ � −∞ ∞ � y −∞ fXY (u, v)dudv fXY (u, v)dudv −∞ 59 5.- fX (x) = 6.- �∞ f (x, y)dy, −∞ XY fY (y) = P (x1 < X ≤ x2 , y1 < Y ≤ y2) = � x2 x1 �∞ f (x, y)dx −∞ XY � y2 f (x, y)dxdy y1 De la condición 5 se infiere que si (X, Y ) es un vector aleatorio continuo, las marginales X e Y también lo son. Distribuciones condicionadas Con frecuencia, muchos problemas prácticos consisten en analizar cómo es el comportamiento de una v.a. Y condicionada por el hecho de que una segunda variable X toma un valor especı́fico x. Ası́, por ejemplo, supongamos que Y representa el tiempo hasta el fallo de una máquina mientras que X es ritmo de trabajo que realiza. En otro caso, Y puede ser la señal a la salida de un canal de comunicación mientras que X representa la señal a la entrada. En estos casos nos interesa computar probabilidades de sucesos concernientes a la v.a. Y , dado que X = x. Asimismo es relevante la denominada esperanza condicional o valor esperado de Y siendo que X = x, es decir E (Y |X = x). 60 Si (X, Y ) constituyen un vector aleatorio discreto, la función de probabilidad condicionada de Y cuando X = xk está dada por pY |X (y = yj |xk ) = P (Y = yj , X = xk ) P (X = xk ) dado que P (X = xk ) > 0. La función de distribución condicional se define como � FY |X (y|xk ) = pY |X (y = yj |xk ) yj ≤y Si (X, Y ) constituyen un vector aleatorio continuo, la función de densidad condicionada de Y cuando X = x está dada por fY |X (y|x) = fXY (x, y) fX (x) dado que fX (x) > 0. La función de distribución condicional se define como � y FY |X (y|x) = fY |X (v|x)dv verificándose además −∞ fY |X (y|x) = dFY |X (y|x) dy 61 Del mismo modo se definen las funciones de probabilidad o densidad condicionadas de X respecto a Y , siempre que P (Y = yk ) > 0 o fY (y) > 0, dependiendo de que el vector aleatorio sea discreto o continuo. Independencia de variables aleatorias Dos v.a. (X, Y ) son independientes si y sólo sı́ para todo x e y se verifica FXY (x, y) = FX (x)FY (y) Si el vector (X, Y ) es discreto con X e Y independientes, las siguientes afirmaciones son equivalentes pXY (X = xj , Y = yk ) = pX (X = xj )pY (Y = yk ), ∀xj , yk pY |X (Y = yk |X = xj ) = pY (Y = yk ), ∀xj , yk , con P (X = xj ) > 0 pX|Y (X = xj |Y = yk ) = pX (X = xj ), ∀xj , yk , con P (Y = yk ) > 0 Si el vector (X, Y ) es continuo con X e Y independientes, las siguientes afirmaciones son equivalentes fXY (x, y) = fX (x)fY (y), ∀x, y fY |X (y|x) = fY (y), ∀x, y, con fX (x) > 0 fX|Y (x|y) = fX (x), ∀x, y, con fY (y) > 0 62 Funciones de variables aleatorias n dimensionales Consideremos la variable aleatoria bidimensional (X, Y ). (X, Y ) pueden representar, por ejemplo, los tiempos hasta el fallo de las componentes de un sistema. Si las componentes están dispuestas en serie o en paralelo, el tiempo hasta el fallo del sistema vendrá dado, respectivamente por las funciones min(X, Y ) y max(X, Y ). Otras variables que nos pueden interesar son X + Y , X/Y , etc. El problema que nos ocupa ahora es el de encontrar las distribución de funciones de variables aleatorias n dimensionales. Teorema 2 Sea (X, Y ) es una variable aleatoria bidimensional continua cuya función de densidad conjunta es f (x, y). Supongamos que las funciones U = h1 (X, Y ) y V = h2 (X, Y ) satisfacen las siguientes propiedades: a) Las ecuaciones u = h1 (x, y) y v = h2 (x, y) tienen una única solución (x(u, v), y(u, v)). b) Existen las derivadas parciales tinuas. ∂x ∂x ∂y ∂y , , , ∂u ∂v ∂u ∂v Entonces, la función de densidad de (U, V ) por � ∂x ∂x � ∂v g(u, v) = f (x(u, v), y(u, v)) �� ∂u ∂y ∂y ∂u ∂v y son conviene dada � � � � 63 Esperanza y momentos Al igual que en el caso de la v.a. unidimensional, la esperanza y los momentos de las v.a multidimensionales no constituyen una descripción completa de las v.a, sin embargo contienen información relevante respecto aquellas. El valor esperado o esperanza de una función g(x, y) de dos variables aleatorias X e Y , E(g(X, Y )), se define como �� � g(x , y )P (X = xi, Y = yk ), (X, Y ) discreto � ∞i � k∞ i k g(x, y)fXY (x, y)dxdy, (X, Y ) continuo −∞ −∞ En particular se definen E(X p Y q ), E((X −µX )p (Y −µY )q ). El cálculo de esperanzas de funciones de las v.a. marginales se puede realizar por dos vı́as: En el caso discreto �� g(xi)P (X = xi ) E(g(X)) = �i � i k g(xi )P (X = xi , Y = yk ) En el caso continuo �� ∞ g(x)fX (x)dx E(g(X)) = �−∞ ∞ �∞ g(x)fXY (x, y)dxdy −∞ −∞ Para E(g(Y )) se tienen fórmulas simétricas. 64 Esperanza condicional Dado un vector aleatorio (X, Y ) la esperanza condicional de Y dado X = x se define como � ∞ E(Y |x) = yfY |X (y|x)dy, si Y es continua −∞ � E(Y |x) = yj P (Y = yj |X = x), si Y es discreta yj La esperanza condicional E(Y |x) se puede interpretar como una función de x: g(x) = E(Y |x). Se trata, por consiguiente, de una función de una variable aleatoria que es a su vez otra v.a., E(Y |X), y por tanto podemos calcular su esperanza: E(E(Y |X)), verificándose que E(Y ) = E(E(Y |X)) El resultado anterior se puede extender para la esperanza de cualquier función de Y : E(g(Y )) = E(E(g(Y )|X)) 65 Relación entre dos variables aleatorias En el caso de que dos variables aleatorias no sean independientes, nos interesa cuantificar el grado de relación existente entre ellas. La covarianza de dos variables aleatorias X e Y se define como Cov(XY ) = E((X − µX )(Y − µY )) = E(XY ) − E(X)E(Y ) La covarianza depende de las unidades de medida, lo que nos lleva a definir: El coeficiente de correlación ρ= Cov(XY ) σX σY Propiedades del coeficiente de correlación: • ρ mide el grado de relación lineal entre X e Y . • −1 ≤ ρ ≤ 1 • ρ = 1 ó ρ = −1 ⇔ Y = aX + b • ρ es grande (pequeño) indica una fuerte (débil) relación lineal entre X e Y . 66 • Si ρ = 0, X e Y se dicen incorreladas • Si X e Y son independientes, entonces ρ = 0 • Incorrelación no implica independencia • Aunque ρ = 0, X e Y pueden estar vinculadas por una relación de tipo no lineal. 67 Propiedades de la esperanza y de la varianza La media de una suma ponderada de n variables aleatorias, es igual a la suma ponderada de las medias de cada una de ellas: � n � n � � E a i Xi = aiE(Xi) i=1 i=1 En general, la esperanza del producto de variables aleatorias no coincide con el producto de sus esperanzas. Sin embargo, si X1 , X2 , . . . , Xn son variables aleatorias independientes, entonces E (g1 (X1 )g2 (X2 ) . . . g(Xn)) = n � E (g(Xi)) i=1 La varianza de una combinación lineal de dos variables aleatorias V ar (aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(XY ) Si X e Y son dos variables aleatorias incorreladas se tiene: V ar (aX + bY ) = a2 V ar(X) + b2 V ar(Y ) La expresión anterior se puede extender a n variables aleatorias. Sean Xi, i = 1, 2 . . . , n tales que Xi y Xj son incorreladas para cada i �= j, entonces � n � n � � V ar a i Xi = a2i V ar(Xi) i=1 i=1 68 Distribución normal multivariante Dos v.a. X e Y tienen distribución normal bivariante si su función de densidad conjunta está dada por: � � �� 2 2 (X−µX ) (Y −µY ) 2ρ(X−µX )(Y −µY ) 1 − 2(1−ρ2 ) + σ2 − 1 σX σY σ2 X Y � fXY (x, y) = e 2πσX σY 1 − ρ2 con −∞ < x < ∞, −∞ < y < ∞ 2 , σ 2 , ρ son las medias, varianLos parámetros µX , µY , σX Y zas y coeficiente de correlación de X e Y . La distribución normal bivariante verifica las siguientes propiedades: • X e Y son normales N (µX , σX ) y N (µY , σY ) • E(X|Y = y) = µX|Y = µX +ρ σσXY (y − µY ), V ar(X|Y ) = 2 2 (1 − ρ2 ) σX|Y = σX • E(Y |X = x) = µY |X = µY +ρ σσXY (x − µX ), V ar(Y |X) = σY2 |X = σY2 (1 − ρ2 ) • Las distribuciones condicionadas son normales � � � � X|Y ∼ N µX|Y , σX|Y , Y |X ∼ N µY |X , σY |X • X e Y independientes ⇔ X e Y incorreladas 69 Teorema Central del Lı́mite Este es el resultado más importante asociado a la distribución normal ya que explica el motivo por el que muchas variables aleatorias siguen una distribución normal. Por ejemplo, el consumo diario de gas en una ciudad resulta ser la suma de los consumos de todos los usuarios y su distribución es aproximadamente normal. En general, si se tienen X1, X2, . . . , Xn variables aleatorias independientes cuyas medias y varianzas son µi y σi2 se tiene E (X1 + X2 + . . . + Xn) = V ar (X1 + X2 + . . . + Xn) = n � i=1 n � µi σi2 i=1 Si n es suficientemente grande (n > 30), se tiene que �n + X + . . . + X − (X1 n) 2 i=1 µi ��n → N (0, 1) 2 i=1 σi 70 Si X1 , X2 , . . . , Xn son variables aleatorias independientes e idénticamente distribuidas con media µ y varianza σ 2 se tiene ��n � n � � X 1� i=1 i E X = E = µ=µ n n i=1 ��n � n � � X 1 � 2 σ2 i=1 i V ar X = V ar = 2 σ = n n i=1 n Si n es suficientemente grande (n > 30), se tiene que X −µ √ → N (0, 1) σ/ n La convergencias anteriores lo son en distribución. 71