Variables aleatorias conjuntas M. en A. Víctor D. Pinilla Morán Facultad de Ingeniería, UNAM Resumen Variables aleatorias conjuntas discretas; función de probabilidad conjunta: su definición y propiedades. Función de distribución acumulativa: su definición y propiedades. Funciones marginales de probabilidad. Funciones condicionales de probabilidad. Variables aleatorias conjuntas continuas; función de probabilidad conjunta: su definición y propiedades. Función de distribución acumulativa: su definición y propiedades. Funciones marginales de probabilidad. Funciones condicionales de probabilidad. Valor esperado de una función de dos o más variables. La curva de regresión. Variables aleatorias independientes. Covarianza, varianza de una suma de dos o más variables. 5.1 Variables aleatorias conjuntas discretas y continuas: Función de probabilidad conjunta, su definición y propiedades. Funciones marginales de probabilidad. Funciones condicionales de probabilidad. El estudio realizado hasta este momento está restringido a espacios muestrales de una sola dimensión en los que se registran resultados de un experimento como valores asumidos por una única variable aleatoria. Sin embargo habrá situaciones donde sea preferible registrar los resultados simultáneos de varias variables aleatorias. Probabilidad y Estadística Noviembre 2009 Para el caso particular de dos variables aleatorias, éstas se denominan variables aleatorias conjuntas. Definición. Si X y Y son dos variables aleatorias, la distribución de probabilidad de sus ocurrencias simultáneas puede representarse por una función F(x,y) para cualquier par de valores (x,y) dentro del rango de las variables aleatorias; a esto se le denomina distribución de probabilidad conjunta. M.A. Víctor Damián Pinilla Morán. 72 Propiedades caso continuo. a) Fxy ( X , Y ) ≥ 0 b P ( a < x < b, Y = y ) = ∫ ∀X , Y a f ( x, y ) dx h( y ) ∞ ∞ b) ∫ ∫ Fxy ( X , Y )d x d y −∞ −∞ c) P[( X , Y )ΕA] = ∫ A ∫ Fxy ( X , Y )d x d y Propiedades caso discreto. Ejemplo. Se seleccionan al azar 2 repuestos para una pluma de una caja que contiene: 3 repuestos azules 2 repuestos rojos 3 repuestos verdes a ) Pxy ( X , Y ) ≥ 0 b)∑∀x ∑∀y Pxy (X , Y ) = 1 Si X representa el número de repuestos azules seleccionados y Y el de rojos. Determine: la función de probabilidad conjunta. c ) P ( X = x , Y = y ) = P ( x, y ) para cualquier región en el plano A P[( X , Y )ΕA] = ∑ ∑ P( X , Y ) A Probabilidades marginales. Se les llama marginales cuando a partir de una función conjunta se margina a una de las variables aleatorias. Es el equivalente a la probabilidad total de las funciones de una sola variable. y x 0 0 3/28 1 2 9/28 3/28 g ( X ) = ∑ Pxy ( x, y) g(X) = ∫ Pxy ( x, y)dy 1 6/28 6/28 - h(Y ) = ∑ Pxy ( x, y) h(Y ) = ∫ Pxy ( x, y)dx 2 1/28 - - ∀Y ∀X Por otra parte, si se desea encontrar la probabilidad de que la variable aleatoria continua X esté entre a y b cuando se sabe que la variable aleatoria Y=y se obtiene: P( AB) P( B / A) = P( A) P( X = x, Y = y) f ( X , Y ) = P( X = x) g ( x) P( X = x, Y = y) f ( X , Y ) P( X = x / Y = y ) = = P(Y = y) h( y) P(Y = y / X = x) = Probabilidad y Estadística Noviembre 2009 3 C (3,2) = C (8,2) 28 6 C (3,1)C (2,1) = P (0,1) = 28 C (8,2) 1 C (2,2) = P (0,2) = C (8,2) 28 9 C (3,1)C (3,1) = P (1,0) = 28 C (8,2) 6 C (3,1)C (2,1) = P (1,1) = 28 C (8,2) 3 C (3,2) = P (2,0) = C (8,2) 28 P (0,0) = Probabilidad condicional. g(x) > 0 h(y)> 0 M.A. Víctor Damián Pinilla Morán. 73 Para el ejercicio anterior determinar las probabilidades marginales de X y Y. a) Determinar si se trata de una distribución de probabilidad conjunta. 2 g ( x) = ∑ Pxy ( x, y ) = ∑ Pxy ( x, y ) ∀y y =0 2 g ( x = 0) = ∑ Pxy (0, yi) = y =0 3 + 6 + 1 10 = 28 28 9 + 6 15 = 28 28 1 g ( x = 1) = ∑ Pxy (1, yi) = y =0 0 g ( x = 2) = ∑ Pxy (2, yi) = y =0 h( y ) = ∑ Pxy ( x, y ) 3 + 9 + 3 15 = 28 28 x =0 1 6 + 6 12 h( y = 1) = ∑ Pxy ( xi,1) = = 28 28 x =0 0 1 h( y = 2) = ∑ Pxy ( xi,2) = 28 X =0 2 h( y = 0) = ∑ Pxy ( xi,0) = Equivale a sumar verticalmente en la tabla x 0 1 2 y(x) 10/28 15/28 3/28 Ejercicio. Dada la función: ⎧ 2(2 x + 3 y ) ⎪ 5 ⎪ Fxy ( x, y ) ⎨ ⎪0 ⎪ ⎩ Probabilidad y Estadística Noviembre 2009 b) Encuentre la probabilidad P[( x, y ) ∈ A] 1 1 2 2 1 2 2 1 2 ⎡2 ⎛ 3 ∫ ∫ 5 (2 X + 3Y )dydx = ∫ ⎢⎣ 5 ⎜⎝ 2 xy + 2 y 0 1 4 ∀x h(y) 15/28 12/28 1/28 1 2⎛ 3⎞ 2⎛ 2 3 ⎞ ∫0 5 ⎜⎝ 2 x + 2 ⎟⎠dx = 5 ⎜⎝ x + 2 x ⎟⎠0 = 2 6 4 + 6 10 + = = =1 5 10 10 10 1 3 28 Equivale a sumar horizontalmente en la tabla. y 0 1 2 1 º ⎡2 ⎛ 2( 2 x + 3 y ) 3 2 ⎞⎤ = dydx ⎜ 2 xy + y ⎟⎥ dx = ⎢ ∫∫0 ∫ 5 5 2 ⎠⎦ 0 0⎣ ⎝ 1 2 0 ⎡2 ⎛ 3 1 2 ⎞⎤ ⎟⎥ = ⎠⎦ 1 4 1 2 3 ⎞⎤ ⎡2 ⎛ 1 9 ⎞⎤ ∫ ⎢⎣ 5 ⎜⎝ x + 8 − 2 x − 32 ⎟⎠⎥⎦dx = ∫ ⎢⎣ 5 ⎜⎝ 2 x + 32 ⎟⎠⎥⎦dx = 0 0 1 2 2 ⎛ x2 9 ⎞ 1 9 13 ⎜⎜ + x ⎟⎟ = + = 5 ⎝ 4 32 ⎠ 0 40 160 160 c) Obtener la probabilidad marginal para la variable x. 1 ⎡2 ⎛ 3 ⎞⎤ 2 g ( x) = ∫ (2 x + 3 y )dy = ⎢ ⎜ 2 xy + y 2 ⎟⎥ = 5 2 ⎠⎦ 0 ⎣5 ⎝ 0 1 2⎛ 3⎞ 4 6 ⎜ 2x + ⎟ = x + 5⎝ 2⎠ 5 10 4 3 g ( x) = x + 0 ≤ x ≤1 5 5 d) Obtener la probabilidad marginal de la variable y. 0 ≤ x ≤1 0 ≤ y ≤1 otros casos 1 2 (2 x + 3 y )dx = 5 0 h( y ) = ∫ ( ) 1 ⎤ ⎡2 2 ⎢ 5 x + 3 yx ⎥ = ⎦0 ⎣ 2 6 + y 5 5 2 6 h( y ) = + y 0 ≤ y ≤ 1 5 5 = M.A. Víctor Damián Pinilla Morán. 74 Ejemplo. Continuando con el ejemplo de los repuestos: e) Determinar la distribución condicional de X dado que Y=1 y utilícela para determinar P ( X = 0 Y = 1) de que menos de un octavo de las mujeres que se inscribieron para un maratón en particular lo finalicen si se sabe que exactamente un medio de los atletas hombres lo terminaron. x 8 xy 2 g ( x) = ∫ 8 xydy = 2 0 1 h( y ) = ∫ 8 xydx = y P( X Y = 1) = Pxy ( X ,1) h(Y = 1) = Pxy ( X ,1) h(1) = Pxy ( X ,1) 12 28 6 Pxy (0,1) 28 6 1 = = = 12 12 12 2 28 28 6 Pxy (1,1) 28 1 = = 12 12 2 28 28 Pxy (2,1) =0 12 28 2 8x y 2 F(X Y) = Fxy ( X Y ) F (Y X ) = Fxy ( X Y ) h( y ) g ( x) x = 0 8 x3 = 4 x3 2 1 = 4 y − 4 y3 y = 8 xy 2x = 3 4y − 4y 1 − y2 = 8 xy 2 y = 4 x3 x 2 P (Y < 1 X = 1 ) 8 2 P (0 < Y < 1 , X = 1 ) = 5 2 1 8 1 8 2y ∫x 2 dy 0 1 1 8 4 1 2y 2 8 dy ydy y = = = = 8 4 ∫0 ( 1 )2 ∫0 0 64 16 2 Ejemplo. Para la función de dos variables: X 0 1 2 P(X/Y=1) ½ ½ 0 Ejemplo. Suponga que la fracción X de atletas hombres y la fracción Y de atletas mujeres que terminan la carrera del maratón puede describirse por la función de densidad conjunta. ⎧8 xy ⎪ ⎪ Fxy ⎨ ⎪ ⎪⎩0 y ≤ x ≤1 0≤ y≤x otros casos ⎧ X (1 + 3Y 2) ⎪ 4 ⎪⎪ Fxy ( X Y )⎨ ⎪ ⎪ ⎪⎩0 0< X <2 0 <Y <1 otros casos a) Obtener g(x), h(y), 1 1 1 P( < X < Y = ) 4 2 3 Encuentre las probabilidades marginales F(XIY), F(YIX) y determine la probabilidad Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 75 Independencia Estadística. Si F (x/y) no depende de y entonces: 3 14 F (0,1) = g (0)h(1) F (0,1) = 2 g (0) = ∑ F (0, y ) = F (0,0) + F (0,1) + F (0,2) = i =0 1 h(1) = ∑ F ( x,1) = F (0,1) + F (1,1) + F (1,1) = i =0 5 14 6 14 3 ⎛ 5 ⎞⎛ 6 ⎞ ≠ ⎜ ⎟⎜ ⎟ 14 ⎝ 14 ⎠⎝ 14 ⎠ Los eventos no son estadísticamente independientes. 5.3 Valor esperado de una función de dos o más variables aleatorias. Valor esperado condicional. Definición: Sean X y Y dos variables aleatorias discretas o continuas con distribución de probabilidad conjunta Fxy(x/y) y distribuciones marginales g(x) y h(y) respectivamente se dice que las variables aleatorias son independientes estadísticamente si se cumple que: f ( X , Y ) = g ( X )h( y ) Valores esperados y momentos para las funciones bivariadas. Sean X y Y dos variables aleatorias conjuntas, el valor esperado de la función se define como: E {( X − μ X )(Y − μY ) Generalizando. Sean X1, X2, X3,... Xn, variables aleatorias discretas o continuas con distribución de probabilidad conjunta f ( X 1 , X 2 , X 3 ... X n ) y con sus respectivas funciones marginales f ( X 1 ) f ( X 2 ) f ( X n )... f ( X n ) . Si las variables aleatorias son mutuamente independientes se cumple que: f ( X 1 , X 2 , X 3 ... X n ) = f ( X 1 ) f ( X 2 ) f ( X n )... f ( X n ) ⎧∑ ∑ ( x − μ X )( y − μY )P ( x, y ) ⎪ ∀x ∀y } = ⎪⎨ ∞ ∞ ⎪ ∫ ∫ ( x − μ X )( y − μY ) f ( x, y )dydx ⎪⎩− ∞− ∞ Generalmente: Ejemplo. Retomando el ejemplo de los repuestos: Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 76 En forma de funciones: ⎧∑ ∑ g ( x, y ) P ( x, y ) ⎪⎪ ∀x ∀y μ ( x, y ) = E{g ( x, y )} = ⎨ ∞ ∞ ⎪ ∫ ∫ g ( x, y ) f ( x, y )dydx ⎪⎩− ∞− ∞ Para el caso r = s = 1, el momento alrededor de la media: E{( X − μ X )(Y − μ Y ) Se puede demostrar que el coeficiente de correlación toma valores entre menos uno y uno; esto significa que el coeficiente de correlación es sólo una medida estandarizada de la asociación lineal que existe entre las variables aleatorias X y Y en relación con sus dispersiones. El valor de ρ=0 indica la ausencia de cualquier asociación lineal, mientras que los valores ρ=-1 y ρ=1 indican relaciones lineales perfectas, negativa y positivamente. Es necesario señalar que debe rechazarse cualquier otra interpretación del término correlación. Interpretación de la covarianza. Tomando dos fenómenos aleatorios: ⎧∑∑ ( x − μ X )( y − μ Y )P( x, y ) ⎪ ∀x ∀y } = ⎪⎨ ∞ ∞ ⎪ ∫ ∫ ( x − μ X )( y − μ Y ) f ( x, y )dydx ⎪⎩− ∞− ∞ Recibe el nombre de covarianza. Una forma alterna covarianza es: para calcular la Cov{ X , Y } = E{( X − μ X )(Y − μ Y )} = E{XY − Xμ Y − Yμ X + μ X μ Y } = E{XY }− μ Y E{X } − μ X E{Y } + μ X μ Y = E{XY }− μ Y μ X − μ X μ Y + μ X μ Y = E{XY }− μ Y μ X = E{XY }− E{X }E{Y } Si la covarianza de X y Y se divide por el producto de las desviaciones estándar de X y Y, el resultado es una cantidad adimensional que recibe el nombre de coeficiente de correlación. La primera variable aleatoria es el “corto”, que es la cantidad de dinero que BANXICO retira del circulante para evitar que la inflación se dispare. En consecuencia, la segunda variable aleatoria es la inflación. ρ : coeficiente de correlación ρ= Cov{X , Y } σ Xσ Y Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 77 En suma, cuando las variables cambian en la misma dirección (positiva-positiva o negativa-negativa), el coeficiente de correlación es de signo positivo. Por el contrario, cuando las variables cambian en direcciones diferentes (positiva-negativa o negativa-positiva), el coeficiente será de signo negativo. Por otra parte, si: ρ= En esta gráfica observamos que el corto y la inflación “crecen” en la misma dirección. Si calculáramos el coeficiente de correlación, éste tendría signo positivo. Cov{X , Y } σ Xσ Y La única posibilidad para que ρ = 0 es que la covarianza lo sea. Esto implica que, cuando la covarianza es cero, las variables aleatorias son estadísticamente independientes. Esto implica que, conforme ρ → 1 , las variables tienen una relación más estrecha. Varianza de una suma de dos variables aleatorias. donde a y b son constantes En esta gráfica aparece una tercera variable aleatoria, el precio del dólar. Se observa que conforme el “corto” aumenta, se retira dinero circulante y el precio del dólar baja. En este caso, el coeficiente de correlación entre el corto y el dólar tendrá signo negativo. Probabilidad y Estadística Noviembre 2009 Si X y Y independientes. son estadísticamente Por definición: M.A. Víctor Damián Pinilla Morán. 78 los que el número de años x que han transcurrido es el mismo. En otras palabras, para cada valor de x existe una distribución de ingresos anuales y lo que se busca es la media de esa distribución, dado x. La gráfica de la media condicional E Y x { } como una función de x recibe el nombre de curva de regresión de Y sobre X. De tal forma, si f ( x, y ) es la función de densidad conjunta de probabilidades de X y Y, y si f y x es la función de densidad ( ) condicional de Y dado x, se define la curva de regresión como Análisis de regresión. El motivo de estudio de este tipo de análisis son las asociaciones cuantitativas entre un número de variables, en lo particular en la manera de que sea posible ajustar una ecuación de algún tipo al conjunto de datos dado, con el propósito de obtener una ecuación empírica de predicción razonablemente precisa y que proporcione un modelo teórico que no está disponible. Las técnicas de regresión proporcionan medios legítimos a través de los cuales pueden establecerse asociaciones entre las variables de interés en las cuales la relación usual no es casual. De manera básica, la regresión tiene dos significados: uno surge de la distribución conjunta de probabilidad de dos variables aleatorias; el otro es empírico y nace de la necesidad de ajustar alguna función a un conjunto de datos. ∞ E (Y x ) = ∫ y f ( y x )dy −∞ Ejemplo. Considérese la función de densidad conjunta de probabilidad dada por: ⎧2 x 0 < x < y < 1 f ( x, y ) = ⎨ otro valor ⎩0 Obténgase la curva de regresión de Y sobre X. A partir de: f (y x) = f ( x, y ) f (x ) entonces Como ejemplo del primer significado, se desea predecir el salario de un profesionista dado el número de años que han transcurrido desde su graduación. Sea X el número de años y Y el salario anual. Resulta obvio que para un valor dado de x es imposible predecir, de manera exacta, el salario anual de una persona en particular. Sin embargo, es posible predecir el salario promedio de todos aquellos individuos para Probabilidad y Estadística Noviembre 2009 f (x ) = 1 ∫ f (x, y )dy = ∫ 2 xdy = 2 x(1 − x ) ∀Y x Sustituyendo: f (y x) = 2x 1 = 2 x(1 − x ) 1 − x M.A. Víctor Damián Pinilla Morán. 79 La curva de regresión será: 1 1+ x dy = 1− x 2 x 1 E (Y K x ) = ∫ Corresponde a una línea recta con pendiente e intersección igual a 1 . 2 El segundo significado de la regresión resulta más práctico. En él no se tienen los elementos necesarios para determinar la curva de regresión como en el ejemplo anterior. No obstante, dado un conjunto de datos, pude asumirse una forma funcional para la curva de regresión y entonces tratar de ajustar ésta a los datos. En estas situaciones, la variable respuesta es una variable aleatoria cuyos valores se observan mediante la selección de los valores de las variables de predicción en un intervalo de interés. Por lo tanto, las variables de predicción no se consideran como variables aleatorias, sino que éstas son un conjunto de valores fijos que representan los puntos de observación para la variable respuesta. El modelo de regresión propuesto debe ser relativamente sencillo y deberá contener pocos parámetros. Bibliografía Un procedimiento muy útil para la selección inicial cuando se tiene sólo una variable de predicción es graficar la variable respuesta contra la variable de predicción. Si esta gráfica revela una tendencia lineal, deberá suponerse un modelo de regresión lineal. Si es evidente alguna curvatura, deberá suponerse un modelo cuadrático o de mayor grado para ajustarse a los datos. Canavos, Probabilidad y Estadística, Edit. Mc Graw Hill, México 1988. Borras, et. al. Apuntes de Probabilidad y Estadística, Facultad de Ingeniería UNAM, México 1985. Villarreal , Probabilidad y Modelos Probabilísticos, UAEM, México 1989. Hines, Montgomery; Probabilidad y Estadística, Edit. CECSA, 3ª edición, México 1993. Captura y Edición: M.A. María Torres Hernández. Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 80