Distribuciones Bidimensionales Tenemos una población de N individuos. Estudiaremos en ellos dos variables, x, y. Conocemos los valores de las variables para cada uno de los individuos. El conjunto de pares (x 1 , y 1 ) , (x 2 , y 2 ) , . . . , (x n , y n ) se llama distribución bidimensional. Ejemplo: Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos. Se trata de una población de 5 individuos, el conjunto de pares (2 , 14) , (3 , 20) , (5 , 32) , (7 , 42) y (8 , 44) es una distribución bidimensional. Centro de Gravedad El centro de gravedad es el punto , donde , e representan a las medias de cada una de las variables Covarianza La covarianza se representa por σ x y , viene expresiones. Es más cómodo utilizar la segunda fórmula. dada por las Ejercicio 1 Cinco niños de 2, 3, 5, 7 y 8 años de edad respectivamente, 14, 20, 32, 42 y 44 kilos. Hallar la covarianza y las varianzas de cada variable . xi yi x i ·y i xi2 yi2 2 14 4 196 28 3 20 9 400 60 5 32 25 1 024 160 7 42 49 1 764 294 8 44 64 1 936 352 25 152 151 5 320 894 pesan, Ejercicio 2 Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedican diariamente a dormir y ver la televisión. La clasificación de las respuestas ha permitido elaborar la siente tabla: Nº de horas dormidas (X) 6 7 8 9 10 Nº de horas de televisión (Y) 4 3 3 2 1 Frecuencias absolutas (f i ) 3 16 20 10 1 Calcular la covarianza y las varianzas de cada variable . xi yi fi xi · fi xi2 · fi yi · fi yi2 · fi xi · yi · fi 6 4 3 18 108 12 48 72 7 3 16 112 784 48 144 336 8 3 20 160 1280 60 180 480 9 2 10 90 810 20 40 180 10 1 1 10 100 1 1 10 50 390 3082 141 413 1078 Correlación La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. Coeficiente de correlación lineal El coeficiente de correlación lineal se expresa mediante la letra r. Propiedades 1. El coeficiente de correlación no varía al hacerlo la escala de medición. Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía. 2. El signo del coeficiente de correlación es el mismo que el de la covarianza. Si la covarianza es positiva, la correlación es directa. Si la covarianza es negativa, la correlación es inversa. Si la covarianza es nula, no existe correlación. 3. El coeficiente de correlación lineal es un número real comprendido entre −1 y 1. −1 ≤ r ≤ 1 4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime a −1. 5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime a 1. 6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil. 7. Si r = 1 ó r = −1, los puntos de la nube están sobre una recta con pendiente positiva o negativa. Entre ambas variables hay dependencia funcional. Ejercicio 3 Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son: Estatura (X) 186 189 190 192 193 193 198 201 203 205 Pesos (Y) 85 85 86 90 87 91 93 103 100 101 Calcular el coeficiente de correlación. xi yi 186 85 189 85 190 86 192 90 193 87 193 91 198 93 201 103 203 100 205 101 1 950 921 xi2 yi2 x i ·y i 34 7 596 225 35 7 721 225 36 7 100 396 36 8 864 100 37 7 249 569 37 8 249 281 39 8 204 649 40 10 401 609 41 10 209 000 42 10 025 201 380 85 179 618 255 971 15 810 16 065 16 340 17 280 16 791 17563 18 414 20 703 20 300 20 705 Correlación positiva muy fuerte. Ejercicio 4 Los valores de dos variables X e Y se distribuyen según la tabla de doble entrada siguiente: Y/X 100 50 25 14 1 1 0 18 2 3 0 22 0 1 2 Obtener e interpretar el coeficiente de correlación lineal . Convertimos la tabla de doble entrada en una tabla simple. Más adelante veremos cómo se hace directamente. xi yi fi xi · fi xi2 · fi yi · fi yi2 · fi xi · yi · fi 100 14 1 100 10 000 14 196 1 400 100 18 2 200 20 000 36 648 3 600 50 14 1 50 2 500 14 196 700 50 18 3 150 7 500 54 972 2 700 50 22 1 50 2 500 22 484 1 100 25 22 2 50 1 250 44 968 1 100 10 600 43 750 184 3 464 10 600 Es una correlación negativa débil. Diagramas de Dispersión En las distribuciones bidimensionales a cada individuo le corresponden los valores de dos variables, las representamos por el par (x i , y i ). Si representamos cada par de valores como las coordenadas de un punto, el conjunto de todos ellos se llama nube de puntos o diagrama de dispersión. Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible, llamada recta de regresión. Ejemplo Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes: Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10 Física 1 3 2 4 4 4 6 4 6 7 9 10 Diagrama de dispersión 1º Correlación directa La recta correspondiente a la nube de puntos de la distribución es una recta con pendiente positiva. 2º Correlación inversa La recta correspondiente a la nube de puntos de la distribución es una recta con pendiente negativa. 3º Correlación nula En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada. Grado de correlación El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos: 1. Correlación fuerte La correlación será fuerte cuanto más cerca se encuentren los puntos de la recta. 2. Correlación débil La correlación será débil cuanto más separados se encuentren los puntos de la recta. 3. Correlación nula La nube de puntos tiene una forma redondeada. Regresión Lineal Una recta de regresión es la que mejor se ajusta a la nube de puntos. La recta de regresión pasa por el punto gravedad. llamado centro de Recta de regresión de Y sobre X La recta de regresión de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X, también se le llama coeficiente de regresión de Y sobre X. Recta de regresión de X sobre Y La recta de regresión de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y, también se le llama coeficiente de regresión de X sobre Y . Si la correlación es nula, r = 0, las rectas de regresión son perpendiculares entre sí, y sus ecuaciones son: y = x = Ejercicio 5 Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes: Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10 Física 1 3 2 4 4 4 6 4 6 7 9 10 Hallar las rectas de regresión y representarlas. xi yi x i ·y i xi2 yi2 2 1 2 4 1 3 3 9 9 9 4 2 8 16 4 4 4 16 16 16 5 4 20 25 16 6 4 24 36 16 6 6 36 36 36 7 4 28 49 16 7 6 42 49 36 8 7 56 64 49 10 9 90 100 81 10 10 100 100 100 72 60 431 504 380 1º Hallamos las medias aritméticas . 2º Calculamos la covarianza . 3º Calculamos las varianzas . 4ºRecta de regresión de Y sobre X. 4ºRecta de regresión de X sobre Y. La recta de regresión de X sobre Y es siempre más inclinada que la de Y sobre X.