Tema 12 Regresión y Correlación Recta de regresión Covarianza Coeficiente de correlación lineal : interpretación Dependencia entre variables Dependencia Matemática Entre dos variables se dice que existe dependencia matemática cuando existe una función matemática que las rige . Dependencia Estadística Cuando entre dichas variables existe dependencia sin que exista una formula matemática que las rija , se dice que hay dependencia estadística Tipos de dependencia estadística : Dependencia unidireccional, cuando una variable influye en la otra pero no tiene sentido la dependencia inversa. Interdependencia, cuando una variable influye en la otra y esta a su vez puede influir en la 1ª . Dependencia indirecta, cuando una variable influye en otra a través de otras variables que llamamos explicativas. Concordancia Cuando entra variables intrínsecamente independientes se presenta algún tipo de dependencia. Análisis de la correlación Consiste en estudiar si existe dependencia entra dos variables y cuantificar el grado de dependencia. Correlación lineal En el caso de que la dependencia que se estudie sea lineal se dice que es correlación lineal, los parámetros para estudiar la correlación lineal son : Covarianza xy , Cr (x-y) que se representa r que se representa Coeficiente de correlación ó Sxy Covarianza Nos indicará el grado de dependencia entre las variables y si son positivas o negativas estas dependencias. En tablas simples sin frecuencias Xi X1 X2 Yi Y1 Y2 X3 Xn Y3 Yn Su formula xy = ( Xi – X )*( Yi – Y ) n Formula abreviada sin frecuencias xy = Xi * Yi - X·Y n En tablas simples con frecuencias Xi X1 X2 X3 Xn Yi Y1 Y2 Y3 Yn ni n1 n2 n3 nn Formula abreviada con frecuencias xy = Xi * Yi * ni N – X *Y xy = ( Xi – X )*( Yi – Y ) * ni N Interpretación de la covarianza Si es positiva : Significa que el tipo de dependencia entre las variables es directa, es decir que ambas variables varían en el mismo sentido . Si X Y Si es negativa : Indica que la dependencia es inversa, es decir que varían en sentido contrario . Si X Y Mientras mayor sea la covarianza en valor absoluto mayor es el grado de dependencia Coeficiente de correlación Indica el grado de dependencia o independencia de las variables y si la dependencia es directa o indirecta. Interpretación del coeficiente de correlación El coeficiente de correlación entre 1 y –1 r esta comprendido –1 r 1 Su formula es : r = xy / x * y Casos extremos Si vale 1 dependencia matemática perfecta y directa. Si vale –1 dependencia matemática perfecta e inversa Si vale 0 independencia total Por lo tanto : Mientras mas se aproxime a 1 mayor será la dependencia directa, y si lo hace a –1 mayor grado de dependencia inversa. Como mas próximo a 0 mayor grado de independencia . Análisis de la Regresión Consiste en ajustar el diagrama de dispersión a una recta. A dicha recta se le llama recta de regresión. Su ecuación será Y*= a + b x Para determinar los coeficientes de a y b de dicha recta se utiliza el método de los mínimos cuadrados, que consiste en calcular los valores de dichos coeficientes que minimizan a la suma de los cuadrados de los errores. b = xy / x2 a= Y–bX Como se interpretan los coeficientes de ayb El a se llama valor en el origen y representa el valor estimativo de la Y cuando la X es nula El b que se llama coeficiente de regresión representa lo que valdría por termino medio la Y cuando la X aumentara en una unidad. En los casos de interdependencia se puede calcular la X sobre la Y, siendo la misma formula cambiando X por Y . Medidas de la bondad del ajuste Para medir si un modelo esta bien ajustado se utiliza un coeficiente llamado "coeficiente de determinación" el cual se representa por R2 . Solo en regresiones lineales esta R es la misma de la de correlación , por lo que R2 = r2 r del coeficiente . El R2 varia siempre entre O R2 1 . Se interpreta : Mientras mas próximo este a 1 mejor ajustado esta el modelo. El índice de aceptabilidad se sitúa por encima del 0,7. El R2 cuando se expresa en % indica el % de variaciones en la Y que viene explicados por las variaciones de la X. Ejercicio 1: Dados 2 valores de X e Y se obtiene la siguiente tabla: Xi 2 5 Yi 10 11 7 9 13 18 15 18 19 24 Xi * Yi 20 55 Xi2 4 25 Yi2 100 121 Media X = 9 Media Y = 16,166 105 49 225 162 81 324 247 169 361 432 324 576 1.021 652 1.707 Sacar el coeficiente de correlación e interpretarlo : r = xy / x * y que para formularlo tendremos que obtener primero xy = Xi * Yi - X *Y Nos piden n segundo x = Xi2 - X2 Y = y Yi2 n - Y2 n Operando : xy = 1.021 / 6 - (9 – 16,166) = 145,494 – 24,672 x = 652/6 – 92 = 108,66 – 81 = 5,259 y = 1.707/6 – 16,1662 = 4,812 r = 24,672/5,259 * 4,812 = 0,9749 Donde comentamos que guardan una dependencia alta y directa Ejercicio 2: Estudiado el numero de hijos e hijas en familias se obtiene la siguiente tabla bidimensional : Hijas Hijos 0 1 2 3 4 5 n j 0 1 0 0 1 0 0 2 1 0 4 2 0 0 2 8 2 1 2 0 1 1 0 5 3 0 0 0 0 0 1 1 4 0 0 1 0 2 0 3 5 0 1 0 0 0 0 1 ni 2 7 3 2 3 3 20 a) Determinar el número medio de hijos y de hijas y comparar la representatividad de ambas medias. b) Calcula el coeficiente de correlación entre ambas variables y comenta su significado c) Coeficiente de correlación HIJOS Xi 0 1 2 3 4 5 ni 2 Xi * ni 0 Xi2 * ni 0 7 3 2 3 3 20 7 6 5 12 15 45 7 12 15 48 75 157 Media = 45/20 = 2,25 HIJAS Yi 0 1 2 3 4 5 nj 2 Yi * nj 0 Yi2 * nj 0 8 5 1 3 1 20 8 10 3 12 5 38 8 20 9 48 25 110 Media = 38/20 = 1,9 Para determinar la representatividad tenemos que determinar V ( coeficiente de variación ) y como su formula nos pide la desviación típica , empezaremos por establecer esta . = xi2 * ni - X2 V = / x * 100 N x y = 157 / 20 – 2,252 = 7,85 – 5,06 = 2,79= 1,6703 = 110 / 20 – 1,92 = 5,5 – 3,61 = 1,89 = 1,3747 Vx = 1,6703/2,25 * 100 = 74,23% Vy = 1,3747/1,9 * 100 = 72,35% Donde podemos decir que la variable X (hijos) es un poco mas representativa que la variable Y (hijas). Coeficiente de correlación Donde necesitamos la covarianza r = xy / x * y xy = Xi * Yi * ni – X *Y N xy = 96/20 – 2,25 * 1,9 = 4,8 – 4,275 = 0,525 r = 0,525/1,6703 * 1,3747 = 0,2286 Donde son poco dependientes pero con dependencia directa