Estadística para Relaciones Laborales. TEMA V 2ª Parte. TEMA 5 (II Parte) AJUSTE. REGRESIÓN Y CORRELACIÓN 5.5. CONCEPTO. Durante todo este tema se ha puesto de manifiesto el interés de estudiar simultáneamente dos o más variables sobre una misma población con el propósito de poder estudiar las relaciones existentes entre dichas variables. A modo de ejemplo, podemos pensar que existe relación entre el salario de los trabajadores y su antigüedad en la empresa, entre el número de afiliados en alta a la Seguridad Social y la producción de una economía, entre la edad del trabajador en paro y el tiempo de búsqueda de empleo, etc. El análisis que vamos a llevar a cabo parte de la existencia de relación o dependencia estadística entre las distintas variables que estamos estudiando. Nuestro interés se centra en determinar la intensidad de la relación y analizar la forma o estructura de la misma. En este sentido, distinguimos entre teoría de la correlación y teoría de la regresión, orientadas al primer y segundo tipo de análisis, respectivamente, ambas teorías están íntimamente ligadas. 5.6. DEPENDENCIA FUNCIONAL. La forma más frecuente de representar una distribución estadística bidimensional consiste en construir su diagrama de dispersión, o nube de puntos. Existen distribuciones estadísticas para las que la nube de puntos se dispone de tal forma que existe una función matemática cuyos puntos son una parte de su representación gráfica. En este caso se dice que existe una dependencia funcional entre las variables, es decir, existe una función matemática y f x tal que, si xi , yi es un punto de la nube, se tiene que f xi yi . Otras distribuciones, sin coincidir exactamente sus puntos con los de la función matemática, se aproximan a ella con mayor o menor intensidad. Por último, son muchas las distribuciones estadísticas bidimensionales cuya nube de puntos presenta un aspecto tal que no existe concentración de puntos hacia ninguna gráfica matemática, distribuyéndose de un modo aproximadamente uniforme por una región del plano, se dice en este caso, que las variables X e Y son independientes Las dos situaciones descritas se ponen de manifiesto de una manera intuitiva con las dos siguientes figuras: Profesor: Aristóteles de la E. Gosálbez. 44 Estadística para Relaciones Laborales. TEMA V 2ª Parte. 5.7. ANÁLISIS DE REGRESIÓN O AJUSTE. Ajustar una línea a una nube de puntos consiste en encontrar una función cuya gráfica se adapte de forma adecuada a la nube. Esta forma adecuada dependerá de la distribución de que se trate y del grado de aproximación que se desee conseguir. De todas las líneas que se ajusten a la nube de puntos, la que se aproxime con más exactitud la llamaremos curva de regresión. Existen distintos tipos de ajuste o regresión: el llamado ajuste lineal, que emplea una recta, y es el utilizado más frecuentemente por su comodidad; el ajuste parabólico, cuya línea es una parábola. Otros tipos de ajuste, de empleo menos frecuente y utilización específica, son el exponencial, el logarítmico y el hiperbólico. En los siguientes ejemplos visualizaremos con facilidad los distintos ajustes explicados anteriormente. 5.8. REGRESIÓN LINEAL. Consideremos una variable bidimensional ( X, Y ), y su representación gráfica, de todas las rectas que se aproximen a la nube de puntos, la que más se ajuste la llamaremos recta de regresión. Entonces el problema consiste en encontrar la ecuación de una recta de la forma y ax b que sea la que mejor se ajuste a la nube de puntos. Para ello debemos encontrar los parámetros a y b , para su cálculo existen varios métodos, siendo el más utilizado el denominado de mínimos cuadrados, que se basa en el hecho de que la recta que se obtiene hace mínima la suma de los cuadrados de las diferencias entre los valores observados experimentalmente y los teóricos que se obtengan mediante la recta a los que se denominan residuos. Los valores a y b buscados son los que resultan de resolver el sistema llamado de ecuaciones normales. n n yi bN a xi i 1 n i i x y i i Profesor: Aristóteles de la E. Gosálbez. i i n n i 1 i 1 b xi a xi 2 45 Estadística para Relaciones Laborales. TEMA V 2ª Parte. De la aplicación del método anterior se obtiene que la recta de regresión pasa por el punto X , Y , cuyas coordenadas representan las medias aritméticas de las variables X e Y respectivamente. Por tanto, la ecuación buscada será de la forma: y Y a x X donde a recibe el nombre de coeficiente de regresión lineal y se demuestra que es igual a: a S xy Sx 2 luego la ecuación de la recta de regresión es: S xy y Y 2 x X Sx A esta recta de regresión se le llama recta de regresión de Y sobre X, ya que hemos considerado la variable X independiente y la variable Y dependiente de X. El conocimiento de la recta de regresión nos permitirá estimar los valores de una variable conocidos los valores de la otra. Concretamente, si en la ecuación anterior sustituimos los valores de la variable X obtendremos una aproximación de los valores esperados para la variable Y. Análogamente se puede obtener la recta de regresión de X sobre Y. En este caso la variable independiente es Y, siendo X la variable dependiente. La ecuación queda: y Y 2 Sy Es muy importante tener en cuenta que si conocemos la ecuación explicita de la recta de regresión de Y sobre X ( y a x b ) es totalmente incorrecto, para obtener la ecuación de la recta de regresión de X sobre Y, despejar x en la ecuación anterior. x X S xy Ejemplo: Las calificaciones de 40 alumnos en psicología evolutiva (X) y en estadística (Y) han sido las siguientes: xi 3 4 5 6 6 7 7 8 10 yj nij 2 5 5 6 7 6 7 9 10 4 6 12 4 5 4 2 1 2 Calculando los parámetros necesarios, obtenemos los siguientes resultados: X 5,5 Profesor: Aristóteles de la E. Gosálbez. Y 5,6 S xy 2,6 S x 2,6 2 46 Estadística para Relaciones Laborales. TEMA V 2ª Parte. Sustituyendo en la expresión de la recta de regresión de Y sobre X , resulta: S xy 2,6 x 5,5 y Y 2 x X y 5,6 2,6 Sx operando se obtiene: y x 0,1 donde a 1 y b 0,1 Supongamos que quisiéramos calcular la nota esperada de un alumno con nota de 4,5 en psicología, deberíamos sustituir x por 4,5 en la ecuación de la recta de regresión que acabamos de obtener y 4,5 0,1 4,6 Por tanto, se prevé que la calificación que obtendrá el alumno en estadística será igual a 4,6. 5.8.1. INTERPRETACIÓN DEL COEFICIENTE DE REGRESIÓN. S xy El coeficiente de regresión de Y sobre X, 2 ( a si tenemos la recta en forma explicita Sx y a x b ) se interpreta de al siguiente forma: a un aumento de una unidad de la variable x, S xy corresponde una variación de unidades de la variable y (aumento si el coeficiente de 2 Sx regresión es positivo o disminución si es negativo) Ejemplo: Sea y 1,36 x 19,19 , donde X = número de médicos que pasan consulta en un centro de salud e Y = número de pacientes que atienden. El coeficiente de regresión a 1,36 , indica que si aumentamos un medico en el centro de salud, el número de pacientes que atiende cada medico, disminuiría en 1,36. 5.9. CORRELACIÓN. El fin de la curva de regresión es de promediar los datos de la distribución, y todo promedio debe ir acompañado de un parámetro que mida su grado de representatividad. El problema de la regresión es ajustar una línea, recta o curva, a una nube de puntos, mientras que el objeto de la correlación es determinar hasta que punto es bueno dicho ajuste, además de estudiar la relación o dependencia entre las dos variables estadísticas que intervienen en una distribución bidimensional. Antes de formular matemáticamente este concepto, vamos a analizarlo grafica e intuitivamente; para ello observemos las siguientes nubes de puntos. Profesor: Aristóteles de la E. Gosálbez. 47 Estadística para Relaciones Laborales. TEMA V 2ª Parte. En los dos primeros gráficos vemos que los puntos de la nube se condensan en torno a una recta, en el primer de una manera mas fuerte que en la segunda. En el tercer gráfico, observamos que a medida que aumenta la variable X, aumenta la variable Y, diremos que entre las variables existe una correlación directa o positiva. En el cuarto, observamos que a medida que aumenta la variable X, disminuye la variable Y, diremos que entre las variables existe una correlación inversa o negativa. Evidentemente, este estudio de la correlación es demasiado intuitivo, con los errores que esto puede llevar consigo. Así pues para mejorar el estudio, vamos a calcular unos parámetros, a partir de los cuales podremos valorar sin ningún tipo de subjetividad la correlación que existe entre dos variables. 5.9.1. COEFICIENTE DE CORRELACION LINEAL. Mediante el coeficiente de correlación lineal lo que se busca es un número para cuantificar de la forma más objetiva y precisa posible, la intensidad o fuerza de una correlación lineal (dependencia), en una variable bidimensional. Sea ( X, Y ) una variable estadística bidimensional. Se define coeficiente de correlación lineal, y lo denotaremos por r , al siguiente cociente: R S xy SxSy donde S xy denota la covarianza de ( X, Y ), S x la desviación típica de X, S y la desviación típica de Y. Hagamos algunas observaciones sobre dos conceptos (signo y valor) del coeficiente que acabamos de definir: Signo: Su signo viene dado por el signo de la covarianza ya que las desviaciones típicas de las variables son siempre positivas. Así pues, el signo de la covarianza decide el comportamiento de la correlación. · Si la covarianza es positiva la correlación es directa, es decir, la nube de puntos estará sobre una recta creciente. · Si la covarianza es negativa la correlación es inversa, la nube de puntos estará sobre una recta decreciente. · Si la covarianza es nula no existe correlación lineal entre las variables. Valor: Se demuestra que el coeficiente de correlación lineal es número real comprendido entre -1 y 1. Teniendo esto en cuenta, y dependiendo de cual sea su valor, obtendremos la siguiente información acerca del comportamiento de la correlación lineal. · Si R 1 , la correlación lineal es perfecta, es decir, la nube de puntos está situada, toda ella, sobre la recta de regresión, directa si r 1 e inversa si r 1 .Esto significa que la dependencia entre las dos variables es de tipo funcional, es decir, la podemos expresar a través de una función. · Si R 0 , no existe dependencia lineal entre las variables, pudiendo darse otra dependencia no lineal, o bien puede ocurrir que las variables sean independientes. Profesor: Aristóteles de la E. Gosálbez. 48 Estadística para Relaciones Laborales. TEMA V 2ª Parte. · Valores de R próximos a 1 o –1 indican una fuerte dependencia lineal entre las variables, y disminuyendo cuando el valor de r su valor va aproximándose a cero. Se dice que dependencia es aleatoria. Podemos concluir diciendo que la estimaciones realizadas a través de las rectas de regresión, serán fiables siempre que el valor del coeficiente de correlación lineal, r, tome valores próximos a 1 ó -1 5.9.2. VARIANZA RESIDUAL. Como se ha indicado en el apartado anterior, a todo ajuste se le debe asociar una medida de dispersión que indique su representatividad. El grado de bondad del ajuste se deducirá de las diferencias o residuos entre los valores observados yi y los valores dados por la línea de regresión yi La más adecuada de estas medidas es la varianza residual, cuya expresión viene dada: y n Se 2 i 1 i yi ·n e n 2 ij N i 1 2 i N donde e i son las desviaciones o residuos: ei yi yi Si la varianza residual es grande la curva de regresión será poco representativa de la nube de puntos. Si la varianza es pequeña la representatividad será grande. La varianza residual no debe confundirse con la varianza de una variable. En la varianza residual también llamada error medio, las diferencias o desviaciones se toman con respecto a la línea de regresión y en la varianza de una variable tales desviaciones se toman con respecto a la media aritmética. Para calcular la varianza residual no es práctico utilizar la fórmula antes descrita, usaremos otra, que se deduce de la anterior una vez fijada la función de regresión que se halla ajustado. Solo veremos las fórmulas cuando el ajuste o regresión sea lineal, conocida y axb: Para distribuciones de tipo I: n Se 2 Profesor: Aristóteles de la E. Gosálbez. n n y i b y i a xi y i i 1 2 i 1 i 1 N 49 Estadística para Relaciones Laborales. TEMA V 2ª Parte. Para distribuciones de tipo II: n Se 2 n n y i ni b y i ni a x i y i ni 2 i 1 i 1 i 1 N Si los ajustes fueran de cualquier otro tipo, se llegaría a otras fórmulas, momento, su desarrollo excede de los objetivos de este curso. por el Ejemplo: Vamos a calcular la varianza residual entre la variable X = número de cigarrillos consumidos diariamente e Y = nivel de triglicéridos medido en mg/dl de seis personas. xi yi xi2 yi2 xi yi 10 60 100 3600 600 12 75 144 5625 900 16 100 256 10000 600 18 105 324 11025 1820 20 120 400 14400 2400 30 155 900 24025 4650 106 615 2124 68675 12040 Los parámetros calculados son: x 17,67 S x2 41,86 S x 6,47 y 102,5 S y2 939,58 S y 30,65 S xy 195,83 La recta de regresión de Y sobre X: y 4,68x 19,84 a 4,68 y b 19,84 Por lo tanto la varianza residual quedaría: n Se 2 n n i 1 i 1 y i b y i a xi y i i 1 2 N 68765 19,64 615 4,68 12040 21,03 6 Podríamos considerar que el valor de varianza residual no es grande (comparada con la varianza de Y S y2 ), por lo tanto los residuos (diferencias entre los valores observados y los valores de predicción) son pequeños, con lo cual la recta de regresión es adecuada para realizar predicciones. Profesor: Aristóteles de la E. Gosálbez. 50 Estadística para Relaciones Laborales. TEMA V 2ª Parte. 5.9.3.COEFICIENTE DE DETERMINACIÓN. Otra medida, aun mejor que la varianza residual, de la bondad del ajuste de una recta de regresión es el denominado coeficiente de determinación. La fórmula: SY SY S e 2 2 2 nos indica que la variación total de la variable Y es suma de las variaciones debidas a la variable Y * , que explica el fenómeno, y de las variaciones de los residuos. 2 Si la anterior relación la divido toda por S y obtendríamos: 1 2 R = S y 2 Sy 2 SY 2 Sy 2 Se 2 Sy 2 1 donde: Se 2 Sy 2 llamado coeficiente de determinación o bien , de otro modo más cómodo: R 2 S 2 xy 2 Sx Sy 2 2 2 donde S 2 xy es la covarianza al cuadrado y S x y S y las varianzas marginales de las variables X e Y. El coeficiente R 2 varía entre 0 y 1 y nos medirá la fiabilidad de las estimaciones de la variable Y a partir de la variable X. Si se multiplica por cien nos da el porcentaje de las variaciones que son justificadas debido a la correlación entre las dos variables (las variaciones de Y estarían justificadas por las variaciones de X, dependiendo de los valores de R 2 ) Vale 1 en el caso extremo de que todos los errores sean nulos, la variación en la Y se explica totalmente, al 100%, por la variación de la X. Vale 0 cuando el ajuste es inadecuado o, quizás, las variables X e Y son independientes. Valores próximos a 0,9 son indicativos de ajustes muy aceptables, mientras valores del mismo inferiores a 0,6 tienen escasa fiabilidad y sugieren la búsqueda de otra curva de regresión más adecuada. Por ejemplo, si el coeficiente de determinación entre la edad y la altura de niños es igual a 0,9025, esto significa que el 90,25 % de la altura de dichos niños se explica por la edad; el resto, hasta el 100% será debido a otras causas: altura de sus padres, dieta, ...... Se puede demostrar que el coeficiente de determinación es el cuadrado del coeficiente de correlación lineal, es evidente observando la formula de calculo de cada uno de ellos. Conviene resaltar que el coeficiente de correlación lineal da una medida de la intensidad de la relación lineal entre dos variables, pero esta medida no es cuantitativa sino cualitativa, es decir, si para un caso se obtiene un coeficiente r = 0,4 y para otro r = 0,8 no puede concluirse que en el segundo la relación lineal entre las dos variables es doble que en el primero, sólo puede decirse que es mayor. Es el coeficiente de determinación el que sí, se manifiesta en términos cuantitativos y nos da la proporción de la variación entre las dos variables. Profesor: Aristóteles de la E. Gosálbez. 51 Estadística para Relaciones Laborales. TEMA V 2ª Parte. Ejemplo: La distancia de frenado de un vehículo depende fundamentalmente de la velocidad a la que se desplaza (expresadas en la tabla en km/h y metros, respectivamente). Se pregunta: a) ¿Existe relación lineal entre las dos variables? b) ¿Qué distancia recorrerá hasta parar un vehículo que se desplaza a 75 km/h? Velocidad 50 60 70 80 90 100 120 150 Distancia de frenado 8 11 13 19 23 26 28 32 Estimaremos previamente los parámetros de las variables y a partir de estos responderemos a los dos apartados. Los valores calculados son los siguientes: X 90 Y 20 S x2 950 S x 30,82 S y2 66 S y 8,12 S xy 240 a) La intensidad de la relación lineal entre las dos variables la vamos a estimar a partir del coeficiente de determinación. R2 S 2 xy 2 Sx Sy 2 = 2402 0,92 950 66 Es decir, un 92% de la variabilidad de la distancia de frenado se explica a través de la relación lineal de la misma con la velocidad que lleve el vehículo, el 8% de la variación restante se debe a causas desconocidas por nosotros. Podemos afirmar que la relación lineal entre las variables es lo suficiente intensa como para utilizar la recta de regresión. b) Sustituyendo los parámetros correspondientes, obtendremos la recta de regresión de Y sobre X y Y nos queda S xy Sx 2 240 ( x 90 ) x X y 20 950 y 0,25x 2,74 , y sustituyendo el valor requerido de x = 75 y(75) 0,25·75 2,74 16,21 metros, recorrerá hasta parar. Profesor: Aristóteles de la E. Gosálbez. 52 Estadística para Relaciones Laborales. TEMA V 2ª Parte. 5.9.4. FIABILIDAD DE LA RECTA DE REGRESIÓN. Resumiendo, la fiabilidad de las estimaciones hechas a partir de la recta de regresión dependen fundamentalmente de : · El valor del coeficiente de correlación. Una correlación alta (r próximo 1 ) asegura estimaciones fiables. También podemos utilizar el coeficiente de determinación · El número de datos considerados. La fiabilidad aumenta al aumentar los datos. Una recta obtenida a partir de pocos datos genera grandes riesgos, aunque r sea muy alto. · La proximidad del valor de X, para el que quiere hacerse la estimación, a la media. La estimación es más fiable cuando el valor de X está próximo al valor de la media; a medida que se aleja de la media, la estimación se hace más arriesgada. Profesor: Aristóteles de la E. Gosálbez. 53