CORRELACION Y REGRESION En el siguiente apartado se presenta como calcular diferentes índices de correlación, así como la forma de modelar relaciones lineales mediante los procedimientos de regresión simple y múltiple. Los índices de correlación analizados seran los de Pearson, Spearman, Kendall y el coeficiente de correlación parcial. Dependiendo de las características de los datos a correlacionar, el coeficiente de correlación que debe aplicarse difiere. Las características principales de cada uno de ellos son las siguientes: • Coeficiente de correlación de Pearson: es aplicable cuando la métrica de las variables correlacionadas es como mínimo de intervalo. • Coeficiente de correlación de Spearman y coeficiente de correlación t de Kendall: son aplicables cuando la métrica de las variables es de ordinal. El coeficiente de Spearman es especialmente indicado en aquellos casos en que se de una violación del supuesto de normalidad y, en aquellos casos, en que aunque la métrica de las variables no sea de intervalo o razón, podemos suponer que la variable con la que trabajamos presenta dicha métrica. P.Ej. podemos recodificar las puntuaciones de un test de inteligencia en tres o cuatro categorías de tal forma que la variable resultante sea ordinal, no obstante la inteligencia tal y como se ha medido inicialmente mediante un test de CI está en una escala de intervalo. En el resto de casos es más apropiado utilizar el coeficiente de Kendall. • Coeficiente de correlación parcial: es aplicable cuando se pretende estudiar la relación entre dos variables eliminando el efecto de una tercera variable. Los procedimientos de regresión, por su parte nos permitirán modelizar la relación existente entre uno o más predictores con una variable criterio. Correlación y Regresión Página 1 COEFICIENTE DE CORRELACION DE PEARSON Este coeficiente es un indicador de la relación lineal existente entre dos variables. El coeficiente de correlación de Pearson es aplicable cuando la métrica de las variables correlacionadas es, como mínimo, de intervalo, y supone que ambas variables se distribuyen en la población de forma normal. No obstante el coeficiente tan sólo presenta alteraciones destacables en aquellos casos en que se viole de forma considerable dicho supuesto. Los pasos recomendados en el cálculo del índice de correlación de Pearson son: • Representar gráficamente los diagramas de dispersión entre variables. Si realmente existe relación lineal entre las variables, la dispersión de puntos se aproximará a una ojiva. Si no existe relación lineal entre las variables, la dispersión de puntos se aproximará a una circunferencia. Este diagrama nos permitirá por otra parte comprobar la posible existencia de algún tipo de relación no lineal entre las variables. • Cálculo de la matriz de correlaciones de Pearson. • Interpretación de resultados. Con el fin de ilustrar el modo en que podemos realizar estos análisis con el SPSS vamos a utilizar el fichero de ejemplo "coches.sav" que incluye el programa entre los ficheros de ejemplo. Obtención de los diagramas de dispersión Con el fin de obtener el diagrama de dispersión, seleccionaremos en el menú gráficos del menú principal la opción Cuadros de diálogo antiguos, a continuación seleccionaremos Dispersión/Puntos, seleccionamos Dispersión simple y Definición y finalmente introduciremos en los ejes X e Y el par de variables que nos interesa representar, en nuestro caso la aceleración de los vehículos y su potencia tal y como podemos observar en la siguiente figura: Correlación y Regresión Página 2 Pulsando el botón Aceptar, se inicia la construcción del diagrama de dispersión obteniendo un output como el siguiente: Podemos comprobar cómo el gráfico de dispersión nos da una primera idea de la relación existente entre ambas variables. De este modo, y a primera vista, parece existir una relación inversa entre ambas variables, dado que teniendo en cuenta la forma de la nube de puntos, parece ser que a mayor potencia, menor tiempo precisa el vehículo para alcanzar los 100 km/hora. Los gráficos de dispersión entre todas las parejas de variables que se correlacionen deberían ser representados. Cálculo de los coeficientes de Correlación Correlación y Regresión Página 3 Para el cálculo del coeficiente de correlación, seleccionar Bivariadas… es preciso la opción del submenú Correlaciones Mediante dicha opción se activa el submenú Correlaciones bivariadas que aquí mostramos y en el que seleccionamos las variables. Por defecto, se halla seleccionada la opción Pearson, que indica que el coeficiente que se calculará es el coeficiente de correlación de Pearson. Por defecto también se hallan seleccionadas las opciones Bilateral (que indica que las pruebas de inferencia sobre la correlación se calcularan suponiendo que no realizamos ninguna hipótesis sobre su dirección) y Marcar las correlaciones significativas (marca que se realiza como veremos posteriormente con asteriscos sobre la matriz de correlación). Pulsando el botón Opciones se activa el submenú Correlaciones Bivariadas: Opciones. En el podemos pedir unos descriptivos mínimos y, lo que es más importante, definir como vamos a tratar los casos perdidos. Si lo hacemos según lista eliminará de los cálculos a todos los sujetos a los que les falte algún dato. Si en lugar de ello lo hacemos por pareja aunque a un sujeto le falte algún dato de una variable, utilizará aquellos de los que dispone para aquellas correlaciones en que no se vea implicada dicha variable, siendo esta opción más recomendable en la mayoría de los casos. Resultados del análisis En la siguiente tabla pueden observarse los resultados obtenidos. Cabe destacar que SPSS nos indicará de dos modos las correlaciones significativas. En primer lugar nos ofrece para cada correlación la probabilidad de equivocarnos si rechazamos la hipótesis nula. Así por ejemplo para la correlación entre aceleración y potencia nos informa de que dicha correlación es r=-0.71 y la probabilidad de equivocarnos si rechazamos la hipótesis nula es p=0.000. Es decir, dicha correlación es significativa si adoptamos un nivel de significación del 1% (p=0.01). Es preciso destacar que a pesar de que SPSS considere que la probabilidad de equivocarnos es un 0%, este resultado es una aberración desde el punto de vista estadístico dado que trabajamos con Correlación y Regresión Página 4 distribuciones de probabilidad asintóticas, lo cual implica la imposibilidad de obtener un valor cero de probabilidad. Este hecho es debido a que el programa efectúa un redondeo a partir del cuarto decimal y, como consecuencia ante probabilidades muy bajas nos muestra un valor de cero. En este caso particular, si pulsamos en navegador de resultados de SPSSdos veces sobre la matriz de correlaciones y dos veces a más sobre el valor de la probabilidad veremos que en realidad la probabilidad de equivocarnos es P=0,0000000000000000000025. Además de este valor SPSS nos informa con un asterisco sobre el valor de la correlación en aquellos casos en que la probabilidad es inferior al 5% y con dos asteriscos cuando es inferior al 1%. Respecto al formato de la tabla, en muchas ocasiones presenta un tamaño excesivo para su inclusión en un informe, artículo, etc. en dichos casos es posible editarla para reducirla a un formato más práctico, para ello pulsaremos dos veces sobre la tabla para editarla y, a continuación, iremos editando aquellos elementos que queramos suprimir con una doble pulsación para eliminarlos mediante la tecla Supr. Editando la tabla de este modo, el formato que se podría obtener es el siguiente: Correlación y Regresión Página 5 REGRESIÓN SIMPLE SPSS incluye en el procedimiento regresión lineal tanto el análisis de regresión simple como el múltiple, no obstante dadas las diferencias entre ambos análisis, especialmente por lo que refiere a las opciones y métodos, las vamos a tratar de forma independiente. El análisis de regresión simple trata de modelar la relación lineal existente entre dos variables, asumiendo que la relación de las mismas puede representarse del siguiente modo: y = a + bx + e Siendo: • y: La puntuación observada del sujeto • a: Un término constante • b: La pendiente de regresión de x sobre y. • e: El término de error, es decir, la diferencia entre la puntuación predicha por el modelo y la observada. El procedimiento regresión lineal nos permitirá contrastar las hipótesis nulas referidas a los distintos componentes del modelo y, en el caso de que proceda, construir el modelo predictivo asociado. Para ello vamos a utilizar el fichero de ejemplo "Coches" de SPSS y vamos a ver si puede establecerse una relación lineal entre el peso de los vehículos y su consumo. Para ello, y tal como puede observarse en la ventana inferior, seleccionamos como variable independiente el peso del vehículo y como dependiente el consumo. Como Correlación y Regresión Página 6 método de cálculo SPSS ofrece por defecto el método "Introducir". En el caso que nos ocupa ello no tiene mayor importancia, dado que las repercusiones de la elección de uno u otro método son más importantes en la regresión múltiple y serán discutidos en su momento. En lo que refiere a los estadísticos, hemos seleccionado las estimaciones y el ajuste del modelo. La utilidad de la mayor parte de los mismos es específica de la regresión múltiple y serán vistos en el apartado correspondiente. En cualquier caso, si anteriormente no hemos utilizado las opciones del procedimiento descriptivos, podemos solicitarlos en esta ventana de captura de datos. La opción guardar nos permite generar nuevas variables en las que podremos obtener los valores pronosticados, residuales, etc. La opción gráficos nos permitirá diversas representaciones que pueden ser útiles para verificar la existencia de valores atípicos y el grado de cumplimiento de ciertos supuestos como puede ser el de homocedasticidad. Correlación y Regresión Página 7 Una vez introducidas todas las opciones que hemos descrito, el output que obtendríamos sería el siguiente: En primer lugar podemos observar el coeficiente de correlación entre ambas variables así como el coeficiente de determinación, es decir, el porcentaje de varianza del criterio explicado por el predictor. Dicho coeficiente es un estimador sesgado del coeficiente de determinación poblacional. Por este motivo, el programa nos ofrece un coeficiente corregido que soluciona este sesgo. En nuestro caso podemos ver como el peso del vehículo explica un 70% del consumo del mismo. Correlación y Regresión Página 8 A continuación, el programa nos facilita la tabla del análisis de la varianza que contrasta la hipótesis nula de que la proporción de varianza explicada por el predictor a nivel poblacional es igual a cero. En nuestro caso vemos como rechazamos dicha hipótesis nula, es decir, parece ser que el peso del vehículo incide en el consumo del mismo. Posteriormente, el programa nos facilita los distintos coeficientes de la ecuación de regresión, tanto en puntuaciones directas como en puntuaciones típicas. En este segundo caso el valor de la constante no se estima dado que la recta de regresión intercepta al criterio en el origen. Además de dichos coeficientes, el output nos proporciona las pruebas de inferencia necesarias para contrastar las hipótesis nulas referidas al término constante y a la pendiente. En nuestro caso podemos ver que tan solo rechazamos la hipótesis nula para la pendiente, de tal modo que podemos considerar que el término constante es igual a cero. Este hecho simplifica la predicción, de tal modo que la ecuación que describe la regresión sería la siguiente: consumo = 0,0167*peso A continuación, podemos observar los tres casos que presentan un residual estandarizado más alto. Podemos considerar que en aquellos casos en que el residual sea superior a 3 o inferior a -3 puede darse o bien un error en los datos, o bien un dato atípico. En dichos casos lo más aconsejable es verificar los datos y eliminar aquel caso con el mayor residual (10,845) para, posteriormente, volver a evaluar el modelo. Finalmente, los gráficos que hemos solicitado nos muestran tanto la distribución de los residuales como el gráfico de dispersión de los valores pronosticados / residuales. En ambos gráficos podemos observar el dato atípico al que hacíamos referencia así como el hecho que la variabilidad de error parece mantenerse similar para todos los niveles del pronóstico. Correlación y Regresión Página 9 Correlación y Regresión Página 10