CORRELACION Y REGRESION En el siguiente apartado se

Anuncio
CORRELACION Y REGRESION
En el siguiente apartado se presenta como calcular diferentes índices de correlación,
así como la forma de modelar relaciones lineales mediante los procedimientos de
regresión simple y múltiple.
Los índices de correlación analizados seran los de Pearson, Spearman, Kendall y el
coeficiente
de
correlación
parcial.
Dependiendo de las características de los datos a correlacionar, el coeficiente de
correlación que debe aplicarse difiere. Las características principales de cada uno de
ellos son las siguientes:
•
Coeficiente de correlación de Pearson: es aplicable cuando la métrica de las
variables correlacionadas es como mínimo de intervalo.
•
Coeficiente de correlación de Spearman y coeficiente de correlación t de
Kendall: son aplicables cuando la métrica de las variables es de ordinal. El
coeficiente de Spearman es especialmente indicado en aquellos casos en que
se de una violación del supuesto de normalidad y, en aquellos casos, en que
aunque la métrica de las variables no sea de intervalo o razón, podemos
suponer que la variable con la que trabajamos presenta dicha métrica. P.Ej.
podemos recodificar las puntuaciones de un test de inteligencia en tres o cuatro
categorías de tal forma que la variable resultante sea ordinal, no obstante la
inteligencia tal y como se ha medido inicialmente mediante un test de CI está
en una escala de intervalo. En el resto de casos es más apropiado utilizar el
coeficiente de Kendall.
•
Coeficiente de correlación parcial: es aplicable cuando se pretende estudiar la
relación entre dos variables eliminando el efecto de una tercera variable.
Los procedimientos de regresión, por su parte nos permitirán modelizar la relación
existente entre uno o más predictores con una variable criterio.
Correlación y Regresión Página 1 COEFICIENTE DE CORRELACION DE PEARSON
Este coeficiente es un indicador de la relación lineal existente entre dos variables. El
coeficiente de correlación de Pearson es aplicable cuando la métrica de las variables
correlacionadas es, como mínimo, de intervalo, y supone que ambas variables se
distribuyen en la población de forma normal. No obstante el coeficiente tan sólo
presenta alteraciones destacables en aquellos casos en que se viole de forma
considerable
dicho
supuesto.
Los pasos recomendados en el cálculo del índice de correlación de Pearson son:
•
Representar gráficamente los diagramas de dispersión entre variables. Si
realmente existe relación lineal entre las variables, la dispersión de puntos se
aproximará a una ojiva. Si no existe relación lineal entre las variables, la
dispersión de puntos se aproximará a una circunferencia. Este diagrama nos
permitirá por otra parte comprobar la posible existencia de algún tipo de
relación no lineal entre las variables.
•
Cálculo de la matriz de correlaciones de Pearson.
•
Interpretación de resultados.
Con el fin de ilustrar el modo en que podemos realizar estos análisis con el SPSS
vamos a utilizar el fichero de ejemplo "coches.sav" que incluye el programa entre los
ficheros de ejemplo.
Obtención de los diagramas de dispersión
Con el fin de obtener el diagrama de dispersión,
seleccionaremos en el menú gráficos del menú
principal la opción Cuadros de diálogo antiguos, a
continuación
seleccionaremos
Dispersión/Puntos,
seleccionamos Dispersión simple y Definición y
finalmente introduciremos en los ejes X e Y el par de
variables que nos interesa representar, en nuestro
caso la aceleración de los vehículos y su potencia tal
y como podemos observar en la siguiente figura:
Correlación y Regresión Página 2 Pulsando el botón Aceptar, se inicia la construcción del diagrama de dispersión
obteniendo un output como el siguiente:
Podemos
comprobar
cómo
el
gráfico de dispersión nos da una
primera
idea
de
la
relación
existente entre ambas variables. De
este modo, y a primera vista,
parece existir una relación inversa
entre ambas variables, dado que
teniendo en cuenta la forma de la
nube de puntos, parece ser que a
mayor
potencia,
menor
tiempo
precisa el vehículo para alcanzar
los 100 km/hora. Los gráficos de dispersión entre todas las parejas de variables que se
correlacionen deberían ser representados.
Cálculo de los coeficientes de Correlación
Correlación y Regresión Página 3 Para el cálculo del coeficiente
de
correlación,
seleccionar
Bivariadas…
es
preciso
la
opción
del
submenú
Correlaciones Mediante dicha
opción se activa el submenú
Correlaciones
bivariadas
que
aquí mostramos y en el que
seleccionamos las variables. Por defecto, se halla seleccionada la opción
Pearson, que indica que el coeficiente que se calculará es el coeficiente de
correlación de Pearson. Por defecto también se hallan seleccionadas las
opciones Bilateral (que indica que las pruebas de inferencia sobre la correlación
se calcularan suponiendo que no realizamos ninguna hipótesis sobre su
dirección) y Marcar las correlaciones significativas (marca que se realiza como
veremos posteriormente con asteriscos sobre la matriz de correlación).
Pulsando el botón Opciones se activa el submenú Correlaciones Bivariadas:
Opciones. En el podemos pedir unos descriptivos mínimos y, lo que es más
importante, definir como vamos a tratar los casos perdidos. Si lo hacemos según
lista eliminará de los cálculos a todos los sujetos a los que les falte algún dato. Si
en lugar de ello lo hacemos por pareja aunque a un sujeto le falte algún dato de
una variable, utilizará aquellos de los que dispone para aquellas correlaciones en
que no se vea implicada dicha variable, siendo esta opción más recomendable en
la mayoría de los casos.
Resultados del análisis
En la siguiente tabla pueden observarse los resultados obtenidos. Cabe destacar que
SPSS nos indicará de dos modos las correlaciones significativas. En primer lugar nos
ofrece para cada correlación la probabilidad de equivocarnos si rechazamos la
hipótesis nula. Así por ejemplo para la correlación entre aceleración y potencia nos
informa de que dicha correlación es r=-0.71 y la probabilidad de equivocarnos si
rechazamos la hipótesis nula es p=0.000. Es decir, dicha correlación es significativa si
adoptamos un nivel de significación del 1% (p=0.01). Es preciso destacar que a pesar
de que SPSS considere que la probabilidad de equivocarnos es un 0%, este resultado
es una aberración desde el punto de vista estadístico dado que trabajamos con
Correlación y Regresión Página 4 distribuciones de probabilidad asintóticas, lo cual implica la imposibilidad de obtener un
valor cero de probabilidad. Este hecho es debido a que el programa efectúa un
redondeo a partir del cuarto decimal y, como consecuencia ante probabilidades muy
bajas nos muestra un valor de cero. En este caso particular, si pulsamos en navegador
de resultados de SPSSdos veces sobre la matriz de correlaciones y dos veces a más
sobre el valor de la probabilidad veremos que en realidad la probabilidad de
equivocarnos es P=0,0000000000000000000025.
Además de este valor SPSS nos informa con un asterisco sobre el valor de la
correlación en aquellos casos en que la probabilidad es inferior al 5% y con dos
asteriscos cuando es inferior al 1%.
Respecto al formato de la tabla, en muchas ocasiones presenta un tamaño excesivo
para su inclusión en un informe, artículo, etc. en dichos casos es posible editarla para
reducirla a un formato más práctico, para ello pulsaremos dos veces sobre la tabla
para editarla y, a continuación, iremos editando aquellos elementos que queramos
suprimir con una doble pulsación para eliminarlos mediante la tecla Supr.
Editando la tabla de este modo, el formato que se podría obtener es el siguiente:
Correlación y Regresión Página 5 REGRESIÓN SIMPLE
SPSS incluye en el procedimiento regresión lineal tanto el análisis de regresión simple
como el múltiple, no obstante dadas las diferencias entre ambos análisis,
especialmente por lo que refiere a las opciones y métodos, las vamos a tratar de forma
independiente.
El análisis de regresión simple trata de modelar la relación lineal existente entre dos
variables, asumiendo que la relación de las mismas puede representarse del siguiente
modo:
y = a + bx + e
Siendo:
•
y: La puntuación observada del sujeto
•
a: Un término constante
•
b: La pendiente de regresión de x sobre y.
•
e: El término de error, es decir, la diferencia entre la puntuación predicha por el
modelo y la observada.
El procedimiento regresión lineal nos permitirá contrastar las hipótesis nulas referidas
a los distintos componentes del modelo y, en el caso de que proceda, construir el
modelo predictivo asociado. Para ello vamos a utilizar el fichero de ejemplo "Coches"
de SPSS y vamos a ver si puede establecerse una relación lineal entre el peso de los
vehículos y su consumo.
Para ello, y tal como puede observarse en la ventana inferior, seleccionamos como
variable independiente el peso del vehículo y como dependiente el consumo. Como
Correlación y Regresión Página 6 método de cálculo SPSS ofrece por defecto el método "Introducir". En el caso que nos
ocupa ello no tiene mayor importancia, dado que las repercusiones de la elección de
uno u otro método son más importantes en la regresión múltiple y serán discutidos en
su momento.
En lo que refiere a los estadísticos, hemos seleccionado las estimaciones y el ajuste
del modelo. La utilidad de la mayor parte de los mismos es específica de la regresión
múltiple y serán vistos en el apartado correspondiente. En cualquier caso, si
anteriormente no hemos utilizado las opciones del procedimiento descriptivos,
podemos solicitarlos en esta ventana de captura de datos.
La opción guardar nos permite generar nuevas variables en las que podremos obtener
los valores pronosticados, residuales, etc. La opción gráficos nos permitirá diversas
representaciones que pueden ser útiles para verificar la existencia de valores atípicos
y el grado de cumplimiento de ciertos supuestos como puede ser el de
homocedasticidad.
Correlación y Regresión Página 7 Una vez introducidas todas las opciones que hemos descrito, el output que
obtendríamos
sería
el
siguiente:
En primer lugar podemos observar el coeficiente de correlación entre ambas variables
así como el coeficiente de determinación, es decir, el porcentaje de varianza del
criterio explicado por el predictor. Dicho coeficiente es un estimador sesgado del
coeficiente de determinación poblacional. Por este motivo, el programa nos ofrece un
coeficiente corregido que soluciona este sesgo. En nuestro caso podemos ver como el
peso del vehículo explica un 70% del consumo del mismo.
Correlación y Regresión Página 8 A continuación, el programa nos facilita la tabla del análisis de la varianza que
contrasta la hipótesis nula de que la proporción de varianza explicada por el predictor
a nivel poblacional es igual a cero. En nuestro caso vemos como rechazamos dicha
hipótesis nula, es decir, parece ser que el peso del vehículo incide en el consumo del
mismo.
Posteriormente, el programa nos facilita los distintos coeficientes de la ecuación de
regresión, tanto en puntuaciones directas como en puntuaciones típicas. En este
segundo caso el valor de la constante no se estima dado que la recta de regresión
intercepta al criterio en el origen.
Además de dichos coeficientes, el output nos proporciona las pruebas de inferencia
necesarias para contrastar las hipótesis nulas referidas al término constante y a la
pendiente. En nuestro caso podemos ver que tan solo rechazamos la hipótesis nula
para la pendiente, de tal modo que podemos considerar que el término constante es
igual a cero. Este hecho simplifica la predicción, de tal modo que la ecuación que
describe la regresión sería la siguiente:
consumo = 0,0167*peso
A continuación, podemos observar los tres casos que presentan un residual
estandarizado más alto. Podemos considerar que en aquellos casos en que el residual
sea superior a 3 o inferior a -3 puede darse o bien un error en los datos, o bien un dato
atípico. En dichos casos lo más aconsejable es verificar los datos y eliminar aquel
caso con el mayor residual (10,845) para, posteriormente, volver a evaluar el modelo.
Finalmente, los gráficos que hemos solicitado nos muestran tanto la distribución de los
residuales como el gráfico de dispersión de los valores pronosticados / residuales. En
ambos gráficos podemos observar el dato atípico al que hacíamos referencia así como
el hecho que la variabilidad de error parece mantenerse similar para todos los niveles
del pronóstico.
Correlación y Regresión Página 9 Correlación y Regresión Página 10 
Descargar