1 Inferencia estadística III La inferencia estadística también se puede aplicar para: 1. Conocer el grado de relación o asociación entre dos variables: análisis mediante el coeficiente de correlación lineal de Pearson. Para representar esta relación se puede utilizar una representación gráfica llamada diagrama de dispersión 2. Aplicar un modelo matemático y estimar el valor de una variable en función del valor de otra variable o de otras variables. Se trata del modelo de análisis de regresión simple en el primer caso y el modelo de análisis de regresión múltiple en el segundo caso (más de una variable) Análisis de Correlación En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables aleatorias. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables. No predice una variable a partir de otras sino que estudia el grado de asociación que hay entre las variables. En cambio, en el análisis de regresión se efectúan predicciones de una variable o más (variable predictora) sobre una variable criterio. El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre dos variables y el sentido de su relación (positivo o negativo). Las variables tienen que ser cuantitativas y medidas en escala de intervalo. Sus valores oscilan desde -1 hasta 1. La hipótesis nula señala que r = 0 en la población ( = 0)y la hipótesis alternativa que r ≠ 0 ( ≠ 0). El coeficiente de correlación es un índice de tamaño del efecto pues indica la magnitud de la relación encontrada entre dos variables. Se puede dibujar un gráfico de dispersión o nube de puntos que nos orienta sobre la dirección de la relación (positiva o negativa) y sobre la magnitud. En concreto, respecto a la magnitud de la relación, cuanto más ancha sea la nube de puntos menor relación entre las variables. En cambio, cuanto más estrecha sea la nube de puntos mayor será la relación (correlación) entre las variables y más acertados los pronósticos de Y en función de X pues el error de estimación será menor. Una correlación lineal nula se representa por un conjunto de puntos donde resulta casi imposible dibujar una recta. En este caso, no puede establecerse ningún tipo de relación entre X e Y. 2 Correlación lineal directa: el valor de r se aproxima a +1, es decir, valores mayores de X se vinculan con valores mayores de Y. Cuando aumentan los valores de una variable también aumentan los valores de la otra variable Correlación lineal inversa: el valor de r se aproxima a -1, es decir, valores mayores de una variable se asocian con valores menores en la otra variable. Cuando aumentan los valores de una variable disminuyen los valores de la otra variable Conviene tener en cuenta dos cuestiones. Primero, a través de los resultados de un coeficiente de correlación no se puede hablar de relaciones de causalidad. Dos, un coeficiente de correlación de Pearson igual a cero indica que no hay ningún tipo de relación lineal entre las variables pero quizás podría haber relación no lineal. El coeficiente de correlación de Pearson se utiliza cuando se postula una relación lineal entre las variables. Por ejemplo, entre rendimiento y atención la relación es de tipo U invertida (no lineal) y ahí no sería adecuado efectuar un coeficiente de correlación de Pearson. Se puede realizar un contraste de hipótesis para comprobar si la correlación entre las variables va más allá del azar (con t de Student y n-2 grados de libertad). Y la interpretación del contraste de hipótesis mediante el coeficiente de correlación es la misma que se hace ante con la prueba de hipótesis tipo t de Student o F del análisis de la varianza. Se trata de comparar el valor de alfa planteado a priori con el valor p de probabilidad vinculado al valor del coeficiente de correlación obtenido. Desde el supuesto de la Hipótesis nula se trata de demostrar que la distribución muestral de correlaciones procedentes de una población caracterizada por una correlación igual a cero sigue una distribución de Student con N-2 grados de libertad. El numerado es la diferencia entre los valores de correlación (obtenido y el postulado por la hipótesis nula) y el denominador es la desviación típica. : 3 El valor de significación estadística vinculado al coeficiente de correlación señala la probabilidad de la relación dentro de un modelo que asume que la relación es sólo fruto del azar (modelo nulo). Un valor del coeficiente de correlación estadísticamente significativo señala que existe una relación entre las variables que se puede explicar por algo más que el azar pero el tamaño de su efecto debe de plantearse dentro de un contexto de investigación tal y como ya se señaló al hablar del tamaño del efecto anteriormente. Además, conviene tener en cuenta que el coeficiente de correlación está relacionado con el tamaño de la muestra y cuanto mayor la muestra mayor es el coeficiente de correlación. Por ello resulta más útil interpretar el valor del coeficiente de correlación como proporción de varianza explicada (el cuadrado del coeficiente de correlación) o proporción de varianza compartida entre las dos variables. Modelos de análisis de regresión El análisis de regresión se utiliza principalmente para modelar relaciones entre variables y para realizar pronósticos o predicciones de respuestas a partir de variables explicativas (predictores). Su uso es sobre todo para identificar variables explicativas y de este modo crear un modelo donde se seleccionan las variables que están vinculadas con la respuesta, descartando aquellas que no aportan información. Además, permite detectar interacciones entre las variables independientes que afectan a la variable dependiente o predicha. El modelo de regresión predice el valor de una variable dependiente (variable respuesta Y, predicha o explicada, variable criterio) basándose en el valor de al menos una variable independiente (variable explicativa X o variable predictora). -Se utiliza cuando la variable respuesta (dependiente) es de tipo numérico o cuantitativa. -Cuando la respuesta (variable dependiente) es de tipo dicotómico se utiliza el modelo de regresión logística. -En el modelo de regresión las variables explicativas (variables independientes) pueden ser numéricas y no numéricas (nominales tipo dicotómico como variables dummy 1 0). Si el modelo sólo tiene una variable independiente es un modelo de regresión simple y si consta de más de una variable independiente es un modelo de regresión múltiple. El modelo de regresión múltiple forma parte de las técnicas multivariadas. Con la regresión lineal es posible modelar la relación entre las variables predictoras y predicha, de manera que se puede determinar una expresión matemática que permita predecir la variable dependiente a partir de la o las variables independientes. La regresión lineal estima los coeficientes de la ecuación lineal que predice mejor el valor de la variable dependiente. Los modelos de regresión pertenecen al Modelo Lineal General como el ANOVA y conducen a los mismos resultados. Con el objetivo de que las inferencias realizadas con la muestra sobre la población sean correctas es necesario que los datos cumplan una serie de requisitos. Requisitos para poder aplicar el modelo de regresión: 1. Linealidad. Es necesario que en la población exista una relación lineal entre la variable respuesta y las variables explicativas. 4 2. Normalidad y equidistribución de los residuos. Si el valor del estadístico Durbin Watson está próximo a 2 entonces los residuos no están autocorrelacionados. Si su valor es 0 hay autocorrelación perfecta positiva. Si vale 4 existe autocorrelación perfecta negativa. 3. Colinealidad. Si dos variables independientes están muy relacionadas entre sí y se incluyen en el modelo es muy probable que ninguna de las dos resulte estadísticamente significativa. En cambio, si se incluye una sola de ellas sí podría resultar estadísticamente significativa. El investigador debe examinar los coeficientes para ver si se vuelven inestables al introducir una nueva variable. Si eso sucede entonces existe colinealidad entre la nueva variable y las anteriores. 4. Número de variables independientes. Como regla general al menos tienen que existir 20 observaciones por cada variable independiente que se considere a priori como teóricamente relevante. Si utilizamos menos observaciones por variable es muy probable que aumente el error de Tipo II, es decir, disminuya la potencia estadística del diseño de investigación. Bondad del ajuste Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación Por lo tanto, la bondad de ajuste del modelo se interpreta con el valor de R2 (conocido como coeficiente de determinación). El coeficiente de determinación (R2) indica la proporción del ajuste que se ha conseguido con el modelo lineal. Es decir, multiplicado por 100 señala el porcentaje de la variación de Y que se explica a través del modelo lineal que se ha estimado a través de las variables X (independientes). A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y. Recordar que esto mismo es eta cuadrado en el modelo de ANOVA. El coeficiente de determinación (R2) también se puede interpretar como la proporción de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1. Cuanto más se acerque a uno mayor es la proporción de varianza explicada. Una cuestión, a medida que se introducen más variables independientes mayor será el valor de R2. Para evitar este posible sesgo, es mejor interpretar ‘R2 corregida’ ya que su valor disminuye cuando se introducen variables independientes innecesarias. La matriz de correlaciones entre las variables nos ayuda para identificar correlaciones lineales entre las variables. La variable dependiente y las independientes pueden estar correlacionadas pero detectar correlaciones entre pares de variables independientes es un problema que afecta a la colinealidad y alguna de ellas deberá ser eliminada del modelo. El coeficiente de determinación (R2) es el coeficiente de correlación al cuadrado. Es decir, representa el valor del tamaño del efecto y se corresponde con eta cuadrado (2) del ANOVA. R2 indica la proporción de las variaciones explicadas por el modelo de regresión. Se trata de la varianza explicada por las variables explicativas o predictorasdel modelo lineal. 1-R2 indica la proporción de las variaciones no explicadas por el modelo de regresión. Se trata de la varianza no explicada por las variables explicativas o predictoras, es decir, se atribuye al error. 5 Si la correlación fuese perfecta (1; -1) entonces el coeficiente de determinación sería 1. Es decir, todos los puntos estarían situados a lo largo de la recta de regresión y no habría error de estimación (diferencia entre puntuación obtenida y puntuación pronosticada por el modelo). El ‘error típico de estimación’ es un concepto semejante al de la desviación típica (mide la dispersión alrededor de la media) y en el análisis de regresión mide la dispersión de los datos alrededor de la recta de regresión estimada. SPSS y modelos de regresión Inferencia estadística en el modelo de regresión Una vez calculada la recta de regresión y el ajuste que se ha conseguido, el siguiente paso es analizar si la regresión es válida y se puede utilizar para predecir. Para ello hay que contrastar si la correlación entre las variables predictoras y predicha es diferente de cero. Es decir, se trata de comprobar si la estimación del modelo de regresión es estadísticamente significativa de manera que las variables explicativas X son relevantes para explicar la variable predicha Y. La prueba estadística consiste en contrastar si la pendiente de la recta de regresión poblacional es diferente de cero de forma estadísticamente significativa (hipótesis nula plantea que la pendiente es cero). Si es así entonces se puede esperar que exista una correlación lineal entre las variables. Pasos a seguir: 1. Identificar X, Y 2. Construir el diagrama de dispersión 3. Estimar los parámetros del modelo (coeficientes) 4. Probar la significación estadística 5. Determinar la fuerza de la asociación entre las variables (R2) 6. Análisis de los residuos Construir el diagrama de dispersión Cuando el coeficiente de correlación entre dos variables es alto se puede considerar que el ajuste de la recta de regresión también será alto. En aquellos casos en que el coeficiente de correlación lineal está “cercano” a +1 o a –1, tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos (recta de mínimos cuadrados). Uno de los principales usos de dicha recta será el de predecir o estimar los valores de Y que 6 obtendríamos para distintos valores de X. Estos conceptos quedarán representados en lo que se llama diagrama de dispersión: Modelo de regresión Una modelo de regresión se representa como: Y=b0 + b1X1 + …+bnXn + e Donde: Y es la variable dependiente X representa a la/las variables independientes Los coeficientes del modelo b son calculados por el programa estadístico minimizando los residuos o errores. b0 es la constante del modelo, b1 es la estimación de la pendiente en X1. La constante del modelo (b0) es el valor promedio de Y cuando el valor de X es cero. b1 mide el cambio en el valor promedio de Y como resultado de un cambio unitario en X. E es el residual del modelo Por lo tanto, la puntuación predicha de Y por el modelo de regresión es: Ypredicha =b0 + b1X1 + …+bnXn Y la diferencia entre la puntuación predicha y la obtenida es el error del modelo de regresión. El origen (o constante) de la ecuación de la recta de regresión (β ) representa el valor predicho en Y cuando la 0 variable X es igual a 0. El valor de la pendiente (β ) representa la inclinación de la recta de regresión respecto al 1 eje de abscisas, más concretamente, cuánto cambio se produce en Yˆ por cada unidad de incremento en X. En este sentido, β representa un indicador de la relevancia del efecto que los cambios en X tienen sobre Y. 1 Cuando para los coeficientes b se estiman valores no estadísticamente significativos (cercanos al cero) entonces la variable asociada se elimina del modelo. En caso contrario sí se considera la variable asociada de interés y se introduce en el modelo de regresión. Interpretación del modelo de regresión 7 La hipótesis nula señala que la variable respuesta o dependiente Y no está relacionada con las variables independientes o predictoras X. La significación estadística de los contrastes se realiza ejecutando un análisis de la varianza. El programa estadístico analiza la significación estadística de los coeficientes vinculados a las variables independientes. Si alguno de ellos no resulta estadísticamente significativo se puede eliminar del modelo para simplificar. Pero, muy importante, si al eliminar una variable cambian los coeficientes del resto de variables independientes, incluso podrían cambiar de signo, entonces muy posiblemente se trata de una variable de confundido (tercera variable que actúa como variable mediadora) que habrá que controlar en el diseño de investigación. En ese caso se debe dejar en el modelo aunque su coeficiente no sea estadísticamente significativo. Modelos de regresión múltiple El modelo de regresión múltiple permite estudiar la relación entre varias variables independientes (predictoras o explicativas) y otra variable dependiente (criterio, predicha o respuesta). Por ejemplo se puede estudiar el coeficiente intelectual como variable predicha utilizando el tamaño del cerebro y el sexo como variables predictoras independientes. Conviene siempre tener muy presente que los modelos de regresión (en general el modelo lineal general) no permiten hablar de causa-efecto. Eso es una cuestión que solamente el diseño de investigación y la metodología empleada pueden resolver. Nada que ver con la técnica estadística por sí sola. La relación entre las variables (colinealidad) también es otra cuestión que hay que tener en cuenta a la hora de interpretar un modelo de regresión. Ejecutar con el SPSS ANALIZAR---REGRESIÓN--LINEAL El método permite seleccionar el método de introducción de las variables independientes en el modelo de regresión: 8 Método—Introducir. Procedimiento para la selección de variables en el que todas las variables de un bloque se introducen en un solo paso. Es el método por defecto. Es nuestra opción. Método—pasos sucesivos. En cada paso se introduce la variable independiente que no se encuentre ya en la ecuación y que tenga la probabilidad para el estadístico razón F más pequeña, si esa probabilidad es suficientemente pequeña. Las variables ya introducidas en la ecuación de regresión se eliminan de ella si su probabilidad para F llega a ser suficientemente grande. El método termina cuando ya no hay más variables candidatas a ser incluidas o eliminadas. En Variable de selección se traslada una variable que limite el análisis a un subconjunto de casos que tengan un valor particular para esta variable. Con Regla… se puede definir el subconjunto de casos que se emplearán para estimar el modelo de regresión. Por ejemplo si se define con regla que es 4 entonces solamente se incluirán en el análisis los casos para los que la variable de selección tenga un cuatro. Permite valores de cadena. En Etiquetas de caso se designa una variable para identificar los puntos de los gráficos. Para cada punto de un diagrama de dispersión podemos utilizar la herramienta de selección de puntos y mostrar el valor de la variable de etiquetas de casos correspondiente al caso seleccionado. Ponderación MCP. Permite obtener un modelo de mínimos cuadrados ponderados. Los puntos de los datos se ponderan por los inversos de sus varianzas. Esto significa que las observaciones con varianzas grandes tienen menor impacto en el análisis que las observaciones asociadas a varianzas pequeñas. -Guardar… El botón Guardar… nos permite guardar los valores pronosticados, los residuos y medidas relacionadas como nuevas variables que se añaden al archivo de datos de trabajo. El SPSS crea dos nuevas variables en el editor de datos RES_1 y PRE_1 que recogen los residuos y las predicciones respectivamente. Los valores pronosticados son los valores que el modelo de regresión predice para cada caso. Pueden ser: 1. No tipificados. Valor pronosticado por el modelo para la variable dependiente. 2. Tipificados. Cada valor pronosticado menos el valor predicho medio y dividido por la desviación típica de los valores pronosticados. Los valores pronosticados tipificados tienen una media de 0 y una desviación típica de 1. Los valores de los residuos es el valor de la variable dependiente menos el valor pronosticado por la regresión. Pueden ser de dos tipos: 1. No tipificados. Diferencia entre el valor observado y el valor pronosticado por el modelo. 2. Tipificados. El residuo dividido por una estimación de su error típico. Los residuos tipificados, que son conocidos también como los residuos de Pearson o residuos estandarizados, tienen una media de 0 y una desviación típica de 1. - Opciones… El botón Opciones…nos permite controlar los criterios por los que se eligen las variables para su inclusión o exclusión del modelo de regresión, suprimir el término constante y controlar la manipulación de los valores perdidos. Cuando accedemos a la opción de Estadísticos señalaremos las estimaciones de los coeficientes de regresión, los descriptivos, los estadísticos de ajuste del modelo, la prueba de Durbin-Watson y los diagnósticos de la colinealidad. 9 -Estimaciones. Señalan los coeficientes de regresión y medidas relacionadas. Los coeficientes no estandarizados (no tipificados) son los coeficientes de regresión parcial que definen la ecuación de regresión en puntuaciones directas. Los coeficientes estandarizados (β) son los coeficientes que definen la ecuación de regresión en puntuaciones típicas. Estos coeficientes estandarizados ayudan a valorar la importancia relativa de cada variable independiente dentro de la ecuación. Muestra las pruebas de significación de cada coeficiente, el estadístico de contrate (t) así como su nivel crítico (Sig.). Una significación estadística pequeña (menor al alfa) permite afirmar que el coeficiente es estadísticamente significativo. 2 -Ajuste del modelo. Muestra el coeficiente de correlación múltiple (R múltiple), y su cuadrado (R , coeficiente de determinación, que expresa la proporción de varianza de la variable dependiente que está explicada por la variable o variables independientes), la R cuadrado corregida y el error típico de la estimación (desviación típica de los residuos). También, una tabla de ANOVA muestra las sumas de cuadrados, los grados de libertad, las medias cuadráticas, el valor del estadístico F y el nivel crítico (Sig.) de la F. -Cambio en R cuadrado. Nos muestra el cambio en el estadístico R2 que se produce al añadir o eliminar una variable independiente. Si el cambio en R2 asociado a una variable es grande, significa que esa variable es un buen predictor de la variable dependiente. -Descriptivos. Muestra las medias de las variables, las desviaciones típicas y la matriz de correlaciones con las probabilidades unilaterales. -Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero, semiparcial y parcial. Los valores del coeficiente de correlación van de -1 a 1. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la fuerza de la relación. Los valores mayores indican que la relación es más estrecha. La correlación parcial señala el grado de asociación lineal de cada variable independiente frente a la dependiente excluyendo el resto de las variables independientes. Permite observar si se cumple la hipótesis de linealidad. -Diagnósticos de colinealidad. Muestra las tolerancias para las variables individuales y una variedad de estadísticos para diagnosticar los problemas de colinealidad. La colinealidad (o multicolinealidad) es una situación no deseable en la que una de las variables independientes es una función lineal de otras variables independientes. Hay dos procedimientos: tolerancia y factor de inflación de la varianza (FIV). Valores bajos de tolerancia o altos para FIV supone que existe colinealidad. Conviene tener en cuenta que estos métodos no señalan las variables implicadas. Residuos. Este recuadro nos permite seleccionar una de las opciones: 10 -Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados serialmente. Éste estadístico oscila entre 0 y 4 y toma el valor 2 cuando los residuos son completamente independientes. Los valores mayores de 2 indican autocorrelación positiva y los menores de 2 autocorrelación negativa. Suele asumirse que los residuos son independientes si el estadístico de D-W está entre 1’5 y 2’5. También muestra estadísticos de resumen para los residuos y los valores pronosticados. -Diagnósticos por caso: Indica los valores por encima o por debajo de n veces alguna desviación típica. Es decir, señala los valores atípicos que producen un gran residuo. Gráficos Con el botón Gráficos… obtenemos el cuadro de diálogo siguiente: En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos estandarizados (ZPRED), los residuos estandarizados o tipificados (ZRESID), los residuos eliminando la puntuación del sujeto (DRESID) y los valores predichos ajustados (SDRESID). Si se representan los residuos tipificados frente a las predicciones podremos contrastar la linealidad y la igualdad de las varianzas. -Dispersión 1 de 1. Nos muestra los diagramas de dispersión que queramos de la lista de la izquierda, para cada par de variables, alternando anterior y siguiente. -Gráficos de residuos tipificados. En este recuadro podemos elegir uno de los gráficos: - Histograma: Crea un histograma de los residuos tipificados con una curva normal superpuesta. - Gráfico de probabilidad normal: Muestra un gráfico de probabilidad normal de los residuos tipificados. Se usa para comprobar la normalidad de los residuos tipificados. Si la variable se distribuye normalmente, los puntos representados forman una línea recta diagonal. -Generar todos los gráficos parciales. Genera todos los diagramas de dispersión de la variable dependiente con cada una de las variables independientes. En la ecuación tienen uqe haber al menos dos variables independientes para que se generen los gráficos parciales. Interpretación de los gráficos. 1. Representar los residuos tipificados o estudentizados (ZRESID o SRESID) frente a los valores pronosticados o predicciones tipificadas (ZPRED). El resultado tiene que ser una nube de puntos totalmente aleatoria. Es decir, no se observan tendencias ni patrones en la representación gráfica. Si se 11 cumple esta condición se acepta la hipótesis de linealidad y de varianza constante (homocedasticidad) de los errores. Dos supuestos del análisis de regresión. 2. Representar los valores observados frente a los predichos (DEPEND vs. ZPRED). Como resultado los valores se deben de alinear en la diagonal del cuadrante, si hubiera mucha dispersión o variabilidad entonces que no se cumple la hipótesis de homocedasticidad. Si la dispersión no es muy grande entonces existe igualdad de varianzas. Como la constante no resulta estadísticamente significativa la podemos eliminar de la ecuación de regresión. Los valores de beta (pendiente de la recta de regresión) positivos indican una relación directa entre X e Y. Los valores de beta negativos indican una relación inversa entre X e Y. La hipótesis nula en los contrastes de hipótesis de las pendientes señala que beta=0. Como las tres variables independientes tienen una pendiente estadísticamente significativa no se elimina ninguna variable del modelo. Si alguna de ellas no hubiese sido estadísticamente significativa se podría eliminar del modelo de regresión. Situación de análisis ‘ideal’: Tener variables independientes altamente correlacionadas con la variable dependiente pero con poca correlación entre sí. Cuando se tiene colinealidad o multicolinealidad (correlación entre tres o más variables independientes del modelo de regresión) entonces las variables están correlacionadas entre sí y se reduce el poder predictivo de las 12 variables independientes tomadas individualmente. En otras palabras, cuanto mayor la colinealidad menor es la varianza explicada por cada variable independiente Cómo detectar la colinealidad. Examinar la matriz de correlaciones entre las variables independientes. Si los valores son altos es probable que exista colinealidad. También se pueden observar los estadísticos de colinealidad. Existe multicolinealidad cuando: A) Valor de tolerancia (TOL) próximo a cero B) Factor de Inflación de la Varianza (FIV) superiores a 4 Simulación de la recta de regresión simple: http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html Recta de regresión: Ypredicha=0.311+3.066X DATOS 1. Sitúa los pares de datos X e Y en una tabla. 2. Representa la nube de puntos de esos pares de datos 3. Dibuja una recta que una esos puntos buscando que pase lo más cercana posible por cada uno de los puntos. 13 4. 5. 6. 7. 8. 9. Ejecuta el análisis con el SPSS Escribe la ecuación de regresión Describe la bondad de ajuste Describe si la recta de regresión es adecuada para definir la relación entre las variables. Reflexiona sobre la colinealidad de los datos Observa qué ocurre cuando uno de los puntos se separa y obtenemos una nueva recta de regresión. Representa con una línea los errores del modelo. Observa el error de estimación. 10. Ejecuta con esos nuevos datos de nuevo la recta de regresión con el SPSS 14 15