Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo 30/10/2013 Modelos Lineales de Regresión Índice 1. Planteamiento de modelo – Caso práctico 2. Estimación y predicción – Aspectos computacionales 3. Inferencia – Intervalos de confianza – Contrastes de hipótesis 4. Bondad de ajuste – Comprobación de hipótesis 5. Caso multivariante 6. Resumen 7. Bibliografía 3 1. Planteamiento del modelo 4 Introducción Una de las aplicaciones más importantes de la estadística consiste en establecer la relación entre • un conjunto de covariables explicativas 𝑋1 , … , 𝑋𝑝 , y • el valor medio de la variable respuesta 𝑌. Objetivos del estudio: 5 • estudiar el posible efecto de las covariables en la respuesta • predecir el valor de la repuesta dados los valores de las covariables • seleccionar las covariables que influyen en la respuesta • etc. Ejemplo: estudio de la tensión arterial En un estudio se pretende conocer la influencia que tienen las covariables • edad, y • el sexo del paciente en el comportamiento de • Paciente Sexo Edad Tensión 1 mujer 17 114 2 mujer 19 124 3 mujer 20 116 … … … … 68 hombre 18 134 69 hombre 19 128 la tensión arterial. Para ello se dispone de una muestra de 69 pacientes a los que se le han registrado las variables en estudio. Fuente: www.fisterra.com (Atención Primaria en la Red) 6 180 160 140 120 tension 20 30 40 50 60 70 edad El gráfico de dispersión permite intuir visualmente la posible relación entre dos variables continuas. 7 FEGAS 180 140 120 tension 160 hombres mujeres 20 30 40 50 60 70 edad 8 FEGAS Planteamiento del modelo Los modelos de regresión establecen la siguiente relación 𝑌 = 𝑎0 + 𝑎1 𝑋1 + ⋯ + 𝑎𝑝 𝑋𝑝 + 𝜀 respuesta media error aleatorio 𝑎0 , 𝑎1 , … , 𝑎𝑝 son los coeficientes del modelo • 𝑎0 : término independiente • 𝑎𝑗 : coeficiente asociado a la covariable 𝑋𝑗 (𝑗 = 1, … , 𝑝) 𝜀 representa la componente aleatoria del modelo (no se puede predecir). Es habitual suponer 𝜀~𝑁(0, 𝜎) 9 Interpretación de los coeficientes Cada coeficiente 𝑎𝑗 representa el incremento medio de la respuesta al aumentar una unidad el valor de la covariable 𝑋𝑗 . • 𝑎𝑗 = 0: no existe relación • 𝑎𝑗 > 0: relación directa. Valores altos de 𝑋𝑗 corresponden con valores altos de la respuesta 𝑌 • 𝑎𝑗 < 0: relación inversa. Valores altos de 𝑋𝑗 corresponden con valores bajos de 𝑌 El término independiente 𝑎0 no siempre tiene un interpretación : • 10 Coincide con el valor de 𝑌 cuando todas las covariables son nulas FEGAS Dado el modelo de regresión tensión = 𝑎0 + 𝑎1 edad + 𝜀 • 𝑎1 : representa el incremento medio de tensión por año de edad. • 𝑎0 : no tiene interpretación • • representaría la tensión media para un paciente de cero años de edad. 𝜀: representa las perturbaciones debidas a otras variables no observadas. • Por ejemplo, el consumo de tabaco, consumo de alcohol, hábitos alimenticios, hábitos deportivos,... 11 FEGAS 2. Estimación y predicción 12 Para la estimación de los coeficientes del modelo 𝑌 = 𝑎0 + 𝑎1 𝑋1 + ⋯ + 𝑎𝑝 𝑋𝑝 + 𝜀 se utiliza el llamado método de mínimos cuadrados. Los coeficientes estimados se denotan por 𝑎0 , 𝑎1 … , 𝑎𝑝 dando lugar a la recta ajustada 𝑌 = 𝑎0 + 𝑎1 𝑋1 + ⋯ + 𝑎𝑝 𝑋𝑝 13 FEGAS Aspectos Computacionales 14 La mayoría de los programas informáticos (Excel, SPSS, R, …) con alguna capacidad estadística permiten hacer el ajuste de los modelos de regresión. Dentro de estos programas nos centraremos en el programa llamado R : • paquete estadístico que incluye herramientas de análisis de datos y generación de gráficos • software libre y gratuito que funciona bajo Windows, MAC OS, Linux y Ubuntu. Por todo ello R es una herramienta estadística muy adecuada ya que permite que los usuarios la descarguen, y utilicen de forma libre y gratuita, desde la página web http://www.r-project.org 15 FEGAS > modelo=lm(tension~edad) > modelo Call: lm(formula = tension ~ edad) Coefficients: (Intercept) 103.3527 edad 0.9836 Se obtiene que hay un incremento medio de tensión de 0.98 unidades por cada año de edad 16 FEGAS Predicciones La recta de regresión puede servir para hacer predicciones de la respuesta para nuevos valores de las covariables. El método es muy sencillo: • A partir de los datos observados se obtiene la recta ajustada 𝑌 = 𝑎0 + 𝑎1 𝑋1 + ⋯ + 𝑎𝑝 𝑋𝑝 • Entonces, dados los valore 𝒙0 = 𝑥01 , … , 𝑥0𝑝 de las covariables, la predicción para la respuesta viene dada por 𝑌 𝒙0 = 𝑎0 + 𝑎1 𝑥01 + ⋯ + 𝑎𝑝 𝑥0𝑝 17 FEGAS En el estudio de tensión se había obtenido la recta ajustada tensión=103.35 + 0.98 ∙ edad En la tabla de la derecha se muestran las predicciones de tensión media para distintos valores de edad. 18 edad 20 30 40 50 60 70 tensión 123,0 132,9 142,7 152,5 162,4 172,2 FEGAS 3. Inferencia Intervalos de confianza Contrastes de hipótesis 19 Inferencia Para poder obtener conclusiones significativas será necesario la utilización de métodos inferenciales (contrastes e intervalos). • Contraste de significación conjunta del modelo: F de Snedecor 𝐻0 : 𝑎1 = ⋯ = 𝑎𝑝 = 0 • Contraste de significación individual de cada covariable: t de Student 𝐻0 : 𝑎𝑗 = 0 20 FEGAS > summary(modelo) Call: lm(formula = tensión ~ edad) Residuals: Min 1Q Median -26.79 -7.02 1.96 3Q 8.19 Max 22.63 Significación individual Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 103.3527 4.3261 23.9 <2e-16 *** edad 0.9836 0.0892 11.0 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 11.1 on 67 degrees of freedom Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F-statistic: 122 on 1 and 67 DF, p-value: <2e-16 Significación conjunta Los p-valores obtenidos son muy pequeños obteniéndose significación estadística 21 FEGAS A continuación se muestran los intervalos de confianza (IC) al 95% de los coeficientes del modelo. > confint(modelo) 2.5 % 97.5 % (Intercept) 94.718 111.99 edad 0.806 1.16 Los intervalos obtenidos no contienen al cero, lo que concuerda con el hecho de que los p-valores obtenidos antes fuesen pequeños 22 FEGAS Intervalos para la respuesta Como ya se ha comentado con anterioridad, dados los valores de las covariables 𝒙0 = 𝑥01 , … , 𝑥0𝑝 , la predicción para la respuesta viene dada por 𝑌 𝒙0 = 𝑎0 + 𝑎1 𝑥01 + ⋯ + 𝑎𝑝 𝑥0𝑝 Sin embargo, para la construcción de intervalos de confianza (IC) se necesita distinguir entre: • IC para la respuesta media • IC para un valor específico de la respuesta (intervalo de predicción) Lógicamente, los IC en el segundo caso serán mucho más amplios. 23 FEGAS 24 edad tensión IC para valor medio IC de predicción 20 123.02 (117.66, 128.39) (100.24, 145.81) 30 132.86 (128.94, 136.78) (110.37, 155.35) 40 142.69 (139.81, 145.58) (120.36, 165.03) 50 152.53 (149.78, 155.28) (130.22, 174.85) 60 162.37 (158.73, 166.00) (139.93, 184.81) 70 172.20 (167.19, 177.22) (149.50, 194.91) FEGAS 180 160 140 120 tensión valor medio predicción 20 30 40 50 60 70 edad • La longitud de los intervalos aumentan a medida que la edad se distancia de su valor medio (46.1 años) • La longitud de los intervalos es mucho mayor para el caso de la predicción que para el caso del valor medio. 25 FEGAS 3. Bondad de ajuste del modelo Comprobación de hipótesis 26 El ajuste a los datos dada por la recta de regresión no estará completamente resuelto si no está acompañada de una medida de su bondad. La media más importante de la bondad de ajuste es el llamado coeficiente de determinación 𝑹𝟐 . 𝑹𝟐 =porcentaje de explicación de la respuesta a través del ajuste Interpretación: • 𝑹𝟐 toma valores entre 0 y 1 • 𝑹𝟐 próximo a 1: buen ajuste (los datos estarán próximos a la recta) • 𝑹𝟐 próximo a 0: mal ajuste 27 FEGAS ¿Cuándo de puede considerar bueno el valor de 𝑹𝟐 obtenido? La respuesta dependerá del área de aplicación: 28 • En bilogía y ciencias sociales, es habitual que las variables tengan bastante ”ruido” y las correlaciones no suelen ser muy altas. En estas áreas un valor 𝑅2 =0.6 puede ser considerado bueno • En cambio, en física e ingeniería, cuando los datos vienen de experimentos controlados se espera un valor de 𝑅2 mucho valor y un valor de 𝑅2 =0.6 se considerará bajo. FEGAS De forma general, una regla razonable es decir que la relación es: • débil: 0 < 𝑅2 <0.25 • moderada: 0.25 ≤ 𝑅2 <0.6 • fuerte: 𝑅2 ≥0.6 En nuestro estudio se obtiene un "buen" valor de 𝑅2 =0.64. • 29 la edad explica el 64% de la variabilidad de la tensión. FEGAS Verificación de las hipótesis del modelo Para que un estudio tenga validez será necesario comprobar las hipótesis del modelo: • linealidad • normalidad • variabilidad constante (homocedasticidad) • ausencia de valores alejados y/o influyentes Las comprobaciones anteriores se harán mediante el estudio de los residuos del modelo residuos=respuestas observadas-respuestas predichas 30 FEGAS 180 140 120 tensión 160 residuos 20 30 40 50 60 70 edad 31 FEGAS Hipótesis de linealidad y variabilidad constante El análisis de los residuos se hace gráficamente a través de un gráfico de dispersión Además la amplitud de los errores se mantendrá aproximadamente constante (hipótesis de varianza constante). 32 20 10 0 -10 -20 Habrá un buen ajuste cuando la nube de puntos no muestre ningún tipo de estructura (hipótesis de linealidad). 60 9 7 -30 abscisas: respuestas estimadas ordenadas: residuos Residuals • • Residuals vs Fitted 120 130 140 150 160 170 Fitted values lm(tension ~ edad) FEGAS Observaciones atípicas Scale-Location 7 1.5 Gráficos de residuos estudentizados: 60 0.0 En el gráfico se destaca la presencia de posibles valores atípicos 1.0 abscisas: respuestas estimadas ordenadas: raíz cuadrada de los residuos estudentizados 0.5 • • Standardized residuals 9 120 130 140 150 160 170 Fitted values lm(tension ~ edad) 33 FEGAS Hipótesis de normalidad Para comprobar la normalidad se utilizaran los llamados QQ-plots. La hipótesis cumple cuando los puntos del gráfico están cercanos a la línea diagonal. 2 1 0 -1 > shapiro.test(modelo$res) Shapiro-Wilk normality test data: modelo$res W = 0.9726, p-value = 0.1339 60 -2 Además, es conveniente pasar algún test de normalidad a los residuos. Normal Q-Q Standardized residuals • 9 7 El p-valor obtenido es elevado y se acepta la hipótesis de normalidad. -2 -1 0 1 2 Theoretical Quantiles lm(tension ~ edad) 34 FEGAS Observaciones influyentes • 0.06 0.04 0.02 Mide la diferencia de los coeficientes obtenidos incluyendo dicha observación y sin incluirla. En general, un caso con una distancia de Cook superior a 1 debe ser revisado 60 0.00 • 7 24 Cook's distance Uno de los criterios para detectar estos valores influyentes se basa en el calculo de la distancia de Cook. Cook's distance 0.08 Una observación es influyente si al ser eliminada de la muestra se obtiene un modelo ajustado muy diferente al obtenido con la muestra completa. 0 10 20 30 40 50 60 Obs. number lm(tension ~ edad) 35 FEGAS 70 5. Estudio multivariante 36 Estudio tensión arterial Hasta ahora, en el estudio de la tensión se ha considerado únicamente como covariable la edad. Para estudiar de forma conjunta el efecto de la edad y del sexo del paciente se puede utilizar el modelo tensión = 𝑎0 + 𝑎1 edad + 𝑎2 sexo + 𝜀 Variables dummy: Nótese la variable sexo es un factor con dos posibles valores: “hombre” y “mujer”. Esta variable es introducida en el modelo anterior utilizando la siguientes codificación: 𝑠𝑒𝑥𝑜 ∗ = 0 si 1 si hombre mujer Por lo tanto el coeficiente 𝑎2 representa el incremento de la tensión de las mujeres al considerar como referencia a los hombres. 37 FEGAS > modelo=lm(tensión~edad+sexo) > summary(modelo) Call: lm(formula = tensión ~ edad + sexo) Residuals: Min 1Q Median -20.72 -3.33 1.25 3Q 4.34 Max 21.16 Coeficientes significativos Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 110.2844 3.6271 30.41 < 2e-16 *** edad 0.9566 0.0713 13.41 < 2e-16 *** sexomujer -13.5363 2.1640 -6.26 3.3e-08 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 8.86 on 66 degrees of freedom Multiple R-squared: 0.777, Adjusted R-squared: 0.77 F-statistic: 115 on 2 and 66 DF, p-value: <2e-16 38 FEGAS Se ha obtenido el ajuste tensión=110.28 + 0.96 ∙ edad − 17.86 ∙ sexo Conclusiones: 39 • La edad es un factor de riesgo: la tensión aumenta 0.96 (0.81, 1.09) unidades por año de edad. • Ser mujer es un factor protector: las mujeres tienen una tensión -13.53 (-17.86, -9.21) unidades más baja que la de los hombres. FEGAS En la tabla se muestra la tensión media (IC al 95%) ajustada por edad y sexo. 40 edad hombres mujeres 20 129.4 (124.7, 134.2) 115.9 (111.0, 120.7) 30 139.0 (135.3, 142.7) 125.4 (121.5, 129.4) 40 148.5 (145.6, 151.5) 135.0 (131.7, 138.4) 50 158.1 (155.3, 160.9) 144.6 (141.2, 147.9) 60 167.7 (164.3, 171.0) 154.1 (150.2, 158.1) 70 177.2 (172.9, 181.6) 163.7 (158.9, 168.5) FEGAS 180 140 120 tensión 160 hombres mujeres 20 30 40 50 60 70 edad 41 FEGAS 6. Resumen 42 Los modelos de regresión lineal sirven para establecer una relación lineal entre: • Una variable respuesta de interés, y • Un conjunto de covariables explicativas Hipótesis del modelo: • • • • 43 Linealidad Normalidad Variabilidad constante Ausencia de valores atípicos y/o influyentes 7. Bibliografía 44 • Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons, 1977. • Julian J. Faraway. Practical Regression and Anova using R. http://www.maths.bath.ac.uk/~jjf23/book/pra.pdf • Virasakdi Chongsuvivatwong. Analysis of Epidemiological Data Using R and Epicalc. http://cran.r-project.org/doc/contrib/Epicalc_Book.pdf 45 FEGAS