2. Estimación y predicción

Anuncio
Javier Roca Pardiñas
Prof. Titular de Universidade
Dpto. Estatística e I.O.
Universidade de Vigo
30/10/2013
Modelos Lineales de Regresión
Índice
1. Planteamiento de modelo
– Caso práctico
2. Estimación y predicción
– Aspectos computacionales
3. Inferencia
– Intervalos de confianza
– Contrastes de hipótesis
4. Bondad de ajuste
– Comprobación de hipótesis
5. Caso multivariante
6. Resumen
7. Bibliografía
3
1. Planteamiento del modelo
4
Introducción
Una de las aplicaciones más importantes de la estadística consiste en
establecer la relación entre
•
un conjunto de covariables explicativas 𝑋1 , … , 𝑋𝑝 , y
•
el valor medio de la variable respuesta 𝑌.
Objetivos del estudio:
5
•
estudiar el posible efecto de las covariables en la respuesta
•
predecir el valor de la repuesta dados los valores de las covariables
•
seleccionar las covariables que influyen en la respuesta
•
etc.
Ejemplo: estudio de la tensión arterial
En un estudio se pretende conocer la influencia
que tienen las covariables
• edad, y
• el sexo del paciente
en el comportamiento de
•
Paciente
Sexo
Edad
Tensión
1
mujer
17
114
2
mujer
19
124
3
mujer
20
116
…
…
…
…
68
hombre
18
134
69
hombre
19
128
la tensión arterial.
Para ello se dispone de una muestra de 69
pacientes a los que se le han registrado las
variables en estudio.
Fuente: www.fisterra.com (Atención Primaria en la Red)
6
180
160
140
120
tension
20
30
40
50
60
70
edad
El gráfico de dispersión permite intuir visualmente la posible relación entre
dos variables continuas.
7
FEGAS
180
140
120
tension
160
hombres
mujeres
20
30
40
50
60
70
edad
8
FEGAS
Planteamiento del modelo
Los modelos de regresión establecen la siguiente relación
𝑌 = 𝑎0 + 𝑎1 𝑋1 + ⋯ + 𝑎𝑝 𝑋𝑝 + 𝜀
respuesta media error aleatorio
𝑎0 , 𝑎1 , … , 𝑎𝑝 son los coeficientes del modelo
• 𝑎0 : término independiente
•
𝑎𝑗 : coeficiente asociado a la covariable 𝑋𝑗 (𝑗 = 1, … , 𝑝)
𝜀 representa la componente aleatoria del modelo (no se puede
predecir). Es habitual suponer
𝜀~𝑁(0, 𝜎)
9
Interpretación de los coeficientes
Cada coeficiente 𝑎𝑗 representa el incremento medio de la respuesta al
aumentar una unidad el valor de la covariable 𝑋𝑗 .
•
𝑎𝑗 = 0: no existe relación
•
𝑎𝑗 > 0: relación directa. Valores altos de 𝑋𝑗 corresponden con valores
altos de la respuesta 𝑌
•
𝑎𝑗 < 0: relación inversa. Valores altos de 𝑋𝑗 corresponden con valores
bajos de 𝑌
El término independiente 𝑎0 no siempre tiene un interpretación :
•
10
Coincide con el valor de 𝑌 cuando todas las covariables son nulas
FEGAS
Dado el modelo de regresión
tensión = 𝑎0 + 𝑎1 edad + 𝜀
•
𝑎1 : representa el incremento medio de tensión por año de edad.
•
𝑎0 : no tiene interpretación
•
•
representaría la tensión media para un paciente de cero años de edad.
𝜀: representa las perturbaciones debidas a otras variables no observadas.
• Por ejemplo, el consumo de tabaco, consumo de alcohol, hábitos
alimenticios, hábitos deportivos,...
11
FEGAS
2. Estimación y predicción
12
Para la estimación de los coeficientes del modelo
𝑌 = 𝑎0 + 𝑎1 𝑋1 + ⋯ + 𝑎𝑝 𝑋𝑝 + 𝜀
se utiliza el llamado método de mínimos cuadrados.
Los coeficientes estimados se denotan por 𝑎0 , 𝑎1 … , 𝑎𝑝 dando lugar a la recta
ajustada
𝑌 = 𝑎0 + 𝑎1 𝑋1 + ⋯ + 𝑎𝑝 𝑋𝑝
13
FEGAS
Aspectos Computacionales
14
La mayoría de los programas informáticos (Excel, SPSS, R, …) con alguna capacidad
estadística permiten hacer el ajuste de los modelos de regresión.
Dentro de estos programas nos centraremos en el programa llamado R :
•
paquete estadístico que incluye herramientas de análisis de datos y generación
de gráficos
•
software libre y gratuito que funciona bajo Windows, MAC OS, Linux y Ubuntu.
Por todo ello R es una herramienta estadística muy
adecuada ya que permite que los usuarios la
descarguen, y utilicen de forma libre y gratuita, desde la
página web
http://www.r-project.org
15
FEGAS
> modelo=lm(tension~edad)
> modelo
Call:
lm(formula = tension ~ edad)
Coefficients:
(Intercept)
103.3527
edad
0.9836
Se obtiene que hay un incremento medio de
tensión de 0.98 unidades por cada año de
edad
16
FEGAS
Predicciones
La recta de regresión puede servir para hacer predicciones de la respuesta para
nuevos valores de las covariables.
El método es muy sencillo:
• A partir de los datos observados se obtiene la recta ajustada
𝑌 = 𝑎0 + 𝑎1 𝑋1 + ⋯ + 𝑎𝑝 𝑋𝑝
• Entonces, dados los valore 𝒙0 = 𝑥01 , … , 𝑥0𝑝 de las covariables, la predicción
para la respuesta viene dada por
𝑌 𝒙0 = 𝑎0 + 𝑎1 𝑥01 + ⋯ + 𝑎𝑝 𝑥0𝑝
17
FEGAS
En el estudio de tensión se había obtenido
la recta ajustada
tensión=103.35 + 0.98 ∙ edad
En la tabla de la derecha se muestran las
predicciones de tensión media para
distintos valores de edad.
18
edad
20
30
40
50
60
70
tensión
123,0
132,9
142,7
152,5
162,4
172,2
FEGAS
3. Inferencia
Intervalos de confianza
Contrastes de hipótesis
19
Inferencia
Para poder obtener conclusiones significativas será necesario la utilización de
métodos inferenciales (contrastes e intervalos).
• Contraste de significación conjunta del modelo: F de Snedecor
𝐻0 : 𝑎1 = ⋯ = 𝑎𝑝 = 0
• Contraste de significación individual de cada covariable: t de Student
𝐻0 : 𝑎𝑗 = 0
20
FEGAS
> summary(modelo)
Call:
lm(formula = tensión ~ edad)
Residuals:
Min
1Q Median
-26.79 -7.02
1.96
3Q
8.19
Max
22.63
Significación
individual
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 103.3527
4.3261
23.9
<2e-16 ***
edad
0.9836
0.0892
11.0
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 11.1 on 67 degrees of freedom
Multiple R-squared: 0.645,
Adjusted R-squared: 0.639
F-statistic: 122 on 1 and 67 DF, p-value: <2e-16
Significación
conjunta
Los p-valores obtenidos son muy pequeños obteniéndose significación estadística
21
FEGAS
A continuación se muestran los intervalos de confianza (IC) al 95% de los
coeficientes del modelo.
> confint(modelo)
2.5 % 97.5 %
(Intercept) 94.718 111.99
edad
0.806
1.16
Los intervalos obtenidos no contienen al cero, lo que concuerda con el hecho
de que los p-valores obtenidos antes fuesen pequeños
22
FEGAS
Intervalos para la respuesta
Como ya se ha comentado con anterioridad, dados los valores de las covariables
𝒙0 = 𝑥01 , … , 𝑥0𝑝 , la predicción para la respuesta viene dada por
𝑌 𝒙0 = 𝑎0 + 𝑎1 𝑥01 + ⋯ + 𝑎𝑝 𝑥0𝑝
Sin embargo, para la construcción de intervalos de confianza (IC) se necesita
distinguir entre:
• IC para la respuesta media
• IC para un valor específico de la respuesta (intervalo de predicción)
Lógicamente, los IC en el segundo caso serán mucho más amplios.
23
FEGAS
24
edad
tensión
IC para valor medio
IC de predicción
20
123.02
(117.66, 128.39)
(100.24, 145.81)
30
132.86
(128.94, 136.78)
(110.37, 155.35)
40
142.69
(139.81, 145.58)
(120.36, 165.03)
50
152.53
(149.78, 155.28)
(130.22, 174.85)
60
162.37
(158.73, 166.00)
(139.93, 184.81)
70
172.20
(167.19, 177.22)
(149.50, 194.91)
FEGAS
180
160
140
120
tensión
valor medio
predicción
20
30
40
50
60
70
edad
• La longitud de los intervalos aumentan a medida que la edad se distancia de su valor
medio (46.1 años)
• La longitud de los intervalos es mucho mayor para el caso de la predicción que para
el caso del valor medio.
25
FEGAS
3. Bondad de ajuste del modelo
Comprobación de hipótesis
26
El ajuste a los datos dada por la recta de regresión no estará completamente resuelto
si no está acompañada de una medida de su bondad.
La media más importante de la bondad de ajuste es el llamado coeficiente de
determinación 𝑹𝟐 .
𝑹𝟐 =porcentaje de explicación de la respuesta a través del ajuste
Interpretación:
• 𝑹𝟐 toma valores entre 0 y 1
• 𝑹𝟐 próximo a 1: buen ajuste (los datos estarán próximos a la recta)
• 𝑹𝟐 próximo a 0: mal ajuste
27
FEGAS
¿Cuándo de puede considerar bueno el valor de 𝑹𝟐 obtenido?
La respuesta dependerá del área de aplicación:
28
•
En bilogía y ciencias sociales, es habitual que las variables tengan bastante ”ruido”
y las correlaciones no suelen ser muy altas. En estas áreas un valor 𝑅2 =0.6 puede
ser considerado bueno
•
En cambio, en física e ingeniería, cuando los datos vienen de experimentos
controlados se espera un valor de 𝑅2 mucho valor y un valor de 𝑅2 =0.6 se
considerará bajo.
FEGAS
De forma general, una regla razonable es decir que la relación es:
• débil: 0 < 𝑅2 <0.25
• moderada: 0.25 ≤ 𝑅2 <0.6
• fuerte: 𝑅2 ≥0.6
En nuestro estudio se obtiene un "buen" valor de 𝑅2 =0.64.
•
29
la edad explica el 64% de la variabilidad de la tensión.
FEGAS
Verificación de las hipótesis del modelo
Para que un estudio tenga validez será necesario comprobar las hipótesis del
modelo:
•
linealidad
•
normalidad
•
variabilidad constante (homocedasticidad)
•
ausencia de valores alejados y/o influyentes
Las comprobaciones anteriores se harán mediante el estudio de los residuos del
modelo
residuos=respuestas observadas-respuestas predichas
30
FEGAS
180
140
120
tensión
160
residuos
20
30
40
50
60
70
edad
31
FEGAS
Hipótesis de linealidad y variabilidad constante
El análisis de los residuos se hace
gráficamente a través de un gráfico de
dispersión
Además la amplitud de los errores se
mantendrá
aproximadamente
constante (hipótesis de varianza
constante).
32
20
10
0
-10
-20
Habrá un buen ajuste cuando la nube
de puntos no muestre ningún tipo de
estructura (hipótesis de linealidad).
60
9
7
-30
abscisas: respuestas estimadas
ordenadas: residuos
Residuals
•
•
Residuals vs Fitted
120
130
140
150
160
170
Fitted values
lm(tension ~ edad)
FEGAS
Observaciones atípicas
Scale-Location
7
1.5
Gráficos de residuos estudentizados:
60
0.0
En el gráfico se destaca la presencia de
posibles valores atípicos
1.0
abscisas: respuestas estimadas
ordenadas: raíz cuadrada de los
residuos estudentizados
0.5
•
•
Standardized residuals
9
120
130
140
150
160
170
Fitted values
lm(tension ~ edad)
33
FEGAS
Hipótesis de normalidad
Para comprobar la normalidad se utilizaran
los llamados QQ-plots.
La hipótesis cumple cuando los puntos
del gráfico están cercanos a la línea
diagonal.
2
1
0
-1
> shapiro.test(modelo$res)
Shapiro-Wilk normality test
data: modelo$res
W = 0.9726, p-value = 0.1339
60
-2
Además, es conveniente pasar algún test de
normalidad a los residuos.
Normal Q-Q
Standardized residuals
•
9
7
El p-valor obtenido es elevado y se acepta la
hipótesis de normalidad.
-2
-1
0
1
2
Theoretical Quantiles
lm(tension ~ edad)
34
FEGAS
Observaciones influyentes
•
0.06
0.04
0.02
Mide la diferencia de los coeficientes
obtenidos incluyendo dicha observación
y sin incluirla.
En general, un caso con una distancia de
Cook superior a 1 debe ser revisado
60
0.00
•
7
24
Cook's distance
Uno de los criterios para detectar estos
valores influyentes se basa en el calculo de
la distancia de Cook.
Cook's distance
0.08
Una observación es influyente si al ser
eliminada de la muestra se obtiene un
modelo ajustado muy diferente al obtenido
con la muestra completa.
0
10
20
30
40
50
60
Obs. number
lm(tension ~ edad)
35
FEGAS
70
5. Estudio multivariante
36
Estudio tensión arterial
Hasta ahora, en el estudio de la tensión se ha considerado únicamente como covariable la
edad. Para estudiar de forma conjunta el efecto de la edad y del sexo del paciente se
puede utilizar el modelo
tensión = 𝑎0 + 𝑎1 edad + 𝑎2 sexo + 𝜀
Variables dummy: Nótese la variable sexo es un factor con dos posibles valores: “hombre”
y “mujer”. Esta variable es introducida en el modelo anterior utilizando la siguientes
codificación:
𝑠𝑒𝑥𝑜 ∗ =
0 si
1 si
hombre
mujer
Por lo tanto el coeficiente 𝑎2 representa el incremento de la tensión de las mujeres al
considerar como referencia a los hombres.
37
FEGAS
> modelo=lm(tensión~edad+sexo)
> summary(modelo)
Call:
lm(formula = tensión ~ edad + sexo)
Residuals:
Min
1Q Median
-20.72 -3.33
1.25
3Q
4.34
Max
21.16
Coeficientes
significativos
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 110.2844
3.6271
30.41 < 2e-16 ***
edad
0.9566
0.0713
13.41 < 2e-16 ***
sexomujer
-13.5363
2.1640
-6.26 3.3e-08 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.86 on 66 degrees of freedom
Multiple R-squared: 0.777,
Adjusted R-squared: 0.77
F-statistic: 115 on 2 and 66 DF, p-value: <2e-16
38
FEGAS
Se ha obtenido el ajuste
tensión=110.28 + 0.96 ∙ edad − 17.86 ∙ sexo
Conclusiones:
39
•
La edad es un factor de riesgo: la tensión aumenta 0.96 (0.81, 1.09)
unidades por año de edad.
•
Ser mujer es un factor protector: las mujeres tienen una tensión -13.53
(-17.86, -9.21) unidades más baja que la de los hombres.
FEGAS
En la tabla se muestra la tensión media (IC al 95%) ajustada por edad y
sexo.
40
edad
hombres
mujeres
20
129.4 (124.7, 134.2)
115.9 (111.0, 120.7)
30
139.0 (135.3, 142.7)
125.4 (121.5, 129.4)
40
148.5 (145.6, 151.5)
135.0 (131.7, 138.4)
50
158.1 (155.3, 160.9)
144.6 (141.2, 147.9)
60
167.7 (164.3, 171.0)
154.1 (150.2, 158.1)
70
177.2 (172.9, 181.6)
163.7 (158.9, 168.5)
FEGAS
180
140
120
tensión
160
hombres
mujeres
20
30
40
50
60
70
edad
41
FEGAS
6. Resumen
42
Los modelos de regresión lineal sirven para establecer una relación lineal entre:
• Una variable respuesta de interés, y
• Un conjunto de covariables explicativas
Hipótesis del modelo:
•
•
•
•
43
Linealidad
Normalidad
Variabilidad constante
Ausencia de valores atípicos y/o influyentes
7. Bibliografía
44
•
Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons, 1977.
•
Julian J. Faraway. Practical Regression and Anova using R.
http://www.maths.bath.ac.uk/~jjf23/book/pra.pdf
•
Virasakdi Chongsuvivatwong. Analysis of Epidemiological Data Using R and Epicalc.
http://cran.r-project.org/doc/contrib/Epicalc_Book.pdf
45
FEGAS
Descargar