Regresión múltiple

Anuncio
Regresión múltiple
Demostraciones
Elisa Mª Molanes López
El modelo de regresión múltiple
El modelo que se plantea en regresión múltiple es el siguiente:
yi = β0 + β1 x1i + β2 x2i + . . . + βk xki + ui
donde
x1 , x2 , . . . , xk son las variables independientes o explicativas.
La variable respuesta depende de las variables explicativas y de una
componente de error que se distribuye según una normal: ui = N (0, σ 2 )
El ajuste del modelo se realiza por el método de máxima verosimilitud o el
método de mínimos cuadrados. En el caso de distribución normal de errores,
ambos métodos coinciden, como ya se vió en regresión simple.
El modelo de regresión múltiple
El valor que el modelo estimado predice para la observación i-ésima es:
ŷi = β̂0 + β̂1 x1i + β̂2 x2i + . . . + β̂k xki
y el error cometido en esa predicción es:
ei = yi − ŷi = yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . β̂k xki )
donde
β̂0 , β̂1 , . . . , β̂k
son los valores estimados del modelo.
El criterio de mínimos cuadrados asigna a β̂0 , β̂1 , . . . , β̂k el valor que
minimiza la suma de errores al cuadrado de todas las observaciones.
Notación
⎛
⎜
⎜
Y =⎜
⎝
y1
y2
..
.
yn
⎛
⎞
⎜
⎟
⎜
⎟
⎟ Ŷ = ⎜
⎝
⎠
ŷ1
ŷ2
..
.
ŷn
⎛
⎞
⎜
⎟
⎜
⎟
⎟ β=⎜
⎝
⎠
β0
β1
..
.
βk
⎞
⎟
⎟
⎟
⎠
⎛
⎜
⎜
β̂ = ⎜
⎝
β̂0
β̂1
..
.
β̂k
⎞
⎛
⎟
⎜
⎟
⎜
⎟ e=⎜
⎠
⎝
e1
e2
..
.
en
⎞
⎟
⎟
⎟
⎠
X es la denominada matriz de diseño, de dimensión n x (k+1)
⎛
⎜
⎜
X=⎜
⎝
x11
x12
..
.
x21
x22
..
.
···
···
..
.
xk1
xk2
..
.
1 x1n
x2n
···
xkn
1
1
..
.
⎞
⎛
´
⎟ ³
⎜
⎟= ~1, X
~ 1, X
~ 2, . . . , X
~ k , siendo X
~j = ⎜
⎟
⎜
⎠
⎝
xj1
xj2
..
.
xjn
⎞
⎟
⎟
⎟
⎠
Forma matricial del modelo
La expresión matricial del modelo de regresión múltiple es la siguiente:
Y = Xβ + U
El modelo estimado también puede expresarse en forma matricial:
Ŷ = X β̂
Y − Ŷ = e
Ajuste por mínimos cuadrados
ei = yi − ŷi = yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . β̂k xki )
Son los parámetros estimados del modelo
Como en regresión simple, el criterio de mínimos cuadrados asigna a
los parámetros del modelo el valor que minimiza la suma de errores al
cuadrado de todas las observaciones.
La suma de errores al cuadrado es S:
S=
Pn
2
i=1 ei
=
³
´2
i=1 yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . + β̂k xki )
Pn
Ajuste por mínimos cuadrados
Al igual que en regresión simple, la estrategia que seguimos para
calcular el mínimo de S es:
• derivar S con respecto a los parámetros,
• igualar a cero cada derivada,
• y resolver el sistema de ecuaciones que resulta (y en el que las
incógnitas vienen dadas por los k+1 parámetros que queremos estimar).
Denota traspuesta
de una matriz
Teniendo en cuenta que:
∂xT a
∂a
=x
∂aT Xa
∂a
= 2Xa
En términos matriciales, resulta que:
∂S
∂β
Es una matriz simétrica,
de dimensión (k+1)x(k+1)
= −X T Y − X T Y + 2(X T X)β Su rango debe ser máximo
para ser invertible, es decir:
T
T
→X Y = (X X)β
rango(X T X) = k + 1
Así que,
β̂ = (X T X)−1 X T Y
Ajuste por mínimos cuadrados
Que el rango(X T X) = k + 1 es equivalente a pedir que ninguna de las
variables explicativas se pueda escribir como combinación lineal de las demás.
Son las ecuaciones normales de la regresión
∂S
∂β
= −2X T Y + 2(X T X)β = ~0
De ellas se deduce que:
Pn
i=1 ei = 0
Pn
i=1 ei xij
= 0, j = 1, . . . , k
Los errores de predicción
suman cero
La covarianza entre los errores
de predicción y cada variable
explicativa es cero
Ajuste por mínimos cuadrados
Al igual que en regresión simple, ahora necesitamos estimar la varianza, σ 2 ,
del error aleatorio U
Un estimador razonable es, en principio, la varianza de los errores de predicción
(también conocidos con el nombre de residuos del modelo):
Pn 2
1 T
1
σ̂ = n e e = n i=1 ei
Sin embargo, este estimador es sesgado para σ 2, lo que significa que:
2
E(σ̂ 2 ) = σ 2
El sesgo se define como la diferencia entre la media del estimador
y el verdadero valor del parámetro que se quiere estimar.
Usaremos, por tanto, la varianza residual para estimar σ 2, que sí es un estimador
2
insesgado de σ 2, es decir, centrado en torno a σ
ŝ2R
=
1
n−(k+1)
Pn
2
e
i=1 i
Relaciones entre las variables
β̂ = (X T X)−1 X T Y
Ŷ = X β̂ = X(X T X)−1 X T Y = HY
A esta matriz le vamos a llamar H y se le conoce con el nombre de matriz de
proyección.
Este nombre quedará justificado una vez veamos la interpretación geométrica
de la estimación.
Las propiedades de la matriz H son las siguientes:
• Es idempotente: HH = H
• Es simétrica: HT = H
• Tiene el mismo rango que X: (k+1)
Relaciones entre las variables
Es sencillo ver que el error de predicción se puede escribir en forma
matricial en términos de H
e = Y − Ŷ = Y − HY = (I − H)Y
La expresión Ŷ = HY , indica que la matriz H (la cual es idempotente),
transforma el vector de observaciones Y en el vector de valores ajustados
(o predicciones) Ŷ
Una matriz idempotente realiza una proyección, por lo que la regresión va a
ser una proyección.
Para entender mejor cómo es esa proyección, vamos a estudiar las
relaciones existentes entre e, Y e Ŷ .
Relaciones entre las variables
El vector de residuos es perpendicular al vector de valores ajustados y
a la matriz de diseño. Veámoslo:
e⊥Ŷ
eT Ŷ = [(I − H)Y ]T HY = Y T (I − H)HY = Y T HY − Y T HHY = 0
e⊥X
eT X = [(I − H)Y ]T X = Y T (I − H)X = Y T (X − X(X T X)−1 X T X) = 0
Así que el modelo de regresión Ŷ = HY proyecta el vector de observaciones sobre
el subespacio vectorial de las columnas de la matriz X (es decir el subespacio de las
variables independientes).
El vector de residuos es perpendicular a cada columna de X y al vector de predicción Ŷ
Interpretación geométrica
En el espacio formado por las variables, el método de mínimos cuadrados equivale a
encontrar un vector en dicho espacio que esté lo más próximo posible al vector de
observaciones.
Ŷ es la proyección ortogonal de Y sobre dicho espacio
Vector de observaciones Y
Esp(X)
e Vector de residuos
Ŷ
Vector de valores ajustados.
Está en Esp(X)
Subespacio vectorial generado por la columnas de X.
Es decir, por los vectores columna de las variables explicativas
Distribución de β̂
β̂ = (X T X)−1 X T Y
Le llamaremos matriz A
Sabemos que el vector de observaciones Y se distribuye según una normal
multivariante de media Xβ
y de matriz de varianzas covarianzas σ 2 In
Y ∼ Nn (Xβ, σ 2 In )
β̂ es una combinación lineal de las componentes del vector Y , así que
β̂ también se distribuye según una variable aleatoria normal.
A continuación, calcularemos su media y matriz de varianzas y covarianzas
Distribución de β̂
³ ´
¡ T −1 T ¢
E β̂ = E (X X) X Y = (X T X)−1 X T E(Y ) = (X T X)−1 X T Xβ = β
β̂ es un estimador centrado de β
V ar(β̂) = V ar(AY ) = A · V ar(Y ) · AT = (X T X)−1 X T V ar(Y )X(X T X)−1
= (X T X)−1 X T σ 2 X(X T X)−1 = σ 2 (X T X)−1
β̂ ∼ Nk+1 (β, σ 2 (X T X)−1 )
β̂i ∼ N (βi , σ 2 qii )
qii es el elemento i-ésimo de la diagonal de la matriz (X T X)−1
Distribución de β̂
2
La estimación de σ la hacíamos a través de la varianza residual
ŝ2R
=
1
n−(k+1)
Pn
2
e
i=1 i
2
2
De manera que, estimaremos la varianza de β̂i ∼ N (βi , σ qii ) mediante ŝR qii
La raíz cuadrada de ŝ2R qii
nos da el error estándar de β̂i
p
√
SE(β̂i ) = ŝ2R qii = ŝR qii
Se puede demostrar que:
(n−k−1)ŝ2R
σ2
∼ χ2n−k−1
Contraste t
Hemos visto que: β̂i ∼ N (βi , σ 2 qii ). Por tanto, estandarizando, se obtiene que:
β̂i −βi
√
σ qii
∼ N (0, 1)
Una variable t de Student con k grados de libertad se define así: tk
t=
r
β̂i −βi
√
σ qii
(n−k−1)ŝ2
1
R
n−k−1
σ2
=
β̂i −βi
√
ŝR qii
N (0,1)
=√
1 2
k χk
∼ tn−k−1
El valor de t va a contrastar si βi = 0, (hipóteis nula, H0) frente a la hipótesis
alternativa ( βi = 0 ), es decir si el valor de este parámetro en la población es
realmente cero o no.
De ser cierta esta hipótesis, entonces la variable Xi no influiría sobra la variable
respuesta Y.
Contraste t
Sabemos que: t =
β̂i −βi
√
ŝR qii
∼ tn−k−1
Ahora, bajo la hipótesis nula (H0), sabemos que βi = 0
t=
β̂i
√
ŝR qii
=
β̂i
SE(β̂1 )
∼ tn−k−1 bajo H0
Así que, si se cumple H0, el valor de t debe provenir de una tn-k-1.
Para n>30 la distribución tn-k-1 deja una probabilidad del 95% en el intervalo [-2,2].
Si |t|>2, se rechaza la hipótesis nula y diremos que la variable i-ésima influye en la
respuesta.
Intervalos de confianza
Sabemos que: t =
β̂i −βi
SE(β̂i )
∼ tn−k−1
Así que, podemos afirmar que:
P (−tα/2 ≤
β̂i −βi
SE(β̂i )
≤ tα/2 ) = 1 − α
P (β̂i − tα/2 SE(β̂i ) ≤ βi ≤ β̂i + tα/2 SE(β̂i )) = 1 − α
Con confianza 1 − α , βi ∈ β̂i ± tα/2 SE(β̂i )
Cuando n>30 y α = 0.05 el intervalo se convierte en: βi ∈ β̂i ± 2SE(β̂i )
Descomposición de variabilidad
Vamos a comenzar descomponiendo la variabilidad total de Y:
VT =
Pn
i=1 (yi
− ȳ)2
yi = yˆi + ei → (yi − ȳ)2 = ((ŷi − ȳ) + ei )2 = (ŷi − ȳ)2 + e2i + 2(ŷi − ȳ)ei
VT =
Pn
i=1 (yi
2
− ȳ) =
V T = V E + V NE
Pn
i=1 (ŷi
2
− ȳ) +
Pn
2
i=1 ei
+
Pn
i=1
2(ŷi − ȳ)ei
Por las ecuaciones normales, este término vale cero.
Coef. de determinación y coef. de
determinación corregido por g.l.
2
R =
VE
VT
R2 x100 proporciona el porcentaje de variabilidad de Y que
explica el modelo de regresión ajustado.
El coef. de determinación así definido presenta el inconveniente de que al
incluir nuevas variables en el modelo aumenta su valor, incluso cuando éstas
no resultan significativas.
Este problema hace que R2 no sea un válido como criterio para decidir qué
variables explicativas deben ser incluidas o excluidas en el modelo final.
Definimos, el coef. de determinación corregido por grados de libertad para evitar
este problema
n−1
n−1
= 1 − ( VVNTE ) n−k−1
=1−
R̄2 = 1 − (1 − R2 ) n−k−1
V N E/(n−k−1)
V T /(n−1)
Contraste de regresión F
Este contraste, sirve en regresión múltiple para comprobar si el modelo explica
una parte significativa de la variabilidad de Y
Se puede demostrar que si β1 = β2 = . . . = βk = 0 el cociente
V E/k
V N E/n−k−1
=
Pn
2
i=1 (ŷi −ȳ)
Pn k 2
e
i=1 i
n−k−1
∼ Fk,n−k−1
se distribuye según una distribución F de Snedecor con (k, n-k-1) g.l.
Tabla ANOVA
En dicha tabla se descompone la variabilidad de la respuesta en función de la
variabilidad explicada y no explicada por la regresión ajustada.
También se obtiene el valor del estadístico de contraste F
Cuadrado medio = SC/g.l.
Fuentes de
variación
Suma de
Cuadrados
(SC)
Grados de
Varianza
Libertad
(cuadrado medio)
(g.l)
Explicada por los
regresores VE
Pn
k
ŝ2e
Residual
VNE
Pn
n-k-1
ŝ2R
Total
Pn
n-1
Ŝy2
2
(ŷ
−
ȳ)
i
i=1
2
(y
−
ŷ
)
i
i
i=1
2
i=1 (yi − ȳ)
Test F
ŝ2e
ŝ2R
Contraste de regresión F
H0 : β1 = β2 = . . . = βk = 0
H1 : βj = 0
para al menos un j
No rechazo
Rechazo
Fk,n−k−1 =
ŝ2e
ŝ2R
Descargar