Regresión múltiple Demostraciones Elisa Mª Molanes López El modelo de regresión múltiple El modelo que se plantea en regresión múltiple es el siguiente: yi = β0 + β1 x1i + β2 x2i + . . . + βk xki + ui donde x1 , x2 , . . . , xk son las variables independientes o explicativas. La variable respuesta depende de las variables explicativas y de una componente de error que se distribuye según una normal: ui = N (0, σ 2 ) El ajuste del modelo se realiza por el método de máxima verosimilitud o el método de mínimos cuadrados. En el caso de distribución normal de errores, ambos métodos coinciden, como ya se vió en regresión simple. El modelo de regresión múltiple El valor que el modelo estimado predice para la observación i-ésima es: ŷi = β̂0 + β̂1 x1i + β̂2 x2i + . . . + β̂k xki y el error cometido en esa predicción es: ei = yi − ŷi = yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . β̂k xki ) donde β̂0 , β̂1 , . . . , β̂k son los valores estimados del modelo. El criterio de mínimos cuadrados asigna a β̂0 , β̂1 , . . . , β̂k el valor que minimiza la suma de errores al cuadrado de todas las observaciones. Notación ⎛ ⎜ ⎜ Y =⎜ ⎝ y1 y2 .. . yn ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎟ Ŷ = ⎜ ⎝ ⎠ ŷ1 ŷ2 .. . ŷn ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎟ β=⎜ ⎝ ⎠ β0 β1 .. . βk ⎞ ⎟ ⎟ ⎟ ⎠ ⎛ ⎜ ⎜ β̂ = ⎜ ⎝ β̂0 β̂1 .. . β̂k ⎞ ⎛ ⎟ ⎜ ⎟ ⎜ ⎟ e=⎜ ⎠ ⎝ e1 e2 .. . en ⎞ ⎟ ⎟ ⎟ ⎠ X es la denominada matriz de diseño, de dimensión n x (k+1) ⎛ ⎜ ⎜ X=⎜ ⎝ x11 x12 .. . x21 x22 .. . ··· ··· .. . xk1 xk2 .. . 1 x1n x2n ··· xkn 1 1 .. . ⎞ ⎛ ´ ⎟ ³ ⎜ ⎟= ~1, X ~ 1, X ~ 2, . . . , X ~ k , siendo X ~j = ⎜ ⎟ ⎜ ⎠ ⎝ xj1 xj2 .. . xjn ⎞ ⎟ ⎟ ⎟ ⎠ Forma matricial del modelo La expresión matricial del modelo de regresión múltiple es la siguiente: Y = Xβ + U El modelo estimado también puede expresarse en forma matricial: Ŷ = X β̂ Y − Ŷ = e Ajuste por mínimos cuadrados ei = yi − ŷi = yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . β̂k xki ) Son los parámetros estimados del modelo Como en regresión simple, el criterio de mínimos cuadrados asigna a los parámetros del modelo el valor que minimiza la suma de errores al cuadrado de todas las observaciones. La suma de errores al cuadrado es S: S= Pn 2 i=1 ei = ³ ´2 i=1 yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . + β̂k xki ) Pn Ajuste por mínimos cuadrados Al igual que en regresión simple, la estrategia que seguimos para calcular el mínimo de S es: • derivar S con respecto a los parámetros, • igualar a cero cada derivada, • y resolver el sistema de ecuaciones que resulta (y en el que las incógnitas vienen dadas por los k+1 parámetros que queremos estimar). Denota traspuesta de una matriz Teniendo en cuenta que: ∂xT a ∂a =x ∂aT Xa ∂a = 2Xa En términos matriciales, resulta que: ∂S ∂β Es una matriz simétrica, de dimensión (k+1)x(k+1) = −X T Y − X T Y + 2(X T X)β Su rango debe ser máximo para ser invertible, es decir: T T →X Y = (X X)β rango(X T X) = k + 1 Así que, β̂ = (X T X)−1 X T Y Ajuste por mínimos cuadrados Que el rango(X T X) = k + 1 es equivalente a pedir que ninguna de las variables explicativas se pueda escribir como combinación lineal de las demás. Son las ecuaciones normales de la regresión ∂S ∂β = −2X T Y + 2(X T X)β = ~0 De ellas se deduce que: Pn i=1 ei = 0 Pn i=1 ei xij = 0, j = 1, . . . , k Los errores de predicción suman cero La covarianza entre los errores de predicción y cada variable explicativa es cero Ajuste por mínimos cuadrados Al igual que en regresión simple, ahora necesitamos estimar la varianza, σ 2 , del error aleatorio U Un estimador razonable es, en principio, la varianza de los errores de predicción (también conocidos con el nombre de residuos del modelo): Pn 2 1 T 1 σ̂ = n e e = n i=1 ei Sin embargo, este estimador es sesgado para σ 2, lo que significa que: 2 E(σ̂ 2 ) = σ 2 El sesgo se define como la diferencia entre la media del estimador y el verdadero valor del parámetro que se quiere estimar. Usaremos, por tanto, la varianza residual para estimar σ 2, que sí es un estimador 2 insesgado de σ 2, es decir, centrado en torno a σ ŝ2R = 1 n−(k+1) Pn 2 e i=1 i Relaciones entre las variables β̂ = (X T X)−1 X T Y Ŷ = X β̂ = X(X T X)−1 X T Y = HY A esta matriz le vamos a llamar H y se le conoce con el nombre de matriz de proyección. Este nombre quedará justificado una vez veamos la interpretación geométrica de la estimación. Las propiedades de la matriz H son las siguientes: • Es idempotente: HH = H • Es simétrica: HT = H • Tiene el mismo rango que X: (k+1) Relaciones entre las variables Es sencillo ver que el error de predicción se puede escribir en forma matricial en términos de H e = Y − Ŷ = Y − HY = (I − H)Y La expresión Ŷ = HY , indica que la matriz H (la cual es idempotente), transforma el vector de observaciones Y en el vector de valores ajustados (o predicciones) Ŷ Una matriz idempotente realiza una proyección, por lo que la regresión va a ser una proyección. Para entender mejor cómo es esa proyección, vamos a estudiar las relaciones existentes entre e, Y e Ŷ . Relaciones entre las variables El vector de residuos es perpendicular al vector de valores ajustados y a la matriz de diseño. Veámoslo: e⊥Ŷ eT Ŷ = [(I − H)Y ]T HY = Y T (I − H)HY = Y T HY − Y T HHY = 0 e⊥X eT X = [(I − H)Y ]T X = Y T (I − H)X = Y T (X − X(X T X)−1 X T X) = 0 Así que el modelo de regresión Ŷ = HY proyecta el vector de observaciones sobre el subespacio vectorial de las columnas de la matriz X (es decir el subespacio de las variables independientes). El vector de residuos es perpendicular a cada columna de X y al vector de predicción Ŷ Interpretación geométrica En el espacio formado por las variables, el método de mínimos cuadrados equivale a encontrar un vector en dicho espacio que esté lo más próximo posible al vector de observaciones. Ŷ es la proyección ortogonal de Y sobre dicho espacio Vector de observaciones Y Esp(X) e Vector de residuos Ŷ Vector de valores ajustados. Está en Esp(X) Subespacio vectorial generado por la columnas de X. Es decir, por los vectores columna de las variables explicativas Distribución de β̂ β̂ = (X T X)−1 X T Y Le llamaremos matriz A Sabemos que el vector de observaciones Y se distribuye según una normal multivariante de media Xβ y de matriz de varianzas covarianzas σ 2 In Y ∼ Nn (Xβ, σ 2 In ) β̂ es una combinación lineal de las componentes del vector Y , así que β̂ también se distribuye según una variable aleatoria normal. A continuación, calcularemos su media y matriz de varianzas y covarianzas Distribución de β̂ ³ ´ ¡ T −1 T ¢ E β̂ = E (X X) X Y = (X T X)−1 X T E(Y ) = (X T X)−1 X T Xβ = β β̂ es un estimador centrado de β V ar(β̂) = V ar(AY ) = A · V ar(Y ) · AT = (X T X)−1 X T V ar(Y )X(X T X)−1 = (X T X)−1 X T σ 2 X(X T X)−1 = σ 2 (X T X)−1 β̂ ∼ Nk+1 (β, σ 2 (X T X)−1 ) β̂i ∼ N (βi , σ 2 qii ) qii es el elemento i-ésimo de la diagonal de la matriz (X T X)−1 Distribución de β̂ 2 La estimación de σ la hacíamos a través de la varianza residual ŝ2R = 1 n−(k+1) Pn 2 e i=1 i 2 2 De manera que, estimaremos la varianza de β̂i ∼ N (βi , σ qii ) mediante ŝR qii La raíz cuadrada de ŝ2R qii nos da el error estándar de β̂i p √ SE(β̂i ) = ŝ2R qii = ŝR qii Se puede demostrar que: (n−k−1)ŝ2R σ2 ∼ χ2n−k−1 Contraste t Hemos visto que: β̂i ∼ N (βi , σ 2 qii ). Por tanto, estandarizando, se obtiene que: β̂i −βi √ σ qii ∼ N (0, 1) Una variable t de Student con k grados de libertad se define así: tk t= r β̂i −βi √ σ qii (n−k−1)ŝ2 1 R n−k−1 σ2 = β̂i −βi √ ŝR qii N (0,1) =√ 1 2 k χk ∼ tn−k−1 El valor de t va a contrastar si βi = 0, (hipóteis nula, H0) frente a la hipótesis alternativa ( βi = 0 ), es decir si el valor de este parámetro en la población es realmente cero o no. De ser cierta esta hipótesis, entonces la variable Xi no influiría sobra la variable respuesta Y. Contraste t Sabemos que: t = β̂i −βi √ ŝR qii ∼ tn−k−1 Ahora, bajo la hipótesis nula (H0), sabemos que βi = 0 t= β̂i √ ŝR qii = β̂i SE(β̂1 ) ∼ tn−k−1 bajo H0 Así que, si se cumple H0, el valor de t debe provenir de una tn-k-1. Para n>30 la distribución tn-k-1 deja una probabilidad del 95% en el intervalo [-2,2]. Si |t|>2, se rechaza la hipótesis nula y diremos que la variable i-ésima influye en la respuesta. Intervalos de confianza Sabemos que: t = β̂i −βi SE(β̂i ) ∼ tn−k−1 Así que, podemos afirmar que: P (−tα/2 ≤ β̂i −βi SE(β̂i ) ≤ tα/2 ) = 1 − α P (β̂i − tα/2 SE(β̂i ) ≤ βi ≤ β̂i + tα/2 SE(β̂i )) = 1 − α Con confianza 1 − α , βi ∈ β̂i ± tα/2 SE(β̂i ) Cuando n>30 y α = 0.05 el intervalo se convierte en: βi ∈ β̂i ± 2SE(β̂i ) Descomposición de variabilidad Vamos a comenzar descomponiendo la variabilidad total de Y: VT = Pn i=1 (yi − ȳ)2 yi = yˆi + ei → (yi − ȳ)2 = ((ŷi − ȳ) + ei )2 = (ŷi − ȳ)2 + e2i + 2(ŷi − ȳ)ei VT = Pn i=1 (yi 2 − ȳ) = V T = V E + V NE Pn i=1 (ŷi 2 − ȳ) + Pn 2 i=1 ei + Pn i=1 2(ŷi − ȳ)ei Por las ecuaciones normales, este término vale cero. Coef. de determinación y coef. de determinación corregido por g.l. 2 R = VE VT R2 x100 proporciona el porcentaje de variabilidad de Y que explica el modelo de regresión ajustado. El coef. de determinación así definido presenta el inconveniente de que al incluir nuevas variables en el modelo aumenta su valor, incluso cuando éstas no resultan significativas. Este problema hace que R2 no sea un válido como criterio para decidir qué variables explicativas deben ser incluidas o excluidas en el modelo final. Definimos, el coef. de determinación corregido por grados de libertad para evitar este problema n−1 n−1 = 1 − ( VVNTE ) n−k−1 =1− R̄2 = 1 − (1 − R2 ) n−k−1 V N E/(n−k−1) V T /(n−1) Contraste de regresión F Este contraste, sirve en regresión múltiple para comprobar si el modelo explica una parte significativa de la variabilidad de Y Se puede demostrar que si β1 = β2 = . . . = βk = 0 el cociente V E/k V N E/n−k−1 = Pn 2 i=1 (ŷi −ȳ) Pn k 2 e i=1 i n−k−1 ∼ Fk,n−k−1 se distribuye según una distribución F de Snedecor con (k, n-k-1) g.l. Tabla ANOVA En dicha tabla se descompone la variabilidad de la respuesta en función de la variabilidad explicada y no explicada por la regresión ajustada. También se obtiene el valor del estadístico de contraste F Cuadrado medio = SC/g.l. Fuentes de variación Suma de Cuadrados (SC) Grados de Varianza Libertad (cuadrado medio) (g.l) Explicada por los regresores VE Pn k ŝ2e Residual VNE Pn n-k-1 ŝ2R Total Pn n-1 Ŝy2 2 (ŷ − ȳ) i i=1 2 (y − ŷ ) i i i=1 2 i=1 (yi − ȳ) Test F ŝ2e ŝ2R Contraste de regresión F H0 : β1 = β2 = . . . = βk = 0 H1 : βj = 0 para al menos un j No rechazo Rechazo Fk,n−k−1 = ŝ2e ŝ2R