REGRESIÓN LINEAL

Anuncio
REGRESIÓN LINEAL




Gran parte del pronóstico estadístico del tiempo está basado en el procedimiento conocido como regresión lineal.
Regresión lineal simple (RLS) – Describe la relación lineal entre dos variables, x (variable independiente o predictor) y y (variable dependiente o predictando).
La RLS busca resumir la relación entre dos variables, mostrada gráficamente en su diagrama de dispersión, mediante una línea recta. Esta línea produce el error más pequeño para las predicciones de y dadas las observaciones de x.
El criterio más usual para determinar el error en las predicciones es la minimización de la suma (o equivalentemente del promedio) de los errores cuadráticos.
Método de cuadrados mínimos
• Dado un conjunto de parejas (x,y) el problema es encontrar la línea recta particular
ŷ = a + bx (1)
que minimice las distancias o desviaciones verticales (errores o residuales) entre dicha recta y los puntos correspondientes a los datos. (a y b
se conocen como parámetros de la regresión).
• Los errores o residuales (v.a. cuya media es 0), se definen como:
ei = yi – ŷ(xi) (2)
• Combinando (1) y (2) se obtiene la ecuación de regresión:
yi = ŷi + ei = a + bxi + ei (3)
• El objeto es minimizar la suma de los errores cuadráticos:
SSE = ∑(ei)2 = ∑(yi – ŷi)2 = ∑(yi – [a + bxi])2
• SSE representa la variabilidad observada que no es explicada o determinada por el modelo de regresión lineal.
• El procedimiento para encontrar los coeficientes a y b es derivar SSE con respecto a cada uno de los parámetros, igualar a 0 y resolver.
• Las ecuaciones resultantes se conocen como ecuaciones “normales”.

De la derivada con respecto al primer coeficiente (a) se obtiene:
a = y – bx
lo cual significa que: (1) la línea de regresión siempre pasa por el punto localizado por los promedios de x y y; y (2) la línea de regresión divide la dispersión de los puntos observados de modo que los residuos positivos siempre se cancelan con los residuos negativos.
Distribución de los residuales



Convencionalmente se asume que los residuales ei= yi – ŷ(xi) son v. a. independientes con media 0 y varianza constante. Con frecuencia, se asume adicionalmente que los residuales siguen una distribución Gaussiana.
El procedimiento de cuadrados mínimos garantiza que ∑ei = 0 y en consecuencia ē = 0.
Una cuestión central para realizar inferencias estadísticas es estimar la varianza de los residuales (dispersión respecto a su valor medio):
donde se ha dividido entre n­2 porque se han estimado los dos parámetros a y b.

En lugar de usar la expresión anterior para calcular la varianza, es común utilizar la siguiente relación:
SST = SSR + SSE en donde es la suma de cuadrados total o suma de las desviaciones cuadráticas de los valores de y alrededor de su media, que es proporcional a la varianza de los datos observados.
Esta variación se divide en la porción representada por la regresión o suma de cuadrados de la regresión:
•
y la porción asociada a la variación de los residuales
que es la suma de los errores cuadráticos.

Por lo tanto, la varianza de los residuales
se puede expresar de la siguiente manera:
SST = Suma de cuadrados total (mide la variabilidad total del predictando y)
SSR = Suma de cuadrados de la regresión. Indica que una línea de regresión que difiere poco de la media muestral de y tendrá una pendiente pequeña y producirá un SSR muy pequeño y viceversa.
SSE = Suma de cuadrados de los residuales o errores
Análisis de Varianza (ANOVA)
• Tabla genérica del Análisis de Varianza para la regresión lineal simple:
Fuente de variación
Grados de libertad
Sumas de cuadrados
Cuadrados medios (varianza)
Estadístico de prueba
SST/(n­1)
• Medidas de la bondad de ajuste o fuerza de la regresión:
1. MSE. La medida de la magnitud absoluta de la bondad de ajuste es el error estándar de la estimación: se = (MSE)½ (grado de dispersión de los residuales alrededor de la línea de regresión ajustada).
2. Coeficiente de determinación R2 = SSR/SST = 1 – SSE/SST, que puede interpretarse como la proporción de la variación de y que está descrita por la regresión.
3. F = MSR/MSE
• Suponiendo que los errores son independientes y siguen la misma distribución Gaussiana, y bajo la H0 de que no existe una relación lineal entre x y y, F puede considerarse como el EP y sigue una distribución F con 1 y n­2 grados de libertad.
• La prueba F se utiliza para comparar las varianzas de dos muestras: s12 y s22. La razón entre las varianzas, s12/s22 sigue una distribución F con ν1= n1–1 y ν2 = n2–1 grados de libertad, bajo la hipótesis nula de que las varianzas son iguales.
• En nuestro caso, F = MSR/MSE, y nos interesa saber si MSR es significativamente mayor que MSE, por lo tanto nuestra hipótesis alternativa sería MSR > MSE y la prueba sería unilateral.
Descargar