Normalidad de los errores Fortino Vela Peón Universidad Autónoma Metropolitana fvela@correo.xoc.uam.mx 20/10/2011 Octubre, 2010 México, D. F. 1 Introducción Uno de los supuestos básicos del modelo de regresión lineal clásico es el que los errores tengan distribución normal, esto es: y = Xβ + u yi = β1 + β 2 xi + ui ,o bien, donde ui ≈ N (0, σ 2 ) ,o bien, u ≈ N (0, σ 2 I ) Con el cumplimiento del supuesto de normalidad se tiene la justificación teórica para la utilización de pruebas estadísticas que involucren a las distribuciones t, F y χ2 (de uso muy común en la parte inferencial del modelo). No obstante, el supuesto de normalidad puede no ser tan crucial cuando se emplean muestras grandes. 2 20/10/2011 Una propiedad de la distribución normal es que cualquier función lineal de variables normalmente distribuidas estará también normalmente distribuidas. βˆ1 y βˆ2 , son funciones lineales de ui entonces también siguen una distribución normal. Dado que los estimadores de MCO, βˆi ≈ N ( β i , σ β2ˆ ) i De esta manera, si se trabaja con muestras de menos de 100 observaciones resulta crucial el verificar si los errores cumplen, de manera aproximada, una distribución normal. 20/10/2011 3 La prueba Jarque-Bera (JB) La literatura referente a probar la normalidad es vasta (veáse White y MacDonald, 1980). La prueba Jarque-Bera (1987) es una prueba que considera los siguientes elementos para probar la normalidad de los errores de un modelo de regresión lineal. 2 [ ] E u = 0 donde E [ uu' ] = σ y = X β + u Sea Si u se encuentra normalmente distribuido, entonces µ 3 = E [u 3 ] = 0 t µ 4 = E [u 4 ] = 3σ 4 t 20/10/2011 La prueba JB toma este principio: “que tanto se desvían los coeficientes de asimetría4y curtosis” Las medidas convencionales de asimetría (A) y curtósis (K) están dadas, respectivamente*, por: µ3 µ4 b1 = 3 b2 = 4 σ σ La notación y b 2 es tradicional en estadística y no debe confundirse con los estimadores del modelo. b1 b1 = A y b2 = K , se pueden estimar a partir de los residuales de MCO considerando que: Los momentos señalados, 1 T i µ̂ i = ∑ ut T t =1 20/10/2011 donde i=2,3,4 5 Así, el coeficiente de asimetría (A) es el tercer momento respecto a la media. Mide el grado de simetría de la distribución de probabilidad (que tan equilibrada o balanceada se encuentra). Si el coeficiente es mayor a cero, la distribución es sesgada a la derecha, y en consecuencia presenta mayor número de observaciones a la izquierda. T A= 3 u ∑ t n t =1 2 ∑ ut n t =1 T 20/10/2011 3 …(1) 2 6 Por su parte, el coeficiente de curtosis (K) es el cuarto momento respecto a la media. Mide el grado de “picudez” o “apuntamiento” de la distribución de probabilidad (que tan concentrada se encuentra). Cuando el coeficiente es centrado, si esté es diferente a tres (mesocúrtica), la distribución muestra problemas. Platicúrtica si b2>3 o leptocúrtica si b2<3. T K= 4 u ∑ t n t =1 2 ∑ u t n t =1 T …(2) 2 Las formulaciones (1) y (2) son las más utilizadas por los diferentes paquetes estadísticos. 20/10/2011 7 Bajo la hipótesis nula de que los errores se encuentran distribuidos normalmente, el estadístico JB se distribuye 2 χ asintóticamente como una ( 2 ) , siendo igual a T 3 ∑ ut n t =1 3 2 T 2 ∑ ut t =1 JB = T 6 20/10/2011 2 2 T 4 u n ∑ t t =1 − 3 2 T 2 ∑ ut n + t =1 24 A 2 (K − 3)2 JB = T + 24 6 8 Note que bajo Ho tanto A como K son cero. Este estadístico tiende a ser grande si A o K o ambos son significativamente diferentes de 0. 20/10/2011 9 Ejemplo Considerando la información sobre ventas y publicidad de una empresa determinada, verifique si los residuales resultantes del modelo siguen aproximadamente una distribución normal. Aplique la prueba Jarque-Bera. id 1 2 3 4 5 6 7 8 9 10 11 12 20/10/2011 Total Y 69 76 52 56 57 77 58 55 67 53 72 64 X 9 12 6 10 9 10 7 8 12 6 11 8 residual (u) 6.00 3.25 -1.25 -10.25 -6.00 10.75 1.50 -4.75 -5.75 -0.25 2.50 4.25 0.00 u2 36.00 10.56 1.56 105.06 36.00 115.56 2.25 22.56 33.06 0.06 6.25 18.06 387.00 u3 216.00 34.33 -1.95 -1076.89 -216.00 1242.30 3.38 -107.17 -190.11 -0.02 15.63 76.77 10 -3.75 u4 1296.00 111.57 2.44 11038.13 1296.00 13354.69 5.06 509.07 1093.13 0.00 39.06 326.25 29071.41 Retomando (1) y (2) para los datos de este ejemplo se tiene: A= − 3.75 / 12 3 = -.0017063 Y 69 76 52 56 57 77 58 55 67 53 72 64 X 9 12 6 10 9 10 7 8 12 6 11 8 (387 / 12) 2 id 1 2 3 4 5 6 7 8 9 10 11 12 20/10/2011 Total 29071.41 / 12 K= = 2.32929 2 (387 / 12) residual (u) 6.00 3.25 -1.25 -10.25 -6.00 10.75 1.50 -4.75 -5.75 -0.25 2.50 4.25 0.00 u2 36.00 10.56 1.56 105.06 36.00 115.56 2.25 22.56 33.06 0.06 6.25 18.06 387.00 u3 216.00 34.33 -1.95 -1076.89 -216.00 1242.30 3.38 -107.17 -190.11 -0.02 15.63 76.77 11 -3.75 u4 1296.00 111.57 2.44 11038.13 1296.00 13354.69 5.06 509.07 1093.13 0.00 39.06 326.25 29071.41 Construyendo el estadístico de prueba Jarque-Bera (JB) se tiene A= − 3.75 / 12 (387 / 12) 2 3 = -.0017063 29071.41 / 12 K= = 2.32929 2 (387 / 12) A 2 (K − 3)2 JB = T + 24 6 ( −0.0017063) 2 (2.32929 − 3)2 JB = 12 + = 0.01874965 6 24 2 χ El valor de tablas es ( 2 ), 0.05 = 5.99 ∴ 0.01874965 < 5.99 No se rechaza Ho, los errores del modelo se distribuyen aprox. normal 20/10/2011 12 La prueba JB en Stata En Stata se pueden encontrar los coeficientes A y K. reg y x predict residual, resid sum residual, d Residuals ------------------------------------------------------------Percentiles Smallest 1% -10.25 -10.25 5% -10.25 -6 10% -6 -5.75 Obs 12 25% -5.25 -4.75 Sum of Wgt. 12 50% 75% 90% 95% 99% 20/10/2011 .625 3.75 6 10.75 10.75 Largest 3.25 4.25 6 10.75 Mean Std. Dev. Variance Skewness Kurtosis 0 5.931426 35.18182 -.0017063 2.3293 13 A continuación se elabora el estadístico de prueba JB return list scalar JB= 3)^2)/4) di "JB" = JB JB.22492532 (r(N)/6) *((r(skewness)^2)+((r(kurtosis)- No se rechaza Ho, los errores del modelo se distribuyen aprox. normal 20/10/2011 14 Pruebas gráficas: histograma El histograma de los residuales es quizás el método 0 .02 Density .04 .06 .08 gráfico más ampliamente usado para verificar la normalidad del término de error. En Stata el comando histogram es seguido por la variable sobre la cual se construirá el La opción normal agrega una curva de densidad normal al gráfico. -10 20/10/2011 -5 0 Residuals 5 10 15 Otras pruebas gráficas: probabilidadprobabilidad (P-P) y cuantil-cuantil (Q-Q) El gráfico de probabilidad-probabilidad (P-P plot o gráfica porcentual) compara una función de distribución acumulada empírica con una función de distribución teórica (e.g., la función de distribución normal estándar). El comando pnorm estandarizado normal. produces un gráfico P-P La forma de interpretar este gráfico es la siguiente: si los puntos se aproximan al comportamiento lineal señalado en el gráfico, se puede considerar que la función empírica de la distribución acumulada es similar a la teórica, y por tanto se comporta “normalmente”. Si los puntos se alejan a la línea recta, la variable se aleja de una distribución normal. 20/10/2011 16 En el gráfico P-P que ofrece Stata la distribución 0 .0 0 N o rm a l F [(re s id u a l-m )/s ] 0 .2 5 0 .5 0 0 .7 5 1 .0 0 acumulada de la variable empírica se ubica sobre el eje x mientras que la distribución acumulada teórica normal sobre el eje y. 0.00 20/10/2011 0.25 0.50 Empirical P[i] = i/(N+1) 0.75 1.00 17 Similarmente, la gráfica cuantil-cuantil (Q-Q plot) compara los valores ordenados de una variable con los cuantiles de una distribución teórica especifica (i.e., la distribución normal). Si las dos distribuciones son consistentes, los puntos sobre la gráfica asumen un patrón lineal que pasa a através del origen con una recta de pendiente unitaria. Las gráficas P-P y Q-Q se emplean para determinar visualmente que tan bien se ajustan los datos empíricos al comportamiento de una distribución teórica. 20/10/2011 18 -10 -5 R e sid ua ls 0 5 10 La instrucción en Stata es qnorm. -10 20/10/2011 -5 0 Inverse Normal 5 10 19 Pruebas formales de normalidad en Stata La prueba sktest (Skewness-Kurtosis) que realiza Stata sigue los mismos principios que la prueba JB. Para su correcta aplicación se requiere un mínimo de 8 observaciones. Auque utiliza a los coeficientes de asimetría y curtosis, sktest presenta una prueba de normalidad basada en la asimetría y otra sustentada en la curtosis. Finalmente combina las dos pruebas en un estadístico resumen. La opción noadjust suprime el ajuste propuesto por Royston (1991). sktest residual Skewness/Kurtosis tests for Normality ------- joint -----Variable | Obs Pr(Skewness) Pr(Kurtosis) chi2(2) Prob>chi2 -------------+--------------------------------------------------------------residual | 12 0.9974 0.9250 0.01 0.9956 20/10/2011 20 Otras pruebas de normalidad en Stata Stata tiene incorporadas además las pruebas Shapiro- Wilk (swilk) y Shapiro-Francia (sfrancia). puede utilizarse cuando 4 ≤ n ≤ 2000 observaciones, y sfrancia si 5 ≤ n ≤ 5000 observaciones. swilk En este sentido, la prueba sktest es la que puede realizarse con más observaciones. Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------residual | 12 0.98286 0.286 -2.437 0.99259 Shapiro-Francia W' test for normal data Variable | Obs W' V' z Prob>z -------------+-------------------------------------------------residual | 12 0.98218 0.332 -1.745 0.95952 20/10/2011 21 Conclusiones De no verificarse el supuesto de normalidad de los errores, los estimadores continúan siendo insesgados. No obstante de no cumplirse la inferencia estadística derivada del modelo puede no ser valida. Conforme aumente el tamaño de la muestra los errores (y los estimadores de MCO) tienden a una distribución normal. Por lo tanto, bajo muestras grandes la inferencia estadística del modelo puede ser valida. Con muestras reducidas es altamente recomendable verificar el supuesto. 20/10/2011 22 Referencias Gujarati, D. y D. Porter (2010). Econometría, 5ª. Ed., Mac Graw Hill, México, cap. 4. Jarque, Carlos M. y A. K. Bera (1987). “A Test for Normality of Observations and Regression Residuals”, International Statistics Review, Vol. 55, pp. 163-177. Judge, George et. al. (1988). Introducction to Theory and Practice of Econometrics, John Wiley & Sons, Estados Unidos, pp. 890-892. Vogelvang, Ben (2005). Econometrics. Theory an Applications with EViews, Addison-Wesley, Malaysia, pp. 116-119. White H. y G. M. MacDonald (1980). “Some LargeSample Test for Non-normality in Linear Regression Model”, Journal of American Statistical Association, Vol. 75, pp. 16-28. 20/10/2011 23