CONSIDERACIONES ACERCA DE ALGUNAS PRUEBAS DE NORMALIDAD QUE PUEDEN EFECTUARSE EN UN MODELO DE REGRESION CLARA MARTHA ADALID* RESUMEN El objetivo de este trabajo es presentar algunas estadísticas para realizar una prueba de bondad de ajuste sobre los errores en un modelo de regresión lineal . Se menciona el uso de las pruebas gráficas , y se presentan algunas pruebas no-paramétricas como son la Ji-cuadrada, la de Kolmogorov-Smirnov y la Anderson -Darling, as¡ como la prueba de Jarque-Bera ; ejemplificando cada una de ellas. En el modelo de regresión lineal //^^ Y - fi1 + N2X2i +... + ' kXki + U¡ sabemos que bajo los supuestos: I) El valor esperado del error es cero: E(ui)=0 II) La varianza del error es constante: Var(ui)=62 III) Las variables aleatorias ui son estadísticamente independienteE(u¡uj)=0 para toda i:#j Tenemos el modelo de regresión lineal clásico y podemos demostrar que los estimadores obtenidos con el método de mínimos cuadrados ordinarios son lineales, insesgados y de mínima varianza es decir son MELI. Después, introducimos el supuesto: Profesora-investigadora del Departamento de Política y Cultura , UA1vt-Xochimilco. 17 Reflexiones Finiseculares: las Matemáticas en las Ciencias Sociales Iv) Los errores u; se distribuyen en forma normal con media igual a cero y varianza constante Suponer un modelo probabilístico para los errores es de suma importancia ya que nos permite realizar inferencias acerca de la función de regresión poblacional . Bajo este supuesto: I) Los estimadores de mínimos cuadrados son: eficientes es decir, insesgados y de mínima varianza y a medida que aumenta el tamaño de la muestra los estimadores convergen hacia sus valores poblacionales es decir, son consistentes. II) Podemos demostrar que f3i poseen una distribución normal y a su vez que al realizar la prueba de hipótesis Ho : = 0 para alguna i la estadística de prueba: fi. en donde sa, es la desviación estándar estimada de, posee una distribución t de Student con n-k grados de libertad. III)También es posible demostrar que si los errores u; poseen una distribución normal y bajo la hipótesis nula /^ HO•02= 03= fk =0 En la tabla de analisis de varianza Tabla ANOVA para el modelo de regresión con k variables Fuente de variación Debido a la regresión Debido a los residuales Total 18 Suma de cuadrados Grados de libertad Cuadrado medio SCE k-1 CME=SCE/k-1 SCR n-k CMR=SCR/n-k n-1 Clara Martha Adalid La variable F = MR posee una distribución F(k- ,,n -k) Por las razones ya mencionadas es necesario e importante verificar que el supuesto de normalidad en las perturbaciones estocásticas u; se satisface. Existen en la literatura estadística diversos métodos que nos permiten probar que los errores siguen una distribución normal. Empezamos mencionando que la forma más fácil de indagar acerca de una distribución es el método gráfico. El análisis consiste en graficar los datos, para averiguar si el ajuste de las observaciones a la distribución normal es "bueno". La función de densidad de la normal univariada es: f(x)= 1 e 2za 2^(x a)1a1^ En el caso particular que nos ocupa, que es la verificación del supuesto de normalidad. de los errores u, los pasos a seguir serían los siguientes: 1) Calcular la regresión estimada o función de regresión muestral: 11 =Al +N2X2i +...+AIXki 2) Obtener los residuales ú¡ = y, --Vi en donde Yi son las observaciones de la variable dependiente. Los residuales se colocan sobre papel normal y si provienen de una distribución normal la gráfica aparecerá como una línea recta. El método gráfico debe utilizarse sólo como una aproximación al problema. Es decir, debemos acompañarlo con alguna prueba de bondad de ajuste ya sea paramétrica o no-paramétrica. En las pruebas de bondad de ajuste, aplicadas a probar la hipótesis nula Ho se trata de medir, de alguna forma, que tan bien se adecúan, o discrepan, las observaciones muestrales de la distribución hipotética. 19 Reflexiones Finiseculares: las Matemáticas en las Ciencias Sociales En este tipo de pruebas lo que el investigador espera es aceptar que Ho es cierta. Una prueba de hipótesis Ho basada en una estadística cuya distribución bajo Ho no depende de la distribución especificada o de cualesquier parámetros de esa distribución se dice que es una prueba de distribución libre o no-paramétrica. Entre estas, una de las pruebas más conocida y utilizada, es la prueba Ji-cuadrada. Esta prueba fue inventada por el gran estadístico Karl Pearson en 1900. La prueba de Jicuadrada no sólo sirve como una prueba de bondad de ajuste de alguna distribución, se utiliza, además, para probar si dos variablse son independientes. En todas las pruebas que se mencionarán la hipótesis nula es: Ho : u¡ Normal PRUEBA DE Ji-CUADRADA Con esta prueba queremos probar que una muestra aleatoria tiene una determinada distribución. Las observaciones se agrupan en celdas y si la diferencia entre las frecuencias observadas y las frecuencias esperadas , si éstas provienen de la distribución que se supone, es muy grande , entonces , podemos admitir una falta de ajuste. Es decir, es una prueba de la concordancia entre una distribución hipotética y una distribución muestral. En este caso los elementos de la muestra se asignan a diferentes clases o categorías La estadística de prueba x2 tiene una distribución asintótica que, bajo HO, se distribuye como una Ji-cuadrada y está definida como; 2 (ni _ npc)2 npi en donde ni es el número de observaciones en la i-ésima clase que podemos simbolizar como: 20 Clara Martha Adalid x2 -^(fo-f¢)2 fi en donde fo = frecuencias observadas fe = frecuencias esperadas si la x2 calculada es mayor que la x2 de tablas al nivel de significancia especificado , a, y los grados de libertad, la hipótesis nula, Ho se rechaza. Los grados de libertad están dados por gl=k-m-1 En donde k = número de clases m = número de parámetros estimados El procedimiento es el siguiente: 1. Estimar el modelo. 2. Obtener los residuales új 3. Clasificar los residuales en una tabla de distribución de frecuencias. 4. Estimar los parámetros µ y a, en este caso particular A = 0 f( mi-x)2 n-1 en donde mi es el punto medio de los intervalos de clase. 5. Calcular las frecuencias esperadas. 6. Buscar el valor de tablas para la distribución Ji-cuadrada con gl=k-m-1 7. Comparar con el valor calculado y concluir. 21 Reflexiones Finiseculares: las Matemáticas en las Ciencias Sociales Ejemplo 1- Los siguientes datos son los residuales obtenidos con el modelo estimado 2 = -189.07572+ 1.285448X; -0.235697 -4.662935 3.335199 0.90796 0.906095 -0.377488 3.762438 4.047886 1.760572 0.902363 -3.810323 -0.383085 -4.810323 -1.668532 -1.95398 0.331468 -1.668532 1.760572 -0.381219 2.618781 -3.952114 -0.666667 3.904229 0.333333 Tabla de distribución de frecuencias para los residuales Intervalos de clase Fr. m; Probabilidad bajo la normal (-4.810323,-2.81033] (-2.810323,-0.810323] (-0.810323,1.189677] (1.189677,3.169677] 4 3 10 3 -3.81 -1.81 0.1897 2.797 .1423 .236 .2845 .2221 np=3.4152 np,=5.664 np,=6.828 np,=5.3304 (3.169677,5.189677] 4 4.1797 .1151 np.=2.7624 X 2 = Z (f0 fe )2 = 0.10 + 1.253 + 1.474 + 1.02 + 0.5545 = 4.4 fe s=2.620872 X 2(2,.05) = 5.99 Como X, = 4.4 < 5.99 No rechazamos HO. LA PRUEBA DE JARQUE-BERA La prueba que a continuación se describe supone que las perturbaciones estocásticas ui son independendientes e idénticamente distribuídas, con media cero y varianza constante y se define a continuación. LM = n 22 r A 2 (K - 3)2 1 6 + 24 Clara Martha Adalid En donde A= asimetría K= kurtosis La estadística de Jarque-Bera se distribuye asintóticamente como una Ji-cuadrada con 2 grados de libertad (x22). Para hacer la prueba H0:ul tienen una distribución normal 1.- Se estima el modelo de regresión y se obtienen los residuales 12. 2.- Se calcula el valor de asimetría de los residuales y el valor de la kurtosis de los mismos. 3.- Se calcula LM 4.- Se compara con la Ji-cuadrada de tablas con 2 grados de libertad. Si el valor calculado es mayor que el valor de tablas, se concluye que la distribución de los errores no es normal. Ejemplo 2- Con los mismos datos del ejemplo 1 realicemos la prueba utilizando como estadística de prueba la Jarque-Bera. LM=n 2+(K-3)2J=2^ -0.24053T + (2.199139- 3)21 6 24 6 24 =0.87156 x2(2,.05) = 5.99 Como 0.87156<5.99 la conclusión es no rechazar Ho al 5%. Esta prueba aparece en algunos paquetes de econometría como el econometric-view. En investigación es muy importante contar con pruebas confiables, es decir, pruebas que se equivoquen poco al rechazar incorrectamente la hipótesis nula. Se han investigado algunas estadísticas que dependen de la función de distribución empírica. La función de distribución empírica denotada por Fn(x) se define como: 23 Reflexiones Finiseculares: las Matemáticas en las Ciencias Sociales F,n(x) No observaciones <_ x n -00<X<00 es una función escalonada calculada a partir de los datos. A medida que x aumenta la función da un brinco de tamaño 1/n. Para cualquier x, Fn(x) es la proporción de observaciones menores o iguales que x. Entre las estadísticas que se apoyan en la distribución empírica está la estadística de Kolmogorov-Smirnov. LA ESTADÍSTICA DE KOLMOGOROV-SMIRNOV Definimos D+ como la diferencia vertical más grande cuando Fn(x) es mayor que f(x); y D- como la diferencia vertical más grande cuando Fn(x) es menor que f(x). En donde f(x) es la función de distribución de la variable aleatoria X, es decir, F(x) = P[X <_ x] D = max(D',D-) Cuando se quiere probar que un conjunto de observaciones proviene de una distribución en donde alguno de los parámetros es desconocido y, en nuestro caso particular, los residuales tienen una media igual a cero y suponemos que una varianza constante desconocida, los pasos a seguir son los siguientes: 1.-Ordenar las observaciones de menor a mayor denotándolas por X(i). 2.-Estimar la desviación estándar de los residuales s,,. 3.-Calcular u, = es decir, estandarizar los valores. S. 4.-Para cada vi encontrar la probabilidad acumulada Zi=F(,vvi) en la tabla normal estándar. 5.-Ordenar las Zi de menor a mayor denotadas por Z(i). 24 Clara Martha Adalid 6.- Calcular D=max(D+,D-) con las siguientes fórmulas: D =max, - Z() D = max, (Z(,) - (i -1) / n D = max(D',D_) 7.- Obtener los valores críticos en la siguiente tablas Nivel de significancia 0.15 0. 10 0.05 0 . 025 0.01 Cola superior 0.775 0 .819 0 . 895 0.995 1.035 8.-Modificarla estadística con la fórmula D(-J 9.- Comparar con el valor de tablas. + 0.12 + 0.11 / ,In) Ejemplo 3.- Con los residuales del ejemplo 1 realicemos la prueba. Residuales ordenados de menor a mayor (X(;» -3.810323 -0.383085 0.333333 1.760572 4.047886 -4.810323 -1 . 95398 -0 . 381219 0.902363 2.618781 -4.662935 -1.668532 -0.377488 0.906095 3.335199 vi = -3. 952114 - 1.668532 -0 . 235697 0.90796 3.762438 -0 . 666667 0.331468 1.760572 3. 904229 - 1.507939 -0 . 636633 -0 .089931 0.346434 1 .435567 -0 . 254368 0.126472 0.671751 1 .489668 X(i) S. -1.453838 -0.146167 0.127184 0.671751 1.54448 -1.83539 -0. 745546 -0 . 145455 0.344299 0 . 999202 -1.779154 -0 . 636633 -0 . 144031 0 . 345723 1 .272553 1 D'Agostino , R. B. y Stephens , M. A. (1986 ) Goodness of fit Techniques, Marcel Dekker, p. 122. 25 Reflexiones Finiseculares : las Matemáticas en las Ciencias Sociales Z(i) = F(vi) 0.072996 0.441895 0.550603 0.749129 0.938764 0.033224 0.227971 0.442176 0.634689 0.841152 0.037607 0.262182 0.442738 0.635224 0.898412 0.065785 0.262182 0.464171 0.635492 0.924437 0.399606 0.550321 0.749129 0.931844 D+ = maxi{ i _z(1) } = 0. 093671 n JJJ D- =max, {Z(;) -(i-1)/n} = 0.108561 D = max(D+, D_)= 0.108561 D(V + 0.12 + 0.11 / ,fñ ) = 0.54730302 A un nivel de significancia del 5% el punto porcentual superior es 0.895 y como 0.547303 < 0.895 no se rechaza Ho y concluimos que la distribución de los errores es normal. Otra estadística que forma parte de la familia de la función de distribución empírica, es la estadística de Anderson-Darling o A2. ESTADÍSTICA DE ANDERSON-DARLING La estadística A2 fue propuesta por sus autores en 1952, comparando la función de distribución empírica con la función de distribución hipotética, a través de la discrepancia existente entre estas dos. Su uso no está muy difundido, a pesar de que investigaciones recientes demuestran que es una estadística más potente que otras más utilizadas. Esto quizá, se deba a que las tablas de valores porcentuales con las que se realizaban las pruebas no eran las correctas. Lo que la hacía parecer como una estadística poco confiable. Sin embargo, en fechas recientes y debido al cálculo de valores porcentuales adecuados referidos a los diferentes casos: 26 Clara Martha Adalid Caso 0 La distribución es la normal y está completamente especificada Caso 1 La distribución es la normal C r2 es conocida y t se estima con la media muestral x. Caso 2 La distribución es la normal con m conocida s2 se estima con la varianza muestral s2. Caso 3 La distribución es la normal con m y s2 desconocidos. ha podido demostrarse, en simulaciones de Monte-Carlo, su potencia frente a algunas otras estadísticas. El método es parecido al utilizado en la prueba de KolmogorovSmirnov: 1.- Ordenar las observaciones de menor a mayor X<i). 2.- Estandarizar sus valores vi. 3.- Obtener, para cada valor vi, su distribución acumulada en la normal Z(i). 4.- Calcular la estadística Anderson-Darling: A2 = -n - (1/n1[(2i - 1)logZO + (2n + 1- 2i )log(1- Z(J] 5.- De acuerdo al caso en que nos encontremos (0,1,2 o 3) buscar en la tabla de valores porcentuales adecuada. Ejemplo 4 .- Continuamos con el mismo conjunto de datos. Y probamos con la estadística de Anderson -Darling. Debido a que los pasos (1), (2) y (3) son los mismos que para la estadística de Kolmogorov-Smirnov, calculamos ahora la estadística A2. A2= 0.329473 Puntos porcentuales para la estadística A2 Caso 2 Nivel de significancia a 0.10 1.743 0.05 2.308 0.025 2.898 0.01 3.702 27 Reflexiones Finiseculares: las Matemáticas en las Ciencias Sociales Si comparamos el valor calculado de 0.329473 con el valor de tablas al 5% no rechazamos Ho y el conjunto de errores se distribuye en forma normal. La potencia de las pruebas Las estadísticas apoyadas en la función de distribución empírica tienen una potencia superior a la estadística Ji-cuadrada, esto puede deberse al hecho de que en esta última deben agruparse los datos con la consecuencia de una pérdida en la información. Entre las estadísticas de la función de distribución empírica, la de Kolmogorov-Smirnov (D) y la Anderson-Darling A2, esta última es más potente. Las estadísticas A2 y J-B se comportan en forma muy similar aunque en un estudio de Monte-Carlo hecho por la autora se pudo verificar que la A2 es superior2, frente a algunas distribuciones alternativas, las razones no son motivo de este trabajo. 2 Adalid, C. M., "Pruebas para normalidad en un modelo de regresión". Tesis para obtener el grado de maestría. 28 REFERENCIAS BIBLIOGRÁFICAS D'Agostino, R.B. y Stephen, M.A. (1986) Goodness of fit techniques, Marcel Dekker. Cap. 4. Jarque, C.M. y Bera, A.K. (1987) "A test for Normality of Observations and Regression Residuals". International tatistical Review, 163-17. Lindgren,B.W, Statistical Theory (1968) Macmillan. Ramírez, M. y López Tirado Q., (1993) Métodos estadísticos noparamétricos, Universidad de Chapingo. 29