CURSO DE ECONOMETRÍA ITAM Dr. Víctor M. Guerrero Departamento de Estadística - ITAM guerrero@itam.mx Octubre de 2007 1 1. ECONOMETRÍA, MODELOS Y DATOS (Intriligator) - Definición de Econometría. Rama de la Economía que se ocupa de la estimació n empírica (o sea, basada en los datos) de las relaciones económicas. - Ingredientes principales de la Econometría : 1) teoría y 2) hechos. Teoría Hechos Modelo Datos Especificación Teoría Estadística Preparación de datos Modelo Econométrico Datos refinados Técnicas Econométricas Estimación del modelo econométrico con los datos refinados, mediante las técnicas econométricas Usos del modelo Análisis estructural Pronóstico Evaluación de planes y políticas 2 - Objetivos de la Econometría. Los principales son: 1. Análisis estructural. Es el objetivo de carácter científico, mediante el cual se trata de entender el mundo real con la validación de relaciones económicas. Este objetivo a su vez influye en ocasiones sobre la teoría. 2. Pronóstico. El objetivo aquí es predecir los valores de las variables que se desea, fuera de la muestra de datos observada. Los pronósticos no son un fin en sí mismos, sino que constituyen la base para tomar decisiones. 3. Evaluación de planes y políticas. Este constituye el uso del modelo para decidir entre diversos planes o políticas en consideración. Una manera de realizar esta actividad es mediante la simulación de lo que ocurriría con cada una de las alternativas, según el modelo. Los tres principales usos de la Econometría están íntimamente ligados entre sí, de tal forma que la estructura determinada en un análisis estructural se utiliza después para pronosticar, o bien, la evaluación de políticas con el modelo constituye en realidad un pronóstico de tipo condicional. Sin embargo, es importante reconocer que un modelo econométrico útil para pronosticar puede no servir para realizar análisis estructural y esperar que cualquier modelo sea útil para todo es un abuso de la Econometría. - Modelos econométricos. Modelo: Representación simplificada de un fenómeno real (todo modelo es erróneo) 3 MODELO MATEMÁTICO Inicio Mundo Real Abstracción (Detección de características relevantes) Desarrollo (Traducción a Matemáticas) Contrastación con la realidad Aplicaciones Realidad Axiomática Teoría Matemática Concreción (Interpretación de resultados) Modelo para el Ingreso Nacional (en una economía cerrada) (Johnston, Cap. 1) • Identidad: Y ≡ C + I + G Y = PNB, C = Consumo, I = Inversión, G = Gasto del gobierno (los flujos de C, I y G se suponen medidos en términos reales) • Teoría: 1) C = f ((1 − t )Y, r ) con τ = tasa impositiva, (1 − t )Y = Ingreso disponible libre de impuestos y r = tasa de interés. 2) I = f (? Y, r ) con ? Y el cambio en PNB. La teoría puede indicar las variab les explicativas, las ecuaciones y quizás, también los signos de las derivadas parciales. 4 Por ejemplo, en 1) se esperaría que ∂f ((1 − t )Y, r ) ∈ (0, 1) y ∂ (1 − t )Y ∂f ((1 − t )Y, r ) <0 ∂r o sea que la propensión marginal al consumo del ingreso disponible debe ser una fracción positiva menor que la unidad, y un incremento en r traerá consigo un efecto depresivo sobre el consumo (ya que eleva la tasa de rendimiento del ahorro e incrementa el costo de financiamiento de bienes duraderos, entre otras cosas). Por su lado, debido a 2) se debería tener ∂f (? Y, r ) >0 ∂? Y y ∂f (? Y, r ) <0 ∂r en donde se supone que I está influenciado al alza por las expectativas de ganancias, que de manera un tanto burda se aproximan mediante ? Y ; de nuevo, se espera que la tasa de interés afecte negativamente, a la inversión en este caso. La Econometría sirve como complemento para determinar: i) La forma funcional. Por ejemplo, si se omite la variable r, podría tenerse C = a + ß(1 − t)Y C = a [(1 − t )Y]ß C = a − ß[(1 − t )Y] −1 ii) El tipo de datos más apropiados y su escala de medición. Por ejemplo, ¿cuál es la variable que mejor representa el ingreso?, ¿debe ser ajustada por estacionalidad?, ¿qué tasa de interés debe emplearse? iii) El tipo de estructura de retrasos (la dinámica del sistema), variables alternativas, etc. 5 Conviene además conocer la distinción entre dos tipos de datos que permiten realizar análisis econométrico: a) Los de corte transversal son aquellos que se observan en un solo momento, se generan especialmente a través de encuestas y no tienen un orden de observación asignado. b) Los datos de series de tiempo se caracterizan por tener explícitamente un orden cronológico de observación que no permite intercambiar lugares para los datos y son obtenidos de manera rutinaria, particularmente por agencias gubernamentales. 6 2. MODELO DE REGRESIÓN LINEAL SIMPLE - Introducción. Se considerarán modelos formados por una sola ecuación, del tipo Y = f(X) donde Y representa la variab le dependiente (por ser explicada) y X es la variable independiente (o explicativa). La especificación del modelo (es decir, su forma funcional) será lineal. De esta forma se habla del modelo de regresión lineal simple, que explica el comportamiento (o variabilidad) de Y simplemente a través de X, por medio de la relación Y = α + βX (lineal en los parámetros) El primer paso en una investigación econométrica de la relación entre Y y X consiste en obtener una muestra de n parejas de datos sobre estas variables. Los datos muestrales se denotan entonces por Yi , X i , para i = 1, 2,..., n, o sea i Yi Xi 1 Y1 X1 ... ... ... n Yn Xn Además, se debe hacer explícita la incertidumbre de que el modelo de regresión lineal simple explique por completo la variabilidad de Y, para ello se introduce una perturbación estocástica (error aleatorio) que le da mayor flexibilidad al modelo, y así se llega a la representación Yi = α + β X i + u i , para i = 1,..., n donde u i denota el término de error. 7 Por ejemplo, si se investiga la relación entre el gasto en bienes de consumo y el ingreso familiar disponible, en una muestra de corte transversal (sólo se observan las variables en un cierto momento), aquí Y es el gasto, X el ingreso y n es el número de familias. Debe ser claro que aun dentro de grupos familiares del mismo tamaño y composición, habrá variación en el gasto, aunque el ingreso disponible sea el mismo. Esto se puede deber a otras variables no incluidas en el modelo (como la edad del jefe de familia, los gustos familiares, la tendencia a crecer o decrecer del ingreso, etc.) estas variables omitidas son tenidas en cuenta por el error u. Asimismo, u sirve para incorporar el hecho de que la variable Y puede estar medida con error, de forma tal que Z es la verdadera, pero Y es la observada, o sea Z = α + βX + v error en la ecuación Y=Z+w error de medición ⇒ Y = α + βX + u con u = v + w incluso podría tenerse v = 0, en cuyo caso u = w. Ya que u es una variable aleatoria, el modelo se complementa con supuestos acerca de su comportamiento probabilístico, para ello se hace referencia a su valor esperado, a su varianza y a su covarianza. De hecho, se supone que E( u i ) = 0, Var ( u i ) = σ 2u y Cov( u i , u j ) = E( u i u j ) = 0 para j ≠ i = 1,..., n y conviene considerar que la distribución del error es Normal; en ese caso se tiene que u 1,..., u n constituye una muestra aleatoria (m.a.) porque se tiene un conjunto de n variables aleatorias independientes e idénticamente distribuidas (i.i.d.), provenientes de la distribución N (0, σ 2 ) , lo c ual se representa gráficamente como sigue 8 α + βX n Yn f(u) α + βX 2 Y (Gasto) Y2 α + β X1 Y1 un u2 u1 α + βX 0 X1 X2 Xn X (Ingreso) Un supuesto adicional en el modelo es el de linealidad en las variables, la cual puede ser tan solo aproximada y con eso es suficiente. Y Y X X Y Y X X 9 - Estimación por Mínimos Cuadrados. Para cada selección de valores de los parámetros, se obtiene un conjunto de valores estimados de las Y' s , o sea, para αˆ y βˆ se tiene Ŷi = αˆ + βˆ X i con i = 1, ..., n A la diferencia entre lo observado y lo estimado se le llama residuo o sea ei = Yi − Ŷi = Yi − αˆ − βˆ X i = (α − αˆ ) + (β − βˆ )X i + u i de manera que ei ≠ u i , excepto si α̂ = α y β̂ = β . La idea del método de Mínimos Cuadrados Ordinarios (MCO) consiste en seleccionar a = αˆ y b = βˆ para minimizar n ∑ e i2 , que es la suma de residuos al cuadrado, también llamada Suma de Cuadrados i =1 Residual, con 2 ∑ e i = ∑ (Yi − αˆ − βˆ X i ) . 2 Para ello se obtienen las derivadas parciales, evaluadas en â = a y ß̂ = b , o sea ∂ ∂ 2 = 0 = ∑ ei2 ∑ei a, b a, b ∂αˆ ∂βˆ que conducen a ∑ Yi = na + b ∑ X i 2 ∑ X i Yi = a ∑ X i + b ∑ X i Ecuaciones normales. De la primera ecuación se sigue que a = Y − bX 10 mientras que, del sistema completo, se obtiene ∑ Yi n ∑ X i Yi − ∑ X i ∑ Yi ∑ X i ∑ X i Yi b= = ∑ Xi n n ∑ X i2 − (∑ X i )2 ∑ X i ∑ Xi2 n así que, para calcular a y b, se requieren las siguientes cantidades n , ∑ X i , ∑ Yi , ∑ X i Yi y ∑ X i2 Ejemplo. Para ilustrar los cálculos numéricos, considérese el siguiente conjunto de n = 5 datos Entonces ∑ X i = 20 y b= i Xi Yi X i Yi X 2i 1 2 4 8 4 2 3 7 21 9 3 1 3 3 1 4 5 9 45 25 5 9 17 153 81 Suma 20 40 230 120 ∑Y i 5( 230 ) − 20 ( 40 ) 5(120 ) − ( 20 ) 2 = 40 , de forma que X = 4 y Y = 8 , además = 1150 − 800 350 = = 1.75 600 − 400 200 y a = 8-1.75(4)=1 o sea que la regresión estimada de Y sobre X es Ŷ = 1 + 1.75X 11 A partir de esta ecuación se pueden obtener los valores estimados por el modelo, correspondientes a las observaciones de X, es decir Ŷ1 = 1 + 1.75X 1 = 1 + 1. 75(2) = 4. 5 Ŷ2 = 1 + 1.75X 2 =1+1.75(3) = 6.25 Ŷ3 = ... ... = 2.75 Ŷ4 = ... ... = 9.75 Ŷ5 = ... ... = 16.75 De esta forma, los residuos vienen a ser e 1 = Y1 − Ŷ1 = 4 − 4.5 = −0.5, e 2 = 7 − 6.25 = 0.75, e 3 = 0.25, e 4 = −0.75 y e 5 = 0.25 Propiedades de la recta de regresión con las estimaciones de MCO, a y b. 1.- La recta pasa por el punto de medias (X, Y ) y esto hace que la suma de residuos sea cero, o sea ∑ ei = 0 . Demostración. ∑ e i = ∑ (Yi − a − bX i ) = ∑ Yi − na − b ∑ X i = n (Y − a − b X ) = 0 porque a = Y − bX 2.- Los residuos tienen covarianza muestral cero con los valores muestrales X y con los valores estimados Ŷ , o sea Côv( X, e) = 1 ∑ ( X i − X)( e i − e ) = 0 y Cô v( Ŷ, e) = 0 . n −1 12 Demostración. Côv( X, e) = 1 ∑ (X i − X )(e i − e ) n −1 = 1 ∑ (X i − X )e i n −1 = 1 1 X∑ei ∑ Xi e i − n −1 n −1 = 1 ∑ X ie i n −1 = 1 ∑ X i (Yi − a − bX i ) n −1 = 1 ( ∑ X i Yi − a ∑ X i − b∑ Xi2 ) n −1 =0 porque e = 0 por la 2ª. ecuación normal Además, C ôv( Ŷ, e) = C ôv(a + bX, e) = C ôv(a, e) + C ôv(bX, e) = 0 + bC ôv(X, e) = 0 3.- El coeficiente de la pendiente en la regresión también puede calcularse a partir de las desviaciones de X y Y respecto a sus medias, o sea, si se define xi = Xi − X y y i = Yi − Y entonces b = ∑ x i y i / ∑ x i2 Demostración. Como 2 ∑ (X i − X ) = ∑ (X i2 − 2X i X + X 2 ) = ∑ X 2i − 2 X ∑ X i + n X 2 = ∑ X 2i − n X 2 = ∑ X 2i − (∑ X i )2 / n 13 y ∑ (X i − X )(Yi − Y ) = ∑ (X i Yi − X i Y − XYi + X Y ) = ∑ X i Yi − Y ∑ X i − X ∑ Yi + n X Y = ∑ X i Yi − n X Y = ∑ X i Yi −(∑ X i )(∑ Yi ) / n entonces b= n ∑ X i Yi − ∑ X i ∑ Yi n ∑ X i2 − ( ∑ X i ) 2 = n ∑ ( X i − X)( Yi − Y) n ∑ ( Xi − X ) 2 = ∑ x i yi ∑ x 2i 4.- La suma de cuadrados asociada con la variación en Y, se puede expresar en términos de la variación “ explicada” por la regresión, más la variación “no explicada”. Demostración. En principio, nótese que ŷ i = Ŷi − Y = a + bXi − Y = Y − bX + bX i − Y = b(X i − X ) = bx i entonces, como y i = Yi − Y = (Ŷi + e i ) − Y = ŷ i + e i se deduce que 2 2 2 2 2 2 ∑ y i = ∑ ( ŷ i + e i ) = ∑ ŷ i + 2 ∑ ŷ i e i + ∑ e i = ∑ ŷ i + ∑ e i porque Côv( ŷ, e) = 0 es decir 2 2 2 ∑ y i = ∑ ŷ i + ∑ e i SCT Suma de Cuadrados Total de Y respecto a su media = SCE Suma de Cuadrados de Y Explicada por Regresión + SCR Suma de Cuadrados no Explicada o Residual 14 Nótese que se tienen las siguientes expresiones d e cálculo SCE = ∑ ŷ i2 = ∑ (bx i )2 = b 2 ∑ x i2 = (∑ x i y i )2 / ∑ x 2i porque b = ∑ x i yi 2 ∑ xi Por otro lado, ya que la varianza del error verdadero, es desconocida, pero s 2u = Var(u i ) = E(u 2i ) − [ E(u i )] 2 = E(u 2i ) es razonable estimar a s 2u como un promedio de los residuos al cuadrado, y lo que se usa es S2 = SCR / g.l. = ∑ e 2i / (n − 2 ) donde los grados de libertad (g.l.) son en este caso n-2, ya que se tuvo que estimar dos parámetros (α y β ) para poder calcular los residuos. De hecho, más adelante se demostrará que S 2 resulta ser un estimador insesgado de s 2u . - Medidas de bondad de ajuste. Es importante medir la bondad del ajuste logrado con la recta para estimar los datos observados, esto se logra con el coeficiente de correlación y con el coeficiente de determinación. El coeficiente de correlación muestral entre Y y X viene dado por r= Côv ( Y, X) ∑ x i y i /( n − 1) = σˆ x σˆ y S XSY con SX = σˆ X = ∑ x 2i /( n − 1) y SY = σˆ Y = ∑ y 2i /( n − 1) 15 Otra manera de expresar el coeficiente de correlación es como sigue ∑ x i yi r= 2 ∑xi ∑x y i i = x2 ∑ i 2 ∑ yi ∑x2 i 2 ∑ yi S =b X SY S (o bien b = r Y ) SX debe notarse que b y r tienen el mismo signo. El coeficiente de determinación por su lado, se obtiene como r 2 , o sea r2 = = (∑ x i yi )2 ( ∑ x i2 )( ∑ y i2 ) SCE SCT = 1− SCR SCT de tal manera que r 2 mide la proporción de SCT explicada por la regresión. Además, de las últimas dos expresiones para r 2 se deduce que 0 ≤ r 2 ≤ 1 por lo cual − 1 ≤ r ≤ 1 Ejemplo. Con los datos mostrados previamente se generan los nuevos datos, exp resados ahora en desviaciones respecto a la media 16 i xi yi x i yi x i2 y 2i 1 -2 -4 8 4 16 2 -1 -1 1 1 1 3 -3 -5 15 9 25 4 1 1 1 1 1 5 5 9 45 25 81 Suma 0 0 70 40 124 Así que b= ∑ xi yi ∑ x i2 = 70 = 1 .75 , a = Y − bX = 8 − 1.75( 4) = 1 40 SCE = b ∑ x i y i = 1 .75 (70 ) = 122 .5 y SCR = SCT − SCE = 124 − 122 .5 = 1.5 de donde se obtiene S2 = SCR /( n − 2 ) = 1.5 / 3 = 0.5 r2 = SCE 122.5 = = 0.988 SCT 124 Y r = ± r 2 = 0.994 (con signo positivo porque b > 0). 17 Ejercicio para estudiantes: Realizar el ajuste de una recta de regresión a los siguientes cuatro conjuntos de datos. ¿Qué se aprendió de ellos? i Y2 Y3 X1 Y1 X2 X3 1 10 8.04 10 9.14 10 7.46 2 8 6.95 8 8.14 8 6.77 3 13 7.58 13 8.74 13 12.74 4 9 8.81 9 8.77 9 7.11 5 11 8.33 11 9.26 11 7.81 6 14 9.96 14 8.10 14 8.84 7 6 7.24 6 6.13 6 6.08 8 4 4.26 4 3.10 4 5.39 9 12 10.84 12 9.13 12 8.15 10 7 4.82 7 7.26 7 6.42 11 5 5.68 5 4.74 5 5.73 Fuente: Anscombe, F.J. (1973) “Graphs in Statistical Analysis”, Statistician 27, 17-21. • • X4 Y4 8 6.58 8 5.76 8 7.71 8 8.84 8 8.47 8 7.04 8 5.25 19 12.50 8 5.56 8 7.91 8 6.89 The American Notar que correlació n no implica causalidad (correlación espuria) Distinguir correlación de análisis de regresión (cálculo vs. análisis) - Propiedades de los estimadores a, b y S 2 con las X’s fijas. E( b) = β, Var ( b ) = σ 2u / ∑ x 2i 1 X 2 E(a ) = α, Var (a ) = σ 2u + n 2 ∑ xi ( ) Cov( a , b ) = − σ 2u X / ∑ x i2 y E S 2 = σ 2 Demostración. Ya que b= ∑ xi yi ∑ x i2 = ∑ x i (Yi − Y ) ∑ x i2 = ∑ x i Yi ∑ x i2 − Y∑ xi ∑ x 2i = ∑ x i Yi ∑ x i2 = ∑ w i Yi con w i = x i / ∑ x 2i . Se tiene que b es una combinación lineal de las Y’s, en donde las ponderaciones son tales que: 18 i) ∑ w i = ∑ x i / ∑ x i2 = 0 ii) ∑ w i X i = ∑ x i X i / ∑ x 2i = ∑ x i ( x i + X) / ∑ x i2 = ( ∑ x i2 + X ∑ x i ) / ∑ x i2 = 1 , y iii) ∑ w 2i = ∑ ( x i / ∑ x 2i ) 2 = ∑ x 2i /( ∑ x i2 ) 2 = 1 / ∑ x 2i Entonces se obtiene b = ∑ w i Yi = ∑ w i (α + βX i + u i ) = α∑ w i + β∑ w i X i + ∑ w i u i = β + ∑ w i u i por lo cual E ( b ) = E (β + ∑ w i u i ) = β + ∑ w i E ( u i ) = β y Var ( b) = Var (∑ w i u i ) = ∑ w i2 Var (u i ) + 2 ∑ ∑ w i w j Cov( u i , u j ) i< j = ∑ w i2 σ 2u + 0 = σ 2u / ∑ x 2i De igual manera, como a = Y − b X = (α + β X + u ) − b X = α − (b − β )X + u se sigue que E( a) = E[α − ( b − β) X + u] = α − E[( b − β) X] + E(u ) = α 19 y Var (a ) = E[(a − α ) 2 ] = E{[ −( b − β) X + u ] 2 } = E[( b − β) 2 X 2 − 2 (b − β) Xu + u 2 ] = X 2 E[( b − β) 2 ] − 2 XE[( b − β) u ] + E( u 2 ) = X 2 Var ( b) + σ 2u / n porque E[ u ( b − β )] = 0 = X 2 σ 2u / ∑ x 2i + σ 2u / n 1 X2 = σ 2u ( + ) n ∑ x2 i Además Cov( a , b ) = E[(a − α)( b − β)] = E{[ −( b − β) X + u ]( b − β )} = E[ −( b − β) 2 X + u ( b − β)] = − XVar ( b) + E[u ( b − β)] = − Xσ 2u / ∑ x 2i + 0 = − σ 2u X / ∑ x 2i Falta demostrar que 1 E[ u( b − β )] = E[( ∑ u i )( ∑ w i u i )] n = 1 E ( ∑ w i u 2i + 2 ∑ w i u i u j ) n i< j = 1 2 ∑ w i E (u i ) + 2 ∑ w i E (u i u j ) n i< j = 1 2 σ u ∑ w i + 2 ∑ w i (0) n i< j =0 20 Finalmente, como ei = (α − a ) + (β − b)X i + u i y a − α = −(b − β)X + u se tiene que e i = ( b − β) X − u + (β − b) X i + u i = (β − b )(X i − X ) + u i − u = (u i − u ) + (β − b)x i de donde 2 ∑ e i2 = ∑ [(u i − u ) + (β − b )x i ] [ = ∑ (u = ∑ (u i − u ) 2 + 2(u i − u )(β − b )x i + (β − b )2 x i2 2 i ) ] − 2 u i u + u 2 + 2(β − b )∑ (u i − u )x i + (β − b )2 ∑ x i2 = ∑ u i2 − 2 u ∑ u i + nu 2 + 2(β − b )(∑ u i x i − u ∑ x i ) + (β − b )2 ∑ x i2 = ∑ u 2i − nu 2 + 2(β − b )∑ u i x i + (β − b )2 ∑ x i2 Es por ello que E( ∑ e 2i ) = E( ∑ u i2 ) − nE (u 2 ) + 2 E[( β − b ) ∑ u i x i ] + ∑ x 2i E[(β − b ) 2 ] σ2 = ∑ E( u i2 ) − n u + 2E[( −∑ w i u i )( ∑ u i x i )] + ∑ x i2 Var( b) n = ∑ σ 2u − σ 2u − 2E( ∑ w i x i u i2 + ∑ w i x j u i u j ) + ∑ x i2 ( σ 2u / ∑ x i2 ) i≠ j = nσ 2u − σ 2u − 2∑ w i x i E( u 2i ) − 2 ∑ w i x j E( u i u j ) + σ 2u i≠ j = nσ 2u − 2∑ w i x i σ 2u = σ 2u (n − 2 ∑ w i x i ) = (n − 2)σ 2u 21 y, en consecuencia, E(S2 ) = E[ ∑ e 2i /( n − 2 )] = σ 2u Aun cuando los estimadores de MCO, a y b, sean aparentemente razonables, la justificación plena de su empleo generalizado está dada por el siguiente teorema. Teorema de Gauss-Markov. Dentro de la clase de estimadores lineales e insesgados para α y β, los estimadores de MCO poseen la menor varianza, es decir son los Mejores Estimadores Lineales e Insesgados (MELI). Estimadores lineales Estimadores a y b Estimadores lineales insesgados Todos los posibles estimadores de α y β - Inferencia estadística. Hasta ahora no se ha requerido suponer normalidad de los errores, si este supuesto es válido, entonces al ser a y b combinaciones lineales de los u’s, se tiene que 1 X2 a ∼ N (α, σ 2u ( + )) , b ∼ N (β, σ 2u / ∑ x i2 ) 2 n ∑x 2 y i ∑ ei σ 2u = ( n − 2)S2 σ 2u ∼ χ(2n − 2) con ∑ e i2 una variable aleatoria independiente de a y b. De esta forma se obtiene que 22 b −β σ u / ∑ x i2 ∼ N(0, 1) y χ 2(g.l.) N(0,1) g.l. b −β t= σu / ∑ x 2 i = b −β S / ∑ x i2 / (n − 2)S2 /(n − 2) σ 2u ∼ t (n − 2) por lo cual, un intervalo del 100 (1-ε)% de confianza para β está dado por b ± t ( n − 2), ε / 2S / ∑ x i2 y el estadístico de prueba para la hipótesis H 0 : β = β 0 vs. H A : β ≠ β 0 resulta ser b − β0 S/ 2 ∑ xi ∼ t (n − 2) De manera similar puede realizarse inferencia sobre α a partir de que a−α 1 X2 S + n ∑x2 i ∼ t (n − 2) 23 así que un intervalo del 100(1 -ε)% de confianza para α es a ± t ( n − 2), ε / 2 S 1 X2 + n ∑x2 i Asimismo, para probar la hipótesis H 0 : α = α 0 vs. H A : α ≠ α 0 se usa el estadístico t= a − α0 1 X2 + S n ∑ x2 i ∼ t (n − 2) Por otro lado, también puede realizarse inferencia sobre σ 2u ya que ( n − 2 )S 2 σ 2u ∼ χ (2n − 2) de tal forma que un intervalo de 95% de confianza para σ 2u viene dado por ( n − 2 )S 2 ( n − 2 )S 2 , 2 χ (n − 2),0.975 χ 2(n − 2),0.025 - Estimación por Máxima Verosimilitud. Es de subrayar que, del modelo planteado Yi = a + ßX i + u i para i = 1,…, n, con las X’s fijas se deduce que E (Yi ) = α + β X i Var (Yi ) = Var (u i ) = σ 2u 24 en consecuencia Yi ∼ N(a + ßX i , s 2u ) porque u i ∼ N( 0, σ2u ) además, también se deduce que las variables Y1 ,...,Yn son independientes. Por lo tanto, es factible usar el método de Máxima Verosimilitud (MV) para estimar a y ß . Para ello se sabe que f (Yi ) = 1 2πσ u 1 Y − α − βX i − i 2 σu e 2 para i = 1,…, n de donde se obtiene la función de verosimilitud 1 n Yi − α −βX i n − 2 i∑=1 σu n 1 e L(Y1 ,..., Yn ) = ∏ f (Yi ) = i =1 2π σ u 2 y la consiguiente función de log-verosimilitud ln( L) = −n ln ( ) 2 πσ u − n 2 ∑ (Yi − α − β X i ) 2 2 σ u i =1 1 Se observa entonces que, para encontrar los estimadores de MV de α y β se debe n minimizar la suma ∑ (Yi − α − βX i )2 respecto a α y β , que es precisamente lo que se i =1 hace con el método de MCO. Por lo tanto, los estimadores de MCO resultan ser también de MV, si se hace el supuesto de normalidad de los errores y, por consiguiente, las propiedades de los estimadores de MV (en particular suficiencia, consistencia e invarianc ia) son también propiedades, en este caso, de los estimadores de MCO. 25 - Análisis de varianza. Este tipo de análisis surge de la partición de la SCT en los componentes explicado y no explicado. Los cálculos se presentan en un cuadro conocido como ANDEVA (o ANOVA en inglés) como el siguiente TABLA DE ANDEVA Fuente de Suma de Cuadrados g.l. Variación Cuadrado F Medio Regresión (explicada por X) SCE = ∑ ŷ i2 1 SCE/1 SCR/(n-2) SCE / 1 SCR /( n − 2) = b 2 ∑ x i2 Residual SCR = ∑ e 2i n-2 Total SCT = ∑ y i2 n-1 Si H 0: β = 0 es cierta, entonces b−0 σ u / ∑ x 2i ∼ N(0,1) de donde, al elevar al cuadrado se obtiene b 2 ∑ x i2 σ 2u ∼ χ2(1) así que SCE σ 2u = b 2 ∑ x 2i σ 2u ∼ χ 2(1) mientras que SCR σ 2u = ∑ e 2i σ 2u ∼ χ(2n − 2) con SCE y SCR independientes. Por lo tanto, si la hipótesis H0: β = 0 es cierta, 26 SCE / 1 SCR /( n − 2) / = SCE / 1 ∼ F(1, n − 2) F= 2 σ2 SCR /( n − 2 ) σ u u Así pues, una manera alternativa de probar la hipótes is H0: β = 0 es mediante el cociente de cuadrados medios, que se compara con valores de la distribución F(1, n − 2) , lo cual equivale al uso del estadístico t, ya que b 2 ∑ x 2i SCE / 1 b2 b−0 2 2 = ) ∼ [ t ( n − 2) ] = =( 2 2 2 2 SCR /( n − 2 ) ∑ e /( n − 2) S / ∑ x S / ∑ xi i i por lo cual, H0 : β = 0 puede probarse indistintamente con los estadísticos t o F. Sin embargo, el estadístico F es más general, como se verá en la regresión múltiple, ya que sirve para probar si hay explicación de Y a través del modelo de regresión, mientras que t sólo permite probar si X proporciona explicación para Y. Ejemplo: Con los datos numéricos, se sabe que a = 1, b = 1.75, ∑x 2 i = 40 , ∑e 2 i = 1.5 y S2 = 0.5 Entonces Vâ r (b ) = S2 / ∑ x 2i = 0.5 / 40 = 0.0125 ⇒ êe(b) = 0.0125 = 0 .1118 1 X 2 1 16 Vâr(a) = S2 + = 0.5 + = 0.3 ⇒ n ∑x2 5 40 i êe(a) = 0.3 = 0.5477 así que un intervalo del 95% de confianza para β es 1.75 ± t (3),0.025 (0 .1118 ) = 1.75 ± 3 .182 (0 .1118 ) = (1 .39 , 2.11) 27 y la hipótesis H0 : α = 0 vs. HA : α ≠ 0 se prueba con el estadístico t= 1 a −0 = = 1.826 < 3.182 êe( a) 0.5477 el cual indica que la ordenada al origen (o intercepto) no es significativamente distinta de cero al nivel del 5%. La correspondiente tabla de Análisis de Varianza resulta ser Fuente de Suma de g.l. Cuadrado Variación Cuadrados F Medio X 122.5 1 122.5 Residual 1.5 3 0.5 Total 124 4 -- F = 245 Al comparar el estadístico calculado F = 122 .5 / 0 .5 = 245 .0 con F(1,3), 0.95 = 10 .1 se concluye el rechazo de H0 : β = 0 al nivel de significancia del 5%. - Pronóstico en el Modelo de Regresión Lineal Simple. El pronóstico para un valor dado de X (que se denota por X 0 ) puede ser puntual o por intervalo. El valor verdadero de Y, según el modelo, es Y0 = α + β X 0 + u 0 mientras que el pronóstico resulta ser Ŷ0 = a + bX 0 así que el error de predicción está dado por 28 e 0 = Y0 − Ŷ0 = u 0 − (a − α ) − ( b − β) X 0 el cual tiene E(e 0 ) = 0 y Var(e0 ) = Var(u0 ) + Var(a) + X 20 Var(b) − 2Cov[u0 , (a − a)] − 2Cov[ u 0 , (b − β) X 0 ] + 2Cov[(a − α), ( b − β) X 0 ] 1 X2 = σ 2u + σ 2u ( + ) + X 02 σ 2u / ∑ x i2 + 2 X 0 Cov(a , b ) n ∑x2 i = σ 2u (1 + X2 2X 0 X 1 X2 + + 0 − ) n ∑ x2 ∑ x 2 ∑ x 2 i i i = σ 2u [1 + 1 (X 0 − X )2 + ] 2 n ∑x i Las covarianzas de u 0 con (a-α) y con (b-β) son cero porque u 0 es independiente de u1 ,..., u n y los estimadores a y b son combinaciones lineales de estos u’s. Se aprecia entonces que la varianza más pequeña de e0 será cuando X 0 = X y, conforme se aleje de X 0 de X , se incrementará la varianza en forma cuadrática. Además, como e0 es función de a y b, que son combinaciones lineales de los u i' s , e0 ∼ N(0,Var ( e0 ) ) y, por consiguiente e0 1 (X − X ) 2 σu 1 + + 0 2 n ∑ xi ∼ N(0,1) y Y0 − Ŷ0 1 (X − X ) 2 S 1+ + 0 2 n ∑x ∼ t ( n − 2) i Por lo tanto, un intervalo de 95% de probabilidad (predicción) para Y0 viene dado por a + bX0 ± t ( n − 2), 0.025S 1 + 1 (X 0 − X )2 + 2 n ∑ xi 29 Si en lugar de pronosticar un valor individual Y0 , se desea estimar la media E (Y0 ) = α + β X 0 para una cierta X 0 , entonces el error de estimación es E(Y0 ) − Ŷ0 = − (a − α ) − ( b − β) X 0 1 ( X − X) 2 que tiene media cero y varianza σ2u [ + 0 ] , por lo cual un intervalo del 95% 2 n ∑x i de confianza para E(Y0 ) es a + bX 0 ± t ( n −2), 0.025S 2 1 (X 0 − X ) + 2 n ∑ xi Ejemplo. Para pronosticar con el modelo estimado según la ilustración numérica, se tiene Ŷi = 1 + 1 .75X i , X = 4, S2 = 0.5 y ∑ x i2 = 40 . El pronóstico de Y para X0 = 10 tiene un intervalo de 95% de confianza dado por 1 − 1.75 (10 ) ± 3.182 0 .5 1 + 1 (10 − 4 ) 2 + = 18.5 ± 3 .26 = (15 .24, 21.76 ) 5 40 mientras que, para estimar E( Y X = 10) se obtiene el intervalo de 95% de confianza 1 + 1 .75(10 ) ± 3 .182 0 .5 1 (10 − 4) 2 + = 18 .5 ± 2 .36 = (16 .14, 20 .86 ) . 5 40 30 3. ANÁLISIS DE LOS SUPUESTOS DEL MODELO 1.- Linealidad. Este supuesto se hace sobre la forma funcional que relaciona a Y con X, que es de línea recta. La linealidad en los parámetros no es un supuesto verificable, se requiere para usar MCO, de otra forma se debería usar un método no -lineal, por ejemplo en el modelo Y = α + βX γ + u Por lo que toca a la forma funcional, una prueba estadística formal de linealidad puede efectuarse si se cuenta con réplicas de Yi para una X i dada (ver Johnston, 1984 cap. 3). Si no existen réplicas, lo que se hace es proponer una familia general de formas funcionales que incluya las más comunes, esto se logra mediante el uso de transformaciones potencia o de polinomios en X. La transformación potencia para una variable Z > 0 , está dada por Zλ si λ ≠ 0 T (Z ) = ln( Z) si λ = 0 Esta transformación tiene el defecto de no preservar el orden original en los datos y de ser discontinua en λ = 0 ; por esta razón se prefiere usar la transformación potencia modificada por Box y Cox, o sea Z λ − 1 si λ ≠ 0 ( λ) Z = λ ln( Z ) si λ = 0 y, a partir de ella, postular un modelo general de regresión lineal simple Yi(λ1 ) = α 0 + β X (i λ 2 ) + u i para i = 1, ..., n el cual brinda como casos especiales los siguientes: 31 1) Modelo lineal (λ1 = λ 2 = 1) Yi − 1 = α 0 + β (Xi − 1) + u i ⇒ Yi = (1 + α 0 − β ) + β X i + u i = α + β X i + u i con α = 1 + α 0 − β 2) Modelo log-log (λ 1 = λ 2 = 0 ) ln( Yi ) = α 0 + β ln( X i ) + u i ⇒ Yi = e α0 .e β ln( X i ) .e ui = A 0 X iβ U i con A 0 = e α 0 y U i = e u i 3) Modelo semilog (λ1 = 0, λ 2 = 1) ln( Yi ) = α 0 + β(X i − 1) + u i = (a 0 − ß ) + ßX i + u i ⇒ Yi = e α +βX i U i con α = α 0 − β y U i = e u i 4) Modelo recíproco (λ1 = 1, λ 2 = −1) X −1 − 1 Yi − 1 = α 0 + β( i ) + ui −1 ⇒ Yi = (1 + α 0 + β ) + β( − X i− 1 ) + u i = α − β( 1 ) + ui Xi con α = 1 + α 0 + β 5) Modelo logarítmico recíproco (λ 1 = 0, λ 2 = −1) ln( Yi ) = α 0 + β( Xi−1 − 1 −1 = (a 0 + ß) − ß( ⇒ Yi = e α −β / X i U i ) + ui 1 ) + ui Xi con α = α 0 + β y U i = e u i 32 La elección de la transformación más apropiada se basa en: a) La teoría del fenómeno en estudio, la interpretación de los coeficientes y sus propiedades, por ejemplo su elasticidad, la cual se define como dY X Elasticidad = dX Y (en el caso del modelo log-log la elasticidad es la constante β). b) Los datos, que pueden tener un comportamiento gráficamente similar al de las curvas mostradas a continuación (ver Cap. 3 de Johnston, 1984, pp. 65-71). Modelo log-log Y Y β >1 0 < β <1 A0 −1 < β < 0 β = −1 A0 β < −1 0 1 X 0 1 X Modelo semilog Y Y eα β>0 β<0 eα 0 X 0 X Modelo recíproco Y Y α β>0 β<0 α 0 X 0 −β/ α X 33 Modelo logarítmico - recíproco Y eα 0 X 2. Supuesto de varianza constante (Homoscedasticidad). El supuesto de varianza constante indica que Var (u i ) = E( u 2i ) = σ 2u para i = 1,..., n. Si este supuesto no es válid o, el modelo apropiado sería Yi = α * +β * X i + u *i con u *i ∼ N (0, σ i2 ) indep endiente de u *j si i ≠ j y el método de Máxima Verosimilitud para estimar α * y β * conduce a minimizar la Suma de Cuadrados Residual SCR* = ∑ [( Yi − αˆ * −βˆ * X i ) / σ i ]2 = ∑ w i e *i2 con w i = 1 / σ 2i que, de hecho, da origen al Método de Mínimos Cuadrados Ponderados. Como resultado de minimizar la SCR*, se obtienen los estimadores a* = Y * − b * X * y b* = ∑ w i y *i x *i / ∑ w i x *i2 con Y* = ∑ w i Yi / ∑ w i , X* = ∑ wX i / ∑ w i , y*i = Yi − Y * y x *i = X i − X *. 34 Nótese además que ( ) 2 SCR* = ∑ e *i / σ i = ∑ e i2 donde ei corresponde al residuo del modelo Yi / σ i = α * / σ i + β * X i / σ i + u *i / σ i con u *i / σ i , i = 1,..., n, una m.a. de N(0,1) de tal forma que los estimadores de mínimos cuadrados ponderados corresponden a los de MCO en las variables transformadas Yi / σ i y X i / σ i . Por consiguiente, el Teorema de Gauss-Markov garantiza que a* y b* tengan varianza mínima, lo cual implica que a y b ya no serán eficientes en estas condiciones. En resumen, si hay heteroscedasticidad, los MELI de α * y β * son a* y b* (no a y b, aunque éstos sigan siendo insesgados y consistentes). Ello implica que la inferencia se verá perjudicada al utilizar equivocadamente los valores de a y b, porque: i) los intervalos de confianza van a ser innecesariamente amplios y ii) las pruebas de significación serán menos potentes. Detección. Ya que ei ≈ u i , entonces el supuesto de que Var(ui ) = s 2u se verifica si la varianza de ei es aproximadamente constante, lo cual se puede apreciar en una gráfica de e i vs. Ŷi en la que se trataría de detectar algún patrón sistemático, aunque también se debe graficar a los residuos contra X y contra cualquier otra variable, que puede incluir el orden (o el tiempo) de observación ei ei Ŷ, X Ŷ, X 35 ei ei Ŷ, X Ŷ, X ei Ŷ , X Pruebas de carácter más formal para heteroscedasticidad son las de Goldfeld y Quandt y Park -Glejser (ver Pyndick y Rubinfeld, 1981 pp. 146-150). Sin embargo, la de Goldfeld y Quandt sólo detecta varianza no-constante, pero no permite ver con claridad a qué se debe el problema. Por su lado, la prueba de Park-Glejser formaliza la idea de las gráficas, ya que postula lo siguiente Yi = α * + β * X i + u *i Var (u *i ) = σ 2i = σ 2 X δi e vi con Var (v i ) = cte. Así pues, al tomar logaritmos se tiene ln( σ 2i ) = ln( σ 2 ) + δ ln( X i ) + v i 36 si además se usa e*i2 como aproximación σ i2 , se puede estimar el modelo ln(e *i2 ) = ln( σ 2 ) + δ ln( X i ) + v i = γ + δ ln( Xi ) + v i y realizar la prueba H 0 : δ = 0 . Si no se rechaza, se concluye que la varianza es constante, pero si se rechaza, se tienen ya estimados los valores de δ y de γ, tales que ( ) ( ) ln σˆ 2i ~ − ln̂ e*i2 = γˆ + δˆ ln(X i ) de donde se sigue que ˆ ˆ ˆ σˆ 2i ~− e γ Xiδ = σˆ 2 Xiδ y el modelo con el que se debe trabajar es entonces Yi ˆ X iδ / 2 = α ˆ X δi / 2 +β Xi ˆ X δi / 2 + u*i ˆ X δi / 2 con Var ( u *i ˆ X δi / 2 )= 1 ˆ X iδ ~ σ2 σi2 − (constante) así que α y β pueden ahora estimarse por MCO con las variables Yi / X δi / 2 y X1i− δ / 2 ˆ ˆ (nótese que ahora α ya no está asociada a una constante, sino a la variable X −i δ / 2 ). ˆ Una variante de esta prueba de heteroscedasticidad consiste en postular otra especificación para el comportamiento de los residuos e*i , por ejemplo se podría intentar usar e*i2 = γ + δX i + v i y, de nuevo, la hipótesis a probar será H0: δ = 0 . 37 3. No-correlación de los errores. El supuesto de que Cov( u i , u j ) = E ( u i u j ) = 0 puede ser inválido cuando existe algún orden en los datos que origine “acarreo” de efectos de un dato al siguiente. Por lo común aparece cuando el orden es cronológico, es decir, cuando se trabaja con series de tiempo (en tal caso se habla de correlación serial, aunque también se utiliza el término de autocorrelación). Para apreciar los efectos de la autocorrelación, supóngase el modelo con datos de series de tiempo Yt = α + β X t + u *t u*t = ρu *t −1 + u t con u 1 ,..., u n una m.a. de N( 0, σ2u ) y, en particular, considérese el caso ρ = 1 . En las siguientes gráficas se considera primero u t , de ahí se construye u*t y finalmente Yt . ut 2 0 -2 t u *t = u *t −1 + u t , u 0 = 0 2 0 -2 t 38 Y X et 0 t Nótese en la gráfica anterior que la recta de MCO se ajusta a los valores observados mejor que la recta real, lo cual indica un optimismo excesivo, lo que se reflejará en una r 2 mayor de lo que debería ser, o equivalentemente, una varianza estimada menor que la verdadera. Los estimadores a y b seguirán siendo insesgados y consistentes, pero altamente sensibles a las fluctuaciones muestrales (o sea, para distintas m.a.’s de las u’s, los resultados serán radicalmente distintos) y además serán ineficientes, porque existen otros estimadores que satisfacen el Teorema de Gauss-Markov. Por la subestimación de la varianza del error, se subestima también la varianza de a y de b, y esto invalida las inferencias. Detección de autocorrelación.- Mediante gráficas se podría visualizar el patrón de autocorrelación, tales gráficas son fundamentalmente de los residuos vs. el orden y residuos vs. residuos retrasados. 39 Autocorrelación positiva et et suave 0 t e t −1 Autocorrelación negativa et et cambios bruscos t e t −1 Existen también diversas pruebas para detectar autocorrelación, aunque la más conocida es la de Durbin-Watson, ésta consiste en calcular el estadístico n 2 ∑ (e t − e t −1 ) d = t =2 n 2 ∑ et t =1 La distribución de este estadístic o es difícil de obtener, sin embargo Durbin y Watson proporcionaron los puntos críticos necesarios para utilizar este estadístico en la práctica. 40 El procedimiento de prueba se entiende mejor si se observa que n n −1 t =2 n t =1 n ∑ e 2t − 2 ∑ e t e t −1 + ∑ e 2t d = t =2 2 ∑ et t =1 n n n ∑ e 2t + ∑ e 2t − 2 ∑ e t e t −1 ~ − t =1 t =1 t =1 n 2 ∑et t =1 n n 2 ∑ e 2t / n − 2 ∑ e t e t −1 / n = t =1 t =1 n 2 ∑ et / n t =1 = 2 V̂ar ( e) − 2Côv (e , e −1 ) Vâr ( e) = 2 (1 − ρˆ ) si e = 0 en donde la aproximación surge al considerar que n n n −1 n n t =2 t =1 t =1 t =2 t =1 2 − ∑ e 2t ~ − ∑ e2t y ∑ e t e t −1 ~ − ∑ e t e t −1 . ∑e t ~ Por lo tanto, se puede ver que 0 ≤ d ≤ 4 , con d = 2 si ρˆ = 0 . Nótese que el uso de d sólo es válido si e = 0 , lo cual se garantiza cuando existe el término constante (ordenada al origen) en el modelo y se usa el método de MCO; además tampoco debe usarse d cuando la variable dependiente está retrasada. Cuando se desea probar H 0 : ρ = 0 vs. H A : ρ > 0 , se rechaza H 0 si d<2; y para probar H0 : ρ = 0 vs. HA : ρ < 0 , se rechaza H 0 si 4-d < 2. Es nec esario saber que la prueba no conduce a conclusiones en algunos casos y por ello conviene ver la siguiente gráfica 41 Zona de indecisión Rechace H 0 y opte por H A dL 0 Autocorrelación Positiva Rechace H 0 y opte por H A No se rechaza H 0 2 du 4 − dL No autocorrelación 4 − du 4 Autocorrelación Negativa d Si se detecta autocorrelación en el modelo, debe tenerse en cuenta que su causa puede ser una forma funcional incorrecta o bien el que se haya omitido alguna variable explicativa. Por ejemplo, si el modelo debería ser Yt = α + β X 1t + γX 2 t + u t pero se supuso incorrectamente que Yt = α + βX1t + v t resulta que, implícitamente, se tiene v t = γX 2t + u t lo cual se podría ver reflejado en que los residuos mostrarían un patrón sistemático, posiblemente del tipo de autocorrelación. Corrección.- Si existe convencimiento de que se ha detectado autocorrelación de primer orden, ésta puede corregirse de la manera siguiente. Como se tiene Yt = α + βX t + u *t con u*t = ρu *t −1 + u t entonces se obtiene la ecuación de diferencias generalizadas dada por 42 ( Yt − ρYt −1 = (α − ρα ) + β(X t − ρX t −1 ) + u *t − ρu *t −1 ) = α(1 − ρ) + β(X t − ρX t −1 ) + u t y se aplica MCO a este modelo sin dificultad, porque u t satisface los supuestos, aunque se requiere transformar los datos Y1 y X1 como sigue, para no reducir el tamaño de muestra, Y1 1 − ρ 2 y X 1 1 − ρ 2 . El problema práctico radica en conocer el valor de ρ, y lo que se debe hacer es estimarlo de acuerdo con alguno de los siguientes métodos: estadístico d, de TheilNagar, Cochrane-Orcutt, Hildreth-Lu o AR(1) en los errores. El método que se deriva del estadístico d surge de que d ~ − 2 (1 − ρˆ ) , de forma tal ~ 1− que ρˆ − d , sin embargo ésta es una aproximación muy burda. El método de Theil2 Nagar sugiere la modificación siguiente ρˆ = [n 2 (1 − d / 2 ) + k 2 ] /( n 2 − k 2 ) donde k es el número de coeficientes de la regresión que se estima. Los métodos de Cochrane-Orcutt y Hildreth-Lu (Pindyck y Rubinfeld, 1981 pp.157159) buscan también estimar el coeficiente ρ, el primero mediante un proceso iterativo en donde se pretende ir mejorando la estimación de ρ hasta llegar al valor ρ̂ que minimice la SCR. Sin embargo, no hay garantía de que eso ocurra y además no se estiman simultáneamente ρ y los demás parámetros del modelo. El método de Hildreth-Lu en cambio, es un procedimiento de búsqueda del valor de ρ que minimiza la SCR, dentro de una rejilla de valores típicamente elegidos como 0, 0.1 ,0.2,..., 0.9, 1. Para cada valor de ρ se plantea la ecuación transformada Yt − ρ Yt −1 = α (1 − ρ ) + β(X t − ρ X t −1 ) + u t 43 o sea Yt* = α(1 − ρ) + βX*t + u t la cual se estima por MCO y se registra el valor de la correspondiente SCR, la ρ que minimice esta suma de cuadrados es la que debe elegirse (la estimación de ρ junto con los otros parámetros es simultánea). El método AR(1) en los errores usa la ecuación Yt = α (1 − ρ ) + β X t − βρX t −1 + ρ Yt −1 + u t y se estiman simultáneamente los parámetros α, β y ρ mediante un método no -lineal. 4.- Normalidad de los errores. El supuesto de normalidad permite realizar inferencia estadística a partir de los datos muestrales. Aun cuando la inferencia sobre los parámetros de la regresión (basada en distribuciones t y F) no se ve seriamente invalidada por la no-normalidad, los estimadores a y b pueden ser sensibles al efecto de distribuciones con asimetría o colas pesadas y, por consiguiente, tomar valores que no co rrespondan a la realidad. Detección. La manera más inmediata de detectar la no-normalidad en los residuos es a través de un histograma de residuos (o diagrama de punto) en donde se pueda apreciar, a simple vista, si la distribución es normal o no (de manera aproximada) por su simetría. e e 44 Pruebas más formales se basan en el uso de los estadísticos de asimetría y curtosis de los residuos. Se sabe que, para n grande n n 6 b1 = [ ∑ ( e i − e ) 3 / n ] /[ ∑ (e i − e ) 2 / n ] 3 / 2 ≈ N 0, i =1 i =1 n n i =1 i =1 n y b 2 = [ ∑ (e i − e ) 4 / n ] /[ ∑ (e i − e ) 2 / n ] 2 ≈ N 3, 24 n El uso combinado de estos estadísticos es usado en la prueba de Jarque y Bera para construir el estadístico de normalidad 2 [ ] 2 b1 + b 2 − 3 = n 4b + (b − 3)2 ∼ χ 2 1 2 ( 2) 6/ n 24 24 / n Corrección. Mediante el uso de transformaciones potencia (por ensayo y error, se aprovecha el orden de la familia de transformaciones). 5. Supuesto de media cero del error. Este supuesto se verifica cuando e = 0 , lo cual queda garantizado cuando existe la ordenada al origen en el modelo y se usa MCO para estimar los parámetros. En caso de que no exista ordenada al origen y e ≠ 0 se podría provocar un sesgo en la predicción de valores. 6. No observaciones atípicas, ni cambios estructurales. Este supuesto está implícito en el hecho de que el modelo que se postula es válido para todas y cada una de las observaciones , o sea, par a i = 1,…, n. 45