Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández MINIMOS CUADRADOS GENERALIZADOS I INTRODUCCION En estos apuntes discutiremos en más detalle el modelo de regresión múltiple en la presencia de errores no esféricos. Esto es, aquellos que violan los supuestos de heterocedasticidad o autocorrelación. Supondremos el modelo lineal general: Y = Xβ β+u E(uX) = 0 (1) E(uu′X)= σ2 Ω donde Ω es una matriz positiva definida1. Recordemos que los errores son heterocedásticos cuando tienen distintas varianzas. Este fenómeno se da usualmente cuando trabajamos con datos de corte transversal. Por ejemplo, consideremos la rentabilidad promedio de un conjunto de empresas en un momento del tiempo. La escala de la variable dependiente y el valor explicativo del modelo tiende a variar entre las distintas observaciones, aún si controlamos por factores tales como el tamaño de la firma. En efecto, la varianza de la rentabilidad podría depender del grado de diversificación de la producción y de factores típicos de cada industria, los cuales varían entre empresas de similar tamaño. En la ausencia de autocorrelación, la matriz varianza-covarianza de los errores tomaría la forma: σ12 0 E(uu ' | X ) = σ 2 Ω = ... 0 0 σ 22 ... 0 0 0 ... ... ... σ 2n ... ... La autocorrelación se encuentra usualmente en datos de series de tiempo. Se dice que éstos tienen ‘memoria’ porque la variación de la regresión no es independiente de un período a otro. Por ejemplo, en el caso de los 1 Condicionamos en los valores de las X’s porque éstas puedan ser variables aleatorias. Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 2 precios ajustados estacionalmente, la observación en t depende típicamente de lo observado en el pasado. Las series de tiempo son generalmente homocedásticas, de modo que la matriz varianza-covarianza de los errores toma la forma: ρ1 1 1 ρ1 E(uu ' | X ) = σ 2 Ω = σ 2 ... ... ρ n −1 ρ n −2 ... ρ n −1 ... ρ n − 2 ... ... ... 1 En general, los valores de las correlaciones entre los errores declinan a medida que nos movemos fuera de la diagonal. Esto es, a medida que las observaciones están más espaciadas en el tiempo. II PROPIEDADES DE MICO EN MUESTRAS FINITAS Sabemos que: βˆ = ( X ' X ) −1 X ' Y = β + ( X ' X ) −1 X' u (2) Por lo tanto, E(βˆ | X ) = β + ( X ' X ) −1 X ' E( u | X ) = β (3) Es decir, dado que E(uX) = 0, el estimador de mínimos cuadrados ordinarios (MICO) es insesgado (condicional en X). Por otra parte, la varianza de MICO viene dada por: Var (βˆ | X) = E{(βˆ − β)(βˆ − β)' | X} = E{( X ' X ) −1 X ' uu' X ( X' X ) −1 | X} = E{( X ' X ) −1 X ' uu' X( X' X ) −1 | X} = σ 2 ( X' X) −1 X' Ω X( X' X) −1 (4) Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 3 De ello, es claro que Var (βˆ | X) ≠ σ 2 ( X' X) −1 . Si, además, u|X ∼ N(0, σ2 Ω ), entonces: βˆ | X ~ N (β, σ 2 ( X' X) −1 X' Ω X( X' X) −1 ) (5) Esto es, el estimador MICO sigue distribuyéndose normal, pero pierde su propiedad de estimador MELI. Es importante señalar que el estimador de σ2: σˆ 2 = (Y − Xβˆ )' (Y − Xβˆ ) n−k (6) es sesgado. Esto es, E( σ̂ 2 )≠σ2. De lo anterior, los intervalos de confianza para β construidos en base a σˆ 2 ( X' X) −1 serán sesgados. Primero, porque el estimador (6) es sesgado, y segundo, porque Var (βˆ | X) = σ 2 (X' X) −1 X' Ω X( X' X) −1 . III MINIMOS CUADRADOS GENERALIZADOS 3.1 Conceptos Preliminares Sabemos que la matriz Ω es simétrica. Por lo tanto, admite una descomposición espectral: Ω = C Λ C′ (7) donde las columnas de C son los vectores propios de Ω , y los valores propios de Ω están ordenados en la matriz diagonal Λ . Dado que la matriz Ω es, además, positiva definida, todos sus valores propios son positivos. Por lo tanto, Λ 1/2 existe y viene dada por: Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández Λ 1/ 2 = λ1 0 ... 0 λ2 ... ... 0 ... 0 ... ... 4 0 0 ... λ n Defínase la matriz P′ = C Λ−1/2. Con lo cual, Ω −1 = P′P. El modelo de regresión transformado viene dado por: ⇔ P Y = PX β + P u Y*=X*β β + ε* (8) donde Y*=PY, X*=PX, u*=Pu. Si la matriz Ω es conocida, entonces X* e Y* son observables. • ¿Por qué esta transformación, en particular? Notemos que E(u*u*′| X) = P E(uu′|X) P′ = σ2 P Ω P′ = σ2 Λ−1/2C′C Λ C′C Λ−1/2 = σ2 In porque, dado que la matriz Ω es simétrica, C′C=I. De lo anterior, los errores del modelo transformado satisfacen los supuestos del modelo lineal clásico. Sabemos que, bajo dichos supuestos, el estimador MICO es el más eficiente. Por lo tanto, el estimador de mínimos cuadrados ordinarios aplicado al modelo transformado también lo es: βˆ MCG = ( X * ' X * ) −1 X * ' Y * = ( X' P' PX) −1 X' P' PY = ( X' Ω −1 X) −1 X' Ω −1 Y (9) Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 5 Claramente, E( β β̂ MCG |X*)=β β . Ello, porque E(u*|X*)=0 ⇔ E(Pu|PX)=0 ⇔E(u|X)=0, dado que P es una matriz de constantes conocidas. Además, por el teorema de Gauss-Markov, la varianza de β β̂ MCG es mínima dentro de la clase de estimadores insesgados y lineales en Y*: Var (βˆ MCG | X * ) = σ 2 ( X * ' X * ) −1 = σ 2 ( X ' Ω −1X ) −1 (10) Si, además, asumimos que u|X ∼ N(0, σ2 Ω ), entonces β β̂ MCG será MEI (Mejor Estimador Insesgado), porque coincidirá con el estimador de máxima verosimilitud de β . 3.2 Test de Hipótesis Los test de restricciones lineales individuales se llevan a cabo con un test t, como es habitual. En el caso general, en el cual se quiere contrastar un conjunto de J restricciones lineales, se utiliza un test F: H0: RJxk β kx1 = qJx1 1 F(J, n − k ) = (Rβˆ nr − q )' (σˆ 2 R ( X * ' X * ) −1 R ' ) −1 (Rβˆ nr − q ) J (11) = donde ( uˆ *r ' uˆ *r − uˆ *nr ' uˆ *nr ) / J 2 σˆ uˆ *nr = Y * − X *βˆ nr βˆ nr = ( X * ' X * ) −1 X * ' Y * uˆ *nr ' uˆ *nr ( Y − Xβˆ nr )' Ω −1 ( Y − Xβˆ nr ) σˆ = = n−k n−k 2 uˆ *r = Y * − X *βˆ r βˆ r = βˆ nr − (X' Ω −1 X) −1 R ' (R ( X' Ω −1 X)R ' ) −1 (Rβˆ nr − q) ü En resumen, todos los resultados del modelo lineal clásico para los datos transformados se aplican, incluyendo los test de hipótesis. Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 6 IMPORTANTE: El coeficiente de determinación múltiple o medida de bondad de ajuste del modelo, R2, NO tiene una contrapartida en el contexto de mínimos cuadrados generalizados. ¿Por qué? Porque el R2 calculado por la computadora mide la bondad del ajuste del modelo que utiliza los datos transformados, es decir, aquel en el cual la variable dependiente es Y*. Por lo tanto, se ha sugerido utilizar: ( Y − Xβˆ MCG )' ( Y − Xβˆ MCG ) ~ R2 = 1− n ∑ ( Yi − Y ) 2 (12) i =1 como medida de bondad de ajuste del modelo sin transformar. Sin embargo, ~ no hay garantía de que R 2 se ubique en el intervalo [0, 1]. Por lo tanto, no es una medida útil para comparar modelos♦ IV ESTIMACION EN LA PRESENCIA DE HETEROCEDASTICIDAD Si la varianza del error no es constante a lo largo de las observaciones, estamos en la presencia de heterocedasticidad: Var ( u i ) = σ i2 i=1, 2, ..., n (13) Bajo el supuesto de que los errores no están correlacionados, tenemos que: σ12 0 E(uu ' ) = σ 2 Ω = ... 0 0 σ 22 ... ... ω1 0 0 ω2 0 2 0 ≡ σ ... ... ... ... 2 ... σ n 0 ... ... ... 0 ... 0 ... ... ... ωn ... Como mencionamos, la heterocedasticidad surge principalmente en las series de corte transversal. Como sabemos, en la presencia de heterocedasticidad, MICO es insesgado, pero es ineficiente en relación a MCG. Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 7 Ejemplo Consideremos el siguiente modelo (sin intercepto): Yi = βXi + ui Var ( u i | X i ) = σ 2 X i2 X1 X2 Con ello, X = ... X n X 12 0 E(uu ' ) = σ 2 Ω = σ 2 ... 0 0 0 ... ... ... X 2n 0 X 22 ... ... ... ... n Var (βˆ MICO ) = σ 2 ( X ' X ) −1 X ' ΩX ( X ' X ) −1 = σ 2 ∑ X 4i i =1 n 2 ∑ X i i =1 2 σ2 Var (βˆ MCG ) = σ 2 ( X ' ΩX ) −1 = n Por lo tanto, la ineficiencia relativa de MICO viene dada por: n k≡ n∑ i =1 n X 4i n 2 ∑ X i i =1 2 = ∑ X 4i n i =1 n 2 ∑ X i n i=1 2 >1 Para demostrar que k>1, defínase Z i = X 2i . Entonces Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández n n k= ∑ Z 2i n i =1 n ∑ Z i n i=1 Pero 8 2 = ∑ Z i2 n i =1 Z2 1 n 2 1 n Z i = ∑ ( Z i − Z ) 2 + Z 2 . Por lo tanto, ∑ n i=1 n i=1 n k= 4.1 ∑ (Z i − Z) 2 i =1 Z 2 + 1 > 1♦ Detección de la Heterocedasticidad Bajo la presencia de heterocedasticidad, los estimadores MICO siguen siendo insesgados. Por lo tanto, los residuos MICO reproducirán la heterocedasticidad de los errores poblacionales (aunque de manera imperfecta, debido a la varianza muestral). Por ello, los tests para detectar la presencia de heterocedasticidad se basan en los residuos de MICO. Los tests más conocidos para detectar la heterocedasticidad son los siguientes: • • • • White Breusch-Pagan-Godfrey Glejser Goldfeld-Quandt Los tres primeros test aparecen descritos en los apuntes de repaso. Por lo tanto, sólo nos referiremos brevemente al test de Goldfeld-Quandt. • Goldfeld-Quandt: Este test asume que las observaciones pueden ser divididas en dos grupos de manera tal que, bajo la hipótesis nula de homocedasticidad, las varianzas deben ser iguales en ambos grupos. Bajo la hipótesis alternativa, en tanto, las varianzas de los errores difieren sistemáticamente. Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 9 Por ejemplo, supongamos que: H0: σ 2i = σ 2 ∀i=1, ..., n H1: σ i2 = σ 2 X 2i donde Xi es i-avo regresor del modelo. Los pasos a seguir para llevar a cabo el test de Goldfeld-Quandt son los siguientes: 1) Ordene las observaciones de acuerdo a los valores de Xi, de manera ascendente. 2) Omita c observaciones centrales, donde c es un número escogido a priori. (En la práctica se aconseja escoger c≈1/3 de la muestra). Las observaciones restantes se dividen en dos grupos, cada uno con (n−c)/2 observaciones. 3) Estime el modelo de regresión para cada grupo y obtenga la suma de cuadrados residuales (SCR) correspondiente. 4) Bajo normalidad de los errores poblacionales, se tiene que: SCR 2 n−c ( n − c) / 2 − k n−c λ= ~ F − k, −k SCR 1 2 2 ( n − c) / 2 − k (14) donde el grupo 1 tiene la varianza más pequeña. La regla de decisión es: rechace H0 (homocedasticidad) si λ supera el n −c n−c valor crítico de la distribución F (1− ε)% − k, − k , donde ε es el 2 2 nivel de significancia. Ejemplo Supongamos el siguiente modelo: Ci=β1 + β2Ii + ui i=1, 2, ..., n Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 10 donde Ci = consumo corriente, I= ingreso disponible para un conjunto de n familias. Supongamos que se sospecha de la existencia de heterocedasticidad en los datos. En particular, se cree que σ 2i = σ 2 I i2 . El primer paso consistiría, entonces, en ordenar las observaciones por nivel de ingreso, de menor a mayor. Luego omitiríamos c observaciones centrales, de modo que tendríamos dos grupos: uno de varianza pequeña y uno de varianza grande. Por ejemplo, si el tamaño de la muestra es 51, eliminaríamos 17 observaciones centrales. Luego estimaríamos la ecuación de consumo para cada grupo de 17 observaciones, y calcularíamos el estadígrafo λ, según la fórmula (14)♦ 4.2 Estimación vía MCG cuando Ω es Conocida Supongamos el caso general en que Var ( u i ) = σ i2 ≡ σ 2 ωi , lo cual se puede resumir matricialmente como sigue: σ12 0 E(uu ' | X ) = σ 2 Ω = ... 0 0 σ 22 ... ... ω1 0 0 2 0 ≡ σ ... ... ... ... σ 2n 0 ... ... 0 ω2 ... ... 0 ... 0 ... ... ... ω n ... De modo que Ω es una matriz diagonal, cuyo i-avo elemento es ωi. De ello, la matriz Ω−1 y P vienen dadas, respectivamente, por: Ω −1 0 1 / ω1 1 / ω2 0 = ... ... ... 0 0 ... 0 ... ... ... 1 / ωn ... 1 / ω1 0 1 / ω2 0 P= ... ... 0 ... Y1 / ω1 Y / ω2 Con ello, Y* = PY = 2 ... Y / ω n n ... 0 ... ... ... 1 / ω n ... x1 ' / ω1 x ' / ω2 X* = PX = 2 ... x ' / ω n n 0 Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández x1 ' x ' donde X = 2 ... x n ' x i ' = (1 X i 2 11 ... X ik ) Si estimamos el modelo transformado por MICO, obtendremos el estimador de MCG: βˆ MCG = ( X * ' X * ) −1 X * ' Y * = ( X ' Ω −1X ) −1 X ' Ω −1Y n 1 = ∑ x i x i ' i =1 ωi −1 n 1 ∑ x i Yi i =1 ωi (15) En este caso, la expresión (15) recibe el nombre de estimador de mínimos cuadrados ponderados (MCP). Ello, porque las observaciones con varianzas más pequeñas reciben una ponderación mayor y, por lo tanto, tienen una mayor influencia en los estimadores obtenidos. Ejemplo Usualmente se plantea que la varianza del error es proporcional a uno de los regresores o a su cuadrado. Por ejemplo, en estudios sobre las ganancias de un conjunto de empresas, se asume comúnmente que la variable determinante de la heterocedasticidad es el tamaño de la empresa. Sea Xk el tamaño de la empresa. Entonces, si σ i2 = σ 2 X 2ik , el modelo corregido por heterocedasticidad sería: Yi X X u = β k + β1 i1 + β 2 i 2 + ... + i X ik X ik X ik X ik Si en vez la varianza es proporcional a Xk, esto es, σ i2 = σ 2 X ik , la ponderación utilizada para cada observación es 1 / X ik ♦ Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 4.3 12 Estimación vía MCG cuando Ω es Desconocida Cuando la matriz Ω contiene parámetros desconocidos, se debe recurrir a algún método de estimación para obtener estimadores de dichos parámetros. Uno de ello se conoce como MCG en dos etapas o MCG factibles. Otro método alternativo, a ser cubierto más adelante, consiste en plantear la función de verosimilitud de la muestra y maximizarla con respecto a los parámetros desconocidos. Este se conoce como el método de máxima verosimilitud. (Generalmente, ambos métodos serán equivalentes en muestras grandes). Describiremos brevemente MCG en dos etapas para el caso concreto de la heterocedasticidad. Recordemos primero que el estimador MCG viene dado por: n 1 ˆβ x x ' ∑ MCG = i i σ2 i=1 i −1 n 1 ∑ x Y i i σ2 i=1 i (16) Por lo tanto, requerimos de un estimador de σ 2i , i=1, 2,..., n. ¿Cómo proceder? Notemos que en la presencia de heterocedasticidad MICO sigue siendo insesgado. Por lo tanto, podemos construir en una primera etapa un estimador de σ 2i , en base a los residuos de MICO2: û i2 ≈ σ 2i (17) donde û i = Yi − x i ' βˆ MICO . En una segunda etapa, obtenemos el estimador de MCG factibles (MCGF): βˆ MCGF 2 n 1 = ∑ 2 x i x i ' i=1 û i −1 n 1 ∑ x i Yi û 2 i=1 i (18) En muestras grandes, û i ≈ u i . Por lo tanto, E( û i ) ≈ E( u i ) = σ i . 2 2 2 2 2 Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández V 13 ESTIMACION EN LA PRESENCIA DE AUTOCORRELACION Como señalamos en la introducción, es usual que las series de tiempo presenten autocorrelación. En particular, las series económicas presentan típicamente cierto grado de inercia, que lleva a que la observación contemporánea esté correlacionada con las observaciones pasadas. Por ejemplo, en el caso chileno, la tasa de inflación presente está relacionada con las tasas de inflación de períodos pasados, a través del proceso de indexación. La autocorrelación también se puede deber a un sesgo de especificación. Por ejemplo, si se excluye accidentalmente una de las variables pertenecientes al modelo, las perturbaciones del modelo presentarán un patrón sistemático. Lo mismo sucederá si se plantea una forma funcional incorrecta. Por ejemplo, se establece que la variable dependiente, Y, es una función lineal en X, Yi=β1+β2Xi+ui, cuando en realidad es una función cuadrática en X, Yi=β1+β2Xi+β3Xi2+ui. Otra potencial causal de la autocorrelación es la manipulación de los datos. En efecto, promediar, interpolar y/o extrapolar la información puede originar un patrón sistemático en las perturbaciones. Ejemplo Supongamos que Xt es una variable aleatoria con esperanza 0 y varianza σ , ∀ t=1, 2, ..., T, tal que Cov(Xt, Xs)=0, ∀ t≠s. Sea Zt una serie ajustada estacionalmente, tal que: 2 Zt = 11 ∑ ωs X t −s s= 0 donde ωs es una ponderación mensual. De lo anterior, Cov (Zt, Zt−s) viene dada por: Cov (ω0 X t + ω1X t −1 + ... + ωs X t −s + ... + ω11X t −11 , ω0 X t −s + ... + ω11X t −s−11 ) =ω0 ωs σ2 para s=0, 1, ..., 11 =0 para s>11 Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 14 Como vemos, la serie original no está correlacionada, pero sí lo está la serie ajustada estacionalmente. En efecto, el ajuste produce una autocorrelación de 12 períodos de duración♦ 5.1 Procesos Autorregresivos y de Promedio Móvil para el Error En series de tiempo, usualmente se asume que los errores son homocedásticos, pero correlacionados entre observaciones. Es usual, asimismo, suponer que la distribución de ut es estacionaria (en un sentido débil). Ello implica que: • El valor esperado y la varianza de ut son constantes a través del tiempo (en este caso iguales a cero y σ2, respectivamente). • La covarianza (o autocovarianza) entre las observaciones t y s es una función de |t−s|, el valor absoluto de la distancia temporal entre las observaciones. Esto es, (19) Cov(ut, us) = Cov(ut+s, ut)≡γs con γ0≡σ2. La correlación entre ut y ut−s (o autocorrelación) se define como ρs: Corr ( u t , u t −s ) = Cov ( u t , u t −s ) γ γ = s = s ≡ ρs Var ( u t )Var ( u t −s ) γ 02 γ 0 (20) Por lo tanto, la matriz varianza-covarianza toma la forma: ρ1 1 1 ρ1 E(uu ' | X ) = γ 0 ρ 2 ρ1 ... ... ρ T −1 ρ T −2 ρ2 ρ1 1 ... ρ T −3 .... ρ T−1 ... ρ T −2 ... ρ T −3 ... ... ... 1 (21) Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 15 Distintos procesos para el error conducirán a distintos patrones de la matriz (21). Uno de los procesos más analizados en la práctica es el proceso autorregresivo de orden 1, AR(1): ut = ρut−1 + εt (22) En general, un proceso autorregresivo de orden p, AR(p), viene dado por: ut = ρ1ut−1 + ρ2ut−2 +...+ρput−1 + εt (23) Los procesos autorregresivos tienen la característica de que la correlación entre las observaciones cae en el tiempo, pero ésta se desvanece sólo en términos asintóticos, esto es, cuando la distancia temporal entre las observaciones tiende a infinito. Por ejemplo, tal como demostraremos más adelante, para un AR(1), ρs=ρs, la cual tiende a cero sólo cuando s→∞, siempre y cuando |ρ|<1. Por ello, se dice que los procesos autorregresivos tienen ‘buena’ memoria. En contraste, los procesos de promedio móvil, tiene escasa memoria. En efecto, para un proceso MA(q): ut = εt + θ1εt−1 + θ2εt−2+...+θqεt−q (24) se tiene que: σ 2ε (θ s + θ s+1θ1 + θ s+ 2 θ 2 + ... + θ q θ q −s ) s = 1, 2,..., q γs = 0 s>q donde θ0≡1. Esto es, E(utut−s) = E(ut+sut) =0, ∀ s>q. Para el caso particular de un proceso MA(1), ut = εt + θ εt−1, se tiene: γ 0 = Var ( u t ) = σ 2ε (1 + θ 2 ) , γ1 = Cov( u t , u t −1 ) = θσ 2ε , γs=0 para s>1. Lo anterior asume que εt es ‘ruido blanco’: E(εt)=0, E(ε 2t ) = σ 2ε , ∀t, E(εtεs)=0, ∀ t≠s. Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 5.1.1 16 Errores que siguen un AR(1) Esta formulación es comúnmente utilizada en la literatura empírica porque ha demostrado ser una aproximación razonable de procesos subyacentes probablemente más complejos: ut = ρut−1 + εt εt, ruido blanco Notemos que la ecuación anterior también es válida en t−1: ut−1 = ρut−2 +εt−1 Por lo tanto, ut = ρut−1 + εt=ρ (ρut−2 + εt−1)+εt= εt +ρεt−1 + ρ2ut−2 Si reemplazamos sucesivamente cada rezago de ut, llegamos a que: ut = εt +ρεt−1 + ρ2εt−2 +.... +ρsut−s (25) donde s→∞. Si |ρ|<1, entonces ρs→0. Es decir, un proceso AR(1) puede ser representado como un MA(∞). Esto implica que ut incorpora toda la historia de los ε’s, donde los valores más recientes de ε reciben una mayor ponderación: ∞ u t = ∑ ρ jε t − j j=0 Dado que los sucesivos valores de ε no están correlacionados, la varianza de ut se puede obtener como la suma ponderada de la varianza de cada elemento: Var (u t ) ≡ dado que |ρ|<1. σ 2u = σ ε2 (1 + ρ + ρ + ....) = 2 4 σ ε2 1 − ρ2 ≡ γ0 (26) Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 17 Se puede llegar al mismo resultado haciendo uso de la condición de estacionariedad de los ε’s: Var(ut) = ρ2 Var(ut−1) + 2Cov(εt, ut−1) + Var(εt) lo cual se reduce a: σ 2u =ρ 2 σ 2u + σ ε2 ⇔ σ 2u = σ ε2 1 − ρ2 dado que Var(ut) = Var(ut−1), por estacionariedad, y Cov(εt, ut−1)=0. Sabemos de la fórmula (25) que ut = εt +ρεt−1 + ρ2εt−2 +.... +ρsut−s.. Por lo tanto, podemos obtener fácilmente Cov(ut, ut−s): Cov (ut, ut−s) = Cov(εt, ut−s)+ ρCov(εt−1, ut−s) +....+ρs Cov(ut−s, ut−s) = ρ Var(ut−s) = s ρ s σ ε2 1− ρ 2 ≡γs s=1, 2, ... (27) dado que Cov(εt, us)=0, ∀ t>s. De lo anterior, las correlaciones vienen dadas por: Corr(ut, ut−s) = ρs (28) Con |ρ|<1, las correlaciones se desvanecen con el paso del tiempo. Dependiendo del signo de ρ, éstas declinarán en progresión geométrica (0<ρ <1), o bien alternarán signos (−1<ρ<0). De todo lo anterior, tenemos que la matriz varianza-covarianza de los errores bajo un AR(1) vendrá dada por: Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández 1 ρ σ ε2 2 E (uu ' | X) = ρ 1 − ρ2 ... T −1 ρ 5.2 ρ ρ2 1 ρ ρ ... ... ρ T−2 ρ T −3 1 18 .... ρ T −1 ... ρ T − 2 ... ρ T −3 ... ... ... 1 (29) Detección de la Autocorrelación Los tests más importantes son los siguientes: • Durbin-Watson, h-Durbin para AR(1) • Breusch-Godfrey: AR(p), MA(p) • Box-Pierce (equivalente a Breusch-Godfrey en muestras grandes, cuando las X’s no contienen rezagos de Y). Los tres primeros tests están descritos en los apuntes de repaso. Por lo tanto, sólo nos referiremos al test de Box-Pierce. • Box-Pierce: La hipótesis nula es ausencia de autocorrelación y la hipótesis alternativa es AR(p) o MA(p). El estadígrafo de Box-Pierce viene dado por: L Q = T ∑ ρˆ 2j j=1 (30) T ∑ û t û t − j donde ρˆ j = t = j+1 T ∑ t =1 es el j-avo coeficiente de autocorrelación muestral. û 2t Q se distribuye en muestras grandes χ2(L). Un refinamiento del test anterior fue propuesto por Ljung y Box: Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández Q* = 19 T(T + 2) L 2 ∑ ρˆ j T − j j=1 (31) El estadígrafo Q* ha mostrado tener un poder más alto frente a la alternativa. 5.3 Estimación Eficiente cuando Ω es Desconocida Si los parámetros de Ω son conocidos, el estimador de MCG, βˆ MCG = ( X ' Ω −1X ) −1 X ' Ω −1Y , con varianza muestral dada por Var (βˆ MCG ) = σ 2 ( X ' Ω −1X ) −1 , puede ser computada directamente de la fórmula. Por ejemplo, para el caso en que los errores poblaciones siguen un AR(1) se tiene que: Ω −1 −ρ 0 1 2 −ρ − ρ 1+ ρ − ρ 1 + ρ2 1 0 = ... ... 1 − ρ 2 ... 0 0 0 0 0 0 1 − ρ2 −ρ P= 0 ... 0 0 0 ... 1 0 ... − ρ 1 ... ... ... ... 0 0 ... 0 0 ... ... 0 −ρ 0 0 ... ... ... ... ... 0 ... ... ... ... − ρ 1 + ρ 2 0 ... 0 0 0 0 0 ... ... − ρ 1 0 −ρ 0 0 0 ... − ρ 1 0 tal que Ω−1 = P′P. Por lo tanto, el modelo transformado viene dado por: 1 − ρ2 Y 1 Y − ρY1 Y * = PY = 2 , ... Y − ρY T T −1 1 − ρ2 x ' 1 x '−ρ x1 ' X * = PX = 2 ... x ' −ρ x ' T T −1 (32) Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández x1 ' x ' donde X = 2 ... x n ' x i ' = (1 X i 2 20 ... X ik ). El error transformado tiene varianza: Var(ut−ρut−1)=Var(εt)= σ 2ε , y Cov(εt, εs)=0, ∀ t≠s. 5.3 Estimación cuando Ω es Desconocida: MCGF Asumiendo nuevamente que los errores siguen un AR(1), podemos obtener un estimador de ρ a partir de los residuos de MICO. Ello, porque los estimadores MICO serán insesgados, siempre y cuando NO haya rezagos de la variable dependiente entre los regresores, X. (De lo contrario, el error estaría correlacionado con los errores). Bajo dicho escenario, un estimador que será una buena aproximación de ρ en muestras grandes será: T ρˆ = ∑ û t û t −1 t =2 T (33) ∑ û 2t t =1 Entonces, en una primera etapa, estimamos nuestro modelo por MICO y obtenemos ρ̂ con la fórmula (33). En una segunda etapa, corregimos el modelo de acuerdo a la fórmula (32), reemplazando ρ por ρ̂ . Un método alternativo es el de Cochrane-Orcutt (ver apuntes de repaso), el cual omite la primera observación. En muestras grandes, omitir una observación no tiene relevancia, en términos de eficiencia, pero sí puede tenerlo cuando la muestra es pequeña.