Tema 5

Anuncio
Introducción a la Econometría
Tema 5: PROBLEMAS EN LA ESTIMACIÓN DEL MODELO
Tema 5: PROBLEMAS EN LA ESTIMACIÓN DEL MODELO
DE REGRESIÓN LINEAL SIMPLE
1. Problemas en la especificación del modelo.
La primera etapa de un trabajo econométrico, como se expuso ya en el TEMA 1, es
la especificación del modelo econométrico que, habitualmente, se basa en una determinada teoría económica. La especificación del modelo comprende: la selección de las
variables exógenas más adecuadas para la explicación de la variable endógena, la elección de la forma funcional del modelo y el enunciado de un conjunto de supuestos o
hipótesis sobre las características matemáticas y estocásticas de las variables exógenas y
de las perturbaciones aleatorias.
En el caso del modelo de regresión lineal simple se decide que tan solo una variable
exógena es suficiente y que la forma del modelo ha de ser lineal respecto a los parámetros, asumiendo que la variable exógena no es aleatoria y que las perturbaciones aleatorias se distribuyen según un modelo normal con media nula y varianza constante, siendo
entre sí independientes. A partir de esta especificación se han obtenido los estimadores
de M.C.O. que coinciden con los de M.V. y son insesgados consistentes y eficientes, se
han elaborado intervalos de confianza y diversos contrastes de significación para terminar aplicando la estimación del modelo en la predicción puntual y por intervalo de la
variable endógena. Todo esto no se podría haber conseguido, y alguno de estos resultados no sería válido, si los supuestos enunciados en la especificación del modelo econométrico no fueran ciertos, debiéndose comprobar, por tanto, empíricamente la idoneidad
de los mismos.
Podremos distinguir los siguientes problemas en la especificación del modelo:
- Al seleccionar las variables exógenas los errores más importantes que se pueden
cometer son, por un lado, la inclusión de variables irrelevantes en la explicación
del comportamiento de la variable endógena y, por otro lado, la omisión de variables que deberían haberse incorporado a la estructura del modelo y cuya ausencia suele provocar una serie de problemas más importantes que los derivados
por el primer error citado.
- Al elegir la forma funcional del modelo puede que no sea la correcta, bien porque
la forma no sea la lineal respecto a los parámetros, bien por que las transformaciones que se hayan podido realizar sobre las variables originales no sean las
adecuadas. También un tipo de error que podríamos citar aquí es el producido al
no cumplirse el mantenimiento constante, para todas las observaciones muestrales, del valor de los parámetros incluidos en la estructura del modelo, lo que se
denomina cambio de estructura.
- Respecto al incumplimiento de alguna de las hipótesis básicas descritas en el
Tema 2 se podría estudiar el caso de “regresores estocásticos”, es decir, cuando
las observaciones de la variable exógena son aleatorias, sobre todo si se detecta
que existe correlación entre la variable exógena y el término de error. Pero los incumplimientos más importantes son los que atañen a los supuestos establecidos
sobre las perturbaciones aleatorias. Concretamente el análisis de los problemas
derivados de la heterocedasticidad (varianza no constante de las perturbaciones) y
de la autocorrelación (dependencia entre perturbaciones) que son los que a continuación se van a exponer. Quedando el tratamiento de los demás problemas de
especificación citados fuera del ámbito del programa establecido en este curso.
73
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
2. Heterocedasticidad: Concepto, consecuencias, detección y posibles soluciones.
Concepto
En el modelo de regresión lineal simple: Yi = β1 + β2 Xi + ui i = 1, ... , N , vamos a
suponer que se verifica: E[ui] = 0, E[ui.uj] = 0 ∀ i ≠ j y ui ~ Normal.
Se da heterocedasticidad cuando las varianzas de las perturbaciones aleatorias ui no
son iguales entre sí, es decir cuando:
V[ui] = σi2 para i = 1, ... ,N y, por tanto, ui ~ N[0 , σi2 ] e independientes.
Como se observa la heterocedasticidad implica que el número total de parámetros a
estimar se eleva a N+2 (2 parámetros estructurales más N varianzas de las perturbaciones aleatorias), siendo, por tanto, imposible su estimación. Sólo se podrá abordar la estimación del modelo si se imponen determinadas restricciones a la forma de heterocedasticidad que consigan reducir el número de parámetros.
Los casos de heterocedasticidad más estudiados son aquéllos en los que los valores
de las varianzas σi2 dependen de los valores de una de las variables exógenas, que en
nuestro caso sólo puede ser la variable X, o de una función de ella, resultando que:
⎧ σ i2 = K ⋅ X i
⎪
V[ui] = σi2 = f(Xi), pudiendo ser, por ejemplo ⎨ σ i2 = K ⋅ X i2
⎪σ 2 = K ⋅ X
i
⎩ i
Si representamos K por σ2 (sin representar, por ahora, ningún concepto de varianza)
y X i , X i2 ó X i por wi, la expresión anterior quedará de forma general como:
V[ui] = σi2 = σ2·wi [5.1]
Expuesto de esta forma, el caso de homocedasticidad se puede considerar un caso
particular en el que wi = 1 para todo i = 1, ... ,N .
Si los valores de σi2 dependen de los valores Xi de forma creciente, la gráfica de la
nube de puntos correspondiente al conjunto de pares observados podría ser como la que
se representa en el siguiente gráfico:
Yi
**
* * *
* * * *
* * * * *
* * * * * *
* * * * * * * *
* * * * * ** ** *
** * * ** ** * ***
** * * * *
β1 + β2Xi
Xi
74
Introducción a la Econometría
Tema 5: PROBLEMAS EN LA ESTIMACIÓN DEL MODELO
La existencia de heterocedasticidad puede deberse a múltiples causas. Entre ellas
pueden citarse:
- El propio crecimiento de la variable exógena puede suponer una mayor variabilidad en los valores que vaya tomando la variable endógena, como sucede en el
ejemplo propuesto en el TEMA 2 del modelo que explica las variaciones del gasto familiar en bienes de consumo según el nivel del ingreso correspondiente. Es
evidente que a mayor cifra de ingresos existe mayor posibilidad de variar la correspondiente cifra de gastos, lo que provoca heterocedasticidad.
- Una mala especificación del modelo. Si se hubiera omitido alguna variable importante en la estructura del modelo, sus valores pasarían a formar parte del término
de error, pudiendo causar, debido a su distinta variabilidad, heterocedasticidad.
- La posible existencia de heterocedasticidad se estudia más en modelos con datos
de corte transversal que en modelos con series temporales.
Consecuencias
1) Al no cumplirse el supuesto de varianza constante, las expresiones de las varianzas de los estimadores, obtenidas en el TEMA 3, no son válidas y, por
tanto, los estadísticos utilizados para la elaboración de los intervalos de
confianza y la resolución de los contrastes de significación tampoco lo son,
ni las conclusiones que se hayan obtenido por medio de esos intervalos y contrastes se pueden, ahora, mantener. En cada caso de heterocedasticidad se deberían generar los estadísticos adecuados para elaborar los intervalos y contrastes correctos.
2) Se puede comprobar que los estimadores de M.C.O. siguen siendo insesgados y consistentes, pero no son los de mínima varianza entre los lineales e
insesgados. Estos estimadores serían los que se obtuvieran por el método denominado de Mínimos Cuadrados Generalizados (M.C.G.), que en nuestro caso consistiría en minimizar, en lugar de la suma de los cuadrados de los residuos, la siguiente función:
N
e i2
S G (b1* , b *2 , σ i2 ) =
2
∑σ
i =1
i
Con lo que se deduce que para poder estimar el modelo es necesario especificar alguna forma de heterocedasticidad que reduzca el número de parámetros a
estimar.
3) La función de verosimilitud, en el caso de distribución normal de las perturbaciones, no es, ahora, la misma que se utilizó en el TEMA 3, sino otra con la
que se obtendrían unos estimadores distintos de los de M.C.O.(b1 y b2) que ya
no serían los eficientes. Se puede comprobar que, en este caso, los estimadores
de M.V. coinciden con los estimadores M.C.G.(b1*, b2*) y son eficientes.
75
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
Detección
- Método gráfico:
Vamos a suponer que si existe heterocedasticidad las varianzas de las perturbaciones
aleatorias dependen de los valores Xi por medio de una función uniformemente creciente, de forma que si los valores de Xi crecen las varianzas aumentarán de valor. Si así
fuera es evidente que los residuos, tomados en valor absoluto o elevados al cuadrado,
crecerán al ir considerando valores crecientes para Xi, dado que su media es cero. Llevando dichos valores a un sistema de ejes cartesianos quedaría una gráfica como la siguiente:
|ei| ó ei2
*
*
*
*
*
*
*
*
*
Xi
Detectándose, por el comportamiento de los residuos, que existe heterocedasticidad
del tipo anteriormente definido. El defecto de este método es que no siempre el gráfico
refleja de forma clara y evidente si se da o no heterocedasticidad, no habiendo tampoco
ninguna medida o característica que delimite cuando se tiene que aceptar o rechazar que
la varianza es constante. En este sentido se han propuesto diversos contrastes paramétricos para probar la hipótesis de homocedasticidad, siendo uno de ellos el denominado
contraste de Goldfeld-Quandt, por ser estos los autores que lo formularon en 1965.
- Contraste de Goldfeld-Quandt
Es un contraste paramétrico que se basa en el supuesto de distribución normal de las
perturbaciones aleatorias y se aplica para probar que se cumple la hipótesis de homocedasticidad frente a la existencia de heterocedasticidad según una función creciente respecto a los valores Xi de la variable exógena (o respecto a cualquier otra variable con
observaciones conocidas y que se haya identificado como causante de la dispersión creciente de los valores de la variable endógena respecto a la estructura del modelo).
Hipótesis:
Ho : ∃ Homocedasticidad ⇒ σi2 = σ2 ∀i
H1 : ∃ Heterocedasticidad ⇒ σi2 = f(Xi) [ si Xi↑ ⇒ σi2↑ ]
76
Introducción a la Econometría
Tema 5: PROBLEMAS EN LA ESTIMACIÓN DEL MODELO
Para la realización del contraste se siguen los siguientes pasos:
1) Se ordena el conjunto de las observaciones muestrales según los valores crecientes de los datos Xi.
2) Se retiran las C observaciones centrales (C ≅ N/3) 1 , dejando los dos grupos extremos con el mismo número de observaciones cada uno:
N−C
= m observaciones
2
N−C
Grupo II: contiene a las últimas
= m observaciones
2
Si existe heterocedasticidad, según se ha formulado la hipótesis alternativa, en el
grupo I se darían las cifras más pequeñas de σi2 y en el grupo II las cifras más grandes de las correspondientes varianzas.
Grupo I: contiene a las primeras
3) Se estima el modelo por M.C.O. con los datos del grupo I, obteniendo los primeros “m” residuos que representamos por e1i (i = 1, ... ,m) y se vuelve a estimar el
modelo por M.C.O., ahora utilizando los datos del grupo II, obteniendo los últimos “m” residuos representados por e2j (j = 1, ... ,m).
4) Se construye el estadístico FGQ:
FGQ =
m
1
⋅
m−2
∑
1
⋅
m−2
m
m
e 22j
j=1
∑
=
e1i2
i =1
∑e
2
2j
j=1
m
∑e
2
1i
i =1
Este estadístico compara por cociente el estimador insesgado de σ2 con los datos
del grupo II, con la misma estimación insesgada de la varianza pero utilizando los
datos del grupo I.
Si la hipótesis nula es cierta (∃ Homocedasticidad) se puede demostrar que este
estadístico se distribuye según el modelo de la variable Fm-2; m-2.
5) Región crítica, al nivel de significación α:
Dado que, si es cierto que existe heterocedasticidad, la expresión del numerador
del estadístico FGQ estimaría un valor mayor que el que obtendría la expresión del
denominador, la región crítica quedará de la siguiente forma:
Si FGQ ≥ Fα ⇒ se rechaza la Ho y se acepta la existencia de heterocedasticidad
Siendo Fα el valor numérico que verifica en la distribución de Fm-2; m-2 que:
P[Fm-2;m-2 ≥ Fα ] = α
1
Algunos autores recomiendan otras cifras: C = 4 si N = 30 y C = 10 si N = 60.
77
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
Posible solución: Mínimos Cuadrados Ponderados
Sea el modelo: Yi = β1 + β2 Xi + ui para i = 1, ... ,N , en el que se detecta que existe
heterocedasticidad con V(ui) = σi2 = σ2·wi, donde σ2 es un valor constante desconocido
y wi es una función de los valores Xi o de cualquier otra variable conocida causante de
la heterocedasticidad. Una forma de estimar eficientemente los parámetros del modelo y
que, en este caso, resulta equivalente a la estimación por M.C.G., consiste en estimar
por M.C.O. un modelo transformado del inicial pero con varianza constante. La transformación adecuada consiste en multiplicar en los dos miembros del modelo por el inverso de w i , quedando:
Yi
wi
= β1
1
wi
+ β2
Xi
wi
+
ui
wi
para i = 1, ... ,N
Ahora, la varianza de las perturbaciones transformadas es:
⎛ u
V⎜ i
⎜ w
i
⎝
⎞ 1
1 2 1 2
⎟=
σi = σ ⋅ wi =σ 2
V(u i ) =
⎟ wi
wi
wi
⎠
Por tanto, el modelo transformado tiene perturbaciones aleatorias con varianza constante, cuyo valor es la cantidad desconocida σ2, y es posible estimarlo por M.C.O.. Los
parámetros son los mismos que en el modelo inicial, pero las variables son transformaciones de las originales y, en general, contiene dos variables exógenas: la transformada
1
de Xi y
, nueva variable que acompaña al parámetro β1, desapareciendo del modewi
lo la ordenada en el origen. Sólo habrá un caso particular en el que el modelo transformado contendrá ordenada en el origen (¿cuál?).
Se pueden hacer las siguientes consideraciones:
78
-
Las estimaciones de los parámetros β1 y β2 en el modelo transformado son eficientes y los intervalos y contrastes serán válidos con las nuevas estimaciones
de las varianzas de los estimadores y estimando con los nuevos residuos el valor de σ2.
-
σ2 es la varianza de las nuevas perturbaciones, luego es la varianza constante
Yi
de las observaciones
en el modelo transformado.
wi
-
El coeficiente de determinación no se debe calcular, ya que lo habitual es que
el nuevo modelo no contenga ordenada en el origen, y si la tuviera y se pudieYi
ra calcular R2, este nos indicaría la proporción de varianza de las
expliwi
cada por la variable exógena resultante en la transformación.
Introducción a la Econometría
Tema 5: PROBLEMAS EN LA ESTIMACIÓN DEL MODELO
3. Autocorrelación: Concepto, consecuencias, detección y posibles soluciones.
Concepto
Sea el modelo de regresión lineal simple: Yt = β1 + β2Xt + ut 2 para t = 1, ... ,N . Si se
cumple que algún par de perturbaciones aleatorias están correlacionadas, se dice que
existe autocorrelación. Es decir, si cov(ut,us) = E(ut·us) = σts ≠ 0 , al menos para algún
(t,s) con t ≠ s y, por tanto, existe dependencia lineal entre algunos términos de error.
Los casos de autocorrelación que más se estudian son aquellos definidos por algún
tipo de relación lineal entre las perturbaciones. El más importante y sencillo de todos
ellos, pero no el único aunque en este Tema no expongamos otro, es el denominado
proceso autorregresivo de primer orden [AR(1)] que se define cuando las perturbaciones
ut verifican la relación:
AR(1): ut = ρut-1 + εt con |ρ| < 1 y εt ∼ N[0;σε] e independientes [5.2]
En este caso se pueden demostrar los siguientes resultados:
1) ut = εt + ρεt-1 + ρ2εt-2 + ρ3εt-3 + ...
2) E(ut) = 0
3) V( u t )
σε2
=
1− ρ 2
(constante)
σε2
4) cov(ut,ut-h) = ρ ⋅
1− ρ 2
h
De donde se deduce que en el modelo se verifican las hipótesis de media nula y de
homocedasticidad. y que las autocovarianzas (cov(ut,ut-h)) decrecen según aumenta la
separación entre observaciones en la muestra, indicada dicha separación por el retardo
“h” que aparece como exponente de ρ, una cantidad inferior, en valor absoluto, a 1.
ρ es el denominado coeficiente de autocorrelación de primer orden y representa el
grado de dependencia entre ut y ut-1. Es, también, el coeficiente de regresión del modelo
[5.2] que refleja la influencia de ut-1 sobre ut. Su estimador será:
N
ρ$ =
N
∑ e t e t-1
t=2
N
∑e
t=2
∑e e
t
=
2
t-1
t-1
t=2
N-1
∑e
[5.3]
2
t
t=1
Si 0 < ρ < 1 se dice que existe autocorrelación positiva
Si -1 < ρ < 0 se dice que existe autocorrelación negativa
2
En este epígrafe vamos a utilizar “t” como subíndice, dado que este problema se estudia principalmente
en modelo que utilizan series temporales.
79
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
La existencia de autocorrelación se puede deber a muchas causas, entre las que destacan:
- El mantenimiento de ciertos efectos, no captados por la estructura del modelo y
producidos en periodos anteriores, durante varios periodos y que son recogidos por las
perturbaciones aleatorias.
- Una mala especificación del modelo, consistente en variables explicativas omitidas
o en la elección incorrecta de la forma funcional, puede provocar que las perturbaciones
recojan esas omisiones y defectos y resulten dependientes entre sí.
Consecuencias
Las consecuencias de la existencia de autocorrelación sobre la estimación del modelo
son análogas a las expuestas en el apartado anterior de heterocedasticidad:
1) Al no cumplirse el supuesto de covarianza nula entre las perturbaciones, las expresiones de las varianzas de los estimadores no son válidas y, por tanto, los
estadísticos utilizados para la elaboración de los intervalos de confianza y la
resolución de los contrastes de significación tampoco lo son, ni las conclusiones que se hayan obtenido por medio de esos intervalos y contrastes se pueden,
ahora, mantener. En cada caso concreto de autocorrelación se deberían generar los
estadísticos adecuados para elaborar los intervalos y contrastes correctos.
2) Se puede comprobar que los estimadores de los parámetros β1 y β2 por M.C.O. siguen siendo insesgados y consistentes, pero no son los de mínima varianza entre
los lineales e insesgados, que serían, ahora, los que se obtuvieran por el método de
Mínimos Cuadrados Generalizados (M.C.G.). Estos estimadores son, también, los
que se obtendrían por M.V., bajo el supuesto de distribución normal de las perturbaciones, y que son los eficientes.
El problema, como en el epígrafe anterior, es que, en general, aumenta enormemente
el número de parámetros, haciendo imposible la estimación estadística del modelo. Solo
una especificación determinada de la forma en que se puede concretar la autocorrelación
nos permitirá reducir el número de parámetros y poder estimar el modelo, siempre bajo
la restricción de que la forma elegida de la autocorrelación sea la correcta. En este Tema
el único modelo de autocorrelación que se considera es el definido por un proceso
AR(1) cuyas características más importantes se han expuesto anteriormente y, por tanto,
el contraste para detectar la presencia de autocorrelación y la forma de estimar el modelo si esa presencia se confirma, se referirán exclusivamente a esa forma concreta de autocorrelación.
80
Introducción a la Econometría
Tema 5: PROBLEMAS EN LA ESTIMACIÓN DEL MODELO
Detección
- Contraste de Durbin-Watson
Esta es una prueba estadística que únicamente se utiliza para probar la presencia de
autocorrelación según un proceso AR(1). Para su aplicación es necesario que se cumplan los siguientes requisitos:
-
El modelo no debe contener regresores estocásticos. En nuestro caso, que la
variable exógena X no sea aleatoria.
El modelo debe tener ordenada en el origen
La variable endógena no debe aparecer con retardos, como variable explicativa.
Con estas condiciones se define nuestro modelo: Yt = β1 + β2Xt + ut t = 1, ... ,N
siendo ut = ρut-1 + εt con |ρ| < 1 y εt ∼ N[0;σε] e independientes
Las hipótesis que se plantean para el contraste son:
⎧ H o : No existe autocorrelación → ρ = 0
⎪
⎧H : ρ > 0
Hipótesis ⎨
H1 : Autocorrelación → ρ ≠ 0⎨ 1A
⎪
⎩ H1B : ρ < 0
⎩
El estadístico de Durbin-Watson se define como:
N
∑( e
d =
t
− e t-1 )
t=2
N
∑e
2
[5.4]
2
t
t=1
siendo et los residuos de la estimación por M.C.O. del modelo.
Se puede comprobar que: d ≅ 2 ⋅ (1 − ρ̂ ) siendo ρ$ el estimador del coeficiente de autocorrelación de primer orden, definido en [5.3]. Luego, el estadístico “d” está directamente relacionado con el grado de autocorrelación, deduciéndose que:
- Si existe autocorrelación positiva ⇒ 0 < ρ$ < 1 ⇒ 0 < d < 2
- Si existe autocorrelación negativa ⇒ −1 < ρ$ < 0 ⇒ 2 < d < 4
El defecto de este estadístico es que, si la hipótesis nula es cierta [ρ = 0], no tiene
una única distribución de probabilidad, sino que la forma de ésta depende de los valores Xi que se observen para la variable exógena, solo pudiéndose determinar que, bajo
la hipótesis nula [ρ = 0] :
E[d] ≅ 2 + 2/(N-2), es decir, para muestras grandes prácticamente 2.
81
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
El trabajo de Durbin y Watson consistió en determinar dos estadísticos dL y dU que
siempre verifican que: dL < d < dU . Es decir, dL es una variable que acota inferiormente
a “d”, mientras que dU lo acota superiormente. Durbin y Watson obtuvieron que si ρ es
igual a cero, estos estadísticos tienen, cada uno de ellos, una única distribución de probabilidad. Por tanto, aunque no se pueda determinar el valor crítico dα en la distribución
de “d”, si será posible encontrar dos valores dLα y dUα que verifiquen que:
dLα < dα < dUα [5.5]
De tal manera que la resolución del contraste tendrá las siguientes particularidades:
- Si 0 < d < 2 , entonces se plantea como hipótesis alternativa H1A: ρ > 0 (autocorrelación positiva) y la región crítica, al nivel de significación α, se formaría por los
valores más pequeños, más alejados del 2, del estadístico “d” : d < dα . Pero el valor crítico dα no es posible determinarlo, en su lugar se obtienen los valores dLα y
dUα que cumplen [5.5] y, por tanto, sólo estaremos seguros de rechazar la hipótesis nula si d < dLα , y sólo estaremos seguros de aceptar la hipótesis nula cuando
se cumpla que d > dUα , quedando un caso de duda si dLα < d < dUα .
- Si 2 < d < 4 , entonces se plantea como hipótesis alternativa H1B: ρ < 0 (autocorrelación negativa) y la región crítica, al nivel de significación α, se formaría por los
valores más grandes, más próximos al 4, del estadístico “d”: d > d1-α . El valor crítico d1-α, en este caso y dada la simetría en la distribución de “d”, se puede sustituir por 4 - dα, quedando la región crítica : d > 4 - dα ⇒ 4 - d < dα pero con el
mismo problema de indeterminación que antes, de tal forma que solo estaremos
seguros de rechazar la hipótesis nula si 4 - d < dLα , y solo estaremos seguros de
aceptar la hipótesis nula cuando 4 - d > dUα , quedando un caso de duda si se diera
que dLα < 4 - d < dUα .
La resolución del contraste se puede resumir en el siguiente cuadro:
Caso I
Caso II
En tablas de D-W, al nivel de
significación α, se obtienen 2
valores: dLα y dUα
Con los mismos valores críticos
del caso I: dLα y dUα
⎧ Ho: ρ = 0
Si 0 < d < 2 ⎨
⎩ H 1A : ρ > 0
si d < dLα ⇒ se rechaza Ho
si d > dUα ⇒ se acepta Ho
si dLα < d < dUα ⇒ se duda
82
⎧ Ho: ρ = 0
Si 2 < d < 4 ⎨
⎩ H 1B : ρ < 0
si 4 - d < dLα ⇒ se rechaza Ho
si 4 - d > dUα ⇒ se acepta Ho
si dLα < 4 - d < dUα ⇒ se duda
Introducción a la Econometría
Tema 5: PROBLEMAS EN LA ESTIMACIÓN DEL MODELO
Posible solución: transformación del modelo
Si se detectase la presencia de autocorrelación según un proceso AR(1), al aplicar el
contraste de Durbin-Watson, la especificación correcta del modelo sería:
Yt = β1 + β2Xt + ut t = 1, ... ,N [5.6]
con ut = ρut-1 + εt |ρ| < 1 y εt ∼ N[0;σε] e independientes
Si expresamos el modelo [5.6] para un periodo anterior, en “t - 1”, quedaría:
Yt-1 = β1 + β2Xt-1 + ut-1
t = 2, ... ,N+1 [5.7]
Multiplicando [5.7] por ρ y restando el resultado a [5.6], se obtiene:
Yt - ρYt-1 = β1(1 - ρ) + β2(Xt - ρXt-1) + ut - ρut-1 t = 2, ... ,N [5.8]
Resultando un modelo transformado del inicial, con las siguientes características:
- Es un modelo de regresión lineal simple.
- Las nuevas perturbaciones aleatorias son: ut - ρut-1 = εt ∼ N[0;σε] e independientes,
no existiendo problema de autocorrelación.
- La ordenada en el origen es β1T = β1(1 - ρ).
- Las observaciones muestrales de la nuevas variables, endógena y exógena, son respectivamente:
YtT = Yt - ρYt-1 y XtT = Xt - ρXt-1
- El modelo transformado tiene una observación menos. Se recomienda incorporar la
siguiente:
para t = 1 Y1T = 1 − ρ 2 ⋅ Y1 y X1T = 1 − ρ 2 ⋅ X 1
Si se conociera el valor de ρ se podrían estimar de forma eficiente los parámetros β1
y β2, estimando por M.C.O. el modelo:
YtT = β1T + β2XtT + εt con t = 1, ... ,N siendo εt ∼ N[0;σε] e independientes [5.9]
β$1T
con las transformaciones mencionadas, deduciéndose que: β$1 =
1 - ρ
Al no conocerse el valor de ρ se deberá estimar previamente. Una estimación posible
es la expresada en [5.3] con los residuos de una primera estimación por M.C.O., que son
los que se habrían utilizado en el estadístico “d” del contraste de Durbin-Watson. Se han
desarrollado diversos métodos que mejoran esta estimación, como el de CochraneOrcutt o el de Hildret-Lu, pero su estudio queda fuera de los objetivos de este curso.
N
ρ$ =
∑e e
t
N
∑e
t=2
∑e e
t-1
t=2
N
t
=
2
t-1
t-1
t=2
N-1
∑e
2
t
t=1
83
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
Una vez estimado ρ se calcularían las transformaciones de las variables y se procedería a estimar el modelo [5.9] por M.C.O., tomando las debidas precauciones, análogas a
las consideradas en el caso de la heterocedasticidad:
- Las estimaciones de los parámetros β1T y β2 en el modelo trasformado, si la estimación de ρ ha sido la correcta, son eficientes y los intervalos y contrastes aplicados con los nuevos residuos y las nuevas estimaciones de las varianzas de los estimadores son válidos. El parámetro β1 se estimará con:
β$1 =
β$1T
1 - ρ$
- Con los nuevos residuos estimaremos σε2 y no σ2, pero recordando que en este caso se cumple que: V( u t )
σε2
2
=
2 , es fácil obtener una estimación para σ :
1− ρ
σ$ε2
2
σ$ =
1 − ρ$ 2
- El coeficiente de determinación en la estimación del modelo transformado, indicaría la proporción que de la varianza de las YiT explican las variaciones de las XiT,
y no representaría ninguna medida de ajuste en el modelo original.
---------------------------------------------------En los dos casos que se ha estudiado, heterocedasticidad y autocorrelación, el incumplimiento de la correspondiente hipótesis implica un aumento del número de parámetros a estimar (distintas varianzas o distintas covarianzas) que se puede reducir, sólo,
si se especifican determinadas formas de heterocedasticidad o autocorrelación, que deberemos confirmar empíricamente.
En el primer caso consistirá en localizar la variable que provoca la distinta variabilidad en cada observación y rechazar la hipótesis de homocedasticidad, ordenando la
muestra según los valores de esa variable, al aplicar el contraste de Golfeld-Quandt,
para, posteriormente, seleccionar la forma en que esa variable se relaciona con las distintas varianzas [ej.: σi2 = σ2·f(Xi)] y, así, poder transformar el modelo para estimarlo
eficientemente por M.C.O.. Una comprobación de que la forma elegida es correcta consistiría en volver a aplicar el contraste G-Q en la estimación del modelo transformado y
aceptar, esta vez, la presencia de homocedasticidad.
En el problema de la autocorrelación únicamente hemos expuesto el caso AR(1). Si
se aceptara la hipótesis de no autocorrelación (ρ = 0) es posible que exista autocorrelación a través de otro modelo distinto del AR(1), y se debería estudiar si los residuos
de M.C.O. se ajustan a algún otro modelo de proceso. Si en el contraste de D-W se rechazara la hipótesis nula, es posible que el modelo AR(1) esté ocultando otro modelo de
dependencia que comprenda a la relación de primer orden que representa el modelo
AR(1). Esto se podría comprobar analizando los residuos calculados en el modelo transformado con las nuevas estimaciones de los parámetros, y si se puede aceptar que no
hay dependencia entre ellos, las estimaciones realizadas serían válidas.
84
Introducción a la Econometría
Tema 5: PROBLEMAS EN LA ESTIMACIÓN DEL MODELO
EJERCICIOS PROPUESTOS
5.1. Al estimar un modelo de regresión lineal simple, con datos de 42 empresas, se sospecha que pueda haber un problema de heterocedasticidad, quizás provocada por los
valores crecientes de la variable exógena.
Al estimar por MCO el modelo con los 14 primeros datos se obtiene
14
que:
∑e
2
1i
= 456,50
i =1
14
Y al estimarlo con los 14 últimos, el resultado es:
∑e
2
2j
= 2665,96
j=1
Plantee y resuelva el contraste de homocedasticidad, al 5% de nivel de significación.
5.2 Sea el modelo Yi = β1 + β2Xi + ui i = 1, ...,30 en el que las observaciones se han
ordenado según el orden ascendente de la variable Xi .
Si al estimar el modelo, por M.C.O., con las 10 primeras observaciones se obtiene
que:
R2 = 0,710144
ΣYi = 65
ΣYi2 = 595
y al estimarlo con las 10 últimas se obtiene:
R2 = 0,664835
ΣYi = 610
ΣYi2 = 39030
1º: Verifique, por medio del contraste de Goldfeld-Quandt, la existencia de heterocedasticidad, exponiendo los supuestos necesarios para la aplicación de este contraste.
2º: ¿De qué forma se podrán obtener estimaciones eficientes de los parámetros?.
5.3 En la estimación del modelo Yt = β1 + β2Xt + ut t = 1, ... , 14 se han obtenido los
siguientes residuos :
t: 1
2
et : 1 -0,5
3 4 5
0 -0,5 0,5
6 7
1 -1
8
0
9 10 11
0 -0,5 -0,5
12
0
13
0
14
0,5
1º: Elabore el contraste adecuado para aceptar o rechazar la hipótesis de “no existencia de autocorrelación” en las perturbaciones del modelo.
2º: Enumere las limitaciones más importantes del test estadístico aplicado.
5.4 En la estimación de un modelo de regresión de la función de consumo keynesiana se
han obtenido los siguientes residuos:
ei : 0,23 -0,10 -0,26 -0,66 -0,86 -0,78 -0,31 0,29 -0,22 0,21 0,32 0,21 0,02
0,19 0,29 0,26 0,11 0,96 0,42 1,02 0,14 -0,40 0,33 -0,84 0,00 -0,57
26
calculándose que
∑ (e
i =2
i
− ei −1 ) 2 = 6,8618
1º: Contraste la existencia de autocorrelación, al 5% de nivel de significación.
2º: Exponga el procedimiento de estimación adecuado para corregir la existencia de
autocorrelación.
85
Departamento de Estadística e Investigación Operativa II (Métodos de Decisión)
5.5 Al estimar un modelo de regresión lineal simple, con datos de 60 personas encuestadas, se sospecha que pueda haber un problema de heterocedasticidad, quizás provocada por los valores de la única variable exógena en el modelo que es la edad de las
personas. Es decir, se sospecha que a valores más pequeños de la variable “edad de la
persona” las varianzas de las perturbaciones serán mayores. Al estimar el modelo,
20
por M.C.O. con las 20 personas más jóvenes, se obtiene que:
∑e
i =1
2
1i
= 20849,935
20
Y al estimarlo con las 20 personas de más edad, el resultado es:
∑e
j =1
2
2j
= 3259,3045 .
Plantee y resuelva el contraste de homocedasticidad, al 5% de nivel de significación.
5.6 Se ha estimado el modelo de regresión lineal simple:
Yt = β1 + β2Xt + ut para t = 1, ... , 30
Y se ha calculado el valor del estadístico de Durbin-Watson: d = 0,932 .
1º: ¿Qué conclusión se obtiene en la resolución del contraste de Durbin-Watson?
2º: ¿Qué consecuencias traería, para la estimación del modelo por M.C.O., la existencia
de autocorrelación en las perturbaciones aleatorias del modelo?
86
Descargar