APUNTES DE CLASE ECONOMETRÍA I UDI ECONOMETRÍA E

Anuncio
APUNTES DE CLASE ECONOMETRÍA I
UDI ECONOMETRÍA E INFORMÁTICA
Prof. Rafael de Arce
Rafael.dearce@uam.es
"CONTRASTE DEL PREDICTOR" o INTERVALO DE CONFIANZA DE LA
PREDICCIÓN PUNTUAL EN EL MBRL
Una de las medidas de bondad a posteriori más frecuentemente utilizadas es el denominado
"Contraste del Predictor", a partir del cual podremos determinar el intervalo en el que, para un
nivel de confianza elegido, estará el valor real de la endógena en el "período puntual n+h".
En este apartado responderemos a las siguientes cuestiones:
1.
2.
3.
4.
¿Cuál es el valor del error en el período "n+h"?
¿Cuál es la varianza del error de predicción?
¿Cómo se distribuye dicho error?
¿Cuál es el intervalo en el que, en el peor de los casos, se encontrará el verdadero
valor de la endógena el período "n+h"?
1. ¿Cuál es el valor del error en el período "n+h"?
El modelo estimado responde a la estructura Y = Xβ + U , donde los parámetros se han
estimado por MCO; es decir: βˆ = [X ' X ] X 'Y , con datos de todas las series disponibles para
"n" observaciones. El error en el período de predicción (n+h) se podría escribir del siguiente
modo:
−1
en + h = y n+ h − yˆ n + h = X n+ h β n + h + u − X n+ h βˆ
donde, gracias a la hipótesis de permanencia estructural, los parámetros estimados para las "n"
observaciones disponibles se utilizan para obtener el valor de predicción en "n+h" ya que se
suponen invariantes.
Pudiendo escribir la expresión anterior como 1:
~
~ ~
~
e = X β + U − Xβˆ
donde, sustituyendo el valor del parámetro estimado por su escritura en función de las
perturbaciones aleatorias 2:
1
Para abreviar la escritura, seguiremos la notación propuesta por Pulido (1986), y
denomináremos:
en +h = e~
~
X n+ h = X
~
u n+ h = U
~
~ ~
~
~ ~
~
e~ = X β + U − X (β + [X ' X ]−1 X 'U ) = X β + U − Xβ − X [X ' X ]−1 X 'U =
~ ~
= U − X [X ' X ]−1 X 'U
En definitiva, el error de predicción se puede escribir como:
~ ~
−1
~
e == U − X [ X ' X ] X 'U
2. ¿Cuál es la varianza del error de predicción?
Para determinar la varianza calcularemos la matriz de varianzas-covarianzas del error de
predicción, asumiendo las hipótesis realizadas sobre las perturbaciones aleatorias, tanto en
período de estimación como de predicción, por lo que:
-
Homocedasticidad:
~~
E (U U ' ) = E (UU ' ) = σ 2 I n
-
No autocorrelación
~
~
E (UU ' ) = E (UU ' ) = E (ui u j ) = 0 / i ≠ j
Asumiendo que el error medio de predicción también es igual a cero, la matriz de varianzascovarianzas se puede obtener a partir de la esperanza del cuadrado de la expresión anterior
como:
[
][
]
~ ~
~ ~
−1
−1
var cov(~
e ) = E (~
e e~' ) = E ( U − X [ X ' X ] X 'U U − X [X ' X ] X 'U ' ) =
~~ ~
~
~ ~
−1 ~
−1
−1
−1 ~
= E (UU '−UU ' X [X ' X ] X '− X [X ' X ] X 'UU '+ X [X ' X ] X 'UU ' X [X ' X ] X ' ) =
~~
~
~
~
~
−1 ~
−1
−1
−1 ~
= E (UU ' ) − E (UU ' X [ X ' X ] X ' ) − E ( X [X ' X ] X 'UU ' ) + X [X ' X ] X ' X [X ' X ] X ' E (UU `) =
~~
~
~
~
~
−1 ~
−1
−1 ~
= E (UU ' ) − E (UU ' X [ X ' X ] X ' ) − E ( X [X ' X ] X 'UU ' ) + X [X ' X ] X ' E (UU `)
Aplicando ahora las hipótesis de homocedasticidad y no autocorrelación, la expresión anterior
se reduce a:
~
−1 ~
var cov(~
e ) = σ 2 (1 + X [X ' X ] X ' )
2
Y = Xβ + U 
−1
βˆ = [X ' X ]−1 X 'Y = 
 = β + [X ' X ] X 'U


3. ¿Cómo se distribuye dicho error?
El valor estandarizado del error de predicción responde al ratio:
z=
~
e
~
−1 ~
σ 2 (1 + X [X ' X ] X ' )
que, a priori, y siendo el error de predicción una combinación lineal de las perturbaciones
aleatorias, se distribuiría teóricamente como una normal. Sin embargo, y siguiendo los mismos
pasos realizados al determinar el intervalo de confianza de los parámetros estimados del MBRL,
es fácil comprobar que, al incluir el valor estimado insesgado de la varianza de las
pertubaciones aleatorias - σˆ 2 =
e' e
- , la distribución de este ratio cambia a una t-student
n−k
con n-k grados de libertad.
~
e
z=
=
~
−1 ~
σˆ 2 (1 + X [X ' X ] X ' )
e~
=
σ 
= σ  =
e' e
~
~
(1 + X [X ' X ]−1 X ' )  
n−k
~
e
N (0,1)
σ
→
→ t n− k
~
−1 ~
χ n2−k
e' e (1 + X [X ' X ] X ' )
n−k
σ2
Luego, marcado el nivel de significación deseado, se puede escribir fácilmente el intervalo de
confianza en el que se encontrará el valor real de la endóngena en el período de predicción
"n+h" como:
− t εn−k <
2
e~
y n+h − yˆ n+ h
=
< t εn−k
~
~
~
~
−1
−1
2
σˆ 2 (1 + X [X ' X ] X ' )
σˆ 2 (1 + X [X ' X ] X ' )
Pr  yˆ n +h − t εn−k σˆ

2
~
~
(1 + X [X ' X ]−1 X ' ) < y n+h < yˆ n +h + t εn−k σˆ
2
~
~
(1 + X [X ' X ]−1 X ' )  = 1 − ε

4. ¿Cuál es el intervalo en el que, en el peor de los casos, se encontrará el verdadero valor
de la endógena el período "n+h"?
Una vez estimados los parámetros es evidente que, dando valores a las exógenas en "n+h",
podremos obtener un valor de predicción a la endógena. También es lógico pensar que, en la
medida que los valores asignados a futuro de esas exógenas sean los correctos, la predicción de
"y" será mejor.
En muchas ocasiones, no podremos determinar el valor exacto de las exógenas en ese período
de predicción ni saber el grado de acierto de nuestra predicción sobre las mismas. Por ello, tiene
sentido pensar en cuál sería el máximo error en la predicción de estas que pudiera producirse; o,
dicho de otro modo, cuál sería el máximo error de predicción en nuestra endógena sabiendo que
no conocemos tampoco exactamente el valor de las "x's" en el período de predicción.
Es intuitivo pensar que para dar los valores a futuro a las exógenas cuanta mayor información
sobre ellas tengamos, más cerca nos encontraremos de conocer su valor real. A sensu contrario,
cuando no disponemos de más información sobre éstas que su propia historia, se demuestra
fácilmente que la mejor predicción que de éstas podemos dar es su media.
Dicho esto, para el período n+1 podríamos escribir nuevamente el valor de la varianza de
predicción del modelo usando como valores de las explicativas en n+1 sus respectivas medias,
que, a su vez, podemos escribir del siguiente modo:
 xˆ1, n+1 

ˆ
x2 ,n+1 
~
=
X'= 
 .... 


 xˆ k ,n +1 
1 
 x1 
 
 
 x 2  = 1 [X ' X ] 0 
....  n
....
 
 
0 
 xk 
Aplicando estos valores de las x's de predicción en la fórmula calculada para la varianza:
1
0
1
n
1
var cov(e~ ) = σ 2 (1 + 2 [1 0 .... 0][X ' X ][X ' X ]− [ X ' X ] ) = σ 2 (1 + 2 ) =
....
n
n
 
0
 1
= σ 2 1 + 
 n
En definitiva, esta sería la varianza del error de predicción en "n+1" para "la mejor de entre las
peores" estimaciones de las explicativas que puedo hacer (utilizar directamente su media) y,
podríamos determinar el intervalo de confianza para ese error puntual como:

Pr  yˆ n +h − tεn−k σˆ
2

1
(1 + ) < y n +h < yˆ n +h + tεn −kσˆ
2
n
(1 +
1 
) = 1 − ε
n 
Lo que vendría a darnos el intervalo máximo en el cual se encontrará nuestra endógena real en
el período "n+h".
UN EJEMPLO EN E-VIEWS:
Realizada una regresión para la variable @PCH(PCP), en función de SALER y de ella misma en
el período precedente, se obtienen los siguientes resultados con la muestra para estimación
desde 1972 a 1998:
Dependent Variable: @PCH(PCP)
Method: Least Squares
Sample: 1972 1998
Included observations: 27
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
SALER
@PCH(PCP(-1))
0.002103
0.003758
0.503078
0.008819
0.000889
0.123273
0.238490
4.229425
4.080997
0.8135
0.0003
0.0004
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.875177
0.864776
0.021348
0.010938
67.14247
2.428010
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
0.101282
0.058053
-4.751294
-4.607312
84.13651
0.000000
Las series utilizadas registran los siguientes estadísticos descriptivos:
@PCH(PCP)
SALER
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
0.101282
0.076639
0.237439
0.019631
0.058053
0.515505
2.245365
12.54834
11.42479
26.97311
1.457258
7.763981
0.163766
1.897811
@PCH(PCP(1))
0.103409
0.077069
0.237439
0.025263
0.055961
0.577815
2.322342
Jarque-Bera
Probability
1.836514
0.399214
1.487360
0.475361
2.019040
0.364394
Observations
27
27
27
Para determinar el contraste del predictor puntual o el intervalo de predicción máximo en el que
se moverá nuestra predicción de @PCH(PCP) en 1999, se procede del siguiente modo:
1. Valor de predicción en 1999
Para las explicativas, sus medias correspondientes:
Mean
SALER
12.54834
@PCH(PCP(-1))
0.103409
Para la endógena, se calcula con los parámetros estimados en el período 1972-1998
(manteniéndose la hipótesis de "permanencia estructural"):
Pred. Endógena = c(1)+ c(2)*@mean(saler,"1972 1998")+c(3)*@mean(@pch(pcp(1)),"1972 1998") = 0,101282
2. Calcular el intervalo máximo de predicción:

Pr  yˆ n +h − t εn−k σˆ
2

(1 +
1
< y n +h < yˆ n+ h + t εn −k σˆ
2
n
1
(1 +  = 1 − ε
n
−3
t εn−k = t 027,025
= 1,711
2
2
Pr(0.101282 − 0.021348* 1,711 * 1 + 1
27
< y1999 < 0.101282 + 0.021348 * 1,711 * 1 + 1
Luego el valor de predicción estará en 1999 en el intervalo:
Pr( 0.064 < y1999 < 0.1384 ) = 0,95
27
) = 0,95
Descargar