APUNTES DE CLASE ECONOMETRÍA I UDI ECONOMETRÍA E INFORMÁTICA Prof. Rafael de Arce Rafael.dearce@uam.es "CONTRASTE DEL PREDICTOR" o INTERVALO DE CONFIANZA DE LA PREDICCIÓN PUNTUAL EN EL MBRL Una de las medidas de bondad a posteriori más frecuentemente utilizadas es el denominado "Contraste del Predictor", a partir del cual podremos determinar el intervalo en el que, para un nivel de confianza elegido, estará el valor real de la endógena en el "período puntual n+h". En este apartado responderemos a las siguientes cuestiones: 1. 2. 3. 4. ¿Cuál es el valor del error en el período "n+h"? ¿Cuál es la varianza del error de predicción? ¿Cómo se distribuye dicho error? ¿Cuál es el intervalo en el que, en el peor de los casos, se encontrará el verdadero valor de la endógena el período "n+h"? 1. ¿Cuál es el valor del error en el período "n+h"? El modelo estimado responde a la estructura Y = Xβ + U , donde los parámetros se han estimado por MCO; es decir: βˆ = [X ' X ] X 'Y , con datos de todas las series disponibles para "n" observaciones. El error en el período de predicción (n+h) se podría escribir del siguiente modo: −1 en + h = y n+ h − yˆ n + h = X n+ h β n + h + u − X n+ h βˆ donde, gracias a la hipótesis de permanencia estructural, los parámetros estimados para las "n" observaciones disponibles se utilizan para obtener el valor de predicción en "n+h" ya que se suponen invariantes. Pudiendo escribir la expresión anterior como 1: ~ ~ ~ ~ e = X β + U − Xβˆ donde, sustituyendo el valor del parámetro estimado por su escritura en función de las perturbaciones aleatorias 2: 1 Para abreviar la escritura, seguiremos la notación propuesta por Pulido (1986), y denomináremos: en +h = e~ ~ X n+ h = X ~ u n+ h = U ~ ~ ~ ~ ~ ~ ~ e~ = X β + U − X (β + [X ' X ]−1 X 'U ) = X β + U − Xβ − X [X ' X ]−1 X 'U = ~ ~ = U − X [X ' X ]−1 X 'U En definitiva, el error de predicción se puede escribir como: ~ ~ −1 ~ e == U − X [ X ' X ] X 'U 2. ¿Cuál es la varianza del error de predicción? Para determinar la varianza calcularemos la matriz de varianzas-covarianzas del error de predicción, asumiendo las hipótesis realizadas sobre las perturbaciones aleatorias, tanto en período de estimación como de predicción, por lo que: - Homocedasticidad: ~~ E (U U ' ) = E (UU ' ) = σ 2 I n - No autocorrelación ~ ~ E (UU ' ) = E (UU ' ) = E (ui u j ) = 0 / i ≠ j Asumiendo que el error medio de predicción también es igual a cero, la matriz de varianzascovarianzas se puede obtener a partir de la esperanza del cuadrado de la expresión anterior como: [ ][ ] ~ ~ ~ ~ −1 −1 var cov(~ e ) = E (~ e e~' ) = E ( U − X [ X ' X ] X 'U U − X [X ' X ] X 'U ' ) = ~~ ~ ~ ~ ~ −1 ~ −1 −1 −1 ~ = E (UU '−UU ' X [X ' X ] X '− X [X ' X ] X 'UU '+ X [X ' X ] X 'UU ' X [X ' X ] X ' ) = ~~ ~ ~ ~ ~ −1 ~ −1 −1 −1 ~ = E (UU ' ) − E (UU ' X [ X ' X ] X ' ) − E ( X [X ' X ] X 'UU ' ) + X [X ' X ] X ' X [X ' X ] X ' E (UU `) = ~~ ~ ~ ~ ~ −1 ~ −1 −1 ~ = E (UU ' ) − E (UU ' X [ X ' X ] X ' ) − E ( X [X ' X ] X 'UU ' ) + X [X ' X ] X ' E (UU `) Aplicando ahora las hipótesis de homocedasticidad y no autocorrelación, la expresión anterior se reduce a: ~ −1 ~ var cov(~ e ) = σ 2 (1 + X [X ' X ] X ' ) 2 Y = Xβ + U −1 βˆ = [X ' X ]−1 X 'Y = = β + [X ' X ] X 'U 3. ¿Cómo se distribuye dicho error? El valor estandarizado del error de predicción responde al ratio: z= ~ e ~ −1 ~ σ 2 (1 + X [X ' X ] X ' ) que, a priori, y siendo el error de predicción una combinación lineal de las perturbaciones aleatorias, se distribuiría teóricamente como una normal. Sin embargo, y siguiendo los mismos pasos realizados al determinar el intervalo de confianza de los parámetros estimados del MBRL, es fácil comprobar que, al incluir el valor estimado insesgado de la varianza de las pertubaciones aleatorias - σˆ 2 = e' e - , la distribución de este ratio cambia a una t-student n−k con n-k grados de libertad. ~ e z= = ~ −1 ~ σˆ 2 (1 + X [X ' X ] X ' ) e~ = σ = σ = e' e ~ ~ (1 + X [X ' X ]−1 X ' ) n−k ~ e N (0,1) σ → → t n− k ~ −1 ~ χ n2−k e' e (1 + X [X ' X ] X ' ) n−k σ2 Luego, marcado el nivel de significación deseado, se puede escribir fácilmente el intervalo de confianza en el que se encontrará el valor real de la endóngena en el período de predicción "n+h" como: − t εn−k < 2 e~ y n+h − yˆ n+ h = < t εn−k ~ ~ ~ ~ −1 −1 2 σˆ 2 (1 + X [X ' X ] X ' ) σˆ 2 (1 + X [X ' X ] X ' ) Pr yˆ n +h − t εn−k σˆ 2 ~ ~ (1 + X [X ' X ]−1 X ' ) < y n+h < yˆ n +h + t εn−k σˆ 2 ~ ~ (1 + X [X ' X ]−1 X ' ) = 1 − ε 4. ¿Cuál es el intervalo en el que, en el peor de los casos, se encontrará el verdadero valor de la endógena el período "n+h"? Una vez estimados los parámetros es evidente que, dando valores a las exógenas en "n+h", podremos obtener un valor de predicción a la endógena. También es lógico pensar que, en la medida que los valores asignados a futuro de esas exógenas sean los correctos, la predicción de "y" será mejor. En muchas ocasiones, no podremos determinar el valor exacto de las exógenas en ese período de predicción ni saber el grado de acierto de nuestra predicción sobre las mismas. Por ello, tiene sentido pensar en cuál sería el máximo error en la predicción de estas que pudiera producirse; o, dicho de otro modo, cuál sería el máximo error de predicción en nuestra endógena sabiendo que no conocemos tampoco exactamente el valor de las "x's" en el período de predicción. Es intuitivo pensar que para dar los valores a futuro a las exógenas cuanta mayor información sobre ellas tengamos, más cerca nos encontraremos de conocer su valor real. A sensu contrario, cuando no disponemos de más información sobre éstas que su propia historia, se demuestra fácilmente que la mejor predicción que de éstas podemos dar es su media. Dicho esto, para el período n+1 podríamos escribir nuevamente el valor de la varianza de predicción del modelo usando como valores de las explicativas en n+1 sus respectivas medias, que, a su vez, podemos escribir del siguiente modo: xˆ1, n+1 ˆ x2 ,n+1 ~ = X'= .... xˆ k ,n +1 1 x1 x 2 = 1 [X ' X ] 0 .... n .... 0 xk Aplicando estos valores de las x's de predicción en la fórmula calculada para la varianza: 1 0 1 n 1 var cov(e~ ) = σ 2 (1 + 2 [1 0 .... 0][X ' X ][X ' X ]− [ X ' X ] ) = σ 2 (1 + 2 ) = .... n n 0 1 = σ 2 1 + n En definitiva, esta sería la varianza del error de predicción en "n+1" para "la mejor de entre las peores" estimaciones de las explicativas que puedo hacer (utilizar directamente su media) y, podríamos determinar el intervalo de confianza para ese error puntual como: Pr yˆ n +h − tεn−k σˆ 2 1 (1 + ) < y n +h < yˆ n +h + tεn −kσˆ 2 n (1 + 1 ) = 1 − ε n Lo que vendría a darnos el intervalo máximo en el cual se encontrará nuestra endógena real en el período "n+h". UN EJEMPLO EN E-VIEWS: Realizada una regresión para la variable @PCH(PCP), en función de SALER y de ella misma en el período precedente, se obtienen los siguientes resultados con la muestra para estimación desde 1972 a 1998: Dependent Variable: @PCH(PCP) Method: Least Squares Sample: 1972 1998 Included observations: 27 Variable Coefficient Std. Error t-Statistic Prob. C SALER @PCH(PCP(-1)) 0.002103 0.003758 0.503078 0.008819 0.000889 0.123273 0.238490 4.229425 4.080997 0.8135 0.0003 0.0004 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 0.875177 0.864776 0.021348 0.010938 67.14247 2.428010 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 0.101282 0.058053 -4.751294 -4.607312 84.13651 0.000000 Las series utilizadas registran los siguientes estadísticos descriptivos: @PCH(PCP) SALER Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 0.101282 0.076639 0.237439 0.019631 0.058053 0.515505 2.245365 12.54834 11.42479 26.97311 1.457258 7.763981 0.163766 1.897811 @PCH(PCP(1)) 0.103409 0.077069 0.237439 0.025263 0.055961 0.577815 2.322342 Jarque-Bera Probability 1.836514 0.399214 1.487360 0.475361 2.019040 0.364394 Observations 27 27 27 Para determinar el contraste del predictor puntual o el intervalo de predicción máximo en el que se moverá nuestra predicción de @PCH(PCP) en 1999, se procede del siguiente modo: 1. Valor de predicción en 1999 Para las explicativas, sus medias correspondientes: Mean SALER 12.54834 @PCH(PCP(-1)) 0.103409 Para la endógena, se calcula con los parámetros estimados en el período 1972-1998 (manteniéndose la hipótesis de "permanencia estructural"): Pred. Endógena = c(1)+ c(2)*@mean(saler,"1972 1998")+c(3)*@mean(@pch(pcp(1)),"1972 1998") = 0,101282 2. Calcular el intervalo máximo de predicción: Pr yˆ n +h − t εn−k σˆ 2 (1 + 1 < y n +h < yˆ n+ h + t εn −k σˆ 2 n 1 (1 + = 1 − ε n −3 t εn−k = t 027,025 = 1,711 2 2 Pr(0.101282 − 0.021348* 1,711 * 1 + 1 27 < y1999 < 0.101282 + 0.021348 * 1,711 * 1 + 1 Luego el valor de predicción estará en 1999 en el intervalo: Pr( 0.064 < y1999 < 0.1384 ) = 0,95 27 ) = 0,95