Estimación de modelos no lineales

Anuncio
Estimación de modelos no lineales
Alfonso Novales
Departamento de Economía Cuantitativa
Universidad Complutense
Septiembre 2013
Versión preliminar
No citar sinpermiso del autor
@Copyright 2013
Contents
1 Estimación de modelos no lineales
1.1 Minimos Cuadrados en modelos no lineales . . . . . . . . . . . .
1.1.1 Aproximación lineal del modelo no lineal . . . . . . . . . .
1.1.2 Ejemplo 1: Modelo exponencial con constante. Aproximación lineal . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.3 Ejemplo 2: Modelo potencial. Aproximación lineal . . . .
1.2 Minimización de una función . . . . . . . . . . . . . . . . . . . .
1.3 Estimación por Mínimos Cuadrados . . . . . . . . . . . . . . . .
1.4 Algoritmos numéricos: Gauss-Newton y Newton-Raphson . . . .
1.4.1 Condiciones iniciales . . . . . . . . . . . . . . . . . . . . .
1.4.2 Ejemplo 4: Modelo potencial . . . . . . . . . . . . . . . .
1.4.3 Ejemplo 5: Una función de consumo . . . . . . . . . . . .
1.4.4 Ejemplo 6: Modelo exponencial sin constante. . . . . . . .
1.4.5 Ejemplo 7: Otra función exponencial . . . . . . . . . . . .
1.4.6 Ejemplo 8: Un modelo no identi…cado . . . . . . . . . . .
1.5 Estimador de Máxima Verosimilitud . . . . . . . . . . . . . . . .
1.6 Criterios de convergencia . . . . . . . . . . . . . . . . . . . . . .
1.7 Di…cultades prácticas en el algoritmo iterativo de estimación . .
1.8 Estimación condicionada y precisión en la estimación . . . . . . .
1.9 Algunos modelos típicos . . . . . . . . . . . . . . . . . . . . . . .
1.9.1 Estimación de modelos MA(q) . . . . . . . . . . . . . . .
1.10 Estimación por Máxima Verosimilitud de modelos dinámicos . .
1.10.1 Modelo AR(1), sin autocorrelación . . . . . . . . . . . . .
1.10.2 Modelo constante, con autocorrelación . . . . . . . . . . .
1.10.3 Estimación de Máxima Verosimilitud del modelo AR(1)
con perturbaciones AR(1) . . . . . . . . . . . . . . . . . .
1
2
2
3
5
6
6
7
9
10
11
12
13
16
17
17
20
21
23
24
24
26
26
30
34
1
Estimación de modelos no lineales
Es bien conocido que el estimador de Mínimos Cuadrados Ordinarios de un
modelo de relación lineal,
yt = x0t + ut ; t = 1; 2; :::; T
(1)
viene dado por la expresión matricial,
^ = (X 0 X)
1
XY
siendo X la matriz T xk que tiene por columnas las T observaciones de cada
una de las k variables explicativas contenidas en el vector xt ; e Y el vector
columna, de dimensión T , formado por las observaciones de yt : Este estimador,
que es lineal (función lineal del vector Y ), es insesgado. Es el de menor varianza
entre los estimadores lineales si la matriz de covarianzas de los términos de error
tiene una estructura escalar,
V ar(u) =
2
u IT
Si, además de tener dicha estructura de covarianzas, el término de error
tiene una distribución Normal, entonces el estimador de Mínimos Cuadrados
coincide con el estimador de Máxima Verosimilitud, siendo entonces e…ciente:
estimador de menor varianza, entre todos los estimadores insesgados, sea cual
sea su dependencia respecto del vector de Y .
Supongamos que se pretende estimar la relación,
yt = f (xt ; ) + ut ;
(2)
donde f (xt ; ) es una función no lineal de los componentes del vector kx1; :
Si f (xt ; ) es no lineal únicamente en las variables explicativas xt ; un cambio de
variable permite transformar el modelo anterior en un modelo lineal. Excluimos,
sin embargo, inicialmente, la estimación de relaciones implícitas, representables
a partir de un modelo general del tipo,
g(yt ; xt ; ) + ut ;
1.1
Minimos Cuadrados en modelos no lineales
El procedimiento de Mínimos Cuadrados no Lineales en este modelo consiste en
resolver el problema de optimización:
min SR(^) = min
T
X
u
^t ^ = min
t=1
T
X
[yt
t=1
lo que implica resolver el sistema de ecuaciones,
@f (xt ; )
@
0
y=
@f (xt ; )
@
2
0
2
f (xt ; )]
f (X; )
donde el vector gradiente es T xk, y f (X; ) es T x1. Este sistema puede
no tener solución, o tener múltiples soluciones. A diferencia del estimador de
Mínimos Cuadrados aplicado a un modelo lineal, el estimador no es insesgado.
La matriz de covarianzas del estimador resultante es:
V ar(^) =
2
u
"
0
@f (xt ; )
@
@f (xt ; )
@
#
1
que se reduce a la matriz de covarianzas 2u (X 0 X) 1 en el caso de un modelo
lineal.
Si quisiéramos aplicar Mínimos Cuadrados directamente, en el modelo exponencial,
yt = f (xt ; ) + ut =
con
=( ;
1;
2) ;
+
2 xt
1e
+ ut
tendríamos que resolver el problema,
min SR(^) = min
T h
X
u
^t ^
t=1
i2
= min
T
X
yt
( +
1e
e2 2 xt
X
+ 1
xt e2
2 xt
2 xt
)
2
t=1
que conduce a las condiciones de optimalidad,
yt
=
yt e
2 xt
=
yt xt e
2 xt
=
X
X
X
T+
X
X
1
e
X
2 xt
xt e2
e
+
2 xt
2 xt
1
X
que carece de solución explícita, por lo que debe resolverse por procedimientos numéricos.
1.1.1
Aproximación lineal del modelo no lineal
Para evitar recurrir a los métodos numéricos, en los que siempre es complicado
saber si hemos encontrado el tipo de solución que buscábamos, un primer enfoque consiste en estimar la aproximación lineal del modelo (2) ; alrededor de
una estimación inicial,
yt = f (xt ; ^ ) +
@f (xt ; )
@
^ + ut ;
=^
Haciendo el cambio de variable: yt = yt
f (xt ; ^ ) +
@f (xt ; )
@
=^
^; y
generando asimismo ”datos” para cada una de las k variables de…nidas por el
t; )
gradiente @f (x
;podemos estimar el modelo lineal
@
=^
yt '
@f (xt ; )
@
3
+ ut ;
=^
por el procedimiento habitual de Mínimos Cuadrados.
Podemos pensar que en realidad estamos estimando un modelo distinto del
que pretendíamos, y que de poco nos servirá, si el modelo que estimamos tiene
una variable dependiente y unas variables explicativas diferentes de las que
aparecían en el modelo original. Lo que sucede es que una vez más (como
también sucede al estimar por MCG un modelo de regresión inicial en el que el
término de error tiene heterocedasticidad o autotocorrelación), lo que hacemos
es transformar las variables del modelo para obtener otro modelo diferente, que
comparte con el primero los mismos coe…cientes, y en el que la estimación de
mínimos cuadrados tiene buenas propiedades. Además, veremos pronto que esta
estrategia de estimación se puede interpretar como el resultado de un verdadero
problema de minimización de la suma de cuadrados de residuos (ver algoritmo
de Gauss Newton, más adelante).
La estimación resultante es,
~=
"
@f (xt ; )
@
0
=^
@f (xt ; )
@
=^
#
1
@f (xt ; )
@
0
y
=^
donde el vector gradiente es una matriz de pseudo-datos, de dimensión T xk;
e y es un vector T x1.
Sustituyendo y por la expresión que utilizamos para de…nir a esta variable,
podemos escribir el estimador como,
~=^+
"
@f (xt ; )
@
0
=^
@f (xt ; )
@
=^
#
1
@f (xt ; )
@
0
u
^:
=^
Este resultado es muy interesante, pues permite poner en práctica un procedimiento iterativo, del siguiente modo: en cada etapa, partimos de unos determinados valores numéricos para los parámetros del modelo, que utilizamos
para generar los errores de ajuste, u
^; y estimamos una regresión de dichos errores
t; )
sobre las variables que con…guran el vector gradiente @f (x
: Los coe…cientes
@
estimados en dicha regresión son las correcciones que hay que introducir sobre el estimador disponible en en dicha etapa para obtener un nuevo vector de
estimaciones. Para comenzar este proceso, hemos de empezar con unas estimaciones iniciales, que se seleccionan bien utilizando información muestral, o bien
escogiendo valores numéricos que simpli…quen el modelo.
El estimador resultante tras la convergencia del procedimiento tiene una
distribución asintótica Normal, con esperanza matemática igual al verdadero
vector de parámetros ; y su matriz de covarianzas puede estimarse por,
^ 2u
con ^ 2u =
1
T
k
PT
"
t=1
@f (xt ; )
@
0
=~
@f (xt ; )
@
u
~2t ;siendo el residuo u
~ t = yt
4
=~
#
1
f (xt ; ~ ):
(3)
1.1.2
Ejemplo 1: Modelo exponencial con constante. Aproximación
lineal
Consideremos la estimación del modelo exponencial:
yt =
+
1e
2 xt
+ ut = f (xt ; ) + ut
con = ( ; 1 ; 2 ) : El gradiente de la función f que de…ne la relación entre
variable dependiente e independiente es,
@f (xt ; )
0
= 1; e 2 xt ; 1 xt e 2 xt
@
por lo que la aproximación lineal al modelo original es,
yt ' f (xt ; ^) +
@f (xt ; )
@
0
^ + ut ; t = 1; 2; :::; T;
=^
que de…niendo variables:
= yt
z1t
= e 2 xt
^
= ^ 1 xt e 2 xt
z2t
@f (xt ; )
@
f (xt ; ^) +
yt
0
=^
^ = yt + ^ ^ e ^ 2 xt
1 2
^
conduce a estimar el modelo,
yt =
+
1 z1t
+
2 z2t
+ ut ; t = 1; 2; :::; T
(4)
A partir de unas estimaciones iniciales denotadas por el vector ^ = ^ ; ^ 1 ; ^ 2 ;
generamos observaciones numé…cas para la variable yt , así como para las varaibles
z1t ; z2t ; y procedemos a estimar el modelo (4) ; obteniendo las nuevas estimaciones numéricas de los tres parámetros. Con ellos, podríamos volver a obtener
observaciones numéricas de yt , z1t ; z2t ; e iterar el procedimiento.
Como hemos visto antes, este procedimiento puede también ponerse en práctica estimando la regresión de los residuos sobre el vector gradiente:
u
^t =
0
+
1 z1t
+
2 z2t
Tanto el cálculo del vectror de residuos como la generación de datos para
el vector gradiente dependerán de la estimación concreta disponible en ese momento, y procederemos a la actualización de valores numéricos de los parámetros, mediante:
^n = ^n
siendo u
^ t = yt
1
+ ^0 ; ^ 1;n = ^ 1;n
f (xt ; ^n
1 ):
5
1
+ ^1 ; ^ 2;n = ^ 2;n
1
+ ^2
1.1.3
Ejemplo 2: Modelo potencial. Aproximación lineal
Supongamos que queremos estimar el modelo potencial:
yt =
+ xt + ut ; t = 1; 2; :::; T
la función f (xt ; ) es: f (xt ; ) =
@f (xt ; )
=
@
+ xt ; de modo que el vector gradiente es:
@f (xt ; ) @f (xt ; ) @f (xt ; )
;
;
@
@
@
= (1; xt ; xt ln xt )
[Recordemos que la derivada de la función x con respecto a es igual a
x ln x]:
Nótese que para cada observación t tenemos un vector de tres valores numéricos para el vector @f @(xt ; ) ; que siempre tiene como primer elemento en este caso
el número 1.
A partir de unas estimaciones ^ ; calculamos los errores de ajuste:
u
^ t = yt
^
^ x ^ ; t = 1; 2; :::; T
t
y estimamos una regresión con u
^t como variable dependiente, y las tres variables
del vector @f @(xt ; ) como variables explicativas. El vector de estimaciones se
añade, con el signo que haya tenido (es decir, se suma si es positivo, y se resta si
es negativo), de las estimaciones iniciales, para tener una nueva estimación. el
algoritmo continua hasta que alcance la convergencia, y el punto al que converge
se toma como estimación del vector :
En este modelo, una estimación inicial razonable consistiría en partir de =
1;que simpli…ca el modelo haciéndolo lineal. Si estimamos una regresión lineal
por mínimos cuadrados: yt = + xt + ut ; t = 1; 2; :::; T; el vector ^ ; ^ ; 1 ;
donde ^ y ^ denotan las estimaciones de mínimos cuadrados del modelo lineal,
servirían como estimaciones iniciale para comenzar el procedimiento iterativo.
1.2
Minimización de una función
Supongamos que queremos hallar el valor del vector de parámetros que minimiza una función F ( ) : A partir de una estimación inicial del valor de dicho
vector, ^n 1 , aproximamos la función F (:) :
h
i0
F ( ) ' F ^n + rF ^n
^n + 1
2
^n
0
h
r2 F ^n
i
^n
M( )
Si quisiéramos minimizar la función M ( ) ;resolveríamos el sistema de ecuaciones,
h
i h
i
^n = 0
M ( ) = rF ^n + r2 F ^n
6
que conduce a,
h
= ^n
r2 F ^n
i
1
h
rF ^n
i
valor numérico que puede tomarse como la nueva estimación, ^n+1 : Por
supuesto, convendrá comprobar que el Hessiano r2 F ^n es de…nido positivo.
El algoritmo se basa en condiciones de primer orden por lo que, cuando el
algoritmo converja, no sabremos si hemos alcanzado un máximo o un mínimo,
y necesitaremos hacer alguna exploración adicional. Si aplicamos la expresión
anterior a la minimización de una función cuadrática: F ( ) = a 2 + b + c;
obtenemos: ^n = b=2a; llegando a este punto crítico de la función sin necesidad
de hacer ninguna iteración.
Este es un algoritmo iterativo, conocido como algoritmo de Newton-Raphson.
Converge en una sóla etapa al mínimo local cuando la función F ( ) es cuadrática.
En los demás casos, no hay ninguna seguridad de que el algoritmo vaya a converger. Incluso si lo hace, no hay seguridad de que converja al mínimo global,
frente a hacerlo a un mínimo local. Además, no es posible saber si el límite
alcanzado es o no un mínimo de naturaleza local. Por eso, conviene repetir
el ejercicio partiendo de condiciones iniciales muy distintas para, si converge,
certi…car que lo hace a un mínimo local peor que el alcanzado previamente.
Las iteraciones continúan hasta que se satisfacen las condiciones de convergencia que hallamos diseñdo. Estas pueden ser una combinación de condiciones
de diverso tipo,
^n
h
^n
1
rF ^n
F ^n
0
^n ^n 1
i0 h
i
rF ^n
F ^n
1
<
"1
<
"2
<
"3
En este tipo de algoritmos puede utilizarse un parámetro de longitud de
paso, para tratar de controlar la velocidad de convergencia y, con ello, posibilitar
que nos aproximemos al mínimo global, o que no abandonemos demsiado pronto
una determinada región del espacio paramétrico:
= ^n
1.3
h
r2 F ^n
i
1
h
rF ^n
i
Estimación por Mínimos Cuadrados
Si queremos obtener el estimador de Mínimos Cuadrados del modelo no lineal,
querremos minimizar la función,
F( )=
T
X
(yt
2
f (xt ; )) = SR( )
t=1
7
y la regla iterativa anterior se convierte en,
^ =^
n
n
1
en la que es fácil ver que,
rF ^ n
1
=
r2 F ^ n
1
=
@SR( )
=
@
h
r2 F ^ n
2
1
i
1
h
rF ^ n
1
i
T
X
@f (xt ; )
ut
@
t=1
T
X
@ 2 SR( )
0 =2
@ @
t=1
@f (xt ; )
@
@f (xt ; )
@
0
2
T
X
@ 2 f (xt ; )
ut
@ @ 0
t=1
en este caso, el algoritmo de Newton-Raphson consiste en:
^ =^
n
n
"
1+
T
X
t=1
@f (xt ; )
@
@f (xt ; )
@
0
@ 2 f (xt ; )
ut
@ @
#
1
"
T
X
@f (xt ; )
ut
@
t=1
El estimador resultante es asintóticamente insesgado, con matriz de covarianzas,
2
u
h
r2 F ^n
i
1
estimándose el parámetro 2u del modo antes referido, mediante el cociente
de la Suma de Cuadrados de los errores de ajuste y el número de grados de
libertad del modelo.
El algoritmo de Gauss-Newton consiste en ignorar la presencia de la segunda
derivada en la matriz inversa anterior, y considerar el esquema iterativo,
^ =^
n
n
1
+
"
T
X
t=1
@f (xt ; )
@
@f (xt ; )
@
0
#
1
"
T
X
@f (xt ; )
ut
@
t=1
#
Al despreciar la segunda derivada, este algoritmo entra en di…cultades cuando
la super…cie a optimizar no tiene su…ciente curvatura que, como veremos más
adelante, son las situaciones que en términos estadísticos, corresponden a identi…cación imperfecta de los parámetros del modelo.
El interés de este segundo algoritmo estriba en que la expresión matricial
que aparece en el segundo sumando corresponde con las estimaciones de mínimos cuadrados del vector de errores, calculado con las estimaciones actuales,
t; )
. Son k variables,
sobre las k variables de…nidas por el vector gradiente @f (x
@
tanta como parámetros hay que estimar, porque el vector gradiente consta de
una derivada parcial con respecto a cada uno de los k parámetros del modelo.
Las estimaciones resultantes son las correcciones a introducir sobre las actuales
estimaciones del vector para tener un nuevo vector de estimaciones numéricas.
8
#
1.4
Algoritmos numéricos: Gauss-Newton y Newton-Raphson
Consideremos de nuevo la estimación del modelo exponencial,
yt =
+
1e
2 xt
+ ut = f (xt ; ) + ut
Si denotamos por F ( ) la función Suma de Cuadrados de Residuos, tenemos el
gradiente y matriz hessiana,
rF ( ) =
r2 F ( )
2
X @f (xt ; )
u
^t =
@
X
@ft
@ft
@
@
0
T
1
X
@ e 2 xt
= 2
2 xt
t=1
1 xt e
0
T
1
X
@ e 2 xt
= 2
2 xt
t=1
1 xt e
=
2
2
X @ft
u
^t =
@
0
2
X @ 2 ft
2
@
e 2 xt
e2 2 xt
2
1 xt e
X
2 xt
1; e
;
1
2 xt
1 xt e
2
1 xt e
2 2 2
1 xt e
2 xt
u
^t
A
2 xt
2 xt
2 xt
xt e
2
1 xt e
u
^t
0
0 0
@ 0 0
2
t=1
0 xt e
1 xt e
1e
1 xt e
u
^t =
2 xt
e 2 xt
e2 2 xt
xt e 2 xt
2
T
X
2 xt
2 xt
u
^t +
2 xt
1e
2
1 xt e
2 xt
y el algoritmo de Newton-Raphson consiste en actualizar los valores numéricos de los parámetros mediante el esquema,
^n = ^n
1
h
r2 F ^n
1
i
1
rF ^n
1
El algoritmo de Gauss-Newton es una versión simpli…cada del anterior, sustituyendo la matriz hessiana por el producto,
T
X
t=1
@ft
@
=^
@ft
@
0
=^
que equivale a despreciar las derivadas de segundo orden. La aproximación
será apropiada por tanto cuando la función a optimizar sea aproximadamente
cuadrática. En ese caso, el hessiano sería constante. Como en la expresión
del algoritmo Newton-Raphson aparece la suma de productos del hessiano por el
residuo, si el hessiano es aproximadamente constante, la suma seria proporcional
a la suma de residuos, que debería ser pequeña (sería cero si el modelo fuese
lineal).
Bajo esta aproximación, tenemos el esquema iterativo,
^n = ^n
1
+
"
T
X
t=1
@ft
@
=^n
1
@ft
@
9
0
=^n
1
#
1
"
2 xt
T
X
@f (xt ; )
u
^t
@
t=1
#
2 xt
u
^t
1
0
Au
xt e 2 xt
^t =
2 2 xt
1 xt e
1
A
que, como puede verse, coincide con la estimación de la aproximación lineal
al modelo no lineal que antes analizamos.
En el modelo exponencial tendríamos,
^n = ^n
2
0
T
1
X
4
@ e
1+
t=1
e 2 xt
e2 2 xt
2
1 xt e
2 xt
1 xt e
2 xt
2 xt
1 xt e
2
1 xt e
2 2 2
1 xt e
2 xt
2 xt
2 xt
13
A5
1
2
13
0
T
u
^t
X
4
A5
@ e 2 xt u
^t
x
t
2
t=1
u
^t
1 xt e
Pero lo verdaderamente interesante del algoritmo de Gauss-Newton es que
la actualización en el estimador puede llevarse a cabo mediante una regresión
de los errores de ajuste, calculados con el estimador actualmente disponible,
sobre el vector gradiente de la función f . Los coe…cientes estimados en esta
regresión auxiliar se añaden a los actuales valores numéricos de los parámetros
para obtener el nuevo estimador, y se continúa de modo iterativo hasta lograr
a convergencia del algoritmo.
1.4.1
Condiciones iniciales
En algunos casos, puede comenzarse de estimaciones iniciales sencialles, pero no
demasiado. La estructura de este modelo sugiere comenzar de 2 = 0; con lo que
desaparecería el término exponencial, y = 0; con lo que tendríamos 1 = y; y
residuos: u
^t = yt y: Sin embargo, en este caso, las matrices a invertir en los
algoritmos de Newton- Raphson y Gauss-Newton resultan, respectivamente:
0
1
@ 1
2
t=1
yxt
T
X
1
1
xt u
^t + yxt
1
yxt
A =
xt u
^t + yxt
2 2
2
^t + y xt
xt y u
0
1
1
@ 1
1
2
t=1
yxt
xt yt + 2yxt
0
1
T
1
1
yxt
X
@ 1
1
yxt A
t=1
yxt yxt y 2 x2t
T
X
siendo la segunda de ellas singular.
Afortunadamente, las condiciones de optimalidad del procedimiento de Mínimos Cuadrados nos sugieren cómo obtener estimaciones iniciales razonables.
Notemos que la primera condición puede escribirse,
= m(y)
2 xt
1 m(e
)
que, sustituida en la segunda, nos proporciona,
m(yt e
2 xt
) = m(e
2 xt
Dado un valor numérico de
1
=
)m(y)
2;
1
m(e
2 xt
)
2
+
tenemos,
m(yt e
m(e2
2 xt
)
2 xt )
10
m(e
2 xt
[m(e
)m(y)
2
2 xt )]
2
1 m(e
2 xt
)
1
yxt
A;
xt yt + 2yxt
2 2
2
xt yyt + 2y xt
que, como es habitual, tiene la forma de cociente entre una covarianza y una
varianza muestrales.
La última condición de optimalidad nos dice,
m yt xt e
2 xt
= m xt e2
que proporcionaría otra elección de
1
=
m(xt e2
+
xt e2
1m
2 xt
1;
2 xt
m(yt xt e
2 xt
m(xt e2
)
2 xt
2 xt
[m(xt e2
)
)m(y)
2 xt
2
)]
Podríamos optar por escoger el valor numérico de 1 con cualquiera de ellas:
También podríamos caracterizar la intersección, si existe, de las dos curvas para
elegir ambos parámetros, 1 y 2 .
1.4.2
Ejemplo 4: Modelo potencial
Consideremos la utilización del modelo potencial para estimar la relación entre
el tipo de interés a largo plazo Rt y el tipo de interés a corto plazo rt ,
Rt =
1
+
2 rt
+ ut
son,
T
X
(Rt
2 rt
)
=
0
) rt
=
0
) rt ln rt
=
0
1
t=1
T
X
(Rt
2 rt
1
t=1
2
T
X
(Rt
1
2 rt
t=1
que constituyen las ecuaciones normales del problema de estimación. De las
dos primeras ecuaciones, obtenemos,
T
X
Rt
=
T
1+
t=1
T
X
R t rt
2
T
X
t=1
=
1
t=1
T
X
t=1
)
2
=
rt +
rt ) T m(R) = T
2
T
X
t=1
1
+
2 T m(r
))
rt2 ) T m(Rr ) = T m(R)m(r )
1
= m(R)
2 T m(r
2 m(r
)2 +
m(Rr ) m(R)m(r )
m(r2 ) m(r )2
El primer resultado sugiere que la estimación del término independiente se
obtenga, una vez estimados 2 y ; de modo similar a como se recupera el
término independiente en la estimación de un modelo lineal.
11
)
2 T m(r
2
))
Lo más interesante es observar que la segunda ecuación sugiere estimar el
parámetro 2 en función de momentos muestrales de algunas funciones de los
tipos a largo y a corto plazo. Para calcular dichos momentos precisamos conocer
el parámetro , pero también podemos poner en marcha una búsqueda de red
puesto que, por las características de la función de consumo, dicho parámetro
ha de ser positivo y no muy elevado. Por tanto, una red que cubra el intervalo (0:5; 2:0) puede ser su…ciente. De hecho, para cada valor numérico posible
de podemos utilizar la expresión anterior para estimar 2 ;sin necesidad de
optimizar, y después utilizar la primera condición de optimalidad para estimar
1:
1.4.3
Ejemplo 5: Una función de consumo
Para apreciar el grado de di…cultad, consideremos las condiciones de optimalidad
correspondientes a la estimación por mínimos cuadrados del modelo de consumo,
Ct =
1
+
2 Yt
+ ut
en el que la función f (X; ) tiene gradiente:
@f (xt ; )
= (1; Yt ;
@
2 Yt
ln Yt )
que son,
T
X
(Ct
2 Yt
1
)
=
0
=
0
=
0
t=1
T
X
(Ct
1
2 Yt
) Yt
t=1
2
T
X
(Ct
1
2 Yt
) Yt ln Yt
t=1
que constituyen las ecuaciones normales del problema de estimación. De las
dos primeras ecuaciones, obtenemos,
T
X
Ct
=
T
1+
t=1
T
X
Ct Yt
2
T
X
t=1
=
1
t=1
T
X
t=1
)
2
=
Yt +
Yt ) T m(C) = T
2
T
X
t=1
1
+
2 T m(Y
))
1
Yt2 ) T m(CY ) = T m(C)m(Y )
= m(C)
2 T m(Y
m(CY ) m(C)m(Y )
m(Y 2 ) m(Y )2
Este procedimiento funciona muy bien desde el punto de vista numérico,
como puede verse en el archivo Ajuste_consumo.xls. La única limitación del
12
2 m(Y
)2 +
)
2 T m(Y
2
))
método es que no proporciona la estructura de varianzas y covarianzas que permitiría llevar a cabo el análisis de inferencia estadística al modo habitual. Puede
analizarse, sin embargo, la región paramétrica consistente con una variación de
la suma de cuadrados de residuos inferior a un cierto umbral de, por ejemplo, un
5%. Esto sería como construir una región de con…anza del 95% para el vector
de parámetros.
1.4.4
Ejemplo 6: Modelo exponencial sin constante.
Consideremos ahora la estimación del modelo,
yt = e
xt
+ ut = f (xt ; ) + ut
con = ( ; ) : Entre muchas otras aplicaciones, este modelo se ha utilizado
para representar una función de demanda de dinero, que relaciona la cantidad
de saldos monetarios reales en la economía en función de las expectativas de
in‡ación:
Mt
Pt
d
= e
e
t
+ ut ; t = 1; 2; :::; T;
> 0;
<0
El gradiente de la función f que de…ne la relación entre variable dependiente
e independiente, es,
@f (xt ; )
0
= e xt ; xt e xt
@
Es importante apreciar la expresión analítica de las derivadas parciales de
esta función,
@y
@2y
2 xt
=
e xt ;
=
e ;
@x
@x2
Como la función exponencial es positiva con independencia del signo de
y de xt ; tenemos que la primera derivada tendrá el signo del producto
,
mientras que la segunda derivada tendrá el signo del parámetro : Esto nos
puede dar pautas para la elección de condiciones iniciales. Por ejemplo, si la
nube de puntos de yt sobre xt tiene un per…l decreciente y convexo, tendríamos
un valor positivo de ; debido a la convexidad, junto con un valor negativo de
:
Aproximación lineal por lo que la aproximación lineal al modelo original es,
yt ' f (xt ; ^) +
@f (xt ; )
@
0
^ + ut ; t = 1; 2; :::; T;
=^
que, de…niendo las variables yt = yt
e
^ xt
; z2t = ^ xt e
^ xt
; puede escribirse:
13
f (xt ; ^) +
@f (xt ; )
@
0
=^
.^; z1t =
yt = z1t + z2t + ut ; t = 1; 2; :::; T;
(5)
A partir de unas estimaciones iniciales denotadas por el vector ^ = ^ ; ^ ;
generamos observaciones numéricas para la variable yt , así como para las variables z1t ; z2t ; y procedemos a estimar el modelo (5) ; obteniendo las nuevas
estimaciones numéricas de y . Con ellos, podríamos volver a obtener series
temporales para las variables yt , z1t ; z2t ; e iterar el procedimiento.
Como es sabido, este procedimiento puede también ponerse en práctica estimando la regresión,
u
^t =
1 z1t
+
2 z2t
y procediendo a la actualización de valores numéricos de los parámetros,
^n = ^n
siendo u
^ t = yt
f (xt ; ^n
1
+ ^1 ; ^ n = ^ n
1
+ ^2
1 ):
Algoritmo de Newton-Raphson Si denotamos por F ( ) la función Suma
de Cuadrados de Residuos,
min SR(^) = min
T
X
u
^t ^ = min
t=1
T
X
(yt
2
f (xt ; ) = min
T
X
yt
t=1
t=1
que conduce a las condiciones de optimalidad,
X
X
yt e
xt
=
yt xt e
xt
=
X
X
e2
xt
xt e2
xt
donde la primera condición sugiere tomar como estimación inicial,
^=
m(ye x )
m(e2 x )
mientras que de la segunda condición tenemos:
^=
m(yxe x )
m(xe2 x )
14
e
xt 2
Ejercicio práctico con rutina Matlab Considerando nuevamente la función Suma de Cuadrados de Residuos,
min SR(^) = min
T
X
u
^t ^ = min
t=1
T
X
2
(yt
f (xt ; ) = min
t=1
T
X
yt
e
xt 2
t=1
Comenzamos generando una serie temporal de datos simulando la variable
xt a partir de un proceso i., id., N ( ; 2x ); y para el término de error del modelo
a partir de un proceso N (0; 2u ): Por último, generamos la serie temporal de
datos para yt utilizando la estructura del modelo y las series temporales de xt y
de ut , una vez que hemos …jado valores numéricos para los parámetros y :
Con las series temporales fyt ; xt gTt=1 ; podemos estimar el modelo siguiendo
varios procedimientos:
Utilizando la instrucción "fminunc" de Matlab, para minimizar la suma
PT
2
e xt :
de cuadrados de los residuos o errores de ajuste M in t=1 yt
;
Utilizando la instrucción "fsolve" de Matlab, que encuentra las raices o
soluciones de una ecuación lineal o no lineal, lo que se puede aplicar al
sistema formado por las dos condiciones de optimalidad o de primer orden
del problema de minimización de la suma de cuadrados de los errores,
2
T
X
yt
e
xt
e
xt
=
0
xt e
xt
=
0
t=1
2
T
X
yt
e
xt
t=1
Utilizando el algoritmo de Gauss-Newton (9), con expresiones analíticas
para el gradiente (6) y el hessiano (7) de la función objetivo, que es la
Suma de Cuadrados de los errores de ajuste. Tenemos el gradiente y
matriz hessiana,
rF ( ) =
r2 F ( )
=
2
X @f (xt ; )
u
^t =
@
2
T
X
t=1
=
2
T
X
t=1
e2 xt
xt e2
e2 xt
xt e xt
2
X @ft
@
xt e2 xt
2 2 2 xt
xt e
xt
e
xt
u
^t
15
u
^t =
2
2
X
T
X
t=1
e
xt
0
xt e
; xt e
xt
xt e xt e xt u
^t
x2t e xt e xt u
^t
xt
u
^t (6)
xt e xt
x2t e xt
(7)
u
^t
por lo que el algoritmo de Newton-Raphson sería,
^n = ^n
1
"
T
X
e2 xt
xt e xt
t=1
xt
e
#
xt e xt e xt u
^t
x2t e xt e xt u
^t
u
^t
1
"
T
X
xt
e
xt e
t=1
xt
u
^t
#
(8)
mientras que el algoritmo de Gauss-Newton sería,
^n = ^n
1
"
T
X
e2 xt
xt e2
t=1
#
xt e2 xt
2 2 2 xt
xt e
xt
1
"
T
X
xt
e
xt e
t=1
xt
u
^t
#
(9)
Utilizando el algoritmo de Gauss-Newton (9), con evaluación numérica de
las derivadas parciales que aparecen en el gradiente (6) y el hessiano (11)
de la función objetivo, que es la Suma de Cuadrados de los Errores:
f (x1 ; ::; xi + "; ::; xn ) f (x1 ; ::; xi
@f
= lim
"!0
@xi
2"
@2f
@xi @xj
siendo las derivadas segundas:
=
@g
@xj ;
@2f
f (x1 ; ::; xi + "; ::; xj + "; ::; xn )
= lim
"!0
@xi @xj
1.4.5
"; ::; xn )
donde g =
; i = 1; 2; :::; n
@f
@xi ;
de modo que:
f (x1 ; ::; xi + "; ::; xj
"; ::; xn ) f (x1 ; ::; xi
4"2
Ejemplo 7: Otra función exponencial
En el caso del modelo,
yt =
+ e
xt
+ ut
tenemos el vector gradiente
@f (xt ; )
= (1; e
@
xt
; xt e
xt
)
y las ecuaciones normales,
T
X
yt
e
xt
=
t=1
T
X
yt
e
xt
e
xt
=
t=1
T
X
t=1
yt
e
xt
xt e
xt
=
0)
0)
0)
T
X
yt = T
+
t=1
T
X
t=1
16
e
xt
t=1
yt e
xt
T
X
=
t=1
T
X
T
X
e
xt
T
X
+
t=1
yt xt e
xt
=
T
X
t=1
^m e
)^=y
e2
xt
t=1
xt e
xt
+
T
X
t=1
xt e2
xt
xt
"; ::; xj + "; ::; xn )
La primera ecuación sugiere estimar la constante mediante la regla habitual
en el procedimiento de mínimos cuadrados de igualar las medias muestrasles de
ambos miembros del modelo econométrico. La segunda ecuación conduce a,
=
m yt e
xt
m (e2
xt
m(yt )m e
xt )
[m (e
2
xt )]
por lo que es sencillo obtener una estimación de ( ; ) condicional en ujn
valor numérico de : De este modo, podríamos utilizar una rejilla de valores de
este último parámetro para obtener estimaciones mínimocuadráticas de los tres
parámetros del modelo.
1.4.6
Ejemplo 8: Un modelo no identi…cado
Supongamos, por último, que pretendemos estimar el modelo,
yt =
+
1 2 xt
+ ut
en el que la aplicación del algoritmo de Newton-Raphson resulta en,
1 0
1
0
1
0 0 0
2 xt
1 xt
2 2
2 A
@ 0 0 xt A ut
@ 2 xt
1 2 xt
2 xt
2 2
2
0 xt 0
1 xt
1 2 xt
1 xt
mientras que el algoritmo de Gauss-Newton consistiría en,
1
0
1
2 xt
1 xt
2 2
2 A
@ 2 xt
1 2 xt
2 xt
2 2
2
1 xt
1 2 xt
1 xt
1.5
Estimador de Máxima Verosimilitud
Otra estrategia de estimación consiste en utilizar un procedimiento de Máxima
Verosimilitud, lo que requiere establecer un determinado supuesto acerca del
tipo de distribución que sigue el término de error (innovación) del modelo. El
estimador resultante es e…ciente supuesto que la hipótesis acerca del tipo de
distribución sea correcta. En el caso de que supongamos que ut N (0; 2u ), la
función de verosimiltud es,
"
#
T
T =2
1
1 X
2
2
L( ; u ) =
exp
(yt f (xt ; ))
2 2u
2 2u t=1
y su logaritmo,
ln L( ;
2
u)
=
T
ln 2
2
T
ln
2
17
2
u
2
T
1 X
2
u t=1
(yt
2
f (xt ; ))
cuyo gradiente, de dimensión k + 1 hay que igualar a 0k+1 para obtener la
estimación de Máxima Verosimilitud. Su matriz de covarianzas es la inversa de
la matriz de información,
V ar ^ M V
= I( ;
2
u)
1
=
1
@ 2 ln L( )
E
@2
=
"
T
X
@ 2 ln lt ( )
E
@2
t=1
#
1
donde = ; 2u y ln lt ( ) denota el logaritmo de la función de densidad
correspondiente a un período de tiempo.
Es fácil probar que esta matriz es diagonal a bloques, en y 2u ; por lo que
la estimación del vector y del parámetro 2u son independientes, siendo por
tanto, estadísticamente e…ciente llevarlas a cabo por separado.
En el aso del modelo exponencial:
ln L(yt ; xt ; ;
2
u)
=
T
ln 2
2
T
ln
2
2
u
2
T
1 X
2
u t=1
yt
( +
1e
2 xt
)
2
tendremos el conocido resultado de que la elección de valores numéricos
para los componentes de que maximiza la función de verosimilitud resultante
coinciden con los valores numéricos que minimizan la suma de cuadrados de los
errores de estimación.
En este procedimiento, sin embargo, a diferencia de la estimación por Mínimos Cuadrados, consideramos la estimación de la varianza del término de error,
2
u ; simultáneamente con la de los parámetros que componen el vector : La
ecuación de optimalidad correspondiente nos dirá, como también es habitual,
que la estimación de máxima verosimilitud de dicho parámetro se obtiene dividiendo por T la suma de cuadrados de los residuos que resultan al utilizar las
estimaciones de máxima verosimilitud de los parámetros que entran en :
Si queremos maximizar el logaritmo de la función de verosimilitud, tendremos F ( ) = ln L( ; 2u ) y el algoritmo Newton-Raphson es,
^n = ^n
1
1
@ 2 ln L( )
@ @ 0
:
=^n
1
@ ln L( )
@
=^n
1
y el estimador resultante es asintóticamente insesgado, con distribución Normal y matriz de covarianzas,
@ 2 ln L( )
@ @ 0
V ar ^n =
1
=^n
El algoritmo conocido como quadratic hill-climbing consiste en sustituir en
cada iteración la matriz hessiana por,
r2 F ^n
1
18
+ Ik
de modo que sea siempre de…nida positiva. Cuando esta corrección se introduce en el algoritmo de Gauss-Newton, se tiene el algoritmo de Marquardt.
El algoritmo de scoring consiste en sustituir la matriz hessiana del logaritmo
de la verosimilitud, por su esperanza matemática, la matriz de información
cambiada de signo, lo que simpli…ca mucho su expresión analítica y, por tanto,
los cálculos a efectuar en cada etapa del algoritmo,
!
T
h
i 1
X
@ ln lt ( )
^n = ^n 1 + I(^n 1 )
:
@
=^n 1
^
t=1
=
n
1
y la matriz de covarianzas del estimador resultante es, por supuesto, la inversa de la matriz de información.
El algoritmo de Gauss-Newton, aplicado a la estimación por máxima verosimilitud, es,
^n = ^n
1
+
"
T
X
t=1
0
@ ln lt ( )
@
@ ln lt ( )
@
#
1
=^n
1
T
X
@ ln lt ( )
:
@
t=1
!
=^n
1
En este caso, el algoritmo Gauss-Newton está justi…cado por la conocida
propiedad teórica de la función de verosimilitud,
#
"
1
0
@ ln L( )
@ 2 ln L( )
@ ln L( )
=
E
E
@
@
@2
En el caso del modelo exponencial, el gradiente de la función logaritmo de
la verosimilitud es,
1
0 PT
^t
t=1 u
P
T
C
e 2 xt u
^t
1 B
C
B
r ln L(yt ; xt ; ; 2u ) = 2 B PTt=1
C
2 xt u
^
A
t
u @
t=1 1 xt e
P
T
1
2
u
^
+
2
2
2
t
2
2( )
u
u
y la matriz hessiana es,
H=
0
1
T B
e 2 xt
1 XB
B
B
2
2 xt
u t=1 @
1 xt e
PT
1
2
u
t=1
2 xt
e
e2
u
^t
2 xt
2 2 xt
1 xt e
PT
1
2
t=1
u
e
2 xt
u
^t
2 xt
1 xt e
2 2 xt
1 xt e
2 2 2 2 xt
1 xt e
PT
1
2
t=1
u
1
1 xt e
2 xt
u
^t
Al tomar esperanza matemática en los elementos de la matriz hessiana y
cambiar su signo, obtenemos la matriz de información, que tendrá ceros en la
última …la y columna, correspondientes a la estimación de 2u ; excepto en su
elemento diagonal.
19
PT
u
^t
Pt=1
T
1
e 2 xt u
^t
2
u Pt=1
T
1
2 xt u
x
e
^t
2
t=1 1 t
u
P 2
T
1
u
^t
2( 2u )2
( 2u )3
2
u
1
C
C
C
C
A
I
;
2
u
0
1
T
e 2 xt
1 XB
B
= 2
@ 1 xt e
u t=1
0
2 xt
e 2 xt
e2 2 xt
2
1 xt e
0
2 xt
1 xt e
2
1 xt e
2 2 2
1 xt e
2 xt
0
2 xt
2 xt
1
0
0
0
T
2(
2 )2
u
C
C
A
que demuestra que el estimador de máxima verosimilitud de dicho modelo es
estadísticamente independiente de los estimadores de los restantes parámetros,
lo que no sucede con los estimadores de máxima verosimilitud de estos entre sí,
que tienen covarianzas no nulas.
1.6
Criterios de convergencia
Antes de ello, vamos a establecer criterios de convergencia: decimos que el algoritmo iterativo anterior ha convergido, y detenemos el procedimeitno numérico
de estimación, cuando se cumple alguna de las siguientes condiciones:
el valor numérico de la función objetivo varía menos que un cierto umbral
previamente establecido al pasar de una estimación ^n 1 , a la siguiente,
^n ;
el gradiente de la función objetivo, evaluado en la nueva estimación, rF ^n ;
es pequeño, en el sentido de tener una norma reducida. Para comprobar el
cumplimiento de esta condición, puede utilizarse la norma euclídea: raiz
cuadrada de la suma de los cuadrados de los valores numéricos de cada
componente del gradiente, o puede utilizarse el valor numérico de cualquier
forma cuadrática calculada con el vector gradiente y una matriz de…nida
positiva.
la variación en el vector de estimaciones es inferior a un umbral previamente establecido. Para comprobar esta condición utilizaríamos una
norma del vector diferencia ^n ^n 1 ;
se ha alcanzado el máximo número de iteraciones establecido en el programa de cálculo numérico que lleva a cabo la actualización de estimaciones descrita en (??) : Esto se hace con el objeto de que el programa
de estimación no continúe iterando durante un largo período de tiempo,
especialmente, si no está mejorando signi…cativamente la situación de estimación.
El programa de estimación puede diseñarse para que se detenga cuando se
cumple uno cualquiera de estos criterios, o todos ellos. Es importante puntualizar, por tanto, que al estimar mediante un algoritmo numérico, el investigador
puede controlar: i ) las estimaciones iniciales, ii ) el máximo número de iteraciones a efectuar, y iii ) el tamaño del gradiente, iv ) la variación en el vector
de parámetros y v ) el cambio en el valor numérico de la función objetivo por
20
debajo de los cuales se detiene la estimación. Cuando se utiliza una rutina
proporcionada por una librería en un determinado lenguaje, dicha rutina incorpora valores numéricos para todos los criterios señalados, que pueden no ser
los que el investigador preferiría, por lo que es muy conveniente poder variar
dichos parámetros en la rutina utilizada. Alternativamente, lo que es mucho
más conveniente, el investigador puede optar por escribir su propio programa
de estimación numérica.
Estos aspectos afectan asimismo a la presentación de los resultados obtenidos
a partir de un esquema de estimación numérica: como generalmente no sabemos
si hemos alcanzado un óptimo local o global, esto debe examinarse volviendo
a repetir el ejercicio de estimación a partir de condiciones inniciales sustancialmente diferentes de las utilizadas en primer lugar, con objeto de ver si se
produce la convergencia, y cual es el valor de la función objetivo en dicho punto.
Conviene repetir esta prueba varias veces. Asimismo, cuando se presentan estimaciones, deberían acompañarse de la norma del graidnet en dicho punto, así
como de los umbrales utilizados para detener el proceso de estimación, tanto
en términos del vector gradiente, como de los cambios en el vector de estimaciones, o en el valor numérico de la función objetivo, como hemos explicado en
el párrafo anterior.
1.7
Di…cultades prácticas en el algoritmo iterativo de estimación
Cuando se utilizan algoritmos numéricos para la maximización de la función de verosimilitud es frecuente encontrar situaciones en las que el algoritmo numérico encuentra di…cultades para encontrar una solución al
problema de optimización. Es muy importante que, en todos los casos en
que la rutina de estimación o de optimización se detenga, examinemos cuál
es el criterio de parada que ha actuado. Cuando el programa se ha escrito
de modo que se detenga cuando se cumple alguno de los criterios antes
señalados, conviene incluir en el programa un mensjae que haga explícito
cuál de los criterios ha conducido a su parada, de modo que reduzcamos
el umbral asociado a dicho criterio.
Si la razón es que se ha excedido el máximo número de iteraciones propuesto en el programa, siempre se debe volver a ejecutar dicho programa.
En la mayoría de los casos, es razonable elevar el número máximo de iteraciones y, posiblemente, comenzar a partir del vector de parámetros en
el que se haya detenido.
En ocasiones la rutina numérica itera un número reducido de veces y,
sin exceder del máximo número de iteraciones, se detiene en un punto
muy próximo al que hemos utilizado como condiciones iniciales. Esto
puede deberse a que los umbrales de parada que hemos seleccionado, o
que están escritos como valores por defecto en la rutina que implemente el
algoritmo numérico son demasiado grandes. Así, en los primeros cálculos,
21
los cambios en las estimaciones o en el valor de la función objetivo son
inferiores a dichos umbrales, y el algoritmo se detiene. Deben reducirse
dichos umbrales y volver a estimar.
Si el programa se detiene sin exceder el máximo número de iteraciones,
es importante comparar los valores paramétricos en los que se detiene,
con los que se utilizaron como condiciones iniciales. Esta comparación
que, lamentablemente, no suele efectuarse, muestra frecuentemente que
en alguno de los parámetros el algoritmo no se ha movido de la condición
inicial. Salvo que tengamos razones sólidas para creer que dicha condición
inicial era ya buena, esto signi…ca que, o bien el algoritmo está teniendo
di…cultades para encontrar en que sentido mover en la dirección de dicho parámetro para mejorar el valor numérico de la función objetivo, o
no ha tenido su…ciente posibilidad de iterar en esa dirección, dadas las
di…cultades que encuentra en otras direcciones (o parámetros). En estos
casos quizá conviene ampliar el número máximo de iteraciones, y quizá
también reducir la tolerancia del algoritmo (la variación en o en F que
se ha programado como criterio de parada), para evitar que el algoritmo
se detenga demasiado pronto.
Todo esto no es sino re‡ejo, en general, de un exceso de parametrización,
que conduce a que la super…cie que representa la función objetivo, como
función de los parámetros, sea plana en algunas direcciones (o parámetros). Esto hace que sea di…cil identi…car los valores numéricos de cada
uno de los parámetros del modelo por separado de los demás, por lo que el
algoritmo encuentra di…cultades en hallar una dirección de búsqueda en la
que mejore el valor numérico de la función objetivo. Una variación, incluso
si es de magnitud apreciable, en la dirección de casi cualquier parametro,
apenas varía el valor numérico de la función objetivo. Por eso, el algoritmo
no encuentra un modo de variar los valores paramétricos de modo que la
función objetivo cambie por encima de la tolerancia que hemos …jado, y
se detiene. En estos casos, el gradiente va a ser también muy pequeño,
que puede ser otro motivo por el que el algoritmo se detenga. De hecho,
la función objetivo varía de modo similar (poco, en todo caso) tanto si
el algoritmo varía uno como si cambia varios parámetros, que es lo que
genera el problema de identi…cación, similar al que se obtiene en el modelo lineal general cuando existe colinealidad entre alguna de las variables
explicativas. Las di…cultades en la convergencia del algoritmo producidas
por una excesiva sobreparametrización del modelo se re‡ejan en unas elevadas correlaciones de los parámetros estimados. Como en cualquier otro
problema de estimación, conviene examinar no sólo las varianzas de los
parámetros estimados, sino también las correlaciones entre ellos.
Otra di…cultad puede presentarse en la forma de cambios muy bruscos
en el estimador. Ello se corrige introduciendo en el algoritmo (??) un
parámetro que se conoce como longitud de salto,
22
= ^0
h
r2 F ^0
i
1
rF ^0
(10)
Hay que tener en cuenta que posiblemente esté incorporado en el programa
una determinada magnitud para , que el investigador puede alterar cuando
observe cambios bruscos en el vector de parámetros.
1.8
Estimación condicionada y precisión en la estimación
Para tratar estas situaciones, cuando se identi…can uno o dos parámetros altamente correlacionados con los demás, puede llevarse a cabo una estimación
condicionada, …jando valores alternativos de dichos parámetros a lo largo de
una red, maximizando la verosimilitud respecto de los demás, y comparando
resultados para alcanzar el máximo absoluto. En otras ocasiones, sin necesidad
de incurrir en di…cultades numéricas, se aprecia que imponer un valor unmérico
para uno o dos parámetros simpli…ca enormemente la estructura del modelo a
estimar, por ejemplo, haciéndola linear. Si este es el caso, puede establecerse
una red de búsqueda en dichos parámetros y, para cada uno de ellos, estimar
el modelo lineal resultante. Se resuelve así un conjunto de muchos problemas
simples, frente a la alternativa de resolver un único problema complicado que
es, en ocasiones, mucho más difícil.
Una limitación de esta estrategia de estimación, que tantas veces simpli…ca
el problema computacional, es que no nos proporciona una estimación de la varianza para el parámetro o los parámetros sobre los que se ha hecho la estimación
condicional. Según cuál sea el grado de simpli…cación alcanzado, podríamos no
tener varianzas para ninguno de los parámetros. Esto sugiere una cuestión aún
más profunda, acerca del signi…cado real de las varianzas proporcionadas por
el problema de estimación. En realidad, lo que el investigador quiere tener es
una medida del grado de precisión obtenido en su estimación, y ello bien puede
depender del objetivo …nal de la estimación del modelo. Por ejemplo, consideremos el habitual problema de calcular la volatilidad implícita de una opción.
Obtener las sensibilidades de la respuesta a dicha pregunta a variaciones en el
valor de alguno de los parámetros que se …ja equivale a determinar un rango de
con…anza para el parámetro que se estima.
Consideremos que el subyacente de una opción call cotiza a 100, que el precio
de ejercicio de la misma es 95, el tipo de interés, supuesto constante hasta el
vencimiento, es 7,5%, el plazo residual es 3 meses, y el precio de la opción es de
10. La inversión de la fórmula de Black Scholes (BS) proporciona una volatilidad
de 31,3%. Este no es un problema estadístico, y no se ha llevado a cabo ningún
proceso de muestreo. Sin embargo, el usuario que conoce la limitación del
modelo BS por los supuestos que incorpora, puede estar dispuesto a aceptar un
rango de valores de volatilidad que no generen un precio teórico que se separe
en más de 0,25 del precio observado en el mercado. Ello le llevará a considerar
un rango de volatilidades entre 29,8% y 32,7%.
La misma idea puede aplicarse en un problema de estimación para evaluar
la precisión con que se ha estimado un determinado parámetro. En función de
23
la utilidad que se vaya a dar al modelo, el usuario puede determinar que está
dispuesto a aceptar variaciones de hasta un 1% alrededor del valor de la función
objetivo que ha obtenido en su estimación. Se trata entonces de perturbar el
valor numérico del parámetro cuya precisión se quiere medir, y estimar condicionando en dicho valor mientras que el valor resultante para la función objetivo
satisfaga la condición pre…jada. Se obtiene así numericamente, un intervalo de
con…anza alrededor de la estimación inicialmente obtenida. En principio, esta
región no tiene por qué coincidir con la tradicional región de con…anza. Puede
resultar extraño hablar de regiones de con…anza paramétricas en el caso del
cálculo de la volatilidad implícita pues, como hemos dicho, no es realmente un
problema estadístico. Existe un razonamiento distinto del anterior, con más
base estadística que conduce asimismo a una región de con…anza paramétrica.
Para ello, consideremos que el usuario de la expresión BS, consciente de que
el tipo de interés relevante no va a permanecer constante hasta vencimiento,
y desconociendo su evolución establece un conjunto de posibles escenarios de
evolución de los tipos, cada uno acompañado de una probabilidad que recoge
la mayor o menor verosimilitud asignada a dicho escenario, e identi…ca cada
escenario con distintos niveles constantes del tipo de interés. Calculando la
volatilidad implícita para cada nivel de tipos de interés considerado, mientras
se mantienen constantes los restantes parámetros, generaríamos una distribución de probabilidad para la volatilidad implícita. Por supuesto, este argumento
se puede generalizar el caso en que la incertidumbre a priori se recoge en la forma
de una distribución de probabilidad multivariante para el vector de parámetros
sobre los que se condiciona en el proceso de estimación.
1.9
1.9.1
Algunos modelos típicos
Estimación de modelos MA(q)
Una aplicación interesante de este procedimiento consiste en la estimación de
estructuras de medias móviles en modelos lineales de series temporales.
Modelo MA(1) Consideremos un modelo MA(1),
yt = " t
"t
1
El modelo es de la forma: yt = f (xt ; ) + ut ;con = ; f (xt ; )
"t 1
0
t; )
=
"
;
por
lo
que,
siendo
una
estimación
y ut "t ;de modo que: @f (x
t 1
@
inicial del parámetro del modelo, podemos escribir la erxpresión genérica para
0
t; )
t; )
la aproximación lineal yt f (xt ; 0 ) + @f (x
= @f (x
+ "t ;
@
@
0
0
=
para este modelo particular, obteniendo:
24
=
yt
f (xt ;
0
)+
@f (xt ; )
@
@f (xt ; )
@
0
=
+ "t
=
0
= yt +
"t
0
1
"t
1
= yt = "0t
0 0
"t 1
0
"0t
=
1
+ "t ;
0
lo que nos lleva a:
0 0
"t 1
"0t
"0t
=
1
+ "t
que conduce a estimar el modelo lineal de regresión,
wt = x1t + "t
donde,
wt
x1t
= "0t
= "0t
0 0
"t 1
1
Pero el término de error "0t no es observable, por lo que utilizamos la propia
expresión del modelo M A(1), escrito en la forma,
"t = yt +
para generar la serie temporal
"01
"02
"03
"04
"0t ; t
= 0;
= y2 +
= y3 +
0 0
"1
0 0
"2
= y4 +
0 0
"3
0
"t
1
= 2; ::::T; mediante:
= y2 ;
= y3 +
= y4 +
0
y2
0
y3 +
0 2
y2
y así sucesivamente. Ahora podemos generar series temporales para las
variables del modelo, wt y x1t a partir de la serie temporal de "0t :
Nótese que en este caso, la estimación de la regresión auxiliar wt = x1t + "t
nos proporciona el valor numérico del estimador del parámetro ; no la corrección
a introducir en una pre-estimación. Pero el procedimiento es iterativo, pues las
series temporales de "0t ; wt ; x1t ; dependen del valor numérico que se considere
para el parámetro :
Modelo MA(2) Como ejemplo, consideremos un modelo MA(2),
yt = "t
1 "t 1
que puede aproximarse linealmente por,
25
2 "t 2
"t ' "0t +
0
@"t
@ 1
0
1
1
+
=
@"t
@ 2
0
2
2
0
=
0
0 0
1; 2
siendo
=
una estimación inicial de los parámetros del modelo.
En este modelo se tiene,
@"t
= "t
@ 1
@"t
= "t
@ 2
1;
2
por lo que podemos escribir la aproximación anterior como,
@"t
@ 1
0
1
"0t
0
2
=
0
@"t
@ 2
=
=
1
0
@"t
@ 1
@"t
@ 2
2
=
0
+ "t
=
0
es decir,
"0t
0 0
1 "t 1
0 0
2 "t 2
0
1 "t 1
=
0
2 "t 2
+ "t
que conduce a estimar el modelo lineal de regresión,
wt =
1 x1t
+
2 x2t
+ "t
donde,
wt
x1t
x2t
= "0t
= "0t
= "0t
0 0
1 "t 1
0 0
2 "t 2
1
2
Para obtener los errores en este caso, se …jan los 2 primeros igual a su
esperanza matemática, cero, y se utiliza la propia expresión del modelo M A(2),
escrito en la forma,
"t = yt +
0
1 "t 1
+
0
2 "t 2
para generar la serie temporal "0t ; t = 1; 2; ::::T:
1.10
1.10.1
Estimación por Máxima Verosimilitud de modelos
dinámicos
Modelo AR(1), sin autocorrelación
Encuentre las expresiones analíticas del estimador de Máxima Verosimilitud y
de su matriz de varianzas y covarianzas, en el modelo AR(1):
yt
E"t
=
=
+ yt 1 + "t ; t = 1; 2; :::
0; E("t "t s ) = 0 8s 6= 0; E("2t ) =
26
2
La distribución de probabilidad de yt condicional en su propio pasado es
N
+ yt 1 ; 2 : Es decir, una vez observado el valor numérico de yt ; el
valor esperado de yt+1 es + yt ; y la varianza de los posibles valores de yt+1
alrededor de + yt es 2 : Como puede apreciarse, la esperanza condicional es
una variable aleatoria, tomando valores numéricos cambiantes en el tiempo. La
varianza condicional de yt es igual a la varianza de la innovación, 2 ; re‡ejando
el hecho de que es ésta la única fuente de error en la predicción del valor de yt
un período hacia adelante.
Esto es válido para todo t
2: Son embargo, para t = 1 no podemos
condicionar y1 en ningún valor previo, por lo que no podemos hablar de su
distribución condicional. La distribución marginal, absoluta o incondicional
2
de y1 es N 1 ; 1 2 ; es decir, que si no contamos con ninguna observación
previa, el valor esperado de y1 es 1 ; y la dispersión esperada alrededor de dicho
2
valor es de 1 2 ; mayor de la que tendríamos si dispusiésemos de la observación
del período anterior. Nótese que: E (Et 1 yt ) = E( + yt 1 ) = + Eyt 1 ;
pero Eyt 1 = 1 ; por lo que: E (Et 1 yt ) = + 1
= 1
= Eyt , lo cual
no hace sino comprobar que se cumple en este ejemplo concreto, la conocida
propiedad: Eyt = E (Et 1 yt ) :
La función de verosimilitud muestral puede escribirse:
L(y1 ; y2 ; :::; yT ) = L(y1 )L(y2 =y1 )L(y3 =y2 ):::L(yT =yT
1)
de modo que,
ln L =
ln(y1 ) +
T
X
ln L(yt =yt
1)
=
2
=
T
1
2
2
"
1
ln
2 1
1
ln 2
2
ln
2
"
2
2
T
1 X
2
"
2
2
1
2
(yt
y1
2
"
yt
1
!
T
1
2
ln 2
2
1)
2
El problema de maximización de esta función se simpli…ca si ignoramos los
primeros términos, que proceden de la distribución marginal de y1 , L(y1 ); y
consideramos:
ln L =
T
1
2
ln 2
T
1
2
ln
2
"
2
T
1 X
2
"
(yt
yt
2
1)
(11)
2
que es la función de verosimilitud condicionada en el valor numérico de y1 ;
frente a la anterior, que era la función de verosimilitud exacta. Las condiciones
de maximización de esta función de verosimilitud condicionada, que resultan de
igualar a cero su gradiente, son,
27
@ ln L
@
=
@ ln L
@
=
@ ln L
@ 2"
=
T
1 X
2
"
(yt
yt
2
T
1 X
2
"
(yt
yt
1 )yt
1 1
2
"
2
1
2(
2 )2
"
+
1
2(
T
X
2 )2
"
2
"
T
X
T
X
u
^t = 0
2
=0)
1
2
T
=
1) = 0 )
T
X
u
^ t yt
yt
2
1)
1
=0
2
(yt
T
=
1 1
2
"
2
2
+
1
2(
2 )2
"
T
X
2
u
^t 2 = 0
2
donde hemos utilizado el hecho de que, para estimaciones numéricas de
y ; la diferencia yt
yt 1 es igual al residuo, u
^t : Vemos, por tanto, que
las estimaciones de máxima verosimilitud condicionada de y son aquellos
valores numéricos que generan unos residuos de suma cero, a la vez que están
incorrelacionados con yt 1 : Ello signi…ca que son residuos con correlación nula
con las dos variables explicativas del modelo, (1; yt 1 ) y coincide, en consecuencia, con el estimador de mínimos cuadrados ordinarios del modelo AR(1), que
utilizaría datos desde t = 2 hasta T .
Por otra parte, la tercera ecuación nos proporciona el estimador de máxima
verosimilitud condicionada de 2" :
^ 2"
=
PT
u
^t 2
T 1
2
ligeramente diferente
del estimador de mínimos cuadrados del model AR(1),
P
T
u
^
2
que habría sido: ^ 2" = T2 2t :
Si sustituimos la expresión de ^ 2" en (11) ; tenemos:
ln L
=
=
T
1
2
T
ln 2
1
2
T
ln 2 +
1
2
ln
T
X
u
^t 2 +
2
T
1
2
ln(T
1)
T
1
2
T
ln(T
1
2
1)
T
1
2
T
T 1 X 2
u
^t =
PT 2
2 2u
^t 2
ln
T
X
u
^t 2
2
que se conoce como función de verosimilitud condicional concentrada, y que
muestra que maximizarPln L equivale, claramente, a minimizar la suma de
T
cuadrados de residuos, 2 u
^t 2 :
La matriz de información del estimador de máxima verosimilitud es la inversa de la matriz de información, para lo que hemos de obtener las derivadas
segundas,
28
u
^t 2
@ 2 ln L
@ 2
@ 2 ln L
@ 2
@ 2 ln L
@(
2 )2
"
T
1 X
=
2
"
1
=
=
@ 2 ln L
@ @
=
@ 2 ln L
@ @ 2"
=
@ 2 ln L
@ @ 2"
=
2
"
T
1
1
(
2 )2
"
2 )3
"
T
X
yt
2 )2
"
1
(
(
)E
1
2
1
(
@ 2 ln L
@ 2
)E
2
2
2
"
yt2 1
2 )2
"
T
X
2
T
X
u
^t ) E
u
^ t yt
1
2
"
2
T
X
1
1
T
( 1) =
1
2
T
X
2
T
=
2
"
@ 2 ln L
u
^t 2 ) E
@ 2 ln L
@ @
=
@ 2 ln L
@ @ 2"
=0
@ 2 ln L
@ @ 2"
)E
@(
2 )2
"
T
1
2
"
2
2
"
1
1
!
2
=
+
2
(1
T
1
(
2 )2
"
)
!
1
=0
donde, para obtener la esperanza matemática en la última línea, hemos
utilizado:
E
"
1
@ 2 ln L
= E Et 1
=
2 E Et
@ @ 2"
( 2" )
" T
#
X
1
=
yt 1 (Et 1 u
^t ) = 0
2E
( 2" )
2
@ 2 ln L
@ @ 2"
T
X
1
u
^ t yt
1
2
!#
=
por lo que,
0
1
^
@ ^ A
^ 2"
0
B
NB
@
;
2
"
2
"
T
1
0
B
@
1
1
1
1
0
0
1
0
2
"
2
+
2
(1
)2
0
1
2
2
"
C
A
1
1
C
C
A
donde la matriz de varianzas y covarianzas debería evaluarse en los estimaciones de máxima verosimilitud obtenidas para los tres parámetros del modelo.
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría
que iterar mediante,
^n = ^n
0
T 1
B PT y
+
@
1
PT2 t
^t
2 u
1
PT
y
PT2 t2 1
y
PT2 t 1
^ t yt
2 u
1
PT
u
^
P2T t
u
t yt
2 ^P
T
1
(
29
2 )3
"
2
1
2
"
u
^t 2
1
C
A
1
0 PT
^t
2 u
B PT
u
yt 1
@
2 ^tP
T
1
2
2
"
2
2
"
u
^2t
1
C
A
donde denota el vector de parámetros, =
; ; 2" ; mientras que el
algoritmo de scoring, más sencillo, aproxima el hessiano del logaritmo de la
función de verosimilitud por la matriz de información,
^n = ^n
1+
1
T
1
0
B
@
1
1
1
1
0
0
1
0
2
"
2
+
2
(1
)2
0
1
2
2
"
1
C
A
0 PT
^t
2 u
B PT
u
yt 1
@
2 ^tP
T
1
2
2
"
2
2
"
u
^2t
1
C
A
y el algoritmo de Gauss-Newton, que no requiere calcular segundas derivadas,
pero incurre en un mayor error de aproximación numérico, consistiría en:
^n
= ^n
0 PT 2
u
^t
P2T 2
2B
^ t yt
1+ "@
2 u
PT
1
0 PT
^t
2 u
B PT
u
yt 1
:@
2 ^tP
T
1
2
1.10.2
2
"
2
2
"
2
2
"
2
u
^2t
PT
1
u
^t
1
u
^2t
2
"
C
A
u
^2t yt 1
P2T 2 2
^ t yt 1
2 u
PT
1
^ t yt 1
2 u
2 2"
1
2
"
u
^2t
Modelo constante, con autocorrelación
Encuentre las expresiones analíticas del estimador de Máxima Verosimilitud y
de su matriz de varianzas y covarianzas, en el modelo constante con autocorrelación:
yt
ut
=
=
+ ut ; t = 1; 2; :::;
ut 1 + "t = 0 E"t = 0; E ("t "s ) = 0; 8s 6= 0; E("2t ) =
2
"
El modelo puede escribirse en función de la innovación del mismo,
yt =
(1
) + yt
1
+ "t
que muestra que, dado yt 1 ; la distribución de probabilidad de yt condicional
en su propio pasado es N
(1
) + yt 1 ; 2" : Es decir, una vez observado
el valor numérico de yt ; el valor esperado de yt+1 es (1
) + yt 1 ; y la
varianza de los posibles valores de yt+1 alrededor de dicho valor esperado es 2" :
La esperanza condicional es una variable aleatoria, tomando valores numéricos
cambiantes en el tiempo. La varianza condicional de yt es igual a la varianza de
la innovación, 2" ; re‡ejando el hecho de que es ésta la única fuente de error en
la predicción del valor de yt un período hacia adelante.
Esto es válido para todo t
2: Son embargo, para t = 1 no podemos
condicionar y1 en ningún valor previo, por lo que no podemos hablar de su
distribución condicional. La distribución marginal, absoluta o incondicional de
2
y1 es N
; 1 " 2 ; es decir, que si no contamos con ninguna observación previa,
30
PT
^2t
^t 2" u
2 u
P
T
1
^t yt 1 2"
2 u
2 2"
P
2
T
1
2
u
^2t
"
2
4 2"
2
2
"
u
^2t
1
C
A
1
:
el valor esperado de y1 es
; y la dispersión esperada alrededor de dicho valor
1
2
"
es de 1 2 ; mayor de la que tendríamos si dispusiésemos de la observación del
período anterior.
La función de verosimilitud muestral puede escribirse:
L(y1 ; y2 ; :::; yT ) = L(y1 )L(y2 =y1 )L(y3 =y2 ):::L(yT =yT
1)
de modo que,
ln L =
ln(y1 ) +
T
X
ln L(yt =yt
1)
=
2
=
=
1
ln 2
2
1
ln
2
T
ln 2
2
T
ln
2
2
u
2
"
1
2
T
y2
2 1
1
2
u
1
ln(1
2
2
T
ln 2
2
2
1
)
1
2
2
"
2
"
ln
2
2
(y1
)
2
T
1 X
2
"
T
1 X
2
"
(yt
(1
)
yt
2
(yt
(1
)
yt
2
donde hemos utilizado el hecho de que la distribución incondicional de y1 es
N (0; 2u ):
Esta función de verosimilitud es similar, pero no idéntica, a la que llegaríamos
estableciendo la hipótesis de Normalidad directamente sobre la innovación del
modelo, "t : En efecto, si "t i.,i.d., N (0; 2" ); tendríamos:
ln L =
=
T
ln 2
2
T
ln
2
2
"
T
ln 2
2
T
ln
2
2
"
2
T
1 X
1
2
2
"
2
"
"2t =
1
[y1
(1
2
)
y0 ]
2
T
1 X
2
"
(yt
(1
2
en la que y0 ; no observable, sería un parámetro más a estimar. Utilizando
la representación de la innovación del modelo: "t = yt
(1
) + yt 1 ; las
condiciones de optimalidad serían,
@ ln L
@
=
@ ln L
@
=
@ ln L
@ 2"
=
1
2
"
1
2
"
"
"
(y1
(y1
(1
) + y0 ) +
T
X
"t = 0
2
(1
)
y0 ) (y0
#
)+
T
X
"t (yt
1
2
T
X
T 1
1
+
(yt
2
2 2"
2 ( 2" ) 2
(1
) + yt
2
1)
#
) =0
=0
Una vez más, calcularemos el estimador de Máxima Verosimilitud condicional en la primera observación, que tomaremos como dada.
31
2
1)
)
yt
2
1)
2
1)
=
ln L
T
=
1
2
T
=
1
2
T
ln 2
1
2
T
ln 2
1
2
ln
ln
2
"
2
T
1 X
1
2
"
2
"
"2t =
2
T
X
(yt
2
2
"
1)
=0)
(1
)
2
1)
yt
2
con condiciones de optimalidad:
@ ln L
@
=
@ ln L
@
=
@ ln L
@ 2"
=
=
T
X
1
2
"
(yt
(1
)
yt
2
T
1 X
2
"
(yt
(1
)
yt
1 ) (yt 1
1 1
2
"
2
1
2(
2 )2
"
+
T
X
2
(
1
2(
2
"
2 )2
"
T
X
(yt
(1
)
=
PT
2
"2t ) = 0 )
2
"
"t = 0
2
)=0)
2
T
T
X
2
T
yt
T
X
2
1)
"t (yt
1
)=0
2
=
"2t
1
Las dos primeras condiciones muestran que el estimador de MV condicionada puede obtenerse estimando por Mínimos Cuadrados Ordinarios el modelo: yt = 0 + 1 yt 1 + "t ; pues las estimaciones numéricas resultantes generarían residuos ^"t con suma cero, e incorrelacionados con la variable explicativa
de dicha regresión, yt 1 ; satisfaciendo así las dos primeras de las condiciones
de optimalidad anteriores. Posteriormente, la estimación de 2" se obtendría
a partir de la tercera condición. Una vez estimado el modelo, los parámetros
del modelo original se obtendrían mediante las condiciones de identi…cación:
^
^ = ^ 1 ; ^ = 1 0^ : Como sabemos, la estimación de mínimos cuadrados puede
1
efectuarse, excepto para el término constante, estimando el modelo en desviaciones respecto de la media: y~t = 1 y~t 1 + "t ; en el que una vez estimado ^ 1 ;
que resultaría numéricamente igual a la estimación en el modelo que incluye
un término constante, tendríamos: ^ 0 = y ^ 1 y: Finalmente, recuperaríamos
^ y ^ a partir de las expresiones previas. Como Ey = ; esperararímos que
^
y ' ; por lo que la expresión ^ = 1 0^ debe proporcionar un buen estimador
1
del término independiente.
La matriz de información del estimador de máxima verosimilitud es la inversa de la matriz de información, para cuyo calculo hemos de obtener la esperana matemática de los elementos del hessiano de la función logaritmo de la
verosimilitud condicionada,
32
@ 2 ln L
@ 2
@ 2 ln L
@ 2
@ 2 ln L
@(
2 )2
"
=
E
@ ln L
@ @
=
@ 2 ln L
@ @ 2"
=
@ 2 ln L
@ @ 2"
=
1
2
"
2
"
T
)2
(1
T
1 X
=
2
@ 2 ln L
@ @ 2"
T
=
T
1 X
1 1
1
2
"
) )E
1
2
4
"
2
T
X
6
"
[(yt
2
T
X
4
"
2
T
1 X
4
"
= E Et
"t ) E
"t (yt
1
2
1
2
"t ) E
) (1
1
2
1
@ 2 ln L
@ 2
2
(yt
@ 2 ln L
@ @ 2"
=
@ 2 ln L
@(
2 )2
"
!
))E
"
1
2
"
=
T
2
2
u
1
4
"
@ 2 ln L
@ @
) + "t ] ) E
@ 2 ln L
@ @ 2"
T
=0
=0
@ 2 ln L
@ @ 2"
= E Et
1
=0
T
X
2
"t u t
1
!#
=0
donde en la última igualdad hemos utilizado el hecho de que ut 1 depende
de "t 1 ; "t 2 ; "t 3 ; :::, pero no de "t ni de sus valores futuros.
Por tanto,
0
0
1 11
0
1
2
(1
)
0
0
^
2
B
2
B
C C
"
"
@
A NB
;
0 A C
@ 0
2
A
@
1
T 1
2
1
^ 2"
0
0
"
2
"
donde la matriz de varianzas y covarianzas debería evaluarse en los estimaciones de máxima verosimilitud obtenidas para los tres parámetros del modelo.
La estructura diagonal de la matriz de información muestra que los estimadores
de los tres parámetros son independientes entre sí. Ello hace que en, este modelo, una estimación condicional que generase estimaciones numéricas de unos
parámetros condicionales en estimaciones de los otros, sería tan e…ciente como
la estimación simultánea de todos ellos.
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría
que iterar mediante,
33
^n
0
PT
(T 1) (1
)2
[u (1
P
P2T 2t 1
B
T
[u
(1
)
+
"
]
u
= ^n 1 + 2" @
t 1
t
2
PT
PT2 t 1
(1
) 2 "t
2 "t u t 1
1
0
PT
(1
) 2 "t
C
B PT
ut 1
:@
A
2 "tP
T
1
2
2
(
"
)
2
"
t
2
2
) + "t ]
PT
(1
) 2 "t
PT
"t ut 1
2P
T 1 2
1
2
"
2
2
"
"t
1
1
C
A
2
:
"
El algoritmo de scoring, más sencillo, aproxima el hessiano del logaritmo de
la función de verosimilitud por la matriz de información,
^n = ^n
0
)2
(1
1 @
0
1+
T 1
0
0
2
u
0
0
0
1
2
2
"
1
1
A
0
PT
(1
) 2 "t
B PT
ut 1
@
2 "tP
T
1
2
2
2( "
2
"
"2t )
1
C ^
A= n
1+
y el algoritmo de Gauss-Newton, con mayor error de aproximación numérico,
consistiría en:
^n
0
PT 2
2 "t
P
B
T
) 2 "2t ut
= ^n 1 + @ (1
PT
1
2
2 "t ( "
2 2"
0
1
PT
(1
) 2 "t
P
B
C
T
ut 1
:@
A
2 "tP
T
1
2
"2t )
2( "
2 2
(1
2
)
1
"2t )
(1
PT
)
PT
2
"2t ut
1
2
2 ("t ut 1 )
P
T
1
2
2 "t ut 1 ( "
2 2"
"2t )
Estimación de Máxima Verosimilitud del modelo AR(1) con
perturbaciones AR(1)
Consideramos en esta sección la estimación de Máxima Verosimilitud y de su matriz de varianzas y covarianzas, del modelo AR(1) con término de error AR(1):
yt
ut
=
=
yt
ut
+ ut ; t = 1; 2; :::
1 + "t = 0 E"t = 0; E("t "t
(12)
1
2
s ) = 0 8s 6= 0; E("t ) =
2
"
donde como se ve, hemos supuesto, por simplicidad, que no hay término
independiente. Bajo el supuesto de que E"t = 0; se tiene: Eyt = Eut = 0: El
cálculo de la varianza de yt es bastante más complejo. Para ello, representamos
Para t 2; el modelo puede escribirse:
yt = ( + ) y t
1
34
yt
2
+ "t
1
B
@
PT
1
2
2 "t ( "
2 2"
P
T
1
"t ut 1 (
2 2"
PT 2 2
1
"2t )2
2( "
4 4"
"
1.10.3
1
T
0
(13)
1
PT
2 "t
PT
C
"t ut 1 A
2
uP 2
T
2
"2t )
2( "
1
1+
1
"2t )
2
"
1
C
"2t ) A
1
:
que es un modelo cuyo término de error no presenta autocorrelación. En consecuencia, la presencia de los retardos de la variable dependiente como variables
explicativas no deteriora las propiedades estadísticas del estimador de mínimos
cuadrados de los parámetros del modelo:
yt =
1 yt 1
+
2 yt 2
+ "t
donde tendríamos únicamente el problema de identi…car o recuperar los
parámetros ; del modelo original a partir de estimaciones de 1 ; 2 : Esto
se debe a que los parámetros ; entran de forma totalmente simétrica en el
modelo transformado (13) de modo que un vez que hubiéramos obtenido una
solución ^ ; ^ del sistema:
+
=
^
=
1
^
2
podríamos intercambiar los valores numéricos de ambos parámetros y tendríamos otra solución. Por tanto, existensiempre dos soluciones, y el modelo se
dice que está subidenti…cado.
Para obtener la expresión analítica de la varianza del proceso (12), utilizamos
(1
) 2
: Como en
el hecho de que la varianza de un proceso AR(2) es (1+ ) (1 2 )"2
2 [
2
1]
nuestro caso, 1 = + ; 2 = ; tenemos:
V ar (yt ) =
(1
h
(1 +
) (1 +
)
2
)
2
( + )
2
"
i
Si dispusiéramos de algún tipo de información adicional acerca de alguna
característica de la distribución de probabilidad de yt ; quizá podríamos identi…car los dos parámetros por separado. Este no es el caso, sin embargo de
que conociéramos, al menos aproximadamente, la relación existente entre las
volatilidades de yt y "t pues, como puede verse en la expresión anterior, dicha
relación debe ser igual al valor numérico de la fracción que en ella aparce, pero
ambos parámetros entran de forma simétrica, por lo que intercambiarlos no altera el valor numérico de la volatilidad relativa de ambas variables. Algo similar
ocurriría para cualquier información relativa al valor numérico de cualquier estadístico de yt ; cuya expresión analítica depende de 1 y 2 ; por lo que y
entran siempre de modo simétrico.
Cuestión distinta sería si dispusiéramos de alguna información acerca de la
2
volatilidad relativa de yt y ut puesto que, como V ar(ut ) = 1 " 2 ; tendríamos:
V ar (yt )
=
V ar(ut )
(1
(1 + ) 1
h
2
) (1 + )
35
2
2
( + )
i
que es distinto para las combinaciones de valores numéricos ^ ; ^ y ^; ^ :
Por ejemplo, si = 0; 6; = 0; 9; tendríamos: V ar (yt ) = 5; 23V ar(ut ); mientras
que si = 0; 9; = 0; 6; tendríamos: V ar (yt ) = 17; 62V ar(ut ):
La función de verosimilitud muestral del proceso (12) puede escribirse:
L(y1 ; y2 ; :::; yT ) = L(y1 ; y2 )L(y3 =y2 ; y1 )L(y4 =y3 ; y2 ):::L(yT =yT
1 ; yT
2)
donde la necesidad de condicionar ahora la función de densidad de cada
observación en los valores numéricos tomados por las dos observaciones previas
es bastante evidente.
Ignorando el primer factor, tenemos la función de verosimilitud condicional
en (y1 ; y2 ); cuyo logaritmo es,
ln L =
ln(y1 ) +
T
X
ln L(yt =yt
1)
=
2
=
=
1
ln 2
2
1
ln
2 1
T
ln 2
2
T
ln
2
2
"
T
1
2
2
"
2
1
ln 1
2
+
1
ln
2
ln 2
2
y12
2
"
2
"
2
2
1
2
2
1
2
"
2
y12
T
1 X
2
"
2
T
1 X
2
"
(yt
yt
2
1)
2
(yt
yt
2
1)
2
El problema de maximización de esta función se simpli…ca si ignoramos los
términos tercero y cuarto, que proceden de la distribución marginal de y1 , L(y1 );
y consideramos:
ln L =
T
X
ln L(yt =yt
1 ; yt 2 )
T
=
2
2
3
ln 2
T
2
2
ln
2
"
2
T
1 X
2
"
(yt ( + ) yt
1+
T
1 X
yt
yt
2
2)
2 ) "t
=0
2
cuyas condiciones de optimalidad son,
@ ln L
@
=
@ ln L
@
=
@ ln L
@ 2"
=
T
1 X
2
"
T
2
( + ) yt
1
+
yt
2 ) (yt 1
yt
2 )]
=
3
T
1 X
2
"
[(yt
(yt
yt
1
2 ) "t
2
"
(yt
1
3
=0
3
2
2
"
+
1
2(
2 )2
"
T
X
(yt
( + ) yt
2
1
+
yt
2
2)
=
T
2
2
2
"
+
1
2(
Por tanto, las estimaciones de Máxima Verosimilitud Condicionada de y
son aquellos valores numéricos que generan unos residuos incorrelacionados
36
2 )2
"
T
X
2
"t 2 = 0
=
simultáneamente con yt 1
yt 2 y y t 1
yt 2 ; lo que vuelve a mostrar la
simetría existente entre estos parámetros. Escribiendo el modelo (13) en la
forma,
yt
yt
1
= (yt
1
yt
2)
+ "t
vemos que la primera condición sugiere estimar por Mínimos Cuadrados Ordinarios esta ecuación en variables cuasidiferenciadas para obtener la estimación
MVC del parámetro : Por otra parte, la segunda ecuación sugiere obtener el
estimador MVC del parámetro estimando por MCO la ecuación:
yt
yt
1
= (yt
1
yt
2)
+ "t
que también equivale a (13) : Por último, la tercera ecuación nos proporciona
el estimador de Máxima Verosimilitud Condicionada de 2" :
PT
^"t 2
T 2
Esta interpretación sugiere que el estimador MVC puede obtenerse estimando la regresión en variables transformadas y~t = yt
yt 1 ; para un determinado valor numérico de ; para obtener la estimación de ; y utilizar ésta
para llevar a cabo la transformación: ~yt = yt ^ yt 1 para estimar como
el coe…ciente en un modelo AR(1) en esta variable. Esta última transformada
puede interpretarse como el residuo del modelo AR(1) original, dada la estimación ^ : Ha de notarse, sin embargo, que tal esquema precisaría de un valor
inicial para uno de los dos parámetros,
o ; para comenzar a partir de él
estimando, sucesiva y recursivamente, cada uno de ellos. Tal procedimiento iterativo aproximaría el estimador MVC. Sin embargo, éste requiere la estimación
simultánea de ambos parámetros, como sugiere la solución del sistema de ecuaciones de optimalidad anterior. El esquema iterativo puede conducir o no a la
misma solución que la solución simultánea que requiere, en todo caso, de un
algoritmo numérico. Ambas soluciones coincidirán si el modelo propuesto es la
especi…cación correcta, pero no en caso contrario, y el investigador nunca puede
estar seguro de este aspecto en su trabajo empírico. También coincidirán si los
estimadores MVC de ambos parámetros fuesen independientes.
La matriz de información del estimador de máxima verosimilitud es la inversa de la matriz de información, para lo que hemos de obtener las derivadas
segundas,
^ 2" =
3
37
@ 2 ln L
@ 2
=
@ 2 ln L
@ 2
=
@ 2 ln L
@(
T
1 X
2
"
2
"
=
2 )2
"
@ 2 ln L
@ @
=
@ 2 ln L
@ @ 2"
=
@ 2 ln L
@ @ 2"
=
2
(
T
1 X
2
"
2
2)
yt
1
T
X
1
1
2 )2
"
(
2 )3
"
["t yt
2
+ (yt
3
T
=
2
"
"t ) E
yt
!
@ 2 ln L
2
T
=
2 )2
"
@(
2 ) (yt 1
yt
T
1
=
2
1
@ 2 ln L
@ 2
)E
1
2
"
2
2
2
2
"
2
2
"
=
2
1
T
2
(
2 )2
"
2 )]
3
1
2 )2
"
1
(
(yt
@ 2 ln L
@ 2
)E
3
2
(
1
3
T
1 X
T
u2t
2 )2
"
T
X
"t (yt
1
yt
2)
)E
@ 2 ln L
@ @ 2"
= E Et
1
@ 2 ln L
@ @ 2"
=0
"t (yt
1
yt
2)
)E
@ 2 ln L
@ @ 2"
= E Et
1
@ 2 ln L
@ @ 2"
=0
yt
= E [(yt
3
T
X
3
donde hemos utilizado la propiedad:
E ["t (yt
yt
1
2 )]
= E (Et
1
["t (yt
1
2 )])
yt
1
2 ) Et 1 " t ]
=0
así como la propiedad análoga cuando la transformación de variables utiliza
el parámetro : Asimismo:
h
E (yt
yt
1
E ["t (yt
1
2
2)
yt
i
= E
"
2 )]
E ("t yt
1
X
s
s=0
1
X
= E "t
2)
= E
"t
s=0
1
X
"t
s
s 1
"t
s
!2
s 1
ut
E [(yt
1
yt
2 ) (yt 1
yt
2 )]
= E
ut
1
1
X
#
s 2
s=0
s
"t
=
2
"
2
1
= E ("t "t
!
s 1
s=0
=
2
"
1
^
@ ^ A
^ 2"
0
!
=E
"
1
B
NB
@
;
2
"
2
"
T
2
0
B
@
38
2
"
1
1
1
2
1
1
1
0
0
1
2
1
0
0
1
2
2
"
+ "t " t
2
+ :::) = 0
=0
Por tanto,
0
1
C
A
1
1
C
C
A
1
X
i=0
i
"t
i
!
1
X
s=0
s
"t
s
!#
=
donde la matriz de varianzas y covarianzas debería evaluarse en los estimaciones de máxima verosimilitud obtenidas para los tres parámetros del modelo.
ELa estructura de esta matriz de información prueba que, si bien los estimadores
de MVC de los parámetros y son independientes del estimador MVC de 2" ;
sin embargo los dos primeros no son independientes entre sí.
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría
que iterar mediante,
^n
0 P
2
T
yt 2 )
3 (yt 1
B
= ^n 1 + @ A21
PT
3 "t ut 1
1
0 P
T
(yt 1
yt 2 ) " t
3
C
B PT
:@
A
3 utP1 "t
T
1
2
2
"
t
"
2
2 2
PT
[" y
PT3 2t t
u
P3T t 1
3 "t (yt
2
+ ut
1
yt
1
(yt
yt
1
2 )]
2)
PT
"u
PT3 t t 1
"
3Pt (yt 1
T 1 2
1
4
3
2
"
1
C
yt 2 ) A
"t 2
1
:
mientras que el algoritmo de scoring, más sencillo, aproxima el hessiano del
logaritmo de la función de verosimilitud por la matriz de información,
^n = ^n
1+
1
T
1
0
B
@
1
1
1
1
0
0
1
0
2
"
2
+
2
)2
(1
0
1
2
2
"
C
A
1
0 P
T
(yt 1
B P3T
@
3 utP1 "t
T
1
2
2
2
yt
2
"
2 ) "t
"t 2
1
C
A
y el algoritmo de Gauss-Newton, aún más simple, pero con mayor error de
aproximación numérico, consistiría en:
^n
= ^n 1 +
0 PT
(yt 1
B PT3
+@
3 (yt 1
PT
1
0
B
:@
2
2 4
PT
(y
PT3 t 1
u
3 tP1 "t
T
1
2
2 4
yt
yt
2
"
yt
2
"
2 2
2 ) "t
2
2 ) "t ut 1
"t 2 (yt 1
2 ) "t
"t 2
1
C
A
39
yt
2 ) "t
PT
(y
PT3 2t 1 2
u
3 t 1 "t
PT
1
2
4
2
yt
2
"
"t 2 u t
1 "t
PT
P2T
1
4
2 P 2
T
1
1
2
2 ) "t u t 1
2
4
8
2
"
2
"
4
2
2
"
"t 2 (yt 1
"t 2 ut 1 "t
"t 2
2
Descargar