Modelos estructurales de series de tiempo

Anuncio
Modelos estructurales de
series de tiempo
Est. Laura I. Giménez
Universidad Nacional del Nordeste
Instituto Nacional de Tecnología Agropecuaria
1
Programa
Jueves, 30 de julio de 2009
⎯ Introducción al análisis de Series Temporales
⎯ Ejemplos
⎯ Modelos estructurales
⎯ Modelos ARMA y ARIMA
⎯ Componentes de los modelos estructurales: Nivel local y Tendencia lineal local
Viernes, 31 de julio de 2009
⎯ Estacionalidad e irregularidades
⎯ Ciclos
⎯ Variables explicativas
⎯ Formas espacio de estado
⎯ Filtrado y Suavizado
⎯ Hiperparámetros - Predicción
⎯ Aplicación a lluvias mensuales. Uso del programa Stamp
2
Bibliografía
1. Abril, J. C. (2004). Modelos para el Análisis de las Series de Tiempo. Ediciones
Cooperativas. Buenos Aires. ISBN 987-1076-54-1. 377 pp.
2. Abril, J.C. (1999) Análisis de Series de Tiempo Basado en Modelos de Espacio
de Estado. Editorial Universitaria de Buenos Aires. EUDEBA. ISBN 950-231024-1.
3. Feyerherm, A. M. and Bark, D. (1965).
Statistical Methods for Persistent
Precipitation Patterns. Journal of Applied Meteorology. Vol.4.
4. Harvey, Andrew C. (1989). Forecasting, structural time series models and the
Kalman filter. Cambridge Press University.
5. Harvey, Andrew C. (1994). Time Series Models MIT Press. Cambrige,
Massachusetts.
6. Instituto Nacional de Meteorología. www.inm.es
7. Pindyck, R. S. and Rubinfeld, D. L. (1976). Econometric models and economic
forecasts. McGraw-Hill, Inc. Kogakusha LTD.
8. Uriel, Ezequiel (1985). Análisis de Series Temporales modelos ARIMA.
Colección Abaco. Paraninfo Madrid.
3
Serie temporales
Las series temporales consisten en observaciones realizadas a intervalos regulares de tiempo.
Sus características salientes son: la tendencia, la cual representa el movimiento de la serie a
largo de su recorrido y un patrón estacional el cual se repite, mas o menos, cada año. Un
modelo de la serie necesitará capturar estas características. El modelo puede formularse
asumiendo que la serie puede descomponerse de la siguiente forma:
Serie Observada=tendencia+estacionalidad+irregular
Donde la componente irregular refleja los movimientos no sistemáticos de la serie.
También podemos asumir un modelo multiplicativo, el cual es apropiado para algunas series,
Serie Observada=tendencia*estacionalidad*irregular
Este modelo puede ser tratado como un modelo aditivo tomando logaritmo.
¿Para qué modelar?
Hay dos razones para querer modelar una serie univariada. La primera es proveer una
descripción de la serie en términos de su componente de interés. Al examinar la tendencia,
veremos el movimiento principal de la serie. Puede ser de interés analizar el comportamiento
estacional de la serie y, en algunos casos, puede ser interesante quitarlo para producir una
serie ajustada estacionalmente. Un modelo estadístico explícito, apropiadamente formulado,
clarifica los supuestos subyacentes y representa el movimiento de la serie, la cual puede tener
un rango amplio de propiedades. El otro motivo subyacente de la construcción de un modelo
es la predicción de valores futuros.
Las series de tiempo pueden contener otros componentes. En la gráfica de observaciones
anuales, además de la tendencia, es común observar comportamientos cíclicos. Por ejemplo,
los movimientos en economía pueden verse desde el inicio hasta el final una recesión. Hay
cambios sociales que pueden no permanecer en el tiempo.
4
Modelos estructurales
El modelo estructural de una serie temporal es uno que arranca en términos de componentes,
las cuales tienen una interpretación directa. El mismo no intenta representar el proceso de
generación, ayuda a representar en forma “estilizada” la serie en términos de descomposición
en componentes, tendencia, estacionalidad y ciclo. Ya que cada parte es de interés en si
misma. La predicción desde un modelo univariado es simple, en el sentido que es, sólo una
extrapolación de los movimientos pasados.
Un modelo estructural de serie de tiempo permite que sus componentes sean estocásticas, la
idea es que sus componentes sean lo suficientemente flexibles que permitan responder a
cambios en el tiempo.
La formulación estadística de la componente de tendencia en un modelo estructural, será lo
suficientemente flexible para representar cambios generales en la dirección de la serie. En
forma similar la componente estacional será flexible de manera que permita responder a
cambios en el patrón estacional.
Un modelo estructural de serie de tiempo es aquel en el cual la tendencia, la estacionalidad, el
ciclo y el error, mas otros componentes relevantes, son modelados explícitamente.
Comparado con la filosofía subyacente de los modelos ARIMA, donde la tendencia y la
estacionalidad son eliminadas mediante diferenciación, el modelo estructural es lo opuesto.
La facilidad de interpretación de los modelos estructurales de series de tiempo, los que
siempre pueden ser puestos en la forma de espacio de estado, junto con la información
asociada que producen el filtro y el suavizador de Kalman, hacen de ellos el vehículo natural
para el tratamiento de los datos de series de tiempo.
La idea básica de los modelos estructurales de series de tiempo (MEST) es que por medio de
ellos se pueden expresar los componentes, tanto los observables como los no observables, de
5
una serie de tiempo como partes de modelos de regresión en donde las variables explicativas
son funciones del tiempo con coeficientes que cambian a través del tiempo.
Entonces, dentro de un marco de regresión, una tendencia simple sería modelada en términos de
una constante por el tiempo con un disturbio, o error aleatorio, aditivo. Esto es
yt = α + β t + ε t , t=1,…n
Este modelo es fácil de estimar usando mínimos cuadrados simple, pero sufre la desventaja de
considerar a la tendencia determinística. En general esto es muy restrictivo. En economía por
ejemplo, si una variable es considerada que tiene tendencia determinística significaría que
cualquier impulso económico de cualquier intensidad no tendrá efectos en el largo plazo, ya
que todo retornará a su dada tendencia. La flexibilidad es introducida permitiendo que los
coeficientes α y β evolucionen a través del tiempo como procesos estocásticos. De esta
forma la tendencia se puede adaptar a los cambios subyacentes.
La estimación actual, o filtrada, de la tendencia se la logra poniendo al modelo en su forma de
espacio de estado y aplicándole luego el filtro de kalman. El filtrado significa computar el
mejor estimador en cada momento t usando las observaciones disponibles hasta ese
momento. Algoritmos relacionados se usan para hacer predicciones y para los suavizados.
Esto último significa computar el mejor estimador en todos los puntos de la muestra usando
al conjunto total de observaciones. Los parámetros en los modelos de espacio de estado
usualmente se denominan hiperparámetros, para distinguirlos de los elementos del vector de
estado los cuales pueden pensarse como parámetros aleatorios. La magnitud por la cual los
parámetros aleatorios pueden variar está gobernada por hiperparámetros. Ellos pueden ser
estimados por máxima verosimilitud, la llave de esto es la forma de espacio de estado y el
filtro kalman.
Para el trabajo aplicado, el punto es entender qué hacen los modelos y cómo deben ser
interpretados los resultados.
6
Enfoque clásico
El enfoque clásico del modelado de series de tiempo, está basado en el hecho de que un
modelo general para cualquier serie estacionaria no determinística es el autorregresivopromedio móvil de orden (k,h), esto es
yt = φ1 yt −1 + ... + φk yt − k + ε t + θ1ε t −1 + .. + θ hε t − h
ε t ~ IID(0, σ 2 )
Este es el conocido modelo ARMA(k,h) , la estrategia de modelado consiste primero en
especificar los valores adecuados de k y h, sobre el análisis de un correlograma muestral y
otros estadísticos relevantes. Luego el modelo es estimado, bajo el supuesto de normalidad de
los errores. Después se examinan los residuos para ver si su apariencia corresponde a la
aleatoriedad y de computan varios estadísticos de prueba. En particular el estadístico Q* de
Box-Ljung, el cual está basado en las primeras k autocorrelaciones de los residuos, se lo usa
para testar la correlación serial de los residuos.
Box y Jenkins (1976) se refieren a estos pasos como identificación, estimación y control de
diagnóstico. Si este control es satisfactorio, el modelo está listo para ser usado en las
predicciones. Si no lo es, se deberá intentar otra especificación. Box y Jenkins enfatizan el rol
de la parsimonia, en el sentido que al seleccionar k y h los mismos deben ser pequeños.
Ahora bien muchas series no son estacionarias. Con el objeto de resolver estas situaciones
Box y Jenkins proponen que una serie debe ser diferenciada para hacerla estacionaria. Luego
de ajustar un modelo ARMA, a la serie diferenciada, el correspondiente modelo integrado es
usado para las predicciones. Si la serie es diferenciada d veces, el modelo total de la serie es
denotado como ARIMA(k,d,h). Efectos estacionales pueden ser capturados mediante la
diferenciación estacional.
La metodología de selección de modelos para los modelos estructurales es de alguna manera
diferente, en el sentido que se pone menos énfasis en la observación del correlograma de
diversas transformaciones de la serie con el objeto de obtener una especificación inicial. Esto
7
no significa que no se observe el correlograma, pero él puede ser difícil de interpretar sin un
conocimiento previo de la naturaleza de la serie, y en muestras pequeñas y/o con datos
desordenados puede conducir a conclusiones erróneas. En lugar de ello, el énfasis está en la
formulación del modelo en términos de componentes cuya presencia estaría sugerida por el
conocimiento del fenómeno bajo estudio, de sus aplicaciones o por la inspección del gráfico
de la serie, por ejemplo, con observaciones mensuales, uno debería incorporar desde un
principio una parte estacional dentro del modelo., y solamente la sacará si luego prueba que
no es significativa.
Una vez que el modelo estructural ha sido estimado, el mismo tipo de prueba de diagnóstico
que los usados para los modelos ARIMA pueden ser realizados con los residuos. En
particular el estadístico de Box y Ljung puede ser computado siendo sus grados de libertad
igual al número de autocorrelaciones residuales menos el número de hiperparámetros
relativos.
Pruebas estándares de falta de normalidad y heteroscedasticidad pueden ser
aplicadas, como así también la prueba de la calidad predictiva. Los gráficos de los residuos
pueden examinarse, de la misma manera por Box y Jenkins para la construcción de modelos
ARIMA. En un modelo estructural de series de tiempo, estos gráficos pueden ser
complementados con gráficos de los componentes suavizados. Estos, frecuentemente, suelen
ser muy informativos puesto que permiten al investigador constatar si los movimientos en los
componentes corresponden a lo que podría esperarse sobre la base del conocimiento previo.
En las subsecciones siguientes se presentan los principales modelos estructurales de series de
tiempo univariadas.
Nivel Local
Una serie de tiempo es un conjunto de observaciones y1, y2, y3,…yn ordenadas en el tiempo.
El modelo básico para representar una serie de tiempo es el aditivo
yt = μt + γ t + ϑt + ε t con t=1..n
8
Donde μt es la componente que cambia suavemente en el tiempo, γ t es el componente con
período fijo llamado estacionalidad, ϑt es el componente periódico con frecuencia menor a la
estacionalidad llamado ciclo y ε t es un componente irregular llamado error.
Cuando las componentes se combinan en forma multiplicativa, yt = μt γ tϑt ε t
se trabaja con
los logaritmos de los valores, reduciendo este modelo a un modelo aditivo.
El modelo estructural de series de tiempo mas simple presenta una situación en la que no hay
estacionalidad, ni ciclos y la tendencia está compuesta por el nivel de la serie que cambia a
través del tiempo. Ese nivel es modelado por un camino aleatorio “random walk” sobre el
cual se le sobreimpone un error aleatorio o ruido blanco. Además, todas las variables
aleatorias se distribuyen normalmente. Esto da el modelo denominado “modelo nivel local”
(NL)
yt = μt + ε t ε t N (0, σ ε2 )
μt = μt −1 + ηt ηt N (0, σ η2 )
para t=1,..n, donde ε t y ηt son mutuamente independientes.
Una característica práctica muy importante del modelo es que el estimador del nivel, basado
en la información disponible, está dado por un promedio móvil exponencialmente ponderado
de las observaciones pasadas, donde la constante de suavizado es una función del cociente señal
de ruido q= σ η2 / σ ε2 . La predicción de observaciones futuras, no importa cuantos pasos
adelante, está dada por la misma expresión. Para un camino aleatorio puro, q es infinito,
llegándose a que la predicción es la última observación. Cuando q tiende a cero la predicción
se acerca a la media muestral.
9
Tendencia lineal local
Los modelos de tendencia lineal local (TLL) reemplazan la tendencia determinística por una
estocástica, la formulación es
yt = μt + ε t
ε t N (0, σ ε2 )
μt = μt −1 + βt −1 + ηt ηt N (0, σ η2 )
βt = βt −1 + ς t
ς t N (0, σ ς2 )
Para t=1, ..n con los errores ε t , del nivel, ηt y la pendiente, ς t mutuamente independientes.
Las magnitudes por las cuales el nivel μt y la pendiente βt cambian a través del tiempo, están
gobernadas por los hiperparámetros relativos qη = σ η2 / σ ε2 , y qς = σ ς2 / σ ε2 . La función de
predicción es la línea recta a partir de las estimaciones del nivel y de la pendiente al final de la
muestra.
Investigadores aplicados, cuando la tendencia no es clara, suelen establecer σ η2 =0 para ajustar
el modelo con esta restricción.
Si σ ς2 =0, tenemos que βt = βt −1 = βt − 2 .. = β , si β ≠ 0 , la tendencia es un camino aleatorio
mas una constante, μt = μt −1 + β + ηt .
t
Así con α = μ0 , se verifica que yt = α + β t + ∑ηi + ε t .
i =1
Aquí el comportamiento de yt está gobernado por dos componentes no estacionarios, una
t
tendencia lineal determinística y la tendencia estocástica
∑η .
i =1
i
Cuando σ ς2 =0 y β = 0 el modelo se reduce al modelo NL.
t
yt = α + ∑ηi + ε t
i =1
10
Nótese que todos los sucesivos shocks ηt tienen efecto permanente en la sucesión yt por el
hecho que no hay un factor que decaiga y afecte los valores pasados de ηt .
Cuando σ ς2 =0, ση2 = 0 y β es diferente de cero, la tendencia es una función lineal
determinística del tiempo, quedando el modelo para yt puede expresarse como clásico
modelo de la tendencia lineal mas ruido
yt = α + βt + ε t
t −1
t
j =1
i =1
yt = μ0 + β 0t + ∑ (t − j )ς j + ∑ηi + ε t
Aquí cada elemento de la sucesión yt contiene una tendencia determinística, una tendencia
estocástica y un componente irregular o error. Lo más interesante de este modelo es la forma
de la tendencia, en lugar de ser determinística, los coeficientes del tiempo dependen de
realizaciones pasadas de la sucesión ς j . Estos coeficientes pueden ser positivos para algunos
valores de t y negativos para otros. En este caso como σ η2 y σ ς2 >0, el nivel y la pendiente de
la tendencia pueden variar suavemente en el tiempo.
Tendencia, estacionalidad e irregularidades
La estacionalidad es un componente que se repite con periodicidad, dentro del tiempo bajo
estudio. Las series pueden ser observaciones trimestralmente, mensualmente, diaria y estar
sujetas a variaciones estacionales. Este componente necesita que se le permita que cambiar a
través del tiempo, de la misma manera que se le dío mayor flexibilidad a la tendencia
permitiéndole que sea estocástica. Sin embargo el argumento para que el componente
estacional sea estocástico es menos fuerte que para la tendencia estocástica. Aunque es
posibles que puedan suceder cambios en la estructura estacional.
11
Para modelar la estacionalidad supongase que hay “s” meses por año. Así para los datos
mensuales s=12, para datos trimestrales s=4 y para datos diarios cuando se modela estructura
semanal, s=7.
Si el componente estacional es determinístico, debe tener la propiedad de sumar cero sobre el
s −1
año anterior, esto asegura que no se confunda con la tendencia. Se sigue que
∑ γ t − j = 0 , por
j =0
s −1
lo tanto γ t = −∑ γ t − j , t=s,s+1,…. En situaciones prácticas frecuentemente queremos que
j =1
exista la posibilidad de que el componente estacional cambie en el tiempo. Una manera simple
de lograrlo es agregando un término de error wt es la última relación, lo que da el modelo
s −1
γ t = −∑ γ t − j + w j , t=1, ..n, donde los w j son independientes N (0, σ ω2 ) .
j =1
Esta es la forma de variables ficticias (“dummy”) de la estacionalidad estocástica.
Una alternativa es denotar el efecto de la estación j en el momento de tiempo t mediante
γ jt y luego hacer que este término sea generado por un camino aleatorio.
γ jt = γ j ,t −1 + ω jt , t=(i-1)s+j, i=1,2,…j=1,..,s
Con
un ajuste adecuado para asegurar que cada sucesivo conjunto de s componentes
estacionales suma cero.
La estacionalidad puede expresarse también en su forma trigonométrica, para estacionalidad
constante es la siguiente:
s/2
γ jt = ∑ (γ j . cos λ j t +γ *j . senλ j t ), λ j =
j =1
2π j
, j=1,…s/2
s
Para estacionalidad que varía con el tiempo, esta puede hacerse estocástica agregando los
términos aleatorios.
Sin los términos del error este modelo estacional dará la misma estructura determinística que
el modelo estacional con variables ficticias. De cualquier manera, con estacionalidad
12
estocástica es un mejor modelo porque permite que el componente estacional evolucione con
mayor suavidad. Se puede mostrar que la suma de las estacionalidades sobre el año anterior
sigue un modelo MA(s-2) en lugar de ser un ruido blanco.
Los efectos estacionales están combinados en forma aditiva con la tendencia y los
componentes irregulares. Ahora bien, en muchas aplicaciones, son combinados de manera
multiplicativa. De cualquier manera tomando logaritmos y trabajando con el logaritmo de los
valores podemos llegar a la estructura aditiva. El modelo estructural básico (MEB)
yt = μt + γ t + ε t con t=1,…n
Cada uno de los modelos estacionales presentados anteriormente puede ser combinado con
cualquiera de los modelos de tendencia resultados un modelo estructural de serie de tiempo.
Forma de Espacio de Estado
Se presenta a continuación un enfoque unificado para el análisis de series de tiempo. El
tratamiento técnico está basado en los métodos de espacio de estado. Estos métodos pueden
ser aplicados a cualquier modelo lineal, incluyendo aquellos dentro de la clase de los
autorregresivos integrados de promedios móviles.
Todos los modelos lineales de series de tiempo tienen una representación en la forma de
espacio de estado. Esta representación relaciona el vector de errores o disturbios ε t con el
vector de observaciones yt vía un proceso de Marcov. La expresión es
yt = Z tα t + ε t , ε t N (0, H t )
α t = Ttα t −1 + Rtηt , ηt N (0, Qt )
Donde yt es un vector de orden px1 de observaciones y α t es un vector de orden mx1
inobservable, llamado vector de estado. La idea subyacente en el modelo es que el desarrollo
del sistema en el tiempo está determinado por α t . Pero debido a que α t no puede ser
13
observado directamente, debemos basar nuestro análisis en yt . Las matrices Z t , Tt , Rt , H t y
Qt se suponen inicialmente conocidas y los términos del error se suponen que son
independientes entre si en todo momento de tiempo. Las matrices Z t y Tt pueden depender
de y1,….yt-1. El estado inicial α 0 se supone que es N(a0,P0) es independiente de ε1 ,...., ε n y de
η1 ,...,ηn , se suponen conocidos a0 yP0 .
Este modelo se llama modelo básico de espacio de estado (MBEE) aunque también se lo
conoce usualmente como modelo lineal gaussiano de espacio de estado. A la primera ecuación
se la denomina ecuación de medida o ecuación de observación y a la segunda la ecuación de
transición o relación de transición o ecuación de estado. Es interesante destacar que la
ecuación de medida es equivalente a un modelo de regresión con coeficientes α t estocásticos
que satisfacen la ecuación transición. En muchas aplicaciones Rt es la matriz identidad. En
modelos univariados p=1, por lo tanto Z t es un vector fila y H t es un escalar que se lo suele
denotar como σ ε2 .
Un modelo tendencia lineal local (TLL) puede ser puesto en la forma de espacio de estado,
⎛1⎞
⎜ ⎟
⎜0⎟
⎜1⎟
por ejemplo Z t' = ⎜ ⎟ ,
⎜0⎟
⎜.⎟
⎜⎜ ⎟⎟
⎝0⎠
⎛ μt ⎞
⎜
⎟
⎜ βt ⎟
⎜ γ ⎟
αt = ⎜ t ⎟
⎜ γ t −1 ⎟
⎜ . ⎟
⎜⎜
⎟⎟
⎝ γ t −s+2 ⎠
⎛1
⎜
⎜0
⎜.
⎜
Tt = ⎜
⎜
⎜
⎜
⎜
⎜⎜
⎝
⎛1
⎜
⎜0
⎜0
Rt = ⎜
⎜0
⎜.
⎜⎜
⎝0
1 .
1 .
. .
.
.
0 .
.
.
⎞
⎟
⎟
.
.
.
.
. ⎟
⎟
−1 −1 −1 −1 −1⎟
1 0 0 0 0⎟
⎟
0 1 0 0 0⎟
.
.
.
.
. ⎟
⎟
0 0
.
1 0 ⎟⎠
0
0 0⎞
⎟
1 0⎟
0 1⎟
⎟
0 0⎟
. .⎟
⎟
0 0 ⎟⎠
14
Ciclos
Un ciclo es un componente periódico con frecuencia menor a la estacionalidad. Un ciclo
determinístico puede ser expresado como una onda sinusoidal, esto es
ϑt = α cos λt + β senλt con t=1,..,n
Anteriormente se puntualizó que una estructura estacional puede ser modelada por un
conjunto de tales ciclos definidos en las frecuencias estacionales. Agregando errores se
permite que esta estructura cambie a través del tiempo. Una situación algo diferente puede
suceder cuando queremos modelar el ciclo, el cual puede ser estocástico, y a diferencia de los
ciclos estacionales, puede ser estacionario. La especificación estadística de tal ciclo ϑt es como
sigue
⎛ ϑt ⎞
⎛ cos λc
⎜ *⎟= ρ⎜
⎝ ϑt ⎠
⎝ − senλc
senλc ⎞ ⎛ ϑt −1 ⎞ ⎛ kt ⎞
⎟⎜
⎟+⎜ ⎟
cos λc ⎠ ⎝ ϑt*−1 ⎠ ⎝ kt* ⎠
Donde λc es la frecuencia en radianes en el intervalo 0 ≤ λc ≤ π , k t* y k t* son 2 procesos
ortogonales o ruido blanco mutuamente no correlacionados con media 0 y varianza común
σ k2 y ρ es un factor amortiguador, perteneciente al intervalo [0,1]. El período es 2π / λc .
Variables explicativas y análisis de intervención
Las variables explicativas pueden ser fácilmente incluidas en un modelo estructural. Se
denominan también variables ficticias, ellas son usadas para el manejo de las observaciones
faltantes y de los efectos de las intervenciones. Si xt es un vector de kx1 variables explicativas
observadas y β es el correspondiente vector de parámetros, el modelo
yt = μt + xt´ β + ε t , t=1,..n, este puede ser considerado un modelo de regresión con
componente de tendencia estocástica, μt . Si las varianzas son cero, el modelo se reduce a una
expresión lineal con constante y una tendencia lineal.
15
El algoritmo de Kalman
Introducción
Se presenta un tratamiento general desde el punto devista de la inferencia clásica del modelo
Gaussiano de espacio de estado. Las observaciones yt serán consideradas multivariadas y se
discutirá el filtrado, suavizado, la estimación de los hiperparámetros y la predicción. El filtrado
tiene por finalidad actualizar nuestro conocimiento del sistema cada vez que una nueva
observación yt es obtenida. El suavizado nos permite basar las estimaciones de cantidades de
interés en la muestra completa y1,….yn.
Los parámetros en los modelos de espacio de estado usualmente se denominan
hiperparámetros, presumiblemente para distinguirlos de los elementos del vector de estado los
cuales pueden pensarse como parámetros aleatorios. Además recordemos que la magnitud
por la cual los parámetros aleatorios pueden variar están gobernadas por estos
hiperparámetros.
La predicción tiene importancia especial en muchas aplicaciones del análisis de series de
tiempo. Se pueden lograr resultados de las predicciones tomando a los valores futuros yn+1
yn+2 …como observaciones faltantes.
El análisis estadístico de los modelos estructurales de series de tiempo está basado en la forma
de espacio de estado. Los modelos gaussianos de espacio de estado pueden ser estudiados
estadísticamente mediante el filtro de kalman y el suavizador asociado. La función de
verosimilitud se la construye a partir del filtro de kalman en términos de la predicción un paso
adelante, y es maximizada con respecto a los hiperparámetros por optimización numérica , el
vector marcador (score) de los parámetros puede obtenerse a través de un algoritmo de
suavizado asociado con el filtro kalman. Una vez que los hiperparámetros han sido estimado
el filtro es usado para lograr predicciones de los residuos un paso adelante, lo que no permite
calcular los estadísticos de diagnóstico para normalidad, correlación serial y bondad de ajuste.
Con los resultados del filtrado y suavizado se logran predicciones de la serie bajo estudio. El
16
suavizador es utilizado para estimar componentes no observables, tales como la tendencia y la
estacionalidad, y para calcular estadísticos de diagnósticos que sirven para detectar
observaciones atípicas y cambios estructurales.
La forma de espacio de estado
Todos los modelos lineales de series de tiempo tienen una representación en la forma de
espacio de estado. Esta representación relaciona el vector de errores o disturbios ε t con el
vector de observaciones yt a través del proceso de Marcov α t , la expresión es:
yt = Z tα t + ε t , ε t N (0, H t )
α t = Ttα t −1 + Rtηt , ηt N (0, Qt )
Donde yt es un vector de orden px1 y α t es un vector de orden mx1 inobservable, llamado
vector de estado. La idea subyacente en el modelo es que el desarrollo del sistema en el
tiempo está determinado por α t de acuerdo a la segunda ecuación, pero debido a que α t no
puede ser observado directamente, debemos basar nuestro análisis en las observaciones yt .
Las otras matrices de la ecuación, se suponen inicialmente conocidas y los términos de error
se suponen independientes entre si en todo momento del tiempo. Las matricez Z y T pueden
depender de y1,….yt-1. El estado inical α 0 se supone que es N(a0,P0) e independiente de los
errores ε t y ηt .
Este modelo inicial se lo denomina básico de espacio de estado (MBEE), aunque también se
lo conoce como modelo lineal gaussiano de espacio de estado.
La primera se denomina ecuación de observación y a la segunda ecuación de transición o
relación de transición. Es interesante destacar que la ecuación de observación es equivalente a
un modelo de regresión con coeficientes α t estocásticos que satisfacen la ecuación de
transición.
17
Denotaremos como Yt-1 al conjunto de los y1,--yt-1, que es toda la información anterior al
tiempo t=1. Comenzando en T=1 y construyendo la distribución de α t e yt recursivamente se
puede demostrar que
p( yt / α1 ,..., α t , Yt −1 ) = p( yt / α t ) y p(α t / α1 ,..., α t −1 , Yt −1 ) = p(α t / α t −1 )
estableciendo con ello la verdadera naturaleza markoviana del modelo.
Filtrado
El objetivo del filtrado es actualizar nuestro conocimiento del sistema cada vez que se obtiene
una nueva observación yt . Una vez que el modelo ha sido puesto en su forma de espacio de
estado, el camino está abierto para la aplicación de un número importante de algoritmos. En
el centro de ellos está el filtro de kalman. Este filtro es un procedimiento recursivo para
computar el estimador óptimo del vector de estado en el momento t, basado en la
información disponible hasta ese tiempo t.
En ciertas aplicaciones de ingeniería el filtro kalman es importante debido a la posibilidad de
lograr estimaciones sobre la marcha. El valor actual del vector de estado es de interés y el
filtro kalman permite que la estimación del vector de estado sea continuamente actualizada
cada vez que una nueva observación está disponible.
Otra razón para el rol central del filtro Kalman es que cuando los errores y el vector de estado
inicial están normalmente distribuidos, permite que la función de verosimilitud sea calculada a
través de lo que se conoce como la descomposición del error de predicción. Esto abre el
camino para la estimación de cualquier parámetro desconocido en el modelo. También provee
las bases para los tests estadísticos y especificación del modelo.
La forma en que se deriva mas abajo el filtro kalman para el modelo de espacio de estado, se
basa en el supuesto del estado inicial α 0 se supone que es N(a0,P0) e independiente de los
errores ε t y ηt . Luego es usado un resultado estándar sobre la distribución normal
multivariada para mostrar cómo es posible calcular recursivamente la distribución sobre
18
α t condicional a la información establecida en el tiempo t, para todo t de 1 a n. Estas
distribuciones condicionales son a su vez normales y por lo tanto están completamente
especificadas por sus matrices de medias y varianzas. Son estas cantidades las que el filtro de
kalman computa. Así, spongase que queremos obtener la distribución a posteriori de α t +1 dado
Yt . Puesto que todas las distribuciones condicionales son también normales. Supongamos que
α t dado Yt −1 es N (at , Pt ) y la de α t dado Yt es N (at / t , Pt / t ) . Nuestro objetivo es calcular
recursivamente at / t , Pt / t , at +1 , Pt +1 dado at , Pt
Sea
vt = yt − Z t at
este es el error de predicción un paso adelante y satisface
vt = yt − E ( yt / Yt −1 )
Iniciación: como iniciar el filtrado cuando se desconocen los parámetros a0 y P0 de la
distribución de α 0 . Se presenta entonce la distribución difusa a priori, esto es, se fija a0 en un
valor arbitrario y se hacen tender los elementos diagonales de P0 a infinito. Una aproximación
adecuada puede, con frecuencia, alcanzarse numéricamente tomando a0 =0 y P0=KIm donde
Im es la matriz identidad de orden m y K es un número finito grande. No obstante, en algunos
casos esto conduce a inaceptables errores de redondeo, por lo que se requiere una técnica mas
precisa.
Suavizado: considerando ahora la estimación de α1 ,..., α n dada la muestra completa Yn. El
estimador con error cuadrático medio mínimo (ECMM) de α t es α t = E (α t / Yn ) . Llamamos
a esto el valor de suavizado de α t y llamamos a la operación de calcular esos alfas suavizado.
Estimación de los hiperparámetros: Como ya lo vimos, los parámetros en los modelos de
espacio de estado usualmente se denomina hiperparámetros, presumiblemente para
distinguirse del vector de estado los cuales pueden pensarse como parámetros aleatorios.
Además recordemos que la magnitud por la cual los parámetros aleatorios pueden variar está
19
gobernada por los hiperparámetros. Ahora debemos estimar por máxima verosimilitud los
hiperparámetros del modelo de espacio de estado.
Comenzamos construyendo la verosimilitud. Suponiendo que a0 y P0 son conocidos, la
densidad conjunta de y1,..yn es
p(Yn) =∏ p(y t /Yt-1 ) , donde p( yt / Yt −1 ) = N ( Z t at , Ft ) por lo tanto tomando los logaritmos
obtenemos log L = −
np
1 n
1 n
log(2π ) − ∑ log Ft − ∑ vt´ Ft −1vt
2
2 t =1
2 t =1
Esto se llama descomposición del error de predicción del logaritmo de la verosimilitud.
Predicción : Supongamos que y1,... yn que satisfacen el modelo de espacio de estado y
queremos predecir yn +l , l= 1,2,..J. Queremos que la predicción sea con mínimo error medio
cuadrático de predicción dada la muestra completa es Yn.
20
Pasos realizados en la modelización
1. Sobre la base de la inspección gráfica de las características saliente de la serie mensual,
trimestral y anual, mas el conocimiento de la variabilidad de la variable bajo estudio.
Se propone un modelo con un conjunto de componentes apropiados. Por ejemplo,
las lluvias mensuales presentan gran variabilidad podría proponerse un modelo
multiplicativo al cual se le aplicará la transformación logarítmica para hecerlo aditivo.
2. Incorporación de las variables de intervención que surgen del Modelo Estructural
Básico. Este modelo está compuesto por el nivel y la pendiente ambos aleatorios, la
estacionalidad trigonométrica aleatoria y un componente irregular. Esto se puede
cambiar luego, pero inicialmente permitirá detectar valores extremos. Las variables de
intervención surgen de la inspección de los residuos que pasan las bandas de
confianza.
3. Estimación de los hiperparámetros de todas las componentes del modelo. Esto
permite decidir si la componente es fija o aleatoria. Cuando la estimación del
parámetro nos da Cero, significa que la componente correspondiente es fija.
4. Reformulación del modelo a través de análisis del Estado Final, en el cual se analiza la
significancia de los valores que toman los componentes al final de la muestra. Los
estimadores de suavizado de los componentes de tendencia, estacionalidad y cíclicos
se obtienen utilizando toda la información de la muestra. Luego se analizan los
residuos.
5. Análisis de Regresión: Los estimadores de los parámetros de regresión, los parámetros
de las variables de intervención y las estimaciones fijas de estacionalidad. Estos
estimadores pueden ser interpretados, en general, de la misma forma que un modelo
de regresión estándar. Considerando que ellos son determinísticos (invariantes en el
tiempo) y teniendo en cuenta el desvío estándar de las estimaciones, los t-valores
deberían tener una distribución t si los hiperparámetros (relativos) fueran conocidos.
Aunque ellos son normales asintóticamente. Una distribución t puede proveer una
mejor aproximación a las propiedades para muestras pequeñas. Los P valores están
basados en distribuciones normales.
6. Obtención de los estadísticos resumen del modelo :
a. H(h) : test de heterosedasticidad, distribuido aproximadamente como F(h,h)
b. r(t) : la autocorrelación residual a la distancia t (lag t) distribuida
aproximadamente como N(0,1/T)
c. DW : Durbin-Watson statistics, distribuido aproxidadamente como N(2,4/T)
d. Q(P,d) : Box-Ljung Q-statistic basadas en los primeros P residuales de las
correlaciones distribuidas aproximadamente como χ d y finalmente los
coeficientes de determinación mas apropiados.
7. Evaluación de la bondad del modelo propuesto.
Prediction error variance (PEV) la varianza o matriz de covarianza de error de
predicción logrado paso a paso. Normalidad de los residuis utilizando el
estadístico de Bowman-sheton, distribuida aproximadamente como χ2, 2 grados de
libertad, AIC.
8. Predicción – extrapolación de valores futuros.
2
21
Ejemplo
La serie analizada correponde a valores mensuales de la localidad de Monte Aloia, en la provincia de
Pontevedra, Galicia. Esta serie consta de 204 observaciones de milímetros de lluvia caída mensual
desde enero de 1991 hasta diciembre de 2007.
Tabla 1. Mediana y desvíos absolutos respecto de la mediana (MAD) de
Mes
ENE FEB MAR ABR MAY JUN JUL AGO SET OCT NOV DIC
Mediana 305.5 164
173
136
166.8 60.7 53
MAD
86.5
59.5
70.8
146.5 109
27
64
36.5 22
129
270
262.2 360
67
122
133
145.8
La precipitación anual promedio es de 2576.9 milímetros, con una variabilidad entre años de 483.92
mm.
Figura 1. Lluvias mensuales de Monte Aloia y su logaritmo
Serie de lluvias
972.0
777.6
Monte aloia
583.2
388.8
194.4
0.0
01-01-91
01-06-94
01-11-97
01-04-01
01-09-04
fecha
22
Serie transformada
7.2
5.8
Logaritmo lluvias
4.3
2.9
1.4
0.0
01-01-91
01-06-94
01-11-97
01-04-01
01-09-04
fecha
Modelización
Se presenta a continuación el modelo que surgió luego de la apreciación visual de la serie temporal, de
la consideración de las estadísticas descriptivas mensuales y anuales, y después de seguir la secuencia
de pasos que conduce a un modelo adecuado: yt = μt + γ t + ϑt +
∑λ x
10
i
( j)
t
+ ε t , con t=1,2,…204
i =1
(1/1991 a 12/2007), siendo yt es el ln de las lluvias mensuales, μt es la componente de tendencia,
γ t es la componente estacional, ϑt es la componente cíclica con frecuencia menor a la estacionalidad,
λi y xi son el coeficiente y las variables de intervención y ε t es la componente irregular llamada error.
Análisis de la tendencia
Se estimaron los hiperparámetros, o varianzas de los disturbios correspondientes al nivel, y a la
pendiente. Los hiperparámetros relativos, simbolizados qn y qζ , se obtienen del cociente de cada
uno respecto de σ ε2 . En este caso qn = 0 y qζ = 0 lo que significa que la tendencia está compuesta de
nivel fijo y de una posible pendiente determinística. Luego, al analizar la componente correspondiente
a la pendiente, estimada con el filtrado y suavizado del vector de estado,
se prueba la
hipótesis β = 0 , mediante la aplicación de una prueba T, que dio como resultado T=-0.139273,
P-valor= 0.8894 aceptando la hipótesis nula. En el análisis de la componente correspondiente al
23
nivel, se prueba la hipótesis μt = 4.9920 una prueba T, que dio como resultado T=102.55, Pvalor=0.000. Luego la tendencia está guiada por un camino aleatorio sin pendiente descrita por un
nivel fijo. La componente de tendencia en el período estimado es 147.226, expresada en términos de
la variable original.
Análisis de la estacionalidad
También la componente estacional se consideró fija, teniendo en cuenta el valor de los
hiperparámetros relativos. Esto significa que cada año se repiten con presencia y con escasez de
lluvias, dependiendo del mes. La prueba de χ 2 , realizada sobre los s-1 efectos estacionales bajo la
hipótesis nula de no estacionalidad dio como resultado χ 2 =80.729, P-valor=0.
Tabla 2. Aportes porcentuales promedio del patrón estacional al nivel de la serie mensual de Monte
Aloia.
EE
APN
1
2
3
4
5
6
7
8
9
10
11
12
86.2
17.6
8.67
0.71
-0.5
-58.4
-64.8
-59.2
-9.6
107.2
86.1
102
EE : Efecto Estacional y APN: Aporte Porcentual al Nivel
Los coeficientes estacionales que resultaron significativos fueron 1, 6, 7, 8, 10,11 y 12. Estos
coeficientes representan los aportes promedio del patrón estacional al nivel de la serie mensual
original. El resto de los meses el aporte es nulo.
Análisis del ciclo
El hiperparámetro relativo del ciclo fue igual a cero por lo tanto se consideró un componente fijo. El
coeficiente ρ =1. El período representa 1.6 años.
Incorporación de las variables de intervención
En el modelo se incluyeron 10 variables de intervención.
Tabla 3. Momento en el tiempo y significancia de los coeficientes estimados de las variables de
intervención.
24
P-valor
Año y Mes
1992. 7
1993. 2
1993. 7
1997. 3
1997. 9
1998. 8
2001.11
2001.12
2004. 2
2007.10
[
[
[
[
[
[
[
[
[
[
0.0003]
0.0000]
0.0000]
0.0000]
0.0000]
0.0000]
0.0000]
0.0114]
0.0002]
0.0000]
Las variables de intervención, 4 de las cuales se producen 2 en febrero y 2 en julio. En marzo, agosto,
setiembre, octubre, noviembre y diciembre se registran 1 en cada mes.
Análisis de la dependencia Temporal
La tabla siguiente muestra 5 estadísticos que permiten el análisis del modelo considerando la
adecuacidad del mismo en función la autodependencia.
Tabla 4 Estadísticos y su significancia del ln de lluvias
Valor del Estadístico
P-Valor
H(67)= 0.90371
[0.66010117]
r( 1)= 0.01796
[0.39877515]
r(13)= 0.00125
[0.49287836]
DW=1.955
[0.37396768]
Q(13,10)= 8.773
[0.55377382]
Luego los P-valores que acompañan a los estadísticos no dan significativos. No hay autocorrelación
residual a la distancia 1, ni 13, r(1) y r(13). No hay evidencia de correlación serial (DW), el estadístico
H indica que se acepta la hipótesis de no heterosedasticidad y Q indica la adecuacidad de un modelo
con 4 hipermarámetros.
Medidas de Bondad de Ajuste y Análisis de los residuos
La variancia del error de predicción PEV=0.409871,el criterio de información de Akaike, AIC=0.64682 y el coeficiente de determinación de las diferencias fue R2d=0.80895.
Los residuos estimados para el modelo propuesto, tuvieron una Media=-0.024437 con un Desvío
Estándar=0.946549. El test para el análisis de normalidad de los mismos, se realizó con estadístico
25
de Bowman-Sheton cuyo resultado fue BS Chi2=3.3961, P-valor=0.1830 aceptación la hipótesis
de normalidad.
Tabla 5. Año, Mes, valor de predicción y Desvío Estándar de las lluvias
Período
Predicción
R.m.s.e.
2008. 1
2008. 2
2008. 3
2008. 4
2008. 5
2008. 6
2008. 7
2008. 8
2008. 9
2008.10
2008.11
2008.12
240.83
150.70
140.04
132.35
134.91
58.692
51.913
62.940
145.09
342.88
313.45
341.51
234.91
147.02
136.63
129.13
131.63
57.262
50.644
61.395
141.52
334.40
305.68
333.02
26
Descargar