Modelos para series de tiempo de memoria larga

Anuncio
XXV Simposio Internacional de Estadística 2015
Armenia, Colombia, 5, 6, 7 y 8 de Agosto de 2015
Modelos para series de tiempo de memoria larga: identificación y
aplicaciones
Elkin Castaño V.12,a
1 Escuela
de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Medellín, Colombia
2 Departamento
de Economía, Facultad de Ciencias Económicas, Universidad de Antioquia, Medellín,
Colombia
Resumen
Desde su primera aplicación en hidrología (Hurst (1951)), los procesos de memoria larga han
mostrado ser útiles para representar la estructura de dependencia de largo plazo de algunas series de
tiempo, de las cuales se suponía que procedían de procesos no estacionarios ARIMA. En el análisis de
series de tiempo, es una práctica habitual que una serie aparentemente no estacionaria sea diferenciada
hasta conseguir estacionaridad. Granger & Joyeux (1980), señalan que este procedimiento puede
tener consecuencias negativas en la modelación, pues la diferenciación elimina la componente de
bajas frecuencias, la cual es muy importante en los pronósticos a largo plazo. En estos casos, la
diferenciación entera es “excesiva”, pero la no diferenciación tampoco es adecuada. El objetivo de este
trabajo es presentar una metodología de identificación de esta clase de modelos, y los resultados de
una comparación con otros métodos a través de un estudio de simulación.
Palabras clave: Series de tiempo, modelos ARIMA, modelos de memoria larga, modelos ARFIMA.
1. Introducción
La evidencia empírica sobre series de tiempo con memoria larga se remonta mucho tiempo atrás. Quizás
el ejemplo más conocido sea el trabajo de Hurst (1951), en el campo de la hidrología. En los últimos años
ha habido un gran interés en el estudio de las propiedades de las series de tiempo con memoria larga de la
clase ARFIMA y de sus aplicaciones en otras áreas. Beran (1992) señala que se ha encontrado evidencia
de memoria larga en series de tiempo de otras ciencias como tales Economía, Finanzas, Astronomía,
Agricultura, Química, Meteorología, Medio Ambiente, Biología, Telecomunicaciones y Geología.
La memoria de una serie de tiempo está relacionada con el comportamiento que exhibe su función de
autocorrelación. Una clase muy amplia de series de tiempo está descrita por la ecuación
φp (B)(1 − B)d Zt = θq (B)at ,
t = 1, . . . , n
donde B es el operador de rezagos, φp (B) = 1 − φ1 B − · · · − φp B p es el polinomio autorregresivo de orden
p, θq (B) = 1 − θ1 B − · · · − θq B q es el polinomio de medias móviles de orden q, φp (B) y θq (B) no tienen
factores comunes, (1 − B)d es el operador diferencia, d es una constante, θ0 es una constante y at son
variables i.i.d. de media cero.
Si el polinomio φp (B) tiene sus ceros fuera del círculo unidad, el comportamiento de la memoria del
proceso está gobernado por el valor de la constante d. En este caso se dice que Zt es un proceso integrado
a Profesor
asociado. E-mail: elkincv@gmail.com
1
2
Elkin Castaño V.
de orden d, y se denota como Zt ∼ I(d). Es decir Zt es un proceso integrado de orden d si (1−B)d Zt = ut ,
donde ut es un proceso estacionario.
Si d = 0, Zt es un proceso estacionario de memoria corta o I(0). Zt sigue un proceso ARMA(p, q). Si
d es un número entero positivo, Zt tiene memoria persistente y d raíces unitarias. Zt sigue un proceso
integrado ARIMA(p, d, q). Generalmente d = 1, 2. Si d es un número real no entero, se dice que Zt
es un proceso fraccionalmente integrado. Si 0 < d < 0.5, Zt es un proceso estacionario de memoria
larga. Si 0.5 ≤ d < 1.0, Zt es un proceso no estacionario, con reversión a la media. Si 1.0 < d, Zt
es un proceso no estacionario, sin reversión
a la media. Zt sigue un proceso fraccionalmente integrado
P∞
ARFIMA(p, d, q), donde (1−B)d = j=0 bj B j con b0 = 1 y bj = [(j − d − 1)/j] bj−1 , j ≥ 1 es el operador
de diferencia fraccional, definido para d > −1. Si los valores del parámetro d se encuentran en el intervalo
−0.5 < d < 0.5 el proceso ARFIMA(p, d, q) es estacionario e invertible. La componente ARMA(p, q) del
modelo ARFIMA es denominada la componente de corto plazo.
Los modelos integrados proporcionan una gran flexibilidad en la interpretación de la persistencia en
términos del efecto que tiene un cambio unitario en el término de error del modelo (shock, innovación)
sobre los valores futuros de la serie. En el proceso ARMA (d = 0), el efecto de un shock acaba desapareciendo en el corto plazo. En los procesos ARIMA (d = 1, 2), el efecto de un shock persiste indefinidamente,
y en un proceso fraccionalmente integrado ARFIMA con 0 < d < 1, el efecto de un shock acaba desapareciendo y la serie revierte finalmente a su media, incluso en el intervalo 0.5 ≤ d < 1, donde el proceso no
es estacionario. En este sentido suele decirse que un ARFIMA no estacionario es “menos no estacionario”
que los procesos con raíces unitarias.
Granger (1980) y Granger & Joyeux (1980) señalan que la práctica habitual de diferenciar una serie
de tiempo aparentemente no estacionaria hasta conseguir estacionariedad, puede tener consecuencias
negativas en la correcta modelación de algunas series de tiempo. Frecuentemente la serie diferenciada se
convierte en una serie en la cual se eliminó la componente de bajas frecuencias, que es muy importante
en las predicciones a largo plazo. Para modelar este tipo de series, la diferenciación entera es “excesiva”
(sobrediferenciación) pero la no diferenciación tampoco es adecuada (subdiferenciación).
XXV Simposio de Estadística (2015)
3
Modelos para series de tiempo de memoria larga: identificación y aplicaciones
Caracterización del proceso ARFIMA en el dominio del tiempo
Hosking (1981) prueba que cuando 0 < d < 0.5 existe una constante positiva C tal que para k grande
2d−1
ρk ≈ Ck
P∞ . Es decir, la ACF decae hiperbólicamente hacia cero y no es absolutamente sumable, es
decir, k=−∞ |ρk | no converge. En este caso se dice que Zt tiene memoria larga. Cuando −0.5 < d < 0,
Zt es un proceso estacionario con autocorrelaciones negativas y absolutamente sumables. En este caso Zt
tiene memoria corta y se dice que es antipersistente.
Caracterización del proceso ARFIMA en el dominio de la frecuencia
Cuando d < 0.5, es decir, Zt es un proceso estacionario, la función de densidad espectral del pro−2d
ceso ARFIMA es fZ (ω) = |1 − e−iω |−2d fW (ω) = [2 sin(ω/2)]
fW (ω), 0 ≤ ω ≤ π donde fW (ω) =
2
−iω
−iω 2
(σa /2π)|θ(e )/φ(e )| es la densidad espectral del proceso ARMA(p, q). Cuando ω → 0+ , fZ (ω) ≈
Cf |ω|−2d , donde Cf es una constante. Para valores 0 < d < 0.5, la densidad espectral es una función
decreciente de ω no acotada en el origen, y está dominada por las frecuencias bajas. Esto muestra la
relación directa que hay entre la persistencia de las autocorrelaciones en rezagos grandes y la dinámica
del espectro en las frecuencias bajas.
2. Metodología para la identificación del modelo ARFIMA(p, d, q)
La construcción del modelo ARFIMA requiere obtener la identificación de la componente de diferenciación fraccional d y de la componente de corto plazo ARMA.
Posible proceso de identificación: Dado d, obtenga (1 − B)d Zt = ut . Como ut es un ARFMA(p, q) use
los procedimientos tradicionales de identificación de Box & Jenkins (1976). Problema: d es un número
real, no entero.
2.1. Procedimiento basado en la estimación inicial del parámetro de diferenciación fraccional
Algunos autores tales como Wei (2006), Reisen et al. (2001), Castaño et al. (2008) proponen un
procedimiento de identificación de un modelo ARFIMA similar al proceso de identificación en un modelo
ARIMA sugerido por Box & Jenkins (1976). Este procedimiento se basa en: i ) determinar a d, ii )
diferenciar la serie empleando este valor de d, iii ) usar la serie diferenciada para seleccionar los órdenes
adecuados p y q, para la componente de corto plazo.
A continuación se presentan dos estimadores semiparamétricos tradicionales para el parámetro de
diferenciación fraccional, para series estacionarias.
a) El Estimador GPH de Geweke & Porter-Hudak (1983)
Considere la densidad espectral del proceso ARFIMA(p, d, q). Tomando su logaritmo natural, se obtiene ln fZ (ωj ) = d ln |1 − e−iω |−2 + ln fW (ωj ). Los autores muestran que para ωj cercanas a cero, es
decir, j = 1, 2, . . . , m << (n/2) y tal que m/n → 0 cuando n → ∞, la estimación
de d puede
h
i basarse
2
en la regresión OLS de Yj = c + dXj + ej , donde Yj = ln IZ (ωj ), Xj = ln 1/4 (sin(ωj /2)) , donde la
sucesión ej son variables
aleatorias i.i.d, ωj son
h
i las la frecuencias de Fourier ωj = 2πj, j = 1, . . . [n/2] y
Pn−1
−1
IZ (ωj ) = (2π)
γ̂(0) + 2 l=1 γ̂(l) cos(lωj ) es la j-ésima ordenada del periodograma.
b) El estimador SPR
Brockwell & Davis (2006) muestran que el periodograma no es un estimador consistente de la función
de densidad espectral. Reisen (1994), propuso usar un estimador consistente el cual es una versión suavizada del periodograma, denominado el estimador SPR. El estimador SPR se obtiene
la función
Preemplazando
v
de densidad espectral por el periodograma suavizado dado por IS (ω) = (2π)−1 l=−v κ(j/v)γ̂(l) cos(lω),
XXV Simposio de Estadística (2015)
4
Elkin Castaño V.
donde κ(·) es la ventana de Parzen. El estimador SPR se obtiene aplicando OLS al modelo de regresión anterior, usando el periodograma suavizado IS (ωj ) en vez del periodograma IZ (ωj ). El punto de
truncamiento v = nβ , con 0 < β < 1.
Algunos autores, entre ellos Agiakloglou et al. (1993), señalan la pérdida de eficiencia del estimador
GPH en muestras finitas. Señalan que cuando existe una componente AR(1) o MA(1) con parámetro
cerca a la unidad, el estimador tiene un sesgo enorme y es muy ineficiente. Robinson (1995) señala que
el supuesto de normalidad del proceso es muy restrictivo. Para el caso del estimador SPR, Reisen et al.
(2001) reportan pérdida de eficiencia para el caso donde existe componentes de corto plazo AR(1) o
MA(1).
c) La metodología propuesta
Para series ARFIMA estacionarias, Castaño et al. (2008) y Castaño et al. (2010) proponen un procedimiento para obtener un estimador inicial para el parámetro d, basados en una aproximación autorregresiva finita de la componente de corto plazo de un modeloARFIMA(p, d, q) estacionario e invertible. Especificando el modelo ARFIMA alternativamente como π(B)(1 − B)d Zt = at , donde π(B) =
θq−1 (B)φp (B) = 1 − π1 B − π2 B 2 − · · · , es la componente dual autorregresiva infinita del modelo de
corto plazo ARMA(p, q) del modelo ARFIMA(p, d, q), los autores proponen estimar el parámetro d
aproximando el polinomio infinito π(B) por medio de un polinomio autorregresivo finito π ∗ (B) don∗
de π ∗ (B) = 1 − π1∗ B − π2∗ B 2 − · · · − πp∗∗ B p para un orden suficientemente alto p∗ . La estimación de d se
lleva a cabo realizando estimación de máxima verosimilitud en el modelo aproximado ARFIMA(p∗ , d, 0).
Para series ARFIMA no estacionarias, Lemus & Castaño (2013) modificaron el procedimiento anterior,
al caso de una serie no estacionaria. Suponga que Zt es un proceso ARFIMA no estacionario de la
forma φ(B)(1 − B)d Zt = θ0 + θ(B)at , d > 0.5. Este proceso puede ser escrito equivalentemente como
∗
φ(B)(1 − B)1+d Zt = θ0 + θ(B)at , donde, si d∗ = 0 entonces Zt es un proceso no estacionario de raíz
unitaria. Si −0.5 < d∗ < .05, el proceso es no estacionario de raíz fraccional. Cuando −0.5 < d∗ < 0,
entonces Zt es un proceso no estacionario de memoria larga con reversión a la media y su primera diferencia
es estacionaria y antipersistente. Si 0 < d∗ < 0.5, el proceso Zt es no estacionario de memoria larga sin
reversión a la media y su primera diferencia es estacionaria de memoria larga. Por tanto, para estimar a
d en un proceso no estacionario de raíz fraccional, primero se estima dˆ∗ sobre la serie diferenciada una
∗
vez, de acuerdo al modelo π ∗ (B)(1 − B)d Wt = at , donde Wt = (1 − B)Zt . La estimación de d se obtiene
como dˆ = 1 + dˆ∗ .
3. Experimento Monte Carlo
El procedimiento se basa en simular la serie ARFIMA y usar los tres procedimientos descritos sobre la
serie para estimar el parámetro d. Aplicar luego la diferenciación
a la serie usando la estimación
Pfraccional
∞
de d, donde la estructura de rezagos infinita de (1 − B)d = j=0 bj B j se reemplaza por (1 − B)d+ =
Pt−1
j
j=0 bj B . A continuación se emplea el procedimiento auto.arima de la librería forecast del programa
computacional R para la identificación automática del modelo ARMA que queda en la serie diferenciada.
Finalmente se reporta si hubo éxito o no en la identificación de acuerdo al modelo teórico. Para realizar
la simulación se utilizaron los paquetes fracdiff, ugarch y forecast del programa R. En todos los casos
at ∼ N (0, 1). Se emplearon 1000 repeticiones para realizaciones de n = 500, 1000 datos. Amplitud
de banda GPH = 0.5. Amplitud de banda SPR = 0.5, β = 0.9. Se simularon los siguientes procesos
estacionarios:
Modelo
Modelo
Modelo
Modelo
1:
2:
3:
4:
ARFIMA(0, d, 0) o ruido blanco fraccional, (1 − B)d Zt = at , donde d = 0.1, 0.25, 0.4, 0.45.
ARFIMA(1, d, 0), (1 − φB)(1 − B)d Zt = at , donde φ = ±0.7, d = 0.1, 0.25, 0.4, 0.45.
ARFIMA(0, d, 1), (1 − B)d Zt = (1 − θB)at , donde θ = ±0.7, d = 0.1, 0.25, 0.4, 0.45.
ARFIMA(1, d, 1), (1 − φB)(1 − B)d Zt = (1 − θB)at , donde φ = ±0.7, θ = ±0.3 d =
0.1, 0.25, 0.4, 0.45.
XXV Simposio de Estadística (2015)
5
Modelos para series de tiempo de memoria larga: identificación y aplicaciones
Tabla 1: Resultados agregados por el valor de d para todos los modelos
D = 0.1
D = 0.25
Estimador
Promedio éxitos
Estimador
Promedio éxitos
n = 500 n = 1000
n = 500 n = 1000
GPH
0.197
0.230
GPH
0.217
0.316
SPR
0.461
0.537
SPR
0.568
0.639
PROP
0.680
0.722
PROP
0.638
0.681
D = 0.40
D = 0.45
Estimador
Promedio éxitos
Estimador
Promedio éxitos
n = 500 n = 1000
n = 500 n = 1000
GPH
0.194
0.434
GPH
0.162
0.253
SPR
0.507
0.565
SPR
0.404
0.447
PROP
0.617
0.658
PROP
0.606
0.644
Figura 1: Resultados agregados por el valor de d para todos los modelos
Tabla 2: Resultados totales
Estimador Promedio éxitos total
GPH
0.306
SPR
0.555
PROP
0.710
4. Conclusiones
De los resultados obtenidos en el estudio anterior, la metodología propuesta parece proporcionar
mejoras importantes en la identificación de un modelo ARFIMA estacionario.
i) La proporción de éxitos en la identificación es mayor que en los otros casos.
ii) El estimador GPH es el de peor comportamiento.
iii) Todas las metodologías aumentan su potencia a medida que n crece.
Referencias
Agiakloglou, C., Newbold, P. & Wohar, M. (1993), ‘Bias in an estimator of the fractional difference
parameter’, Journal of Time Series Analysis 14, 235–246.
XXV Simposio de Estadística (2015)
6
Elkin Castaño V.
Beran, J. (1992), ‘Statistical methods for data with long-range dependence’, Statistical Science 7, 404–416.
Box, G. E. P. & Jenkins, G. M. (1976), Time Series Analysis: Forecasting and Control, 2nd. edn, HoldenDay. San Francisco.
Brockwell, P. J. & Davis, R. (2006), Time Series: Theory and Methods, 2nd. edn, Springer-Verlag. New
York.
Castaño, E., Gallón, S. & Gómez, K. (2008), ‘Una nueva prueba para el parámetro de diferenciación
fraccional’, Revista Colombiana de Estadística 31, 67–84.
Castaño, E., Gallón, S. & Gómez, K. (2010), ‘Sesgos en estimación, tamaño y potencia de una prueba
sobre el parámetro de memoria larga en modelos ARFIMA’, Lecturas de Economía 73, 131–148.
Geweke, J. & Porter-Hudak, S. (1983), ‘The estimation and application of long-memory time series
models’, Journal of Time Series Analysis 4, 221–238.
Granger, C. W. J. (1980), ‘Long memory relationships and the aggregation of dynamic models’, Journal
of Econometrics 14, 227–238.
Granger, C. W. J. & Joyeux, R. (1980), ‘An introduction to long-memory time series models and fractional
differencing’, Journal of Time Series Analysis 1, 15–39.
Hosking, J. R. M. (1981), ‘Fractional differencing’, Biometrika 68, 165–176.
Hurst, H. E. (1951), ‘Long-term storage capacity of reservoirs’, Transactions of the American Society of
Civil Engineers 116, 770–799.
Lemus, D. & Castaño, E. (2013), ‘Prueba sobre la existencia de una raíz fraccional en una serie de tiempo
no estacionaria’, Lecturas de Economía 80(4), 817–822.
Reisen, V. A. (1994), ‘Estimation of the fractional difference parameter in the ARIMA(p, d, q) model
using the smoothed periodogram’, Journal of Time Series Analysis 15(3), 335–350.
Reisen, V., Abraham, B. & Lopes, S. (2001), ‘Estimation of parameters in ARFIMA processes: a simulation study’, Communications in Statistics - Simulation and Computation 30(4), 787–803.
Robinson, P. M. (1995), ‘Gaussian semiparametric estimation of long range dependence’, The Annals of
Statistics 23(5), 1630–1661.
Wei, W. (2006), Time Series Analysis Univariate and Multivariate Methods, 2nd. edn, Addison-Wesley.
Boston.
XXV Simposio de Estadística (2015)
Descargar