XXV Simposio Internacional de Estadística 2015 Armenia, Colombia, 5, 6, 7 y 8 de Agosto de 2015 Modelos para series de tiempo de memoria larga: identificación y aplicaciones Elkin Castaño V.12,a 1 Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Medellín, Colombia 2 Departamento de Economía, Facultad de Ciencias Económicas, Universidad de Antioquia, Medellín, Colombia Resumen Desde su primera aplicación en hidrología (Hurst (1951)), los procesos de memoria larga han mostrado ser útiles para representar la estructura de dependencia de largo plazo de algunas series de tiempo, de las cuales se suponía que procedían de procesos no estacionarios ARIMA. En el análisis de series de tiempo, es una práctica habitual que una serie aparentemente no estacionaria sea diferenciada hasta conseguir estacionaridad. Granger & Joyeux (1980), señalan que este procedimiento puede tener consecuencias negativas en la modelación, pues la diferenciación elimina la componente de bajas frecuencias, la cual es muy importante en los pronósticos a largo plazo. En estos casos, la diferenciación entera es “excesiva”, pero la no diferenciación tampoco es adecuada. El objetivo de este trabajo es presentar una metodología de identificación de esta clase de modelos, y los resultados de una comparación con otros métodos a través de un estudio de simulación. Palabras clave: Series de tiempo, modelos ARIMA, modelos de memoria larga, modelos ARFIMA. 1. Introducción La evidencia empírica sobre series de tiempo con memoria larga se remonta mucho tiempo atrás. Quizás el ejemplo más conocido sea el trabajo de Hurst (1951), en el campo de la hidrología. En los últimos años ha habido un gran interés en el estudio de las propiedades de las series de tiempo con memoria larga de la clase ARFIMA y de sus aplicaciones en otras áreas. Beran (1992) señala que se ha encontrado evidencia de memoria larga en series de tiempo de otras ciencias como tales Economía, Finanzas, Astronomía, Agricultura, Química, Meteorología, Medio Ambiente, Biología, Telecomunicaciones y Geología. La memoria de una serie de tiempo está relacionada con el comportamiento que exhibe su función de autocorrelación. Una clase muy amplia de series de tiempo está descrita por la ecuación φp (B)(1 − B)d Zt = θq (B)at , t = 1, . . . , n donde B es el operador de rezagos, φp (B) = 1 − φ1 B − · · · − φp B p es el polinomio autorregresivo de orden p, θq (B) = 1 − θ1 B − · · · − θq B q es el polinomio de medias móviles de orden q, φp (B) y θq (B) no tienen factores comunes, (1 − B)d es el operador diferencia, d es una constante, θ0 es una constante y at son variables i.i.d. de media cero. Si el polinomio φp (B) tiene sus ceros fuera del círculo unidad, el comportamiento de la memoria del proceso está gobernado por el valor de la constante d. En este caso se dice que Zt es un proceso integrado a Profesor asociado. E-mail: elkincv@gmail.com 1 2 Elkin Castaño V. de orden d, y se denota como Zt ∼ I(d). Es decir Zt es un proceso integrado de orden d si (1−B)d Zt = ut , donde ut es un proceso estacionario. Si d = 0, Zt es un proceso estacionario de memoria corta o I(0). Zt sigue un proceso ARMA(p, q). Si d es un número entero positivo, Zt tiene memoria persistente y d raíces unitarias. Zt sigue un proceso integrado ARIMA(p, d, q). Generalmente d = 1, 2. Si d es un número real no entero, se dice que Zt es un proceso fraccionalmente integrado. Si 0 < d < 0.5, Zt es un proceso estacionario de memoria larga. Si 0.5 ≤ d < 1.0, Zt es un proceso no estacionario, con reversión a la media. Si 1.0 < d, Zt es un proceso no estacionario, sin reversión a la media. Zt sigue un proceso fraccionalmente integrado P∞ ARFIMA(p, d, q), donde (1−B)d = j=0 bj B j con b0 = 1 y bj = [(j − d − 1)/j] bj−1 , j ≥ 1 es el operador de diferencia fraccional, definido para d > −1. Si los valores del parámetro d se encuentran en el intervalo −0.5 < d < 0.5 el proceso ARFIMA(p, d, q) es estacionario e invertible. La componente ARMA(p, q) del modelo ARFIMA es denominada la componente de corto plazo. Los modelos integrados proporcionan una gran flexibilidad en la interpretación de la persistencia en términos del efecto que tiene un cambio unitario en el término de error del modelo (shock, innovación) sobre los valores futuros de la serie. En el proceso ARMA (d = 0), el efecto de un shock acaba desapareciendo en el corto plazo. En los procesos ARIMA (d = 1, 2), el efecto de un shock persiste indefinidamente, y en un proceso fraccionalmente integrado ARFIMA con 0 < d < 1, el efecto de un shock acaba desapareciendo y la serie revierte finalmente a su media, incluso en el intervalo 0.5 ≤ d < 1, donde el proceso no es estacionario. En este sentido suele decirse que un ARFIMA no estacionario es “menos no estacionario” que los procesos con raíces unitarias. Granger (1980) y Granger & Joyeux (1980) señalan que la práctica habitual de diferenciar una serie de tiempo aparentemente no estacionaria hasta conseguir estacionariedad, puede tener consecuencias negativas en la correcta modelación de algunas series de tiempo. Frecuentemente la serie diferenciada se convierte en una serie en la cual se eliminó la componente de bajas frecuencias, que es muy importante en las predicciones a largo plazo. Para modelar este tipo de series, la diferenciación entera es “excesiva” (sobrediferenciación) pero la no diferenciación tampoco es adecuada (subdiferenciación). XXV Simposio de Estadística (2015) 3 Modelos para series de tiempo de memoria larga: identificación y aplicaciones Caracterización del proceso ARFIMA en el dominio del tiempo Hosking (1981) prueba que cuando 0 < d < 0.5 existe una constante positiva C tal que para k grande 2d−1 ρk ≈ Ck P∞ . Es decir, la ACF decae hiperbólicamente hacia cero y no es absolutamente sumable, es decir, k=−∞ |ρk | no converge. En este caso se dice que Zt tiene memoria larga. Cuando −0.5 < d < 0, Zt es un proceso estacionario con autocorrelaciones negativas y absolutamente sumables. En este caso Zt tiene memoria corta y se dice que es antipersistente. Caracterización del proceso ARFIMA en el dominio de la frecuencia Cuando d < 0.5, es decir, Zt es un proceso estacionario, la función de densidad espectral del pro−2d ceso ARFIMA es fZ (ω) = |1 − e−iω |−2d fW (ω) = [2 sin(ω/2)] fW (ω), 0 ≤ ω ≤ π donde fW (ω) = 2 −iω −iω 2 (σa /2π)|θ(e )/φ(e )| es la densidad espectral del proceso ARMA(p, q). Cuando ω → 0+ , fZ (ω) ≈ Cf |ω|−2d , donde Cf es una constante. Para valores 0 < d < 0.5, la densidad espectral es una función decreciente de ω no acotada en el origen, y está dominada por las frecuencias bajas. Esto muestra la relación directa que hay entre la persistencia de las autocorrelaciones en rezagos grandes y la dinámica del espectro en las frecuencias bajas. 2. Metodología para la identificación del modelo ARFIMA(p, d, q) La construcción del modelo ARFIMA requiere obtener la identificación de la componente de diferenciación fraccional d y de la componente de corto plazo ARMA. Posible proceso de identificación: Dado d, obtenga (1 − B)d Zt = ut . Como ut es un ARFMA(p, q) use los procedimientos tradicionales de identificación de Box & Jenkins (1976). Problema: d es un número real, no entero. 2.1. Procedimiento basado en la estimación inicial del parámetro de diferenciación fraccional Algunos autores tales como Wei (2006), Reisen et al. (2001), Castaño et al. (2008) proponen un procedimiento de identificación de un modelo ARFIMA similar al proceso de identificación en un modelo ARIMA sugerido por Box & Jenkins (1976). Este procedimiento se basa en: i ) determinar a d, ii ) diferenciar la serie empleando este valor de d, iii ) usar la serie diferenciada para seleccionar los órdenes adecuados p y q, para la componente de corto plazo. A continuación se presentan dos estimadores semiparamétricos tradicionales para el parámetro de diferenciación fraccional, para series estacionarias. a) El Estimador GPH de Geweke & Porter-Hudak (1983) Considere la densidad espectral del proceso ARFIMA(p, d, q). Tomando su logaritmo natural, se obtiene ln fZ (ωj ) = d ln |1 − e−iω |−2 + ln fW (ωj ). Los autores muestran que para ωj cercanas a cero, es decir, j = 1, 2, . . . , m << (n/2) y tal que m/n → 0 cuando n → ∞, la estimación de d puede h i basarse 2 en la regresión OLS de Yj = c + dXj + ej , donde Yj = ln IZ (ωj ), Xj = ln 1/4 (sin(ωj /2)) , donde la sucesión ej son variables aleatorias i.i.d, ωj son h i las la frecuencias de Fourier ωj = 2πj, j = 1, . . . [n/2] y Pn−1 −1 IZ (ωj ) = (2π) γ̂(0) + 2 l=1 γ̂(l) cos(lωj ) es la j-ésima ordenada del periodograma. b) El estimador SPR Brockwell & Davis (2006) muestran que el periodograma no es un estimador consistente de la función de densidad espectral. Reisen (1994), propuso usar un estimador consistente el cual es una versión suavizada del periodograma, denominado el estimador SPR. El estimador SPR se obtiene la función Preemplazando v de densidad espectral por el periodograma suavizado dado por IS (ω) = (2π)−1 l=−v κ(j/v)γ̂(l) cos(lω), XXV Simposio de Estadística (2015) 4 Elkin Castaño V. donde κ(·) es la ventana de Parzen. El estimador SPR se obtiene aplicando OLS al modelo de regresión anterior, usando el periodograma suavizado IS (ωj ) en vez del periodograma IZ (ωj ). El punto de truncamiento v = nβ , con 0 < β < 1. Algunos autores, entre ellos Agiakloglou et al. (1993), señalan la pérdida de eficiencia del estimador GPH en muestras finitas. Señalan que cuando existe una componente AR(1) o MA(1) con parámetro cerca a la unidad, el estimador tiene un sesgo enorme y es muy ineficiente. Robinson (1995) señala que el supuesto de normalidad del proceso es muy restrictivo. Para el caso del estimador SPR, Reisen et al. (2001) reportan pérdida de eficiencia para el caso donde existe componentes de corto plazo AR(1) o MA(1). c) La metodología propuesta Para series ARFIMA estacionarias, Castaño et al. (2008) y Castaño et al. (2010) proponen un procedimiento para obtener un estimador inicial para el parámetro d, basados en una aproximación autorregresiva finita de la componente de corto plazo de un modeloARFIMA(p, d, q) estacionario e invertible. Especificando el modelo ARFIMA alternativamente como π(B)(1 − B)d Zt = at , donde π(B) = θq−1 (B)φp (B) = 1 − π1 B − π2 B 2 − · · · , es la componente dual autorregresiva infinita del modelo de corto plazo ARMA(p, q) del modelo ARFIMA(p, d, q), los autores proponen estimar el parámetro d aproximando el polinomio infinito π(B) por medio de un polinomio autorregresivo finito π ∗ (B) don∗ de π ∗ (B) = 1 − π1∗ B − π2∗ B 2 − · · · − πp∗∗ B p para un orden suficientemente alto p∗ . La estimación de d se lleva a cabo realizando estimación de máxima verosimilitud en el modelo aproximado ARFIMA(p∗ , d, 0). Para series ARFIMA no estacionarias, Lemus & Castaño (2013) modificaron el procedimiento anterior, al caso de una serie no estacionaria. Suponga que Zt es un proceso ARFIMA no estacionario de la forma φ(B)(1 − B)d Zt = θ0 + θ(B)at , d > 0.5. Este proceso puede ser escrito equivalentemente como ∗ φ(B)(1 − B)1+d Zt = θ0 + θ(B)at , donde, si d∗ = 0 entonces Zt es un proceso no estacionario de raíz unitaria. Si −0.5 < d∗ < .05, el proceso es no estacionario de raíz fraccional. Cuando −0.5 < d∗ < 0, entonces Zt es un proceso no estacionario de memoria larga con reversión a la media y su primera diferencia es estacionaria y antipersistente. Si 0 < d∗ < 0.5, el proceso Zt es no estacionario de memoria larga sin reversión a la media y su primera diferencia es estacionaria de memoria larga. Por tanto, para estimar a d en un proceso no estacionario de raíz fraccional, primero se estima dˆ∗ sobre la serie diferenciada una ∗ vez, de acuerdo al modelo π ∗ (B)(1 − B)d Wt = at , donde Wt = (1 − B)Zt . La estimación de d se obtiene como dˆ = 1 + dˆ∗ . 3. Experimento Monte Carlo El procedimiento se basa en simular la serie ARFIMA y usar los tres procedimientos descritos sobre la serie para estimar el parámetro d. Aplicar luego la diferenciación a la serie usando la estimación Pfraccional ∞ de d, donde la estructura de rezagos infinita de (1 − B)d = j=0 bj B j se reemplaza por (1 − B)d+ = Pt−1 j j=0 bj B . A continuación se emplea el procedimiento auto.arima de la librería forecast del programa computacional R para la identificación automática del modelo ARMA que queda en la serie diferenciada. Finalmente se reporta si hubo éxito o no en la identificación de acuerdo al modelo teórico. Para realizar la simulación se utilizaron los paquetes fracdiff, ugarch y forecast del programa R. En todos los casos at ∼ N (0, 1). Se emplearon 1000 repeticiones para realizaciones de n = 500, 1000 datos. Amplitud de banda GPH = 0.5. Amplitud de banda SPR = 0.5, β = 0.9. Se simularon los siguientes procesos estacionarios: Modelo Modelo Modelo Modelo 1: 2: 3: 4: ARFIMA(0, d, 0) o ruido blanco fraccional, (1 − B)d Zt = at , donde d = 0.1, 0.25, 0.4, 0.45. ARFIMA(1, d, 0), (1 − φB)(1 − B)d Zt = at , donde φ = ±0.7, d = 0.1, 0.25, 0.4, 0.45. ARFIMA(0, d, 1), (1 − B)d Zt = (1 − θB)at , donde θ = ±0.7, d = 0.1, 0.25, 0.4, 0.45. ARFIMA(1, d, 1), (1 − φB)(1 − B)d Zt = (1 − θB)at , donde φ = ±0.7, θ = ±0.3 d = 0.1, 0.25, 0.4, 0.45. XXV Simposio de Estadística (2015) 5 Modelos para series de tiempo de memoria larga: identificación y aplicaciones Tabla 1: Resultados agregados por el valor de d para todos los modelos D = 0.1 D = 0.25 Estimador Promedio éxitos Estimador Promedio éxitos n = 500 n = 1000 n = 500 n = 1000 GPH 0.197 0.230 GPH 0.217 0.316 SPR 0.461 0.537 SPR 0.568 0.639 PROP 0.680 0.722 PROP 0.638 0.681 D = 0.40 D = 0.45 Estimador Promedio éxitos Estimador Promedio éxitos n = 500 n = 1000 n = 500 n = 1000 GPH 0.194 0.434 GPH 0.162 0.253 SPR 0.507 0.565 SPR 0.404 0.447 PROP 0.617 0.658 PROP 0.606 0.644 Figura 1: Resultados agregados por el valor de d para todos los modelos Tabla 2: Resultados totales Estimador Promedio éxitos total GPH 0.306 SPR 0.555 PROP 0.710 4. Conclusiones De los resultados obtenidos en el estudio anterior, la metodología propuesta parece proporcionar mejoras importantes en la identificación de un modelo ARFIMA estacionario. i) La proporción de éxitos en la identificación es mayor que en los otros casos. ii) El estimador GPH es el de peor comportamiento. iii) Todas las metodologías aumentan su potencia a medida que n crece. Referencias Agiakloglou, C., Newbold, P. & Wohar, M. (1993), ‘Bias in an estimator of the fractional difference parameter’, Journal of Time Series Analysis 14, 235–246. XXV Simposio de Estadística (2015) 6 Elkin Castaño V. Beran, J. (1992), ‘Statistical methods for data with long-range dependence’, Statistical Science 7, 404–416. Box, G. E. P. & Jenkins, G. M. (1976), Time Series Analysis: Forecasting and Control, 2nd. edn, HoldenDay. San Francisco. Brockwell, P. J. & Davis, R. (2006), Time Series: Theory and Methods, 2nd. edn, Springer-Verlag. New York. Castaño, E., Gallón, S. & Gómez, K. (2008), ‘Una nueva prueba para el parámetro de diferenciación fraccional’, Revista Colombiana de Estadística 31, 67–84. Castaño, E., Gallón, S. & Gómez, K. (2010), ‘Sesgos en estimación, tamaño y potencia de una prueba sobre el parámetro de memoria larga en modelos ARFIMA’, Lecturas de Economía 73, 131–148. Geweke, J. & Porter-Hudak, S. (1983), ‘The estimation and application of long-memory time series models’, Journal of Time Series Analysis 4, 221–238. Granger, C. W. J. (1980), ‘Long memory relationships and the aggregation of dynamic models’, Journal of Econometrics 14, 227–238. Granger, C. W. J. & Joyeux, R. (1980), ‘An introduction to long-memory time series models and fractional differencing’, Journal of Time Series Analysis 1, 15–39. Hosking, J. R. M. (1981), ‘Fractional differencing’, Biometrika 68, 165–176. Hurst, H. E. (1951), ‘Long-term storage capacity of reservoirs’, Transactions of the American Society of Civil Engineers 116, 770–799. Lemus, D. & Castaño, E. (2013), ‘Prueba sobre la existencia de una raíz fraccional en una serie de tiempo no estacionaria’, Lecturas de Economía 80(4), 817–822. Reisen, V. A. (1994), ‘Estimation of the fractional difference parameter in the ARIMA(p, d, q) model using the smoothed periodogram’, Journal of Time Series Analysis 15(3), 335–350. Reisen, V., Abraham, B. & Lopes, S. (2001), ‘Estimation of parameters in ARFIMA processes: a simulation study’, Communications in Statistics - Simulation and Computation 30(4), 787–803. Robinson, P. M. (1995), ‘Gaussian semiparametric estimation of long range dependence’, The Annals of Statistics 23(5), 1630–1661. Wei, W. (2006), Time Series Analysis Univariate and Multivariate Methods, 2nd. edn, Addison-Wesley. Boston. XXV Simposio de Estadística (2015)