Notas del Curso Series de Tiempo I. Licenciatura de Estadística Descomposición de series temporales Introducción De acuerdo a Fischer (1995) el precursor de los métodos modernos de descomposición fue Macauley (1931), estas técnicas se originan en tiempos pasados, se pueden rasterar en campos como la meterología y la astronomía en Inglaterra en el siglo pasado. Poynting (1998) y Hooker (1901) trataron de remover el componente tendencia y el componente estacional en algunas series de precios. Spencer (1904) y Andersen (1914) introducen el concepto de polinomios de mayor orden como forma de modelizar el componente tendencia. En el otro campo de estudio donde también se ha trabajado fuertemente en estos temas fue en economía.Los economistas han tratado de estimar y predecir la dinámica de los ciclos económicos, separándolos de las fluctuaciones estacionales y del componente tendencia. Aunque Persons (1919) no fue el primero en plantear las nociones de cuatro componentes básicos: tendencia, ciclo, componenete estacional e irregular, Yule (1921) reporta un trabajo de 1905 que probablemente sea el primero que plantea un método para aislar los componentes inobservables. Componentes de una serie temporal Algunos aspectos esenciales de los procesos no son directamente observables por ello es importante disponer de procedimientos que permitan extraer esos aspectos de las observaciones. Consideremos las siguientes definiciones de los componentes no observables, de acuerdo a Espasa y Cancelo (1993) como: Componente Irregular (It): Son oscilaciones no sistemáticas que en general afectan a la serie en el momento en que ocurren y normalmente tienen una estructura puramente aleatoria (Ruido Blanco). Componente Estacional (St): Son oscilaciones cuasicíclicas de media cero, las que tienen periodicidad anual o de un submúltiplo del año (trimestrales, mensuales, etc.) y se conocen como oscilaciones estacionales. Componente Cíclico (Ct): Son oscilaciones con periodicidad de entre año y medio y hasta diez años, dependiendo de la definición de ciclo que se utilice. Suelen ser menos frecuentes y menos sistemáticas que las estacionales. Componente Tendencial (Tt): Es el componente que recoge la parte de la variable vinculada principalmente con factores de largo plazo. En la práctica resulta muy difícil distinguir la tendencia del componente cíclico, por tanto en general se combinan en un solo componente llamado Tendencia-ciclo (Tt). Existen diversas metodologías para desagregar estos dos componentes, una de las más usadas es la aplicación del filtro de Hodrick y Prescott (1980), en esta primer parte de las notas consideraremos al componente Tendencia – Ciclo como uno sólo. La agregación de estos componentes puede ser aditiva o multiplicativa: Yt = Tt + Ct + St + It 1 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Yt = Tt * Ct * St * It En el primer caso el componente estacional e irregular son magnitudes absolutas que se agregan al componente tendencia-ciclo independientemente del valor que la misma tenga, en cambio en el caso de la agregación multiplicativa los componentes estacional e irregular son una proporción de la tendencia. La diferencia consiste en que la oscilación sea proporcional al nivel o una cantidad independiente de éste. Vamos a plantear el tema de la descomposición o extracción de señales en un contexto univariante. Además vamos a considerar que la variable agregada, Yt, es una realización de un proceso ARIMA. Esto implica que los componentes serán estocásticos. La forma más simple de modelizar algunos de estos componentes, es mediante modelos determinísticos. Por ejemplo para series mensuales, se puede modelizar el componente estacional de forma determinística mediante variables indicatrices i =12 St= ∑β d i =1 i it donde dit = 1 para el mes i y 0 en el resto y los coeficientes β1 + ....+β12 = 0. Otra formulación usa la función coseno en las frecuencias harmónicas estacionales. Lo que caracteriza a estos componentes determínisticos es que St + St-1 +...........+ St-11=0, la suma de los 12 meses consecutivos es cero. El componente tendencia también puede ser representado mediante funciones del tiempo determinísticas, por ejemplo mediante polinomios del tiempo: Tt = a +b t. Este tipo de aproximaciones era muy usual hasta que fue posible desarrollar instrumentos de cálculo potentes. Una vez que se superó este obstáculo se pudo verificar que la aproximación determinista de los componentes no era satisfactoria, los estimadores de los parámetrso estacionales por ejemplo eran inestables y no mostraban signos de convergencia a medida que el número de observaciones crecía. En ocasiones era posible detectar estacionalidad en los residuos y la performance de estos modelos en las predicciones fuera de la muestra eran muy pobres. El siguiente paso fue aproximar las señales mediante medias móviles sobre la serie original. Se llama media móvil de tamaño 2m+1 a la serie definida como: MM(2m+1) = ∑ aj Yt-j Con aj ≠0 con j = - m, m ∑ aj = 1 y aj = a -j ( media móvil simétrica) Esta a proximación supone interpretar al proceso como estocástico, no determinista. La MM(2m+1) es una transformación lineal de las variables aleatorias Yt-j con j = -m, m y por tanto el carácter aleatorio de las variables se traslada a su transformación. Es una transformación basada en promediar sucesivos valores de la serie de origen por lo que genera una nueva serie en la que se han atenuado determinadas características y se han realzado otras. 2 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Conocida toda la serie temporal Y1, Y2,........ YT se pretende en cada momento t obtener la transformación lineal que recoja el aspecto que se desea aislar. Para ello lo más eficiente es utilizar toda la información disponible y en t aplicar una transformación bidireccional (usando las m observaciones pasadas y futuras respecto al momento t). Veamos dos ejemplos en donde se aplican medias móviles para intentar aislar una señal de interés. Ejemplo 1: Sea una serie que sólo presenta tendencia y componente irregular, Yt = Tt + It El objetivo es aislar el componente tendencial mediante la aplicaión de una media móvil simétrica. Si se promedia alrededor del momento t: 1/(2m+1)* ∑ Yt-j = 1/(2m+1)* ∑ Tt-j + 1/(2m+1)* ∑ It-j Y*t = T *t + I *t Si la tendencia (Tt) evoluciona suavemente, su promedio (T *t) va a diferir poco de Tt. En cambio al promediar It, el componente irregular la perturbación presentará menos oscilaciones, como resultado Y*t será muy parecido a T *t, que es similar a la tendencia. A partir de la aplicación de este filtro a la serie original, la observada, se obtuvo el componente tendencia. Esto es una justificiación intuitiva para la operación de promediar sobre la serie original y aproximar al componente tendencial no observable a partir de ese promedio. Lo que está implícito es que este filtro afecta poco a la tendencia pero elimina gran parte del componente irregular. Ejemplo 2: Sea una serie que sólo presenta componente estacional e irregular, Yt = St + It j =11 Vamos a suponer que la serie es mensual y que E( ∑S j =0 t− j )=0 Si aplicamos la misma media móvil que en el ejemplo 1, veremos que el resultado carece de interés: j =11 1/12* ∑Y j =0 * t j =11 t− j = 1/12* ∑S j =0 j =11 t− j + 1/12* ∑I j =0 t− j Y*t = S + I*t j =11 I*t tendrá menos oscilaciones que el componente irregular original, pero la ∑S j =0 t− j será próxima a cero. La aplicación de la misma media móvil que permitía aproximar la tendencia no tiene utilidad cuando lo que se desea es aproximar el componente estacional. Hay que diseñar un filtro específico para captar esa señal, por ejemplo se puede promediar las observaciones correspondientes a igual mes de cada año para los diferentes años. Este procedimiento, que aplica en cada momento t una transformación bidireccional para descomponer las series plantea problemas al principio y al fin de la muestra, en general se soluciona realizando predicciones para los extremos calculadas a partir del modelo ARIMA de la serie observada Yt. 3 Notas del Curso Series de Tiempo I. Licenciatura de Estadística A continuación veremos algunos de los procedimientos utilizados para la descomposición de las series. ● Procedimientos Empiricistas Métodos X-11 y X-11 ARIMA Estos métodos se desarrollaron a partir del análisis empírico de un gran número de series reales, sin hacer referencia explícita a ningún tipo de modelo teórico de generación de los datos. El método Census I presentado por Shiskin en 1954, fue desarrollado en el Bureau of the Census e implicó uno de los desarrollos más importantes en el desarrollo de métodos de descomposición. Esta versión inicial, luego fue modificada y dio lugar a Census II (1955), fueron básicamente versiones electrónicas de los métodos manuales utilizados hasta que el desarrollo de la computación permitió este tipo de implementación. Julius Shiskin fue una figura fundamental en el desarrollo de estos métodos. Análisis críticos de estos métodos dio lugar a variantes más sofisticadas, como lo métodos X-1 a X-101. El X-11 desarrollado en 1965 es aun uno de los métodos de uso más extendido. El X-11 ARIMA (1975-1988) desarrollado por Statistique Canadá en los años 1970, introduce importantes mejoras en la posibilidad de incluir ajuste por días laborables usando además técnicas de regresión más sofisticadas, permitiendo al usuario seleccionar si la descomposición es aditiva o multiplicativa, elegir el valor del desvío a partir del cual una observación se define como extrema, entre otras cosas. Los trabajos de Box y Jenkins en los años 70 posibilitaron mejorar estas versiones, y en 1975, Dagum desarrolla el X-11 ARIMA en Statistics Canada. En esta versión se utiliza un modelo ARIMA específica para extender los extremos de la serie y para imputar los datos faltantes. Se ha desarrolloado una ultima versión llamada X-12 ARIMA en el Bureau of Census. El X-12 ARIMA ha incorporado un programa de pre ajuste que permite modelizar los puntos anómalos y otras intervenciones como los días trabajados y días de pascua, entre otras cosas este nuevo paquete incluye nuevos elementos de diagnóstico de la calidad y estabilidad de las estimaciones realizadas. Aunque no se utilice un modelo específico para la serie observada, Yt, hay un modelo para el cual esta metodología aplica el filtro óptimo. Se han realizado diversos estudios al respecto y se determinó que el filtro aplicado es el más adecuado cuando el proceso generador de los datos (PGD) de Yt es un ARIMA (0,1,1)(0,1,1). Por tanto cuando el PGD de Yt sea muy diferente a él, los resultados serán poco satisfactorios al aplicar tanto el X-11 1 “Para designar esos paquetes con el nombre genérico de “X” nos inspiramos en los ensayos de los aviones propulsados con motores de cohetes. En 1947, Chuck Yeager sobrepasó el muro del sonido con un avión X-1 que fue el primero de una serie de prototipos. A mediados de lso 60, el X-15, el último de esos aviones a reacción, volaba a una velocidad varias veces superior a la velocidad del sonido. “ Young, A. (Abril 2000) Prefacio de “Desestacionalizar con el método X-11” Ladiray y Quennenville. Methodologica N°8 (2000-2001) 4 Notas del Curso Series de Tiempo I. Licenciatura de Estadística como los filtros de la familia X-11 para la descomposición. De todos modos hoy día siguen siendo los procedimientos más utilizados para la descomposición de las serie económicas. En Ladiray y Quenneville (200-2001) se identifican dos grandes tendencias de desestacionalización, el enfoque empírico y el enfoque por modelización. En el documento explicitan lo que identifican como las principales críticas que se hacen a cada uno de estos enfoques. “Por ejemplo, se reprocha a los métodos empíricos que no sean optimos y que no se apoyen en modelos explícitos, lo cual hace particularmente difícil, sino imposible, el conocimiento de las propiedades estadísticas de los estimadores utilizados. Los métodos basados en modelos son satisfactorios en ese aspecto, pero subsisten interrogantes en lo que hace a la pertinencia de la modelización, sobre todo cuando los modelos son empleados para series económicas que dependen, esencialmente, de numerosos factores externos. Existen dudas también que esos métodos de estimación sean suficientemente robustos en el caso de series fuertemente perturbadas. ...” En ese documento se presenta una clasificación de los métodos de desestacionalización algo diferente a la antes planteada en estas notas en métodos no paramétricos con modelos implícitos y métodos paramétricos con modelos explícitos. Dentro de la primer clase, ubican a los métodos de las medianas móviles (SABL, 1982), Lowess ( 1979) dentro del cual señala a STL (1990) y medias móviles (X-11, 1965; X-11-ARIMA, 1975-1988 y X-12 ARIMA,1996 ). Dentro de los métodos paramétricos, con modelos explícitos identifica a dos subconjuntos, métodos aleatorios y métodos deterministas. En el primer subconjunto señala a los Modelos ARIMA (SEATS,1996) y Modelos estructurales (BAYSEA, 1980, DECOMP,1985 y STAMP,1987). En del subconjunto de los deterministas señala a los métodos de regresiones locales y regresiones globales. • Métodos basados en modelos ARIMA para la serie original En las ultimas décadas se han desarrollado una serie de métodos de descomposición, llamados, método basados en modelos. Surgen trabajos en dos diercciones fundamentalmente: una, en que se especifica inicialmente el modelo para cada componente y que se les ha llamado métodos basados en modelos estructrurales (Engle (1978), Harvey y Todd (1983) y la otra dirección llamada, métodos de la forma reducida o método basado en modelos ARIMA, en los que se inicia identificando el modelo para la serie observada y luego se derivan los modelos para los componentes (apoyado en los trabajos de Hillmer y Tiao (1978), Bell y Hillmer (1992), Maravall (1993)). Son modelos lineales estocásticos usualmente parametrizados como modelos ARIMA. Estos métodos comparten la idea de que la serie puede ser expresada como la suma de componentes ortogonales de carácter estocástico. Las diferencias provienen en la especificación que dan a los componentes y la forma cómo encontrar la estimación de los mismos. Métodos de la forma reducida 5 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Dada una serie observada Yt cuyos componentes no observables son la tendencia, el ciclo, el componente estacional y el irregular se trata de estimar estos componentes a partir de la serie original incorporando explícitamente en el diseño del filtro a utilizar la información sobre el PGD de Yt. Al tomarse como punto de partida el modelo estimado para Yt , se dispone de las estimaciones de los parámetros del modelo ARIMA de Yt y con ello se estiman los parámetros de los modelos de los componentes, los filtros adecuados para estimar esos componentes y las series históricas de los componentes. Los componentes son modelizados de modo tal que capturen los picos del espectrograma asociado a cada componente. En esta metodología se plantea un problema de identificación pues existen infinitas estructuras, diferentes descomposiciones igualmente compatibles con el modelo ARIMA de la serie observada. Es necesario introducir una serie de restricciones para poder identificar todos los parámetros. Sea Yt cuyo PGD se puede expresar como: φY(L) Yt = θY (L)εt Vamos a suponer que el PGD de Yt es el modelo de líneas áereas ∆∆12Yt = (1-θ1L) (1-θ12L12) εt con εt ≈ Niid (0, σ2ε) y θ12 ≥ 0 El conjunto de restricciones impuestas son: 1. Cada componente inobservable sigue un modelo ARIMA: φT(L) Tt = θT (L)bt con bt ≈ Niid (0, σ2b) con φT(L) y θT (L), polinomios de orden bajo, con las raíces del polinomio autorregresivo, reales y positivas. φS(L) St = θS (L)ct con ct ≈ Niid (0, σ2c) Las raíces del polinomio autorregresivo son las asociadas a las frecuencias estacionales. φI(L) It = θI(L)dt con dt ≈ Niid (0, σ2d) Aunque , usualmente se supone que el componente irregular es un proceso ruido blanco. Con bt, ct y dt independientes entre sí. La independencia de las innovaciones implica independencia de los componentes, justamente el objeto de la descomposición reside en la necesidad de separar evoluciones dispares que se consideran independientes entre sí pero que se observan en conjunto. 2. Los polinomios autorregresivos están relacionados: φY(L) = φT(L)* φS(L)* φI(L) y no hay raíces comunes entre los polinomios del lado derecho de la ecuación. Esto se impone para garantizar que φY(L) se puede factorizar de modo que todos y cada uno de las raíces se puedan asignar a un solo componente. Si φY(L) = (1-L) (1-L12) = ∆2 U11(L) φT(L) = ∆2 6 Notas del Curso Series de Tiempo I. Licenciatura de Estadística φS(L) = U11(L) φI(L) = 1 3. El orden del polinomio de medias móviles del componente tendencia es θT (L) ≤ 2. 4. El orden del polinomio de medias móviles del componente estacional, θS (L) ≤ 11. k θY (L) εt = ∑φ i =1 ni ( L)θ i ( L)ε it donde φn i (L) es el producto de todos los polinomios autorregresivos φj (L), j=1,...k no incluyendo φi (L) Las condiciones impuestas en el punto 3 y 4 dan lugar a modelos de los componentes más parsimoniosos. 5. Se maximiza la varianza de la innovación del componente irregular, σ2d ( lo que se denomina requisito canónico). Esta restricción permite la identificación de los parámetros de los modelos de los componentes. A su vez esto obliga a concentrar la aleatoriedad en el componente. Este método en esencia hace lo siguiente: Se especifica un modelo ARIMA para los datos observados, luego la factorización de los polinomios autorregresivos dan lugar a los polinomios autorregresivos de los componentes. Lo más usual es que el componente estacional se modelice como un MA de orden (τ-1)( τ = número de períodos por año). Si el espectro de todos los componentes es no negativo, la descomposición se considera admisible. En Maravall (1986) se demuestra que el resultado de la extracción de señales se puede modificar bastante cuando se modifica el modelo de Yt. Modelos muy similares pueden requerir filtros muy diferentes, por ello es necesario para que esta metodología funcione adecuadamente validar el modelo para la serie observada. • Métodos basados en modelos estructurales En estos métodos también se considera en forma explícita los PGD de los componentes. Lo que lo diferencia de los métodos de forma reducida es el papel que se le asigna a la información extra muestral a la hora de formular los modelos para los componentes. Los modelos de la forma reducida giran entorno al modelo de la serie observada, del agregado y a partir de este se obtienen los componentes imponiendo ciertas restricciones para que la descomposición quede identificada. En los modelos de la forma estructural se impone un número mayor de restricciones a priori sobre los modelos de los componentes sin necesidad de conocer el modelo ARIMA del agregado. Si los PGD de los componentes están determinados de antemano, esto implica que también lo están los filtros a utilizar. 7 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Modelos UC-ARIMA (ARIMA de componentes no observables) En Engle (1978) se consideran los modelos estructurales de la forma: Yt = Tt + Ct + St + It (1-L)d φT(L) Tt = θT (L)bt (1-Ls) φS(L) St = θS (L)ct It = dt Con bt, ct y dt ruidos blancos independientes entre sí. Dados estos modelos para los componentes Yt está generados por: φY(L) φY(Ls) (1-L)d (1-Ls)D Yt = θY (L) θ (Ls)εt Siendo los ordenes de los polinomios: φY(L) = φT(L) φY(Ls) = φS(L) θY (L) = máximo ( d+p1+q2s, Ds + p2s + q1,d+Ds+p1+p2s) θ (Ls) de orden cero No todo modelo ARIMA admite la representación en términos de componentes no observables. Maravall (1987y 1988) demuestra que la caracterización antes presentada contiene un error. Si la serie fuera mensual y s=12 y D=1, el proceso para St sería: (1-L12) φS(L12) St = θS (L12)ct Este proceso implica que el componente estacional es no estacionario, la transformación (1-L12) = (1-L) U11(L), pero (1-L) no representa un ciclo estacional sino que por definición es tendencial (un ciclo de período infinito). Por lo que un modelo de este tipo no representa al componente estacional puro sino que es una mezcla del componente estacional (dado por el U11(L)) con una variable que tiene tendencia. Se ha desarrollado un enfoque distinto del planteamiento UC-ARIMA basado en los modelos estructurales de series temporales (Harvey 1981, 1984). Modelo estructural sobre los componentes de una serie temporal El modelo estructural básico está definido como: ∆ Tt = β t + f t ∆ βt = gt ft ≈ Niid(0, σ2f) gt ≈ Niid(0, σ2g) U11(L)St = ct ct ≈ Niid(0, σ2c) It = dt dt ≈ Niid(0, σ2d) 8 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Siendo todas las innovaciones independientes entre sí. Una característica importante de esta estructura es que está determinada en su casi totalidad con información a priori, salvo por las varianzas de las innovaciones, estas cuatro varianzas son los únicos parámetros desconocidos de toda la estructura. Cuando se dispone de un modelo explícito para cada componente, como los métodos basados en modelos, se puede realizar inferencia sobre los resultados de la descomposición, construir intervalos de confianza, aproximar el grado de predictibilidad para diferentes horizontes. Esto es una clara ventaja respecto a los métodos empiricistas, ya que en estos no se cuenta con una representación del proceso generador de los datos de las variables implicadas y por tanto no es posible realizar este tipo de análisis. 9 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Modelización ARIMA , extracción de señales y su implementación en el programa TRAMO-SEATS El programa TRAMO ( Time Series Regression with ARIMA Noise,Missing Observations and Outliers) y SEATS (Signal Extraction in ARIMA Time Series)es un programa para el análisis detallado de series temporales, permite la estimación, la predicción e interpolación de observaciones ausentes, así como la detección de varios tipos de observaciones anómalas. Las variables de regresión pueden ser incluídas por el usuario o generadas por el programa,algunos ejemplos son considerar el efecto de los días laborables, el efecto de Pascua o variables de intervención tipo impulso, escalón u otras. En 1986 Maravall y Gómez comienzan a trabajar sobre una metodología alternativa a los métodos empiricistas de desestacionalización, tomando como punto de partida los trabajos de Burman (1980), de allí surge las primeras versiones del SEATS, programa de extracción de señales utilizando el marco de los modelos de desestacionalización basados en modelos. En 1992 la agencia EUROSTAT encarga a un equipo de expertos la actualización y homogeneización de sus actividades relacionadas con extracción de señales de series temporales. TRAMO y SEATS son recomendados y comienzan a usarse en el tratamiento periódico que esta agencia realiza a miles de series2. Identificación En esta etapa se establece la transformación estacionaria a aplicar, se fija el número de diferencias regulares o estacionales a realizar y los órdenes de los polinomios autorregresivos y de medias móviles regulares y estacionales. En esta etapa se considera la posibilidad de introducir una transformación logarítmica. Para ello el TRAMO aplica un contraste a los efectos de determinar si se aplica o no el logartimo a la serie. Se divide la serie en tramos de doce observaciones y para cada uno de estos tramos, se obtiene la media y se ordenan las observaciones. A los efectos de considerar la posible existencia de outliers, se elimina el máximo y el mínimo de esas observaciones, se obtiene el rango de las restantes. Luego se realiza una regresión de rangos de medias, utilizándose el criterio de la pendiente de esta regresión. Si es próxima a cero o negativa no se toman logaritmos, en caso contrario si se aplica la transformación3. En Maravall y Kaiser (2000) manifiestan que de acuerdo a su experiencia, la modelización estocástica resuelve el dilema entre modelización determínstica o estocástica (diferenciación). Esta ultima alternativa permite una mayor flexibilidad.4Similares consideraciones aplican al caso estacional, entre la alternativa de un modelo con estacionalidad determinística, modelizada mediante variables indicadoras o la diferenciación estacional, aconsejan la modelización estocástica. En el caso trimestral las alternativas podrían llegar a ser: 2 Tomado de Lorenzo y Revuelta (1996) Tomado de Gómez y Taguas (1995) 4 Entre el modelo xt= µ + at y ∆xt = (1-0.99L)at, este último equivale a un modelo del tipo xt= µ(t) + at con una media que se adapta en cada momento del tiempo. 3 10 Notas del Curso Series de Tiempo I. Licenciatura de Estadística 3 xt = µ + ∑ β j d j + at 1 ∆ 4 xt = (1 − 0.95 L4 )at En el primer caso es necesario estimar cuatro parámetros, en el segundo se estima uno pero se pierden 4 valores al inicio, pero el ultimo modelo puede ser aproximdo con un modelo 3 (t ) (t ) como xt = µ + ∑ β j d j + at 1 Donde los coeficientes µ(t) y β(t) se adaptan en cada momento del tiempo. Por lo cual el caso determínistico se puede ver como un caso extremo de gran estabilidad en un modelo estocástico. El programa dispone de un módulo de identificación automática de modelos. En ese procedimiento primero se estiman las raíces unitarias y luego a través del criterio BIC se especifica un modelo ARIMA a la serie diferenciada 5. De acuerdo a Kaiser y Maravall (2000) en la práctica, el procedimiento más eficiente y confiable, dado el bajo poder de los test de raíces unitarias, consiste en determinar las raíces de los polinomioa autoregresivos usando estimaciones superconsistentes de los parámetros asociados con las raíces unitarias, simpre que se determine a priori cuan cerca del uno debe estar la raíz para ser considerada uno. Cuando los ordenes de diferenciación han sido seleccionados, el proceso de identificación se realiza en base al criterio de información BIC (Bayesian Information Criterio). La búsqueda pone énfasis en modelos balanceados y de bajo orden. El modelo de mayor orden considerado es (3,2,3)(2,1,2)12 . Bayesian Information Criterion (Shwarz 1978) Este criterio de selección de l modelo se apoya en dos pilares: minimizar los errores y estimar un modelo parsimonioso, por tanto el criterio constan de dos componentes, uno que refiere a la minimización de los errores y el segundo, un término de penalización por la incorporación de parámetros adicionales. BIC= Ln(SCR/n) + [Ln(n)+((1+p+q+P+Q)/n) n=número de observaciones p=orden de la parte autorregresiva regular P=orden de la parte autorregresiva estacional q= orden de la parte de medias móviles regular Q= orden de la parte de medias móviles estacional 1: si el modelo incluye constante 5 En Fisher y Planas (1998) se reseña el desempeño obtenido al aplicar esta metodología en 13328 series económicas de frecuencia mensual. 11 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Se estiman los parámetros calculando la máxima verosimilitud exacta a través del algoritmo de Mélard (1984). Detección de outliers Los modelos ARIMA están diseñados para recoger regularidades, para que esto sea posible con eficiencia, permitiendo buenos ajustes, los procesos deben tener cierta homogeneidad , los outliers así como los cambios estructurales influyen negativamente.Por ello es importante, detectar estas situaciones atípicas e incorporarlas a la modelización. El enfoque tradicional para tratar el probelma de los outliers, consiste en identificar la posición y el tipo de anomalía y utilizar luego la metodología propuesta por Box y Tiao (1975). En la literatura se pueden ubicar procedimientos que van en la línea de automatizar este proceso de identificación y estimación como son los trabajos de Chang, Tiao y Chen (1988), Hillmer,Bell y Tiao (1983) y Tsay (1986). De acuerdo a Gómez y Taguas (1995) estos procedimientos funcionan bien cuando se trata de detectar y estimar efectos de outliers de gran relevancia, y aislados pero no resuelven completamente el problema. El autor señala tres razones que dificultan la resolución del problema :la primera es la presencia de estos puntos anómalos pueden hacer que el modelo no se especifique adecuadamente, la segunda radica en que incluso si el modelo está adecuademante especificado, los outliers pueden producir sesgos importante en los estimadores de los parámetros y algunos outliers pueden no identificarse debido a un efecto de enmascaramiento.El método que utiliza el programa TRAMO para la detección y corrección de puntos anómalos es un procedimiento alternativo al de Tsay (1986). Para modelizar el efecto del outlier se considera el modelo: z * (t ) = z (t ) + ων (L )I t (T ) ν (L ) es un cociente de polinomios en L z(t) es la serie libre de outliers It(T) es una función indicadora que hace referencia al momento que tiene lugar el outlier ω representa la magnitud El procedimiento que utiliza el TRAMO considera cuatro tipos de outliers: Atípico Innovacional, IO: ν (L ) = θ (L ) (δ (L )φ (L )) Atípico aditivo, AO: ν (L ) = 1 12 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Cambio transitorio, TC: ν (L ) = 1 (1 − δL ) Cambio de nivel, LS: ν (L ) = 1 (1 − L ) El valor de δ se considera fijo e igual a 0.7. Estos cuatro tipo de atípicos corresponden a los cuatro casos más sencillos de representación de atípicos, los casos más complicados se pueden aproximar mediante combinación de ellos. El procedimiento que utiliza el programa TRAMO supone que los órdenes (p,d,q) que sigue la serie son conocidos y procede iterativamente. En la primer etapa se detectan los atípicos uno a uno y se modifican los parámetros estimados del modelo luego de la detección de los outliers. Una vez pasada esta etapa , se hace la regresión múltiple descartándose los atípicos que no sean significativos , luego se recorre la primera etapa para iterar. Diagnóstico y validación La estimación de los parámetros de regresión, incluidas las varaibles de reresión y outliers así como observaciones faltantes más los parámetros del modelo ARIMA de modo que la suma de cuadrados no lineales sea minimizada.Cuando la serie se diferencia se utiliza el algoritmo de Morf,Sidhu y Kailath (1974). Para las series estacionarias se usa el filtro de Kalman. Por defecto el programa utiliza el método de máxima verosimilitud. Como parte de la etapa de validación y diagnóstico se analiza las propiedades de los residuos del modelo estimado , se verifica si se cumplen las propiedades esperadas. Contraste de Box-Pierce: H0 : ρ̂1 = ρ̂ 2 =.... ρ̂ k =0 h 2 El estadístico Q(h) = T ∑ ρ̂ j se distribuye, asintóticamente, como una χ2 con grados de j =1 libertad igual al número de coeficientes en la suma (h) menos el número de parámetros estimdos n. Se reporta los resultados del contraste de Ljung Box: H0 : ρ̂1 = ρ̂ 2 =.... ρ̂ k =0 Cuando los datos son los residuos de un modelo ARIMA, Ljung y Box (1978) han mostrado que en muestras pequeñas, la expresión (T-j)/T(T+2) aproxima la varianza de ρj con mayor presición que 1/T. 13 Notas del Curso Series de Tiempo I. Licenciatura de Estadística h El estadístico Q(h) = T (T + 2)∑ ρˆ 2j se distribuye, asintóticamente, como una χ2 con T − j j =1 grados de libertad igual al número de coeficientes en la suma (h) menos el número de parámetros estimdos n. Para modelos no estacionales y con constante n= p+q+1 y para los estaciones, sin constante n=p+q+P+Q. Es posible que los residuos puedan comportarse como procesos ruido blanco pero que no sean independientes debido a que persista una estructura no lineal, por tanto se verifica si se cumple el supuesto de linealidad, también mediante test de pormanteau. 2 Maravall (1983) ha mostrado que si la serie zt es lineal, en el rezago k, ρ k (z t2 ) = ρ k ( z t ) . Adicionalmente McLeod and Li (1983) han provado que Qh(at) y Qh (a2 t) tienen la misma distribución, por tanto se calcula el estadístico Q para los residuos y para los residuos al cuadrado. [ ] Se verifica la hipótesis de que los residuos estimados presentan una distribución simétrica como la normal . Para ello se realiza el test de simetría, se calcula m S = T 33 ≈ N (0,6) σˆ También se realiza un test sobre el cuarto momento, test de curtosis: m −3 K = T 4 4 ≈ N (0,24) σˆ El que puede ser significativo cuando un número importante de residuos presentan valores absolutos altos, en este caso esta prueba muestra la necesidad de verificar la existencia de puntos anómalos. Finalmente los estadísticos S y K pueden ser combinados para implementar un test de Normalidad N=S2 + K2 y dada la independencia de S y K el estadístico N se distribuye χ2 2. Se calcula el estadístico de Ljung Box y Box y Pierce para los residuos y los residuos al cuadrado. Se compara el coeficiente de asimetría y de curtosis de los residuos con los momentos teóricos de tercer y cuarto orden de una distribución normal. Se evalúa el modelo de acuerdo al desempeño del mismo en predicción. Por tanto se implementa la prueba dentro de la muestra, se acorta la muestra y se realizan las predicciones correspondientes, se comparan los errores obtenidos de acuerdo a la utilización de los diferentes modelos. Se calculan un conjunto de indicadores que resumen ese comportamiento, usando los errores estimados: 14 Notas del Curso Series de Tiempo I. Licenciatura de Estadística F i) Error medio: 1/F ∑a i =1 t F ii) Error medio absoluto: 1/F ∑a i =1 t F iii) 2 RMSE: 1 / F ∑ at i =1 F= número de observaciones fuera de la muestra usadas para evaluar la predicción N= número total de observaciones Inferencia Cuando el modelo pasa las etapas de identificación y diagónstico se procede a la inferencia. Se representado mediante la siguiente ecuación, el modelo ARIMA identificado: φ (L )∆xt = θ (L )at Sea xˆt + j / t la predicción de xt+j hecha en el período t. Bajo nuestros supuestos de trabajo, la predicción óptima de xt+j , en el sentido que minimiza el Error Cuadrático Medio (ECM), es la esperanza condicionada a las observaciones de la serie xt. xˆt + j / t = E ( xt +k / x1 ,.....xt ) Esta esperanza condicional puede ser obtenida mediante la aplicación del filtro de Kalman o mediante el procedimiento de Box y Jenkins. Descomposición En el programa SEATS la descomposición se realiza mediante el método basado en modelos de forma reducida. En éste método se define la estructura de los filtros a partir de un modelo univariante específico estimado para la serie objeto de estudio. En Lorenzo y Revuelta (1996) se plantea como principal limitación, el problema de identificabilidad y la arbitrariedad a la hora de definir los componentes. La calidad de los resultados depende sustancialmente de lo adecuado que sea el modelo estimado para la serie agregada. Se parte de un modelo ARIMA para la serie agragada y a partir de él se estiman los componentes, tendencia-ciclo, estacional (para datos con frecuencia menor a un año) e irregular. El componente tendencia representa la evolución de largo plazo de la serie, la que muestra un pico en el espectrograma en la frecuencia 0. El componente estacional, captura los picos del espector en las frecuencias estacionales. 15 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Para capturar las fluctuaciones periódicas con período mayor a 1 año, asociadas a las frecuencias mayores a 0 y (2π/s), el componente cíclico también captura la variación de corto plazo asociado a con componentes MA de bajo orden y raíces del polinomio autorregresivo de módulo bajo. El componente irregular captura los movimientos erráticos, es un proceso ruido blanco, por lo cual su espectro es chato6. Esta descomposición plantea un problema de identificabilidad, para resolver este problema se recurre a la descomposición canónica, imponiendo la restricción de que el componente irregular recoja la mayor variabilidad, que sea de máxima varianza, de modo que el resto de los componentes sean lo más estables posibles. Este procedimiento basado en modelos fue originalmente desarrollado por Box,Hillmer y Tiao (1978),Burman (1980) y Hillmer y Tiao (1982) y se basa en los siguientes supuestos respecto de los componentes inobservables: 1. Los componentes inobservables están incorrelacionados entre sí, la evolución de los distintos componentes está empujada por distintas fuerzas. 2. La estructura de correlación de los componentes inobservados se puede describir mediante modelos ARIMA bien comportados Si suponemos que la serie observada, xt, puede ser desagregada en nt (el componente de la serie que no consituye la señal) y st ,la señal de interés. φ n (L )nt = θ n (L )a nt φ s (L )st = θ s (L )ast Donde ant y ast son ruidos blancos normales , independientes entre sí, con varianzas V n y Vs. Los polinomios φ n (L ), φ s (L ),θ n (L ),θ s (L ) pueden tener sus raíces fuera o dentro del círculo unidad, en general al menos uno de los dos no es estacionario. Pero los polinomios autorregresivos φ n (L ), φ s (L ) , se requiere que sean estacionarios. El componente irregular, ut es un ruido blanco con varianza Vu. 3. Los polinomios autorregresivos, φ n (L ), φ s (L ) , no tienen raíces comunes. 4. El modelo para la serie observada se supone conocido. 6 Definiciones tomadas de Maravall y Gómez (1996) 16 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Estimación del componente tendencia y ciclo de las series de tiempo The Kodrick Precott filter7 Este filtro (Kodrick -Precott 1980-1997) es usado para separar la tendencia fundamentalmente en series económicas y es particularmente utilizado por gran parte de los estudios sobre ciclo de negocios. Sea τt el componente tendencia, que puede ser especificado como la suma de una tendencia determinística, γt, y el componente estocástico, que denominamos HP, que es la diferencia entre la tendencia HP, τt y la tendencia lineal: τt = γt, + HP Sea ct el componente cíclico. Se puede considerar que la serie observada, y t se compone de: Yt = τt + ct = (γt, + HP) + ct El objetivo consiste en filtrar el componente inobservable, tendencia, de los datos y que el residuo pueda ser interpretados como el componente cíclico. Si se trabaja en logaritmos de cantidades reales, el componente inobservado tendencia, τ t , puede ser estimar a través de un problema de minimización, minimizando la suma de cuadrados de la serie sin su tendencia (yt - τt )2 sujeto a la restricción de que la suma al cuadrado de las segundas diferencias no sea muy grande. T Mín ∑ (y t =1 t −τ t ) 2 2 T −1 sujeto a ∑ [(τ t =2 t +1 − τ t ) − (τ t − τ t −1 )] ≤ µ Resolver este problema de minimización para un valor dado de µ es equivalente a resolver un problema de mínimo sin restricciones para un valor dado de λ T −1 T 2 ( ) y − τ + λ [(τ t +1 − τ t ) − (τ t − τ t −1 )]2 Min ∑ t ∑ t t =2 t =1 El primer término es la suma al cuadrado de los desvíos y es una medida de “bondad de ajuste”. El segundo término es la suma de los cuadrado del componente tendencia, las segundas diferencias al cuadrado multiplicadas por λ y es una medida de “grado de alisamiento”. Este término penaliza la desaceleración en la tasa de crecimiento del componente tendencia. El parámetro λ es una parámetro de alisamiento y a través de la variación de este parámetro se puede alterar el equilibrio entre bondad de ajuste y grado de alisamiento. 7 Tomado de Pedersen, T.M. (1999) 17 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Si λ= 0 el primer término es cero y para minimizar la función objetivo, τ t debe ser igual a yt . La bondad de ajuste es perfecta (todo es tendencia) y el componente cíclico es cero. Si λ= ∞ , el segundo término debe ser cero para minimizar la función objetivo y el componente tendencia queda especificado como una tendencia lineal. La función de transferencia del filtro HP es igual a 1 cuando λ= ∞ para todas las frecuencias ω≠0 y es cero en la frecuencia cero y ello remueve la raíz unitaria de la serie integrada de orden 1 I(1). La primer condición se deriva diferenciando la ecuación anterior respecto a τt 2( y t − τ t ) − 2[λ (τ t − τ t −1 ) − (τ t −1 − τ t − 2 )] + 4λ [(τ t +1 − τ t ) − (τ t − τ t −1 )] − 2λ (τ t + 2 − τ t +1 ) − (τ t +1 − τ t Se reescribe en términos del operador de rezagos y se divide entre 2, se obtiene: [ y t − τ t = λ [(1 − L )τ t − (1 − L )τ t −1 ] − 2λ [(1 − L )τ t +1 − (1 − L )τ t ] + λ [(1 − L )τ t + 2 − (1 − L )τ t +1 ] [ = [λ (1 − L ) (1 − L ) ] y t = λ (1 − L) 2 1 − 2 L−1 + L−2 τ t + τ t yt 2 −1 2 ] + 1τ t [ ] Sea F(L)= λ (1 − L )2 (1 − L−1 ) + 1 De modo que yt =F(L) τt Se diefine el siguiente filtro (filtro de paso bajo): G(L)=[F(L)]-1 [ 2 ] G(L)=1/ λ (1 − L )2 (1 − L−1 ) + 1 2 La tendencia puede ser representada como: τt =G(L) yt El componente cíclico ct = yt - τt ct =[1 – G(L)]yt Si llamamos C(L) al filtro a partir del cual se obtiene el ciclo (filtro de paso alto), C(L)=1-G(L)=F(L) –1/F(L) Los filtros G(L) y C(L) son ambos filtros lineales y son simétricos. 18 )] = 0 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Bibliografía Fisher, B; Planas,CH - “ Large Scale Fitting of ARIMA Models and Stylised Facts of Economic Time Series” Working Paper EUROSTAT Febrero 1998 Kaiser, R; Maravall,A - “ Notes on Time Series Analysis ARIMA Models and Signal Extraction” . Banco de España-Servicio de Estudios . Documento de trabajo N° 0012. Gómez,V; Taguas,D -“ Detección y corrección automática de outliers con TRAMO: Una aplicación al IPC de bienes industriales no energéticos”. Ministerio de Economía y Hacienda. Documento de Trabajo D –95006. Noviembre 1995. Espasa, A; Albacete,R - “ Consideraciones sobre la predicción económica: Metodología desarrollada en el Boletín de Inflación y Análisis Macroeconómico” Universidad Carlos III de Madrid. Mayo 2004. Espasa, A; Cancelo, J.R – Métodos Cuantitativos para el análisis de la coyuntura económica, Alianza Editorial.1993. Fischer, B – “Decomposition of time Series Comparing Different Methods in Theory and Practice”. Eurostat. Abril 1995. Kaiser,R. Y Maravall,A. - “Notes on Time Series Analysis ARIMA Models and Signal Extraction”. Documento de Trabajo N°0012. Servicio de Estudios del Banco de España. Ladiray, D. y Quenneville, B. - “Desestacionalizar con el método X-11”. Methodologica, N° 8- 9 (2000-2001) Lorenzo, F; Revuelta, J.M – “ TRAMO y SEATS: un marco completo para el análisis univariante y extracción de señales de series temporales” Documento de trabajo 96-06. Departamento de Estadística y Econometría. Universidad Carlos III de Madrid. Maravall,A. Y Gómez,V. – “Programs TRAMO and SEATS. Instructios for the User.” Octubre 1996. Pedersen,T.M. – “Spectral Analysis,Business Cycles and Filtering of Economic Time Series . A survey” . Institute of Economics, University of Copenhagen, Denmark. Planas, CH. – Applied Time Series Analysis: Modelling,Forecastinf,Unobserved Components and Wiener-Kolmogorov Filter. Luxemburgo Octubre 1997. 19 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Ejemplo Serie: Índice de volumen físico del PBI Uruguay Período: 1980.1-2003.02 Frecuencia: trimestral Fuente: BCU Se presenta los gráficos de los componentes estimados, utilizando el método de la forma reducida, basado en modelos ARIMA. Para estimar el modelo para la serie observada y los componentes no observables se utiliza el programa Demetra 2.04 (Eurostat). Para la serie original se estima un modelo ARIMA (0,1,1)(0,1,1) con dos outliers: un cambio de nivel en 1982.03 y un cambio transitorio en 2002.03 Se realiza una descomposición de tipo multiplicativa, y se muestran los gráficos de la serie original u corregida por outliers, la serie original y el componente tendencia estimado, componente estacional estimado, componente tendencia –ciclo agregado y componente tendencia y finalmente componente cíclico. Gráfico 1 IV F d e l P BI U ru g u a y y se rie c o rre g id a p o r o u tlie rs 230.0 210.0 190.0 170.0 150.0 PBIUR LINEARIZED SERIES 130.0 110.0 90.0 70.0 Gráfico 2 20 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 50.0 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 21 Gráfico 4 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 IVF del PBI Uruguay y Tendencia 2E+05 2E+05 2E+05 Gráfico 3 Componente estacional del IVF del PBI Uruguay 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 2E+05 PBIUR FINAL TREND FINAL SEASONAL FACTO RS 2E+05 Notas del Curso Series de Tiempo I. Licenciatura de Estadística 200.0 180.0 160.0 140.0 120.0 100.0 80.0 111 109 107 105 103 101 99 97 95 2E+05 Notas del Curso Series de Tiempo I. Licenciatura de Estadística Componente tendencia-ciclo y componente tendencia del IVF del PBI Uruguay 200 190 180 170 160 TREND tred_hp_pbiur 150 140 130 120 110 Mar-04 Mar-03 Mar-02 Mar-01 Mar-00 Mar-99 Mar-98 Mar-97 Mar-96 Mar-95 Mar-94 Mar-93 Mar-92 Mar-91 Mar-90 Mar-89 Mar-88 Mar-87 Mar-86 Mar-85 Mar-84 Mar-83 Mar-82 Mar-80 Mar-81 100 Gráfico 5 Componente cíclico del IVF del PBI Uruguay. M étodo HP sobre la tendencia-ciclo 1.0800 1.0600 1.0400 1.0200 1.0000 ciclo_m_pbiur 0.9800 0.9600 0.9400 22 Mar-04 Mar-03 Mar-02 Mar-01 Mar-00 Mar-99 Mar-98 Mar-97 Mar-96 Mar-95 Mar-94 Mar-93 Mar-92 Mar-91 Mar-90 Mar-89 Mar-88 Mar-87 Mar-86 Mar-85 Mar-84 Mar-83 Mar-82 Mar-81 Mar-80 0.9200 Notas del Curso Series de Tiempo I. Licenciatura de Estadística 23