Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Procesos ARMA: Estimación Supongamos que la serie de tiempo x1 , . . . , xT ha sido generada por un proceso ARMA(p,q): Causal, invertible y gaussiano. Cuyos órdenes p y q son conocidos. Representemos dicho proceso a través de Xt = c + φ1 Xt−1 + φ2 Xt−2 + · · · + φp Xt−p +at + θ1 at−1 + θ2 at−2 + · · · + θq at−q . Selección del modelo y predicción Procesos ARIMA estacionales Los parámetros c, φ1 , . . . , φp , θ1 , . . . , θq y σa2 son desconocidos. A continuación, abordaremos su estimación. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Procesos ARMA: Estimación por mı́n. cuadrados condicionados Germán Aneiros Pérez Dados (c̃, φ̃1 , . . . , φ̃p , θ̃1 , . . . , θ̃q ), se consideran los residuos Introducción ât = Xt − c̃ − φ̃1 Xt−1 − · · · − φ̃p Xt−p − θ̃1 ât−1 − · · · − θ̃q ât−q Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación y la suma de sus cuadrados T X S c̃, φ̃1 , . . . , φ̃p , θ̃1 , . . . , θ̃q = ât2 t=1 Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales La estimación de los parámetros c, φ1 , . . . , φp , θ1 , . . . , θq por medio del método de mı́nimos cuadrados condicionados se obtiene a través de los valores (ĉ, φ̂1 , . . . , φ̂p , θ̂1 , . . . , θ̂q ) que minimizan a la función S condicionada a que â1−q = â2−q = · · · = â0 = â1 = · · · = âp = 0. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Procesos ARMA: Estimación por máxima verosimilitud La credibilidad que los valores c̃, φ̃1 , . . . , φ̃p , θ̃1 , . . . , θ̃q , σ̃a2 dan a la serie x1 , . . . , xT se mide a través de la función de verosimilitud: Lx1 ,...,xT c̃, φ̃1 , . . . , φ̃p , θ̃1 , . . . , θ̃q , σ̃a2 = fc̃,φ̃1 ,...,φ̃p ,θ̃1 ,...,θ̃q ,σ̃2 (x1 , . . . , xT ) , a donde fc̃,φ̃1 ,...,φ̃p ,θ̃1 ,...,θ̃q ,σ̃2 denota a la función de densidad a Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales conjunta de un vector aleatorio (X̃1 , . . . , X̃T )0 procedente de un proceso ARMA con parámetros c̃, φ̃1 , . . . , φ̃p , θ̃1 , . . . , θ̃q , σ̃a2 . Nota: A partir de ahora, suprimiremos los subı́ndices en las funciones de densidad y verosimilitud; esto es, serán denotadas por f y L, respectivamente. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARMA: Estimación por máxima verosimilitud La estimación de máxima verosimilitud de los parámetros c, φ1 , . . . , φp , θ1 , . . . , θq y σa2 se obtiene a través de los valores que dan mayor credibilidad a la serie x1 , . . . , xT . Por tanto, la estimación de los parámetros c, φ1 , . . . , φp , θ1 , . . . , θq y σa2 por medio del método de máxima verosimilitud se obtiene a través de los valores (ĉ, φ̂1 , . . . , φ̂p , θ̂1 , . . . , θ̂q y σ̂a2 ) que maximizan a la función de verosimilitud L. Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Procesos ARMA: Estimación por máxima verosimilitud Ejemplo: {Xt }t es un proceso ARMA(p,q) gaussiano L c̃, φ̃1 , . . . , φ̃p , θ̃1 , . . . , θ̃q , σ̃a2 = −1 (xT −µ̃T )0 ṼT (xT −µ̃T ) r exp − 2 (2π)T ṼT 1 ! , donde xT = (x1 , . . . , xT )0 , µ̃T = (µ̃, . . . , µ̃)0 con µ̃ = E X̃t = c̃/ 1 − φ̃1 − · · · − φ̃p y ṼT es la matriz de varianzas-covarianzas del vector aleatorio (X̃1 , . . . , X̃T )0 procedente de un proceso ARMA(p,q) con parámetros c̃, φ̃1 , . . . , φ̃p , θ̃1 , . . . , θ̃q y σ̃a2 . Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARMA: Estimación por máxima verosimilitud Ejemplo: Proceso AR(1) gaussiano Xt = c + φ1 Xt−1 + at Se tiene que S c̃, φ̃ 1 1/2 −T /2 , exp − L c̃, φ̃1 , σ̃a2 = 2πσ̃a2 1 − φ̃21 2 2σ̃a Procesos ARIMA: Definición e identificación donde Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales S c̃, φ̃1 = 1 − φ̃21 x1 − c̃ 1 − φ̃1 2 T X + (xt − c̃ − φ̃1 xt−1 )2 t=2 Los valores de c̃, φ̃1 y σ̃a2 que maximizan a la función L dan lugar a los estimadores de máxima verosimilitud de los parámetros del AR(1) gaussiano. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARMA: Estimación por máxima verosimilitud Bajo condiciones adecuadas, se tiene que: Los estimadores de máxima verosimilitud de los parámetros µ, φ1 , . . . , φp , θ1 , . . . , θq de un ARMA(p,q) gaussiano son asintóticamente óptimos: Si el tamaño T de la serie es grande, se puede considerar que 1 Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales 2 3 Son centrados (o insesgados). Son eficientes. Su distribución es normal. El estimador de máxima verosimilitud de σa2 es consistente. Nota: La importancia de la propiedad 3 radica en que nos permite construir intervalos/regiones de confianza y constrastes de hipótesis referentes a los parámetros. Las propiedades 1 y 3 se mantienen para estimadores basados en la verosimilitud gaussiana, aunque el proceso no sea gaussiano. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Identificación Serie, fas y fap En un ejemplo anterior, habı́amos hecho un análisis básico de cierta serie y de sus fas y fap muestrales (gráfico de la derecha). Dicho análisis sugerı́a que la serie podrı́a haber sido generada por un proceso AR(2). Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Procesos ARMA: Estimación Si estimamos sus parámetros por máxima verosimilitud resulta: φb1 = −0.4201 (0.0942), φb2 = 0.3096 (0.0943), µ b = 0.0473 (0.0794) y σ ba2 = 0.7799. Observamos que, al 5%, la media µ no es significativamente distinta de cero. Pasamos por tanto a estimar un AR(2) con µ = 0. Nota: Estimar un ARMA(p,q) con µ = 0 es lo mismo que estimar un ARMA(p,q) con c = 0, pues se tiene que c = µ (1 − φ1 − · · · − φp ). Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Procesos ARMA: Estimación Bajo la restricción µ = 0, se obtienen las estimaciones: Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales φb1 = −0.4149 (0.0939), φb2 = 0.315 (0.094) y σ ba2 = 0.7826, resultando todos sus parámetros significativamente distintos de cero (al 5%). Por tanto, el AR(2) estimado es: Xt = −0.4149Xt−1 + 0.315Xt−2 + at , siendo 0.7826 la varianza del ruido blanco. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Procesos ARMA: Diagnosis Una vez que un modelo ARMA ha sido ajustado, la siguiente etapa es la “comprobación”de que las hipótesis básicas realizadas sobre él se verifican. Esto se conoce como la diagnosis o chequeo del modelo ajustado. La hipótesis más importante es la que exige que las innovaciones {at }t sean ruido blanco, esto es: Tengan media cero. Tengan varianza constante. Estén incorreladas. Su no verificación invalida al modelo ajustado como posible generador de la serie de tiempo en estudio. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Procesos ARMA: Diagnosis La hipótesis de normalidad es conveniente por tres motivos: 1 2 3 Bajo normalidad, el ruido blanco equivale a la independencia. Esto garantiza que no estamos dejando información por modelizar. Bajo normalidad, los estimadores que utilizamos (máxima verosimilitud gaussiana) son asintóticamente eficientes. Próximamente realizaremos predicciones de valores futuros del proceso, resultando conveniente que vayan acompañadas de intervalos de predicción. Si no tenemos normalidad, no podremos “garantizar”su nivel de confianza. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Procesos ARMA: Diagnosis A continuación, presentamos algunos gráficos que nos pueden asesorar acerca de si una muestra y1 , . . . , yT es o no una realización de un conjunto de variables aleatorias procedentes de un proceso de ruido blanco gaussiano. Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Procesos ARMA: Diagnosis El gráfico de la muestra frente al tiempo La representación gráfica de la muestra frente al tiempo puede ayudarnos a detectar de manera visual y rápida la presencia de: Tendencia. Componente estacional. Variabilidad no constante. Dependencia lineal Positiva: tendencias que desaparecen a corto plazo (tendencias locales). Negativa: valores altos son seguidos con frecuencia por valores bajos, y viceversa (zig-zag). Cualquiera de estas situaciones invalidarı́a la hipótesis de ruido blanco. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Dependencia positiva vs Dependencia negativa Germán Aneiros Pérez Dependencia positiva Dependencia negativa Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARMA: Diagnosis El gráfico Q-Q normal El gráfico Q-Q (Cuantil-Cuantil) normal representa a los cuantiles muestrales frente a los cuantiles de una distribución N (0, 1). Si la muestra y1 , . . . , yT es i.i.d. con distribución normal, su gráfico Q-Q normal deberı́a ser aproximadamente lineal. Por tanto, la no linealidad del gráfico Q-Q normal sugiere ausencia de normalidad. Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Normalidad vs Falta de normalidad Germán Aneiros Pérez Normalidad Falta de normalidad Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Procesos ARMA: Diagnosis A continuación, presentamos varios contrastes de hipótesis diseñados para contrastar si una muestra y1 , . . . , yT es una realización de un conjunto de variables aleatorias: Independientes. Con media cero. Con distribución común gaussiana. Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARMA: Diagnosis Contraste de independencia Denotemos por ρbk (k = 1, 2, . . .) a la fas de la muestra en estudio, y1 , . . . , yT . Bajo la hipótesis nula de que la muestra proviene de variables aleatorias i.i.d. con varianza finita, y asumiendo que el tamaño muestral T es “grande”, se tiene que: 1 . ρbk ≈ N 0, √ T Por tanto, rechazaremos la independencia (al 5%) si Procesos ARIMA estacionales 1.96 |b ρk | ≥ √ T Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Procesos ARMA: Diagnosis Contraste de independencia Utilicemos ahora además la notación Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación QH = T (T + 2) Procesos ARIMA estacionales k=1 ρb2k T −k Bajo la hipótesis nula de que la muestra proviene de variables aleatorias i.i.d. con varianza finita, y asumiendo que el tamaño muestral T es “grande”, se tiene que: Estimación y diagnosis Selección del modelo y predicción PH QH ≈ χ2H Por tanto, rechazaremos la independencia (al 5%) si el valor de QH es mayor o igual que el percentil 0.95 de la distribución χ2H . Este contraste se conoce como contraste de Ljung-Box. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Procesos ARMA: Diagnosis Contraste de media cero Utilicemos ahora los sı́mbolos ȳ y sy2 para denotar a la media y a la varianza muestrales, respectivamente. Bajo la hipótesis nula de que la muestra y1 , . . . , yT proviene de variables aleatorias i.i.d. con media cero y varianza finita, y asumiendo que el tamaño muestral T es “grande”, se tiene que: y √ ≈ tT −1 ≈ N (0, 1) sy / T Por tanto, rechazaremos que la media µy es cero (al 5%) si sy |y | ≥ 1.96 √ T Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Procesos ARMA: Diagnosis Contraste de normalidad Utilicemos ahora la notación PT PT 3 4 t=1 (yt − y ) t=1 (yt − y ) G1 = y G = −3 2 Tsy3 Tsy4 Bajo la hipótesis nula de que la muestra y1 , . . . , yT proviene de variables aleatorias i.i.d. con distribución gaussiana, y asumiendo que el tamaño muestral T es “grande”, se tiene que: 2 G1 G22 T + ≈ χ22 6 24 Rechazaremos la normalidad (al 5%) si el valor del estadı́stico es mayor o igual que el percentil 0.95 de la distribución χ22 . Este contraste se conoce como contraste de Jarque-Bera. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Procesos ARMA: Diagnosis Contraste de normalidad P 2 [T /2] y − y b t,T (T −t+1) (t) t=1 Sea ω = , donde y(t) denota 2 Tsy al estadı́stico ordenado de orden t y las constantes bt,T vienen dadas a partir de la inversa de la distribución normal estándar. El estadı́stico ω puede interpretarse como el cuadrado del coeficiente de correlación lineal de los puntos muestrales dibujados sobre papel probabilı́stico normal. Puesto que bajo la hipótesis nula de que y1 , . . . , yT son i.i.d. con distribución gaussiana dicho gráfico deberı́a ser aproximadamente lineal, se rechaza la normalidad para valores pequeños de ω. Shapiro y Wilk tabularon los valores de bt,T , y la distribución de ω bajo la hipótesis Germán nula.Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Procesos ARMA: Diagnosis Los gráficos y contrastes de hipótesis que acabamos de presentar nos ayudarán en la verificación de si el modelo ARMA propuesto es o no adecuado como generador de nuestra serie de tiempo (etapa de chequeo o diagnosis). Concretamente, nos asesorarán en la toma de la decisión referente a si las innovaciones at del modelo ARMA son o no ruido blanco con distribución gaussiana. Puesto que las innovaciones at no son observables, lo que se hace es “estimarlas”y realizar el chequeo sobre dichas estimaciones (esto es, sobre los residuos ât del modelo estimado o ajustado). Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Procesos ARMA: Diagnosis Los contrastes de independencia aplicados a los residuos ât sufren las siguientes modificaciones (con respecto a su aplicación a las innovaciones at ): Contraste basado en la distribución de cada autocorrelación muestral ρbk : La varianza asintótica de ρbk , para retardos k “pequeños”, deja de ser 1/T (es menor que 1/T ). Contraste de Ljung-Box: Los grados de libertad de la distribución asintótica de QH pasan a ser H − p − q − 1 o H − p − q, dependiendo de que el ARMA tenga o no constante, respectivamente (necesitamos por tanto que H > p + q + 1 o H > p + q, respectivamente). En ambos casos, la región de rechazo resulta modificada. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación A continuación, pasamos a realizar la diagnosis del modelo AR(2) que habı́amos estimado para cierta serie. Para ello, utilizaremos los gráficos y contrastes que acabamos de proponer. Gráficos de residuos y Q-Q normal Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Contrastes de independencia Introducción Procesos ARMA: Definición e identificación Contrastes de media cero y normalidad µa = 0: p − valor = 0.5637 Normalidad: Procesos ARIMA: Definición e identificación Jarque-Bera: p − valor = 0.8715 Estimación y diagnosis Shapiro-Wilk: p − valor = 0.9016 Selección del modelo y predicción Conclusión: Un AR(2) gaussiano es un modelo apropiado como generador de la serie analizada. Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA: Estimación y diagnosis Como consecuencia de la estrecha relación existente entre los procesos ARIMA y los procesos ARMA: {Xt }t es ARIMA(p,d,q) ⇔ (1 − B)d Xt es ARMA(p,q) se tiene que para estimar y realizar la diagnosis de un modelo ARIMA es suficiente: Identificar el orden de diferenciación regular, d. Saber estimar y realizar la diagnosis de un modelo ARMA. Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Selección del modelo Las etapas que hemos seguido para proponer un modelo ARMA como posible generador de una serie de tiempo han sido: 1 Procesos ARMA: Definición e identificación Asesorarnos (gráficamente) acerca de la “estacionariedad de la serie ”. Si es estacionaria, pasar a la etapa 2. 2 Procesos ARIMA: Definición e identificación Identificar los órdenes p y q del ARMA: estudio de sus fas, fap y fase muestrales. 3 Estimar el modelo cuyos órdenes se identificaron en la etapa 2: mı́n. cuadr. condicionados, máx. verosimilitud. 4 Chequear el modelo estimado: análisis de residuos. Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Si los residuos pueden ser considerados como procedentes de un proceso de ruido blanco (preferiblemente gaussiano), el modelo estimado es propuesto como posible generador de la serie de tiempo. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Procesos ARMA: Selección del modelo Como acabamos de recordar, hemos basado la etapa correspondiente a la identificación de los órdenes p y q del ARMA en el estudio de las fas, fap y fase muestrales. Las fas, fap y fase muestrales pueden llevarnos a identificar varios procesos como posibles generadores de la serie de tiempo. Es posible que haya algún proceso distinto de los identificados que sea preferible a ellos. Parece entonces necesario establecer criterios que nos permitan determinar, entre varios modelos, cuál es preferible. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Procesos ARMA: Selección del modelo Denotemos por k a la cantidad de coeficientes de un modelo ARMA (esto es, k = p + q + 1 o k = p + q para un ARMA(p,q) con o sin constante, respectivamente), y por ϕk+1 al vector formado por dichos coeficientes y por σa2 . Se propone seleccionar aquel modelo ARMA que minimice el valor de una de las funciones siguientes: AIC = −2ln L(ϕk+1 ) + 2 (k + 1) (Criterio de Información de Akaike). AICC = −2ln L(ϕk+1 ) + 2 (k + 1) T / (T − k − 2) (Criterio de Información de Akaike corregido). BIC = −2ln L(ϕk+1 ) + (k + 1) ln (T ) (Criterio de Información Bayesiano). Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Procesos ARMA: Selección del modelo La estructura de las funciones AIC, AICC y BIC es similar: Primer sumando: mide tanto la calidad del ajuste como la credibilidad que le da a la serie de tiempo. Cuanto menor es su valor mejor es el ajuste y mayor la credibilidad que le da a la serie; su valor disminuye al aumentar k. Segundo sumando: penaliza el aumento en la cantidad de coeficientes del ARMA; su valor disminuye al disminuir k. El modelo que minimiza a una de estas 3 funciones consigue un equilibrio entre ambos sumandos (ambos serán “pequeños”); esto es, un buen ajuste sin demasiados parámetros (que darı́an problemas tanto a la hora de estimar como de predecir). Las estimaciones de los parámetros del modelo seleccionado por este proseso son estimaciones de máxima verosimilitud. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Procesos ARMA: Selección del modelo Comparación entre criterios Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales El criterio BIC es consistente: Si realmente la serie ha sido generada por un ARMA, el BIC selecciona los órdenes correctos con probabilidad 1 (esto no ocurre con los criterios AIC y AICC). Los criterios AIC y AICC son asintóticamente eficientes: Si realmente la serie ha sido generada por un AR (posiblemente de orden ∞), el AIC y el AICC seleccionan el modelo que da lugar al menor error de predicción esperado (esto no ocurre con el criterio BIC). Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Procesos ARMA: Selección del modelo Continuando con el análisis de la serie (un proceso AR(2) resultaba adecuado para haberla generado), minimizamos el valor de la función AIC para distintos procesos ARMA(p,q) (consideramos p y q en {0, 1, 2, 3, 4, 5}). Los 3 valores más pequeños fueron alcanzados por el ARMA(3,3) (AIC (3, 3) = 264.6635), por el ARMA(1,1) (AIC (1, 1) = 264.9980) y por el AR(2) (AIC (2, 0) = 265.9452). Puesto que el AR(2) es un modelo mucho más simple que el ARMA(3,3) y más fácil de interpretar que el ARMA(1,1), y la diferencia entre los valores de sus AICs es pequeña (menor de 2 unidades), el modelo AR(2) es el que finalmente seleccionamos. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARMA: Predicción Supongamos que la serie de tiempo x1 , . . . , xT ha sido generada por un proceso ARMA {Xt }t cuyos parámetros son conocidos. El siguiente objetivo de este tema es predecir, a partir de la serie de tiempo observada, el valor futuro del proceso dentro de k instantes de tiempo; esto es, predecir el valor de XT +k . Dicha predicción se denomina predicción con origen en T y horizonte k, y la denotaremos por b xT (k). Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Proceso AR(1): Predicción Supongamos que la serie ha sido generada por el proceso Xt = 7.5 + 0.8Xt−1 + at . Para predecir con origen en T y horizonte 1, escribimos XT +1 = 7.5 + 0.8XT + aT +1 . Estimación y diagnosis Basándonos en la relación anterior, b xT (1) será obtenida una vez que dispongamos de valores “apropiados”para XT y aT +1 . Selección del modelo y predicción El valor que ha tomado la v.a. XT es conocido (xT ). Procesos ARIMA estacionales El valor de la v.a. aT +1 no lo tenemos. Su predicción a partir de la serie x1 , . . . , xT es su media (E (aT +1 ) = 0), pues la serie no contiene información acerca de aT +1 . Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Proceso AR(1): Predicción Ahora, para obtener la predicción b xT (1), basta con sustituir XT por xT y aT +1 por 0 en la ecuación XT +1 = 7.5 + 0.8XT + aT +1 . Dicha sustitución da lugar a la ecuación de predicción del AR(1) a un horizonte 1: b xT (1) = 7.5 + 0.8xT . Ası́, si el valor de xT fuese 1.5, la predicción del futuro valor de XT +1 serı́a b xT (1) = 7.5 + 0.8 × 1.5 = 8.7 Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Proceso AR(1): Predicción Para predecir con origen en T y horizonte 2, escribimos Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales XT +2 = 7.5 + 0.8XT +1 + aT +2 . Basándonos en la relación anterior, b xT (2) será obtenida una vez que dispongamos de valores “apropiados”para XT +1 y aT +2 . El valor de la v.a. XT +1 no lo tenemos. Su predicción a partir de la serie x1 , . . . , xT ha sido obtenida en la transparencia anterior (b xT (1)). El valor de la v.a. aT +2 no lo tenemos. Su predicción a partir de la serie x1 , . . . , xT es su media (E (aT +2 ) = 0). Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Proceso AR(1): Predicción Ahora, para obtener la predicción b xT (2), basta con sustituir XT +1 por b xT (1) y aT +2 por 0 en la ecuación XT +2 = 7.5 + 0.8XT +1 + aT +2 . Dicha sustitución da lugar a la ecuación de predicción del AR(1) a un horizonte 2: b xT (2) = 7.5 + 0.8b xT (1) = 7.5 (1 + 0.8) + 0.82 xT Ası́, si el valor de xT fuese 1.5, la predicción del futuro valor de XT +2 serı́a b xT (2) = 14.46 Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Proceso AR(p): Predicción El procedimiento anterior, diseñado para predecir valores de un AR(1) a horizontes k = 1 y k = 2, puede generalizarse fácilmente para: Cualquier horizonte k > 0. Cualquier proceso autorregresivo de orden finito p > 0. Puede demostrarse que la predicción a largo plazo de futuros valores de un proceso AR(p) es la media del proceso; esto es, b xT (k) → µ si k → ∞. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Proceso MA(1): Predicción Supongamos que la serie ha sido generada por el proceso Xt = 7.5 + at + 0.8at−1 . Para predecir con origen en T y horizonte 1, escribimos XT +1 = 7.5 + aT +1 + 0.8aT . Basándonos en la relación anterior, b xT (1) será obtenida una vez que dispongamos de valores “apropiados”para aT +1 y aT . El valor de la v.a. aT +1 no lo tenemos. Su predicción a partir de la serie x1 , . . . , xT es su media (E (aT +1 ) = 0). El valor de la v.a. aT no lo tenemos. Su predicción a partir de la serie x1 , . . . , xT no es inmediata, pues dicha serie contiene información acerca de aT . Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Proceso MA(1): Predicción Supongamos que disponemos de una predicción del valor de aT obtenida a partir de la serie x1 , . . . , xT (en las próximas transparencias veremos cómo obtenerla). Denotémosla por b aT (0). Ahora, para obtener la predicción b xT (1), basta con sustituir aT +1 por 0 y aT por b aT (0) en la ecuación XT +1 = 7.5 + aT +1 + 0.8aT . Dicha sustitución da lugar a la ecuación de predicción del MA(1) a un horizonte 1: b xT (1) = 7.5 + 0.8b aT (0) . Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Proceso MA(1): Predicción Para predecir con origen en T y horizonte 2, escribimos XT +2 = 7.5 + aT +2 + 0.8aT +1 . Basándonos en la relación anterior, b xT (2) será obtenida una vez que dispongamos de valores “apropiados”para aT +2 y aT +1 . Los valores de las v.a. aT +2 y aT +1 no los tenemos. Sus predicciones a partir de la serie x1 , . . . , xT son sus medias (E (aT +2 ) = E (aT +1 ) = 0). Sustituyendo entonces aT +2 y aT +1 por 0 en la ecuación anterior, se obtiene la ecuación de predicción del MA(1) a un horizonte 2: b xT (2) = 7.5. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Proceso MA(1): Predicción Existen distintas técnicas para predecir el valor de aT a partir de la serie x1 , . . . , xT : Utilizar la propiedad de invertibilidad del proceso: Xt = c + at + π1 Xt−1 + π2 Xt−2 + · · · Procesos ARIMA: Definición e identificación Cambiando t por T y despejando aT , podemos escribir Estimación y diagnosis Considerando que Xt = xt si 1 ≤ t ≤ T , y fijando Xt = µ si t ≤ 0, se obtiene una predicción del valor de aT a partir de la serie x1 , . . . , xT . Cuando T es “grande”, es esperable que la modificación realizada a los valores de Xt (t ≤ 0) tenga poco impacto sobre los resultados finales. Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales aT = −c + XT − π1 XT −1 − · · · − πT −1 X1 − πT X0 − · · · Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Proceso MA(1): Predicción Germán Aneiros Pérez Fijar un valor inicial para a1 (en general, su media 0). Introducción Suponiendo que el MA(1) es Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Xt = 7.5 + at + 0.8at−1 , se tiene que at = Xt − 7.5 − 0.8at−1 . Para obtener aT a partir de la expresión anterior, necesitamos conocer un at con 1 ≤ t < T . Ası́, fijando el valor de a1 , podemos predecir recursivamente los valores de at (t = 2, . . . , T ) a partir de la serie x1 , . . . , xT . Cuando T es “grande”, es esperable que la condición inicial (generalmente, a1 = 0) tenga poco impacto sobre los resultados finales. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Proceso MA(1): Predicción Predecir aT a través de una (“la mejor”) combinación lineal de x1 , . . . , xT . Los coeficientes de la combinación lineal de x1 , . . . , xT que mejor predice a aT se pueden obtener a partir de la media y las autocovarianzas de X1 , . . . , XT , y de las covarianzas entre cada una de estas variables y aT . Este procedimiento es el que sigue el paquete R. Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Proceso MA(q): Predicción El procedimiento anterior, diseñado para predecir valores de un MA(1) a horizontes k = 1 y k = 2, puede generalizarse fácilmente para: Cualquier horizonte k > 0. Cualquier proceso de medias móviles de orden finito q > 0. Puede demostrarse que la predicción a horizontes mayores que q de futuros valores de un proceso MA(q) es la media del proceso; esto es, b xT (k) = µ si k > q. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Procesos ARMA: Predicción Los procedimientos utilizados para predecir valores futuros de procesos AR(p) y MA(q) pueden ser combinados fácilmente para predecir valores futuros de procesos ARMA(p,q). Estimación y diagnosis Puede demostrarse que la predicción a largo plazo de futuros valores de un proceso ARMA(p,q) es la media del proceso; esto es, Selección del modelo y predicción b xT (k) → µ si k → ∞. Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA: Selección del modelo Como consecuencia de la estrecha relación existente entre los procesos ARIMA y los procesos ARMA: {Xt }t es ARIMA(p,d,q) ⇔ (1 − B)d Xt es ARMA(p,q) se tiene que para seleccionar un modelo ARIMA es suficiente: Identificar el orden de diferenciación regular, d. Saber seleccionar un modelo ARMA. Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Procesos ARIMA: Predicción Del mismo modo, la predicción de valores futuros de procesos ARIMA se basa en la predicción de los valores futuros de los procesos ARMA asociados. Los pasos a seguir son: 1 Diferenciar la serie procedente del ARIMA hasta obtener una serie procedente de un ARMA. 2 Predecir los valores futuros del proceso ARMA. 3 Deshacer la diferenciación en las predicciones del ARMA, obteniendo entonces las predicciones del proceso original ARIMA. Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Intervalos de predicción A continuación, construimos un intervalo de predicción utilizando la distribución muestral del error de predicción: Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales bT (k). eT (k) = XT +k − X Se verifica que, si “T es grande”y {at }t es gaussiano, entonces 2 eT (k) ≈ N 0, σa2 1 + ψ12 + · · · + ψk−1 , donde ψi son los coeficientes de la representación Xt = c + at + ψ1 at−1 + ψ2 at−2 + · · · Un intervalo de predicción (al 95%) para el valor de XT +k será q bT (k) ± 1.96 σ 2 1 + ψ 2 + · · · + ψ 2 X . a 1 k−1 Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Intervalos de predicción Observación En el cálculo de la varianza asintótica del error de predicción, bT (k) ≈ σ 2 1 + ψ 2 + · · · + ψ 2 Var XT +k − X a 1 k−1 , las estimaciones de los parámetros incluidos en la predicción bT (k) fueron tratadas como fijas (esto es, como si no X dependiesen de los valores del proceso estocástico {Xt }). Sin embargo, puesto que dichas estimaciones dependen de la serie x1 , . . . , xT , también dependen de los valores de {Xt }. Esto provoca un cambio en la varianza del error de predicción, y por tanto en los intervalos de predicción. Este cambio se puede considerar despreciable si el tamaño de la serie es “grande”. Germán Aneiros Pérez Series de Tiempo Modelos Box-Jenkins Series de Tiempo Germán Aneiros Pérez Introducción Para finalizar el estudio de la serie, realizamos predicciones basadas en el modelo AR(2) que habı́amos seleccionado. Horizonte de predicción: k=5 Horizonte de predicción: k=30 Procesos ARMA: Definición e identificación Procesos ARIMA: Definición e identificación Estimación y diagnosis Selección del modelo y predicción Procesos ARIMA estacionales Aplicación a datos reales Germán Aneiros Pérez Series de Tiempo