STATGRAPHICS – Rev. 9/14/2006 Pronósticos Resumen El procedimiento Pronósticos esta diseñado para pronosticar valores futuros de datos de series de tiempo. Una serie de tiempo consiste de un conjunto secuencial de datos numéricos tomados en intervalos de tiempo equiespaciados, usualmente sobre un periodo de tiempo o espacio. Los modelos disponibles para pronosticar valores futuros incluyen: medias móviles, caminata aleatoria, varios tipos de suavizadores exponenciales, modelos de tendencias, y modelos paramétricos ARIMA. Estadísticas son calculadas para comparar el ajuste de hasta 5 modelos al mismo tiempo. Este procedimiento esta diseñado para usuarios que desean seleccionar su propio modelo. El procedimiento Pronósticos Automáticos ajusta varios modelos y automáticamente selecciona el mejor modelo de acuerdo a un criterio especificado por bondad-del-ajuste. Ejemplo StatFolio: tsforecast.sgp Datos del Ejemplo: El archivo golden gate.sf6 contiene volúmenes mensuales de trafico del Golden Gate Bridge en San Francisco para un periodo de n = 168 meses desde Enero, 1968 hasta Diciembre, 1981. La tabla de abajo muestra una lista parcial de los datos de este archivo: Month (Mes) 1/68 2/68 3/68 4/68 5/68 6/68 7/68 8/68 9/68 10/68 11/68 12/68 1/69 … Trafiic (Trafico) 73.637 77.136 81.481 84.127 84.562 91.959 94.174 96.087 88.952 83.479 80.814 77.466 75.225 … Los datos fueron obtenidos de una publicación del Golden Gate Bridge. Como un ejercicio, los datos de los últimos dos años (1980 y 1981) no serán usados para estimar el modelo de pronóstico, pero serán utilizados para validación estadística. © 2006 por StatPoint, Inc. Pronósticos - 1 STATGRAPHICS – Rev. 9/14/2006 Entrada de Datos La caja de dialogo para la entrada de datos solicita el nombre de la columna que contienen los datos de la serie de tiempo: • Datos: Contiene la columna numérica con n observaciones numéricas igualmente espaciadas. • Intervalo de Muestreo: Define el intervalo entre observaciones sucesivas. Por ejemplo, los datos del Golden Gate Bridge fueron recolectados una vez cada mes, empezando en Enero, 1968. • Estacionalidad: La longitud de la estacionalidad es s, si la hay. Los datos son estaciónales si existen un patrón que se repite en un periodo fijo. Por ejemplo, los datos mensuales como el trafico sobre Golden Gate Bridge tienen una estacionalidad de s = 12. Los datos de horas que se repiten cada día tienen una estacionalidad de s = 24. Si no se ingresa nada, se asume que los datos tienen estacionalidad (s=1). • Ajuste de los Días: Una variable numérica con n observaciones es utilizada para normalizar las observaciones originales, por ejemplo el número de días trabajados en © 2006 por StatPoint, Inc. Pronósticos - 2 STATGRAPHICS – Rev. 9/14/2006 un mes. Las observaciones en la columna Datos pueden ser divididos por estos valores antes de dibujar un grafico o calcular un análisis. Debe haber suficientes entradas en esta columna para cubrir tanto los datos observados como el número de periodos en los cuales se solicitan los pronósticos. • Selección: La selección de un conjunto en los datos. • Numero de Pronósticos: Número de periodos que continúan al final de los datos para los cuales se desean los pronósticos. • Retención para Validación: Número de periodos m al final de la serie con propósitos de retención para la validación. Los datos en estos periodos no pueden utilizarse para estimar el modelo de pronósticos. Sin embargo, se calculan estadísticas que describen que tan bueno es el modelo estimado para poder pronosticar estas observaciones. En el ejemplo actual, los datos de trafico son mensuales empezando en Enero, 1968, y se tiene una estacionalidad de s = 12. Un m = 24 observaciones al final de la serie de tiempo con propósitos de retención para la validación, mientras los pronósticos pueden generarse de los siguientes 36 meses. Opciones del Análisis El procedimiento Pronósticos es controlado por la caja de dialogo Opciones del Análisis: © 2006 por StatPoint, Inc. Pronósticos - 3 STATGRAPHICS – Rev. 9/14/2006 • Modelo: El modelo para el cual las otras configuraciones sobre la caja de dialogo aplican. Hasta cinco modelos de pronósticos pueden ser considerados al mismo tiempo, etiquetados A, B, C, D, y E. • Transformar: Antes de ajustar un modelo, los datos pueden ser transformados usando cualquiera de las operaciones indicadas. Con la excepción de la transformación Box-Cox, las selecciones son auto-exploratorias. La transformación Box-Cox es utilizada cuando es necesario transformar los datos a una normal. Para una discusión detallada, vea la documentación del procedimiento Transformaciones Box-Cox. • Estacionalidad: Ajusta estacionalmente los datos usando el método indicado antes de ajustar el modelo. Los ajustes de estacionalidad están diseñados para remover cualquier componente estacional de los datos. Los métodos usados son discutidos en la documentación del procedimiento Descomposición Estacional. • Inflación: Ajusta los datos con una inflación usando la razón de inflación especificada λ antes de ajustar el modelo. Si se aplica al principio del periodo, el ajuste es © 2006 por StatPoint, Inc. Pronósticos - 4 STATGRAPHICS – Rev. 9/14/2006 y t′ = yt (1) (1 + λ )(t −t +1) 0 donde t0 es el índice de la primera observación. Si se aplica en la mitad del periodo, el ajuste es yt′ = yt (1 + λ ) (t −t0 +0.5) (2) Nota: Las transformaciones son aplicadas a los datos antes de que el modelo de pronósticos sea estimado. Si más de una transformación es requerida, serán aplicadas en el siguiente orden: 1. 2. 3. 4. Ajuste por días Ajuste por inflación Ajuste por transformación Ajuste por estacionalidad Después de que los pronósticos son generados, las transformaciones inversas pueden aplicarse a los pronósticos en orden inverso. • Tipo: El tipo de modelo de pronósticos a estimar. Para una explicación de los diferentes tipos de modelos, ver la discusión de abajo. • Parámetros y Términos: Las opciones para diferentes modelos de pronósticos. o Alpha, beta, y gamma: Parámetros para los modelos de Suavizamiento Exponencial. Cada parámetro debe ser más mayor que 0 y menor que 1. El valor más pequeño de un parámetro, es la cantidad más grande de suavizamiento que será desarrollado. o Orden: El numero de términos en el modelo de Medias Móviles. o AR, MA, SAR, y SMA: El orden de varios componentes de los modelos ARIMA, refiérase a p, q, P, y Q respectivamente en la discusión más adelante. o Optimizar: Cuando los valores óptimos de los parámetros serán encontrados. Si se selecciona, los valores de los parámetros especificados son usados como valores iniciales para los procedimientos de búsqueda. Si no se selecciona, los valores introducidos serán usados en el modelo. o Constante: Si un término constante deberá incluirse cuando se estima un modelo Aleatorio Walk o ARIMA. © 2006 por StatPoint, Inc. Pronósticos - 5 STATGRAPHICS – Rev. 9/14/2006 • Diferenciación: El orden de diferenciación estacional o no estacional que serán aplicados cuando se ajuste los modelos ARIMA, llamados d y D en la discusión de abajo. • Botón de Estimación: Despliega una caja de dialogo que controla el procedimiento de la estimación no lineal utilizado cuando se optimizan los modelos ARIMA y de suavizamiento exponencial. Criterio de Paro 1: El algoritmo asume que convergió cuando el cambio relativo en las sumas de cuadrados de los residuos de una iteración a otra es menor que este valor. Criterio de Paro 2: El algoritmo asume que convergió cuando el cambio relativo en todos los estimadores de los parámetros de una iteración a otra es menor que este valor. Máximo de Iteraciones: La estimación se detiene si la convergencia no es alcanzada en este número de iteraciones. Pronostico Hacia Atrás: Sirve para pronosticar valores antes del tiempo t = 1. Estos valores son usados para generar los valores iniciales los cuales son necesarios para generar pronósticos de valores pequeños de t. Para mas detalles, ver Box, Jenkins y Reinsel (1994). • Botón de Regresión: Adiciona variables independientes adicionales al modelo de pronósticos cuando se estima un modelo de Tendencias o ARIMA. Típicamente tales variables son valores retrasados de indicadores principales. © 2006 por StatPoint, Inc. Pronósticos - 6 STATGRAPHICS – Rev. 9/14/2006 Variables: Valores de las variables X que serán incluidos en el modelo. Si deseas incluir una columna X que retrasa a los datos por 3 filas es decir que el modelo incluye un termino Xt-3, ingresar LAG(X,3) en lugar de solo X. Nota: Cualquier letra es seleccionada en el campo Modelo cuando la caja de dialogo es cerrada tomada del primer modelo. Este es el modelo usado para generar todas las tablas y graficas (excepto para el panel Comparación de Modelos, el cual compara a todos). Modelos de Pronósticos Cada uno de los modelos de pronósticos toma una aproximación diferente para pronosticar valores futuros. En la discusión de abajo, la siguiente notación será usada: Yt = valor observado en el tiempo t, t = 1, 2,…, n n = tamaño de muestra (numero de observaciones usadas para ajustar el modelo) Ft(k) = pronostico para el tiempo t+k hecho en el tiempo t et = errores del pronostico un paso adelante calculados por et = Yt - Ft-1(1) (3) Dado que m observaciones del final de la serie han sido usadas para propósitos de validación, dos estadísticas importantes de validación son: RMSE = Raíz del cuadrado medio error sobre el periodo de validación, dado por © 2006 por StatPoint, Inc. Pronósticos - 7 STATGRAPHICS – Rev. 9/14/2006 m RMSE = ∑e i =1 2 n +i (4) m MAPE = Porcentaje de la media del error absoluto sobre el periodo de validación, dado por m MAPE = 100 ∑e i =1 n +i m / Yt +i % (5) El RMSE estima la desviación estándar de los errores de pronósticos un paso adelante. El MAPE estima el porcentaje promedio del error de pronostico un paso adelante. Los valores pequeños de RMSE y MAPE son deseables. Modelo Aleatorio Walk El Modelo Aleatorio Walk es muy simple. Sin una constante, este utiliza el valor actual de la serie para pronosticar todos los valores futuros, i.e., Ft(k) = Yt para toda k ≥ 1 (6) Este modelo es frecuentemente usado para datos que no tienen una media fija y para los cuales la historia del modelo es irrelevante dado la posición actual. La serie de tiempo es igualmente parecida hacia delante que hacia atrás en cualquier punto del tiempo. Si una constante es incluida, entonces el pronostico es dado por Ft (k ) = Yt + kΔˆ (7) donde Δ̂ estima el cambio promedio de un periodo al otro. La función de pronostico para tal modelo es una línea recta con pendiente igual a Δ̂ . Para los datos del ejemplo, el modelo aleatorio de walk podría ser usado incluyendo la constante y la serie de tiempo es primeramente ajustada periódicamente. Los resultados son mostrados enseguida: Modelo Constante AleatorioWalk Si © 2006 por StatPoint, Inc. Aj. Estacional Multiplicativo Validación RMSE 1.65 Validación MAPE 1.46% Pronósticos - 8 STATGRAPHICS – Rev. 9/14/2006 Gráfica de Secuencia en Tiempo para Traffic Caminata aleatoria con drift = 0.114193 153 actual pronóstico Límites del 95.0% Traffic 133 113 93 73 1/68 1/72 1/76 1/80 1/84 1/88 La tabla muestra: 1. Datos Observados: Mostrados usando puntos símbolos. 2. Pronósticos un paso adelante: Mostrados como una línea sólida que pasa a través de los datos. 3. Pronósticos para valores futuros: La extensión de los pronósticos pasados al final de los datos. 4. Limites de predicción al 95%: Los limites rojos alrededor de los pronósticos. Observe que los límites de predicción anchos, son típicos de un modelo aleatorio walk. Modelos de Tendencia La Media, Tendencia Lineal, Tendencia Cuadrática, Tendencia Exponencial, y Modelos S-Curva todos estiman varios tipos de modelos de regresión a los datos, usando tiempo como la variable independiente. Los modelos son ajustados por mínimos cuadrados, resultando estimadores de hasta 3 coeficientes a, b, y c. Los pronósticos de los modelos son como sigue: Modelo Media: Ft ( k ) = Y (8) donde Y es el promedio de los datos hasta el tiempo t. Tendencia Lineal: Ft (k ) = aˆ + bˆ(t + k ) (9) Tendencia Cuadrática: Ft (k ) = aˆ + bˆ(t + k ) + cˆ(t + k ) 2 (10) ( Tendencia Exponencial: Ft (k ) = exp aˆ + bˆ(t + k ) © 2006 por StatPoint, Inc. ) (11) Pronósticos - 9 STATGRAPHICS – Rev. 9/14/2006 ( S-Curva: Ft (k ) = exp aˆ + bˆ /(t + k ) ) (12) Puesto que ponderan todos los datos igualmente, los modelos de regresión no son frecuentemente los mejores métodos para pronosticar series de tiempo. Para los datos del ejemplo, el mejor modelo de tendencia ajustado es la Tendencia Cuadrática, estimada después de ajustar la estacionalidad. Modelo Tendencia Cuadrática Aj. Estacional Multiplicativo Validación RMSE 1.58 Validación MAPE 1.42% Gráfica de Secuencia en Tiempo para Traffic Tendencia cuadrática = 41.5321 + 0.269169 t + -0.000306429 t^2 123 actual pronóstico Límites del 95.0% Traffic 113 103 93 83 73 1/68 1/72 1/76 1/80 1/84 1/88 Medias Móviles El modelo de Medias Móviles usa el promedio de las más recientes c observaciones para pronosticar los valores futuros. Los pronósticos son dados por: c −1 Ft (k ) = ∑Y t −i i =0 c para toda k ≥ 1 (13) Tal modelo puede modelar series que se mueven hacia arriba y abajo, pero tienden retrasar atrás de la serie actual. Experimentando con varias ordenes de medias móviles, se encontró que c = 2 encuentra el mejor ajuste para los datos de trafico durante el periodo de validación. Modelo Medias Móviles Orden 2 © 2006 por StatPoint, Inc. Aj. Estacional Multiplicativo Validación RMSE 1.44 Validación MAPE 1.27% Pronósticos - 10 STATGRAPHICS – Rev. 9/14/2006 Gráfica de Secuencia en Tiempo para Traffic Promedio móvil simple de 2 términos 123 actual pronóstico Límites del 95.0% Traffic 113 103 93 83 73 1/68 1/72 1/76 1/80 1/84 1/88 Observe que la función de pronósticos no tiene tendencia, lo cual es intuitivo dado el comportamiento observado. Sin embargo, el pronóstico un mes adelante parece ser muy bueno. Suavizamiento Exponencial Los modelos Suavizamiento Exponencial Simple, Suavizamiento Exponencial Lineal de Brown, y Suavizamiento Exponencial Cuadrático estiman tendencias similares a los modelos de Tendencias Media, Lineal, y Cuadrática, respectivamente. Sin embargo, estos lo hacen ponderando las observaciones recientes más pesadamente que las que están más allá en el pasado. Para generar los pronósticos, hasta tres pasos de un suavizamiento exponencial son hechos: S t′ = αYt + (1 − α ) S t′−1 (14) S t′′ = αS t′ + (1 − α ) S t′′−1 (15) S t′′′ = S t′′ + (1 − α ) S t′′−′1 (16) Los valores iniciales en el tiempo t = 0 son determinados por pronósticos hacia atrás (a menos de que se suprima usando el botón Estimación en la caja de dialogo Opciones del Análisis), lo cual primero suaviza la serie hacia atrás y después usa el pronostico hacia atrás para inicializar el suavizamiento hacia adelante. Los pronósticos son generados de Suavizamiento Simple: Ft ( k ) = S t′ © 2006 por StatPoint, Inc. (17) Pronósticos - 11 STATGRAPHICS – Rev. 9/14/2006 Suavizamiento Lineal: Ft (k ) = 2 S t′ − S t′′ + k α (S t′ − S t′′) 1−α (18) Suavizamiento Cuadrático: 3S t′ − 3S t′′ + S t′′ + k Ft(k)= α 2(1 − α ) 2 ((6 − 5α ) S t′ − (10 − 8α ) S t′′ + (4 − 3α ) S t′′′) (19) α2 (S t′ − 2S t′′ + S t′′′) +k 2(1 − α ) 2 2 El Suavizamiento Exponencial Cuadrático produce los mejores resultados de los tres procedimientos durante el periodo de validación cuando se pronostica un paso adelante. Sin embargo, la extrapolación de una tendencia cuadrática en el futuro siempre es problemática, como puede verse en la grafica anterior. Modelo Alfa Aj. Estacional Validación (Optimizado) RMSE 0.2211 Multiplicativo 1.55 Suavizamiento Exp. Cuadrático Validación MAPE 1.31% Gráfica de Secuencia en Tiempo para Traffic Suavización exp. cuadrática de Brown con alfa = 0.2211 120 actual pronóstico Límites del 95.0% 100 Traffic 80 60 40 20 0 1/68 1/72 1/76 1/80 1/84 1/88 Este ejemplo ilustra varios hechos importantes: 1. Es importante ver en los resultados cuando un modelo de pronóstico es ajustado adecuadamente a los datos. 2. Los modelos que son buenos para pronósticos en corto plazo no pueden pronosticar bien los valores futuros muy lejanos. © 2006 por StatPoint, Inc. Pronósticos - 12 STATGRAPHICS – Rev. 9/14/2006 3. Los modelos que involucran polinomios de orden 2 o mayor pueden comportarse erráticamente. Suavizamiento Exponencial Lineal de Holt El Suavizamiento Exponencial Lineal de Holt es similar al Suavizamiento Exponencial de Brown en que genera pronósticos que siguen una tendencia lineal. Aunque, el procedimiento de Holt usa dos constantes de suavizamiento, α y β, uno para estimar el nivel de la serie en el tiempo t y la segunda para estimar la pendiente. El procedimiento es como sigue: 1. Suavizar los datos para estimar el nivel usando S t = αYt + (1 − α )(S t −1 + Tt −1 ) (20) 2. Suavizar el primer suavizador para estimar la pendiente usando Tt = β (S t − S t −1 ) + (1 − β )Tt −1 (21) 3. Calcular el pronóstico usando Ft (k ) = S t + kTt (22) Lo siguiente muestra los resultados de optimizar el suavizador de Holt después de ajustar la estacionalidad: Modelo Alfa Beta Aj. Estacional Validación (optimizado) (optimizado) RMSE 0.0152 Multiplicativo 1.48 Suavizamiento 0.6843 Exponencial Lineal de Holt © 2006 por StatPoint, Inc. Validación MAPE 1.32 Pronósticos - 13 STATGRAPHICS – Rev. 9/14/2006 Gráfica de Secuencia en Tiempo para Traffic Suavización exp. De Holt con alfa = 0.6843 y beta = 0.0152 153 actual pronóstico Límites del 95.0% Traffic 133 113 93 73 1/68 1/72 1/76 1/80 1/84 1/88 Los resultados parecen bastantes razonables. Suavizamiento Exponencial de Winter Todos los métodos de pronósticos descritos anteriormente manejan la estacionalidad primero ajustando estacionalmente los datos, después aplicando el modelo de pronóstico, y por último regresando la estacionalidad. El procedimiento Suavizamiento Exponencial de Winter maneja la estacionalidad directamente al mismo tiempo que estima el nivel y la tendencia. Esto extiende el procedimiento de Holt adhiriendo un parámetro adicional γ para usar un tercer suavizador. El procedimiento es como sigue: 1. Estimar la estacionalidad suavizando la razón de los datos al nivel estimado en el tiempo t usando: It = γ Yt + (1 − γ ) I t − s St (23) donde s es el tamaño de la estacionalidad. 2. Estimar el nivel de la serie suavizando los datos divididos por la estacionalidad estimada usando St = α Yt + (1 − α )(S t −1 + Tt −1 ) I t −s (24) 3. Estimar la pendiente de la serie usando Tt = β (S t − S t −1 ) + (1 − β )Tt −1 © 2006 por StatPoint, Inc. (25) Pronósticos - 14 STATGRAPHICS – Rev. 9/14/2006 4. Calcular el pronostico usando Ft (k ) = (S t + kTt )I t − s + m (26) Lo siguiente muestra los resultados de optimizar el suavizamiento de Winter: Modelo Alfa Beta Gama (optimizado) (optimizado) (optimizado) 0.0180 0.4993 Suavizamiento 0.5162 Exponencial de Winter Validación RMSE 1.81 Validación MAPE 1.57% Gráfica de Secuencia en Tiempo para Traffic Suavización exp. de Winter con alfa = 0.5162, beta = 0.018, gama = 0.4993 153 actual pronóstico Límites del 95.0% Traffic 133 113 93 73 1/68 1/72 1/76 1/80 1/84 1/88 Su desarrollo con los datos del tráfico no es muy bueno como los otros métodos. También los estimadores son mas difíciles de estimar numéricamente y pueden variar bastante dependiendo de los valores iniciales del procedimiento de búsqueda. Modelos ARIMA La opción final de los modelos de pronósticos, los modelos ARIMA, son los mas generales e incluyen muchos de los otros modelos como casos particulares. Los modelos ARIMA (es un acrónimo de “AutoRegressive, Integrated, Moving Average”), expresan la observación en el tiempo t como una función lineal de las observaciones previas, un termino del error actual, y una combinación lineal de los términos del error previo. La forma general del modelo es mas fácilmente expresada en términos del operador de rezago B, el cual opera en el índice del tiempo de un dato tal como BjYt = Yt-j. Usando este operador, el modelo toma la forma (1 − B − B 2 )( ) − ... − B p 1 − B s − B 2 s − ... − B Ps (1 − B ) d (1 − B s ) D Z t ( )( ) = 1 − B − B 2 − ... − B q 1 − B s − B 2 s − ... − B Qs a t © 2006 por StatPoint, Inc. (27) Pronósticos - 15 STATGRAPHICS – Rev. 9/14/2006 donde Z t = Yt − μ (28) y at es un error aleatorio o choque del sistema en el tiempo t, usualmente asumido normal con media 0 y desviación estándar σa. Para una serie estacionaria, μ representa la media del proceso. En caso contrario, esta relacionada a la pendiente de la función de pronóstico, μ es algunas veces asumida igual a 0. El modelo anterior es frecuentemente representado como ARIMA(p,d,q)x(P,D,Q)s Esto consiste de varios términos: 1. 2. 3. 4. 5. 6. Un término auto-regresivo no estacional de orden p. Diferenciación no estacional de orden d. Un término de media móvil no estacional de orden q. Un termino auto-regresivo estacional de orden P Diferenciación estacional de orden D. Un término de media móvil estacional de orden Q. Mientras que el modelo general luce formidable, los modelos mas comúnmente usados son casos relativamente simples especiales. Estos incluyen: AR(1) – Auto-regresivo de orden 1 La observación en el tiempo t es expresada como una media más un múltiplo de la desviación de la media en el periodo de tiempo previo más un error aleatorio: Yt = μ + φ1 (Yt −1 − μ ) + a t (29) AR(2) – Auto-regresivo de orden 2 La observación en el tiempo t es expresada como una media más un múltiplo de la media en dos periodos previos más un error aleatorio: Yt = μ + φ1 (Yt −1 − μ ) + φ 2 (Yt − 2 − μ ) + a t (30) MA(1) – Media móvil de orden 1 La observación en el tiempo t es expresada como una media más un error aleatorio en el periodo de tiempo actual más un múltiplo del error aleatorio en el periodo de tiempo previo: Yt = μ + a t − θ 1 a t −1 © 2006 por StatPoint, Inc. (31) Pronósticos - 16 STATGRAPHICS – Rev. 9/14/2006 MA(2) – Media móvil de orden 2 La observación en el tiempo t es expresada como una media más un error aleatorio en el periodo de tiempo actual más múltiplos de los errores aleatorios en los 2 periodos de tiempo previos: Yt = μ + a t − θ 1 a t −1 − θ 2 a t − 2 (32) ARMA(1,1) – Modelo mixto con dos términos de primer orden La observación en el tiempo t es expresada como una media más un múltiplo de la desviación media en el periodo de tiempo previo más un error aleatorio en el periodo de tiempo actual más un múltiplo del error aleatorio en el periodo de tiempo previo: Yt = μ + φ1 (Yt −1 − μ ) + a t − θ 1 a t −1 (33) ARIMA(0,1,1) – Media móvil de orden 1 aplicada a la primer diferencia La diferencia entre el periodo actual y el previo es expresada como un error aleatorio del periodo actual más un múltiplo del error aleatorio en el periodo de tiempo previo: Yt − Yt −1 = a t − θ 1 a t −1 (34) Esto modelo es equivalente al modelo de Suavizamiento Exponencial Simple. ARIMA(0,2,2) – Media móvil de orden 2 aplicada a la segunda diferencia La diferencia de las diferencias es expresada como un error aleatorio en el periodo de tiempo actual más múltiplos de los errores aleatorios en los 2 periodos de tiempo previos: (Yt − Yt −1 ) − (Yt −1 − Yt − 2 ) = a t − θ 1 a t −1 − θ 2 a t − 2 (35) Este modelo es equivalente al modelo de Suavizamiento Exponencial Lineal de Holt. ARIMA(0,1,1)x(0,1,1)s –MA términos de orden 1 estaciónales y no estaciónales La observación en el tiempo t es expresada como una combinación de la observación en estacionalidad más la diferencia entre la observación del ultimo periodo y su contraparte estacional mas un múltiplo de error de este periodo, el ultimo periodo y dos periodos uno estacional: Yt = Yt − s + Yt −1 − Yt − s −1 + a t − θ 1 a t −1 −Θ 1 a t − s + θ 1 Θ 1 a t − s −1 (36) Muchas series de tiempo económicas con un componente estacional pueden representarse con este modelo. Este modelo también representa muy bien a los datos del tráfico Golden Gate Bridge: © 2006 por StatPoint, Inc. Pronósticos - 17 STATGRAPHICS – Rev. 9/14/2006 Modelo MA(1) SMA(1) ARIMA 0.2273 0.8568 Validación RMSE 1.47 Validación MAPE 1.27% Gráfica de Secuencia en Tiempo para Traffic ARIMA(0,1,1)x(0,1,1)12 133 actual pronóstico Límites del 95.0% 123 Traffic 113 103 93 83 73 1/68 1/72 1/76 1/80 1/84 1/88 Intuitivamente, el modelo expresa la diferencia del trafico en este mes comparado con el mismo mes del ultimo año como si fuera igual a la diferencia observada en el ultimo mes, mas una combinación de ruido observada del ultimo mes, del ultimo año y hace 13 meses. La referencia clásica para construir modelos ARIMA es Box, Jenkins y Reinsel (1994). © 2006 por StatPoint, Inc. Pronósticos - 18 STATGRAPHICS – Rev. 9/14/2006 Resumen del Análisis Los resultados para ajustar un modelo de pronósticos son mostrados en Resumen del Análisis. Como ejemplo, la tabla siguiente muestra los resultados de ajustar el modelo ARIMA(0,1,1)x(0,1,1)12 a los datos de trafico del puente Golden Gate: Pronósticos - Traffic Datos/Variable: Traffic (Golden Gate Bridge Traffic Volume) Número de observaciones = 168 Indice Inicial = 1/68 Intervalo de Muestra = 1.0 mes(es) Longitud de la estacionalidad = 12 Resumen de Pronósticos Diferenciación no estacional de orden: 1 Diferenciación estacional de orden: 1 Modelo de pronóstico seleccionado: ARIMA(0,1,1)x(0,1,1)12 Número de pronósticos generados: 36 Número de periodos retenidos para validación: 24 Estadístico RMSE MAE MAPE ME MPE Periodo de Estimación 2.1868 1.38616 1.52679 -0.0410165 -0.080606 Periodo de Validación 1.46574 1.23025 1.26567 -0.000900154 -0.0111287 Resumen de Modelo ARIMA Parámetro Estimado Error Estd. t Valor-P MA(1) 0.277336 0.0843672 3.28724 0.001255 SMA(1) 0.85681 0.0283923 30.1776 0.000000 Pronóstico Histórico: sí Varianza estimada de ruido blanco = 4.93026 con 153 grados de libertad Desviación estándar estimada de ruido blanco = 2.22042 Número de iteraciones: 6 Hay varias secciones importantes en esta salida: • Resumen de los Datos: La sección superior resume los datos de entrada y el tamaño de la estacionalidad s, si la hay. • Resumen del Pronóstico: Indica cualquier transformación que fue hecha a los datos, como tan bien el tipo de modelo que fue ajustado. El numero de periodos m que fueron usados para propósitos de validación también son mostrados. • Tabla de Estadísticas: Muestra las estadísticas calculadas del error un paso adelante durante los periodos de estimación y validación. Además la raíz del cuadrado medio del error (RMSE) y el porcentaje de la media de error absoluto (MAPE) descrito anteriormente, el programa también despliega la medio del error absoluto (MAE), la media del error (ME), y el porcentaje medio del error (MPE). Idealmente, RMSE, © 2006 por StatPoint, Inc. Pronósticos - 19 STATGRAPHICS – Rev. 9/14/2006 MAE, y MAPE deben ser pequeños, ya que miden la variabilidad de los errores del pronóstico. ME y MPE deben acercarse a 0 si el pronostico no esta sesgado. • Resumen del Modelo ARIMA – Despliega estadísticas para los coeficientes del modelo ARIMA estimado. Una tabla similar será desplegada cuando los modelos de tendencias son ajustados usando regresión de mínimos cuadrados. Es de interés: o Estimación: Los coeficientes estimados. o Error Est.: El error estándar de los coeficientes. o Valor t: El valor de un estadístico t calculado dividiendo el coeficiente estimado entre su error estándar. o Valor-P: El valor-P de los dos lados calculado de la distribución t de Student con los grados de libertad indicados debajo de la tabla. Los valores P pequeños (menores que 0.05 si opera a un nivel de confianza del 95%) corresponden a coeficientes estadísticamente significativos. Si cualquier Valor-P es mayor que 0.05, se debe considerar reducir la complejidad del modelo. o Estimación Desviación Estándar del Ruido Blanco: Para estimar la desviación estándar del ruido blanco σˆ a que es acumulada por el modelo. o Numero de Iteraciones: El numero de iteraciones usadas por el procedimiento de estimación no lineal. En el ejemplo, el modelo ARIMA estimado tiene 2 parámetros, ambos son estadísticamente significativos. El ME y MPE son cercanos a 0 en la estimación y en la validación, indicando poco sesgo sobre el pronostico un paso adelante. Examinando el RMSE, MAE, y MAPE, el modelo no parece ser peor (y posiblemente mejor) durante el periodo de validación que en el periodo de estimación. Gráfico Secuencial del Tiempo El Gráfico Secuencial del Tiempo despliega los datos, los pronósticos y los límites de pronóstico: © 2006 por StatPoint, Inc. Pronósticos - 20 STATGRAPHICS – Rev. 9/14/2006 Gráfica de Secuencia en Tiempo para Traffic ARIMA(0,1,1)x(0,1,1)12 133 actual pronóstico Límites del 95.0% 123 Traffic 113 103 93 83 73 1/68 1/72 1/76 1/80 1/84 1/88 El grafico muestra: 1. Los datos observados Yt, incluyendo algunos remplazaos para datos perdidos, mostrados como puntos símbolos. 2. El pronostico un paso adelante Ft(1), grafica una línea sólida a través de los puntos. Esta es creada usando el modelo estimado, pronosticando cada periodo de tiempo t+1 usando solo la información disponible hasta el tiempo t. Los errores del pronostico un paso adelante et son observables como la distancia vertical entre las observaciones y la línea sólida. 3. Los pronósticos para valores futuros Fn+m(k) hechos en el tiempo t = n+m, para el ultimo tiempo en el cual los datos son disponibles. Estos son mostrados por la extensión de la línea de pronósticos sólida más allá de la última observación. 4. Los limites de probabilidad para los pronósticos en el nivel 100(1-α)% de confianza, son calculados asumiendo que el ruido en el sistema sigue una distribución normal. Los limites están dados por Fn + m (k ) ± zα / 2 Vˆ (k ) (37) donde Vˆ (k ) es igual a la varianza estimada del pronostico k periodos antes del final de los datos. La formula para la varianza depende del modelo usado, conforme a la sección Cálculos. Se deberá notar que los límites son solamente validos si varias suposiciones se cumplen, incluyendo: a. El modelo apropiado ha sido seleccionado. b. El modelo seleccionado fue valido para todo el historial de los datos. © 2006 por StatPoint, Inc. Pronósticos - 21 STATGRAPHICS – Rev. 9/14/2006 c. El modelo seleccionado continua siendo valido en el futuro. d. Los errores del sistema siguen una distribución normal. e. El modelo ha sido estimado de una serie suficientemente larga tal que el error de estimación del modelo es pequeño comparado con la variabilidad del termino error (excepto para modelos estimados por regresión lineal los cuales incluyen el error de estimación del modelo). En la practica, los límites se deben considerar como una aproximación de hasta dónde la serie de tiempo puede variar los valores pronosticados en el futuro. El patrón pronosticado para el tráfico del Puente Golden Gate tiene una tendencia ascendente con una fuerte oscilación estacional. Aunque los límites de pronósticos pueden parecer bastante amplios, se debe permitir la posibilidad de eventos dramáticos tales como los que fueron observados un par de veces en el pasado. Opciones del Panel • Nivel de Confianza: El porcentaje usado para los limites de probabilidad. © 2006 por StatPoint, Inc. Pronósticos - 22 STATGRAPHICS – Rev. 9/14/2006 Tabla de Pronósticos La Tabla de Pronósticos despliega los pronósticos para el histórico y el futuro. Una porción de la salida se muestra abajo: Tabla de Pronósticos para Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 V = Retenido para validación Periodo Datos Pronóstico Residuo 1/68 8/81 9/81 10/81 11/81 110.652 104.117 99.1015 96.5951 73.637 109.385 103.266 99.432 93.965 -1.26658 -0.850957 0.330487 -2.63007 V V V V Inferior 95.0% Superior 95.0% Periodo Pronóstico (Límite) (Límite) 1/82 2/82 3/82 4/82 5/82 90.5668 93.3945 96.3379 98.8411 99.3509 86.1802 87.9823 90.0656 91.8132 91.6412 94.9535 98.8067 102.61 105.869 107.061 La sección superior de la salida muestra: • Periodo: El periodo de tiempo t correspondiente a cada observación histórica. • Datos: Los valores observados Yt, incluyendo reemplazos por valores perdidos. • Pronóstico: El pronostico para el tiempo t usando toda la información disponible hasta el tiempo t-1. • Residuos: El error del pronostico un paso adelante et, es calculado sustrayendo el pronostico del valor observado. • V: Indica que la observación correspondiente no fue usada para ajustar el modelo pero en lugar de eso fue incluida para la validación. La sección inferior de la salida muestra: • Periodo: El periodo de tiempo t correspondiente a periodos mas allá del final de los datos observados. • Pronóstico: El pronostico Fn+m(k) para el tiempo t usando toda la información disponible . • Limites: Limites de probabilidad para los pronósticos. © 2006 por StatPoint, Inc. Pronósticos - 23 STATGRAPHICS – Rev. 9/14/2006 Por ejemplo, el tráfico pronosticado en el puente Golden Gate en junio de 1982, fue hecho al final de 1981, con 104.8. El límite al 95% es de 96.5 hasta 113.2. Gráfico del Pronóstico El Gráfico del Pronostico muestra las últimas observaciones, los pronósticos y los limites de pronósticos: Gráfica de Pronósticos para Traffic ARIMA(0,1,1)x(0,1,1)12 134 actual pronóstico Límites del 95.0% 124 Traffic 114 104 94 84 74 12/81 12/82 12/83 12/84 12/85 Es similar al Gráfico Secuencial del Tiempo, excepto que proporciona una vista más cercana sobre los pronósticos. © 2006 por StatPoint, Inc. Pronósticos - 24 STATGRAPHICS – Rev. 9/14/2006 Comparación de Modelos El panel Comparación de Modelos despliega estadísticas que comparan cada uno de los modelos seleccionados en la caja de dialogo Opciones del Análisis. Comparación de Modelos Variable de datos: Traffic Número de observaciones = 168 Indice Inicial = 1/68 Intervalo de Muestra = 1.0 mes(es) Longitud de la estacionalidad = 12 Número de periodos retenidos para validación: 24 Modelos (A) ARIMA(0,1,1)x(0,1,1)12 (B) Suavización exp. de Winter con alfa = 0.5167, beta = 0.0209, gama = 0.4997 Periodo de Estimación Modelo RMSE MAE (A) 2.1868 1.38616 (B) 2.40367 1.55478 Modelo (A) (B) RMSE 2.1868 2.40367 RUNS OK OK Periodo de Validación Modelo RMSE MAE (A) 1.46574 1.23025 (B) 1.81155 1.56671 MAPE 1.52679 1.70574 RUNM OK OK MAPE 1.26567 1.57305 ME -0.0410165 -0.272691 AUTO OK OK MPE -0.080606 -0.312487 MEDIA OK OK ME -0.000900154 -0.0889473 VAR *** *** MPE -0.0111287 -0.0567873 Clave: RMSE = Root Mean Squared Error (Raíz del Cuadrado Medio del Error) RUNS = Prueba corridas excesivas arriba y abajo RUNM = Prueba corridas excesivas arriba y abajo de la mediana AUTO = Prueba de Box-Pierce para autocorrelación excesiva MEDIA = Test for difference in mean 1st half to 2nd half VAR = Prueba para diferencia en varianza entre la 1ª mitad y la 2ª mitad OK = no significativo (p >= 0.05) * = marginalmente significativo (0.01 < p <= 0.05) ** = significativo (0.001 < p <= 0.01) *** = altamente significativo (p <= 0.001) Las tablas etiquetadas Periodo de Estimación y Periodo de Validación despliegan estadísticas calculadas de los errores de pronósticos un paso adelante et en sus periodos respectivos: RMSE: Raíz del cuadrado medio del error. MAE: La media del error absoluto. MAPE: El porcentaje de la media del error absoluto. ME: La media del error. MPE: El porcentaje de la media del error. © 2006 por StatPoint, Inc. Pronósticos - 25 STATGRAPHICS – Rev. 9/14/2006 Los mejores modelos tienen RMSE, MAE y MAPE más pequeños, los cuales miden la varianza de los errores del pronóstico. ME y MPE son medidas del sesgo y deberán ser cercanos a 0. Para el periodo de estimación solamente, varias pruebas son aplicadas a los errores de pronósticos para determinar si el modelo toma en cuenta toda la estructura en los datos. Estas pruebas son diseñadas para determinar si los residuos forman una serie aleatoria (“ruido blanco”) y son descritas en la documentación Métodos Descriptivos de Series Tiempo – Estas incluyen: RUNS: Prueba basada sobre el número de corridas arriba y abajo. RUNM: Prueba basada sobre el número de corridas por encima y por debajo de la mediana. AUTO: Prueba chi-cuadrada basada en los primeras k auto-correlaciones de los residuos, donde k es fijado en Opciones del Panel en la tabla que despliega las auto-correlaciones de los residuos. MEAN: Prueba t que compara la medias de los residuos en la primera y segunda mitad de los datos. VAR: Prueba F que compara la varianza de los residuos en dos mitades. Si la entrada para una prueba particular es OK, entonces la prueba no es estadísticamente significativa a un nivel del 95% de confianza y la suposición de residuos aleatorios no será rechazada. En caso contrario, el numero de estrellas (*) indican el nivel de significancia sobre el cual la suposición de residuos aleatorios será rechazada. Ambos modelos estimados a los datos del tráfico pasan todas las pruebas excepto la que compara las dos varianzas. La última prueba es altamente significativa. Esto se observara cuando los residuos sean examinados, esta falla es debido a la presencia de tres grandes residuos durante la segunda mitad del periodo de estimación. Gráficos de Residuos El Gráfico de Residuos despliega el error un paso adelante et de varias maneras. Por defecto la grafica muestra los residuos en orden secuencial: © 2006 por StatPoint, Inc. Pronósticos - 26 STATGRAPHICS – Rev. 9/14/2006 Gráfica de Residuos para ajustada Traffic ARIMA(0,1,1)x(0,1,1)12 8 Residuo 4 0 -4 -8 -12 1/68 1/71 1/74 1/77 1/80 1/83 Observe que los tres más grandes picos ocurren entre marzo y abril de 1974 y mayo de 1979. El tráfico en esos meses cambia mucho de lo normal. Usando Opciones del Panel, un gráfico de probabilidad de residuos puede ser desplegado: Gráfica de Probabilidad Normal para Residuos ARIMA(0,1,1)x(0,1,1)12 99.9 99 porcentaje 95 80 50 20 5 1 0.1 -12 -8 -4 0 4 8 Residuo Si los residuos vienen de una distribución normal, deberían caer cerca de la línea recta. La grafica anterior muestra alguna curvatura en las colas, más 3 datos atípicos. © 2006 por StatPoint, Inc. Pronósticos - 27 STATGRAPHICS – Rev. 9/14/2006 Opciones del Panel Tres diferentes graficas pueden desplegarse: 1. Gráfico Secuencial del Tiempo – Grafica de residuos contra el tiempo. 2. Gráfico de Probabilidad (Horz.) – Grafica de probabilidad con los porcentajes desplegados sobre el eje horizontal. 3. Gráfico de Probabilidad (Vert.) – Grafica de probabilidad con los porcentajes desplegados sobre el eje vertical (como se mostró anteriormente). Auto-correlaciones de Residuos Es usual también examinar las auto-correlaciones de los residuos. La auto-correlación de los residuos en un retraso k mide la fuerza de la correlación entre residuos de k periodos distantes. La auto-correlación de los residuos un retraso k es calculada de n−k rk = ∑ (e t =1 t − e )(et + k − e ) n ∑ (e t =1 t − e) (38) 2 Si el modelo describe toda la estructura dinámica de la serie de tiempo, entonces los residuos deberán ser aleatorios y sus auto-correlaciones insignificantes. El panel Auto-correlaciones de Residuos muestra las auto-correlaciones de los residuos junto con sus errores estándar y limites de probabilidad: © 2006 por StatPoint, Inc. Pronósticos - 28 STATGRAPHICS – Rev. 9/14/2006 Autocorrelaciones Estimadas para residuos Variable de datos: Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 Retraso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Autocorrelación 0.020701 -0.14092 -0.0782807 -0.0613474 -0.0687687 0.0266528 0.0390244 0.0182106 -0.0183478 -0.0917506 0.040521 -0.0970784 0.0550271 -0.0223925 0.0119691 0.0101773 -0.00617232 0.00450753 0.0562645 -0.00489781 -0.125667 0.0167626 0.0627018 -0.059002 Error Estd. 0.0803219 0.0803563 0.0819352 0.0824163 0.0827104 0.0830785 0.0831336 0.0832517 0.0832774 0.0833035 0.0839529 0.084079 0.0847991 0.0850291 0.0850672 0.085078 0.0850859 0.0850888 0.0850903 0.08533 0.0853318 0.0865176 0.0865385 0.0868311 Inferior 95.0% Límite de Prob. -0.157428 -0.157496 -0.16059 -0.161533 -0.16211 -0.162831 -0.162939 -0.163171 -0.163221 -0.163272 -0.164545 -0.164792 -0.166203 -0.166654 -0.166729 -0.16675 -0.166766 -0.166771 -0.166774 -0.167244 -0.167248 -0.169572 -0.169613 -0.170186 Superior 95.0% PLímite de Prob. 0.157428 0.157496 0.16059 0.161533 0.16211 0.162831 0.162939 0.163171 0.163221 0.163272 0.164545 0.164792 0.166203 0.166654 0.166729 0.16675 0.166766 0.166771 0.166774 0.167244 0.167248 0.169572 0.169613 0.170186 Cualquier auto-correlación que cae fuera de los límites de probabilidad es estadísticamente significativa en el nivel indicado. El StatAdvisor resalta cualquiera de estas correlaciones en rojo. Opciones del Panel • Numero de retrasos: El máximo retraso k para calcular la auto-correlación. • Nivel de Confianza: El valor de 100(1-α)% usado para calcular los limites de probabilidad. © 2006 por StatPoint, Inc. Pronósticos - 29 STATGRAPHICS – Rev. 9/14/2006 Función de Auto-correlación Residual La Función de Auto-correlación Residual despliega las auto-correlaciones de los residuos y los limites de probabilidad: Autocorrelaciones Residuales para ajustada Traffic ARIMA(0,1,1)x(0,1,1)12 Autocorrelaciones 1 0.6 0.2 -0.2 -0.6 -1 0 5 10 15 20 25 retraso Las barras que se extienden más allá de los límites corresponden a auto-correlaciones estadísticamente significativas. Para los datos del trafico, la única estimación que esta cercana a un limite de probabilidad es la estimación con k = 2. De hecho, una leve reducción leve de RMSE durante el periodo de estimación puede realizarse incrementando el orden con el termino no estacional MA de 1 a 2. Sin embargo, la realización del modelo durante el periodo de validación es peor que con el modelo actual, se seleccionara el modelo más simple. Auto-correlaciones Residuales Parciales Si el modelo se ajusta bien, las auto-correlaciones parciales de los residuos deberán ser también insignificantes. El panel Auto-correlaciones Residuales Parciales despliega las auto-correlaciones parciales de los residuos junto con sus errores estándar de retraso y los limites de probabilidad: © 2006 por StatPoint, Inc. Pronósticos - 30 STATGRAPHICS – Rev. 9/14/2006 Autocorrelaciones Parciales Estimadas para residuos Variable de datos: Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 Retraso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Parcial Autocorrelación 0.020701 -0.141409 -0.0735248 -0.0805431 -0.0916127 0.000904756 0.00389133 0.004734 -0.0212021 -0.092355 0.0442202 -0.129774 0.0568189 -0.0730993 0.00455603 -0.00205713 -0.0218083 0.0148837 0.0466933 -0.0104909 -0.10974 0.0036704 0.0558175 -0.104699 Error Estd. 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 0.0803219 Inferior 95.0% Límite de Prob. -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 -0.157428 Superior 95.0% PLímite de Prob. 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 0.157428 El StatAdvisor resaltara cualquier auto-correlación parcial significativa con rojo. Opciones del Panel • Número de Retrasos: Máximo retraso para estimar la auto-correlación parcial. • Nivel de Confianza: Nivel usado para calcular los limites de probabilidad. © 2006 por StatPoint, Inc. Pronósticos - 31 STATGRAPHICS – Rev. 9/14/2006 Función de Auto-correlación Parcial Residual La Función de Auto-correlación Parcial Residual grafica las auto-correlaciones parciales de los residuos y los limites de probabilidad: Autocorrelaciones Residuales Parciales para ajustada Traffic ARIMA(0,1,1)x(0,1,1)12 Autocorrelaciones Parciales 1 0.6 0.2 -0.2 -0.6 -1 0 5 10 15 20 25 retraso Todos las auto-correlaciones deberán estar dentro de estos límites, como en la grafica anterior. Tabla de Períodograma Residual También usual examinar los residuos sobre el dominio de frecuencia, considerando cuanta variabilidad existe en las diferentes frecuencias. Como se describe en la documentación Métodos Descriptivos en Series de Tiempo, el períodograma grafica la potencia en cada una de las frecuencias de Fourier. Si los residuos son aleatorios, deberán ser aproximadamente iguales en todas las frecuencias, lo cual es una serie de tiempo aleatoria llamada frecuentemente “ruido blanco”. El panel Tabla de Períodograma Residual despliega la siguiente tabla: © 2006 por StatPoint, Inc. Pronósticos - 32 STATGRAPHICS – Rev. 9/14/2006 Periodograma para residuos Variable de datos: Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Frequency 0.0 0.00645161 0.0129032 0.0193548 0.0258065 0.0322581 0.0387097 0.0451613 0.0516129 0.0580645 0.0645161 0.0709677 0.0774194 0.083871 0.0903226 0.0967742 Period 155.0 77.5 51.6667 38.75 31.0 25.8333 22.1429 19.375 17.2222 15.5 14.0909 12.9167 11.9231 11.0714 10.3333 Ordinate 5.15304E-32 0.377934 7.63606 2.11531 2.96824 8.73905 1.13413 10.7466 4.51085 3.25441 20.2058 2.03049 5.83907 6.57417 0.310867 19.5081 Cumulative Sum 5.15304E-32 0.377934 8.01399 10.1293 13.0975 21.8366 22.9707 33.7174 38.2282 41.4826 61.6884 63.7189 69.558 76.1321 76.443 95.9511 Integrated Periodogram 7.71106E-35 0.000565545 0.0119922 0.0151576 0.0195993 0.0326765 0.0343736 0.050455 0.0572051 0.062075 0.0923111 0.0953496 0.104087 0.113925 0.11439 0.143582 La tabla incluye: • Frecuencia: La i-ésima frecuencia de Fourier fi = i/n. • Periodo: El periodo asociado con la frecuencia de Fourier , dado por 1/ fi. Esto es el número de observaciones en un ciclo completo de esta frecuencia. • Ordenada: La ordenada del períodograma I(fi). • Suma Acumulada: La suma acumuladas de las ordenadas del períodograma en todas las frecuencias hasta la i-ésima. • Períodograma Integrado: La suma acumulada dividida por la suma de las ordenadas del períodograma en todas las frecuencias de Fourier. Esta columna representa la proporción de la potencia en la serie en o por debajo de la i-ésima frecuencia. A diferencia del períodograma a la serie original del tráfico, no presenta grandes picos en una frecuencia de una vez cada 12 meses. Opciones del Panel © 2006 por StatPoint, Inc. Pronósticos - 33 STATGRAPHICS – Rev. 9/14/2006 • Remover media: Activar para restar la media de la serie de tiempo antes de calcular el períodograma. • Ahusamiento: Porcentaje de los datos al final de la serie a los cuales un dato de ahusamiento será aplicado antes de que el períodograma sea calculado. Siguiendo Bloomfield (2000), STATGRAPHICS usa un coseno de ahusamiento para las observaciones con ponderación baja a las cercanas en i = 1 y i = n. Esto es útil para corregir sesgo si las ordenadas del períodograma son suavizadas para crear un estimador de la función de densidad espectral subyacente. Períodograma de Residuos El Períodograma de Residuos grafica las ordenadas del períodogramas de los residuos: Periodograma Residual para ajustada Traffic ARIMA(0,1,1)x(0,1,1)12 40 Ordenada 30 20 10 0 0 0.1 0.2 0.3 frecuencia 0.4 0.5 Si los residuos son aleatorios, no deberá haber picos notables. Permitiendo algún sesgo natural en la distribución de las ordenadas, la grafica anterior no muestra grandes picos. Opciones del Panel © 2006 por StatPoint, Inc. Pronósticos - 34 STATGRAPHICS – Rev. 9/14/2006 • Remover media: Activar para restar la media de la serie de tiempo antes de calcular el períodograma. • Puntos: Si se selecciona, puntos símbolos que serán mostrados. • Líneas: Si se selecciona, las ordenadas serán conectadas por una línea. • Ahusamiento: Porcentaje de los datos al final de la serie a los cuales un dato de ahusamiento será aplicado antes de que el períodograma sea calculado. Períodograma Integrado de Residuos El Períodograma Integrado de Residuos despliega las sumas acumuladas de las ordenadas del períodograma de los residuos, divididas por la suma de las ordenadas sobre todas las frecuencias de Fourier: Periodograma para Residuos 1 Ordenada 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 frecuencia 0.4 0.5 Una línea diagonal será incluida en el grafico, junto con límites de Kolmogorov-Smirnov al 95% y 99%. Si los residuos son aleatorios, el períodograma integrado debería caer entre de estos límites al 95% y 99%. Para los datos del tráfico, los residuos parecen ser ruido blanco. © 2006 por StatPoint, Inc. Pronósticos - 35 STATGRAPHICS – Rev. 9/14/2006 Pruebas de Aleatoriedad El panel Pruebas de Aleatoriedad muestra resultados de pruebas para corridas adicionales para determinar si los residuales son o no puramente aleatorios: Prueba de Aleatoriedad de residuos Variable de datos: Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 (1) Corridas arriba o abajo de la mediana Mediana = 0.092978 Número de corridas arriba o abajo de la mediana = 79 Número esperado de corridas = 78.0 Estadístico z para muestras grandes = 0.0808469 Valor-P = 0.935558 (2) Corridas arriba y abajo Número de corridas arriba y abajo = 99 Número esperado de corridas = 103.0 Estadístico z para muestras grandes = 0.670684 Valor-P = 0.50242 (3) Prueba Box-Pierce Prueba basada en las primeras 24 autocorrelaciones Estadístico de prueba para muestras grandes = 13.6096 Valor-P = 0.914755 Tres pruebas son realizadas: 1. Corridas por encima y por debajo de la mediana: Cuenta el número de veces que la serie va por arriba y por debajo de su mediana. Este número es comparado con el valor esperado para una serie aleatoria. Los valores P pequeños (menores que 0.05 si opera a un nivel de confianza del 95%) indican que los residuos no son puramente aleatorios. 2. Corridas arriba y abajo: Cuenta el número de veces que la serie sube o baja. Este número es comparado con el valor esperado para una serie aleatoria. Los valores P pequeños indican que los residuos no son puramente aleatorios. 3. Prueba Box-Pierce: Construye un estadístico de prueba basada en las primeras k auto-correlaciones de residuos, calculado por: k Q = n∑ ri 2 (39) i =1 Este estadístico es comparado en una distribución chi-cuadrada con k grados de libertad. Como con las otras dos pruebas, los valores P pequeños indican que los residuos no son puramente aleatorios. Ya que los valores P para las tres pruebas están por encima de 0.05, no hay razón para dudar que los residuos sean ruido blanco. © 2006 por StatPoint, Inc. Pronósticos - 36 STATGRAPHICS – Rev. 9/14/2006 Opciones del Panel • Numero de Retrasos: Numero de retrasos k para incluirse en la prueba Box-Pierce. Correlaciones Cruzadas de los Residuos El panel Correlaciones Cruzadas de los Residuos despliega correlaciones cruzadas entre residuos y una segunda serie, se especifica usando Opciones del Panel. Las correlaciones cruzadas entre una serie Y en el tiempo t y una segunda serie X en el tiempo t-k es denotada por cxy(k). Un uso típico de correlaciones cruzadas es la identificación “indicadores leadings” o en una relación entrada salida. Por ejemplo, Box, Jenkins y Reinsel (1994) presentan datos de la entrada y salida de un horno de gas en intervalos de 9 segundos, contenidos en el archivo furnace.sf6. Los datos consisten de: 1. Salida de la Serie Y: % CO2 del gas a la salida 2. Entrada de la Serie X: Razón de gas a la entrada en pies cúbico por minuto La salida de la serie de tiempo esta bien descrita por un modelo ARIMA(3,1,0). La siguiente tabla muestra las auto-correlaciones de residuos para el modelo de salida y similarmente para serie tiempo en la entrada diferenciada: Correlaciones Cruzadas Estimadas para residuos con DIFF(Input) Variable de datos: Output Modelo: ARIMA(3,1,0) Retraso Retraso -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 -0.0530088 0.00912287 0.0463566 0.127723 0.13986 0.163528 0.206428 0.174213 0.09082 -0.0977499 -0.364327 -0.515241 -0.417341 -0.237661 -0.0153997 0.0512618 0.0298728 © 2006 por StatPoint, Inc. Pronósticos - 37 STATGRAPHICS – Rev. 9/14/2006 Alguna correlaciones negativas grandes son observadas, despuntando en k = 3. Esto sugiere que los cambios en la razón del gas a la entrada están correlacionados con los residuos del modelo ajustado a la salida y podrían ser utilizados para mejorar el pronóstico. Opciones del Panel • Segunda Serie de Tiempo: Las observaciones para la serie X. Observe el uso del operador DIFF para calcular la primera diferencia de la columna de Entrada. • Numero de Retrasos: Máximo retraso k (positivo y negativo) para calcular la correlación cruzada Gráfico de Correlaciones Cruzadas de los Residuos El Gráfico Correlaciones Cruzadas de los Residuos muestra las correlaciones cruzadas estimadas: © 2006 por StatPoint, Inc. Pronósticos - 38 STATGRAPHICS – Rev. 9/14/2006 Correlaciones Cruzadas Estimadas para Residuos con DIFF(Input) ARIMA(3,1,0) Correlaciones Cruzadas 1 0.6 0.2 -0.2 -0.6 -1 -25 -15 -5 5 15 25 retraso Observe los picos más grandes de correlaciones negativas en el retraso 3. Esto implica que los cambos los cambios en la razón del gas a la entrada están correlacionados con los residuos del modelo ajustado a la salida y podrían ser utilizados para mejorar el pronóstico. Grabar Resultados Los siguientes resultados pueden ser guardados en una hoja de datos: 1. Datos – Las observaciones originales, junto con cualquier reemplazamiento para valores perdidos. 2. Datos Ajustados – La serie de tiempo para los datos después de cualquier ajuste hecho. 3. Pronósticos – Los valores de pronósticos dentro y más allá del periodo muestral. 4. Limites Superior de Pronósticos – Los límites superiores de probabilidad para los pronósticos. 5. Limites Inferior de Pronósticos – Los límites inferiores de probabilidad para los pronósticos. 6. Residuos – Los errores del pronostico un paso adelante. 7. Autocorrelaciones – Las auto-correlaciones de los residuos. 8. Autocorrelaciones Parciales – Las auto-correlaciones parciales de los residuos. © 2006 por StatPoint, Inc. Pronósticos - 39 STATGRAPHICS – Rev. 9/14/2006 9. Correlaciones Cruzadas – Las correlaciones cruzadas entre los residuos y la segunda serie. 10. Ordenadas residuales de períodograma – Calcula las ordenadas del períodograma para los residuos. 11. Frecuencias de Fourier – Las frecuencias de Fourier correspondientes a las ordenadas del períodograma para los residuos. Cálculos Estadísticos del Error – periodo de validación RMSE = Raíz del Cuadrado Medio del Error m ∑e i =1 RMSE = 2 n +i (40) m MAPE = Porcentaje de la Media del Error Absoluto m MAPE = 100 ∑e i =1 n+i / Yt +i m % (41) MAE = Media del Error Absoluto m MAE = ∑e i =1 n +i (42) m ME = Media del Error m ME = ∑e i =1 n +i (43) m MPE = Porcentaje de la Media del Error m MPE = 100 en +i ∑Y i =1 n +i m © 2006 por StatPoint, Inc. % (44) Pronósticos - 40 STATGRAPHICS – Rev. 9/14/2006 Función de Varianza para Pronósticos Modelo Aleatorio de Walk Vˆ (k ) = kσˆ a (45) Modelo de Medias ⎛ 1⎞ Vˆ (k ) = σˆ a ⎜1 + ⎟ ⎝ n⎠ (46) Modelo de Media Móvil ⎛ 1⎞ Vˆ (k ) = σˆ a ⎜1 + ⎟ ⎝ c⎠ (47) Suavizamiento Exponencial Simple ( Vˆ (k ) = σˆ a 1 + (k − 1)α 2 ) (48) Suavizamiento Exponencial Lineal y Cuadrático de Brown ⎞ ⎛ k (k − 1)(2k − 1)λ12 2 Vˆ (k ) = σˆ a ⎜⎜1 + (k − 1)λ0 + + λ0 λ1 k (k − 1) ⎟⎟ 6 ⎠ ⎝ (49) donde λ0 = α (2-α) y λ1 = α2 Suavizamiento Exponencial Lineal de Holt ⎞ ⎛ k (k − 1)(2k − 1)λ12 2 Vˆ (k ) = σˆ a ⎜⎜1 + (k − 1)λ0 + + λ0 λ1 k (k − 1) ⎟⎟ 6 ⎠ ⎝ (50) donde λ0 = α y λ1 = αβ Suavizamiento Exponencial de Winter La varianza del pronóstico es calculada de manera similar a Holt con la contribución adicional de los índices de estacionalidad. © 2006 por StatPoint, Inc. Pronósticos - 41 STATGRAPHICS – Rev. 9/14/2006 Modelos de Tendencias Los limites de pronostico son calculados con formulas de regresión para predecir una nueva observación en el tiempo t = n + m + k, incluidas el uso de la distribución t de Student con el numero apropiado de grados de libertad. Modelos ARIMA Los cálculos que siguen los métodos de Box, Jenkins y Reinsel (1994), los cuales involucran encontrar la función Ψ para expresar las observaciones en el tiempo t en términos de errores actuales y previos. © 2006 por StatPoint, Inc. Pronósticos - 42