Trabajo No 1 de Estadı́stica III Análisis de Serie de Tiempo: Tendencia y Estacionalidad Abril 9 de 2012 1. Caracterı́sticas del Trabajo, Presentación, Valor y Condiciones El trabajo tiene 10 puntos. Tiene un valor de 40 % de la nota definitiva. Se sugiere elaborar el reporte en un formato Word o Latex, tipo artı́culo. (1 ) El reporte debe contener: nombres de los integrantes del grupo, indicando el grupo y la serie asignada, introducción, desarrollo de los puntos, indentificando cada uno, conclusiones y referencias. No incluı́r los programas en R utilizados. No colocar los resultados de R tal como se producen en la consola; es decir, hay que presentar los resultados de manera legible, clara. Las gráficas y las páginas deben ir numeradas. Se solicita no empastar el informe. 2. Series para el Trabajo El número de la serie de 1 a 9, asignada a cada grupo está entre paréntesis, luego aparece, en algunas, la librerı́a de R de la cual se tomaron, y el nombre con que aparecen en esas librerı́as. Los archivos con los datos se enviarán por email y también están en la página web del curso, http://www.unalmed.edu.co/~ndgirald/members.htm. 1. (1,2,3) Son tres series en la librerı́a openair, que provienen de un estudio sobre el efecto de tres contaminantes en la calidad del aire en Londres: CO (monóxido de carbono), SO2 (dióxido de azufre), O3 (ozono). Los datos están en el sitio web denominado the London Air Quality Archive, ver http://www.londonair.org.uk para detalles. Los mismos datos se pueden obtener en formato .csv via el sitio web del proyecto openair http://www.openair-project.org. Son 2731 obs, diarias desde 01/01/98 hasta 23/06/05 para aprox 7.5 años. 2. (4) una serie en la librerı́a tsModel, sobre la cantidad de partes por millón de material particulado: pm10tmean 2 . Son datos sobre la calidad del aire en Baltimore City, 1 Por ejemplo el formato Word de la revista Ingenierı́a y Ciencia, que se encuentra en la página del profesor, en la sección “Documentos”. 2 Se denomina PM10 a pequeñas partı́culas sólidas o lı́quidas de polvo, cenizas, hollı́n, partı́culas metálicas, cemento o polen, dispersas en la atmósfera, y cuyo diámetro es menor que 10 µm (1 micrómetro corresponde la milésima parte de 1 milı́metro). Están formadas principalmente por compuestos inorgánicos como silicatos 1 Maryland, USA, entre 1987 y 2000. 3. (5,6,7,8) cuatro series de la librerı́a wq (water quality) de un estudio sobre la calidad del agua en la bahı́a de San Francisco, California, USA: sal (grado de salinidad), temp (temperatura), chl (clorofila presente), dox (oxı́geno diluı́do). Las series se tomaron tres ó cuatro veces al mes. Las fechas están en los archivos. Los datos son diarios pero no secuenciales. Se puede suponer que la frecuencia de las series es 10 dı́as. Nótese que este valor no es el perı́odo. 4. (9) cvd.dat Es una serie en la librerı́a season que contiene el número de fallecimientos mensuales de personas mayores de 75 años en Los Angeles USA debidas a enfermedades cardiovasculares relacionadas con contaminación del aire durante los años 1987 to 2000. 5. (10) wqlondon.dat Una serie sobre el consumo mensual en la ciudad de London en Ontario, Canadá, entre 1966-1988 (en miles de litros/dı́a). 6. (11) La serie de precios mensuales de kg papa criolla lavada en la central de Corabastos en Bogotá, entre 1997 y 2003. 7. (12) La serie IPVU: Índice nominal de precios de la vivienda usada en Colombia, trimestral entre 1988 y 2010, fuente: Banco de la República en www.banrep.org/economia/IPVU/INFORME_IPVU06.pdf 8. (13,14,15) Tres series de demanda de energı́a en Bogotá, atendida por la Compañı́a Codensa, S.A.: demanda diaria dia, en tres horas pico dı́a (6,7,8 pm), 3horas, y demanda diaria máxima, max. 9. (16,17) Dos series sobre el producto interno bruto y el ı́ndice de producción industrial de Brazil: dgp, ipi 10. (18) Una serie sobre el número de automóviles producidos mensualmente en el Reino Unido, ukcars, obtenida en el sitio web de la librerı́a forecast. 3. Puntos para desarrollar Los objetivos son: identificación de al menos dos modelos para la tendencia y estacionalidad en la serie. Elección del modelo que mejor describa ambas componentes usando AIC y otras medidas de ajuste. Y cálculo de pronósticos usando la estrategia de validación cruzada con el modelo escogido. 1. Introducción Empiece con una contextualización de la serie: definición, frecuencia, perı́odo de los datos, fuente de los datos (solo si está disponible), objetivos del análisis, etc. y aluminatos, metales pesados entre otros, y material orgánico asociado a partı́culas de carbono (hollı́n). tomado de: http://es.wikipedia.org/wiki/PM10 2 2. Examen inicial Use la función stl() para determinar si existe componente de tendencia y/o de estacionalidad. Reporte la gráfica y una conclusion preliminar sobre si existe tendencia global, local, y si existe componente estacional, de qué perı́odo. Note que la tendencia global puede también ser una función periódica. En este caso habrı́an dos componentes estacionales, y la de mayor perı́odo, por ejemplo, anual, se puede combinar con una tendencia por ejemplo lineal. 3. Tendencia y Estacionalidad Decidir cuál modelo utilizar para la tendencia y cuál para la estacionalidad es la parte central del trabajo. Escoja al menos dos modelos de la forma Yt = Tt + St + t , con Tt: lineal, cuadrática, cúbica, exponencial-lineal, loess, filtro lineal; y St : suma de variables indicadoras, suma de combinaciones seno y coseno. Es posible combinar estas componentes. Para definir la componente estacional hay que determinar primero el posible perı́odo s, ó los posibles perı́odos. En la Sección 4 hay varias sugerencias para escoger el modelo. No hay una regla que sirva para todas las series de manera que esta parte es también cuestión de inventiva. En cualquiera de los casos anteriores implemente la estrategia de validacion cruzada escogiendo una parte de los datos para ajustar y otra para comparar los pronósticos. Forme las variables explicativas. Reporte cuántos datos dejó en la parte para comparar los pronósticos. 4. Estimación Estime al menos dos modelos. Si incluyó el modelo exponencial debe estimar tambien el log-lineal como auxiliar. Reporte las tablas de parametros estimados, estadı́sticos t y F, valores p. Concluya si los modelos ajustan. 5. AIC, BIC y R cuadrado ajustado Reporte AIC, BIC y R cuadrado ajustado para los modelos. Escoja uno de los modelos con base en estos criterios. 6. Pronósticos para la Validación Cruzada: Calcule los pronósticos para la validación cruzada con los modelos escogidos. Calcule el MAPE para cada modelo. Reporte la gráfica de los pronósticos y de los datos observados, para el perı́odo de comparación. Cuál modelo es en definitiva el escogido para pronosticar? 7. Estabilidad Estructural: Elabore un análisis de estabilidad estructural del modelo que escogió finalmente para pronosticar. Reporte: la gráfica de los parámetros estimados recursivamente, la gráfica de la prueba CUSUM. La prueba formal CUSUM. Comente el resultado. Si no hay estabilidad estructural utilice la función breakpoints para detectar los puntos de quiebre en la serie. Sugerencia: use como guı́a los ejemplos de la sección 4.4, cap. 4, pag. 58, de la Notas de Clase (en la página web del curso). En el artı́culo [3] hay una discusión sobre el efecto estructural de los atentados de las torres gemelas en NY sobre la serie de turismo en New Zealand. 8. Holt-Winters: Aplique el método de Holt-Winters y calcule los valores suavizados y los pronósticos. Compare los resultados de este método con los de los dos modelos de 3 regresión escogidos. Reporte las gráficas de los valores suavizados y de la serie superpuestos. Reporte el MAPE y las otras medidas de error de los pronósticos, calculadas con la función accuracy. En particular, para el análsis: si se detectó inestabilidad estructural, los pronósticos Holt-Winters tienen menor MAPE que los obtenidos con modelos globales?. 9. Media móvil doble tipo henderson: Calcule la media móvil doble tipo henderson de longitud 13, aplicada a la serie, denotada por m.r y definida como sigue. w13 = c(-0.019, -0.028, 0.0, 0.066, 0.147, 0.214, 0.240, 0.214, 0.147, 0.066, 0.0, -0.028, -0.019) m.r = na.omit(filter(y,w13,"conv",2,F,NULL)) Reporte las gráficas de la tendencia Tt con el modelo de regresión escogido y de la media móvil m.r, superpuestas. Comente sobre la diferencia. Cuál captura mejor la tendencia de la serie?. Defina el vector de incrementos porcentuales de m.r como icp.r = (m.r[2:n]-m.r[1:(n-1)])/m.r[1:(n-1)], donde n = length(m.r). Calcule el promedio de estos valores icp.r. En caso de que la tendencia sea monótona (creciente o decreciente) cómo puede interpretarse esta media?. 10. Conclusiones Reporte las conclusiones del trabajo: un resumen de los resultados que encontró, y de los problemas que se presentaron en la elaboración del modelo. Por ejemplo, un comentario acerca de lo que Usted crea que logró el modelo: capturó la dinámica de la serie?, su tendencia?, la componente estacional?, los pronósticos parecen realistas y confiables?. Qué otras alternativas podrı́an haberse propuesto?. Sobre todo, dé una evaluación sobre el grado de confiabilidad de los pronósticos. 4. Algunas sugerencias y procedimientos para escoger los modelos para la tendencia y la estacionalidad 1. Determinar el perı́odo de una serie no es simple ya que pueden existir más de un perı́odo. Es decir, la serie puede tener varias componentes con perı́odos diferentes. Incluso la tendencia Tt puede ser una de tales componentes periódicas. Una forma de determinar el perı́odo es utilizar las siguientes instrucciones, que implementan un estadı́stico denominado “periodograma”. Utiliza la función peri() de la librerı́a season. En la Figura 1 se pueden ver, en el panel inferior, una barra que sobresale, la cual corresponde a la frecuencia dominante en la serie, es decir, la componentes estacional más determinante de la serie, que corresponde a un perı́odo de s = 12. require(season) set=peri(z,adjmean=TRUE,plot=TRUE) 4 20000 40000 60000 0 Periodogram nc=which(set$peri > 200) 1/(set$f[nc]/(2*pi)) 0.0000000 0.7853982 1.5707963 2.3561945 3.1415927 0 5000 15000 25000 35000 Periodogram Frequency (radians) 0 20 40 60 80 100 120 140 Cycles Figura 1: Periodograma versus frecuencia y versus periodo 2. En la función ts(y,frequency=s), la frecuencia define el perı́odo s. Por ejemplo, los comandos siguientes z = ts(z,frequency=365) It2 = fourier(z,3) mod2 = lm(z ~ t + It2) summary(mod2) definen un modelo con componente estacional de perı́odo s = 365. La función fourier() recibe la información de la frecuencia como el perı́odo. La serie z debe ser una serie diaria en este caso. La componente estacional es St = 3 X αj cos(2πjt/365) + βj sen(2πjt/365) j=1 3. Es posible usar la función ts(y,frequency=s), varias veces consecutivas para definir varios perı́odos y ası́ definir una componente con varios perı́odos. Por ejemplo, los comandos siguientes z = ts(z,frequency=365) It1 = fourier(z,1) z = ts(z,frequency=7) It2 = fourier(z,1) mod2 = lm(z ~ t + It1 + It2) summary(mod2) 5 definen un modelo con dos sub-componentes estacionales de perı́odos s = 365, 7. La componente estacional es una suma de estas dos funciones periódicas, con perı́odos diferentes: St = α1 cos(2πjt/365) + β1 sen(2πjt/365) + α2 cos(2πjt/7) + β2 sen(2πjt/7) 4. Es posible usar la función ts(y,frequency=s), varias veces consecutivas para combinar funciones indicadoras con trigonométricas. Por ejemplo, los comandos siguientes z = ts(z,frequency=365) It1 = fourier(z,1) z = ts(z,frequency=7) It2 = seasonaldummy(z) mod2 = lm(z ~ t + It1 + It2) summary(mod2) definen un modelo con dos sub-componentes estacionales de perı́odos s = 365, 7. La componente estacional es una suma de estas dos funciones periódicas, con perı́odos diferentes: 6 X St = α1 cos(2πjt/365) + β1 sen(2πjt/365) + δj Ij (t) j=1 Utilizar funciones indicadoras con el perı́odo s = 365 es un error porque se produce un modelo con 365 parámetros, el cual requiere mucho más datos y posiblemente lo descarta el AIC. Referencias [1] Diebold, F. (1999) Elementos de Pronósticos. International Thomson Editores, México. [2] Giraldo, N. (2011). Series de Tiempo con R. Notas de Clase. En la página web del curso. http://www.unalmed.edu.co/~ndgirald/members.htm. [3] Haywood, J. and Randall, J. (2006) Seasonality and structural breaks: NZ visitor arrivals and 9/11. Working paper. School of Mathematics, Statistics and Computer Science, Victoria University of Wellington. 6 5. Tabla de asignación de Datos de Series de Tiempo Asignación de Series Grupo Integrantes Descripción 1 Santiago Mesa, Santiago Román Ospina, Alejandro Cadavid Serie No 1: contenido de CO en el aire, en la librerı́a openair 2 Zuleima Vasquez, Yulieth Agudelo, Cleidy Meneses Serie No 2: contenido de SO2 en el aire, en la librerı́a openair 3 Simon Ochoa, Juan Manuel Gonzalez, Melissa Sepúlveda Serie No 3: contenido de pm10 en el aire, en la librerı́a openair 4 Laura Palacio, Juan Camilo Castro, Carolina Hurtado Serie No 13: demanda diaria energı́a Bogotá, datos Codensa S.A. 5 Ernesto Zuluaga, Santiago Naranjo, Carlos Benavides Serie No 5: salinidad en la bahı́a de San Francisco, en la librerı́a wq 6 Keila Karan, Marı́a Vasquez, Carolina González Manuela Jiménez, Andrés Ramı́rez, Cristian Areiza Serie No 7: ı́ndice de vivienda usada 8 Ana Isabel de la Hoz, Julián Franco, Ximena Jaramillo Serie No 4: contenido de pm10 promedio en el aire, en la librerı́a tsModel 9 Marı́a Rosero, Kaven Quesada, Christian Zapata 10 Carolina Alvarez, Leidy Molina Serie No 11: precios kg papa criolla Corabastos Bogotá Serie No 6: temperatura del agua en la bahı́a de San Francisco, en la librerı́a wq 7 Serie No 10: consumo mensual agua en una ciudad en Canadá 7 Asignación de Series Grupo Integrantes Descripción 11 Vanessa Ramı́rez, Natalia Escobar, Stefan Cuervo Serie No 7: contenido de clorofila del agua en la bahı́a de San Francisco, en la librerı́a wq 12 Daniel Felipe Perez, Sanchez 13 Carolina Rueda, Andrés Grisales Serie No 15: demanda máxima diaria energı́a en Bogotá, Codensa S.A. Serie No 14: demanda energı́a en las horas 18,19,20 en Bogotá, Codensa S.A. 14 Juan Camilo Fernández, Reynaldo Reales Barrera 15 Andrés Felipe Ochoa Serie No 18: producción de automóviles en el Reino Unido Serie No 9: número mensual de fallecimientos por enfermedades cardiovasculares en L.A., en la librerı́a season. 16 Andrés Llanten, Ana Marı́a Laı́nez, Luis Fernando Correa Serie No 16: producto interno bruto Brazil (dgp) 17 Kelly Henao, Jenny Marı́n, Andersen Borja Serie No 17: ı́ndice de producción industrial de Brazil 18 Katerin Zarza, Cindy Pineda, Yuly Sena Serie No 8: contenido de oxı́geno del agua en la bahı́a de San Francisco, en la librerı́a wq 19 Paula Andrea Alvarez, Carolina Fajardo Serie No 10: consumo mensual agua en una ciudad en Canadá 20 Wilmer Balta, Alexandra Mejia, Lorena Muñoz Serie No 16: producto interno bruto Brazil (dgp) 21 Sebastián Tobón, Angélica Correa, Daniela Gómez Serie No 6: temperatura del agua en la bahı́a de San Francisco, en la librerı́a wq Viviana 8