Trabajo No 1 de Estad´ıstica III Análisis de Serie de Tiempo

Anuncio
Trabajo No 1 de Estadı́stica III
Análisis de Serie de Tiempo:
Tendencia y Estacionalidad
Abril 9 de 2012
1.
Caracterı́sticas del Trabajo, Presentación, Valor y Condiciones
El trabajo tiene 10 puntos. Tiene un valor de 40 % de la nota definitiva. Se sugiere
elaborar el reporte en un formato Word o Latex, tipo artı́culo. (1 ) El reporte debe contener:
nombres de los integrantes del grupo, indicando el grupo y la serie asignada, introducción,
desarrollo de los puntos, indentificando cada uno, conclusiones y referencias. No incluı́r
los programas en R utilizados. No colocar los resultados de R tal como se producen en la
consola; es decir, hay que presentar los resultados de manera legible, clara. Las gráficas y
las páginas deben ir numeradas. Se solicita no empastar el informe.
2.
Series para el Trabajo
El número de la serie de 1 a 9, asignada a cada grupo está entre paréntesis, luego aparece,
en algunas, la librerı́a de R de la cual se tomaron, y el nombre con que aparecen en esas
librerı́as. Los archivos con los datos se enviarán por email y también están en la página web
del curso, http://www.unalmed.edu.co/~ndgirald/members.htm.
1. (1,2,3) Son tres series en la librerı́a openair, que provienen de un estudio sobre el efecto
de tres contaminantes en la calidad del aire en Londres: CO (monóxido de carbono),
SO2 (dióxido de azufre), O3 (ozono). Los datos están en el sitio web denominado
the London Air Quality Archive, ver http://www.londonair.org.uk para detalles. Los
mismos datos se pueden obtener en formato .csv via el sitio web del proyecto openair
http://www.openair-project.org. Son 2731 obs, diarias desde 01/01/98 hasta 23/06/05
para aprox 7.5 años.
2. (4) una serie en la librerı́a tsModel, sobre la cantidad de partes por millón de material
particulado: pm10tmean 2 . Son datos sobre la calidad del aire en Baltimore City,
1
Por ejemplo el formato Word de la revista Ingenierı́a y Ciencia, que se encuentra en la página del
profesor, en la sección “Documentos”.
2
Se denomina PM10 a pequeñas partı́culas sólidas o lı́quidas de polvo, cenizas, hollı́n, partı́culas metálicas,
cemento o polen, dispersas en la atmósfera, y cuyo diámetro es menor que 10 µm (1 micrómetro corresponde
la milésima parte de 1 milı́metro). Están formadas principalmente por compuestos inorgánicos como silicatos
1
Maryland, USA, entre 1987 y 2000.
3. (5,6,7,8) cuatro series de la librerı́a wq (water quality) de un estudio sobre la calidad
del agua en la bahı́a de San Francisco, California, USA: sal (grado de salinidad), temp
(temperatura), chl (clorofila presente), dox (oxı́geno diluı́do). Las series se tomaron
tres ó cuatro veces al mes. Las fechas están en los archivos. Los datos son diarios pero
no secuenciales. Se puede suponer que la frecuencia de las series es 10 dı́as. Nótese
que este valor no es el perı́odo.
4. (9) cvd.dat Es una serie en la librerı́a season que contiene el número de fallecimientos
mensuales de personas mayores de 75 años en Los Angeles USA debidas a enfermedades cardiovasculares relacionadas con contaminación del aire durante los años
1987 to 2000.
5. (10) wqlondon.dat Una serie sobre el consumo mensual en la ciudad de London en
Ontario, Canadá, entre 1966-1988 (en miles de litros/dı́a).
6. (11) La serie de precios mensuales de kg papa criolla lavada en la central de Corabastos
en Bogotá, entre 1997 y 2003.
7. (12) La serie IPVU: Índice nominal de precios de la vivienda usada en Colombia,
trimestral entre 1988 y 2010, fuente: Banco de la República en
www.banrep.org/economia/IPVU/INFORME_IPVU06.pdf
8. (13,14,15) Tres series de demanda de energı́a en Bogotá, atendida por la Compañı́a
Codensa, S.A.: demanda diaria dia, en tres horas pico dı́a (6,7,8 pm), 3horas, y demanda diaria máxima, max.
9. (16,17) Dos series sobre el producto interno bruto y el ı́ndice de producción industrial
de Brazil: dgp, ipi
10. (18) Una serie sobre el número de automóviles producidos mensualmente en el Reino
Unido, ukcars, obtenida en el sitio web de la librerı́a forecast.
3.
Puntos para desarrollar
Los objetivos son: identificación de al menos dos modelos para la tendencia y estacionalidad en la serie. Elección del modelo que mejor describa ambas componentes usando AIC y
otras medidas de ajuste. Y cálculo de pronósticos usando la estrategia de validación cruzada
con el modelo escogido.
1. Introducción Empiece con una contextualización de la serie: definición, frecuencia,
perı́odo de los datos, fuente de los datos (solo si está disponible), objetivos del análisis,
etc.
y aluminatos, metales pesados entre otros, y material orgánico asociado a partı́culas de carbono (hollı́n).
tomado de: http://es.wikipedia.org/wiki/PM10
2
2. Examen inicial Use la función stl() para determinar si existe componente de
tendencia y/o de estacionalidad. Reporte la gráfica y una conclusion preliminar sobre
si existe tendencia global, local, y si existe componente estacional, de qué perı́odo.
Note que la tendencia global puede también ser una función periódica. En este caso
habrı́an dos componentes estacionales, y la de mayor perı́odo, por ejemplo, anual, se
puede combinar con una tendencia por ejemplo lineal.
3. Tendencia y Estacionalidad Decidir cuál modelo utilizar para la tendencia y cuál
para la estacionalidad es la parte central del trabajo. Escoja al menos dos modelos
de la forma Yt = Tt + St + t , con Tt: lineal, cuadrática, cúbica, exponencial-lineal,
loess, filtro lineal; y St : suma de variables indicadoras, suma de combinaciones seno y
coseno. Es posible combinar estas componentes. Para definir la componente estacional
hay que determinar primero el posible perı́odo s, ó los posibles perı́odos.
En la Sección 4 hay varias sugerencias para escoger el modelo. No hay una regla que
sirva para todas las series de manera que esta parte es también cuestión de inventiva.
En cualquiera de los casos anteriores implemente la estrategia de validacion cruzada
escogiendo una parte de los datos para ajustar y otra para comparar los pronósticos.
Forme las variables explicativas. Reporte cuántos datos dejó en la parte para comparar
los pronósticos.
4. Estimación Estime al menos dos modelos. Si incluyó el modelo exponencial debe estimar tambien el log-lineal como auxiliar. Reporte las tablas de parametros estimados,
estadı́sticos t y F, valores p. Concluya si los modelos ajustan.
5. AIC, BIC y R cuadrado ajustado Reporte AIC, BIC y R cuadrado ajustado para
los modelos. Escoja uno de los modelos con base en estos criterios.
6. Pronósticos para la Validación Cruzada: Calcule los pronósticos para la validación cruzada con los modelos escogidos. Calcule el MAPE para cada modelo.
Reporte la gráfica de los pronósticos y de los datos observados, para el perı́odo de
comparación. Cuál modelo es en definitiva el escogido para pronosticar?
7. Estabilidad Estructural: Elabore un análisis de estabilidad estructural del modelo
que escogió finalmente para pronosticar. Reporte: la gráfica de los parámetros estimados recursivamente, la gráfica de la prueba CUSUM. La prueba formal CUSUM.
Comente el resultado. Si no hay estabilidad estructural utilice la función breakpoints
para detectar los puntos de quiebre en la serie. Sugerencia: use como guı́a los ejemplos
de la sección 4.4, cap. 4, pag. 58, de la Notas de Clase (en la página web del curso).
En el artı́culo [3] hay una discusión sobre el efecto estructural de los atentados de las
torres gemelas en NY sobre la serie de turismo en New Zealand.
8. Holt-Winters: Aplique el método de Holt-Winters y calcule los valores suavizados y
los pronósticos. Compare los resultados de este método con los de los dos modelos de
3
regresión escogidos. Reporte las gráficas de los valores suavizados y de la serie superpuestos. Reporte el MAPE y las otras medidas de error de los pronósticos, calculadas
con la función accuracy. En particular, para el análsis: si se detectó inestabilidad
estructural, los pronósticos Holt-Winters tienen menor MAPE que los obtenidos con
modelos globales?.
9. Media móvil doble tipo henderson: Calcule la media móvil doble tipo henderson
de longitud 13, aplicada a la serie, denotada por m.r y definida como sigue.
w13 = c(-0.019, -0.028, 0.0, 0.066, 0.147, 0.214, 0.240,
0.214, 0.147, 0.066, 0.0, -0.028, -0.019)
m.r = na.omit(filter(y,w13,"conv",2,F,NULL))
Reporte las gráficas de la tendencia Tt con el modelo de regresión escogido y de la
media móvil m.r, superpuestas. Comente sobre la diferencia. Cuál captura mejor la
tendencia de la serie?.
Defina el vector de incrementos porcentuales de m.r como
icp.r = (m.r[2:n]-m.r[1:(n-1)])/m.r[1:(n-1)], donde n = length(m.r). Calcule el promedio de estos valores icp.r. En caso de que la tendencia sea monótona
(creciente o decreciente) cómo puede interpretarse esta media?.
10. Conclusiones Reporte las conclusiones del trabajo: un resumen de los resultados
que encontró, y de los problemas que se presentaron en la elaboración del modelo. Por
ejemplo, un comentario acerca de lo que Usted crea que logró el modelo: capturó la
dinámica de la serie?, su tendencia?, la componente estacional?, los pronósticos parecen realistas y confiables?. Qué otras alternativas podrı́an haberse propuesto?. Sobre
todo, dé una evaluación sobre el grado de confiabilidad de los pronósticos.
4.
Algunas sugerencias y procedimientos para escoger los
modelos para la tendencia y la estacionalidad
1. Determinar el perı́odo de una serie no es simple ya que pueden existir más de un
perı́odo. Es decir, la serie puede tener varias componentes con perı́odos diferentes.
Incluso la tendencia Tt puede ser una de tales componentes periódicas. Una forma
de determinar el perı́odo es utilizar las siguientes instrucciones, que implementan
un estadı́stico denominado “periodograma”. Utiliza la función peri() de la librerı́a
season. En la Figura 1 se pueden ver, en el panel inferior, una barra que sobresale,
la cual corresponde a la frecuencia dominante en la serie, es decir, la componentes
estacional más determinante de la serie, que corresponde a un perı́odo de s = 12.
require(season)
set=peri(z,adjmean=TRUE,plot=TRUE)
4
20000 40000 60000
0
Periodogram
nc=which(set$peri > 200)
1/(set$f[nc]/(2*pi))
0.0000000
0.7853982
1.5707963
2.3561945
3.1415927
0 5000 15000 25000 35000
Periodogram
Frequency (radians)
0
20
40
60
80
100
120
140
Cycles
Figura 1: Periodograma versus frecuencia y versus periodo
2. En la función ts(y,frequency=s), la frecuencia define el perı́odo s. Por ejemplo, los
comandos siguientes
z = ts(z,frequency=365)
It2 = fourier(z,3)
mod2 = lm(z ~ t + It2)
summary(mod2)
definen un modelo con componente estacional de perı́odo s = 365. La función fourier()
recibe la información de la frecuencia como el perı́odo. La serie z debe ser una serie
diaria en este caso. La componente estacional es
St =
3
X
αj cos(2πjt/365) + βj sen(2πjt/365)
j=1
3. Es posible usar la función ts(y,frequency=s), varias veces consecutivas para definir
varios perı́odos y ası́ definir una componente con varios perı́odos. Por ejemplo, los
comandos siguientes
z = ts(z,frequency=365)
It1 = fourier(z,1)
z = ts(z,frequency=7)
It2 = fourier(z,1)
mod2 = lm(z ~ t + It1 + It2)
summary(mod2)
5
definen un modelo con dos sub-componentes estacionales de perı́odos s = 365, 7. La
componente estacional es una suma de estas dos funciones periódicas, con perı́odos
diferentes:
St = α1 cos(2πjt/365) + β1 sen(2πjt/365) + α2 cos(2πjt/7) + β2 sen(2πjt/7)
4. Es posible usar la función ts(y,frequency=s), varias veces consecutivas para combinar funciones indicadoras con trigonométricas. Por ejemplo, los comandos siguientes
z = ts(z,frequency=365)
It1 = fourier(z,1)
z = ts(z,frequency=7)
It2 = seasonaldummy(z)
mod2 = lm(z ~ t + It1 + It2)
summary(mod2)
definen un modelo con dos sub-componentes estacionales de perı́odos s = 365, 7. La
componente estacional es una suma de estas dos funciones periódicas, con perı́odos
diferentes:
6
X
St = α1 cos(2πjt/365) + β1 sen(2πjt/365) +
δj Ij (t)
j=1
Utilizar funciones indicadoras con el perı́odo s = 365 es un error porque se produce
un modelo con 365 parámetros, el cual requiere mucho más datos y posiblemente lo
descarta el AIC.
Referencias
[1] Diebold, F. (1999) Elementos de Pronósticos. International Thomson Editores, México.
[2] Giraldo, N. (2011). Series de Tiempo con R. Notas de Clase. En la página web del
curso. http://www.unalmed.edu.co/~ndgirald/members.htm.
[3] Haywood, J. and Randall, J. (2006) Seasonality and structural breaks: NZ visitor arrivals and 9/11. Working paper. School of Mathematics, Statistics and Computer Science, Victoria University of Wellington.
6
5.
Tabla de asignación de Datos de Series de Tiempo
Asignación de Series
Grupo Integrantes
Descripción
1
Santiago Mesa, Santiago Román
Ospina, Alejandro Cadavid
Serie No 1: contenido de CO en el aire,
en la librerı́a openair
2
Zuleima Vasquez, Yulieth Agudelo, Cleidy Meneses
Serie No 2: contenido de SO2 en el aire,
en la librerı́a openair
3
Simon Ochoa, Juan Manuel Gonzalez, Melissa Sepúlveda
Serie No 3: contenido de pm10 en el
aire, en la librerı́a openair
4
Laura Palacio, Juan Camilo Castro, Carolina Hurtado
Serie No 13: demanda diaria energı́a
Bogotá, datos Codensa S.A.
5
Ernesto
Zuluaga,
Santiago
Naranjo, Carlos Benavides
Serie No 5: salinidad en la bahı́a de San
Francisco, en la librerı́a wq
6
Keila Karan, Marı́a Vasquez,
Carolina González
Manuela
Jiménez,
Andrés
Ramı́rez, Cristian Areiza
Serie No 7: ı́ndice de vivienda usada
8
Ana Isabel de la Hoz, Julián
Franco, Ximena Jaramillo
Serie No 4: contenido de pm10 promedio en el aire, en la librerı́a tsModel
9
Marı́a Rosero, Kaven Quesada,
Christian Zapata
10
Carolina Alvarez, Leidy Molina
Serie No 11: precios kg papa criolla
Corabastos Bogotá
Serie No 6: temperatura del agua en la
bahı́a de San Francisco, en la librerı́a
wq
7
Serie No 10: consumo mensual agua en
una ciudad en Canadá
7
Asignación de Series
Grupo Integrantes
Descripción
11
Vanessa Ramı́rez, Natalia Escobar, Stefan Cuervo
Serie No 7: contenido de clorofila del
agua en la bahı́a de San Francisco, en
la librerı́a wq
12
Daniel Felipe Perez,
Sanchez
13
Carolina Rueda, Andrés Grisales
Serie No 15: demanda máxima diaria
energı́a en Bogotá, Codensa S.A.
Serie No 14: demanda energı́a en las horas 18,19,20 en Bogotá, Codensa S.A.
14
Juan Camilo Fernández, Reynaldo Reales Barrera
15
Andrés Felipe Ochoa
Serie No 18: producción de automóviles
en el Reino Unido
Serie No 9: número mensual de fallecimientos por enfermedades cardiovasculares en L.A., en la librerı́a season.
16
Andrés Llanten, Ana Marı́a
Laı́nez, Luis Fernando Correa
Serie No 16: producto interno bruto
Brazil (dgp)
17
Kelly Henao, Jenny Marı́n, Andersen Borja
Serie No 17: ı́ndice de producción industrial de Brazil
18
Katerin Zarza, Cindy Pineda, Yuly Sena
Serie No 8: contenido de oxı́geno del
agua en la bahı́a de San Francisco, en
la librerı́a wq
19
Paula Andrea Alvarez, Carolina
Fajardo
Serie No 10: consumo mensual agua en
una ciudad en Canadá
20
Wilmer Balta, Alexandra Mejia,
Lorena Muñoz
Serie No 16: producto interno bruto
Brazil (dgp)
21
Sebastián Tobón, Angélica Correa, Daniela Gómez
Serie No 6: temperatura del agua en la
bahı́a de San Francisco, en la librerı́a
wq
Viviana
8
Descargar