Series de Tiempo

Anuncio
Series de Tiempo

Una serie de tiempo es una secuencia de datos puntuales medidos en
tiempos sucesivos a intervalos de tiempo uniformes.

La caracterización de las propiedades de una serie de tiempo se puede
obtener mediante un modelo matemático que represente las
variaciones observadas en los datos.

Estos modelos proporcionan una representación compacta de las
características de los datos en términos de unos cuantos parámetros
(análogo al ajuste de distribuciones paramétricas de probabilidad).

Los métodos de series de tiempo son adecuados cuando el orden de
los datos en el tiempo es importante para una aplicación dada.

Las observaciones atmosféricas separadas por períodos de tiempo
relativamente cortos tienden a ser similares o a estar correlacionadas.
Analizar y caracterizar la naturaleza de esas relaciones a lo largo del
tiempo es útil para entender los procesos atmosféricos y para
pronosticar eventos futuros. Es necesario tomar en cuenta esas
correlaciones para hacer inferencias estadísticas válidas.
Estacionariedad
 Estacionariedad.- Con frecuencia es razonable asumir que los valores
pasados y futuros de una serie de tiempo son estadísticamente similares.
La estacionariedad implica que la media y la función de autocovarianza de
la serie de datos no cambian con el tiempo.
•
Cualitativamente, porciones diferentes de una serie de tiempo estacionaria
son estadísticamente parecidas, aún cuando los valores individuales
pueden ser muy diferentes.
•
Asumiendo estacionariedad, las propiedades estadísticas implícitas en el
modelo (o proceso teórico) pueden usarse para inferir las carácterísticas de
los valores aún no observados de la serie.
•
La mayoría de los métodos para el análisis de series de tiempo suponen
estacionariedad en los datos. Sin embargo, muchos procesos atmosféricos
no son estacionarios, p.e., datos que exhiben ciclos diurnos o anuales como
la temperatura o el viento.
• Existen dos formas para tratar con series no-estacionarias. Ambas
incluyen el procesamiento de los datos de modo que permitan
suponer estacionariedad de manera razonable.
• Primera: Transformación matemática de los datos no-estacionarios
para aproximar la estacionariedad. P.ej., restar una función periódica
a los datos que están sujetos a un ciclo anual producirá una serie de
datos transformados con media constante (cero). Para producir una
serie que tenga media y varianza constantes, se pueden
estandarizar las anomalías. Los datos que se vuelven estacionarios
después de quitarles el ciclo anual se dice que exhiben
cicloestacionariedad.
• Segunda: Dividir los datos para realizar análisis separados sobre
subconjuntos que sean suficientemente cortos para ser
considerados como cercanamente estacionarios.
Existen dos aproximaciones fundamentales para el análisis de series
de tiempo: 1) en el dominio del tiempo, 2) en el dominio de la
frecuencia. Son métodos complementarios que están ligados
matemáticamente.
• Métodos en el dominio del tiempo: Buscan caracterizar las series de datos
en los mismos términos en los que son observados y reportados. Una
herramienta primordial para la caracterización de las relaciones entre los
datos en la aproximación del dominio del tiempo es la función de
autocorrelación.
Dominio del tiempo
Datos discretos - La clase más común de modelo, o proceso estocástico, usado para
representar series de tiempo de variables discretas es conocido como cadena de
Markov, que puede considerarse como una colección de estados de un sistema.
Datos continuos – Para la representación de la estructura de series de tiempo de
variables continuas se utilizan modelos conocidos como modelos Box-Jenkins. El más
simple es el modelo de autoregresión de primer orden, que es el análogo continuo de la
cadena de Markov de primer orden para datos discretos.
Autoregresión de primer orden (AR(1)) – Es una regresión lineal simple donde el
predictando es el valor de la serie de tiempo al tiempo t + 1, xt+1, y el predictor es el
valor actual de la serie de tiempo, xt. El modelo AR(1) puede escribirse como sigue:
La serie de tiempo de x se supone estacionaria, de modo que su media μ es la misma para
cada intervalo de tiempo. Las є's son cantidades aleatorias mutuamente independientes
que tienen media μє = 0 y varianza σє2. Con frecuencia se asume además que siguen una
distribución Gaussiana.
El modelo AR(1) puede representar una correlación serial o persistencia de una serie
de tiempo.
Diagrama de dispersión de las temperaturas mínimas en Canandaigua durante Enero
de 1987: los primeros 30 valores en el eje horizontal y del 2 al 31 en el eje vertical.
El modelo AR(1) también puede interpretarse como un algoritmo para generar series
de tiempo sintéticas de valores de x. Para valores positivos de ϕ, la serie de tiempo
sintética exhibirá una correlación serial positiva ya que cada nuevo valor generado
incluye alguna información del valor precedente.
Este modelo comparte con la cadena de Markov de primer orden la propiedad de que
la historia completa de la serie de tiempo anterior a xt no proporciona información
adicional para xt+1, una vez que xt es conocido.



AR(1) también es conocido como un proceso de ruido rojo, ya que un
valor positivo del parámetro ϕ promedia o suaviza las fluctuaciones
de corto plazo en la serie de valores independientes ε, mientras que
afecta mucho menos las variaciones aleatorias más lentas o de baja
frecuencia.
Estimación de los parámetros del modelo autoregresivo de primer
orden: μ es simplemente el promedio muestral del conjunto de datos y
ϕ es igual al coeficiente de autocorrelación con retraso 1 (
). Para
que se cumpla la estacionariedad se requiere que -1 < ϕ < 1.
Para la mayoría de las series de tiempo atmosféricas ϕ será positivo,
lo cual refleja la persistencia. Valores negativos de ϕ corresponden a
series de tiempo con valores alternados por encima y por debajo de la
media o anticorrelacionados.

La función de autocorrelación para una serie de tiempo gobernada
por un proceso AR(1) puede escribirse en términos del parámetro
autoregresivo como
La varianza residual
es también conocida como la varianza de
ruido blanco y expresa la variabilidad o incertidumbre en la serie de
tiempo que no es explicada por la correlación serial. Una forma de
estimarla es mediante
Proceso estocástico o aleatorio es lo contrario a un proceso
determinístico. En lugar de tratar con una sola forma posible en la
que el proceso pueda evolucionar en el tiempo, en un proceso
estocástico hay alguna indeterminación descrita por distribuciones
de probabilidad. Esto significa que aún si la condición inicial es
conocida, existen muchas posibilidades hacia donde pueda ir el
proceso, pero algunas trayectorias pueden ser más probales que
otras.
Modelos autoregresivos de orden K, AR(K)
Dominio de la frecuencia – Análisis armónico
•
El análisis en el dominio de la frecuencia involucra la representación de
series de datos en términos de contribuciones hechas en diferentes escalas
de tiempo.
•
Una serie de tiempo de temperaturas horarias generalmente presenta
variaciones en la escala de tiempo diaria (ciclo diurno del calentamiento
solar) y en la escala de tiempo anual (paso de las estaciones).
•
En el dominio del tiempo, estos ciclos aparecerán como valores positivos
grandes en la función de autocorrelación para retrasos de 24 horas y de
24x365 = 8760 horas.
•
En el dominio de la frecuencia tendremos contribuciones grandes a la
variabilidad total de la serie de tiempo en períodos de 24 y 8760 horas, o en
frecuencias de 1/24 = 0.0417 h-1 y 1/8760 = 0.000114 h-1.
●
El análisis armónico consiste en la representación de las
fluctuaciones en el tiempo mediante la suma de una serie de
funciones seno y coseno. La suma de estas ondas reproduce
los datos originales, pero son las intensidades relativas de las
componentes individuales lo que más interesa.
• Las funciones seno y coseno son armónicas en el sentido de
que se escogen de modo que tengan frecuencias que son
múltiplos enteros de la frecuencia fundamental determinada por
el tamaño de la serie de tiempo.
• Las funciones seno y coseno se calculan para ángulos positivos
y negativos. Su patrón se repite cada 2π radianes o 360º.
coseno
seno
radianes
grados
• Para cambiar de tiempo a frecuencia. Se considera la longitud
de la serie de tiempo, n, como un ciclo completo o período
fundamental. Como el ciclo completo corresponde a 360º o
2π radianes, se reescala proporcionalmente el tiempo a una
medida angular usando:
Frecuencia fundamental.
Es una frecuencia angular que tiene dimensiones físicas de radianes
por unidad de tiempo. Especifica la fracción del ciclo completo, que
abarca n unidades en tiempo, que es ejecutada durante una unidad
de tiempo. El subíndice 1 indica que pertenece a la onda que ejecuta
un ciclo completo sobre toda la serie de datos.
• Para representar las fluctuaciones en los datos.
• C1 es la amplitud y
es el ángulo fase.
• La función tiene un máximo para
Estimación de la amplitud y la fase de un armónico
Similar a una regresión
con dos predictores
Es matemáticamente equivalente representar una onda armónica como una
función coseno con amplitud C1 y fase ϕ1 o como la suma de dos funciones
un coseno y un seno sin desplazamiento con amplitudes A1 y B1.
 En general, se puede usar el método de mínimos cuadrados para
obtener el valor de los parámetros A1 y B1.
 Si nuestros datos están igualmente espaciados en el tiempo y no
hay huecos en la serie, se pueden usar las siguientes relaciones:
Descargar