para descargar el archivo

Anuncio
Cátedra I Estadística II
Autor I Rosanna Casini
Objetivos
Se pretende que, después de haber estudiado este Capítulo, el alumno esté en
condiciones de:
•
•
•
•
•
•
Entender los componentes del método clásico de series de tiempo.
Utilizar el método de mínimos cuadrados en series de comportamiento
lineal y no lineal.
Aislar las componentes del método clásico en series con periodicidad
inferior al año.
Utilizar los métodos de suavizado exponencial y promedios móviles.
Utilizar los modelos autorregresivos.
Realizar pronósticos de series de tiempo con diferentes métodos.
Contenidos
1. Introducción.
2. La importancia de los pronósticos.
3. Factores componentes del modelo clásico multiplicativo de series de tiempo.
3.1. Ajuste de tendencia y aislamiento de componentes en series de perio
dicidad anual: Método de mínimos cuadrados, tendencias no lineales.
3.1.1. Componente tendencial. Método de mínimos cuadrados.
3.1.2. Tendencias no lineales.
3.2. Serie de periodicidad inferior al año.
3.2.1. Componente estacional.
3.2.2. Componente cíclica.
3.2.3. Componente irregular.
4. Suavizado de series temporales anuales.
4.1. Método de promedios móviles.
4.2. Suavizado exponencial.
5. Modelos autorregresivos.
6. Análisis residual.
279
Cátedra I Estadística II
Autor I Rosanna Casini
280
Cátedra I Estadística II
Autor I Rosanna Casini
1. Introducción
En el capítulo anterior, hemos trabajado con modelos de regresión que, entre otras
aplicaciones, permiten predecir el comportamiento de una variable (dependiente) en
función de otra u otras variables (explicativas o independientes).
Existen otros tipos de modelos que persiguen el mismo objetivo: predecir el
comportamiento de una variable de interés, pero que en lugar de buscar otra u otras
variables que permitan hacerlo, suponen que es la propia “historia” de la variable en
estudio la que posibilitará realizar la predicción. Se trata de algo así como pararse en
un momento del tiempo (presente) y “mirar hacia atrás” cómo se comportó la variable
en cuestión, suponiendo que ese comportamiento en el pasado permitirá predecir
adecuadamente lo que ocurrirá en el futuro. Este tipo de análisis se realiza mediante
las llamadas series de tiempo, series cronológicas o series temporales.
En gran número de situaciones, el análisis de series de tiempo resulta una herramienta
útil para la toma de decisiones administrativas. Esta técnica, que como dijimos,
permite realizar pronósticos (en particular de negocios) basándose en información
histórica y utilizando diversas herramientas desarrolladas en capítulos anteriores;
principalmente el análisis de regresión.
A continuación se incluyen dos gráficos, uno con datos anuales (Figura 1) y el otro con
datos cuatrimestrales (Figura 2), que ilustran cómo suelen presentarse los datos
correspondientes a una serie temporal.
Figura 1:
Evolución de los ingresos por ventas desde 1980
hasta 1999
Evolución de los ingresos por ventas desde 1980 hasta 1999
500
ingreso
400
300
INGRESO (Y)
200
100
0
1
3
5
7
9
11
13
años
Figura 2:
281
15
17
19
Cátedra I Estadística II
Autor I Rosanna Casini
EVOLUCION
DELcuatrimestral
GASTO CUATRIMESTRAL
Evolución
del gasto
durante tres años
gasto
DURANTE TRES AÑOS
600
500
400
300
200
100
0
GASTO
1
4
7
10 13 16 19 22 25 28 31 34
cuatrimestre
Como se observa en las figuras anteriores, la trayectoria de la serie temporal no es
regular, ni es posible, en general, descubrir a simple vista cuál es el comportamiento a
largo plazo o sus fluctuaciones en el corto plazo, y por lo tanto, es necesario realizar
diversos tipos de tratamientos a los datos de la serie a fin de hacer posible un análisis
de su comportamiento y la predicción de su trayectoria en el futuro.
Podemos clasificar el tratamiento de las series en: métodos por descomposición,
que permiten explicar el comportamiento de la variable con el propósito de
proporcionar medios necesarios para predecir sucesos futuros, basándose en las
observaciones pasadas y presentes de la misma y, los modelados llamados causales
que basándose en características de la variable permiten definir un modelo que
reproduce de alguna manera los valores de la serie con el menor error posible y bajo
determinadas condiciones estadísticas, con la finalidad de predecir valores futuros de
la variable.
En este capítulo estudiaremos básicamente los métodos de descomposición (también
llamado método clásico) y su aplicación en series de datos anuales y en series con
datos de sub-períodos inferiores al año. También estudiaremos algunos métodos
llamados de “suavizado” como los de promedios móviles y suavizado exponencial.
Por último, y como una breve introducción a otro tipo de modelos de análisis que van
más allá del objetivo de este curso, desarrollaremos el análisis de las series mediante
algunos
modelos autorregresivos y estudiaremos su aplicación para realizar
pronósticos.
2. La importancia de los pronósticos
Sabemos que las empresas comerciales deben planear ventas, producción, inversión,
distribución, entre otras actividades necesarias para su funcionamiento; el gobierno
debe planear insumos y gastos para realizar sus funciones rutinarias y para influir en
la actividad agregada de modo de asegurar el progreso económico de la nación.
Es así que una acción económica o comercial emprendida hoy, se basa en un plan de
ayer y en las expectativas de mañana. Los planes para el futuro no pueden hacerse sin
pronosticar hechos y las relaciones o efectos que tendrán.
Además debemos tener en cuenta que la pronosticación no sólo puede hacerse para
una línea determinada de actividad de manera independiente, el pronóstico de un tipo
de hecho también puede hacerse sobre la base de otros pronósticos. Por ejemplo una
firma individual puede basar su pronóstico de ventas, en el pronóstico de ventas de
282
Cátedra I Estadística II
Autor I Rosanna Casini
toda la industria; los pronósticos del ingreso nacional son usados por el gobierno para
estimar el futuro ingreso fiscal.
Hemos afirmado en el párrafo introductorio que uno de los objetivos básicos del
análisis de series de tiempo es la pronosticación. Podemos intuir fácilmente que
pronosticar es, mucho más que proyectar mecánicamente una serie en el futuro sobre
la base de la observación del pasado. Es por ello que un buen pronóstico requiere una
combinación de teoría económica, conocimientos estadísticos y familiaridad con
información relevante.
De esta forma el método analítico de pronósticos supone el análisis detallado de
fuerzas causales que operan sobre la variable que se predice, lo que implica adoptar el
tratamiento que permita lograr el objetivo antes mencionado.
Los métodos que aquí estudiamos para pronosticar los valores futuros de una serie
temporal, suelen complementarse con otro tipo de enfoques, tales como el método de
escenarios, la consulta a expertos, entre otros, que van más allá de los objetivos de
este curso, pero que los estudiantes pueden consultar para profundizar sus conocimientos al respecto1/.
Como dijimos, cuando trabajamos con una variable recopilada a través del tiempo,
estamos en presencia de una Serie de Tiempo.
Ejemplos de variables de la naturaleza mencionada existen en todas las disciplinas y
en particular en el ámbito de las Ciencias Económicas tienen importantes aplicaciones,
debido a la necesidad de efectuar pronósticos que permitan organizar actividades o
estrategias futuras revisando datos históricos.
Uno de los métodos existentes es el clásico, también llamado por descomposición.
Lo primero que debemos realizar es el gráfico poligonal para observar el comportamiento de la variable que, seguramente presenta picos u oscilaciones provocadas por
el efecto de múltiples factores (Figuras 1 y 2).
El método que desarrollamos en esta unidad, se basa en el criterio que los valores
de la variable “y” están determinados por el efecto de cuatro componentes denominados: tendencial, estacional, cíclico e irregular.
Estos componentes se relacionan matemáticamente mediante un modelo que puede
ser aditivo en cuyo caso se supone que hay independencia entre ellos o bien
multiplicativo, para el cual se supone que hay interacción o dependencia entre los
componentes.
Esta situación puede expresarse como:
yt = Tt + St + Ct + I t Modelo Aditivo
yt = Tt .St .Ct I t Modelo Multiplicativo
El significado que se le atribuye a los cuatro componentes está referido a su efecto
sobre la variable.
Tendencial: Es el componente que determina el comportamiento general de la serie y
muestra como la variable evoluciona a través del tiempo. Actúa en períodos largos de
1/
Johnson, G. y Scholes, K.: Dirección Estratégica- Prentice may- Madrid 2001 (Cap. 3).
283
Cátedra I Estadística II
Autor I Rosanna Casini
tiempo, considerándose en general más de dos años. Por ejemplo si analizamos las
ventas de una empresa a través del tiempo, el componente tendencial o tendencia se
manifiesta en el comportamiento creciente o decreciente de las ventas en el largo
plazo.
Estacional: Bajo esta denominación incorporamos aquellas variaciones provocadas
por efectos llamados estacionales. es decir aquéllos que se producen en períodos
cortos y en forma recurrente año tras año. Se denominan de esta forma porque se lo
asocia a las estaciones provocadas por factores climáticos, aunque esto no
necesariamente es así para todas las variables. En definitiva la variable presenta un
comportamiento en el corto plazo que año tras año se repite en la misma época. Un
ejemplo de la incidencia del componente estacional lo observamos en las ventas de
artículos de regalería en períodos próximos a las fiestas navideñas en países con
predominio de religión católica. Cuando las fluctuaciones son regulares, pero se repiten
con una periodicidad mayor que un año, se incluyen dentro del componente cíclico que
se define a continuación.
Cíclico: Incluye el efecto de los factores que generan cambios en períodos largos y
suele asociarse con los ciclos económicos. Se considera que los cambios observados
en los ciclos responden a cuatro etapas: expansión, prosperidad, recesión y depresión.
Por ejemplo los ciclos ganaderos.
Irregular: Se determina por efecto de todos los factores no considerados anteriormente. Actúa en el corto plazo y puede ser considerado como permanente o
excepcional. En el primer caso se trata de variaciones ocurridas en cada momento del
tiempo provocadas por múltiples factores no considerados en los demás componentes,
pero que casi siempre actúan sobre la variable desviándola de los valores que serían
exactamente predecibles si sólo actuaran los otros factores. Es excepcional cuando se
trata de aquellas variaciones motivadas por situaciones accidentales o catastróficas
imposibles de controlar, tales como, terremotos, inundaciones, etc.
Las características más relevantes se resumen en el cuadro siguiente2/:
Cuadro 1: Factores de una serie de tiempo
Componente Clasificación del
ó factor
componente
Definición
Tendencia
Patrón de
movimiento
global.
Cambios en
tecnología,
población,
riqueza, valores.
Estacional
Variaciones
recurrentes que
ocurren en
período inferior
a un año.
Condiciones
climáticas,
hábitos y
costumbres
sociales y o
religiosas.
Oscilación
repetitiva.
Interacción de
múltiples factores
que influyen en la
economía.
Sistemático
Sistemático
Sistemático
Cíclico
Irregular
2/
Razón de
influencia
No Sistemático
Fluctuación
residual.
Berenson, Levine y Krehbiel (pág. 597).
284
Duración
Varios años
Largo plazo.
Dentro de 12
meses. Con
repetición.
De 2 a 10 años,
con diferente
intensidad en un
ciclo completo.
Situaciones
Corta duración.
extraordinarias o Sin repetición.
cotidianas no
provocadas, ni
controladas por el
hombre.
Cátedra I Estadística II
Autor I Rosanna Casini
3.1. Ajuste de tendencia y aislamiento de componentes en series con periodicidad anual: Método de mínimos cuadrados, tendencias no lineales
En las series anuales como ya hemos mencionado se refleja solamente la influencia de
los componentes tendencial y cíclico, quedando como residuo, si estos componentes
son aislados, el irregular, ya que los movimientos estacionales requieren la existencia
de datos con periodicidad menor al año (mensuales, trimestrales, diarios, etc.).
Para su tratamiento sugerimos la consideración de los aspectos que se detallan a
continuación:
Si la serie está expresada en unidades monetarias es conveniente eliminar el efecto
de la inflación, es decir deflactar los valores de la variable para expresarlos en
unidades homogéneas.
Luego, y esto es válido para cualquier tipo de series, es necesario codificar el
tiempo, a fin de que a cada observación le corresponda un número, en general
correlativo, lo cual facilitará la realización de operaciones.
Los métodos que estudiaremos en este punto se conocen como “métodos de ajuste”
de la serie mediante una expresión analítica, y están muy vinculados a los estudiados
en el capítulo anterior (Regresión), caracterizándose porque la variable independiente
es el tiempo en lugar de cualquier otra variable explicativa.
Luego de tratados estos métodos de ajuste, explicaremos los métodos llamados de
“suavizado” que persiguen otros objetivos en el análisis de la serie.
3.1.1. Componente tendencial. Método de mínimos cuadrados
Para analizar el componente tendencial podemos aplicar el Método de Ajustamiento de
Mínimos Cuadrados, mediante el cual se busca la expresión analítica de la función que
mejor ajusta a los datos observados, de modo tal que permita minimizar la suma de
cuadrados del error.
Observando el diagrama de dispersión, encontramos diversos tipos de comportamiento, como ser el que corresponde a una función lineal, cuadrática exponencial o
potencial, funciones que en adelante se clasifican en lineal y no lineal. Esos casos, los
abordaremos por aplicación del Método de Mínimos Cuadrados.
Función Lineal:
Si de la observación del gráfico se sugiere un comportamiento lineal de la tendencia en
el largo plazo, es posible con el mismo planteo del capítulo anterior, sugerir que los
valores de y en cada momento t son una función lineal de x (tiempo) más una
componente aleatoria que resume el resto de los componentes.
yt = β o + β1 x + ε t
Aplicando el método de mínimos cuadrados, se puede obtener la “recta estimada”:
yˆt = b0 + b1 x
Los valores de
b0 y b1 ,
tal como se explicara en el capítulo anterior se obtienen a
partir de minimizar la suma de cuadrados de los “errores” (desviaciones con respecto a
la recta estimada)
285
Cátedra I Estadística II
Autor I Rosanna Casini
SCE = Σe2 =
f(b0, b1) =
∑ ( y i − yˆ i
)
2
∑ [ yi - (b0 + b1xi)]2
mínimo.
mínimo
Teniendo en cuenta que una función presenta un mínimo en el punto en que su
derivada primera es igual a cero, se trata de encontrar el punto de coordenadas
(b0, b1) resolviendo el sistema de dos ecuaciones lineales con dos incógnitas que surge
al igualar a cero las derivadas primeras respecto de b0 y b13/.
∂ f(b0, b1)/ ∂ (b0) = -2 [ ∑ yi - nb0 + b1
∑ xi ]
∂ f(b0, b1)/ ∂ (b1) = -2 [ ∑ yi xi – b0 ∑ xi + b1 ∑ xi2 ]
Igualando a 0 las derivadas:
-2 [ ∑ yi - nb0 + b1 ∑ xi] = 0
-2 [ ∑ yi xi - b0 ∑ xi + b1 ∑ xi2 ] = 0
De estas ecuaciones, se obtiene el siguiente sistema (haciendo traspaso de términos a
fin de que queden todas las incógnitas del mismo lado de las ecuaciones- lado derecho
en este caso-):
∑ yi = nb0 + b1 ∑ xi
∑ yi xi = b0 ∑ xi + b1 ∑ xi2
Resolviendo el sistema de dos ecuaciones con dos incógnitas por cualquiera de los
métodos conocidos, obtenemos las siguientes fórmulas para calcular el valor de los
coeficientes de la ecuación lineal:
n
b1 =
n
n
i =1
n
i =1
n ∑ yi xi − ∑ yi ∑ xi
i =1
n
n ∑ x −(∑ xi )2
i =1
n
∑ yi
2
i
i =1
n
∑ xi
bo = i =1 − b1 i =1
n
n
3/
(1)
(2)
La verificación de las condiciones de segundo orden, necesarias para que se trate de un mínimo
y no de un máximo las dejamos a cargo del estudiante.
286
Cátedra I Estadística II
Autor I Rosanna Casini
Veamos el siguiente ejemplo:
Una cooperativa de comercialización de un grupo de agricultores quiere medir las
variaciones en la cosecha de trigo de sus miembros durante un periodo de 8 años.
En Tabla 1 mostramos los datos:
Tabla 1:
Año
X: Años (Codificada)4/
1979
1980
1981
1982
1983
1984
1985
1986
Total
-7
-5
-3
-1
1
3
5
7
Y: Cosecha
Tn (x 10000)
7,5
7,8
8,2
8,2
8,4
8,5
8,7
9,1
66,4
En la Tabla 2 mostramos las columnas con los cálculos necesarios para aplicar las
fórmulas de cálculo de los coeficientes:
4/
Este ejemplo fue desarrollado con esta codificación ordenada cada dos códigos desde -7 a 7.
Habitualmente se codifica de 1 en adelante pero el tratamiento es equivalente.
287
Cátedra I Estadística II
Autor I Rosanna Casini
Tabla 2:
Año
1979
1980
1981
1982
1983
1984
1985
1986
Total
X: Años
(Codificada)
-7
-5
-3
-1
1
3
5
7
Y: Cosecha
Tn (x 10000)
7,5
7,8
8,2
8,2
8,4
8,5
8,7
9,1
66,4
X2
XY
49
25
9
1
1
9
25
49
168
-52,5
-39
-24,6
-8,2
8,4
25,5
43,5
63,7
16,8
Reemplazando en las fórmulas (1) y (2), la ecuación de la recta resulta:
yˆt = 7, 4 + 0, 2 xt
La Tabla 3, contiene los datos procesados con SPSS de donde obtenemos los
coeficientes de la ecuación, b0 y b1.
Tabla 3:
b0
Mod
el
1
Coefficients a
Unstandardized
Coefficients
(Constant)
TIEMPO
CODIFICADO
B
7,400
Std. Error
,090
,200
,018
Standardi
zed
Coefficien
ts
Beta
,977
t
82,246
Sig.
,000
11,225
,000
a. Dependent Variable: VAR00002
b1
r
Para evaluar la “bondad” del ajuste lineal, lo cual permitirá conocer la confianza
que nos inspira el modelo lineal planteado para estudiar el componente tendencial,
es posible recurrir, al igual que en el caso de la regresión estudiado en el Capítulo
anterior, al coeficiente de determinación general (r2), que para nuestro ejemplo, es
igual a 0,9545. Con este valor, es posible afirmar que la ecuación lineal representa
adecuadamente el componente tendencial de esta serie.
En otros términos el volumen de trigo cosechado tiene un comportamiento lineal a
través del tiempo.
Recordemos que la fórmula del coeficiente de determinación general es:
r2 = 1−
∑ (yi − yˆ i ) 2
∑ (yi − yi ) 2
288
(3)
Cátedra I Estadística II
Autor I Rosanna Casini
Obtenemos r2 mediante aplicación de la fórmula (3), o bien observando los valores
procesados en Tabla 2.
Los valores estimados de y, simbolizados como ŷ , los obtendremos reemplazando en la ecuación:
yˆt = 7, 4 + 0, 2 xt , x t
por los valores de la variable tiempo
codificada, los resultados son mostrados en Tabla 4.
En la Figura 3 observamos el comportamiento de la variable en un gráfico de línea
o poligonal que contiene la función lineal resultante del ajuste que realizamos
aplicando el Método de Mínimos Cuadrados, y los valores de la variable cosecha de
trigo en toneladas realmente relevados.
Figura 3:
Evolución de la cosecha de trigo en valores reales y ajustados
9,5
9
8,5
Cosecha
Ajuste lineal
8
7,5
7
1
2
3
4
5
6
7
8
3.1.2. Tendencias no lineales
Si el gráfico sugiere que la tendencia puede ser de un tipo no lineal, existen varias
alternativas de ajuste. Por ejemplo, puede tratarse de una forma similar a un
polinomio de segundo grado, a una curva exponencial, logarítmica u otra.
Analizaremos los casos de función polinómica de segundo grado y de una exponencial.
Una función polinómica de segundo grado es de la forma:
ŷ = b0 + b1x + b 2 x 2
Donde:
b0 : Intersección estimada con el eje y
b1 : efecto lineal estimado sobre y
b2 : efecto curvilíneo estimado sobre y
Aplicando el método de mínimos cuadrados igual que en el caso lineal (solo que ahora
hay que estimar tres parámetros):
289
Cátedra I Estadística II
Autor I Rosanna Casini
 ∑n y = nb + b ∑n x + b ∑n x 2
o
i
i
1
2
 i =1 i
i =1
i =1
 n
n
n
n
2
3
 ∑ yi xi = bo ∑ xi + b1 ∑ xi + b2 ∑ xi
i =1
i =1
i =1
 i =1
 ∑n y x 2 = b ∑n x 2 + b ∑n x 3 + b ∑n x 4
o
i
1
u
2
i
 i =1 i i
i =1
i =1
i =1
Resolviendo el sistema por cualquiera de los métodos conocidos para ello, obtenemos
los coeficientes de la ecuación cuadrática. (No es necesario que el estudiante
memorice las fórmulas, debe saber aplicarlas o interpretarlas a partir de una salida de
computadora).
Para el tratamiento con un paquete estadístico, este modelo debe ser considerado
como una regresión múltiple en el que y es la variable dependiente, x una variable
independiente y x2 otra variable independiente, tal como se observa en el ejemplo
que sigue.
Los valores hipotéticos del Ingreso Anual de una importante empresa de producción y venta de bebidas gaseosas, en los últimos 20 años se transcriben en la
Tabla 4.
Tabla 4:
Ingreso deflactado a precios de 1990
Código
1
2
3
4
5
6
7
8
9
10
11
Tiempo (X)
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
Ingreso (Y)
255
189
278
289
299
356
389
295
287
299
320
Código
12
13
14
15
16
17
18
19
20
Tiempo (X)
1991
1992
1993
1994
1995
1996
1997
1998
1999
Ingreso (Y)
325
328
338
359
324
316
387
298
278
La salida de computación para la función cuadrática se muestra en la Tabla 5.
Tabla 5:
COEFICIENTES
Unstandardized
Coefficients
Model
1
(Constant)
CÓDIGO DE X
XCUAD
B
219,771
Std. Error
27,369
18,396
-,714
Sig.
8,030
,000
6,002
3,065
,007
,278
-2,572
,020
La función cuadrática es:
ŷ = 219, 77 + 18, 40x − 0, 71 x 2
290
t
Cátedra I Estadística II
Autor I Rosanna Casini
La gráfica del ajuste se muestra en la Figura 4 que se transcribe después de
realizar el ajuste exponencial a los datos del ingreso.
Reemplazamos por los valores de “x” y, el cuadrado de “x” en la función cuadrática
obteniendo los valores estimados de “ ŷ ”, para calcular por diferencia el residuo o
error.
La variable error, como se analizó en la unidad de regresión, es útil para calcular el
error estándar estimado y el coeficiente de determinación r2 y de esa forma
analizar la bondad del ajuste realizado con la función cuadrática.
La salida de computación para el análisis mencionado se encuentra en la Tabla 6.
Tabla 6:
Model Summary b
Model
1
R
,648a
R Square
,420
Adjusted R
Square
,351
Std. Error of
the Estimate
36,7872
a. Predictors: (Constant), XCUAD, CÓDIGO DE X
b. Dependent Variable: INGRESO 1980 - 1999
Observando la salida de SPSS, el Coeficiente de determinación general es 0,42 por
lo que interpretamos que el ajuste es relativamente bueno.
Función exponencial:
Si el comportamiento de la serie muestra una tendencia exponencial en su evolución,
es posible aplicar este tipo de modelos, donde la función tiene la característica que, al
tomar logaritmos en ambos miembros, toma la estructura lineal, lo que hace su
tratamiento similar al caso lineal ya visto.
A fin de ejemplificar este comportamiento:
Continuando con el análisis de la variable ingreso que se muestra en la Tabla 4
hemos codificado “la variable x” con numeración correlativa, tomamos el logaritmo
de la función y aplicamos propiedades, quedando la función exponencial y su
linealización de la siguiente forma:
ˆ
y = b 0 b 1x
lnˆ
y = lnb 0 + xlnb 1
ˆ
y ' = b '0 + b1' x
En la función vemos que la variable dependiente es el logaritmo de la variable
ingreso, simbolizada como “ ŷ' ” y los coeficientes b’0 y b’1 son los logaritmos de
los coeficientes de la función exponencial.
Luego, ajustamos la función lineal por el Método de Mínimos Cuadrados antes
descripto, y por último, tomamos el antilogaritmo de los coeficientes de la
ecuación lineal con lo que obtenemos la función exponencial definida al comienzo.
En el ejemplo se tomó el logaritmo natural de la variable ingreso, lo que se
observa en Tabla 7.
291
Cátedra I Estadística II
Autor I Rosanna Casini
Tabla 7:
Cod.
1
2
3
4
5
6
7
8
9
10
Ln (Y)
5.54
5.24
5.63
5.67
5.70
5.87
5.96
5.69
5.66
5.70
Cod.
11
12
13
14
15
16
17
18
19
20
Ln (Y)
5.77
5.78
5.79
5.82
5.88
5.78
5.76
5.96
5.70
5.63
La ecuación resultante del ajuste realizado por MC, es:
ln (y) = ln (b0) + ln (b1). x
ln (y) = 5,597 + 0,01237. x
Obtenemos los coeficientes, aplicando las fórmulas (1) y (2).
La función exponencial que surge al tomar el antilogaritmo de los valores
estimados de b’0 y b’1,, es:
ŷ = 269, 6.11, 01x
La salida de computación que mostramos en Tabla 8 contiene el análisis de
correlación y los coeficientes de la ecuación lineal.
Tabla 8:
Model Summary b
Model
1
R
,460a
Adjusted R
Square
,168
R Square
,212
Std. Error of
the Estimate
,1450
a. Predictors: (Constant), CÓDIGO DE X
b. Dependent Variable: LNING
Unstandardized
Coefficients
Model
1
(Constant)
CÓDIGO DE X
B
5,597
Std. Error
,067
t
83,120
1,237E-02
,006
2,201
Sig.
,000
,041
El coeficiente de determinación r2 = 0,21 indica que el ajuste es malo, comparativamente para estos datos, ajusta con menor margen de error la función
cuadrática.
Resumiendo los resultados de los ajustes cuadrático y exponencial para los datos
de ingreso en Tablas 9 y 10, concluimos que, de las funciones aplicadas para el
ajuste, la mejor es la Función Cuadrática, no obstante, sería conveniente aplicar
otros métodos para lograr un modelo que reproduzca aún mas los verdaderos
valores de la variable, es decir un modelo que asegure menores residuos
(Diferencia entre los valores observados y los estimados por la función).
292
Cátedra I Estadística II
Autor I Rosanna Casini
En Tabla 10 transcribimos el valor estimado de la variable ingreso calculada con la
Función Cuadrática, en la tercer columna de la tabla y tomando el antilogaritmo de
ŷ , en la columna 5, mostramos el valor estimado de la variable ingreso por
aplicación de la Función Exponencial. También en columnas 4 y 6 visualizamos los
residuos para ambas funciones.
Tabla 9:
r2
0.41
0.21
Función
Cuadrática
Exponencial
Tabla 10:
(1)
Código
De x
(3)
(2)
Ingreso y
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
ŷ
(4)
y − yˆ Función
Función
cuadrática
237,45
253,71
268,53
281,93
293,90
304,44
313,55
321,23
327,49
332,32
335,72
337,69
338,23
337,34
335,03
331,29
326,12
319,52
311,49
302,04
255
189
278
289
299
356
389
295
287
299
320
325
328
338
359
324
316
387
298
278
(5)
cuadrática
17,55
-64,71
9,47
7,07
5,10
51,56
75,45
-26,23
-40,49
-33,32
-15,72
-12,69
-10,23
0,66
23,97
-7,29
-10,12
67,48
-13,49
-24,04
ŷ
Función
exponencial
272,92
276,32
279,76
283,24
286,77
290,34
293,95
297,61
301,31
305,06
308,86
312,70
316,60
320,54
324,53
328,56
332,65
336,79
340,99
345,23
(6)
Residuos
y − yˆ Función
exponencial
-17,92
-87,32
-1,76
5,76
12,23
65,66
95,05
-2,61
-14,31
-6,06
11,14
12,30
11,40
17,46
34,47
-4,56
-16,65
50,21
-42,99
-67,23
Figura 4:
Evolución del ingreso desde 1980 hasta 1999 - Valores reales, ajuste
cuadrático y exponencial
INGRESO (1980 - 1999)
450
350
Serie1
300
Serie3
250
Serie4
200
150
TIEMPO CODIFICADO
293
19
17
15
13
11
9
7
5
3
100
1
INGRESO
400
Cátedra I Estadística II
Autor I Rosanna Casini
Si observamos el gráfico de la Figura 4, vemos que la serie presenta un comportamiento con tendencia no marcada, y ciertos picos u oscilaciones que hacen difícil la
reproducción de sus valores de modo que se logre bajo error con funciones del tipo
utilizado para el ejemplo, precisamente en los picos el error o residuo es
considerablemente importante. Esto nos permite concluir que para esta serie es
necesario aplicar otros métodos, por ejemplo modelos autorregresivos o de
promedios móviles.
Se sugiere resolver las siguientes actividades que fueron tomadas del libro de
Berenson, Levine y Krehbiel:
Actividad 1:
Los siguientes datos representan los depósitos totales (en millones de dólares)
para uno de los bancos más grandes de Estados Unidos, J.P. Morgan, durante
un período de 19 años de 1979 a 1997.
Depósitos totales (en millones de dólares)
para J.P Morgan (1979-1997)
Año
Depósitos
Año
Depósitos
1979
30,279
1989
39,158
1980
35,594
1990
37,557
1981
36,024
1991
36,976
1982
37,910
1992
32,519
1983
38,070
1993
40,402
1984
38,760
1994
43,085
1985
39,845
1995
46,438
1986
42,960
1996
52,724
1987
43,987
1997
58,879
1988
42,469
Fuente: Moody's Handbook of Common Stocks, 1989, 1998.
(a) Grafique los datos en un diagrama.
(b) Asuste una ecuación de tendencia lineal a estos datos y grafique los
resultados en el diagrama.
(c) Ajuste una ecuación de tendencia cuadrática a estos datos y grafique los
resultados en el diagrama.
(d) Ajuste una ecuación de tendencia exponencial a estos datos y grafique los
resultados en el diagrama.
(e) ¿Qué modelo parece el más adecuado?
Actividad 2:
Los datos de la siguiente tabla representan los ingresos de operación netos
anuales reales (en miles de millones de dólares corrientes) de Coca-Cola
Company durante un periodo de 24 años, de 1975 a 1998.
Ingresos de operación reales de Coca-Cola Company (1975-1998)
Año
1975
1976
1977
1978
1979
1980
1981
1982
Ingresos
2.9
3.1
3.6
4.3
4.5
5.3
5.5
5.9
Año
1983
1984
1985
1986
1987
1988
1989
1990
Ingresos
6.6
7.2
7.9
7.0
7.7
8.3
9.0
10.2
Año
1991
1992
1993
1994
1995
1996
1997
1998
Ingresos
11.6
13.0
14.0
16.2
18.0
18.5
18.9
18.8
Fuente: Moody's Handbook of Common Stocks, 1980, 1989, 1993, 1997. Reimpreso con
permiso de Financial Information Services, una división de Financial Comunications Company, Inc. Y Standard and Porr's Corp., Nueva York: MacGraw-Hill,
294
Cátedra I Estadística II
Autor I Rosanna Casini
Inc., abril de 1999.
(a) Grafique los datos en un diagrama.
(b) Asuste una ecuación de tendencia cuadrática a estos datos y grafique los
resultados en el diagrama.
(c) ¿Cuáles son los pronósticos de tendencia para 1999 y 2000?
(d) Forme una nueva tabla de “ingresos operativos ajustados” (es decir, actuales) multiplicando cada ingreso real por la cantidad  100.0  , obtenida de los


 IPC 
valores correspondientes del IPC desplegado en el problema 11.12 de la
página 619 del libro de Berenson, Levine y Krehbiel. Estos ingresos
operativos actuales están en miles de millones de dólares corrientes de
1982 a 1984.
(e) Grafique la serie de datos revisados en un diagrama.
(f) Ajuste una ecuación de tendencia exponencial a estos datos y grafique los
resultados en el diagrama.
(g) Ajuste una ecuación de tendencia cuadrática a estos datos y grafique los
resultados en el diagrama.
(h) Ajuste una ecuación de tendencia exponencial a estos datos y grafique los
resultados en el diagrama.
(i) Utilice los modelos ajustados en (f), (g) y (h); ¿cuáles son los pronósticos
de tendencia anual de los ingresos operativos actuales para 1999 y 2000?
(j) Compare los resultados de los pronósticos en (c) con los obtenidos en (i).
Analice.
(k) ¿Qué conclusiones se obtienen respecto a las tendencias de los ingresos
operativos actuales y reales?
3.2. Serie de periodicidad inferior al año
Estas series son formadas por valores de la variable correspondientes a períodos de
tiempo inferiores al año, como por ejemplo: datos mensuales, bimestrales,
trimestrales, cuatrimestrales o semestrales, o incluso semanales, diarios u horarios
(este es el caso de series de consumo de energía para el estudio de las horas pico,
etc.). El tratamiento de las mismas en cuanto al componente tendencial es igual que
para el caso de la serie anual. Ahora, al considerar períodos cortos, en el
comportamiento de la variable influyen los cuatro componentes: tendencial, cíclico,
estacional e irregular.
Cuando el modelo que se utiliza es el multiplicativo, dado que el producto de los
componentes se iguala a los valores observados de la serie, este producto debe estar
expresado en las unidades correspondientes (las mismas en que se expresa la variable
Y), de manera que si la tendencia se expresa en esas unidades, los demás
componentes será índices o coeficientes que modifican el valor de la tendencia. Si así
no fuera, estaríamos multiplicando por ejemplo “pesos” (si la variable es monetaria, se
trata de los pesos expresados en la tendencia), por “pesos” correspondientes al ciclo,
por “pesos” correspondientes al componente estacional y por “pesos”para el irregular y
entonces tendríamos pesos a la cuarta potencia).
Si en cambio se trata del modelo aditivo, todos los componentes se expresan en las
mismas unidades porque se suman (se supone que actúan en forma independiente).
Como estamos trabajando con el modelo multiplicativo, y ahora nos ocupamos de
series que pueden contener estacionalidad, se trata de estudiar cómo se aísla este
componente, que se expresa en índices. Además, explicaremos cómo se obtienen los
índices que representan al componente irregular. Además, estudiaremos un tema muy
importante cual es la metodología para aplicar los índices estacionales para afectar
una variable estimada (incorporar estacionalidad a una predicción) o quitar el efecto
estacional sobre la variable observada (desestacionalizar).
295
Cátedra I Estadística II
Autor I Rosanna Casini
3.2.1. Componente estacional
Para estudiar el componente estacional utilizamos el método de razón a promedio
móvil.
El fundamento del método se origina en el hecho de que el promedio móvil permite
suavizar los picos que se producen en el corto plazo aislando su efecto y generando
valores que presentan sólo un comportamiento tendencial.
El factor estacional influye en períodos bimestrales, trimestrales, cuatrimestrales o
semestrales, provocando oscilaciones en cada sub-período que luego se repiten año
tras año. En definitiva, este método basado en el modelo multiplicativo permite
determinar los índices que explican aquellas oscilaciones que se producen en el corto
plazo.
Los pasos a seguir para aplicar el método son: (recomendamos seguir el ejemplo que
está planteado a continuación para comprender mejor cada uno de estos pasos)
a- Aislar el efecto de los componentes estacional e irregular, mediante los promedios
móviles. Los promedios se van tomando de a tantos valores como elementos tiene
el sub. período. El primer promedio toma los datos necesarios a partir del primero
de la serie, el segundo a partir del segundo, y así sucesivamente.
Por ejemplo, si la serie es bimestral se toman promedios de a 6 períodos: del
primero al sexto (primer promedio móvil); del segundo al séptimo (segundo
promedio móvil) así sucesivamente. Si fuera trimestral se toman promedios de a
4, si es cuatrimestral de a 3. Es decir, el número de datos comprendidos en cada
promedio es la cantidad de veces que el sub-período está comprendido en el año.
Como se reemplaza cada valor de la variable por un promedio de las observaciones
correspondientes a todo un año, naturalmente desaparecen las fluctuaciones
estacionales y las irregulares. De manera que logramos una columna con los
valores de la variable sin efecto estacional (S), y sin efecto irregular (I), la que
puede designarse como T.C, la variable con efecto tendencial y cíclico. Hay un
pequeño problema para asignar a qué período corresponde cada uno de los
promedios obtenidos: si se trata de un número impar de datos, el promedio se
asigna al dato central (por ejemplo si son cuatrimestres, en un año hay tres, y el
promedio de los tres primeros cuatrimestres se asigna al segundo). Pero, cuando
la serie tiene una cantidad par de elementos en el sub. Período, el promedio no
corresponde a ningún período en particular, sino que está ubicado entre dos subperíodos; entonces debemos tomar los promedios móvil “centrados”, esto es,
recalcular los promedios móviles tomando de a pares y entonces al centralizar los
valores se pueden asignar a un período en particular.
b- Obtener el índice de los componentes estacional e irregular mediante el cociente:
y
x100 = S .I .100
TC
Índice que refleja el efecto Estacional e Irregular porque si el modelo original
establecía que:
yt = Tt .St .Ct I t ,
al dividir por TC quedan los componentes estacional e irregular
(S.I.) que suelen multiplicarse por 100 para que queden expresados como
porcentajes.
c- Obtener el Índice de Estacionalidad. Para aislar el efecto estacional del irregular,
podemos tomar promedio de los índices antes calculados, ordenados por subperíodo de menor a mayor de acuerdo a su magnitud.
296
Cátedra I Estadística II
Autor I Rosanna Casini
El promedio puede ser la media aritmética, la mediana o la trimedia, según que
existan o no valores extremos de la variable. En general se prefiere la mediana,
porque la media puede estar afectada por algún valor muy alejado del resto. Esos
promedios serían los índices estacionales, porque del producto S.I. hemos
eliminado la irregularidad al promediar. Luego, como es deseable que la media
anual de todos los índices estacionales sea igual a 100 y si bien al calcular de esta
manera los índices la media suele ser cercana a ese valor, se requiere un ajuste
para que sea exactamente igual a 100. Para ello, mediante una regla de tres
simple se hace igual a 100 la media deseada y se recalcula cada uno de los índices
obtenidos anteriormente.
Es conveniente graficar mediante una poligonal, los índices de modo que para
cada sub-período podamos observar como se producen las variaciones por la
influencia del componente Estacional.
A continuación desarrollaremos mediante un ejemplo el aislamiento de los cuatro
componentes en una serie de periodicidad cuatrimestral.
297
Cátedra I Estadística II
Autor I Rosanna Casini
Los gastos de la Empresa “Asterisco S.A.” correspondientes a 36 períodos cuatrimestrales y los respectivos códigos se muestran en Tabla 11.
Tabla 11:
Código
Cuatrimestre
Gasto
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
268
205
198
215
189
142
235
196
165
276
225
189
256
223
203
289
256
225
315
289
245
289
317
287
320
300
276
475
356
300
402
389
346
568
489
356
Realizando la regresión lineal simple entre “el código” y la variable “y”, obtendremos los coeficientes “b0 y b1” de la ecuación de la recta, siendo:
298
Cátedra I Estadística II
Autor I Rosanna Casini
yˆ = 1 54, 5 5 + 7 , 0 7 x
Luego analizaremos el coeficiente de determinación para observar la importancia o
magnitud relativa del error en la regresión o ajuste realizado, siendo:
r2= 0.64
Lo que significa que el ajuste lineal es bastante bueno para estos datos (en
general, cuando se trata de una serie que presenta fluctuaciones estacionales, el
ajuste no puede ser muy alto, por los desvíos respecto de la línea estimada de
cada observación en particular; por eso decimos que 0,64 es un valor aceptable).
Para facilitar la realización de este análisis es conveniente que utilicemos las
salidas de computación, por ejemplo EXCEL, lo que mostramos en Tabla 12. No
obstante la realización manual de los cálculos es mediante aplicación de las
fórmulas (1) ,(2) y (3).
Tabla 12:
Estadísticas de la regresión
Coeficiente de correlación
0,80
Coeficiente de determinación R2
0,64
Error típico
56,75
Observaciones
36,00
Coeficientes Error típicoEstadístico t Probabilidad
Intercepción
154,55
19,32
8,00
0,00
Variable X 1
7,07
0,91
7,77
0,00
El gráfico del tendencia estimada para la variable gasto se muestra en Figura 5.
Figura 5:
CURVA DE REGRESIÓN AJUSTADA
600
500
Y
INGRESO (Y)
400
300
Pronóstico
para Y
200
100
0
0
5
10
15
20
25
30
35
40
CÓDIGO TIEMPO (X)
En Tabla 13 mostramos los cálculos para aislar el componente estacional, que
contiene lo siguiente:
- Columna 1: el código de la variable tiempo.
- Columna 2: el cuatrimestre de cada año.
- Columna 3: la variable que se analiza: el Gasto.
299
Cátedra I Estadística II
Autor I Rosanna Casini
- Columna 4: promedio móvil calculado tomando el valor del gasto de a tres
cifras y centralizado en el segundo sub-período. Con esto eliminamos el efecto
estacional e irregular quedando TC(efecto tendencial y cíclico).
- Columna 5: mediante el cociente de columna 3 y 4, obtenemos la columna 5,
donde se observa la tasa de efecto estacional e irregular.
- Columna 6: multiplicamos la tasa por cien de modo de obtener el índice que
refleja el efecto conjunto de los componentes estacional e irregular.
Tabla 13:
Code
(1)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
Cuatrimestre
(2)
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Gastos
(3)
268
205
198
215
189
142
235
196
165
276
225
189
256
223
203
289
256
225
315
289
245
289
317
287
320
300
276
475
356
300
402
389
346
568
489
356
Prom.Movil: T.C.
(4)
Tasa: S.I.
(5)
223.67
206.00
200.67
182.00
188.67
191.00
198.67
212.33
222.00
230.00
223.33
222.67
227.33
238.33
249.33
256.67
265.33
276.33
283.00
274.33
283.67
297.67
308.00
302.33
298.67
350.33
369.00
377.00
352.67
363.67
379.00
434.33
467.67
471.00
0.9165
0.9612
1.0714
1.0385
0.7527
1.2304
0.9866
0.7771
1.2432
0.9783
0.8463
1.1497
0.9809
0.8517
1.1591
0.9974
0.8480
1.1399
1.0212
0.8931
1.0188
1.0649
0.9318
1.0584
1.0045
0.7878
1.2873
0.9443
0.8507
1.1054
1.0264
0.7966
1.2145
1.0382
SI* 100
(6)
91.65
96.12
107.14
103.85
75.27
123.04
98.66
77.71
124.32
97.83
84.63
114.97
98.09
85.17
115.91
99.74
84.80
113.99
102.12
89.31
101.88
106.49
93.18
105.84
100.45
78.78
128.73
94.43
85.07
110.54
102.64
79.66
121.45
103.82
Por último en Tabla 14, ordenamos los valores de la columna 6 de mayor a menor
por cuatrimestre y calculamos la mediana para cada cuatrimestre. Luego
ajustamos los valores de la mediana, multiplicando cada valor de la mediana por
un coeficiente (300/299,27), a partir de lo cual la suma de los tres cuatrimestres
es 300 (o sea la media anual de los tres índices cuatrimestrales es igual a 100).
De esta forma hemos construido los índices que muestran el efecto del
componente estacional, también llamados Índices de estacionalidad.
300
Cátedra I Estadística II
Autor I Rosanna Casini
Tabla 14:
Cuatrimestre 1
Cuatrimestre 2
91,65
94,43
97,83
98,09
98,66
99,74
100,45
102,12
102,64
103,82
103,85
106,49
100,09
100,14
101,88
105,84
107,14
110,54
113,99
114,97
115,91
121,45
123,04
124,32
128,73
114,97
115,02
Cuatrimestre 3
75.27
77.71
78.78
79.66
84.63
84.80
85.07
85.17
89.31
93.18
96.12
84.80
84.84
MEDIANA
S (AJUST)
El gráfico de los índices de estacionalidad para cada cuatrimestre se muestra en
Figura 6.
Figura 6:
ÍNDICES DE ESTACIONALIDAD
120
110
ÍNDICE
100
Serie1
90
Serie2
80
70
60
1
2
3
CUATRIMESTRE
Los índices de estacionalidad se utilizan en la realización de pronósticos para
corregir valores estimados, o bien desestacionalizar valores reales.
Por ejemplo, si tomamos el primer cuatrimestre del segundo año, el valor de “y” es
215.
- Si pretendemos quitar el efecto estacional haremos lo siguiente:
y.100/S = 215.100/115.02 = 186.92
Esto es lo que hemos mencionado como desestacionalizar la serie. Puesto que
el índice estacional del primer cuatrimestre es mayor que 100, significa que el
valor de 215 está “inflado” por el efecto estacional; al quitarlo, dividiendo por el
índice, resulta 186.92.
301
Cátedra I Estadística II
Autor I Rosanna Casini
- Si en cambio, dado que tenemos datos observados correspondientes a 36
cuatrimestres (12 años), supongamos que se quiere “predecir” el valor de y para
el siguiente cuatrimestre (primero del año 13). Estimamos ese valor
reemplazando en la ecuación de tendencia x por 37:
ŷ37 = 154,55 + 7, 07.37 = 416,14
hemos estimado el valor de y sobre la línea de tendencia. Ahora, para aproximarnos a lo que esperamos ocurra en el primer cuatrimestre del año 13, lo
afectaremos por estacionalidad; le incorporamos la estacionalidad multiplicando
por el índice correspondiente a ese cuatrimestre.
Siendo:
ŷ37 = 416,14 , el valor afectado por estacionalidad es:
ŷ37 .S1/100 = 416,14
. 115, 02/100 = 478, 64
Vemos que el valor estimado utilizando el componente tendencial es corregido
por efecto estacional con índice de valor superior a 100 para el primer
cuatrimestre, lo que provoca un aumento en el valor estimado y genera un
resultado que se espera será más próximo al verdadero valor de “y” en ese
período.
Esto es afectar por estacionalidad.
Observación importante: cuando el número de sub-períodos en el año es par (por
ejemplo trimestres que son cuatro, o meses que son 12), antes de calcular la columna
5 de la tabla (tasa SI), es necesario “centrar” los promedios móviles, tal como se
explicó más arriba. Esto porque los promedios móviles obtenidos no corresponden a
ningún sub-período, sino que se ubican entre dos. Por ejemplo si se promedian los
cuatro primeros trimestres, el promedio móvil se ubica entre el segundo y el tercero;
el siguiente entre el tercero y el cuarto, y así sucesivamente. Para hacerlos
corresponder a un trimestre en particular, se deben promediar de a dos: así el
promedio de los dos primeros promedios obtenidos, corresponderá al tercer trimestre,
el segundo al cuarto, etc.
3.2.2. Componente cíclico
Este componente afecta el comportamiento de la serie en el largo plazo, mostrando el
efecto de ciclos atribuidos a la actividad de que se trate, por ejemplo en variables
económicas los cambios cíclicos afectan a las variables provocando oscilaciones
referidas al momento del proceso, las que generalmente se sintetizan en: depresión,
recuperación, prosperidad y contracción. Los ciclos han sido ampliamente estudiados
en economía y pueden ser (incluso superponerse) de distinta longitud: ciclos cortos, de
dos años, ciclos medios, de cinco o seis años de duración y ciclos largos o aún muy
largos de varias decenas de años de duración.
Cuando una serie no es muy larga, es posible que el componente cíclico se confunda
con la tendencia: un movimiento ascendente de la serie no se sabe si corresponde a
una tendencia ascendente o a un período ascendente de un ciclo que luego caerá.
Por eso algunos autores llaman al componente “Tendencia-ciclo” y no distinguen entre
uno y otro.
El método residual permite determinar los índices del componente cíclico.
Este método consiste en lo siguiente:
1) En primer lugar deben obtenerse los valores estimados para cada uno de los
períodos de la serie, siendo posibles dos situaciones:
302
Cátedra I Estadística II
Autor I Rosanna Casini
-
En datos correspondientes a períodos menores al año, se afecta por estacionalidad
y entonces se obtienen los valores estimados con efecto tendencial y estacional:
En datos anuales no se requiere afectar por estacionalidad, directamente se
trabaja con los valores estimados de la variable “y”:
y.
ˆ
Is
=ˆ
y t.s
100
2) Se realiza el cociente entre los valores reales (observados) y los estimados
(afectados o no por estacionalidad según corresponda) y se multiplica por 100.
y
y t.s
ˆ
.100
3) El cociente realizado, incluye los componentes restantes: cíclico e irregular; se
toman entonces promedios móviles de 3 ó 5 datos según la cantidad de
observaciones de la serie, con lo cual se eliminan las irregularidades de manera
que se obtienen los índices del componente cíclico, que luego se utilizan para
describir este componente en los períodos estudiados. Esto es así porque siempre
al tomar promedios móviles de cualquier longitud, se elimina la componente
irregular que actúa por definición solo en el corto plazo.
Continuando con los datos del ejemplo anterior, se transcribe en Tabla 15 el
cálculo del componente Cíclico para lo cual aplicamos los pasos antes descriptos.
Tabla 15:
ŷ
Gasto
Estimado
161.62
168.69
175.76
182.83
189.90
196.97
204.04
211.11
218.18
225.25
232.32
239.39
246.46
253.53
260.60
267.67
274.74
281.81
288.88
295.95
303.02
310.09
317.16
324.23
331.30
338.37
345.44
352.51
359.58
366.65
373.72
ŷTxS
Gasto estimado
ajustado por
estacionalidad
y
Gastos reales
y
.100 = CI
yˆ t .s
C
268
205
198
215
189
142
235
196
165
276
225
189
256
223
203
289
256
225
315
289
245
289
317
287
320
300
276
475
356
300
402
144.17
121.35
132.78
102.24
99.39
84.97
100.13
92.71
89.14
106.53
96.71
93.06
90.31
87.84
91.82
93.87
93.05
94.11
94.80
97.52
95.30
81.03
99.81
104.33
83.98
88.54
94.18
117.15
98.87
96.44
93.52
119.99
108.15
103.90
95.89
93.27
94.70
97.05
95.63
95.15
94.89
91.95
91.38
91.38
92.14
93.53
94.67
94.95
92.55
93.69
95.60
92.89
91.54
94.17
97.63
96.54
99.03
100.03
101.60
99.20
185.90
168.93
149.11
210.29
190.17
167.11
234.69
211.41
185.10
259.08
232.65
203.10
283.48
253.88
221.09
307.87
275.12
239.09
332.27
296.36
257.08
356.67
317.60
275.08
381.06
338.84
293.07
405.46
360.08
311.07
429.85
303
Cátedra I Estadística II
Autor I Rosanna Casini
380.79
387.86
394.93
402.00
409.07
381.32
329.06
454.25
402.56
347.05
389
346
568
489
356
102.01
105.15
125.04
121.47
102.58
104.43
109.44
111.25
La gráfica que describe los índices del componente cíclico para el período
analizado, se muestra en la Figura 7, en ella vemos que no abarca todas las etapas
de un ciclo, podríamos considerar que la Figura muestra las etapas de: contracción, depresión y recuperación, y que para lograr un ciclo completo seguramente
requiere de una mayor cantidad de períodos.
Podemos concluir que un ciclo puede desarrollarse en forma completa en series de
largo plazo, entendiendo por tal más de cuarenta sub-períodos.
Figura 7:
Grafico del Componente cíclio - Variable Ingreso
140,00
120,00
indices
100,00
80,00
60,00
40,00
20,00
0,00
0
10
20
30
40
período
3.2.3. Componente irregular
Este componente se determina por el método residual y luego de aislar las demás.
Después de obtener los índices del componente cíclico se realiza el cociente entre los
valores C.I./C y se obtiene I.
Valor que multiplicado por 100 determina el índice que explica el efecto del componente irregular.
El estudio de los efectos irregulares, que no son controlables, requiere de otros métodos que no contemplamos en este curso. Con el método clásico desarrollado en este
capítulo, solo estamos en condiciones de aislar cada uno de los componentes y utilizar
la tendencia y la estacionalidad para predecir valores futuros de la variable. Otros
métodos más avanzados, permiten modelar todos los componentes de la serie y
realizar mejores predicciones sobre todo en el corto plazo.
Una observación general: es conveniente resolver las actividades de este
capítulo utilizando planillas de cálculo (Excel u otra), las que facilitan de manera
significativa la resolución de todos los ejercicios.
304
Cátedra I Estadística II
Autor I Rosanna Casini
Actividad 3:
La información que se presenta en el siguiente cuadro corresponde a las ventas
trimestrales de una empresa de automóviles, en miles de pesos:
Año
Trimestre
Ventas
1993
III
IV
398
352
1994
I
II
III
IV
283
454
392
345
1995
I
II
III
IV
274
392
290
210
1996
I
II
III
IV
218
382
382
340
1997
I
II
III
IV
298
452
423
372
1998
I
II
III
IV
336
468
387
309
1999
I
II
III
IV
264
399
408
396
2000
I
II
III
IV
389
604
579
513
2001
I
II
510
661
Ventas trimestrales
684
601
Ventas
518
435
353
270
187
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33
Tiempo
305
Cátedra I Estadística II
Autor I Rosanna Casini
a) ¿Qué tendencia a largo plazo observa en esta serie? Encuentre la recta de
tendencia por el método de mínimos cuadrados.
b) Calcule los índices estacionales para los cuatro trimestres, y encuentre los
valores de Ventas del año 1995 con variación estacional eliminada.
c) Calcule las variaciones cíclicas e irregulares.
d) Realice una predicción de las Ventas para el año 2002 aplicando la recta de
mínimos cuadrados y los índices de estacionalidad.
e) Realice un pequeño informe sobre el análisis realizado a los datos.
Actividad 4:
Las ventas trimestrales, en unidades de producto, de una empresa que vende
equipos de computación fueron:
Año – Trimestre
1996 –
1997 –
1998 –
1999 –
2000 –
2001 –
Unidades vendidas
42
26
37
44
56
44
51
57
43
36
38
45
53
38
46
50
83
64
84
87
97
82
93
99
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
306
Cátedra I Estadística II
Autor I Rosanna Casini
Ventas en unidades
103
Vtas en unidades
89
76
63
49
36
22
1
4
7
10
13
16
19
22
25
Tiempo
a) Encuentre la recta de tendencia a largo plazo.
b) Determine los índices estacionales para los cuatro trimestres.
c) Encuentre los valores de unidades vendidas con las variaciones estacionales eliminadas, para los trimestres de 2001.
d) Calcule las variaciones cíclicas e irregulares.
e) Determine las ventas trimestrales predichas para 2002, con base en la
recta de tendencia y en los índices estacionales
Actividad 5:
La siguiente tabla muestra información referida a exportaciones de la industria
alimentaria durante un período de 7 años (en miles de U$S ):
Trimestre Año
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
Exportaciones
5310
5490
4900
3500
3100
3300
3200
2600
2400
2500
2500
2300
2100
2200
2100
1700
1500
1600
1400
1200
1000
1300
1200
800
600
700
700
400
94
94
94
94
95
95
95
95
96
96
96
96
97
97
97
97
98
98
98
98
99
99
99
99
00
00
00
00
307
Cátedra I Estadística II
Autor I Rosanna Casini
Exportaciones
5745
Exportaciones
4345
2945
1545
146
1
3
5
7
9 11 13 15 17 19 21 23 25 27 29
Tiempo
Se proponen tres modelos para reflejar el comportamiento de la variable:
1) Lineal Yt = a + b t
Yt = 4474,68 - 156,87 t;
R2 = 0,879
2) Cuadrático Yt = a + b t + c t2
Yt = 5291,01 - 320,14 t + 5,63 t2; R2 = 0,938
3) Exponencial Yt = a bt
Yt = 5710,28 ( 0,92 )t; R2 = 0,945
a) ¿Cuál de los tres modelos refleja mejor la tendencia a largo plazo de la
serie? ¿Por qué?
b) Estime la tendencia para el segundo trimestre de 1998.
c) Prediga (con tendencia y estacionalidad) las exportaciones para el segundo
trimestre del 2001.
Utilizando los índices de estacionalidad:
I
II
III
IV
90.28
106.23
109.29
94.20
Se sugiere resolver los siguientes ejercicios del libro de Berenson, Levine y Krheibel:
Actividad 6:
Los datos de la tabla siguiente representan el índice Standard & Poor's de
precios de las acciones al final de cada trimestre de 1994 a 1998.
Índice trimestral Standard & Poor's para precios de acciones
Trimestre
1994
1995
Año
1996
1997
1998
1
445.77
500.71
645.50
757.12
1.101.75
2
444.27
544.75
670.63
885.14
1.133.84
3
462.69
584.41
687.31
947.28
1.017.01
4
459.27
615.93
740.74
970.43
1.229.23
Fuente: Standard & Poor's Current Statistics, enero de 1998, 29. Reimpreso con permiso
de Financial Information Services, una división de Financial Communications
Company, Inc., y Yahoo.com, 24 de junio de 1999.
(a) Grafique los datos en un diagrama.
308
Cátedra I Estadística II
Autor I Rosanna Casini
(b) Desarrolle una ecuación de tendencia exponencial con componentes trimestrales que represente el modelo multiplicativo clásico de series de tiempo.
(1) ¿Cuál es el valor ajustado de la serie en el tercer trimestre de 1998?
(2) ¿Cuál es el valor ajustado de la serie en el cuarto trimestre de 1998?
(3) ¿Cuáles son los pronósticos para los cuatro trimestres de 1999 y 2000?
(4) Interprete la tasa de crecimiento trimestral compuesta.
(5) Interprete el "multiplicador" del segundo trimestre.
Actividad 7:
Los datos en la siguiente tabla son ingresos trimestrales (en millones de dólares)
de Toys R Us, del primer trimestre de 1992 al tercer trimestre de 1998.
Ingresos trimestrales para Toys R Us en millones de dólares
(1992-1998)
Trimestre
1992
1993
1994
Año
1995
1996
1997
1998
1
1,026
1,172 1,286
1,462
1,493
1,646
1,924
2
1,056
1,249 1,317
1,452
1,614
1,736
1,989
3
1,182
1,346 1,449
1,631
1,715
1,883
2,142
4
2,861
3,402 3,893
4,200
4,605
4,668
2,861
Fuente: Standard & Poor's Stock Reports, noviembre de 1998. Nueva York: McGraw-Hill,
Inc.
(a) ¿Cree que los ingresos de Toys R Us están sujetos a una variación
estacional? Explique.
(b) Grafique los datos en un diagrama. ¿Apoya este diagrama su respuesta en
(a)?
(c) Desarrolle una ecuación de tendencia exponencial con componentes
trimestrales que represente el modelo multiplicativo clásico de series de
tiempo.
(1) Interprete la tasa de crecimiento trimestral compuesta.
(2) Interprete los multiplicadores trimestrales.
(3) ¿Cuál es el valor pronosticado para el cuarto trimestre de 1998?
(4) ¿Cuáles son los pronósticos para todos los trimestres de 1999?
Actividad 8:
Los siguientes datos representan los cargos mensuales por tarjetas de crédito
(en millones de dólares) para una tarjeta conocida que otorga un gran banco.
El nombre no se revela a petición del banco.
Cargos por tarjetas de crédito en millones de dólares
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
1997
31.9
27.0
31.3
31.0
39.4
40.7
42.3
49.5
45.0
50.0
50.9
58.5
Año
1998
39.4
36.2
40.5
44.6
46.8
44.7
52.2
54.0
48.8
55.8
58.7
63.4
1999
45.0
39.6
Fuente: Datos reales recopilado por uno de los autores.
(a) Construya una gráfica de la serie de tiempo.
(b) Describa el patrón mensual que es evidente en los datos.
(c) En general, ¿diría que la cantidad global en dólares que corresponde a los
cargos de la tarjeta de crédito del banco aumenta o disminuye? Explique.
309
Cátedra I Estadística II
Autor I Rosanna Casini
(d) Observe que los cargos de diciembre de 1998 fueron de 63 millones de
dólares, pero en febrero de 1999 no llenaron a 40 millones de dólares. ¿El
cierre total de febrero correspondió a lo que se esperaba?
(e) Desarrolle una ecuación de tendencia exponencial con componentes mensuales que represente el modelo multiplicativo clásico de series de tiempo.
(f) Interprete la tasa de crecimiento mensual compuesta.
(g) Interprete el "multiplicador" de enero.
(h) ¿Cuál es el valor pronosticado para marzo de 1999?
(i) ¿Cuál es el valor pronosticado para abril de 1999?
(j) ¿En qué beneficia al banco este tipo de análisis de series de tiempo?
En series cuyo comportamiento se caracteriza por fuertes variaciones entre períodos,
se dificulta la obtención de una idea visual de tendencia global a largo plazo, es
conveniente utilizar métodos que suavizando las variaciones permiten modelar el
comportamiento con cierto margen de aproximación a los valores reales. El margen de
aproximación se llama error y es la diferencia entre el valor observado y el predicho
por el modelo. Los métodos más sencillos de análisis para estas series son el de
promedios móviles y suavizado exponencial.
Estos métodos de suavizado no proporcionan una expresión analítica (recta, parábola,
etc.) como los estudiados en el punto anterior, no son muy útiles para pronosticar
valores futuros de la variable, pero sí para modelar el comportamiento de las series.
4.1. Método de promedios móviles
Consiste en promediar de manera consecutiva una cantidad L de valores de la serie
(como lo hicimos para aislar el componente estacional). Esa cantidad L debe ser un
número entero y si es posible se hará corresponder a la duración promedio estimada
de un ciclo o un múltiplo de éste en la serie.
Por lo tanto los promedios móviles para un período de longitud L consisten en una
serie de medias aritméticas calculadas en el tiempo para sub-períodos consecutivos de
longitud L5.
Cuando el valor asignado a L es impar el promedio móvil está centrado en el año del
medio entre los usados para calcularlo. Además ningún promedio móvil puede
obtenerse para los primeros ni para los últimos (L – 1)/2 años de la serie (se
“pierden” algunos datos).
Mediante un ejemplo veremos cómo se aplica6/:
5/
6/
Berenson y Levine.
Ejemplo tomado de M. BERENSON, D. LEVINE “ESTADÍSTICA BÁSICA EN ADMINISTRACIÓN”,
Sexta edición. Pag. 863.
310
Cátedra I Estadística II
Autor I Rosanna Casini
Los datos que se transcriben en Tabla 16 corresponden a ventas de Fábrica de la
empresa General Motors Corporation para el período 1970–1992.
Se pretende con ellos mostrar la aplicación del método de promedios móvil para
suavizar la serie, utilizando diversos períodos de longitud “L”.
Tabla 16:
Venta de Fábrica (en millones de unidades) de General Motors Corp.
(1970 – 1992)
Año
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
Ventas de fábrica
5.3
7.8
7.8
8.7
6.7
6.6
8.6
9.1
9.5
9.0
7.1
6.8
Año
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
Ventas de fábrica
6.2
7.8
8.3
9.3
8.6
7.8
8.1
7.9
7.5
7.0
7.2
Para realizar el análisis por este método se debe:
abcd-
Definir “L”.
Sumar sucesivamente “L” valores para obtener el total móvil de cada año.
Dividir el total móvil por “L” para obtener el promedio móvil de cada año.
Graficar .
Generalmente se prueba con distintos valores de L para seleccionar aquel que
permita una mejor descripción de la serie.
311
Cátedra I Estadística II
Autor I Rosanna Casini
Para el ejemplo se toman tres valores de “L”, 3, 5, y 7, los resultados se trascriben
en la Tabla 17.
Tabla 17:
Ventas de
fábrica
5,3
7,8
7,8
8,7
6,7
6,6
8,6
9,1
9,5
9,0
7,1
6,8
6,2
7,8
8,3
9,3
8,6
7,8
8,1
7,9
7,5
7,0
7,2
Año
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
Total móvil
de 3 años
Promedio
móvil (L = 3)
Promedio
móvil (L = 5)
Promedio
móvil (L = 7)
20,9
24,3
23,2
22,0
21,9
24,3
27,2
27,6
25,6
22,9
20,1
20,8
22,3
25,4
26,2
25,7
24,5
23,8
23,5
22,4
21,7
6,97
8,10
7,73
7,33
7,30
8,10
9,07
9,20
8,53
7,63
6,70
6,93
7,43
8,47
8,73
8,57
8,17
7,93
7,83
7,47
7,23
7,26
7,52
7,68
7,94
8,10
8,56
8,66
8,30
7,72
7,38
7,24
7,68
8,04
8,36
8,42
8,34
7,98
7,66
7,54
7,36
7,90
8,14
8,31
8,09
8,10
8,04
7,93
7,81
7,79
7,73
7,83
8,01
8,26
8,21
8,03
7,73
Observamos que para los datos el mejor suavizado se logra para L = 3, dado que
segura menor magnitud de error o distancia entre el valor observado y el
resultante de los promedios móviles.
El gráfico de la Figura 8, permite obtener igual conclusión.
Figura 8:
VENTAS DE FÁBRICA MÉTDODO DE PROMEDIOS MÓVILES
10
8
VENTAS DE
FÁBRICA
7
PM L=5
6
PM L= 7
5
4
PM L = 3
19
70
19
72
19
74
19
76
19
78
19
80
19
82
19
84
19
86
19
88
19
90
19
92
VARIABLE VENTAS
9
TIEMPO
312
Cátedra I Estadística II
Autor I Rosanna Casini
4.2. Suavizado exponencial
El Método de suavizado exponencial es uno de los casos especiales de modelos de
promedios móviles integrados autorregresivos designados como ARIMA y desarrollados
por Box y Jenkins, modelos que no desarrollamos en este curso, por corresponder a un
nivel más avanzado del estudio de series temporales.
El suavizado exponencial consiste en suavizar los valores de la variable mediante un
promedio móvil con ponderación exponencial a través de la serie de tiempo.
Es aconsejable en series de comportamiento llamado estacionario, lo que significa una
serie con tendencia estable y confusa a largo plazo.
Respecto del método de promedios móviles, el suavizado exponencial toma en cuenta
para cada cálculo o pronóstico todos los valores de la serie correspondientes a
períodos anteriores, ponderando con mayor peso los períodos más recientes7/.
La expresión analítica de la función que permite obtener un valor para el período
i-ésimo, es:
Ei = WYi + (1 – W)Ei-1
(4)
Donde:
Ei
Ei-1
Yi
W
:
:
:
:
valor de la serie suavizada exponencialmente para el período i-ésimo
valor de la serie suavizada exponencialmente para el período i-1
valor observado de la serie de tiempo en el período i
coeficiente de suavizado.
El coeficiente de suavizado, W, se selecciona subjetivamente y asume un valor entre
cero y uno, indicándose empíricamente la conveniencia de valores cercanos a cero
para suavizar series en las que se pretende eliminar el efecto del componente cíclico, y
cercanos a uno si se pretende pronosticar.
Continuando con el ejemplo anterior de las ventas de fábrica de Tabla 16, aplicando el procedimiento mencionado obtenemos los resultados que se transcriben
en la Tabla 18.
Tabla 18:
7/
Año
Ventas de
fábrica
S. Exp
(w=0,75)
S. Exp
(w=0,50)
S. Exp
(w=0,25)
1970
5,3
5,30
5,30
5,30
1971
7,8
7,18
6,55
5,93
1972
7,8
7,64
7,18
6,39
1973
8,7
8,44
7,94
6,97
1974
6,7
7,13
7,32
6,90
1975
6,6
6,73
6,96
6,83
1976
8,6
8,13
7,78
7,27
1977
9,1
8,86
8,44
7,73
1978
9,5
9,34
8,97
8,17
1979
9,0
9,08
8,98
8,38
1980
7,1
7,60
8,04
8,06
1981
6,8
7,00
7,42
7,74
1982
6,2
6,40
6,81
7,36
Revisar: M. Berenson, D. Levine T. Krehbiel. Cap. 11, pag. 602.
313
Cátedra I Estadística II
Autor I Rosanna Casini
1983
7,8
7,45
7,31
7,47
1984
8,3
8,09
7,80
7,68
1985
9,3
9,00
8,55
8,08
1986
8,6
8,70
8,58
8,21
1987
7,8
8,02
8,19
8,11
1988
8,1
8,08
8,14
8,11
1989
7,9
7,95
8,02
8,05
1990
7,5
7,61
7,76
7,92
1991
7,0
7,15
7,38
7,69
1992
7,2
7,19
7,29
7,57
Aplicando la fórmula (4)
E1971 = (0,75) (7,8) + (1 – 0,75) ( 5,3 ) = 7,18
E1972 = (0,75) (7,8) + (1 – 0,75) (7,18) = 7,64
E1971 = (0,50) (7,8) + (1 – 0,50) (5,3 ) = 6,55
E1972 = (0,50) (7,8) + (1 – 0,50) (6,55) = 7,18
Las poligonales correspondientes a los valores suavizados de la variable se muestran en el gráfico de Figura 9, donde visualizamos que la mejor aproximación se
logra para W = 0,75.
Figura 9:
VENTAS DE
FÁBRICA
VENTAS DE FÁBRICA. MÉTDOD DE SUAVIZADO EXPONENCIAL
S. EXP. ( W = 0,75)
10
S. EXP (W = 0,50)
VENTAS
9
S. EXP. (W = 0,25)
8
7
6
5
92
19
90
19
88
19
86
19
84
19
82
19
80
19
78
19
76
19
74
19
72
19
19
70
4
TIEMPO
Observamos que una mayor aproximación se logra con W = 0,75, no obstante es
bueno determinar el valor de los residuos, es decir la diferencia entre los valores
reales y los pronosticados por el método, concluyendo que el mejor suavizado es
el que produce menores valores residuales.
Se suelen promediar los valores absolutos de estos residuos, con lo cual se obtiene
una medida de la “bondad” del suavizado independiente del número de datos
utilizados, y que permite comparar diversos métodos de suavizado de series.
314
Cátedra I Estadística II
Autor I Rosanna Casini
Actividad 9:
A continuación se muestra una serie referida al número de empleados (en
miles) de una compañía petrolera:
Número de
empleados
1,45
1,55
1,61
1,60
1,74
1,92
1,95
2,04
2,06
1,80
Año
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
Número de
empleados
1,73
1,77
1,90
1,82
1,65
1,73
1,88
2,00
2,08
1,88
Año
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
a) Ajuste un promedio móvil de 3 años y de 7 años a estos datos.
b) ¿Cuál de los dos suavizados ajusta mejor los datos y por qué?
Media Movil
de 3 años
Número de empleados
2,11
1,94
1,76
1,59
1,42
0
3
5
8
11
13
16
18
21
Caso
Serie original
Media Movil
de 7 años
2,11
Número de empleados
Serie suavizada
1,94
1,76
1,59
1,42
0
3
6
9
12
15
18
Caso
Serie original
315
Serie suavizada
21
Cátedra I Estadística II
Autor I Rosanna Casini
Se sugiere resolver los siguientes Ejercicios del libro de Berenson, Levine y Krehbiel8/:
Actividad 10:
Los siguientes datos representan la mediana del ingreso de las familias en
Estados Unidos (en dólares constantes de 1996) para todas las razas, blancos,
negros e hispanos, durante un periodo de 17 años, de 1980 a 1996.
Mediana del ingreso familiar (en dólares constantes de 1996)
en EUA (1980-1996)
Año
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
Todas las Razas
33,763
33,215
33,105
32,900
33,849
34,439
35,642
35,994
36,108
36,575
35,945
34,705
34,261
33,922
34,158
35,082
35,492
Blancos
35,620
35,094
34,657
34,502
35,709
36,320
37,471
37,924
38,172
38,473
37,492
36,367
36,020
35,788
36,026
36,822
37,161
Negros
20,521
19,693
19,642
19,579
20,343
21,609
21,588
21,646
21,760
22,881
22,420
21,665
20,974
21,209
22,261
23,054
23,482
Hispanos
26,025
26,643
24,910
25,057
25,660
25,467
26,272
26,706
27,002
27,737
26,806
26,140
25,271
24,850
24,796
23,535
24,906
Fuente: Statistical Abstract of the United States, 118a. Ed., 1996, U.S. Department of
Commerce, Bureau of Census, 468.
Conteste lo siguiente para cada uno de los cuatro conjuntos de datos (todas las
razas, blancos, negros e hispanos).
(a) Grafique los datos en un diagrama.
(b) Ajuste un promedio móvil de 3 años a los datos y grafique los resultados en
el diagrama.
(c) Utilice un coeficiente de suavización W = 0.50, aplique la suavización
exponencial a la serie y grafique los resultados en el diagrama.
(d) ¿Cuál es el pronóstico de suavización exponencial para la tendencia en
1997?
(e) Repita (c) con una constante de suavización W = 0.25.
(f) A partir de los resultados de (e), ¿cuál es el pronóstico de suavización
exponencial para la tendencia en 1997?
(g) Compare los resultados de (d) y (f).
(h) Vaya a la biblioteca y registre el valor real para 1997 de una tabla
disponible del U.S. Department of Comerse. Compare los datos obtenidos
con el pronóstico que hizo en (d) y (f). Analice.
(i) ¿Qué conclusiones obtiene respecto a la tendencia en la mediana del
ingreso familiar para cada uno de los tres grupos y todas las razas
combinadas para el período de 1980 a 1996?
Actividad 11:
Por más de una década, Nuevo México ha tenido el superávit más alto en la
balanza de pagos per cápita que cualquier otro estado en el país. Esto se ha
logrado gracias a que el estado recibe un fondo de gobierno de alto nivel a
través de programas patrocinados principalmente por el Department of
Defense, el Department of the Interior y el Department of Transportation.
Además, los pagos de impuestos federales per cápita de los residentes de Nuevo
8/
M. Berenson, D. Levine T. Krehbiel. Cap. 11, pág. 606: 608.
316
Cátedra I Estadística II
Autor I Rosanna Casini
México son mucho más bajos que el promedio. Los siguientes datos te
presentan la balanza de pagos per cápita (en dólares constantes de 1995), es
decir, la diferencia entre el gasto federal per cápita en Nuevo México y los
pagos federales per cápita del estado durante el periodo de 15 años, de 1981 a
1995.
Balanza de pagos per cápita en Nuevo México
(en dólares constantes de 1995) para 1981-1995
Año fiscal
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
Balanza de pagos
per cápita
(en dólares)
2,961
2,913
2,426
2,881
2,919
3,218
3,322
4,336
3,496
3,545
3,462
3,632
3,709
3,343
3,300
Gasto Federal
per cápita
(en dólares)
6,212
5,983
5,853
6,309
6,414
6,670
6,635
7,461
6,578
6,653
6,739
7,079
7,272
6,915
6,935
Impuestos federales
per cápita
(en dólares)
3,251
3,069
3,427
3,428
3,495
3,452
3,313
3,125
3,083
3,108
3,277
3,447
3,563
3,572
3,635
Fuente: D. P. Moynihan, M. E. Friar, H. B. Leonard y J. H. Walder, The Federal Budget
and the States: Fiscal Year 1995, publicación conjunta de The John F. Kennedy
School of Govermment, Harvard University y the Office of Senator Daniel
Patgrick Moyniham, 30 de septiembre de 1996, 73.
Conteste lo siguiente para cada una de las tres series de tiempo:
(a) Grafique los datos en un diagrama.
(b) Ajuste un promedio móvil de 3 años a los datos y grafique los resultados en
el diagrama.
(c) Utilice un coeficiente de suavización W = 0.50, aplique la suavización
exponencial a la serie y grafique los resultados en el diagrama.
(d) ¿Cuál es el pronóstico de suavización exponencial para la tendencia en
1996?
(e) Repita (c) con un coeficiente de suavización W = 0.25.
(f) A partir de los resultados de (e), ¿cuál es el pronóstico de suavización
exponencial para la tendencia en 1996?
(g) Compare los resultados de (d) y (f).
(h) Vaya a la biblioteca y registre el valor de 1996 de alguna tabla disponible.
Compare ese valor con los pronósticos hechos en (d) y (f). Analice.
(i) ¿Qué conclusiones puede obtener respecto al gasto federal, los impuestos
federales y la balanza de pagos per cápita en Nuevo México entre 1981 y
1995?
Esta metodología de análisis de series temporales forma parte de los modelos
desarrollados por Box y Jenkins (1970) ya citados, para explicar la estructura y prever
la evolución de una serie que observamos a lo largo del tiempo.
La variable de interés puede ser de diferente tipo es decir, macroeconómica, microeconómica, física o social; el tema es construir un modelo útil para pronosticar valores
de la serie con el mínimo error posible.
317
Cátedra I Estadística II
Autor I Rosanna Casini
De esta forma los modelos se clasifican en univariables o de regresión dinámica,
los primeros se basan en la idea de que las condiciones futuras serán análogas a las
pasadas y son utilizados para pronosticar valores en corto plazo, mientras que los
modelos de regresión dinámica consideran la evolución de otras variables relacionadas
con la que se pretende prever.
En el enfoque UNIVARIABLE, los modelos desarrollados por los autores antes
mencionados, son AR (autorregresivo), ARMA (autorregresivo de media móvil),
ARIMA (autorregresivo integrado de media móvil), entre otros.
No abordaremos los dos últimos modelos citados precedentemente, por no responder
a las expectativas de este curso y debido a la complejidad de los mismos en el
tratamiento matemático de las funciones, mientras que, a continuación analizaremos
el modelo autorregresivo.
Modelos autorregresivos
Estos modelos surgen de imponer una dependencia lineal entre las variables del
proceso, similar a una ecuación de regresión, pero tomando como variable
independiente la misma Y solo que “rezagada” en uno o más períodos.
Observen la diferencia con los modelos de ajuste planteados al comienzo de este
capítulo, donde la dependencia se establece entre la variable tiempo (x) y la variable
de interés (Y); ahora la variable dependiente es la misma Y rezagada, se está
suponiendo que el comportamiento de la variable de interés en los períodos anteriores
permite predecir lo que sucederá con ella en el futuro.
La forma de dependencia más simple es relacionar Yi con Yi-1, linealmente mediante
la ecuación de autorregresión:
Yi = A 0 + A1Yi − 1 + δi
donde A0 y A1 son constantes a determinar y δi es un residuo análogo al error de
regresión (con distribución normal, E( δi )=0, V( δi )= σ 2 , constante y Cov( δi , δi + k )=0).
Este proceso lo denominamos autorregresivo de orden uno, representado como AR(1).
Ahora bien, si relacionamos los valores con dos períodos de separación, tendremos un
autoregresivo de orden dos, AR(2) y así sucesivamente podemos formar autorregresivos de orden p imponiendo la correlación entre los valores de la serie de tiempo con
p períodos de separación.
El modelo es:
Yi = A 0 + A1Yi − 1 + ... + ApYi − p + δi
Los parámetros Aj para j = 0, ..., p son estimados por aj para j = 0, ..., p, por lo tanto
el modelo ajustado es:
ˆi = a 0 + a1Yi − 1 + ... + apYi − p + δi
Y
Desarrollemos el siguiente ejemplo:
Considerando los datos de la Tabla 16, calculamos el valor real de los valores de
ventas de fábrica utilizando un índice deflactor para calcular el coeficiente de
deflactación. Esto se muestra en la siguiente tabla:
318
Cátedra I Estadística II
Autor I Rosanna Casini
Tabla 19:
Año
Ventas de fábrica
Coeficiente de
deflactación
Valor real de las
ventas de fábrica
1970
5,3
1,821
9,65
1971
7,8
1,761
13,73
1972
7,8
1,647
12,85
1973
8,7
1,534
13,34
1974
6,7
1,377
9,23
1975
6,6
1,214
8,01
1976
8,6
1,100
9,46
1977
9,1
1,033
9,40
1978
9,5
1,004
9,54
1979
9,0
0,957
8,61
1980
7,1
0,931
6,61
1981
6,8
0,920
6,26
1982
6,2
0,873
5,41
1983
7,8
0,839
6,54
1984
8,3
0,799
6,63
1985
9,3
0,769
7,15
1986
8,6
0,737
6,34
1987
7,8
0,715
5,58
1988
8,1
0,707
5,72
1989
7,9
0,692
5,46
1990
7,5
0,673
5,05
1991
7,0
0,649
4,54
1992
7,2
0,641
4,62
Aplicamos para los datos deflactados de la serie de ventas de fábrica, un modelo
autoregresivo de orden dos9/:
yi = a 0 + a1yi −1 + a 2 yi − 2 + δi
ˆ
Hacemos la regresión considerando los valores de la serie deflactada, como variable dependiente, y los valores de la misma la serie retrasada uno y dos períodos
como variables independientes.
Utilizando la salida de SPSS de Tabla 20, que resulta de procesar los datos mediante una regresión basada en dos períodos de retardo.
La ecuación resultante es:
yˆi = 1, 074 + 0, 861 yi −1 − 0, 0513 yi − 2
El coeficiente de determinación ajustado asume el valor 0.804, lo que muestra un
ajuste bueno, y si analizamos la significancia de cada variable independiente
vemos que la variable correspondiente al segundo retraso no es significativa
para rechazar la hipótesis de que el coeficiente o parámetro de segundo orden
es cero. Esto nos permite eliminar ese retardo y trabajar con un autorregresivo de
orden uno.
9/
Metodología explicada en: Capítulo 11, pág. 630, Estadística para Administración. Berenson,
Levine y Krehbiel. Segunda Edición, Edit. Prentice Hall.
319
Cátedra I Estadística II
Autor I Rosanna Casini
Por otra parte en la prueba F vemos que la hipótesis de que todos los parámetros
o coeficientes Ai, para i = 1, 2. son nulos, es fuertemente rechazada, por lo que
establecemos que la variable “y” puede ser explicada de esta forma.
Tabla 20:
Model Summary
Mo
del
1
R
Adjusted R
Square
,804
R Square
,824
,908a
Std. Error of
the Estimate
1,0964
a. Predictors: (Constant), VALORES2, VALORES1
Coefficients a
Standardize
d
Coefficients
Unstandardized
Coefficients
Model
1
B
1,074
Std. Error
,799
VALORES1
,861
,166
VALORES2
-5,127E-02
,171
(Constant)
Beta
t
1,344
Sig.
,196
,953
5,187
,000
-,055
-,299
,768
a. Dependent Variable: VENTASDE
ANOVAb
Model
1
Regression
Sum of Squares
101,056
Residual
Total
df
2
Mean Square
50,528
21,639
18
1,202
122,696
20
F
42,031
Sig.
,000a
a. Predictors: (Constant), VALORES2, VALORES1
b. Dependent Variable: VENTASDE
Figura 10:
GRÁFICO DE VALORES REALES Y PRONÓSTICO DE
AUTORREGRESIVO DE ORDEN DOS
16
14
VARIABLE
12
10
Valores Deflactados
8
AR(2) PRONÓSTICO
6
4
2
PERÍODO
En la Figura 10 observamos la gráfica del ajuste.
320
23
21
19
17
15
13
11
9
7
5
3
1
0
Cátedra I Estadística II
Autor I Rosanna Casini
Sugerimos resolver los siguientes ejercicios del libro de Berenson, Levine y Krehbiel:
Actividad 12:
Con referencia a los datos de la Actividad 1 que representan los depósitos
totales (en millones de dólares) en J.P. Morgan durante el periodo de 19 años,
de 1979 a 1997:
(a) Ajuste un modelo autorregresivo de tercer orden a los datos de depósitos
totales y pruebe la significancia del parámetro de tercer orden. (Use
α=0.05).
(b) Ajuste un modelo autorregresivo de segundo orden a los datos de depósitos
totales y pruebe la significancia del parámetro de segundo orden. (Use
α=0.05).
(c) Ajuste un modelo aiitorregresivo de primer orden a los datos de depósitos
totales y pruebe la significancia del parámetro de primer orden. (Use
α=0.05).
(d) Si es apropiado, proporcione pronósticos anuales de los depósitos totales
de 1998 a 2001.
Actividad 13:
Con referencia a la Actividad 2 que representa los ingresos operativos netos
actuales (en miles de millones de dólares corrientes) de Coca-Cola Company
durante 24 años, de 1975 a 1998:
(a) Ajuste un modelo autorregresivo de tercer orden a los ingresos actuales y
pruebe la sianificancia del parámetro de tercer orden. (Use α=0.05).
(b) Si es necesario, ajuste un modelo autorregresivo de segundo orden a los
ingresos actuales y pruebe la significancia del parámetro de segundo orden.
(Use α=0.05).
(c) Si es necesario, ajuste un modelo autorregresivo de primer orden a los
ingresos actuales y pruebe la significancia del parámetro de primer orden.
(Use α=0.05).
(d) Si es adecuado, proporcione pronósticos anuales de los ingresos actuales
para 1998 y 2000.
Cuando en una serie se aplican diferentes métodos de análisis debemos seleccionar
aquel que permita un pronóstico más acertado, para ello debemos revisar el comportamiento de los residuos que surgen al aplicar métodos alternativos.
Por ejemplo si a los datos de la serie de ventas reales, le aplicamos el método de
mínimos cuadrados y obtenemos los valores estimados para una función cuadrática, para una exponencial y para un modelo autorregresivo de segundo orden,
podemos realizar comparaciones. Los resultados se muestran en la siguiente tabla:
Tabla 21:
Valor deflactado
9,65
13,73
12,85
13,34
9,23
8,01
9,46
9,40
Pre_cuad
12,58
11,99
11,42
10,87
10,35
9,85
9,37
8,92
321
Pre _ lny
12,10
11,57
11,07
10,58
10,12
9,68
9,26
8,85
Pre_autorr
12,41
11,44
11,91
8,34
7,50
8,81
Cátedra I Estadística II
Autor I Rosanna Casini
9,54
8,61
6,61
6,26
5,41
6,54
6,63
7,15
6,34
5,58
5,72
5,46
5,05
4,54
4,62
8,48
8,07
7,69
7,32
6,98
6,66
6,36
6,08
5,83
5,60
5,39
5,21
5,04
4,90
4,79
8,47
8,10
7,74
7,41
7,08
6,77
6,48
6,19
5,92
5,67
5,42
5,18
4,96
4,74
4,53
8,69
8,81
8,00
6,33
6,12
5,42
6,43
6,45
6,90
6,17
5,56
5,72
5,49
5,14
4,73
Figura 11:
VALORES DE VENTAS DE FÁBRICA DEFLACTADOS
VALORES REALES
DE VENTAS
16
14
VALORES
ESTIMADOS POR
AUTORREG.
12
10
8
VALORES
ESTIMADOS POR
CUADR
6
4
2
0
1 2
-
3 4
5 6
7 8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
VALORES
ESTIMADOS POR
EXPONENCIAL
Calculamos los residuos de la forma vista en el Capítulo anterior, es decir
mediante la diferencia entre el valor observado de “y” y el valor estimado por
la función de ajuste aplicada (modelo). En la siguiente tabla vemos los
residuos para cada función aplicada a la serie de ventas de fábrica:
Tabla 22:
Res_cuad
-2,92
1,75
1,43
2,47
-1,12
-1,84
0,09
0,48
1,05
0,54
-1,07
-1,06
Res_lny
-0,226
0,171
0,149
0,232
-0,092
-0,189
0,022
0,060
0,119
0,062
-0,158
-0,169
322
Res_autorg
0,441
1,903
-2,682
-0,331
1,960
0,587
0,851
-0,197
-1,394
-0,072
Cátedra I Estadística II
Autor I Rosanna Casini
-1,56
-0,11
0,27
1,07
0,51
-0,02
0,33
0,26
0,01
-0,37
-0,168
-0,268
-0,034
0,023
0,144
0,067
-0,015
0,055
0,053
0,019
-0,043
0,019
-0,709
1,126
0,196
0,704
-0,560
-0,587
0,169
-0,256
-0,437
-0,605
-0,107
En la gráfica de los residuos debemos observar un comportamiento aleatorio. Si en
cambio, el comportamiento de los residuos responde a un patrón, ello es un
indicador de que el modelo no es adecuado porque no se han considerado
variaciones debidas a algún factor; por ejemplo, cíclico, estacional, si la serie es de
periodicidad inferior al año, o tendencial para el caso de observar un
comportamiento creciente o decreciente considerablemente marcado.
En las Figuras 12, 13 y 14, observamos el comportamiento de los residuos para los
modelos propuestos en el ejemplo de la serie de ventas de fábrica, donde concluimos que el modelo más adecuado sería el autorregresivo, dado que los residuos de
la Figura 14 muestran un comportamiento aleatorio.
Figura 12:
COMPORTAMIENTO DE LOS RESIDUOS LOGRADOS POR APLICACIÓN DE LA
FUNCIÓN CUADRÁTICA
3
2
1
rescuad
0
0
5
10
15
20
25
-1
-2
-3
-4
Figura 13:
Comportamiento de los residuos función logarítmica
0,300
0,200
0,100
reslny
0,000
-0,100
0
5
10
15
-0,200
-0,300
323
20
25
Cátedra I Estadística II
Autor I Rosanna Casini
Figura 14:
Comportamiento de los residuos del modelo autorregresivo
3,000
Residuos
2,000
1,000
0,000
-1,000
resautorg
0
5
10
15
-2,000
-3,000
Valores predichos
Además del análisis gráfico de los residuos, existen métodos adecuados para realizar
las comparaciones. En caso de tratarse de modelos de regresión, ya hemos visto que
el Coeficiente de Determinación permite comparar la bondad del ajuste (un mayor r2
indica un mejor ajuste de los datos). Cuando se han utilizado otros métodos, a veces
no es posible calcular el coeficiente de determinación, entonces se sugieren otras
medidas para evaluar el ajuste. Veremos algunas de ellas:
a- Suma de cuadrados del error:
SCE = ∑( yi − yˆi ) 2
Para nuestro ejemplo:
SCEfc = 32,51 (Función cuadrática).
SCEfl = 0,38 (Función exponencial).
SCEar = 21,64 (Modelo autorregresivo).
Este método tiene la desventaja de que en caso de existir algunas diferencias importantes, el modelo puede ser desechado por efecto de valores individuales, lo que se
observa en el ejemplo propuesto para el modelo autorregresivo donde por el efecto
individual de pocos valores muy diferentes la suma de cuadrados asume un valor alto
y hace que el modelo no sea considerado adecuado, no obstante es una medida que
asume valor cero si el ajuste es perfecto y se aleja de esta cifra en la medida que el
modelo no se aproxima a los valores reales. También es viable hacer un análisis desde
esta perspectiva mediante el coeficiente de determinación general, tal como mencionamos más arriba.
b- Desviación absoluta media:
n
DAM =
∑ yi − yˆi
i =1
n
Para los datos del ejemplo analizado, los valores de la DAM se muestran en la
Tabla 23:
Tabla 23:
Dam para la función
cuadrática
Dam para la función
exponencial
Dam para el modelo
autorregresivo
0,891
0,1039
0,7508
324
Cátedra I Estadística II
Autor I Rosanna Casini
Esta medida asume valor cero si el modelo ajusta perfectamente y las diferencias
entre los valores reales de la variable “y” y los estimados por el modelo no existen y
asume valores altos en la medida que las diferencias sean importantes. En el análisis
comparativo será mejor modelo el que asegure menor valor para esta medida.
Para el ejemplo el valor más bajo de la DAM le corresponde al modelo autorregresivo.
Esta medida tiene la ventaja de poder aplicarse a cualquier tipo de tratamiento de los
datos (de regresión o suavizados).
c- Principio de Parsimonia:
Este principio establece que debe elegirse aquel modelo que permita una mejor interpretación del análisis de datos, es decir, el que sea mas sencillo y adecuado.
Esto significa que, en una comparación de varios modelos, si la diferencia entre la
bondad del ajuste entre algunos de ellos no es muy importante, conviene elegir el más
sencillo.
Con esta idea hemos desarrollado métodos que permiten estudiar una variable a
través del tiempo y mediante un estudio comparativo basado en los residuos hemos
propuesto una forma de seleccionar el más adecuado. Por último, una vez seleccionado el modelo de análisis, este es utilizado para hacer pronósticos de la variable en
función del tiempo, objetivo principal de estudios de esta naturaleza.
325
Descargar