Cátedra I Estadística II Autor I Rosanna Casini Objetivos Se pretende que, después de haber estudiado este Capítulo, el alumno esté en condiciones de: • • • • • • Entender los componentes del método clásico de series de tiempo. Utilizar el método de mínimos cuadrados en series de comportamiento lineal y no lineal. Aislar las componentes del método clásico en series con periodicidad inferior al año. Utilizar los métodos de suavizado exponencial y promedios móviles. Utilizar los modelos autorregresivos. Realizar pronósticos de series de tiempo con diferentes métodos. Contenidos 1. Introducción. 2. La importancia de los pronósticos. 3. Factores componentes del modelo clásico multiplicativo de series de tiempo. 3.1. Ajuste de tendencia y aislamiento de componentes en series de perio dicidad anual: Método de mínimos cuadrados, tendencias no lineales. 3.1.1. Componente tendencial. Método de mínimos cuadrados. 3.1.2. Tendencias no lineales. 3.2. Serie de periodicidad inferior al año. 3.2.1. Componente estacional. 3.2.2. Componente cíclica. 3.2.3. Componente irregular. 4. Suavizado de series temporales anuales. 4.1. Método de promedios móviles. 4.2. Suavizado exponencial. 5. Modelos autorregresivos. 6. Análisis residual. 279 Cátedra I Estadística II Autor I Rosanna Casini 280 Cátedra I Estadística II Autor I Rosanna Casini 1. Introducción En el capítulo anterior, hemos trabajado con modelos de regresión que, entre otras aplicaciones, permiten predecir el comportamiento de una variable (dependiente) en función de otra u otras variables (explicativas o independientes). Existen otros tipos de modelos que persiguen el mismo objetivo: predecir el comportamiento de una variable de interés, pero que en lugar de buscar otra u otras variables que permitan hacerlo, suponen que es la propia “historia” de la variable en estudio la que posibilitará realizar la predicción. Se trata de algo así como pararse en un momento del tiempo (presente) y “mirar hacia atrás” cómo se comportó la variable en cuestión, suponiendo que ese comportamiento en el pasado permitirá predecir adecuadamente lo que ocurrirá en el futuro. Este tipo de análisis se realiza mediante las llamadas series de tiempo, series cronológicas o series temporales. En gran número de situaciones, el análisis de series de tiempo resulta una herramienta útil para la toma de decisiones administrativas. Esta técnica, que como dijimos, permite realizar pronósticos (en particular de negocios) basándose en información histórica y utilizando diversas herramientas desarrolladas en capítulos anteriores; principalmente el análisis de regresión. A continuación se incluyen dos gráficos, uno con datos anuales (Figura 1) y el otro con datos cuatrimestrales (Figura 2), que ilustran cómo suelen presentarse los datos correspondientes a una serie temporal. Figura 1: Evolución de los ingresos por ventas desde 1980 hasta 1999 Evolución de los ingresos por ventas desde 1980 hasta 1999 500 ingreso 400 300 INGRESO (Y) 200 100 0 1 3 5 7 9 11 13 años Figura 2: 281 15 17 19 Cátedra I Estadística II Autor I Rosanna Casini EVOLUCION DELcuatrimestral GASTO CUATRIMESTRAL Evolución del gasto durante tres años gasto DURANTE TRES AÑOS 600 500 400 300 200 100 0 GASTO 1 4 7 10 13 16 19 22 25 28 31 34 cuatrimestre Como se observa en las figuras anteriores, la trayectoria de la serie temporal no es regular, ni es posible, en general, descubrir a simple vista cuál es el comportamiento a largo plazo o sus fluctuaciones en el corto plazo, y por lo tanto, es necesario realizar diversos tipos de tratamientos a los datos de la serie a fin de hacer posible un análisis de su comportamiento y la predicción de su trayectoria en el futuro. Podemos clasificar el tratamiento de las series en: métodos por descomposición, que permiten explicar el comportamiento de la variable con el propósito de proporcionar medios necesarios para predecir sucesos futuros, basándose en las observaciones pasadas y presentes de la misma y, los modelados llamados causales que basándose en características de la variable permiten definir un modelo que reproduce de alguna manera los valores de la serie con el menor error posible y bajo determinadas condiciones estadísticas, con la finalidad de predecir valores futuros de la variable. En este capítulo estudiaremos básicamente los métodos de descomposición (también llamado método clásico) y su aplicación en series de datos anuales y en series con datos de sub-períodos inferiores al año. También estudiaremos algunos métodos llamados de “suavizado” como los de promedios móviles y suavizado exponencial. Por último, y como una breve introducción a otro tipo de modelos de análisis que van más allá del objetivo de este curso, desarrollaremos el análisis de las series mediante algunos modelos autorregresivos y estudiaremos su aplicación para realizar pronósticos. 2. La importancia de los pronósticos Sabemos que las empresas comerciales deben planear ventas, producción, inversión, distribución, entre otras actividades necesarias para su funcionamiento; el gobierno debe planear insumos y gastos para realizar sus funciones rutinarias y para influir en la actividad agregada de modo de asegurar el progreso económico de la nación. Es así que una acción económica o comercial emprendida hoy, se basa en un plan de ayer y en las expectativas de mañana. Los planes para el futuro no pueden hacerse sin pronosticar hechos y las relaciones o efectos que tendrán. Además debemos tener en cuenta que la pronosticación no sólo puede hacerse para una línea determinada de actividad de manera independiente, el pronóstico de un tipo de hecho también puede hacerse sobre la base de otros pronósticos. Por ejemplo una firma individual puede basar su pronóstico de ventas, en el pronóstico de ventas de 282 Cátedra I Estadística II Autor I Rosanna Casini toda la industria; los pronósticos del ingreso nacional son usados por el gobierno para estimar el futuro ingreso fiscal. Hemos afirmado en el párrafo introductorio que uno de los objetivos básicos del análisis de series de tiempo es la pronosticación. Podemos intuir fácilmente que pronosticar es, mucho más que proyectar mecánicamente una serie en el futuro sobre la base de la observación del pasado. Es por ello que un buen pronóstico requiere una combinación de teoría económica, conocimientos estadísticos y familiaridad con información relevante. De esta forma el método analítico de pronósticos supone el análisis detallado de fuerzas causales que operan sobre la variable que se predice, lo que implica adoptar el tratamiento que permita lograr el objetivo antes mencionado. Los métodos que aquí estudiamos para pronosticar los valores futuros de una serie temporal, suelen complementarse con otro tipo de enfoques, tales como el método de escenarios, la consulta a expertos, entre otros, que van más allá de los objetivos de este curso, pero que los estudiantes pueden consultar para profundizar sus conocimientos al respecto1/. Como dijimos, cuando trabajamos con una variable recopilada a través del tiempo, estamos en presencia de una Serie de Tiempo. Ejemplos de variables de la naturaleza mencionada existen en todas las disciplinas y en particular en el ámbito de las Ciencias Económicas tienen importantes aplicaciones, debido a la necesidad de efectuar pronósticos que permitan organizar actividades o estrategias futuras revisando datos históricos. Uno de los métodos existentes es el clásico, también llamado por descomposición. Lo primero que debemos realizar es el gráfico poligonal para observar el comportamiento de la variable que, seguramente presenta picos u oscilaciones provocadas por el efecto de múltiples factores (Figuras 1 y 2). El método que desarrollamos en esta unidad, se basa en el criterio que los valores de la variable “y” están determinados por el efecto de cuatro componentes denominados: tendencial, estacional, cíclico e irregular. Estos componentes se relacionan matemáticamente mediante un modelo que puede ser aditivo en cuyo caso se supone que hay independencia entre ellos o bien multiplicativo, para el cual se supone que hay interacción o dependencia entre los componentes. Esta situación puede expresarse como: yt = Tt + St + Ct + I t Modelo Aditivo yt = Tt .St .Ct I t Modelo Multiplicativo El significado que se le atribuye a los cuatro componentes está referido a su efecto sobre la variable. Tendencial: Es el componente que determina el comportamiento general de la serie y muestra como la variable evoluciona a través del tiempo. Actúa en períodos largos de 1/ Johnson, G. y Scholes, K.: Dirección Estratégica- Prentice may- Madrid 2001 (Cap. 3). 283 Cátedra I Estadística II Autor I Rosanna Casini tiempo, considerándose en general más de dos años. Por ejemplo si analizamos las ventas de una empresa a través del tiempo, el componente tendencial o tendencia se manifiesta en el comportamiento creciente o decreciente de las ventas en el largo plazo. Estacional: Bajo esta denominación incorporamos aquellas variaciones provocadas por efectos llamados estacionales. es decir aquéllos que se producen en períodos cortos y en forma recurrente año tras año. Se denominan de esta forma porque se lo asocia a las estaciones provocadas por factores climáticos, aunque esto no necesariamente es así para todas las variables. En definitiva la variable presenta un comportamiento en el corto plazo que año tras año se repite en la misma época. Un ejemplo de la incidencia del componente estacional lo observamos en las ventas de artículos de regalería en períodos próximos a las fiestas navideñas en países con predominio de religión católica. Cuando las fluctuaciones son regulares, pero se repiten con una periodicidad mayor que un año, se incluyen dentro del componente cíclico que se define a continuación. Cíclico: Incluye el efecto de los factores que generan cambios en períodos largos y suele asociarse con los ciclos económicos. Se considera que los cambios observados en los ciclos responden a cuatro etapas: expansión, prosperidad, recesión y depresión. Por ejemplo los ciclos ganaderos. Irregular: Se determina por efecto de todos los factores no considerados anteriormente. Actúa en el corto plazo y puede ser considerado como permanente o excepcional. En el primer caso se trata de variaciones ocurridas en cada momento del tiempo provocadas por múltiples factores no considerados en los demás componentes, pero que casi siempre actúan sobre la variable desviándola de los valores que serían exactamente predecibles si sólo actuaran los otros factores. Es excepcional cuando se trata de aquellas variaciones motivadas por situaciones accidentales o catastróficas imposibles de controlar, tales como, terremotos, inundaciones, etc. Las características más relevantes se resumen en el cuadro siguiente2/: Cuadro 1: Factores de una serie de tiempo Componente Clasificación del ó factor componente Definición Tendencia Patrón de movimiento global. Cambios en tecnología, población, riqueza, valores. Estacional Variaciones recurrentes que ocurren en período inferior a un año. Condiciones climáticas, hábitos y costumbres sociales y o religiosas. Oscilación repetitiva. Interacción de múltiples factores que influyen en la economía. Sistemático Sistemático Sistemático Cíclico Irregular 2/ Razón de influencia No Sistemático Fluctuación residual. Berenson, Levine y Krehbiel (pág. 597). 284 Duración Varios años Largo plazo. Dentro de 12 meses. Con repetición. De 2 a 10 años, con diferente intensidad en un ciclo completo. Situaciones Corta duración. extraordinarias o Sin repetición. cotidianas no provocadas, ni controladas por el hombre. Cátedra I Estadística II Autor I Rosanna Casini 3.1. Ajuste de tendencia y aislamiento de componentes en series con periodicidad anual: Método de mínimos cuadrados, tendencias no lineales En las series anuales como ya hemos mencionado se refleja solamente la influencia de los componentes tendencial y cíclico, quedando como residuo, si estos componentes son aislados, el irregular, ya que los movimientos estacionales requieren la existencia de datos con periodicidad menor al año (mensuales, trimestrales, diarios, etc.). Para su tratamiento sugerimos la consideración de los aspectos que se detallan a continuación: Si la serie está expresada en unidades monetarias es conveniente eliminar el efecto de la inflación, es decir deflactar los valores de la variable para expresarlos en unidades homogéneas. Luego, y esto es válido para cualquier tipo de series, es necesario codificar el tiempo, a fin de que a cada observación le corresponda un número, en general correlativo, lo cual facilitará la realización de operaciones. Los métodos que estudiaremos en este punto se conocen como “métodos de ajuste” de la serie mediante una expresión analítica, y están muy vinculados a los estudiados en el capítulo anterior (Regresión), caracterizándose porque la variable independiente es el tiempo en lugar de cualquier otra variable explicativa. Luego de tratados estos métodos de ajuste, explicaremos los métodos llamados de “suavizado” que persiguen otros objetivos en el análisis de la serie. 3.1.1. Componente tendencial. Método de mínimos cuadrados Para analizar el componente tendencial podemos aplicar el Método de Ajustamiento de Mínimos Cuadrados, mediante el cual se busca la expresión analítica de la función que mejor ajusta a los datos observados, de modo tal que permita minimizar la suma de cuadrados del error. Observando el diagrama de dispersión, encontramos diversos tipos de comportamiento, como ser el que corresponde a una función lineal, cuadrática exponencial o potencial, funciones que en adelante se clasifican en lineal y no lineal. Esos casos, los abordaremos por aplicación del Método de Mínimos Cuadrados. Función Lineal: Si de la observación del gráfico se sugiere un comportamiento lineal de la tendencia en el largo plazo, es posible con el mismo planteo del capítulo anterior, sugerir que los valores de y en cada momento t son una función lineal de x (tiempo) más una componente aleatoria que resume el resto de los componentes. yt = β o + β1 x + ε t Aplicando el método de mínimos cuadrados, se puede obtener la “recta estimada”: yˆt = b0 + b1 x Los valores de b0 y b1 , tal como se explicara en el capítulo anterior se obtienen a partir de minimizar la suma de cuadrados de los “errores” (desviaciones con respecto a la recta estimada) 285 Cátedra I Estadística II Autor I Rosanna Casini SCE = Σe2 = f(b0, b1) = ∑ ( y i − yˆ i ) 2 ∑ [ yi - (b0 + b1xi)]2 mínimo. mínimo Teniendo en cuenta que una función presenta un mínimo en el punto en que su derivada primera es igual a cero, se trata de encontrar el punto de coordenadas (b0, b1) resolviendo el sistema de dos ecuaciones lineales con dos incógnitas que surge al igualar a cero las derivadas primeras respecto de b0 y b13/. ∂ f(b0, b1)/ ∂ (b0) = -2 [ ∑ yi - nb0 + b1 ∑ xi ] ∂ f(b0, b1)/ ∂ (b1) = -2 [ ∑ yi xi – b0 ∑ xi + b1 ∑ xi2 ] Igualando a 0 las derivadas: -2 [ ∑ yi - nb0 + b1 ∑ xi] = 0 -2 [ ∑ yi xi - b0 ∑ xi + b1 ∑ xi2 ] = 0 De estas ecuaciones, se obtiene el siguiente sistema (haciendo traspaso de términos a fin de que queden todas las incógnitas del mismo lado de las ecuaciones- lado derecho en este caso-): ∑ yi = nb0 + b1 ∑ xi ∑ yi xi = b0 ∑ xi + b1 ∑ xi2 Resolviendo el sistema de dos ecuaciones con dos incógnitas por cualquiera de los métodos conocidos, obtenemos las siguientes fórmulas para calcular el valor de los coeficientes de la ecuación lineal: n b1 = n n i =1 n i =1 n ∑ yi xi − ∑ yi ∑ xi i =1 n n ∑ x −(∑ xi )2 i =1 n ∑ yi 2 i i =1 n ∑ xi bo = i =1 − b1 i =1 n n 3/ (1) (2) La verificación de las condiciones de segundo orden, necesarias para que se trate de un mínimo y no de un máximo las dejamos a cargo del estudiante. 286 Cátedra I Estadística II Autor I Rosanna Casini Veamos el siguiente ejemplo: Una cooperativa de comercialización de un grupo de agricultores quiere medir las variaciones en la cosecha de trigo de sus miembros durante un periodo de 8 años. En Tabla 1 mostramos los datos: Tabla 1: Año X: Años (Codificada)4/ 1979 1980 1981 1982 1983 1984 1985 1986 Total -7 -5 -3 -1 1 3 5 7 Y: Cosecha Tn (x 10000) 7,5 7,8 8,2 8,2 8,4 8,5 8,7 9,1 66,4 En la Tabla 2 mostramos las columnas con los cálculos necesarios para aplicar las fórmulas de cálculo de los coeficientes: 4/ Este ejemplo fue desarrollado con esta codificación ordenada cada dos códigos desde -7 a 7. Habitualmente se codifica de 1 en adelante pero el tratamiento es equivalente. 287 Cátedra I Estadística II Autor I Rosanna Casini Tabla 2: Año 1979 1980 1981 1982 1983 1984 1985 1986 Total X: Años (Codificada) -7 -5 -3 -1 1 3 5 7 Y: Cosecha Tn (x 10000) 7,5 7,8 8,2 8,2 8,4 8,5 8,7 9,1 66,4 X2 XY 49 25 9 1 1 9 25 49 168 -52,5 -39 -24,6 -8,2 8,4 25,5 43,5 63,7 16,8 Reemplazando en las fórmulas (1) y (2), la ecuación de la recta resulta: yˆt = 7, 4 + 0, 2 xt La Tabla 3, contiene los datos procesados con SPSS de donde obtenemos los coeficientes de la ecuación, b0 y b1. Tabla 3: b0 Mod el 1 Coefficients a Unstandardized Coefficients (Constant) TIEMPO CODIFICADO B 7,400 Std. Error ,090 ,200 ,018 Standardi zed Coefficien ts Beta ,977 t 82,246 Sig. ,000 11,225 ,000 a. Dependent Variable: VAR00002 b1 r Para evaluar la “bondad” del ajuste lineal, lo cual permitirá conocer la confianza que nos inspira el modelo lineal planteado para estudiar el componente tendencial, es posible recurrir, al igual que en el caso de la regresión estudiado en el Capítulo anterior, al coeficiente de determinación general (r2), que para nuestro ejemplo, es igual a 0,9545. Con este valor, es posible afirmar que la ecuación lineal representa adecuadamente el componente tendencial de esta serie. En otros términos el volumen de trigo cosechado tiene un comportamiento lineal a través del tiempo. Recordemos que la fórmula del coeficiente de determinación general es: r2 = 1− ∑ (yi − yˆ i ) 2 ∑ (yi − yi ) 2 288 (3) Cátedra I Estadística II Autor I Rosanna Casini Obtenemos r2 mediante aplicación de la fórmula (3), o bien observando los valores procesados en Tabla 2. Los valores estimados de y, simbolizados como ŷ , los obtendremos reemplazando en la ecuación: yˆt = 7, 4 + 0, 2 xt , x t por los valores de la variable tiempo codificada, los resultados son mostrados en Tabla 4. En la Figura 3 observamos el comportamiento de la variable en un gráfico de línea o poligonal que contiene la función lineal resultante del ajuste que realizamos aplicando el Método de Mínimos Cuadrados, y los valores de la variable cosecha de trigo en toneladas realmente relevados. Figura 3: Evolución de la cosecha de trigo en valores reales y ajustados 9,5 9 8,5 Cosecha Ajuste lineal 8 7,5 7 1 2 3 4 5 6 7 8 3.1.2. Tendencias no lineales Si el gráfico sugiere que la tendencia puede ser de un tipo no lineal, existen varias alternativas de ajuste. Por ejemplo, puede tratarse de una forma similar a un polinomio de segundo grado, a una curva exponencial, logarítmica u otra. Analizaremos los casos de función polinómica de segundo grado y de una exponencial. Una función polinómica de segundo grado es de la forma: ŷ = b0 + b1x + b 2 x 2 Donde: b0 : Intersección estimada con el eje y b1 : efecto lineal estimado sobre y b2 : efecto curvilíneo estimado sobre y Aplicando el método de mínimos cuadrados igual que en el caso lineal (solo que ahora hay que estimar tres parámetros): 289 Cátedra I Estadística II Autor I Rosanna Casini ∑n y = nb + b ∑n x + b ∑n x 2 o i i 1 2 i =1 i i =1 i =1 n n n n 2 3 ∑ yi xi = bo ∑ xi + b1 ∑ xi + b2 ∑ xi i =1 i =1 i =1 i =1 ∑n y x 2 = b ∑n x 2 + b ∑n x 3 + b ∑n x 4 o i 1 u 2 i i =1 i i i =1 i =1 i =1 Resolviendo el sistema por cualquiera de los métodos conocidos para ello, obtenemos los coeficientes de la ecuación cuadrática. (No es necesario que el estudiante memorice las fórmulas, debe saber aplicarlas o interpretarlas a partir de una salida de computadora). Para el tratamiento con un paquete estadístico, este modelo debe ser considerado como una regresión múltiple en el que y es la variable dependiente, x una variable independiente y x2 otra variable independiente, tal como se observa en el ejemplo que sigue. Los valores hipotéticos del Ingreso Anual de una importante empresa de producción y venta de bebidas gaseosas, en los últimos 20 años se transcriben en la Tabla 4. Tabla 4: Ingreso deflactado a precios de 1990 Código 1 2 3 4 5 6 7 8 9 10 11 Tiempo (X) 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Ingreso (Y) 255 189 278 289 299 356 389 295 287 299 320 Código 12 13 14 15 16 17 18 19 20 Tiempo (X) 1991 1992 1993 1994 1995 1996 1997 1998 1999 Ingreso (Y) 325 328 338 359 324 316 387 298 278 La salida de computación para la función cuadrática se muestra en la Tabla 5. Tabla 5: COEFICIENTES Unstandardized Coefficients Model 1 (Constant) CÓDIGO DE X XCUAD B 219,771 Std. Error 27,369 18,396 -,714 Sig. 8,030 ,000 6,002 3,065 ,007 ,278 -2,572 ,020 La función cuadrática es: ŷ = 219, 77 + 18, 40x − 0, 71 x 2 290 t Cátedra I Estadística II Autor I Rosanna Casini La gráfica del ajuste se muestra en la Figura 4 que se transcribe después de realizar el ajuste exponencial a los datos del ingreso. Reemplazamos por los valores de “x” y, el cuadrado de “x” en la función cuadrática obteniendo los valores estimados de “ ŷ ”, para calcular por diferencia el residuo o error. La variable error, como se analizó en la unidad de regresión, es útil para calcular el error estándar estimado y el coeficiente de determinación r2 y de esa forma analizar la bondad del ajuste realizado con la función cuadrática. La salida de computación para el análisis mencionado se encuentra en la Tabla 6. Tabla 6: Model Summary b Model 1 R ,648a R Square ,420 Adjusted R Square ,351 Std. Error of the Estimate 36,7872 a. Predictors: (Constant), XCUAD, CÓDIGO DE X b. Dependent Variable: INGRESO 1980 - 1999 Observando la salida de SPSS, el Coeficiente de determinación general es 0,42 por lo que interpretamos que el ajuste es relativamente bueno. Función exponencial: Si el comportamiento de la serie muestra una tendencia exponencial en su evolución, es posible aplicar este tipo de modelos, donde la función tiene la característica que, al tomar logaritmos en ambos miembros, toma la estructura lineal, lo que hace su tratamiento similar al caso lineal ya visto. A fin de ejemplificar este comportamiento: Continuando con el análisis de la variable ingreso que se muestra en la Tabla 4 hemos codificado “la variable x” con numeración correlativa, tomamos el logaritmo de la función y aplicamos propiedades, quedando la función exponencial y su linealización de la siguiente forma: ˆ y = b 0 b 1x lnˆ y = lnb 0 + xlnb 1 ˆ y ' = b '0 + b1' x En la función vemos que la variable dependiente es el logaritmo de la variable ingreso, simbolizada como “ ŷ' ” y los coeficientes b’0 y b’1 son los logaritmos de los coeficientes de la función exponencial. Luego, ajustamos la función lineal por el Método de Mínimos Cuadrados antes descripto, y por último, tomamos el antilogaritmo de los coeficientes de la ecuación lineal con lo que obtenemos la función exponencial definida al comienzo. En el ejemplo se tomó el logaritmo natural de la variable ingreso, lo que se observa en Tabla 7. 291 Cátedra I Estadística II Autor I Rosanna Casini Tabla 7: Cod. 1 2 3 4 5 6 7 8 9 10 Ln (Y) 5.54 5.24 5.63 5.67 5.70 5.87 5.96 5.69 5.66 5.70 Cod. 11 12 13 14 15 16 17 18 19 20 Ln (Y) 5.77 5.78 5.79 5.82 5.88 5.78 5.76 5.96 5.70 5.63 La ecuación resultante del ajuste realizado por MC, es: ln (y) = ln (b0) + ln (b1). x ln (y) = 5,597 + 0,01237. x Obtenemos los coeficientes, aplicando las fórmulas (1) y (2). La función exponencial que surge al tomar el antilogaritmo de los valores estimados de b’0 y b’1,, es: ŷ = 269, 6.11, 01x La salida de computación que mostramos en Tabla 8 contiene el análisis de correlación y los coeficientes de la ecuación lineal. Tabla 8: Model Summary b Model 1 R ,460a Adjusted R Square ,168 R Square ,212 Std. Error of the Estimate ,1450 a. Predictors: (Constant), CÓDIGO DE X b. Dependent Variable: LNING Unstandardized Coefficients Model 1 (Constant) CÓDIGO DE X B 5,597 Std. Error ,067 t 83,120 1,237E-02 ,006 2,201 Sig. ,000 ,041 El coeficiente de determinación r2 = 0,21 indica que el ajuste es malo, comparativamente para estos datos, ajusta con menor margen de error la función cuadrática. Resumiendo los resultados de los ajustes cuadrático y exponencial para los datos de ingreso en Tablas 9 y 10, concluimos que, de las funciones aplicadas para el ajuste, la mejor es la Función Cuadrática, no obstante, sería conveniente aplicar otros métodos para lograr un modelo que reproduzca aún mas los verdaderos valores de la variable, es decir un modelo que asegure menores residuos (Diferencia entre los valores observados y los estimados por la función). 292 Cátedra I Estadística II Autor I Rosanna Casini En Tabla 10 transcribimos el valor estimado de la variable ingreso calculada con la Función Cuadrática, en la tercer columna de la tabla y tomando el antilogaritmo de ŷ , en la columna 5, mostramos el valor estimado de la variable ingreso por aplicación de la Función Exponencial. También en columnas 4 y 6 visualizamos los residuos para ambas funciones. Tabla 9: r2 0.41 0.21 Función Cuadrática Exponencial Tabla 10: (1) Código De x (3) (2) Ingreso y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ŷ (4) y − yˆ Función Función cuadrática 237,45 253,71 268,53 281,93 293,90 304,44 313,55 321,23 327,49 332,32 335,72 337,69 338,23 337,34 335,03 331,29 326,12 319,52 311,49 302,04 255 189 278 289 299 356 389 295 287 299 320 325 328 338 359 324 316 387 298 278 (5) cuadrática 17,55 -64,71 9,47 7,07 5,10 51,56 75,45 -26,23 -40,49 -33,32 -15,72 -12,69 -10,23 0,66 23,97 -7,29 -10,12 67,48 -13,49 -24,04 ŷ Función exponencial 272,92 276,32 279,76 283,24 286,77 290,34 293,95 297,61 301,31 305,06 308,86 312,70 316,60 320,54 324,53 328,56 332,65 336,79 340,99 345,23 (6) Residuos y − yˆ Función exponencial -17,92 -87,32 -1,76 5,76 12,23 65,66 95,05 -2,61 -14,31 -6,06 11,14 12,30 11,40 17,46 34,47 -4,56 -16,65 50,21 -42,99 -67,23 Figura 4: Evolución del ingreso desde 1980 hasta 1999 - Valores reales, ajuste cuadrático y exponencial INGRESO (1980 - 1999) 450 350 Serie1 300 Serie3 250 Serie4 200 150 TIEMPO CODIFICADO 293 19 17 15 13 11 9 7 5 3 100 1 INGRESO 400 Cátedra I Estadística II Autor I Rosanna Casini Si observamos el gráfico de la Figura 4, vemos que la serie presenta un comportamiento con tendencia no marcada, y ciertos picos u oscilaciones que hacen difícil la reproducción de sus valores de modo que se logre bajo error con funciones del tipo utilizado para el ejemplo, precisamente en los picos el error o residuo es considerablemente importante. Esto nos permite concluir que para esta serie es necesario aplicar otros métodos, por ejemplo modelos autorregresivos o de promedios móviles. Se sugiere resolver las siguientes actividades que fueron tomadas del libro de Berenson, Levine y Krehbiel: Actividad 1: Los siguientes datos representan los depósitos totales (en millones de dólares) para uno de los bancos más grandes de Estados Unidos, J.P. Morgan, durante un período de 19 años de 1979 a 1997. Depósitos totales (en millones de dólares) para J.P Morgan (1979-1997) Año Depósitos Año Depósitos 1979 30,279 1989 39,158 1980 35,594 1990 37,557 1981 36,024 1991 36,976 1982 37,910 1992 32,519 1983 38,070 1993 40,402 1984 38,760 1994 43,085 1985 39,845 1995 46,438 1986 42,960 1996 52,724 1987 43,987 1997 58,879 1988 42,469 Fuente: Moody's Handbook of Common Stocks, 1989, 1998. (a) Grafique los datos en un diagrama. (b) Asuste una ecuación de tendencia lineal a estos datos y grafique los resultados en el diagrama. (c) Ajuste una ecuación de tendencia cuadrática a estos datos y grafique los resultados en el diagrama. (d) Ajuste una ecuación de tendencia exponencial a estos datos y grafique los resultados en el diagrama. (e) ¿Qué modelo parece el más adecuado? Actividad 2: Los datos de la siguiente tabla representan los ingresos de operación netos anuales reales (en miles de millones de dólares corrientes) de Coca-Cola Company durante un periodo de 24 años, de 1975 a 1998. Ingresos de operación reales de Coca-Cola Company (1975-1998) Año 1975 1976 1977 1978 1979 1980 1981 1982 Ingresos 2.9 3.1 3.6 4.3 4.5 5.3 5.5 5.9 Año 1983 1984 1985 1986 1987 1988 1989 1990 Ingresos 6.6 7.2 7.9 7.0 7.7 8.3 9.0 10.2 Año 1991 1992 1993 1994 1995 1996 1997 1998 Ingresos 11.6 13.0 14.0 16.2 18.0 18.5 18.9 18.8 Fuente: Moody's Handbook of Common Stocks, 1980, 1989, 1993, 1997. Reimpreso con permiso de Financial Information Services, una división de Financial Comunications Company, Inc. Y Standard and Porr's Corp., Nueva York: MacGraw-Hill, 294 Cátedra I Estadística II Autor I Rosanna Casini Inc., abril de 1999. (a) Grafique los datos en un diagrama. (b) Asuste una ecuación de tendencia cuadrática a estos datos y grafique los resultados en el diagrama. (c) ¿Cuáles son los pronósticos de tendencia para 1999 y 2000? (d) Forme una nueva tabla de “ingresos operativos ajustados” (es decir, actuales) multiplicando cada ingreso real por la cantidad 100.0 , obtenida de los IPC valores correspondientes del IPC desplegado en el problema 11.12 de la página 619 del libro de Berenson, Levine y Krehbiel. Estos ingresos operativos actuales están en miles de millones de dólares corrientes de 1982 a 1984. (e) Grafique la serie de datos revisados en un diagrama. (f) Ajuste una ecuación de tendencia exponencial a estos datos y grafique los resultados en el diagrama. (g) Ajuste una ecuación de tendencia cuadrática a estos datos y grafique los resultados en el diagrama. (h) Ajuste una ecuación de tendencia exponencial a estos datos y grafique los resultados en el diagrama. (i) Utilice los modelos ajustados en (f), (g) y (h); ¿cuáles son los pronósticos de tendencia anual de los ingresos operativos actuales para 1999 y 2000? (j) Compare los resultados de los pronósticos en (c) con los obtenidos en (i). Analice. (k) ¿Qué conclusiones se obtienen respecto a las tendencias de los ingresos operativos actuales y reales? 3.2. Serie de periodicidad inferior al año Estas series son formadas por valores de la variable correspondientes a períodos de tiempo inferiores al año, como por ejemplo: datos mensuales, bimestrales, trimestrales, cuatrimestrales o semestrales, o incluso semanales, diarios u horarios (este es el caso de series de consumo de energía para el estudio de las horas pico, etc.). El tratamiento de las mismas en cuanto al componente tendencial es igual que para el caso de la serie anual. Ahora, al considerar períodos cortos, en el comportamiento de la variable influyen los cuatro componentes: tendencial, cíclico, estacional e irregular. Cuando el modelo que se utiliza es el multiplicativo, dado que el producto de los componentes se iguala a los valores observados de la serie, este producto debe estar expresado en las unidades correspondientes (las mismas en que se expresa la variable Y), de manera que si la tendencia se expresa en esas unidades, los demás componentes será índices o coeficientes que modifican el valor de la tendencia. Si así no fuera, estaríamos multiplicando por ejemplo “pesos” (si la variable es monetaria, se trata de los pesos expresados en la tendencia), por “pesos” correspondientes al ciclo, por “pesos” correspondientes al componente estacional y por “pesos”para el irregular y entonces tendríamos pesos a la cuarta potencia). Si en cambio se trata del modelo aditivo, todos los componentes se expresan en las mismas unidades porque se suman (se supone que actúan en forma independiente). Como estamos trabajando con el modelo multiplicativo, y ahora nos ocupamos de series que pueden contener estacionalidad, se trata de estudiar cómo se aísla este componente, que se expresa en índices. Además, explicaremos cómo se obtienen los índices que representan al componente irregular. Además, estudiaremos un tema muy importante cual es la metodología para aplicar los índices estacionales para afectar una variable estimada (incorporar estacionalidad a una predicción) o quitar el efecto estacional sobre la variable observada (desestacionalizar). 295 Cátedra I Estadística II Autor I Rosanna Casini 3.2.1. Componente estacional Para estudiar el componente estacional utilizamos el método de razón a promedio móvil. El fundamento del método se origina en el hecho de que el promedio móvil permite suavizar los picos que se producen en el corto plazo aislando su efecto y generando valores que presentan sólo un comportamiento tendencial. El factor estacional influye en períodos bimestrales, trimestrales, cuatrimestrales o semestrales, provocando oscilaciones en cada sub-período que luego se repiten año tras año. En definitiva, este método basado en el modelo multiplicativo permite determinar los índices que explican aquellas oscilaciones que se producen en el corto plazo. Los pasos a seguir para aplicar el método son: (recomendamos seguir el ejemplo que está planteado a continuación para comprender mejor cada uno de estos pasos) a- Aislar el efecto de los componentes estacional e irregular, mediante los promedios móviles. Los promedios se van tomando de a tantos valores como elementos tiene el sub. período. El primer promedio toma los datos necesarios a partir del primero de la serie, el segundo a partir del segundo, y así sucesivamente. Por ejemplo, si la serie es bimestral se toman promedios de a 6 períodos: del primero al sexto (primer promedio móvil); del segundo al séptimo (segundo promedio móvil) así sucesivamente. Si fuera trimestral se toman promedios de a 4, si es cuatrimestral de a 3. Es decir, el número de datos comprendidos en cada promedio es la cantidad de veces que el sub-período está comprendido en el año. Como se reemplaza cada valor de la variable por un promedio de las observaciones correspondientes a todo un año, naturalmente desaparecen las fluctuaciones estacionales y las irregulares. De manera que logramos una columna con los valores de la variable sin efecto estacional (S), y sin efecto irregular (I), la que puede designarse como T.C, la variable con efecto tendencial y cíclico. Hay un pequeño problema para asignar a qué período corresponde cada uno de los promedios obtenidos: si se trata de un número impar de datos, el promedio se asigna al dato central (por ejemplo si son cuatrimestres, en un año hay tres, y el promedio de los tres primeros cuatrimestres se asigna al segundo). Pero, cuando la serie tiene una cantidad par de elementos en el sub. Período, el promedio no corresponde a ningún período en particular, sino que está ubicado entre dos subperíodos; entonces debemos tomar los promedios móvil “centrados”, esto es, recalcular los promedios móviles tomando de a pares y entonces al centralizar los valores se pueden asignar a un período en particular. b- Obtener el índice de los componentes estacional e irregular mediante el cociente: y x100 = S .I .100 TC Índice que refleja el efecto Estacional e Irregular porque si el modelo original establecía que: yt = Tt .St .Ct I t , al dividir por TC quedan los componentes estacional e irregular (S.I.) que suelen multiplicarse por 100 para que queden expresados como porcentajes. c- Obtener el Índice de Estacionalidad. Para aislar el efecto estacional del irregular, podemos tomar promedio de los índices antes calculados, ordenados por subperíodo de menor a mayor de acuerdo a su magnitud. 296 Cátedra I Estadística II Autor I Rosanna Casini El promedio puede ser la media aritmética, la mediana o la trimedia, según que existan o no valores extremos de la variable. En general se prefiere la mediana, porque la media puede estar afectada por algún valor muy alejado del resto. Esos promedios serían los índices estacionales, porque del producto S.I. hemos eliminado la irregularidad al promediar. Luego, como es deseable que la media anual de todos los índices estacionales sea igual a 100 y si bien al calcular de esta manera los índices la media suele ser cercana a ese valor, se requiere un ajuste para que sea exactamente igual a 100. Para ello, mediante una regla de tres simple se hace igual a 100 la media deseada y se recalcula cada uno de los índices obtenidos anteriormente. Es conveniente graficar mediante una poligonal, los índices de modo que para cada sub-período podamos observar como se producen las variaciones por la influencia del componente Estacional. A continuación desarrollaremos mediante un ejemplo el aislamiento de los cuatro componentes en una serie de periodicidad cuatrimestral. 297 Cátedra I Estadística II Autor I Rosanna Casini Los gastos de la Empresa “Asterisco S.A.” correspondientes a 36 períodos cuatrimestrales y los respectivos códigos se muestran en Tabla 11. Tabla 11: Código Cuatrimestre Gasto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 268 205 198 215 189 142 235 196 165 276 225 189 256 223 203 289 256 225 315 289 245 289 317 287 320 300 276 475 356 300 402 389 346 568 489 356 Realizando la regresión lineal simple entre “el código” y la variable “y”, obtendremos los coeficientes “b0 y b1” de la ecuación de la recta, siendo: 298 Cátedra I Estadística II Autor I Rosanna Casini yˆ = 1 54, 5 5 + 7 , 0 7 x Luego analizaremos el coeficiente de determinación para observar la importancia o magnitud relativa del error en la regresión o ajuste realizado, siendo: r2= 0.64 Lo que significa que el ajuste lineal es bastante bueno para estos datos (en general, cuando se trata de una serie que presenta fluctuaciones estacionales, el ajuste no puede ser muy alto, por los desvíos respecto de la línea estimada de cada observación en particular; por eso decimos que 0,64 es un valor aceptable). Para facilitar la realización de este análisis es conveniente que utilicemos las salidas de computación, por ejemplo EXCEL, lo que mostramos en Tabla 12. No obstante la realización manual de los cálculos es mediante aplicación de las fórmulas (1) ,(2) y (3). Tabla 12: Estadísticas de la regresión Coeficiente de correlación 0,80 Coeficiente de determinación R2 0,64 Error típico 56,75 Observaciones 36,00 Coeficientes Error típicoEstadístico t Probabilidad Intercepción 154,55 19,32 8,00 0,00 Variable X 1 7,07 0,91 7,77 0,00 El gráfico del tendencia estimada para la variable gasto se muestra en Figura 5. Figura 5: CURVA DE REGRESIÓN AJUSTADA 600 500 Y INGRESO (Y) 400 300 Pronóstico para Y 200 100 0 0 5 10 15 20 25 30 35 40 CÓDIGO TIEMPO (X) En Tabla 13 mostramos los cálculos para aislar el componente estacional, que contiene lo siguiente: - Columna 1: el código de la variable tiempo. - Columna 2: el cuatrimestre de cada año. - Columna 3: la variable que se analiza: el Gasto. 299 Cátedra I Estadística II Autor I Rosanna Casini - Columna 4: promedio móvil calculado tomando el valor del gasto de a tres cifras y centralizado en el segundo sub-período. Con esto eliminamos el efecto estacional e irregular quedando TC(efecto tendencial y cíclico). - Columna 5: mediante el cociente de columna 3 y 4, obtenemos la columna 5, donde se observa la tasa de efecto estacional e irregular. - Columna 6: multiplicamos la tasa por cien de modo de obtener el índice que refleja el efecto conjunto de los componentes estacional e irregular. Tabla 13: Code (1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Cuatrimestre (2) 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 Gastos (3) 268 205 198 215 189 142 235 196 165 276 225 189 256 223 203 289 256 225 315 289 245 289 317 287 320 300 276 475 356 300 402 389 346 568 489 356 Prom.Movil: T.C. (4) Tasa: S.I. (5) 223.67 206.00 200.67 182.00 188.67 191.00 198.67 212.33 222.00 230.00 223.33 222.67 227.33 238.33 249.33 256.67 265.33 276.33 283.00 274.33 283.67 297.67 308.00 302.33 298.67 350.33 369.00 377.00 352.67 363.67 379.00 434.33 467.67 471.00 0.9165 0.9612 1.0714 1.0385 0.7527 1.2304 0.9866 0.7771 1.2432 0.9783 0.8463 1.1497 0.9809 0.8517 1.1591 0.9974 0.8480 1.1399 1.0212 0.8931 1.0188 1.0649 0.9318 1.0584 1.0045 0.7878 1.2873 0.9443 0.8507 1.1054 1.0264 0.7966 1.2145 1.0382 SI* 100 (6) 91.65 96.12 107.14 103.85 75.27 123.04 98.66 77.71 124.32 97.83 84.63 114.97 98.09 85.17 115.91 99.74 84.80 113.99 102.12 89.31 101.88 106.49 93.18 105.84 100.45 78.78 128.73 94.43 85.07 110.54 102.64 79.66 121.45 103.82 Por último en Tabla 14, ordenamos los valores de la columna 6 de mayor a menor por cuatrimestre y calculamos la mediana para cada cuatrimestre. Luego ajustamos los valores de la mediana, multiplicando cada valor de la mediana por un coeficiente (300/299,27), a partir de lo cual la suma de los tres cuatrimestres es 300 (o sea la media anual de los tres índices cuatrimestrales es igual a 100). De esta forma hemos construido los índices que muestran el efecto del componente estacional, también llamados Índices de estacionalidad. 300 Cátedra I Estadística II Autor I Rosanna Casini Tabla 14: Cuatrimestre 1 Cuatrimestre 2 91,65 94,43 97,83 98,09 98,66 99,74 100,45 102,12 102,64 103,82 103,85 106,49 100,09 100,14 101,88 105,84 107,14 110,54 113,99 114,97 115,91 121,45 123,04 124,32 128,73 114,97 115,02 Cuatrimestre 3 75.27 77.71 78.78 79.66 84.63 84.80 85.07 85.17 89.31 93.18 96.12 84.80 84.84 MEDIANA S (AJUST) El gráfico de los índices de estacionalidad para cada cuatrimestre se muestra en Figura 6. Figura 6: ÍNDICES DE ESTACIONALIDAD 120 110 ÍNDICE 100 Serie1 90 Serie2 80 70 60 1 2 3 CUATRIMESTRE Los índices de estacionalidad se utilizan en la realización de pronósticos para corregir valores estimados, o bien desestacionalizar valores reales. Por ejemplo, si tomamos el primer cuatrimestre del segundo año, el valor de “y” es 215. - Si pretendemos quitar el efecto estacional haremos lo siguiente: y.100/S = 215.100/115.02 = 186.92 Esto es lo que hemos mencionado como desestacionalizar la serie. Puesto que el índice estacional del primer cuatrimestre es mayor que 100, significa que el valor de 215 está “inflado” por el efecto estacional; al quitarlo, dividiendo por el índice, resulta 186.92. 301 Cátedra I Estadística II Autor I Rosanna Casini - Si en cambio, dado que tenemos datos observados correspondientes a 36 cuatrimestres (12 años), supongamos que se quiere “predecir” el valor de y para el siguiente cuatrimestre (primero del año 13). Estimamos ese valor reemplazando en la ecuación de tendencia x por 37: ŷ37 = 154,55 + 7, 07.37 = 416,14 hemos estimado el valor de y sobre la línea de tendencia. Ahora, para aproximarnos a lo que esperamos ocurra en el primer cuatrimestre del año 13, lo afectaremos por estacionalidad; le incorporamos la estacionalidad multiplicando por el índice correspondiente a ese cuatrimestre. Siendo: ŷ37 = 416,14 , el valor afectado por estacionalidad es: ŷ37 .S1/100 = 416,14 . 115, 02/100 = 478, 64 Vemos que el valor estimado utilizando el componente tendencial es corregido por efecto estacional con índice de valor superior a 100 para el primer cuatrimestre, lo que provoca un aumento en el valor estimado y genera un resultado que se espera será más próximo al verdadero valor de “y” en ese período. Esto es afectar por estacionalidad. Observación importante: cuando el número de sub-períodos en el año es par (por ejemplo trimestres que son cuatro, o meses que son 12), antes de calcular la columna 5 de la tabla (tasa SI), es necesario “centrar” los promedios móviles, tal como se explicó más arriba. Esto porque los promedios móviles obtenidos no corresponden a ningún sub-período, sino que se ubican entre dos. Por ejemplo si se promedian los cuatro primeros trimestres, el promedio móvil se ubica entre el segundo y el tercero; el siguiente entre el tercero y el cuarto, y así sucesivamente. Para hacerlos corresponder a un trimestre en particular, se deben promediar de a dos: así el promedio de los dos primeros promedios obtenidos, corresponderá al tercer trimestre, el segundo al cuarto, etc. 3.2.2. Componente cíclico Este componente afecta el comportamiento de la serie en el largo plazo, mostrando el efecto de ciclos atribuidos a la actividad de que se trate, por ejemplo en variables económicas los cambios cíclicos afectan a las variables provocando oscilaciones referidas al momento del proceso, las que generalmente se sintetizan en: depresión, recuperación, prosperidad y contracción. Los ciclos han sido ampliamente estudiados en economía y pueden ser (incluso superponerse) de distinta longitud: ciclos cortos, de dos años, ciclos medios, de cinco o seis años de duración y ciclos largos o aún muy largos de varias decenas de años de duración. Cuando una serie no es muy larga, es posible que el componente cíclico se confunda con la tendencia: un movimiento ascendente de la serie no se sabe si corresponde a una tendencia ascendente o a un período ascendente de un ciclo que luego caerá. Por eso algunos autores llaman al componente “Tendencia-ciclo” y no distinguen entre uno y otro. El método residual permite determinar los índices del componente cíclico. Este método consiste en lo siguiente: 1) En primer lugar deben obtenerse los valores estimados para cada uno de los períodos de la serie, siendo posibles dos situaciones: 302 Cátedra I Estadística II Autor I Rosanna Casini - En datos correspondientes a períodos menores al año, se afecta por estacionalidad y entonces se obtienen los valores estimados con efecto tendencial y estacional: En datos anuales no se requiere afectar por estacionalidad, directamente se trabaja con los valores estimados de la variable “y”: y. ˆ Is =ˆ y t.s 100 2) Se realiza el cociente entre los valores reales (observados) y los estimados (afectados o no por estacionalidad según corresponda) y se multiplica por 100. y y t.s ˆ .100 3) El cociente realizado, incluye los componentes restantes: cíclico e irregular; se toman entonces promedios móviles de 3 ó 5 datos según la cantidad de observaciones de la serie, con lo cual se eliminan las irregularidades de manera que se obtienen los índices del componente cíclico, que luego se utilizan para describir este componente en los períodos estudiados. Esto es así porque siempre al tomar promedios móviles de cualquier longitud, se elimina la componente irregular que actúa por definición solo en el corto plazo. Continuando con los datos del ejemplo anterior, se transcribe en Tabla 15 el cálculo del componente Cíclico para lo cual aplicamos los pasos antes descriptos. Tabla 15: ŷ Gasto Estimado 161.62 168.69 175.76 182.83 189.90 196.97 204.04 211.11 218.18 225.25 232.32 239.39 246.46 253.53 260.60 267.67 274.74 281.81 288.88 295.95 303.02 310.09 317.16 324.23 331.30 338.37 345.44 352.51 359.58 366.65 373.72 ŷTxS Gasto estimado ajustado por estacionalidad y Gastos reales y .100 = CI yˆ t .s C 268 205 198 215 189 142 235 196 165 276 225 189 256 223 203 289 256 225 315 289 245 289 317 287 320 300 276 475 356 300 402 144.17 121.35 132.78 102.24 99.39 84.97 100.13 92.71 89.14 106.53 96.71 93.06 90.31 87.84 91.82 93.87 93.05 94.11 94.80 97.52 95.30 81.03 99.81 104.33 83.98 88.54 94.18 117.15 98.87 96.44 93.52 119.99 108.15 103.90 95.89 93.27 94.70 97.05 95.63 95.15 94.89 91.95 91.38 91.38 92.14 93.53 94.67 94.95 92.55 93.69 95.60 92.89 91.54 94.17 97.63 96.54 99.03 100.03 101.60 99.20 185.90 168.93 149.11 210.29 190.17 167.11 234.69 211.41 185.10 259.08 232.65 203.10 283.48 253.88 221.09 307.87 275.12 239.09 332.27 296.36 257.08 356.67 317.60 275.08 381.06 338.84 293.07 405.46 360.08 311.07 429.85 303 Cátedra I Estadística II Autor I Rosanna Casini 380.79 387.86 394.93 402.00 409.07 381.32 329.06 454.25 402.56 347.05 389 346 568 489 356 102.01 105.15 125.04 121.47 102.58 104.43 109.44 111.25 La gráfica que describe los índices del componente cíclico para el período analizado, se muestra en la Figura 7, en ella vemos que no abarca todas las etapas de un ciclo, podríamos considerar que la Figura muestra las etapas de: contracción, depresión y recuperación, y que para lograr un ciclo completo seguramente requiere de una mayor cantidad de períodos. Podemos concluir que un ciclo puede desarrollarse en forma completa en series de largo plazo, entendiendo por tal más de cuarenta sub-períodos. Figura 7: Grafico del Componente cíclio - Variable Ingreso 140,00 120,00 indices 100,00 80,00 60,00 40,00 20,00 0,00 0 10 20 30 40 período 3.2.3. Componente irregular Este componente se determina por el método residual y luego de aislar las demás. Después de obtener los índices del componente cíclico se realiza el cociente entre los valores C.I./C y se obtiene I. Valor que multiplicado por 100 determina el índice que explica el efecto del componente irregular. El estudio de los efectos irregulares, que no son controlables, requiere de otros métodos que no contemplamos en este curso. Con el método clásico desarrollado en este capítulo, solo estamos en condiciones de aislar cada uno de los componentes y utilizar la tendencia y la estacionalidad para predecir valores futuros de la variable. Otros métodos más avanzados, permiten modelar todos los componentes de la serie y realizar mejores predicciones sobre todo en el corto plazo. Una observación general: es conveniente resolver las actividades de este capítulo utilizando planillas de cálculo (Excel u otra), las que facilitan de manera significativa la resolución de todos los ejercicios. 304 Cátedra I Estadística II Autor I Rosanna Casini Actividad 3: La información que se presenta en el siguiente cuadro corresponde a las ventas trimestrales de una empresa de automóviles, en miles de pesos: Año Trimestre Ventas 1993 III IV 398 352 1994 I II III IV 283 454 392 345 1995 I II III IV 274 392 290 210 1996 I II III IV 218 382 382 340 1997 I II III IV 298 452 423 372 1998 I II III IV 336 468 387 309 1999 I II III IV 264 399 408 396 2000 I II III IV 389 604 579 513 2001 I II 510 661 Ventas trimestrales 684 601 Ventas 518 435 353 270 187 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 Tiempo 305 Cátedra I Estadística II Autor I Rosanna Casini a) ¿Qué tendencia a largo plazo observa en esta serie? Encuentre la recta de tendencia por el método de mínimos cuadrados. b) Calcule los índices estacionales para los cuatro trimestres, y encuentre los valores de Ventas del año 1995 con variación estacional eliminada. c) Calcule las variaciones cíclicas e irregulares. d) Realice una predicción de las Ventas para el año 2002 aplicando la recta de mínimos cuadrados y los índices de estacionalidad. e) Realice un pequeño informe sobre el análisis realizado a los datos. Actividad 4: Las ventas trimestrales, en unidades de producto, de una empresa que vende equipos de computación fueron: Año – Trimestre 1996 – 1997 – 1998 – 1999 – 2000 – 2001 – Unidades vendidas 42 26 37 44 56 44 51 57 43 36 38 45 53 38 46 50 83 64 84 87 97 82 93 99 I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV 306 Cátedra I Estadística II Autor I Rosanna Casini Ventas en unidades 103 Vtas en unidades 89 76 63 49 36 22 1 4 7 10 13 16 19 22 25 Tiempo a) Encuentre la recta de tendencia a largo plazo. b) Determine los índices estacionales para los cuatro trimestres. c) Encuentre los valores de unidades vendidas con las variaciones estacionales eliminadas, para los trimestres de 2001. d) Calcule las variaciones cíclicas e irregulares. e) Determine las ventas trimestrales predichas para 2002, con base en la recta de tendencia y en los índices estacionales Actividad 5: La siguiente tabla muestra información referida a exportaciones de la industria alimentaria durante un período de 7 años (en miles de U$S ): Trimestre Año I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV – – – – – – – – – – – – – – – – – – – – – – – – – – – – Exportaciones 5310 5490 4900 3500 3100 3300 3200 2600 2400 2500 2500 2300 2100 2200 2100 1700 1500 1600 1400 1200 1000 1300 1200 800 600 700 700 400 94 94 94 94 95 95 95 95 96 96 96 96 97 97 97 97 98 98 98 98 99 99 99 99 00 00 00 00 307 Cátedra I Estadística II Autor I Rosanna Casini Exportaciones 5745 Exportaciones 4345 2945 1545 146 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 Tiempo Se proponen tres modelos para reflejar el comportamiento de la variable: 1) Lineal Yt = a + b t Yt = 4474,68 - 156,87 t; R2 = 0,879 2) Cuadrático Yt = a + b t + c t2 Yt = 5291,01 - 320,14 t + 5,63 t2; R2 = 0,938 3) Exponencial Yt = a bt Yt = 5710,28 ( 0,92 )t; R2 = 0,945 a) ¿Cuál de los tres modelos refleja mejor la tendencia a largo plazo de la serie? ¿Por qué? b) Estime la tendencia para el segundo trimestre de 1998. c) Prediga (con tendencia y estacionalidad) las exportaciones para el segundo trimestre del 2001. Utilizando los índices de estacionalidad: I II III IV 90.28 106.23 109.29 94.20 Se sugiere resolver los siguientes ejercicios del libro de Berenson, Levine y Krheibel: Actividad 6: Los datos de la tabla siguiente representan el índice Standard & Poor's de precios de las acciones al final de cada trimestre de 1994 a 1998. Índice trimestral Standard & Poor's para precios de acciones Trimestre 1994 1995 Año 1996 1997 1998 1 445.77 500.71 645.50 757.12 1.101.75 2 444.27 544.75 670.63 885.14 1.133.84 3 462.69 584.41 687.31 947.28 1.017.01 4 459.27 615.93 740.74 970.43 1.229.23 Fuente: Standard & Poor's Current Statistics, enero de 1998, 29. Reimpreso con permiso de Financial Information Services, una división de Financial Communications Company, Inc., y Yahoo.com, 24 de junio de 1999. (a) Grafique los datos en un diagrama. 308 Cátedra I Estadística II Autor I Rosanna Casini (b) Desarrolle una ecuación de tendencia exponencial con componentes trimestrales que represente el modelo multiplicativo clásico de series de tiempo. (1) ¿Cuál es el valor ajustado de la serie en el tercer trimestre de 1998? (2) ¿Cuál es el valor ajustado de la serie en el cuarto trimestre de 1998? (3) ¿Cuáles son los pronósticos para los cuatro trimestres de 1999 y 2000? (4) Interprete la tasa de crecimiento trimestral compuesta. (5) Interprete el "multiplicador" del segundo trimestre. Actividad 7: Los datos en la siguiente tabla son ingresos trimestrales (en millones de dólares) de Toys R Us, del primer trimestre de 1992 al tercer trimestre de 1998. Ingresos trimestrales para Toys R Us en millones de dólares (1992-1998) Trimestre 1992 1993 1994 Año 1995 1996 1997 1998 1 1,026 1,172 1,286 1,462 1,493 1,646 1,924 2 1,056 1,249 1,317 1,452 1,614 1,736 1,989 3 1,182 1,346 1,449 1,631 1,715 1,883 2,142 4 2,861 3,402 3,893 4,200 4,605 4,668 2,861 Fuente: Standard & Poor's Stock Reports, noviembre de 1998. Nueva York: McGraw-Hill, Inc. (a) ¿Cree que los ingresos de Toys R Us están sujetos a una variación estacional? Explique. (b) Grafique los datos en un diagrama. ¿Apoya este diagrama su respuesta en (a)? (c) Desarrolle una ecuación de tendencia exponencial con componentes trimestrales que represente el modelo multiplicativo clásico de series de tiempo. (1) Interprete la tasa de crecimiento trimestral compuesta. (2) Interprete los multiplicadores trimestrales. (3) ¿Cuál es el valor pronosticado para el cuarto trimestre de 1998? (4) ¿Cuáles son los pronósticos para todos los trimestres de 1999? Actividad 8: Los siguientes datos representan los cargos mensuales por tarjetas de crédito (en millones de dólares) para una tarjeta conocida que otorga un gran banco. El nombre no se revela a petición del banco. Cargos por tarjetas de crédito en millones de dólares Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre 1997 31.9 27.0 31.3 31.0 39.4 40.7 42.3 49.5 45.0 50.0 50.9 58.5 Año 1998 39.4 36.2 40.5 44.6 46.8 44.7 52.2 54.0 48.8 55.8 58.7 63.4 1999 45.0 39.6 Fuente: Datos reales recopilado por uno de los autores. (a) Construya una gráfica de la serie de tiempo. (b) Describa el patrón mensual que es evidente en los datos. (c) En general, ¿diría que la cantidad global en dólares que corresponde a los cargos de la tarjeta de crédito del banco aumenta o disminuye? Explique. 309 Cátedra I Estadística II Autor I Rosanna Casini (d) Observe que los cargos de diciembre de 1998 fueron de 63 millones de dólares, pero en febrero de 1999 no llenaron a 40 millones de dólares. ¿El cierre total de febrero correspondió a lo que se esperaba? (e) Desarrolle una ecuación de tendencia exponencial con componentes mensuales que represente el modelo multiplicativo clásico de series de tiempo. (f) Interprete la tasa de crecimiento mensual compuesta. (g) Interprete el "multiplicador" de enero. (h) ¿Cuál es el valor pronosticado para marzo de 1999? (i) ¿Cuál es el valor pronosticado para abril de 1999? (j) ¿En qué beneficia al banco este tipo de análisis de series de tiempo? En series cuyo comportamiento se caracteriza por fuertes variaciones entre períodos, se dificulta la obtención de una idea visual de tendencia global a largo plazo, es conveniente utilizar métodos que suavizando las variaciones permiten modelar el comportamiento con cierto margen de aproximación a los valores reales. El margen de aproximación se llama error y es la diferencia entre el valor observado y el predicho por el modelo. Los métodos más sencillos de análisis para estas series son el de promedios móviles y suavizado exponencial. Estos métodos de suavizado no proporcionan una expresión analítica (recta, parábola, etc.) como los estudiados en el punto anterior, no son muy útiles para pronosticar valores futuros de la variable, pero sí para modelar el comportamiento de las series. 4.1. Método de promedios móviles Consiste en promediar de manera consecutiva una cantidad L de valores de la serie (como lo hicimos para aislar el componente estacional). Esa cantidad L debe ser un número entero y si es posible se hará corresponder a la duración promedio estimada de un ciclo o un múltiplo de éste en la serie. Por lo tanto los promedios móviles para un período de longitud L consisten en una serie de medias aritméticas calculadas en el tiempo para sub-períodos consecutivos de longitud L5. Cuando el valor asignado a L es impar el promedio móvil está centrado en el año del medio entre los usados para calcularlo. Además ningún promedio móvil puede obtenerse para los primeros ni para los últimos (L – 1)/2 años de la serie (se “pierden” algunos datos). Mediante un ejemplo veremos cómo se aplica6/: 5/ 6/ Berenson y Levine. Ejemplo tomado de M. BERENSON, D. LEVINE “ESTADÍSTICA BÁSICA EN ADMINISTRACIÓN”, Sexta edición. Pag. 863. 310 Cátedra I Estadística II Autor I Rosanna Casini Los datos que se transcriben en Tabla 16 corresponden a ventas de Fábrica de la empresa General Motors Corporation para el período 1970–1992. Se pretende con ellos mostrar la aplicación del método de promedios móvil para suavizar la serie, utilizando diversos períodos de longitud “L”. Tabla 16: Venta de Fábrica (en millones de unidades) de General Motors Corp. (1970 – 1992) Año 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 Ventas de fábrica 5.3 7.8 7.8 8.7 6.7 6.6 8.6 9.1 9.5 9.0 7.1 6.8 Año 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 Ventas de fábrica 6.2 7.8 8.3 9.3 8.6 7.8 8.1 7.9 7.5 7.0 7.2 Para realizar el análisis por este método se debe: abcd- Definir “L”. Sumar sucesivamente “L” valores para obtener el total móvil de cada año. Dividir el total móvil por “L” para obtener el promedio móvil de cada año. Graficar . Generalmente se prueba con distintos valores de L para seleccionar aquel que permita una mejor descripción de la serie. 311 Cátedra I Estadística II Autor I Rosanna Casini Para el ejemplo se toman tres valores de “L”, 3, 5, y 7, los resultados se trascriben en la Tabla 17. Tabla 17: Ventas de fábrica 5,3 7,8 7,8 8,7 6,7 6,6 8,6 9,1 9,5 9,0 7,1 6,8 6,2 7,8 8,3 9,3 8,6 7,8 8,1 7,9 7,5 7,0 7,2 Año 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 Total móvil de 3 años Promedio móvil (L = 3) Promedio móvil (L = 5) Promedio móvil (L = 7) 20,9 24,3 23,2 22,0 21,9 24,3 27,2 27,6 25,6 22,9 20,1 20,8 22,3 25,4 26,2 25,7 24,5 23,8 23,5 22,4 21,7 6,97 8,10 7,73 7,33 7,30 8,10 9,07 9,20 8,53 7,63 6,70 6,93 7,43 8,47 8,73 8,57 8,17 7,93 7,83 7,47 7,23 7,26 7,52 7,68 7,94 8,10 8,56 8,66 8,30 7,72 7,38 7,24 7,68 8,04 8,36 8,42 8,34 7,98 7,66 7,54 7,36 7,90 8,14 8,31 8,09 8,10 8,04 7,93 7,81 7,79 7,73 7,83 8,01 8,26 8,21 8,03 7,73 Observamos que para los datos el mejor suavizado se logra para L = 3, dado que segura menor magnitud de error o distancia entre el valor observado y el resultante de los promedios móviles. El gráfico de la Figura 8, permite obtener igual conclusión. Figura 8: VENTAS DE FÁBRICA MÉTDODO DE PROMEDIOS MÓVILES 10 8 VENTAS DE FÁBRICA 7 PM L=5 6 PM L= 7 5 4 PM L = 3 19 70 19 72 19 74 19 76 19 78 19 80 19 82 19 84 19 86 19 88 19 90 19 92 VARIABLE VENTAS 9 TIEMPO 312 Cátedra I Estadística II Autor I Rosanna Casini 4.2. Suavizado exponencial El Método de suavizado exponencial es uno de los casos especiales de modelos de promedios móviles integrados autorregresivos designados como ARIMA y desarrollados por Box y Jenkins, modelos que no desarrollamos en este curso, por corresponder a un nivel más avanzado del estudio de series temporales. El suavizado exponencial consiste en suavizar los valores de la variable mediante un promedio móvil con ponderación exponencial a través de la serie de tiempo. Es aconsejable en series de comportamiento llamado estacionario, lo que significa una serie con tendencia estable y confusa a largo plazo. Respecto del método de promedios móviles, el suavizado exponencial toma en cuenta para cada cálculo o pronóstico todos los valores de la serie correspondientes a períodos anteriores, ponderando con mayor peso los períodos más recientes7/. La expresión analítica de la función que permite obtener un valor para el período i-ésimo, es: Ei = WYi + (1 – W)Ei-1 (4) Donde: Ei Ei-1 Yi W : : : : valor de la serie suavizada exponencialmente para el período i-ésimo valor de la serie suavizada exponencialmente para el período i-1 valor observado de la serie de tiempo en el período i coeficiente de suavizado. El coeficiente de suavizado, W, se selecciona subjetivamente y asume un valor entre cero y uno, indicándose empíricamente la conveniencia de valores cercanos a cero para suavizar series en las que se pretende eliminar el efecto del componente cíclico, y cercanos a uno si se pretende pronosticar. Continuando con el ejemplo anterior de las ventas de fábrica de Tabla 16, aplicando el procedimiento mencionado obtenemos los resultados que se transcriben en la Tabla 18. Tabla 18: 7/ Año Ventas de fábrica S. Exp (w=0,75) S. Exp (w=0,50) S. Exp (w=0,25) 1970 5,3 5,30 5,30 5,30 1971 7,8 7,18 6,55 5,93 1972 7,8 7,64 7,18 6,39 1973 8,7 8,44 7,94 6,97 1974 6,7 7,13 7,32 6,90 1975 6,6 6,73 6,96 6,83 1976 8,6 8,13 7,78 7,27 1977 9,1 8,86 8,44 7,73 1978 9,5 9,34 8,97 8,17 1979 9,0 9,08 8,98 8,38 1980 7,1 7,60 8,04 8,06 1981 6,8 7,00 7,42 7,74 1982 6,2 6,40 6,81 7,36 Revisar: M. Berenson, D. Levine T. Krehbiel. Cap. 11, pag. 602. 313 Cátedra I Estadística II Autor I Rosanna Casini 1983 7,8 7,45 7,31 7,47 1984 8,3 8,09 7,80 7,68 1985 9,3 9,00 8,55 8,08 1986 8,6 8,70 8,58 8,21 1987 7,8 8,02 8,19 8,11 1988 8,1 8,08 8,14 8,11 1989 7,9 7,95 8,02 8,05 1990 7,5 7,61 7,76 7,92 1991 7,0 7,15 7,38 7,69 1992 7,2 7,19 7,29 7,57 Aplicando la fórmula (4) E1971 = (0,75) (7,8) + (1 – 0,75) ( 5,3 ) = 7,18 E1972 = (0,75) (7,8) + (1 – 0,75) (7,18) = 7,64 E1971 = (0,50) (7,8) + (1 – 0,50) (5,3 ) = 6,55 E1972 = (0,50) (7,8) + (1 – 0,50) (6,55) = 7,18 Las poligonales correspondientes a los valores suavizados de la variable se muestran en el gráfico de Figura 9, donde visualizamos que la mejor aproximación se logra para W = 0,75. Figura 9: VENTAS DE FÁBRICA VENTAS DE FÁBRICA. MÉTDOD DE SUAVIZADO EXPONENCIAL S. EXP. ( W = 0,75) 10 S. EXP (W = 0,50) VENTAS 9 S. EXP. (W = 0,25) 8 7 6 5 92 19 90 19 88 19 86 19 84 19 82 19 80 19 78 19 76 19 74 19 72 19 19 70 4 TIEMPO Observamos que una mayor aproximación se logra con W = 0,75, no obstante es bueno determinar el valor de los residuos, es decir la diferencia entre los valores reales y los pronosticados por el método, concluyendo que el mejor suavizado es el que produce menores valores residuales. Se suelen promediar los valores absolutos de estos residuos, con lo cual se obtiene una medida de la “bondad” del suavizado independiente del número de datos utilizados, y que permite comparar diversos métodos de suavizado de series. 314 Cátedra I Estadística II Autor I Rosanna Casini Actividad 9: A continuación se muestra una serie referida al número de empleados (en miles) de una compañía petrolera: Número de empleados 1,45 1,55 1,61 1,60 1,74 1,92 1,95 2,04 2,06 1,80 Año 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Número de empleados 1,73 1,77 1,90 1,82 1,65 1,73 1,88 2,00 2,08 1,88 Año 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 a) Ajuste un promedio móvil de 3 años y de 7 años a estos datos. b) ¿Cuál de los dos suavizados ajusta mejor los datos y por qué? Media Movil de 3 años Número de empleados 2,11 1,94 1,76 1,59 1,42 0 3 5 8 11 13 16 18 21 Caso Serie original Media Movil de 7 años 2,11 Número de empleados Serie suavizada 1,94 1,76 1,59 1,42 0 3 6 9 12 15 18 Caso Serie original 315 Serie suavizada 21 Cátedra I Estadística II Autor I Rosanna Casini Se sugiere resolver los siguientes Ejercicios del libro de Berenson, Levine y Krehbiel8/: Actividad 10: Los siguientes datos representan la mediana del ingreso de las familias en Estados Unidos (en dólares constantes de 1996) para todas las razas, blancos, negros e hispanos, durante un periodo de 17 años, de 1980 a 1996. Mediana del ingreso familiar (en dólares constantes de 1996) en EUA (1980-1996) Año 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Todas las Razas 33,763 33,215 33,105 32,900 33,849 34,439 35,642 35,994 36,108 36,575 35,945 34,705 34,261 33,922 34,158 35,082 35,492 Blancos 35,620 35,094 34,657 34,502 35,709 36,320 37,471 37,924 38,172 38,473 37,492 36,367 36,020 35,788 36,026 36,822 37,161 Negros 20,521 19,693 19,642 19,579 20,343 21,609 21,588 21,646 21,760 22,881 22,420 21,665 20,974 21,209 22,261 23,054 23,482 Hispanos 26,025 26,643 24,910 25,057 25,660 25,467 26,272 26,706 27,002 27,737 26,806 26,140 25,271 24,850 24,796 23,535 24,906 Fuente: Statistical Abstract of the United States, 118a. Ed., 1996, U.S. Department of Commerce, Bureau of Census, 468. Conteste lo siguiente para cada uno de los cuatro conjuntos de datos (todas las razas, blancos, negros e hispanos). (a) Grafique los datos en un diagrama. (b) Ajuste un promedio móvil de 3 años a los datos y grafique los resultados en el diagrama. (c) Utilice un coeficiente de suavización W = 0.50, aplique la suavización exponencial a la serie y grafique los resultados en el diagrama. (d) ¿Cuál es el pronóstico de suavización exponencial para la tendencia en 1997? (e) Repita (c) con una constante de suavización W = 0.25. (f) A partir de los resultados de (e), ¿cuál es el pronóstico de suavización exponencial para la tendencia en 1997? (g) Compare los resultados de (d) y (f). (h) Vaya a la biblioteca y registre el valor real para 1997 de una tabla disponible del U.S. Department of Comerse. Compare los datos obtenidos con el pronóstico que hizo en (d) y (f). Analice. (i) ¿Qué conclusiones obtiene respecto a la tendencia en la mediana del ingreso familiar para cada uno de los tres grupos y todas las razas combinadas para el período de 1980 a 1996? Actividad 11: Por más de una década, Nuevo México ha tenido el superávit más alto en la balanza de pagos per cápita que cualquier otro estado en el país. Esto se ha logrado gracias a que el estado recibe un fondo de gobierno de alto nivel a través de programas patrocinados principalmente por el Department of Defense, el Department of the Interior y el Department of Transportation. Además, los pagos de impuestos federales per cápita de los residentes de Nuevo 8/ M. Berenson, D. Levine T. Krehbiel. Cap. 11, pág. 606: 608. 316 Cátedra I Estadística II Autor I Rosanna Casini México son mucho más bajos que el promedio. Los siguientes datos te presentan la balanza de pagos per cápita (en dólares constantes de 1995), es decir, la diferencia entre el gasto federal per cápita en Nuevo México y los pagos federales per cápita del estado durante el periodo de 15 años, de 1981 a 1995. Balanza de pagos per cápita en Nuevo México (en dólares constantes de 1995) para 1981-1995 Año fiscal 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 Balanza de pagos per cápita (en dólares) 2,961 2,913 2,426 2,881 2,919 3,218 3,322 4,336 3,496 3,545 3,462 3,632 3,709 3,343 3,300 Gasto Federal per cápita (en dólares) 6,212 5,983 5,853 6,309 6,414 6,670 6,635 7,461 6,578 6,653 6,739 7,079 7,272 6,915 6,935 Impuestos federales per cápita (en dólares) 3,251 3,069 3,427 3,428 3,495 3,452 3,313 3,125 3,083 3,108 3,277 3,447 3,563 3,572 3,635 Fuente: D. P. Moynihan, M. E. Friar, H. B. Leonard y J. H. Walder, The Federal Budget and the States: Fiscal Year 1995, publicación conjunta de The John F. Kennedy School of Govermment, Harvard University y the Office of Senator Daniel Patgrick Moyniham, 30 de septiembre de 1996, 73. Conteste lo siguiente para cada una de las tres series de tiempo: (a) Grafique los datos en un diagrama. (b) Ajuste un promedio móvil de 3 años a los datos y grafique los resultados en el diagrama. (c) Utilice un coeficiente de suavización W = 0.50, aplique la suavización exponencial a la serie y grafique los resultados en el diagrama. (d) ¿Cuál es el pronóstico de suavización exponencial para la tendencia en 1996? (e) Repita (c) con un coeficiente de suavización W = 0.25. (f) A partir de los resultados de (e), ¿cuál es el pronóstico de suavización exponencial para la tendencia en 1996? (g) Compare los resultados de (d) y (f). (h) Vaya a la biblioteca y registre el valor de 1996 de alguna tabla disponible. Compare ese valor con los pronósticos hechos en (d) y (f). Analice. (i) ¿Qué conclusiones puede obtener respecto al gasto federal, los impuestos federales y la balanza de pagos per cápita en Nuevo México entre 1981 y 1995? Esta metodología de análisis de series temporales forma parte de los modelos desarrollados por Box y Jenkins (1970) ya citados, para explicar la estructura y prever la evolución de una serie que observamos a lo largo del tiempo. La variable de interés puede ser de diferente tipo es decir, macroeconómica, microeconómica, física o social; el tema es construir un modelo útil para pronosticar valores de la serie con el mínimo error posible. 317 Cátedra I Estadística II Autor I Rosanna Casini De esta forma los modelos se clasifican en univariables o de regresión dinámica, los primeros se basan en la idea de que las condiciones futuras serán análogas a las pasadas y son utilizados para pronosticar valores en corto plazo, mientras que los modelos de regresión dinámica consideran la evolución de otras variables relacionadas con la que se pretende prever. En el enfoque UNIVARIABLE, los modelos desarrollados por los autores antes mencionados, son AR (autorregresivo), ARMA (autorregresivo de media móvil), ARIMA (autorregresivo integrado de media móvil), entre otros. No abordaremos los dos últimos modelos citados precedentemente, por no responder a las expectativas de este curso y debido a la complejidad de los mismos en el tratamiento matemático de las funciones, mientras que, a continuación analizaremos el modelo autorregresivo. Modelos autorregresivos Estos modelos surgen de imponer una dependencia lineal entre las variables del proceso, similar a una ecuación de regresión, pero tomando como variable independiente la misma Y solo que “rezagada” en uno o más períodos. Observen la diferencia con los modelos de ajuste planteados al comienzo de este capítulo, donde la dependencia se establece entre la variable tiempo (x) y la variable de interés (Y); ahora la variable dependiente es la misma Y rezagada, se está suponiendo que el comportamiento de la variable de interés en los períodos anteriores permite predecir lo que sucederá con ella en el futuro. La forma de dependencia más simple es relacionar Yi con Yi-1, linealmente mediante la ecuación de autorregresión: Yi = A 0 + A1Yi − 1 + δi donde A0 y A1 son constantes a determinar y δi es un residuo análogo al error de regresión (con distribución normal, E( δi )=0, V( δi )= σ 2 , constante y Cov( δi , δi + k )=0). Este proceso lo denominamos autorregresivo de orden uno, representado como AR(1). Ahora bien, si relacionamos los valores con dos períodos de separación, tendremos un autoregresivo de orden dos, AR(2) y así sucesivamente podemos formar autorregresivos de orden p imponiendo la correlación entre los valores de la serie de tiempo con p períodos de separación. El modelo es: Yi = A 0 + A1Yi − 1 + ... + ApYi − p + δi Los parámetros Aj para j = 0, ..., p son estimados por aj para j = 0, ..., p, por lo tanto el modelo ajustado es: ˆi = a 0 + a1Yi − 1 + ... + apYi − p + δi Y Desarrollemos el siguiente ejemplo: Considerando los datos de la Tabla 16, calculamos el valor real de los valores de ventas de fábrica utilizando un índice deflactor para calcular el coeficiente de deflactación. Esto se muestra en la siguiente tabla: 318 Cátedra I Estadística II Autor I Rosanna Casini Tabla 19: Año Ventas de fábrica Coeficiente de deflactación Valor real de las ventas de fábrica 1970 5,3 1,821 9,65 1971 7,8 1,761 13,73 1972 7,8 1,647 12,85 1973 8,7 1,534 13,34 1974 6,7 1,377 9,23 1975 6,6 1,214 8,01 1976 8,6 1,100 9,46 1977 9,1 1,033 9,40 1978 9,5 1,004 9,54 1979 9,0 0,957 8,61 1980 7,1 0,931 6,61 1981 6,8 0,920 6,26 1982 6,2 0,873 5,41 1983 7,8 0,839 6,54 1984 8,3 0,799 6,63 1985 9,3 0,769 7,15 1986 8,6 0,737 6,34 1987 7,8 0,715 5,58 1988 8,1 0,707 5,72 1989 7,9 0,692 5,46 1990 7,5 0,673 5,05 1991 7,0 0,649 4,54 1992 7,2 0,641 4,62 Aplicamos para los datos deflactados de la serie de ventas de fábrica, un modelo autoregresivo de orden dos9/: yi = a 0 + a1yi −1 + a 2 yi − 2 + δi ˆ Hacemos la regresión considerando los valores de la serie deflactada, como variable dependiente, y los valores de la misma la serie retrasada uno y dos períodos como variables independientes. Utilizando la salida de SPSS de Tabla 20, que resulta de procesar los datos mediante una regresión basada en dos períodos de retardo. La ecuación resultante es: yˆi = 1, 074 + 0, 861 yi −1 − 0, 0513 yi − 2 El coeficiente de determinación ajustado asume el valor 0.804, lo que muestra un ajuste bueno, y si analizamos la significancia de cada variable independiente vemos que la variable correspondiente al segundo retraso no es significativa para rechazar la hipótesis de que el coeficiente o parámetro de segundo orden es cero. Esto nos permite eliminar ese retardo y trabajar con un autorregresivo de orden uno. 9/ Metodología explicada en: Capítulo 11, pág. 630, Estadística para Administración. Berenson, Levine y Krehbiel. Segunda Edición, Edit. Prentice Hall. 319 Cátedra I Estadística II Autor I Rosanna Casini Por otra parte en la prueba F vemos que la hipótesis de que todos los parámetros o coeficientes Ai, para i = 1, 2. son nulos, es fuertemente rechazada, por lo que establecemos que la variable “y” puede ser explicada de esta forma. Tabla 20: Model Summary Mo del 1 R Adjusted R Square ,804 R Square ,824 ,908a Std. Error of the Estimate 1,0964 a. Predictors: (Constant), VALORES2, VALORES1 Coefficients a Standardize d Coefficients Unstandardized Coefficients Model 1 B 1,074 Std. Error ,799 VALORES1 ,861 ,166 VALORES2 -5,127E-02 ,171 (Constant) Beta t 1,344 Sig. ,196 ,953 5,187 ,000 -,055 -,299 ,768 a. Dependent Variable: VENTASDE ANOVAb Model 1 Regression Sum of Squares 101,056 Residual Total df 2 Mean Square 50,528 21,639 18 1,202 122,696 20 F 42,031 Sig. ,000a a. Predictors: (Constant), VALORES2, VALORES1 b. Dependent Variable: VENTASDE Figura 10: GRÁFICO DE VALORES REALES Y PRONÓSTICO DE AUTORREGRESIVO DE ORDEN DOS 16 14 VARIABLE 12 10 Valores Deflactados 8 AR(2) PRONÓSTICO 6 4 2 PERÍODO En la Figura 10 observamos la gráfica del ajuste. 320 23 21 19 17 15 13 11 9 7 5 3 1 0 Cátedra I Estadística II Autor I Rosanna Casini Sugerimos resolver los siguientes ejercicios del libro de Berenson, Levine y Krehbiel: Actividad 12: Con referencia a los datos de la Actividad 1 que representan los depósitos totales (en millones de dólares) en J.P. Morgan durante el periodo de 19 años, de 1979 a 1997: (a) Ajuste un modelo autorregresivo de tercer orden a los datos de depósitos totales y pruebe la significancia del parámetro de tercer orden. (Use α=0.05). (b) Ajuste un modelo autorregresivo de segundo orden a los datos de depósitos totales y pruebe la significancia del parámetro de segundo orden. (Use α=0.05). (c) Ajuste un modelo aiitorregresivo de primer orden a los datos de depósitos totales y pruebe la significancia del parámetro de primer orden. (Use α=0.05). (d) Si es apropiado, proporcione pronósticos anuales de los depósitos totales de 1998 a 2001. Actividad 13: Con referencia a la Actividad 2 que representa los ingresos operativos netos actuales (en miles de millones de dólares corrientes) de Coca-Cola Company durante 24 años, de 1975 a 1998: (a) Ajuste un modelo autorregresivo de tercer orden a los ingresos actuales y pruebe la sianificancia del parámetro de tercer orden. (Use α=0.05). (b) Si es necesario, ajuste un modelo autorregresivo de segundo orden a los ingresos actuales y pruebe la significancia del parámetro de segundo orden. (Use α=0.05). (c) Si es necesario, ajuste un modelo autorregresivo de primer orden a los ingresos actuales y pruebe la significancia del parámetro de primer orden. (Use α=0.05). (d) Si es adecuado, proporcione pronósticos anuales de los ingresos actuales para 1998 y 2000. Cuando en una serie se aplican diferentes métodos de análisis debemos seleccionar aquel que permita un pronóstico más acertado, para ello debemos revisar el comportamiento de los residuos que surgen al aplicar métodos alternativos. Por ejemplo si a los datos de la serie de ventas reales, le aplicamos el método de mínimos cuadrados y obtenemos los valores estimados para una función cuadrática, para una exponencial y para un modelo autorregresivo de segundo orden, podemos realizar comparaciones. Los resultados se muestran en la siguiente tabla: Tabla 21: Valor deflactado 9,65 13,73 12,85 13,34 9,23 8,01 9,46 9,40 Pre_cuad 12,58 11,99 11,42 10,87 10,35 9,85 9,37 8,92 321 Pre _ lny 12,10 11,57 11,07 10,58 10,12 9,68 9,26 8,85 Pre_autorr 12,41 11,44 11,91 8,34 7,50 8,81 Cátedra I Estadística II Autor I Rosanna Casini 9,54 8,61 6,61 6,26 5,41 6,54 6,63 7,15 6,34 5,58 5,72 5,46 5,05 4,54 4,62 8,48 8,07 7,69 7,32 6,98 6,66 6,36 6,08 5,83 5,60 5,39 5,21 5,04 4,90 4,79 8,47 8,10 7,74 7,41 7,08 6,77 6,48 6,19 5,92 5,67 5,42 5,18 4,96 4,74 4,53 8,69 8,81 8,00 6,33 6,12 5,42 6,43 6,45 6,90 6,17 5,56 5,72 5,49 5,14 4,73 Figura 11: VALORES DE VENTAS DE FÁBRICA DEFLACTADOS VALORES REALES DE VENTAS 16 14 VALORES ESTIMADOS POR AUTORREG. 12 10 8 VALORES ESTIMADOS POR CUADR 6 4 2 0 1 2 - 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 VALORES ESTIMADOS POR EXPONENCIAL Calculamos los residuos de la forma vista en el Capítulo anterior, es decir mediante la diferencia entre el valor observado de “y” y el valor estimado por la función de ajuste aplicada (modelo). En la siguiente tabla vemos los residuos para cada función aplicada a la serie de ventas de fábrica: Tabla 22: Res_cuad -2,92 1,75 1,43 2,47 -1,12 -1,84 0,09 0,48 1,05 0,54 -1,07 -1,06 Res_lny -0,226 0,171 0,149 0,232 -0,092 -0,189 0,022 0,060 0,119 0,062 -0,158 -0,169 322 Res_autorg 0,441 1,903 -2,682 -0,331 1,960 0,587 0,851 -0,197 -1,394 -0,072 Cátedra I Estadística II Autor I Rosanna Casini -1,56 -0,11 0,27 1,07 0,51 -0,02 0,33 0,26 0,01 -0,37 -0,168 -0,268 -0,034 0,023 0,144 0,067 -0,015 0,055 0,053 0,019 -0,043 0,019 -0,709 1,126 0,196 0,704 -0,560 -0,587 0,169 -0,256 -0,437 -0,605 -0,107 En la gráfica de los residuos debemos observar un comportamiento aleatorio. Si en cambio, el comportamiento de los residuos responde a un patrón, ello es un indicador de que el modelo no es adecuado porque no se han considerado variaciones debidas a algún factor; por ejemplo, cíclico, estacional, si la serie es de periodicidad inferior al año, o tendencial para el caso de observar un comportamiento creciente o decreciente considerablemente marcado. En las Figuras 12, 13 y 14, observamos el comportamiento de los residuos para los modelos propuestos en el ejemplo de la serie de ventas de fábrica, donde concluimos que el modelo más adecuado sería el autorregresivo, dado que los residuos de la Figura 14 muestran un comportamiento aleatorio. Figura 12: COMPORTAMIENTO DE LOS RESIDUOS LOGRADOS POR APLICACIÓN DE LA FUNCIÓN CUADRÁTICA 3 2 1 rescuad 0 0 5 10 15 20 25 -1 -2 -3 -4 Figura 13: Comportamiento de los residuos función logarítmica 0,300 0,200 0,100 reslny 0,000 -0,100 0 5 10 15 -0,200 -0,300 323 20 25 Cátedra I Estadística II Autor I Rosanna Casini Figura 14: Comportamiento de los residuos del modelo autorregresivo 3,000 Residuos 2,000 1,000 0,000 -1,000 resautorg 0 5 10 15 -2,000 -3,000 Valores predichos Además del análisis gráfico de los residuos, existen métodos adecuados para realizar las comparaciones. En caso de tratarse de modelos de regresión, ya hemos visto que el Coeficiente de Determinación permite comparar la bondad del ajuste (un mayor r2 indica un mejor ajuste de los datos). Cuando se han utilizado otros métodos, a veces no es posible calcular el coeficiente de determinación, entonces se sugieren otras medidas para evaluar el ajuste. Veremos algunas de ellas: a- Suma de cuadrados del error: SCE = ∑( yi − yˆi ) 2 Para nuestro ejemplo: SCEfc = 32,51 (Función cuadrática). SCEfl = 0,38 (Función exponencial). SCEar = 21,64 (Modelo autorregresivo). Este método tiene la desventaja de que en caso de existir algunas diferencias importantes, el modelo puede ser desechado por efecto de valores individuales, lo que se observa en el ejemplo propuesto para el modelo autorregresivo donde por el efecto individual de pocos valores muy diferentes la suma de cuadrados asume un valor alto y hace que el modelo no sea considerado adecuado, no obstante es una medida que asume valor cero si el ajuste es perfecto y se aleja de esta cifra en la medida que el modelo no se aproxima a los valores reales. También es viable hacer un análisis desde esta perspectiva mediante el coeficiente de determinación general, tal como mencionamos más arriba. b- Desviación absoluta media: n DAM = ∑ yi − yˆi i =1 n Para los datos del ejemplo analizado, los valores de la DAM se muestran en la Tabla 23: Tabla 23: Dam para la función cuadrática Dam para la función exponencial Dam para el modelo autorregresivo 0,891 0,1039 0,7508 324 Cátedra I Estadística II Autor I Rosanna Casini Esta medida asume valor cero si el modelo ajusta perfectamente y las diferencias entre los valores reales de la variable “y” y los estimados por el modelo no existen y asume valores altos en la medida que las diferencias sean importantes. En el análisis comparativo será mejor modelo el que asegure menor valor para esta medida. Para el ejemplo el valor más bajo de la DAM le corresponde al modelo autorregresivo. Esta medida tiene la ventaja de poder aplicarse a cualquier tipo de tratamiento de los datos (de regresión o suavizados). c- Principio de Parsimonia: Este principio establece que debe elegirse aquel modelo que permita una mejor interpretación del análisis de datos, es decir, el que sea mas sencillo y adecuado. Esto significa que, en una comparación de varios modelos, si la diferencia entre la bondad del ajuste entre algunos de ellos no es muy importante, conviene elegir el más sencillo. Con esta idea hemos desarrollado métodos que permiten estudiar una variable a través del tiempo y mediante un estudio comparativo basado en los residuos hemos propuesto una forma de seleccionar el más adecuado. Por último, una vez seleccionado el modelo de análisis, este es utilizado para hacer pronósticos de la variable en función del tiempo, objetivo principal de estudios de esta naturaleza. 325