UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Capítulo 8: SERIES CRONOLÓGICAS INTRODUCCIÓN Ya hemos estudiado los datos o series estadística en general. Dentro de estas series estadísticas merecen especial atención aquellas que tienen como uno de sus variables el tiempo. Ya hemos mencionado también que cuando uno de los caracteres cuantitativos es el tiempo la serie estadística se llama serie cronológica, el segundo carácter puede ser cualitativo o cuantitativo. El interés por estas series radica en que son útiles en muchos trabajos en los que el tiempo juega un papel preponderante, lo cual ocurre en múltiples aspectos de la Administración, Economía y muchas otras disciplinas. En este capítulo trataremos brevemente algunos aspectos básicos de las series cronológicas, advirtiendo sin embargo que el tema es bastante extenso, y que actualmente se desarrollan técnicas sofisticadas para lograr buenas predicciones. Este es un campo donde queda mucho por hacer y es un buen reto a la imaginación y al talento de los investigadores. El lector interesado puede dirigirse a un obra especializada, alguna de las cuales citamos al final del texto. 272 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.1. RESEÑA HISTÓRICA Esta idea de componentes no observables en el análisis económico puede remontarse a 1825-1875, pero es todavía anterior en estudios de astronomía y meteorología, en 1823 el matemático Laplace analizó el efecto de las fases de la luna sobre las mareas y los movimientos de aire en la tierra. En 1911 se creó en Francia un comité para proponer métodos para separar cada componente, con el fin de pronosticar cada uno por separado. Con posterioridad en Estados Unidos se propuso hacer lo mismo. Ya en 1919 Persons plantea que las series cronológicas están constituidas por cuatro elementos o componentes: a. Una tendencia de largo plazo (que constituye el elemento de crecimiento de la serie). b. Un movimiento cíclico en forma de onda, súper impuesto en la tendencia. c. Un movimiento estacional dentro del año. d. Una variación residual, causada por situaciones que afectan a las series de manera individual. Nerlove, Grether y Carvalho (1979) se adscriben a la visión que las series cronológicas pueden visualizarse como constituidas por varias componentes no observables: tendencia, ciclo, estacionalidad y movimiento irregular. Como vemos la extracción de componentes no observables de una serie temporal es una idea antigua, pero no es sino hasta la mitad del siglo XX que se dispuso de instrumentos de cálculo potentes y de esquemas teóricos que permitieran el desarrollo de metodologías más adecuadas, por ello inicialmente se plantearon esquemas deterministas. 273 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS A esta altura importa señalar las consideraciones respecto a las señales de interés que se plantean en Espasa y Cancelo (1993). Estos autores consideran que la señal relevante, la que recoge la evolución subyacente de la serie se obtiene una vez que a los datos originales se les ha extraído aquellas oscilaciones que dificultan el seguimiento del fenómeno de interés. A pesar de que está muy extendido el estudio de la evolución de la serie, una vez desagregado el componente estacional, esa serie contiene el componente irregular en su interior, lo que introduce ruido a la señal. Esto último hace que sea preferible asociar la evolución subyacente de la variable a una señal como la tendencia, en lugar de trabajar con la serie desestacionalizada, la tendencia es una señal más pura. Inicialmente el método que más se ha utilizado para descomponer series fue el de Promedio Móvil. Lo que lo hacía especialmente atractivo es la sencillez computacional. La introducción de la computadora dio paso a métodos de desestacionalización masivos (Shiskin 1954), lo que resultó en el primer método de la Oficina del Censo de los EE.UU. (Census Method I) que no era más que un pequeño refinamiento del método de Razón o Promedio Móvil. Luego apareció el Census Method II, que se estudió empíricamente entre los años 1955- 1965, dando lugar a las variantes experimentales X1 a X11. Este método era utilizado por la mayoría de los países industrializados en la década de los ’60. Como vimos cada uno de los componentes de las series cronológicas recoge fenómenos o señales distintas. En lo que respecta al componente estacional, Granger (1978) explicita cuatro posibles causas de las fluctuaciones estacionales: a. El calendario propiamente dicho (feriados fijos, diferente número de días de cada mes, etc.). b. Razones Institucionales. Se fijan determinados momentos del año para realizar ciertas actividades. 274 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS c. El clima, que determina por ejemplo las cosechas, etc. d. Expectativas de variaciones estacionales (aumento o disminución de la producción previa a determinadas fechas, por ejemplo). Estas causas pueden considerarse como factores exógenos, de naturaleza noeconómica, que influyen sobre la variable que se estudia y que “oscurecen” las características de la serie relacionadas con factores netamente económicos. Dagum (1978) resume lo que considera las tres características más importantes de los fenómenos estacionales son: a. Se repite cada año con cierta regularidad, aunque puede evolucionar. b. Se puede medirse y separarse de las otras fuerzas que influencian el movimiento de la serie. c. Es causado principalmente por fuerzas no económicas, exógenas al sistema económico, y que no pueden controlarse o modificarse por los tomadores de decisiones en el corto plazo. La componente tendencia representa los movimientos de largo plazo de la serie, que se puede considerar, junto con las oscilaciones estacionales y la componente irregular, como generador de los valores observados. Una característica esencial de la tendencia es que se mueve en forma “suave” con relación a la unidad de tiempo para la cual existe un registro de observaciones. El ciclo es una oscilación periódica, caracterizada por períodos alternantes de expansión y contracción. La componente irregular está compuesta por movimientos imprevisibles relacionados con eventos de toda clase, tienen apariencia aleatoria estable, y pueden distinguirse de otras irregularidades, como los valores aberrantes. 275 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.2. IMPORTANCIA DEL PRONÓSTICO EN LOS NEGOCIOS Debido a que las condiciones económicas y comerciales varían en el tiempo, los líderes de los negocios deben encontrar formas de mantenerse al día respecto a los efectos que esos cambios tendrán en sus operaciones. Una técnica que pueden usar los líderes de negocios, como ayuda a la planeación de las necesidades operativas en lo futuro es el pronóstico. Aunque se han desarrollado numerosos métodos para pronosticar, todos tienen un objetivo común, predecir los eventos futuros de manera que las proyecciones se puedan incorporar en el proceso de toma de decisiones. La necesidad de pronosticar prevalece en la sociedad moderna. Como ejemplo los funcionarios del gobierno deben poder pronosticar aspectos como desempleo, inflación, producción industrial e ingresos esperados de los impuestos personales y corporativos, para formular las políticas. Los ejecutivos de mercadotecnia de una corporación grande de un mercado de venta de productos, deben ser capaces de pronosticar demanda, ingresos de venta, preferencias del consumidor, etc. Para mantener un mercado secundario de reemplazo, para su flota de vehículos de una línea de rentas, deben saber pronosticar el uso y necesidades en base al número de compradores. Y la administración de una Universidad debe tener la capacidad de pronosticar la inscripción de estudiantes de acuerdo a las proyecciones nacionales de población y las tendencias de la enseñanza según los desarrollos tecnológicos, para planear la construcción de aulas o nuevos centros y para evaluar las necesidades. 276 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.3. OBJETIVO EL principal objetivo de las series es conocer, el comportamiento de una variable cuantitativa en el pasado para estimar su comportamiento en el futuro, es decir pronosticar las incertidumbres que puedan darse en los estados financieros por actividades futuras. La importancia de estas series de tiempo, se basa en mantener datos acerca del pasado que muestren la información acerca de los cambios futuros. La toma de decisiones económicas y comerciales, necesitan que se hagan proyecciones de las condiciones externas e internas, que les afecta. Por lo general las predicciones del futuro mejoraran a medida que se va haciendo mas precisa la información del pasado. 8.4. APLICACIONES MÁS IMPORTANTES DE LAS SERIES CRONOLÓGICAS Debe advertirse que en las proyecciones no son valores determinantes que tienen que ocurrir necesariamente en el futuro , son valores estimados o aproximados y estos resultados pueden variar dependiendo de diversos factores que en forma directa e indirecta participan en los resultados de las series cronológicas por ejemplo , analizar el Comportamiento de los indicadores de la Economía Nacional se usar Series Cronológicas que ayudan a proyectar y a estimar para los Inflación , Producción , próximos años el nivel de la Desocupación , Tasa de Crecimiento de las formaciones , Tasa de Productividad de los obreros y empleados , etc, . Estos resultados ayudan a elaborar los planes de Crecimiento y Desarrollo de Mediano y Largo plazo. 277 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.5. CONCEPTO Se llama serie cronológica o temporal a aquella sucesión de observaciones en la que alguno de sus caracteres se mide en unidades de tiempo. El tiempo como sabemos es una característica cuantitativa y el resto de los caracteres de la serie pueden ser cualitativos o cuantitativos. Una serie de tiempo o cronológica, trata una cantidad variable dependiente y como función del tiempo t. Esto se escribe: y= F(t) Es decir, estudia el comportamiento de una variable y a lo largo del tiempo t. Las unidades de tiempo más usadas son por lo general de un año, un trimestre, un mes, etc. Se elegirán las más adecuadas para el estudio que trate de llevarse a cabo. Dentro de estas unidades de tiempo, algunas tienen duración constante (horas, días, etc.), pero otras son variables (meses, años, etc.). Este carácter variable puede influir en los resultados de algunos estudios, y debe tenerse en cuenta al elegir las unidades de tiempo. Ejemplo: Un ejemplo de serie cronológica es el comportamiento de las ventas mensuales de un producto A. Meses (2010) Ene. Mar. Abr. May. Jun. Miles de soles 2750 1382 2425 5673 6842 3285 2850 2950 2540 5025 6352 Feb. Jul. Ag. Set. Oct. Nov. 278 Dic. 3250 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS La gráfica de una serie cronológica es una gráfica de línea, la cual se construye sobre un sistema de ejes coordenadas. En el eje horizontal se ubica la variable independiente tiempo (años, meses, días, etc.), en el eje vertical los valores de la variable dependiente y (ventas, producción, etc.). La figura representa la gráfica de la serie cronológica del ejemplo anterior. Comportamiento de las ventas del producto A en el 2010 8000 7000 6000 5000 4000 3000 2000 1000 0 8.6. ANALISIS DE SERIES CRONOLÓGICAS Una serie cronológica no es sino una variable dada en sucesivos intentes de tiempo y se le conoce también con el nombre de serie de tiempo, serie histórica, serie cronológica, etc. Una serie cronológica llamada también serie de tiempo o serie histórica de un conjunto de datos recopilados, observados y registrados sistemáticamente en un tiempo determinado. 279 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Se dice también que es la variable dada en sucesivos instantes de tiempo como la producción de algodón en los últimos 10 años, las exportaciones anuales de los países de la región andina, las ventas anuales en farmacias, laboratorios, supermercados, etc. Las principales aplicaciones de las series cronológicas son las proyecciones (determinación de las tendencias); debe advertirse que las proyecciones no son valores determinantes que tienen que ocurrir necesariamente en el futuro, son valores estimados o esperados y estos resultados pueden variar dependiendo de varios factores que de forma directa e indirecta participen en los resultados de una serie cronológica. Las empresas industriales y comerciales deben de realizar un examen sobre la forma como la producción y venta de sus artículos han sido afectados en el pasado por diferentes factores con el objeto de hacer una estimación, diagnóstico o previsión para el futuro a fin de estar en condiciones de trazar planes de desarrollo de la empresa. Gráficamente las series cronológicas se representan haciendo uso de los ejes cartesianos, colocando la variable tiempo (ti) en el semi-eje positivo de las abscisas y la variable (Yi) en el semi-eje positivo de las coordenadas. 8.7. ELEMENTOS DE UNA SERIE CRONOLÓGICA Los elementos de una serie cronológica también coincide con el nombre de variaciones, componentes, o movimiento característicos de una serie cronológica pueden dividirse en: - Tendencia (T) - Variaciones estacionales (S) - Variaciones irregulares, fortuitas o accidentales - Ciclos u oscilaciones 280 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Para algunas estadísticas el Análisis de una serie cronológica es igual a la suma de sus movimientos característicos, en cambio para otras se considera como el producto de sus movimientos básicos. Y=T+S+I+C Y=TxSxIxC 8.7.1. TENDENCIA Se refiere a la dirección que sigue la serie cronológica que se puede visualizar con facilidad a partir del gráfico poligonal de la serie. Hay series cuyos valores poseen una “Tendencia ascendente o creciente”, en tanto hay otros cuyos valores poseen una “Tendencia descendiente” y por último existen series que no son fáciles de advertir su tendencia. El estudio de la tendencia es de suma importancia porque sirve para de terminar el probable comportamiento de los datos en el futuro. La proyección de la serie cronológica constituye el aspecto más importante para la planificación social, económica, educacional, etc. de mediano y largo plazo. La tendencia se puede determinar por una expresión matemática, siendo necesario proyectar la serie y así obtener valores estimados para el futuro, que puedan tener a su vez un error o sesgo cuya, dimensión depende de la validez o significación de los datos de la serie, del periodo elegido y del método utilizado para analizar la tendencia. Del método estadístico elegido, depende el comportamiento de la variable en el tiempo. La tendencia de una serie se puede determinar y estimar por dos métodos generales: el gráfico y el analítico. 281 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Método de los promedios móviles, llamado también método empírico o método gráfico. Método de los ajustes de una línea o función o método analítico. Este es el más utilizado, pudiendo ser: a) TENDENCIA RECTILÍNEA.- Se representa por la fórmula general: Y= a + bx La tendencia rectilínea queda determinada cuando se conocen los valores numéricos de a y b, se hallan con el resultado de la aplicación de las siguientes ecuaciones normales, del método de los mínimos cuadrados. Donde “n” nos indica el número de clases utilizadas. b) TENDENCIA CURVILÍNEA.- Las tendencias curvilíneas pueden ser de dos tipos: 1. Tendencia Parabólica.- Y = a + bx + cx2 282 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 2. Tendencias Logarítmica.- Estas a su vez se clasifican en: TENDENCIA EXPONENCIAL O LOGARÍTMICA Y = abx TENDENCIA EXPONENCIAL MODIFICADA Y = K + abX TENDENCIA LOGÍSTICA CURVA DE GOMPERTZ TENDENCIA DE EXTRAPOLACIÓN 283 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.7.2. VARIACIONES ESTACIONALES Son las oscilaciones que se repiten a intervalos regulares durante un periodo de tiempo o pueden ser fluctuaciones periódicas que se presentan en forma mensual, semestral, anual, etc. - Ejemplo: - La temperatura que aumenta en verano y baja en invierno - Las ventas que aumentan en el fin de mes - Las fiestas patronales - Las disposiciones legales que entran en vigor en fechas determinadas. 8.7.3. VARIACIONES IRREGULARES, FORTUITAS O ACCIDENTALES Son aquellas que no están sujetas a un ritmo determinado, la causa es un acontecimiento fortuito como guerras, inundaciones, terremotos, huelgas, elecciones, modificaciones de disposiciones fiscales, un crack financiero. Ejemplo: - La prosperidad que viven los pueblos de Alemania y Japón. 8.7.4. CICLO U OSCILACIÓN Cuando se amplía la duración de los periodos sobre los cuales se ha medido la tendencia puede observarse un cambio en la medida de la tendencia, que constituye parte de otro movimiento más general que en el ciclo u oscilación. Ejemplo: - Con que movimiento característico de una serie de tiempo se asociaría principalmente c/u de los siguientes tópicos: 284 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Ejemplos para el mejor reconocimiento de las variaciones: a) Incendio en una fábrica retrasa la producción por 3 semanas Variación irregular b) Una etapa de prosperidad. Variación cíclica c) La venta de un departamento después de Pascua. Variación estacional d) La necesidad de incrementar la producción de trigo, debido a un aumento de la población. Variación irregular e) Número de pulgadas de lluvia, en un lapso de 5 años. Variación estacional f) Una etapa de pocas ventas de juguetes en el mes de febrero. Variación estacional 8.8. FACTORES QUE AFECTAN A LA TENDENCIA El crecimiento de una industria como un todo estima que es influenciada básicamente por los siguientes factores: 1. Incremento de la población 2. Incremento de la energía no humana 3. Capital acumulado 4. Progreso Tecnológico Cuando nos referimos a una industria o compañía en particular se debe considerar un quinto factor: La demanda por un artículo con relación con otras mercaderías. 285 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.9. METODO DE ESTIMACIÓN DE LA TENDENCIA Una tendencia puede estimarse de diferentes maneras: 1. Método de los mínimos cuadrados. Este método, descrito en el capítulo 13, pude usarse para calcular la ecuación de una recta o curva de tendencia apropiada. Con esta ecuación se suelen calcular los valores de tendencia T. 2. Método “a mano”. Este método, que consiste en trazar una recta o curva de tendencia simplemente mirando la gráfica, puede usarse para estimar Y. Sin embargo, tiene la obvia desventaja de depender demasiado del juicio individual. 3. Método del promedio móvil. Por medio de promedios móviles de orden adecuado, se pueden eliminar patrones cíclicos, estaciónales e irregulares así sólo el movimiento de tendencia. Una desventaja de este método es que los datos al inicio y final de las series se pierden, como en el ejemplo 1, donde se inició con siete números y con un promedio móvil de orden 3 se llegó a cinco números. Otra desventaja es que los promedios móviles pueden generar ciclos u otros movimientos que no estaban en los datos originales. Una tercera desventaja es que los promedios móviles se ven muy afectados por valores extremos. Para superar esto de alguna manera, algunas veces se utiliza un promedio móvil ponderado con pesos adecuados; en tal caso, se da el dato o a los datos centrales el mayor peso y a los valores extremos se les proporcionan pesos pequeños. 4. Método de los semipromedios. Este consiste en separar los datos en dos partes (de preferencia iguales) y calcular el promedio de los datos en cada parte, con lo que se obtienen dos puntos en la gráfica de series de tiempo. Después se traza una recta de tendencia entre estos dos puntos. Los valores de tendencia a 286 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS partir de la recta de tendencia, pero también pueden determinarse de manera directa, sin gráfica A pesar de que este método es sencillo de aplicar, suele conducir resultados pobres cuando se utiliza en forma indiscriminada. Además, sólo es aplicable cuando la tendencia es lineal o aproximadamente lineal, aunque llega a extenderse a casos en donde los datos pueden separarse en varias partes, en cada una de las cuales la tendencia sea lineal. ESTIMACION DE LAS VARIACIONES ESTACIONALES INDICE ESTACIONAL Para determinar el factor estacional S en la ecuación (l), se debe estimar cómo varían los datos en las series de tiempo de un mes a otro, considerando un año típico. Un conjunto de números que muestra los valores relativos de una variable durante los meses del año se llama índice estacional de la variable. Por ejemplo, si se conoce que las ventas durante enero, febrero, marzo, etc., son de 50, 120, 90, …. Por ciento del promedio de las venta mensuales para todo el año, entonces los números 50, 120, 90, …. Proporcionan el índice estacional del año, estos números suelen llamarse números índice estacionales. El promedio (media) del índice estacional para todo el año debe ser 100, es decir, la suma de los números índice de los 12 meses tiene que ser 1200% Diversos métodos están disponibles para calcular el índice estacional. 1. Método de porcentaje promedio. En este método, los datos de cada se me expresan como porcentajes del promedio del año. Entonces, se promedian los porcentajes de los meses correspondientes de diferentes años, usando una media o una mediana; si se usa 287 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS la media, es mejor evitar cualquier valor extremo que pueda presentarse. Los 12 porcentajes resultantes dan el índice estacional. Si su media no es 100% (es decir, si la suma no es 1200%), entonces deben ajustarse, lo que se logra multiplicándolos por un factor adecuado. 2. Método del porcentaje de la tendencia o de la razón de la tendencia. En este método, los datos de cada mes se expresan como porcentajes de valores de la tendencia mensual. Un promedio adecuado de los porcentajes para los meses correspondientes proporcionan, entonces, el índice requerido. Igual que en el método 1, estos se ajustan si no promedian 100% Obsérvese que dividir cada valor mensual Y entre el valor de tendencia T correspondiente, proporciona Y/T = CSI, de la ecuación (l), y que el siguiente promedio de Y/T produce los índices estacionales. Mientras estos índices incluyan variaciones cíclias e irregulares, éstas pueden ser una desventaja importante del método, especialmente si las variaciones son grandes. 3. Método del porcentaje del promedio móvil o la razón del promedio móvil. En este método se calcula un promedio móvil de 12 meses. Dado que los resultados así obtenidos caen entre meses sucesivos, en lugar de en la mitad del mes (que es donde caen los datos originales), se busca un promedio móvil de 2 meses, de este promedio móvil de 12 meses. El resultado suele llamarse promedio móvil centrado de 12 meses. Después de esto, se expresan los datos originales de cada mes como un porcentaje del promedio móvil centrado de 12 meses correspondiente a los datos originales. Luego se promedian los porcentajes de los meses correspondientes, con lo que se obtiene el índice requerido. Como antes, si éstos no promedian 100% se hace un ajuste. 288 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Obsérvese que el razonamiento lógico de este método parte de la ecuación (l). Un promedio móvil centrado de 12 meses de Y sirve para eliminar los movimientos estaciónales e irregulares S e I; por lo tanto, es equivalente a los valores dados por TC. Entonces, al dividir los datos originales entre TC, se obtiene SI. Los promedios siguientes para los meses correspondientes sirven para eliminar la irregularidad I y producen en consecuencia, un índice adecuado. ESTIMACION DE LAS VARIACIONES CICLICAS Una vez que los datos han sido ajustados a las variaciones estaciónales, también suelen ajustarse a la tendencia dividiéndolos, sencillamente, entre los valores de tendencia correspondientes. De acuerdo con la ecuación (l), el proceso de ajuste a la variación estacional y a la tendencia es equivalente a dividir Y entre ST, que resulta en Cl (las variaciones cíclicas e irregulares). Un promedio móvil adecuado de pocos meses de duración (como 3, 5 o 7 meses, de modo que en consecuencia no se necesita centrado) sirve, entonces, para suavizar las variaciones irregulare l y para dejar únicamente las variaciones cíclicas C. Una vez que se han aislado estas variaciones cíclicas, es posible estudiarlas en detalle. Si se presenta una periodicidad o periodicidad aproximada de ciclos, se pueden construir índices cíclicos de la misma manera que los índices estaciónales. ESTIMACION DE LAS VARIACIONES IRREGULARES Las variaciones irregulares (o aleatorias) pueden estimarse ajustando los datos a las variaciones de tendencia, estacionales y cíclicas. Esto equivale a dividir los datos originales y entre T, S y C, lo que [por ecuación (1) da I. En la práctica se encuentra que los movimientos irregulare se inclinan a tener una pequeña magnitud y suelen seguir el patrón de una distribución normal; es decir, las pequeñas desviaciones ocurren con gran frecuencia la desviaciones grandes suceden con poca frecuencia]. 289 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS PROMEDIOS MOVILES A menudo, se considera que una tendencia secular es un indicio del “recorrido general” de la generación d una serie de tiempo. Si se tiene incertidumbre de que la tendencia sea lineal o de que se podría describir mejor por medio de alguna otra clase de curva, si no estamos seguros de tener en realidad una tendencia o parte de un ciclo y si no estamos realmente interesados en obtener una ecuación matemática, podemos describir muy adecuadamente el “comportamiento” general de una serie de tiempo mediante una serie artificial conocida como promedio móvil. Un promedio móvil se construye sustituyendo cada valor de una serie por la media del mismo y algunos de los valores inmediatamente anteriores y posteriores. Por ejemplo, en un promedio móvil de tres años, calculado en relación con datos anuales, cada cifra anual es reemplazada por la media de ella misma y las cifras anuales de los dos años adyacentes; en un promedio móvil de cinco años cada cifra anual se sustituye por la media de dicha cifra y las de los dos años anteriores y las de los dos años siguientes. Di la ponderación se realiza en un número par de periodos, por ejemplo, 4 años o 12 meses, el promedio móvil quedará inicialmente entre años o meses sucesivos. En estos casos, se suelen “reordenar” (o “centrar”) los valores tomando el promedio móvil de los dos años (o dos meses) adyacentes. Utilizaremos este procedimiento más adelantes para medir la variación estacional. El problema básico en la elaboración de un promedio móvil es la elección de un periodo apropiado para el promedio. Esta elección depende considerablemente de la naturaleza de los datos y del propósito para el cual se elabora el índice. Ordinariamente, el objeto de ajustar un promedio móvil es el de eliminar, hasta donde sea posible, las fluctuaciones indeseables o perturbadoras de los datos. El primer paso del procedimiento consiste en determinar los totales móviles de los 12 meses que aparecen en la columna 2. El primer dato de esta columna 211.5, 290 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS es la suma de los envíos de los 12 meses de 2001 y se anota a la mitad del periodo, entre junio y julio del 2001. El segundo dato de la columna, 215.0, se obtiene al restarle 211.5 la cifra de enero del 2001 y sumarle la cifra de enero del 2002; en otras palabras, 211.5 es la suma de os 12 envíos mensuales de febrero del 2001 al 2002, y se anota ala mitad de este periodo. El tercer dato y los demás de esa columna se obtienen con este mismo proceso de sustracción y adición de los valores mensuales. A fin de obtener un promedio móvil de 12 meses centrado en los datos originales, calculamos a continuación los totales móviles de dos meses, con las anotaciones en la columna 2. Estos datos se muestran en la columna 3, donde el primer número es la suma de los dos primeros valores de la columna 2, el segundo es la suma del segundo y tercer valor de la columna 2, etc. Estos datos de la columna 3 se anotan entre los de la columna 2 y, por consiguiente, están alineados (o centrados) con los datos originales. Como cada anotación en la columna 2 es la suma de 12 cifras mensuales y cada registro de la columna 3 es la suma de dos datos de la columna 2, o en total, la suma de 24 cifras mensuales, obtenemos por último el promedio móvil centrado, de 12 meses, que se muestra en la columna 4, luego de dividir cada registro de la columna 3 entre 24. Estos valores de los promedios móviles son las estimaciones de la tendencia del ciclo y, ahora, las empleamos para eliminar las componentes T.C de la serie original. Esto se logra dividiendo los datos T.S.C.I originales, mes por mes, entre las estimaciones T.C correspondientes (es decir, entre los valores correspondientes del promedio móvil). Ejemplo 1: Dados los números 2, 6, 1, 5, 3, 7 y 2 un promedio móvil de orden 3 está dado por la secuencia. 2 6 1 6 1 5 1 5 3 5 3 7 3 7 2 , , , , o 3, 4, 5, 4 3 3 3 3 3 291 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Se acostumbra localizar cada número del promedio móvil en su posición apropiada, relacionada con los datos originales. En este ejemplo se escribiría. Datos originales 2, 6, 1, 5, 3, 7, 2 Promedio móvil de orden 3 3, 4, 3, 5, 4 Donde cada número del promedio móvil es la media de los tres números inmediatamente por encima de él. Si los datos se dan anual o mensualmente, un promedio móvil de orden N se denomina, en ese ordene, promedio móvil de N años o promedio móvil de N mees. Así, se habla de promedios móviles de 5 años, 12 meses, etc. Por obcecad, también puede usarse cualquiera otra unidad de tiempo. Los promedios móviles tienen la propiedad de tender a reducir la cantidad de variación presente en un conjunto de datos. Para las series de tiempo, esta propiedad suele usarse para eliminar fluctuaciones no deseadas y el proceso se llama suavización de las series de tiempo. Si se utilizan medias aritméticas ponderadas en la secuencia (3), con pesos especificados de antemano, entonces la secuencia resultante se conoce como promedio móvil ponderado de orden N. Ejemplo 2: 1( 2) 4(6) 1(1) 1(6) 4(4) 1(5) 1(1) 4 (5) 1(3) 1(5) 4(3) 1(7) 1(3) 4(7) 1(2) , , , , 1 4 1 1 4 1 1 4 1 1 4 1 1 4 1 4, 5, 2, 5, 4, 0, 4, 0, 5, 5 292 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS OCURRENCIA DE EMERGENCIAS A NIVEL NACIONAL 1995 – 2005 AÑOS DEPARTAMENTO TOTAL 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 TOTAL 18122 4773 4038 3316 1376 1110 116 522 687 480 311 393 AMAZONAS 1076 294 282 202 68 36 86 16 44 20 16 12 ANCASH 357 60 58 23 16 15 25 29 50 36 20 25 APURIMAC 1191 562 236 253 54 41 8 13 9 5 6 4 AREQUIPA 842 110 114 88 73 193 61 65 24 59 15 10 AYACUCHO 1023 448 256 162 39 46 15 14 7 8 8 20 CAJAMARCA 1233 395 259 198 141 59 74 39 31 19 14 4 CALLAO 260 57 54 30 25 26 31 7 2 7 10 11 CUSCO 986 215 212 226 63 74 28 20 45 51 27 25 HUANCAVELICA 858 268 265 149 45 19 66 9 19 6 2 10 HUANUCO 706 301 146 100 14 17 54 14 21 14 9 16 ICA 178 49 31 23 2 2 10 19 14 4 6 18 JUNIN 402 76 101 72 27 16 42 13 14 15 16 10 LA LIBERTAD 344 69 43 31 18 16 19 49 72 12 9 6 LAMBAYEQUE 195 17 51 7 8 105 11 14 64 5 2 3 LIMA 1521 269 279 243 115 102 182 58 49 36 83 102 LORETO 1645 303 369 285 144 6 279 47 56 41 6 13 MADRE DE DIOS 331 85 38 166 8 28 3 4 1 12 5 3 MOQUEGUA 314 86 53 49 52 7 13 7 2 11 2 11 PASCO 202 9 96 42 12 26 8 1 7 10 4 6 PIURA 736 191 212 138 46 50 10 18 66 15 7 7 PUNO 1281 256 432 315 112 105 30 14 19 26 17 10 SAN MARTIN 1222 278 215 276 192 71 40 16 35 26 16 23 TACNA 286 48 48 27 39 6 13 2 17 15 4 2 TUMBES 157 46 29 21 11 31 5 4 11 15 3 6 UCAYALI 776 281 159 190 52 3 3 30 8 12 4 6 293 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.9.1. MÉTODO DE LOS MÍNIMOS CUADRADOS PARA TENDENCIAS RECTILÍNEAS Este método consiste en elegir la recta de modo tal que la suma de los cuadrados de los desvíos entre los puntos representados y la recta, sea la menor posible. La ecuación de la recta es: Y = a + bx Queda determinada cuando se conocen los valores numéricos de a y b, estos valores son la solución de un sistema de dos ecuaciones con dos incógnitas: Conocidos también como ecuaciones normales del método de los mínimos cuadrados. Donde “n” nos indica el número de clases utilizadas. EJERCICIO Nº 1 Se analiza la savia de 5 árboles para determinar la cantidad de hormona vegetal que causa la caída de las hojas, para los árboles de la siguiente tabla cuando se liberan X ug de hormona vegetal ocurre la caída de Y (hojas). 294 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Determinar: a. La ecuación de la Tendencia Rectilínea para los datos de la tabla. b. Utilice la ecuación de la Tendencia Rectilínea para estimar el Nº de hojas que caen en otro tipo de árbol que libera 100ug de hormona vegetal. X Y XY X2 Y*t 28 208 5824 784 183.66840630 57 350 19950 3249 448.53322712 38 300 11400 1444 275.00111830 75 620 46500 5625 612.93215280 82 719 58958 6724 676.86505120 ∑x = ∑y = ∑xy = ∑x2 = ∑y*t = 280 2197 142632 17826 2197 na + b∑x = ∑y a∑ x + b∑x2 = ∑xy 295 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS (-56) 5a + 280 b = 2 197 (1º ecuación) 280a + 17 926 b = 142 632 (2º ecuación) -280 a – 15 680 b = -123 032 2 080 a + 17 826 b = 142 632 2 146 b = 19 600 b = 9.133271202 Reemplazando en la 1º ecuación 5 a + 280 (9.133271202) = 2197 a = -72.06318733 Aplicando en y= a + bx Y = (-72.06318733) + 9.133271202x Y = 9.133271202x – 72.06318733 a. Tendencia para datos de la tabla: Y28 = 9.133271202 (28) – 72.06318733 = 183.6684063 Y57 = 9.133271202 (57) – 72.06318733 = 448.53322712 Y38 = 9.133271202 (38) – 72.06318733 = 275.0011183 Y75 = 9.133271202 (75) – 72.06318733 = 612.9321528 Y82 = 9.133271202 (82) – 72.06318733 = 676.8650512 b. Y100 = 9.133271202 (100) – 72.06318733 = 841.2639329 Cuando se libera 100 ug de hormona vegetal, caen 84 hojas. 296 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS EJERCICIO Nº 2 Calcula la tendencia para los próximos 10 años de la siguiente serie cronológica que nos indica el movimiento económico en la facultad de farmacia con respecto a las pensiones de los alumnos. Así no se solicite el gráfico de todas maneras se realiza. Años X Y X2 XY Y* 2002 0 16’1 0 0 15.03555556 2003 1 15’4 1 15.4 15.88222223 2004 2 16’8 4 33.6 16.728888888 2005 3 17’1 9 51.3 17.575555555 2006 4 17’8 16 71.2 18.422222223 2007 5 18’8 25 94.0 19.268888889 2008 6 20’4 49 122.4 20.115555556 2009 7 21’1 64 147.7 20.962222222 2010 8 22’3 178.4 21.808888889 x = y = x2= xy = Y*t= 36 165.8 204 714 165.87987 297 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS na + b∑x = ∑y a∑ x + b∑x2 = ∑xy (-4) 9a + 36a + 36 b = 204b = 165.8 714 (1º ecuación) (2º ecuación) -36 a – 144 b = -663.2 36 a + 204 b = 714 60 b = 50.8 b = 0.84666667 Reemplazando en la 1º ecuación 9a + 36(0.8466667) = 165.8 a = 15.035555556 Aplicando en y= a + bx Y = 15.03555556 + 0.84666667x Y = 15.03555556 + 0.84666667x 298 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS a. Tendencia para datos de la tabla: Y2002 = 15.03555556 + 0.84666667 (0) = 15.0355556 Y2003 = 15.03555556 + 0.84666667 (1) = 15.8822223 Y2004 = 15.03555556 + 0.84666667 (2) = 16.728889 Y2005 = 15.03555556 + 0.84666667 (3) = 17.5755557 Y2006 = 15.03555556 + 0.84666667 (4) = 18.422224 Y2007 = 15.03555556 + 0.84666667 (5) = 19.2688891 Y2008 = 15.03555556 + 0.84666667 (6) = 20.115558 Y2009 = 15.03555556 + 0.84666667 (7) = 20.962225 Y2010 = 15.03555556 + 0.84666667 (8) = 21.8088892 b. Tendencias para los próximos 10 años Y2011 = 15.03555556 + 0.84666667 (9) = 22.655559 Y2012 = 15.03555556 + 0.84666667 (10) = 23.502226 Y2013 = 15.03555556 + 0.84666667 (11) = 24.3488893 Y2014 = 15.03555556 + 0.84666667 (12) = 25.195556 Y2015 = 15.03555556 + 0.84666667 (13) = 26.0422227 Y2016 = 15.03555556 + 0.84666667 (14) = 26.8888894 299 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Y2017 = 15.03555556 + 0.84666667 (15) = 27.7355561 Y2018 = 15.03555556 + 0.84666667 (16) = 28.5822228 Y2019 = 15.03555556 + 0.84666667 (17) = 29.4288895 Y2020 = 15.03555556 + 0.84666667 (18) = 30.2755562 300 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS EJERCICIO Nº3 Determinar la tendencia para los próximos 3 años de la siguiente serie cronológica que da a continuación: AÑOS X Y X² X. Y Y*T 2005 0 10.875 0 0 11.4392381 2006 1 12.291 1 12.291 11.68560953 2007 2 12.333 4 24.666 11.93198096 2008 3 11.666 9 34.998 12.17835238 2009 4 12.666 16 50.684 12.42472381 2010 5 12.500 25 62.500 12.67109524 X= Y= X²= X .Y = Y*T = 15 72.331 55 185.139 72.331 301 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS na + b∑x = ∑y a∑ x + b∑x2 = ∑xy (-5) (2) 6a + 15a + 15 b = 72.331 55 b = 185.139 (1º ecuación) (2º ecuación) -30 a – 75 b = -361.655 30 a + 110 b = 370.278 35 b = 8.623 b = 0.246371428 Reemplazando en la 1º ecuación 6a + 15 (0.246371428) = 72.331 a = 11.4392381 Aplicando en y= a + bx Y = 15.03555556 + 0.84666667x Y = 11.4392381 + 0.246371428x 302 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS a. Tendencia para datos de la tabla: Y2005 = 11.4392381 + 0.246371428 (0) = 11.4392381 Y2006 = 11.4392381 + 0.246371428 (1) = 11.68560953 Y2007 = 11.4392381 + 0.246371428 (2) = 11.93198096 Y2008 = 11.4392381 + 0.246371428 (3) = 12.17835238 Y2009 = 11.4392381 + 0.246371428 (4) = 12.42472381 Y2010 = 11.4392381 + 0.246371428 (5) = 12.67109524 b. Tendencias para los próximos 10 años Y2011 = 11.4392381 + 0.246371428 (6) = 12.91746667 Y2012 = 11.4392381 + 0.246371428 (7) = 13.1638381 Y2013 = 11.4392381 + 0.246371428 (8) = 13.41020952 303 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS EJERCICIO Nº 4 Estimar la tendencia por el método de lo Mínimos Cuadros de las Libretas de una Caja de Abarrotes con Arreglo a la edad de sus titulares y el saldo que representan una cierta fecha con el objeto de estimar la relación entre las edades (X) y los saldos (Y), calcular los valores presuntos de los saldos correspondientes para personas de 22 y 50 años de edad, tanto gráficos como numéricamente. Edades X Saldos Y 5 12 792 15 11 346 25 17 941 35 19 313 45 18 000 55 15 181 X Y XY X2 Y*t 5 12,792 63,960 25 13,385.09524 15 11,346 170,190 225 14,335.92381 25 17,941 448,525 625 15,286.75238 35 19,313 675,955 1,225 16,237.58095 45 18,000 810,000 2,025 17,188.40952 55 15,181 834,955 3,025 18,139.23809 x = x = y = xy = x2 = 180 94,573 3´003,585 7,150 94,573 304 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS a b x y a x b x 2 xy (30) 6 a 180 b 94,573 180 a 7150 b 3´003,585 180 a 5,400 b 2´837,190 180 a 7,150 b 3´003,585 1,750 b 166,395 b 95.08285714 6 a 180 (95.08285714) 94,573 a 12,909.68095 Y a bx Y 12,909.68095 95.08285714 x 305 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 306 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 307 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.9.2. METODO SIMPLIFICADO DE LOS MINIMOS CUADRADOS Consiste en el empleo de fórmulas simplificadas para lo cual a las ecuaciones normales de los mínimos cuadrados hacemos la ∑X igual a cero. Si ∑x = 0 Primero Hallamos el valor de “a” na = ∑Y Hallamos el valor de “b” b∑ X2 = ∑ X Y NOTA: El método simplificado de los mínimos cuadrados se recomienda para la aplicación en series cronológicas que tengan un número impar de clases. 308 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.10. LA CORRELACIÓN ( r ) Es el grado de relación que se pude establecer entre las variables y que se estudia para determinar en que medida una ecuación lineal describe la relación entre 2 fenómenos que han sido medidos en diferentes unidades pudiendo ocurrir los siguientes casos: 1. Que estos fenómenos estén íntimamente ligados unos de otros, como sucede con las presiones y volúmenes de un gas a temperatura constante, las circunferencias y los radios. R = +- 1 2. Qué estos fenómenos serán completamente independientes uno de otro como por ejemplo: El número anual de nacimientos en Lima y la producción anual de arroz en el Japón. R=0 3. Que entre estos fenómenos considerados halla una relación más o menos fuerte como por ejemplo: Como la talla de los padres y de sus descendientes (este tercer caso se dice que están en correlación). Siendo su caso más frecuente en administración, economía, demografía, industria, etc. 4. El problema que se plantea es de poder asegurar la existencia de una relación de dependencia entre los valores de uno y otro, y determinar la forma algebraica o por lo menos gráfica de tal relación de dependencia. 309 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Ejemplo donde se aplica la correlación: Alcoholismo y criminalidad. Consumo de cierto producto y la inversión en publicidad. Analfabetismo y bajo ingreso per-cápita de la población. Consumo de tabaco y las enfermedades cardiacas. Influencia de la temperatura invernal y la incidencia de las enfermedades respiratorias. Belleza e inteligencia. Aptitud de la música y para las matemáticas. Gráficos ideales de la correlación 310 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 311 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 312 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS PARÁMETROS DE LA CORRELACIÓN (-1 --- +1) Si todos los valores de las variables satisfacen una ecuación se dice que las variables están correlacionados perfectamente ósea hay una correlación perfecta entre ellos. Ejemplo: La longitud de la circunferencia y los radios. Se lanzan simultáneamente 2 datos 100 veces no hay relación entre los puntos correspondientes a cada lado (a menos que los dedos están cargados) es decir no están correlacionados. Las variables, altura y peso de los individuos muestran cierta circulación. 313 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Cuando se trata de 2 variables se habla de correlación lineal simple, cuando se trata de 2 variables se habla de correlación múltiple y de regresión múltiple. Si todos los puntos de un diagrama de dispersión sin encontrarse sobre la recta o cerca de la ella a correlación se dice que es lineal. Si y tiene a incrementarse cuando se incrementa X, la correlación se dice negativo o correlación inversa. Si todos los puntos parecen estar cerca de una curva la correlación se dice no lineal y una ecuación no lineal es la apropiada para la regresión o estimación. Si no hay ninguna relación entre los variables se dice que no hay correlación entre ellos es decir no están correlacionados. Nota La correlación fluctúa +1 y -1 pasando por cero. Existen correlación cuando se acerca los extremos +1 - 1 no existe cuando se acerca a cero. 8.11. REGRESION Cuando x está en función de Y Se obtiene haciendo en las ecuaciones normales en el método de los mínimos cuadrados, donde x esta en función de y FORMULA PARA OBTENER LA TENDENCIA Y LA REGRESIÓN 314 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS b) MÍNIMO CUADRADOS (ECUACIÓN NORMAL) c) FÓRMULAS SIMPLIFICADAS 315 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS d) MÉTODO PRODUCTO. MOMENTO 316 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS CALCULO DEL COEFICIENTE DE CORRELACIÓN Para Calcular el coeficiente de correlación entre 2 grupos de valores que miden 2 fenómenos diferentes se emplean las siguientes fórmulas: 317 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Ejercicio: Determinar el coeficiente de correlación y su gráfica correspondiente de las siguientes variables. X Y X2 XY Y2 1 1 1 1 1 3 2 9 6 4 4 4 16 16 16 6 4 36 24 16 8 5 64 40 25 9 7 81 63 49 11 8 121 88 64 14 9 196 126 81 x=56 y=40 x2= 524 xy=364 y2= 256 318 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS r r xyxy x2 x2y2 y2 8364 5640 8524 562 8256 402 r 2912 2240 4192 31362048 1600 r 672 1056448 r 672 687 .8139283 r = 0.977008421 a b x y a x b x 2 xy (-7) 8a + 56 b = 40 56a + 524b = 364 319 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS -56a - 392 = -280 56a + 524b = 364 132b b = 84 = 84/132 b = 0.636363636 Reemplazando: 8a + 56b = 40 8a + 56 ( 0.636363636) = 40 8a + 35.63636364 = 40 8a = 40 - 35.63636364 8a = 4.36363636 a = 0.54545454 yx xxy a x x 2 2 2 a = (40) (524) – (56) (364) 8 (524) – (56)2 a = 0.54545454 320 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS b xy x y x 2 x 2 b= 8 (364) – (56) (40) 8 (524) – (56)2 b = 0.63636363 TENDENCIA: y = a + bx Y = 0.5454 + 0.6363 a b y x a y b y 2 xy (-5) 8a + 40b = 56 40a + 256b = 364 -40a - 200b = -280 40a + 256b = 364 56b = 84 b = 84/56 321 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS b = 1.5 8a + 40b = 56 8a + 40 ( 1.5) = 56 8a + 60 = 56 8a = 56 - 60 8a = -4 a = -4/8 a = - 0.5 TENDENCIA: X = a + by x = -0.5 + 1.5y 322 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 323 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS EJERCICIO: Experimentalmente se ha encontrado las siguientes cifras durante el proceso del estudio del secado de cierta madera por el método del vapor recalentado determinar el coeficiente de correlación y su grafico correspondiente haciendo uso del método de los mínimos cuadrados y de las fórmulas simplificadas. Tiempo X Contenido de Humedad Y 0 50% 1 34% 2 24% 3 18% 4 14% 5 11% x = 15 y = 151% X Y X2 XY Y2 0 50 0 0 2500 1 34 1 34 1156 2 24 4 48 576 3 18 9 54 324 4 14 16 56 196 5 11 25 55 121 x = 15 y = 151 x2 = 55 xy = 247 y2 = 4873 324 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS r r xyxy x2 x2y2 y2 6247 15151 655 152 64873 1512 r 1482 2265 330 22524238 2280 r 783 105 6437 r 783 822 . 1222537 r = - 0.952413094 a b y x a y b y 2 xy 325 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS (-151) 6a (6) + 151b = 15 151a + 4873b = 247 -906a - 2280b = -2265 906a + 29238b = 1482 6437b = -783 b = -783/6437 b = -0.121640515 6a + 151b = 15 6a + 151 ( -0.121640515) = 15 6a = 33.36771777 a = 5.561286295 TENDENCIA: X = a + by x = 5.561286295 – 0.121640515y y x xxy a x x 2 2 2 326 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS a = (15) (4873) – (151) (247) 6 (4873) – (151)2 a = 5.561286314 b xy x y x 2 x 2 b= 6 (247) – (15) (151) 6 (4873) – (151)2 b = - 0.121640515 TENDENCIA: y = a + bx x = 5.561286314 – 0.121640515 y a b x y a x b x 2 xy (-5) 6a + 51 b = 151 327 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS (2) 15a + 55b = 247 -30a - 75 = -755 30a + 110b = 494 35b = -261 b = -261/35 b = -7.457142857 6a + 51b = 151 6a + 51 ( -7.457142857) = 151 6a - 111.8571429 = 151 6a = 151 + 111.857142857 6a = 262.8571429 a = 43.80952382 y x x xy a x x 2 2 a 2 15155 15247 2 655 15 a 8305 3705 330 225 328 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS a 4600 105 a = 43.80952382 b xy x y b x 2 x 2 6247 15151 2 655 15 b 1482 2265 330 225 b 783 105 b = -7.457142857142857 TENDENCIA: Y = a + bx y = 43. 80952382 -7.457142857142857x 329 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 8.12. METODO PRODUCTO MOMENTO Este método difiere de los métodos de los mínimos cuadrados en que mediante la aplicación de fórmulas simplificadas se obtiene hasta 8 estadígrafos diferentes. Este método digiere también en que no es necesario encontrar por separado los valores de a y b de las tendencias obteniendo directamente las ecuaciones. Después de este método se hace uso principal de la media aritmética según la cual la ∑ algebraica de los desvíos de un conjunto de datos con respecto a su media aritmética es igual a 0 determinando nuevos valores de x, y. Este método nos da directamente el significado de la correlación y de las fórmulas para su gráfico. 1. FORMULA PARA CALCULAR EL COEFICIENTE DE CORRELACION 2. FORMULA PARA CALCULAR LA ECUACIÓN DE LA TENDENCIA Y EN FUNCION DE X. a. X f(y) — Y = a + bx 330 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 3. FORMULA PARA CALCULAR LA REGRESION X EN FUNCION DE Y. a. X f(y) — X = a + by 4. FORMULA PARA CALCULAR LA VARIANZA DE LOS VALORES DE X. 5. FORMULA PARA CALCULAR LA VARIANZA DE LOS VALORES DE Y. 6. FORMULA PARA CALCULAR LA DESVIACION STANDAR DE LOS VALORES DE X. 331 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 7. FORMULA PARA CALCULAR LA DESVIACION STANDAR DE LOS VALORES DE X. 8. FORMULA PARA CALCULAR LA CO-VARIANZA EJERCICIO - Calcular mediante el método de los productos momento sus 8 estadígrafos. - Confirmar los datos en cuanto a la correlación mediante el método de las ecuaciones normales de los mínimos cuadrados con respecto a la estatura de sus padres con la de sus hijos primogénitos. 332 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS X Y X² X .Y Y² Y*T 65 68 - 1.66 0.42 2.7556 -0.6972 0.1764 66.78921 63 66 - 3.66 - 1.58 13.3956 5.7828 2.4964 65.83645 67 68 0.34 0.42 0.1156 0.1428 0.1764 67.74196 64 65 -2.66 -2.58 7.0756 6.8628 6.6564 66.31283 68 69 1.34 1.42 1.7956 1.9028 2.0164 68.21834 62 66 -4.66 -1.58 21.7156 7.3628 2.4964 65.36007 70 68 3.34 0.42 11.1556 1.4028 0.1764 69.17110 66 65 -0.66 -2.58 0.4356 1.7028 6.6564 67.26558 68 71 1.34 3.42 1.7956 4.5828 11.6964 68.21834 67 67 0.34 -0.58 0.1156 -0.1972 0.3364 67.74196 69 68 2.34 0.42 5.4756 0.9828 0.1764 68.69472 71 70 4.34 2.42 18.8356 10.5028 5.8564 69.64748 X Y X²= X .Y = Y² = Y*T= 84.6672 40.3336 38.916 810.99804 = = 800 811 66.66 67.58 333 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 1. COEFICIENTE DE CORRELACION 2. ECUACIÓN DE LA TENDENCIA Y EN FUNCION DE X. 334 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 3. REGRESION X EN FUNCION DE Y. 4. VARIANZA DE LOS VALORES DE X. 335 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 5. VARIANZA DE LOS VALORES DE Y. 6. DESVIACION STANDAR DE LOS VALORES DE X. 336 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS 7. DESVIACION STANDAR DE LOS VALORES DE X. 8. CO-VARIANZA 8.13. TENDENCIAS NO LINEALES 337 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Una línea Recta sobre una gráfica aritmética indica el incremento o decremento de una serie de tiempo en una cantidad constante, es la manera mas simple para describir el movimiento de una tendencia, frecuentemente la descripción de la Tendencia es exacta. Sin embargo en muchos casos una línea recta no puede ajustarse a los datos adecuadamente. En tal caso una curva no lineal puede describir la tendencia de la serie de tiempo mejor que una línea recta. Hay muchos tipos de tendencia no lineales: TENDENCIAS PARABOLICAS : Que mediante una ecuación de 2do. Grado obtenida a través del método de los mínimos cuadrados se pueden obtener los datos ajustados. TENDENCIAS LOGARITMICAS : Las que a su vez se clasifican en: Tendencia Exponencial o logarítmica Tendencia Exponencial modificada Tendencia Logística 338 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Curva de Gompertz Tendencia de extrapolación 8.13.1. TENDENCIA PARABOLICA La forma general de la ecuación polinomial de las tendencias parabólica es: Cuando se usa la ecuación polinomial para describir movimiento de Tendencias no lineal generalmente son escritas en su forma más simple. 339 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Que tiene tres parámetros: a, b, c la cual se determina por el método simplificado de los mínimos cuadrados. La ecuación polinomial de 2do. Grado también llamada parábola recibe el nombre de 2do. Grado porque la más alta potencia de la variable x es 2. Puesto que hay 3 variables o constantes desconocidas necesario desarrollar a, b, c, en la ecuación es 3 ecuaciones para resolver las incógnitas. Las 3 ecuaciones normales desarrolladas mediante el método de los mínimos cuadrados son: En la práctica son simplificadas antes de emplearse para encontrarse las incógnitas de la ecuación polinomial de 2do grado para una serie de tiempo. La simplificación se logra haciendo que la suma de los valores de x, los cuales son asignados para representar los años de la serie de tiempo sea igual a cero (0). Haciendo que la sumatoria de x sea igual a 0 entonces: 340 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS A fin de hacer que la sumatoria de X sea igual a 0, por lo tanto la sumatoria de X3 = 0. El origen de la variable X debe ser localizado en el centro del periodo incluido en la serie tiempo. MEDICION DE TENDENCIAS MEDIANTE LOGARITMO 341 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Las tendencias pueden ser también dibujadas en un papel semi-logaritmico en la forma de una línea recta o una curva no lineal. Cuando es una recta en una gráfica semi-logaritmica, la tendencia muestra el incremento de los valores de Y de una serie de tiempo ha una tasa constante (una línea recta en una gráfica aritmética indica que el crecimiento ocurre en una cantidad constante). Cuando es una curva no-lineal en una gráfica semi-logaritmica. Una curva ascendente muestra un crecimiento a tasas variables que dependen de las formas de las pendientes, mientras más pronunciado es la pendiente mayor será la tasa de crecimiento. Las tendencias logarítmicas pueden ser de dos tipos: 1) De Tendencia Exponencial. 2) Curvas de Crecimiento. Entre las Tendencias Exponenciales tenemos: A) La Tendencia Exponencial propiamente dicha B) La Exponencial modificada Entre las curvas de Crecimiento tenemos: A) La tendencia Logística B) LaCurva de Gompertz. C) La tendencia de Extrapolación. 8.13.2. LA TENDENCIA EXPONENCIAL 342 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Existe muchas series cronológicas que tienden a variar: ascender o descender en forma geométrica, cuya tendencia se puede expresar mediante una curva exponencial. Como ejemplo se puede mencionar: El crecimiento de la población demográfica. La evolución del Ingreso nacional. Los depósitos en ahorros. La tendencia exponencial de una serie es una línea recta, en una gráfica semilogarítmica; y es una curva en una gráfica aritmética. La tendencia exponencial de una serie esta descrito mediante el siguiente modelo matemático. Donde a y b son los parámetros y la variable x (= tiempo) está como exponente. Tomado logaritmos en ambos miembros tenemos: Partiendo de las ecuaciones normales de los mínimos cuadrados: Donde los parámetros Log a, Log b, se obtienen de las siguientes ecuaciones normales en función de los logaritmos: 343 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Si deseamos obtener por el método simplificado de los mínimos cuadrados, fórmulas simplificadas, tenemos que hacer la: 344 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Si queremos transformar la tendencia logarítmica a tendencia exponencial encontramos el antilogaritmo. La tendencia exponencial también se utiliza cuando se tiene series cronológicas en los cuales interesa calcular de la variación en un período dado. Si en la Ecuación Exponencial Donde r es la tasa de crecimiento, se convierte la ecuación que corresponde a la fórmula de interés compuesto cuya expresión más conocida es M = c (1 + r) t donde M es el resultante al final de “t” periodos donde C es el capital invertido a una tasa de interés, “r” con capitalización en cada periodo 345 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Glosario Estadístico Aleatorio(a): Fundado sobre la intervención del azar o independientemente de otros acontecimientos. Análisis de perfil. Método para analizar datos del diferencial semántico, en el cual una media aritmética o mediana se calcula para cada conjunto de opuestos polares y para cada objeto evaluado. Análisis de regresión simple. Procedimiento para derivar una relación matemática, en forma de ecuación, entre una variable dependiente métrica y una variable independiente métrica. Análisis de regresión: Procedimiento estadístico para analizar las relaciones de asociación entre una variable dependiente métrica y una o más variables independientes. Atributos: Variables cualitativas que sólo poseen categorías. Autocorrelación: Es la correlación que existe entre una variable desfasada uno o más periodos y la misma variable. Beta: Probabilidad de cometer un error de tipo II. Censo: Conteo completo de los elementos de una población u objetos de estudio. Certidumbre: 346 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Ambiente de decisión en el que sólo existe un estado de naturaleza. Coeficiente de correlación parcial: Medida de la asociación entre dos variables después de controlar o ajustar los efectos de una o más variables adicionales. Coeficiente de correlación: Raíz cuadrada del coeficiente de determinación. Su signo indica la dirección de la relación entre dos variables, directa o inversa. Coeficiente de determinación múltiple: Porcentaje de la variación de la variable dependiente que es explicado por la regresión. R2 mide qué tan bien la regresión múltiple se ajusta a los datos. Coeficiente de determinación: Medida de la proporción de variación en Y, la variable dependiente, que es explicada por la línea de regresión, esto es, por la relación de y con la variable independiente. Coeficiente de variación: Medida relativa de la dispersión, comparables por medios distribuciones diferentes, que expresa la desviación estándar como porcentaje de la media. Correlación de rango: Método para hacer análisis de correlación cuando los datos no están disponibles en forma numérica, pero cuando la información es suficiente para clasificar los datos. Correlación serial: Existe cuando las observaciones sucesivas a través del tiempo se relacionan entre sí. 347 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Correlación: Es una medida de la relación entre dos o más variables. La correlación puede tomar valores entre –1 y +1. El valor de –1 representa una correlación negativa perfecta mientras un valor de +1 representa una correlación perfecta positiva. Un valor de 0 representa una falta de correlación. Covarianza: Relación sistemática entre dos variables, en la cual el cambio en una implica un cambio correspondiente en la otra. Cuartil: Percentil cuyo valor que indica su proporción es un múltiplo de 25. Primer cuartil es el percentil 25, segundo cuartil es la mediana, tercer cuartil es el percentil 75. Cuestionario: Técnica estructurada para recopilar datos, que consiste en una serie de preguntas, escritas u orales, que debe responder un entrevistado. Curtosis: El grado de agudeza de una distribución de puntos. Datos continuos: Datos que pueden pasar de una clase a la siguiente sin interrumpirse y que pueden expresarse mediante números enteros o fraccionarios. Datos discretos: Datos que no pasan de una clase a la siguiente sin que haya una interrupción; esto es, en donde las categorías representan valores o cuentas distintas que pueden representarse mediante números enteros. 348 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Datos externos: Datos que se obtienen de una fuente diferente de la organización para la cual se está llevando a cabo la investigación. Datos primarios: Datos que origina el investigador para aplicarse, específicamente, al problema de investigación. Datos secundarios: Datos recopilados para un propósito diferente al problema que se está manejando. Datos sin procesar: Información antes de ser organizada por métodos estadísticos. Datos. Colección de Cualquier número de observaciones relacionadas sobre una o más variables. Decil: Percentil cuyo valor que indica su proporción es un múltiplo de diez. Percentil 10 es el primer decil, percentil el segundo decil, etc. Deflación de precios: Es el proceso mediante el cual se expresan términos de una serie en colones constantes. Depuración de los datos: Revisiones extensas y a fondo para la consistencia y el manejo de las preguntas no respondidas. Desviación estándar: 349 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Raíz cuadrada positiva de la varianza; medida de dispersión con las misma unidades que los datos originales, más bien que en las unidades al cuadrado en que está la varianza. Dispersión: La extensión o variabilidad de un conjunto de datos. Distribución asimétrica: Se presenta cuando la distribución de un conjunto de datos resulta con un promedio, una mediana y una moda con valores diferentes; también se considera como una distribución "sesgada". Distribución bimodal: Distribución de puntos de datos en la que dos valores se presentan con mas frecuencias que los demás elementos del conjunto de datos. Distribución binomial: Distribución que describe los resultados de un experimento conocido como proceso de Bernoulli. Distribución de frecuencias relativas: Despliegue de un conjunto de datos en el que se muestra la fracción o porcentaje del total del conjunto de datos que entra en cada elemento de un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. Distribución de frecuencias: Distribución matemática cuyo objetivo es obtener un conteo del número de respuestas asociadas con los distintos valores de una variable y expresar estos conteos en términos de porcentajes. Distribución de ji cuadrada: 350 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Distribución asimétrica cuya forma depende únicamente del número de grados de libertad. Conforme se incrementa el número de grados de libertad, la distribución de ji cuadrada se hace más simétrica. Distribución de la muestra: La distribución de los valores de la estadística de una muestra (calculada para cada muestra posible), que pueda tomarse de la población meta de acuerdo con un plan de muestreo específico. Distribución de muestreo de la media: Una distribución de probabilidad de todas las medias posibles de muestras de un tamaño dado, n, de una población. Distribución de muestreo de una estadística: Para una población dada, distribución de probabilidad de todos los valores posibles que puede tomar una estadística, dado un tamaño de muestra. Distribución de Poisson: Distribución discreta en la que la probabilidad de presentación de un evento en un intervalo muy pequeño es un número también pequeño, la probabilidad de que dos o más de estos eventos se presenten dentro del mismo intervalo es efectivamente igual a cero, y la probabilidad de presentación del evento dentro del periodo dado es independiente de cuándo se presenta dicho periodo. Distribución de probabilidad: Lista de los resultados de un experimento con las probabilidades que se esperarían ver asociadas con cada resultado. Distribución discreta de probabilidad: 351 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Distribución en la que la variable tiene permitido tomar solamente un número limitado de valores. Distribución F: Familia de distribuciones diferenciadas por dos parámetros (grados de libertad del numerador, grados de libertad del denominador), utilizada principalmente para probar hipótesis con respecto a variancias. Distribución hipergeométrica: La distribución correcta para calcular el riesgo del consumidor; a menudo se le aproxima mediante la distribución binomial. Distribución Ji-cuadrada: Familia de distribuciones de probabilidad, diferenciadas por sus grados de liberta, que se utiliza para probar un cierto número de hipótesis diferentes acerca de varianzas, proporciones y bondad de ajuste de distribuciones. Distribución normal estándar: Distribución normal de probabilidad con media cero y una desviación estándar de 1. Distribución normal: Distribución de una variable aleatoria continua que una curva de un solo pico y con forma de campana. La media cae en el centro de la distribución y la curva es simétrica con respecto a una línea vertical que pase por la media. Los dos extremos se extienden indefinidamente, sin tocar nunca el eje horizontal. Base para la inferencia estadística clásica que tiene forma de campana y apariencia simétrica. Todas sus medias de tendencias central son idénticas. 352 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Distribución t de Student: Familia de distribución de probabilidad que se distinguen por sus grados de libertad individuales; es parecida, en forma, a la distribución normal; y se utiliza cuando se desconoce la desviación estándar de la población y el tamaño de la muestra es relativamente pequeño (< 30). Distribución uniforme: Es una distribución de frecuencia del conjunto de los enteros no negativos. La frecuencia asignada a cualquiera de los enteros no negativos es 1, y la medida de la frecuencia cualquier conjunto A de enteros no negativos es su medida de conteo. Distribuciones de frecuencias acumuladas: Despliegue de datos en forma de tabla que muestra cuántos datos están por encima o por debajo de ciertos valores. Distribuciones de frecuencias: Despliegue organizado de datos que muestran el número de observaciones del conjunto de datos que entran en cada una de las clases de un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. División de la variación total: En el ANOVA unidireccional, separación de variación observada en la variable dependiente en la variación debida a las variables independientes más la variación debida al error. Dominios: Denotan subclases que han sido planeadas específicamente en el diseño de la muestra. Encuestas de mercado: 353 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Una encuesta de mercado puede servir como un medio para evaluar el impacto que el producto está teniendo en el mercado. Se pueden hacer preguntas que retroalimenten el diseño, el proceso o la calidad de materiales usados. Encuesta: Recaudación sistemática de informaciones cerca de una población definida para estudiar sus características, a través del juego de formularios aplicados sobre una muestra de unidades de población. La encuesta constituye así la base del sistema de información estadística, permitiendo proporcionar datos completos y fiables. Error aleatorio: Error que surge de diferencias o cambios aleatorios en los entrevistados o las situaciones de medición. Error de medición: La variación en la información que el investigador y la información que genera el proceso de medición empleado. Error de muestreo: Error o variación entre estadísticas de muestra debido al azar; es decir, diferencias entre cada muestra y la población, y entre varias muestras que se deben únicamente a los elementos que elegimos para la muestra. Error estándar de la estimación: Medida de la confiabilidad de la ecuación de estimación, que indica la variabilidad de los puntos observados alrededor de la línea de regresión, esto es, hasta qué punto los valores observados difieren de sus valores predichos sobre la línea de regresión. 354 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Error estándar de la media: La desviación estándar de la distribución de muestreo de la media; una medida del grado en que se espera que varíen las medias de las diferentes muestras de la media de la población, debido al error aleatorio en el proceso de muestreo. Error estándar de un coeficiente de regresión: Medida de nuestra incertidumbre acerca del valor exacto del coeficiente de regresión. Error estándar del coeficiente de regresión: Medida de la variabilidad del coeficiente de regresión de muestra alrededor del verdadero coeficiente de regresión de población. Error estándar: La desviación estándar de la distribución de muestreo de una estadística. Error muestral: Diferencia entre el estadístico observado de la muestra probabilística y el parámetro de la población. Error por falta de muestreo: Error que puede atribuirse a fuentes distintas a la del muestreo; puede ser aleatorio o no. Espacio muestral: Conjunto de todos los resultados posibles de un experimento. Esperanza: La esperanza (valor esperado o media) de una variable aleatoria discreta es la suma de los productos de sus valores por sus probabilidades asociadas. Estadística: 355 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. Estadística de ji cuadrada: Dato que se utiliza para probar la significación estadística de la asociación observada en una tabulación cruzada. Nos ayuda a determinar si existe una asociación sistemática ente las dos variables. Estadística de prueba: Medida de cuánto se acerca la muestra a la hipótesis nula. Con frecuencia, sigue una distribución muy conocida, como la normal, t de Student o ji cuadrada. Estadística descriptiva: Es la ciencia que analiza, organiza, recopila e interpreta información cualitativa en gráficas o tablas y se encarga de establecer los parámetros que definen una población. Estadística inferencial: Es el tipo de estadística que interpreta la información de tal manera que nos pueda llevar a sacar conclusiones válidas, a partir del estudio de una muestra. Estadística F: Relación de las varianzas de dos muestras. Estadística t: Estadística que supone que la variación tiene una distribución simétrica en forma de campana, que se conoce la media (o se supone que se conoce) y que la varianza de la población se estima a partir de la muestra. 356 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Estadística: Ciencia que trata del desarrollo y aplicación de métodos eficientes de recolección, elaboración, presentación, análisis e interpretación de datos un méricos. Mediciones que describen las características de una muestra. Estadístico: Descripción resumida de una medida en la muestra seleccionada. Evento: Uno o más de los resultados posibles de hacer algo, o uno de los resultados posibles de realizar un experimento. Eventos independientes: Dos eventos evento son independientes si el conocimiento de que uno ocurrirá o ya ha ocurrido no afecta la probabilidad del otro; más precisamente, si la probabilidad condicional de cada uno dada por el otro es la misma que la probabilidad incondicional. Eventos mutuamente excluyentes: Eventos que no pueden presentar juntos. Escala de Intervalo: Escala de medición que permite calcular diferencias (además de asignar nombres y orden) entre los datos. Escala Nominal. Escala de medición que sólo permite asignar nombres a los datos. Escala Ordinal: Escala de medición que permite asignar orden (además de nombres) a los datos. Experimento: 357 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Proceso de manipular o observar datos de una o más variables independientes y medir su efecto sobre una o más variables dependientes, mientras se controlan las variables extrínsecas. Frecuencia absoluta: Es el número de veces que ocurre un cierto suceso, en la proporción de veces que ocurre dicho suceso con relación al número de veces que podría haber ocurrido. Frecuencia relativa: Porcentaje de elementos totales que aparecen en una determinada categoría. Frecuencia acumulada: En una tabla de frecuencias, cuando la variable es cuantitativa y, por tanto, los distintos valores de la tabla aparecen ordenados de menor a mayor, se llama frecuencia acumulada de un valor de la variable a la suma de su frecuencia con las frecuencias de los valores anteriores. Grados de libertad: Número de valores de una muestra que podemos especificar libremente, después de que ya sabemos algo sobre dicha muestra. Gráfica lineal: Presentación gráfica de magnitud en el conjunto de datos mostrado por la pendiente de una línea (o líneas) que ha sido situada con respecto a una escala horizontal o vertical. Gráfico circular: Círculo que divide en secciones de tal manera que el tamaño de cada una de éstas corresponde a una proporción del total. 358 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Gráfico de barras: Presentación gráfica de magnitud en el conjunto de datos, representada por la longitud de diferentes barras trazadas con referencia a una escala horizontal o vertical. Gráfico de histogramas: Representación gráfica de un conjunto de datos formada por rectángulos, de una tabla de frecuencias cuya variable es numérica, de modo que cada dato de la muestra ocupa igual área que los demás. Heteroscedasticidad: Se presenta cuando los errores o residuos no tienen una varianza constante a través de un rango completo de valores. Hipótesis alternativa: Afirmación de que se espera alguna diferencia o efecto. La aceptación de la hipótesis alternativa dará lugar a cambios en las opiniones o acciones. Hipótesis nula: Afirmación en la cual no se espera ninguna diferencia ni efecto. Si la hipótesis nula no se rechaza, no se hará ningún cambio. Hipótesis simple: Es aquella que especifica completamente la distribución de la población principal Hipótesis: Enunciado o proposición no probados acerca de un factor o fenómeno de interés para el investigador. Una hipótesis estadística a un enunciado respecto a una población y usualmente es un enunciado respecto a uno a más parámetros de la población. 359 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Indicador: Se trata de un número o de un índice (un valor sobre una escalera de medida) derivado de la observación de un conjunto de fenómenos. Variable que permite evaluar ciertos cambios en el curso del tiempo. Incertidumbre: Falta de un conocimiento completo acerca de los posibles resultados de las acciones, con desconocimiento de las probabilidades de los posibles resultados. Inferencia estadística: Proceso de generalizar los resultados de la muestra a los resultados de la población. Información de clasificación: Características socioeconómicas y demográficas que se utilizan para clasificar a los entrevistados. Información de identificación: Tipo de información que se obtiene en un cuestionario y que incluye el nombre, domicilio y número telefónico. Informe de investigación: Presentación de los resultados de la investigación dirigido a una audiencia específica para obtener un determinado propósito. Intervalo de confianza: Intervalo de valores que tiene designada una probabilidad de que incluya el valor real del parámetro de la población. Intervalo muestral: 360 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Tamaño de la distancia ente los elementos seleccionados en un muestreo sistemático; el reciproco de la fracción muestral. Límites de confianza: Límites inferior y superior de un intervalo de confianza. Línea de regresión: Una línea ajustada a un grupo de puntos para estimar la relación entre dos variables. Media: El promedio; valor que se obtiene al sumar todos los elementos en un conjunto y dividirlos entre el número de elementos. Mediana: Medida de tendencia central que se da como el valor arriba del cual caen la mitad de los valores y abajo del cuál cae la otra mitad. Medidas de dispersión: Estadísticas que expresan criterios para describir la ubicación relativa de los datos. Medidas de localización: Estadísticas que describen características generales de la ubicación de los datos dentro de un conjunto de valores posibles. Medida de distancia: Medida de dispersión en términos de la diferencia entre dos valores del conjunto de datos. Medidas de tendencia: Estadística que describe una ubicación dentro de un conjunto de datos. Las medidas de la tendencia describen el centro de la distribución. 361 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Medidas de variabilidad: Estadística que indica la dispersión de la distribución. Moda: Medida de tendencia central que se da como el valor que ocurre con mayor frecuencia en la distribución de una muestra. Muestra: Es una parte representativa que refleja las similitudes y diferencias de la población y que son importantes para la investigación, se podría decir que es el subconjunto seleccionado de la población; por eso se suele seleccionar un subgrupo que sea suficientemente representativo, pero tiene que tener datos que puedan servir para conclusiones generalizadas. Muestra aleatoria / muestra de probabilidad: Tipo de muestra caracterizada por una selección de sujetos basada en la ley de las probabilidades; un procedimiento de preparación de muestras es aleatorio, o probabilista, cuando todos los elementos de la población tienen una posibilidad de ser recuperados en la muestra: la probabilidad de elección de cada elemento de la población debe ser conocida por progreso. Se trata del único método general capaz de atribuir un valor numérico preciso a la estimación. Muestreo aleatorio simple: Métodos de selección de muestras que permiten a cada muestra posible una probabilidad igual de ser elegida y a cada elemento de la población una oportunidad igual de ser incluidos en la muestra. Muestreo aleatorio: 362 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Las técnicas de muestreo aleatorio aseguran que cada elemento en la población de interés tenga una probabilidad (no nula) de ser incluido en la muestra. Muestra aleatoria / muestra de probabilidad: Tipo de muestra caracterizada por una selección de sujetos basada en la ley de las probabilidades; un procedimiento de preparación de muestras es aleatorio, o probabilista, cuando todos los elementos de la población tienen una posibilidad de ser recuperados en la muestra: la probabilidad de elección de cada elemento de la población debe ser conocida por progreso. Se trata del único método general capaz de atribuir un valor numérico preciso a la estimación. Muestreo con reemplazo: Procedimiento de muestreo en el que los elementos se regresan a la población después de ser elegidos, de tal forma que algunos elementos de la población pueden aparecer en la muestra más de una vez. Muestreo sin reemplazo: Procedimiento de muestreo en el que los elementos no se regresan a la población después de ser elegidos, de tal forma que ningún elemento de la población puede aparecer en la muestra de una vez. Multicolinealidad: Problema estadístico que se presenta en el análisis de regresión múltiple, en el que la confiabilidad de los coeficientes de regresión se ve reducida debido a un alto nivel de correlación entre las variables independientes. Nivel de confianza: 363 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Probabilidad que los estadísticos asocian con una estimación de intervalo de un parámetro de población. Ésta indica qué tan seguros están de que ña estimación de intervalo incluirá al parámetro de la población. Nivel de significancia: Valor que indica el porcentaje de valores de muestra que están fuera ce ciertos límites, suponiendo que la hipótesis nula es correcta, es decir, se trata de la probabilidad de rechazar la hipótesis nula cuando es cierta. Observación: El registro en forma sistemática, de patrones conductuales de personas, objetos y sucesos a fin de obtener información sobre el fenómeno de interés. Hecho de comprobar, describir, medir algo, particularmente un fenómeno, por medio de instrumentos. Ojiva: Gráfica de una distribución de frecuencias acumuladas. Parámetro: Elemento variable en función del cual se explicitan las características esenciales de un fenómeno. Se trata de una unidad de medida desconocida y cuantitativa (tal como la renta total, la renta media, la producción total, el número de desempleados) utilizada por los investigadores para estudiar a una población entera u otros ámbitos de interés. Valores que describen las características de una población. Pendiente: Constante para cualquier recta dada cuyo valor representa qué tanto el cambio de unidad de la variable independiente cambia la variable dependiente. 364 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Población de encuesta: Representa la población de estudio menos la no respuesta y cobertura deficiente. Población finita: Población que tiene un tamaño establecido o limitado. Población infinita: Población en el que es teóricamente imposible observar todos los elementos. Población meta: Conjunto de elementos u objetos que posee la información que busca el investigador y acerca del cual deben hacerse las inferencias. Población: Conjunto de todos los elementos que comparten un grupo común de características, y forman el universo para el propósito del problema de Población muestral: Subconjunto de la Población Objetivo cuyos elementos son susceptibles de ser escogidos para su estudio. Usualmente denominada población. Polígono de frecuencias: Línea que une los puntos medios de cada clase de un conjunto de datos, trazada a la altura correspondiente a la frecuencia de los datos. Ponderación: Ajuste estadístico a los datos en el cual a cada caso o entrevistado en la base de datos se asigna un valor relativo a fin de reflejar su importancia relativa para otros casos o entrevistados. Porcentaje: 365 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Cociente de un valor actual entre un valor base cuyo resultado es multiplicado por cien. Potencia de la prueba de hipótesis: Probabilidad de rechazar la hipótesis nula cuando es falsa, es decir, una medida de que tan bien funciona la prueba de hipótesis. Porcentaje: Cociente de un valor actual entre un valor base cuyo resultado es multiplicado por cien. Potencia de la prueba de hipótesis: Probabilidad de rechazar la hipótesis nula cuando es falsa, es decir, una medida de que tan bien funciona la prueba de hipótesis. Probabilidad: La posibilidad de que algo suceda. Promedio móvil: Se obtiene encontrando la media de un conjunto específico de valores y usándola después para pronosticar el siguiente periodo. Promedio: Medida de tendencia central que se obtiene sumando los datos y dividiéndolos por el número de ellos. Promedio Ponderado: Promedio de datos a los que se asigna distinta importancia relativa. Quintil: Percentil cuyo valor que indica su proporción es un múltiplo de veinte. Primer quintil es el percentil 20, segundo el percentil 40, etc. Rango intercuartílico: 366 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Rango de una distribución que indica el 50% intermedio de las observaciones. Rango: Diferencia entre los valores más bajo y más alto de una distribución. Regresión curvilínea. Asociación entre dos variables que es descrito por una línea curva. Regresión discriminante: Procedimiento de regresión en el cual las variables de predicción entran o salen de la ecuación de regresión una a la vez. Regresión múltiple: Técnica estadística que desarrolla simultáneamente una relación matemática entre dos o más variables independientes y una variable dependiente con escala de intervalo. Regresión: Proceso general que consiste en predecir una variable a partir de otra mediante medios estadísticos, utilizando datos anteriores. Relación inversa: Relación entre dos variables en la que, al incrementares la variable independiente, decrece la variable dependiente. Relación lineal: Tipo particular de asociación entre dos variables que puede describirse matemáticamente mediante una línea recta. Residual: Diferencia entre el valor observado de la variable dependiente y el valor proyectado por la ecuación de regresión. 367 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Selección del sesgo: Variable extraña que se atribuye a la asignación inadecuada de las unidades de prueba a las condiciones de tratamiento. Señal de rastreo: Comprende el cálculo de alguna medición de error a través del tiempo y el establecimiento de límites, de modo que cuando el error acumulativo rebase dicho límite, se alerte al pronosticador. Serie de tiempo: Consiste en datos reunidos, registrados u observados en incrementos sucesivos de tiempo. Serie estacionaria: Es aquella cuyo valor estacionario no cambia a través del tiempo. Serie temporal: Información acumulada a intervalos regulares, y métodos estadísticos utilizados para determinar patrones en dichos datos. Sesgo: Es el error humano, intencional o no intencional que se comete al ejecutar el muestreo y que generalmente es sistemático. Este error se minimiza a través de programas de entrenamiento, capacitación y motivación de inspectores y recolectores de información estadística. Sistema de información geográfica (SIG): Un Sistema de Información Geográfica (SIG) permite reunir, almacenar, manipular y difundir informaciones geográficas. Tablas de Frecuencias: 368 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Tabla que muestra el número de veces que en un conjunto de datos aparece cada una de las clases de interés especificadas en el recorrido de los datos. Tabulación: Es el procedimiento mediante el cual el conjunto de datos se ordenan según las categorías de determinada característica. Tamaño de la muestra: Número de unidades que se incluirán en un estudio. Tasa de fecundidad: Números de nacimientos ocurridos en cierta población durante un período, entre la población femenina en edad fértil. Teorema bayes: Fórmula para el cálculo de la probabilidad condicional bajo condiciones de dependencia estadística. Teorema de Chebyshev: No importa que forma tenga la distribución, al menos 75% de los valores de la población caerán dentro de dos desviaciones estándar a partir de la media, y al menos 89% caerá dentro de tres desviaciones estándar. Teorema del límite central: Resultado que asegura que la distribución de muestreo de la media se acerca a la normalidad cuando el tamaño de la muestra se incrementa, sin importar la forma de la distribución de la población de la que se selecciona la muestra. Variable: 369 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS Propiedad o rasgo de un hecho u objeto (no constante) por la que puede ser caracterizado o clasificado. Representación de una característica, de un atributo, que posee alguna realidad. Valor crítico: Valor de la estadística estándar(z o t) más allá del cual rechazamos la hipótesis nula; el límite entre las regiones de aceptación y de rechazo. Valor de la muestra: Es una estimación que se calcula a partir de los (n) elementos en la muestra. Es una variable aleatoria, que depende del diseño de la muestra y de la combinación particular de los elementos que resultaron seleccionados. Valor de la población: Es una expresión numérica que sintetiza los valores de una o varias características de los N elementos de una población completa; es una medida resumida de una cualidad de la distribución de la variable o variables en la población definida. Valor esperado: Es el valor promedio de una variable aleatoria en muchas pruebas u observaciones. Valor z: Número de errores estándar en que un punto se encuentra alejado de la media. Variables cualitativas: Son las que expresan distintas cualidades, características o modalidad (cada modalidad que se presenta se denomina categoría o atributo). La 370 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS medición consiste en la medición de estos atributos. Las variables cualitativas se dividen: Variable cualitativa ordinal: Cuanto toman distintos valores ordenados, que siguen una escala establecida. Las variables ordinales pueden ser dicotómicas (Solo pueden tomar dos valores posibles, ejemplo: "SÏ" o NO" u "HOMBRE" o "MUJER") o también puede ser politómicas (cuando pueden tomar 3 o más valores, ejemplo: leve, moderado, grave). Variable cualitativa Nominal: Cuando los valores que toma no pueden estar sometidos a un criterio de orden (Como los colores o lugar de residencia). Variables cuantitativas: Son las que se expresan mediante cantidades numéricas que resultan de medir o de contar, pueden ser: Variable discreta: Presenta interrupciones o separaciones, en la escala de valores que puede tomar esta variable, que indican la ausencia de valores entre los distintos valores específicos que la variable puede tomar. Solo puede tomar valores enteros. Variable continua: Esta variable adquiere cualquier valor, dentro de un intervalo de valores específicos. Puede tomar cualquier valor real dentro de un intervalo. Variable aleatoria: Es una función real en un espacio probabilístico: hace corresponder a cada evento elemental con un número real, el valor de la variable aleatoria en ese evento elemental. Variable dependiente: 371 UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS La variable que tratamos de predecir en el análisis de regresión. Variables dependientes: Variables que miden el efecto de las variables independientes sobre las unidades de prueba. Variables independientes: Variables (s) conocida(s) en el análisis de regresión. Varianza: Desviación cuadrada media de todos los valores de la media. 372