1.1. ¿QUÉ ES LA ESTADÍSTICA? Es la ciencia de recolectar, organizar, presentar, analizar e interpretar datos para ayudar en una toma de decisiones más efectiva. Para realizar esto, la Estadística toma en cuenta las siguientes acciones: Colección y recolección de datos Ordenamiento de datos Clasificación de datos Presentación numérica Presentación gráfica Cálculo de estadígrafos Relación entre dos o más variables Proyección de datos Análisis e interpretación de datos 1.2 DEFINICIÓN DE TÉRMINOS ESTADÍSTICOS 1. Estadígrafo. Es cualquier función de datos empíricos que se usa con fines descriptivos o analíticos; son MEDIDAS DE RESUMEN ESTADÍSTICO de un conjunto de datos. Por ejemplo: la media aritmética, la mediana, la varianza, el coeficiente de correlación, etc. 2. Parámetro. Es el valor obtenido para describir en forma resumida las características pertinentes o más importantes acerca de la población. Una población puede tener muchas características y por lo tanto muchos parámetros los parámetros son las MEDIDAS RESUMEN DE UNA POBLACIÓN, en tanto que las medidas de una muestra se llaman estadígrafos. 3. Población. Conjunto finito o infinito de elementos o datos que presentan una característica particular a ser analizada o estudiada. La población se presenta con la letra N. Ejemplos: La población formada por todos los alumnos del instituto (población finita o numerable) Todas las veces que aparece un tres (3) al tirar un dado. 4. Muestra. PARTE REPRESENTATIVA que se toma de una población con el fin de investigar sus características. La muestra se representa con la letra n. 5. Variable. Es toda la característica sujeta a medida, cuenta o calificación. DATO QUE SUFRE VARIACIÓN dentro de una escala o recorrido. Se representa con x, y, z. Las variables pueden ser cuantitativas o cualitativas. a. Variable Cuantitativa.- Se DESCRIBE MEDIANTE NÚMEROS. Los valores que pueden ser ordenados y medidos. Esta variable a su vez se clasifica en: DISCRETA: Cuando toma VALORES ENTEROS, o es susceptibles de contar. Generalmente se representa con X. Ejemplos: El número de miembros de una familia. El número de habitaciones de un alojamiento. CONTINUA: Toma VALORES FRACCIONADOS o es susceptibles de medir generalmente se representa con X. Ejemplos: Los pesos de la persona en Kg. Las estaturas de las personas en metros. Las remuneraciones de los empleados. El tiempo de vuelo de una aeronave b. Variable Cualitativa Se expresa MEDIANTE PALABRAS o expresados de acuerdo por su nombre. Se clasifica en: ORDINAL Son susceptibles de ordenamiento en forma implícita Ejemplo: El grado de instrucción NOMINAL Se expresan mediante sus propias denominaciones Ejemplo: La religión, color de los ojos, etc. DICOTOMICA Sólo asume uno de dos valores Ejemplo: sexo (femenino o masculino), etc. POLITOMICA Puede asumir cualquiera de varias alternativas Ejemplo: Nacionalidad (peruana, brasileña, etc.) 1.3 CLASES DE ESTADÍSTICA 1. Estadística Descriptiva Aquella cuya finalidad es solamente la de DESCRIBIR EN FORMA GENERAL un conjunto de datos, para posteriormente interpretarlos y PREPARAR CONCLUSIONES GENERALES. 2. Estadística Inferencial Aquella que realiza un ESTUDIO DETALLADO de los elementos de una determinada muestra para posteriormente poder PROYECTARLOS o GENERALIZARLOS a la población. 1.4 ETAPAS DE LA INVESTIGACIÓN ESTADÍSTICA La investigación estadística es fundamentalmente de TIPO DESCRIPTIVO, se preocupa de la confiabilidad, validez y significación de los datos, de las muestras, así como de los métodos y técnicas de recolección y análisis estadístico. En este proceso se distinguen las siguientes fases: 1ra. Recolección de datos. Se refiere a los MECANISMOS DE OBTENCIÓN DE LA INFORMACIÓN; éstos don diversos y dependen de las posibilidades de acceso o contacto con los elementos investigados, del tamaño de la población y de la oportunidad de obtener datos. 2da. Organización de datos. Después de la recolección de datos se realiza una evaluación, corrección y ajuste de datos. Luego se precede a la clasificación para la AGRUPACIÓN DE DATOS. 3ra. Presentación de datos. Son los procedimientos de elaboración de la información para ser presentados de acuerdo a un plan de TABULACIÓN que puede ser en TABLAS ESTADÍSTICAS, CUADRO RESUMEN o GRÁFICOS. 4ta. Análisis e Interpretación de datos. A través de métodos estadísticos, se calculan INDICADORES y MEDIDAS DE RESUMEN, se establecen relaciones entre dos o más variables, se estiman valores, se ejecutan pruebas estadísticas: como elementos de referencia para la descripción, análisis e interpretación del comportamiento de os datos, HACER INFERENCIAS VALIDAS y OBTENER INFORMACIÓN DE LOS ELEMENTOS o UNIDADES ESTUDIADAS. CAPITULO II DISTRIBUCIÓN DE FRECUENCIAS 2.1. TIPOS DE PRESENTACIÓN DE DATOS ESTADÍSTICOS La presentación de datos estadísticos se realiza en dos formas: a. Presentación Numérica: a través de los CUADROS ESTADÍSTICOS y TABLAS DE FRECUENCIAS. b. Presentación Gráfica: a través de una variedad de GRÁFICOS ESTADÍSTICOS. 2.2 PRESENTACIÓN NUMÉRICA 2.2.1 Cuadros estadísticos El cuadro estadístico es el arreglo ORDENADO de columnas y filas de datos estadísticos, con el objeto de ofrecer información estadística de fácil lectura, comparación e interpretación. Partes Principales: En general un cuadro estadístico puede tener 8 partes: 1) Número del Cuadro: Código o elemento de identificación que permite ubicar el cuadro en el interior de un documento. 2) Título del Cuadro: Descripción resumida del contenido del cuadro. Debe ser breve, claro y completo. Un título debe indicar: a. QUE hay en el cuadro (característica principal) b. DONDE corresponde la información, se refiere al lugar geométrico o institución c. COMO están ordenados o clasificados los datos d. CUANDO que momento o período de tiempo está referida la información 3) Concepto o encabezamiento: Son las descripciones de las filas y columnas del cuadro. El encabezamiento se ubica en la parte superior del cuadro. Indica las variables y sus categorías o valores. 4) Cuerpo del cuadro: Contenido numérico del cuadro. Presenta la distribución de los elementos según la clasificación en categorías de las variables. 5) Notas del Pie o llamada: Usada para aclarar términos o siglas. 6) Fuente: Indicación al pie del cuadro, sirve para nombrar la publicación, entidad, estudio o fuente de donde se obtuvieron los datos. 7) Nota de Unidad de Medida: Se escribe debajo del título original, usada cuando se abrevia la escritura de las cifras y para indicar en que unidades está expresada la variable. 8) Elaboración: Menciona al responsable de la elaboración del cuadro estadístico final. 2.2.2 Tabla de distribución de frecuencia Es el resumen que se realiza en función de la totalidad de elementos de una población con respecto a una característica o variable de estudio. Elementos de una tabla de distribución de frecuencias 1) Variable (Xi) Valor asociado a una determinada característica que toma diferentes valores 2) Frecuencia Absoluta (fi) Número de veces que se repite un dato, como valor de la variable. La suma de las frecuencias absolutas debe corresponder al número de datos (n), es decir: f = n 3) Frecuencia Relativa (hi) Es el cociente de cada frecuencia absoluta entre el número total de datos (n). Indica que porcentaje del total corresponde a cada dato. Se calcula mediante: fi hi = -------n La suma de las frecuencias relativas debe ser uno (100%) 4) Frecuencia Absoluta Acumulada (Fi) Es la acumulación de cada frecuencia absoluta. Para determinar la frecuencia acumulativa, se suma la frecuencia acumulada anterior a la frecuencia absoluta, se decir: F1 = f1 F2 = f1 + f2 = F1 + f2 F3 = f1 + f2 +f3 = F2 + f3 Lo que significa que la última frecuencia absoluta acumulada debe ser igual al número de datos. 5) Frecuencia Relativa Acumulada (Hi) Es la acumulación de cada frecuencia relativa. Se obtiene de forma similar a la frecuencia absoluta acumulada lo que significa que la última frecuencia relativa acumulada debe ser igual a 1 También: Fi Hi = -------n 6) Clases o Intervalos (m) Es el número de partes en que se divide a los elementos de una población. Cuando no está determinada, se calcula por la formula de Sturges: m = 1 + 3.3 Log (n) 7) Amplitud (Ci) Es la diferencia entre el límite superior e inferior de cada intervalo. Es el tamaño de cada clase. Indica el número de elementos que existe en cada intervalo. Se calcula mediante: Ci = Ls - Li Donde: Ls : límite superior Li : Límite inferior 8) Marca de clase (Yi) Es el punto medio de cada intervalo. Se calcula por: Yi = (Ls + Li ) / 2 Ejemplo: 2.3 CONSTRUCCIÓN DE TABLAS DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS A. Para datos no agrupados Por ser la información bastante pequeña, no existen las tablas de frecuencias, y únicamente los datos se presentan ordenados, en filas o columnas. Ejemplo: En una encuesta se obtuvo la siguiente información referente a la edad de 10 personas: 19 31 22 30 25 27 42 33 Ordenado los datos y presentándolos en columna se tiene: 50 21 Edades (Xi) B. Para datos agrupados sin intervalos Se procede de la siguiente manera: 1) Identificar la variable en estudio (Xi) 2) Ordenar los datos en forma creciente (o decreciente) 3) Efectuar la respectiva tabulación de los datos 4) Calcular los elementos de la tabla de frecuencias Ejemplo: En una encuesta de presupuestos familiares, se preguntó por el número de hijos que tenía cada familia. Se entrevistaron 20 familias obteniéndose lo siguiente: 1 2 4 3 6 3 3 8 2 4 6 4 1 0 3 2 2 1 2 2 Se pide completar la tabla de frecuencias: Interpretando la tercera fila ( i = 3) f3 = h3 = F3 = H3 = CAPITULO III DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS Distribución de Frecuencias de Datos Agrupados en Intervalos Se procede de la siguiente manera: 1) Identificar la variable en estudio (Xi) 2) Calcular el rango (R ) de los datos, mediante: R = dato mayor - dato menor 3) Determinar el número de intervalos (m), en caso de que se desconozca 4) Calcular la amplitud (Ci) para cada intervalo, mediante Ci = R / m 5) Construir los intervalos, empezando por el dato menor, al cual se suma la amplitud del intervalo. 6) Efectuar la tabulación respectiva 7) Calcular cada uno de los elementos de la tabla de distribución de frecuencias Ejemplo: Las ventas mensuales de 50 restaurantes se dan a continuación en miles de soles 35 42 27 25 55 22 52 38 22 60 47 15 25 48 63 36 39 37 54 29 29 15 22 27 37 11 45 33 66 35 46 29 11 27 35 17 40 34 35 37 42 18 39 23 38 51 12 36 27 63 Se pide: i) Clasificar los datos en una tabla de distribución de frecuencias ii) Interpretar ciertos elementos de dicha tabla iii) Porcentaje de restaurante que tienen ventas mensuales menores de 35 mil iv) Número de restaurante que tienen una venta mensual mayor o igual a 27 mil Solución (i) 1) Variable Xi = 2) Rango R = 3) Intervalos m = 4) Amplitud C = ii) Tabla de frecuencias ii) Interpretar la tabla para i = 4 f4 = h4 = F4 = H4 = iii) Porcentaje de restaurantes que venden menos de 35 mil soles iv) Número de restaurantes que venden más o igual a 27 mil soles 2.4 TABLA DE FRECUENCIA PARA VARIABLES CUALITATIVAS La tabla de frecuencias en el caso de las variables cualitativas es similar a la descrita para los datos agrupados sin intervalos. Ejemplo: Se tiene 30 paquetes turísticos clasificados por zona del país, de acuerdo a la siguiente clave: L = Lima, N = Norte, O = Oriente, S = Sur, C = Centro Los datos son los siguientes: L C L N C O C S N S S N S C C N N L O S S O N N S L L S L O Se pide construir la tabla de distribución de frecuencias CAPITULO IV GRÁFICOS ESTADÍSTICOS 4.1 PRESENTACIÓN GRÁFICA DE DATOS ESTADÍSTICOS Un Gráfico es una representación pictórica con el objeto de ilustrar los cambios de una variable, para comparar visualmente dos o más variables similares o relacionadas. En estadística se emplea una diversidad de gráficos, cuya forma dependerá de la naturaleza de los datos y del objetivo. Los gráficos de una variable sirven para comparar cantidades absolutas, tasas, variaciones, etc. y pueden tener forma de columnas, barras, puntos o líneas. Los gráficos de dos variables se construyen en el plano cartesiano, teniendo en el eje X (abcisa) el registro de la variable independiente; y en el eje Y (ordenada) se colocan los valores de la variable dependiente. Partes de un Gráfico En todo gráfico se debe considerar el título, leyenda, escala, fuente y elaboración; aunque dependiendo de la complejidad del gráfico, los elementos pueden variar A. Título: es una descripción del contenido del gráfico, explica el contenido se coloca en la parte superior o inferior del gráfico B. Diagrama: es el propio dibujo del gráfico, donde se encuentran ubicados los datos. C. Escala: es la unidad de medida que se considera en los ejes D. Fuente: indica el origen de los datos, se ubica en la parte inferior del gráfico E. Leyenda: Hace referencia al diagrama. 4.2 CLASIFICACIÓN DE GRÁFICOS A. Lineales 1. En coordenadas rectangulares Diagramas de frecuencias Polígonos de frecuencias Histograma de frecuencias Series cronológicas Nube de puntos, etc. 2. En coordenadas polares Diagrama de telaraña B. De Superficie, en este grupo se tiene: Gráficos de barras verticales, simples, compuestas Gráficos de barras horizontales, simples, compuestas Coronas circulares Pirámides Cilindros, conos, etc. C. Gráficos de dimensiones De Área, cuando se consideran dos dimensiones De Volumen, cuando se consideran tres dimensiones D. Mapas estadísticos o cartogramas E. Pictogramas 4.3 GRÁFICA DE LAS DISTRIBUCIONES DE FRECUENCIAS 4.3.1 Gráfica de Variable Discreta Este gráfico se denomina gráfico de bastones, donde en el eje X se registran los valores de la variable (Xi) y en el eje Y se indican las frecuencias Ejemplo: Graficar los siguientes datos, referidos a las edades de un grupo de turistas 4.3.2 Gráfica de Variable Continua Las representaciones gráficas de las distribuciones de frecuencias para una variable continua se conocen como: histogramas y polígonos de frecuencias A. HISTOGRAMA Un histograma o Histograma de Frecuencias está formado por una serie de rectángulos que tienen sus bases sobre un eje horizontal (eje X) e iguales a la amplitud o tamaño de cada clase (Ci). Su altura es igual a la frecuencia de clase B. POLÍGONO Es un gráfico de líneas trazado sobre los puntos medio de cada clase (en el caso de las frecuencias simple) Se obtiene uniendo los puntos medios de los extremos superiores de cada rectángulo del histograma. Se acostumbra prolongar el polígono hasta los puntos medios inferior y superior de las clases inmediatas asumidas con frecuencia cero. Para el caso de las frecuencias acumuladas, el polígono también se denomina OJIVA, el cual se obtiene uniendo los límites superiores de cada intervalo a la altura indicada por la respectiva frecuencia; para el primer intervalo se empieza desde el límite inferior. Ejemplo: Construir un histograma y un polígono de frecuencias para la distribución de frecuencias de 400 tubos (en horas) e intervalos constantes. Hrs. Tubos 300-400 14 36 500-600 700-800 800-900 58 82 62 38 22 CAPITULO V GRÁFICOS ESTADÍSTICOS ESPECIALES Gráfica de Variable Cualitativa Una distribución de frecuencias de variables cualitativas, pueden ser presentadas gráficamente MEDIANTE UN DIAGRAMA DE BARRAS, en la cual la longitud de cada barra es proporcional a la frecuencia del atributo que representa. Las barras deben ser de igual ancho, pudiendo ser éstas horizontales o verticales. También se puede utilizar GRÁFICAS CIRCULARES donde los sectores se obtienen convirtiendo los porcentajes en ángulos sexagesimales, para lo cual debe multiplicarse la frecuencia relativa (hi) por 360. Ejemplo: La siguiente tabla muestra la superficie en millones de millas cuadradas de los océanos del mundo. Océano Antártico Ártico Atlántico Indico Pacífico Superficie 7.6 4.8 41.2 28.5 70.8 Representar los datos utilizando: a. Diagramas de barras b. Diagrama circular Otros Tipos de Gráficos Estadísticos 1. Columnas Dobles Sirven para comparar dos series de datos referidos a datos estadísticos Si se desea puede incluirse los rótulos de datos en las cabeceras de las columnas, con lo cual puede omitirse la escala 2. Columnas Apiladas o Superpuestas Permiten comparar los elementos con respecto al total 3. Diagrama de Líneas o Gráfico Poligonal Se utiliza para representar series de tiempo (cronológicas) o cuando se requiere presentar varias series de datos en el mismo gráfico. 4. Pictogramas Son diagramas de figuras, donde las barras son reemplazadas por figuras que representan la variable. Por ejemplo, la importación de automóviles podría graficarse con la figura de un automóvil en la escala Ejemplo: La tabla estadística corresponde a la producción de naranja de un grupo de valles correspondiente al II Semestre del año anterior expresado en miles de kg. a. Graficar la producción de naranja Hualcará con barras verticales b. Graficar la producción de naranja Francia y Hualcará con barras compuestas c. Graficar la producción total de naranja con un gráfico circular d. Graficar la producción incrementadas o apiladas de naranja mediante barras verticales e. Graficar la producción de naranja Huando mediante barras horizontales f. Gráfico Poligonal Ventas mensuales en soles, de una empresa comercial (datos en miles de soles) Mes Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic Ventas 18.9 21.7 18.9 9.9 15.5 17.6 25.3 12.2 14.2 21.2 15.6 17.1 CAPITULO VI ESTADIGRAFOS DE TENDENCIA CENTRAL 6.1 DEFINICIÓN Son estadígrafos que describen la posición que ocupan los datos alrededor de un valor central. Se les conoce como PROMEDIOS, y permiten el análisis de una distribución y la comparación entre distribuciones. Los estadígrafos de tendencia central más importantes son: media aritmética, media armónica, media geométrica, moda, mediana y los cuantiles. 6.2 LA MEDIA ARITMÉTICA Es el cociente que resulta de dividir la suma de todos los datos entre el número de observaciones. Se le conoce como “media” o “promedio” y determina el punto medio de la distribución. Se simboliza por X ó M[Xi Los tipos de media aritmética son: media aritmética simple, ponderada y de datos agrupados. 6.2.1 Media Aritmética Simple Se suman todas las observaciones, y el total se divide entre el número de datos. Donde: Xi : variable o datos n : número de datos Ejemplo 1: Hallar la media aritmética de las siguientes edades: 9, 15, 12, 19, 17, 22 Ejemplo 2: Calcular el promedio de los precios: 5.7, 9.2, 6.4, 11.8, 13.7 Ejemplo 3: Si una alumna obtiene en la asignatura de Estadística las siguientes notas: 16, 15, 14, 13 y 10; calcular el promedio Ejemplo 4: Si los diámetros en pulgadas de una muestra de aros metálicos es la siguiente: 0.211, 0.294, 0.465, 0.325, 0.373, 0.389, 0.256. Hallar la media de los diámetros. 6.2.2 Media Aritmética Ponderada En este caso la variable o dato es multiplicada por un “peso” o ponderación. Para determinar el promedio la suma de estos productos se divide entre la suma de los “pesos” Donde: xi : variable o dato wi: ponderación Ejemplo: La siguiente distribución corresponde al número de menús vendidos por ciertos restaurantes en forma diaria. Hallar la media aritmética Nro Menús 14 28 45 58 64 70 Nro Restauran 3 8 7 20 12 10 Solución Ejemplo 2: Se ha clasificado a los turistas en 3 grupos de acuerdo a sus patrones de gasto que constituyen el 60%, 30% y 10%. Si el promedio de gasto de cada grupo es de 300, 420 y 650 dólares respectivamente; hallar el gasto promedio total. Elabore la solución 6.2.2 Media Aritmética de Datos Agrupados En este caso los datos se encuentran agrupados en clases, para calcular la media aritmética se utiliza la marca de clase (Yi) que corresponde a cada frecuencia de clase, de decir: Ejemplo: Hallar la media aritmética de la distribución de sueldos de una empresa (en soles) Sueldos 500-600 600-700 700-800 800-900 900-1000 1000-1200 1200-1800 Empleados 8 10 16 15 10 8 3 Solución 6.2.3 Propiedades de la Media Aritmética 1. La suma de las desviaciones ponderadas de los valores de la variable con respecto de la media aritmética es cero 2. La media aritmética de una variable más (menos) una constante (k) es igual a la media de la variable más (menos) la constante 3. La media aritmética de una variable multiplicada (dividida) por una constante (k) es igual a la constante que multiplica (divide) a la media de la variable 4. La media aritmética de la suma de dos ó más variables es igual a la suma de las medias aritmética de cada una de las variables 6.2.4 Importancia de la Media Aritmética La media aritmética es el centro de gravedad de la distribución Es la medida de tendencia central más estable Es el valor preferido en los cálculos estadísticos por ser el más fiable. Es el promedio que mejor representa al grupo Su mayor inconveniente es que su valor es sensible a valores extremos. 6.3 LA MEDIA ARMÓNICA La Media Armónica (H) de una serie de n números: X1, X2, X3, ... Xn es la recíproca de la media aritmética de los recíprocos de los números Ejemplo: la media armónica de los números 2, 4 y 8 es: En el caso de datos agrupados, la media armónica se calcula por Donde: n es la suma de las frecuencias Ejemplo 2: La siguiente tabla corresponde a la distribución de la carga máxima en toneladas cortas (2000 libras) que soportan ciertos cables producidos por una empresa. Determinar la media armónica Máx carga Nro cables 9.3 - 9.7 9.8 -10.2 10.3- 10.7 10.8- 11.2 11.3- 11.7 11.8- 12.2 12.3- 12.7 12.8- 13.2 2 5 12 17 14 6 3 1 Solución 6.3 LA MEDIA GEOMÉTRICA La Media Geométrica (G) de una serie de n números X1, X2, X3 ... Xn es la raíz enésima del producto de los números Ejemplo 1 : Calcular la media geométrica de los números 2, 4 y 8 Para datos agrupados se considera la marca de clase (Y) Aplicando logaritmos Ejemplo 1: Determinar la media geométrica de la distribución de remuneraciones de un grupo de trabajadores de la Empresa Delta 6.3.1 Aplicaciones de la Media Geométrica La media geométrica es útil para encontrar el promedio de porcentajes, razones, tasas de crecimiento Ejemplo 1. Suponga que recibe un aumento de 5% en su sueldo el año pasado, y recibirá uno de 15% este año. El aumento porcentual promedio es: Es decir el aumento porcentual promedio es 9.886% Ejemplo 2. Las ganancias obtenidas por la empresa constructora Alfa en 4 proyectos recientes fueron de 3%, 2%, 4% y 6% ¿Cuál es la media geométrica de las ganancias? Una segunda aplicación de la media geométrica es encontrar un aumento porcentual promedio en un intervalo de tiempo. La tasa de aumento se determina a partir de: Ejemplo. Suponga que el número de alojamientos turísticos en cierta ciudad eran 2 en 1992 y para el 2002 era 22 ¿Cuál es la tasa de incremento porcentual anual promedio para el período? La tasa de aumento anual es de 27.1% al año 6.5 LA MEDIANA La Mediana de una colección de datos ordenados por su magnitud, corresponde al valor de la variable que divide al número de frecuencias en 2 partes iguales. Esto significa que a uno y otro lado de este valor medio se encuentra no más del 50% de los datos. Se simboliza por Me 6.5.1 Mediana de una Distribución Simple Para calcular la Mediana, los datos se ordenan en forma ascendente o descendente, y luego se observa: a) Si el número de datos es impar la Mediana es igual al valor central b) Si el número de datos es par la Mediana es igual al promedio de los dos valores centrales. Ejemplo 1. Hallar la mediana de las siguientes notas: 15, 10, 12, 14, 8 Ejemplo 2. Hallar la mediana del número de empleados: 12, 10, 18, 13, 11, 21 Ejemplo 3. Hallar la mediana de los siguientes costos unitarios de producción de componentes: 0.24, 0.31, 0.52, 0.27, 0.38, 0.42, 0.62, 0.46 6.5.2 Mediana de una Distribución Agrupada La Mediana determina el punto medio de la distribución, dividiéndola en dos partes iguales. Para calcularla se halla las frecuencias absolutas acumuladas y luego se calcula n/2 para determinar la clase mediana. Donde Me : Mediana n/2 : forma de ubicar la clase mediana Fj-1 : Frecuencia absoluta acumulada continua inferior con respecto a la clase mediana Fj : Frecuencia absoluta acumulada de la clase mediana Li : Límite inferior de la clase mediana Cj : Amplitud del intervalo mediano Ejemplo 1. Hallar la mediana de la siguiente distribución correspondiente al costo del pasaje en dólares a ciertas capitales latinoamericanas Ejemplo 2. Hallar la mediana de la siguiente distribución correspondiente a las edades de los turistas que visitaron cierta atracción turística 6.5.3 Importancia de la Mediana No es afectada por los valores extremos Aplicable a distribuciones con extremos indeterminados Su desventaja radica en no considerar todos los datos 6.6 LA MODA Es el valor más frecuente de una variable, es decir es el valor más común Se simboliza por Mo 6.6.1 Moda de una Distribución Simple Es el dato estadístico que se repite el mayor número de veces Puede ser unimodal, bimodal o multimodal Ejemplo 1. Hallar la moda de las siguientes notas: 10, 13, 14, 12, 14, 11, 14, 12, 14 4.1, 4,5 Ejemplo 2. Hallar la moda de los siguientes precios 3.8, 4.2, 5.3, 7.2, 3.9, 5.3, 4.2, 6.6.2 Moda de una Distribución Agrupada Determina el punto medio de la distribución Para hallar la moda se ubica la mayor frecuencia absoluta y su clase se le denomina clase modal. Luego se ubican las frecuencias absolutas que son inferior y superior respecto a la clase modal. Donde Mo : Moda d1 : fj - fj-1 diferencia premodal d2 : fj - fj+1 diferencia postmodal Li : Límite inferior del intervalo modal Cj : Amplitud del intervalo modal 6.6.3 Importancia de la Moda * Aplicable a datos cualitativos * No es afectada por valores altos o bajos de la distribución * Cálculo rápido * Tiene como desventaja el perder validez cuando es multimodal Ejemplo 1. Hallar la moda para la siguiente distribución correspondiente al número de trabajadores en empresa hoteleras, donde n = 200 Ejemplo 2. Hallar la moda para la siguiente distribución de un grupo de empresas de transportes, donde la utilidad se expresa en miles de dólares 6.7 CUANTILES Si una serie de datos se colocan en orden de magnitud, el valor que divide al conjunto de datos en dos partes iguales es la Mediana. Por extensión, se puede dividir los datos en tantas partes como se requiera. 6.7.1 Cuartiles Son los valores que dividen a los datos en cuatro partes iguales, se representan por Q1, Q2, Q3 denominados primer, segundo y tercer cuartil respectivamente. El primer cuartil representa el 25% de las observaciones. El segundo cuartil es el valor central y es igual a la Mediana. El tercer cuartil es un valor que representa hasta el 75% de los datos La ecuación de los cuartiles es igual que la ecuación de la Mediana variando solo la forma de ubicar la clase cuartil Forma de ubicar la clase cuartil Q1 --> 1n/4 = n/4 Q2 --> 2n/4 = n/2 Q3 --> 3n/4 = 3n/4 Ecuación Ejemplo 1. Determinar los cuartiles de la distribución donde n = 400 6.7.2 Deciles Son estadígrafos de posición que dividen a la distribución en diez partes iguales, encontrándose en cada una de ellas no más del 10% de las observaciones. El quinto decil es igual que la Mediana Los deciles se representan con la letra D. Forma de ubicar la clase decil D1 --> 1n/10 = n/10 D2 --> 2n/10 = n/5 ... Ecuación del k-ésimo decil: D9 -->9n/10 = 9n/10 Ejemplo. Determinar el segundo y octavo decil 6.7.3 Percentiles Es una medida de posición que divide a la distribución en cien partes iguales. En donde cada una de ellas corresponde al 1% de los datos. Se representa por “P” El percentil quincuagésimo (P50) es igual a la Mediana Los percentiles P25 y P75 corresponden al cuartil Q1 y Q3 respectivamente. De igual forma el percentil P10 corresponde al decil D1 y así sucesivamente Forma de ubicar la clase percentil P1-->1n/100 = n/100 P2-->2n/100 = n/50 ... Ecuación del k-ésimo percencil: Ejemplo. Determinar los percentiles P25, P60 y P95 P99-->99n/100 = 99n/100 6.7.4 Terciles Esta medida de posición divide a la distribución en tres partes iguales representando cada una de ellas un tercio de la distribución Se representa con “T” Forma de ubicar la clase tercil o tercila El tercio medio equivale a T1, T2 y el tercio superior a Li, T1 Ecuación: 6.7.5 Quintiles Es la medida de posición que divide a la distribución en cinco partes iguales. Se representa con “K” Forma de ubicar la clase quintila K1 -->1n/5= n/5 K2 -->2n/5= 2n/5 ... K4 -->4n/5= 4n/5 El quinto superior equivale a Li, K1 Ecuación de los quintiles (m es el k-ésimo quintil): Ejemplo. Calcular el tercio medio, el tercio superior y el quinto superior CAPITULO VII ESTADIGRAFOS DE DISPERSIÓN ABSOLUTA 7.1 DEFINICIÓN Los estadígrafos de dispersión son medidas que nos dan la mayor o menor concentración de observaciones o datos con respecto a un valor central. Miden el grado de dispersión o concentración de los datos o valores, alrededor de algunas de las medidas de tendencia central. Los estadígrafos de dispersión son los siguientes: A. Medidas de Dispersión Absoluta * Rango o Recorrido * Varianza * Desviación Estándar B. Medidas de Dispersión Relativa * Coeficiente de Variación * Coeficiente de Asimetría * Coeficiente de Curtosis 7.2 EL RECORRIDO O RANGO Está definido por la diferencia existente entre el mayor valor y el menor valor de una variable estadística. R = XM - Xm Donde: XM : Mayor valor de la variable Xm : menor valor de la variable Cuando mayor es el rango, mayor es la dispersión de los datos alrededor de la medida de tendencia central; aunque debe considerarse que el rango depende de la distancia que existe entre sus dos valores extremos con relación a los demás valores. Ejemplo 1. Determinar el rango para las siguientes notas: 12, 13, 15, 18, 10, 05, 04 Ejemplo 2. Determinar el rango en la siguiente distribución (miles $) 7.3 LA VARIANZA Es el promedio del cuadrado de las desviaciones de la variable respecto a la media aritmética Se representa por V(x) ó S2 Proporciona información sobre el grado de dispersión de los valores de una serie con respecto a su media aritmética; mientras mayor sea el valor de la varianza, mayor es la dispersión. Lo anterior implica que cuanta más pequeña sea la varianza, mayor es la concentración de los datos alrededor de la media aritmética. 7.4 LA DESVIACIÓN ESTÁNDAR O TÍPICA Mide el grado de normalidad de la distribución de datos de la muestra alrededor de la media aritmética dentro de sus valores extremos; es decir mide la dispersión alrededor de la media. La desviación estándar se define como la raíz cuadrada (positiva) de la varianza y se representa por S 7.5 CÁLCULO DE LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR 7.5.1 Distribución Simple Ejemplo. Determinar la desviación estándar de los resultados en la evaluación de 7 alumnos: 7, 5, 10, 11, 13, 15, 16 7.5.2 Distribución Agrupada Ejemplo 1. Determinar la desviación estándar para la siguiente distribución sobre lesiones promedio por cada 1000 horas-hombre de una industria Ejemplo 2. Determinar la desviación estándar de la distribución de ingresos quincenales (en dólares) de los empleados de Beta S.A.C. durante la última quincena del mes pasado 7.5.3 Propiedades de la Varianza 1. La Varianza de una constante es cero 2. Al multiplicarse una variable por una constante, la varianza se multiplica por la constante al cuadrado 3. Al sumarse una constante a la variable, la varianza no cambia 7.5.4 Intervalos de Dispersión Ventas mensuales Mayor dispersión --> Mayor Irregularidad Comportamiento del PBI Mayor dispersión --> Mayor Inestabilidad Rendimiento de Acciones Mayor dispersión --> Mayor Riesgo Si “n” es grande (n>30) la distribución es aproximadamente simétrica, porque tiene la forma de la curva normal, en donde se presentan tres casos: 1. El 68% de los datos se encuentran en el intervalo X - S, X + S 2. El 95.5% de los datos están comprendidos dentro del intervalo: X - 2S, X + 2S 3. El 99.7% de los datos se encuentran en el intervalo X-3S, X+3S CAPITULO VIII ESTADIGRAFOS DE DISPERSIÓN RELATIVA 8.1 MEDIDAS DE DISPERSIÓN RELATIVA Características * Medidas expresadas en porcentaje * Generan información de alta o baja dispersión por sí solos * Mayor porcentaje implica mayor dispersión 8.1.1 Coeficiente de variación Es útil para realizar comparaciones cuando se usan diferentes unidades de medida de la variable Se emplea también cuando se comparan dos distribuciones con diferente número de observaciones Se interpreta como el porcentaje de variabilidad de los datos con respecto a la media aritmética Por convención, si el coeficiente de variación es mayor a 15% la dispersión es alta Ejemplo. Con los siguientes datos, calcular el coeficiente de variación: 0.32 0.44 0.51 0.72 0.77 0.91 8.1.2 Medidas de asimetría El grado de oblicuidad de una distribución puede ser medido mediante los coeficientes de asimetría o deformación Las medidas de dispersión solamente indican la magnitud de las variaciones, pero no proveen información acerca de la dirección hacia donde tienden a ocurrir las variaciones Por tanto, las medidas de asimetría no sólo indican la falta de simetría en la distribución sino también la dirección hacia donde se inclina la distribución. Si una distribución es simétrica, no tiene sesgo, es decir, su asimetría es nula. Si una o más observaciones son sumamente grandes, la media de la distribución se vuelve mayor que la mediana o moda. En tales casos se dice que la distribución tiene asimetría positiva o sesgo positivo. Por el contrario, si hay una o más observaciones muy pequeñas, la media es la menor de las tres medidas de tendencia central, y se dice que la distribución tiene asimetría negativa o sesgo negativo. 1. Coeficiente de Asimetría de Pearson (A1) Se define por la siguiente relación entre media aritmética, mediana, moda y desviación estándar Se presentan los siguientes resultados: A1 > 0 la media aritmética se inclina a valores extremos altos y por tanto existe asimetría positiva A1 = 0 la distribución es simétrica A1 < 0 la media aritmética se inclina a valores extremos bajos y por tanto existe asimetría negativa Ejemplo. Graficar el histograma y calcular el coeficiente de asimetría de la producción de una máquina durante 23 días producción 0-5 5-10 10-15 15-20 20-25 días 3 5 7 5 3 2. Coeficiente de Asimetría de Fisher (A2) Se define por la siguiente fórmula Se presentan los siguientes resultados: A2 > 0 asimetría positiva A2 = 0 la distribución es simétrica A2 < 0 asimetría negativa 3. Coeficiente de Asimetría de Bacley (A3) Emplea los cuartiles en su fórmula Se presentan los siguientes resultados: A3 > 0 asimetría positiva A3 = 0 la distribución es simétrica A3 < 0 asimetría negativa Ejemplo. Determinar la asimetría de la distribución de salarios quincenales de los obreros de la Constructora Delta (datos en dólares) CAPITULO X NUMEROS INDICES 10.1 NÚMEROS INDICES Es el cociente de cualquier medición de una variable (o más variables) con respecto a una de sus mediciones que se toma como base. El objetivo de los números índices es cuantificar variaciones de las mediciones de una variable a través del tiempo. Las mediciones pueden estar relacionadas con: Cantidad Precio Valor. Los números indices se clasifican en: índices simples o elementales índices compuestos o agregados. El número índice simple se calcula a partir de una sola variable. Mientras que un índice compuesto se calcula a partir de dos o más variables. Los índices compuestos se clasifican en índices no ponderados e índices ponderados. 10.2 INDICES SIMPLES Se denomina índice simple de X para el período t con respecto al período base t0, al número definido por: El porcentaje de variación entre los valores Xo y Xt se calcula por: Si el porcentaje de variación es positivo se dice que ha habido un incremento, si es negativo se dice que ha habido una baja. Ejemplo. En el cuadro se dan los sueldos promedios (en dólares) de los trabajadores de una empresa. Calcular los índices con respecto a cada base. 10.3 INDICES SIMPLES DE PRECIOS, DE CANTIDADES Y DE VALOR Se denomina índice simple de precios en el período t con respecto al período base t0, al número definido por: Se denomina índice simple de cantidades en el período t con respecto al período base t0, al número definido por: Se denomina índice simple de valor en el período t con respecto al período base t0, al número definido por: Donde PtQt y P0Q0 son los valores respectivos en el período t y en el período base. Ejemplo: Se tiene los precios promedios en dólares y las cantidades de consumo promedio en Kg de un artículo. Tomando como base el 2000, calcular los índices de precios, de cantidades y de valor para los otros años 10.4 INDICES COMPUESTOS O AGREGADOS Se define como una combinación de números índices simples cada uno de ellos referidos a una misma base. 10.4.1 Índices Compuestos no Ponderados Es el cociente de la suma de las medidas de dos o más variables en el período t entre la suma de las medidas de esas variables en el período base t0 El índice agregado simple de precios de varios artículos en un período t con respecto al período base t0 se define por: El índice agregado simple de cantidades de varios artículos en un período t con respecto al período base t0 se define por: El índice agregado simple de valor de varios artículos en un período t con respecto al período base t0 se define por: Ejemplo. En la tabla se tiene una canasta de artículos básicos con sus precios y cantidades. Tomando como base el 2003 calcular los índices compuestos no ponderados de precios y cantidades. 10.4.2 Indices Compuestos Ponderados Las ponderaciones usadas para índices compuestos de precios son las cantidades de los bienes o ítems y viceversa. El índice de precios de Laspeyres en un período t con respecto al período base t0 se define por: El índice de precios de Paasche en un período t con respecto al período base t0 se define por: Ejemplo. En la tabla se tiene una canasta de artículos básicos con sus precios y cantidades. Tomando como base el 2000 calcular los índices compuestos ponderados de precios.