MEDIDAS RESUMEN CAPÍTULO 3 3 MEDIDAS RESUMEN OBJETIVOS Al término de la unidad el alumno podrá: 3.1 Comprender las medidas como una herramienta más que describe los datos obtenidos en una investigación social o de la vida diaria. 3.2 Comprender los significados de las diferentes medidas de tendencia central. 3.3 Calcular las diferentes medidas de tendencia central para datos no agrupados y agrupados. 3.4 Comprender los significados de las diferentes medidas de posición. 3.5 Calcular las medidas de posición para datos no agrupados y agrupados. 3.6 Comprender los significados de las diferentes medidas de dispersión en valor absoluto y en valor relativo. 3.7 Calcular las diferentes medidas de dispersión para datos no agrupados y agrupados. 3.8 Diferenciar variancia y desviación estándar, de una muestra y de una población 3.9 Comprender el significado de la desviación estándar al ser aplicada la regla empírica y el teorema de Chebyshev. 3.10 Entender el significado de sesgo y curtosis. 3.11 Calcular las medidas de forma para datos no agrupados y agrupados. 3.12 Entender las gráficas de caja- bigote y curva normal. 3.13 Construir las gráficas caja-bigote y curva normal como recursos para el análisis del comportamiento de datos, basado en el cálculo de algunas medidas resumen. 3.14 Aplicará las medidas resumen identificando las que mejor se adecuen a situaciones particulares. 1 MEDIDAS RESUMEN CAPÍTULO 3 3 MEDIDAS RESUMEN 3.1 Medidas resumen, 8 3.2 Medidas de tendencia central, 8 3.2.1 Media aritmética, 8 3.2.2 Media geométrica, 12 3.2.3 Media armónica, 14 3.2.4 Comparación teórica entre media aritmética, geométrica armónica, 17 3.2.5 Mediana, 17 3.2 6 Moda, 20 3.2.7 Comparación entre media, mediana y moda, 23 3.2.8 Rango medio, 24 3.2.9 Eje medio, 26 3.2.10 Cuadro resumen de las medidas de tendencia central, 27 3.3 Medidas de posición, 30 3.3.1 Cuantiles: cuartiles, deciles y percentiles, 30 3.4 Medidas de variabilidad, 37 3.4.1 Rango, 38 o Intercuartílico, 39 3.4.2 Desviación media, 41 3.4.3 Varianza, 45 3.4.4 Desviación estándar, 50 3.4.5 Interpretación de la desviación estándar, 53 o Regla empírica, 53 o Teorema de Chebyshev, 54 3.4.6 Coeficiente de variación, 55 3.4.7 Puntuaciones estandarizadas (puntuaciones z), 56 3.4.8 Cuadro resumen de las medidas de variabilidad, 57 2 y MEDIDAS RESUMEN CAPÍTULO 3 3.5 Medidas de forma, 60 3.5.1 Asimetría, 60 3.5.2 Curtosis, 60 3.6 Representaciones gráficas, 61 3.6.1 Caja-bigote, 61 3.6.2 Curva normal, 61 Resumen del capítulo, 62 Glosario, 64 Fórmulas, 65 Respuestas a Autoexámenes, 69 Bibliografía, 70 3 MEDIDAS RESUMEN CAPÍTULO 3 Objetivo general: Identificar a las medidas descriptivas o medidas resumen como un recurso de análisis que concentran la información más relevante de un conjunto de datos. Objetivos de aprendizaje del capítulo Apartados del capítulo 3.1 Comprender las medidas como 3.1 Medidas resumen una herramienta más que describe los datos obtenidos en una investigación social o de la vida diaria. 3.2 Comprender los significados de 3.2 Medidas de tendencia central las diferentes medidas de 3.2.1 Media aritmética tendencia central. 3.2.2 Media Geométrica 3.3 Calcular las diferentes medidas 3.2.3 Media Armónica de tendencia central para datos 3.2.4 Comparación teórico entre no agrupados y agrupados. media aritmética, geométrica y armónica 3.2.5 Mediana 3.2 6 Moda 3.2.7 Comparación entre media, mediana y moda 3.2.8 Rango medio 3.2.9 Eje medio 3.2.10 Cuadro resumen de medidas de tendencia central 3.4 Comprender los significados de 3.3 Medidas de posición las diferentes medidas de 3.3.1 Cuantiles: cuartiles, deciles posición. y percentiles 3.5 Calcular las medidas de posición para datos no agrupados y agrupados. 3.6 Comprender los significados de 3.4 Medidas de dispersión las diferentes medidas de 3.4.1 Rango dispersión en valor absoluto y Intercuartílico en valor relativo. Interpercentílico 3.7 Calcular las diferentes medidas 3.4.2 Desviación media de dispersión para datos no 3.4.3 Varianza 4 MEDIDAS RESUMEN CAPÍTULO 3 agrupados y agrupados. 3.8 Diferenciar variancia y desviación estándar, de una muestra y de una población 3.4.4 Desviación estándar 3.9 Comprender el significado de la desviación estándar al ser aplicada la regla empírica y el teorema de Chebyshev. 3.4.5 Teorema de Chebyshef 3.4.6 Coeficiente de variación 3.4.7Puntuaciones estandarizadas (puntuaciones z) 3.4.8Cuadro resumen de las medidas de variabilidad 3.10 Entender el significado de 3.5 Medidas de forma sesgo y curtosis. 3.5.1 Asimetría 3.11 Calcular las medidas de forma 3.5.2 Curtosis para datos no agrupados y agrupados. 3.12 Entender las gráficas de caja- 3.6 Representaciones gráficas 3.6.1 Caja-bigote bigote y curva normal. 3.6.2 Curva normal 3.13 Construirá los gráficos cajabigote y curva normal como recursos para el análisis del comportamiento de datos, basado en el cálculo de algunas medidas resumen. 3.14 Aplicará las medidas resumen identificando las que mejor se adecuen a situaciones particulares. 5 MEDIDAS RESUMEN CAPÍTULO 3 Pafnuti L. Vovich Chebyshef1 Nació el 4 de mayo de 1821 en la aldea rusa de Okatovo. De niño mostraba gran satisfacción inventando juguetes mecánicos. Su madre le dio sus primeras clases de lectura y escritura, y su prima las de Aritmética y Francés. En el año 1832 la familia Chebyshev se trasladó a Moscú para facilitar a sus hijos la preparación para los estudios superiores y la asistencia a la Universidad. A los 16 años se matriculó en la Facultad de Física y Matemáticas de la Universidad de Moscú y acabó la carrera en 1841 con un trabajo de ecuaciones algebraicas premiado con una medalla. Sus años universitarios fueron de gran importancia para él, pues no sólo adquirió sólidos conocimientos sino que, al mismo tiempo, recibió de destacados profesores importantes impulsos y estímulos para su propio trabajo. En 1846, a los 25 años de edad, hizo su tesis de Magister y a los 29 años era ya catedrático de la Universidad de Petersburgo. Desempeñó un importante papel como creador de la escuela matemática de Petersburgo. En sus clases, impartidas de modo cautivador, intercalaba a menudo observaciones históricas sobre cualquier problema matemático. Ayudaba a los estudiantes a superar muchas dificultades con valiosos consejos. Les proponía para el estudio personal problemas que prometían importantes e interesantes soluciones y evaluaba trabajos para oposiciones y tesis doctorales. Una vez a la semana recibía en su casa a todos los estudiantes y jóvenes científicos que buscaban consejo en cuestiones matemáticas. Chebyshev poseía la rara habilidad de ofrecer a los jóvenes problemas atractivos y ricos en variantes, que siempre los entusiasmaban de nuevo por los estudios y por las Matemáticas. Algunos de sus discípulos han destacado y para muestra basta un botón; podemos citar a Markov cuyas famosas cadenas de Markov, del campo de probabilidades, han tenido aplicación en el estudio y la evolución de la propagación de cierto tipo de cáncer que seguían uno de los modelos de las llamadas cadenas de Markov. Llevó una vida totalmente dedicada a la ciencia ya que permaneció soltero y murió inesperadamente el 26 de Noviembre de 1894. Es conocido por su trabajo en el área de la probabilidad y estadística. La desigualdad de Chebyshev se emplea para la demostración de la ley de los grandes números y el teorema de Bertrand-Chebyshev (1845-1850). Se considera a Chebyshev uno de los fundadores de la matemática rusa. Entre sus estudiantes estuvieron Dmitry Grave, Aleksandr Korkin, Aleksandr Lyapunov y Andrei Markov, conocidos y prolíficos matemáticos. De acuerdo al Mathematics Genealogy Project, Chebyshev tiene alrededor de 4.000 descendientes matemáticos. 1 www.mundofree.com/jesusgomez/CHEBYSHEV.htm 6 MEDIDAS RESUMEN CAPÍTULO 3 3.1 MEDIDAS RESUMEN Dentro del manejo de la información numérica, un análisis de datos no se limita a la presentación de ellos mediante gráficas y tablas, sino además comprende el cálculo, resumen y análisis de las características importantes de una muestra o una población. Como ya se mencionó anteriormente en el capítulo 1 a estas medidas descriptivas o medidas resumen se le llama estadísticos cuando se calculan a partir de una muestra ( ˆ ) y parámetros ( ) cuando se generan a partir de una población. De forma general, las medidas resumen descriptivas se dividen en: Centralización o tendencia central. Se refiere a los valores centrales respecto a los que la mayoría de los datos tienden a agruparse. Posición. Dividen un conjunto ordenado de datos en subconjuntos iguales que contiene la misma cantidad de datos. Dispersión. Indican la mayor o menor concentración de datos con respecto a las medidas de centralización. Forma. Implica dos características que tiene relación con la simetría y el apuntamiento o curtosis que presenta la distribución de los datos. Estas medidas resumen pueden ser calculadas tanto para datos no agrupados como agrupados, es decir, pueden generarse a partir de los datos sin procesar o también calcularse a partir de datos resumidos en una tabla de frecuencias. 3.2 MEDIDAS DE TENDENCIA CENTRAL En el capítulo anterior, se mencionó que la presentación gráfica de los datos proporciona una descripción general de los datos en cuanto a su comportamiento, sin embargo, ésta no permite un tratamiento estadístico de los mismos, para ello se utilizan algunas otras medidas denominadas de tendencia central en las que se puede observar cómo se agrupan la mayoría de los datos alrededor de un valor central. 3.2.1 MEDIA ARITMÉTICA La media aritmética, es un valor central que se obtiene al calcular el promedio aritmético de un conjunto de datos, se denota como x (“x” barra) si se obtuvo de una muestra y (letra griega mu) si la medida se obtiene de la población. El cálculo de la media se realiza con ayuda de las siguientes fórmulas: Poblacional 7 Muestral MEDIDAS RESUMEN CAPÍTULO 3 N n xi Datos no agrupados xi i 1 (3.1) N i 1 x (3.2) n donde: = Media poblacional N = Número de elementos en la población x = Media muestral n = Número de elementos en la muestra N xi Suma de todos los datos i 1 N n ( fi Datos agrupados xi ) i 1 ( fi (3.3) N x xi ) i 1 (3.4) n donde: x = Media muestral = Media poblacional N = Número de elementos en la población n = Número de elementos en la muestra fi= Frecuencia de la clase o del intervalo i xi =Marca de clase del intervalo i N ( f i * xi ) Suma de todos los productos fi*xi i 1 EJEMPLO 3.1 En la carrera de Relaciones Internacionales de la Universidad Hispanoamericana se obtuvo una muestra de 33 alumnos del grupo 2001, de los que se registró la edad en la tabla que se presenta a continuación. 18 22 17 19 19 18 18 19 19 17 18 19 19 17 18 20 18 19 17 19 20 18 19 19 18 18 18 19 17 18 20 17 21 a. Calcula el promedio aritmético para las edades del grupo SOLUCIÓN Para el cálculo de la media, es preciso notar que debido a que los datos no están agrupados y se generaron a partir de una muestra, por lo tanto la fórmula a utilizar es la siguiente: n xi x 8 i 1 n MEDIDAS RESUMEN CAPÍTULO 3 x = 18+19+18+17+…+19+18+18+21=612/33=18.54 EJEMPLO 3.2 El número de cheques que se cobran en el Banco Santander durante el mes de abril fueron: Clase 0-199 200-399 400-599 600-799 800-999 f 10 13 17 42 18 a. Calcula la media aritmética del monto de los cheques que cobra el banco al mes SOLUCIÓN Como los datos son totales, respecto al registro mensual, se asume que son poblacionales y debido a que se presentan de forma agrupada ya que están resumidos en la tabla de frecuencias, por lo que se debe utilizar la fórmula (3.3): N ( fi xi ) i 1 N Clase 0-199 200-399 400-599 600-799 800-999 Total f 10 13 17 42 18 100 pm 99.5 299.5 499.5 699.5 899.5 Total f *xi 995 3893.5 8491.5 29379 16191 58950 El cálculo de la media se realiza a partir de la suma de cada una de las frecuencias multiplicadas por la marca de clase y dividido entre el número total de datos. Para este caso el cálculo es el siguiente: 995 3893.5 8491.5 29379 16191 589.50 100 9 MEDIDAS RESUMEN CAPÍTULO 3 Observa que, tanto para datos agrupados como para no agrupados, la esencia del cálculo es la misma, ya que se refiere a la suma de los datos divididos entre el total de los mismos. Una de las ventajas de la media es que es un concepto que resulta claro, además de ser la medida de tendencia central más utilizada, por otra parte, para cada conjunto de datos existe una y sólo una media. Otra ventaja es que permite realizar comparaciones entre dos o más grupos de datos. Dentro de las desventajas que presenta la media, la primera es que, aún cuando el cálculo de la media toma en cuenta cada uno de los valores, ésta es afectada por la presencia de valores extremos, para evitar esto será necesario eliminar los casos atípicos. Por otra parte, si se cuenta con muchos datos, el cálculo de la media para datos no agrupados es tedioso, por lo que se recomienda llevarlo a cabo a partir de una tabla de frecuencias, y por último, si el cálculo de la media se realiza para datos agrupados a partir de una tabla de frecuencias con intervalos abiertos, el cálculo de la media resulta imposible. Autoexamen 3.1 Las respuestas se encuentran al final del capítulo. 1. En una oficina del sector público que se localiza en un centro comercial, donde se atienden quejas relacionadas con el servicio telefónico desarrolló un proceso para atender a sus clientes durante una hora pico. Se registró el tiempo de espera en minutos de una muestra de 15 clientes desde el momento de su llegada hasta el momento en que los atendieron. 4.21 2.34 5.38 5.55 3.54 5.12 3.02 3.20 6.46 5.13 4.50 6.19 4.77 6.10 3.79 a. Calcula la para el tiempo de espera de los clientes desde el momento en que llegan hasta que son atendidos. 2. La edad de los residentes de la Casa Hogar La Luz tiene la siguiente distribución: Clase Frecuencia 47-51.9 52-56.9 57-61.9 62-66.9 67-71.9 4 9 13 42 39 10 MEDIDAS RESUMEN CAPÍTULO 3 72-76.9 77-81.9 20 9 a. Calcula la media aritmética de edad de los residentes de este lugar. 3.2.2 MEDIA GEOMÉTRICA En ocasiones es necesario conocer la tasa promedio de variación que presenta un grupo de datos que cambian cada cierto periodo. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc. Donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. La media geométrica de una cantidad finita de n números es la raíz n-ésima del producto de todos los números y se denota como M.G. M.G M .G n n producto de todos los valores ( x1 )(x2 )(x3 )...(xn ) (3.5) Sólo es relevante la media geométrica si todos los números son positivos, si uno de ellos es 0, entonces el resultado es 0. Si existe un número negativo impar, entonces la media geométrica es negativa o bien inexistente en los números reales. EJEMPLO 3.3 Las siguientes son las cifras de las Green Cards otorgadas por el gobierno de Estados Unidos de América a mexicanos durante el periodo 2001-2005. 2001 14,310 2002 15,600 2003 15,741 2004 15,965 2005 17,630 a. Calcula el promedio aritmético de Green Cards otorgadas durante estos cinco años SOLUCIÓN Para el cálculo de la media geométrica, es preciso notar que debido a que los datos no están agrupados y se generaron a partir de una muestra, por lo tanto la fórmula a utilizar es la siguiente: M .G M .G 5 ( x1 )(x2 )(x3 )...(xn ) 14310 * 15600 * 15741 * 15965 * 17630 11 n 15,814.07 MEDIDAS RESUMEN CAPÍTULO 3 Cuando las observaciones estan agrupadas en clases y se tienen valores numéricos grandes, no es conveniente utilizar la fórmula siguiente: M .G n f1 f2 f3 fn ( x1 )(x2 )(x3 )...(xn ) Es mejor la expresión matemática que involucra a los logartmos en base 10, ya que los valores que se encuentran son pequeños y por lo tanto fáciles de manejar: 1 n G anti log f i log x (3.6) ni1 Es conveniente mencionar que, dependiendo del tipo de datos que se estén analizando, será conveniente utilizar la media aritmética o la media geométrica. Una de las ventajas que presenta la media geométrica es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. Sin embargo, presenta el inconveniente de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad. Autoexamen 3.2 Las respuestas se encuentran al final del capítulo. 1. Una fábrica de telas ha elevado el costo de tul en un periodo que abarca los últimos cinco años en los siguientes porcentajes. 1989 1990 1991 1992 1993 5% 10.5% 9.0% 6.0% 7.5% a. Calcula la media geométrica para este periodo 2. Un sociólogo ha estudiado el número de procesados asignados al Reclusorio Norte. Los datos están expresados en términos de aumento porcentual en el número de presos (un número negativo indica una disminución porcentual). 12 MEDIDAS RESUMEN CAPÍTULO 3 1988 1989 1990 1991 1992 1993 -4% 5% 10% 3% 6% -5% a. Calcule el aumento porcentual promedio de 1988 a 1993 Consejo: El término promedio en algunas ocasiones se utiliza para señalar cualquier medida de tendencia central y, en forma particular para identificar a la media. Por esta ambigüedad, es conveniente no usar el término cuando se alude a una medida de tendencia central específica. En su lugar, se deberá señalar el término concreto, tal como media, mediana, moda, rango medio y eje medio. Cuando en algún medio de comunicación se reporte un valor como promedio, se prestará a entenderse que el valor puede ser el resultado de cualquiera de las distintas definiciones. 3.2.3 MEDIA ARMÓNICA La media armónica, aunque no es utilizada tan frecuentemente como la media aritmética, se aplica cuando se requiere promediar razones. La razón usualmente indica la relación entre dos tipos diferentes de unidades, por lo que para estos casos es conveniente la aplicación de la media armónica cuando se trata de promediar valores que son expresados en diferentes unidades. Por ejemplo, si una persona caminó 10 millas en dos horas, esta razón puede ser expresada de la siguiente forma: 10 millas 2 horas 5 millas 1 horas 2 horas 10 millas 5 millas por hora 1 horas por milla 5 La media armónica de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos números y se representa por H. Así, dados los números x1, x2, ..,xn, la media armónica será igual a: 13 MEDIDAS RESUMEN CAPÍTULO 3 n H Datos no agrupados n i 1 n 1 xi ( 1 xi ... 1 ) xn (3.7) donde: H = Media armónica 1/xi= Recíproco del valor xi n = Número de elementos en la muestra xi Suma de todos los recíprocos de cada dato xi H n n ( fi * Datos agrupados i 1 1 ) xi (3.8) donde: xi= Marca de clase del intervalo fi= Frecuencia del intervalo i n= Suma de las frecuencias absolutas EJEMPLO 3.4 Tres autos recorren en una competencia 100000 kilómetros. Sus recorridos están dados en la siguiente tabla: Auto A B C Km por hora 90 80 100 a. Calcula el promedio del recorrido de los tres autos SOLUCIÓN Para el cálculo de la media armónica, lo primero que se tiene que calcular es el recíproco o la razón de cada competidor. Auto A B C Km por hora 1/90 1/80 1/100 En seguida se calcula la media armónica 14 MEDIDAS RESUMEN CAPÍTULO 3 H 1 90 1 1 80 100 3 720000 3 240000 kilómetros por hora La media armónica resulta poco influida por la existencia de valores extremos altos con relación al conjunto, siendo en cambio más sensible a valores extremos pequeños. La media armónica no está definida en el caso de la existencia en el conjunto de valores nulos o ceros. Esta medida se utiliza comúnmente para promediar velocidades, tiempos, rendimiento, etc. EJEMPLO 3.5 A continuación se presenta el número de reportes que se reciben en el departamento de soporte técnico de la compañía EDS tomadas de una muestra de 10 días. clases 1-3 3-5 5-7 7-9 SOLUCIÓN Para el cálculo de la media armónica para datos agrupados se requiere calcular clases 1-3 3-5 5-7 7-9 H 1 1 2 H 3 1 4 Marca de clase 2 4 6 8 f 1 3 4 2 10 10 4 1 6 10 2 18 16 6 24 15 f 1 3 4 2 2 1 8 1 2 10 52 24 240 52 3 4 4 6 2 8 4.61 5 MEDIDAS RESUMEN CAPÍTULO 3 Por lo tanto, el promedio de reportes que se esperan por día es 5. 3.2.4 COMPARACIÓN TEÓRICA ENTRE MEDIA ARITMÉTICA, GEOMÉTRICA Y ARMÓNICA Entre la media aritmética, la media geométrica y media armónica se da siempre la siguiente relación: H G X 3.2.5. MEDIANA La mediana de un conjunto finito de valores es el valor que divide al conjunto en dos partes iguales, de forma que el número de valores mayor o igual a la mediana es igual al número de valores menores o igual a estos. Su aplicación se ve limitada ya que solo considera el orden jerárquico de los datos y no las propiedades de los M ~ datos, como sucede en el caso de la media. La mediana se denota por e o x . Para el cálculo de la mediana lo primero que se requiere es ordenar los datos en forma ascendente o descendente (cualquiera de los dos criterios conducen al mismo resultado), después se aplica la fórmula siguiente según sea el caso. Para el caso de datos no agrupados en el que el número de valores es impar, el valor central es único, pero cuando el número de valores en el conjunto es par, no existe un solo valor medio, existen dos valores medios y por lo tanto, la mediana es el promedio de los mismos. Impar Par Me :( Datos no agrupados n 1 ) 2 (3.9) n=Número de elementos del arreglo 16 MEDIDAS RESUMEN CAPÍTULO 3 Me Datos agrupados Li n 2 f acum(i 1) *i f mediana (3.10) donde: Li = Limite real inferior donde se encuentra la clase mediana n 2 en la frecuencia acumulada de la Clase mediana se ubica al encontrar distribución n = Número de observaciones o frecuencia total. f acum i 1 = frecuencia acumulada anterior a la clase mediana. f mediana = Frecuencia absoluta de la clase mediana i = Ancho de la clase en la que se encuentra la clase mediana Algunas ventajas de la mediana es que al igual que la media es que es un valor único, es sencilla en su cálculo y como es un valor medio respecto a la ubicación, los valores extremos no tienen efectos importantes sobre el cálculo de la misma, situación que si ocurre con la media. EJEMPLO 3.6 Dados los tiempos de ensamble de un juguete “x” en el área de electrónicos. A partir de los tiempos registrados para siete trabajadores diferentes. Calcule la mediana para este conjunto de datos. Juguete Tiempo SOLUCIÓN 1 9.0 2 4.3 3 4.7 4 4.2 5 5.1 6 5.0 7 4.8 Como primer paso se debe ordenar el arreglo anterior Juguete Tiempo 1 4.2 2 4.3 3 4.7 4 4.8 5 5.0 6 5.1 7 9.0 Una vez ordenado el arreglo, se observa que el número de datos es impar Me 17 n 1 2 7 1 2 4 MEDIDAS RESUMEN CAPÍTULO 3 Por lo que el valor de la mediana es aquel que se ubica en la cuarta posición contando de derecha a izquierda o viceversa. Para este caso el valor de la ~ x 4.8 EJEMPLO 3.7 En el Hospital General, se registraron las edades de las atenciones médicas brindadas por el hospital. Calcula la mediana para los siguientes datos. Tabla de frecuencias de edad según el número de atenciones en un fin de semana Intervalos Marca de clase fi f acumulada xi [10-20) 15 8 8 [20-30) 25 20 28 [30-40) 35 14 42 [40-50) 45 8 50 [50-60) 55 2 52 [60-70) 65 2 54 [70-80) 75 1 55 55 SOLUCIÓN Para calcular la mediana, lo primero que se tiene que ubicar es la clase mediana. Dado que n = 55 la clase mediana se ubica según n / 2 26.5 , por lo tanto donde se ubica la clase mediana es el intervalo que corresponde a [20-30). Ahora es necesario determinar lo siguiente: Li 20 f acum(i 1) 8 f mediana 20 Sustituyendo en la ecuación tendremos: Me 18 Li n 2 f acum(i f mediana 1) *i i 10 MEDIDAS RESUMEN CAPÍTULO 3 Me 20 55 8 2 *10 20 29.75 Por lo tanto se concluye que el 50% de las personas atendidas en un fin de semana por el hospital tienen una edad inferior a los 20.926 años. 3.2.6 MODA La moda de un conjunto de datos, que suele representarse por Mo; es el valor que ocurre con mayor frecuencia, es decir, es el dato que se presenta en más ocasiones. Cuando ningún valor se repite, se dice que no existe moda. Cuando dos valores ocurren con la misma frecuencia y ésta es la más alta, ambos valores son moda, por lo que se dice que el conjunto de datos es bimodal. Cuando más de dos valores ocurren con la misma frecuencia y ésta es la más alta, todos los valores son moda, por lo tanto el conjunto de datos es multimodal. Lo anterior se puede visualizar en forma gráfica en la siguiente figura: Sin moda Datos no agrupados Valor o valores con frecuencia mayor Mo Datos agrupados LMo d1 d1 d2 *i (3.11) 19 MEDIDAS RESUMEN CAPÍTULO 3 donde: LMo = Límite real inferior de la clase modal Clase modal= Ubicación de la clase donde la frecuencia sea mayor d1 = Frecuencia de la clase modal menos la frecuencia que se encuentra por debajo de ella. d2 = Frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por encima de ella i = Ancho de la clase o intervalo de la clase modal EJEMPLO EJEMPLO 3.6 3.8 Se tomaron los tiempos de ensamble de un juguete “x” en el área de electrónicos durante tres días seguidos, tiempos que se registraron en la siguiente tabla. Calcule la moda para el los días 1, 2 y 3. Juguete Tiempo 1 9.0 2 4.3 Día 1 3 4 4.7 4.2 5 5.1 6 5.0 7 4.8 Juguete Tiempo 1 5.1 2 4.3 Día 2 3 4 5.1 4.2 5 5.1 6 5.0 7 4.8 2 5.0 Día 3 3 4 4.7 4.7 5 5.1 6 5.0 7 4.8 Juguete Tiempo SOLUCIÓN 1 4.8 Al observar el conjunto de datos y la definición del concepto moda, se puede concluir que para estos datos tomados durante tres días seguidos, se tiene que: a) En el día 1 no existe moda b) Para el día 2, la moda es el tiempo 5.1 y a este caso se le denomina unimodal c) El día 3 presenta tres valores que se repiten dos veces cada uno de ellos, los cuales son 5.1, 5.0 y 4.8. Por lo que a este caso se le denomina multimodal. 20 MEDIDAS RESUMEN CAPÍTULO 3 EJEMPLO 3.9 Cuando se trata de datos agrupados, el cálculo de la moda se lleva a cabo mediante la fórmula 3.10. Retomando el ejemplo del Hospital General durante un fin de semana. La clase modal se ubica en la clase donde se encuentre la mayor frecuencia, para este caso es [20-30), por lo tanto: Tabla de frecuencias de edad según el número de atenciones en un fin de semana Marca de clase Intervalos fi xi [10-20) 15 8 [20-30) 25 20 [30-40) 35 14 [40-50) 45 8 [50-60) 55 2 [60-70) 65 2 [70-80) 75 1 55 SOLUCIÓN LMo Mo 20 d1 20 20 8 12 12 * 10 12 6 20 d2 20 14 (. 666 ) * 10 6 20 i 10 6.66 26 .66 La moda, por ser una medida de posición central, tiene la ventaja de que es adecuada tanto para datos cualitativos como cuantitativos, no se ve afectada por valores extremos y se puede utilizar aún cuando una o más clases sean de extremo abierto2. 2 Los intervalos se clasifican según sus características en: 21 MEDIDAS RESUMEN CAPÍTULO 3 Es importante señalar que la moda también puede obtenerse no solo para datos numéricos sino también en datos categóricos. Observe la siguiente tabla. Resultados de la votación para Presidente de los EUM por entidad Federativa AGUASCALIENTES Partido No. de votantes PAN 193588 PRD 89920 PRI 97513 ALTERNATIVA 1275 5597 ALIANZA Para el caso de datos categóricos el concepto de la moda sigue siendo semejante que para datos de tipo numéricos, observe que para este ejemplo la moda corresponde al Partido de Acción Nacional (PAN) que tiene la frecuencia más alta en votos. 3.2.7. COM PARACIÓN ENTRE MEDIA, MEDIANA Y MODA Las distribuciones presentan una característica denominada sesgo, el sesgo habla de la agrupación del conjunto de datos o una mayor concentración hacia la o Acotados o No acotados [a,b] (- [a, b) , a] (- (a,b] , a) [a, ) (a,b) (a, ) A su vez se denominan cerrados o abiertos según entren o no los extremos. Así por ejemplo: o [2,3] es cerrado o (3,6] es abierto a la izquierda y cerrado a la derecha o (4, 5) abierto o [7,9) es cerrado a la izquierda y abierto a la derecha 22 MEDIDAS RESUMEN CAPÍTULO 3 izquierda si es un sesgo positivo o hacia la derecha si es un sesgo negativo. Es importante mencionar que cuando en un conjunto de datos la media=mediana=moda se hace referencia a una distribución simétrica, lo que gráficamente significaría que: x = x̂ = ~ x En una distribución sesgada a la derecha (positiva). Para determinar el valor de la moda, primero se ubica el punto más alto de la curva (x,y) y el valor de la moda es el que toma la abscisa (x); la mediana se encuentra a la derecha de la moda y la media se presenta a la derecha de la mediana. ~ x (x,y) x x̂ En una distribución sesgada a la izquierda (negativa), el valor de la moda es el que toma la abscisa (x), pero el valor de la mediana se encuentra a la izquierda y la media se encuentra con un valor por debajo de la mediana. ~ x x 3.2.8 RANGO MEDIO 23 x̂ (x,y) MEDIDAS RESUMEN CAPÍTULO 3 El rango medio es una medida de tendencia central que permite ubicar el centro a partir de los valores extremos, también es llamado alcance. Datos no agrupados Rangomedio Datos agrupados3 EJEMPLO 3.10 DMayor DMenor 2 (3.12) Seguros Atlas registra la edad de sus asegurados para el llevar a cabo el cálculo de las primas SOLUCIÓN El rango medio se utiliza generalmente en análisis de tipo financiero, meteorológicos porque es una medida resumen sencilla, rápida y adecuada que caracteriza a todo un conjunto de datos. La desventaja de esta medida es que cuando se utiliza en datos como acciones al cierre o lecturas de temperaturas o cualquier conjunto que no contenga datos extremos. Por lo que hay que tener mucho cuidado al utilizar el rango medio, ya que como sólo toma en cuenta dos valores. Así, cuando existe un valor atípico no es muy conveniente utilizar el rango medio. Autoexamen 3.2 Las respuestas se encuentran al final del capítulo. De acuerdo con el siguiente conjunto de datos que se registraron como minutos de espera para la evaluación de una cajera en una sucursal bancaria fueron de 7,4,9,7,3,10, 4, 3, 5 a. Calcula el rango medio del conjunto de datos. b. Explica si resulta recomendable utilizar para este conjunto de 3 Para datos agrupados se toma el Li de la primera clase y el Ls de la última clase como dato menor y mayor respectivamente 24 MEDIDAS RESUMEN CAPÍTULO 3 datos el rango medio como resumen. 3.2.9 EJE MEDIO El eje medio es una medida resumen que se utiliza para superar posibles problemas que introducen los valores extremos de los datos, ya que utiliza para su cálculo los cuarteles, que son medidas de posición “no central” que se utilizan para resumir grandes cantidades de datos. Ejemedio Datos no agrupados Q1 Q3 2 (3.13) donde: Q1= primer cuartil Q3= tercer cuartil Debido a que los cuartiles son denominadas medidas de posición o ubicación, el cálculo de las mismas se verá a fondo en la siguiente sección. A continuación se presenta un cuadro resumen de las medidas de tendencia central más importantes y algunas de sus propiedades. 25 MEDIDAS RESUMEN CAPÍTULO 3 26 MEDIDAS RESUMEN CAPÍTULO 3 3.2.10 CUADRO RESUMEN DE LAS MEDIDAS DE TENDENCIA CENTRAL Tabla 3.1 Comparación de las medidas de tendencia central Medias de tendencia central Media Definición REPRESENTACIÓN SIMBÓLICA Es el promedio aritmético de un conjunto de datos y se obtiene al sumar todos los números y dividirlos entre el total de ellos Muestral ¿Qué tan común es? La más común Existencia ¿Toma en cuenta cada valor? ¿Se ve afectada por los valores extremos? V: Ventajas y D: Desventajas Siempre existe Sí Sí V: Es un concepto familiar para la mayor parte de la gente, se calcula en forma rápida y es aplicable en muchos procedimientos estadísticos (X ) Poblacional ( Mediana Moda Es el valor medio o el promedio aritmético de los valores medios de un conjunto ordenado de números Es el valor que se presenta con más frecuencia en un ) Md MO De uso común Siempre existe Menos común, pero, bajo 27 Podría no existir; podría No No No No D: Es inadecuada si se presenta una clase de extremo abierto en la parte inferior o superior de la escala, en el caso de datos agrupados V: Puede calcularse para una distribución de clase abierta, si la mediana no se encuentra en dicha clase; se puede obtener para datos de nivel ordinal, de intervalo y de razón. Es una buena alternativa si hay algunos valores extremos. D: Se sacrifica exactitud al elegir un valor o un promedio aritmético de un par de valores, para representar una distribución. V: Ampliamente útil para datos en nivel de medición nominal y ordinal; se puede determinar para MEDIDAS RESUMEN CAPÍTULO 3 conjunto de datos Media geométrica Media armónica Es la e-nésima raíz del producto de n valores positivos Es el inverso de la media aritmética de los inversos de los n números ciertas circunstancias, puede tener un valor singular. G o MG H haber más de una Es común su empleo en las áreas de negocios y de economía De uso limitado Siempre existe 28 Siempre existe cualquiera de los niveles de medición. Los valores extremos no la afectan en forma indebida y se pude obtener aun cuando se tenga una o más clases de extremo abierto. Sí Sí Sí No D: Es difícil de interpretarla y compararla cuando se tiene una distribución de frecuencias multimodal. En muchos de los conjuntos de datos no existe o cada valor es una moda. No es aprovechable para posteriores procedimientos estadísticos. V: Para su cálculo no se requiere la ordenación de los valores como para la obtención de otros valores medios. Su empleo cuando los datos se refieren a medidas de variaciones acumulativas o su aplicación en temas de correlación y números índices. D: No puede obtenerse por una simple ojeada de los datos; su valor no se calcula de manera tan sencilla como ocurre con la media. No puede usarse cuando en un conjunto de datos, uno de ellos es cero o negativo V: Su empleo para promediar variables tales como productividades, velocidades, tiempos, rendimientos, tipos de MEDIDAS RESUMEN CAPÍTULO 3 cambio. Rango medio Eje medio Valor que está a la mitad, entre el valor más grande y el más bajo Es la suma del primer cuartil con el tercer cuartil dividida entre dos RM EM Es común su empleo en las áreas de finanzas y de meteorolo gía De uso limitado Siempre existe No Sí D: No es aconsejable en distribuciones de variables con valores pequeños y ningún valor puede ser cero, en virtud de que 1/0 esta indeterminado V: La manera sencilla de obtenerse. D: Si en el conjunto de datos se presenta un valor extremo, el rango medio no es apropiado. Siempre existe No No V: No se ve afectado por valores extremos muy pequeños o muy grandes. D: Medida de tendencia central poco conocida y utilizada. Comentarios generales: En una colección de datos aproximadamente simétrica (Una distribución es simétrica si la mitad izquierda de su histograma es aproximadamente una imagen en espejo de su mitad derecha) todos los promedios tienden a ser iguales. En una colección de datos simétrica es conveniente trabajar con la media y la mediana. No existen criterios objetivos para determinar la medida de tendencia central más representativa para todos los conjuntos de datos. Cada una de ellas ofrecen ventajas y desventajas, como anteriormente se han señalado. Deberá recordarse que en una investigación social se obtiene primero una distribución de frecuencias y después se calcula para cada variable la medida de tendencia central más adecuada, de acuerdo a los propósitos de la investigación y los niveles de medición. La media aritmética se utiliza mucho y por lo general es lo que los investigadores citan cuando usan la palabra media. 29 MEDIDAS RESUMEN CAPÍTULO 3 3.3 MEDIDAS DE POSICIÓN 3.3.1 CUANTILES: CUARTILES, DECILES Y PERCENTILES Las medidas de posición “no central” también llamadas cuantiles (o fractiles) deben su nombre al número de partes en las que dividen a un conjunto de datos y se emplean como medidas resumen cuando se tienen grandes cantidades de datos numéricos, lo que significa que para cada intervalo existe el mismo número de valores. Cuando la distribución contiene un número alto de intervalos y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes, así son denominados cuartiles, deciles y percentiles según corresponda. Parecido a la mediana que divide un conjunto de datos exactamente por la mitad (el 50% de las observaciones) los cuartiles dividen el total de las observaciones en varios segmentos que corresponden a: Q1:contiene el 25% de los datos Q2:contiene el 50% del conjunto de datos Q3:contiene el 75% del total de las observaciones La representación gráfica sería la siguiente: Q2 Q1 Q3 Valor mínimo Valor máximo 25% 50% 75% 100% Otros cuantiles utilizados son los deciles que dividen al conjunto de datos en diez y los percentiles que lo dividen en cien partes iguales. Como se puede observar, los cuartiles dividen el total de datos en cuatro partes iguales y de acuerdo a la definición de la mediana, este valor corresponde también al del segundo cuartill o Q2. Si se tienen una serie de valores X1, X2, X3 ... Xn entonces: Q1 : Datos no agrupados 30 (n 1) 4 MEDIDAS RESUMEN CAPÍTULO 3 (3.14) Q3 : 3(n 1) 4 (3.15) donde: Q1= primer cuartil Q2= mediana=segundo cuartil Q3= tercer cuartil EJEMPLO 3.11 Las siguientes son las edades de una muestra de estudiantes tomada entre los asistentes a un curso en la compañía SPSS México. Calcule los cuartiles Q1, Q2 y Q3 para el conjunto de datos. 19 17 15 20 23 41 33 21 18 20 18 33 32 29 24 19 18 20 17 22 55 19 22 25 28 30 44 19 20 39 SOLUCIÓN Para calcular el Q1, Q2 y Q3 es necesario ordenar los datos, recordemos que por ser un concepto similar al de la mediana, lo que se está calculando es la posición que divide al conjunto de datos en cuatro partes iguales. A continuación se presenta el arreglo de datos ordenados. Q1 15 17 17 18 18 18 19 19 19 19 20 20 20 20 21 22 22 23 24 25 28 29 30 32 33 33 39 41 44 55 Q2 Q3 Para ello se utiliza la fórmula Q1 (n 1) 4 Q1 (30 1) 4 31 4 7.75 8 Observe que el valor que corresponde a la posición 8 es el 19, el valor Q1=19. La obtención del cuartil Q2 se obtiene a partir de 31 MEDIDAS RESUMEN CAPÍTULO 3 la fórmula para la mediana de datos pares, es decir, se calcula el promedio de los dos valores centrales 21 y 22, por lo tanto: Q2 Me 21 22 2 21.5 El valor que divide al conjunto de datos en 50% por ciento es el 21.5. Para el cuartil Q3 se utiliza la siguiente fórmula: Q3 3(n 1) 4 3(30 1) 4 93 4 23.25 23 Gráficamente se puede observar lo siguiente: Q2=21.5 Q1=19 Q3=30 Valor mínimo 15 Valor máximo 55 25% 50% 75% 100% Recuerda que o una tabla de frecuencias, los cuartiles se localizan mediante las siguientes fórmulas, cabe aclarar que la fórmula indica la posición del valor en el que se dividen los datos. : Q1 (n 1) 4 Q3 3(n 1) 4 Datos no agrupados 32 MEDIDAS RESUMEN CAPÍTULO 3 (3.15) donde: Q1= Primer cuartil Q2= Segundo cuartil Q3= Tercer cuartil Ck : númerodecuartildeseado ( n) totaldecuartiles (3.16) Datos agrupados Ck Lik dc * ik fc (3.17) donde: Ck= Cuantil k (recuerde que esta variable toma la letra Qk si se calcula cuartiles, Dk si son deciles y Pk si son percentiles) Lik = Límite inferior real de la clase en la que se encuentra el cuartil k n = Número de datos dc = Diferencia entre el valor calculado del cuartil en estudio. Localiza su pocisión en la columna de frecuencia acumulada f a menos la frecuencia anterior Fc = Frecuencia absoluta del intervalo donde se encuentra ubicado el cuartil en estudio ik = Amplitud del intervalo o la clase donde se ubica el cuartil k EJEMPLO 3.12 Las siguientes son las edades de una muestra de estudiantes tomada entre los asistentes a un curso en la compañía SPSS México. Calcule los cuartiles Q1, Q2 y Q3 para el conjunto de datos. 19 17 15 20 23 41 33 21 18 20 18 33 32 29 24 19 18 20 17 22 33 MEDIDAS RESUMEN CAPÍTULO 3 55 19 22 25 28 30 44 19 20 39 SOLUCIÓN Para calcular el Q1, Q2 y Q3 es necesario ordenar los datos, recordemos que por ser un concepto similar al de la mediana, lo que se está calculando es la posición que divide al conjunto de datos en cuatro partes iguales. A continuación se presenta el arreglo de datos ordenados. Q1 15 17 17 18 18 18 19 19 19 19 20 20 20 20 21 22 22 23 24 25 28 29 30 32 33 33 39 41 44 55 Q3 Q2 Para ello se utiliza la fórmula Q1 (n 1) 4 Q1 (30 1) 4 31 4 7.75 8 Observe que el valor que corresponde a la posición 8 es el 19, el valor Q1=19. La obtención del cuartil Q2 se obtiene a partir de la fórmula para la mediana de datos pares, es decir, se calcula el promedio de los dos valores centrales 21 y 22, por lo tanto: Q2 Me 21 22 2 21.5 El valor que divide al conjunto de datos en 50% por ciento es el 21.5. Para el cuartil Q3 se utiliza la siguiente fórmula: Q3 3(n 1) 4 3(30 1) 4 93 4 23.25 23 Gráficamente se puede observar lo siguiente: 34 MEDIDAS RESUMEN CAPÍTULO 3 Q2=21.5 Q1=19 Q3=30 Valor mínimo 15 Valor máximo 55 25% 50% 75% 100% EJEMPLO 3.13 El vicepresidente de una cadena de locales de comida rápida, estudia las ventas de 100 locales de comida que se encuentran en el Distrito Federal y ha preparado la siguiente tabla de frecuencias. Calcule los cuartiles para el siguiente conjunto de datos. Ventas (miles de Frecuencia pesos) SOLUCIÓN 700-799 4 800-899 7 900-999 8 1000-1099 10 1100-1199 12 1200-1299 17 1300-1399 13 1400-1499 10 1500-1599 9 1600-1699 7 1700-1799 2 1800-1899 1 Para el cálculo de los cuartiles se utiliza la fórmula que corresponde a datos agrupados: 35 MEDIDAS RESUMEN CAPÍTULO 3 Paso #1 Calcular la frecuencia acumulada a partir de la tabla Ventas (miles de pesos) f fa 700-799 4 4 800-899 7 11 900-999 8 19 1000-1099 10 29 1100-1199 12 41 1200-1299 17 58 1300-1399 13 71 1400-1499 10 81 1500-1599 9 90 1600-1699 7 97 1700-1799 2 99 1800-1899 1 100 Paso #2 Calculo de la ubicación de los cuartiles 1 C1 : (100) 4 25 se ubica en el intervalo 1000-1099 2 C2 : (100) 4 50 se ubica en el intervalo 1200-1299 3 C3 : (100) 4 75 se ubica en el intervalo 1400-1499 4 C4 : (100) 100 4 se ubica en el intervalo 1900-1899 Paso #3 Se obtiene la diferencia entre el valor calculado y la frecuencia acumulada anterior al cuartil que se está calculando. C1 : 25 19 6 C2 : 50 41 9 36 MEDIDAS RESUMEN CAPÍTULO 3 C3 : 75 71 4 C4 : 100 99 1 Paso #4 Sustituir en la fórmula 3.12 para los cuartiles cuando los valores están agrupados en intervalos 3.4 Q1 999.5 Q2 1199.5 6 (100) 999.5 60 1059.5 10 9 (100) 1199.5 52.94 1252.44 17 Q3 1399.5 4 (100) 1399.5 40 1439.5 10 Q4 1 (100) 1799.5 100 1899.5 1 1799.5 MEDIDAS DE VARIABILIDAD Si bien las medidas de tendencia central proporcionan información acerca de los valores particulares de un conjunto de datos, los investigadores en el campo de las ciencias sociales requieren de otras herramientas estadísticas que permitan obtener una descripción numérica más completa. Estas herramientas son las medidas de variabilidad, que describen la dispersión de un conjunto de datos. Por ejemplo, en las unidades de diagnóstico médico de la cadena Pfizer se mide el porcentaje de grasa corporal a una muestra aleatoria de 50 varones, realizado en un fin de semana y resulta que la mediana es de 25.8 %. ¿El porcentaje de grasa es normal en este grupo de hombres? La respuesta es no, de acuerdo con los valores nominales ya establecidos; pero ¿qué se puede esperar de los resultados de los otros hombres que se practicaron el estudio y no formaron parte de la muestra? ¿ellos también tiene un porcentaje de grasa de 25.8%?¿qué puede concluirse cuando se sabe que existen diagnósticos de algunas con porcentajes de grasa que van desde un 15% a un 32%. Las medidas de variabilidad proporcionan la información adicional necesaria para contestar estas preguntas. La figura 3.5.X muestra tres diferentes grupos cuyas distribuciones presentan que 50) pero las variabilidades difieren. la media aritmética es la misma ( 1=50 2=50 37 3=50 MEDIDAS RESUMEN CAPÍTULO 3 Al observar estas distribuciones se puede concluir que es necesaria una medida que permita complementar la información descriptiva que proporciona la media. Las medidas de variabilidad se clasifican en absolutas y relativas, como se ilustra a continuación. MEDIDAS DE VARIABILIDAD DATOS NO AGRUPADOS / DATOS AGRUPADOS EN VALOR ABSOLUTO EN VALOR RELATIVO RANGO COEFICIENTE DE VARIACIÓN RANGO INTERCUARTIL DESVIACIÓN MEDIA VARIANZA DESVIACIÓN ESTÁNDAR Figura 3.5.XX Clasificación de las medidas de variabilidad Es importante señalar que los métodos de cálculo de las medidas de variabilidad al igual que para las medidas de tendencia central y las de ubicación difieren para datos no agrupados y agrupados. 3.4.1 RANGO La medida de dispersión más sencilla es el rango, también conocido por los expertos en estadística como alcance, recorrido o amplitud total, es de cálculo sencillo y se define como la diferencia entre el valor más grande del conjunto de datos y el valor más pequeño. Si bien el rango es fácil de calcular y de comprender, es una medida burda de variabilidad que sólo describe la distancia entre los límites exteriores del conjunto de datos; esto hace que sea una medida limitada de dispersión, además de que se ve afectada por valores atípicos. Un uso importante del rango es en el aseguramiento de calidad, donde el rango se utiliza para 38 MEDIDAS RESUMEN CAPÍTULO 3 construir gráficas de control4. La fórmula para la obtención del rango tanto para datos agrupados como no agrupados es la siguiente: Datos no agrupados Rango Datos agrupados5 DM Dm (3.18) A continuación se muestra en la tabla 3.2 que contiene información sobre el PIB trimestral a precios de 1993 en valores absolutos del 2004 hasta la fecha. Tabla 3. 2 Valores absolutos del PIB a precios de 1993 en el sector servicios Unidad de Medida: Miles de pesos a precios de 1993. Periodo Servicios 2004/01 1,080,667,914 2004/02 1,107,526,001 2004/03 1,084,465,827 2004/04 1,158,798,626 2005/01 1,124,002,591 2005/02 1,155,367,126 2005/03 1,133,147,713 2005/04 1,204,293,569 2006/01 1,184,857,898 El rango de precios en servicios en este conjunto se calcula obteniendo la diferencia entre el valor más alto que es 1,204,293,569 y el valor mínimo 1,080,667,914. El resultado es 123,625,655. o RANGO INTERCUARTIL Otra medida de variabilidad es el rango intercuartil que se define como la diferencia entre tercer y el primer cuartil, es decir Q3 – Q1; en términos de percentiles, ésta es la distancia entre los valores 75% y 25% (P75 – P25). El rango intercuartil es especialmente útil en situaciones en donde los usuarios de datos están interesados en valores hacia el medio (rango del 50% central) y menos interesados en los extremos. 4 Gráficos de control. Establecidos por Shewhart como una manera de estimar la incertidumbre de una medida y sus componentes a partir de información que se recolecta. 5 Para datos agrupados el DM –dato mayor– corresponde al límite superior de la última clase o intervalo y el Dm –dato menor– corresponderá al límite inferior de la primera clase o intervalo 39 MEDIDAS RESUMEN CAPÍTULO 3 Datos no agrupados RangoIntercuartil Datos agrupados Q3 Q1 P75 P25 (3.19) EJEMPLO 3.14 La siguiente tabla muestra las puntuaciones obtenidas por alcohólicos de sexo masculino que están en pleno proceso de rehabilitación (de una escala del 0 al 60 de valores continuos el especialista determina con base en pruebas bio-sicológicas la puntuación del paciente): Puntuaciones 0-5 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60 SOLUCIÓN hombres 1 7 12 19 27 28 26 17 13 9 3 1 El cálculo del rango intercuartil requiere a su vez la obtención de los Q1 y Q3 para ello es necesario seguir el procedimiento ya visto en el ejemplo ___. puntaje f fa Li real Ls real 0-5 5-10 10-15 15 - 20 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60 1 7 12 19 27 28 26 17 13 9 3 1 1 8 20 39 66 94 120 137 150 159 162 163 0 4.5 9.5 14.5 19.5 24.5 29.5 34.5 39.5 44.5 49.5 54.5 4.5 9.5 14.5 19.5 24.5 29.5 34.5 39.5 44.5 49.5 54.5 59.5 40 MEDIDAS RESUMEN CAPÍTULO 3 Paso #1 Se obtiene la ubicación del cuartil buscado Q1: (1/4)*163=40.75 Q3: (3/4)*163=122.25 Paso #2 Se calcula la diferencia entre el valor obtenido en el paso 1 y la frecuencia acumulada anterior al cuartil buscado Q1= 40.75-39=3.75 Q3=122.25-120=2.25 Paso #3 Se aplica la fórmula _____ para la obtención de Q1 y Q3 Q1= 19 .5 Q3= 34 .5 1.75 *163 19 .8224 27 2.25 *163 35 .162 17 Por lo tanto el rango intercuartil es Q3-Q1=15.33. Recuerde que el rango intercuartil es el alcance que existe entre el Q3 y Q1, la ventaja de éste es que no es sensible a datos atípicos. Este 15.33 significa entonces que el 50% de los datos se encuentran entre los datos 19.882 y 35.162 gráficamente sucede lo siguiente: Q1 Q3 3.4.2 DESVIACIÓN MEDIA Esta medida también conocida como desviación media absoluta6 o desviación promedio o desviación promedio absoluta, se denota por las siglas DM y es el promedio de los valores absolutos de las diferencias respecto a la media y en términos de una fórmula, se calcula para una muestra como sigue: 6 ¿Por qué se ignora los signos de las desviaciones de la media? Esto es así para evitar que las desviaciones positivas y negativas de la media se compensan entre sí, lo que de ocurrir así provocaría siempre una media cero, lo que daría como resultado un estimador sin ninguna utilidad. 41 MEDIDAS RESUMEN CAPÍTULO 3 n xi Datos no agrupados x i 1 MD n (3.20) donde: xi el valor de cada observación X es la media de los valores n es el número de observaciones en la muestra Indica el valor absoluto n f i xi MD Datos agrupados x i 1 n (3.21) donde: xi es la marca de clase f es la frecuencia de clase X es la media de los valores n es el número de observaciones en la muestra Indica el valor absoluto EJEMPLO 3.15 Una muestra de los archivos de nueve empleados de la embajada de Japón en México, reveló que, durante un periodo de cuatro meses, perdieron el siguiente número de días por enfermedades: 2, 0, 5, 4, 9, 3, 1, 2 y 3. Calcule la desviación media e interprete el resultado. SOLUCIÓN Para el cálculo de la desviación media es necesario realizar el cálculo de la media aritmética 2 0 5 4 9 3 1 2 3 9 x 29 9 3.22 DM= 2 3.22 0 3.22 5 3.22 4 3.22 9 9 3.22 3 3.22 1 3.22 9 = 1.85 42 2 3.22 3 3.22 MEDIDAS RESUMEN CAPÍTULO 3 EJEMPLO 3.16 SOLUCIÓN Se registraró el consumo de energía eléctrica de una muestra de 38 hogares de la colonia San Cristóbal durante un estudio socioeconómico realizado en el Estado de México. Consumo de energía eléctrica (Kwh) No. de hogares 298-304 4 304-310 5 310-316 10 316-322 7 322-328 6 328-334 3 334-340 2 340-346 1 Para el cálculo de la desviación media es necesario: 1. Se determina la media aritmética mediante el procedimiento ya conocido. 2. Para calcular la desviación media se determina el valor absoluto de cada marca de clase menos la media aritmética 3. Se multiplica el valor absoluto por la frecuencia de cada intervalos de clase. 4. Se suman todos los productos y se dividen entre el número total de observaciones. 5. Se obtiene el valor absoluto de la diferencia de cada Se marca de clase. Intervalos de clase (Kwh) Marca de clase xi fi*xi fi 298-304 4 301 1204 16.42 65.68 304-310 5 307 1535 10.42 52.1 310-316 10 313 3130 4.42 44.2 316-322 7 319 2233 1.58 11.06 322-328 6 325 1950 7.58 45.48 328-334 3 331 993 13.58 40.74 334-340 2 337 674 19.58 39.16 340-346 1 343 343 25.58 25.58 8 38 i 1 f43 12062 i * xi xi x f i * xi 324 x MEDIDAS RESUMEN CAPÍTULO 3 x 12062 38 DM 324 38 317.42 8.53 Para su interpretación se tiene que la x DM se obtienen los valores 317.42 8.53 de lo cual obtenemos los límites (308.89, 325.95) al localizar estos valores dentro de los intervalos de clase tenemos que el 308.89 se encuentra en el tercer intervalo mientras que el 325.95 se encuentra en el 5º. Intervalo por lo que sumando las frecuencias absolutas que corresponden a estos tres intervalos es 23. Aplicando la “regla de tres” se tiene que: 38 100% 23 x Lo que corresponde a 60.52% de los datos caen en este intervalo. Es conveniente aclarar que éste porcentaje es único para este problema en particular. Más adelante se estudiará la interpretación de la desviación estándar y en ella se presenta la regla empírica que no es la que se está aplicando en este momento. Cuando se trabaja la DM, se obtiene el porcentaje para cada en particular. La desviación media tiene como ventaja que su comprensión es sencilla, ya que es el promedio de desviación de todos los valores con relación a la media, además que utiliza para su cálculo todos los valores de la muestra, lo que al calcular el rango y el rango intercuartil no sucede. Su principal desventaja, es que usa los valores absolutos, y éstos requieren un mayor esfuerzo para el tratamiento algebraico. La desviación media se utiliza con menor frecuencia que otras medidas de tendencia central como la desviación estándar y la varianza. Autoexamen 3.2 Las respuestas se encuentran al final del capítulo. 1. La Procuraduría Federal del Consumidor realiza una investigación con relación a las deudas por uso de tarjetas de crédito en la Ciudad de México y para tal efecto encuesta a una muestra de doce personas entre los 25 y 40 años de edad que tienen deudas mayores a los $5,000.00. 44 MEDIDAS RESUMEN CAPÍTULO 3 Los resultados mostraron que todos ellos pagaban un promedio de un poco más de $300.00 al mes. A continuación se presenta las cantidades que cada consumidor abonó a su saldo un mes anterior. $510 $526 $505 $499 $512 $491 $500 $514 $501 $520 $493 $495 a. ¿Cuál es el rango de las cantidades abonadas? b. Calcule el rango intercuartil de las cantidades abonadas e interprete el resultado c. Calcule la desviación media de las cantidades abonadas e interprete 2. En una compañía de Venta de bienes raíces se realizó un estudio para determinar las habilidades que los agentes poseen para realizar una venta. Se realizaron dos mediciones en diferentes grupos. Uno experimental (el Grupo 1) que había recibido un curso de apoyo y otro grupo más (Grupo 2) que aún no recibía ninguna capacitación. La prueba de habilidades tiene 100 puntos como calificación máxima. La siguiente tabla muestra los resultados obtenidos por ambos grupos en la prueba de habilidades: Intervalos 32-38 39-45 46-52 53-59 60-66 67-73 Grupo 1 fi 5 12 17 10 5 3 Grupo 2 fi 4 11 15 9 4 2 a. Calcule el rango para los dos grupo ¿Puede ser ésta una medida resumen de comparación? b. Calcule el rango intercuartil para ambos grupos. c. Calcule la desviación media de cada grupo y compare. 3.4.3 VARIANZA Como se estudió en los apartados anteriores, el rango y el rango intercuartil son medidas de variabilidad que no contemplan la forma en que se distribuyen o agrupan los valores que están entre los extremos. De todas las medidas de variabilidad absolutas la varianza es una de las dos más importantes que emplea todos los valores. La varianza mide la dispersión promedio alrededor 45 MEDIDAS RESUMEN CAPÍTULO 3 de la media, es decir, qué tanto varían los valores más grandes que están por encima de ella y cómo se distribuyen los valores menores que están por debajo de ella. La varianza se basa en la diferencia entre el valor de cada observación (xi) y la media aritmética ( x para una muestra, para una población); a esta diferencia se le denomina desviación respecto al promedio. Para una muestra, la desviación con relación a la media se expresa como ( xi x ) ; para una ) . Para calcular la varianza las desviaciones respecto al población es ( xi promedio se elevan al cuadrado y se dividen entre n -1 para una muestra y N para una población. La varianza de la población se representa por 2 y de la muestra por s2. Por lo tanto la varianza se define como la media o promedio de los cuadrados de las desviaciones de los valores de la variable a la media, es decir, el momento de segundo orden respecto a la media. Y cuenta con las siguientes propiedades más importantes: Por definición la varianza nunca puede ser negativa. Esto quiere decir que, dado que la fórmula eleva al cuadrado las diferencias, la suma de las mismas nunca podrá ser negativa. A menos que todos los elementos del conjunto de datos de la población o de la muestra tengan el mismo valor, la varianza no puede ser cero. Es igual al momento de segundo orden respecto al origen menos el de primer orden elevado al cuadrado. Si se suma o se resta el mismo número a todos los valores, la varianza no se modifica. Si se multiplica los valores de una distribución de frecuencias por una constante k la varianza queda multiplicada por el cuadrado de la constante. Poblacional N Datos no N (3.22) donde: N= Tamaño de la población n= Tamaño muestral x = Media aritmética muestral =Media poblacional 46 xi s2 i 1 agrupados n 2 xi 2 Muestral x 2 i 1 n 1 (3.23) MEDIDAS RESUMEN CAPÍTULO 3 x i = Dato i-ésimo Poblacional Muestral n N Datos f i * ( xi 2 ) i 1 agrupados f i * ( xi 2 s2 x)2 i 1 N (3.24) n 1 (3.25) donde: N= Tamaño de la población n= Tamaño muestral = Media poblacional fi= Media muestral x = Media aritmética del conjunto de datos x i = Marca de clase del intervalo i-ésimo s2=Varianza muestral 2 =Varianza poblacional El uso del denominador o divisor (n-1) al calcular la varianza de una muestra es un procedimiento estándar que hace que la varianza resultante de la muestra sea un mejor estimador de la varianza de la población de la cual se obtuvo la muestra. En realidad, para tamaños de la muestra grandes (por ejemplo, n 30) , restar 1 de n implica muy poca diferencia. EJEMPLO 3.17 Se registraró el consumo de energía eléctrica de una muestra de 38 hogares de la colonia San Cristóbal durante un estudio socioeconómico realizado en el Estado de México. 47 MEDIDAS RESUMEN CAPÍTULO 3 SOLUCIÓN Consumo de energía eléctrica (Kwh) No. de hogares 298-304 4 304-310 5 310-316 10 316-322 7 322-328 6 328-334 3 334-340 2 340-346 1 Para el cálculo de la varianza es necesario: 1. Determinar la media aritmética mediante el procedimiento ya conocido para datos agrupados, fórmula ( ) x 316.9 2. Para calcular la varianza se obtiene las diferencias entre las marcas de clase y la media obtenida en el paso anterior. Consumo xi de No. de Marca energía hogares de eléctrica clase (Kwh) 300.5 298-304 4 304-310 5 310-316 10 312.5 316-322 7 322-328 xi xi x 2 f i * xi x 2 -16.4 268.96 1075.84 108.16 540.8 -4.4 19.36 193.6 318.5 1.6 2.56 17.92 6 324.5 7.6 57.76 346.56 328-334 3 330.5 13.6 184.96 554.88 334-340 2 336.5 19.6 384.16 768.32 340-346 1 342.5 25.6 655.36 655.36 306.5 -10.4 n f i * xi s2 ii 1 n 1 48 x x 2 4153.28 37 112 .25 MEDIDAS RESUMEN CAPÍTULO 3 Cuando calculamos la varianza, cada diferencia se expresa en unidades al cuadrado, por lo que en muchas ocasiones su interpretación resulta complicada, ya que para este caso tendríamos kwh2 por lo que este resultado no tiene un significado y para su interpretación siempre resultará más conveniente utilizar la desviación estándar. Existen fórmulas alternativas que permite y facilitan su cálculo si éste no se realiza mediante un software estadístico. Poblacional Muestral N n xi2 Datos no agrupados 2 N 2 xi2 s2 i 1 N nx 2 i 1 n 1 (3.26) (3.27) donde: N= Tamaño de la población n= Tamaño muestral x = Media del conjunto de datos x i = Dato i-ésimo Media poblacional 2 Varianza poblacional Poblacional Muestral n N fi x Datos agrupados 2 2 i N s2 i 1 N (3.28) donde: 2 Varianza de la población s Varianza muestral = Media de la población N = Tamaño de la población fi = Frecuencia de la clase i xi = punto medio de la clase i 2 49 f i xi2 2 i 1 n 1 nx 2 n 1 (3.29) MEDIDAS RESUMEN CAPÍTULO 3 3.4.4 DESVIACIÓN ESTÁNDÁR La desviación estándar o desviación típica s 2 o 2 es una medida de dispersión para variables de razón y de intervalo, de gran utilidad en la estadística descriptiva. Está definida como la raíz cuadrada de la varianza s s2 o 2 . Es una medida resumen que mide el grado de dispersión que presenta un conjunto de valores o simplemente el "promedio" o variación esperada con respecto a la media aritmética de todos los valores. Hablar de una desviación estándar grande significa que los puntos están lejos de la media y una desviación pequeña indica que los datos están agrupados muy cercanos a su media. Por ejemplo, se tomaron tres muestras en diferentes colonias de cuatro casas para medir el número de focos que se presentaron fue: A (0, 0, 14, 14) xA 7 s A2 7 B (0, 6, 8, 14) xB 7 s B2 5 C (6, 6, 8, 8) xC 7 s C2 1 Como se puede observar, la muestra C tiene una desviación mucho menor que las otras dos porque sus valores están más cercanos al 7. A continuación se presentan las fórmulas para el cálculo de la desviación típica. Población n N Datos no agrupados Muestra xi 2 i 1 s N (3.30) donde: N = Tamaño de la población n = Tamaño muestral = desviación estándar poblacional s = desviación estándar muestral = media poblacional del conjunto de datos x = Media muestra del conjunto de datos 50 xi x 2 i 1 n 1 (3.31) MEDIDAS RESUMEN CAPÍTULO 3 x i = Dato i-ésimo Población Muestra N N )2 f i * ( xi Datos agrupados i 1 f i * ( xi i 1 s N x)2 n 1 (3.33) (3.32) donde: N = Tamaño de la población n = Tamaño muestral = desviación estándar poblacional s = desviación estándar muestral = media poblacional del conjunto de datos x = Media muestra del conjunto de datos x i = Dato i-ésimo fi frecuencia de la clase i EJEMPLO 3.18 Se realiza una estadística en dos centros de enseñanza, uno público y otro privado, referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a los exámenes de selección para ingresar a nivel superior. Las distribuciones de frecuencias que presentaron fueronlas siguientes: Centro privado Nota global de cada alumno. 5 6 7 8 9 51 6 7 8 9 10 Frecuencias 10 15 20 30 15 MEDIDAS RESUMEN CAPÍTULO 3 Centro público Nota global de cada alumno. 6 5 7 6 8 7 9 8 10 9 Frecuencias 225 150 100 20 25 a) Calcula la varianza de los dos grupos y compara. ¿Cuál es el grupo que presenta mayor variabilidad en los resultados del examen? b) Calcula la desviación estándar de cada grupo ¿Qué significan estos valores obtenidos? SOLUCIÓN Para el cálculo de la desviación estándar, en ocasiones es conveniente elaborar una tabla de apoyo que simplifique los cálculos, como se muestra a continuación: Centro privado Nota global de cada alumno. 6 5 7 6 8 7 9 8 10 9 N Media xi - x x fi*(xi- x )2 -2.28 5.19 51.88 -1.28 1.63 24.49 7.78 -0.28 0.08 1.54 7.78 0.72 0.52 15.65 7.78 1.72 2.97 Varianza 44.49 1.53 xi 10 15 20 30 15 5.5 55 7.78 6.5 97.5 7.78 7.5 150 8.5 255 90 xi *f (xi- x ) 2 F 9.5 142.5 Media 7.78 La suma de los elementos de la columna xi *fi Media x privado 700 90 7.78 La suma de los elementos de la columna fi*(xi- x )2 s privado 52 138.06 1.53 90 MEDIDAS RESUMEN CAPÍTULO 3 Centro público Nota global 5 6 7 8 9 F 6 7 8 9 10 225 150 100 20 25 N 520 xi mc*f media xi-x (xi-x) 2 f*(xi-x)2 5.5 1237.5 6.48 -0.98 0.96 216.43 6.5 975 6.48 0.02 0.00 0.06 7.5 750 6.48 1.02 1.04 103.88 8.5 170 6.48 2.02 4.08 81.55 6.48 3.02 9.12 Varianza 227.89 1.21 9.5 237.5 Media 6.48 La institución que presenta una mayor variabilidad en los resultados de sus alumnos es el centro privado. a) Para la obtención de la desviación estándar sólo es necesario aplicar la raíz cuadrada al resultado de la varianza. público 1.53 1.23 privado 1.21 1.10 Estos resultados significan que cada valor se aleja de su media aproximadamente en 1.23 para el Centro privado y en 1.10 para el Centro público. El cálculo es importante y relativamente sencillo, sin embargo la interpretación de la desviación estándar se analizará con mayor detalle en el próximo tema. 3.4.5 INTERPRETACIÓN DE LA DESVIACIÓN ESTÁNDAR La desviación estándar se emplea como una medida para comparar la dispersión en dos o más conjuntos de observaciones. Se interpreta a partir de lo siguiente o Regla empírica: Para una distribución de frecuencias simétrica en forma de campana, aproximadamente 68% de las observaciones estarán a más y menos una desviación estándar de la media, aproximadamente un 95% de tales observaciones se encontrará a más y menos dos desviaciones estándar de la misma; y prácticamente todas las observaciones (99,7%) se hallarán a más y menos tres desviaciones estándar con respecto a la media. Como se observa en la curva simétrica de campana que muestra las relaciones entre la desviación estándar y la media 53 MEDIDAS RESUMEN CAPÍTULO 3 -3 -2 - 0 2 3 68% 95% 99.7% La regla empírica apoya a medir cómo se distribuyen los valores por debajo y por encima de la media. Esto permite identificar los valores atípicos cuando se analiza un conjunto de datos numéricos. La regla empírica señala que aproximadamente uno (5%) de cada 20 (100%) valores estará alejado más allá de dos desviaciones estándar en cualquier dirección. Se puede tomar como una regla general que, los valores que no se ubiquen en el intervalo 2 se consideran como posibles valores atípicos. Esta regla también implica que aproximadamente tres de cada 1000, estarán alejados de la media más allá de tres desviaciones estándar. Por consiguiente, se consideran como valores extremos los que no se ubiquen en el intervalo 3 . o Teorema de Chebyshev. En los conjuntos de datos que presentan una desviación estándar grande será resultado de que los valores se encuentran muy dispersos con relación a la media. Un matemático ruso llamado Chebyshev creó un teorema que refleja esta situación. En él cuantifica el porcentaje mínimo de valores que se ubicarán dentro de un número determinado de desviaciones estándar a partir de la media y aplica a todas las distribuciones cualquiera que sea su forma, es decir, se puede utilizar siempre que la forma de la distribución de los datos sea desconocida o sea anormal. Este teorema de Chebyshev expresa que para un conjunto cualquiera de observaciones (muestra o población), la proporción mínima de los valores que se encuentran dentro de k desviaciones estándar desde la media es al menos de 1 – 1/k2, donde k es una constante mayor que 1. Otra consecuencia del teorema es que para cada distribución de media μ y desviación típica finita σ, al menos la mitad de los valores caerán en el intervalo (μ-2 σ, μ+2 σ). 54 MEDIDAS RESUMEN CAPÍTULO 3 Porcentaje de valores que se encuentran en los intervalos alrededor de la media Intervalo Teorema de Chebyshev (para toda distribución) ) Al menos el 0% 2 , 2 ) Al menos el 75% 3 , 3 ) Al menos el 88.89% ( , ( ( Para ilustrar este resultado, supongamos que un grupo de estudiantes presenta para su materia de redacción 50 ensayos que tienen una extensión media de 1000 caracteres y una desviación estándar de 200 caracteres. De la desigualdad de Chebyshev se deduce que al menos el 75% de los artículos tendrán una extensión comprendida entre 600 y 1400 caracteres (k = 2). 3.4.6. EL COEFICIENTE DE VARIACIÓN La desviación estándar es útil como medida de variación dentro de un conjunto de datos. Sin embargo, cuando se desea comparar la dispersión en dos conjuntos de datos, cotejar las desviaciones estándar puede conducir a resultados ilógicos o puede ser que las dos variables que intervienen se midan en unidades diferentes. El coeficiente de variación es una medida que permite: o Comparar la variabilidad entre dos grupos de datos referidos a distintos sistemas de unidades de medida. Por ejemplo, kilogramos y centímetros. o Comparar la variabilidad entre dos grupos de datos obtenidos por dos o más personas distintas. o Determinar si cierta media es consistente con cierta varianza. Lo que se necesita en situaciones como ésta es una medida de variación relativa, en lugar de una de variación absoluta. Esa medida se encuentra en el coeficiente de variación, el cual expresa a la desviación estándar como un porcentaje de la media. La ventaja del coeficiente de variación es que se encuentra dado en porcentajes y es más comprensible. Población Datos no agrupados C.V 100 Datos agrupados (3.34) 55 Muestra C.V s 100 x (3.35) MEDIDAS RESUMEN CAPÍTULO 3 donde: = Desviación estándar poblacional s= Desviación estándar muestral = Media aritmética poblacional x =Media muestral EJEMPLO 3.19 Se aplicaron encuestas a dos grupos de amas de casa para conocer el gasto promedio mensual en salud de 100 familias de una zona de alto nivel socioeconómico del D.F. Los dos grupos registrados fueron de nivel D al cual se le realizaron 60 entrevistas y 40 entrevistas de nivel D+. Los resultados de las entrevistas se presentan a continuación: Nivel socioeconómico D D+ 150.5 230.5 2500 3200 s x a. Calcule el coeficiente de variación de ambos niveles socioeconómicos y responda, ¿Cuál de ellos presenta mayor variabilidad? SOLUCIÓN Para responder a esta pregunta es necesario calcular el cociente de cada desviación muestral respecto a su media. CVD 150 .5 *100 2500 6.02 % CVD* 230 *100 3200 7.20 % Lo que significa que en general ambos niveles presentan muy poca variación pero en el nivel socioeconómico D+ los datos presentan mayor variabilidad respecto a su media que los gastos promedios mensuales que presenta el nivel D. 3.4.7 PUNTUACIONES ESTANDARIZADAS (PUNTUACIONES Z) 56 MEDIDAS RESUMEN CAPÍTULO 3 3.4.8 CUADRO RESUMEN DE LAS MEDIDAS DE VARIABILIDAD Tabla 3.2 Medias de variabilidad Comparación de las medidas de variabilidad o de dispersión Definición REPRESENTACIÓN SIMBÓLICA ¿Qué tan común es? Existencia ¿Toma en cuenta cada valor? ¿Se ve afectada por los valores extremos? V: Ventajas y D: Desventajas Rango Es la diferencia entre el valor más grande del conjunto de datos y el valor más pequeño. R De uso limitado Podría no existir No Sí V: Fácil de calcular y de entender. D: En algunas distribuciones no podría existir, si se presenta una clase de extremo abierto. No dice nada sobre la forma de la distribución entre las puntuaciones extremas. Es muchas distribuciones no es confiable ya que se apoya sólo en dos valores extremos. Rango intercuartil Es la diferencia entre el valor del tercer cuartil y el primero. RI De uso limitado Siempre existe No No V: Puede calcularse para una distribución de clase abierta. Es una buena alternativa si hay algunos valores extremos. Es especialmente útil en situaciones donde los usuarios de datos están especialmente interesados en valores hacia el medio y menos interesados en los extremos. Su empleo en la construcción de la gráfica de caja y bigote. Desviación La media aritmética de DM No es de 57 Siempre Sí Sí, pero D: No tomar en cuenta el 50 % de los datos y su poco empleo en métodos estadísticos posteriores. V: Fácil de comprender. Da igual MEDIDAS RESUMEN CAPÍTULO 3 media los valores absolutos de las desviaciones de la media. Varianza La media aritmética de las desviaciones cuadradas de la media. uso común 2 Poblacional existe menos afectada que la desviación estándar. Es de uso común Siempre existe Sí Sí La de uso más común Siempre existe Sí SÍ ponderación a la desviación de cada valor con relación a la media aritmética. Es más sensible que el rango y el rango intercuartil y generalmente tiene un error de muestreo más pequeño. D: Es un poco complicada de manejar algebraicamente, ya que los signos negativos deben ignorarse en su cálculo. V: Concepto importante en la estadística inferencial. D: Medida un tanto confusa, en virtud de que las unidades son el cuadrado de las unidades de los datos. 2 S Muestral Desviación estándar La raiz cuadrada de la varianza Poblacional 58 V: Es aplicable a muchos métodos estadísticos posteriores. Es más confiable como estimador del valor de la población que cualquier otra medida de MEDIDAS RESUMEN CAPÍTULO 3 dispersión, siempre que la distribución sea normal. S Muestral D: Es un poco difícil de calcular y de entender. CV Es una medida de De uso Siempre Sí SÍ V: Especialmente útil para dispersión relativa y es común existe comparar dos o más grupos de el cociente de la datos con medias diferentes. Es la desviación estándar y la medida de dispersión relativa más media aritmética empleada expresado en porcentaje Comentarios generales: Si los valores alto y bajo no se encuentran muy separados de los demás, el rango puede ser una buena medida de dispersión. Es recomendable emplear la desviación media en muestras pequeñas que incluyan valores extremos. No compare la dispersión en los conjuntos de datos empleando la desviación estándar, a menos que las medias aritméticas sean muy parecidas. Coeficiente de variación 59 MEDIDAS RESUMEN CAPÍTULO 3 3.5 MEDIDAS DE FORMA Las medidas de forma son herramientas estadísticas que se pueden emplear para describir la forma de una distribución de datos numéricos. En este apartado, se examinará dos medidas de forma: sesgo y curtosis. 3.5.1 SESGO O ASIMETRÍA Una característica que presentan los histogramas y que puede resultar de interés, es la asimetría, especialmente cuando los datos son unimodales. Si la cola derecha es más numerosa y se extiende más que la cola izquierda, decimos que se tiene asimetría positiva. Si es al revés, con la cola izquierda es larga, decimos asimetría negativa. La medida numérica de la asimetría se denota como (alpha) y se calcula mediante la siguiente fórmula: n xi Datos no agrupados alpha x 3 i 1 (3.36) n * s3 3 f * xi Datos agrupados =0 Simétrica alpha >0 Sesgo positivo x (3.37) n * s3 <0 Sesgo negativo Esta medición de la asimetría es absoluta, ya que las unidades de medición no la afectan. 3.5.2 CURTOSIS Una característica de los histogramas que no es común analizar es la llamada curtosis. Con esta palabra se denota lo "picudo" que pueda resultar una moda. Si la 60 MEDIDAS RESUMEN CAPÍTULO 3 moda está muy picuda, se tiene curtosis grande; si la moda está muy roma o plana, se tiene curtosis pequeña. La curtosis es normal cuando vale tres. La desventaja es que tanto la simetría como la curtosis son cálculos más complicados y no son de uso frecuente. La curtosis es también una medida absoluta porque las unidades de medición no la afectan. La curtosis se compara siempre con el número 3. Así, si la curtosis calculada es mayor que tres, el resultado será positivo, indicando una moda más afilada que lo normal. Si el resultado es negativo, indica una moda más chata que lo normal. n xi beta Datos no agrupados x 4 i 1 n * s4 (3.38) 4 n xi Datos agrupados beta x i 1 n * s4 (3.39) =3 Mesocúrtica >3 Leptocúrtica 3.6 REPRESENTACIONES GRÁFICAS 3.6.1 CAJA-BIGOTE 3.6.2 CURVA NORMAL 61 <3 Planticúrtica MEDIDAS RESUMEN CAPÍTULO 3 Resumen del capítulo El tratamiento estadístico no se limita únicamente a resumir mediante tablas y gráficas los datos, para complementarlo existen las medidas resumen, dependiendo de donde se obtengan reciben el nombre de estadísticos si se calculan a partir de una muestra ( ˆ ) o parámetros ( ) cuando son obtenidos a partir de una población, ambos pueden ser calculados tanto para datos no agrupados como agrupados. Las medidas estadísticas resumen o descriptivas incluyen medidas de tendencia central, de posición, de variabilidad y medidas de forma (sesgo y curtosis). Todas ellas se calculan de manera diferente para datos no agrupados y agrupados. Las medidas de tendencia central son útiles para describir los valores típicos de los datos. Las tres más comunes son la media, mediana y moda. Pero existen otras, tales como: la media geométrica, la media armónica, el rango medio y el eje medio. La media aritmética es la más importante de todas las medidas numéricas utilizadas para describir datos, constituye lo que la mayoría de la gente y lo que los investigadores citan cuando usan la palabra media. La media poblacional y la media muestral se calculan de la misma manera pero se denotan con símbolos diferentes. A la media aritmética la afecta cada valor y es influenciada por valores extremos. La mediana es el valor medio de un conjunto ordenado de números que contienen un número impar de valores. Para un conjunto con número par de valores, la mediana es la media aritmética de los dos valores medios. La mediana no resulta afectada por la magnitud de valores extremos. Esta característica hace de la mediana una medida más útil y apropiada de ubicación al reportar elementos como son el ingreso, edad y precios de casas. La moda es el valor que se presenta con más frecuencia en un conjunto de datos. Si dos valores empatan para la moda, los datos son bimodales. Los conjuntos de datos pueden ser multimodales. Entre otras cosas, la moda se emplea en negocios para determinar tamaños. Los cuantiles o fractiles son medidas de posición, ubicación o no centrales y se dividen en cuartiles, deciles y percentiles. Los cuartiles dividen los datos en cuatro partes o grupos. Los tres cuartiles son Q1, que es el primer cuartil y el más bajo; Q2, que es el segundo cuartil y es igual a la mediana; y Q3, que es el tercer cuartil y el superior. Los deciles dividen un conjunto de datos en diez partes o grupos, lo cual significa que se requiere de 9 deciles; el decil cinco que se denota D5, es igual a la mediana. Los percentiles dividen un conjunto de datos en 100 partes o grupos, lo cual significa que se requiere de 99 percentiles. Las medidas de variabilidad o de dispersión son herramientas estadísticas empleadas en conjunto con las medidas de tendencia para describir datos. Las medidas de variabilidad describen cuán dispersos se encuentran los datos. Las medidas de dispersión se dividen en absolutas y relativas. Entre las medidas de dispersión en valor absoluto más comunes están el rango, desviación media absoluta, varianza, desviación estándar y rango intercuartil y la más utilizada en valor relativo es el coeficiente de variación. Una de las medidas más elementales de variabilidad es el rango. Es la diferencia entre los valores más grande y más pequeño. Aun cuando el rango es fácil de calcular, tiene utilidad limitada; su principal campo de aplicación es en el control de calidad. El rango intercuartil es 62 MEDIDAS RESUMEN CAPÍTULO 3 la diferencia entre los cuartiles tercero y primero. La desviación media absoluta (DMA) se calcula al promediar los valores absolutos de las desviaciones desde la media. La desviación media absoluta da la magnitud de la desviación promedio pero sin especificar su dirección. La desviación media absoluta tiene uso limitado en estadística, pero hay creciente interés para su uso en el campo de pronósticos. La varianza se utiliza ampliamente como herramienta en estadística pero se emplea poco como medida independiente de variabilidad. La varianza es el promedio del cuadrado de desviaciones alrededor de la media. La raíz cuadrada de la varianza es la desviación estándar. También es una herramienta muy usada en estadística. Se emplea con mayor frecuencia que la varianza como medida independiente. La desviación estándar se comprende mejor al examinar sus aplicaciones para determinar en dónde están los datos en relación con la media. La regla empírica y el teorema de Chebyshev son enunciados acerca de las proporciones de valores de datos que están dentro de varias veces la desviación estándar desde la media. La regla empírica revela el porcentaje de valores que están dentro de una, dos o tres desviaciones estándar de la media para un conjunto de datos. La regla empírica aplica sólo si los datos son una distribución en forma de campana. De acuerdo con la regla empírica, aproximadamente 68% de todos los valores de una distribución normal están dentro de más o menos una desviación estándar de la media. Noventa y cinco por ciento de todos los valores están dentro de dos desviaciones estándar a cualquier lado de la media, y prácticamente todos los valores 99.7 % están dentro de tres desviaciones estándar de la media. El teorema de Chebyshev también delinea la proporción de valores que están dentro de un número dado de desviaciones estándar desde la media; sin embargo, aplica a cualquier distribución. Según el teorema de Chebyshev, al menos 1- 1/ k2 valores están dentro de k desviaciones estándar de la media. El valor z representa el número de desviaciones estándar que un valor está desde la media para datos normalmente distribuidos. El coeficiente de variación es una razón entre una desviación estándar y su media, dado como porcentaje. Es especialmente útil para comparar desviaciones estándar o varianzas que representan datos con medias diferentes. Dos medidas de forma son el sesgo y la curtosis. El sesgo es la falta de simetría en una distribución. Si una distribución está sesgada, está alargada en una dirección o la otra. La parte sesgada de la gráfica es su parte larga y delgada. Una medida de sesgo es el coeficiente de Pearson. La curtosis es el grado de apuntamiento de una distribución. Una distribución alta y delgada se conoce como leptocúrtica. Una distribución plana es platicúrtica, y una distribución con un apuntamiento más normal se dice que es mesocúrtica. Una gráfica de caja y bigote es una representación gráfica de una distribución. La gráfica se construye al usar el valor más bajo, la mediana, el cuartil inferior, el cuartil superior y el valor más alto. Puede dar información acerca del sesgo y resultados aislados. 63 MEDIDAS RESUMEN CAPÍTULO 3 Glosario Bimodal Distribución que posee dos modas. Coeficiente de asimetría ( ) . Denominado también alpha y corresponde a la medida de forma que mide el sesgo que presenta una distribución. Coeficiente de curtosis ( ) . Denominado también coeficiente Beta que mide lo puntiagudo de la distribución. Coeficiente de variación (CV) La razón entre la desviación estándar y la media, expresada en porcentaje. Cuartiles Medidas de posición que dividen un conjunto de datos en cuatro partes. Curtosis Es la característica de la distribución que permite determinar la cantidad de su apuntamiento. Deciles Medidas de posición que dividen un conjunto de datos en diez partes. Desviación estándar. Medida de variabilidad que promedia las distancias entre cada dato respecto a la media del conjunto, su resultado se encuentra en las mismas unidades que los datos de origen. Desviación media absoluta (DMA) Es el promedio de los valores absolutos de las desviaciones alrededor de la media para un conjunto de observaciones. Eje medio Es una medida de tendencia central y es la diferencia entre el tercer cuartil y el primero. Fractiles Es el nombre genérico que se le da a los cuartiles, deciles y percentiles. Leptocúrtica Distribuciones que son altas y delgadas. Media aritmética Medida de tendencia central que promedia todos los valores de un conjunto de datos. Media armónica Es el reciproco de la media aritmética del reciproco de los números. Media geométrica Es la raiz enésima del producto de las observaciones. Mediana Valor medio o media aritmética de los valores medios de un conjunto ordenado de números. Medidas de forma Herramientas que se pueden utilizar para describir la forma de una distribución de datos. 64 Medidas de posición Herramientas que se pueden emplear para dividir un conjunto de datos en cuatro, diez o cien partes. Medidas de tendencia central Un tipo de medida resumen que se usa para describir un conjunto de números en relación al centro de los mismos. Medidas de variabilidad Estadísticas que describen la dispersión en valor absoluto o relativo de un conjunto de datos. Mesocúrtica Distribuciones que son normales en forma, es decir, no demasiadas altas ni demasiadas planas. Moda Valor que presentan con la mayor frecuencia en un conjunto de datos. Medidas resumen Valores que contienen las características principales de una muestra o de una población. Multimodal Conjunto de datos que tiene más de dos modas. Percentiles Medidas de posición que dividen un conjunto de datos en cien partes. Platicúrtica Distribuciones que son planas y se extienden. Rango También denominado alcance, recorrido o amplitud total es la diferencia entre los valores máximo y mínimo de un conjunto de datos. Rango intercuartil Rango de valores entre el primero y tercer cuartiles. Rango medio Medida de tendencia central que calcula el promedio entre los valores máximo y mínimo. Regla empírica Principio que da el porcentaje aproximado de valores que caen dentro de un número determinado de desviaciones estándar de la media aritmética de un conjunto de datos que se encuentran normalmente distribuidos. Sesgo Falta de simetría de un conjunto de valores. Teorema de Chebyshev Teorema que indica que al 2 menos 1 – 1/k valores caerán dentro de + k desviaciones estándar de la media, cualquiera que sea la forma de la distribución. Unimodal. Distribución que se caracteriza por poseer una moda única. Varianza Promedio del cuadrado de desviaciones alrededor de la media aritmética para un conjunto de datos. MEDIDAS RESUMEN CAPÍTULO 3 Fórmulas del Capítulo 1. Media aritmética poblacional para datos no agrupados N xi i 1 N 2. Media aritmética muestral para datos no agrupados n xi i 1 x n 3. Media aritmética poblacional para datos agrupados N ( fi xi ) i 1 N 4. Media aritmética muestral para datos agrupados n ( fi xi ) i 1 x n 5. Media geométrica para datos no agrupados M.G n producto de todos los valores M .G n ( x1 )(x2 )(x3 )...(xn ) 6. Media geométrica para datos agrupados M .G G n f1 f2 f3 anti log 1 n n f i log xi i 1 65 fn ( x1 )(x2 )(x3 )...(xn ) MEDIDAS RESUMEN CAPÍTULO 3 7. Media armónica para datos no agrupados n n H n 1 1 1 ( ... ) xi xn i 1 xi 8. Media armónica para datos agrupados n H n 1 ( fi * ) xi i 1 9. Mediana para datos no agrupados Posición o ubicación M e : ( n 1 ) 2 10. Mediana para datos agrupados n f acum(i 1) Me Li 2 *i f mediana 11. Moda para datos no agrupados Valor o valores con frecuencia mayor 12. Moda para datos agrupados Mo LMo d1 d1 *i d2 13. Rango medio Rangomedio DMayor DMenor 2 14. Eje medio Ejemedio Q1 Q3 2 15. Primer cuartil para datos no agrupados (n 1) Q1 : Posición o ubicación 4 66 MEDIDAS RESUMEN CAPÍTULO 3 16. Tercer cuartil para datos no agrupados 3(n 1) Posición o ubicación Q3 : 4 17. Cálculo de los fractiles (cuartiles, deciles y percentiles) número de fractil deseado ( n) total de fractiles Posición o ubicación Fk : Fk dc * ik fc Lik 18. Rango o alcance Rango DM Dm 19. Rango intercuartil Rango Intercuartil Q3 Q1 P75 P25 20. Desviación media para datos no agrupados n xi x i 1 DM n 21. Desviación media para datos agrupados n f i xi DM x i 1 n 22. Varianza poblacional para datos no agrupados N 2 xi 2 i 1 N 23. Varianza muestral para datos no agrupados n xi s2 i 1 n 1 67 x 2 MEDIDAS RESUMEN CAPÍTULO 3 24. Varianza poblacional para datos agrupados N )2 f i * ( xi 2 i 1 N 25. Varianza muestral para datos agrupados n f i * ( xi s2 x)2 i 1 n 1 26. Coeficiente de variabilidad poblacional y muestral s 100 x 27. Coeficiente de asimetría alpha para datos no agrupados C.V 100 C.V n xi 3 x i 1 alpha n * s3 28. Coeficiente de asimetría alpha para datos agrupados 3 f * xi alpha x n * s3 29. Coeficiente de curtosis para datos no agrupados n xi x 4 i 1 beta n * s4 30. Coeficiente de curtosis para datos agrupados 4 n xi beta i 1 n * s4 68 x MEDIDAS RESUMEN CAPÍTULO 3 Bibliografía Anderson, D. R., D. J. Sweeney y T. A. Williams (2005). Estadística para administración y economía. México: Thomson, 8a edición. Berenson, M. L., Levine. D. M. y Krehbiel, T. C. (2001). Estadística para Administración. México: Pearson Educación, 2a edición. Black, K. (2005). Estadística en los negocios. México: CECSA, 4ª edición en inglés, 1a edición en español. Chao, L. L. (1993). Estadística para las ciencias administrativas. México: McGraw-Hill, 3a edición. Flores García, R. y H. Lozano (1998). Estadística aplicada a la administración. México: Iberoamérica. Freund, W. y Perles (1990). Estadística para la Administración. Un enfoque moderno. México: Prentice Hall. Glass, G. V. y Stanley, J. C. (1980). Métodos estadísticos aplicados a las Ciencias Sociales. México: Ed. Prentice Hall Hispanoamericana. Hopkins, Kenneth D., B. R. Hopkins y G. V. Glass (1997). Estadística básica para las ciencias sociales y del comportamiento. México: McGraw-Hill. Johnson, R. y P. Kuby (2004). Estadística elemental, lo esencial. México: Thomson, 3a edición. Johnson, R. (1996). Elementary Statistics. California, USA: Ed. Belmont, Duxbury. Kazmier Leonard y Mata Alfredo (1993). Estadística aplicada a la administración y a la economía. México: McGraw-Hill Serie Shaums. Kenned, J. B. y Neville A. M. (1974). Estadística para Ciencias e Ingeniería. México: Harla & Row Latinoamericana. Lassar G. G. (1969). Estadística Descriptiva. Texto programado. México. Editorial Limusa. Levin, R. I., D. S. Rubin, M. Balderas, J. C. Del Valle y R. Gómez (2004). Estadística para administración y economía. México: Pearson Educación, 7a edición. Levine, D. M., T. C. Krehbil y M. L. Berenson (2006). Estadística para adminitración. México: Pearson Educación, 4a edición. Lind, D. A., W. G. Marchal y S. A. Wathen (2005). Estadística aplicada a los negocios y la economía. México: McGraw- Hill, 12ª edición. Lind, D. A., R. D. Mason y W. G. Marchal (2004). Estadística para administración y economía. México: Alfaomega, 11a edición. Martínez, C. (2001). Estadística básica aplicada. Bogotá, Colombia: ECOE Ediciones. Mendenhall, W., R. J. Beaver (2002). Introducción a la probabilidad y la estadística. México: Thomson. 69 MEDIDAS RESUMEN CAPÍTULO 3 Martínez, C. (2002). Estadística y muestreo. Bogotá, Colombia: ECOE Ediciones. Mures, M. J. Coordinadora (2004). Problemas de estadística descriptiva aplicada a las ciencias sociales. Madrid: Pearson Educación -(Universidad Complutense de León). Newbold, P. (1997). Estadística para los negocios y la economía. México: Prentice Hall (Pearson Educación). Peña, D. y J. Romo (1997). Introducción a la estadística para las ciencias sociales. Madrid: McGraw-Hill. Pérez, C. (2002). Estadística aplicada con EXCEL. Madrid: Pearson Educación(Universidad Complutense de Madrid). Pérez, C. (2003). Estadística. Problemas resueltos y aplicaciones. Madrid: Pearson Educación -(Universidad Complutense de Madrid). Pulido S. R. (1978). Estadística y técnicas de Investigación. Madrid: Ediciones Pirámide. Rickmers, A. D. y Todd H. N. (1971). Introducción a la estadística. Barcelona: España. Compañía Editorial Continental S.A. Ritchey, F. J. (2002). Estadística para ls ciencias sociales. El potencial de la imaginación estadística. México: McGRAW-Hill. Stevenson, W. J. (1981). Estadística para administración y economía. Conceptos y aplicaciones. México: Alfaomega-Oxford. Runyon Haber (1984). Estadística para las Ciencias Sociales. México: Fondo Educativo Interamericano. Triola, M. F. (2004). Estadística elemental. México: Pearson Educación, 9a edición. Webster, A. L. (2000). Estadística aplicada a los negocios y la economía. México: McGraw-Hill, 3a edición. Weiers, R. M. (2006). Introducción a la estadística para negocios. México: Thomson, 5a edición. Weinberg, S. L. y G. Kenneth (1982). Estadística básica par alas ciencias sociales. México: Nueva Editorial Interamericana. 70