Carrera de Relaciones Laborales Facultad de Derecho – Universidad de la República Estadísticas Laborales – Profas. Mariela Quiñones y Mariana Cabrera DISTRIBUCIONES UNIVARIADAS: ESTADÍSTICOS DE RESUMEN – «MEDIDAS DE TENDENCIA CENTRAL» Objetivos del módulo 3: 1. Introducir la presentación numérica, en base a estadísticos, de las distribuciones univariadas. 2. Introducir el concepto de tendencia central y los estadísticos apropiados para caracterizar la tendencia central de una distribución univariada. 3. Entender los alcances y límites de estas herramientas y las aplicaciones más pertinentes de las mismas. Conceptos clave del módulo 3: Medidas de tendencia central Media o promedio Mediana Moda o modo 3.1 INTRODUCCIÓN Como ya se comentó en módulos anteriores, la información que suministra una matriz de datos acerca de una variable puede ser representada en una tabla o en un gráfico, o bien, sintetizada en algunos indicadores que «describan» de manera más precisa el comportamiento de la propiedad analizada. En este módulo se van a estudiar las denominadas “medidas de tendencia central” y las “medidas de desviación”. Para ello se va a tomar como referencia principal las variables cuantitativas, es decir, se usarán términos como «variable» y «valores», aunque algunas de estos indicadores (MODA Y MEDIANA) también se aplican a caracteres cualitativos o atributos (escalas de medición ordinal y nominal). Estas medidas se denominan de «tendencia central» porque fijan su atención en el centro de la distribución o punto central sobre el que gravitan el conjunto de valores de la distribución. 3.2 MEDIDAS DE TENDENCIA CENTRAL La más habitual de las medidas de tendencia central es la MEDIA ARITMÉTICA del conjunto de observaciones individualmente obtenidas. Sin embargo, su uso lleva algunos presupuestos infranqueables, lo que conlleva a que NO SIEMPRE PUEDA USARSE LA MEDIA como indicador de «tendencia central». Entre estos supuestos cabe señalar en primer lugar, que su cálculo presupone un nivel de medición por lo menos de razón. En segundo lugar, que el cálculo de la media se hace presuponiendo que el conjunto de los datos posibles tienen una distribución simétrica. Por lo tanto, antes de calcular la media es imprescindible mirar el nivel de medición de la variable y el gráfico para estudiar la forma de su distribución. 2 Concepto de Simetría: Supongamos que hemos representado gráficamente una distribución de frecuencias. Si trazamos una perpendicular al eje de abscisas por la media y tomamos esta perpendicular como eje de SIMETRÍA, diremos que una distribución es simétrica respecto a la media si existe el mismo número de valores a ambos lados de dicho eje, equidistantes de uno a uno y tales que cada par de valores equidistantes tengan la misma frecuencia. En caso contrario, las distribuciones serán asimétricas. Simétrica Asimétrica a la derecha x x Asimétrica a la izquierda x Si no se cumplen estos supuestos deben usarse alternativamente otros indicadores: la MEDIANA (en caso de no contarse con variables intervales o cuando la población sigue una distribución bastante poco simétrica) o la MODA o MODO. Se emplea la MEDIANA como estadístico de tendencia central, por tanto, cuando se presupone que las puntuaciones posibles de una variable interval no se distribuyen de forma simétrica; por lo tanto la media no es una medida representativa; o bien, cuando no se dispone de una variable que admita como mínimo la escala de medición interval. La mediana requiere para su uso también de un nivel de medición mínimo, la escala o nivel ordinal. Por lo tanto, cuando no se cumple éste o algunos de los supuestos 3 mencionados para el uso de la media aritmética o de la medidana –el caso de las variables nominales- sólo nos resta expresarnos por medio de la MODA. La MODA, por tanto, es la medida de tendencia central apropiada cuando se dispone de variables que tienen un nivel de medición nominal. En síntesis: NIVEL DE MEDICION MEDIDA DE TENDENCIA CENTAL MEDIANA MODA Si Si MEDIA INTERVAL Distribución Si, la más O RAZON simétrica adecuada Distribución No asimétrica ORDINAL No NOMINAL No Si, la más adecuada Si No Si Si Si A continuación revisaremos las definiciones y procedimientos de cálculo de cada una de ellas: I. LA MEDIA: la «media aritmética» de una variable estadística es la suma de todos sus posibles valores promediados por el total de observaciones. Dado que existen diferentes formas de recibir los datos, según lo estudiado, la media puede ser expresada a través de las siguientes formas equivalentes: a) tablas de datos originales: si los valores de una tabla son: x1; x2; x3; ………xi x x i (Formula 1) N Ejemplo: 20 empresas han informado sobre el número de accidentes de trabajo reportados en los últimos 5 años. Empresa Accidentes Laborales 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 4 7 5 3 4 4 5 6 8 5 4 3 4 5 6 4 6 6 5 3 En notación matemática, Xi representa el número de accidentes laborales por empresa i. 4 Por lo tanto, el numerador proporciona el total de accidentes laborales por todos los empresas de la población (sumatoria de Xi) y el denominador es el tamaño de la población (N). Entonces la media o promedio es: 4+7+5+3+4+4+5+6+8+5+4+3+4+5+6+4+6+6+5+3 = 97 / 20 = 4,85 materias aprobadas. Observaciones 1. El promedio no tiene por qué coincidir con alguno de los valores observados en la población. De hecho, no se tiene 4,85 accidentes laborales: la variable es discreta 2. Si la distribución de la variable no es muy dispersa (porque se concentra en unos pocos valores) entonces el promedio es un buen indicador de la “posición” de la distribución. Efectivamente, en el ejemplo anterior la variable está distribuida en el intervalo [3,8], pero la mayor parte está concentrada en valores bien cercanos al promedio. En este ejemplo, el promedio resulta un buen indicador de la “posición” o del “centro” de la distribución. Un contraejemplo se presenta a continuación: 1-1-1-1-1-2-2-2-3-76 (variable edad) Donde la media resulta de la operación: (1+1+1+1+1+2+2+2+3+76) / 10 = 90/9 = 9 años. El promedio del ejemplo es 9 años. ¿Indica este promedio el centro de la distribución? Obsérvese que alrededor del promedio, en este caso, no hay valores de la población. Y esto es así porque la distribución es muy dispersa. En estos casos el promedio no es un buen indicador de la posición o centro de la distribución. Observaciones: El promedio, en todos los casos, es un número comprendido entre el mínimo y el máximo de los valores observados. Si la variable sólo toma valores positivos (como ocurre con casi todas las variables sociales), entonces su promedio no puede ser nulo o negativo. El promedio, como medida de tendencia central, tiene el defecto de estar muy 5 influido por los valores extremos de la distribución. Obsérvese en el ejemplo dado en último término como se modifica el promedio al variar el extremo superior de la distribución. En este caso, como hemos recomendado, sería más ilustrativo del comportamiento de la población usar la medida denominada MEDIANA, que describiremos más adelante. b) Tablas de frecuencias simples: Es decir, si la tabla de valores de una variable X es Xi fi fr x1 f1 fr1 ... ... ... xk fk frk En este caso la media puede ser expresada como suma ponderada de los valores de la variable por las frecuencias absolutas promediada por el total de observaciones (N). Esta expresión se puede simplificar ahorrando uno de los términos si se realiza la suma ponderada de sus valores por la frecuencia relativa de los mismos (ya que en la expresión de las frecuencias relativas por definición el valor de la frecuencia absoluta está promediado por el total poblacional término a término) x x1 fr ......xk f k 1 x1 f i .......xk f k n x n i fi o.bien xi f r Por ejemplo: ¿Cómo sería la fórmula del promedio de accidentes laborales si los mismos datos estuvieran agrupados en una tabla de frecuencias? Accidentes Laborales Xi 3 4 5 6 7 8 fi fr Xi * f i Xi * f r 3 6 5 4 1 1 0,15 0,30 0,25 0,20 0,05 0,05 9 24 25 24 7 8 0,45 1,20 1,25 1,20 0,35 0,40 6 20 97 1 4,85 que es idéntico resultado que 97/20 x (9 24 25 24 7 8) / 20...o.bien xi f r 4,85__ accidentes_ laborales c) tablas de frecuencias con datos agrupados en intervalos de clase En el caso de las tablas de frecuencias agrupadas en intervalos de clase, dada la pérdida del dato original, en estos casos la media debe ser definida como la suma ponderada –no de los valores originales- sino de las «marcas de clase» ponderada por sus frecuencias relativas (ya usando la expresión simplificada). Por tanto, debe expresarse como: x xc * f n i o.bien xc * f r Usando el ejemplo anterior: Materias aprobadas Ls – Li 3-6 6-9 Xc fi fr 4,5 7,5 14 6 20 0,70 0,30 1 Xi * f i 63 45 108 Xi * f r 3,15 2,25 5,4 que es idéntico a 108/20 7 Observación En general, la media aritmética obtenida a partir de las marcas de clase xc, diferirá de la media obtenida con los valores reales, xi. Es decir, habrá una pérdida de precisión que será tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las amplitudes de los intervalos de clase ai. En el ejemplo que usamos la media varió de 4,85 a 5,4 accidentes laborales Propiedades de la media aritmética: A pesar de que la media posee buenas propiedades a las que apelaremos más adelante, la MEDIA no deja de tener algunos inconvenientes: Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el cálculo de la media, la aparición de una observación extrema, hará que la media se desplace en esa dirección. En consecuencia, remarcaremos: 1. no es recomendable usar la media como medida central en las distribuciones muy asimétricas; 2. la media calculada sobre datos agrupados en intervalos dependerá siempre de la división en intervalos de clase. Ejemplo de análisis comparativo de promedios calculados para distintas poblaciones: Veamos el siguiente texto en el cual se analizan los promedios del número de cursos de capacitación realizados por trabajadores que han realizado cursos, según edad y nivel educativo. 8 Extraído de Arim, Rodrigo; Salas, Gonzalo - Situación del empleo en el Uruguay. ENHA 2006. INE, PNUD, UNFPA. Abril 2007 http://www.ine.gub.uy/enha2006/Modulo_empleo_final2.pdf 9 II. LA MEDIANA Consideramos una variable X cuyas observaciones en una tabla estadística han sido ordenadas de menor a mayor. Llamaremos mediana, Mdn al primer valor de la variable que deja por debajo de sí al 50% de las observaciones y por encima de sí al restante 50%. Si la distribución es simétrica, por tanto la MEDIA coincidirá con la MEDIANA. Ver concepto de simetría en página 1. Igual que en el caso de la media, dado que existen diferentes formas de recibir los datos, según lo estudiado, la mediana puede ser calculada a través de las siguientes formas: a) tablas de datos originales: Este cálculo difiere si los datos recogidos representan un N par o impar. Si N es el número de observaciones, la mediana corresponderá a la observación [N+1]/2 en el caso de N impar, y a una observación intermedia entre las observaciones [N/2] y [N+2]/+1 en el caso de N par. Ejemplo: N=5 número de observaciones impar 1 - 3 - 7 – 15 - 24 (datos ordenados) Por tanto, la mediana corresponde a la observación que ocupa la posición [5+1]/2 = 3 (tercera posición en la serie ordenada). Es decir, 7. Si N = 6 número de observaciones par 1 - 3 - 7 – 15 - 24 -35 (datos ordenados) Por tanto, la mediana corresponde a la observación intermedia entre la observación que ocupa el lugar [6/2] (tercera posición en la serie ordenada) y la observación [6/2]+1 (cuarta posición en la serie ordenada). Es decir, intermedia entre los valores 7 y 15 (valores que ocupan respectivamente las posiciones 3era y 4ta). Este valor surge de promediar los valores correspondientes a estas dos posiciones: (7+15)/2 = 11. Por tanto, el valor de la variable que deja por debajo de sí el 50% de las observaciones menores y por encima de sí el 50% de las observaciones mayores es 11. La mediana es 11. 10 Otra forma de leer este resultado es diciendo que el 50% de las observaciones no superan el valor 11. b) Tablas de frecuencias simples: En el caso de datos agrupados en tablas, la forma más práctica de ubicar la mediana es guiándose por la columna de frecuencias relativas acumuladas. La mediana será entonces aquel valor de la variable que acumula antes el 50% de las observaciones. En el siguiente ejemplo es: Accidentes Laborales Xi 3 4 5= Mediana 6 7 8 fi fr Fi Fr 3 6 5 0,15 0,30 0,25 3 9 14 0,15 0,45 4 1 1 20 0,20 0,05 0,05 1 18 19 20 0,70 0,90 0,95 1 Se diría que el 50% de las empresas no superan 5 accidentes en los últimos años. Esto es así porque si ordenamos las 20 empresas desde las que han tenido menos accidentes a las que han tenido más accidentes en los últimos años 10 empresas han tenido 5 o menos y 10 empresas 5 o más. Como cinco es un valor que se repite mucho, es probable que debamos ser más precisos en el diagnóstico diciendo específicamente que hay 9 empresas que tuvieron como máximo 4 accidentes y que el resto tuvo 5 o más. Para ello hay que apelar a otras medidas de posición (no central) que veremos más adelante en el curso. c) Tablas de frecuencias agrupadas en intervalos de clase (no lo trataremos en clase por ser bastante poco común recurrir a esto) En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de la mediana se complica un poco más debido a que supone una interpolación de datos. Les brindamos a continuación la fórmula para esto pero le sugerimos que para facilitar la comprensión del tema se maneje con el concepto de «intervalo mediano. De esta manera, a igual que en las tablas de frecuencias, bastará con identificar cual es el intervalo que primero deja por debajo de sí el 50 % de las observaciones más pequeñas. 11 Fórmula de interpolación: Sea (li-,ls+1] el intervalo donde hemos encontrado que por debajo están el 50% de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolación lineal (teorema de Thales) como sigue: N Fiant Mdn Li 2 fi * Ai donde: Li = límite inferior del intervalo mediano N= total de observaciones de la población Fiant= frecuencias acumuladas en la clase anterior del intervalo mediano fi= frecuencia absoluta simple del intervalo mediano Ai = amplitud del intervalo mediano Propiedades Entre las propiedades de la mediana, vamos a destacar las siguientes: Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. Es de cálculo rápido y de interpretación sencilla. A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. La mediana de una variable número de hijos toma siempre valores enteros). Es función de los intervalos escogidos. Puede ser calculada aunque el intervalo inferior o el superior no tenga límites. En variables ordinales puede ser calculada pero sólo indica una clase dentro de la distribución. Por ejemplo, si se analiza el nivel educativo podría suceder que al menos el 50% tienen estudios de cuando más (por ejemplo) secundaria, porque se alcanza este porcentaje en esta categoría de la variable. Ejemplo 1 Sea X una variable que ha presentado los siguientes valores 12 Si cambiamos la última observación por otra anormalmente grande, esto no afecta a la mediana, pero si a la media: En este caso la media no es un posible valor de la variable, y se ha visto muy afectada por la observación extrema. Este no ha sido el caso para la mediana. Ejemplo 2 Obtener la media aritmética y la mediana en la distribución adjunta. Determinar gráficamente cuál de los dos promedios es más significativo. Ls – Li fi 0 - 10 60 10 - 20 80 20 - 30 30 30 - 100 20 100 - 500 10 Solución: Ls – Li fi ai Xc X c fi Fi 0 - 10 60 10 5 300 60 10 - 20 80 10 15 1.200 140 20 - 30 30 10 25 750 170 30 - 100 20 70 65 1.300 190 100 - 500 10 400 300 3.000 200 n=200 x fi 6550 i La primera frecuencia absoluta acumulada que supera el valor N/2=100 es fi=140 (60+80). Por ello el intervalo mediano es [10;20). Así: La primera frecuencia absoluta acumulada que supera el valor N/2=100 es fi=140 (60+80). Por ello el intervalo mediano es [10;20). Si quisiéramos interpolar para extraer la Mediana, a partir de este intervalo identificaríamos: 13 N Fiant Mdn Li 2 fi 200 60 * A 10 2 *10 15 80 i donde: Li = 10, N= 200, Fiant= 60, fi= 80, Ai = 10 La media sin embargo es 6550 32,75 200 Para ver la representatividad de ambos promedios, realizamos el histograma de la figura 2.3, y observamos que dada la forma de la distribución, la mediana es más representativa que la media. Figura: Para esta distribución de frecuencias es más representativo usar como estadístico de tendencia central la mediana que la media. Recuerda: la mediana sólo puede adoptar valores comprendidos dentro del rango de la variable. 14 Ejemplo de uso de la mediana como indicador demográfico. En este caso, para construir el cuadro comparativo se parte de distribuciones de frecuencia de la variable edad en distintas poblaciones: Población total del país; población masculina del país; población femenina del país; población total de Artigas, población masculina de Artigas, población femenina de Artigas, etc. Extraído de Uruguay en Cifras 2006, INE. http://www.ine.gub.uy/biblioteca/uruguayencifras2007/URUGUAY%20EN%20CIFRAS%2007%20completo.pd f 15 III. MODA o MODO: Llamaremos moda o modo a cualquier máximo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que todas sus anteriores y todas sus posteriores. ¿Cómo se reconoce la moda (las modas) en una tabla estadística? Observando el valor (los valores) de la variable que tiene(n) la mayor frecuencia relativa. ¿Cómo se reconoce la moda (las modas) en el diagrama de barras? Observando el valor (los valores) de la variable que presenta(n) el rectángulo más alto. La notación habitual para el modo es: XMo. En el caso de variables continuas es más correcto hablar de intervalos modales. De la moda destacamos las siguientes propiedades: Es muy fácil de calcular. Puede no ser única (distribución unimodal, bimodal, etc). Es función de los intervalos elegidos a través de su amplitud, número y límites de los mismos. Aunque el primero o el último de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada. Por ejemplo, en los siguientes datos originales, 2, 4, 5, 6, 7, 2, 2, 2 la moda es 2 por ser el valor más frecuente. Si expresamos estos datos originales en una tabla de frecuencias simples a 2 le corresponde los valores de frecuencias absoluta y/o relativa simple más altos. Xi 2 = Xmo f1 4 fr 0,50 3 0 0.00 4 1 0.125 5 1 0.125 6 1 0.125 7 1 0.125 8 1 16 PARA SEGUIR LEYENDO Ruiz Muñoz, David: Manual de Estadística. Eumed·net 2004. Cap. 2. Características de una distribución de frecuencias. http://www.eumed.net/cursecon/libreria/drm/cap3.pdf Complementa los conceptos y fórmulas de calculo presentados en el módulo. Recomendamos el programa didáctico “DESCRIPTIVA”, de libre acceso, desarrollado por el Instituto de Estadística de la Universidad Católica de Valparaíso, Chile. Se puede bajar de internet desde el enlace: http://www.ucv.cl/web/estadistica/demostrativo.htm Este programa nos permite “jugar” con datos en distribuciones univariadas y ver su representación tabular, gráfica y numérica. Pueden ir cambiando los datos, el tamaño de la población y pedir al programa que muestre distintas formas de representarlos, es decir, caracterizaciones diferentes de los datos. Una vez bajado e instalado el programa: • • • Cliqueando sobre el signo de interrogación aparece la información utilizada y el cálculo de cada estadístico presentado. Cliqueando sobre la flecha aparece la “Guía de uso” que contiene algunas propuestas para ver cómo se modifican las gráficas, tablas y estadísticos resumen al cambiar algunos datos de la población. Cliqueando sobre el círculo, permite volver al menú central y sustituir el tipo de presentación seleccionada en ese recuadro. Se pueden ver hasta 3 tipos de presentación en forma simultánea (hay 3 recuadros) Incluye las medidas de tendencia central bajo el rótulo “MEDIDAS DE CENTRO”: PROMEDIO Y MEDIANA (incluye también el PROMEDIO GEOMÉTRICO y la MEDIA RECORTADA que no hemos estudiado en el curso) 17 EJERCICIOS 1. La siguiente distribución presenta a la población desocupada del interior urbano en 2001, por grupos de edad. a. b. c. d. e. Completar la tabla con la frecuencia relativa y relativa acumulada de la distribución. ¿Cuál era el grupo de edad modal de esta población? ¿Qué promedio de edad tenía la población desocupada del interior urbano en 2001? ¿Por debajo de qué edad se encontraba el 50% más jóven de los desocupados? Comente en forma conjunta los resultados obtenidos. Edad 14-17 18-24 25-34 35-44 45-54 55-64 65 y más (*) Ni 8.719 28.085 16.956 12.209 8.953 5.057 1.672 81.651 (*) Para cerrar este intervalo utilice como límite superior 74 años. Al finalizar el próximo módulo se realizan algunos ejercicios de examen que involucran todas las estadísticas de distribución univariada. 18