Estrategia didáctica 1.3.3. Medidas de tendencia central para datos agrupados Comentario: En esta práctica se inicia el estudio de las medidas de tendencia centra para datos agrupados y de algunas de sus propiedades. A continuación se dan las fórmulas para calcular la mediana, la moda y la media para datos agrupados. Cabe aclarar que estas medidas pueden calcularse para poblaciones, en cuyo caso se les llama parámetros, o también pueden calcularse para muestras, es decir una parte de la población, en cuyo caso se llaman estadísticos. Debe establecerse la diferencia acerca de cuándo se están calculando para muestras o para poblaciones porque no tienen el mismo valor una vez que se calculan para uno u otro caso. Por ejemplo, si se calculan para la población, se usan letras griegas para decir que se calculó un parámetro (la media se escribe como μ), pero si se calcularon para una muestra, entonces se escriben con letras latinas, por ejemplo, la mediana, la moda y la media, se x , xˆ y x. : escriben respectivamente como ~ 1. Lás fórmulas que se utilizan para calcular algunas medidas para datos agrupados, son las siguientes: n fi i a) ~ x LMe 2 f Me 1 i b) xˆ LMo 1 2 mf c) x n Donde en la fórmula a) que sirve para calcular la mediana, LMe es el límite inferior de la clase que contiene a la mediana. Para hallarla, supongamos que si n=142. El dato 71 deberá ser la mediana. Se procede a contar en el cuadro de frecuencias desde la primer clase, acumulando las frecuencias, la clase que contiene al dato 71, hasta que la suma de frecuencias supere el valor de 71, por primera vez. Esa será la clase mediana. La sumatoria de la fórmula a), es la suma de las frecuencias de las clases anteriores a la clase mediana. Los símbolos, i y fMe son la longitud de la clase (nominal) y la frecuencia de la clase mediana, respectivamente. Para calcular la moda, se usa la fórmula b), donde LMo es el límite inferior de la clase modal. Esta clase se puede identificar como la clase que tiene la mayor frecuencia en el cuadro de frecuencias (si existiera más de una, entonces la moda no debe calcularse.) Los símbolos 1 y 2 son, respectivamente, la diferencia de frecuencias entre la clase modal y la premodal, y la diferencia de frecuencias entre la clase modal y la clase posmodal. Las clases premodal y posmodal son la anterior 1 y la posterior a la clase que se identificó como la clase modal. Por ejemplo, si la clase modal tiene 50 datos y la premodal 35, entonces 1=15. Si la clase posmodal contiene 16 datos, entonces 2= 34. Ambas clases se identifican en el cuadro de frecuencias. Para calcular la media c) se calcula cada una de las marcas de clase usando el cuadro de frecuencias y se construye una columna donde se escribirá en la fila correspondiente a cada clase su marca de clase m; luego se construye otra columna donde se realizará el producto por fila de cada marca por su frecuencia correspondiente, mf, y finalmente todos estos productos se sumarán. Finalmente esta suma se dividirá por n, el número de datos para hallar la media. Ahora se presenta el reporte de estadística descriptiva para los datos de los salarios. Este reporte tiene 4 partes para los resultados de los salarios de los obreros petroleros y de los textiles. Para estos, la primer sección (Summary section of textil), da el resultado de la desviación estándar, el número de datos (count) y los valores máximo y mínimo del grupo de datos; la segunda sección (Means section of textil), da la media (mean) en la fila que dice Value, la mediana, la moda (que no calcula porque hay muy pocos datos que se repiten) y la suma de los datos de los textiles (los demás valores no tienen importancia para este curso.) La tercera sección (Variation section of textil), da el rango intercuartil entre otras medidas que por ahora no se explicarán y la cuarta sección (Quartile section of textil), da los cuartiles de los datos de los salarios. Estos mismos datos se encontrarán para los salarios de los petroleros. Descriptive Statistics Report Summary Section of textil Count 250 Mean Range 234.844 145.37 Standard Deviation Standard Error Minimum Maximum 22.30562 1.410731 184.8 330.17 Median 232.025 Geometric Mean 233.8614 Harmonic Mean 232.9387 250 250 Means Section of textil Parameter Value Std Error 95% LCL 95% UCL T-Value Prob Level Count Mean 234.844 1.410731 232.079 237.609 166.4697 0.000000 250 230.63 233.9 Sum 58711 352.6828 58019.75 59402.25 Variation Section of textil 2 Parameter Value Std Error 95% LCL 95% UCL Variance 497.5407 145.37 74.78999 420.5271 597.9548 Quartile Section of textil 10th Parameter Percentile Value 212.491 Standard Deviation 22.30562 Unbiased Std Dev 22.32803 2.370905 20.50676 24.45312 25th Percentile 221.59 Std Error of Mean 1.410731 Interquartile Range 19.41 0.1499492 1.296961 1.546551 50th Percentile 232.025 75th Percentile 241 90th Percentile 261.978 Para los petroleros se tiene la siguiente información, parecida a la que se describió para los textiles: Summary Section of petroleros Standard Count Mean Deviation Range 150 362.2795 38.14471 159.77 Standard Error Minimum Maximum 3.114502 280.05 439.82 Geometric Mean 360.258 Harmonic Mean 358.2104 150 150 Unbiased Std Dev 38.20876 Std Error of Mean 3.114502 Means Section of petroleros Parameter Value Std Error 95% LCL 95% UCL T-Value Prob Level Count Mean 362.2795 3.114502 356.1252 368.4338 116.3202 0.000000 150 Median 362.555 352.55 370.6 Variation Section of petroleros Standard Parameter Variance Deviation Value 1455.019 38.14471 159.77 Std Error 138.9787 2.576316 95% LCL 1173.866 34.26173 95% UCL 1851.422 43.02816 Quartile Section of petroleros 10th 25th Parameter Percentile Percentile Value 313.048 335.175 Sum 54341.92 467.1754 53418.77 55265.07 Interquartile Range 52.0475 0.2103553 2.797459 3.513234 50th Percentile 362.555 75th Percentile 387.2225 90th Percentile 419.38 3 I. Resuelve los siguientes problemas: a) Calcula la media, la mediana y la moda, para los salarios de los obreros de la industria textil y de la industria petrolera., (es decir, para los 150 y 250 datos del primer boletín). Usa las fórmulas dadas en el punto 2. Es necesario que ya hayas realizado el cuadro de frecuencias. b) En la Estrategia 1.8 se te dieron datos (ejercicios II), para los que deberías construir un histograma. Calcula para esos mismos datos la media, la mediana y la moda. Localízalas en el histograma correspondiente. c) Localiza la media, la mediana y la moda en los histogramas de los salarios de los obreros de la industria textil y de la petrolera. ¿Qué observas acerca de la posición de las medidas? ¿Qué puedes interpretar de ello según el significado de las medidas? (No interpretes más de lo que los valores de los promedios y su posición te sugieren.) d) Calcula edad media de la edades de la mujeres y de los hombres del país usando los tabulados del INEGI. Calcula también la moda y la mediana. e) Busca en la página del INEGI el tabulado donde está calculada la edad mediana de hombres y mujeres por estado. Compara los valores que allí se te presentan, calculando una mediana para hombres y mujeres usando la fórmula del punto 2, para el estado que tú selecciones. ¿Por qué es importante conocer la edad mediana de hombres y mujeres del país y por estado? ¿Qué significa este valor para este problema f) Busca la población femenina de 12 años y más, total y promedio de hijos nacidos vivos por entidad federativa, estado conyugal y grupos quinquenales de edad de la mujer. Puedes observar que allí se calcula un promedio (la media) de hijos nacidos vivos. Por ejemplo, el promedio de hijos nacidos vivos para las mujeres mexicanas de 12 o más años es de 2.59. Evidentemente este promedio no es representativo para varias regiones o estados del país (¿por qué?), pues Chiapas presenta 2.73 y el DF 2.02. E incluso por municipios o delegaciones estas cifras todavía varían. Además puedes observar algo aún más interesante: dado que los tabulados separan el promedio de hijos según estado conyugal, podemos observar que las mujeres que están casadas sólo religiosamente son las que tienen en promedio un mayor número de hijos, 4.74, que las que viven, por ejemplo, en unión libre, 2.91. Pueden existir diversas razones para ello, pero recuerda que no debes extraer más información que lo que los promedios te presentan, es decir, no debes hacer hipótesis sin fundamento, porque los números no pueden ofrecer información precisa para conjeturas que pueden ser muy arriesgadas y equívocas. Para que te formes una idea de esto: Si consultas el promedio de hijos de las mujeres solteras, notarás que es a 4 partir de los 40 años cuando el promedio es aproximadamente de 1 hijo. ¿Qué concluyes de esta información? ¿qué nivel educativo crees que tiene una mujer soltera de 40 años con un hijo? ¿y que nivel económico consideras que tiene? ¿Qué razones crees que existen para que se dé este resultado? Como notarás, las respuestas varían, pero muchas conclusiones que se obtienen con seguridad no son válidas. Es necesario investigar en qué región se da más este fenómeno y buscar sus causas, y no dar conclusiones apresuradas y sesgadas. Dado que los tabulados te presentan esta información por estados, es probable que tengas más posibilidades de dar con una de las razones por las que este fenómeno ocurre en México. (Compara, ¿a que edad consideras que las mujeres solteras tienen un promedio de un hijo en Islandia? ¿por qué?) g) Construye la ojiva para las edades de hombres y mujeres del país, usando los datos de la población en los tabulados del censo del 2010. Usa los quinquenios y realiza dos interpolaciones, las que tú quieras, una vez que hayas obtenido dichas curvas. Compáralas. ¿Qué concluyes? (Se te aconseja usar números relativos.) h) Selecciona un estado de los tabulados, y calcula, usando los quinquenios, la media, la mediana y la moda, para hombres y mujeres. Usa las fórmulas del punto 2. i) En los tabulados del INEGI se habla de la población total del país por Estado, edad y grupos quinquenales de edad y su distribución según sexo. Calcula la media de edades. ¿Cómo se distribuye la población? j) Repite el problema anterior para dos Estados de la república que tu elijas y cuya información está en los tabulados del INEGI. (Por ejemplo, pueden ser Zacatecas y Colima.) k) Busca las tablas donde se clasifica a la población femenina del país de 12 años o más por Estado y grupos quinquenales de edad de mujeres y su distribución de hijos nacidos vivos. Construye un histograma para los datos de la República (Estados Unidos Mexicanos) de manera que en el eje horizontal coloques los quinquenios y en el vertical la frecuencia absoluta.¿Cómo se distribuye la población? l) Repite el problema anterior para un estado, el que tú quieras, y cuya información está en el INEGI (Por ejemplo, puede ser Oaxaca) m) (Para los aventurados) ¿Cuál es el promedio de hijos nacidos vivos de las mujeres mexicanas mayores de 12 años? (Sugerencia: usa los tabulados del inciso f) Guardar con el nombre nombre-apellido.E1.3.3Medidas-tendencia-centralagrupados-grupo.doc 5 6