Estadística para Relaciones Laborales. TEMA IV 1ª Parte. TEMA 4 ( I Parte). MEDIDAS DE POSICIÓN CENTRAL 4.1. PARÁMETROS ASOCIADOS A UNA DISTRIBUCIÓN. Como hemos visto en los capítulos anteriores, para realizar un estudio estadístico lo primero que tenemos que hacer es recoger los datos; a continuación los organizamos en tablas y seguidamente construimos algunas representaciones gráficas con el objeto de extraer las primeras conclusiones. Pero no podemos olvidar que lo que nos interesa es la información del conjunto. Un paso importante en este sentido se produce en la siguiente fase del proceso o fase de análisis, en el cual vamos a reducir todos los datos a unos pocos valores o medidas que nos resuman toda la información y hagan más manejable el estudio. A estos valores numéricos los llamaremos parámetros o medidas. Sustituir toda la información individual por unos pocos valores, es un esfuerzo de síntesis, y supone una pérdida de información que se compensa con la mayor manejabilidad de los datos del colectivo. Estos deben interpretarse correctamente y atribuirles el significado que tienen. 4.2. MEDIDAS DE CENTRALIZACIÓN. Una medida de centralización o promedio es aquel valor que es capaz de representar todos los datos. Son parámetros alrededor de los cuales se concentran gran parte de los valores de la distribución. Los más frecuentemente usados son: 4.2.1.MEDIA ARITMÉTICA SIMPLE. La media aritmética es un parámetro que nos da una idea en torno a qué valor se encuentran concentrados los valores de una variable estadística, aunque en ocasiones no resulte un valor demasiado representativo. Se simboliza por X y, para las distribuciones estadísticas del tipo I, viene dada por la fórmula n x x 2 ...... x n X 1 N x i 1 i N Ejemplo: Supongamos que un alumno ha obtenido las notas siguientes en tres parciales: 4, 6, 7, la media aritmética simple sería: X 467 5,66 3 Para las distribuciones de tipo II, al repetirse los valores, la fórmula anterior queda de la forma n x .n x 2 .n2 ....... x n nn X 1 1 N Profesor: Aristóteles de la E. Gosálbez. x .n i 1 i i N 15 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. Dada la siguiente tabla que representa la clasificación de 90 matrimonios en función del número de hijos. xi 0 1 2 3 4 5 ni 10 19 29 16 10 6 Calculemos la media aritmética. Aplicando la fórmula anterior, se tiene: n x .n x 2 .n2 ....... x n nn X 1 1 N x .n i 1 i N i 0·10 1·19 2·29 3·16 4·10 5·6 2,16 hijos 90 En el caso de que sea una distribución de tipo III, operamos de la misma forma salvo que en lugar de utilizar los x i empleamos las marcas de clase de cada intervalo. Como se observa, en el cálculo de la media aritmética intervienen todos los valores de la distribución. Podemos hacer las siguientes consideraciones sobre la media aritmética: - La media aritmética es el parámetro de centralización mas utilizado. - Podemos considerar que la media aritmética es el centro de gravedad de la distribución - En su cálculo intervienen todos los datos, aunque, en ocasiones, esto es un inconveniente porque los valores extremos (si son raros o poco significativos), producen valores de la media que no son representativos de la distribución. Como consecuencia, podemos decir que la media no es un parámetro adecuado cuando los valores extremos influyen mucho sobre su valor. - Otro inconveniente que tiene la media aritmética es que no siempre se puede calcular; en particular cuando la variable es cuantitativa o cuando es una variable cuyos valores están agrupados en intervalos en la que alguno de ellos no tienen extremos definidos. Profesor: Aristóteles de la E. Gosálbez. 16 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. 4.2.2. MEDIANA. Se llama mediana de una distribución, y se designa por M e , al valor de la variable tal que, ordenados los datos de forma creciente, deja igual número de observaciones inferiores que superiores a él. Si la distribución estadística es de tipo I y N es un número impar, existe un único valor de la variable en el centro de la distribución, y éste es la mediana. En el caso de que N sea par, la mediana se define como la media aritmética de los dos valores centrales. Ejemplo: Hallar la mediana de la edad de cinco personas que tienen 5, 6, 7, 9, 10 años. Como el número de ordenaciones es impar y además están ordenadas en sentido creciente. La mediana es el valor central M e 7 Si el número de observaciones hubiera sido par, por ejemplo, 5, 6, 7, 9, 10, 12, la mediana sería la media aritmética de los valores centrales 7 y 9 Me 79 8 2 Cuando la distribución es del tipo II, se calculan las frecuencias absolutas acumuladas, a continuación se busca el valor cuya frecuencia absoluta acumulada coincida, o sea, N inmediatamente superior a y este valor es justamente la mediana. 2 Ejemplo: Hallar la mediana de la siguiente distribución de frecuencias: xi 1 2 3 4 5 6 7 ni 10 12 15 25 30 10 5 N= 107 Ni 10 22 37 62 92 102 107 Se halla en primer lugar el lugar que ocupa la mediana N 107 53,5 2 2 El valor de la variable correspondiente a la mediana, será el que corresponda a la N primera frecuencia acumulada mayor que . En este caso M e 4 porque 62 que es la 2 frecuencia acumulada de la variable 4, es la primera frecuencia acumulada mayor que 53,5. Profesor: Aristóteles de la E. Gosálbez. 17 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. N sea igual a 2 una frecuencia acumulada. En este caso, la mediana se obtiene tomando la media aritmética del valor de la variable correspondiente a esta frecuencia absoluta y la siguiente Puede ocurrir que habiendo un número par de valores centrales, el valor de xi 1 2 3 4 5 ni 13 10 2 8 17 N= 50 Ni 13 23 25 33 50 N 50 25 esta frecuencia acumulada pertenece a la variable de valor 3. 2 2 Como hemos dicho antes, tendremos que calcular la media aritmética de las dos variables Se halla Me 3 4 3,5 2 Para determinar la mediana en distribuciones de tipoIII seguiremos los siguientes pasos: N y se busca en la columna correspondiente a las frecuencias 2 absolutas acumuladas el primer valor de la variable que iguale o supere dicho valor; el intervalo en el que esto ocurre se llama intervalo mediano. Se considera el valor Se obtiene la mediana mediante la siguiente fórmula: N N i 1 M e Li 1 2 ·ai ni Donde Li 1 es el límite inferior del intervalo mediano, N i 1 es la frecuencia acumulada anterior a la correspondiente a dicho intervalo, n i y a i son la frecuencia absoluta y la amplitud del intervalo respectivamente. Profesor: Aristóteles de la E. Gosálbez. 18 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. Ejemplo: El número de beneficiarios de prestaciones de nivel contributivo por desempleo en 1999 según edad de los mismos, viene recogido en la tabla siguiente: Li 1 Li ni 16-19 10.030 19-24 97.887 24-34 383.787 34-44 274.398 44-54 219.117 54-65 256.602 TOTAL= 1.241.821 Calculamos Ni 10.030 107.917 491.704 766.102 985.219 1.241.821 N 1.241 .821 620 .910 ,5 2 2 Como el número de datos es impar solo habrá un valor central, que se encuentra en el intervalo mediano 34-44. Sustituyendo los valores en la fórmula: N N i 1 620 .910 ,5 491 .704 2 M e Li 1 ·ai 34 ·10 38,7 39 años 274 .398 ni Podemos deducir que el 50% de los beneficiarios de prestaciones de nivel contributivo por desempleo en 1999 tienen menos de 39 años, y el otro 50 % tienen mas de esa edad. La mediana, como medida de posición central, resulta de gran utilidad en los siguientes casos: - Cuando existan valores anormalmente bajos o elevados (mucha dispersión). La mediana es menos sensible que la media aritmética a estos valores extremos porque en su determinación no intervienen todos los valores de la variable sino los que ocupan los valores centrales. - Cuando no se pueda calcular la media aritmética. Esto ocurrirá cuando se analicen variables cuantitativas. - Cuando la variable está agrupada en intervalos y alguno de los cuales no tiene extremos definidos. - Por ultimo añadir que la mediana es el valor cuya vertical divide al histograma en dos partes de igual superficie. Profesor: Aristóteles de la E. Gosálbez. 19 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. 4.2.3. MODA. Se llama moda al valor (o valores) de la variable que tienen mayor frecuencia absoluta. Se designa por M o . De acuerdo con la definición dada, en las distribuciones de tipo I cada valor de la variable sería una moda. En las distribuciones de tipoII la moda se obtiene con rapidez. Una vez localizada la mayor frecuencia absoluta, la moda es su correspondiente valor de la variable. xi 1 2 3 4 5 ni 13 10 2 18 17 Ni 13 23 25 33 50 En este caso está claro cual es la moda, la mayor frecuencia es 18, luego la moda es Mo 4 Cuando la distribución es tipo III, la moda es un valor situado en el intervalo al que corresponde mayor frecuencia absoluta. Este intervalo se llama intervalo modal. Su cálculo se realiza utilizando la siguiente fórmula: M o Li 1 ni 1 ·ai ni 1 ni 1 Donde Li 1 representa el extremo inferior del intervalo modal, ni 1 y ni 1 son las frecuencias absolutas respectivamente del intervalo anterior y posterior al modal y a i es la amplitud del intervalo modal. Este cálculo de la moda solo es aplicable cuando los intervalos tienen una amplitud n constante. Si los intervalos tienen distinta amplitud se opera con las alturas hi i . ai hi 1 La fórmula en este caso será: M o Li 1 ·ai hi 1 hi 1 Li 1 Li ni hi 4-16 16-20 20-24 24-36 55 47 32 26 4,58 11,75 8 2,16 Al hallar las alturas, vemos que el cociente mayor es 11,75 que corresponde al intervalo modal 16-20, dentro del cual estará la moda, ahora aplicamos la fórmula: M o 16 Profesor: Aristóteles de la E. Gosálbez. 8 ·4 18,54 4,58 8 20 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. Cuando el intervalo modal sea el primero de la serie o el último, al no existir frecuencia absoluta al principio o al final, se considerará que la frecuencia anterior o posterior es cero. Li 1 Li 2-4 4-6 6-12 12-14 ni 6 4 15 5 hi 3 2 2,5 2,5 Aquí la altura mayor es 3, luego la moda estará dentro de ese intervalo, es decir 2-4. Aplicando la fórmula: Mo 2 2 ·2 4 02 Se pueden hacer las siguientes consideraciones sobre la moda: - Es muy útil su utilización cuando se trata de una variable cualitativa. - En ciertas ocasiones la Moda está situada en algún extremo de la distribución, es decir, no tiene por qué estar en el centro de esta, lo cual parece discordante con ser un parámetro de de centralización. - En resumen, la Moda es valor que predomina en una distribución, como extensión de lo que significa “moda” en la vida cotidiana. Profesor: Aristóteles de la E. Gosálbez. 21 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. 4.3. RELACIONES ENTRE MEDIANA, MODA Y MEDIA ARITMÉTICA. Puede observarse que para una misma distribución rara vez coinciden los valores obtenidos mediante los tres promedios. Esto plantea una cuestión importante, ¿qué promedio debe utilizarse en cada caso?. Para contestar a esta pregunta vamos a introducir el concepto de asimetría. Si representamos el polígono de frecuencias de una distribución tomando amplitudes de clase muy pequeñas, el polígono de frecuencias se transforma en una curva. Las siguientes figuras muestran tres ejemplos en los que se dan estas condiciones y, además, cada uno de ellos es representativo de un tipo de distribución atendiendo a la simetría o asimetría de la curva. En las distribuciones simétricas hay un eje de simetría, a la izquierda del cual, la curva tiene la misma forma que a la derecha, los parámetros de centralización coinciden. En las distribuciones simétricas los tres promedios son perfectamente representativos del conjunto de observaciones. Es difícil señalar una preferencia de uno sobre otro ya que los tres promedios coinciden. En las distribuciones fuertemente asimétricas, entonces parece que la mediana es el promedio más representativo ya que los valores muy altos o muy bajos influyen sensiblemente en la media aritmética, mientras que la mediana no se ve tan afectada. La moda es un promedio muy interesante cuando existen en las observaciones una clara y decidida tendencia a concentrarse alrededor de un solo valor. Más adelante aprenderemos a cuantificar la mayor o menor asimetría de una distribución. Profesor: Aristóteles de la E. Gosálbez. 22 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. Ejemplo: Vamos a estudiar las características de un grupo de 10 personas: - EDADES......... 25, 26, 27, 29, 29, 30, 31, 33, 33, 34. - SUELDOS (en €.)........ 420, 450, 470, 510, 530, 560, 580, 600, 1100, 1250. - TALLA DE PANTALONES...... 36, 36, 38, 38, 38, 40, 40, 40, 40, 40. Vamos a determinar los tres promedios para cada una de las variables y determinar cual de ellos representa mejor a la población. EDADES. En este caso hay dos modas SUELDOS. X 29,7 29 30 Me 29,5 2 M o1 29 M o2 33 X 647 M e 545 M 0 No hay moda. TALLAS. X 38,5 M e 39 M o 40 En la primera distribución el promedio más representativo es la media aritmética ya que todos los parámetros son muy parecidos, se tratará de una distribución simétrica. En la distribución de los sueldos la mediana es el promedio más representativo, como se detecta existen unos sueldos de 1100 y de 1250 que hacen que la media pierda significación. En la última distribución el promedio más representativo es la moda pues de 10 elementos, cinco de ellos repiten la talla 40. Profesor: Aristóteles de la E. Gosálbez. 23 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. 4.4. PARÁMETROS DE POSICIÓN. Hemos visto que la mediana es el valor que hace que el 50% de los datos sean anteriores a ella y el otro 50% posteriores (divide a la distribución en dos partes iguales). Generalizando esta idea, se establecen otras medidas llamadas, parámetros de posición, siendo los más usados: los cuartiles, los deciles y los percentiles. Estos parámetros clasifican a un individuo dentro de la población. Dependiendo del número de partes en la que queramos dividir la distribución los definimos como: - Cuartiles: dividen a la población en cuatro partes iguales. - Deciles: éstos dividen a la población en diez partes iguales. - Percentiles: dividen a la población en cien partes iguales. En el caso de distribuciones de tipo II, el cálculo de estos parámetros se efectúa exactamente igual que la mediana. Si existiera un valor cuya frecuencia absoluta acumulada coincidiera con el lugar que buscamos, habría que hacer el promedio entre dicho valor y el siguiente. Para buscar el lugar que ocupa el parámetro de posición deseado, buscamos aquél cuya mN frecuencia absoluta acumulada sea igual o inmediatamente superior a k donde N es el total de datos y el valor de m y k depende del tipo del parámetro: m = 1, 2, 3. para los cuartiles. Siempre k 4 m = 1, 2, 3, ............., 9. para los deciles. Siempre k 10 m = 1, 2, 3,........................, 99. para los percentiles. Siempre k 100 Ejemplo: Las notas de Estadística de 40 alumnos de un curso de grado están registradas en la siguiente tabla: xi 1 2 3 4 5 6 7 8 9 N= ni 2 2 4 5 8 9 3 4 3 40 Ni 2 4 8 13 21 30 33 37 40 Vamos a calcular el primer cuartil ( Q1 ), el tercer Cuartil ( Q3 ), el sexto Decil ( D6 ) y el Percentil 70 ( P70 ) Profesor: Aristóteles de la E. Gosálbez. 24 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. 1 40 10 , entonces Q1 = 4 y significa 4 que el 25% de los alumnos han obtenido una nota inferior a 4 y el 75% una nota superior a 4. Para hallar Q1 calculamos el lugar que ocupa 3 40 30 , como coincide con el valor 4 de una frecuencia absoluta acumulada se hace el promedio del valor correspondiente de la 67 6,5 . variable y el siguiente es decir Q3 2 6 40 24 ,con lo cual D6 = 6, pues la primera Para D6 calculamos el lugar 10 frecuencia absoluta acumulada que supera el valor 24, es 30 que corresponde al valor 6 de la variable. Diriamos que el 60% de los alumnos han sacado menos de 6 de nota. Para averiguar Q3 calculamos su posición Para hallar P70 calculamos 70 40 28 , entonces P70 = 6, por las mismas razones que 100 en el calculo de D6 . Si la distribución fuera de tipo III, se localiza el intervalo correspondiente por el procedimiento anterior y se aplica la siguiente formula: mN N i 1 k Pm Li 1 ·ai ni Como se puede comprobar en la anterior fórmula, se ha razonado igual que en el cálculo de la mediana. Ejemplo: Hallar el segundo cuartil, el noveno decil y el percentil 83 en la siguiente distribución de frecuencias: Li 1 Li 0-100 100-200 200-250 250-275 275-300 N= Segundo cuartil: ni 10 12 14 16 14 66 Ni 10 22 36 52 66 7 N 7·66 46,2 36 46,2 D7 250 ·25 265,9 10 10 16 Profesor: Aristóteles de la E. Gosálbez. 25 Estadística para Relaciones Laborales. Noveno decil: Percentil 83: TEMA IV 1ª Parte. 9 N 9·66 59,4 52 59,4 D9 275 ·25 288,2 10 10 14 83 N 83·66 54,78 52 54,78 P83 275 ·25 279 ,9 100 100 14 4.5. COMPLEMENTOS A LOS PARAMETROS DE CENTRALIZACIÓN. Existen algunos parámetros de centralización, que sin ser fundamentales para el estudio de la Estadística Descriptiva, se consideran de gran interés. 4.5.1. MEDIA ARITMETICA PONDERADA. Muchas veces no todos los valores de la variable tienen la misma influencia, y, por eso, a cada valor se le asigna un coeficiente diferenciador, llamado peso. De forma que si la variable toma los valores x1 , x2 ,.....,xn con respectivos pesos p1 , p2 ,.......,pn la media aritmética ponderada se calculará, siguiendo la siguiente fórmula: n Xp x .p i 1 n i p i 1 i i Supongamos que la selección en una determinada empresa se realiza mediante tres pruebas de dificultad creciente, en las que cada una se valora doble que la anterior. Si un aspirante ha obtenido como clasificaciones 5, 6 y 7 se deben asignar pesos 1, 2 y 4 respectivamente, la media ponderada vendrá dada por: Xp 5·1 6·2 7·4 45 6,43 1 2 4 7 4.5.2. MEDIA CUADRÁTICA. Se suele utilizar cuando la variable toma valores positivos y negativos y queremos que la medida de tendencia central no refleje los efectos del signo. Se designa por C y su expresión es: Tipo I C x i N 2 i Tipo II C x 2 i ni i N Este tipo de promedio se utiliza normalmente en aplicaciones físicas. Ejemplo: La media cuadrática de los siguientes valores: -3, -5, -6, 6, 7, 10, 12. Media cuadrática (R.M.S.) = Profesor: Aristóteles de la E. Gosálbez. (3) 2 (5) 2 (6) 2 6 2 7 2 102 122 57 7,55 7 26 Estadística para Relaciones Laborales. TEMA IV 1ª Parte. 4.5.3. MEDIA ARMONICA La media armónica es útil en la comparación de velocidades promedio sobre varias distancias, y en la resolución de problemas estadísticos del transporte. También su utilización es muy frecuente en farmacología para calcular dosis medias a las que ha estado sometido un paciente. Es muy adecuada cuando los datos presentan una gran asimetría hacia la derecha, es decir unos pocos valores muy grandes. Se designa por H, se utiliza la formula: Tipo I H N Tipo II H 1 x i i N 1 i x ni i Ejemplo: Una persona viaja de Elda a La Roda con velocidad media de 30 km/h y regresa de La Roda a Elda a una velocidad de 60 km/h. Hallar la velocidad media del viaje completo. Supongamos que la distancia de Elda a La Roda es de 120 kilómetros, entonces el e 120km tiempo para ir seria de t 4h v 30 km / h 120km De la misma manera, el tiempo para volver seria t 2h 60 km / h La velocidad media del viaje seria v dis tancia total 240km 40 km / h tiem pototal 6h Realmente este resultado coincide con la media armónica entre 30 y 60, es decir: H N 1 i x i 2 1 1 30 40 40 km / h Si hubiésemos tomado la media aritmética de 30 km/h y 60 km/h, obtendríamos: x Profesor: Aristóteles de la E. Gosálbez. 30 60 45 km / h lo cual es incorrecto 2 27