T 04_1 - Monovardigital

Anuncio
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
TEMA 4 ( I Parte).
MEDIDAS DE POSICIÓN CENTRAL
4.1. PARÁMETROS ASOCIADOS A UNA DISTRIBUCIÓN.
Como hemos visto en los capítulos anteriores, para realizar un estudio estadístico lo
primero que tenemos que hacer es recoger los datos; a continuación los organizamos en tablas y
seguidamente construimos algunas representaciones gráficas con el objeto de extraer las
primeras conclusiones. Pero no podemos olvidar que lo que nos interesa es la información del
conjunto. Un paso importante en este sentido se produce en la siguiente fase del proceso o fase
de análisis, en el cual vamos a reducir todos los datos a unos pocos valores o medidas que nos
resuman toda la información y hagan más manejable el estudio.
A estos valores numéricos los llamaremos parámetros o medidas.
Sustituir toda la información individual por unos pocos valores, es un esfuerzo de
síntesis, y supone una pérdida de información que se compensa con la mayor manejabilidad de
los datos del colectivo. Estos deben interpretarse correctamente y atribuirles el significado que
tienen.
4.2. MEDIDAS DE CENTRALIZACIÓN.
Una medida de centralización o promedio es aquel valor que es capaz de representar
todos los datos. Son parámetros alrededor de los cuales se concentran gran parte de los valores
de la distribución. Los más frecuentemente usados son:
4.2.1.MEDIA ARITMÉTICA SIMPLE.
La media aritmética es un parámetro que nos da una idea en torno a qué valor se
encuentran concentrados los valores de una variable estadística, aunque en ocasiones no resulte
un valor demasiado representativo.
Se simboliza por X y, para las distribuciones estadísticas del tipo I, viene dada por la
fórmula
n
x  x 2  ...... x n
X  1

N
x
i 1
i
N
Ejemplo: Supongamos que un alumno ha obtenido las notas siguientes en tres parciales:
4, 6, 7, la media aritmética simple sería:
X 
467
 5,66
3
Para las distribuciones de tipo II, al repetirse los valores, la fórmula anterior queda de la forma
n
x .n  x 2 .n2  ....... x n nn
X  1 1

N
Profesor: Aristóteles de la E. Gosálbez.
 x .n
i 1
i
i
N
15
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
Dada la siguiente tabla que representa la clasificación de 90 matrimonios en función del
número de hijos.
xi
0
1
2
3
4
5
ni
10
19
29
16
10
6
Calculemos la media aritmética. Aplicando la fórmula anterior, se tiene:
n
x .n  x 2 .n2  ....... x n nn
X  1 1

N
 x .n
i 1
i
N
i

0·10  1·19  2·29  3·16  4·10  5·6
 2,16 hijos
90
En el caso de que sea una distribución de tipo III, operamos de la misma forma salvo que
en lugar de utilizar los x i empleamos las marcas de clase de cada intervalo.
Como se observa, en el cálculo de la media aritmética intervienen todos los valores de la
distribución.
Podemos hacer las siguientes consideraciones sobre la media aritmética:
- La media aritmética es el parámetro de centralización mas utilizado.
- Podemos considerar que la media aritmética es el centro de gravedad de la distribución
- En su cálculo intervienen todos los datos, aunque, en ocasiones, esto es un
inconveniente porque los valores extremos (si son raros o poco significativos), producen
valores de la media que no son representativos de la distribución. Como consecuencia,
podemos decir que la media no es un parámetro adecuado cuando los valores extremos
influyen mucho sobre su valor.
- Otro inconveniente que tiene la media aritmética es que no siempre se puede calcular;
en particular cuando la variable es cuantitativa o cuando es una variable cuyos valores
están agrupados en intervalos en la que alguno de ellos no tienen extremos definidos.
Profesor: Aristóteles de la E. Gosálbez.
16
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
4.2.2. MEDIANA.
Se llama mediana de una distribución, y se designa por M e , al valor de la variable tal
que, ordenados los datos de forma creciente, deja igual número de observaciones inferiores que
superiores a él.
Si la distribución estadística es de tipo I y N es un número impar, existe un único valor de
la variable en el centro de la distribución, y éste es la mediana. En el caso de que N sea par, la
mediana se define como la media aritmética de los dos valores centrales.
Ejemplo: Hallar la mediana de la edad de cinco personas que tienen 5, 6, 7, 9, 10 años.
Como el número de ordenaciones es impar y además están ordenadas en sentido
creciente. La mediana es el valor central M e  7
Si el número de observaciones hubiera sido par, por ejemplo, 5, 6, 7, 9, 10, 12, la
mediana sería la media aritmética de los valores centrales 7 y 9
Me 
79
8
2
Cuando la distribución es del tipo II, se calculan las frecuencias absolutas acumuladas,
a continuación se busca el valor cuya frecuencia absoluta acumulada coincida, o sea,
N
inmediatamente superior a
y este valor es justamente la mediana.
2
Ejemplo: Hallar la mediana de la siguiente distribución de frecuencias:
xi
1
2
3
4
5
6
7
ni
10
12
15
25
30
10
5
N= 107
Ni
10
22
37
62
92
102
107
Se halla en primer lugar el lugar que ocupa la mediana 
N 107

 53,5
2
2
El valor de la variable correspondiente a la mediana, será el que corresponda a la
N
primera frecuencia acumulada mayor que
. En este caso M e  4 porque 62 que es la
2
frecuencia acumulada de la variable 4, es la primera frecuencia acumulada mayor que 53,5.
Profesor: Aristóteles de la E. Gosálbez.
17
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
N
sea igual a
2
una frecuencia acumulada. En este caso, la mediana se obtiene tomando la media aritmética del
valor de la variable correspondiente a esta frecuencia absoluta y la siguiente
Puede ocurrir que habiendo un número par de valores centrales, el valor de
xi
1
2
3
4
5
ni
13
10
2
8
17
N= 50
Ni
13
23
25
33
50
N 50

 25 esta frecuencia acumulada pertenece a la variable de valor 3.
2
2
Como hemos dicho antes, tendremos que calcular la media aritmética de las dos variables
Se halla
Me 
3 4
 3,5
2
Para determinar la mediana en distribuciones de tipoIII seguiremos los siguientes pasos:
N
y se busca en la columna correspondiente a las frecuencias
2
absolutas acumuladas el primer valor de la variable que iguale o supere dicho valor; el
intervalo en el que esto ocurre se llama intervalo mediano.
Se considera el valor
Se obtiene la mediana mediante la siguiente fórmula:
N
 N i 1
M e  Li 1  2
·ai
ni
Donde Li 1 es el límite inferior del intervalo mediano, N i 1 es la frecuencia acumulada
anterior a la correspondiente a dicho intervalo, n i y a i son la frecuencia absoluta y la amplitud
del intervalo respectivamente.
Profesor: Aristóteles de la E. Gosálbez.
18
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
Ejemplo: El número de beneficiarios de prestaciones de nivel contributivo por
desempleo en 1999 según edad de los mismos, viene recogido en la tabla siguiente:
Li 1  Li
ni
16-19
10.030
19-24
97.887
24-34
383.787
34-44
274.398
44-54
219.117
54-65
256.602
TOTAL= 1.241.821
Calculamos
Ni
10.030
107.917
491.704
766.102
985.219
1.241.821
N 1.241 .821

 620 .910 ,5
2
2
Como el número de datos es impar solo habrá un valor central, que se encuentra en el
intervalo mediano 34-44.
Sustituyendo los valores en la fórmula:
N
 N i 1
620 .910 ,5  491 .704
2
M e  Li 1 
·ai  34 
·10  38,7  39 años
274 .398
ni
Podemos deducir que el 50% de los beneficiarios de prestaciones de nivel contributivo
por desempleo en 1999 tienen menos de 39 años, y el otro 50 % tienen mas de esa edad.
La mediana, como medida de posición central, resulta de gran utilidad en los siguientes
casos:
- Cuando existan valores anormalmente bajos o elevados (mucha dispersión). La
mediana es menos sensible que la media aritmética a estos valores extremos porque en
su determinación no intervienen todos los valores de la variable sino los que ocupan los
valores centrales.
- Cuando no se pueda calcular la media aritmética. Esto ocurrirá cuando se analicen
variables cuantitativas.
- Cuando la variable está agrupada en intervalos y alguno de los cuales no tiene
extremos definidos.
- Por ultimo añadir que la mediana es el valor cuya vertical divide al histograma en dos
partes de igual superficie.
Profesor: Aristóteles de la E. Gosálbez.
19
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
4.2.3. MODA.
Se llama moda al valor (o valores) de la variable que tienen mayor frecuencia absoluta.
Se designa por M o .
De acuerdo con la definición dada, en las distribuciones de tipo I cada valor de la
variable sería una moda.
En las distribuciones de tipoII la moda se obtiene con rapidez. Una vez localizada la
mayor frecuencia absoluta, la moda es su correspondiente valor de la variable.
xi
1
2
3
4
5
ni
13
10
2
18
17
Ni
13
23
25
33
50
En este caso está claro cual es la moda, la mayor frecuencia es 18, luego la moda es
Mo  4
Cuando la distribución es tipo III, la moda es un valor situado en el intervalo al que
corresponde mayor frecuencia absoluta. Este intervalo se llama intervalo modal. Su cálculo se
realiza utilizando la siguiente fórmula:
M o  Li 1 
ni 1
·ai
ni 1  ni 1
Donde Li 1 representa el extremo inferior del intervalo modal, ni 1 y ni 1 son las
frecuencias absolutas respectivamente del intervalo anterior y posterior al modal y a i es la
amplitud del intervalo modal.
Este cálculo de la moda solo es aplicable cuando los intervalos tienen una amplitud
n
constante. Si los intervalos tienen distinta amplitud se opera con las alturas hi  i .
ai
hi 1
La fórmula en este caso será:
M o  Li 1 
·ai
hi 1  hi 1
Li 1  Li
ni
hi
4-16
16-20
20-24
24-36
55
47
32
26
4,58
11,75
8
2,16
Al hallar las alturas, vemos que el cociente mayor es 11,75 que corresponde al intervalo
modal 16-20, dentro del cual estará la moda, ahora aplicamos la fórmula:
M o  16 
Profesor: Aristóteles de la E. Gosálbez.
8
·4  18,54
4,58  8
20
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
Cuando el intervalo modal sea el primero de la serie o el último, al no existir frecuencia
absoluta al principio o al final, se considerará que la frecuencia anterior o posterior es cero.
Li 1  Li
2-4
4-6
6-12
12-14
ni
6
4
15
5
hi
3
2
2,5
2,5
Aquí la altura mayor es 3, luego la moda estará dentro de ese intervalo, es decir 2-4.
Aplicando la fórmula:
Mo  2 
2
·2  4
02
Se pueden hacer las siguientes consideraciones sobre la moda:
- Es muy útil su utilización cuando se trata de una variable cualitativa.
- En ciertas ocasiones la Moda está situada en algún extremo de la distribución, es
decir, no tiene por qué estar en el centro de esta, lo cual parece discordante con ser un
parámetro de de centralización.
- En resumen, la Moda es valor que predomina en una distribución, como extensión de
lo que significa “moda” en la vida cotidiana.
Profesor: Aristóteles de la E. Gosálbez.
21
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
4.3. RELACIONES ENTRE MEDIANA, MODA Y MEDIA ARITMÉTICA.
Puede observarse que para una misma distribución rara vez coinciden los valores
obtenidos mediante los tres promedios. Esto plantea una cuestión importante, ¿qué promedio
debe utilizarse en cada caso?.
Para contestar a esta pregunta vamos a introducir el concepto de asimetría. Si
representamos el polígono de frecuencias de una distribución tomando amplitudes de clase
muy pequeñas, el polígono de frecuencias se transforma en una curva. Las siguientes figuras
muestran tres ejemplos en los que se dan estas condiciones y, además, cada uno de ellos es
representativo de un tipo de distribución atendiendo a la simetría o asimetría de la curva.
En las distribuciones simétricas hay un eje de simetría, a la izquierda del cual, la curva tiene la
misma forma que a la derecha, los parámetros de centralización coinciden.
En las distribuciones simétricas los tres promedios son perfectamente representativos del
conjunto de observaciones. Es difícil señalar una preferencia de uno sobre otro ya que los tres
promedios coinciden.
En las distribuciones fuertemente asimétricas, entonces parece que la mediana es el
promedio más representativo ya que los valores muy altos o muy bajos influyen sensiblemente
en la media aritmética, mientras que la mediana no se ve tan afectada.
La moda es un promedio muy interesante cuando existen en las observaciones una clara
y decidida tendencia a concentrarse alrededor de un solo valor.
Más adelante aprenderemos a cuantificar la mayor o menor asimetría de una
distribución.
Profesor: Aristóteles de la E. Gosálbez.
22
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
Ejemplo: Vamos a estudiar las características de un grupo de 10 personas:
- EDADES......... 25, 26, 27, 29, 29, 30, 31, 33, 33, 34.
- SUELDOS (en €.)........ 420, 450, 470, 510, 530, 560, 580, 600, 1100, 1250.
- TALLA DE PANTALONES...... 36, 36, 38, 38, 38, 40, 40, 40, 40, 40.
Vamos a determinar los tres promedios para cada una de las variables y determinar cual
de ellos representa mejor a la población.
EDADES.
En este caso hay dos modas
SUELDOS.
X  29,7
29  30
Me 
 29,5
2
M o1  29 M o2  33
X  647
M e  545
M 0  No hay moda.
TALLAS.
X  38,5
M e  39
M o  40
En la primera distribución el promedio más representativo es la media aritmética ya que
todos los parámetros son muy parecidos, se tratará de una distribución simétrica.
En la distribución de los sueldos la mediana es el promedio más representativo, como
se detecta existen unos sueldos de 1100 y de 1250 que hacen que la media pierda significación.
En la última distribución el promedio más representativo es la moda pues de 10
elementos, cinco de ellos repiten la talla 40.
Profesor: Aristóteles de la E. Gosálbez.
23
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
4.4. PARÁMETROS DE POSICIÓN.
Hemos visto que la mediana es el valor que hace que el 50% de los datos sean
anteriores a ella y el otro 50% posteriores (divide a la distribución en dos partes iguales).
Generalizando esta idea, se establecen otras medidas llamadas, parámetros de posición,
siendo los más usados: los cuartiles, los deciles y los percentiles. Estos parámetros clasifican a
un individuo dentro de la población.
Dependiendo del número de partes en la que queramos dividir la distribución los
definimos como:
- Cuartiles: dividen a la población en cuatro partes iguales.
- Deciles: éstos dividen a la población en diez partes iguales.
- Percentiles: dividen a la población en cien partes iguales.
En el caso de distribuciones de tipo II, el cálculo de estos parámetros se efectúa
exactamente igual que la mediana. Si existiera un valor cuya frecuencia absoluta acumulada
coincidiera con el lugar que buscamos, habría que hacer el promedio entre dicho valor y el
siguiente.
Para buscar el lugar que ocupa el parámetro de posición deseado, buscamos aquél cuya
mN
frecuencia absoluta acumulada sea igual o inmediatamente superior a 
k
donde N es el total de datos y el valor de m y k depende del tipo del parámetro:
m = 1, 2, 3. para los cuartiles. Siempre k  4
m = 1, 2, 3, ............., 9. para los deciles. Siempre k  10
m = 1, 2, 3,........................, 99. para los percentiles. Siempre k  100
Ejemplo: Las notas de Estadística de 40 alumnos de un curso de grado están registradas
en la siguiente tabla:
xi
1
2
3
4
5
6
7
8
9
N=
ni
2
2
4
5
8
9
3
4
3
40
Ni
2
4
8
13
21
30
33
37
40
Vamos a calcular el primer cuartil ( Q1 ), el tercer Cuartil ( Q3 ), el sexto Decil ( D6 ) y el
Percentil 70 ( P70 )
Profesor: Aristóteles de la E. Gosálbez.
24
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
1  40
 10 , entonces Q1 = 4 y significa
4
que el 25% de los alumnos han obtenido una nota inferior a 4 y el 75% una nota superior a 4.
Para hallar Q1 calculamos el lugar que ocupa 
3  40
 30 , como coincide con el valor
4
de una frecuencia absoluta acumulada se hace el promedio del valor correspondiente de la
67
 6,5 .
variable y el siguiente es decir Q3 
2
6  40
 24 ,con lo cual D6 = 6, pues la primera
Para D6 calculamos el lugar 
10
frecuencia absoluta acumulada que supera el valor 24, es 30 que corresponde al valor 6 de la
variable. Diriamos que el 60% de los alumnos han sacado menos de 6 de nota.
Para averiguar Q3 calculamos su posición 
Para hallar P70 calculamos
70  40
 28 , entonces P70 = 6, por las mismas razones que
100
en el calculo de D6 .
Si la distribución fuera de tipo III, se localiza el intervalo correspondiente por el
procedimiento anterior y se aplica la siguiente formula:
mN
 N i 1
k
Pm  Li 1 
·ai
ni
Como se puede comprobar en la anterior fórmula, se ha razonado igual que en el
cálculo de la mediana.
Ejemplo: Hallar el segundo cuartil, el noveno decil y el percentil 83 en la siguiente
distribución de frecuencias:
Li 1  Li
0-100
100-200
200-250
250-275
275-300
N=
Segundo cuartil:
ni
10
12
14
16
14
66
Ni
10
22
36
52
66
7 N 7·66
46,2  36

 46,2  D7  250 
·25  265,9
10
10
16
Profesor: Aristóteles de la E. Gosálbez.
25
Estadística para Relaciones Laborales.
Noveno decil:
Percentil 83:
TEMA IV 1ª Parte.
9 N 9·66
59,4  52

 59,4  D9  275 
·25  288,2
10
10
14
83 N 83·66
54,78  52

 54,78  P83  275 
·25  279 ,9
100
100
14
4.5. COMPLEMENTOS A LOS PARAMETROS DE CENTRALIZACIÓN.
Existen algunos parámetros de centralización, que sin ser fundamentales para el estudio
de la Estadística Descriptiva, se consideran de gran interés.
4.5.1. MEDIA ARITMETICA PONDERADA.
Muchas veces no todos los valores de la variable tienen la misma influencia, y, por eso,
a cada valor se le asigna un coeficiente diferenciador, llamado peso. De forma que si la
variable toma los valores x1 , x2 ,.....,xn con respectivos pesos p1 , p2 ,.......,pn la media
aritmética ponderada se calculará, siguiendo la siguiente fórmula:
n
Xp 
 x .p
i 1
n
i
p
i 1
i
i
Supongamos que la selección en una determinada empresa se realiza mediante tres
pruebas de dificultad creciente, en las que cada una se valora doble que la anterior. Si un
aspirante ha obtenido como clasificaciones 5, 6 y 7 se deben asignar pesos 1, 2 y 4
respectivamente, la media ponderada vendrá dada por:
Xp 
5·1  6·2  7·4 45

 6,43
1 2  4
7
4.5.2. MEDIA CUADRÁTICA.
Se suele utilizar cuando la variable toma valores positivos y negativos y queremos que la
medida de tendencia central no refleje los efectos del signo. Se designa por C y su expresión es:
Tipo I  C 
x
i
N
2
i
Tipo II  C 
x
2
i
 ni
i
N
Este tipo de promedio se utiliza normalmente en aplicaciones físicas.
Ejemplo: La media cuadrática de los siguientes valores: -3, -5, -6, 6, 7, 10, 12.
Media cuadrática (R.M.S.) =
Profesor: Aristóteles de la E. Gosálbez.
(3) 2  (5) 2  (6) 2  6 2  7 2  102  122
 57  7,55
7
26
Estadística para Relaciones Laborales.
TEMA IV 1ª Parte.
4.5.3. MEDIA ARMONICA
La media armónica es útil en la comparación de velocidades promedio sobre varias
distancias, y en la resolución de problemas estadísticos del transporte. También su utilización
es muy frecuente en farmacología para calcular dosis medias a las que ha estado sometido un
paciente. Es muy adecuada cuando los datos presentan una gran asimetría hacia la derecha, es
decir unos pocos valores muy grandes.
Se designa por H, se utiliza la formula:
Tipo I  H 
N
Tipo II  H 
1
x
i
i
N
1
i x  ni
i
Ejemplo: Una persona viaja de Elda a La Roda con velocidad media de 30 km/h y
regresa de La Roda a Elda a una velocidad de 60 km/h. Hallar la velocidad media del viaje
completo.
Supongamos que la distancia de Elda a La Roda es de 120 kilómetros, entonces el
e 120km
tiempo para ir seria de  t  
 4h
v 30 km / h
120km
De la misma manera, el tiempo para volver seria  t 
 2h
60 km / h
La velocidad media del viaje seria  v 
dis tancia total 240km

 40 km / h
tiem pototal
6h
Realmente este resultado coincide con la media armónica entre 30 y 60, es decir:
H
N
1
i x
i

2
1
1

30 40
 40 km / h
Si hubiésemos tomado la media aritmética de 30 km/h y 60 km/h, obtendríamos:
x
Profesor: Aristóteles de la E. Gosálbez.
30  60
 45 km / h lo cual es incorrecto
2
27
Descargar