Documento 406125

Anuncio
Carrera de Relaciones Laborales
Facultad de Derecho – Universidad de la República
Estadísticas Laborales – Profas. Mariela Quiñones y Mariana Cabrera
DISTRIBUCIONES UNIVARIADAS: ESTADÍSTICOS DE RESUMEN
– «MEDIDAS DE TENDENCIA CENTRAL»
Objetivos del módulo 3:
1. Introducir la presentación numérica, en base a estadísticos, de las distribuciones univariadas.
2. Introducir el concepto de tendencia central y los estadísticos apropiados para caracterizar la
tendencia central de una distribución univariada.
3. Entender los alcances y límites de estas herramientas y las aplicaciones más pertinentes de las
mismas.
Conceptos clave del módulo 3:
Medidas de tendencia central
Media o promedio
Mediana
Moda o modo
3.1 INTRODUCCIÓN
Como ya se comentó en módulos anteriores, la información que suministra una matriz
de datos acerca de una variable puede ser representada en una tabla o en un gráfico, o
bien, sintetizada en algunos indicadores que «describan» de manera más precisa el
comportamiento de la propiedad analizada. En este módulo se van a estudiar las
denominadas “medidas de tendencia central” y las “medidas de desviación”.
Para ello se va a tomar como referencia principal las variables cuantitativas, es decir,
se usarán términos como «variable» y «valores», aunque algunas de estos indicadores
(MODA Y MEDIANA) también se aplican a caracteres cualitativos o atributos (escalas
de medición ordinal y nominal).
Estas medidas se denominan de «tendencia central» porque fijan su atención en el
centro de la distribución o punto central sobre el que gravitan el conjunto de valores de
la distribución.
3.2 MEDIDAS DE TENDENCIA CENTRAL
La más habitual de las medidas de tendencia central es la MEDIA ARITMÉTICA del
conjunto de observaciones individualmente obtenidas. Sin embargo, su uso lleva
algunos presupuestos infranqueables, lo que conlleva a que NO SIEMPRE PUEDA
USARSE LA MEDIA como indicador de «tendencia central».
Entre estos supuestos cabe señalar en primer lugar, que su cálculo presupone un nivel
de medición por lo menos de razón. En segundo lugar, que el cálculo de la media se
hace presuponiendo que el conjunto de los datos posibles tienen una distribución
simétrica. Por lo tanto, antes de calcular la media es imprescindible mirar el nivel de
medición de la variable y el gráfico para estudiar la forma de su distribución.
2
Concepto de Simetría:
Supongamos que hemos representado gráficamente una distribución de
frecuencias.
Si trazamos una perpendicular al eje de abscisas por la media y tomamos
esta perpendicular como eje de SIMETRÍA, diremos que una distribución es
simétrica respecto a la media si existe el mismo número de valores a ambos
lados de dicho eje, equidistantes de uno a uno y tales que cada par de
valores equidistantes
tengan la misma frecuencia. En caso contrario, las
distribuciones serán asimétricas.
Simétrica
Asimétrica a la derecha
x
x
Asimétrica a la izquierda
x
Si no se cumplen estos supuestos deben usarse alternativamente otros indicadores: la
MEDIANA (en caso de no contarse con variables intervales o cuando la población sigue
una distribución bastante poco simétrica) o la MODA o MODO.
Se emplea la MEDIANA como estadístico de tendencia central, por tanto, cuando se
presupone que las puntuaciones posibles de una variable interval no se distribuyen de
forma simétrica; por lo tanto la media no es una medida representativa; o bien, cuando
no se dispone de una variable que admita como mínimo la escala de medición interval.
La mediana requiere para su uso también de un nivel de medición mínimo, la escala o
nivel ordinal. Por lo tanto, cuando no se cumple éste o algunos de los supuestos
3
mencionados para el uso de la media aritmética o de la medidana –el caso de las
variables nominales- sólo nos resta expresarnos por medio de la MODA.
La MODA, por tanto, es la medida de tendencia central apropiada cuando se dispone
de variables que tienen un nivel de medición nominal.
En síntesis:
NIVEL DE MEDICION
MEDIDA DE TENDENCIA CENTAL
MEDIANA
MODA
Si
Si
MEDIA
INTERVAL Distribución Si, la más
O RAZON simétrica
adecuada
Distribución No
asimétrica
ORDINAL
No
NOMINAL
No
Si, la más
adecuada
Si
No
Si
Si
Si
A continuación revisaremos las definiciones y procedimientos de cálculo de cada una
de ellas:
I. LA MEDIA: la «media aritmética» de una variable estadística
es la suma de todos sus posibles valores promediados por el
total de observaciones.
Dado que existen diferentes formas de recibir los datos, según lo estudiado, la media puede
ser expresada a través de las siguientes formas equivalentes:
a) tablas de datos originales: si los valores de una tabla son:
x1; x2; x3; ………xi
x
x
i
(Formula 1)
N
Ejemplo:
20 empresas han informado sobre el número de accidentes de trabajo reportados en
los últimos 5 años.
Empresa
Accidentes
Laborales
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
4
7
5
3
4
4
5
6
8
5
4
3
4
5
6
4
6
6
5
3
En notación matemática, Xi representa el número de accidentes laborales por empresa
i.
4
Por lo tanto, el numerador proporciona el total de accidentes laborales por todos los
empresas de la población (sumatoria de Xi) y el denominador es el tamaño de la
población (N).
Entonces la media o promedio es:
4+7+5+3+4+4+5+6+8+5+4+3+4+5+6+4+6+6+5+3 = 97 / 20 = 4,85 materias aprobadas.
Observaciones
1. El promedio no tiene por qué coincidir con alguno de los valores
observados en la población. De hecho, no se tiene 4,85 accidentes
laborales: la variable es discreta
2. Si la distribución de la variable no es muy dispersa (porque se
concentra en unos pocos valores) entonces el promedio es un buen
indicador de la “posición” de la distribución.
Efectivamente, en el ejemplo anterior la variable está distribuida en el
intervalo [3,8], pero la mayor parte está concentrada en valores bien
cercanos al promedio. En este ejemplo, el promedio resulta un buen
indicador de la “posición” o del “centro” de la distribución.
Un contraejemplo se presenta a continuación: 1-1-1-1-1-2-2-2-3-76 (variable
edad)
Donde la media resulta de la operación: (1+1+1+1+1+2+2+2+3+76) / 10 = 90/9 =
9 años.
El promedio del ejemplo es 9 años. ¿Indica este promedio el centro de la
distribución? Obsérvese que alrededor del promedio, en este caso, no hay
valores de la población. Y esto es así porque la distribución es muy dispersa. En
estos casos el promedio no es un buen indicador de la posición o centro de la
distribución.
Observaciones:
El promedio, en todos los casos, es un número comprendido entre el mínimo y el
máximo de los valores observados. Si la variable sólo toma valores positivos (como
ocurre con casi todas las variables sociales), entonces su promedio no puede ser
nulo o negativo.
El promedio, como medida de tendencia central, tiene el defecto de estar muy
5
influido por los valores extremos de la distribución. Obsérvese en el ejemplo dado
en último término como se modifica el promedio al variar el extremo superior de la
distribución. En este caso, como hemos recomendado, sería más ilustrativo del
comportamiento de la población usar la medida denominada MEDIANA, que
describiremos más adelante.
b) Tablas de frecuencias simples: Es decir, si la tabla de valores de una
variable X es
Xi
fi
fr
x1
f1
fr1
...
...
...
xk
fk
frk
En este caso la media puede ser expresada como suma ponderada de los valores
de la variable por las frecuencias absolutas promediada por el total de observaciones (N).
Esta expresión se puede simplificar ahorrando uno de los términos si se realiza la
suma ponderada de sus valores por la frecuencia relativa de los mismos (ya que en
la expresión de las frecuencias relativas por definición el valor de la frecuencia
absoluta está promediado por el total poblacional término a término)
x  x1 fr  ......xk f k 
1
x1 f i  .......xk f k  
n
x
n
i
fi
o.bien xi f r
Por ejemplo: ¿Cómo sería la fórmula del promedio de accidentes laborales si los mismos
datos estuvieran agrupados en una tabla de frecuencias?
Accidentes
Laborales
Xi
3
4
5
6
7
8
fi
fr
Xi * f i
Xi * f r
3
6
5
4
1
1
0,15
0,30
0,25
0,20
0,05
0,05
9
24
25
24
7
8
0,45
1,20
1,25
1,20
0,35
0,40
6
20
97
1
4,85 que
es
idéntico
resultado
que
97/20
x  (9  24  25  24  7  8) / 20...o.bien xi f r  4,85__ accidentes_ laborales
c) tablas de frecuencias con datos agrupados en intervalos de clase
En el caso de las tablas de frecuencias agrupadas en intervalos de clase, dada
la pérdida del dato original, en estos casos la media debe ser definida como la suma
ponderada –no de los valores originales- sino de las «marcas de clase» ponderada por
sus frecuencias relativas (ya usando la expresión simplificada).
Por tanto, debe expresarse como:
x 
 xc * f
n
i
o.bien xc * f r
Usando el ejemplo anterior:
Materias
aprobadas
Ls – Li
3-6
6-9
Xc
fi
fr
4,5
7,5
14
6
20
0,70
0,30
1
Xi * f i
63
45
108
Xi * f r
3,15
2,25
5,4 que
es
idéntico
a
108/20
7
Observación
En general, la media aritmética obtenida a partir de las marcas de clase xc,
diferirá de la media obtenida con los valores reales, xi. Es decir, habrá una
pérdida de precisión que será tanto mayor cuanto mayor sea la diferencia entre
los valores reales y las marcas de clase, o sea, cuanto mayores sean las
amplitudes de los intervalos de clase ai. En el ejemplo que usamos la media
varió de 4,85 a 5,4 accidentes laborales
Propiedades de la media aritmética:
A pesar de que la media posee buenas propiedades a las que apelaremos más
adelante, la MEDIA no deja de tener algunos inconvenientes: Uno de ellos es que es
muy sensible a los valores extremos de la variable: ya que todas las observaciones
intervienen en el cálculo de la media, la aparición de una observación extrema, hará
que la media se desplace en esa dirección. En consecuencia, remarcaremos: 1. no es
recomendable usar la media como medida central en las distribuciones muy
asimétricas; 2. la media calculada sobre datos agrupados en intervalos dependerá
siempre de la división en intervalos de clase.
Ejemplo de análisis comparativo de promedios calculados para distintas poblaciones:
Veamos el siguiente texto en el cual se analizan los promedios del número de cursos
de capacitación realizados por trabajadores que han realizado cursos, según edad y
nivel educativo.
8
Extraído de Arim, Rodrigo; Salas, Gonzalo - Situación del empleo en el Uruguay. ENHA 2006. INE, PNUD,
UNFPA. Abril 2007 http://www.ine.gub.uy/enha2006/Modulo_empleo_final2.pdf
9
II. LA MEDIANA
Consideramos una variable X cuyas observaciones en una tabla estadística han sido
ordenadas de menor a mayor. Llamaremos mediana, Mdn al primer valor de la variable que
deja por debajo de sí al 50% de las observaciones y por encima de sí al restante 50%.
Si la distribución es simétrica, por tanto la MEDIA coincidirá con la MEDIANA. Ver
concepto de simetría en página 1.
Igual que en el caso de la media, dado que existen diferentes formas de recibir los
datos, según lo estudiado, la mediana puede ser calculada a través de las siguientes
formas:
a) tablas de datos originales:
Este cálculo difiere si los datos recogidos representan un N par o impar. Si N es el
número de observaciones, la mediana corresponderá a la observación [N+1]/2 en el caso
de N impar, y a una observación intermedia entre las observaciones [N/2] y [N+2]/+1 en el
caso de N par.
Ejemplo:
N=5 número de observaciones impar
1 - 3 - 7 – 15 - 24 (datos ordenados)
Por tanto, la mediana corresponde a la observación que ocupa la posición [5+1]/2 = 3
(tercera posición en la serie ordenada). Es decir, 7.
Si N = 6 número de observaciones par
1 - 3 - 7 – 15 - 24 -35 (datos ordenados)
Por tanto, la mediana corresponde a la observación intermedia entre la observación que
ocupa el lugar [6/2] (tercera posición en la serie ordenada) y la observación [6/2]+1 (cuarta
posición en la serie ordenada). Es decir, intermedia entre los valores 7 y 15 (valores que
ocupan respectivamente las posiciones 3era y 4ta). Este valor surge de promediar los
valores correspondientes a estas dos posiciones: (7+15)/2 = 11.
Por tanto, el valor de la variable que deja por debajo de sí el 50% de las observaciones
menores y por encima de sí el 50% de las observaciones mayores es 11. La mediana es 11.
10
Otra forma de leer este resultado es diciendo que el 50% de las observaciones no superan
el valor 11.
b) Tablas de frecuencias simples:
En el caso de datos agrupados en tablas, la forma más práctica de ubicar la
mediana es guiándose por la columna de frecuencias relativas acumuladas. La
mediana será entonces aquel valor de la variable que acumula antes el 50% de las
observaciones.
En el siguiente ejemplo es:
Accidentes
Laborales
Xi
3
4
5=
Mediana
6
7
8
fi
fr
Fi
Fr
3
6
5
0,15
0,30
0,25
3
9
14
0,15
0,45
4
1
1
20
0,20
0,05
0,05
1
18
19
20
0,70
0,90
0,95
1
Se diría que el 50% de las empresas no superan 5 accidentes en los últimos años. Esto
es así porque si ordenamos las 20 empresas desde las que han tenido menos
accidentes a las que han tenido más accidentes en los últimos años 10 empresas han
tenido 5 o menos y 10 empresas 5 o más. Como cinco es un valor que se repite mucho,
es probable que debamos ser más precisos en el diagnóstico diciendo específicamente
que hay 9 empresas que tuvieron como máximo 4 accidentes y que el resto tuvo 5 o
más. Para ello hay que apelar a otras medidas de posición (no central) que veremos
más adelante en el curso.
c) Tablas de frecuencias agrupadas en intervalos de clase (no lo trataremos en
clase por ser bastante poco común recurrir a esto)
En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula
de la mediana se complica un poco más debido a que supone una interpolación de datos.
Les brindamos a continuación la fórmula para esto pero le sugerimos que para facilitar la
comprensión del tema se maneje con el concepto de «intervalo mediano. De esta manera, a
igual que en las tablas de frecuencias, bastará con identificar cual es el intervalo que
primero deja por debajo de sí el 50 % de las observaciones más pequeñas.
11
Fórmula de interpolación:
Sea (li-,ls+1] el intervalo donde hemos encontrado que por debajo están el 50% de las
observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas
acumuladas, mediante interpolación lineal (teorema de Thales) como sigue:
N
  Fiant
Mdn  Li   2
fi





 * Ai



donde:
Li = límite inferior del intervalo mediano
N= total de observaciones de la población
Fiant= frecuencias acumuladas en la clase anterior del intervalo mediano
fi= frecuencia absoluta simple del intervalo mediano
Ai = amplitud del intervalo mediano
Propiedades
Entre las propiedades de la mediana, vamos a destacar las siguientes:

Como medida descriptiva, tiene la ventaja de no estar afectada por las
observaciones extremas, ya que no depende de los valores que toma la
variable, sino del orden de las mismas. Por ello es adecuado su uso en
distribuciones asimétricas.

Es de cálculo rápido y de interpretación sencilla.

A diferencia de la media, la mediana de una variable discreta es siempre un
valor de la variable que estudiamos (ej. La mediana de una variable número de
hijos toma siempre valores enteros).

Es función de los intervalos escogidos.

Puede ser calculada aunque el intervalo inferior o el superior no tenga límites.

En variables ordinales puede ser calculada pero sólo indica una clase dentro de
la distribución. Por ejemplo, si se analiza el nivel educativo podría suceder que
al menos el 50% tienen estudios de cuando más (por ejemplo) secundaria,
porque se alcanza este porcentaje en esta categoría de la variable.
Ejemplo 1
Sea X una variable que ha presentado los siguientes valores
12
Si cambiamos la última observación por otra anormalmente grande, esto no afecta a la
mediana, pero si a la media:
En este caso la media no es un posible valor de la variable, y se ha visto muy afectada
por la observación extrema. Este no ha sido el caso para la mediana.
Ejemplo 2
Obtener la media aritmética y la mediana en la distribución adjunta. Determinar
gráficamente cuál de los dos promedios es más significativo.
Ls – Li
fi
0 - 10
60
10 - 20
80
20 - 30
30
30 - 100
20
100 - 500
10
Solución:
Ls – Li
fi
ai
Xc
X c fi
Fi
0 - 10
60
10
5
300
60
10 - 20
80
10
15
1.200
140
20 - 30
30
10
25
750
170
30 - 100
20
70
65
1.300
190
100 - 500
10
400 300
3.000
200
n=200
 x fi  6550
i
La primera frecuencia absoluta acumulada que supera el valor N/2=100 es fi=140 (60+80).
Por ello el intervalo mediano es [10;20). Así:
La primera frecuencia absoluta acumulada que supera el valor N/2=100 es fi=140 (60+80).
Por ello el intervalo mediano es [10;20).
Si quisiéramos interpolar para extraer la Mediana, a partir de este intervalo identificaríamos:
13
N
  Fiant
Mdn  Li   2
fi



200

 60

 * A  10  2
*10  15
80 i



donde:
Li = 10, N= 200, Fiant= 60, fi= 80, Ai = 10
La media sin embargo es
6550
 32,75
200
Para ver la representatividad de ambos promedios, realizamos el histograma de la figura
2.3, y observamos que dada la forma de la distribución, la mediana es más representativa
que la media.
Figura: Para esta distribución de frecuencias es más
representativo usar como estadístico de tendencia central la
mediana que la media.
Recuerda: la mediana sólo puede adoptar valores comprendidos dentro del rango
de la variable.
14
Ejemplo de uso de la mediana como indicador demográfico. En este caso, para construir el
cuadro comparativo se parte de distribuciones de frecuencia de la variable edad en distintas
poblaciones: Población total del país; población masculina del país; población femenina del
país; población total de Artigas, población masculina de Artigas, población femenina de
Artigas, etc.
Extraído de Uruguay en Cifras 2006, INE.
http://www.ine.gub.uy/biblioteca/uruguayencifras2007/URUGUAY%20EN%20CIFRAS%2007%20completo.pd
f
15
III. MODA o MODO: Llamaremos moda o modo a cualquier
máximo de la distribución de frecuencias, es decir,
cualquier valor de la variable que posea una frecuencia
mayor que todas sus anteriores y todas sus posteriores.
¿Cómo se reconoce la moda (las modas) en una tabla estadística? Observando
el valor (los valores) de la variable que tiene(n) la mayor frecuencia relativa.
¿Cómo se reconoce la moda (las modas) en el diagrama de barras? Observando
el valor (los valores) de la variable que presenta(n) el rectángulo más alto. La
notación habitual para el modo es: XMo.
En el caso de variables continuas es más correcto hablar de intervalos modales.
De la moda destacamos las siguientes propiedades:

Es muy fácil de calcular.

Puede no ser única (distribución unimodal, bimodal, etc).

Es función de los intervalos elegidos a través de su amplitud, número y límites
de los mismos.
Aunque el primero o el último de los intervalos no posean extremos inferior o superior
respectivamente, la moda puede ser calculada.
Por ejemplo, en los siguientes datos originales, 2, 4, 5, 6, 7, 2, 2, 2 la moda es 2 por ser
el valor más frecuente. Si expresamos estos datos originales en una tabla de
frecuencias simples a 2 le corresponde los valores de frecuencias absoluta y/o relativa
simple más altos.
Xi
2 = Xmo
f1
4
fr
0,50
3
0
0.00
4
1
0.125
5
1
0.125
6
1
0.125
7
1
0.125
8
1
16
PARA SEGUIR LEYENDO
Ruiz Muñoz, David: Manual de Estadística. Eumed·net 2004. Cap. 2. Características
de una distribución de frecuencias.
http://www.eumed.net/cursecon/libreria/drm/cap3.pdf
Complementa los conceptos y fórmulas de calculo presentados en el módulo.
Recomendamos el programa didáctico “DESCRIPTIVA”, de libre acceso, desarrollado
por el Instituto de Estadística de la Universidad Católica de Valparaíso, Chile.
Se puede bajar de internet desde el enlace:
http://www.ucv.cl/web/estadistica/demostrativo.htm
Este programa nos permite “jugar” con datos en distribuciones univariadas y ver su representación
tabular, gráfica y numérica. Pueden ir cambiando los datos, el tamaño de la población y pedir al programa
que muestre distintas formas de representarlos, es decir, caracterizaciones diferentes de los datos.
Una vez bajado e instalado el programa:
•
•
•
Cliqueando sobre el signo de interrogación aparece la información utilizada y el cálculo
de cada estadístico presentado.
Cliqueando sobre la flecha aparece la “Guía de uso” que contiene algunas propuestas
para ver cómo se modifican las gráficas, tablas y estadísticos resumen al cambiar
algunos datos de la población.
Cliqueando sobre el círculo, permite volver al menú central y sustituir el tipo de
presentación seleccionada en ese recuadro. Se pueden ver hasta 3 tipos de
presentación en forma simultánea (hay 3 recuadros)
Incluye las medidas de tendencia central bajo el rótulo “MEDIDAS DE CENTRO”:
PROMEDIO Y MEDIANA (incluye también el PROMEDIO GEOMÉTRICO y la MEDIA RECORTADA que
no hemos estudiado en el curso)
17
EJERCICIOS
1. La siguiente distribución presenta a la población desocupada del interior urbano en 2001, por
grupos de edad.
a.
b.
c.
d.
e.
Completar la tabla con la frecuencia relativa y relativa acumulada de la distribución.
¿Cuál era el grupo de edad modal de esta población?
¿Qué promedio de edad tenía la población desocupada del interior urbano en 2001?
¿Por debajo de qué edad se encontraba el 50% más jóven de los desocupados?
Comente en forma conjunta los resultados obtenidos.
Edad
14-17
18-24
25-34
35-44
45-54
55-64
65 y más (*)
Ni
8.719
28.085
16.956
12.209
8.953
5.057
1.672
81.651
(*) Para cerrar este intervalo utilice como límite superior 74 años.
Al finalizar el próximo módulo se realizan algunos ejercicios de examen que involucran todas las
estadísticas de distribución univariada.
18
Descargar