Teorema de Chebyshev - Fundación Universitaria Luis Amigó

Anuncio
MEDIDAS DE TENDENCIA CENTRAL Y DE
DISPERSIÓN
Gabriel Jaime Posada Hernández
Docente
Departamento de Ciencias Básicas
VICERRECTORÍA DE INVESTIGACIONES
FUNDACIÓN UNIVERSITARIA LUIS AMIGÓ
Medellín, 2013
MÉTODOS NUMÉRICOS
En los métodos numéricos se examinarán las medidas de tendencia central y de
dispersión (también conocidas estas últimas como medidas de variabilidad y de
localización). Si se calculan estas medidas descriptivas globales a partir de una
muestra, se denominan estadísticos; en cambio, si se calculan para toda la
población se denominan parámetros.
El siguiente análisis está referido a los
estadísticos.
1. MEDIDAS DE TENDENCIA CENTRAL O DE PRECISIÓN
La mayor parte de los conjuntos de datos muestra una tendencia a agruparse o
aglomerarse alrededor de un punto central.
Así, para cualquier conjunto
específico de datos, casi siempre se puede seleccionar algún valor típico, o
promedio, para describir todo el conjunto; este valor típico descriptivo es una
medida de tendencia central, entre las cuales están: la media aritmética, la
mediana, la moda y los cuantiles.
1.1. Media aritmética
La media aritmética, también llamada media, es el promedio o medida de
tendencia central que se utiliza con mayor frecuencia, además de que es la
medida de tendencia central representativa por excelencia.
Se calcula con la
suma de todas las observaciones en un conjunto de datos, dividida entre el
número de elementos que lo componen. Se representa por X .
Cuando se tienen pocos datos y no se han agrupado, la media aritmética sería:
n
X 
x
i 1
i
N
Donde
2
X : media aritmética de la muestra
N : tamaño de la muestra
xi : observación de la variable
n
 x : suma de todos los valores de la muestra
i 1
i
Por ejemplo, las notas de un estudiante son 2, 4, 3 y 4.
La media aritmética es X 
2  4  3  5 14

 3.5
4
4
Cuando los datos se han agrupado con frecuencias, pero no se han construido
intervalos, la media aritmética se calcula como:
n
X 
 x .n
i
i 1
i
N
Donde n i es el número de observaciones de cada valor de la variable; es decir, la
respectiva frecuencia absoluta. Por ejemplo, tomando el número de hijos de la
tabla 2 se tendría:
Tabla 19. Media aritmética para el número de hijos de los asociados de la
Cooperativa de Trabajo Asociado Epsilon
NÚMERO DE HIJOS
FRECUENCIA
xi
ni
0
1
0
1
2
2
2
4
8
3
2
6
4
1
4
n   ni  10
xi .ni
 x .n
i
i
 20
Fuente: Datos hipotéticos
3
n
X 
 x .n
i 1
i
N
i

20
 2 , lo que significa que el promedio es 2 hijos.
10
Cuando los datos se han agrupado con intervalos, la media aritmética se calcula
como:
n
X 
.
 x i .ni
i 1
N
.
Donde xi es la marca de clase de cada intervalo.
Para el ejemplo de la tabla 3, la media aritmética sería:
Tabla 20. Media aritmética para el tiempo que tarda (en minutos) un grupo de
expertos en auditar un proceso
Nº DE
TIEMPO EN
.
.
ni
xi .ni
CLASE
MINUTOS
xi
1
44.5 - 49.5
47
2
94
2
49.5 - 54.5
52
9
468
3
54.5 - 59.5
57
12
684
4
59.5 - 64.5
62
11
682
5
64.5 - 69.5
67
9
603
6
69.5 - 74.5
72
7
504
N   ni  50
.
 x .n
i
i
 3035
Fuente: Datos hipotéticos
4
n
X 
.
 x i .ni
i 1
N

3035
 60.7 Lo que significa que el promedio es 60.7 minutos.
50
1.2. Mediana
La mediana, representada por Me, de un conjunto de valores x1, x2, x3,… xn, es el
valor que ocupa el lugar central ordenando los datos en forma ascendente o
descendente, de tal forma que la mitad de las observaciones son menores o
iguales a la mediana y la otra mitad son mayores o iguales a dicho valor.
Podría interpretarse la mediana como aquel valor que deja el 50% de las
observaciones por debajo de él y el otro 50% por encima de él.
Cuando los datos están sin agrupar, la posición de la mediana se calcula
mediante las siguientes ecuaciones:
Me  X N 1
Si el total de datos (N) es impar
2
XN  XN
Me 
2
2
2
1
Si el total de datos (N) es par
Una vez ubicada la posición, el valor correspondiente a dicha posición en la
mediana.
Por ejemplo, sean los valores 3, 6, 4, 5, 8.
Ordenando se tendría: 3, 4, 5, 6, 8.
El total de datos es N = 5. Por lo tanto, la posición de la mediana será
5
Me  X N 1  X 51  X 3
2
2
El valor correspondiente a la posición x3 en los datos ordenados es 5.
En consecuencia, la mediana Me = 5. Es decir, el 50% de los valores están por
encima de 5 y el otro 50% están por debajo de 5.
Si se tienen los valores 5, 15, 5, 13, 9, 13, 11, 7.
Ordenando se tendría: 5, 5, 7, 9, 11, 13, 13, 15
El total de datos es n = 8. Por lo tanto, la posición de la mediana será
XN  XN
Me 
2
2
1
2
X8  X8

2
2
2
1

X4  X5
2
Los valores correspondientes a las posiciones x4 y x5 en los datos ordenados son
9 y 11, respectivamente. En consecuencia, el valor de la mediana será:
Me 
9  11 20

 10
2
2
Es decir, el 50% de los valores está por encima de 10, y el otro 50% está por
debajo de 10.
Cuando los datos están agrupados en clases o intervalos, la mediana se
calcula mediante los siguientes pasos:
Primer paso: se halla N/2.
Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni
contiene a N/2.
6
Tercer paso: se calcula la mediana por medio de la siguiente ecuación:
N
 N i 1
Me  l i  2
*c
ni
Donde:
li : límite inferior del intervalo que contiene a N/2
N : número total de datos
N i 1 : Frecuencia absoluta acumulada anterior al intervalo que contiene a N/2
n i : frecuencia absoluta del intervalo que contiene a N/2
c : amplitud del intervalo que contiene a N/2
Por ejemplo, para calcular la mediana para el grupo de expertos de la tabla 3, se
realizarán los pasos requeridos a partir de los datos de la tabla 21.
Tabla 21. Mediana para el tiempo que tarda (en minutos) un grupo de
expertos en auditar un proceso
Nº DE
TIEMPO EN
.
ni
fi%
Ni
Fi%
CLASE
MINUTOS
xi
1
44.5 - 49.5
47
2
4%
2
4%
2
49.5 - 54.5
52
9
18%
11
22%
3
54.5 - 59.5
57
12
24%
23
46%
4
59.5 - 64.5
62
11
22%
34
68%
5
64.5 - 69.5
67
9
18%
43
86%
6
69.5 - 74.5
72
7
14%
50
100%
Fuente: Datos hipotéticos
Primer paso: el total de datos es 50, por lo tanto N/2 es = 25.
7
Segundo paso: en la frecuencia absoluta acumulada se ubica el valor de 25, el
cual corresponde al cuarto intervalo, con una frecuencia absoluta acumulada de
34 expertos. Nótese que en el tercer intervalo no es posible ubicar la mediana,
dado que la frecuencia absoluta acumulada hasta este intervalo es de 23 expertos,
y lo querido es de 25 expertos.
Tercer paso: se calcula la mediana por medio de la ecuación, donde:
li = 59.5
N /2 = 25
N i 1 = 23
n i = 11
c = 64.5 – 59.5 = 5
Luego,
N
 N i 1
25  23
2
Me  l i  2
* c  59.5 
* 5  59.5  * 5  59.5  0.9  60.4
ni
11
11
Es decir, el 50% de los expertos tarda menos de 60.4 minutos en realizar la
auditoría del proceso y el otro 50% tarda más de 60.4 minutos.
A pesar de que la media aritmética es la medida de tendencia central por
excelencia, en algunos casos la mediana es preferida a la media aritmética, dado
que no es sensible a valores extremos.
Suponiendo que se tienen los siguientes datos sobre el salario de empleados:
$490.000, $550.000, $550.000, $580.000 y $990.000.
La media aritmética X sería $632.000 y la mediana Me = $550.000.
Obsérvese que, en este caso, es más representativa para el conjunto de datos la
mediana que la media aritmética, dado que el salario extremo de $990.000 influye
8
directamente en el promedio, mostrándolo con un valor elevado, cuando la
mayoría de datos está por debajo de $632.000.
1.3. Moda
La moda es útil en estudios de mercadeo como calzado, vestido, etc. Algunos la
consideran como el promedio industrial ya que la fabricación o venta de artículos
está determinada por la moda.
La moda, representada por Mo, de un conjunto de valores x1, x2, x3,…
xn, es el
valor que se presenta con mayor frecuencia. Puede ser aplicada a cualquier tipo
de variable.
Cuando los datos están sin agrupar, la moda se obtiene directamente
ordenándolos ascendentemente.
Por ejemplo, sean los valores 4, 3, 2, 5, 4, 4.
Ordenándolos: 2, 3, 4, 4, 4, 5.
Como el valor 4 se presenta 3 veces y los otros valores una vez, la moda es 4.
La moda no necesariamente debe ser única, y hasta puede no existir. Cuando
existen varios valores con la misma frecuencia máxima se denomina distribución
multimodal, como el ejemplo de la tabla 22. Si existen dos valores con la misma
frecuencia máxima se llama distribución bimodal (ver tabla 23) y si sólo existe una
frecuencia máxima se denomina distribución unimodal (ver tabla 24).
9
Tabla 22. Ejemplo de distribución multimodal
xi
ni
2
5
3
3
4
5
5
3
6
5
Fuente: Datos hipotéticos
Los valores que tienen mayor frecuencia son 2,4 y 6, por tanto la distribución es
multimodal.
Tabla 23. Ejemplo de distribución bimodal
xi
ni
2
5
3
8
4
3
5
8
6
5
Fuente: Datos hipotéticos
Los valores que tienen mayor frecuencia son 3 y 5, por tanto la distribución es
bimodal.
Tabla 24. Ejemplo de distribución unimodal
xi
ni
2
3
3
7
4
5
5
3
6
2
Fuente: Datos hipotéticos
10
El valor que tiene mayor frecuencia es 3, por tanto, la distribución es unimodal.
Cuando los datos están agrupados en clases o intervalos, se calcula la moda
mediante los siguientes pasos:
Primer paso: se ubica el intervalo (o los intervalos) de mayor frecuencia absoluta
ni .
Segundo paso: se calcula la moda (o las modas) mediante la siguiente fórmula:
Mo  li 
Donde:
1
*c
1   2
li : límite inferior del intervalo de mayor frecuencia absoluta
1 : diferencia entre la frecuencia absoluta mayor y la frecuencia absoluta anterior.
 2 : diferencia entre la frecuencia absoluta mayor y la frecuencia absoluta
siguiente.
c : amplitud del intervalo de mayor frecuencia absoluta.
Por ejemplo, para calcular la moda para el grupo de expertos de la tabla 3, se
realizarán los pasos requeridos a partir de los datos de la tabla 25.
Tabla 25. Moda para el tiempo que tarda (en minutos) un grupo de expertos
en auditar un proceso
Nº DE
TIEMPO EN
.
ni
fi%
Ni
Fi%
CLASE
MINUTOS
xi
1
44.5 - 49.5
47
2
4%
2
4%
2
49.5 - 54.5
52
9
18%
11
22%
3
54.5 - 59.5
57
12
24%
23
46%
4
59.5 - 64.5
62
11
22%
34
68%
5
64.5 - 69.5
67
9
18%
43
86%
6
69.5 - 74.5
72
7
14%
50
100%
Fuente: Datos hipotéticos
11
Primer paso: ubicación del intervalo de mayor frecuencia absoluta n i . El tercer
intervalo es el que posee la frecuencia absoluta mayor (12 expertos).
Segundo paso: obtención de valores para el cálculo de la moda.
li = 54.5
1 = 12 – 9 = 3
 2 = 12 – 11 = 1
c = 59.5 – 54.5 = 5
Mo  li 
1
3
15
* c  54.5 
* 5  54.5 
 58.2
1   2
3 1
4
Es decir, el tiempo que más se presenta en realizar la auditoría del proceso es de
58.2 minutos.
1.4. Cuantiles
Los cuantiles son valores que dividen el conjunto de datos en porcentajes iguales.
Pueden ser cuartiles, deciles o percentiles.
Cuartiles (Q): valores que dividen los datos en cuatro partes iguales. Existen tres
cuartiles y se calculan de forma similar a la mediana; de hecho, el cuartil dos es
igual a la mediana.
El primer cuartil Q1 deja acumulado el 25% de los datos de la variable. Se calcula
con los siguientes pasos:
- Primer paso: se halla N/4.
12
- Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada F i
contiene a N/4.
- Tercer paso: se calcula el primer cuartil por medio de la siguiente ecuación:
N
 N i 1
Q1  l i  4
*c
ni
Nota: los componentes de la fórmula tienen la misma descripción que los
componentes de la fórmula para el cálculo de la mediana.
El cálculo del primer cuartil para el ejemplo del tiempo que tardan los expertos en
realizar la auditoría de un proceso se detalla a continuación:
Tabla 26. Primer cuartil para el tiempo que tarda (en minutos) un grupo de
expertos en auditar un proceso
Nº DE
TIEMPO EN
.
fi
hi
Fi
Hi
CLASE
MINUTOS
xi
1
44.5 - 49.5
47
2
4%
2
4%
2
49.5 - 54.5
52
9
18%
11
22%
3
54.5 - 59.5
57
12
24%
23
46%
4
59.5 - 64.5
62
11
22%
34
68%
5
64.5 - 69.5
67
9
18%
43
86%
6
69.5 - 74.5
72
7
14%
50
100%
Fuente: Datos hipotéticos
Primer paso: el total de datos es 50, por lo tanto N/4 es = 12.5
Segundo paso: en la frecuencia absoluta acumulada se ubica el valor de 12.5, el
cual corresponde al tercer intervalo, con una frecuencia absoluta acumulada de 23
expertos.
13
Tercer paso: se calcula el primer cuartil por medio de la ecuación, donde:
li = 54.5
N /4 = 12.5
N i 1 = 11
n i = 12
c = 59.5 – 54.5 = 5
Luego,
N
 N i 1
12.5  11
1.5
Q1  l i  4
* c  54.5 
* 5  54.5 
* 5  54.5  0.62  55.12
ni
12
12
Lo que significa que el 25% de los expertos tarda menos de 55.12 minutos en
realizar la auditoría del proceso.
El segundo cuartil Q2 deja acumulado el 50% de los datos de la variable. Se
calcula con los siguientes pasos:
- Primer paso: se halla 2N/4 = N/2.
- Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni
contiene a N/2.
- Tercer paso: se calcula el segundo cuartil por medio de la siguiente ecuación:
N
 N i 1
2
Q2  l i 
*c
ni
14
Nótese que los pasos y la fórmula para calcular el segundo cuartil son los mismos
que los de la mediana. En consecuencia, siempre el segundo cuartil será igual
a la mediana.
Luego, para el ejemplo del tiempo que tardan los expertos en realizar la auditoría
de un proceso, Q2 = Me = 60.4 minutos.
El tercer cuartil Q3 deja acumulado el 75% de los datos de la variable. Se calcula
con los siguientes pasos:
- Primer paso: se halla 3N/4.
- Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni
contiene a 3N/4.
- Tercer paso: se calcula el tercer cuartil por medio de la siguiente ecuación:
3N
 N i 1
Q3  l i  4
*c
ni
Luego,
3N
 N i 1
37.5  34
3.5
Q3  l i  4
* c  64.5 
* 5  64.5 
* 5  64.5  0.22  64.72
ni
9
9
Lo que significa que el 75% de los expertos tarda menos de 64.72 minutos en
realizar la auditoría del proceso.
Deciles (D): valores que dividen los datos en diez partes iguales. Existen nueve
deciles y se calculan de forma similar a los cuartiles.
15
El primer decil D1 deja acumulado el 10% de los datos de la variable. Se calcula
con los siguientes pasos:
- Primer paso: se halla N/10.
- Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni
contiene a N/10.
- Tercer paso: se calcula el primer decil por medio de la siguiente ecuación:
N
 N i 1
D1  li  10
*c
ni
Los demás deciles se calculan con el procedimiento similar al primer decil,
teniendo en cuenta que, en el primer paso, para el segundo decil corresponde
2N/10; para el tercer decil, 3N/10; para el cuarto decil, 4N/10; para el quinto decil,
4N/10 = N/2; así sucesivamente hasta el decil nueve, con 9N/10.
Nótese que, al calcular el decil cinco, en el primer paso se presenta el mismo
planteamiento que para el segundo cuartil y para la mediana (N/2). Por tanto, el
decil cinco es igual al cuartil dos y a la mediana.
El cálculo del primer y noveno decil a partir del ejemplo de la tabla 23 para el
tiempo que tardan los expertos en realizar la auditoría de un proceso se detallan a
continuación.
N
 N i 1
0.5  0
0.5
D1  l i  10
* c  44.5 
* 5  44.5 
* 5  44.5  1.25  44.75
ni
2
2
16
9N
 N i 1
45  43
2
10
D9  l i 
* c  69.5 
* 5  69.5  * 5  69.5  1.43  70.93
ni
7
7
Percentiles (P): valores que dividen los datos en cien partes iguales. Existen 99
percentiles y se calculan de forma similar a los cuartiles y deciles.
El primer percentil P1 deja acumulado el 1% de los datos de la variable.
Se
calcula con los siguientes pasos:
- Primer paso: se halla N/100.
- Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni
contiene a N/100.
- Tercer paso: se calcula el primer percentil por medio de la siguiente ecuación:
N
 N i 1
100
P1  l i 
*c
ni
Los demás percentiles se calculan con el procedimiento similar al primer percentil,
teniendo en cuenta que, en el primer paso, para el segundo percentil corresponde
2N/100; para el tercer percentil 3N/100; para el percentil 10, 10N/100; para el
percentil 50, 50N/100 = N/2;
así sucesivamente hasta el percentil 99, con
99N/100.
Nótese que, al calcular el percentil 50, en el primer paso se presenta el mismo
planteamiento que para el segundo cuartil, para el decil cinco y para la mediana
(N/2). Por tanto, el percentil 50 es igual al decil cinco, al cuartil dos y a la
mediana.
17
Gráfica 10. Relación entre cuartiles, deciles y percentiles
Q1
1%
10%
2 0%
D1
D2
Q2
25% 30%
D3
Q3
40%
50%
60%
D4
D5
D6
70% 75% 80%
D7
D8
90%
99%
D9
P1 ..P10 .. P20 P25 P30 ....P40 ..... P50 .. P60 ....P70 P75 P80 ...... P90 . P99
Me
En la gráfica 10 se representa la distribución de cuartiles, deciles y percentiles, de
la cual se deducen las siguientes relaciones:
Q2 = D5 = P50 = Me, Q1 = P25 , Q3 = P75
D1 = P10 , D2 = P20 , D3 = P30 , D4 = P40 , D6 = P60 , D7 = P70 , D8 = P80 ,
D9 = P90
2. MEDIDAS DE VARIABILIDAD
Además de las medidas de localización o de tendencia central, es necesario
considerar medidas de dispersión o variabilidad, dado que dos conjuntos de datos
pueden tener promedios similares, pero diferir en la dispersión de éstos.
Las medidas de variabilidad de mayor uso en estadística son rango, rango
intercuartil, varianza, desviación estándar y coeficiente de variación.
18
2.1. Rango
El rango es la medida de dispersión más sencilla en un conjunto de datos. Se
calcula por medio de la siguiente ecuación:
Rango = valor máximo – valor mínimo
Aunque el rango es la medida de dispersión más fácil de calcular, casi nunca se
usa como la única medida de dispersión, debido a que se basa sólo en los valores
extremos del conjunto de datos.
Por ejemplo, para el tiempo que tardan los expertos en auditar un proceso, el
rango sería:
Rango = 74 – 45 = 29 minutos
El rango debe interpretarse a partir de los valores extremos; es decir, mencionar
entre qué valores está el rango. Para el ejemplo, se dice que la variación del
tiempo de los expertos es de 29 minutos, el cual oscila entre 45 y 74 minutos.
2.2. Rango intercuartil
El rango intercuartil (RIC) es una medida de dispersión que elimina la influencia de
los valores extremos de un conjunto de datos. Se define como la diferencia entre
el tercer cuartil Q3 y el primero Q1.
En otras palabras, el rango intercuartil
corresponde al rango del 50% intermedio de los datos.
Rango intercuartil (RIC) = Q3 - Q1
19
Para los datos del tiempo que tardan los expertos en realizar la auditoría de un
proceso, los cuartiles son Q1 = 55.12 minutos y Q3 = 64.72 minutos. Así el rango
intecuartil es
RIC = 64.72 – 55.12 = 9.6 minutos.
El intervalo 55.12 a 64.72 suele denominarse mitad central y 9.6 minutos la
dispersión media o rango intercuartil del tiempo que tardan los expertos en realizar
la auditoría de un proceso.
2.3. Varianza
La varianza es una medida de dispersión que emplea todos los datos. Se basa en
la diferencia de cada observación (xi) y la media. La diferencia entre cada xi y el
promedio ( x para una muestra y  para una población) se llama desviación
respecto al promedio. Para una muestra, la desviación respecto a la media se
expresa como ( xi  x) ; para una población es ( xi   ) . Para calcular la varianza,
las desviaciones respecto al promedio se elevan al cuadrado.
Si el conjunto de datos es una población, el promedio de las desviaciones al
cuadrado se llama varianza de la población y se representa con el símbolo griego
 2 . Para una población con N observaciones o datos, cuando  representa el
promedio de esa población, la definición de la varianza de la población es:

2
(x  )

2
i
N
En la mayoría de los análisis estadísticos los datos analizados son una muestra.
Cuando se calcula la varianza para la muestra, lo más importante es emplearla
para estimar la varianza de todo el conjunto de datos, es decir, para la población.
20
La varianza de la muestra (s2) es la suma de los cuadrados de las desviaciones
con relación a la media aritmética, dividida entre el tamaño de la muestra menos 1.
s
2
 (x

i
 x) 2
N 1
Donde:
x : media aritmética de la muestra
N : tamaño de la muestra
xi : cada dato u observación de la variable X.
Si el denominador fuera N en lugar de N – 1, se obtendría el promedio de los
cuadrados de las diferencias con respecto a la media. Sin embargo, se utiliza N –
1 debido a ciertas propiedades matemáticas deseadas que tiene el estadístico s2,
las cuales lo hacen apropiado para hacer inferencias estadísticas. Al aumentar el
tamaño de la muestra, la diferencia entre N y
N – 1disminuye cada vez más.
Cuando se calcula la varianza, las unidades en las cuales fueron medidos los
datos causan confusiones.
Como los valores que se suman al calcular la
varianza, que son ( xi  x)2 , se elevan al cuadrado, las unidades asociadas con la
varianza de la muestra también se elevan al cuadrado. Por ejemplo, si se está
calculando la edad en años para un grupo de empleados, la varianza tendrá
(años)2.
Las unidades al cuadrado asociadas con la varianza hacen difícil la interpretación.
Por tanto, se recomienda que se tome la varianza como una medida útil para
comparar el grado de dispersión de dos o más variables y, al compararlas, la que
tienen mayor varianza tiene mayor dispersión o variabilidad.
Por ejemplo, en la tabla 27 se presenta el salario, en millones de pesos, de los
gerentes de una cadena de almacenes; calcular la varianza.
21
Tabla 27. Salario en millones de pesos de gerentes
SALARIO
MEDIA DE LA
(millones)
MUESTRA
xi
x
3,5
DESVIACIÓN
( xi  x)
( xi  x)2
9.57
-6.07
36.84
4,5
9.57
-5.07
25.70
6,0
9.57
-3.57
12.74
8,0
9.57
-1.57
2.46
10,0
9.57
0.43
0.18
15,0
9.57
5.43
29.48
20,0
9.57
10.42
108.78
 ( x  x)  0  ( x  x )
i
i
2
 216.18
Fuente: Datos hipotéticos
Luego, la varianza será:
s2 
 (x
i
 x) 2
N 1

216.18
 36.03
6
Cuando los datos están agrupados en frecuencias o por intervalos, la fórmula para
la varianza puede ser transformada en la siguiente ecuación:
s
2
x

2
i
N
* ni
x
2
Donde:
x : media aritmética de la muestra
N : tamaño de la muestra
xi : cada dato u observación de la variable X o marca de clase si es intervalo
n i : frecuencia absoluta del valor de la variable X
22
Para los datos de tiempo que tardan los expertos en realizar la auditoría de un
proceso, presentados en la tabla 10, la varianza sería:
Tabla 28. Varianza para el tiempo que tardan los expertos en realizar la
auditoría de un proceso
Nº DE
TIEMPO EN
CLASE
MINUTOS
1
xi
ni
xi2
xi2 * ni
44.5 - 49.5
47
2
2209
4418
2
49.5 - 54.5
52
9
2704
24336
3
54.5 - 59.5
57
12
3249
38988
4
59.5 - 64.5
62
11
3844
42284
5
64.5 - 69.5
67
9
4489
40401
6
69.5 - 74.5
72
7
5184
36288
N  50
x
2
i
*ni  186.715
Fuente: Datos hipotéticos
De la tabla 17 se tienen que el promedio es x  60.7 ; luego
s
2
x

2
i
N
* ni
2
x 
186.715
 (60.7) 2  3734.3  3684.49  49.81
50
2.4. Desviación estándar
La desviación estándar se define como la raíz cuadrada positiva de la varianza.
Se denota por s la desviación estándar de la muestra y por  la desviación
estándar de la población.
s  s2
  2
La desviación estándar indica cómo se agrupa o distribuye un conjunto de datos
alrededor de la media. Para la mayor parte de los conjuntos de datos, la mayoría
23
de los valores observados cae dentro de un intervalo que corresponde a la media
aritmética más o menos una desviación estándar. Esto implica que el intervalo
comprendido entre X  1S y X  1S , por lo general, incluye la mayoría de los
valores de los datos. Por consiguiente, el conocimiento de la media aritmética y la
desviación estándar ayudan a definir en dónde se agrupa la mayor parte de los
datos.
Para los datos de tiempo que tardan los expertos en realizar la auditoría de un
proceso, presentados en la tabla 26, la desviación estándar sería:
s  s2  49.81  7.06 minutos
La desviación estándar del tiempo de los expertos es 7.06 minutos. Esto indica
que los tiempos que tardan en realizar la auditoría del proceso para la mayor parte
de los expertos se agrupan dentro de 7.06 minutos alrededor de la media 60.7
minutos; es decir, se agrupan entre X  1S  53.64 y X  1S  67.76 minutos.
Finalmente, para comprender la variación de los datos se deben tener en cuenta
los siguientes aspectos:
 Cuanto más dispersos estén los datos, mayores serán el rango, el rango
intercuartil, la varianza y la desviación estándar.
 Cuanto más concentrados u homogéneos sean los datos, menores serán el
rango, el rango intercuartil, la varianza y la desviación estándar.
 Si los datos son todos iguales (de manera que no hay variación de los datos),
el rango, el rango intercuartil, la varianza y la desviación estándar serán iguales
a cero.
 Las medidas de variación (rango, rango intercuartil, varianza y desviación
estándar) nunca son negativas.
24
2.5. Coeficiente de variación
El coeficiente de variación, denotado por CV, es una medida descriptiva que indica
lo grande que es la desviación estándar en comparación con la media aritmética;
se expresa en porcentaje y se calcula por medio de la siguiente ecuación:
CV 
S
*100
X
Para los datos del tiempo que tardan los expertos en realizar la auditoría de un
proceso, el promedio es 60.7 minutos y la desviación estándar es 7.06 minutos. El
coeficiente de variación sería:
CV 
S
7.06
*100 
*100  11.6%
60.7
X
Interpretando estos datos, el coeficiente de variación indica que la desviación
estándar de la muestra es el 11.6% del valor de la media de la muestra.
Como medida relativa, el coeficiente de variación resulta especialmente útil
cuando se compara la variabilidad de dos o más conjuntos de datos, que se
expresan en diferentes unidades de medida. Esto se muestra en el siguiente
ejemplo, adaptado del texto Estadística para administración, de Mark L. Berenson
y otros, página 120.
Suponga que un inversionista desea adquirir acciones en una de dos compañía A
o B, listadas en la Bolsa de Valores.
Si ninguna de las compañías ofrece
dividendos a sus clientes y ambas tienen igual clasificación (según los servicios de
inversión) en términos del crecimiento potencial, el inversionista quizá considere la
volatilidad o variabilidad de ambas acciones para ayudar en la decisión de
inversión.
25
Supóngase que cada acción de la compañía A ha promediado $150.000 en los
últimos meses, con desviación estándar de $30.000. Además, durante el mismo
período el precio promedio de las acciones en la compañía B fue de $36.000 con
una desviación estándar de $12.000. ¿Cómo puede determinar el inversionista
cuáles acciones son más variables?
Solución
En términos de las desviaciones estándar, el precio de las acciones de A parece
más volátil o variable que el de las acciones de B. Sin embargo, como los precios
promedio por acciones de las dos compañías son tan diferentes, es más
conveniente que el inversionista considere la variabilidad del precio respecto al
promedio con el fin de analizar la estabilidad de ambas acciones.
Los coeficientes de variación para las compañías A y B serían:
CVA 
S
$30.000
S
$12.000
*100 
*100  20.0% y CVB  *100 
*100  33.3%
$150.000
$36.000
X
X
En consecuencia, en relación con la media, el precio de las acciones B es más
variable que el de las acciones A.
3. MEDIDAS DE LOCALIZACIÓN
Hasta el momento se han descrito algunas medidas de tendencia central y de
dispersión. La media es la que más se usa como medida de tendencia central,
mientras que la desviación estándar y la varianza son las más empleadas para la
dispersión.
Las medidas de localización relativa se apoyan en la media y la
desviación estándar para ubicar valores particulares de un conjunto de datos.
26
3.1. Valores z
Al usar la media y la desviación estándar se puede determinar la localización
relativa de cualquier observación. Supóngase que hay una muestra de n datos,
con sus valores representados por x1 , x2 , x1 x3 ,. . . .,xn . Además, se han
calculado la media x y la desviación estándar s de la muestra. Existe otro valor
asociado con cada valor xi de los datos que se denomina valor z, el cual se calcula
con la siguiente ecuación:
zi 
xi  x
s
Donde,
z i : valor de z del elemento xi
x : media de la muestra
s : desviación estándar de la muestra.
Con frecuencia se le da el nombre de valor estandarizado al valor de z. El valor z i
se interpreta como el número de desviaciones estándar que dista xi de promedio x
Por ejemplo, si zi  1.2 indica que x1 es 1.2 desviaciones estándar por encima de
la media de la muestra.
Igualmente, z2  0.5 indica que x2 está a 0.5, o ½
desviación estándar por debajo de la media de la muestra. Obsérvese que los
valores de z positivos corresponden a observaciones o datos con valores mayores
que la media, y que los valores de z negativos corresponden a observaciones con
valores menores que la media. Un valor z igual a cero indica que el valor de una
observación es igual a la media.
Los valores de z para el ejemplo de la tabla 25, donde se presenta el salario, en
millones de pesos, de los gerentes de una cadena de almacenes, con media $9.57
millones y desviación estándar $6 millones, serán:
27
Tabla 29. Valores z para el salario en millones de pesos de gerentes
SALARIO
(millones)
DESVIACIÓN
VALOR Z
( xi  x)
xi  x
s
3,5
-6.07
-1.01
4,5
-5.07
-0.84
6,0
-3.57
-0.60
8,0
-1.57
-0.26
10,0
0.43
0.07
15,0
5.43
0.90
20,0
10.42
1.74
xi
Fuente: Datos hipotéticos
Obsérvese que el valor z de 1.74 para el séptimo dato indica que es el más
alejado del promedio; está a 1.74 desviaciones estándar por encima del promedio.
3.2. Teorema de Chebyshev
El teorema de Chebyshev permite inferir la proporción de valores que deben
quedar dentro de una cantidad específica de desviaciones estándar respecto a la
media.
Teorema de Chebyshev
1

Cuando menos 1  2  de los datos debe estar a menos de z desviaciones
 z 
estándar de separación respecto a la media, siendo z cualquier valor mayor
que 1.
Por ejemplo, cuando z es igual a 2, 3 y 4 desviaciones estándar, se tienen las
siguientes implicaciones a partir del teorema de Chebyshev:
28

Cuando menos, el 0.75 o 75% de los datos debe estar a menos de 2
desviaciones de la media (z = 2).

Cuando menos, el 0.89 u 89% de los datos debe estar a menos de 3
desviaciones de la media (z = 3).

Cuando menos, el 0.94 o 94% de los datos debe estar a menos de 4
desviaciones de la media (z = 4).
Como ejemplo de la aplicación del teorema de Chebyshev, supóngase que las
puntuaciones de un examen de ingreso de 100 aspirantes al programa de
Administración de una universidad tuvieron un promedio de 70 puntos y una
desviación estándar de 5 puntos.
¿Cuántos aspirantes tuvieron puntuaciones
entre 60 y 80? ¿Cuántos entre 58 y 82?
Para las puntuaciones de 60 a 80 se observa que el valor 60 está a dos
desviaciones estándar por debajo del promedio: (60-70)/5 = -2, y que el valor 80, a
dos desviaciones estándar por encima del promedio: (80-70)/5 = +2. Al aplicar el
teorema de Chebyshev, cuando menos el 0.75 o 75% de los datos debe tener
valores menores de dos desviaciones estándar del promedio. Así, cuando menos
o mínimo 75 de los 100 aspirantes deben haber obtenido puntuaciones entre 60 y
80.
Para las puntuaciones entre 58 y 82, (58-70)/5 = -2.4 indica que 58 están a 2.4
desviaciones estándar por debajo del promedio, y que (82-70)/5 = +2.4 indica que
82 están a 2.4 desviaciones estándar por encima del promedio.
Aplicando el
teorema de Chebyshev con z = 2.4 se obtiene:
1 
1 

1  2   1 
  0.826
z   2.4 2 

Lo que significa que, mínimo 82.6% de los aspirantes deben tener puntuaciones
entre 58 y 82.
29
La regla empírica
Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier
conjunto de datos, independientemente de la forma de la distribución de los
mismos.
Sin embargo, en las aplicaciones prácticas se ha encontrado que
muchos conjuntos de datos tienen una distribución en forma de colina o de
campana.
Cuando se cree que los datos tienen aproximadamente esa
distribución, se puede aplicar la regla empírica para determinar el porcentaje de
elementos que debe estar dentro de determinada cantidad de desviaciones
estándar respecto al promedio.
Regla empírica para datos con distribución en forma de
campana

Aproximadamente 68% de los elementos están a menos de una desviación
estándar de la media.

Aproximadamente 95% de los elementos están a menos de dos
desviaciones estándar de la media.

Casi todos los elementos están a menos de tres desviaciones estándar de
la media.
Por ejemplo, en una línea de producción se llenan, automáticamente, envases de
plástico con detergente líquido. Con frecuencia, el volumen de llenado tiene una
distribución en forma de campana. Si el volumen promedio de llenado es de 16
cm3 y la desviación estándar 0.25 cm3, se puede aplicar la regla empírica para
concluir:

Aproximadamente 68% de los envases llenos tienen entre 15.75 y 16.25 cm 3
(esto es, menos de una desviación estándar de la media).

Aproximadamente 95% de los envases llenos tienen entre 15.50 y 16.50 cm 3
(esto es, menos de dos desviaciones estándar de la media).
30

Casi todos los envases llenos tienen entre 15.25 y 16.75 cm 3 (esto es, menos
de tres desviaciones estándar de la media).
3.3. Sesgo o forma
El sesgo o forma es la manera como se distribuyen los datos. La distribución de
los datos es simétrica (en forma de campana) o no lo es. Si no es simétrica,
recibe el nombre de distribución asimétrica o sesgada.
Para describir el sesgo o la forma, se deben comparar la media y la mediana. Si
ambas medidas son iguales, por lo general se considera que los datos son
simétricos (o con sesgo cero).
Por el contrario, si la media es mayor que la
mediana, los datos se describen como sesgados a la derecha, o con sesgo
positivo.
Si la media es menor que la mediana, los datos suelen llamarse
sesgados a la izquierda, o con sesgo negativo. Es decir,
Media > Mediana: sesgo positivo o a la derecha
Media = Mediana: simetría o sesgo cero
Media < Mediana: sesgo negativo o a la izquierda
El sesgo positivo surge cuando la media aumenta debido a algunos valores
grandes y poco usuales; el sesgo negativo ocurre cuando la media se reduce
debido a algunos valores muy pequeños. Los datos son simétricos cuando en
realidad no hay valores extremos en ninguna dirección, de tal manera que los
valores grandes y pequeños se equilibran.
31
Gráfica 11. Forma o sesgo de un conjunto de datos
La grafica 11 muestra la forma o sesgo de tres conjuntos de datos. Los datos del
primer cuadro son simétricos; cada mitad de la curva es la imagen del espejo de la
otra mitad. Los valores grandes y pequeños se compensan, y la media es igual a
la mediana.
Los datos del cuadro del centro tienen sesgo negativo o a la izquierda.
Se
observan una cola larga y una distorsión hacia la izquierda, causadas por valores
en extremo pequeños. Estos valores tan pequeños jalan la media hacia abajo y
resulta menor que la mediana.
positivo o a la derecha.
Los datos del tercer cuadro tienen un sesgo
Se observan una cola larga hacia la derecha de la
distribución y una distorsión hacia la derecha, causadas por valores muy grandes.
Estos valores en extremo grandes jalan la media hacia arriba y resulta mayor que
la mediana.
El sesgo para el ejemplo de la tabla 25, donde se presenta el salario, en millones
de pesos, de los gerentes de una cadena de almacenes, con media $9.57 millones
y mediana $8 millones, será positivo o a la derecha, dado que la media es mayor
que la mediana. Además, el conjunto de datos presenta un valor extremo muy
alto, el cual atrae la media hacia el extremo derecho de la distribución.
3.4. Diagrama de caja o bigotes
32
El diagrama de caja o bigotes es un resumen gráfico de los datos basado en el
resumen de cinco números.
En un resumen de cinco números se emplean cinco cantidades para resumir los
datos:
Valor mínimo
Primer cuartil (Q1)
Mediana (Me = Q2)
Tercer cuartil (Q3)
Valor máximo
La forma más ágil de elaborar un resumen de 5 números es poner los datos en
orden ascendente. Así facilita la identificación del valor mínimo, los tres cuartiles y
el valor máximo.
Por ejemplo, los salarios mensuales, en miles de pesos, de 12 egresados de un
programa de Administración son 2.940, 2.920, 2.950, 2.710, 2.850, 2.755, 2.890,
2.880, 2.880, 3.130, 3.325 y 3.050.
Organizando los datos y calculando los cuartiles, se tiene la siguiente distribución:
2710
2755
2850
2880
Q1 = 2865
2880
2890
2920
Q2 = 2905
2940
2950
3050
3130
3325
Q3 = 3000
(Mediana)
Al analizar los datos anteriores se ve un valor mínimo de 2.710 y un valor máximo
de 3.325 miles de pesos. Así, el resumen de los cinco números de los datos de
salarios es 2.710, 2.865, 2.905, 3.000 y 3.325 miles de pesos. Aproximadamente
una cuarta parte, 25% de los valores de los datos, están entre dos números
adyacentes del resumen de cinco números.
33
El diagrama de caja y bigotes resume gráficamente los cinco números. Los
pasos para trazar un diagrama de caja y bigotes son los siguientes:

Se traza un rectángulo con los extremos en el primer y tercer cuartiles.
Este rectángulo contiene el 50% intermedio de los datos. Para los datos de
salarios Q1 = 2.865 y Q3 = 3.000.

En la caja se traza una recta vertical en el lugar de la mediana (2.950 para
los datos de salarios). Así, la línea de la mediana divide los datos en dos
partes iguales.

Se ubican los límites mediante el rango intercuartil, RIC = Q 3 - Q1. Los
límites en el diagrama de caja están a 1.5(RIC) por debajo de Q 1 y 1.5(RIC)
por encima de Q3 . Para los datos de salarios RIC = Q3 - Q1 = 3.000 –
2.865 = 135. Así, los límites son 2.865 – 1.5(135) = 2.662,5 y 3.000 +
1.5(135) = 3.202,5. Se considera que los datos fuera de estos límites son
valores atípicos.

Los bigotes de la caja se trazan con líneas punteadas, desde los extremos
de la caja hasta los valores mínimo y máximo dentro de los límites. Así, los
bigotes terminan en los valores de salarios de 2.710 y 3.130.

Por último, se marcan con un asterisco (*) las localizaciones de los valores
atípicos. Para el ejemplo se localiza un valor atípico de 3.325.
Gráfica 12. Diagrama de caja y bigotes con líneas que muestran los límites
34
En la gráfica 12 se trazaron las líneas que indican el lugar de los límites con el fin
de mostrar cómo se calculan éstos y dónde se ubican en el caso de los salarios.
Aunque siempre se calculan, por lo general no se trazan en los diagramas de caja.
En la gráfica 13 se muestra el aspecto habitual de un diagrama de caja y bigotes
para los datos de los salarios.
Grafica 13. Diagrama de caja y bigotes de los sueldos mensuales de un
grupo de egresados de un programa de Administración
Observación
35
Al utilizar el diagrama de caja y bigotes se tiene la opción de identificar los mismos
valores atípicos que los encontrados con el método de valores z: menores que –3
y mayores que +3. Sin embargo, el objetivo de ambos métodos es identificar
elementos que se deben revisar para asegurar la validez de los datos. Se deben
revisar los valores atípicos identificados por cualquiera de los métodos.
3.5. Curtosis
La curtosis mide si los valores de la distribución están más o menos concentrados
alrededor de los valores medios de la muestra. El coeficiente percentil de Curtosis
(k) analiza el grado de concentración que presentan los valores alrededor de la
zona central de la distribución; se calcula con la siguiente ecuación:
k
1
2
(Q3  Q1 )
P90  P10
Donde,
Q3: tercer cuartil.
Q1: primer cuartil.
P90: percentil 90.
P10: percentil 10.
Nota: es importante recordar que el P10 es igual al D1 y el P90 es igual al D9.
Según el coeficiente de Curtosis, se definen 3 tipos de distribuciones, los cuales
se ilustran en la gráfica 14:
Gráfica 14. Tipos de distribución según el coeficiente de Curtosis
36
Distribución mesocúrtica: presenta un grado de concentración medio alrededor
de los valores centrales de la variable (el mismo que presenta una distribución
simétrica o normal). El valor de k = 0.263.
Distribución leptocúrtica: presenta un elevado grado de concentración alrededor
de los valores centrales de la variable. El valor de k > 0.263.
Distribución platicúrtica: presenta un reducido grado de concentración alrededor
de los valores centrales de la variable. El valor de k < 0.263.
Para el ejemplo de la tabla 23 del tiempo que tarda un grupo de expertos en
realizar la auditoría de un proceso, Q1 = 55.12, Q3 = 64.72, P10 = D1 = 44.7 y
P90 = D9 = 70.9.
El coeficiente percentil de Curtosis (k) será:
k
1
2
(Q3  Q1 ) 12 (64.72  55.12) 0.5(9.6) 4.8



 0.183
P90  P10
70.9  44.7
26.2
26.2
Por lo tanto, el coeficiente percentil de Curtosis es 0.183, lo que quiere decir que
se trata de una distribución platicúrtica, es decir, con una reducida concentración
alrededor de los valores centrales de la distribución.
37
BIBLIOGRAFÍA
BIBLIOGRAFÍA FUNDAMENTAL
ANDERSON, David; SWEENEY, Dennis y WILLIAMS, Thomas. Estadística para
administración y economía. 8ª edición. Thomson, México, 2003. 884 p.
BERENSON, Mark; LEVINE, David y KREHBIEL, Timothy. Estadística para
administración. 2ª edición. Pearson educación, México, 2001. 784 p.
MENDENHALL, William.
Estadística
México: Iberoamerica, 1995. 817 p.
para
administradores.
2.
ed.
BIBLIOGRAFÍA RECOMENDADA
CHAO, Lincoln y CASTAÑO, José María.
Estadística para las ciencias
administrativas, Lincoln. 3. ed. Bogotá: McGraw-Hill, 1993. 464 p
LIND, Douglas A; MASON, Robert D. y MARCHAL, William G. Estadística para
administración y economía. España: McGraw-Hill, 2000. 575 p.
SPIEGEL, Murray. Estadística. 2. edición. McGRAW-HILL, España, 1993.665p.
WALPOLE, Ronald E. y MYERS, Raymond H. Probabilidad y estadística, 4. ed
México: McGraw-Hill, 1992. 757 p.
38
Descargar