Medidas de dispersión. - Departamento de Matemáticas

Anuncio
Universidad de Sonora
Departamento de Matemáticas
Área Económico Administrativa
Materia: Estadística I
Maestro: Dr. Francisco Javier Tapia Moreno
Semestre: 2015-2
Hermosillo, Sonora, a 14 de septiembre de 2015.
Introducción
Las medidas de dispersión, también llamadas medidas de
variabilidad, muestran la variabilidad de una distribución
de datos, indicando por medio de un número si las
diferentes puntuaciones de una variable están muy
alejadas de la media.
Cuanto mayor sea ese valor, mayor será la variabilidad, y
cuanto menor sea, más homogénea será a la media. Así
se sabe si todos los casos son parecidos o varían mucho
entre ellos.
En esta ocasión, vamos a cuantificar la separación de los
valores de la distribución respecto a la media. Si todos
los valores están cercanos al valor medio, diremos que la
media es representativa.
Medidas de dispersión.
Miden qué tanto se
alrededor de su media.
dispersan
las
observaciones
Existen diversas medidas estadísticas de dispersión,
pero muchos autores coinciden en que las
principales son: Rango,
Varianza,
Desviación
estándar y Coeficiente de variación.
Cálculo de las medidas de dispersión para
datos a granel o no agrupados.
Ejemplo 1: Una granja ganadera regional, registró durante
febrero y marzo de 2015 el nacimiento de 14 y 11 terneros
respectivamente, cuyos pesos al nacer (en kilogramos) fueron los
siguientes:
Febrero.
Marzo.
22, 31, 32, 44, 35, 36, 37, 38, 44, 49, 40, 50, 41.
31, 30, 43, 43, 36, 45, 26, 46, 46, 50, 27.5.
Ambos conjuntos de datos tienen la misma media, pero esto no
refleja qué tan dispersos están los elementos de cada uno de
estos conjuntos.
Calcular para ambos casos el Rango, el rango intercuartílico, la
Varianza,
la Desviación estándar y el Coeficiente de variación.
Resolución.
Febrero
22
31
32
44
35
36
37
38
44
49
40
Marzo
31
30
43
43
36
45
26
46
46
50
27.5
40
50
41
Para calcular el rango en cada una de los meses, localizamos el
dato mayor y el datos menor de cada mes y los restamos.
Rango mes de febrero = 50 – 22 = 28 kilogramos.
Rango mes de marzo = 50 – 26 = 24 kilogramos.
En este caso se puede observar que el rango difiere en 4
kilogramos de un mes a otro.
Para calcular el rango intercuertílico, primero ordenamos los
datos de cada mes de menor a mayor y calculamos los cuartiles
uno (𝑸𝟏 ) y tres (𝑸𝟑 ) de cada mes.
Febrero
Marzo
22
31
26 27.5
32
35
36
37
38
40
40
41
44
30
31
36
43
43
45
46
46
50
44
La ubicación de los cuartiles se encuentra con 𝑼𝑸𝒌 =
1∗(14+1)
49
50
𝑘∗(𝑁+1)
.
4
Así,
la ubicación de 𝑪de febrero se encuentra en
= 3.75, esto
4
significa que 𝑸𝟏 se encuentra entre el dato 3 y el dato 4 del mes
de febrero, justamente a 0.75 unidades de la distancia que
separa al dato 4 del dato 3. Es decir, 𝑸𝟏 = 32 + (0.75)(35-32) = 32 +
2.25 = 34.25
3∗(14+1)
La ubicación de 𝑸𝟑 de febrero se encuentra en
= 11.25,
4
esto significa que 𝑸𝟑 se encuentra entre el dato 11 y el dato 12
del mes de febrero, justamente a 0.25 unidades de la distancia
que existe entre el dato 12 y el dato 11. Es decir, 𝑸𝟑 = 44 +
(0.25)(44-44) = 44 + 0 = 44.
Así, el rango intercuartílico de los pesos del mes de febrero es
= 44 – 34.25 = 9.75 kilogramos.
Esto significa que el 50% de los pesos intermedios de los terneros
difieren en 9.75 kilogramos.
Similarmente se calculan los cuartiles 1 y 3 del mes de marzo.
Los valores son respectivamente, 30 y 46 y el rango
intercuartílico de los pesos del mes de marzo es
= 46 – 30 = 16 kilogramos.
Esto significa que el 50% de los pesos intermedios de los terneros
del mes de marzo difieren en 16 kilogramos.
La varianza es la media aritmética de los cuadrados de las
desviaciones medias de los valores de la variable. La relación
para calcular la varianza de una muestra de datos no agrupados
es:
(Xi  X )
S 
n 1
i 1
n
2
2
Si se trata de una población la relación es:
( X i  )
 
N
i 1
n
2
2
La varianza es difícil de interpretar porque las unidades de la
medida están elevadas al cuadrado.
Propiedades de la Varianza
1) La varianza es positiva para un variable (Un constante
tienen la varianza cero!)
2) La varianza es la medida cuadrática de dispersión
óptima:
3) La varianza es igual al momento de segundo orden
respecto al origen menos el de primer orden elevado al
cuadrado.
4) Si sumamos a todos los valores de la variable una
constante, la varianza no varía.
5) Si multiplicamos a todos los valores de la variable una
constante, la varianza queda multiplicada por el
cuadrado de la constante.
Para calcular la varianza de los pesos de los terneros del mes
de febrero, primero calculamos la media aritmética del peso
de los terneros y después elaboramos una tabla que nos ayude
a realizar los cálculos.
Ternero
X
𝑿−𝑿
1
22
22 − 38.5 = −16.5
31
31 − 38.5 = −7.5
3
32
32 − 38.5 = −6.5
4
44
44 − 38.5 = 5.5
5
35
35 − 38.5 = −3.5
6
36
36 − 38.5 = −2.5
37
37 − 38.5 = −1.5
8
38
38 − 38.5 = −0.5
9
44
44 − 38.5 = 5.5
10
49
49 − 38.5 = 10.5
40
40 − 38.5 = 1.5
12
40
40 − 38.5 = 1.5
13
50
50 − 38.5 = 11.5
14
41
41 − 38.5 = 2.5
539
0
2
7
11
Totales
𝑿−𝑿
𝟐
272.25
56.25
42.25
30.25
La varianza de los
pesos de los terneros
es
𝑺𝟐 =
𝟕𝟎𝟓.𝟓
𝟏𝟒−𝟏
= 54.26923𝐊𝐠 𝟐
12.25
6.25
2.25
0.25
30.25
110.25
2.25
2.25
132.25
6.25
705.5
De manera similar se
calcula la varianza para
los pesos del mes de
marzo y su valor es:
𝑆 2 = 73.95 𝐊𝐠 𝟐 .
La desviación estándar para una distribución de datos no
agrupados de una muestra se calcula mediante la relación,
n
S  S2 
2
(
X

X
)
 i
i 1
n 1
La desviación estándar para una distribución de datos no
agrupados de una población se calcula mediante la relación,
n
  2 
2
(
X


)
 i
i 1
N
Las propiedades de la desviación estándar son las mismas
que las de la varianza.
Para calcular la desviación estándar de los pesos de los
corderos del mes de febrero, sólo calculamos la raíz cuadrada
de la varianza de los pesos de ese mes. Esto es:
𝑆 = 54.26923077 = 7.36676529 Kilogramos
Similarmente, para calcular la desviación estándar de los pesos
de los corderos del mes de marzo, sólo calculamos la raíz
cuadrada de la varianza de los pesos de ese mes. Esto es:
S = 73.95 = 8.59941858 kilogramos
Coeficiente de variación
El coeficiente de variación denotado por , indica la magnitud
relativa de la desviación estándar comparada con la media de la
distribución de las observaciones. La relación para calcular el
coeficiente de variación de una muestra es:
y para la población es,
𝑉𝑚 =
𝑆
𝑋
* 100%
𝑉𝑝 =
σ
μ
* 100%
Para interpretar el coeficiente de variación, se usa la tabla
siguiente
Coeficiente de Variación
26% o más
Del 16% a menos del 26%
Del 11% a menos del 16%
0% a menos del 11%
Apreciación
Muy Heterogéneo
Heterogéneo
Homogéneo
Muy Homogéneo
El coeficiente de variación para los pesos de los corderos
nacidos en el mes de febrero es:
𝑪𝑽 =
7.36676529
𝟑𝟖.𝟓
*100% = 22.3361522%
Este resultado nos indica que los pesos de los corderos
nacidos el mes de febrero son heterogéneos. Ver la tabla.
El coeficiente de variación para los pesos de los corderos
nacidos en el mes de marzo es:
𝑪𝑽 =
8.59941858
𝟑𝟖.𝟓
*100% = 19.1344553%
Este resultado nos indica que los pesos de los corderos
nacidos el mes de marzo son heterogéneos. Ver la tabla.
Conclusión. Hemos visto las medidas de dispersión más
utilizadas en los textos. Ellas nos muestran la variabilidad
existente entre los datos. Es decir, nos informan sobre cuánto
se alejan del centro los valores de la distribución.
Descargar