MEDIDAS DE TENDENCIA CENTRAL Y DISPERSION

Anuncio
Medidas de Tendencia Central y Dispersión
MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN
Medidas de Tendencia Central
Son medidas de un conjunto de datos que proporcionan un valor simple y
representativo, que resume un gran volumen de información. Este valor tiende a
ubicarse en el centro del conjunto (exceptuando en la escala nominal). Las
medidas del centro más conocidas son: La media aritmética, la media geométrica,
la media armónica, la moda, la mediana y el semirango.
Mediadas de Dispersión
Son medidas de la variabilidad de un conjunto de datos y nos miden la
dispersión del conjunto con respecto a alguna medida del centro.
Las medidas de dispersión más conocidas son: La varianza, la desviación
estándar, el rango, el rango cuartílico y el rango percentil.
Escala Nominal
Sea n tamaño de la muestra y supongamos que la muestra está particionada
en k clases. La única medida de tendencia central posible de utilizar en este nivel
es la moda o más estrictamente la clase modal.
DEF: C M , se dice clase modal si f M ≥ f i ∀i = 1,2,...,k
OBS:
1) Es posible encontrar variables bimodales, trimodales, etc.
2) La clase modal, es la clase mayoritaria dentro de la muestra.
3) La clase modal no es igualmente significativa en todos los casos (es distinto si
f M = 0.50 que si f M = 0.20 )
Para medir la importancia de la clase modal como medida central usaremos el
concepto de tasa de variación. Se denota por V
V =1 − fM =1 −
nM n − nM
=
n
n
Es decir, la tasa de variación nos entrega la proporción de la muestra que no
está contenida en la clase modal.
Es claro que si la moda es altamente significativa (V → 0 ) .
En cambio si la moda es poco significativa (V → 1) .
Profesor: Patricio Videla Jiménez.
Medidas de Tendencia Central y Dispersión
Escala Ordinal
En este nivel tiene sentido los conceptos de frecuencia acumulada, lo que da
origen a nuevas medidas del centro y dispersión basados en los llamados
cuantiles o clases cuantiles, de entre los que se destacan:
Cuartil:
Llamaremos cuartil de orden i -ésimo (i = 1,2,3,4) al menor valor
de la variable cuya frecuencia relativa acumulada sea mayor o
igual a (i 4) .
Debemos recordar que para hablar de valor de la variable se requiere estar al
menos en la escala intervalar. Luego en el caso de escala ordinal solo podemos
definir: Clase cuartil de orden i -ésimo.
Clase Cuartil:
Llamaremos clase cuartil de orden i -ésimo (i = 1,2,3,4) a la
primera clase (ya ordenada) cuya frecuencia relativa
acumulada es igual o superior a i 4 .
Otros cuantiles son los deciles y percentiles que se definen en forma equivalente a
los cuartiles solo que i 4 es sustituido por i 10 (i = 1,...,10 ) para deciles y i 100
(i = 1,2,...,100 ) para percentiles.
La medida del centro característica en la escala ordinal es la mediana.
Clase Mediana:
Corresponde a la clase cuartil de orden 2 o clase percentil de
orden 50.
Observaciones:
1) La clase mediana es aquella que divide la muestra aproximadamente en dos
mitades.
2) Una posible medida de dispersión de la muestra con respecto a la clase
mediana, en el nivel ordinal, es
D : índice de Dispersión.
D=
rango clase 3er. cuartil - rango de clase 1er. cuartil
k −1
k : N° total de clases.
Rango de una clase es su número de orden.
3) 0 ≤ D ≤ 1
D → 0 (Muestra concentrada)
D → 1 (Muestra aplanada)
Profesor: Patricio Videla Jiménez.
Medidas de Tendencia Central y Dispersión
Escala Intervalar
Notación: Denotaremos por X i a cualquiera de los n valores, X 1 , X 2 ,..., X n , que
toma una variable X .
Medidas de tendencia central: En este nivel la medida central más utilizable es la
media aritmética o promedio
Media:
Se denota por X . El promedio de un conjunto de observaciones, es le
centro de gravedad de ese conjunto de valores.
a) Datos no agrupados:
Se calcula como: X =
1 n
∑ Xi
n i =1
b) Datos agrupados:
Se calcula como: X =
Donde n i :
fi :
Mi :
k:
n:
k
1 k
n
⋅
M
=
fi ⋅ Mi
∑ i i ∑
n i =1
i =1
frecuencia absoluta de la clase i -ésima.
frecuencia relativa de la clase i -ésima.
marca de la clase i -ésima.
número de clases o intervalos.
tamaño de la muestra.
Mediana: Se denota por M e . La mediana de un conjunto de valores, es el valor
que divide a las observaciones en 50% menores y 50% mayores que
ese valor.
a) Datos no agrupados:
a1) Si n es par M e =
X (n 2 ) + X (n 2+1)
2
a2) Si n es impar M e = X  n +1 


 2 
Profesor: Patricio Videla Jiménez.
Medidas de Tendencia Central y Dispersión
b) Datos agrupados:
n

 − N e −1 
2
 ⋅ a , donde:
Me = L + 
e
ne
L:
N e −1 :
ae :
ne :
n:
Moda:
Límite inferior de la clase mediana.
Frecuencia absoluta acumulada hasta antes de la clase
mediana.
Amplitud de la clase mediana.
Frecuencia absoluta de la clase mediana.
Tamaño de la muestra.
Se denota por M o . La moda es el valor del grupo de observaciones que
se repite en más oportunidades (tiene mayor frecuencia), dentro del
conjunto de datos. Si el conjunto de datos tiene una sola moda se
denomina monomodal, de la misma manera puede ser bimodal o
multimodal, según se aprecien dos o más valores modales
respectivamente.
a) Para datos no agrupados:
Se revisan los datos y se selecciona aquel que se repite más veces. En
caso de no existir un valor que se repite, entonces se dice que el grupo
de observaciones no tiene moda.
b) Para datos agrupados: Moda Interpolada.
 ∆1 
 ⋅ a M , donde:
M o = L + 
 ∆1 + ∆ 2 
L:
aM :
∆1 :
∆2 :
nM :
n1 :
n2 :
Límite inferior de la clase modal.
Amplitud de la clase modal.
n M − n1
nM − n2
Frecuencia absoluta de la clase modal.
Frecuencia absoluta de la clase anterior a la modal.
Frecuencia absoluta de la clase posterior a la modal.
Profesor: Patricio Videla Jiménez.
Medidas de Tendencia Central y Dispersión
Medidas de dispersión:
Varianza Muestral:
La medida de dispersión más usada con respecto a
la media X es la varianza muestral.
Se denota por S 2 . La varianza es la mediada de
dispersión más importante, principalmente porque
cumple muchas propiedades que la hacen ser preferida
entre otras medidas de dispersión
a) Para datos no agrupados:
S2 =
1 n
(X i − X )2
∑
n − 1 i =1
b) Para datos agrupados:
S2 =
2
1 k
n i (M i − X )
∑
n − 1 i =1
Donde n i :
Mi :
k:
n:
frecuencia absoluta de la clase i -ésima.
marca de la clase i -ésima.
número de clases o intervalos.
tamaño de la muestra.
OBS: La raíz cuadrada de la varianza, S , se conoce como Desviación
Estándar o Desviación Típica.
En este nivel de información también es posible calcular otras medidas de
dispersión tales como: Desviación media, Rango cuartílico, Rango percentil, etc.
Desviación Media:
a)
Se denota por MD .
Para datos no agrupados:
MD =
1 n
∑ Xi − X
n i =1
b) Para datos agrupados:
MD =
k
1 k
n
M
−
X
=
fi Mi − X
∑ i i
∑
n i =1
i =1
Donde n i :
fi :
Mi :
k:
n:
frecuencia absoluta de la clase i -ésima.
frecuencia relativa de la clase i -ésima.
marca de la clase i -ésima.
número de clases o intervalos.
tamaño de la muestra.
Profesor: Patricio Videla Jiménez.
Medidas de Tendencia Central y Dispersión
Rango Intercuartil:
Se denota por RIQ .
RIQ = (Q 3 − Q1 )
a) Para datos no agrupados:
Q i = X  i (n +1)  , i = 1,2,3,4.


4


b) Para datos agrupados:
n ⋅ i

− N Qi −1 

4
 ⋅ a , i = 1,2,3,4.
Qi = L + 
Qi
n Qi
L:
Límite inferior de la clase cuartil i -ésimo.
N Qi −1 : Frecuencia absoluta acumulada hasta antes de la clase cuartil
a Qi :
i -ésimo.
Amplitud de la clase cuartil i -ésimo.
n Qi :
Frecuencia absoluta de la clase cuartil i -ésimo .
n:
Tamaño de la muestra.
Rango Percentil: Se denota por RP .
RP = P90 − P10
a) Para datos no agrupados:
Pi = X  i (n +1)  , i = 1,2,...,100


 100 
b) Para datos agrupados:
n ⋅i

− N Pi −1 

100
 ⋅ a , i = 1,2,...,100
Pi = L + 
Pi
n Pi
L:
Límite inferior de la clase percentil i -ésimo.
N Pi −1 : Frecuencia absoluta acumulada hasta antes de la clase
a pi :
percentil i -ésimo.
Amplitud de la clase percentil i -ésimo.
n pi :
Frecuencia absoluta de la clase percentil i -ésimo .
n:
Tamaño de la muestra.
Profesor: Patricio Videla Jiménez.
Medidas de Tendencia Central y Dispersión
Coeficiente de Variación:
Finalmente se puede definir el coeficiente de variación muestral, que nos da
un índice de la proporción que representa la desviación estándar con respecto
a la media. Se denota por CV .
CV =
S
X
Este coeficiente es muy útil, cuando se trata de compara poblaciones cuyas
variables en estudio tiene diferentes unidades.
Profesor: Patricio Videla Jiménez.
Descargar