Document

Anuncio
TEMA 3: DESCRIPCIÓN NUMÉRICA DE UNA VARIABLE
ESTADÍSTICA: MEDIDAS DE LOCALIZACIÓN, DISPERSIÓN Y FORMA.
MEDIDAS DE CONCENTRACIÓN.
Medidas de localización. Medidas de dispersión. Coeficiente de variación. Momentos de una distribución
de frecuencias. Estudio de asimetría y apuntamiento. Diagrama de caja.
OBJETIVOS:
✔ Calcular estadísticos para resumir el centro, la dispersión y la forma de una
distribución. Estudiar las propiedades de estos estadísticos.
✔ Explorar la propiedad de robustez o resistencia en relación a estos estadísticos
✔ Entender las limitaciones de las distintas medidas estudiadas y en qué situaciones
estas medidas son apropiadas.
✔ Aprender a construir e interpretar los diagramas de cajas como gráfico que
muestra visualmente información sobre la distribución.
1
Descripción numérica de una variable estadística (numérica)
Objetivo:
Resumir distintos aspectos de las distribuciones de frecuencias
Interés de los resúmenes numéricos:
Unos pocos números resumen toda la distribución.
Complemento natural de la descripción gráfica.
Facilitan la comparación de muestras con modelos de referencia y la
comparación entre muestras.
Medidas de localización: media, mediana, moda, media geométrica, media armónica,
media cuadrática, medias recortadas, medias winsorizadas, cuartiles, cuantiles.
Medidas de dispersión: Rango, recorrido intercuartílico, varianza, desviación típica,
desviación media, MEDA, coeficiente de variación, …
Medidas de forma: coeficiente de asimetría, coeficiente de apuntamiento.
2
¿Qué es un estadístico?
Cualquier función con los datos de la muestra destinada a cuantificar
algún aspecto de la distribución de frecuencias.
Cuando la muestra es representativa, los estadísticos muestrales son
aproximaciones naturales de los parámetros poblacionales
correspondientes definidos de manera análoga.
EJEMPLOS
n
1
m′ = n ∑ xik .
k
i= 1
Muestra: x1, x2,..., xn
n
1
m = n ∑ ( xi − x) k .
k
i= 1
Muestra ordenada: x(1), x(2),..., x(n)
x(1): Mínimo
x(1) ≤ x(2) ≤ ...≤ x(n)
x(n): Máximo
x(r): Estadístico de orden r, r = 1, ..., n.
3
Familias de estadísticos más importantes
-MOMENTOS MUESTRALES:
Momentos respecto al origen:
Momento de orden k, k=1, 2, ...:
n
1
m′ = n ∑ xik .
k
i= 1
Momentos respecto a la media:
Momento de orden k, k=2, 3, ...:
-ESTADÍSTICOS DE ORDEN:
n
M = 1n ∑ ( xi − x)k .
k
i= 1
Muestra: x1, x2,..., xn
Muestra ordenada: x(1), x(2),..., x(n)
x(1): Mínimo
x(n): Máximo
x(1) ≤ x(2) ≤ ...≤ x(n)
x(r): Estadístico de orden r, r = 1, ..., n.
-CUANTILES:
0 ≤ p ≤ 1, p  Punto que parte la distribución de frecuencias en dos trozos, a la
izquierda p% y a la derecha (1-p)%. x
np no entero.
 ( [ np ] + 1)
4
x p =  1 

+ x

 x
np entero.
( [ np ] + 1) 
 2  ( [ np ] )
Medidas de localización (posición ó centro) (1)
Sean x1, x2, …, xn n valores de una variable cuantitativa, para que m sea un
promedio de estos n valores debe verificarse:
✔ Simetría: la medida no varía auque los valores sean considerados en orden
diferente
✔ min( x1 , x2 ,..., xn ) ≤ m ≤ max( x1 , x2 ,..., xn )
✔ Homogeneidad: para cualquier número real a el promedio de
ax1 , ax2 ,..., axn
es am
5
Medidas de localización (posición ó centro) (2)
✔ Media
✔ Mediana
✔ Moda
✔ Otros promedios:
Media cuadrática
Media armónica
Media geométrica
✔ Trimedia
✔ Media k - recortada ó α % recortada
✔Percentiles
6
Media (1)
Media (media aritmética ó media muestral)
Muestra: x1, x2,..., xn
1 n
X = ∑ xi
n i= 1
Es el centro de gravedad de la distribución de frecuencias
n
∑ (x − x) = 0
i= 1
i
La media es el valor A que hace mínima
la suma de cuadrados de las desviaciones
respecto a A
n
2
min ∑ ( x − A)
A
i= 1
i
7
Media (2)
Muestra tabulada:
k
k
k
ni
-Variable discreta: X = ∑i = 1 ni xi = ∑i = 1 n xi = ∑i = 1 f i xi
-Variable continua: (datos agrupados en k clases)
1
n
X ≅
k
1
n
∑
i= 1
n i mi =
k
∑
i= 1
f i mi
Ej. Ácido úrico (datos en tema 2) datos
X≅
X≅
X=
k
1
n
∑
i= 1
k
∑
i= 1
n
ni mi =
1
20
[2(3.5) + 5(4.5) + 6(5.5) + 4(6.5) + 2(7.5) + 1(8.5)] = 5.6
f i mi = 0.10(3.5) + 0.25(4.5) + 0.30(5.5) + 0.20(6.5) + 0.10(7.5) + 0.05(8.5) = 5.6
1
1
x
=
(4.9 + 5.3 + ... + 4.1) = 5.575
∑
i
n i= 1
20
Valor exacto de la media
Error = |media- valor aproximado| = |5.575 – 5.6| = 0.025
En general el error al calcular la media aproximada con los datos agrupados está acotado
| X − X agru |≤
1
máximo{ A1 , A2 ,..., Ak }
2
8
Media (3)
Falta de robustez de la media
Ejemplo 1:
Media = [ 0(4) + 1(4) + 2(1) ] / 9 = 0.6667
Media = [ 0(3) + 1(4) + 2(1) +6(1) ] / 9 = 1.333
Xi (valores)
ni
Xi (valores)
ni
0
4
0
3
1
4
1
4
2
1
2
1
Total = 9
6
1
Total = 9
Ejemplo 2:
Datos:
1, 2, 3, 4, 7, 8, 9
n=7 media = 4.858
1, 2, 3, 4, 7, 8, 2450
n=7 media = 353.6
9
Media (4)
Si la muestra esta dividida en dos grupos, la media de la muestra es la media
ponderada de las medias.
(x1, x2, ..., xn) = (x1, x2, ..., xk) ∪ (xk+1, xk+2, ..., xn)
1
X = ∑ x
k
k
1
1
kX + (n − k ) X
X= ∑ x =
n
n
n
1
i= 1
i= 1
i
1
X =
∑ x
n− k
n
2
i= k + 1
i
2
i
Ejemplo: nota media de un alumno con calificaciones en tres asignaturas
A: 5, B:7, C: 9. Créditos de cada asignatura: A: 15, B: 7.5, C: 6
nota media =
15(5) + 7.5(7) + ... + 6(9) 181.5
=
= 6.368
15 + 7.5 + 6
28.5
En general con s grupos de tamaños n1, n2, ..., ns
X=
1 n
n X + n X + ... + ns X s
xi = 1 1 2 2
∑
n i= 1
n
10
Media (5)
Media ponderada
Media ponderada de k valores (x1, x2, ..., xk) con pesos (w1, w2, ..., wk) :


∑i = 1
k
w1 x1 + w2 x2 + ... + wk xk

=
=
∑
k

w1 + w2 + ... + wk
i= 1

∑i = 1 wi

k
wi xi


wi 
k
 xi
∑j = 1 w j 

Si tomamos los pesos (p1, p2, ..., pk) de forma que sumen uno la media ponderada se calcula
k
como
∑
i= 1
pi xi
Comprobamos como definiendo
pi =
wi
k
∑
j= 1
wj
ambas expresiones coinciden
Ejemplo: nota media de un alumno con calificaciones en tres asignaturas
A: 5, B:7, C: 9. Créditos de cada asignatura: A: 15, B: 7.5, C: 6
15(5) + 7.5(7) + ... + 6(9)
= 6.368
15 + 7.5 + 6
11
Media (6)
PROPIEDADES DE LA MEDIA:
 La suma de las desviaciones de la media a las observaciones es cero
n
∑ (x − x) = 0
i= 1
i
 Cambios de origen y escala en los datos yi = a + b xi, i = 1, 2, …, n conllevan los mismos
cambios en la media
Y = a + bX
 La media de una suma es la suma de las medias
x1 , x2 ,..., xn → X
y1 , y2 ,..., yn → Y
x1 + y1 , x2 + y2 , ..., xn + y n → X + Y
 La media es el valor A que hace mínima la suma de cuadrados de las desviaciones
respecto a A
n
∑
i= 1
( xi − A) 2
n
∑i = 1 ( xi −
min
x∈ ℜ
A) 2
 Si la muestra esta dividida en dos grupos, la media de la muestra es la media ponderada
(por los tamaños de los grupos) de las medias.
12
Otros promedios
Muestra sin tabular
n
Media cuadrática
M =
∑ x
2
k
i
i= 1
MQ =
n
Q
1
M =
Media armónica
n
M =
n
G
log( M G ) =
MH ≤ MG ≤ X ≤ MQ
i= 1
Muestra tabulada
(variable continua)
k
xi2 ni
MQ ≅
n
1
MH ≅
1 k 1
∑ ni
n i = 1 xi
∑
i= 1
mi2 ni
n
1
1
1
ni
∑
n i = 1 mi
k
i
x x ...x
1
∑
MH =
1 1
∑
n x
H
i= 1
Media geométrica
Muestra tabulada
(variable discreta)
2
MG =
n
x1n1 x 2n2 ...x knk
MG ≅
n
m1n1 m2n2 ...mknk
n
1 n
∑ log( xi )
n i=1
13
Mediana (1)
Me
Punto que parte la distribución en dos mitades del 50% a cada lado
Observación central en la muestra ordenada
Si n es impar
Si n es par
Me = X((n+1)/2)
Me ∈ (X(n/2) , X(n/2
+ 1)
)
Me = (X(n/2) + X(n/2 + 1)) /2
Ejemplos:
Datos 1:  1, 2, 3, 4, 6, 7, 8
n=7 Me = 4
media = 4.4
Datos 2:  1, 2, 3, 4, 5, 6, 7, 8
n=8 Me = 4.5
media = 4.5
Datos 3:  1, 3, 4, 2, 7, 2450, 8
n=7 Me = 4
1, 2, 3, 4, 7, 8, 2450
media = 353.6
14
Mediana (2)
Histograma de frecuencias
Polígono de frecuencias acumuladas
0.24
0.2
frec.
0.16
frec. 0.12
0.5
0.08
0.5
0.04
0
1.5
2
2.5
0.5
3
3.5
4
4.5
0
Cálculo de la mediana para datos agrupados:
L j − L j− 1
n
Me ≅ L j − 1 + ( − N j − 1 )
2
N j − N j− 1
Me
Nj
n/2
Nj-1
15
Lj-1
Me
Lj
Mediana (3)
Ejemplo cálculo de la mediana para una variable discreta a partir de
la tabla de frecuencias
Xi
ni
Ni
fi
Fi
1
20
20
0.2 0.2
2
60
80
0.6 0.8
3
20
100 0.2 1
1
0.75
0.5
0.25
1
Me = 2
2
3
16
Moda
Mo = Punto donde se alcanza el máximo de la distribución de frecuencias.
Hay distribuciones con varias modas locales (bimodales o multimodales)
5
frecuencia
4
3
2
1
0
1
2
3
4
5
6
7
8
Moda absoluta
Modas relativas
Intervalo modal
17
Posición relativa de media, mediana y moda
18
Posición relativa de media, mediana y moda
Distribución con asimetría positiva
CA>0
Distribución con asimetría negativa
CA<0
3
3
2.5
2.5
D is trib u c ió n S im é tr ic a
2
2
1.5
1.5
1
1
0.5
0.5
f(x )
0
0
Media
Mediana
Moda
Moda
M oda
M e d ia n a
M e d ia
Mediana
Media
19
Comparación media - mediana
La elección de una medida de posición depende del criterio de comparación
Media y mediana representan el centro de la distribución según criterios
diferentes
La Media es la solución del problema
de mínimos cuadrados:
n
∑
i= 1
La Mediana es la solución del problema
de mínimas distancias:
( xi − X ) =
2
n
∑
i= 1
n
min ∑i = 1 ( xi −
x∈ ℜ
xi − Me =
x) 2
n
min ∑
x∈ ℜ
i= 1
xi − x
Eficiencia: Para datos “normales”, la media es más eficiente que la mediana.
La media utiliza “todas las observaciones”. La mediana sólo las centrales.
Robustez: Insensibilidad frente a observaciones atípicas.
- La media NO es robusta: una sola observación errónea puede hacer tomar a la media
cualquier valor arbitrario.
- La mediana es robusta: se necesitan casi el 50% de observaciones erróneas para llevar la
mediana arbitrariamente lejos.
20
Ejemplo comparación media – mediana (1)
Datos: 0, 3, 2, 6
f (a ) =
4
∑
i= 1
n=4
| xi − a | = | 0 − a | + | 2 − a | + | 3 − a | + | 6 − a |
f (a ) =
4
∑
i= 1
( xi − a ) 2 = (0 − a ) 2 + ( 2 − a ) 2 + (3 − a) 2 + (6 − a ) 2
21
Ejemplo comparación media – mediana (2)
Datos: 0, 2, 4, 6, 8
f (a) =
5
∑
i= 1
n=5
| xi − a | = | 0 − a | + | 2 − a | + | 4 − a | + | 6 − a | + | 8 − a |
f (a) =
5
∑
i= 1
( xi − a ) 2 = (0 − a) 2 + (2 − a ) 2 + (4 − a ) 2 + (6 − a ) 2 + (8 − a ) 2
22
Cuantiles , Percentiles
Percentil
p %  Punto que parte la distribución de frecuencias en dos trozos,
a la izquierda p% y a la derecha (1-p)%. Con p en (0, 1) se habla de p - cuantil
Definición:
# {xi ≤ p-cuantil } ≥ n p
# {xi < p-cuantil } ≤ n p
p = 0.25, percentil 25 % -- primer cuartil = Q1
p = 0.50, percentil 50 % -- mediana = Q2
p = 0.75, percentil 75 % -- tercer cuartil = Q3
Muestra: x1, x2,..., xn
x(1) ≤ x(2) ≤ ...≤ x(n).
Muestra ordenada: x(1), x(2),..., x(n),
xp =
x
 ( [ np ] + 1)
 1
 x
 2  ( [ np ] )
+
x( [ np] + 1) 

np no entero.
np entero.
23
Ejemplo cálculo de percentiles (1)
Datos 70, 24, 68, 20, 50, 30,53, 40, 36, 57, 66
n=11
20
24
30
36
40
50
53
57
66
68
70
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
X(10)
X(11)
1
n = n(0.25) = 11(0.25) = 2.75
4
Q1= X(3) = 30
1
n = n(0.5) = 11(0.5) = 5.5
2
Q2= Me =X(6) = 50
3
n = n(0.75) = 11(0.75) = 8.25
4
¿¿Percentil 10 ??
Q3= X(9) = 66
n(0.10) = 11(0.10) = 1.1
Percentil 10 = X(2) = 24
24
Ejemplo cálculo de percentiles (2)
Datos 24, 68, 20, 50, 30,53, 40, 36, 57, 66
n=10
20
24
30
36
40
50
53
57
66
68
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
X(10)
1
n = n(0.25) = 10(0.25) = 2.5
4
Q1= X(3) = 30
1
n = n(0.5) = 10(0.5) = 5
2
Q2= Me =
3
n = n(0.75) = 10(0.75) = 7.5
4
¿¿Percentil 10 ??
X (5) + X ( 6)
2
=
40 + 50
= 45
2
Q3= X(8) = 57
n(0.10) = 10(0.10) = 1
Percentil 10 =
X (1) + X ( 2)
2
=
20 + 24
= 22
2
25
Cálculo de los percentiles para variables continuas
para datos agrupados
Sea xp el percentil p100 %  Determinamos en qué clase se
encuentra utilizando las frecuencias relativas acumuladas
Si xp está en [Lj-1 , Lj)  recta que pasa por (Lj-1, Nj-1) y (Lj, Nj)
y = N j− 1 +
N j − N j− 1
Lj − Lj− 1
(x − L j− 1)
np = N j − 1 +
N j − N j− 1
L j − L j− 1
(xp − L j− 1)
x p = (np − N j − 1 )
Nj
L j − L j− 1
N j − N j− 1
+ L j− 1
pn
Nj-1
Lj-1
xp
Lj
26
Ejemplo
En la tabla siguiente se encuentran datos correspondientes al curso académico 1998 1999 publicados en la página web del Ministerio de Educación y Cultura referentes a
los centros docentes y su oferta educativa en la enseñanza no universitaria.
suponer que el mínimo de alumnos por centro es 5 y el máximo 2000.
27
Ejemplo centros eduacativos en C y L
Frecuencia Frecuencia Frecuencia Marcas
relativa
relativa fi acumulada
mi
%
relativa Fi
8,9
0,089
0,089
15
16,2
22,2
15,7
13,5
9,6
7,8
6
0,162
0,222
0,157
0,135
0,096
0,078
0,06
99.9
0,999
0,251
0,473
0,630
0,765
0,861
0,939
0,999
1
0,8
63
150,5
250,5
400,5
600,5
850,5
1500,5
frecuencia acumulada
Menos de 25
(5 - 25)
26 – 100
101 – 200
201 - 300
301 – 500
501 – 700
701 – 1000
Más de 1000
(1001-2000)
total
tamaño de los centros eduactivos en CyL
0,6
0,4
0,2
0
0
400
800
1200
1600
Tamaño del centro
tamaño de los centros eduactivos en CyL
0,24
0,21
frecuencia
0,18
0,15
0,12
0,09
0,06
0
400
800
Tamaño del centro
1200
1600
28
Ejemplo centros eduacativos en C y L
8
Marca
mi
15
63
150,5
250,5
400,5
600,5
850,5
1500,5
Frecuencia
relativa fi
0,089
0,162
0,222
0,157
0,135
0,096
0,078
0,06
Total
mi * fi
1,335
10,206
33,411
39,3285
54,0675
57,648
66,339
90,03
352,365
Media = 352,365 =
∑
j= 1
mj f j
Mediana entre 201 y 300
Interpolando tenemos mediana = 218,4
 1287
 300 − 201
Me ≈ 201 + 
− 609 
 2
 811 − 609
n=1287
811
1287*0.473=811 1287*0.63=609
tamaño de los centros eduactivos en CyL
0,24
643
0,21
frecuencia
0,18
609
0,15
0,12
0,09
0,06
0
201
¿?
300
400
800
Tamaño del centro
1200
1600
29
Otras medidas de localización (1)
Media k - recortada
X
rec
=
1
n− 2 k
n− k
∑ x =
i= k + 1
x
( k + 1)
(i)
+ x + ... + x
n − 2k
(k+ 2)
( n− k )
Media α % recortada equivale a [n α / 100] - recortada
Ejemplo:
Media
Datos: 10, 36, 45, 48, 52, 53, 60, 63, 84, 100
X=
n
1
n
∑
i= 1
xi =
1
(10 + 36 + 45 + 48 + 52 + 53 + 60 + 63 + 84 + 100) = 53.1
10
Media 2-recortada ó 20% recortada:
X rec =
1
10− 4
n− 2
∑
i= 3
x( i ) =
x(3) + x( 4) + ... + x(8)
10 − 4
=
45 + 48 + 52 + 53 + 60 + 63
= 47.6667
6
30
Otras medidas de localización (2)
Media k - winsorizada
Ejemplo:

 (k + 1) x( k + 1) +


x
+
(
k
+
1
)
x
∑
(i )
( n − k + 1) 
i= k + 2

n− k − 1
Datos: 10, 36, 45, 48, 52, 53, 60, 63, 84, 100
X=
Media
X win =
1
n
n
1
n
∑
i= 1
xi =
1
(10 + 36 + 45 + 48 + 52 + 53 + 60 + 63 + 84 + 100) = 53.1
10
Media 2-winsorizada:
n− 3

 x(3) + x( 3) + x( 3) + x( 4) + ... + x(8) + x(8) + x(8)
X win =  3(45) + ∑ x(i ) + 3(63)  =
=
10
i= 4


45 + 45 + 45 + 48 + 52 + 53 + 60 + 63 + 63 + 63
=
= 50.20
10
1
10
1
1
1
Trimedia = Q + Q + Q
4
2
4
1
2
3
31
Medidas de dispersión
✔ Rango
✔ Recorrido intercuartílico
✔ Varianza
✔ Desviación típica ó desviación estándar
✔Otras: desviación media,
desviación mediana absoluta
✔Medidas de dispersión relativa
Coeficiente de variación
Otras
32
Ejemplo
Ejemplo de dos muestras con la misma media y distinta dispersión,
n = 18 en ambas
media (desviación tópica)
0,000(4,265)
0,000(1,979)
1
0,000(5,790)
2
-9
-6
-3
0
3
6
9
33
Medidas de dispersión (1)
Rango
R = Máximo – Mínimo = x(n) – x(1)
Recorrido intercuartílico
RI = Q3 - Q1
Q1
Q2
Muestra 1 5 20 20 20 20 20
Muestra 2 5 5 5 5 20 20
Muestra 3 5 7 9 12 15 17
Muestra 1
5 7
9
12
15
17
19
Q3
20 20
20 20
19 20
20
Muestra 2
5 7
9
12
15
17
19 20
Muestra 3
n
R
RI
Media
Muestra 1 Muestra 2 Muestra3
8
8
8
15
15
15
0
15
10
18.125
12.5
13
34
5 7
9
12
15
17
19
20
Medidas de dispersión (2)
Varianza  Promedio de las desviaciones cuadráticas en torno a la media.
1 n
S = ∑ ( xi − X ) 2
n i= 1
2
Cuasivarianza ó varianza corregida 
Desviación típica S = √S
2
tiene las mismas unidades que la variable
Expresión abreviada:

S = 

2
n
1
n
∑
i= 1
2

x i − X

2
S=
1 n
S =
( xi − X ) 2
∑
n − 1 i= 1
2
1 n
( xi − X ) 2
∑
n i= 1
La varianza de x1, x2, ..., xn puede
calcularse como
n
n
∑∑
i=1 j=1
(x i - x j ) 2
2n 2
35
Medidas de dispersión (3)
La varianza siempre es positiva
S a2+ bx = b 2 S x2
S2 ≥ 0
La varianza cero ⇔ todos los valores iguales
S a + bx = | b | S x
Ejemplo
Muestra 1
Muestra 2
Muestra 3
6
6
6
6
6
6
Q1
7 8
6 8
6 7
Q2
8 9
8 10
9 10
Q3
10 10
10 10
10 10
Muestra 1
Muestra tabulada:
Muestra 1
Muestra 2
Muestra 3
Muestra 2
n
8
8
8
Media
8
8
8
R
4
4
4
RI
3
4
4
S
1.5
1.73
1.803
Muestra 3
k
S 2 = ∑ ( xi − X ) 2 f i .
Variable discreta:
Variable continua:2
i= 1
k
S ≅ ∑ ( mi − X )2 f i .
=1
(datos agrupados, mi=marca de iclase)
36
Ejemplo
50
50
40
40
30
30
20
20
10
10
0
-10
0
10
20
30
40
RAND1
0
-10
0
10
20
30
40
50
45
40
35
30
25
20
15
10
5
0
-10
RAND2
0
10
20
30
RAND3
Rand1
Rand2
Rand3
Varianza = 14,6842
Varianza = 24,5909
Varianza = 52,9725
S = 3,832
S = 4,95892
S = 7,27822
37
40
Dispersión
Con los datos divididos en k grupos cada uno con ni , xi , Si2
n X + n X + ... + ns X s
X= 1 1 2 2
n
S =
2
k
∑
i= 1
(
)
2
ni
Xi − X +
n
Variación ENTRE grupos
k
∑
i= 1
i=1, 2, …, k
ni 2
Si
n
Variación DENTRO del grupo
Ejemplo: Un fabricante de pequeñas fotocopiadoras para oficina, le paga a sus vendedores
un pequeño salario base más una comisión. Un vendedor afirma que la estructura salarial
es discriminatoria para las mujeres. Los salarios base actuales de nueve vendedores:
Meses como empleado Salarios (en miles de $)
6
7.5
10
8.6
12
9.1
18
10.3
30
13.0
5
6.2
13
8.7
15
9.4
21
9.8
Sexo
Hombres
Hombres
Hombres
Hombres
Hombres
Mujeres
Mujeres
Mujeres
Mujeres
n
media
varianza
Desviación típica
Hombres
5
9.7
4.415
2.10119
Media = 9,17778
Varianza = 3,56944
S = 1,8893
Mujeres
4
8.525
2.60917
1.61529
38
Otras medidas de dispersión
Desviación media absoluta
1 n
| xi − X |
∑
n i= 1
Desviación mediana absoluta (MEDA):
MEDA = Mediana de (|x1 - Me|, |x2 - Me|, ...,|xn – Me| )
(p-cuantil, (1-p)-cuantil) contiene al (1-2p)100 % de las observaciones
(1-p)-cuantil - p-cuantil
Por ejemplo
P90 – P10
P 75 – P 25
Q3 -Q1
39
Dispersión relativa: coeficiente de variación
S
CV =
X
 Sólo para variables positivas.
 Relativiza la dispersión en función de la magnitud (escala) de las
observaciones.
 No tiene unidades. Adimensional.
 Facilita la comparación.
40
Dispersión relativa: otras medidas
Medida de dispersión
Razón intercuartil
Q3 − Q1
Me
Coeficiente de variación mediana
Recorrido relativo
Medida de centro
S
Me
X ( n ) − X (1)
X
Coeficiente de variación cuartílica
Q3 − Q1
Q3 + Q1
41
Desigualdad de Chebychev (1)
Relación media - desviación típica ( X − kS , X + kS ) contiene al menos el
(
1 

100  1 − 2  %
k 

de las observaciones
)
1
fr xi − X ≤ kS ≥ 1 − 2 , k > 0
k
(
)
(
)
(
)
(
)
(
)
fr X − X ≤ 2 S ≥ 1 −
fr X − X ≤ 3S ≥ 1 −
fr X − X ≤ 4 S ≥ 1 −
fr X − X ≤ 5S ≥ 1 −
fr X − X ≤ 6S ≥ 1 −
1
22
1
32
1
42
1
52
1
62
= 0.7500, k = 2
= 0.8888, k = 3
= 0.9375, k = 4
= 0.9600, k = 5
= 0.9722, k = 6
42
Desigualdad de Chebychev (2): Ejemplo
En un laboratorio se hace una prueba de impureza en 15 frascos de un determinado
compuesto químico. Los resultados en % fueron:
0,04 0,14 0,17 0,19 0,22 0,06 0,14 0,17 0,21 0,24 0,12 0,15 0,18 0,021 0,025
Media = 0.166
S2 = 0,0034
S = 0,058
La desigualdad de Chebychev nos dice que:
al menos el 75 % de los frascos (en este caso 11) están en
(X - 2 S, X + 2 S ), o sea, en (0,166 – 2(0,058), 0,166–2(0,058)) (0,050, 0,282)
Si contamos en estos datos tenemos 14 de los 15 en este intervalo , lo cual representa
el 93 %
(media - 3 S, media + 3 S )  (-0,008, 0,340) contiene al menos el 88,88 % de las
observaciones
(media - 4 S, media + 4 S )  (-0,066, 0,398) contiene al menos el 93,75 % de las
43
observaciones
Desigualdad de Chebychev (3)
Ejercicio
Si los paquetes de café llenados en un proceso tienen un peso medio de
500 gr con una desviación de 3 gr ¿Qué porcentaje de paquetes como
mínimo debe contener entre 495 y 505 gr?
505 – 495 =10
media ± 5
5 = k S= k 3  k = 5 / 3
En (media – 5/3 S, media + 5/3 S) = (495, 505) está al menos el 64 %


 1−




 100% = 64%
2
5 / 3 
(
1
)
44
Típificación ó estandarización
x1 , x2, ..., xn datos originales (calculamos la media y la desviación típica)
zi =
xi − X
S
i = 1,2,...
z1, z2, ..., zn datos tipificados o estandarizados
Z = 0; SZ = 1
Características de una muestra tipificada:
Una muestra tipificada tiene media 0 y desviación típica 1.
Una variable tipificada no tiene unidades.
La estandarización facilita la comparación de la forma de las distribuciones (elimina
los factores posición y dispersión).
1
= 0.7500, k = 2
22
1
fr ( − 3 ≤ Z ≤ 3) ≥ 1 − 2 = 0.8888, k = 3
3
1
fr ( − 4 ≤ Z ≤ 4 ) ≥ 1 − 2 = 0.9375, k = 4
4
fr ( − 2 ≤ Z ≤ 2 ) ≥ 1 −
45
Ejemplo
Un estudiante obtuvo 84 de 100 puntos posibles en el examen final de
matemáticas, en el que la nota media fue 76 y S = 10. En el examen de Física
obtuvo 90 de los 100 puntos posibles, siendo la media 82 y S =16.
¿En qué examen sobresalió más?
84 − 76
= 0,8
10
90 − 82
= 0,5
16
Matemáticas
Física
46
Estudio de la forma de una distribución de
frecuencias
✔ Simetría y asimetría
✔Apuntamiento
✔Unimodalidad y multimodalidad
47
Estudio de la forma: simetría
Medidas de forma: asimetría y curtosis
Distribución
simétrica.
Distribución
asimétrica positiva
o a la derecha.
Distribución
asimétrica negativa
o a la izquierda.
48
Estudio de la forma: gráfico de simetría
Muestra: x1, x2,..., xn
x(1) x(2) x(3) x(4) … Me ... x(n-3) x(n-2) x(n-1) x(n)
Muestra ordenada: x(1), x(2),..., x(n)
Puntos del gráfico de simetría:
Asimetría a la
derecha
simetría
( Me-X(1) , X(n)-Me )
( Me-X(2) , X(n-1)-Me )
( Me-X(3) , X(n-2)-Me )
x(n+1-i) – Me
Asimetría a la
izqierda
Encima de la mediana
……………………
( Me-X(i) , X(n+1-i) -Me )
……………………….
( Me-X(n) , X(1) -Me )
Me – x(i)
Debajo de la mediana
49
Estudio de la forma: asimetría
Coeficientes de asimetría
n
x1 , x2, ..., xn datos originales
CA =
z1, z2, ..., zn datos tipificados
Distribución simétrica:
1
n
∑
i= 1
( xi − X ) 3
S3
CA =
n
1
n
∑
i= 1
 xi − X
1
= n ∑ 
S
i= 1 
n




3
zi3
CA≅0
Distribución asimétrica positiva: CA>0 (cola derecha más pesada)
Distribución asimétrica negativa: CA<0 (cola izquierda más pesada)
Coeficiente de asimetría de Yule
Coeficiente de asimetría de Kelly
(adimensional)
K=
B=
(Q3 − Me) − ( Me − Q1 )
Q3 − Q1
( P90 − Me) − ( Me − P10 ) ( P90 − P10 )
=
− Me
2
2
50
Estudio de la forma: apuntamiento (1)
51
Estudio de la forma: apuntamiento (2)
Coeficientes de apuntamiento o curtosis:
Medida de la importancia de las colas de la distribución
n
x1 , x2, ..., xn datos originales Cap =
z1, z2, ..., zn datos tipificados
∑
i= 1
( xi − X ) 4
S4
 x − X
= 1n ∑  i
S
i= 1 
n




4
1 n 4
Cap = ∑ zi
n i= 1
Distribución “normal”
Cap ≅ 3
Distribución más apuntada
Cap > 3
Distribución menos apuntada
Cap < 3
Nota: Algunos autores utilizan Cap – 3
1
n
52
Diagrama de cajas
Resumen “rápido” de una distribución de frecuencias de una muestra utilizando
cinco estadísticos:
Los cuartiles (Q1, Me, Q3 )y las observaciones extremas: (máximo y mínimo)
Aporta información rápida sobre posición dispersión y forma de la distribución.
Límite inferior:
Límite superior:
LI = Q1-1.5(Q3-Q1)
LS = Q3+1.5(Q3-Q1)
Con datos “normales” el intervalo (LI, LS) contiene ≅ 99%
Caja: Q1, Me, Q3. (contiene el 50% de datos)
Patas: la observación más grande y la más pequeña en (LI, LS)
Observaciones fuera de (LI, LS): Posibles datos anómalos (outliers), errores de medición,
errores de tecleado, etc. Box-and-Whisker Plot
0
1
2
3
4
5
RATE
6
Box-and-Whisker Plot
7
8
9
10
6
8
10
TRKS
12
14
16
53
Ejercicio
Construir el diagrama de caja para los dos conjuntos de datos:
Datos 1: 11, 16, 10, 3, 18, 13.5, 20, 4, 13, 11, 14
Datos 2:
11, 18, 11, 13, 1.2, 27, 16, 0.3, 10,
54
Ejemplos (1)
Count = 100
Histograma
Count = 100
Histograma
Average = -0,0640857
30
Average = 9,519
30
25
Median = -0,075049
20
10
0
-2,1
-1,1
-0,1
0,9
1,9
2,9
variable_1
Variance = 0,750669
Standard deviation = 0,866411
freque ncy
frequency
40
Median = 9,6799
20
15
Variance = 1,23371
Standard deviation = 1,11073
10
5
0
6,1
8,1
10,1
12,1
14,1
variable_2
Minimum = -1,85481
Maximum = 1,80786
Range = 3,66267
Box-and-Whisker Plot
-1,9
-0,9
0,1
1,1
Box-and-Whisker Plot
Lower quartile = 8,77181
Upper quartile = 10,2807
Interquartile range = 1,50884
Lower quartile = -0,681725
Upper quartile = 0,474407
Interquartile range = 1,15613
2,1
variable_1
6,3
distance above median
1,6
Coeff. of variation = -1351,96%
1,2
0,8
0,4
0
0,4
0,8
1,2
distance below median
1,6
2
7,3
8,3
9,3
10,3
11,3
12,3
Skewness = -0,551752
Kurtosis = 0,0989451
13,3
variable_2
Symmetry Plot
distance above median
Skewness = 0,0626271
Kurtosis = -0,366943
Symmetry Plot
2
0
Minimum = 6,38084
Maximum = 11,6511
Range = 5,27026
Coeff. of variation = 11,6685%
4
3
2
1
0
0
1
2
3
4
distance below median
55
Ejemplos (2)
Count = 100
Histograma
30
Average = 0,852294
30
Median = 0,768443
20
10
0
-0,1
0,9
1,9
2,9
3,9
variable_3
Average = 4,74735
25
frequency
frequency
40
Count = 100
Histograma
20
Median = 4,84373
15
10
5
Variance = 0,25616
Standard deviation = 0,506122
0
3 ,1
4,1
5 ,1
6,1
7,1
variable_4
Minimum = 0,0804361
Maximum = 2,35899
Range = 2,27855
Box-and-Whisker Plot
Minimum = 3,24821
Maximum = 6,02834
Range = 2,78013
Box-and-Whisker Plot
Lower quartile = 4,31734
Upper quartile = 5,21241
Interquartile range = 0,895065
Lower quartile = 0,471769
Upper quartile = 1,06874
Interquartile range = 0,596966
0 ,4
0,8
1 ,2
1,6
2
2,4
variable_3
distan ce above med ian
Symmetry Plot
3,2
Coeff. of variation = 59,3835%
1 ,6
1 ,2
0 ,8
0 ,4
3,7
0
0 ,4
0 ,8
1,2
1 ,6
4,7
5,2
5,7
6,2
Skewness = -0,40001
Kurtosis = -0,29679
variable_4
Symmetry Plot
1,6
Coeff. of variation = 12,5334%
1,2
0,8
0,4
0
0
0
4,2
Skewness = 0,887279
Kurtosis = 0,515766
distance above median
0
Variance = 0,354031
Standard deviation = 0,595005
0,4
0,8
1,2
1,6
distance below median
distance below median
56
Ejemplos (3)
Count = 100
Histograma
Average = 0,88735
50
30
Average = 1,03167
40
Median = 0,890489
20
10
0
0
0,3
0,6
0,9
1,2
1,5
variable_5
Variance = 0,0427095
Standard deviation = 0,206663
frequency
frequency
Count = 100
Histograma
40
30
Median = 0,734301
20
10
0
-0,4
1,6
5,6
7,6
9,6
Minimum = 0,0157658
Maximum = 5,52775
Range = 5,51198
Box-and-Whisker Plot
Lower quartile = 0,732473
Upper quartile = 1,03123
Interquartile range = 0,298757
0
0,3
0 ,6
0,9
1,2
1,5
variable_5
Lower quartile = 0,335971
Upper quartile = 1,37452
Interquartile range = 1,03854
0
Skewness = -0,0830608
Kurtosis = 0,00188654
1
2
3
4
5
6
Skewness = 1,907
Kurtosis = 5,2778
variable_6
distance above median
Coeff. of variation = 23,2899%
0 ,6
0 ,5
0 ,4
0 ,3
0 ,2
0 ,1
0
0
0,1
0 ,2
0,3
0,4
distance below median
0,5
0,6
distance above median
Symmetry Plot
Symmetry Plot
Variance = 0,898493
Standard deviation = 0,947889
variable_6
Minimum = 0,35354
Maximum = 1,41765
Range = 1,06411
Box-and-Whisker Plot
3,6
5
Coeff. of variation = 91,8793%
4
3
2
1
0
0
1
2
3
4
5
distance below median
57
Ejercicio (A)
Para cada una de las variables de la tabla
siguiente escribir la letra del histograma
correpondiente
58
Ejercicio (B)
1
4
3
2
5
6
7
59
Ejercicio (B)
2
1
3
5
4
6
7
60
Ejercicio (C)
Empareja cada uno de los histogramas con su diagrama de caja correspondiente y
explica porqué haces tal asignación
61
Estudio de la concentración
Estudiamos la CONCENTRACIÓN para variables cuantitativas positivas en las
cuales la suma de los valores individuales tiene el sentido de un “todo” del
cual cada individuo participa con una “parte”. La idea es analizar el grado de
homogeneidad ó igualdad o falta de estas en el reparto del “todo”.
Ejemplos:
✓ la riqueza de la población de un país
✓ Los salarios de los empleados de una empresa o de un sector
✓ La población de los municipios de una provincia.
No tiene sentido con variables como la altura, el número de pie, etc
La concentración oscila entre una situación en la cual un individuo tiene el
“todo” y el resto no tiene nada (máxima concentración) y una situación en la
que todos los individuos tienen exactamente la misma cantidad
(concentración mínima).
Contruiremos el índice de Gini para medir las situaciones intermedias y la curva 62
de Lorenz para visualizar el grado de concentración.
Concentración: Curva de Lorenz
Ejemplo:
Ui
cantidades acumuladas por
los individuos
Fi
frecuencia acumulada de individuos
63
Concentración: Índice de Gini (1)
Se ordenan los valores de la variable (ó las clases) de menor a mayor.
Se comparan cantidades acumuladas por los individuos (o clases) con frecuencias acumuladas
de individuos
q i = x i ni
ui =
qi
k
∑
j= 1
ni
x i ni
=
k
∑
qj
n
fi = i =
n
j= 1
x jnj
ni
k
∑
j= 1
ni
Ui =
Fi =
i
∑
j= 1
uj
IG =
i
∑
j= 1
Índice de Gini
fj
∑
( Fi − U i )
i


 ∑ Fi  − 1
 i

El índice de Gini toma está entre 0 y 1.
El índice de Gini toma el valor 0 cuando hay igualdad, i.e. todos los individuos disponen de
igual “parte” del “todo” (mínima concentración).
El índice de Gini toma el valor 1 cuando hay máxima desigualdad, i.e. un individuo dispone
del “todo” y el resto de individuos no tienen ninguna “parte” (máxima concentración). 64
Concentración: Índice de Gini (2)
3 ejemplos:
Cliente
Ventas
ni
Fi
qi
Ui
Fi - Ui
A
100
1
0.25
100
0.188
B
200
1
0.50
200
0.06
30.18
C
625
1
0.75
625
D
675
1
1
675
8
0.57
8
1
total
1600
4
2.5
1
600
1.82
9
Cliente
Ventas
ni
Fi
qi
Ui
A
400
1
0.25
400
0.25
B
400
1
0.50
400
C
400
1
0.75
D
400
1
total
1600
4
IG =
Fi - Ui
0.313
IG =
0.172
0.672
= 0.448
1.5
0
0.672
Cliente
Ventas
ni
Fi
qi
Ui
Fi - Ui
0
A
0
1
0.25
400
0
0.25
0.50
0
B
0
1
0.50
400
0
0.50
400
0.75
0
C
0
1
0.75
400
0
0.75
1
400
1
0
D
1600
1
1
400
1
0
2.5
1600
2.5
0
total
1600
4
2.5
1600
1
1.5
IG =
1.5
=1
1.5
0
= 0
1.5
65
Ejemplo curva de Lorenz (2)
66
Ejemplo concentración
Conclusión:
Concentración baja en las dos zonas.
Menor concentración en la zona 2.
67
Más sobre concentración
Existen otros índices, por ejemplo, Índice de Theil:
x1 , x2, ..., xk con frecuencias n1, n2, …, nk respectivamente
T = log(n) +
k
∑
i= 1
ni ci log(ci )
con
ci =
xi
k
∑
j= 1
x jnj
Cuando existe equidistribución T= 0 y cuando un individuo
acapara “todo” T= log(n).
Otra definición del índice IT = T / log(n)
68
Ejemplo curva de Lorenz: población CyL (1)
DISTRIBUCIÓN DE LOS MUNICIPIOS POR EL NÚMERO DE HABITANTES DE DERECHO. AÑO 1996.
Ávila
NÚMERO DE MUNICIPIOS EN CADA INTERVALO DE HABITANTES
De
De
De
De
De
De
De
De
De
Menos De 101 De 501
Total
1.001 a 2.001 a 3.001 a 5.001 a 10.001 a 20.001 a 30.001 a 50.001 a 100.001 a
de 101 a 500 a 1.000
2.000 3.000 5.000 10.000 20.000 30.000 50.000 100.000 500.000
248
34
159
30
9
8
4
3
0
0
1
0
0
Burgos
371
118
192
37
9
8
2
2
0
1
1
0
1
León
211
1
62
58
54
11
14
4
4
1
0
1
1
Palencia
191
39
111
18
11
6
2
3
0
0
0
1
0
Salamanca
362
32
245
53
20
4
2
3
2
0
0
0
1
Segovia
208
56
109
22
12
4
1
3
0
0
0
1
0
Soria
183
81
81
9
3
3
3
2
0
0
1
0
0
Valladolid
225
34
125
27
22
7
2
5
1
1
0
0
1
Zamora
Castilla y
León
España
248
6
154
60
25
0
0
1
1
0
0
1
0
2.247
401
1.238
314
165
51
30
26
8
3
3
4
4
8.077
797
2.934
1.169
1.044
547
475
516
309
119
57
55
49
Más de
500.000
0
0
0
0
0
0
0
0
0
0
6
69
Ejemplo curva de Lorenz: población CyL (2)
Avila
0.0
0.0
0.2
0.2
0.4
0.4
U
U
0.6
0.6
0.8
0.8
1.0
1.0
Castilla y Leon
0.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
0.4
0.6
0.8
1.0
P
P
Burgos
0.0
0.2
0.4
0.6
P
0.8
1.0
0.0
0.0
0.2
0.2
0.4
0.4
U
U
0.6
0.6
0.8
0.8
1.0
1.0
Zamora
0.0
0.2
0.4
0.6
P
0.8
1.0
70
Descargar