MEDIDAS DESCRIPTIVAS - Departamento de Estadística

Anuncio
Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS
1. MEDIDAS DE CENTRALIZACIÓN:
9
9
9
9
9
Media
Mediana
Moda
Cuantiles
Otras
2. MEDIDAS DE DISPERSIÓN:
9
9
9
9
Desviación típica
Varianza
Rango
Otras
3. MEDIDAS DE FORMA:
9
9
Asimetría
Apuntamiento
4. REPRESENTACIÓN GRÁFICA:
9
Diagrama de caja
@Blanca Arteaga (Departamento de Estadística)
MEDIDAS DESCRIPTIVAS
¿Para qué nos sirven?
¿Se pueden calcular todas con todo tipo de
variables?
¿Cuáles son las más adecuadas en cada caso?
¿De qué forma podemos sacar partido a
nuestra calculadora?
@Blanca Arteaga (Departamento de Estadística)
8
MEDIDAS DE CENTRALIZACIÓN(1)
¿Qué SON?
LA MODA: (Cuando los datos no están agrupados en intervalos)
Es el valor que aparece con una frecuencia mayor.
Puede haber más de una: unimodal-bimodal-trimodal-plurimodal
7
11
10
7
2
2
7
11
5
5
7
3
4
5
8
11
8
7
7
¿Qué valor toma la moda?
@Blanca Arteaga (Departamento de Estadística)
LA MODA: (Cuando los datos están agrupados en intervalos)
Clases
ni
[0,5)
[5,10)
[10,15)
[15,20)
[20,25)
[25,30)
11
13
6
2
1
3
Marca de clase
Podemos encontrar: La CLASE MODAL
¿En la representación gráfica?
Pero, ¿y si queremos calcular exactamente el valor de la MODA?
Mo = Li −1 +
d i +1
l
d i −1 + d i +1 i
¿Podemos calcularla para DATOS CUALITATIVOS?
@Blanca Arteaga (Departamento de Estadística)
9
EJERCICIO 3: LA MODA
Intervalo
Frecuencia absoluta
[0,5)
6
[5,10)
14
[10,15)
20
[15,20)
10
Calcular el valor exacto de la moda.
@Blanca Arteaga (Departamento de Estadística)
EJERCICIO 4: LA MODA
Clases
ni
[0,0.30)
[0.30,0.60)
15
21
[0.60,1.20)
36
[1.20,3.00)
18
[3.00,6.00)
6
[6.00,9.00)
3
Marca de clase
Calcular el valor exacto de la moda.
@Blanca Arteaga (Departamento de Estadística)
10
MEDIDAS DE CENTRALIZACIÓN(2)
LA MEDIANA: (Cuando los datos no están agrupados en intervalos)
Es la observación que ocupa el “lugar” central
7
11
10
7
2
2
7
11
5
5
7
3
4
5
8
11
8
7
7
¿Qué valor toma la mediana?
1.
Ordenamos los datos de menor a mayor.
2.
Tenemos en cuenta también los que se repiten.
3.
La mediana, es el “CENTRO FÍSICO”
¿Cómo cambia el cálculo si N es par o impar?
@Blanca Arteaga (Departamento de Estadística)
LA MEDIANA: (Cuando los datos están agrupados en intervalos)
Clases
ni
[0,5)
[5,10)
[10,15)
[15,20)
[20,25)
[25,30)
13
11
6
2
1
3
Marca de clase
Podemos encontrar: El INTERVALO MEDIANO
Pero, ¿y si queremos calcular exactamente el valor de la MEDIANA?
N
Me = Li −1
+ 2
− Ni −1
ni
li
¿Podemos calcularla para DATOS CUALITATIVOS?
@Blanca Arteaga (Departamento de Estadística)
11
MEDIDAS DE CENTRALIZACIÓN(3)
LA MEDIA ARITMÉTICA: (Cuando los datos no están agrupados en intervalos)
Es el PROMEDIO de los valores de la muestra
7
11
10
7
2
2
7
11
5
5
7
3
4
5
8
11
8
7
7
¿Qué valor toma la media?
1.
Sumamos los datos.
2.
Los dividimos por el número total de datos (N).
N
X =
xi
∑
i
=1
=
N
x 1+x 2 + ... + x N
N
@Blanca Arteaga (Departamento de Estadística)
LA MEDIA ARITMÉTICA: (Cuando los datos están agrupados en intervalos)
Clases
ni
[0,5)
[5,10)
[10,15)
[15,20)
[20,25)
[25,30)
13
11
6
2
1
3
Marca de clase
El valor de la media con los datos agrupados en intervalos utiliza la marca de clase.
¿Podemos calcularla para DATOS CUALITATIVOS?
@Blanca Arteaga (Departamento de Estadística)
12
La MEDIA ARITMÉTICA para datos agrupados en intervalos es entonces:
K
X =
xi ni
∑
i
=1
N
, siendo "k" el nº de intervalos
MEDIDAS DE CENTRALIZACIÓN(4)
LA MEDIA PONDERADA: (Cuando los datos no están agrupados en intervalos)
Es el PROMEDIO de los valores de la muestra, dando mayor
importancia a unos datos frente a otros
Para la calificación final de una asignatura, se tendrán en cuenta:
1. Nota del examen final: 70%
2. Trabajos y ejercicios: 20%
3. Asistencia: 10%
Un alumno que tuvo un “6” en el examen final; un “7” en trabajos; y, asistió todos
los días a clase, por lo tanto un “10”, ¿cuál será su nota final en la asignatura?
@Blanca Arteaga (Departamento de Estadística)
MEDIDAS DE CENTRALIZACIÓN(5)
LOS CUANTILES: (Cuando los datos no están agrupados en intervalos)
Nos divide en conjunto de datos en k partes.
Si por EJEMPLO tenemos diez datos (N=10), y queremos hacer cuatro partes (k=4),
necesitamos tres marcas (c1, c2 y c3)
Cuando k=4, se llaman CUARTILES; cuando k=10, DECILES; y cuando
k=100, CENTILES.
@Blanca Arteaga (Departamento de Estadística)
13
CÁLCULO DE CUARTILES
Tenemos el siguiente conjunto de datos:
47
72
1.
2.
3.
4.
52
72
52
78
57
81
63
81
64
86
69
91
71
Ordenamos los datos de menor a mayor.
Calculamos c2 , que ocupa la posición correspondiente a la “mitad”,
¿con qué parámetro visto ya coincide este segundo cuartil?
Ahora calculamos, la mitad de la primera parte: c1 .
Y la mitad de la segunda parte: c3
Posición de c1 = (N+1)/4
Posición de c2 = 2(N+1)/4 = (N+1)/2
Posición de c3 = 3(N+1)/4
@Blanca Arteaga (Departamento de Estadística)
REPRESENTACIÓN GRÁFICA UTILIZANDO LOS CUARTILES
“El diagrama de caja”
Utilizando el anterior conjunto de datos:
1.
Los cálculos:
Primer cuartil: 57
Segundo cuartil: 71
Tercer cuartil: 81
Media aritmética: 69,0667
2. Hay datos que pueden provenir de observaciones “mal tomadas”: datos atípicos.
Para detectarlas, calculamos:
LI=c1-1,5(c3-c1)
LS=c3+1,5(c3-c1)
Box-and-Whisker Plot
47
57
67
77
87
97
@Blanca Arteaga (Departamento de Estadística)
14
EJERCICIO 5: DIAGRAMA DE CAJA
56
59
59
61
67
69
73
76
76
80
83
83
84
90
94
Construir el diagrama de caja para el anterior conjunto de datos.
@Blanca Arteaga (Departamento de Estadística)
EJERCICIO 6: DIAGRAMA DE CAJA
35
45
45
55
57
62
64
64
64
65
73
74
74
76
78
80
82
84
86
92
92
92
93
94
97
112
116
116
123
123
124
128
140
143
173
214
255
277
Construir el diagrama de caja para el anterior conjunto de datos.
@Blanca Arteaga (Departamento de Estadística)
15
MEDIDAS DE DISPERSIÓN (1)
LA VARIANZA
PRIMER CONJUNTO DE DATOS
(Salarios anuales en € de la empresa A)
30700
32500
32900
33800
34100
34500
36000
SEGUNDO CONJUNTO DE DATOS
(Salarios anuales en € de la empresa B)
27500
31600
31700
33800
35300 34000
40600
Vamos a calcular: MEDIA y MEDIANA de
ambos conjuntos de datos:
Observa ahora las representaciones gráficas.
Señala media y mediana.
¿Tenemos suficiente información?
@Blanca Arteaga (Departamento de Estadística)
Parece que la diferencia son las DISTANCIAS A LA MEDIA, vamos a
calcularlas.
x i- X
Empresa A
Empresa B
x i- X
30700
-2800
27500
-6000
32500
-1000
31600
-1900
32900
-600
31700
-1800
33800
300
33800
300
34100
600
34000
500
34500
1000
35300
1800
36000
2500
40600
7100
¿Cuánto suman nuestras dos nuevas columnas?
NUEVA PROPIEDAD:
(x i
∑
i
N
=1
)
−X = 0
¿Por qué sucede esto? ¿Podemos solucionarlo de alguna manera?
@Blanca Arteaga (Departamento de Estadística)
16
Modificamos nuestro cálculo:
Empresa A
Empresa B
30700
7840000
27500
36000000
32500
1000000
31600
3610000
32900
360000
31700
3240000
33800
90000
33800
90000
34100
360000
34000
3240000
34500
1000000
35300
250000
36000
6250000
40600
50410000
16900000
96840000
¿Qué hacemos para poder compararlas?
NUEVA DEFINICIÓN:
(xi
∑
i
N
=1
−X
)
¿Qué indica este
nuevo parámetro?
2
N
= σ2
¿Qué unidades tiene este nuevo parámetro? ¿Podemos cambiarlas?
@Blanca Arteaga (Departamento de Estadística)
MEDIDAS DE DISPERSIÓN (2)
EL COEFICIENTE DE VARIACIÓN
Cuando la media sea distinta de “0”, podemos calcular:
CV =
Nos permite comparar, porque no tiene unidades.
σ
X
¿Para qué nos sirve con una única base de datos?
EJERCICIO 7:
Analizamos el volumen de consultas durante el periodo de exámenes en 10
bibliotecas universitarias, y se comparan con las anotadas el año anterior. El %
de incremento de consultas fue:
10.2
2.9
3.1
6.8
5.9
7.3
7.0
8.2
3.7
4.3
¿Son los datos homogéneos?
@Blanca Arteaga (Departamento de Estadística)
17
MEDIDAS DE DISPERSIÓN (3)
EL RANGO O RECORRIDO
Lo calculamos como la diferencia entre el mayor y el menor de los datos.
MEDIDAS DE DISPERSIÓN (4)
EL RANGO INTERCUARTÍLICO
Lo calculamos como la diferencia entre el tercero y el primero de los
cuartiles.
EJERCICIO 8:
Calcula estas dos medidas para el EJERCICIO 6.
@Blanca Arteaga (Departamento de Estadística)
MEDIDAS DE POSICIÓN (1)
ASIMETRÍA
Podemos verlo gráficamente:
La distribución es simétrica, la media deja por delante el
mismo nº de observaciones que por detrás.
Asimétrica dcha.: los valores bajos son los más frecuentes.
Asimétrica izq.: los valores mayores son los más frecuentes.
@Blanca Arteaga (Departamento de Estadística)
18
MEDIDAS DE POSICIÓN (2)
COEFICIENTES DE ASIMETRÍA
Haciendo cálculos:
1. COEFICIENTE DE ASIMETRÍA DE PEARSON:
CA =
CA=0
CA>0
CA<0
X − Mo
σ
Simétrica
Asimétrica dcha.
Asimétrica izq.
2. COEFICIENTE DE ASIMETRÍA DE FISHER (cuando existe más de una moda):
N
CA =
(xi
∑
i
=1
−x)
Nσ 3
3
=
m3
σ3
@Blanca Arteaga (Departamento de Estadística)
MEDIDAS DE POSICIÓN (3)
APUNTAMIENTO
Podemos verlo gráficamente, comparándola con la curva normal:
Un apuntamiento mayor significa una menor dispersión.
COEFICIENTE DE CURTOSIS DE FISHER:
N
CAP =
∑ (x
i =1
−x)
CAP = 0 (mesocúrtica)
4
i
Nσ 4
−3
CAP > 0 (leptocúrtica)
CAP < 0 (platicúrtica)
@Blanca Arteaga (Departamento de Estadística)
19
EJERCICIO 9: Resumen de todo lo expuesto en los temas anteriores
Trabaja con la siguiente base de datos (calificaciones de un grupo de alumn@s):
100
112
88
105
100
102
98
113
102
87
93
93
117
100
98
92
100
117
97
100
83
67
76
100
106
117
89
83
100
109
109
93
105
108
104
63
81
109
100
98
@Blanca Arteaga (Departamento de Estadística)
20
Descargar