3 Transformaciones. Ejemplos. pa´ıs xy = log(x)

Anuncio
3 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
3
3.1
1
Transformaciones. Ejemplos.
Ejemplos
Ejemplo 3.1 Se consideran los siguientes datos, correspondientes a la tasa
de incrementos de precios al consumo, en 1985, para 24 paı́ses de la OCDE:
2.2
7.4
5.5
16.3
7.6
3.2
32.7
15.9
2.9
5.1
9.1
5.9
4.6
5.3
1.7
6.7
4.1
20.1
3.2
3.4
3.9
2.3
5.8
40.5
Considerar la transformación logarı́tmica y comparar ambas variables.
Respuesta: Llamamos X a los datos sin transformar e Y = log(X) a los
datos transformados. La tabla 1 contiene estos datos ordenados.
Table 1: Datos del ejemplo 3.1.
paı́s
1
2
3
4
5
6
7
8
9
10
11
12
x y = log(x) paı́s x y = log(x)
1.7
0.53
13 5.5
1.70
2.2
0.79
14 5.8
1.76
2.3
0.83
15 5.9
1.77
2.9
1.06
16 6.7
1.90
3.2
1.16
17 7.4
2.00
3.2
1.16
18 7.6
2.03
3.4
1.22
19 9.1
2.21
3.9
1.36
20 15.9
2.77
4.1
1.41
21 16.3
2.79
4.6
1.53
22 20.1
3.00
5.1
1.63
23 32.7
3.49
5.3
1.67
24 40.5
3.70
Si se dibujan los histogramas de frecuencias (véase la figura 1), se observa
que la variable X presenta una fuerte asimetrı́a positiva: la mayor parte de
los paı́ses tienen valores por debajo de 10 y unos pocos un valor de mucho
mayor. En cambio, el histograma de la variable Y muestra una distribución
simétrica.
Si se dibujan los diagramas de caja (véase la figura 2), para la variable X
se obtienen numerosos datos atı́picos y atı́picos extremos, mientras que para
3 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
2
Figure 1: Histograma de frecuencias absolutas con los datos del ejemplo 3.1.
18
15
12
9
6
3
0
8.2
16.4
24.6
32.8
41
2.4
3.2
4
X
10
8
6
4
2
0
0.8
1.6
Y = log(X)
la variable Y los atı́picos extremos desaparecen. Las medidas numéricas
necesarias para dibujar los diagramas de caja se encuentran en la tabla 2.
3
3 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
Table 2: Medidas numéricas con los datos del ejemplo 3.1.
medidas numéricas
X
Y = log(X)
Q1
3.2
1.16
cuartiles M e = Q2
5.4
1.685
Q3
7.6
2.03
RI = Q3 − Q1
4.4
0.87
1as y 2as Q1 − 1.5 RI
-3.4
-0.145
barreras Q3 + 1.5 RI
14.2
3.335
exteriores Q3 + 3 RI
20.8
4.64
(∗)
mı́nimo
1.7
0.53
máximo(∗)
9.1
3.00
media
8.975
1.812
(*) el mı́nimo y el máximo de los datos antes de las primeras barreras exteriores.
Figure 2: Diagramas de caja con los datos del ejemplo 3.1.
+
0
10
bb
u
20
30
X
u
40
u u
+
50
0
1
2
Y = log(X)
3
4
Ejemplo 3.2. El número de días que 9 trabajadores escogidos al azar de una empresa han estado de baja son
los siguientes:
15 7
8
85 19 12 8
22 14.
• Representa este conjunto de datos mediante un diagrama de caja (box-plot). ¿Se detecta algún valor
atípico?
Diagrama de caja para X=”días de baja”
Box-and-Whisker Plot
0
20
40
60
80
100
dias de baja
• ¿Qué se puede decir de la asimetría de estos datos?
• ¿Qué transformaciones conoces que creas que puedan ser útiles para simetrizar estos datos?
• ¿La transformación X2 es adecuada para corregir este tipo de asimetría?
Diagrama de caja para X2:
Box-and-Whisker Plot
0
2
4
cuadrado_dias
6
8
(X 1000)
• ¿La transformación X1/2 es suficiente para corregir la asimetría?
Diagrama de caja para X1/2:
Box-and-Whisker Plot
2,6
4,6
6,6
raiz_dias
8,6
10,6
• ¿Y la transformación log(X)?
Diagrama de caja para log(X):
Box-and-Whisker Plot
1,9
2,4
2,9
3,4
log_dias
3,9
4,4
4,9
• ¿Y la transformación 1/X?
Diagrama de caja para 1/X:
Box-and-Whisker Plot
0
0,03
0,06
0,09
inversa_dias
0,12
0,15
Transformaciones no lineales más frecuentes
Descargar