3 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 3 3.1 1 Transformaciones. Ejemplos. Ejemplos Ejemplo 3.1 Se consideran los siguientes datos, correspondientes a la tasa de incrementos de precios al consumo, en 1985, para 24 paı́ses de la OCDE: 2.2 7.4 5.5 16.3 7.6 3.2 32.7 15.9 2.9 5.1 9.1 5.9 4.6 5.3 1.7 6.7 4.1 20.1 3.2 3.4 3.9 2.3 5.8 40.5 Considerar la transformación logarı́tmica y comparar ambas variables. Respuesta: Llamamos X a los datos sin transformar e Y = log(X) a los datos transformados. La tabla 1 contiene estos datos ordenados. Table 1: Datos del ejemplo 3.1. paı́s 1 2 3 4 5 6 7 8 9 10 11 12 x y = log(x) paı́s x y = log(x) 1.7 0.53 13 5.5 1.70 2.2 0.79 14 5.8 1.76 2.3 0.83 15 5.9 1.77 2.9 1.06 16 6.7 1.90 3.2 1.16 17 7.4 2.00 3.2 1.16 18 7.6 2.03 3.4 1.22 19 9.1 2.21 3.9 1.36 20 15.9 2.77 4.1 1.41 21 16.3 2.79 4.6 1.53 22 20.1 3.00 5.1 1.63 23 32.7 3.49 5.3 1.67 24 40.5 3.70 Si se dibujan los histogramas de frecuencias (véase la figura 1), se observa que la variable X presenta una fuerte asimetrı́a positiva: la mayor parte de los paı́ses tienen valores por debajo de 10 y unos pocos un valor de mucho mayor. En cambio, el histograma de la variable Y muestra una distribución simétrica. Si se dibujan los diagramas de caja (véase la figura 2), para la variable X se obtienen numerosos datos atı́picos y atı́picos extremos, mientras que para 3 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 2 Figure 1: Histograma de frecuencias absolutas con los datos del ejemplo 3.1. 18 15 12 9 6 3 0 8.2 16.4 24.6 32.8 41 2.4 3.2 4 X 10 8 6 4 2 0 0.8 1.6 Y = log(X) la variable Y los atı́picos extremos desaparecen. Las medidas numéricas necesarias para dibujar los diagramas de caja se encuentran en la tabla 2. 3 3 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Table 2: Medidas numéricas con los datos del ejemplo 3.1. medidas numéricas X Y = log(X) Q1 3.2 1.16 cuartiles M e = Q2 5.4 1.685 Q3 7.6 2.03 RI = Q3 − Q1 4.4 0.87 1as y 2as Q1 − 1.5 RI -3.4 -0.145 barreras Q3 + 1.5 RI 14.2 3.335 exteriores Q3 + 3 RI 20.8 4.64 (∗) mı́nimo 1.7 0.53 máximo(∗) 9.1 3.00 media 8.975 1.812 (*) el mı́nimo y el máximo de los datos antes de las primeras barreras exteriores. Figure 2: Diagramas de caja con los datos del ejemplo 3.1. + 0 10 bb u 20 30 X u 40 u u + 50 0 1 2 Y = log(X) 3 4 Ejemplo 3.2. El número de días que 9 trabajadores escogidos al azar de una empresa han estado de baja son los siguientes: 15 7 8 85 19 12 8 22 14. • Representa este conjunto de datos mediante un diagrama de caja (box-plot). ¿Se detecta algún valor atípico? Diagrama de caja para X=”días de baja” Box-and-Whisker Plot 0 20 40 60 80 100 dias de baja • ¿Qué se puede decir de la asimetría de estos datos? • ¿Qué transformaciones conoces que creas que puedan ser útiles para simetrizar estos datos? • ¿La transformación X2 es adecuada para corregir este tipo de asimetría? Diagrama de caja para X2: Box-and-Whisker Plot 0 2 4 cuadrado_dias 6 8 (X 1000) • ¿La transformación X1/2 es suficiente para corregir la asimetría? Diagrama de caja para X1/2: Box-and-Whisker Plot 2,6 4,6 6,6 raiz_dias 8,6 10,6 • ¿Y la transformación log(X)? Diagrama de caja para log(X): Box-and-Whisker Plot 1,9 2,4 2,9 3,4 log_dias 3,9 4,4 4,9 • ¿Y la transformación 1/X? Diagrama de caja para 1/X: Box-and-Whisker Plot 0 0,03 0,06 0,09 inversa_dias 0,12 0,15 Transformaciones no lineales más frecuentes