PRÁCTICA 1b: ESTADÍSTICA DESCRIPTICA UNIDIMENSIONAL Abre el fichero Temperaturas. En él se recogen registros de temperaturas (Temp1 y Temp2) correspondientes a dos zonas, una de ellas cálida (A, correspondiente a Temp1) y otra fría (B, correspondiente a Temp2). Para los datos correspondientes a Temp1: 1.- Calcula media, moda y mediana; valora su proximidad y explícalo a partir de la normalidad de la variable. Descripción + Datos Numéricos + Análisis Unidimensional. El sumario estadístico aparece abajo a la izquierda. Resumen Estadístico para Temp1 Frecuencia = 30 Media = 32,9667 Mediana = 32,0 Moda = 32,0 Varianza = 12,9989 Desviación típica = 3,60539 Mínimo = 26,0 Máximo = 43,0 Rango = 17,0 Asimetría tipi. = 1,5031 Curtosis típificada = 1,06057 Coef. de variación = 10,9365% Media, moda y mediana están próximas entre sí. Obsérvese que la asimetría y curtosis tipificadas están entre -2 y 2, luego la variable puede considerarse normal. Por lo tanto, es lógico que las tres medidas de tendencia central sean muy próximas. 2.- Calcula varianza, desviación típica y coeficiente de variación; interpreta este último. Véase el ejercicio anterior. El CV es pequeño; por lo tanto, las temperaturas son poco dispersas (bastante homogéneas). 3.- Dibuja el diagrama de cajas, y localiza los datos atípicos, si los hay. Vuelve a calcular la media, la desviación típica y el coeficiente de variación excluyendo el dato atípico. ¿Hay alguna variación? ¿Cabía esperarlas? ¿Aparece ahora algún dato atípico? (NOTA: cuando hayas realizado el ejercicio, borra la condición que hayas introducido para quitar el atípico que aparecía inicialmente, de modo que sea incluido en los ejercicios que vienen a continuación) Gráfico de Caja y Bigotes 26 29 32 35 38 41 44 Temp1 Aparece un atípico (en la fila 12); se trata de una temperatura anormalmente alta. Si excluimos el dato atípico (por ejemplo, en Selección podemos escribir Temp1<43), el nuevo conjunto de datos no posee ya ningún atípico. El sumario estadístico ahora es Frecuencia = 29 Media = 32,6207 Mediana = 32,0 Moda = 32,0 Varianza = 9,74384 Desviación típica = 3,12151 Mínimo = 26,0 Máximo = 40,0 Rango = 14,0 Asimetría tipi. = 0,352249 Curtosis típificada = -0,137946 Coef. de variación = 9,56912% Lo más llamativo es la reducción en los coeficientes de asimetría y curtosis, que ahora están muy próximos a cero. 4.- Visualiza las clases en las que Statgraphics ha agrupado los datos, e indica en qué porcentaje de días se rebasaron los 35 grados. Botón amarillo + tabla de frecuencias. Por defecto aparece la tabla siguiente, Tabla de Frecuencias para Temp1 -------------------------------------------------------------------------------Límite Límite Frecuencia Frecuencia Frecuencia Clase Inferior Superior Marca Frecuencia Relativa Acumulativa Acum.Rel. -------------------------------------------------------------------------------menor o igual 25,0 0 0,0000 0 0,0000 1 25,0 28,3333 26,6667 2 0,0667 2 0,0667 2 28,3333 31,6667 30,0 9 0,3000 11 0,3667 3 31,6667 35,0 33,3333 12 0,4000 23 0,7667 4 35,0 38,3333 36,6667 5 0,1667 28 0,9333 5 38,3333 41,6667 40,0 1 0,0333 29 0,9667 6 41,6667 45,0 43,3333 1 0,0333 30 1,0000 mayor 45,0 0 0,0000 30 1,0000 -------------------------------------------------------------------------------Media = 32,9667 Desviación típica = 3,60539 El porcentaje pedido se puede calcular como (0,1667+0,0333+0,0333)*100, o bien (1-0,7667)*100. En ambos casos se obtiene 23.33%. 5.- Visualiza el histograma, y el gráfico de densidad suavizada. ¿Sugiere el gráfico algún tipo de asimetría? A pesar de ello, ¿podríamos aceptar, a partir de los coeficientes de asimetría tipificada y curtosis tipificada, que los datos provienen de una población normal? Visualiza el gráfico de caja y bigotes: ¿cómo se plasma la asimetría en dicho gráfico? Todos los gráficos sugieren asimetría a la derecha (obsérvese que el valor del coeficiente de asimetría, positivo, indica lo mismo). 6.- Calcula la temperatura que fue rebasada en el 85% de ocasiones. Calcula la temperatura por debajo de la cuál se mantuvo la temperatura del 65% de los días. Botón derecho + percentiles. La temperatura rebasada en el 85% de ocasiones es el percentil 15. La temperatura por debajo de cuál quedó el 65% de los días, es el percentil 65. Como ninguno de estos percentiles se muestra directamente, pulsamos botón derecho + opciones de ventana; incluimos 15 y 65. La primera temperatura pedida es, entonces, de 30º C, y la segunda, de 35º C. 7.- Visualiza el diagrama de dispersión correspondiente a Temp1. Utilizando la barra localizadora, separa las temperaturas menores o iguales que 29º C (coloréalas primero); indica a qué filas corresponden (recuerda que para poder visualizar la información referente a cada punto tienes que cambiar de la opción localizar, a la opción seleccionar). Idem para las temperaturas superiores a 38ºC. El diagrama de dispersión aparece arriba, a la derecha. Para colorear las temperaturas, botón colorear + Temp1<=29. Verás que aparecen cuatro. Después, para separarlas botón derecho + localizar; mueve la barra localizadora hasta que las cuatro temperaturas queden a su izquierda. Finalmente, botón derecho + seleccionar y al pinchar sobre cada una de esas cuatro temperaturas verás qué fila le corresponde a cada una (7, 8, 18, 29). Análogamente para las temperaturas superiores a 38 ºC; en este caso, aparecen dos temperaturas superiores a 38 º C. 8.- Calcula el valor de la desviación típica de Temp2. ¿Podríamos, a partir de las desviaciones típicas de Temp1 y Temp2, identificar en cuál de las dos zonas está más dispersa la temperatura? ¿Por qué? Para Temp2, Resumen Estadístico para Temp2 Frecuencia = 30 Media = 2,16667 Mediana = 2,0 Moda = 1,0 Varianza = 6,6954 Desviación típica = 2,58755 Mínimo = -2,0 Máximo = 8,0 Rango = 10,0 Asimetría tipi. = 1,07663 Curtosis típificada = -0,35414 Coef. de variación = 119,425% Las medias de Temp1 y Temp2 son muy distintas. Por lo tanto, no podemos comparar sus dispersiones mediantes las desviaciones típicas. 9.- Observa que el coeficiente de variación de Temp2 es anormalmente alto. El histograma, sin embargo, no revela una dispersión exagerada… ¿A qué puede ser debido, entonces? El coeficiente de variación de Temp2 es elevadísimo. Sin embargo, el histograma es Histograma frecuencia 10 8 6 4 2 0 -3 -1 1 3 5 7 9 Temp2 que indica una dispersión razonable. Lo que sucede es que los datos de Temp2 son positivos y negativos, y en consecuencia la media no da una idea clara de la magnitud de los datos. En estas circunstancias (cuando los datos tienen distinto signo) no es aconsejable utilizar el coeficiente de variación, precisamente porque se pueden producir distorsiones (la media puede quedar muy próxima a cero, dando en consecuencia un valor muy elevado para CV que no tiene por qué corresponder a una elevada dispersión). Para Temp2, 10.- Calcula media, moda y mediana. Valora su proximidad y explícalo a partir de la asimetría de la variable. Media = 2,16667 Mediana = 2,0 Moda = 1,0 La moda es diferente de media y mediana, debido a que aparece asimetría a la derecha. 11.- Dibuja el diagrama de cajas. ¿Hay datos atípicos? No aparecen atípicos. El diagrama de caja y bigotes sugiere asimetría a la derecha. 12.- Calcula el rango. ¿Qué significa? ¿Cuál es el rango de Temp1? Si tuviéramos que comparar las dispersiones de Temp1 y Temp2 únicamente a partir de los rangos (lo cuál no es recomendable), ¿qué podríamos decir? El rango es 10, lo cuál indica una diferencia de 10 grados entre la mayor y la menor de las temperaturas observadas (puede comprobarse que de hecho la mayor temperatura es 8ºC y la menor, -2ºC). El rango de Temp1 es de 17. Fijándonos únicamente en los rangos, cabría decir que siendo el rango de Temp1 mayor que el de Temp2, Temp1 podría estar más dispersa. Sin embargo, para comparar dispersiones no es adecuado mirar únicamente los rangos; es necesario utilizar otras medidas. 13.- Visualiza el histograma. ¿Sugiere el gráfico algún tipo de asimetría? A pesar de ello, ¿podríamos aceptar, a partir de los coeficientes de asimetría tipificada y curtosis tipificada, que los datos provienen de una población normal? El histograma sugiere asimetría a la derecha. En cualquier caso, los coeficientes de asimetría y curtosis estandarizados apoyan que la distribución de los datos es normal. 14.- Visualiza las clases en las que Statgraphics ha agrupado los datos ¿En qué porcentaje de días se rebasaron los 3 grados? ¿Y los 4,5? (para esta segunda pregunta, botón derecho + opciones de ventana; en Límite inferior, introduce 4.5; uno menos la frecuencia relativa de la primera clase, multiplicada por 100, te dará la respuesta). Botón amarillo + tablas de frecuencias. Puesto que la frecuencia acumulada relativa de la clase anterior a la clase [3,5) es de 0.7333, quiere decirse que a partir de 3º C tenemos el (1-0.7333)*100 % de los datos: 26.67%. A partir de 4.5 º C, tenemos el 20% de los datos. 15.- Calcula la temperatura que en B fue rebasada únicamente en un 10% de ocasiones. Es el percentil 90. Su valor es 6. 16.- Sigue la ruta Descripción + Datos Cualitativos + Tabulación para construir un gráfico de sectores a partir de los valores de la variable Temp2. Identifica rápidamente la moda a partir de dicho gráfico de sectores. Descripción + datos cualitativos + tabulación. La moda corresponde al sector más amplio (1º C). 17.- A partir de la ruta del ejercicio anterior, indica las frecuencias de las temperaturas de Temp2, y el porcentaje de días en los que la temperatura fue de 1 grado. Tabla de Frecuencias para Temp2 -----------------------------------------------------------------------Frecuencia Frecuencia Frecuencia Clase Valor Frecuencia Relativa Acumulativa Acum.Rel. -----------------------------------------------------------------------1 -2 2 0,0667 2 0,0667 2 -1 2 0,0667 4 0,1333 3 0 4 0,1333 8 0,2667 4 1 6 0,2000 14 0,4667 5 2 4 0,1333 18 0,6000 6 3 4 0,1333 22 0,7333 7 4 2 0,0667 24 0,8000 8 5 2 0,0667 26 0,8667 9 6 2 0,0667 28 0,9333 10 7 1 0,0333 29 0,9667 11 8 1 0,0333 30 1,0000 ------------------------------------------------------------------------ El porcentaje de días en los que se registró 1º C de temperatura, fue 0.200 * 100 = 20%. 18.- Para comparar las dispersiones de A y B, vamos a hacer lo siguiente: a) Localiza el mínimo de las temperaturas en B; comprueba que es -2.0. b) Genera DOS nuevas variables (llámalas TtempA y TtempB) que sean TtempA:= Temp1 + 3, TtempB:= Temp2 +3. Es decir, estas variables son el resultado de sumar tres grados centígrados a cada una de las temperaturas observadas. Date cuenta de que esto no es más que un cambio de escala (en lugar de poner el cero de temperaturas donde está, lo ponemos tres grados más abajo). c) Se puede demostrar que al sumar a todos los datos de una misma variable un cierto número, la media de la nueva variable es la anterior, aumentada en esa cantidad que estamos sumando; sin embargo, la varianza y la desviación típica no varían. Comprueba esto en las nuevas variables que has creado. d) Calcula los coeficientes de variación y decide, en base a ellos, si hay mayor dispersión en A o en B. e) ¿Se mantiene la conclusión del apartado anterior si en lugar de sumar 3 a cada temperatura, sumamos 10, ó 20? a) El mínimo puede verse en el Sumario estadístico. b) Para generar una nueva variable, acudimos a la hoja de datos, marcamos una nueva columna, hacemos doble clic e introducimos el nombre de la variable (aún no introducimos valores). Cuando hayamos hecho esto (por ejemplo, para TtempA), botón derecho + generar datos; en expresión, introducimos, para TtempA, Temp1 + 3 (análogamente para la otra variable). c) Comprobamos que efectivamente es cierto. d) El CV para TtempA es 10.0243%; el de TtempB es de 50.08%. Por lo tanto, diríamos que la dispersión es mayor en B. e) Sí. 19.- Crea las nuevas variables TA:=2*Temp1 + 1; TB:=2*Temp2 +1. Compara los histogramas de Temp1 y TA, así como los de Temp2 y TB. ¿Qué sucede? Crea ahora la variable TC:= Temp2^2, y compara los histogramas de Temp2 y TC. ¿Qué sucede ahora? ¿Puede decirse que las transformaciones lineales preservan la forma de los datos, mientras que otras transformaciones –por ejemplo, cuadráticas- la alteran? Los histogramas correspondientes a TA, TB muestran la misma forma que los correspondientes a Temp1 y Temp2. Sin embargo, los histogramas correspondientes a Temp2 y TC son diferentes. Las transformaciones lineales son aquellas que responden a una fórmula del tipo Y= a*X+ b; por ejemplo, tomando Y=TA, X=Temp1, TA=2*Temp1+1 es un ejemplo de transformación lineal. Estas transformaciones preservan la distribución de X (es decir, si X es una variable normal, Y también lo será). El resto de las transformaciones (es decir, aquellas que no son lineales) en general no preservan la forma de la variable. Por ejemplo, las transformaciones cuadráticas, que son las que responden a una fórmula del tipo Y = X 2, alteran la forma de X. Eso puede ser ventajoso, por ejemplo porque deseemos pasar de unos datos que no son normales, a otros que sí lo sean. 20.- ¿Es posible que la media de un conjunto de datos sea negativa? ¿Y la desviación típica? ¿Y la cuasivarianza? ¿Y el coeficiente de asimetría? La media puede ser negativa si los datos lo son. La varianza es positiva o nula (únicamente en el caso de que todos los datos coincidan); la desviación típica no puede ser negativa porque es la raíz cuadrada de la varianza. La cuasivarianza tampoco puede ser negativa (es el cociente de una suma de cuadrados y una cantidad positiva). El coeficiente de asimetría sí puede ser negativo, si hay asimetría a la izquierda.