PRÁCTICA 1b: ESTADÍSTICA DESCRIPTICA UNIDIMENSIONAL

Anuncio
PRÁCTICA 1b: ESTADÍSTICA DESCRIPTICA UNIDIMENSIONAL
Abre el fichero Temperaturas. En él se recogen registros de temperaturas (Temp1 y Temp2) correspondientes a dos
zonas, una de ellas cálida (A, correspondiente a Temp1) y otra fría (B, correspondiente a Temp2).
Para los datos correspondientes a Temp1:
1.- Calcula media, moda y mediana; valora su proximidad y explícalo a partir de la normalidad de la variable.
Descripción + Datos Numéricos + Análisis Unidimensional. El sumario estadístico aparece abajo a la izquierda.
Resumen Estadístico para Temp1
Frecuencia = 30
Media = 32,9667
Mediana = 32,0
Moda = 32,0
Varianza = 12,9989
Desviación típica = 3,60539
Mínimo = 26,0
Máximo = 43,0
Rango = 17,0
Asimetría tipi. = 1,5031
Curtosis típificada = 1,06057
Coef. de variación = 10,9365%
Media, moda y mediana están próximas entre sí. Obsérvese que la asimetría y curtosis tipificadas están entre -2 y 2,
luego la variable puede considerarse normal. Por lo tanto, es lógico que las tres medidas de tendencia central sean muy
próximas.
2.- Calcula varianza, desviación típica y coeficiente de variación; interpreta este último.
Véase el ejercicio anterior. El CV es pequeño; por lo tanto, las temperaturas son poco dispersas (bastante
homogéneas).
3.- Dibuja el diagrama de cajas, y localiza los datos atípicos, si los hay. Vuelve a calcular la media, la desviación típica
y el coeficiente de variación excluyendo el dato atípico. ¿Hay alguna variación? ¿Cabía esperarlas? ¿Aparece ahora
algún dato atípico? (NOTA: cuando hayas realizado el ejercicio, borra la condición que hayas introducido para quitar
el atípico que aparecía inicialmente, de modo que sea incluido en los ejercicios que vienen a continuación)
Gráfico de Caja y Bigotes
26
29
32
35
38
41
44
Temp1
Aparece un atípico (en la fila 12); se trata de una temperatura anormalmente alta. Si excluimos el dato atípico (por
ejemplo, en Selección podemos escribir Temp1<43), el nuevo conjunto de datos no posee ya ningún atípico. El
sumario estadístico ahora es
Frecuencia = 29
Media = 32,6207
Mediana = 32,0
Moda = 32,0
Varianza = 9,74384
Desviación típica = 3,12151
Mínimo = 26,0
Máximo = 40,0
Rango = 14,0
Asimetría tipi. = 0,352249
Curtosis típificada = -0,137946
Coef. de variación = 9,56912%
Lo más llamativo es la reducción en los coeficientes de asimetría y curtosis, que ahora están muy próximos a cero.
4.- Visualiza las clases en las que Statgraphics ha agrupado los datos, e indica en qué porcentaje de días se rebasaron
los 35 grados.
Botón amarillo + tabla de frecuencias. Por defecto aparece la tabla siguiente,
Tabla de Frecuencias para Temp1
-------------------------------------------------------------------------------Límite
Límite
Frecuencia Frecuencia Frecuencia
Clase Inferior Superior
Marca
Frecuencia Relativa Acumulativa Acum.Rel.
-------------------------------------------------------------------------------menor o igual
25,0
0
0,0000
0
0,0000
1
25,0
28,3333
26,6667
2
0,0667
2
0,0667
2
28,3333
31,6667
30,0
9
0,3000
11
0,3667
3
31,6667
35,0
33,3333
12
0,4000
23
0,7667
4
35,0
38,3333
36,6667
5
0,1667
28
0,9333
5
38,3333
41,6667
40,0
1
0,0333
29
0,9667
6
41,6667
45,0
43,3333
1
0,0333
30
1,0000
mayor
45,0
0
0,0000
30
1,0000
-------------------------------------------------------------------------------Media = 32,9667
Desviación típica = 3,60539
El porcentaje pedido se puede calcular como (0,1667+0,0333+0,0333)*100, o bien (1-0,7667)*100. En ambos casos se
obtiene 23.33%.
5.- Visualiza el histograma, y el gráfico de densidad suavizada. ¿Sugiere el gráfico algún tipo de asimetría? A pesar de
ello, ¿podríamos aceptar, a partir de los coeficientes de asimetría tipificada y curtosis tipificada, que los datos
provienen de una población normal? Visualiza el gráfico de caja y bigotes: ¿cómo se plasma la asimetría en dicho
gráfico?
Todos los gráficos sugieren asimetría a la derecha (obsérvese que el valor del coeficiente de asimetría, positivo, indica
lo mismo).
6.- Calcula la temperatura que fue rebasada en el 85% de ocasiones. Calcula la temperatura por debajo de la cuál se
mantuvo la temperatura del 65% de los días.
Botón derecho + percentiles. La temperatura rebasada en el 85% de ocasiones es el percentil 15. La temperatura por
debajo de cuál quedó el 65% de los días, es el percentil 65. Como ninguno de estos percentiles se muestra
directamente, pulsamos botón derecho + opciones de ventana; incluimos 15 y 65. La primera temperatura pedida es,
entonces, de 30º C, y la segunda, de 35º C.
7.- Visualiza el diagrama de dispersión correspondiente a Temp1. Utilizando la barra localizadora, separa las
temperaturas menores o iguales que 29º C (coloréalas primero); indica a qué filas corresponden (recuerda que para
poder visualizar la información referente a cada punto tienes que cambiar de la opción localizar, a la opción
seleccionar). Idem para las temperaturas superiores a 38ºC.
El diagrama de dispersión aparece arriba, a la derecha. Para colorear las temperaturas, botón colorear + Temp1<=29.
Verás que aparecen cuatro. Después, para separarlas botón derecho + localizar; mueve la barra localizadora hasta que
las cuatro temperaturas queden a su izquierda. Finalmente, botón derecho + seleccionar y al pinchar sobre cada una de
esas cuatro temperaturas verás qué fila le corresponde a cada una (7, 8, 18, 29). Análogamente para las temperaturas
superiores a 38 ºC; en este caso, aparecen dos temperaturas superiores a 38 º C.
8.- Calcula el valor de la desviación típica de Temp2. ¿Podríamos, a partir de las desviaciones típicas de Temp1 y
Temp2, identificar en cuál de las dos zonas está más dispersa la temperatura? ¿Por qué?
Para Temp2,
Resumen Estadístico para Temp2
Frecuencia = 30
Media = 2,16667
Mediana = 2,0
Moda = 1,0
Varianza = 6,6954
Desviación típica = 2,58755
Mínimo = -2,0
Máximo = 8,0
Rango = 10,0
Asimetría tipi. = 1,07663
Curtosis típificada = -0,35414
Coef. de variación = 119,425%
Las medias de Temp1 y Temp2 son muy distintas. Por lo tanto, no podemos comparar sus dispersiones mediantes las
desviaciones típicas.
9.- Observa que el coeficiente de variación de Temp2 es anormalmente alto. El histograma, sin embargo, no revela una
dispersión exagerada… ¿A qué puede ser debido, entonces?
El coeficiente de variación de Temp2 es elevadísimo. Sin embargo, el histograma es
Histograma
frecuencia
10
8
6
4
2
0
-3
-1
1
3
5
7
9
Temp2
que indica una dispersión razonable. Lo que sucede es que los datos de Temp2 son positivos y negativos, y en
consecuencia la media no da una idea clara de la magnitud de los datos. En estas circunstancias (cuando los datos
tienen distinto signo) no es aconsejable utilizar el coeficiente de variación, precisamente porque se pueden producir
distorsiones (la media puede quedar muy próxima a cero, dando en consecuencia un valor muy elevado para CV que
no tiene por qué corresponder a una elevada dispersión).
Para Temp2,
10.- Calcula media, moda y mediana. Valora su proximidad y explícalo a partir de la asimetría de la variable.
Media = 2,16667
Mediana = 2,0
Moda = 1,0
La moda es diferente de media y mediana, debido a que aparece asimetría a la derecha.
11.- Dibuja el diagrama de cajas. ¿Hay datos atípicos?
No aparecen atípicos. El diagrama de caja y bigotes sugiere asimetría a la derecha.
12.- Calcula el rango. ¿Qué significa? ¿Cuál es el rango de Temp1? Si tuviéramos que comparar las dispersiones de
Temp1 y Temp2 únicamente a partir de los rangos (lo cuál no es recomendable), ¿qué podríamos decir?
El rango es 10, lo cuál indica una diferencia de 10 grados entre la mayor y la menor de las temperaturas observadas
(puede comprobarse que de hecho la mayor temperatura es 8ºC y la menor, -2ºC). El rango de Temp1 es de 17.
Fijándonos únicamente en los rangos, cabría decir que siendo el rango de Temp1 mayor que el de Temp2, Temp1
podría estar más dispersa. Sin embargo, para comparar dispersiones no es adecuado mirar únicamente los rangos; es
necesario utilizar otras medidas.
13.- Visualiza el histograma. ¿Sugiere el gráfico algún tipo de asimetría? A pesar de ello, ¿podríamos aceptar, a partir
de los coeficientes de asimetría tipificada y curtosis tipificada, que los datos provienen de una población normal?
El histograma sugiere asimetría a la derecha. En cualquier caso, los coeficientes de asimetría y curtosis estandarizados
apoyan que la distribución de los datos es normal.
14.- Visualiza las clases en las que Statgraphics ha agrupado los datos ¿En qué porcentaje de días se rebasaron los 3
grados? ¿Y los 4,5? (para esta segunda pregunta, botón derecho + opciones de ventana; en Límite inferior, introduce
4.5; uno menos la frecuencia relativa de la primera clase, multiplicada por 100, te dará la respuesta).
Botón amarillo + tablas de frecuencias. Puesto que la frecuencia acumulada relativa de la clase anterior a la clase [3,5)
es de 0.7333, quiere decirse que a partir de 3º C tenemos el (1-0.7333)*100 % de los datos: 26.67%. A partir de 4.5 º
C, tenemos el 20% de los datos.
15.- Calcula la temperatura que en B fue rebasada únicamente en un 10% de ocasiones.
Es el percentil 90. Su valor es 6.
16.- Sigue la ruta Descripción + Datos Cualitativos + Tabulación para construir un gráfico de sectores a partir de los
valores de la variable Temp2. Identifica rápidamente la moda a partir de dicho gráfico de sectores.
Descripción + datos cualitativos + tabulación. La moda corresponde al sector más amplio (1º C).
17.- A partir de la ruta del ejercicio anterior, indica las frecuencias de las temperaturas de Temp2, y el porcentaje de
días en los que la temperatura fue de 1 grado.
Tabla de Frecuencias para Temp2
-----------------------------------------------------------------------Frecuencia Frecuencia Frecuencia
Clase
Valor
Frecuencia
Relativa Acumulativa Acum.Rel.
-----------------------------------------------------------------------1
-2
2
0,0667
2
0,0667
2
-1
2
0,0667
4
0,1333
3
0
4
0,1333
8
0,2667
4
1
6
0,2000
14
0,4667
5
2
4
0,1333
18
0,6000
6
3
4
0,1333
22
0,7333
7
4
2
0,0667
24
0,8000
8
5
2
0,0667
26
0,8667
9
6
2
0,0667
28
0,9333
10
7
1
0,0333
29
0,9667
11
8
1
0,0333
30
1,0000
------------------------------------------------------------------------
El porcentaje de días en los que se registró 1º C de temperatura, fue 0.200 * 100 = 20%.
18.- Para comparar las dispersiones de A y B, vamos a hacer lo siguiente:
a) Localiza el mínimo de las temperaturas en B; comprueba que es -2.0.
b) Genera DOS nuevas variables (llámalas TtempA y TtempB) que sean TtempA:= Temp1 + 3, TtempB:=
Temp2 +3. Es decir, estas variables son el resultado de sumar tres grados centígrados a cada una de las
temperaturas observadas. Date cuenta de que esto no es más que un cambio de escala (en lugar de poner el
cero de temperaturas donde está, lo ponemos tres grados más abajo).
c) Se puede demostrar que al sumar a todos los datos de una misma variable un cierto número, la media de la
nueva variable es la anterior, aumentada en esa cantidad que estamos sumando; sin embargo, la varianza y
la desviación típica no varían. Comprueba esto en las nuevas variables que has creado.
d) Calcula los coeficientes de variación y decide, en base a ellos, si hay mayor dispersión en A o en B.
e) ¿Se mantiene la conclusión del apartado anterior si en lugar de sumar 3 a cada temperatura, sumamos 10, ó
20?
a) El mínimo puede verse en el Sumario estadístico.
b) Para generar una nueva variable, acudimos a la hoja de datos, marcamos una nueva columna, hacemos
doble clic e introducimos el nombre de la variable (aún no introducimos valores). Cuando hayamos hecho
esto (por ejemplo, para TtempA), botón derecho + generar datos; en expresión, introducimos, para
TtempA, Temp1 + 3 (análogamente para la otra variable).
c) Comprobamos que efectivamente es cierto.
d) El CV para TtempA es 10.0243%; el de TtempB es de 50.08%. Por lo tanto, diríamos que la dispersión es
mayor en B.
e) Sí.
19.- Crea las nuevas variables TA:=2*Temp1 + 1; TB:=2*Temp2 +1. Compara los histogramas de Temp1 y TA, así
como los de Temp2 y TB. ¿Qué sucede? Crea ahora la variable TC:= Temp2^2, y compara los histogramas de Temp2
y TC. ¿Qué sucede ahora? ¿Puede decirse que las transformaciones lineales preservan la forma de los datos, mientras
que otras transformaciones –por ejemplo, cuadráticas- la alteran?
Los histogramas correspondientes a TA, TB muestran la misma forma que los correspondientes a Temp1 y Temp2.
Sin embargo, los histogramas correspondientes a Temp2 y TC son diferentes.
Las transformaciones lineales son aquellas que responden a una fórmula del tipo Y= a*X+ b; por ejemplo, tomando
Y=TA, X=Temp1, TA=2*Temp1+1 es un ejemplo de transformación lineal. Estas transformaciones preservan la
distribución de X (es decir, si X es una variable normal, Y también lo será).
El resto de las transformaciones (es decir, aquellas que no son lineales) en general no preservan la forma de la
variable. Por ejemplo, las transformaciones cuadráticas, que son las que responden a una fórmula del tipo Y = X 2,
alteran la forma de X. Eso puede ser ventajoso, por ejemplo porque deseemos pasar de unos datos que no son
normales, a otros que sí lo sean.
20.- ¿Es posible que la media de un conjunto de datos sea negativa? ¿Y la desviación típica? ¿Y la cuasivarianza? ¿Y
el coeficiente de asimetría?
La media puede ser negativa si los datos lo son. La varianza es positiva o nula (únicamente en el caso de que todos los
datos coincidan); la desviación típica no puede ser negativa porque es la raíz cuadrada de la varianza. La cuasivarianza
tampoco puede ser negativa (es el cociente de una suma de cuadrados y una cantidad positiva). El coeficiente de
asimetría sí puede ser negativo, si hay asimetría a la izquierda.
Descargar