Práctica 4 resuelta

Anuncio
Práctica 4: TEST DE HIPÓTESIS PARAMÉTRICOS
A partir de los datos del fichero robles:
1. Contrástese la hipótesis de que la media estimada para la población para la variable Magnesio es la misma al nivel de
confianza del 95% que la media estimada para la variedad B de robles. Idem a los niveles de confianza del 90% y 99%,
compárense los resultados. (NOTA: calcula primero el valor de la media µ0 obtenida en la variedad B de robles, y realiza después
un contraste del tipo H0: µ=µ0; NO intentes realizar un contraste de comparación entre dos poblaciones).
Para ejecutar un contraste sobre la media poblacional de una variable, Descripción + Datos Numéricos + Análisis
Unidimensional (ahí introducimos la variable Magnesio). Puesto que tenemos más de 30 datos, haya o no normalidad
podemos utilizar el test paramétrico de la t de Student. Para realizar el contaste, botón amarillo + contraste de hipótesis. Con
botón derecho + opciones de ventana, introducimos: (a) el valor, para la media poblacional, que queremos contrastar; (b) el
nivel de significación (aunque esto, realmente, no es necesario modificarlo); (c) la hipótesis alternativa (no igual, mayor o
menor). Como el p-valor que se obtiene es grande (del orden de 0’78) la hipótesis nula se acepta en todos los casos (se
recuerda que la regla es “Rechazar H0 si p-valor es menor que el nivel de significación”). Por lo tanto, podemos aceptar que la
media de la población coincide con la media estimada para la variedad B.
H0
=
.
μ = 0,400542
Nombre del test =
p-valor =
Conclusión:
al 95% =
H1
t-test
0,787929
Aceptamos H0
.
=
.
μ ≠ 0,400542
. Valor del test =
-0,270958
.
.
al 90% =
Aceptamos H0
.
al 99% =
Aceptamos H0
.
2. ¿Puede admitirse, con una confianza del 95%, que la contaminación por Potasio está por encima de 1.5?
Procedemos como antes y cambiamos tanto el valor que queremos contrastar (1.5) como la hipótesis alternativa (mayor que). Se
tiene que
contraste t
----------Hipótesis nula: media = 1,5
Alternativa: mayor que
Estadístico t = 5,14737
P-valor = 0,00000460783
H0
=
media pot =1.5
Nombre del test =
p-valor =
t-test .
.
H1
Valor del test =
0,00000460783
=
media pot. > 1.5
5,14737
.
.
.
Conclusión: Rechazamos la hipótesis nula en favor de la alternativa, ya que el p-valor es menor de 0.05; por lo tanto,
efectivamente la contaminación por Potasio está por encima de 1.5.
3. ¿Puede admitirse, con una confianza del 99%, que la varianza del Nitrógeno es inferior a 0.3?
En primer lugar, comprobamos a partir de los coeficientes de asimetría y curtosis tipificados que la variable Nitrógeno es
normal. Por lo tanto, podemos utilizar el contraste de la chi-cuadrado. SG permite contrastar no la varianza, sino la desviación
típica; como la desv. Típica es la raíz cuadrada de la varianza, para una varianza de 0.3 se obtiene una desv. Típica de 0.547.
Entonces, Descripción + contraste de hipótesis, y escogemos “desviación típica normal”. El valor de la desviación típica
muestral lo tomamos del análisis descriptivo (0.64151), y el tamaño de la muestra es 38 (también del análisis descriptivo,
véase el valor de la frecuencia). Además, hay que cambiar la hipótesis alternativa (“menor que”). Se obtiene:
Contraste de Hipótesis
---------------------Desviación Típica de la Muestra = 0,64151
Tamaño de la Muestra = 38
95,0% superior límite de confianza para sigma: [0,795283]
Hipótesis Nula: desviación típica = 0,547
Alternativa: menor que
Estadístico Chi-cuadrado calculado = 50,8902
p-Valor = 0,936159
H0
=
Varianza = 0.3
Nombre del test =
p-valor =
.
H1
chi-cuadrado
.
0.936159
=
Varianza < 0.3 .
Valor del test =
50.8902
.
.
Conclusión: Aceptamos la hipótesis nula y por lo tanto no podemos admitir que la varianza sea menor de 0.3.
4. En una planta de características similares a ésta se encontraron signos de contaminación por Nitrógeno que arrojaban una media
de 3.5. ¿Podemos decir, con un nivel de significación del 10%, que en nuestro caso la contaminación por Nitrógeno es similar?
Como tenemos más de 30 datos, haya o no normalidad, podemos utilizar el t-test (de hecho, puede comprobarse que los datos son
normales, pero aunque no lo fueran el t-test podría utilizarse).
contraste t
----------Hipótesis nula: media = 3,5
Alternativa: no igual
Estadístico t = -1,98203
P-valor = 0,0549408
H0
=
media=3.5
Nombre del test =
p-valor =
.
H1
t-test
0,0549408
.
=
media no igual a 3.5
Valor del test =
-1.98203
.
.
.
Conclusión: Para un nivel de significación del 10%, tenemos que p-valor < 0.10, y por lo tanto rechazamos la hipótesis nula; por
lo tanto, no podemos decir, con ese nivel de significación, que la contaminación por Nitrógeno sea similar a la de la otra planta
de la que nos habla el enunciado (obsérvese que al 5% de significación sí aceptaríamos la afirmación, aunque por poco).
Además, como el valor del test es negativo, diríamos que la media queda por debajo de 3.5.
5. ¿Las variedades presentan diferencias significativas en varianzas al 90% en la variable Potasio?
Puesto que queremos comparar dos poblaciones, Comparación + Dos Muestras + Comparación de dos muestras. Activamos
Columna de Código y Datos, Datos = Potasio, Código de Muestra = Variedad. Observamos que Potasio es normal en ambas
variedades, a partir de los coeficientes de asimetría y curtosis tipificados, luego podemos utilizar el contraste paramétrico de
comparación de varianzas. Para ello, botón amarillo + Comparación de Desviaciones Típicas.
Contrastes F para comparar varianzas
Hipótesis nula: sigma1 = sigma2
(1) Hipótesis alt.: sigma1 <> sigma2
F = 0,515507
P-Valor = 0,216385
= Varianza de Pot. en var. A = Varianza de Pot. en var. B .
H1 =
Varianzas distintas
.
H0
Nombre del test =
contraste F
.
Valor del test =
0,515507
.
p-valor =
0,216385
.
Conclusión: Como p-valor>0.10, aceptamos la hipótesis nula; por lo tanto, no hay diferencias significativas entre las varianzas.
6. ¿Podemos decir que la contaminación por Potasio es similar en ambas variedades? (indíquese la respuesta para diferentes niveles
de confianza).
Puesto que queremos comparar dos poblaciones, y los datos NO son pareados, Comparación + Dos Muestras + Comparación de
dos muestras. Activamos Columna de Código y Datos, Datos = Potasio, Código de Muestra = Variedad. Observamos que Potasio
es normal en ambas variedades, a partir de los coeficientes de asimetría y curtosis tipificados, luego podemos utilizar el contraste
paramétrico de comparación de medias. Para ello, botón amarillo + Comparación de Desviaciones Típicas. Por defecto, SG
supone que las varianzas son iguales, pero según el apartado anterior ése es exactamente nuestro caso (si las varianzas hubieran
sido distintas, lo cambiaríamos con botón derecho + opciones de ventaja, quitando la opción “asumir sigmas iguales”).
H0
H1
=
=
media de Pot. en var. A = media de Pot. en var. B
medias distintas
.
Nombre del test =
p-valor =
t-test
0,024576
Conclusión:
al 95% =
.
Valor del test =
2,34645
.
.
.
Rechazo la hipótesis (la contaminación NO es igual en ambas vars.)
Rechazo la hipótesis
.
Acepto la hipótesis porque 0,02 no es menor que 0.01
.
al 90% =
al 99% =
.
Al 95% o al 90% de confianza, como p-valor es menor que alpha (es menor que 0.05 y que 0.10) diríamos que la contaminación
no es igual en ambas variedades. En concreto, como el t-test es positivo, va a ser mayor en A; esto puede comprobarse sin más
que cambiar la hipótesis alternativa, en botón derecho + opciones de ventana.
7. ¿Podemos decir que la contaminación por Zinc es similar en ambas variedades? Si la respuesta es negativa, ¿podemos aceptar que
la diferencia entre las variedades es aproximadamente de 0.005? (NOTA: contrastar que las medias son iguales equivale a verificar si
la diferencia de ambas es 0; si se admite que la diferencia no es nula, con botón derecho + opciones de ventana podemos contrastar el
valor de esa diferencia, 0.005 en este caso).
Comprobamos que Zinc es normal en ambas variedades, luego contrastamos la igualdad de las medias. Para ello, comprobamos que
la varianzas del Zinc son iguales en ambas variedades (el p-valor es muy alto, del orden de 0.867, de modo que puede aceptarse
sobradamente la igualdad de varianzas).
contrastes t de comparación de medias
Hipótesis nula: media1 = media2
Hipótesis alt.: media1 <> media2
suponiendo varianzas iguales: t = 4,30057
H0
H1
=
=
la media de Zinc es igual en ambas variedades
la media de Zinc no es igual
.
Nombre del test =
p-valor =
Conclusión:
al 95% =
P-Valor = 0,00012429
t-test
0,00012429
rechazar .
.
Valor del test =
.
4,30057
.
.
al 90% =
rechazar .
al 99% =
rechazar
.
Por lo tanto, a los tres niveles de confianza considerados rechazamos la hip. nula, y por lo tanto concluimos que las medias no
son iguales. De hecho, puesto que el valor del test es positivo, la media 2 (la de B) va a ser mayor. Vamos a ver si podemos
admitir que la diferencia es de 0.005 (esta diferencia puede parecer pequeña, pero obsérvese que los valores de la variable Zinc
son de esa misma magnitud). Para ello, botón derecho + opciones de ventana; hipótesis nula = 0.005.
contrastes t de comparación de medias
Hipótesis nula: media1 - media2 = 0,005
Hipótesis Alt.: distinto
suponiendo varianzas iguales: t = -1,67244
H0
=
H1
la diferencia de las medias es igual a 0.005
la diferencia de las medias no es igual a 0.005
=
Nombre del test =
p-valor =
Conclusión:
al 95% =
P-Valor = 0,103108
t-test
0.103108
Aceptar
.
Valor del test =
.
.
-1.67244
.
.
.
al 90% =
Aceptar
.
al 99% =
Aceptar
.
Por lo tanto, podemos aceptar que la diferencia es, efectivamente, de 0.005.
8. ¿Puede decirse que la contaminación por Manganeso es inferior a la contaminación por Magnesio, al 99% de confianza? ¿Se
podría aceptar que la contaminación por Manganeso está al menos 0.3 por debajo? (NOTA: contesta a esta pregunta de dos maneras;
primero, cambiando la hipótesis nula, con botón derecho, como hiciste en el ejercicio anterior; después, comparando las variables
Manganeso y Magnesio-0.3, y verificando si la media de la primera está por debajo de la segunda).
En este caso tenemos datos PAREADOS. Por lo tanto, Comparación + Dos Muestras + Comparación de muestras pareadas. Muestra
1= Manganeso, Muestra 2 = Magnesio. Vemos que la diferencia D = Manganeso – Magnesio, a partir de los coeficientes de asimetría y
curtosis tipificados, se puede considerar normal. Por lo tanto, podemos utilizar el t-test para ver si las medias son iguales (es decir, si la
media de D se puede considerar 0). Para ello, botón amarillo + contraste de hipótesis. Cambiamos la hipótesis alternativa.
=
H1 =
H0
media de Manganeso = media de Magnesio
media de Mn es menor que media de Mg
Nombre del test =
p-valor =
t-test
0.0
.
Valor del test =
.
.
-30.69
.
.
Conclusión: Se rechaza (rotundamente!!) la hipótesis nula. La contaminación por Mn es muy inferior a la contaminación por Mg.
Para contestar a la segunda pregunta que nos hacen, tenemos dos posibilidades:
Primera posibilidad: Para verificar si está 0.3 por debajo, sin modificar nada botón derecho + opciones de ventana, y modificamos la
hipótesis nula (escribimos -0.3, en lugar de 0). Obtenemos:
contraste t
----------Hipótesis nula: media = -0,3
Alternativa: menor que
Estadístico t = -6,64374
P-valor = 4,24746E-8
Por lo tanto, rechazamos la hipótesis nula a favor de la alternativa, y por lo tanto la media de Mn menos la media de Mg es menor de 0.3. En consecuencia, efectivamente la media de Mn está al menos 0.3 por debajo.
Segunda posibilidad: Comparación + Dos Muestras + Comparación de muestras pareadas. Muestra 1= Manganeso, Muestra 2 =
Magnesio-0.3. Vemos que la diferencia D = Manganeso – (Magnesio-0.3), a partir de los coeficientes de asimetría y curtosis tipificados,
se puede considerar normal. Por lo tanto, podemos utilizar el t-test para ver si las medias son iguales (es decir, si la media de D se
puede considerar 0). Para ello, botón amarillo + contraste de hipótesis. Cambiamos la hipótesis alternativa (menor que). Obtenemos
exactamente los mismos valores de arriba (el mismo p-valor, la misma conclusión).
A partir de los datos del fichero munigu:
9. En el fichero munigu.sf3 aparecen distintos datos, referidos a un estudio realizado sobre los municipios de Guadalajara, en los
años 1981 y 1991. Algunas de las variables que aparecen son: EXT (extensión en Ha.), ALT (altitud), DIST (distancia a
Guadalajara), TOT (población total), TACTIV (tasa de población activa: cociente entre el número de personas activas y el número
de personas en edad de trabajar), AGRI (porcentaje de personas que trabajan en la agricultura), EMP (porcentaje de empleados),
ASAL (porcentaje de asalariados), etc. Estúdiese si existen diferencias significativas entre los años 1991 y 1981 en la variable
TACTIV.
Los datos son pareados. Por lo tanto, construimos la variable D = TACTIV91-TACTIV81 (Comparación + dos muestras +
comparación de muestras pareadas), y comprobamos a partir de los coeficientes de asimetría y curtosis tipificados que la variable
D es normal. Por lo tanto, estudiamos si la media de D puede considerarse 0 o no.
contraste t
----------Hipótesis nula: media = 0,0
Alternativa: no igual
Estadístico t = 2,65663
P-valor = 0,0108128
H0
=
H1
media TACTIV91 = media TACTIV 81
medias no iguales
.
=
Nombre del test =
t-test
.
Valor del test =
.
2.65663
.
Justificación del test usado: La variable D (diferencia) es normal.
p-valor =
0.0108128
Conclusión:
al 95% =
.
Rechazar
Aceptar (por poco)
al 99% =
.
al 90% =
Rechazar
.
.
Tanto al 95% como al 90% de confianza, rechazamos la igualdad de las tasas de población activa en ambos años. En concreto, puesto
que el valor del test es positivo, la tasa de pob. activa en 1991 se considera superior (mayor que) la de 1981. Al 99% de confianza
aceptaríamos que no ha habido evolución desde 1981 hasta 1991 (es decir, un descenso significativo del paro), aunque por muy poco.
10. ¿Puede afirmarse, con una significación del 5%, que en el año 1991 el porcentaje de personas empleadas en la industria (IND91)
superaba el 20%?
Comprobamos que IND91 es normal; por lo tanto, vamos a contrastar si la media de IND91 puede considerarse mayor de 20, utilizando
un test paramétrico. Observemos que en SG es necesario cambiar la hipótesis nula a 20, y la alternativa a “mayor que”.
contraste t
----------Hipótesis nula: media = 20,0
Alternativa: mayor que
Estadístico t = 2,00334
P-valor = 0,0255262
H0
=
media = 20
Nombre del test =
.
t-test
H1
.
=
Valor del test =
media mayor que 20
2.00334
.
.
p-valor =
0.0255262
.
Conclusión: Como p-valor = 0.025 < 0.05, rechazamos la hipótesis nula a favor de la alternativa; por lo tanto, aceptamos que
la media sea mayor de 20.
11. ¿Puede decirse con un 95% de confianza que en el año 91 el porcentaje de empleados en la agricultura era similar en las comarcas
a las que pertenecen Molina de Aragón (150) y Sacedón (30)? (NOTA: en Selección deberás introducir la condición COMARCA=150 |
COMARCA=30; la barra vertical significa “ó”).
Tenemos que comparar dos poblaciones; los datos NO son pareados. Por lo tanto, Comparación + Dos muestras + comparación de
dos muestras; columna de código y datos, Datos = AGRI91, Código de muestra = COMARCA, Selección = COMARCA=150 |
COMARCA=30. Observamos que ambas poblaciones son normales, luego comparamos las medias. Para ello, en particular tenemos
que decidir primero si las varianzas son iguales o no. Con botón amarillo + comparación de desviaciones típicas, vemos que el p-valor
para el contraste de igualdad de varianzas es 0.137899. Por lo tanto, aceptamos que las varianzas son iguales (recordemos que si no
lo fueran, al realizar el contraste de igualdad de medias deberíamos pulsar botón derecho + opciones de ventana, y quitar la opción por
defecto “asumir sigmas iguales”).
contrastes t de comparación de medias
Hipótesis nula: media1 = media2
Hipótesis alt.: media1 <> media2
suponiendo varianzas iguales: t = -2,36397
H0
=
H1
P-Valor = 0,0456742
medias iguales en ambas comarcas
=
medias diferentes
.
Nombre del test =
p-valor =
t-test
.
0.0456742
.
Valor del test =
.
-2.36397
.
Conclusión: Como 0.045 < 0.05 rechazamos la hipótesis nula (aunque por poco). Como el valor del test es negativo, la media
en la primera comarca (COMARCA =30, la que contiene a Sacedón) es inferior a la de la segunda comarca (Molina de Aragón).
Se diría entonces que la agricultura es más importante en esta segunda comarca.
12. ¿Puede decirse, con un 10% de confianza, que en el año 1981 el porcentaje de población que trabajaba en la agricultura superaba
al porcentaje empleado en la industria? ¿Puede decirse, al mismo nivel de significación, que de hecho el número de empleados en la
agricultura duplicaba a los empleados en el sector de la industria?
Los datos son PAREADOS. La diferencia D = AGR81-IND81 es normal, luego comprobamos si la media es 0, frente a la alternativa de
que sea mayor que 0.
contraste t
----------Hipótesis nula: media = 0,0
Alternativa: mayor que
Estadístico t = 1,88897
P-valor = 0,0326051
H0
H1
=
=
Nombre del test =
p-valor =
media de D es 0 (media AGRI81 = media IND81)
media de D es >0 (media AGRI81 > media IND81)
t-test
0.0326051
.
Valor del test =
1.88897
.
.
.
.
Conclusión: Rechazamos la hip. nula y por lo tanto aceptamos la alternativa: el porcentaje empleado en agricultura superaba
al empleado en industria.
Para contestar a la segunda pregunta, vamos a comparar las variables AGRI81, y 2*IND81. De nuevo tenemos datos pareados, y
seguimos la misma ruta. La variable D = AGRI81-2*IND81 vuelve a ser normal, luego comprobamos si su media puede considerarse 0
o no.
contraste t
----------Hipótesis nula: media = 0,0
Alternativa: no igual
Estadístico t = -2,40728
P-valor = 0,0201417
H0
H1
=
=
la media de AGRI81 es el doble de la media de IND81
la media de AGRI81 no es el doble de la media de IND81
Nombre del test =
p-valor =
t-test
.
Valor del test =
0.0201417
-2.40728
.
.
.
.
Conclusión: Rechazamos la hip. nula; además, el valor negativo del test nos dice que la media de AGRI81 queda por debajo
del doble de IND81, con lo cuál la afirmación era exagerada.
13. ¿Puede decirse que la varianza en el porcentaje de empleados en la industria, en el año 1991, resultó inferior a 150 (nivel de
confianza: 95%)?
La variable IND91 es normal, luego podemos utilizar el test paramétrico de la chi-cuadrado. El tamaño de la muestra es n = 47 (véase
el valor de la frecuencia, en resumen estadístico), y el valor de la desviación típica es 11,207. Además, lo que debemos contrastar es si
la varianza es inferior a 150, o de forma equivalente si la desviación típica es inferior a 12,247. Para ello, Descripción + contraste de
hipótesis, seleccionamos “Desviación típica normal”, e introducimos hip. nula = 12.247, desv. Típica de la muestra = 11.207, tamaño de
la muestra = 47. Después, botón derecho + opciones de análisis y cambiamos la hip. alternativa a “mayor que”.
Contraste de Hipótesis
---------------------Desviación Típica de la Muestra = 11,207
Tamaño de la Muestra = 47
95,0% superior límite de confianza para sigma: [13,5561]
Hipótesis Nula: desviación típica = 12,247
Alternativa: menor que
Estadístico Chi-cuadrado calculado = 38,5192
p-Valor = 0,224773
H0
=
H1
=
Nombre del test =
p-valor =
a 150.
Varianza = 150
Varianza < 150
.
.
chi-cuadrado
0.224773
.
Valor del test =
38.5192
.
.
Conclusión: Aceptamos la hip. nula; por lo tanto, no podemos aceptar la alternativa y en consecuencia la varianza no es inferior
Descargar