Soluciones de algunos ejercicios sobre tests no paramétricos

Anuncio
Tests de hipótesis no paramétricos
En el fichero FICHERO_EXAMSEPTO7.sf3 aparecen datos recogidos sobre los
usuarios de la biblioteca de la Universidad Politécnica de Alcalá, en el curso 2006/2007.
En lo que sigue, utiliza niveles de significación del 5%.
Ejercicio 2
7. ¿Puede admitirse que los hombres acuden al cine más que las mujeres?
¿Los datos son pareados? No (1 variable – 2 poblaciones)
¿Las variables son normales? Verifico la normalidad de la variable # cine “varón”
Ho: variable #_cine “varón” es Normal
Hi : variable #_cine “varón” no es Normal
Tests de Bondad de Ajuste para cine
Descripción + Distribuciones + Ajuste de distribuciones (Datos no-censurados)
Datos # cine
Selección Sexo = “varón”
Tests de Bondad de Ajuste para cine
Contraste Chi-cuadrado
---------------------------------------------------------------------------Límite
Límite
Frecuencia
Frecuencia
Inferior
Superior
Observada
Esperada Chi-cuadrado
---------------------------------------------------------------------------menor o igual
1,6553
7
9,75
0,78
1,6553
2,02063
28
9,75
34,16
2,02063
2,29383
0
9,75
9,75
2,29383
2,53846
0
9,75
9,75
2,53846
2,78309
0
9,75
9,75
2,78309
3,05629
37
9,75
76,16
3,05629
3,42162
0
9,75
9,75
mayor
3,42162
6
9,75
1,44
---------------------------------------------------------------------------Chi-cuadrado = 151,54 con 5 g.l.
P-Valor = 0,0
Contraste Chi-cuadrado
Estadístico DMAS de Kolmogorov = 0,207182
Estadístico DMENOS de Kolmogorov = 0,277421
Estadístico DN global de Kolmogorov = 0,277421
P-Valor aproximado = 0,0000122135
Frecuencia esperada mayor que 5, podemos tomar en consideración el test Chicuadrado, cuyo P-valor nos permite rechazar la normalidad de la variable; además el Pvalor muy pequeño correspondiente al test Kolmogorov nos confirma esa conclusión.
Realizamos también los tests de normalidad (aunque ya no sería necesario)
(Botón amarillo – tests de normalidad)
Tests para la Normalidad para #_cine
Estadístico chi-cuadrado de bondad de ajuste = 133,538
P-valor = 0,0
Estadístico W de Shapiro-Wilks = 0,907541
P-valor = 0,00000446872
Puntuación Z para asimetría = 2,67074
P-valor = 0,00756859
Puntuación Z para curtosis = 2,74351
P-valor = 0,00607863
Los p-valores menores que alpha nos permiten confirmar la no Normalidad de la
variable #_”Cine” varón, confirmando los resultados del test Chi-cuadrado y
Kolmogorov.
Sin necesidad de ver la Normalidad o no de la variable #_cine” mujeres”, pasamos a
realizar la comparación de Medianas.
Comparación – 2 Muestras – Comparación de 2 muestras
Datos #_cine Código de muestra Sexo
. columna de códigos y datos (acepto)
Ops. Tabulares (botón amarillo)
Comparación de medianas
Comparación de Medianas para #_cine
----------------------------------Mediana de la muestra 1: 7,0
Mediana de la muestra 2: 6,0
Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas
Hipótesis nula: mediana1 = mediana2
Hipótesis alt.: mediana1 <> mediana2
Rango medio de la muestra 1: 51,8947
Rango medio de la muestra 2: 48,2949
W = 686,0
P-Valor = 0,617396
El p-valor no es menor que alpha; por tanto aceptamos Ho, es decir, aceptamos que las
medianas son similares.
Botón derecho cambio a menor que: Ho: Mmujer = Mvarón
H1: Mmujer< Varón
Comparación de Medianas para #_cine
----------------------------------Mediana de la muestra 1: 7,0
Mediana de la muestra 2: 6,0
Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas
Hipótesis nula: mediana1 = mediana2
(3) Hipótesis alt.: mediana1 < mediana2
Rango medio de la muestra 1: 51,8947
Rango medio de la muestra 2: 48,2949
W = 686,0
P-Valor = 0,691302
El P-valor no es menor que alpha, acepto Ho. O sea que los hombres no acuden al cine más que
las mujeres.
8.- ¿Puede aceptarse que hombres y mujeres estudian el mismo número de horas en la
biblioteca? ¿Puede aceptarse que las mujeres estudian más? Observa la cantidad de hombres y
mujeres encuestados, y extrae alguna conclusión.
Tengo que comparar 2 muestras:
¿Datos pareados? No
¿Normalidad de las variables?
Normalidad variable número de horas “varón”
Ho: variable #_horas “varón” es Normal
H1 : variable #_horas “varón” no es Normal
Tests de Bondad de Ajuste para #_horas
Descripción — Distribuciones--Ajuste de distribuciones (Datos no-censurados)
Datos # horas Selección Sexo = “varón”
Chi-Cuadrado: P-valor 0,00540431
Kolmogorov: P-valor 0,0458402
El p-valor en Chi-Cuadrado y Kolmogorov nos permite rechazar la normalidad de la variable.
Realizamos también los tests de normalidad (Botón amarillo – tests de normalidad)
Tests para la Normalidad para #_horas
Estadístico chi-cuadrado de bondad de ajuste = 94,0513
P-valor = 6,3024E-12
Estadístico W de Shapiro-Wilks = 0,914203
P-valor = 0,000015782
Puntuación Z para asimetría = 1,68662
P-valor = 0,091677
Puntuación Z para curtosis = -0,19789
P-valor = 0,843126
Dos valores de P-valor muy pequeños nos permiten también rechazar la normalidad de la
variable.
Pasamos directamente a la comparación de Medianas.
Comparación – 2 Muestras – Comparación de 2 muestras
Datos #horas Código de muestra Sexo
. Columna de códigos y datos (acepto)
Ops. Tabulares (botón amarillo)
Comparación de medianas
Ho: Mvarón = Mmujer
H1: Mvarón <> Mujer
Comparación de Medianas para #_horas
-----------------------------------Mediana de la muestra 1: 12,0
Mediana de la muestra 2: 8,0
Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas
Hipótesis nula: mediana1 = mediana2
(1) Hipótesis alt.: mediana1 <> mediana2
Rango medio de la muestra 1: 65,6842
Rango medio de la muestra 2: 44,9359
W = 424,0
P-Valor = 0,003775
El p-valor menor que alpha me permite rechazar Ho; por tanto, hombres y mujeres no estudian
el mismo número de horas.
¿Puede aceptarse que las mujeres estudian más?
Botón derecho: cambiamos la alternativa a “mayor que”
Comparación de Medianas para #_horas
-----------------------------------Mediana de la muestra 1: 12,0
Mediana de la muestra 2: 8,0
Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas
Hipótesis nula: mediana1 = mediana2
(2) Hipótesis alt.: mediana1 > mediana2
Rango medio de la muestra 1: 65,6842
Rango medio de la muestra 2: 44,9359
W = 424,0
P-Valor = 0,0018875
El p-valor menor que alpha me permite rechazar Ho; por tanto, las mujeres estudian más horas
que los hombres.
Hay 18 mujeres (que estudian entre valores de 2 y 25 horas) y 78 hombres (estudian entre 1 y 20
horas). Sin embargo, a pesar de que hay muchas menos mujeres, su determinación a la hora de
sacar adelante sus estudios, parece ser mayor.
9.- ¿Puede admitirse que la distribución de la variable # de préstamos sea la misma en
hombres y mujeres?
Comparación de distribuciones
Ho: X e Y tienen la misma distribución
H1: X e Y no tienen la misma distribución
Contraste de Kolmogorov-Smirnov para #_prest
-------------------------------------------Estadístico DN estimado = 0,320513
Estadístico asintótico K-S a dos colas = 1,25281
P-Valor aproximado = 0,086652
P-valor mayor que alpha, acepto Ho, X e Y tienen la misma distribución.
Ejercicio 3
Para estudiar cómo afecta el fuego en España, se han tomado datos del año 1999 que se recogen en el
fichero incendios.sf3 sobre distintas provincias. Las variables son: números de CONATOS (incendios que
afectan a una superficie menor de 1 hectárea), número de INCENDIOS, SUPERFICIE AFECTADA
(hectáreas), SUPERFICIE ARBOLADA AFECTADA (hectáreas), PRECIPITACIÓN media en los meses
de Julio y Agosto (mm3), HUMEDAD RELATIVA media (%), TEMPERATURA media (ºC) de las
máximas de los meses más cálidos (julio y agosto), número de días con temperaturas superiores a los
25ºC (NDIAS), el tipo de vegetación predominante (VEGE_PRED:1 = formaciones arbustivas
subarbustivas, 2= otras) y la ZONA geográfica (norte, sur y centro) donde está ubicada la provincia.
Utiliza un nivel de confianza del 95%.
1. Comprueba la normalidad de las variables CONATOS e INCENDIOS
Tests de Bondad de Ajuste para conatos
Contraste Chi-cuadrado
---------------------------------------------------------------------------Límite
Límite
Frecuencia
Frecuencia
Inferior
Superior
Observada
Esperada Chi-cuadrado
---------------------------------------------------------------------------menor o igual
-252,248
0
7,14
7,14
-252,248
-25,9069
0
7,14
7,14
-25,9069
148,235
37
7,14
124,80
148,235
310,685
7
7,14
0,00
310,685
484,827
2
7,14
3,70
484,827
711,168
0
7,14
7,14
mayor
711,168
4
7,14
1,38
---------------------------------------------------------------------------Chi-cuadrado = 151,321 con 4 g.l.
P-Valor = 0,0
Estadístico DMAS de Kolmogorov = 0,371902
Estadístico DMENOS de Kolmogorov = 0,317288
Estadístico DN global de Kolmogorov = 0,371902
P-Valor aproximado = 0,00000196909
Tests para la Normalidad para conatos
Estadístico chi-cuadrado de bondad de ajuste = 203,44
P-valor = 0,0
Estadístico W de Shapiro-Wilks = 0,445483
P-valor = 0,0
Puntuación Z para asimetría = 4,35449
P-valor = 0,0000133477
Puntuación Z para curtosis = 4,70162
P-valor = 0,00000258399
Tanto los tests de Bondad de Ajuste (aceptando Chi-cuadrado ya que la Frecuencia esperada es
mayor de 5) como los tests para la Normalidad para la variable conatos nos permiten rechazar la
normalidad de la misma.
Tests de Bondad de Ajuste para incendios
Contraste Chi-cuadrado
---------------------------------------------------------------------------Límite
Límite
Frecuencia
Frecuencia
Inferior
Superior
Observada
Esperada Chi-cuadrado
---------------------------------------------------------------------------menor o igual
-118,486
0
7,14
7,14
-118,486
-1,43821
0
7,14
7,14
-1,43821
88,6158
35
7,14
108,64
88,6158
172,624
7
7,14
0,00
172,624
262,678
0
7,14
7,14
262,678
379,726
5
7,14
0,64
mayor
379,726
3
7,14
2,40
---------------------------------------------------------------------------Chi-cuadrado = 133,121 con 4 g.l.
P-Valor = 0,0
Estadístico DMAS de Kolmogorov = 0,321569
Estadístico DMENOS de Kolmogorov = 0,298128
Estadístico DN global de Kolmogorov = 0,321569
P-Valor aproximado = 0,0000645864
Estadístico EDF
Valor
Forma Modificada
P-Valor
--------------------------------------------------------------------Kolmogorov-Smirnov D
0,321569
2,30927
<0.01*
Anderson-Darling A^2
8,97365
9,11633
0,0000*
Tests para la Normalidad para incendios
Estadístico chi-cuadrado de bondad de ajuste = 184,72
P-valor = 0,0
Estadístico W de Shapiro-Wilks = 0,513005
P-valor = 0,0
Puntuación Z para asimetría = 4,34554
P-valor = 0,0000139039
Puntuación Z para curtosis = 4,85302
P-valor = 0,00000121763
De nuevo los valores pequeños de P-valor en todos los tests nos permiten rechazar la
normalidad de la variable incendios.
2. ¿Es cierto que hay muchos más conatos que incendios?
Se trata de comparación de muestras pareadas. Por lo tanto:
Comparación – 2 Muestras – Comparación de 2 muestras Pareadas
Muestra 1 Conatos Muestra 2 Incendios
Resumen Estadístico para conatos-incendios
Frecuencia = 50
Media = 98,84
Varianza = 140898,0
Desviación típica = 375,364
Mínimo = -690,0
Máximo = 1795,0
Rango = 2485,0
Asimetría tipi. = 8,91517
Curtosis típificada = 18,0076
Los coeficientes anteriores se refieren a la variable Diferencia: D = conatos – incendios. A partir
de los coeficientes de asimetría y curtosis tipificados de D, deducimos que D no es normal. Por
lo tanto, realizamos un test sobre la mediana de la variable diferencia:
Ho: M_D =0 (mediana de D = 0)
Halt.: M_D <>0 (mediana de D distinta de 0)
Ops Tabulares / Contraste de Hipótesis
Contraste de los signos
----------------------Hipótesis nula: mediana = 0,0
Alternativa: no igual
Número de valores inferiores a la mediana de H0: 9
Número de valores superiores a la mediana de H0: 40
Estadístico para grandes muestras = 4,28571 (aplicada la corrección por continuidad)
P-valor = 0,0000182281
El P-valor tan pequeño nos permite rechazar Ho; por tanto, sí hay diferencia entre el número de
conatos e incendios. Observemos que, puesto que el coeficiente de asimetría está fuera del rango
(-2,2), la variable no puede considerarse simétrica y es preferible no utilizar el test de los rangos
signados.
Botón derecho cambiamos la alternativa a “mayor que”
Contraste de los signos
----------------------Hipótesis nula: mediana = 0,0
Alternativa: mayor que
Número de valores inferiores a la mediana de H0: 9
Número de valores superiores a la mediana de H0: 40
Estadístico para grandes muestras = 4,28571 (aplicada la corrección por continuidad)
P-valor = 0,00000911403
Rechazamos Ho ante un P-valor tan pequeño. Podemos afirmar que existe un mayor número de
conatos que de incendios.
3. ¿Puede decirse que hay más incendios en el Centro, que en el Sur de España?
Los datos no son pareados. Comprobamos la normalidad de la variable incendios en zona
Centro.
Descripción—Distribuciones--Ajuste de distribuciones (Datos no-censurados)
Datos incendios Selección Zona = “centro”
Tests de Bondad de Ajuste para incendios
Contraste Chi-cuadrado
---------------------------------------------------------------------------Límite
Límite
Frecuencia
Frecuencia
Inferior
Superior
Observada
Esperada Chi-cuadrado
---------------------------------------------------------------------------menor o igual
1,84469
0
2,60
2,60
1,84469
57,3337
8
2,60
11,22
57,3337
105,128
2
2,60
0,14
105,128
160,617
2
2,60
0,14
mayor
160,617
1
2,60
0,98
---------------------------------------------------------------------------Chi-cuadrado = 15,077 con 2 g.l.
P-Valor = 0,000532186
Estadístico DMAS de Kolmogorov = 0,271412
Estadístico DMENOS de Kolmogorov = 0,244608
Estadístico DN global de Kolmogorov = 0,271412
P-Valor aproximado = 0,295073
La Frecuencia esperada inferior a 5 no nos permite tener en cuenta el test de Chi-Cuadrado.
El P-Valor superior a alpha del test de Kolmogorov no me permite aceptar Ho.
Tests para la Normalidad para incendios
Estadístico chi-cuadrado de bondad de ajuste = 18,3077
P-valor = 0,0190343
Estadístico W de Shapiro-Wilks = 0,634304
P-valor = 0,0000651992
Puntuación Z para asimetría = 2,71067
P-valor = 0,00671479
Puntuación Z para curtosis = 3,50022
P-valor = 0,000464953
Los P-valores de los tests para la normalidad nos permiten rechazar la normalidad de la variable
incendios zona centro, al igual que el test de Kolmogorov. Por lo tanto, comparamos las
medianas.
Comparación de Medianas para incendios
-------------------------------------Mediana de la muestra 1: 48,0
Mediana de la muestra 2: 33,0
Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas
Hipótesis nula: mediana1 = mediana2
(1) Hipótesis alt.: mediana1 <> mediana2
Rango medio de la muestra 1: 17,4615
Rango medio de la muestra 2: 13,0
W = 72,0
P-Valor = 0,167061
El P-valor mayor que alpha nos permite aceptar Ho el número de incendios es similar en las
zonas centro y sur.
Botón derecho cambiamos la alternativa a “mayor que”
Comparación de Medianas para incendios
-------------------------------------Mediana de la muestra 1: 48,0
Mediana de la muestra 2: 33,0
Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas
Hipótesis nula: mediana1 = mediana2
(2) Hipótesis alt.: mediana1 > mediana2
Rango medio de la muestra 1: 17,4615
Rango medio de la muestra 2: 13,0
W = 72,0
P-Valor = 0,0835306
El P-Valor mayor que alpha nos permite aceptar Ho, y rechazar la hipótesis alternativa, no hay
mayor número de incendios en la zona centro que en la zona sur.
5. ¿Dirías que la distribución del número de conatos puede considerarse igual en el Centro y en
el Sur?
Comparación de distribuciones
Ho: X e Y tienen la misma distribución
H1: X e Y no tienen la misma distribución
El p-valor (0’0418266) es algo más pequeño que alpha y me permite rechazar Ho; por lo tanto,
las distribuciones de conatos en Centro y Sur no son iguales.
Descargar