Tests de hipótesis no paramétricos En el fichero FICHERO_EXAMSEPTO7.sf3 aparecen datos recogidos sobre los usuarios de la biblioteca de la Universidad Politécnica de Alcalá, en el curso 2006/2007. En lo que sigue, utiliza niveles de significación del 5%. Ejercicio 2 7. ¿Puede admitirse que los hombres acuden al cine más que las mujeres? ¿Los datos son pareados? No (1 variable – 2 poblaciones) ¿Las variables son normales? Verifico la normalidad de la variable # cine “varón” Ho: variable #_cine “varón” es Normal Hi : variable #_cine “varón” no es Normal Tests de Bondad de Ajuste para cine Descripción + Distribuciones + Ajuste de distribuciones (Datos no-censurados) Datos # cine Selección Sexo = “varón” Tests de Bondad de Ajuste para cine Contraste Chi-cuadrado ---------------------------------------------------------------------------Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado ---------------------------------------------------------------------------menor o igual 1,6553 7 9,75 0,78 1,6553 2,02063 28 9,75 34,16 2,02063 2,29383 0 9,75 9,75 2,29383 2,53846 0 9,75 9,75 2,53846 2,78309 0 9,75 9,75 2,78309 3,05629 37 9,75 76,16 3,05629 3,42162 0 9,75 9,75 mayor 3,42162 6 9,75 1,44 ---------------------------------------------------------------------------Chi-cuadrado = 151,54 con 5 g.l. P-Valor = 0,0 Contraste Chi-cuadrado Estadístico DMAS de Kolmogorov = 0,207182 Estadístico DMENOS de Kolmogorov = 0,277421 Estadístico DN global de Kolmogorov = 0,277421 P-Valor aproximado = 0,0000122135 Frecuencia esperada mayor que 5, podemos tomar en consideración el test Chicuadrado, cuyo P-valor nos permite rechazar la normalidad de la variable; además el Pvalor muy pequeño correspondiente al test Kolmogorov nos confirma esa conclusión. Realizamos también los tests de normalidad (aunque ya no sería necesario) (Botón amarillo – tests de normalidad) Tests para la Normalidad para #_cine Estadístico chi-cuadrado de bondad de ajuste = 133,538 P-valor = 0,0 Estadístico W de Shapiro-Wilks = 0,907541 P-valor = 0,00000446872 Puntuación Z para asimetría = 2,67074 P-valor = 0,00756859 Puntuación Z para curtosis = 2,74351 P-valor = 0,00607863 Los p-valores menores que alpha nos permiten confirmar la no Normalidad de la variable #_”Cine” varón, confirmando los resultados del test Chi-cuadrado y Kolmogorov. Sin necesidad de ver la Normalidad o no de la variable #_cine” mujeres”, pasamos a realizar la comparación de Medianas. Comparación – 2 Muestras – Comparación de 2 muestras Datos #_cine Código de muestra Sexo . columna de códigos y datos (acepto) Ops. Tabulares (botón amarillo) Comparación de medianas Comparación de Medianas para #_cine ----------------------------------Mediana de la muestra 1: 7,0 Mediana de la muestra 2: 6,0 Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas Hipótesis nula: mediana1 = mediana2 Hipótesis alt.: mediana1 <> mediana2 Rango medio de la muestra 1: 51,8947 Rango medio de la muestra 2: 48,2949 W = 686,0 P-Valor = 0,617396 El p-valor no es menor que alpha; por tanto aceptamos Ho, es decir, aceptamos que las medianas son similares. Botón derecho cambio a menor que: Ho: Mmujer = Mvarón H1: Mmujer< Varón Comparación de Medianas para #_cine ----------------------------------Mediana de la muestra 1: 7,0 Mediana de la muestra 2: 6,0 Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas Hipótesis nula: mediana1 = mediana2 (3) Hipótesis alt.: mediana1 < mediana2 Rango medio de la muestra 1: 51,8947 Rango medio de la muestra 2: 48,2949 W = 686,0 P-Valor = 0,691302 El P-valor no es menor que alpha, acepto Ho. O sea que los hombres no acuden al cine más que las mujeres. 8.- ¿Puede aceptarse que hombres y mujeres estudian el mismo número de horas en la biblioteca? ¿Puede aceptarse que las mujeres estudian más? Observa la cantidad de hombres y mujeres encuestados, y extrae alguna conclusión. Tengo que comparar 2 muestras: ¿Datos pareados? No ¿Normalidad de las variables? Normalidad variable número de horas “varón” Ho: variable #_horas “varón” es Normal H1 : variable #_horas “varón” no es Normal Tests de Bondad de Ajuste para #_horas Descripción — Distribuciones--Ajuste de distribuciones (Datos no-censurados) Datos # horas Selección Sexo = “varón” Chi-Cuadrado: P-valor 0,00540431 Kolmogorov: P-valor 0,0458402 El p-valor en Chi-Cuadrado y Kolmogorov nos permite rechazar la normalidad de la variable. Realizamos también los tests de normalidad (Botón amarillo – tests de normalidad) Tests para la Normalidad para #_horas Estadístico chi-cuadrado de bondad de ajuste = 94,0513 P-valor = 6,3024E-12 Estadístico W de Shapiro-Wilks = 0,914203 P-valor = 0,000015782 Puntuación Z para asimetría = 1,68662 P-valor = 0,091677 Puntuación Z para curtosis = -0,19789 P-valor = 0,843126 Dos valores de P-valor muy pequeños nos permiten también rechazar la normalidad de la variable. Pasamos directamente a la comparación de Medianas. Comparación – 2 Muestras – Comparación de 2 muestras Datos #horas Código de muestra Sexo . Columna de códigos y datos (acepto) Ops. Tabulares (botón amarillo) Comparación de medianas Ho: Mvarón = Mmujer H1: Mvarón <> Mujer Comparación de Medianas para #_horas -----------------------------------Mediana de la muestra 1: 12,0 Mediana de la muestra 2: 8,0 Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas Hipótesis nula: mediana1 = mediana2 (1) Hipótesis alt.: mediana1 <> mediana2 Rango medio de la muestra 1: 65,6842 Rango medio de la muestra 2: 44,9359 W = 424,0 P-Valor = 0,003775 El p-valor menor que alpha me permite rechazar Ho; por tanto, hombres y mujeres no estudian el mismo número de horas. ¿Puede aceptarse que las mujeres estudian más? Botón derecho: cambiamos la alternativa a “mayor que” Comparación de Medianas para #_horas -----------------------------------Mediana de la muestra 1: 12,0 Mediana de la muestra 2: 8,0 Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas Hipótesis nula: mediana1 = mediana2 (2) Hipótesis alt.: mediana1 > mediana2 Rango medio de la muestra 1: 65,6842 Rango medio de la muestra 2: 44,9359 W = 424,0 P-Valor = 0,0018875 El p-valor menor que alpha me permite rechazar Ho; por tanto, las mujeres estudian más horas que los hombres. Hay 18 mujeres (que estudian entre valores de 2 y 25 horas) y 78 hombres (estudian entre 1 y 20 horas). Sin embargo, a pesar de que hay muchas menos mujeres, su determinación a la hora de sacar adelante sus estudios, parece ser mayor. 9.- ¿Puede admitirse que la distribución de la variable # de préstamos sea la misma en hombres y mujeres? Comparación de distribuciones Ho: X e Y tienen la misma distribución H1: X e Y no tienen la misma distribución Contraste de Kolmogorov-Smirnov para #_prest -------------------------------------------Estadístico DN estimado = 0,320513 Estadístico asintótico K-S a dos colas = 1,25281 P-Valor aproximado = 0,086652 P-valor mayor que alpha, acepto Ho, X e Y tienen la misma distribución. Ejercicio 3 Para estudiar cómo afecta el fuego en España, se han tomado datos del año 1999 que se recogen en el fichero incendios.sf3 sobre distintas provincias. Las variables son: números de CONATOS (incendios que afectan a una superficie menor de 1 hectárea), número de INCENDIOS, SUPERFICIE AFECTADA (hectáreas), SUPERFICIE ARBOLADA AFECTADA (hectáreas), PRECIPITACIÓN media en los meses de Julio y Agosto (mm3), HUMEDAD RELATIVA media (%), TEMPERATURA media (ºC) de las máximas de los meses más cálidos (julio y agosto), número de días con temperaturas superiores a los 25ºC (NDIAS), el tipo de vegetación predominante (VEGE_PRED:1 = formaciones arbustivas subarbustivas, 2= otras) y la ZONA geográfica (norte, sur y centro) donde está ubicada la provincia. Utiliza un nivel de confianza del 95%. 1. Comprueba la normalidad de las variables CONATOS e INCENDIOS Tests de Bondad de Ajuste para conatos Contraste Chi-cuadrado ---------------------------------------------------------------------------Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado ---------------------------------------------------------------------------menor o igual -252,248 0 7,14 7,14 -252,248 -25,9069 0 7,14 7,14 -25,9069 148,235 37 7,14 124,80 148,235 310,685 7 7,14 0,00 310,685 484,827 2 7,14 3,70 484,827 711,168 0 7,14 7,14 mayor 711,168 4 7,14 1,38 ---------------------------------------------------------------------------Chi-cuadrado = 151,321 con 4 g.l. P-Valor = 0,0 Estadístico DMAS de Kolmogorov = 0,371902 Estadístico DMENOS de Kolmogorov = 0,317288 Estadístico DN global de Kolmogorov = 0,371902 P-Valor aproximado = 0,00000196909 Tests para la Normalidad para conatos Estadístico chi-cuadrado de bondad de ajuste = 203,44 P-valor = 0,0 Estadístico W de Shapiro-Wilks = 0,445483 P-valor = 0,0 Puntuación Z para asimetría = 4,35449 P-valor = 0,0000133477 Puntuación Z para curtosis = 4,70162 P-valor = 0,00000258399 Tanto los tests de Bondad de Ajuste (aceptando Chi-cuadrado ya que la Frecuencia esperada es mayor de 5) como los tests para la Normalidad para la variable conatos nos permiten rechazar la normalidad de la misma. Tests de Bondad de Ajuste para incendios Contraste Chi-cuadrado ---------------------------------------------------------------------------Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado ---------------------------------------------------------------------------menor o igual -118,486 0 7,14 7,14 -118,486 -1,43821 0 7,14 7,14 -1,43821 88,6158 35 7,14 108,64 88,6158 172,624 7 7,14 0,00 172,624 262,678 0 7,14 7,14 262,678 379,726 5 7,14 0,64 mayor 379,726 3 7,14 2,40 ---------------------------------------------------------------------------Chi-cuadrado = 133,121 con 4 g.l. P-Valor = 0,0 Estadístico DMAS de Kolmogorov = 0,321569 Estadístico DMENOS de Kolmogorov = 0,298128 Estadístico DN global de Kolmogorov = 0,321569 P-Valor aproximado = 0,0000645864 Estadístico EDF Valor Forma Modificada P-Valor --------------------------------------------------------------------Kolmogorov-Smirnov D 0,321569 2,30927 <0.01* Anderson-Darling A^2 8,97365 9,11633 0,0000* Tests para la Normalidad para incendios Estadístico chi-cuadrado de bondad de ajuste = 184,72 P-valor = 0,0 Estadístico W de Shapiro-Wilks = 0,513005 P-valor = 0,0 Puntuación Z para asimetría = 4,34554 P-valor = 0,0000139039 Puntuación Z para curtosis = 4,85302 P-valor = 0,00000121763 De nuevo los valores pequeños de P-valor en todos los tests nos permiten rechazar la normalidad de la variable incendios. 2. ¿Es cierto que hay muchos más conatos que incendios? Se trata de comparación de muestras pareadas. Por lo tanto: Comparación – 2 Muestras – Comparación de 2 muestras Pareadas Muestra 1 Conatos Muestra 2 Incendios Resumen Estadístico para conatos-incendios Frecuencia = 50 Media = 98,84 Varianza = 140898,0 Desviación típica = 375,364 Mínimo = -690,0 Máximo = 1795,0 Rango = 2485,0 Asimetría tipi. = 8,91517 Curtosis típificada = 18,0076 Los coeficientes anteriores se refieren a la variable Diferencia: D = conatos – incendios. A partir de los coeficientes de asimetría y curtosis tipificados de D, deducimos que D no es normal. Por lo tanto, realizamos un test sobre la mediana de la variable diferencia: Ho: M_D =0 (mediana de D = 0) Halt.: M_D <>0 (mediana de D distinta de 0) Ops Tabulares / Contraste de Hipótesis Contraste de los signos ----------------------Hipótesis nula: mediana = 0,0 Alternativa: no igual Número de valores inferiores a la mediana de H0: 9 Número de valores superiores a la mediana de H0: 40 Estadístico para grandes muestras = 4,28571 (aplicada la corrección por continuidad) P-valor = 0,0000182281 El P-valor tan pequeño nos permite rechazar Ho; por tanto, sí hay diferencia entre el número de conatos e incendios. Observemos que, puesto que el coeficiente de asimetría está fuera del rango (-2,2), la variable no puede considerarse simétrica y es preferible no utilizar el test de los rangos signados. Botón derecho cambiamos la alternativa a “mayor que” Contraste de los signos ----------------------Hipótesis nula: mediana = 0,0 Alternativa: mayor que Número de valores inferiores a la mediana de H0: 9 Número de valores superiores a la mediana de H0: 40 Estadístico para grandes muestras = 4,28571 (aplicada la corrección por continuidad) P-valor = 0,00000911403 Rechazamos Ho ante un P-valor tan pequeño. Podemos afirmar que existe un mayor número de conatos que de incendios. 3. ¿Puede decirse que hay más incendios en el Centro, que en el Sur de España? Los datos no son pareados. Comprobamos la normalidad de la variable incendios en zona Centro. Descripción—Distribuciones--Ajuste de distribuciones (Datos no-censurados) Datos incendios Selección Zona = “centro” Tests de Bondad de Ajuste para incendios Contraste Chi-cuadrado ---------------------------------------------------------------------------Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado ---------------------------------------------------------------------------menor o igual 1,84469 0 2,60 2,60 1,84469 57,3337 8 2,60 11,22 57,3337 105,128 2 2,60 0,14 105,128 160,617 2 2,60 0,14 mayor 160,617 1 2,60 0,98 ---------------------------------------------------------------------------Chi-cuadrado = 15,077 con 2 g.l. P-Valor = 0,000532186 Estadístico DMAS de Kolmogorov = 0,271412 Estadístico DMENOS de Kolmogorov = 0,244608 Estadístico DN global de Kolmogorov = 0,271412 P-Valor aproximado = 0,295073 La Frecuencia esperada inferior a 5 no nos permite tener en cuenta el test de Chi-Cuadrado. El P-Valor superior a alpha del test de Kolmogorov no me permite aceptar Ho. Tests para la Normalidad para incendios Estadístico chi-cuadrado de bondad de ajuste = 18,3077 P-valor = 0,0190343 Estadístico W de Shapiro-Wilks = 0,634304 P-valor = 0,0000651992 Puntuación Z para asimetría = 2,71067 P-valor = 0,00671479 Puntuación Z para curtosis = 3,50022 P-valor = 0,000464953 Los P-valores de los tests para la normalidad nos permiten rechazar la normalidad de la variable incendios zona centro, al igual que el test de Kolmogorov. Por lo tanto, comparamos las medianas. Comparación de Medianas para incendios -------------------------------------Mediana de la muestra 1: 48,0 Mediana de la muestra 2: 33,0 Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas Hipótesis nula: mediana1 = mediana2 (1) Hipótesis alt.: mediana1 <> mediana2 Rango medio de la muestra 1: 17,4615 Rango medio de la muestra 2: 13,0 W = 72,0 P-Valor = 0,167061 El P-valor mayor que alpha nos permite aceptar Ho el número de incendios es similar en las zonas centro y sur. Botón derecho cambiamos la alternativa a “mayor que” Comparación de Medianas para incendios -------------------------------------Mediana de la muestra 1: 48,0 Mediana de la muestra 2: 33,0 Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas Hipótesis nula: mediana1 = mediana2 (2) Hipótesis alt.: mediana1 > mediana2 Rango medio de la muestra 1: 17,4615 Rango medio de la muestra 2: 13,0 W = 72,0 P-Valor = 0,0835306 El P-Valor mayor que alpha nos permite aceptar Ho, y rechazar la hipótesis alternativa, no hay mayor número de incendios en la zona centro que en la zona sur. 5. ¿Dirías que la distribución del número de conatos puede considerarse igual en el Centro y en el Sur? Comparación de distribuciones Ho: X e Y tienen la misma distribución H1: X e Y no tienen la misma distribución El p-valor (0’0418266) es algo más pequeño que alpha y me permite rechazar Ho; por lo tanto, las distribuciones de conatos en Centro y Sur no son iguales.