CIENCIAS AMBIENTALES 4º CURSO ESTADÍSTICA Práctica nº 4 Contrastes sobre una muestra con SPSS PRÁCTICA 4.- Contrastes sobre una muestra con SPSS 4.1.- Contrastes sobre la media de una variable aleatoria Normal. Partiendo de una variable N(µ; σ2 ), se pueden realizar contrastes del tipo: H0 : µ = µ 0 H1 : µ ≠ µ 0 se resuelven tomando una muestra y comprobando si el estadístico: x − µ0 z exp = , que sigue una distribución N(0:1) tiene un valor comprendido dentro del intervalo de σ2 n aceptación: C0 =(-zα/2 ; zα/2 ) , para un nivel de significación α Si la varianza poblacional no es conocida, se estima con la cuasivarianza y el estadístico de contraste sigue una distribución t de Student con n-1 grados de libertad. x − µ0 t exp = ,la región de aceptación es : C0 =(-tα/2; t α/2 ) , para un nivel de significación α 2 s n 4.2.- P-Valor o probabilidad límite Si pudiésemos disponer de todas las posibles distribuciones t con toda precisión, podríamos construir una región de aceptación con un nivel de significación, por ejemplo, de 0.179, si fuese el caso. Los paquetes estadísticos suelen proceder de este segundo modo al realizar un contraste, a partir del estadístico de contraste, t exp y su simétrico, determinan el área bajo las dos colas de una t de Student, es el denominado Probabili dad límite (P-Value o Significance, en algunos programas en inglés). Si la región crítica tuviese por extremos las cantidades experimentales, el nivel de significación es la probabilidad límite, es decir, el P-Valor es la probabilidad de cometer error de tipo I que estaremos dispuestos a correr si rechazamos la hipótesis nula, por eso, si P-Valor es mayor que 0.05, aceptamos H0 a un nivel de significación del 5%. En general, valores altos de la probabilidad límite (mayores que α) nos harán aceptar H0 y valores bajos (inferiores a α) nos indican que el contraste fue significativo: aceptaremos H1 . El P-Valor también puede ser contemplado como la probabilidad de obtener un estadístico experimental igual o más raro (desde el punto de vis ta de la hipótesis nula) que el hallado, en valor absoluto, si el contraste es bilateral, o con su signo si fuese unilateral. La información proporcionada por la probabilidad límite es mejor que la que proporciona el nivel de significación, pues nos dice con absoluta precisión cuál es la significación del contraste. 4.3.- Contrastes sobre la media de una variable aleatoria no Normal. Aunque la variable de partida no fuese normal, sabemos que la media muestral sigue una distribución aproximadamente Normal, de media al poblacional y varianza la poblacional entre el tamaño de la muestra. El parecido entre la distribución que siga la media muestral y la distribución normal correspondiente es tanto mayor cuanto mayor sea el tamaño de la muestra. Si las muestras son de tamaño superior a 60, la aproximación es suficientemente buena y aunque no se conozca la varianza poblacional, el estadístico de contraste es: x − µ0 z exp = y la región de aceptación la: C0 : C0 =(-zα/2 ; zα/2 ) , para un nivel de significación α, pues, 2 s n aunque se estime la varianza poblacional, la falta de normalidad hace que la distribución no sea un t, sino que se aproxima más a una normal. Práctica 4, página, 1 No obstante, la mayoría de los programas estadísticos realizan el contraste a partir de la t de Student, como si se tratase de una variable Normal, de hecho, al requerirse muestras grandes, la t de Student tendrá muchos grados de libertad, en cuyo caso tiende a una Normal. Somos nosotros quienes debemos interpretar los resultados, teniendo en cuenta que una región de aceptación basada en una t es siempre más amplia que la basada en la Normal, lo que producirá un nivel de significación menor que el que se desea. Como paso previo se podrá realizar un contraste de Normalidad , SPSS realiza el de Shapiro-Wilk y el de Kolmogorov si las muestras son de menos de 50 datos, para muestras mayores solo realiza este último. 4.4.- Contrastes sobre una muestra con SPSS. Para realizar contrastes paramétricos sobre una muestra en SPSS hay que desplegar en menú Statis tics y elegir Compare Means, del submenú que se d espliega elegimos One Sample T Test, que nos lleva a un cuadro de diálogo como el siguiente: De la lista de variables del cuadro de la izquierda elegiremos aquella sobre la que se desea realizar el contraste. Por defecto, la hipótesis nula es que la media vale cero, pero se puede modificar esta hipótesis introduciendo el valor de la media en el recuadro Test Value. Si se ha seleccionado más de una variable, todas se compararán con el Test Value indicado. El botón Options permite definir el nivel de confianza para los intervalos de confianza que se construyan así como indicar el tratamiento que se dará a los casos con datos perdidos. 4.5.- Otros contrastes sobre una muestra. Además del contraste sobre la media, SPSS puede realizar varios contrastes de Normalidad, el de mayor potencia es el de Shapiro-Wilk, que efectúa el programa por defecto cuando se selecciona el menú Statistics, Sumarize, Explore, al pulsar el botón Plots en este último cuadro de diálogo, se abre un nuevo cuadro en el que se puede seleccionar una casilla de verificación que hará que el programa realice los tests de Normalidad. El test de Shapiro-Wilk solo se realiza si la muestra es de menos de 50 datos, mientras que el de Kolmogorov se realiza para cualquier tamaño de muestra. Práctica 4, página, 2 También se puede realizar el contraste de Kolmogorov-Smirnov ejecutando la orden Nonparametrics tests del menú Statistics, opción 1 Sample K-S. Existen otros contrastes sobre una muestra, tanto paramétricos: Bondad de ajuste, como no paramétricos: Test de signos y de rangos con signo, que no se verán aquí, no obstante, dentro del menú StatisticsNonparametric Tests encontramos la opción Binomial, que permite realizar el contraste sobre una proporción en base a la distribución exacta del número de aciertos que, bajo H0 es b(n;p0 ). Al elegir esta opción se pasa a un cuadro de diálogo como el siguiente: en el que se selecciona la variable a contrastar y el valor de la proporción que se desea como hipótesis nula. Si los datos son de tipo dicotómico (0 y 1), las categorías están definidas y solo hay que contar los datos (Get from data), si los datos no son dicotómicos, se debe definir un valor (Cut point) de tal modo que aquellos de entre los observados que sean menores o iguales que él serán contabilizados como 0 y los que sean mayores como 1. La probabilidad límite se calcula por defecto aproximando la distribución binomial por la No rmal con corrección por continuidad, pero se puede forzar a que se realice el cálculo con la distribución binomial exacta pulsando el botón Exact. Los cálculos relativos a las distribuciones exactas suelen consumir muchos recursos y pueden ser largos, por eso se establece un tiempo máximo para ellos. El botón Options nos lleva a un cuadro de diálogo en el que se puede solicitar que se nos muestre una estadística descriptiva de los datos incluyendo o no los cuartiles. Actividades correspondientes a esta práctica: Práctica 4, página, 3 Se proporcionan tres ficheros con formato SPSS, son los llamados tallas.sav; contamina.sav y suspensos.sav, los datos correspondientes a los ejemplos de los apuntes de teoría, se trata de realizar los siguientes contrastes: Fichero Tallas: Abra el fichero y realice un análisis exploratorio previo, que incluya un contraste de Normalidad (Statistics-Sumarize-Explore -Plots-Normality tests with plots) sobre cada una de las tres columnas que se incluyen. Conteste a las siguientes cuestiones: Media Extremos del IC 95% Inferior Superior Mediana CuasiVar. CuasiDTa Kolmogorov Estadístico P-valor Muestra 1 Muestra 2 Muestra 3 Comente la forma: simetría y apuntamiento de los histogramas Muestra 1 Muestra 2 Muestra 3 Comente los Boxplots Indique si hay presencia de Outliers en cada una de las tres muestras Realice test t (Statistics-Compare Means- One sample t test) sobre cada una de las tres muestras, imponga como hipótesis nula (Test value) que la media sea 170. Conteste a las siguientes cuestiones: Condición previa: en relación al tipo de Test, el tamaño de la muestra y los supuestos requeridos para su realización, ¿Es aplicable este tipo de contraste? Justifique su respuesta. Plantee el contraste: Hipótesis nula: Hipótesis alternativa: Resultados: Muestra 1 Muestra 2 Muestra 3 Media: Cuasidesviación típica: Práctica 4, página, 4 Estadístico de contraste: P-valor o valor crítico del contraste (significance): Conclusión del test: Conteste a las dos últimas filas de esta tabla si el contraste fuese unilateral. Plantee y resuelva con estas muestras los dos tipos de contrastes unilaterales posibles. Contraste: Muestra 1 Muestra 2 Muestra 3 P-valor o valor crítico del contraste (significance): Conclusión del test: Contraste: Muestra 1 Muestra 2 Muestra 3 P-valor o valor crítico del contraste (significance): Conclusión del test: Fichero Contamina: Repita el proceso realizado en el fichero Tallas, contestando a las mismas preguntas. Realice el test t para la hipótesis nula de que la media sea 15. Fichero Suspensos: Es un fichero que contiene datos de tipo 0, 1 indicando si un alumno tiene calificación de suspenso (1) o no (0). Variables dicotómicas pueden convertirse en binarias codificando sus valores como 0 y 1. En este caso, la media de la variable es la proporción de valores 1 en el conjunto de datos Respecto a estadística descriptiva. igual que el anterior, realice además un diagrama de sectores (menú Graph Pie). Realice también el contraste para comprobar que la proporción de aprobados es 0.5 frente a que no lo sea. Este contraste se puede hacer, una vez codificados los datos como 0 y 1, mediante el test T sobre una muestra, o bien desde el menú Statistics-Nonparametric Tests-Binomial, ya que la distribución exacta del número de aciertos, si es cierto H0 es una binomial de parámetros n y p 0 . BIBLIOGRAFÍA: M ARTÍN A NDRÉS, A. Y LUNA DEL CASTILLO , J. D.: Bioestadística para ciencias de la Salud. 4ª Edición. Ediciones Norma. Madrid, 1994. M ILTON, J.S.: Estadística para Biología y Ciencias de la Salud, 2ª Edición. Interamericana-McGraw Hill. Madrid, 1994. STEEL R.G.D., J.H. TORRIE.: Bioestadística: Principios y procedimientos. Mc Graw-Hill, México, 1986. W ALPOLE , R.E.Y M YERS, R.H. . Probabilidad y Estadística. McGraw Hill, México, 1992. Práctica 4, página, 5