M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Práctica 8: Intervalos de conanza y contrastes de hipótesis II 1. Intervalos y test (dos muestras) Vamos a llevar a cabo intervalos y test para dos muestras. Concretamente para los siguientes parámetros: Diferencia de medias para muestras relacionadas cuando los datos se estructuran por parejas y donde una pareja concreta representa a un mismo individuo, por ejemplo, si tenemos un conjunto de individuos a los que se les somete a una dieta de adelgazamiento y disponemos de sus respectivos pesos antes y después de la dieta. Diferencia de medias para muestras independientes cuando los datos se clasican en función de una variable dicotómica y las muestras, posiblemente de diferente tamaño, surgen de dicha clasicación, por ejemplo, si sólo tenemos una muestra de pesos pero disponemos de la información del sexo de cada individuo, tendremos dos muestras independientes cuando clasicamos cada dato de la variable peso según el sexo al que pertenece el correspondiente individuo. Diferencia de dos proporciones para dos muestras independientes cuando se dispone del número de individuos que presentan cierto carácter en dos muestras independientes, por ejemplo si queremos estimar la diferencia de la proporción de hombres fumadores con la de mujeres fumadoras. En el uso de las funciones implementadas en R-Commander en las opciones: Estadísticos->Medias->Test t para muestras independientes Estadísticos->Medias->Test t para datos relacionados Estadísticos->Proporciones->Test de proporciones para dos muestras nos serán útiles los siguientes comentarios. 1. El valor de defecto de la hipótesis nula es cero para diferencia de medias y proporciones, es decir H0 : µ1 − µ2 = 0 y H0 : p1 − p2 = 0, respectivamente. La hipótesis alternativa puede ser bilateral (6= 0) o unilateral (> 0 o < 0) 2. La regla de decisión, al igual que en el caso de una muestra, es aceptar H0 si P-value > α o equivalentemente 0 ∈Intervalo de confianza al nivel de conanza 1 − α. En otro caso se rechazará H0 para aceptar H1 . 3. Puesto que aceptar H0 sería aceptar que las medias poblacionales (respectivamente proporciones) son iguales, diremos que las medias muestrales observadas no acusan diferencias signicativas; en el caso contrario, cuando se rechaza H0 diremos que las medias muestrales (respectivamente proporciones) sí son signicativamente distintas. Práctica 8 Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia 4. En el caso de contrastes de diferencias de medias para muestras independientes cualquera se debe de especicar si se consideran las varianzas iguales o diferentes. La opción de defecto es diferentes, si bien los intervalos de conanza son de menor amplitud bajo la suposición de que las varianzas son iguales (error de estimación más pequeño) y por lo tanto esta situación es más recomendable que la de varianzas distintas. 5. La especicación anterior proviene de llevar a cabo un test bilateral para la igualdad de varianzas, mediante la opción Estadísticos->Varianzas->Test F para dos varianzas Cuando P-valor>α aceptamos varianzas iguales, en caso contrario aceptamos varianzas distintas. La siguiente tabla recoge las pruebas de hipótesis y los intervalos de conanza a partir de los cuales podremos aceptar o rechazar la hipótesis nula. Pero recordemos que también podremos llegar a una conclusión a partir del P-valor. De nuevo, de forma esquemática: Regla de decisión Rechazamos H0 (Existen diferencias signicativas entre las medias o proporciones muestrales) si P − valor < α ⇔ Aceptamos H0 si P − valor ≥ α Regla alternativa: Rechazamos H0 si el correspondiente intervalo de conanza NO CONTIENE EL CERO ⇔ Aceptamos H0 si el correspondiente intervalo de conanza CONTIENE AL CERO Parámetro H0 Dif. de medias Datos relacionadas µ1 − µ2 = 0 H1 Intervalo de Conanza µ1 − µ2 6= 0 SD (D ± z1−α/2 √ ) n µ1 − µ2 > 0 SD , ∞) (D − z1−α √ n µ1 − µ2 > 0 SD (−∞, D + z1−α √ ) nr n > 30 Dif. de medias muestras indep. µ1 − µ2 6= 0 µ1 − µ2 = 0 µ1 − µ2 > 0 n > 30 µ1 − µ2 > 0 Diferencia de proporciones p1 − p2 6= 0 p1 − p2 = 0 p1 − p2 > 0 n > 30 p1 − p2 < 0 Práctica 8 S12 S22 (x1 − x2 ± z1−α/2 + ) r 2n1 2n2 S1 S (x1 − x2 − z1−α + 2 , ∞) n1 r n2 S12 S22 (−∞, x1 − x2 + z1−α + ) n1 n2 r pb1 (1 − pb1 ) pb2 (1 − pb2 ) (b p1 − pb2 ± z1−α/2 + ) n1 n2 r pb1 (1 − pb1 ) pb2 (1 − pb2 ) (b p1 − pb2 − z1−α + , ∞) n2 rn1 pb1 (1 − pb1 ) pb2 (1 − pb2 ) (−∞, pb1 − pb2 + z1−α + ) n1 n2 Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Ejemplo 1 Vamos a usar de nuevo el chero Pulse.TXT para plantear algunas situaciones que pueden resolverse mediante técnicas como las anteriores. 1. Supongamos que queremos analizar si, después de realizar la actividad física, el número de pulsaciones es signicativamente mayor. Mediante la opción Estadísticos->Medias->Test t para datos relacionados Señalamos en la primera ventana la variable Pulse2 y en la segunda ventana Pulse1. En alternativa señalamos la opción Diferencia >0 y podemos dejar el nivel de conanza como 0.95. Como P −valor = 1.012e−06 decidimos rechazar H0 y aceptar que hay un aumento signicativo de las pulsaciones después del ejercicio físico. También podemos comprobar que el intervalo de conanza es (4.796501, +∞) que no contiene al cero. Es más, podemos que la elevación de las pulsaciones es signicativamente superior a 4.7. 2. Vamos a contrastar ahora si los hombres son signicativamente más altos que las mujeres, usando la variable Height. Previamente se realiza el test bilateral de igualdad de varianzas mediante la secuencia de órdenes Estadísticos->Varianzas->Test F para dos varianzas, seleccionando Sexo como variable de agrupación y Height como variable de interés. Una vez realizada la prueba con las opciones de defecto (bilateral) resulta p − value = 0.9796 lo que nos lleva a aceptar que las varianzas son iguales. A continuación hacemos la correspondiente prueba de diferencias de medias mediante la secuencia Estadísticos->Medias->Test t para muestras independientes, seleccionando las variables de interés y la alternativa > 0 resulta p − value = 6.534e−16 lo que nos lleva a rechazar la hipótesis nula y a aceptar que los hombres son signicativamente más altos al nivel de signicación α = 0.05. El intervalo de conanza IC = (4.435314, ∞) conrma esta conclusión pues no contiene al cero. 3. En la siguiente sesión hemos calculado el intervalo de conanza de la diferencia de proporciones entre hombres fumadores y mujeres fumadoras y llevado a cabo un test bilateral. Dado que 0 ∈ (−0.06398087, 0.30859240) decimos que no existen diferencias signicativas entre las propociones observadas pb1 = 0.3508772, pb2 = 0.2285714 y que dichas diferencias se deben exclusivamente al azar. También llegamos a lo mismo observando el P-valor=0.2158. Recordemos que para usar las variables dicotómicas Sex y Smokes con RCommander es necesario primero transformar éstas a factores cualitativos. Nota: 2. Gráco de medias En el gráco de medias representamos el intervalo de conanza de cada media, cuando clasicamos los datos de una variable según las modalidades de una variable cualitativa. La opción se encuentra en Gráficas->Gráficas de medias. Este procedimiento nos permite analizar cada grupo respecto a sus valores medios. Práctica 8 Página: 3 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Ejemplo 2 Los siguientes ejemplos muestran el gráco de medias para la variable Height en función de Sexo y Pulse1 en función de Fuma. En el primer caso los intervalos no comparten valores comunes por lo que se puede armar que la altura de los hombres es signicativamente mayor. En el segundo caso si se comparten valores comunes, por lo que no podemos llegar a la misma conclusión. En este caso no existen diferencias signicativas entre los valores medios de pulsaciones de fumadores y no fumadores. Plot of Means 160 80 Plot of Means 76 74 ● 72 mean of Pulso$Pulse1 150 140 130 mean of Pulso$Weight 78 ● ● 120 70 ● Hombre Mujer Pulso$Sexo Si No Pulso$Fuma 3. Prácticas 1. Encontrar el intervalo de conanza (bilateral) de la media de la variable Índice corporal para hombres y mujeres al nivel de conanza 1 − α = 0.95, mediante el gráfico de medias, haciendo previamente las siguientes transformaciones: Peso<-Weight * 0.46 en en kilos Altura<-Height * 2.54/100 en metros IMC<-Peso/Altura∧ 2 índice de masa corporal 2. Estudia si la media de la variable Pulse2 es signicativamente mayor en las personas fumadoras que en las no fumadoras, haciendo previamente el test para las varianzas, al nivel de signicación α = 0.05. 3. Estudia si las personas fumadoras tienen en media más peso que las que no fuman, haciendo previamente el test para las varianzas. Utiliza varios niveles de signicación y dí cómo afecta en este caso disminuir el riesgo α. Por ejemplo, usa α = 0.05, α = 0.01 y α = 0.001. 4. Resuelve una prueba de diferencia de proporciones para contrastar si la proporción de hombres corredores (variable Ran) es distinta a la de mujeres corredodas. Práctica 8 Página: 4