M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Práctica 7: Intervalos de conanza y contrastes de hipótesis I Objetivo En esta práctica y en la siguiente aprendemos a aplicar e interpretar las técnicas de intervalos de conanza y test de hipótesis, seleccionando la más adecuada para cada caso particular. 1. Intervalos y test (una sola muestra) R-Commander proporciona la posibilidad de construir intervalos de conanza y contrastes de hipótesis para una o dos medias, proporciones o varianzas, aunque en nuestro caso sólo resolveremos ejemplos relativos a medias y proporciones. Las opciones para una sola muestra se hallan en Estadísticos->Medias->Test t para una muestra o Estadísticos->Proporciones->Test de proporciones para una muestra. Nota 1 En nuestro curso sólo hemos estudiado los casos de muestras normales con σ conocida u otras situaciones para muestras grandes, de forma que la distribución del estadístico de contraste es Normal o aproximadamente Normal. Sin embargo, en los casos de muestras de tamaño pequeño n < 20 y σ desconocida la distribución del estadístico X −µ √S n sigue una distribución denominada t de Student, además, cuando la muestra es grande la distribución t de Student converge a la distribución N (0, 1). Es por ello que los software estadísticos las pruebas relativas a la media las denomina pruebas de la t de Student. Para cada prueba que se establezca dentro de los menús anteriores, hay que prejar los siguientes puntos: (Se expresan para el caso de la media y serán iguales para el caso de una proporción) Valor de la hipótesis nula: µ = µ0 Nivel de conanza (1 − α) Hipótesis alternativa: µ 6= µ0 , µ > µ0 o µ < µ0 En la ventana de resultados obtendremos: Valor del estadístico y P-valor Hipótesis alternativa que se contrasta Intervalo de conanza al (1 − α) de nivel de conanza Media muestral Práctica 7 Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Nota 2 Los intervalos que nosotros conocemos son los que están centrados en la media muestral y se obtienen restando y sumando a ésta el error de estimación. Estos serán obtenidos cuando nuestra hipótesis alternativa sea µ 6= µ0 . Sin embargo, cuando la hipótesis alternativa es unilateral se proporciona un intervalo de conanza de nivel (1 − α) pero dejando el nivel α en una sola cola. Estos intervalos no se usan para estimar el parámetro desconocido pero pueden ser un instrumento alternativo al P-valor para establecer una regla de decisión e interpretar el resultado del test. Para cada test de medias o proporciones la regla de decisión es la siguiente: Regla de decisión Rechazamos H0 si P − valor < α ⇔ Aceptamos H0 si P − valor ≥ α Regla alternativa: Rechazamos H0 si el valor del parámetro que formula H0 NO se halla en el correspondiente intervalo de conanza ⇔ Aceptamos H0 si el valor del parámetro que formula H0 SI se halla en el correspondiente intervalo de conanza En la tabla siguiente se indican los intervalos de conanza para cada una de las hipótesis alternativas que podremos formular en el caso de una media o de una proporción. Parámetro Media H0 mu = mu0 Proporción p = p0 H1 mu 6= mu0 mu > mu0 mu < mu0 p 6= p0 p > p0 p < p0 Intervalo de Conanza (x ± z1−α/2 √Sn ) (x − z1−α √Sn , ∞) (−∞, x + z1−α √Sn ) q p) (b p ± z1−α/2 pb(1−b ) n q p) (b p − z1−α pb(1−b , ∞) nq p) (−∞, pb + z1−α pb(1−b ) n Ejemplo 3 Vamos a desarrollar algunos ejemplos de intervalos y test a partir de los datos del chero Pulse.TXT. En dicho chero se encuentran las medidas de 92 individuos, hombre y mujeres, en las variables: nº de pulsaciones por minuto antes y después de hacer ejercicio físico, tipo de actividad que realizan y otras medidas siológicas de los mismos como el peso y la altura. 1. Transformar la variable original Weight (peso en libras) mediante la expresión Peso<-Weight *0.46. Mediante la secuencia de órdenes: Datos->Modificar variable en el conjunto de datos activo->Calcular una nueva variable creamos la nueva variable Peso mediante la expresión Weight *0.46. Comprobamos que se ha creado correctamente. Práctica 7 Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia 2. Construir el intervalo de conanza para la media de la variable Peso al nivel de conanza (1 − α) = 0.95 Si únicamente queremos el intervalo de conanza, usamos la opción Test t para una muestra del menú de medias y podemos usar las opciones de defecto. Veremos que el intervalo obtenido es IC = (64.5085169.03149). Es decir, con probabilidad 0.95 el intervalo anterior contendrá el valor verdadero de la media de la población de donde se obtuvo la muestra. 3. Contrasta la hipótesis µ = 65 mediante un contraste bilateral. Dicha hipótesis nula se acepta puesto que dicho valor está en el intervalo de conanza. El P-valor=0.123 es superior a 0.05 y también nos lleva a la misma conclusión. Es decir, a pesar de que la media muestral es 66.77, aceptar la hipótesis nula implicaría que este valor no es signicativamente distinto del postulado en la hipótesis nula. 4. Contrasta la hipótesis µ = 62 frente a la alternativa µ > 62. En este caso es P − valor = 3.227e − 05 por lo tenemos que rechazar la hipótesis. Observar que el valor formulado en H0 : µ = 62 no se encuentra en el intervalo de conanza (64.87807, +∞), que por ser el test unilateral también lo es el correspondiente intervalo. 5. Para realizar pruebas relativas a proporciones con R-Commander las variables dicotómicas han de ser cualitativas. Puesto que en el chero original la variables Smokes y Sex, transforma ésta en factores mediante la secuencia de opciones Datos ->Modificar el conjunto de datos activos ->Convertir variable numérica en factor. Usa nombres diferentes y modalidades diferentes para las variables transformadas. 6. Contrastamos la hipótesis de que la proporción de personas fumadoras es p = 0.25 mediante un test bilateral al nivel de signicación α = 0.05 (valor de defecto). puesto que P − valor = 0.2786 es superior a α = 0.05 debemos de aceptar H0 y concluir que la proporción muestral es 0.3043478, ésta no guarda diferencia signicativa con la postulada en la hipótesis nula. Podemos comprobar también que el valor p = 0.25 que postula H0 pertenece al intervalo de conanza bilateral IC = (0.2197369, 0.4046427), por lo que llegamos a la misma conclusión. 7. En el segundo caso se plantea un test unilateral H0 : p = 0.25 frente a la alternativa H1 : p > 0.25, a la vista del valor estimado pb = 0.3043478. Sin embargo, dado el p-valor= 0.1393 superior a α = 0.05 se deduce que no tenemos evidencia suciente para rechazar H0 : p = 0.25 ; es decir pb = 0.3043478 no es signicamente mayor que p = 0.25. Veamos que lo anterior se apoya también en el hecho de que el valor de la hipótesis p = 0.25 pertenece al intervalo unilateral (0.22, 1.00). 8. Intervalo de conanza unilateral para la variable Pulse1 (nº de pulsaciones por minuto antes del ejercicio físico) y contraste de la hipótesis H0 : µ = 75 frente a la alternativa H1 : µ < 75 para nivel de conanza 1 − α = 0.95 y para nivel de conanza 1 − α = 0.99 En ambos casos P-value=0.03333, pues este valor sólo depende del valor observado del estadístico. A partir de estos valores y puesto que P-value=0.03333<α = 0.05 Práctica 7 Página: 3 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia debemos rechazar H0 : µ = 75 para aceptar H1 : µ < 75 y concluimos que al nivel de signicación α = 0.05 la media muestral observada x= 72.86957 SI es signicativamente menor que el valor formulado en la hipótesis H0 : µ = 75. Sin embargo, en el segundo caso (nivel de confianza=0.99) P-value=0.03333>α = 0.01 por lo que debemos aceptar H0 : µ = 75 y concluimos que al nivel de signicación α = 0.01 la media muestral observada x= 72.86957 NO es signicativamente menor que el valor formulado en la hipótesis H0 : µ = 75. Estas conclusiones se obtienen de igual manera observando que el valor que formula la hipótesis nula µ = 75 no pertenece al intervalo de conanza unilateral al nivel de conanza 1 − α = 0.95 obtenido en la primera situación (−∞, 74.77684) pero si pertenece al intervalo calculado para nivel de conanza 1 − α = 0.99 en la segunda situación (−∞, 75.58744). Estos casos muestran la importancia de seleccionar adecuadamente tanto las hipótesis a contrastar, normalmente guiadas por el conocimiento histórico de dicho parámetro (hipótesis nula) y por la hipótesis de trabajo (hipótesis alternativa), como el nivel de conanza 1 − α. Cuanto menor es α mayor es la probabilidad de aceptar H0 y si ésta es verdadera la probabilidad del error que se comete rechazando ésta es menor; sin embargo, cuando disminuimos α también aumenta la probabilidad de cometer el error de aceptar H0 cuando ésta es falsa. El nivel de signicación adecuado resultará del equilibrio entre ambos tipos de errores y la importancia de estos para el experimentador. El nivel de signicación más consensuado por la comunidad cientíca es α = 0.05, que es el valor de defecto de las funciones relativas a test de R-Commander. Por otro lado, seleccionar una hipótesis alternativa unilateral en vez de una bilateral se deriva del conocimiento que tengamos sobre el experimento que se realiza. En este caso particular hemos seleccionado la hipótesis alternativa µ < 75 puesto que, siendo la media histórica µ = 75, parece razonable pensar que los deportistas tengan valores medios inferiores. Esta selección es importante puesto que si la hipótesis alternativa hubiera sido bilateral, el P-valor se duplica y la hipótesis nula se hubiera aceptado también para el nivel de signicación α = 0.05. 2. Prácticas Para cada una de las práctica que se proponen a continuación, usa la regla de decisión a partir del P-valor en primer lugar y también a partir de los correspondientes intervalos de conanza. Conrma que en todos los casos se llega a la misma conclusión. 1. La variable Height del chero Pulse.TXT se expresa en pulgadas. Sabiendo que una pulgada equivales a 2.54 cm., transformar la variable original para que ésta se exprese en centímetros, creando una nueva variable denominada Altura. 2. Estudiar si la media muestral de la variable Altura es signicativamente distinta al valor teórico µ = 175 cm. Práctica 7 Página: 4 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos 3. Universidad de Murcia a ) Convierte la variable Sex que se encuentra codicada con números a un factor cualitativo, usando la etiqueta Hombre para el valor 1 y Mujer para el valor 2, y llama a esta nueva variable Sexo. b ) Estima la proporción de la modalidad Hombre que realiza actividad física. Usa en primer lugar un intervalo de conanza bilateral y observa cuál es la hipótesis nula de defecto. ¾Es la proporción muestral observada signicativamente distinta a la formulada en la hipótesis nula?. c ) En segundo lugar usa un test unilateral, donde la hipótesis alternativa sea H1 : p < 0.5. ¾Es la proporción muestral observada signicativamente menor que 0.5?. 4. Transforma igualmente la variable Smokes para convertirla en factor cualitativo. Lleva a cabo un test unilateral para contrastar si la proporción de deportistas fumadores es signicativamente inferior a 0.4. 5. Resuelve los apartados anteriores mediante la regla de decisión a partir de una región de rechazo. Conrma que la conclusión a la que se llega es la misma que con los criterios basados en el P-valor y con los intervalos de conanza. Práctica 7 Página: 5