M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Tema 7: Intervalos de Conanza y Contrastes de Hipótesis Objetivos Aplicar los procedimientos de intervalos de conanza y test de hipótesis para medias y proporciones. Interpretar convenientemente los resultados Comparar dos medias o dos proporciones muestrales y analizar posibles diferencias signicativas. 1. Intervalos de Conanza y test de hipótesis En el tema que nos ocupa el objetivo que queremos resolver es de estimación de parámetros desconocidos de la población, como una media de una población que puede ser representada por una variable normal, o una proporción de un modelo de Bernoulli. Son dos los procedimientos que se usarán para estimar dichos parámetros desconocidos: intervalos de conanza y contrastes de hipótesis. Además, siempre dispondremos de una muestra aleatoria simple extraída de la población de interés que nos aportará información necesaria para poder ejecutar los procedimientos anteriores, como medias o desviaciones típicas muestrales. Un intervalo de conanza es un rango de valores (l1 , l2 ), calculado a partir de la mues- tra y que contiene el verdadero valor del parámetro con una probabilidad determinada de antemano se le llamará 1 − α, llamada nivel de conanza. A la semiamplitud de dicho intervalo error de estimación. Un contraste de hipótesis es un problema de decisión donde se formulan dos hipótesis acerca del valor que puede tomar el parámetro desconocido, denominadas hipótesis nula (denotada por H0 ) e hipótesis alternativa (denotada por una de dichas hipótesis. La hipótesis H0 H1 ) y habrá que decidir entre es la hipótesis que se acepta por defecto a no ser que la información muestral acerca del parámetro muestre una discrepancia con H0 tan grande que no pueda ser atribuida al azar y tenga que ser rechazada ésta para aceptar la hipótesis alternativa llamado H0 H1 . En los contrastes que se realicen, se jará de antemano el nivel de signicación que se denota por α y es la probabilidad de rechazar cuando ésta es en realidad cierta. 1.1. Construcción de intervalos de conanza A continuación damos un esquema de construcción de intervalos de conanza para la media de una población normal. X ∼ N (µ, σ) con µ desconocida. El siguiente esquema muestra cómo construir un intervalo (l1 , l2 ), de forma que dicho intervalo contenga el parámetro µ con probabilidad 1 − α. Sea (X1 , ..., Xn ) una m.a.s. de tamaño n, procedente de Sin embargo no es objetivo de este curso construir tales intervalos sino aplicarlos e interpretarlos en situaciones concretas. Tema 7 Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Intervalo de conanza para la media µ de una población normal con σ conocida Consideramos el estadístico: Z= Sabiendo que X̄ − µ √σ n Z ∼ N (0, 1) podemos encontrar dos valores simétricos respecto a cero que −z1− α2 y z1− α2 tal que denotaremos mediante P donde 1 − α2 . z1− α2 −z1− α2 ≤ X̄ − µ √σ n ! ≤ z1− α2 =1−α⇔ es la abscisa de la distribución normal que deja a su izquierda un área de σ σ P −z1− α2 √ ≤ X̄ − µ ≤ z1− α2 √ =1−α⇔ n n σ σ α α P X̄ − z1− 2 √ ≤ µ ≤ X̄ + z1− 2 √ = 1 − α n n | {z } | {z } l1 l2 Ejemplo 1.1 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X̄ = 180 063 calcular un intervalo de conanza al 95 % para el parámetro desconocido µ. σ 00 1 0 0 IC = X̄ ± z1− α2 √ = (18.014, 18.112) = 18 063 ± 1 96 √ n 16 Ejemplo 1.2 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X̄ = 180 063, de forma que el intervalo de conanza para µ resulta ser (17.9985, 18.1275). Calcula el nivel de conanza con el que ha sido construido. El error de estimación (semiamplitud del intervalo) es 18.1275 − 180 0630 = 0.0645 , es decir, z1− α2 = 2.58, por lo que 1 − α2 = 0.995 por lo tanto, 0.0645 = z1− α2 √σn = z1− α2 0.1 4 y 1 − α = 0.99. 2. Determinación del tamaño de muestra Vamos a considerar cómo se puede jar el tamaño de la muestra en los casos de estimación por intervalos cuando deseamos acotar el error de estimación, es decir, la semiamplitud del intervalo, que denotaremos por Por ejemplo, cuando estimamos queremos lo que conseguimos haciendo Tema 7 µ con σ e. conocida y jado el nivel de conanza 1 − α, σ z1−α/2 √ < e n σ n > (z1−α/2 )2 e Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia En el caso de no conocer la varianza podemos aproximarla por una estimación o una cota de la misma Ejemplo 2.1 Supongamos que deseamos conocer el tamaño de muestra n para que la media muestral X diste de la media poblacional µ menos de 0.05, con probabilidad 0.95 y suponiendo que σ = 0.25. Queremos que sea σ z1−α/2 √ < e n basta que sea σ n > (z1−α/2 )2 e es decir n > (1.96 0.25 2 ) = 96.04 0.05 o lo que es igual n ≥ 97 3. Resumen de Intervalos más frecuentes (una sola muestra) En la siguiente tabla se recoge la expresión de los intervalos de conanza de los parámetros más conocidos. Parámetro Población Intervalo de conanza µ Normal con µ No normal con σ conocida (n µ No normal con σ desconocida (n p Bernoulli (n λ Poisson (n σ conocida ≥ 30) ≥ 30) ≥ 30) ≥ 30) σ x ± z1−α/2 √ n σ x ± z1−α/2 √ n S x ± z1−α/2 √ n r pb(1 − pb) pb ± z1−α/2 n r x x ± z1−α/2 n 4. Caso de dos muestras En ocasiones es necesario contrastar la homogeneidad de dos muestras para pronosticar si proceden de la misma población o no. Es decir, se trata de resolver alguna de las siguientes cuestiones: ¾Son dos muestras normales procedentes de una población con igual media? Tema 7 Página: 3 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia ¾Son dos muestras de Bernoulli procedentes de una población con la misma probabilidad de éxito?. En principio este objetivo lo llevaremos a cabo con intervalos de conanza y más tarde lo resolveremos mediante test de hipótesis. ¾Cómo podemos interpretar los resultados de un intervalo de conanza para desvelar una cuestión como la anterior?. Aunque las muestras provengan de la misma población es razonable que al observar dos muestras de ella se obtengan medias muestrales distintas y estas diferencias se atribuyen al azar. Esto se va a traducir en que al calcular el intervalo de conanza para la diferencia de dos medias o proporciones, éste contendrá el valor cero. Por el contrario, si el intervalo de conanza para la diferencia de medias o proporciones no contiene al cero decimos que la diferencia de medias muestrales es signicativa y sería lo mismo que concluir que las medias teóricas son diferentes. Parámetros µ1 − µ2 Intervalo de Poblaciones conanza Normales indep., σ1 y σ2 conocidas σ1 , σ2 desconocidas n1 > 30, n2 > 30 Normales apareadas, µ1 − µ2 p1 − p2 D = X1 − X2 n ≥ 30 Bernoulli, indep., (n1 ≥ 30, n2 ≥ 30) σ12 σ22 + n1 n2 r S12 S22 + n1 n2 x1 − x2 ± z1−α/2 No Normales indep., µ1 − µ2 r x1 − x2 ± z1−α/2 SD D ± z1−α/2 √ n r pb1 − pb2 ± z1−α/2 pb1 (1 − pb1 ) pb2 (1 − pb2 ) + n1 n2 5. Elementos básicos en un contraste de hipótesis paramétrico Supongamos que desconocemos el valor de un parámetro y formulamos dos posibles hipótesis acerca del valor que éste puede tomar. Por ejemplo, pensemos que X sea el contenido en gramos de proteínas, en 100 g de un nuevo producto lácteo y del que desconocemos la media lácteo estándar contiene por término medio µ = 5.2 µ. Pongamos que un producto g. de proteínas si bien éste nuevo que se quiere lanzar al mercado se presenta enriquecido en varios tipos de nutrientes. Para contrastar si el nuevo producto presenta enriquecimiento en proteínas, formulamos las hipótesis: Hipótesis Nula Hipótesis Alternativa La Hipótesis Nula H0 H0 : µ = 5.2g H1 : µ > 5.2g es siempre una hipótesis conservadora que recoge información histórica acerca del parámetro, mientras que la Hipótesis Alternativa H1 es la hipóte- sis de trabajo, que recoge información reciente sobre el parámetro y progresista porque suele informar de un cambio respecto al comportamiento histórico del parámetro. La Tema 7 Página: 4 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos metodología es asumir H0 Universidad de Murcia y únicamente rechazarla si se maniestan discrepancias sig- nicativas, no atribuibles al azar; es decir, si el apoyo de H0 ocurrido sucesos de probabilidad muy baja. La aceptación de signica asumir que han H0 signicará que no ha habido conclusión estadística o que los datos aportados por la investigación empírica no han sido concluyentes. Por el contrario, el rechazo de H0 para aceptar H1 signicará que los datos proporcionados por la investigación empírica están en franco desacuerdo con la hipótesis histórica y diremos entonces que los datos son concluyentes y la hipótesis de trabajo es aceptada. En la aceptación o en el rechazo de H0 podemos cometer dos tipos de errores. Decisión que se toma Aceptar H0 HA Hipótesis Cierta H0 Rechazar H0 Correcto Error (tipo I) Error (tipo II) Correcto Aunque el error de tipo I, rechazar H0 cuando H0 es cierta, tiene más importancia H0 cuando H0 es falsa. Si llamamos α a la probabilidad de cometer un error de tipo I y β a la probabilidad de cometer un error de tipo II, lo anterior signica que supuesto que nunca será α = β = 0 (a no ser de que observemos que el error de tipo 2, aceptar a toda la población y con ello nunca nos equivocaremos), deberíamos de llevar a cabo contrastes con α controlado y pequeño. Ejemplo 5.1 En un juicio tendremos que decidir entre dos hipótesis: o el acusado es inocente o el acusado es culpable. Puesto que todos somos inocentes, salvo que se demuestre lo contrario, (H0 es la hipótesis apoyada por defecto), el test que debemos plantear es: H0 : H1 : El acusado es inocente El acusado es culpable En este caso es: α = P (Condenar al acusado, siendo éste inocente) β = P (absolver al acusado, siendo éste culpable) Con el ejemplo anterior vemos que el error tipo 1, con probabilidad α, tiene más tras- cendencia que el error de tipo 2, por lo que lo tenemos bajo control, jando dicha probabilidad de antemano. A dicho valor prejado cación. α se le denomina nivel de signi- 6. Test de hipótesis para la media de una población normal El siguiente esquema muestra cómo proceder para el contraste de una media en la situación de ser σ para el parámetro Tema 7 desconocida y muestras de tamaño grande. Para otras situaciones o p de una distribución de Bernouilli, la forma de proceder es análoga. Página: 5 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Test de hipótesis para la media µ de una población normal supuesto σ desconocida y muestras de tamaño grande 1. Planteamiento de las hipótesis a contrastar. Tres tipos de test: Test a.- H0 : µ = µ0 H1 : µ 6= µ0 Hipótesis Nula Hipótesis Alternativa Test b.- H0 : µ = µ0 H1 : µ > µ0 Hipótesis Nula Hipótesis Alternativa Test c.- H0 : µ = µ0 H1 : µ < µ0 Hipótesis Nula Hipótesis Alternativa 2. Si H0 es cierta (µ = µ0 ), la función Z= X − µ0 √S n ∼aprox N (0, 1) α y observamos el valor de z x − µ0 decir z = . S 3. Fijamos el nivel de signicación (X1 , ..., Xn ) = (x1 , ..., xn ), 4. Construimos una es √ de Z cuando n Región de Rechazo, (RR), jado α, en base a Z . La regla distribución de probabilidad del estadístico de contraste rechazar H0 si z ∈RR y aceptar H0 la es en caso contrario. En este caso: Test a.- RR=(−∞, −z1− α2 ) ∪ (z1− α2 , +∞) Test b.- RR=(z1−α , +∞) Test c.- RR=(−∞, −z1−α ) 5. Alternativamente, puede llegarse a la misma conclusión usando el valor. La regla e decisión es la siguiente: Rechazar Aceptar H0 H0 si P − valor < α en caso contrario. 6. La tercera alternativa para decidir aceptar o rechazar intervalos de conanza de nivel H0 P- (1 − α). H0 es mediante La regla de decisión es rechazar si: Test a.- µ0 ∈/ (x ± z1−α/2 √Sn ) Test b.- µ0 ∈/ (x − z1−α √Sn , ∞) Test c.- µ0 ∈/ (−∞, x + z1−α √Sn ) y aceptar Tema 7 H0 en caso contrario. Página: 6 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia En los problemas realizados a mano solemos utilizar la regla de decisión indicada en el punto 4, mientras que los casos llevados a cabo con ordenador se resuelven a través del P-valor o mediante los intervalos de conanza, criterios indicados en los puntos 5 y 6. Ejemplo 6.1 Una proceso de elaboración de lácteos nalizaba con un producto de 5.2 g de contenido medio de proteínas por 100 g de producto. En la actualidad, dicho proceso se ha modicado mediante concentración del producto, para producir lácteos de mayor contenido en proteínas. Para contrastar si el proceso se ha modicado adecuadamente, se realiza periódicamente una inspección. En una de estas inspecciones una muestra de tamaño 25 arrojó una media muestral de 5.7. y una cuasidesviación típica 1.3 mm. ¾Debemos concluir que el proceso se ha modicado correctamente para producir lácteos enriquecidos en proteínas o por el contrario la media muestral observada no presenta diferencias signicativas respecto a los valores medios tradicionales?. Hipótesis Nula (proceso no modicado) H0 : µ = 5.2 Hipótesis Alternativa (proceso modicado) H1 : µ 6= 5.2 El estadístico Z= X̄ − 5.2 √S n ∼aprox N (0, 1), si H0 es cierta Dicho estadístico es observado y toma el valor z= 5.7 − 5.2 1.3 √ 25 = 1.92 Si jamos el nivel de signicación como α = 0.05, la región de rechazo es RR=(−∞, −z0.975 )∪ (z0.975 , +∞) = (−∞, −1.96) ∪ (1.96, +∞). Como z = 1.92 ∈ / RR, aceptamos H0 , es decir, debemos concluir que NO hay suciente evidencia estadística y debemos de aceptar que el proceso produce lácteos de contenido medio en proteínas no signicativamente distinto a 5.2. En el ejemplo anterior se ha optado por un test bilateral, pero si el parámetro µ puede moverse en una sola dirección, el planteamiento anterior es inadecuado. Si esto es conocido, es más razonable hacer un test unilateral pues estamos teniendo en cuenta esta información y puede haber evidencia estadística donde antes no la había. Evidentemente, en el caso de usar un test unilateral, hay que recordar que la hipótesis de trabajo ha de estar en la hipótesis alternativa. Ejemplo 6.2 En el caso del ejemplo anterior, si descartamos la posibilidad de que el contenido medio en proteínas de los lácteos disminuya puesto que el proceso está preparado para enriquecerlos, es inadecuado el planteamiento anterior y resulta mejor el siguiente: Hipótesis Nula (proceso no modicado) H0 : µ = 5.2 Hipótesis Alternativa (proceso modicado) H1 : µ > 5.2 El estadístico Tema 7 Página: 7 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Z= X̄ − 5.2 √S n ∼aprox N (0, 1), Universidad de Murcia si H0 es cierta Dicho estadístico es observado y toma el valor z= 5.7 − 5.2 1.3 √ 25 = 1.92 Si jamos el nivel de signicación como α = 0.05, la región de rechazo es RR=(z0.95 , +∞) = (1.64, +∞). Como z = 1.92 ∈ RR, debemos concluir que SI hay suciente evidencia y debemos de rechazar H0 para aceptar que el proceso elabora lácteos enriquecidos en proteínas. 7. Contrastes paramétricos más frecuentes Al igual que en el tema de intervalos de conanza, resolvemos test de hipótesis para un solo parámetro mediante una muestra cuya población depende de dicho parámetro desconocido y para dos parámetros a partir de dos muestras. Para cada parámetro o pareja de parámetros tenemos tres opciones de test: uno bilateral o de dos colas y dos unilaterales o de una sola cola. Los test bilaterales producen resultados cuyas conclusiones son completamente equivalentes a las que se producirían de haberse construido el correspondiente intervalo de conanza. Sin embargo en los test unilaterales es posible restringir el espacio paramétrico, si este hecho es conocido de antemano, tal y como se ha visto en el ejemplo anterior, suponiendo que el parámetro sólo puede moverse en una sola dirección a partir de un valor histórico dado. De poder plantear un test unilateral (no siempre es posible hacer el supuesto de que el parámetro se mueve en una sola dirección), la región de rechazo se concentra en una sola cola y eso puede suponer apreciar diferencias signicativas cuando no se apreciaban en un test bilateral. De ahí la importancia de seleccionar en cada situación el test oportuno. A modo de resumen, diremos que hay conclusión estadística sólo en el caso del rechazo de la hipótesis nula aceptar H0 H0 para aceptar nuestra hipótesis de trabajo H1 . En el caso de y puesto que ésta es una hipótesis débil porque es la que se considera por defecto por razones históricas o por desconocimiento de la actualidad, diremos que no hay conclusión estadística o que los datos no son concluyentes respecto a nuestra hipótesis de trabajo. En la última página de este documento se adjunta una tabla con los contrastes más básicos. 8. Bibliografía 1. Temas 5 y 6 del texto Estadística para Ciencias Agropecuarias. Autor: Di Riezo, J. A. Tema 7 Página: 8 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos 2. Tema 3 y Tema 4 del texto Universidad de Murcia Probabilidad y Estadística para Ciencias e Ingenierías. Rosario Delgado de la Torre. Editorial Delta. 3. Capítulos 5 y 6 del texto Estadística para ingenieros y cientícos. William Navidi. Editorial McGraw-Hill. Tema 7 Página: 9 Tema 7 6= 0 >0 <0 6= 0 >0 <0 6= 0 >0 <0 ≥ 30) ≥ 30) y σ2 conocidas (n1 ≥ 30, n2 ≥ 30) Bernoulli, indep., D = X1 − X2 n > 30 Normales apareadas, σ1 , σ2 desconocidas n1 > 30, n2 > 30 No Normales indep., σ1 ≥ 30) ≥ 30) desconocida (n Normales indep., Poisson (n Bernoulli (n σ No normal con conocida (n conocida σ σ No normal con Normal con Poblaciones N (0, 1) pb − p0 q con N (0, 1) x − µ0 √ S/ n pb1 − pb2 q ; ( n11 + n12 )p0 (1 − p0 ) n1 pb1 + n2 pb2 p0 = n1 + n2 SD √ n D x −x q 12 2 2 S1 S2 n1 + n2 x −x q 12 2 2 σ1 σ2 n1 + n2 x − λ0 p λ0 /n aprox. N (0, 1) N (0, 1) N (0, 1) aprox. aprox. N (0, 1) N (0, 1) N (0, 1) x − µ0 √ σ/ n p0 (1−p0 ) n N (0, 1) Distribución x − µ0 √ σ/ n Estadístico (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) Rechazo Región de Grado en Ciencia y Tecnología de los Alimentos p1 − p2 = 6 0 p1 − p2 > 0 p1 − p2 < 0 µ 6= µ0 µ > µ0 µ < µ0 µ 6= µ0 µ > µ0 µ < µ0 µ 6= µ0 µ > µ0 µ < µ0 p 6= p0 p > p0 p < p0 λ 6= λ0 λ > λ0 λ < λ0 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 H1 M. Iniesta Universidad de Murcia Página: 10