Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Ingenierı́a Técnica Industrial Métodos estadı́sticos de la ingenierı́a Métodos estadı́sticos de la ingenierı́a Ingenierı́a Técnica Industrial, todas especialidades Soluciones de las hojas de problemas Introducción a los contrastes 61 Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Ingenierı́a Técnica Industrial Métodos estadı́sticos de la ingenierı́a Soluciones de la hoja de problemas 7. Introducción a los contrastes 1. El primer contraste que realizamos es H0 : µ = 1600 h. H1 : µ 6= 1600 h. Escogeremos un nivel de confianza de 95% por ejemplo, lo que corresponde a α = 0.05. X−µ0 √ que sigue, bajo H0 , aproximadamente El estadı́stico de contraste es: Z = σ/ n una distribución normal estándar gracias al teorema central de lı́mite. Se trata de un contraste bilateral, y la región crı́tica o de rechazo vendrá dada por: Para α = 0.05 ⇒ z1− α2 = z0.975 = 1.96, . Para mi muestra el estadı́stico de prueba 1570−1600 √ = −2.5. z0 cae en la región de rechazo, lo que toma el valor :z0 = 120/ 100 implica que,al 95% de confianza, rechazamos H0 y afirmamos que la vida útil promedio es significativamente diferente de 1600h. Para saber hasta qué confianza rechazarı́amos H0, calculamos el p-valor. Buscamos el valor α0 de α más pequeño que nos permita rechazar H0, lo encontraremos haciendo coincidir el lı́mite de nuestra región de rechazo con el valor del estadı́stico de prueba: 62 Introducción a los contrastes Deducimos que α0 /2 = P (Z0 ≤ −2.5) = 1 − Φ(2.5) ' 0.006. lo que implica un p-valor α0 ' 0.012.: podrı́amos por lo tanto rechazar H0 hasta un máximo de 98.8% de confianza. b) Ahora el contraste que nos piden es: H0 : µ = 1600 h. H1 : µ < 1600 h. Todo igual excepto la elección de la región de rechazo que es unilateral. α = 0.05 ⇒ z1−α = z0.95 = 1.65. Deducimos que, al 95% de confianza, también rechazamos H0 Introducción a los contrastes 63 Para calcular el p-valor, hacemos coincidir el lı́mite de la región de rechazo con el valor de nuestro estadı́stico de prueba. Deducimos α0 = P (Z0 ≤ −2.5) = 1 − Φ(2.5) ' 0.006. Podrı́amos por lo tanto rechazar H0 hasta un nivel de confianza de 99.4% 2. Planteamos el contraste H0 : µ = 0.5. H1 : µ 6= 0.5. Seguimos los mismos pasos que en el ejercicio 1a) al que te puedes referir para los 0.4647−0.5 √ ' −1.22. detalles: Encontramos un estadı́stico de prueba igual a z0 = 0.2887/ 100 El p-valor asociado es α0 = 2P (Z0 ≤ −1.22) ' 0.224. Sólo podrı́amos rechazar H0 hasta una confianza de 78%: es muy insuficiente y admitimos H0 : el centro de la distribución de los datos generados por Statistix parece coincidir con 0.5 3. Realizamos el contraste: H0 : µ = 45 H1 : µ > 45 puesto que lo que nos interesa es que como mı́nimo la producción haya aumentado por encima de 45 unidades. El valor del estadı́stico de contraste es Z0 = Xn − 45 √ = 5.91. 1.5/ 35 Construimos la región crı́tica para un nivel de significación prefijado, por ejemplo α = 0.05: 64 Introducción a los contrastes R1 = {z0 : z0 ≥ z1−α = 1.64} donde φ(z1−α ) = 1 − α = 0.95 y z0.95 es el percentil 0.95 de la distribución normal estandard. En nuestro caso: z0 = 5.91∈R1 con lo que existe evidencia para rechazar H0 . Calculamos el p-valor correspondiente: α0 = P (Z ≥ 5.91) ' 0. Rechazarı́amos H0 a virtualmente cualquier nivel de confianza... 4. Para un nivel de significación α se rechaza H0 si p − valor ≤ α. Por tanto, llamando R a la decisión de rechazar H0 y R a la decisión de no rechazar H0 , podemos resumir el ejercicio mediante la siguiente tabla: p α = 0.05 α = 0.1 α = 0.01 0.00012 R R R 0.54 R R R 0.028 R R R 0.17 R R R 5. Para determinar el p-valor α0 , que es el valor de α más pequeño que nos permita rechazar H0 , hacemos coincidir el valor del estadı́stico de prueba con la frontera de la región de rechazo asociada a cada contraste. a) Deducimos α0 /2 = P (Z0 ≥ 2.32). Es decir α0 = 2P (Z0 ≥ 2.32) = 2(1−Φ(2.32)) ' 0.02. Rechazamos H0 con gran confianza. b) Deducimos α0 /2 = P (Z0 ≤ −1.88). Por lo tanto, α0 = 2P (Z0 ≤ −1.88) = 2(1 − Φ(1.88)) ' 0.06. Rechazamos H0 con gran confianza. c) Deducimos α0 = P (Z0 ≥ 1.48) = 1 − Φ(1.48) ' 0.07. Rechazamos H0 con gran confianza. d)De la misma manera que en c): α0 = P (Z0 ≥ 1.59) = 1 − Φ(1.59) ' 0.06. Rechazamos H0 con gran confianza. e) Deducimos α0 = P (Z0 ≤ −0.23) = 1 − Φ(0.23) ' 0.40. No podemos rechazar H0 con una confianza suficiente: admitimos H0 . Introducción a los contrastes 65 6. Se quiere determinar si unos detectores de radón ( un gas inodoro y incoloro ligeramente radioactivo) son fiables. Para ello, se colocan 12 de estos detectores en una cámara y se exponen durante 3 dı́as a 105 picoCuries por litro de radón. Los datos obtenidos son los siguientes: 91.9 97.8 111.4 122.3 103.8 99.6 96.6 119.3 105.4 95.0 104.8 101.7 Supongamos que sabemos que la desviación tı́pica de las mediciones para este tipo de detectores es σ = 9, y que podemos utilizar una distribución normal. a) Construir un intervalo de confianza al 95% para el valor promedio de radon proporcionado por este tipo de detectores. Queremos un intervalo de confianza para la media poblacional de una población normal h de varianza conocida. Eliintervalo al 100(1 − α)% de confianza está dado por x̄ − z1−α/2 √σn , x̄ + z1−α/2 √σn . Encontramos que, para nuestra muestra, x̄ = 104.13, y si trababjamos al 95 % de confianza necesitamos z1−α/2 = z0.975 = 1.96, sustituyendo, obtenemos que el valor promedio de√radón proporcionado por los detectores está comprendido entre 104.13 + 1.96 · 9/ 12 = 99. 04 y 109. 22 picoCuries por litro. Podemos formularlo también de la manera siguiente: el valor promedio de radón proporcionado por los detectores es 104.13±5. 09 picoCuries por litro. b) Queremos comparar la media poblacional de los valores proporcionados por este tipo de detectores con 105. Planteamos el contraste H0 : µ = 105. H1 : µ 6= 105. X−µ0 √ que sigue, bajo H0 , una distribución σ/ n normal. Se trata de un contraste bilateral, y la región crı́tica o de rechazo vendrá dada por: El estadı́stico de contraste es: Z = 66 Introducción a los contrastes Para α = 0.05 ⇒ z1− α2 = z0.975 = 1.96, . Para mi muestra el estadı́stico de prueba 104.13−105 √ toma el valor :z0 = ' −0. 33 z0 no cae en la región de rechazo, 9/ 12 lo que implica que,al 95% de confianza no podemos rechazar H0 : no podemos afirmar que el valor promedio difiera significativamente al 95% del valor real 105. Comprobamos que coincide con el resultado obtenido con el apartado anterior, puesto que el intervalo al 95% contenı́a el valor real 105. 7. Planteamos el contraste: H0 : µ = 300 H0 : µ < 300 y α = 0.05. Estamos interesados en la potencia del test contra una alternativa 1 −µ0 ) √ ; si µ = µ1 , el estadı́stico de prueba Z0 sigue una µ = µ1 . Llamemos δ = (µσ/ n distribución N (δ, 1) con lo que: Xn − µ0 √ ∈ R1 |µ1 ) = σ/ n P (Z0 ≤ −z1−α |µ1 ) = P (Z0 ≤ −1.64)|µ1 ) = P (Z0 − δ ≤ −1.64 − δ|µ1 ) = = P (Z ≤ −1.64 − δ|µ1 ) = = φ(−1.64 − δ) π(µ1 ) = P (Rechazar H0 |µ1 ) = P (Z0 = (6) (µ1 −µ0 ) √ 1 = Z0 − √ sigue una distribución normal estandar bajo ya que Z = Xσ/n −µ n σ/ n la hipotesis de que µ1 es el verdadero valor del parámetro. Por tanto, usando la expresión (6): Introducción a los contrastes 67 • a)π(299) : tenemos δ = −0. 82 y π(299) = φ(−1.64 − (−0.82)) = φ(−0.82) = 0.21 : • b)π(295) : tenemos δ = −4. 08 y π(295) = φ(−1.64 − (−4.08)) = φ(2.44) = 0.992 • c)π(290) : tenemos δ = −8.16 y π(290) = φ(−1.64 − (−8.16)) = φ(6.5) ' 1. A medida que aumenta la distancia de µ1 respecto a µ0 aumenta la potencia del test. 8. a) Si llamamos M a la variable medición y E a la variable error cometido: M = 10 + E Por tanto M tendrá una distribución normal de media µ = µE + 10 y varianza σ 2 = σE2 = 0.32 . Para responder a la cuestión planteada consideramos el contraste: H0 : µ = 10 H1 : µ 6= 10 Estamos interesados en la potencia del test planeado contra la alternativa µ = µ1 . 1 −µ0 ) √ , la potencia del test tendra la forma: LLamemos δ = (µσ/ n π(µ1 ) = P (Rechazar H0 |µ1 ) = P (Z0 = = = = = Xn − µ0 √ ∈ R1 |µ1 ) = σ/ n P (Z0 6 ∈(−z1−α/2 , z1−α/2 )|µ) = 1 − P (Z0 ∈ (−z1−α/2 , z1−α/2 )|µ1 ) = 1 − P (Z0 ∈ (−1.96, 1.96)|µ1 ) = 1 − P (Z0 − δ ∈ (−1.96 − δ, 1.96 − δ)|µ1 ) = 1 − (φ(1.96 − δ) − φ(−1.96 − δ)). Para µ1 = 10.25, tenemos que δ = (10.25−10) √ 0.3/ 5 (7) ' 1. 86: π(10.25) = 1 − (φ(1.96 − 1.86) − φ(−1.96 − 1.86)) = 0.461. Bajo H0 la media muestral sigue una distribución N (10, 0.018), aproximadamente el 99.7% de las observaciones estará entre (10 ± 3σ) = (10 ± 0.4). La variabilidad es muy grande para detectar una diferencia de 0.25g respecto de la verdadera medición. Habrı́a que aumentar el número de observaciones en la muestra para disminuir la variabilidad de los valores observados. 68 Introducción a los contrastes b) Si consideramos n = 12, el único cambio es el nuevo valor de δ, δ = 2. 89 sustituyendo nuevamente en (7) tenemos que: (10.25−10) √ 0.3/ 12 ' π(10.25) = 1 − (φ(1.96 − 2.89) − φ(−1.96 − 2.89)) = 0.823 En este caso la media muestral sigue una distribución N (10, 0.0075), aproximadamente el 99.7% de las observaciones estará entre (10 ± 3σ) = (10 ± 0.26). La variabilidad ha disminuido y 10.25 es un valor que se encuentra cerca de la frontera admisible bajo H0 . Notese que bajo la hipotesis de que µ1 es el verdadero valor del parámetro, Z0 ∼ N (δ, 1). A medida que n aumenta, para un mismo valor µ la media de Z0 se aleja de 0 (caso en que µ = µ0 )y por tanto la probabilidad de obtener valores en la muestra entre (−z1−α/2 , z1−α/2 ) es menor (región de aceptación). Introducción a los contrastes 69 70 Inferencia para la media Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Ingenierı́a Técnica Industrial Métodos estadı́sticos de la ingenierı́a Soluciones de la hoja de problemas 8. Inferencia para la media 1. El contraste que planteamos es: H0 : µ = 28000 H1 : µ < 28000 Es un contraste unilateral, luego la región crı́tica se situará en la cola inferior de la distribución del estadı́stico de la prueba. Tomamos α = 0.01 Como el contraste se refiere a la media poblacional, y que la varianza poblacional es desconocida, el estadı́stico de la prueba será: T = X−µ √ ∼tn−1 S/ n Si suponemos que la hipótesis nula es cierta, el estadı́stico quedará T = X−28000 √ ∼ tn−1 S/ n La región crı́tica vendrá dada por R = {t / t < −tn−1,1−α = −t39,0.99 ' −2.42} El valor particular del estadı́stico para la muestra que tenemos es t0 = 27463−28000 √ = −2.519 ∈ C ⇒ Se rechaza H0 . 1348/ 40 Conclusión: La vida promedio de estos neumáticos es significativamente, al 99% de confianza, menor que 28.000 Km. 2. Para estimar la respuesta promedio del aparato usaremos un intervalo de confianza con un nivel de confianza del 95%. Suponiendo que la variable X, medición del cromatoógrafo, sigue una distribución Normal, y dado que desconocemos σ 2 , usaremos el resultado: Inferencia para la media 71 T = X−µ √ ∼ tn−1 S/ n con lo que: P (−tn−1,1−α/2 ≤ T ≤ tn−1,1−α/2 ) = 1 − α de donde podemos deducir el el intervalo de confianza para la media µ a nivel 1 − α: √ µ ∈ [X ± tn−1,1−α/2 S/ n] (8) En nuestro caso: x = 22.125 s = 2.09 y el percentil 0.975 (1 − α/2) de una distribución t-student con 3 (n − 1) grados de libertad es 3.18 con lo que sustituyendo en (8) tenemos: 2.09 µ ∈ [22.125 ± 3.18 √ ] 4 (9) con una confianza del 95%. El margen de error asociado será: √ µ ∈ [X ± E] = [X ± tn−1,1−α/2 S/ n] √ E = tn−1,1−α/2 S/ n = 3.323 3. Empecemos por definir las variables que nos interesan : X1 : reducción de la concentración úrica en la sangre de un paciente tratado con el medicamento I X2 : reducción de la concentración úrica en la sangre de un paciente tratado con el medicamento II Las dos poblaciones de interés son por consiguiente la población de pacientes que son tratados con el medicamento I y la población de pacientes que son tratados con el medicamento II. • Los parámetros de interés son µ1 y µ2 , las reducciones medias conseguidas con el tratamiento I y II respectivamente. • El nivel de significación es α = 0.05 • H0 : µ1 = µ2 , y H1 : µ1 6= µ2 72 Inferencia para la media • El estadı́stico conveniente es X − X2 q 12 ∼ tk s1 s22 + n1 n2 donde k = inf = (n1 − 1, n2 − 1) = 7 • La región de rechazo es por consiguiente la que aparece arriba: y para α = 0.05, tk,1−α/2 = t7,0.975 = 2.36 • la información proporcionada por la muestra (n1 = 8 y n2 = 10) se resume : x1 = 17 x2 = 14 2 s1 = 12.85 s22 = 14 y encontramos x1 − x2 t0 = q 2 = 1.73 s1 s22 + n1 n2 • Constatamos que t0 no pertenece a la región de rechazo, al 95% de confianza, no podemos rechazar H0 , no podemos afirmar que haya una diferencia significativa entre los dos tratamientos. Vamos ahora a calcular el p-valor aproximadamente, buscamos el valor de α0 tal que una de las fronteras de la región de rechazo coincida con el valor del estadı́stico de prueba que hemos encontrado, es decir buscamos α0 tal que t7,1−α0 /2 = 1.73. Buscamos en la tabla y encontramos que el valor más próximo es, para 7 grados de libertad, 1.89 que corresponde a t7,0.95 . Deducimos que aproximadamente 1 − α0 /2 ' 0.95, lo que implica α0 ' 0.1. Inferencia para la media 73 • Si construimos un intervalo de confianza para cada una de las medias µ1 y µ2 , el intervalo es de la forma: √ µi ∈ [Xi ± tni −1,1−α/2 S/ ni ] i = 1, 2 quedando en cada caso: 3.59 µ1 ∈ [17 ± 2.37 √ ] = [14.002, 19.99771] 8 3.74 µ2 ∈ [14 ± 2.26 √ ] = [11.328, 16.677] 10 donde t7,0.975 = 2.37 y t9,0.975 = 2.26. Y el intervalo de confianza para µ1 − µ2 es: s S12 S22 µ1 − µ2 ∈ [X1 − X2 ± tk,1−α/2 + ]= n1 n2 = [−1.10048, 7.10048] Si observamos los intervalos para cada media individual µ1 y µ2 vemos que los intervalos contienen el subintervalo común [14.002, 16.677] y el intervalo para la diferencia de medias contiene el valor 0. En base a esto, los intervalos no descartan la posibilidad de que los valores de las medias poblacionales sean iguales. 4. (a) Tenemos que realizar tres veces el contraste H0 , µ = µ0 , H0 , µ > µ0 . donde √ 0 que µ0 = 50. Al desconocer las varianzas, utilizaremos el estadı́stico T0 = X̄−µ S/ n sigue una distribución tn−1 . La región de rechazo es de la forma: 74 Inferencia para la media Para las muestras, calculamos los valores del estadı́stico de prueba t0 , y encontramos: Combustible t0 A 3.29 B 3.53 C 1.14 Si nos fijamos un nivel de confianza de 95%, tenemos que comparar estos valores con tn−1,1−α = t24,0.95 = 1.71. Rechazamos por lo tanto H0 al 95% para los combustibles A y B. Para el combustible C, puesto que t24,0.90 = 1.31, tampoco podemos rechazar H0 al 90%, podemos admitir que la media para este combustible no es significativamente mayor de 50. Nos quedamos con los combustibles A y B. (b)Para los dos combustibles A y B, realizamos un contraste de igualdad de medias, bilateral. H0 : µ1 = µ2 ; H1 : µ1 6= µ2 El estadı́stico de prueba es X − X2 q 12 ∼ tk s22 s1 + n2 n1 • donde k = inf(n1 − 1, n2 − 1) = 24, con una región de rechazo bilateral. Si α = 0.05, tk,1−α/2 = t24,0.975 = 2.06 Para nuestra muestra X 1 −X 2 r 2 s2 1 + s2 n1 n2 ' −0.34. No podemos rechazar H0 al 95% de confianza: los dos combustibles A y B no son significativamente diferentes al 95% de confianza 5. Empezaremos definiendo los conceptos que nos piden: • Las poblaciones de interés son los procesos quı́micos realizados con el catalizador 1 (Población 1) y los procesos quı́micos realizados con el catalizador 2 (Población 2). • Las variables de interés: (a) X1 : rendimiento del proceso quı́mico con el catalizador 1. (b) X2 : rendimiento del proceso quı́mico con el catalizador 2. • Los parametros de interés son los rendimientos medios conseguidos con el catalizador 1 y 2 respectivamente: µ1 y µ2 . Para responder a la cuestión que nos plantean, consideraremos el contraste: H 0 : µ1 − µ2 = 0 H 1 : µ1 − µ2 > 0 Inferencia para la media 75 El estadı́stico de prueba conveniente es en este caso: X − X2 q12 ∼ tk S1 S22 + n2 n1 con k = inf (n1 −1, n2 −1) = 7. La región de rechazo para este contraste unilateral es: R1 = {t : t ≥ tk,1−α } donde tk,1−α = t7,0.95 = 1.9. En nuestro caso: x1 − x2 t0 = q 2 = −0.3554 s22 s1 + n2 n1 por lo que t0 no pertenece a la región de rechazo y por tanto no podemos afirmar que el rendimiento medio del catalizador 2 es menor que el rendimiento medio del catalizador 1. En este caso si que serı́a aconsejable realizar el cambio del catalizador 1 por el 2 ya que, en base a los datos analizados, no se han detectado diferencias entre ambos y el catalizador 2 es más económico. 6. a) Para nuestra muestra, n = 5, x̄ =h 10.0023 y s = 0.0002. El intervalo de i confianza para la media poblacional es x̄ − tn−1,1−α √sn , x̄ + tn−1,1−α √sn . Al 98% de confianza, necesitamos tn−1,1−α/2 = t4,0.99 = 3.75. Obtenemos que µ = 10.0023± 0.00033. b)El contraste de hipótesis que nos interesa es H0 : µ = 10 H1 : µ > 10. Si trabajamos al 95% de confianza, α = 0.05. El estadı́stico de prueba es T0 = X̄−µ √ 0 que sigue una distribución tn−1 bajo H0 . La región de rechazo es unilateral S/ n R = {t : t ≥ tn−1,1−α = t4,0.95 = 2.13}. Para nuestra muestra encontramos t0 = 10.0023−10 √ = 25. 715. En particular rechazamos H0 al 95%, y afirmamos que µ es 0.0002/ 5 significativamente mayor de 10, al 95% de confianza. Notar que con este valor de t0 , rechazamos H0 tambien al 99%. De hecho, el p-valor de la prueba es 7.10−6 : afirmamos con grandı́sima confianza que nuestro aparato de medición sobrevalora el peso real.