Inferencia: intervalos de confianza y contrastes de hipótesis

Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Métodos estadı́sticos de la ingenierı́a Ingenierı́a Técnica Industrial, todas especialidades Estadı́stica Ingenierı́a Técnica Telecomunicaciones, Telemática Problemas de examenes Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 49 Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 1 III.1 Hemos planteado un contraste de hipótesis bilateral sobre la media de una población. Después de extraer una muestra de la población, y calcular el estadı́stico adecuado resulta que rechazamos H0 al nivel de 95% de confianza, pero que, si fijamos la confianza en 98% no podemos rechazar H0 . 1. ¿Cuál serı́a nuestra decisión con 90% de confianza? 2. Entre las opciones siguientes, indicar las correctas razonándo la respuesta: a) El p-valor es mayor que 0.1 b) El p-mayor es menor que 0.05. c)El p-valor es menor que 0.02 d) El p-valor está comprendido entre 0.02 y 0.1. III.2 En la dirección http://dataservice.eea.eu.int/dataservice/, se pueden encontrar los datos de emisión de CO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997. Se indican a continuación la diferencia D entre la emisión de este contaminante por España y la media europea de emisión entre los años 1990 y 1997. Año (X) 1990 1991 1992 1993 1994 1995 1996 1997 D -2.1 7.89 20.33 10.27 22.98 33.41 16.66 38.91 ( Megatoneladas) Suponiendo que la variable D sigue una distribución aproximadamente normal, se pide: 1. Construir detalladamente el intervalo de confianza al 95% de confianza para el promedio de la variable D. 2. Plantear y llevar a cabo el contraste para contestar a la pregunta: ¿Se puede afirmar que, en estas condiciones, España contamina significativamente más que la media de los paı́ses europeos? Problema 2 1. Con el fin de determinar la temperatura de deflexión bajo carga de un tipo de tuberı́as de PVC, se realizó un experimento consistente en tomar 12 de ellas anotando la temperatura de deflexión observada (en 0 F). Los resultados fueron los siguientes: Temp. Deflexión 206 188 205 187 194 193 207 185 189 213 192 210 Suponiendo que la temperatura de deflexión de las tuberı́as es una variable aleatoria Normal: 50 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. (a) Construir de manera detallada un intervalo de confianza al 95% para la temperatura de deflexión promedio. (b) Si en la estimación anterior queremos cometer un error inferior a 2 0 F, determinar el tamaño de la muestra mı́nimo necesario para garantizar este objetivo. (c) ¿Podemos afirmar que la temperatura media de deflexión de las tuberı́as es superior a 196 o F?. Plantear un contraste para este estudio y tomar una decisión en base a los datos muestrales al 95% de confianza. (d) Suponiendo que la varianza poblacional de la variable en estudio es conocida y vale 100, determinar el p-valor del contraste anterior y discutir la conclusión que se obtiene para los niveles de confianza 90%, 95% y 99%. Problema 3 Una empresa dedicada a la fabricación de material de construcción está interesada en estudiar la conductividad térmica de un tipo de ladrillos. Para ello, seleccionó una muestra de 36 unidades de manera aleatoria, obteniendo una conductividad media de 0.343 y una desviación tı́pica muestral de 0.01. Suponiendo que los datos proceden de una distribución Normal, responder a las siguientes cuestiones: a) Construir, detalladamente, un intervalo de confianza al 95% para la conductividad media de dicho tipo de ladrillos. b) ¿Qué interpretación tiene un intervalo de confianza al 95%? c) Expresar el intervalo de confianza obtenido en el apartado (a) en la forma (valor estimado ± Error) ¿Son suficientes 36 ladrillos para cometer un error inferior a 0.01 en la estimación de la conductividad media?. d) Un competidor afirma que la conductividad térmica de esos ladrillos es superior a 0.340. Plantear un contraste que nos permitirá contestar a la afirmación realizada anteriormente y tomar una decisión en base a los datos muestrales al 95% de confianza. e) Determinar una cota inferior y una cota superior para el p-valor del contraste anterior y discutir la conclusión que se obtiene para los niveles de confianza 90%, 95% y 99%. Problema 4 III.1 Se desea construir un intervalo de confianza para la media poblacional de una distribución normal con desviación tı́pica σ conocida. Se fija un margen de error máximo permitido y se busca el tamaño muestral necesario para garantizar este margen de error con una confianza de 95%. Para cada una de las afirmaciones siguientes, indicar cuál es verdadera o falsa, razonando la respuesta, a) El tamaño muestral necesario aumentará si disminuye σ. b) El tamaño muestral necesario disminuirá si se fija una confianza de 99% c) Si el margen de error permitido aumenta, el tamaño muestral necesario disminuye. III.2. Una máquina de refrescos en un restaurante de carnes asadas se ajusta de modo que la cantidad de bebida que sirva esté distribuida de forma aproximadamente normal con una media de 200 mililitros y una desviación tı́pica de 15 mililitros. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 51 1. La máquina se verifica diariamente con una muestra de nueve bebidas. Con el cálculo del contenido promedio, construir una gráfica de control para este problema. ¿Cuándo diremos que la máquina no opera de modo correcto? 2. Un dı́a se obtiene que x̄ = 211ml, admitiendo que σ = 15ml, construir un procedimiento de contraste para contrastar la hipótesis de que µ es efectivamente 200. (con un nivel de significación 5%) 3. Calcular la potencia de dicho contraste para una alternativa de µ = 215. Problema 5 IV.1- Se quiere contrastar acerca de una población normal la hipótesis nula siguiente : H0 : µ = 120 frente a una alternativa bilateral. Antes de diseñar el experimento, el ingeniero decide evaluar la potencia del test planeado contra la hipótesis alternativa H1 : µ = 130. a) ¿Por qué es importante conocer un valor aproximado de la potencia de un test antes de realizarlo? b) Para un valor de α de 0.05, el ingeniero encuentra una potencia del 50%. Entre las afirmaciones siguientes indica cuáles son las correctas: 1) 2) 3) 4) Aumentará Aumentará Aumentará Aumentará esta potencia si aumenta la desviación tı́pica. esta potencia si disminuye el número de observaciones. la potencia si se escoge H1 : µ = 140. la potencia si se escoge α = 0.1 IV.2- El peso medio de un niño nacido en USA es 3315 gramos. Sea X el peso al nacer de un niño nacido en España. Suponiendo que X sigue una distribución normal, queremos contrastar la hipótesis de H0 : µX = 3315, frente a la alternativa µX < 3315 usando una muestra de n = 30 niños. a) Construye la región crı́tica para un nivel de significación α = 0.05 b) Si se observa una media muestral para n = 30 niños de 3189 y una desviación tı́pica muestral de 488 ¿Qué concluyes? c) Con los datos del apartado anterior, construye detalladamente el intervalo de confianza al 95% para µX. Problema 6 IV.1 Se realiza una medición de una señal en un laboratorio, sabiendo que la desviación tı́pica de las medidas es σ = 10. El operador repite la medición 5 veces y proporciona como valor de la señal la media x̄ de sus 5 mediciones. (a) ¿Cuál es la desviación tı́pica de los resultados proporcionados? (b) ¿En qué sentido es mejor repetir varias veces la medición y proporcionar la media de los valores obtenidos, y no sólo realizar una única medición? 52 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. IV.2- Si se plantea una hipótesis nula acerca de una población y sabemos que es rechazada a un nivel de confianza del 95%. Entre las afirmaciones siguientes indica cuáles son las correctas: a) Siempre será rechazada al 99% de confianza. b) Puede no ser rechazada al 99% de confianza. c) También será rechazada al 90% de confianza d) Nunca será rechazada al 90% de confianza. IV.3- Dos disciplinas de cola para servicio de CPU han sido propuestas por dos diseñadores de sistemas operativos. Para compararlas se instalaron en dos máquinas test iguales y se midieron los tiempos de espera en cada una de ellas de 8 tareas aleatoriamente elegidas: A B 2.41 6.50 3.29 1.22 2.59 2.81 5.35 1.78 2.30 5.86 3.71 1.10 2.34 2.24 5.00 1.95 (a) Realizar, en una misma gráfica, los diagramas de caja-bigotes de cada una de las variables. ¿Qué información se puede deducir de esta gráfica para comparar las dos disciplinas de cola? (b) Suponiendo que la distribución que sigue cada variable se puede aproximar por una Normal, calcular el intervalo de confianza para la diferencia entre el tiempo promedio de espera con la disciplina A y el tiempo promedio de espera con la disciplina B. Comparar los resultados obtenidos con el apartado anterior. Problema 7 IV.1- Se realiza una encuesta para conocer la proporción de españoles que piensan que su selección va a ganar la Eurocopa. Para ello, se escoge una muestra, y el resultado es (antes del partido contra Noruega) 60% más o menos 3 puntos, con un nivel de confianza de 95%. ¿Por qué no se puede afirmar sin más que la proporción de españoles que piensan que su selección va a ganar la Eurocopa es de 60%? Explica lo que significa ” con un nivel de confianza de 95%”. IV.2- Se está investigando el tiempo de secado de una pintura tapaporos. Por estudios anteriores, se sabe que la distribución de los tiempos de secado es aproximadamente normal con una desviación tı́pica de 8mn. Se diseña un experimento en el que se mide el tiempo de secado para 10 cuadrados pintados, y se encuentra una media de 121minutos (mn). (a) Construir detalladamente un intervalo de confianza al 95% de confianza para el tiempo promedio de secado de la pintura. (b) ¿Se puede afirmar al 95% de confianza que el tiempo promedio de secado es mayor de 115mn? Calcular el p-valor asociado a la prueba. (c) ¿Cuántos cuadrados pintados deberı́an probarse en el experimento si queremos asegurarnos que, con una confianza de 95%, el margen de error cometido no será mayor que 4mn? (d) Planeamos contrastar, con 95% de confianza y una muestra de 10 cuadrados pintados, la hipótesis de que el tiempo promedio de secado es igual a 115mn. ¿Cuál es la potencia del test contra la alternativa µ = 120 ? ¿Te parece suficiente? ¿Cómo se podrı́a mejorar? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 53 Problema 8 IV.1.- Un estudiante lee un artı́culo donde se afirma que un intervalo de confianza al 95% para la altura media de los españoles mayores de 18 años es [1.66, 1.72]. Se le pregunta por el significado de esta afirmación y contesta que quiere decir que el 95% de los españoles tiene una altura comprendida entre estos dos números. ¿Crees que su respuesta es correcta? Razónalo. IV.2.- Para calibrar un instrumento de medición, se mide repetidas veces un patrón cuyo peso sabemos igual a 10 gramos. Los valores medidos siguen una distribución normal de media desconocida. En cambio, por estudios anteriores sabemos que podemos considerar la desviación tı́pica igual a 0.0002 gramos. (a) ¿Qué representa la media poblacional de los valores medidos? ¿Qué valdrı́a ésta si el instrumento de medición fuera perfecto? (b) Se mide el patrón cinco veces. La media de las cinco mediciones es igual a 10.0023 gramos. Construir de manera detallada un intervalo de confianza para la media poblacional al 98% de confianza. (c) ¿Cuántas mediciones debemos realizar para conseguir con la media muestral un margen de error de ±0.0001 con 98% de confianza? (d) Queremos determinar si nuestro aparato de medición sobrevalora o infravalora el peso real. Plantea el contraste de hipótesis correspondiente y llévalo a cabo con los datos del apartado (b). Problema 9 IV.1.- ¿Qué es un estimador puntual de un parámetro? ¿Qué propiedades tiene un buen estimador? Dar ejemplos. IV.2.- Para comparar dos programas de digitalización de letra impresa, se sometió cada uno a 50 pruebas. El primero cometió 4 fallos y el segundo 6 fallos. (a) Definir la(s) población(es), y los parámetros de interés. (b) A partir de los datos suministrados por las muestras, ¿puede afirmarse que el primero es significativamente mas fiable que el segundo?. Realizar el contraste para dos niveles de significación distintos. Comentar los resultados obtenidos. (c) Construir detalladamente, con los datos anteriores, el intervalo de confianza correspondiente. (d) Determinar el tamaño mı́nimo requerido de la muestra, correspondiente a cada uno de los programas, si se quiere que el error para ambas estimaciones no exceda de 0.05, con una probabilidad de 0.95. 54 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 10 III.1.- Se analizan dos catalizadores para determinar la forma en que afectan el rendimiento de un proceso quı́mico. El catalizador 1 es el que se viene empleando en la fábrica y se quiere averiguar si se puede sustituir por el catalizador 2, más barato, pero que, según el fabricante, no provoca un descenso del rendimiento. Se llevan a cabo 8 reacciones para cada uno de los catalizadores obteniendo, para el catalizador 1 x̄1 = 92.25, y S1∗2 = 5.69 mientras que para el catalizador 2 : x̄2 = 92.73, y S2∗2 = 8.90. Se suponen normales las variables de interés. (a) Definir la(s) población(es), la(s) variable(s), los parámetros de interés. (b) ¿ Podemos suponer, a partir de los datos que las varianzas de las dos variables son iguales? (c) Basándose en los datos obtenidos, ¿ es cierto que no se puede afirmar que el rendimiento medio del catalizador 2 es menor que el rendimiento medio del catalizador 1? ¿Es aconsejable realizar el cambio de catalizador? Problema 11 III.2.- Una determinada empresa de material fungible puede adquirir los cartuchos de tóner de impresora de dos proveedores distintos. Con el fin de determinar a que proveedor comprar se toma una muestra de tamaño 12 de cada uno de los proveedores obteniendo los siguientes resultados (número de hojas impresas): P roveedor A P roveedor B Media muestral 5459 5162 Cuasivarianza muestral 33703 199928 Si suponemos que las poblaciones son normales con varianzas iguales: (a) Construir un intervalo de confianza para la diferencia entre el número medio de hojas que imprime el cartucho de cada proveedor. (tomar α = 0.05). (b) Razonar que tipo de contraste se debe de realizar con el fin de decidir a qué proveedor comprar y realizar dicho contraste. (tomar α = 0.05). (c) Si se desea construir un intervalo de confianza para la duración media del P roveedor B, calcular cual debe de ser el tamaño de la muestra con el fin de que el error que se comete sea inferior a 100 hojas. (tomar α = 0.05) Problema 12 1. Teorı́a. (a) Definir lo que se entiende por estimador de un parámetro poblacional. (b) ¿Qué es un estimador insesgado? Pon un ejemplo. (c) ¿Qué estimador utilizamos para la varianza poblacional? Argumenta tu respuesta. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 55 2. En una planta piloto de producción de arroz, se estudia la influencia de la temperatura sobre la proporción de granos que germinan. (a) Se colocan 5000 granos en las condiciones de germinación, con una temperatura de 20o C y se observa que germinan 2326 granos. Construir un intervalo de confianza al nivel de 95% para la proporción de granos que germinan si están sometidos a una temperatura de 20o C. (b) Se apartan ahora otros 5000 granos sometiéndolos a una temperatura de 30o C y se observa que germinan 2402 granos. Razona que tipo de contraste se debe realizar para determinar si la proporción de granos que germinan es mayor con una temperatura de 30o que con una temperatura de 20o . Realiza este contraste al nivel de 90%, 95% y 99% ¿Cuál es tu conclusión? Problema 13 1. En una finca, en el momento de la maturación, se quiere estudiar la cantidad media de uva por pie de viña. Si se supone normal la v.a de interés , (a) Definir la variable y la población sujetas a estudio. (b) Se quiere construir un intervalo de confianza al 95% para la cantidad media de uva por cepa, ¿cuál es el tamaño muestral necesario para que el error cometido sea menor que 0.5 kg? (en un estudio realizado en una situación parecida en años anteriores, se estimó la varianza poblacional a 2kg ). (c) Se toma una muestra de 30 cepas, y se obtiene, para esa muestra, una cantidad media de uva por cepa de 4.7kg con una cuasidesviación tı́pica de 1.4kg. Construir un intervalo de confianza al nivel de 95% para la cantidad media de uva por cepa en la finca. (d) El empresario quiere determinar si la cantidad media de uva producida por cepa en la finca es mayor que 4kg. Razonar el tipo de contraste adecuado para ese propósito y realizarlo. (Tomar α = 0.05) Problema 14 III.2.- Un taller acaba de recibir una máquina nueva y busca ajustarla correctamente. Según el técnico vendedor de la máquina, la máquina está ajustada para que no produzca más de 4% de piezas defectuosas. (a) El taller decide tomar una muestra y estimar la proporción de defectuosos producidos por la máquina considerando que la proporción de defectuosos indicada por el fabricante es correcta. Si quiere cometer un error en la estimación de la proporción menor de 0.05, ¿cuál es el tamaño de la muestra que debe tomar? (tomar α = 0.05). (b) Al tomar una muestra de 50 piezas producidas, encuentra 4 defectuosas, hallar el intervalo de confianza al nivel de 95% para la proporción poblacional de defectuosos. (c) La empresa no puede permitirse un nivel de defectuosos mayor de 5%. Razonar que tipo de contraste se debe de realizar con el fin de determinar si la máquina se encuentra mal ajustada, y realizar dicho contraste. (tomar α = 0.05). 56 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 15 1. Para ensayar los efectos de un nuevo fertilizante sobre la producción de trigo, una parcela de terreno se dividió en 175 cuadrados de áreas iguales, todas ellas tenı́an idénticas caracterı́sticas de suelo, exposición a la luz del sol, etc. El nuevo fertilizante se aplicó a 75 de estos cuadrados y el antiguo a los restantes. El número medio de fanegas de trigo cosechadas por cuadrado en los que se utilizó el fertilizante nuevo fue de 12,30 con una cuasidesviación tı́pica de 1,20 fanegas. La media y cuasidesviación tı́pica correspondiente a los otros cuadrados fueron 11,90 y 0,90 respectivamente. Suponga que las poblaciones son normales con igual varianza. Se pide: (a) Defina las variables y las poblaciones que se están sometiendo a estudio. Indique la información suministrada por las muestras, ası́ como los parámetros de interés. (b) Después de haber planteado las hipótesis adecuadas, indicado el error de tipo I y determinado la región de rechazo, determine si se puede afirmar al 99% de confianza que el nuevo fertilizante mejora la producción de trigo. ¿Y al 95%? Razónese. Indique si existe algún nivel de confianza que nos lleve a decir que no existen diferencias significativas entre el fertilizante nuevo y el tradicional. Problema 16 1. Para determinar el contenido exacto de carbonato de calcio de una caliza, se realizan, en las mismas condiciones, 5 mediciones y se obtiene los resultados siguientes: 49.56%, 49.82%, 49.30%, 50.16%, 50.06% Se supone que el valor medido se puede expresar como [CaC03 ]pob + ε, donde [CaC03 ]pob representa el valor exacto (no observable) y ε el error que se comete durante la medición. Suponiendo que ε sigue una distribución normal de media 0 y de varianza desconocida σ2. (a) Determinar la distribución del valor medido del contenido de carbonato de calcio. En particular, ¿podrı́as dar una estimación de su promedio? (b) Construir un intervalo de confianza al nivel de 90% para el contenido exacto promedio de carbonato de calcio de la caliza. (c) Si se desea cometer como máximo un error de 0.2 con una confianza del 95%, ¿cuántas mediciones más deberı́amos realizar?. Problema 17 1. Con el fin de determinar si existen diferencias entre dos proveedores de una determinada materia prima se tomaron sendas muestras (120 para uno de los proveedores y 80 para otro) y se sometieron a cambios extremos de temperatura. La siguiente tabla muestra el resultado del experimento: Deformados Intactos Proveedor A 41 79 Proveedor B 27 53 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 57 (a) Obtener de manera teórica el procedimiento estadı́stico completo que nos proporciona respuesta a la siguiente pregunta: ¿Podemos establecer que el comportamiento de los materiales suministrados por ambos proveedores funcionan de igual manera cuando son sometidos a cambios extremos de temperatura?. (b) Dar respuesta a la cuestión anterior y determinar el p-valor correspondiente. Problema 18 II.2 Queremos ahora medir la señal s con un aparato de medición. Sea X la variable aleatoria “valor proporcionado por el aparato al realizar una medición” y ε la variable “error cometido por el aparato al realizar una medición”. Consideramos que ε sigue una distribución normal con media 0 y desviación tı́pica 0.4 independiente de s. (a) ¿Cuál es la relación entre s, X y ε? (b) ¿Cuál es la media y la desviación tı́pica de X? ¿Cuál es la distribución de los valores de X? (c) Se planifica realizar varias mediciones y proporcionar su media para aproximar la señal. ¿Cuántas mediciones habrá que realizar para que nos aseguremos con una probabilidad mayor o igual a 0.95 que el valor proporcionado no se alejará en más de 0.1 unidades de la señal promedio? Problema 19 III Con el fin de determinar la velocidad de transmisión en dos servidores de la universidad, decidimos descargar un fichero de 2Mb de cada uno de ellos y anotar el tiempo necesario para la descarga. Los resultados(en seg.) que se obtuvieron vienen dados en la siguiente tabla: Serv. 1 Serv. 2 5.89 4.60 5.42 4.06 4.2 4.92 5.38 3.82 6.07 7.4 3.88 4.57 4.11 443 5.03 5.11 5.27 5.02 3.25 5.822 5.053 Si suponemos que la variable ”Tiempo de descarga de ficheros de 2 Mg” sigue una distribución normal: (a) Determinar un intervalo de confianza para el tiempo promedio de descarga de cada uno de los servidores. En función de los resultados obtenidos, ¿podemos pensar que la velocidad promedio es la misma desde ambos servidores?. Razona tu respuesta (b) Plantear un contrate para la hipótesis anterior, determinando el estadı́stico del contraste, su distribución asociada ası́ como la región crı́tica para un valor α genérico. (c) Realizar el contraste a partir de los valores propuestos en la tabla y decidir en función del p-valor obtenido. 58 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. (d) Suponiendo que la varianza asociada a la variable ”Tiempo de descarga del servidor 2” es 0.62 , determinar qué tamaño de la muestra será necesario utilizar para estimar el tiempo promedio de descarga real desde este servidor con un error menor que 0.2 seg (tomar α=0.05) (e) En ningún caso la universidad aceptarı́a que el tiempo de descarga de uno de estos ficheros fuese superior a 6.3 segundos. Sabiendo que la varianza asociada a la variable ”Tiempo de descarga del servidor 1” es conocida (σ=1),¿podemos afirmar que este servidor cumple este requisito?. (tomar α=0.05) (f) Determinar la potencia del contraste anterior si el tiempo promedio real de dicho servidor para este tipo de ficheros fuese de 5.8 seg. Problema 20 En un laboratorio se investiga el contenido (en %) en fibras de un determinado alimento. La distribución de los valores obtenidos se puede considerar normal. III.1 Por un estudio preliminar, se considera que la desviación tı́pica de los valores obtenidos se puede fijar en 1.2%. 1. Introducir la variable aleatoria, la población y el parámetro de interés. Traducir los datos del enunciado en cuanto a la distribución de la variable. 2. En estas condiciones, ¿cuántas mediciones habrı́a que repetir para conseguir, con una confianza del 95%, un margen de error de 1% a la hora de realizar un intervalo de confianza para el contenido real en fibras del alimento? 3. Por otra parte se quiere probar, con un nivel de confianza del 95%, si el contenido en fibras es mayor de 12%. Plantea las hipótesis nula y alternativa adecuadas. Queremos ser capaces con una probabilidad mayor o igual a 0.8 de detectar cuando el contenido es en realidad igual a 13, ¿será suficiente con realizar 10 mediciones? Si no fuera suficiente, ¿qué sugieres que hagamos? III.2 Después de planificar el experimento se decide que se van a tomar 10 mediciones. Un operario lleva a cabo estas 10 mediciones y encuentra que su media es igual a 12.35 y su desviación tı́pica 1.3. 1. Decidimos NO utilizar el valor de σ que se tenı́a en el apartado anterior sino utilizar la desviación tı́pica calculada a partir de los datos. Construir de manera detallada el intervalo de confianza para el contenido real en fibras basándose en los datos obtenidos. 2. Llevar a cabo el contraste para probar si el contenido real es significativamente mayor de 13. 3. Proporciona una cota superior para el p-valor asociado al contraste anterior. Intenta dar una cota inferior también. III.3 Otro operario realiza otro dı́a 5 mediciones más con el misma alimento y encuentra para estas 5 mediciones una media igual a 12.5 y una desvación tı́pica igual a 1.5. Llevar a cabo el contraste para probar si el operario influye en el resultado de la determinación del contenido en fibras. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 59 Problema 21 1. Un estudio demostró que los tiempos de vida de cierta clase de baterı́as de automóvil se distribuye normalmente. Con el fin de estudiar su duración, se consideró una muestra formada por 10 baterı́as, obteniéndose las siguientes duraciones observadas: 1456, 1478, 1467, 1350, 1460, 1376, 1410, 1330, 1421, 1423 (a) Obtener una estimación puntual y un intervalo de confianza al nivel de confianza del 90% para la media de la población. (b) ¿Cuál es el efecto de un incremento del tamaño muestral sobre el intervalo de confianza? ¿Y del nivel de confianza? (c) Determinar el tamaño muestral necesario para reducir a la mitad el error de muestreo del intervalo de confianza obtenido en el apartado anterior. Razona tu respuesta. (d) El fabricante afirma que su duración en promedio es superior a 1450 horas. Con los datos que tenemos, ¿podemos probar dicha afirmación?. Responder de manera razonada a la cuestión anterior indicando el procedimiento estadı́stico utilizado. (e) Determinar el p-valor asociado al contraste que se puede plantear para dar respuesta a la pregunta anterior. Problema 22 1. Se realizan mediciones de la concentración en g/l de un determinado compuesto en una solución. Denotamos por X la variable ”Valor obtenido en una medición realizada al azar”. (a) ¿ Por qué es X una variable aleatoria? ¿Qué es mejor, que la varianza de X sea grande o pequeña? Suponemos a partir de ahora que se puede modelizar la distribución de X por una distribución Normal con media desconocida, y con varianza 4.2. (b) ¿En qué unidades se expresan la media y la varianza de X? Se realizan 8 mediciones de la concentración de un determinado compuesto obteniéndose los siguientes datos: 5.3, 4.2, 7.2, 6.3, 5.5, 6.5, 4.8, 5.1 (c) Construir detalladamente un intervalo de confianza al 95% para el centro de la distribución de X. ¿Qué interpretación tiene un intervalo de confianza? (d) ¿Se puede afirmar que el valor de la concentración es menor que 6? Llevar a cabo el contraste de forma detallada. (e) Calcular el p-valor del contraste anterior. (f) Calcular la potencia del test contra la alternativa µ = 5. ¿Qué representa la potencia? ¿Se trata de un valor suficiente? 60 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 23 V Para el problema de los ascensores del Hospital de Marina, la media muestral y la desviación tı́pica muestral calculadas a partir de los datos originales son t̄ = 125.6 segundos y st = 112 segundos. Utilizando los datos recogidos como muestra, queremos hacer inferencia sobre el tiempo promedio de espera de un usuario, si nos limitamos a considerar el ascensor B. 1. Por la forma del histograma sabemos que la distribución de los valores de T sigue más bien una distribución exponencial. ¿Cuál es la hipótesis sobre la distribución de los valores de la variable de interés en la población que se ha hecho en clase para obtener los intervalos de confianza y los contrastes para la media poblacional? ¿Por qué podemos seguir utilizando estos mismos intervalos y contrastes aunque la distribución de T sea exponencial? 2. Construir detalladamente el intervalo de confianza al 98 % de confianza para la media poblacional del tiempo de espera para el ascensor B, para un usuario. 3. Llevar a cabo el contraste para decidir si el tiempo promedio de espera para el ascensor B es significativamente mayor al 95% de confianza que 1 minuto y 45 segundos. 4. ¿Cuál serı́a nuestra decisión si trabajamos al 90% de confianza? ¿y al 99% de confianza? 5. Dar una cota inferior y una cota superior para el p-valor asociado al contraste del apartado anterior. Problema 24 III.1 Se plantea un contraste de hipótesis bilateral para la media de una población normal con varianza conocida. Después de extraer una muestra de la población y calcular el estadı́stico adecuado, resulta que se rechaza H0 al 90% de confianza y que no podemos rechazar la hipótesis nula al 98% de confianza. 1. Con la información disponible, ¿se puede tomar alguna decisión al 95% de confianza? Razonar la respuesta. 2. Indicar si las siguientes afirmaciones son verdaderas o falsas, razonando la respuesta. 2.1. p − valor ≤ 0.05. 2.2. p − valor < 0.02. 2.3. 0.02 < p − valor ≤ 0.1. III.2 Una empresa de construcción está interesada en investigar si sus empleados cumplen el horario de descanso vespertino convenido, que es de 20 minutos. Para ello realiza un seguimiento a 50 empleados seleccionados aleatoriamente observando el tiempo en minutos que tardan los empleados en reincorporarse a su puesto de trabajo. Los datos obtenidos son los siguientes: x = 20.483 s2 = 9.546 1. ¿Existe alguna razón para creer a un nivel de significación del 5% que los empleados tardan por término medio más del descanso permitido? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 61 2. Construir un intervalo de confianza para el tiempo medio de descanso vespertino al nivel de confianza del 98%. ¿Qué factores influyen en la amplitud de un intervalo de confianza? ¿En qué se traduce un aumento o una reducción de la amplitud de un intervalo de confianza? 3. Calcular el tamaño muestral necesario para reducir a la mitad el margen de error del intervalo de confianza obtenido en el apartado anterior si se supone que la desviación tı́pica poblacional es de 9. Problema 25 a) Una empresa lleva trabajando con el mismo sistema de producción durante varios años y se sabe que su rendimiento diario sigue una distribución normal de varianza 4. El gerente de la empresa desea estudiar si el rendimiento promedio de su sistema ha disminuido con respecto al valor inicial que era de 80. Para ello, anota el rendimiento que proporciona su sistema durante 16 dı́as, obteniendo un rendimiento medio de 79.3. a1) Realizar detalladamente un contraste para el estudio anterior. Determinar el p-valor del contraste y discutir la conclusión que se obtiene en función del p-valor. a2) Si el rendimiento medio auténtico fuera de 79, ¿te parece adecuado el test anterior para detectar esta alternativa con una confianza del 95%? En caso negativo indicar qué harı́as para mejorarlo. a3) ¿Cuántos dı́as deberı́a durar el estudio para poder detectar la alternativa del apartado anterior en un 90% de los casos? b) Una multinacional ofrece al gerente de la empresa dos nuevos sistemas de producción. En un estudio realizado, se obtuvo que el rendimiento medio √ del Sistema I durante 32 dı́as fue de 82.3 con una cuasi-desviación tı́pica muestral de 8, mientras que el rendimiento medio del Sistema II durante 25 dı́as fue de 81 con una cuasi-desviación tı́pica muestral de 2. Se supone que los rendimientos de ambos sistemas son Normales. b1) Construir, detalladamente, un intervalo de confianza al 95% para el rendimiento promedio del Sistema II. ¿Qué interpretación tiene el intervalo obtenido? ¿Cuántos dı́as deberı́a durar el estudio para cometer un error inferior a 0.5 en la estimación del rendimiento medio?. b2) ¿Se puede afirmar que los rendimientos medios de los dos nuevos sistemas son iguales? Discutir en función del p-valor. Problema 26 Para comparar la eficiencia de dos compiladores de Pascal, se seleccionaron al azar 10 programas y se ejecutaron con cada uno de los compiladores. Los tiempos de ejecución, en segundos, vienen dados en la siguiente tabla: Programa 1 2 3 4 5 6 7 8 9 10 x s∗ Compilador I 4.2 4.7 4.6 3.8 2.7 3.6 4.2 4.5 3.9 4.1 4.03 0.58 Compilador II 4.3 3.9 3.3 3.5 2.7 3.1 3.3 4.7 4.2 3.7 3.67 0.61 a) ¿Qué distribución sigue el tiempo empleado por cada compilador? Según los datos proporcionados, ¿se trata de muestras procedentes de variables independientes?. 62 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. b) Construir detalladamente un intervalo de confianza al 98% para el tiempo medio de ejecución del compilador I. c) Contrastar al 95% de confianza la hipótesis de que los tiempos de ejecución de ambos compiladores son iguales, respondiendo a su vez a las siguientes cuestiones: ¿Qué distribución sigue el estadı́stico del contraste? ¿Por qué? d) Se desea estudiar si el contraste anterior permite detectar de forma aceptable el caso de que el tiempo promedio de ejecución del Compilador I supere al del Compilador II en 0.05 segundos. Resolver este apartado suponiendo que la distribución de los tiempos de ejecución son Normales y que la desviación tı́pica de la diferencia de tiempos de ejecución es conocida e igual a 0.2. Problema 27 En un laboratorio se realizan mediciones de la cantidad (en partes por millón, ppm.) de impurezas que hay en el aire lı́quido. La distribución de los valores obtenidos es aproximadamente normal de media desconocida. III.1 Por un estudio preliminar, la desviación tı́pica de los valores obtenidos puede fijarse en 0.07 ppm. 1. Introducir la variable aleatoria y el parámetro de interés. Traducir los datos del enunciado en cuanto a la distribución de la variable aleatoria. 2. Se decide tomar 6 mediciones y obtenemos una media muestral de 1.05 ppm. Construir de manera detallada un intervalo de confianza para la media poblacional al 95% de confianza. Interpretar el resultado obtenido. 3. Calcular el tamaño muestral para conseguir, con una confianza del 95%, reducir a la mitad el margen de error del intervalo obtenido en el apartado anterior. ¿Cuál es el efecto de un incremento del tamaño muestral sobre el intervalo de confianza? ¿Y del nivel de confianza? III.2 Supongamos que el investigador responsable del experimento desconfı́a del estudio preliminar por lo que decide no utilizar σ que se tenı́a en el apartado anterior, sino estimarla a partir de los datos muestrales. ¿Cuál serı́a el estimador puntual de σ 2 ? Si en estas nuevas condiciones queremos construir un intervalo de confianza para la media poblacional ¿cuál serı́a la diferencia con el obtenido en (2) del apartado anterior? Problema 28 III.1 Cuando una máquina está bien ajustada, produce piezas un 1% de piezas defectuosas. Para controlar que la máquina sigue bien ajustada, se escogen al azar cada dı́a 100 piezas de la producción y se someten a un test. ¿Cuál es la probabilidad de que, la proporción muestral no se aleje en más de 0.03 unidades de la proporción de defectuosos que se produce cuando la máquina está bien ajustada? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 63 III.2 Se desea construir un intervalo de confianza a nivel 100(1 − α)% para la media de una población normal con la desviación tı́pica conocida. Indicar razonadamente la veracidad o falsedad de las afirmaciones siguientes: 1. Cuanto menor sea la desviación tı́pica poblacional, mejor será la precisión de la estimación obtenida con el intervalo de confianza. 2. Si quiero una mayor precisión, bastará con imponer una mayor confianza al realizar el intervalo de confianza. III.3 Un fabricante de equipo deportivo ha desarrollado un nuevo sedal sintético para pesca y afirma que tiene una resistencia media a la rotura mayor o igual a 15 kgs. La empresa que los comercializa desconfı́a de tal afirmación y decide poner a prueba dichos sedales. Para ello seleccionó de manera aleatoria 36 de dichos sedales y obtuvo una resistencia promedio a la rotura de 14.6 kgs. Suponiendo que la resistencia a la rotura de los nuevos sedales presenta una desviación tı́pica de σ = 2 kgs.: 1. ¿Está justificada la desconfianza de la empresa? Plantear y llevar a cabo el contraste adecuado para responder a la anterior pregunta. Calcular el p − valor de la prueba. 2. Calcular el tamaño muestral necesario al 98% de confianza si queremos estimar la resistencia promedio a la rotura del nuevo hilo sedal con un error inferior a 0.5 kgs. Problema 29 III.1 Para calibrar un aparato de medición se mide repetidas veces un patrón cuyo peso no se conoce. Se supone que el error que se comete en cada medición sigue una distribución normal de media 0 y desviación tı́pica 2 gramos. 1. ¿Cuál es la distribución del valor proporcionado por el aparato? 2. Si se decide utilizar como peso del patrón el valor proporcionado por 10 mediciones, ¿cuál será la desviación tı́pica del valor proporcionado? 3. Si la media muestral de 10 mediciones es igual a 5.37 gramos, construir un intervalo al 98% de confianza para el peso exacto del patrón. Interpretación de dicho intervalo. 4. Calcular el tamaño muestral para garantizar con una probabilidad del 98% que el error que cometemos al estimar el peso real del patrón con el promedio de las mediciones sea inferior a 1 gramo. III.2 Para la media µ de una población con varianza conocida, planteamos el contraste H 0 : µ = µ0 H1 : µ > µ 0 Después de extraer una muestra de la población y calcular el estadı́stico adecuado, resulta que rechazamos H0 al 95% de confianza y que no podemos rechazar H0 al 99% de confianza. 1. ¿Cuál es la decisión al 90% de confianza? ¿Y al 98% de confianza? Razona tu respuesta. 64 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 2. Entonces el p − valor de la prueba será: (a) p − valor ≤ 0.05 (b) p − valor < 0.01 (c) 0.01 < p − valor ≤ 0.1 Para cada una de las afirmaciones anteriores, indicar razonadamente su veracidad o falsedad. Problema 30 III.1 Se desea construir un intervalo de confianza para la media poblacional de una distribución normal con σ conocida. Se fija un margen de error máximo permitido y se busca el tamaño muestral necesario para garantizar este margen de error con una confianza del 95%. Para cada una de las afirmaciones siguientes, indicar razonadamente su veracidad o falsedad: 1. Si disminuye σ, el tamaño muestral necesario aumentará. 2. El tamaño muestral necesario aumentará si se fija una confianza del 99%. 3. Si el margen de eror permtido lo disminuimos en la mitad, el tamaño muestral necesario aumentará. III.2 Una central lechera compra leche a varios provedores. La central sospecha que algunos ganaderos añaden agua a la leche para aumentar sus beneficios. El exceso de agua se puede detectar midiendo el punto de congelación de la leche. La temperatura de congelación de la leche natural varı́a normalmente con una media de µ = −0.545o C y una desviación tı́pica σ = 0.008o C. La adición de agua aumenta la temperatura de congelación y la acerca a 0o C, el punto de congelación del agua. El director del laboratorio de la central lechera determina la temperatura de congelación de cinco lotes consecutivos de leche procedentes de un mismo provedor y encuentra una media muestral de -0.535o C. ¿Estos resultados constituyen una buena evidencia de que el provedor está añadiendo agua a la leche? Plantear el contraste de hipótesis adecuado y llevarlo a cabo de manera detallada (deberá aparecer el estadı́stico de la prueba, su distribución de probabilidad y dónde se sitúa la región crı́tica o de rechazo), dar el p-valor asociado a la prueba y redactar las conclusiones que obtengas. Problema 31 III.1 Para calibrar un nuevo aparato de medición, se mide repetidas veces un patrón cuyo peso sabemos que es igual a 15 grs. En condiciones óptimas de funcionamiento, el aparato comete un error aleatorio que sigue una distribución normal con desviación tı́pica igual a 2 gr. 1. ¿Cuál es la distribución del valor proporcionado por el aparato? 2. Si se decide utilizar como medida el valor proporcionado por 10 mediciones, ¿cuál será la desviación tı́pica del valor proporcionado? 3. Calcular el tamaño muestral para garantizar con una probabilidad del 98% que el error que cometemos con el promedio de las mediciones sea inferior a 0.95 grs.. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 65 III.2 El Gobierno ha otorgado fondos al departamento de agricultura de la UPCT para probar la capacidad de rendimiento de una nueva variedad de trigo. La nueva variedad se ha plantado en 40 parcelas de igual superficie y el rendimiento medio ha sido 46.5 kg. por parcela. Por estudios anteriores podemos suponer que la población de interés tiene una desviación tı́pica de σ = 15 kg.. Se pide: 1. Construir de manera detallada un intervalo de confianza al 95% para el rendimiento promedio por parcela de la nueva variedad de trigo. Interpretación de dicho intervalo de confianza. 2. ¿Podemos afirmar al 95% de confianza que el rendimiento promedio por parcela de la nueva variedad de trigo es superior a 44 kg.? Plantea el contraste de hipótesis adecuado para ponder justificar tu respuesta. 3. Determinar el p − valor de la prueba. 4. Al desconocer la distribución de la variable de este problema, los procedimientos estadı́sticos utilizados en (1), (2) y (3) son válidos bajo ciertos supuesto. ¿Qué supuestos son? Problema 32 III.2 Un agrónomo examina el contenido de celulosa de una determinada variedad de alfalfa. Supongamos que el contenido de celulosa de la población tiene una desviación tı́pica σ = 12 mg/g . Una muestra de 32 cortes de alfalfa tiene un contenido medio de celulosa x = 145 mg/g. Se pide: 1. Definir la variable y la población sujetas a estudio. 2. Dar un intervalo de confianza al 95% para el contenido medio de celulosa de la población. 3. Un estudio afirma que el contenido medio de celulosa en la población es µ = 140 mg/g, pero el agrónomo cree que la media es mayor que ese valor. Realizar el contraste adecuado para ver si los datos muestrales corroboran dicha impresión. (Tomar α = 0.05 y α = 0.01) 4. Al desconocer la distribución de la variable de este problema, los procedimientos estadı́sticos utilizados en (2) y (3) son válidos bajo ciertos supuesto. ¿Qué supuestos son? Problema 33 III.1 Para calibrar un instrumento de medición se mide repetidamente un patrón cuyo peso sabemos que es igual a 20 gramos (grs.). Se supone que el error que se comete en cada medición sigue una distribución normal con desviación tı́pica σ = 2 grs.. Se pide: 1. La distribución de probabilidad del valor proporcionado por el aparato. 2. Se mide el patrón 5 veces y se obtiene que la media muestral de las cinco mediciones es 21.3 grs.. Construir un intervalo de confianza al 98% para la media poblacional. Interpretar dicho intervalo de confianza al 98% para la media poblacional. 66 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 3. ¿Cuantas veces habrı́a que repetir la medición para conseguir con la media muestral un error máximo de 1 gr. con una confianza del 98%? III.2 En una determinada explotación agraria dedicada al cultivo de uva se utiliza un sistema de riego por goteo tradicional. El ingeniero encargado de la explotación estudia introducir el sistema de riego por goteo último que acaba de salir al mercado para mejorar la productividad media establecida actualmente en 4.7 Kgs. de uva por cepa. Se estima que el cambio será rentable si consigue elevar dicho número por encima de los 6 Kgs. de uva por cepa. Realizada una prueba con el nuevo sistema de riego por goteo, aplicado a 35 cepas, se obtuvo una producción media de 6.7 Kgs. y no se observó ningún cambio apreciable en la dispersión que estaba establecida en σ = 2 Kgs. de uva por cepa. Si se supone normal la variable aleatoria de interés con desviación tı́pica σ = 2 Kgs.. Se pide: 1. Definir la variable y la población sujetas a estudio. 2. Realizar el contraste adecuado para contestar a la pregunta siguiente: ¿Se debe efectuar el cambio de sistema de riego por goteo? (tomar α = 0.05 y α = 0.01) 3. Calcula la potencia de dicho contraste para una alternativa de µ = 7 Kgs.. Interpretar el concepto de potencia de un test. (tomar α = 0.05). Problema 34 I.1 Se realiza una encuesta para conocer la proporción de votantes de un determinado condado que prefieren el candidato A. Para ello, se escoge una muestra de 1200 votantes, y el resultado es 53%. El sondeo anuncia un margen de error de ±3 puntos para un nivel de confianza del 95%. Explicar por qué no se puede afirmar sin más que el 53% de todos los votantes de dicho condado prefieren al candidato A. Explicar qué quiere decir un nivel de confianza del 95%. I.2 Se estudia el rendimiento de un proceso quı́mico. De la experiencia previa con este proceso, se sabe que la distribución del rendimiento es aproximadamente normal con una desviación tı́pica del 3%. En los 12 dı́as anteriores de operación de la planta, se ha observado un rendimiento promedio del 91.6% (a) Construir de manera detallada un intervalo de confianza al 95% para el rendimiento promedio del proceso. Interpretación de dicho intervalo al 95% de confianza. (b) ¿Se puede afirmar al 95% de confianza que el rendimiento promedio es mayor del 90%? Calcular el p-valor de la prueba. ¿Cuál es la decisión apropiada si α = 0.01? (c) ¿Cuál es la potencia de la prueba cuando la verdadera media es µ = 93%? Interpreta el concepto de potencia de una prueba.

Inferencia: intervalos de confianza y contrastes de hipótesis

Documentos relacionados

Productos

Apoyo

Inferencia: intervalos de confianza y contrastes de hipótesis

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib