Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Métodos estadı́sticos de la ingenierı́a Ingenierı́a Técnica Industrial, todas especialidades Estadı́stica Ingenierı́a Técnica Telecomunicaciones, Telemática Problemas de examenes Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 49 Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 1 III.1 Hemos planteado un contraste de hipótesis bilateral sobre la media de una población. Después de extraer una muestra de la población, y calcular el estadı́stico adecuado resulta que rechazamos H0 al nivel de 95% de confianza, pero que, si fijamos la confianza en 98% no podemos rechazar H0 . 1. ¿Cuál serı́a nuestra decisión con 90% de confianza? 2. Entre las opciones siguientes, indicar las correctas razonándo la respuesta: a) El p-valor es mayor que 0.1 b) El p-mayor es menor que 0.05. c)El p-valor es menor que 0.02 d) El p-valor está comprendido entre 0.02 y 0.1. III.2 En la dirección http://dataservice.eea.eu.int/dataservice/, se pueden encontrar los datos de emisión de CO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997. Se indican a continuación la diferencia D entre la emisión de este contaminante por España y la media europea de emisión entre los años 1990 y 1997. Año (X) 1990 1991 1992 1993 1994 1995 1996 1997 D -2.1 7.89 20.33 10.27 22.98 33.41 16.66 38.91 ( Megatoneladas) Suponiendo que la variable D sigue una distribución aproximadamente normal, se pide: 1. Construir detalladamente el intervalo de confianza al 95% de confianza para el promedio de la variable D. 2. Plantear y llevar a cabo el contraste para contestar a la pregunta: ¿Se puede afirmar que, en estas condiciones, España contamina significativamente más que la media de los paı́ses europeos? Problema 2 1. Con el fin de determinar la temperatura de deflexión bajo carga de un tipo de tuberı́as de PVC, se realizó un experimento consistente en tomar 12 de ellas anotando la temperatura de deflexión observada (en 0 F). Los resultados fueron los siguientes: Temp. Deflexión 206 188 205 187 194 193 207 185 189 213 192 210 Suponiendo que la temperatura de deflexión de las tuberı́as es una variable aleatoria Normal: 50 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. (a) Construir de manera detallada un intervalo de confianza al 95% para la temperatura de deflexión promedio. (b) Si en la estimación anterior queremos cometer un error inferior a 2 0 F, determinar el tamaño de la muestra mı́nimo necesario para garantizar este objetivo. (c) ¿Podemos afirmar que la temperatura media de deflexión de las tuberı́as es superior a 196 o F?. Plantear un contraste para este estudio y tomar una decisión en base a los datos muestrales al 95% de confianza. (d) Suponiendo que la varianza poblacional de la variable en estudio es conocida y vale 100, determinar el p-valor del contraste anterior y discutir la conclusión que se obtiene para los niveles de confianza 90%, 95% y 99%. Problema 3 Una empresa dedicada a la fabricación de material de construcción está interesada en estudiar la conductividad térmica de un tipo de ladrillos. Para ello, seleccionó una muestra de 36 unidades de manera aleatoria, obteniendo una conductividad media de 0.343 y una desviación tı́pica muestral de 0.01. Suponiendo que los datos proceden de una distribución Normal, responder a las siguientes cuestiones: a) Construir, detalladamente, un intervalo de confianza al 95% para la conductividad media de dicho tipo de ladrillos. b) ¿Qué interpretación tiene un intervalo de confianza al 95%? c) Expresar el intervalo de confianza obtenido en el apartado (a) en la forma (valor estimado ± Error) ¿Son suficientes 36 ladrillos para cometer un error inferior a 0.01 en la estimación de la conductividad media?. d) Un competidor afirma que la conductividad térmica de esos ladrillos es superior a 0.340. Plantear un contraste que nos permitirá contestar a la afirmación realizada anteriormente y tomar una decisión en base a los datos muestrales al 95% de confianza. e) Determinar una cota inferior y una cota superior para el p-valor del contraste anterior y discutir la conclusión que se obtiene para los niveles de confianza 90%, 95% y 99%. Problema 4 III.1 Se desea construir un intervalo de confianza para la media poblacional de una distribución normal con desviación tı́pica σ conocida. Se fija un margen de error máximo permitido y se busca el tamaño muestral necesario para garantizar este margen de error con una confianza de 95%. Para cada una de las afirmaciones siguientes, indicar cuál es verdadera o falsa, razonando la respuesta, a) El tamaño muestral necesario aumentará si disminuye σ. b) El tamaño muestral necesario disminuirá si se fija una confianza de 99% c) Si el margen de error permitido aumenta, el tamaño muestral necesario disminuye. III.2. Una máquina de refrescos en un restaurante de carnes asadas se ajusta de modo que la cantidad de bebida que sirva esté distribuida de forma aproximadamente normal con una media de 200 mililitros y una desviación tı́pica de 15 mililitros. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 51 1. La máquina se verifica diariamente con una muestra de nueve bebidas. Con el cálculo del contenido promedio, construir una gráfica de control para este problema. ¿Cuándo diremos que la máquina no opera de modo correcto? 2. Un dı́a se obtiene que x̄ = 211ml, admitiendo que σ = 15ml, construir un procedimiento de contraste para contrastar la hipótesis de que µ es efectivamente 200. (con un nivel de significación 5%) 3. Calcular la potencia de dicho contraste para una alternativa de µ = 215. Problema 5 IV.1- Se quiere contrastar acerca de una población normal la hipótesis nula siguiente : H0 : µ = 120 frente a una alternativa bilateral. Antes de diseñar el experimento, el ingeniero decide evaluar la potencia del test planeado contra la hipótesis alternativa H1 : µ = 130. a) ¿Por qué es importante conocer un valor aproximado de la potencia de un test antes de realizarlo? b) Para un valor de α de 0.05, el ingeniero encuentra una potencia del 50%. Entre las afirmaciones siguientes indica cuáles son las correctas: 1) 2) 3) 4) Aumentará Aumentará Aumentará Aumentará esta potencia si aumenta la desviación tı́pica. esta potencia si disminuye el número de observaciones. la potencia si se escoge H1 : µ = 140. la potencia si se escoge α = 0.1 IV.2- El peso medio de un niño nacido en USA es 3315 gramos. Sea X el peso al nacer de un niño nacido en España. Suponiendo que X sigue una distribución normal, queremos contrastar la hipótesis de H0 : µX = 3315, frente a la alternativa µX < 3315 usando una muestra de n = 30 niños. a) Construye la región crı́tica para un nivel de significación α = 0.05 b) Si se observa una media muestral para n = 30 niños de 3189 y una desviación tı́pica muestral de 488 ¿Qué concluyes? c) Con los datos del apartado anterior, construye detalladamente el intervalo de confianza al 95% para µX. Problema 6 IV.1 Se realiza una medición de una señal en un laboratorio, sabiendo que la desviación tı́pica de las medidas es σ = 10. El operador repite la medición 5 veces y proporciona como valor de la señal la media x̄ de sus 5 mediciones. (a) ¿Cuál es la desviación tı́pica de los resultados proporcionados? (b) ¿En qué sentido es mejor repetir varias veces la medición y proporcionar la media de los valores obtenidos, y no sólo realizar una única medición? 52 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. IV.2- Si se plantea una hipótesis nula acerca de una población y sabemos que es rechazada a un nivel de confianza del 95%. Entre las afirmaciones siguientes indica cuáles son las correctas: a) Siempre será rechazada al 99% de confianza. b) Puede no ser rechazada al 99% de confianza. c) También será rechazada al 90% de confianza d) Nunca será rechazada al 90% de confianza. IV.3- Dos disciplinas de cola para servicio de CPU han sido propuestas por dos diseñadores de sistemas operativos. Para compararlas se instalaron en dos máquinas test iguales y se midieron los tiempos de espera en cada una de ellas de 8 tareas aleatoriamente elegidas: A B 2.41 6.50 3.29 1.22 2.59 2.81 5.35 1.78 2.30 5.86 3.71 1.10 2.34 2.24 5.00 1.95 (a) Realizar, en una misma gráfica, los diagramas de caja-bigotes de cada una de las variables. ¿Qué información se puede deducir de esta gráfica para comparar las dos disciplinas de cola? (b) Suponiendo que la distribución que sigue cada variable se puede aproximar por una Normal, calcular el intervalo de confianza para la diferencia entre el tiempo promedio de espera con la disciplina A y el tiempo promedio de espera con la disciplina B. Comparar los resultados obtenidos con el apartado anterior. Problema 7 IV.1- Se realiza una encuesta para conocer la proporción de españoles que piensan que su selección va a ganar la Eurocopa. Para ello, se escoge una muestra, y el resultado es (antes del partido contra Noruega) 60% más o menos 3 puntos, con un nivel de confianza de 95%. ¿Por qué no se puede afirmar sin más que la proporción de españoles que piensan que su selección va a ganar la Eurocopa es de 60%? Explica lo que significa ” con un nivel de confianza de 95%”. IV.2- Se está investigando el tiempo de secado de una pintura tapaporos. Por estudios anteriores, se sabe que la distribución de los tiempos de secado es aproximadamente normal con una desviación tı́pica de 8mn. Se diseña un experimento en el que se mide el tiempo de secado para 10 cuadrados pintados, y se encuentra una media de 121minutos (mn). (a) Construir detalladamente un intervalo de confianza al 95% de confianza para el tiempo promedio de secado de la pintura. (b) ¿Se puede afirmar al 95% de confianza que el tiempo promedio de secado es mayor de 115mn? Calcular el p-valor asociado a la prueba. (c) ¿Cuántos cuadrados pintados deberı́an probarse en el experimento si queremos asegurarnos que, con una confianza de 95%, el margen de error cometido no será mayor que 4mn? (d) Planeamos contrastar, con 95% de confianza y una muestra de 10 cuadrados pintados, la hipótesis de que el tiempo promedio de secado es igual a 115mn. ¿Cuál es la potencia del test contra la alternativa µ = 120 ? ¿Te parece suficiente? ¿Cómo se podrı́a mejorar? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 53 Problema 8 IV.1.- Un estudiante lee un artı́culo donde se afirma que un intervalo de confianza al 95% para la altura media de los españoles mayores de 18 años es [1.66, 1.72]. Se le pregunta por el significado de esta afirmación y contesta que quiere decir que el 95% de los españoles tiene una altura comprendida entre estos dos números. ¿Crees que su respuesta es correcta? Razónalo. IV.2.- Para calibrar un instrumento de medición, se mide repetidas veces un patrón cuyo peso sabemos igual a 10 gramos. Los valores medidos siguen una distribución normal de media desconocida. En cambio, por estudios anteriores sabemos que podemos considerar la desviación tı́pica igual a 0.0002 gramos. (a) ¿Qué representa la media poblacional de los valores medidos? ¿Qué valdrı́a ésta si el instrumento de medición fuera perfecto? (b) Se mide el patrón cinco veces. La media de las cinco mediciones es igual a 10.0023 gramos. Construir de manera detallada un intervalo de confianza para la media poblacional al 98% de confianza. (c) ¿Cuántas mediciones debemos realizar para conseguir con la media muestral un margen de error de ±0.0001 con 98% de confianza? (d) Queremos determinar si nuestro aparato de medición sobrevalora o infravalora el peso real. Plantea el contraste de hipótesis correspondiente y llévalo a cabo con los datos del apartado (b). Problema 9 IV.1.- ¿Qué es un estimador puntual de un parámetro? ¿Qué propiedades tiene un buen estimador? Dar ejemplos. IV.2.- Para comparar dos programas de digitalización de letra impresa, se sometió cada uno a 50 pruebas. El primero cometió 4 fallos y el segundo 6 fallos. (a) Definir la(s) población(es), y los parámetros de interés. (b) A partir de los datos suministrados por las muestras, ¿puede afirmarse que el primero es significativamente mas fiable que el segundo?. Realizar el contraste para dos niveles de significación distintos. Comentar los resultados obtenidos. (c) Construir detalladamente, con los datos anteriores, el intervalo de confianza correspondiente. (d) Determinar el tamaño mı́nimo requerido de la muestra, correspondiente a cada uno de los programas, si se quiere que el error para ambas estimaciones no exceda de 0.05, con una probabilidad de 0.95. 54 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 10 III.1.- Se analizan dos catalizadores para determinar la forma en que afectan el rendimiento de un proceso quı́mico. El catalizador 1 es el que se viene empleando en la fábrica y se quiere averiguar si se puede sustituir por el catalizador 2, más barato, pero que, según el fabricante, no provoca un descenso del rendimiento. Se llevan a cabo 8 reacciones para cada uno de los catalizadores obteniendo, para el catalizador 1 x̄1 = 92.25, y S1∗2 = 5.69 mientras que para el catalizador 2 : x̄2 = 92.73, y S2∗2 = 8.90. Se suponen normales las variables de interés. (a) Definir la(s) población(es), la(s) variable(s), los parámetros de interés. (b) ¿ Podemos suponer, a partir de los datos que las varianzas de las dos variables son iguales? (c) Basándose en los datos obtenidos, ¿ es cierto que no se puede afirmar que el rendimiento medio del catalizador 2 es menor que el rendimiento medio del catalizador 1? ¿Es aconsejable realizar el cambio de catalizador? Problema 11 III.2.- Una determinada empresa de material fungible puede adquirir los cartuchos de tóner de impresora de dos proveedores distintos. Con el fin de determinar a que proveedor comprar se toma una muestra de tamaño 12 de cada uno de los proveedores obteniendo los siguientes resultados (número de hojas impresas): P roveedor A P roveedor B Media muestral 5459 5162 Cuasivarianza muestral 33703 199928 Si suponemos que las poblaciones son normales con varianzas iguales: (a) Construir un intervalo de confianza para la diferencia entre el número medio de hojas que imprime el cartucho de cada proveedor. (tomar α = 0.05). (b) Razonar que tipo de contraste se debe de realizar con el fin de decidir a qué proveedor comprar y realizar dicho contraste. (tomar α = 0.05). (c) Si se desea construir un intervalo de confianza para la duración media del P roveedor B, calcular cual debe de ser el tamaño de la muestra con el fin de que el error que se comete sea inferior a 100 hojas. (tomar α = 0.05) Problema 12 1. Teorı́a. (a) Definir lo que se entiende por estimador de un parámetro poblacional. (b) ¿Qué es un estimador insesgado? Pon un ejemplo. (c) ¿Qué estimador utilizamos para la varianza poblacional? Argumenta tu respuesta. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 55 2. En una planta piloto de producción de arroz, se estudia la influencia de la temperatura sobre la proporción de granos que germinan. (a) Se colocan 5000 granos en las condiciones de germinación, con una temperatura de 20o C y se observa que germinan 2326 granos. Construir un intervalo de confianza al nivel de 95% para la proporción de granos que germinan si están sometidos a una temperatura de 20o C. (b) Se apartan ahora otros 5000 granos sometiéndolos a una temperatura de 30o C y se observa que germinan 2402 granos. Razona que tipo de contraste se debe realizar para determinar si la proporción de granos que germinan es mayor con una temperatura de 30o que con una temperatura de 20o . Realiza este contraste al nivel de 90%, 95% y 99% ¿Cuál es tu conclusión? Problema 13 1. En una finca, en el momento de la maturación, se quiere estudiar la cantidad media de uva por pie de viña. Si se supone normal la v.a de interés , (a) Definir la variable y la población sujetas a estudio. (b) Se quiere construir un intervalo de confianza al 95% para la cantidad media de uva por cepa, ¿cuál es el tamaño muestral necesario para que el error cometido sea menor que 0.5 kg? (en un estudio realizado en una situación parecida en años anteriores, se estimó la varianza poblacional a 2kg ). (c) Se toma una muestra de 30 cepas, y se obtiene, para esa muestra, una cantidad media de uva por cepa de 4.7kg con una cuasidesviación tı́pica de 1.4kg. Construir un intervalo de confianza al nivel de 95% para la cantidad media de uva por cepa en la finca. (d) El empresario quiere determinar si la cantidad media de uva producida por cepa en la finca es mayor que 4kg. Razonar el tipo de contraste adecuado para ese propósito y realizarlo. (Tomar α = 0.05) Problema 14 III.2.- Un taller acaba de recibir una máquina nueva y busca ajustarla correctamente. Según el técnico vendedor de la máquina, la máquina está ajustada para que no produzca más de 4% de piezas defectuosas. (a) El taller decide tomar una muestra y estimar la proporción de defectuosos producidos por la máquina considerando que la proporción de defectuosos indicada por el fabricante es correcta. Si quiere cometer un error en la estimación de la proporción menor de 0.05, ¿cuál es el tamaño de la muestra que debe tomar? (tomar α = 0.05). (b) Al tomar una muestra de 50 piezas producidas, encuentra 4 defectuosas, hallar el intervalo de confianza al nivel de 95% para la proporción poblacional de defectuosos. (c) La empresa no puede permitirse un nivel de defectuosos mayor de 5%. Razonar que tipo de contraste se debe de realizar con el fin de determinar si la máquina se encuentra mal ajustada, y realizar dicho contraste. (tomar α = 0.05). 56 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 15 1. Para ensayar los efectos de un nuevo fertilizante sobre la producción de trigo, una parcela de terreno se dividió en 175 cuadrados de áreas iguales, todas ellas tenı́an idénticas caracterı́sticas de suelo, exposición a la luz del sol, etc. El nuevo fertilizante se aplicó a 75 de estos cuadrados y el antiguo a los restantes. El número medio de fanegas de trigo cosechadas por cuadrado en los que se utilizó el fertilizante nuevo fue de 12,30 con una cuasidesviación tı́pica de 1,20 fanegas. La media y cuasidesviación tı́pica correspondiente a los otros cuadrados fueron 11,90 y 0,90 respectivamente. Suponga que las poblaciones son normales con igual varianza. Se pide: (a) Defina las variables y las poblaciones que se están sometiendo a estudio. Indique la información suministrada por las muestras, ası́ como los parámetros de interés. (b) Después de haber planteado las hipótesis adecuadas, indicado el error de tipo I y determinado la región de rechazo, determine si se puede afirmar al 99% de confianza que el nuevo fertilizante mejora la producción de trigo. ¿Y al 95%? Razónese. Indique si existe algún nivel de confianza que nos lleve a decir que no existen diferencias significativas entre el fertilizante nuevo y el tradicional. Problema 16 1. Para determinar el contenido exacto de carbonato de calcio de una caliza, se realizan, en las mismas condiciones, 5 mediciones y se obtiene los resultados siguientes: 49.56%, 49.82%, 49.30%, 50.16%, 50.06% Se supone que el valor medido se puede expresar como [CaC03 ]pob + ε, donde [CaC03 ]pob representa el valor exacto (no observable) y ε el error que se comete durante la medición. Suponiendo que ε sigue una distribución normal de media 0 y de varianza desconocida σ2. (a) Determinar la distribución del valor medido del contenido de carbonato de calcio. En particular, ¿podrı́as dar una estimación de su promedio? (b) Construir un intervalo de confianza al nivel de 90% para el contenido exacto promedio de carbonato de calcio de la caliza. (c) Si se desea cometer como máximo un error de 0.2 con una confianza del 95%, ¿cuántas mediciones más deberı́amos realizar?. Problema 17 1. Con el fin de determinar si existen diferencias entre dos proveedores de una determinada materia prima se tomaron sendas muestras (120 para uno de los proveedores y 80 para otro) y se sometieron a cambios extremos de temperatura. La siguiente tabla muestra el resultado del experimento: Deformados Intactos Proveedor A 41 79 Proveedor B 27 53 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 57 (a) Obtener de manera teórica el procedimiento estadı́stico completo que nos proporciona respuesta a la siguiente pregunta: ¿Podemos establecer que el comportamiento de los materiales suministrados por ambos proveedores funcionan de igual manera cuando son sometidos a cambios extremos de temperatura?. (b) Dar respuesta a la cuestión anterior y determinar el p-valor correspondiente. Problema 18 II.2 Queremos ahora medir la señal s con un aparato de medición. Sea X la variable aleatoria “valor proporcionado por el aparato al realizar una medición” y ε la variable “error cometido por el aparato al realizar una medición”. Consideramos que ε sigue una distribución normal con media 0 y desviación tı́pica 0.4 independiente de s. (a) ¿Cuál es la relación entre s, X y ε? (b) ¿Cuál es la media y la desviación tı́pica de X? ¿Cuál es la distribución de los valores de X? (c) Se planifica realizar varias mediciones y proporcionar su media para aproximar la señal. ¿Cuántas mediciones habrá que realizar para que nos aseguremos con una probabilidad mayor o igual a 0.95 que el valor proporcionado no se alejará en más de 0.1 unidades de la señal promedio? Problema 19 III Con el fin de determinar la velocidad de transmisión en dos servidores de la universidad, decidimos descargar un fichero de 2Mb de cada uno de ellos y anotar el tiempo necesario para la descarga. Los resultados(en seg.) que se obtuvieron vienen dados en la siguiente tabla: Serv. 1 Serv. 2 5.89 4.60 5.42 4.06 4.2 4.92 5.38 3.82 6.07 7.4 3.88 4.57 4.11 443 5.03 5.11 5.27 5.02 3.25 5.822 5.053 Si suponemos que la variable ”Tiempo de descarga de ficheros de 2 Mg” sigue una distribución normal: (a) Determinar un intervalo de confianza para el tiempo promedio de descarga de cada uno de los servidores. En función de los resultados obtenidos, ¿podemos pensar que la velocidad promedio es la misma desde ambos servidores?. Razona tu respuesta (b) Plantear un contrate para la hipótesis anterior, determinando el estadı́stico del contraste, su distribución asociada ası́ como la región crı́tica para un valor α genérico. (c) Realizar el contraste a partir de los valores propuestos en la tabla y decidir en función del p-valor obtenido. 58 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. (d) Suponiendo que la varianza asociada a la variable ”Tiempo de descarga del servidor 2” es 0.62 , determinar qué tamaño de la muestra será necesario utilizar para estimar el tiempo promedio de descarga real desde este servidor con un error menor que 0.2 seg (tomar α=0.05) (e) En ningún caso la universidad aceptarı́a que el tiempo de descarga de uno de estos ficheros fuese superior a 6.3 segundos. Sabiendo que la varianza asociada a la variable ”Tiempo de descarga del servidor 1” es conocida (σ=1),¿podemos afirmar que este servidor cumple este requisito?. (tomar α=0.05) (f) Determinar la potencia del contraste anterior si el tiempo promedio real de dicho servidor para este tipo de ficheros fuese de 5.8 seg. Problema 20 En un laboratorio se investiga el contenido (en %) en fibras de un determinado alimento. La distribución de los valores obtenidos se puede considerar normal. III.1 Por un estudio preliminar, se considera que la desviación tı́pica de los valores obtenidos se puede fijar en 1.2%. 1. Introducir la variable aleatoria, la población y el parámetro de interés. Traducir los datos del enunciado en cuanto a la distribución de la variable. 2. En estas condiciones, ¿cuántas mediciones habrı́a que repetir para conseguir, con una confianza del 95%, un margen de error de 1% a la hora de realizar un intervalo de confianza para el contenido real en fibras del alimento? 3. Por otra parte se quiere probar, con un nivel de confianza del 95%, si el contenido en fibras es mayor de 12%. Plantea las hipótesis nula y alternativa adecuadas. Queremos ser capaces con una probabilidad mayor o igual a 0.8 de detectar cuando el contenido es en realidad igual a 13, ¿será suficiente con realizar 10 mediciones? Si no fuera suficiente, ¿qué sugieres que hagamos? III.2 Después de planificar el experimento se decide que se van a tomar 10 mediciones. Un operario lleva a cabo estas 10 mediciones y encuentra que su media es igual a 12.35 y su desviación tı́pica 1.3. 1. Decidimos NO utilizar el valor de σ que se tenı́a en el apartado anterior sino utilizar la desviación tı́pica calculada a partir de los datos. Construir de manera detallada el intervalo de confianza para el contenido real en fibras basándose en los datos obtenidos. 2. Llevar a cabo el contraste para probar si el contenido real es significativamente mayor de 13. 3. Proporciona una cota superior para el p-valor asociado al contraste anterior. Intenta dar una cota inferior también. III.3 Otro operario realiza otro dı́a 5 mediciones más con el misma alimento y encuentra para estas 5 mediciones una media igual a 12.5 y una desvación tı́pica igual a 1.5. Llevar a cabo el contraste para probar si el operario influye en el resultado de la determinación del contenido en fibras. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 59 Problema 21 1. Un estudio demostró que los tiempos de vida de cierta clase de baterı́as de automóvil se distribuye normalmente. Con el fin de estudiar su duración, se consideró una muestra formada por 10 baterı́as, obteniéndose las siguientes duraciones observadas: 1456, 1478, 1467, 1350, 1460, 1376, 1410, 1330, 1421, 1423 (a) Obtener una estimación puntual y un intervalo de confianza al nivel de confianza del 90% para la media de la población. (b) ¿Cuál es el efecto de un incremento del tamaño muestral sobre el intervalo de confianza? ¿Y del nivel de confianza? (c) Determinar el tamaño muestral necesario para reducir a la mitad el error de muestreo del intervalo de confianza obtenido en el apartado anterior. Razona tu respuesta. (d) El fabricante afirma que su duración en promedio es superior a 1450 horas. Con los datos que tenemos, ¿podemos probar dicha afirmación?. Responder de manera razonada a la cuestión anterior indicando el procedimiento estadı́stico utilizado. (e) Determinar el p-valor asociado al contraste que se puede plantear para dar respuesta a la pregunta anterior. Problema 22 1. Se realizan mediciones de la concentración en g/l de un determinado compuesto en una solución. Denotamos por X la variable ”Valor obtenido en una medición realizada al azar”. (a) ¿ Por qué es X una variable aleatoria? ¿Qué es mejor, que la varianza de X sea grande o pequeña? Suponemos a partir de ahora que se puede modelizar la distribución de X por una distribución Normal con media desconocida, y con varianza 4.2. (b) ¿En qué unidades se expresan la media y la varianza de X? Se realizan 8 mediciones de la concentración de un determinado compuesto obteniéndose los siguientes datos: 5.3, 4.2, 7.2, 6.3, 5.5, 6.5, 4.8, 5.1 (c) Construir detalladamente un intervalo de confianza al 95% para el centro de la distribución de X. ¿Qué interpretación tiene un intervalo de confianza? (d) ¿Se puede afirmar que el valor de la concentración es menor que 6? Llevar a cabo el contraste de forma detallada. (e) Calcular el p-valor del contraste anterior. (f) Calcular la potencia del test contra la alternativa µ = 5. ¿Qué representa la potencia? ¿Se trata de un valor suficiente? 60 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 23 V Para el problema de los ascensores del Hospital de Marina, la media muestral y la desviación tı́pica muestral calculadas a partir de los datos originales son t̄ = 125.6 segundos y st = 112 segundos. Utilizando los datos recogidos como muestra, queremos hacer inferencia sobre el tiempo promedio de espera de un usuario, si nos limitamos a considerar el ascensor B. 1. Por la forma del histograma sabemos que la distribución de los valores de T sigue más bien una distribución exponencial. ¿Cuál es la hipótesis sobre la distribución de los valores de la variable de interés en la población que se ha hecho en clase para obtener los intervalos de confianza y los contrastes para la media poblacional? ¿Por qué podemos seguir utilizando estos mismos intervalos y contrastes aunque la distribución de T sea exponencial? 2. Construir detalladamente el intervalo de confianza al 98 % de confianza para la media poblacional del tiempo de espera para el ascensor B, para un usuario. 3. Llevar a cabo el contraste para decidir si el tiempo promedio de espera para el ascensor B es significativamente mayor al 95% de confianza que 1 minuto y 45 segundos. 4. ¿Cuál serı́a nuestra decisión si trabajamos al 90% de confianza? ¿y al 99% de confianza? 5. Dar una cota inferior y una cota superior para el p-valor asociado al contraste del apartado anterior. Problema 24 III.1 Se plantea un contraste de hipótesis bilateral para la media de una población normal con varianza conocida. Después de extraer una muestra de la población y calcular el estadı́stico adecuado, resulta que se rechaza H0 al 90% de confianza y que no podemos rechazar la hipótesis nula al 98% de confianza. 1. Con la información disponible, ¿se puede tomar alguna decisión al 95% de confianza? Razonar la respuesta. 2. Indicar si las siguientes afirmaciones son verdaderas o falsas, razonando la respuesta. 2.1. p − valor ≤ 0.05. 2.2. p − valor < 0.02. 2.3. 0.02 < p − valor ≤ 0.1. III.2 Una empresa de construcción está interesada en investigar si sus empleados cumplen el horario de descanso vespertino convenido, que es de 20 minutos. Para ello realiza un seguimiento a 50 empleados seleccionados aleatoriamente observando el tiempo en minutos que tardan los empleados en reincorporarse a su puesto de trabajo. Los datos obtenidos son los siguientes: x = 20.483 s2 = 9.546 1. ¿Existe alguna razón para creer a un nivel de significación del 5% que los empleados tardan por término medio más del descanso permitido? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 61 2. Construir un intervalo de confianza para el tiempo medio de descanso vespertino al nivel de confianza del 98%. ¿Qué factores influyen en la amplitud de un intervalo de confianza? ¿En qué se traduce un aumento o una reducción de la amplitud de un intervalo de confianza? 3. Calcular el tamaño muestral necesario para reducir a la mitad el margen de error del intervalo de confianza obtenido en el apartado anterior si se supone que la desviación tı́pica poblacional es de 9. Problema 25 a) Una empresa lleva trabajando con el mismo sistema de producción durante varios años y se sabe que su rendimiento diario sigue una distribución normal de varianza 4. El gerente de la empresa desea estudiar si el rendimiento promedio de su sistema ha disminuido con respecto al valor inicial que era de 80. Para ello, anota el rendimiento que proporciona su sistema durante 16 dı́as, obteniendo un rendimiento medio de 79.3. a1) Realizar detalladamente un contraste para el estudio anterior. Determinar el p-valor del contraste y discutir la conclusión que se obtiene en función del p-valor. a2) Si el rendimiento medio auténtico fuera de 79, ¿te parece adecuado el test anterior para detectar esta alternativa con una confianza del 95%? En caso negativo indicar qué harı́as para mejorarlo. a3) ¿Cuántos dı́as deberı́a durar el estudio para poder detectar la alternativa del apartado anterior en un 90% de los casos? b) Una multinacional ofrece al gerente de la empresa dos nuevos sistemas de producción. En un estudio realizado, se obtuvo que el rendimiento medio √ del Sistema I durante 32 dı́as fue de 82.3 con una cuasi-desviación tı́pica muestral de 8, mientras que el rendimiento medio del Sistema II durante 25 dı́as fue de 81 con una cuasi-desviación tı́pica muestral de 2. Se supone que los rendimientos de ambos sistemas son Normales. b1) Construir, detalladamente, un intervalo de confianza al 95% para el rendimiento promedio del Sistema II. ¿Qué interpretación tiene el intervalo obtenido? ¿Cuántos dı́as deberı́a durar el estudio para cometer un error inferior a 0.5 en la estimación del rendimiento medio?. b2) ¿Se puede afirmar que los rendimientos medios de los dos nuevos sistemas son iguales? Discutir en función del p-valor. Problema 26 Para comparar la eficiencia de dos compiladores de Pascal, se seleccionaron al azar 10 programas y se ejecutaron con cada uno de los compiladores. Los tiempos de ejecución, en segundos, vienen dados en la siguiente tabla: Programa 1 2 3 4 5 6 7 8 9 10 x s∗ Compilador I 4.2 4.7 4.6 3.8 2.7 3.6 4.2 4.5 3.9 4.1 4.03 0.58 Compilador II 4.3 3.9 3.3 3.5 2.7 3.1 3.3 4.7 4.2 3.7 3.67 0.61 a) ¿Qué distribución sigue el tiempo empleado por cada compilador? Según los datos proporcionados, ¿se trata de muestras procedentes de variables independientes?. 62 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. b) Construir detalladamente un intervalo de confianza al 98% para el tiempo medio de ejecución del compilador I. c) Contrastar al 95% de confianza la hipótesis de que los tiempos de ejecución de ambos compiladores son iguales, respondiendo a su vez a las siguientes cuestiones: ¿Qué distribución sigue el estadı́stico del contraste? ¿Por qué? d) Se desea estudiar si el contraste anterior permite detectar de forma aceptable el caso de que el tiempo promedio de ejecución del Compilador I supere al del Compilador II en 0.05 segundos. Resolver este apartado suponiendo que la distribución de los tiempos de ejecución son Normales y que la desviación tı́pica de la diferencia de tiempos de ejecución es conocida e igual a 0.2. Problema 27 En un laboratorio se realizan mediciones de la cantidad (en partes por millón, ppm.) de impurezas que hay en el aire lı́quido. La distribución de los valores obtenidos es aproximadamente normal de media desconocida. III.1 Por un estudio preliminar, la desviación tı́pica de los valores obtenidos puede fijarse en 0.07 ppm. 1. Introducir la variable aleatoria y el parámetro de interés. Traducir los datos del enunciado en cuanto a la distribución de la variable aleatoria. 2. Se decide tomar 6 mediciones y obtenemos una media muestral de 1.05 ppm. Construir de manera detallada un intervalo de confianza para la media poblacional al 95% de confianza. Interpretar el resultado obtenido. 3. Calcular el tamaño muestral para conseguir, con una confianza del 95%, reducir a la mitad el margen de error del intervalo obtenido en el apartado anterior. ¿Cuál es el efecto de un incremento del tamaño muestral sobre el intervalo de confianza? ¿Y del nivel de confianza? III.2 Supongamos que el investigador responsable del experimento desconfı́a del estudio preliminar por lo que decide no utilizar σ que se tenı́a en el apartado anterior, sino estimarla a partir de los datos muestrales. ¿Cuál serı́a el estimador puntual de σ 2 ? Si en estas nuevas condiciones queremos construir un intervalo de confianza para la media poblacional ¿cuál serı́a la diferencia con el obtenido en (2) del apartado anterior? Problema 28 III.1 Cuando una máquina está bien ajustada, produce piezas un 1% de piezas defectuosas. Para controlar que la máquina sigue bien ajustada, se escogen al azar cada dı́a 100 piezas de la producción y se someten a un test. ¿Cuál es la probabilidad de que, la proporción muestral no se aleje en más de 0.03 unidades de la proporción de defectuosos que se produce cuando la máquina está bien ajustada? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 63 III.2 Se desea construir un intervalo de confianza a nivel 100(1 − α)% para la media de una población normal con la desviación tı́pica conocida. Indicar razonadamente la veracidad o falsedad de las afirmaciones siguientes: 1. Cuanto menor sea la desviación tı́pica poblacional, mejor será la precisión de la estimación obtenida con el intervalo de confianza. 2. Si quiero una mayor precisión, bastará con imponer una mayor confianza al realizar el intervalo de confianza. III.3 Un fabricante de equipo deportivo ha desarrollado un nuevo sedal sintético para pesca y afirma que tiene una resistencia media a la rotura mayor o igual a 15 kgs. La empresa que los comercializa desconfı́a de tal afirmación y decide poner a prueba dichos sedales. Para ello seleccionó de manera aleatoria 36 de dichos sedales y obtuvo una resistencia promedio a la rotura de 14.6 kgs. Suponiendo que la resistencia a la rotura de los nuevos sedales presenta una desviación tı́pica de σ = 2 kgs.: 1. ¿Está justificada la desconfianza de la empresa? Plantear y llevar a cabo el contraste adecuado para responder a la anterior pregunta. Calcular el p − valor de la prueba. 2. Calcular el tamaño muestral necesario al 98% de confianza si queremos estimar la resistencia promedio a la rotura del nuevo hilo sedal con un error inferior a 0.5 kgs. Problema 29 III.1 Para calibrar un aparato de medición se mide repetidas veces un patrón cuyo peso no se conoce. Se supone que el error que se comete en cada medición sigue una distribución normal de media 0 y desviación tı́pica 2 gramos. 1. ¿Cuál es la distribución del valor proporcionado por el aparato? 2. Si se decide utilizar como peso del patrón el valor proporcionado por 10 mediciones, ¿cuál será la desviación tı́pica del valor proporcionado? 3. Si la media muestral de 10 mediciones es igual a 5.37 gramos, construir un intervalo al 98% de confianza para el peso exacto del patrón. Interpretación de dicho intervalo. 4. Calcular el tamaño muestral para garantizar con una probabilidad del 98% que el error que cometemos al estimar el peso real del patrón con el promedio de las mediciones sea inferior a 1 gramo. III.2 Para la media µ de una población con varianza conocida, planteamos el contraste H 0 : µ = µ0 H1 : µ > µ 0 Después de extraer una muestra de la población y calcular el estadı́stico adecuado, resulta que rechazamos H0 al 95% de confianza y que no podemos rechazar H0 al 99% de confianza. 1. ¿Cuál es la decisión al 90% de confianza? ¿Y al 98% de confianza? Razona tu respuesta. 64 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 2. Entonces el p − valor de la prueba será: (a) p − valor ≤ 0.05 (b) p − valor < 0.01 (c) 0.01 < p − valor ≤ 0.1 Para cada una de las afirmaciones anteriores, indicar razonadamente su veracidad o falsedad. Problema 30 III.1 Se desea construir un intervalo de confianza para la media poblacional de una distribución normal con σ conocida. Se fija un margen de error máximo permitido y se busca el tamaño muestral necesario para garantizar este margen de error con una confianza del 95%. Para cada una de las afirmaciones siguientes, indicar razonadamente su veracidad o falsedad: 1. Si disminuye σ, el tamaño muestral necesario aumentará. 2. El tamaño muestral necesario aumentará si se fija una confianza del 99%. 3. Si el margen de eror permtido lo disminuimos en la mitad, el tamaño muestral necesario aumentará. III.2 Una central lechera compra leche a varios provedores. La central sospecha que algunos ganaderos añaden agua a la leche para aumentar sus beneficios. El exceso de agua se puede detectar midiendo el punto de congelación de la leche. La temperatura de congelación de la leche natural varı́a normalmente con una media de µ = −0.545o C y una desviación tı́pica σ = 0.008o C. La adición de agua aumenta la temperatura de congelación y la acerca a 0o C, el punto de congelación del agua. El director del laboratorio de la central lechera determina la temperatura de congelación de cinco lotes consecutivos de leche procedentes de un mismo provedor y encuentra una media muestral de -0.535o C. ¿Estos resultados constituyen una buena evidencia de que el provedor está añadiendo agua a la leche? Plantear el contraste de hipótesis adecuado y llevarlo a cabo de manera detallada (deberá aparecer el estadı́stico de la prueba, su distribución de probabilidad y dónde se sitúa la región crı́tica o de rechazo), dar el p-valor asociado a la prueba y redactar las conclusiones que obtengas. Problema 31 III.1 Para calibrar un nuevo aparato de medición, se mide repetidas veces un patrón cuyo peso sabemos que es igual a 15 grs. En condiciones óptimas de funcionamiento, el aparato comete un error aleatorio que sigue una distribución normal con desviación tı́pica igual a 2 gr. 1. ¿Cuál es la distribución del valor proporcionado por el aparato? 2. Si se decide utilizar como medida el valor proporcionado por 10 mediciones, ¿cuál será la desviación tı́pica del valor proporcionado? 3. Calcular el tamaño muestral para garantizar con una probabilidad del 98% que el error que cometemos con el promedio de las mediciones sea inferior a 0.95 grs.. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 65 III.2 El Gobierno ha otorgado fondos al departamento de agricultura de la UPCT para probar la capacidad de rendimiento de una nueva variedad de trigo. La nueva variedad se ha plantado en 40 parcelas de igual superficie y el rendimiento medio ha sido 46.5 kg. por parcela. Por estudios anteriores podemos suponer que la población de interés tiene una desviación tı́pica de σ = 15 kg.. Se pide: 1. Construir de manera detallada un intervalo de confianza al 95% para el rendimiento promedio por parcela de la nueva variedad de trigo. Interpretación de dicho intervalo de confianza. 2. ¿Podemos afirmar al 95% de confianza que el rendimiento promedio por parcela de la nueva variedad de trigo es superior a 44 kg.? Plantea el contraste de hipótesis adecuado para ponder justificar tu respuesta. 3. Determinar el p − valor de la prueba. 4. Al desconocer la distribución de la variable de este problema, los procedimientos estadı́sticos utilizados en (1), (2) y (3) son válidos bajo ciertos supuesto. ¿Qué supuestos son? Problema 32 III.2 Un agrónomo examina el contenido de celulosa de una determinada variedad de alfalfa. Supongamos que el contenido de celulosa de la población tiene una desviación tı́pica σ = 12 mg/g . Una muestra de 32 cortes de alfalfa tiene un contenido medio de celulosa x = 145 mg/g. Se pide: 1. Definir la variable y la población sujetas a estudio. 2. Dar un intervalo de confianza al 95% para el contenido medio de celulosa de la población. 3. Un estudio afirma que el contenido medio de celulosa en la población es µ = 140 mg/g, pero el agrónomo cree que la media es mayor que ese valor. Realizar el contraste adecuado para ver si los datos muestrales corroboran dicha impresión. (Tomar α = 0.05 y α = 0.01) 4. Al desconocer la distribución de la variable de este problema, los procedimientos estadı́sticos utilizados en (2) y (3) son válidos bajo ciertos supuesto. ¿Qué supuestos son? Problema 33 III.1 Para calibrar un instrumento de medición se mide repetidamente un patrón cuyo peso sabemos que es igual a 20 gramos (grs.). Se supone que el error que se comete en cada medición sigue una distribución normal con desviación tı́pica σ = 2 grs.. Se pide: 1. La distribución de probabilidad del valor proporcionado por el aparato. 2. Se mide el patrón 5 veces y se obtiene que la media muestral de las cinco mediciones es 21.3 grs.. Construir un intervalo de confianza al 98% para la media poblacional. Interpretar dicho intervalo de confianza al 98% para la media poblacional. 66 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 3. ¿Cuantas veces habrı́a que repetir la medición para conseguir con la media muestral un error máximo de 1 gr. con una confianza del 98%? III.2 En una determinada explotación agraria dedicada al cultivo de uva se utiliza un sistema de riego por goteo tradicional. El ingeniero encargado de la explotación estudia introducir el sistema de riego por goteo último que acaba de salir al mercado para mejorar la productividad media establecida actualmente en 4.7 Kgs. de uva por cepa. Se estima que el cambio será rentable si consigue elevar dicho número por encima de los 6 Kgs. de uva por cepa. Realizada una prueba con el nuevo sistema de riego por goteo, aplicado a 35 cepas, se obtuvo una producción media de 6.7 Kgs. y no se observó ningún cambio apreciable en la dispersión que estaba establecida en σ = 2 Kgs. de uva por cepa. Si se supone normal la variable aleatoria de interés con desviación tı́pica σ = 2 Kgs.. Se pide: 1. Definir la variable y la población sujetas a estudio. 2. Realizar el contraste adecuado para contestar a la pregunta siguiente: ¿Se debe efectuar el cambio de sistema de riego por goteo? (tomar α = 0.05 y α = 0.01) 3. Calcula la potencia de dicho contraste para una alternativa de µ = 7 Kgs.. Interpretar el concepto de potencia de un test. (tomar α = 0.05). Problema 34 I.1 Se realiza una encuesta para conocer la proporción de votantes de un determinado condado que prefieren el candidato A. Para ello, se escoge una muestra de 1200 votantes, y el resultado es 53%. El sondeo anuncia un margen de error de ±3 puntos para un nivel de confianza del 95%. Explicar por qué no se puede afirmar sin más que el 53% de todos los votantes de dicho condado prefieren al candidato A. Explicar qué quiere decir un nivel de confianza del 95%. I.2 Se estudia el rendimiento de un proceso quı́mico. De la experiencia previa con este proceso, se sabe que la distribución del rendimiento es aproximadamente normal con una desviación tı́pica del 3%. En los 12 dı́as anteriores de operación de la planta, se ha observado un rendimiento promedio del 91.6% (a) Construir de manera detallada un intervalo de confianza al 95% para el rendimiento promedio del proceso. Interpretación de dicho intervalo al 95% de confianza. (b) ¿Se puede afirmar al 95% de confianza que el rendimiento promedio es mayor del 90%? Calcular el p-valor de la prueba. ¿Cuál es la decisión apropiada si α = 0.01? (c) ¿Cuál es la potencia de la prueba cuando la verdadera media es µ = 93%? Interpreta el concepto de potencia de una prueba.