Prácticas de Estadística. Curso 10/11 Análisis de la varianza Tema 4. ANÁLISIS DE LA VARIANZA 1. La resistencia a la rotura de un componente eléctrico constituye una característica importante de un cierto proceso. Un fabricante utiliza un material nuevo de fabricación frente al material clásico. Se recoge una muestra de 10 elementos usando el primer componente y otra de 10 elementos usando el segundo componente. Se pueden considerar a los dos procesos como dos tratamientos o dos niveles diferentes de un factor dado. Componente Nuevo 16.85 16.40 13.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57 Componente Antiguo17.50 17.63 18.25 18.00 17.86 17.75 18.22 17.90 17.96 18.15 Se pretende averiguar si existen diferencias signicativas entre ambos tratamientos a nivel de resistencia. 2. Una empresa de software está investigando la utilidad de dos lenguajes diferentes para mejorar la velocidad de la programación. A doce programadores, familializados con ambos lenguajes, se les pide que programen cierto algoritmo en ambos lenguajes, anotándose el tiempo que tardan. Los resultados, en minutos, están en el chero lenguaje. (a) Construir un intervalo de conanza para la diferencia de medias en tiempo de programación. (b) ¾Puede considerarse que alguno de los lenguajes es mejor que otro? (c) ¾Está bien diseñado el experimento anterior? Considerar y discutir algún diseño alternativo. 3. Supongamos un instrumento de medida de la dureza de un cierto material (se mide la profundidad de la huella producida por la presión de una punta sobre una probeta). Supongamos que se dispone de dos tipos de puntas distintas y se quiere comprobar si existen o no diferencias entre ellas. Un posible diseño experimental, sería tomar 20 probetas al azar y probar la mitad de ellas con una punta y la otra mitad con la otra. Se tendría, así, un diseño completamente aleatorizado y se utilizaría una prueba t de Student como en el problema anterior. Supongamos que existen diferencias entre las probetas, debidas a la distinta homogeneidad del material o a las diferentes condiciones de fabricación. Esto aumentaría el error de medida, que no sería controlable, y la diferencia entre las puntas podría resultar enmascarada. Una posible forma de evitarlo sería el siguiente diseño: Se divide en dos partes a la probeta y se asigna aleatoriamente una punta u otra a cada parte. Si se quiere eliminar el efecto no controlable de las diferentes probetas, se pueden considerar las diferencias entre las medidas. Estudiar si existen diferencias entre las puntas con estos datos: Punta 1 7 3 3 4 8 3 2 9 5 4 Punta 2 6 3 5 3 8 2 4 9 4 5 dj 1 0 =2 1 0 1 =2 0 1 =1 4. Supongamos que se tienen más de dos posibles grupos a comparar. La primera idea sería realizar contrastes de la t de Student por pares de grupos. Por ejemplo, si se tienen 5 grupos: 4 tratamientos y un control, podrían plantearse un total de 10 posibles pares de comparaciones. Haciendo esto produce el siguiente problema: Si la probabilidad de aceptar H0 correctamente es (1 = a), e.g. 0.95, entonces la probabilidad de aceptar correctamente H0 en las 10 pruebas es 0.9510 = 0.60 si éstas son independientes. Es decir, aumenta mucho el error de tipo I. Entonces hay que utilizar una metodología diferente: ANOVA. 1 Prácticas de Estadística. Curso 10/11 Análisis de la varianza Por ejemplo, a un agricultor le ofrecen cuatro tipos de fertilizante para sus cultivos de patatas. Para compararlos utiliza cada uno de ellos en diez parcelas de su terreno y anota los kilos recolectados al nal de la temporada. Los datos están en el chero fertilizante. (a) ¾Son igual de efectivos los cuatro fertilizantes? (b) Estudia las hipótesis del modelo: homogeneidad de las varianzas por grupos, normalidad y gráca de residuos. 5. Un ingeniero de desarrollo de productos está interesado en maximizar la resistencia a la tensión de una nueva bra sintética que se empleará en la manufactura de tela para camisas de hombre. El ingeniero sabe por experiencia que la resistencia está inuida por el porcentaje de algodón presente en la bra. Además, sospecha que el contenido de algodón debe estar aproximadamente entre un 10% y un 40% para que la tela resultante tenga otras características de calidad que se desean (como la capacidad de recibir un tratamiento de planchado permanente). El ingeniero decide probar muestras a cinco niveles de porcentaje de algodón: 15%, 20%, 25%, 30% y 35%. Asimismo, decide ensayar cinco muestras a cada nivel de contenido de algodón. Las 25 observaciones se han registrado en eñ chero algodon. Analizar los resultados. 6. Un laboratorio investiga la composición de un medicamento nuevo, para tratar cierta enfermedad infecciosa. Decide testear 3 drogas A, B y C con la misma composición porcentual en la fórmula y un cóctel hecho con dos de ellas A y B con la mitad del porcentaje para cada una. Para ello, busca 50 pacientes escogidos al azar entre los que padecen la enfermedad con grados similares de avance y pertenecientes a un mismo estrato social y educacional. Lo que se mide es la cantidad de días que tardan en curarse completamente. Para los 5 casos a estudiar, escoge al azar 10 pacientes. Al primer grupo les suministra un placebo, al segundo la droga A, al tercero la B, al cuarto el cóctel (50% de A y 50% de B) y al quinto la droga C. Los resultados obtenidos se muestran en el cuadro siguiente: Cuadro 18.1 : Ejemplo de Anova de 1 factor. (Datos del Cuadro 17.6) Nº Placebo Droga A Droga B Mezcla A+B Droga C Totales 1 125 107 108 108 112 2 117 108 111 109 116 3 120 110 106 108 115 4 125 109 108 111 113 5 115 112 107 107 114 6 121 110 106 106 112 7 117 110 111 108 115 8 117 107 110 107 115 9 126 109 107 107 112 10 118 111 108 109 117 Se quiere no sólo estudiar si hay diferencias signicativas con el grupo de control, sino que, en el caso de haberlas, saber cuál es el mejor tratamiento. Solucion .- En conclusión, se rechaza la hipótesis nula con resultados altamente signicativos F= 152,44*** Esto signica, que se tiene evidencia cientíca muy fuerte de las diferencias entre el grupo de control y los demás grupos, se puede concluir que el efecto del medicamento sirve para curar la enfermedad infecciosa (hay validación estadística). Este era el objetivo principal de la investigación, pero ahora, se 2 Prácticas de Estadística. Curso 10/11 Análisis de la varianza puede continuar más allá, gracias a las bondades de este modelo. Por ejemplo, se puede investigar si hay diferencias entre el grupo al cual se le suministró el cóctel de droga y los demás que fueron tratados con las drogas puras. Para ello, se repite la misma técnica anterior, pero usándola con los datos de los grupos remanentes. 7. A una empresa le ofrecen impartir un curso de capacitación para aumentar el rendimiento de sus trabajadores. La empresa decide enviar a 15 de sus trabajadores elegidos al azar en toda la plantilla. Para comprobar si el curso es benecioso, se controla el tiempo que tardan esos trabajadores en realizar un trabajo antes de realizar el curso y después de realizar el curso. Los resultados están en el chero curso. ¾Puede armarse que la realización del curso mejora el trabajo?¾Se ha diseñado bien el experimento? 8. Se ha realizado un estudio para investigar el efecto del ejercicio sico en el nivel del colesterol es suero. Veinte individuos tomaron parte en el estudio de los que se tomaron muestras de sangre para determinar el nivel de colesterol de cada sujeto. Después los individuos fueron sometidos a un programa de de ejercicios que se centraba diariamente en realizar carreras y marchas. Al nal del período de ejercicos se tomaron nuevas muestras de sangre y se obtuvo una segunda lectura del nivel de colesterol en suero. Los datos obtenidos están en el chero colesterol. ¾Puede armarse que el ejercicio físico disminuye el nivel de colesterol en suero? 9. Un profesor realizó el siguiente experimento, le preguntó a 44 alumnos que calculasen de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes respuestas: Grupo1 8 9 10 10 10 10 10 10 11 11 11 11 12 12 13 13 13 14 14 14 15 15 15 15 15 15 15 15 16 16 16 17 17 17 17 18 18 20 22 25 27 35 38 40 A otro grupo de 69 alumnos les hizo la misma pregunta pero ahora les pidió la respuesta en pies (3'28 pies = 1 metro). Ahora, las respuestas fueron: Grupo2 24 25 27 30 30 30 30 30 30 32 32 33 34 34 34 35 35 36 36 36 37 37 40 40 40 40 40 40 40 40 40 41 41 42 42 42 42 43 43 44 44 44 45 45 45 45 45 45 46 46 47 48 48 50 50 50 51 54 54 54 55 55 60 El ancho del aula era de 13'1 metros (43'0 pies). En base a estos datos, (a) Hacer un estudio descriptivo de estas dos muestras. (b) Calcular intervalos de conanza al 95% para la media y la varianza de la primera muestra. (c) Calcular intervalos de conanza al 95% para la diferencia de medias y el cociente de varianzas de las dos muestras. (d) ¾Puede armarse que el error en la aproximación es igual si se hace en metros que en pies? 3