Diseño de Experimentos Diseños factoriales 2k Licenciatura en Estadística 2015 Dr. José Alberto Pagura Lic. Lucía N. Hernández Dra. Daniela F. Dianda Diseños 2k • Una clase especial de diseños factoriales equilibrados, lo constituyen los diseños conocidos como 2k • En ellos, se ensayan k factores, cada uno a dos niveles • Su nombre se deriva de la cantidad de tratamientos ensayados o de experimentos elementales que se realizan. • Una réplica completa comprende 2x2x...x2 (kveces) observaciones. • Si el experimento es sin replicación, 2k será el total de pruebas. 1 Diseños 2k • Particularmente útil en las primeras fases del trabajo experimental, cuando posiblemente haya muchos factores que investigar. • Es el diseño factorial completo con menor número de tratamientos para estudiar los efectos de k factores • Se debe suponer que la respuesta es aproximadamente lineal en el espacio experimental elegido (se consideran 2 niveles para cada factor) Diseños 2k Los métodos de análisis que se estudiarán consideran que los efectos son fijos, que los diseños son completamente aleatorizados y que se satisface el supuesto usual de normalidad 2 Diseños 2k • Los análisis estadísticos se hacen a partir de la descomposición de la Sctotal en una serie de términos asociados a cada efecto investigado (todos ortogonales) + un término debido al error que recoge todo efecto de factores no controlados Notación • Los efectos se indican con letras latinas mayúsculas, A es el efecto de ese factor, AB es el efecto de la interacción entre ambos factores • Los niveles de cada factores se designan como inferior y superior y se representan con – y + 3 Notación • Los tratamientos se representan con * (1)Aquel que tiene todos los factores a nivel – * Con letras latinas minúsculas para los factores a nivel + y ninguna letra para los que están a nivel -. Si se tienen 5 factores, el tratamiento acd es la combinación de A, C y D a nivel + y B, E a nivel - Efectos que pueden estimarse • En un diseño 2k es posible descomponer la SCtotal en 2k-1 efectos, c/u con 1 grado de libertad: • K efectos simples • (K en 2) interacciones dobles • (k en 3) interacciones triples • ........ • (k en k)=1 interacción de orden k • En la práctica, es difícil tener interés en estudiar interacciones de orden superior a dos 4 Ortogonalidad • Dos efectos principales son ortogonales si en las pruebas del diseño experimental, en cada una de las variantes de un factor, aparecen en idénticas proporciones las variantes del otro. • Inmediatamente se puede extender la definición, a otros efectos. • En los diseños factoriales equilibrados, todos los efectos son ortogonales. El caso más sencillo: diseño 22 • Se desea estudiar el efecto del uso de nitrógeno y la profundidad de labranza, sobre el rendimiento de azúcar en kg/ha en remolachas. • Nitrógeno: sin y 336,33 kg./ha de sulfato de amonio • Profundidad: 18 y 28 cms. 5 Resultados profundidad 18 28 18 28 nitrógeno tratamientos n0 n0 n1 n1 (1) a b ab niveles codificados + + + + réplica 1 4,54 4,77 5,32 5,59 2 4,64 4,73 5,4 5,67 rendimiento promedio 4,59 4,75 5,36 5,63 Gráfica de cubos (medias de los datos) para rendimiento 5,36 5,63 1 Efectos y coeficientes estimados para rendimiento (unidades codificadas) Término profundidad dosis de nitrogeno profundidad*dosis de nitrogeno dosis de nitrogeno 4,59 Efecto 0,21500 0,82500 0,05500 4,75 -1 -1 profundidad 1 Estimación de los efectos • Asocie el cálculo de las estimaciones de los efectos, a la representación gráfica de los ensayos en un cuadrado. • Asocie el cálculo de los efectos, a los signos que representan los niveles de los factores 6 Análisis de los resultados Gráfica de interacción para rendimiento Gráfica de efectos principales para rendimiento Medias de datos Medias de datos profundidad 5,75 dosis de nitrogeno profundidad -1 1 5,5 5,50 5,4 5,3 5,25 Media 5,1 5,0 4,9 5,00 4,75 4,8 4,7 4,50 4,6 -1 -1 1 -1 1 dosis de nitrogeno 1 Análisis de los resultados Fuente profundidad dosis de nitrogeno Interacción Error Total GL 1 1 1 4 7 SC 0,09245 1,36125 0,00605 0,01220 1,47195 CM 0,09245 1,36125 0,00605 0,00305 F 30,31 446,31 1,98 P 0,005 0,000 0,232 vs. ajustes Gráfica de probabilidad normal (la respuesta es rendimiento) (la respuesta es rendimiento) 0,050 99 95 90 0,025 80 70 Residuo Porcentaje Media 5,2 60 50 40 30 20 0,000 -0,025 10 5 -0,050 1 -0,10 -0,05 0,00 Residuo 0,05 0,10 4,50 4,75 5,00 5,25 Valor ajustado 5,50 5,75 7 Análisis de los resultados Efectos y coeficientes estimados para rendimiento (unidades codificadas) Término Constante profundidad dosis de nitrogeno profundidad*dosis de nitrogeno Efecto 0,21500 0,82500 0,05500 Coef 5,08250 0,10750 0,41250 0,02750 SE Coef 0,01953 0,01953 0,01953 0,01953 T 260,30 5,51 21,13 1,41 P 0,000 0,005 0,000 0,232 ¿Cuantas pruebas se hubiesen necesitado estudiando de un factor por vez, para estimar los efectos con la misma precisión que en el diseño factorial? con esa estrategia: ¿se hubiese podido determinar la significación estadística de la interacción o estimar su efecto? Respuesta media esperada • La respuesta para condiciones definidas por alguno de los tratamientos experimentados, se estimará con la respuesta media obtenida para ese tratamiento. • Se completará dicha estimación puntual, con una estimación por intervalo de acuerdo al procedimiento que se presenta más adelante 8 Diseño 23 • Se busca estudiar efectos de 3 factores sobre una variable respuesta, considerando dos niveles o variantes para cada factor. Diseño: Variedad de “tratamientos” Prueba Factor A Factor B Factor C 1 + + + + + + + + + + + + 2 3 4 5 6 7 8 C está a nivel – A está 2 veces – 2 veces + B está 2 veces – 2 veces + C está a nivel + A está 2 veces – 2 veces + B está 2 veces – 2 veces + 9 Efectos principales • El efecto promedio de un factor se define como el cambio en la respuesta producido por el cambio en el nivel de ese factor, promediado sobre los niveles del otro factor Estimación de un efecto principal • El efecto producido por un factor (C) se puede cuantificar mediante la diferencia del nivel medio de la variable respuesta cuando A está a nivel + y el nivel medio de la misma cuando A está a nivel C (5) (6) (7) (8) (1) (2) (3) (4) 4 4 • El número entre paréntesis indica el valor medio de la respuesta para ese número de prueba, para la matriz del diseño en orden estándar. 10 Estimación de la interacción • Se dice que hay interacción entre dos factores cuando el efecto de uno de ellos es diferente, según el nivel al que está el otro • ¿Cómo se puede cuantificar la interacción? • Pensemos en la interacción entre B y C • El efecto de B cuando C está a nivel + y cuando está C a nivel - es: B / C (7) (8) (5) (6) B / C (3) (4) (1) (2) 2 2 2 2 Efecto interacción • Se define el efecto interacción BxC a la mitad de la diferencia entre: el efecto de B cuando C está a nivel + y el efecto de B cuando C está a nivel –, es decir: BxC 1 (B / C B / C ) 2 • Daría lo mismo haber definido la interacción tomando los efectos de C con B+ y B• Si observamos, cada efecto estimado es un contraste: promedio ponderado con ponderaciones que suman cero 11 Signos de los contrastes • La forma de definir el diseño denominando a los niveles de cada factor con (+) y (-), hace más fácil e intuitiva la “aritmética” para calcular los efectos y comprobar su ortogonalidad • Los signos de los niveles de los factores, definen los contrastes que permiten estimar cada efecto, ya sea uno principal o una interacción • ¿Cómo están definidos los de la interacción? Ejemplo de un diseño factorial 23 En una planta piloto, se investigó el efecto de temperatura(T), concentración(C) y catalizador(K) sobre la producción en gramos (Box, Hunter y Hunter, pág. 318) Una tabla con la combinación de niveles a experimentar como la que sigue se conoce como matriz de diseño 12 Notaciones para la matriz de diseño Experimento 1 2 3 4 5 6 7 8 T C - + - + + + - + - + + + K + + + + T 0 1 0 1 0 1 0 1 1 t c tc k tk ck tck C 0 0 1 1 0 0 1 1 K 0 0 0 0 1 1 1 1 Los datos Temperatura Concentración T C + + + + + + + + Temperatura + 160 180 Catalizador K + + + + Producción y 60 72 54 68 52 83 45 80 Concentración + 20 40 Catalizador + A B 13 Cálculo de los Efectos • ¿Efectos principales? Temperatura Concentración Catalizador • ¿Interacciones? Temperatura*Concentración Temperatura*Catalizador Concentración*Catalizador Temperatura*Concentración*Catalizador Cálculo de efectos principales Representación geométrica 14 Cálculo de interacciones dobles Representación geométrica Cálculo de interacciones triples Representación geométrica 15 Más sobre el cálculo de los efectos • Otro método utilizado para el cálculo de los efectos es el algoritmo de Yates • Este se aplica a las observaciones puestas en orden estándar • En el diseño 23 se construyen tres columnas adicionales cuyos valores se calculan como sigue: Algoritmo de Yates para un diseño 23 Primera columna • Columna (1): Sus valores se obtienen a partir de las respuestas “y” Los primeros cuatro números se obtienen sumando los cuatro pares Los segundos cuatro números se obtienen restando el número de arriba del de debajo de cada pareja. 16 Algoritmo de Yates para un diseño 23 Segunda y Tercera columna • Columna (2): sus valores se obtienen a partir de la columna (1) y el procedimiento para calcular cada valor es el mismo que se definió para la columna (1) pero en lugar de hacer a partir de los valores de “y” se hace a partir de los de (1) • Columna (3): de la misma manera que las columnas anteriores pero a partir de (2) Algoritmo de Yates para un diseño 23 Cálculo de los efectos • Los efectos se obtienen dividiendo los valores de la columna (3) por los denominadores adecuados: 8 para la primera fila (media general) y 4 para las siguientes. • En el caso del diseño 2k, habrá k columnas que se generarán sumando y restando adecuadamente parejas de números. El primer divisor será 2k y los restantes 2k-1 17 Algoritmo de Yates. Cálculos en el ejemplo Tratamiento y (1) (2) (3) Divisor 1 2 3 4 5 6 7 8 60 72 54 68 52 83 45 80 132 122 135 125 12 14 31 35 254 260 26 66 -10 -10 2 4 514 92 -20 6 6 40 0 2 8 4 4 4 4 4 4 4 Estimación Identificación del efecto 64.25 Media 23.0 T -5.0 C 1.5 TC 1.5 K 10.0 TK 0.0 CK 0.5 TCK Sumas de cuadrados 2k C c y • Un efecto es un contraste de la forma Dividido por (k-1) donde ci son los coeficientes que en este caso serán iguales a 1 o –1 y: c 0 La suma de cuadrados de un contraste en el caso balanceado es: cy i 1 i i. 2k i 1 i 2 2k i i. i 1 SCc 2k n ci2 i 1 con un solo grado de libertad 18 Sumas de cuadrados • Teniendo en cuenta que el conjunto de 2k-1 contrastes ortogonales descomponen la suma de cuadrados debida a los tratamientos en esa misma cantidad de componentes independientes, la diferencia de la suma de cuadrados total y la suma de las SCc será la SCresidual Sumas de Cuadrados • La SC de un efecto, principal o interacción, se puede escribir como: • SCefecto = (nº de datos/4) Efecto2 • Recordar que el efecto siempre es la diferencia de dos promedios: el de las pruebas asociadas a signos + y el de las pruebas asociadas a signos – 19 Más sobre el ejemplo • Un detalle omitido hasta aquí, es que los ocho valores de producción son en realidad la media de dos experimentos elementales replicados. Esto permite el cálculo de las variancias para completar un análisis de los datos. Estimaciones de los efectos Term Constant T C K T*C T*K C*K T*C*K Effect 23,000 -5,000 1,500 1,500 10,000 0,000 0,500 Coef 64,250 11,500 -2,500 0,750 0,750 5,000 0,000 0,250 SE Coef 0,7071 0,7071 0,7071 0,7071 0,7071 0,7071 0,7071 0,7071 T 90,86 16,26 -3,54 1,06 1,06 7,07 0,00 0,35 P 0,000 0,000 0,008 0,320 0,320 0,000 1,000 0,733 20 Condición óptima • • • • La condición óptima será Temperatura a nivel + Concentración a nivel – Catalizador ¿a que nivel? Predicción de la respuesta en condiciones óptimas halladas Media del experimento Efecto de T+ (23/2) Efecto de C(5/2) Efecto de K+ (1,5/2) Efecto de (TK)+ (10/2) 64,25 11,50 2,50 0,75 5,00 Producción media prevista 84,00 21 Intervalo de confianza para la predicción media • Un intervalo del 95% confianza para la media se puede calcular como: Pr edicción t gl1,1 CM residual 1 gl 2 N CMerror resulta igual a 6,73 y el IC para la predicción es: 84 ± t11;0,95 *((6,73/16)*(1+4))1/2 84 ±2,2001*1,45 ; 84 ± 3,19 Tabla ANOVA Source T C K T*K Error Total DF 1 1 1 1 11 15 Seq SS 2116,00 100,00 9,00 400,00 74,00 2699,00 Adj SS 2116,00 100,00 9,00 400,00 74,00 Adj MS 2116,00 100,00 9,00 400,00 6,73 F 314,54 14,86 1,34 59,46 P 0,000 0,003 0,272 0,000 22 Experimentos sin replicación • En los experimentos 2k sin réplicas, si se quieren probar TODOS los efectos, no quedan grados de libertad para el error. Por lo tanto, se suelen desechar de entrada las interacciones de orden elevado (probablemente no significativas) que serán “confundidas” con el error • Siempre se aconseja que para hacer un ANOVA los grados de libertad del error no sean tan pequeños, para tener suficiente potencia (no menor que 4). Alrededor de 10 sería recomendable Experimentos con muchos factores • Cuando no hay suficientes grados de libertad, por haber muy pocas pruebas o porque se quieren probar varias interacciones, se puede usar un método gráfico • Si no hubiera efectos reales significativos, los efectos diferirían de cero sólo por azar, con variabilidad igual a 2/N • Por lo tanto los efectos deberían estar sobre una recta en un gráfico sobre papel normal 23 Gráfico de Daniel • Ese gráfico es conocido como “gráfico de Daniel” y permitirá visualizar aquellos efectos no significativos, los que “unirán” al error en el ANOVA permitiendo test con mayor potencia Plot de Daniel para el ejemplo Normal Probability Plot of the Standardized Effects (response is y, Alpha = ,05) 99 Effect Ty pe Not Significant Significant 95 A 90 Percent 80 AC 70 F actor A B C N ame T C K 60 50 40 30 20 10 B 5 1 -5 0 5 10 Standardized Effect 15 24 Bloques en diseño factorial 2k • Se va a realizar un experimento 23. • El material experimental es un compuesto y es deseable que se mezclen las materias primas (que pueden provenir de diferentes proveedores, diferentes lotes, etc.) • Sin embargo, no se puede conseguir material homogéneo más que para cuatro experimentos. Bloques en diseño factorial 2k • El diseño 23 puede dividirse en bloques como se indica: 2 7 3 1 Factores 8 4 3 5 1 6 2 25 Bloques en diseño factorial 2k • Los tratamientos 1,4,6 y 7 se probaron con el compuesto 1 • Los tratamientos 2, 3, 5 y 8 se probaron con el compuesto 2 • Si hay efecto aditivo de los compuestos, quedará cancelado al calcular los efectos principales y las interacciones dobles Confusión • Observar que se ha confundido deliberadamente la interacción triple con el efecto de los compuestos • A cambio, los efectos principales y las interacciones dobles se pueden medir con mayor precisión que si no se hubiesen utilizado bloques. 26 Confusión • En este ejemplo, puede pensarse que la variable bloque es un cuarto factor que llamamos 4. • Este factor tiene la particularidad de no interactuar con los demás factores • Si la asignación de los niveles del factor 4 a los tratamientos se definió en base a hacer coincidir los signos + y – con los de la interacción se puede decir que el bloque está “generado” por la relación 4=123 Cómo construir esquemas más complejos • La idea expuesta nos permitirá derivar esquemas de bloques más complejos. • En esos casos deberá ponerse cuidado cuidado especial en la definición de modo que las variables de bloques no se confundan con interacciones que podrían ser significativas y lo mismo con las posibles interacciones entre variables de bloqueo. 27