DISEÑO DE EXPERIMENTOS

Anuncio
Diseño de Experimentos
Diseños factoriales 2k
Licenciatura en Estadística
2015
Dr. José Alberto Pagura
Lic. Lucía N. Hernández
Dra. Daniela F. Dianda
Diseños 2k
• Una clase especial de diseños factoriales
equilibrados, lo constituyen los diseños conocidos
como 2k
• En ellos, se ensayan k factores, cada uno a dos
niveles
• Su nombre se deriva de la cantidad de tratamientos
ensayados o de experimentos elementales que se
realizan.
• Una réplica completa comprende 2x2x...x2 (kveces)
observaciones.
• Si el experimento es sin replicación, 2k será el total
de pruebas.
1
Diseños 2k
• Particularmente útil en las primeras fases del trabajo
experimental, cuando posiblemente haya muchos
factores que investigar.
• Es el diseño factorial completo con menor número de
tratamientos para estudiar los efectos de k factores
• Se debe suponer que la respuesta es
aproximadamente lineal en el espacio experimental
elegido (se consideran 2 niveles para cada factor)
Diseños 2k
Los métodos de análisis que se
estudiarán consideran que los efectos
son fijos, que los diseños son
completamente aleatorizados y que se
satisface el supuesto usual de
normalidad
2
Diseños 2k
• Los análisis estadísticos se hacen a partir
de la descomposición de la Sctotal en una
serie de términos asociados a cada
efecto investigado (todos ortogonales) +
un término debido al error que recoge
todo efecto de factores no controlados
Notación
• Los efectos se indican con letras latinas
mayúsculas, A es el efecto de ese factor,
AB es el efecto de la interacción entre
ambos factores
• Los niveles de cada factores se designan
como inferior y superior y se representan
con – y +
3
Notación
• Los tratamientos se representan con
* (1)Aquel que tiene todos los factores a nivel –
* Con letras latinas minúsculas para los factores
a nivel + y ninguna letra para los que están a
nivel -. Si se tienen 5 factores, el tratamiento
acd es la combinación de A, C y D a nivel +
y B, E a nivel -
Efectos que pueden estimarse
• En un diseño 2k es posible descomponer la
SCtotal en 2k-1 efectos, c/u con 1 grado de
libertad:
• K efectos simples
• (K en 2) interacciones dobles
• (k en 3) interacciones triples
• ........
• (k en k)=1 interacción de orden k
• En la práctica, es difícil tener interés en estudiar
interacciones de orden superior a dos
4
Ortogonalidad
• Dos efectos principales son ortogonales si
en las pruebas del diseño experimental, en
cada una de las variantes de un factor,
aparecen en idénticas proporciones las
variantes del otro.
• Inmediatamente se puede extender la
definición, a otros efectos.
• En los diseños factoriales equilibrados,
todos los efectos son ortogonales.
El caso más sencillo: diseño 22
• Se desea estudiar el efecto del uso de
nitrógeno y la profundidad de labranza,
sobre el rendimiento de azúcar en kg/ha en
remolachas.
• Nitrógeno: sin y 336,33 kg./ha de sulfato
de amonio
• Profundidad: 18 y 28 cms.
5
Resultados
profundidad
18
28
18
28
nitrógeno tratamientos
n0
n0
n1
n1
(1)
a
b
ab
niveles
codificados
+
+
+
+
réplica
1
4,54
4,77
5,32
5,59
2
4,64
4,73
5,4
5,67
rendimiento
promedio
4,59
4,75
5,36
5,63
Gráfica de cubos (medias de los datos) para rendimiento
5,36
5,63
1
Efectos y coeficientes estimados para rendimiento
(unidades codificadas)
Término
profundidad
dosis de nitrogeno
profundidad*dosis de nitrogeno
dosis de nitrogeno
4,59
Efecto
0,21500
0,82500
0,05500
4,75
-1
-1
profundidad
1
Estimación de los efectos
• Asocie el cálculo de las estimaciones de
los efectos, a la representación gráfica de
los ensayos en un cuadrado.
• Asocie el cálculo de los efectos, a los
signos que representan los niveles de los
factores
6
Análisis de los resultados
Gráfica de interacción para rendimiento
Gráfica de efectos principales para rendimiento
Medias de datos
Medias de datos
profundidad
5,75
dosis de nitrogeno
profundidad
-1
1
5,5
5,50
5,4
5,3
5,25
Media
5,1
5,0
4,9
5,00
4,75
4,8
4,7
4,50
4,6
-1
-1
1
-1
1
dosis de nitrogeno
1
Análisis de los resultados
Fuente
profundidad
dosis de nitrogeno
Interacción
Error
Total
GL
1
1
1
4
7
SC
0,09245
1,36125
0,00605
0,01220
1,47195
CM
0,09245
1,36125
0,00605
0,00305
F
30,31
446,31
1,98
P
0,005
0,000
0,232
vs. ajustes
Gráfica de probabilidad normal
(la respuesta es rendimiento)
(la respuesta es rendimiento)
0,050
99
95
90
0,025
80
70
Residuo
Porcentaje
Media
5,2
60
50
40
30
20
0,000
-0,025
10
5
-0,050
1
-0,10
-0,05
0,00
Residuo
0,05
0,10
4,50
4,75
5,00
5,25
Valor ajustado
5,50
5,75
7
Análisis de los resultados
Efectos y coeficientes estimados para rendimiento (unidades codificadas)
Término
Constante
profundidad
dosis de nitrogeno
profundidad*dosis de nitrogeno
Efecto
0,21500
0,82500
0,05500
Coef
5,08250
0,10750
0,41250
0,02750
SE Coef
0,01953
0,01953
0,01953
0,01953
T
260,30
5,51
21,13
1,41
P
0,000
0,005
0,000
0,232
¿Cuantas pruebas se hubiesen necesitado estudiando de un factor
por vez, para estimar los efectos con la misma precisión que en
el diseño factorial?
con esa estrategia: ¿se hubiese podido determinar la
significación estadística de la interacción o estimar su efecto?
Respuesta media esperada
• La respuesta para condiciones definidas
por
alguno
de
los
tratamientos
experimentados, se estimará con la
respuesta media obtenida para ese
tratamiento.
• Se completará dicha estimación puntual,
con una estimación por intervalo de
acuerdo al procedimiento que se presenta
más adelante
8
Diseño 23
• Se busca estudiar efectos de 3 factores
sobre una variable respuesta, considerando
dos niveles o variantes para cada factor.
Diseño: Variedad de “tratamientos”
Prueba
Factor
A
Factor
B
Factor
C
1
+
+
+
+
+
+
+
+
+
+
+
+
2
3
4
5
6
7
8
C está a nivel –
A está 2 veces –
2 veces +
B está 2 veces –
2 veces +
C está a nivel +
A está 2 veces –
2 veces +
B está 2 veces –
2 veces +
9
Efectos principales
• El efecto promedio de un factor se define
como el cambio en la respuesta producido
por el cambio en el nivel de ese factor,
promediado sobre los niveles del otro
factor
Estimación de un efecto principal
• El efecto producido por un factor (C) se
puede cuantificar mediante la diferencia
del nivel medio de la variable respuesta
cuando A está a nivel + y el nivel medio de
la misma cuando A está a nivel C
(5)  (6)  (7)  (8) (1)  (2)  (3)  (4)

4
4
• El número entre paréntesis indica el valor
medio de la respuesta para ese número de
prueba, para la matriz del diseño en orden
estándar.
10
Estimación de la interacción
• Se dice que hay interacción entre dos
factores cuando el efecto de uno de ellos es
diferente, según el nivel al que está el otro
• ¿Cómo se puede cuantificar la interacción?
• Pensemos en la interacción entre B y C
• El efecto de B cuando C está a nivel + y
cuando está C a nivel - es:
B / C 
(7)  (8) (5)  (6) B / C   (3)  (4)  (1)  (2)

2
2
2
2
Efecto interacción
• Se define el efecto interacción BxC a la mitad
de la diferencia entre: el efecto de B cuando C
está a nivel + y el efecto de B cuando C está a
nivel –, es decir:
BxC 
1
(B / C   B / C  )
2
• Daría lo mismo haber definido la interacción
tomando los efectos de C con B+ y B• Si observamos, cada efecto estimado es un
contraste: promedio ponderado con
ponderaciones que suman cero
11
Signos de los contrastes
• La forma de definir el diseño denominando a
los niveles de cada factor con (+) y (-), hace
más fácil e intuitiva la “aritmética” para
calcular los efectos y comprobar su
ortogonalidad
• Los signos de los niveles de los factores,
definen los contrastes que permiten estimar
cada efecto, ya sea uno principal o una
interacción
• ¿Cómo están definidos los de la interacción?
Ejemplo de un diseño factorial 23
En una planta piloto, se investigó el efecto de
temperatura(T), concentración(C) y
catalizador(K) sobre la producción en
gramos (Box, Hunter y Hunter, pág. 318)
Una tabla con la combinación de niveles a
experimentar como la que sigue se conoce
como matriz de diseño
12
Notaciones para la matriz de
diseño
Experimento
1
2
3
4
5
6
7
8
T C
- + - +
+ +
- + - +
+ +
K
+
+
+
+
T
0
1
0
1
0
1
0
1
1
t
c
tc
k
tk
ck
tck
C
0
0
1
1
0
0
1
1
K
0
0
0
0
1
1
1
1
Los datos
Temperatura Concentración
T
C
+
+
+
+
+
+
+
+
Temperatura
+
160
180
Catalizador
K
+
+
+
+
Producción
y
60
72
54
68
52
83
45
80
Concentración
+
20
40
Catalizador
+
A
B
13
Cálculo de los Efectos
• ¿Efectos principales?
Temperatura
Concentración
Catalizador
• ¿Interacciones?
Temperatura*Concentración
Temperatura*Catalizador
Concentración*Catalizador
Temperatura*Concentración*Catalizador
Cálculo de efectos principales
Representación geométrica
14
Cálculo de interacciones dobles
Representación geométrica
Cálculo de interacciones triples
Representación geométrica
15
Más sobre el cálculo de los
efectos
• Otro método utilizado para el cálculo de
los efectos es el algoritmo de Yates
• Este se aplica a las observaciones puestas
en orden estándar
• En el diseño 23 se construyen tres
columnas adicionales cuyos valores se
calculan como sigue:
Algoritmo de Yates para un diseño 23
Primera columna
• Columna (1):
Sus valores se obtienen a partir de las
respuestas “y”
Los primeros cuatro números se obtienen
sumando los cuatro pares
Los segundos cuatro números se obtienen
restando el número de arriba del de debajo
de cada pareja.
16
Algoritmo de Yates para un diseño 23
Segunda y Tercera columna
• Columna (2): sus valores se obtienen a
partir de la columna (1) y el procedimiento
para calcular cada valor es el mismo que se
definió para la columna (1) pero en lugar
de hacer a partir de los valores de “y” se
hace a partir de los de (1)
• Columna (3): de la misma manera que las
columnas anteriores pero a partir de (2)
Algoritmo de Yates para un diseño 23
Cálculo de los efectos
• Los efectos se obtienen dividiendo los valores
de la columna (3) por los denominadores
adecuados: 8 para la primera fila (media
general) y 4 para las siguientes.
• En el caso del diseño 2k, habrá k columnas
que se generarán sumando y restando
adecuadamente parejas de números. El primer
divisor será 2k y los restantes 2k-1
17
Algoritmo de Yates. Cálculos en el
ejemplo
Tratamiento
y
(1)
(2)
(3)
Divisor
1
2
3
4
5
6
7
8
60
72
54
68
52
83
45
80
132
122
135
125
12
14
31
35
254
260
26
66
-10
-10
2
4
514
92
-20
6
6
40
0
2
8
4
4
4
4
4
4
4
Estimación Identificación
del efecto
64.25
Media
23.0
T
-5.0
C
1.5
TC
1.5
K
10.0
TK
0.0
CK
0.5
TCK
Sumas de cuadrados
2k
C  c y
• Un efecto es un contraste de la forma
Dividido por (k-1) donde ci son los coeficientes que
en este caso serán iguales a 1 o –1 y:
c  0
La suma de cuadrados de un contraste en el caso


balanceado es:
cy
i 1
i
i.
2k
i 1
i
2
2k
  i i. 
i 1
SCc   2k 
n ci2
i 1
con un solo grado de libertad
18
Sumas de cuadrados
• Teniendo en cuenta que el conjunto de 2k-1
contrastes ortogonales descomponen la
suma de cuadrados debida a los
tratamientos en esa misma cantidad de
componentes independientes, la diferencia
de la suma de cuadrados total y la suma de
las SCc será la SCresidual
Sumas de Cuadrados
• La SC de un efecto, principal o
interacción, se puede escribir como:
• SCefecto = (nº de datos/4) Efecto2
• Recordar que el efecto siempre es la
diferencia de dos promedios: el de las
pruebas asociadas a signos + y el de las
pruebas asociadas a signos –
19
Más sobre el ejemplo
• Un detalle omitido hasta aquí, es que los
ocho valores de producción son en realidad
la media de dos experimentos elementales
replicados. Esto permite el cálculo de las
variancias para completar un análisis de los
datos.
Estimaciones de los efectos
Term
Constant
T
C
K
T*C
T*K
C*K
T*C*K
Effect
23,000
-5,000
1,500
1,500
10,000
0,000
0,500
Coef
64,250
11,500
-2,500
0,750
0,750
5,000
0,000
0,250
SE Coef
0,7071
0,7071
0,7071
0,7071
0,7071
0,7071
0,7071
0,7071
T
90,86
16,26
-3,54
1,06
1,06
7,07
0,00
0,35
P
0,000
0,000
0,008
0,320
0,320
0,000
1,000
0,733
20
Condición óptima
•
•
•
•
La condición óptima será
Temperatura a nivel +
Concentración a nivel –
Catalizador ¿a que nivel?
Predicción de la respuesta en
condiciones óptimas halladas
Media del experimento
Efecto de T+
(23/2)
Efecto de C(5/2)
Efecto de K+
(1,5/2)
Efecto de (TK)+ (10/2)
64,25
11,50
2,50
0,75
5,00
Producción media prevista
84,00
21
Intervalo de confianza para la
predicción media
• Un intervalo del 95% confianza para la
media se puede calcular como:
Pr edicción  t gl1,1
CM residual
1  gl 2
N
CMerror resulta igual a 6,73 y el IC para la
predicción es:
84 ± t11;0,95 *((6,73/16)*(1+4))1/2
84 ±2,2001*1,45
;
84 ± 3,19
Tabla ANOVA
Source
T
C
K
T*K
Error
Total
DF
1
1
1
1
11
15
Seq SS
2116,00
100,00
9,00
400,00
74,00
2699,00
Adj SS
2116,00
100,00
9,00
400,00
74,00
Adj MS
2116,00
100,00
9,00
400,00
6,73
F
314,54
14,86
1,34
59,46
P
0,000
0,003
0,272
0,000
22
Experimentos sin replicación
• En los experimentos 2k sin réplicas, si se quieren
probar TODOS los efectos, no quedan grados de
libertad para el error. Por lo tanto, se suelen desechar
de entrada las interacciones de orden elevado
(probablemente no significativas) que serán
“confundidas” con el error
• Siempre se aconseja que para hacer un ANOVA los
grados de libertad del error no sean tan pequeños, para
tener suficiente potencia (no menor que 4). Alrededor
de 10 sería recomendable
Experimentos con muchos factores
• Cuando no hay suficientes grados de libertad,
por haber muy pocas pruebas o porque se
quieren probar varias interacciones, se puede
usar un método gráfico
• Si no hubiera efectos reales significativos, los
efectos diferirían de cero sólo por azar, con
variabilidad igual a 2/N
• Por lo tanto los efectos deberían estar sobre una
recta en un gráfico sobre papel normal
23
Gráfico de Daniel
• Ese gráfico es conocido como “gráfico de
Daniel” y permitirá visualizar aquellos
efectos no significativos, los que “unirán”
al error en el ANOVA permitiendo test con
mayor potencia
Plot de Daniel para el ejemplo
Normal Probability Plot of the Standardized Effects
(response is y, Alpha = ,05)
99
Effect Ty pe
Not Significant
Significant
95
A
90
Percent
80
AC
70
F actor
A
B
C
N ame
T
C
K
60
50
40
30
20
10
B
5
1
-5
0
5
10
Standardized Effect
15
24
Bloques en diseño factorial 2k
• Se va a realizar un experimento 23.
• El material experimental es un compuesto
y es deseable que se mezclen las materias
primas (que pueden provenir de diferentes
proveedores, diferentes lotes, etc.)
• Sin embargo, no se puede conseguir
material homogéneo más que para cuatro
experimentos.
Bloques en diseño factorial 2k
• El diseño 23 puede dividirse en bloques
como se indica:
2
7
3
1
Factores
8
4
3
5
1
6
2
25
Bloques en diseño factorial 2k
• Los tratamientos 1,4,6 y 7 se probaron con
el compuesto 1
• Los tratamientos 2, 3, 5 y 8 se probaron
con el compuesto 2
• Si hay efecto aditivo de los compuestos,
quedará cancelado al calcular los efectos
principales y las interacciones dobles
Confusión
• Observar que se ha confundido
deliberadamente la interacción triple con el
efecto de los compuestos
• A cambio, los efectos principales y las
interacciones dobles se pueden medir con
mayor precisión que si no se hubiesen
utilizado bloques.
26
Confusión
• En este ejemplo, puede pensarse que la variable
bloque es un cuarto factor que llamamos 4.
• Este factor tiene la particularidad de no
interactuar con los demás factores
• Si la asignación de los niveles del factor 4 a los
tratamientos se definió en base a hacer coincidir
los signos + y – con los de la interacción se puede
decir que el bloque está “generado” por la
relación 4=123
Cómo construir esquemas más
complejos
• La idea expuesta nos permitirá derivar esquemas
de bloques más complejos.
• En esos casos deberá ponerse cuidado cuidado
especial en la definición de modo que las
variables de bloques no se confundan con
interacciones que podrían ser significativas y lo
mismo con las posibles interacciones entre
variables de bloqueo.
27
Descargar