Transparencias

Anuncio
Ana Justel - 2015
TEMA 2:
DISEÑO DE EXPERIMENTOS
Objetivo: Proponer modelos para analizar la influencia
de varios factores sobre un fenómeno que nos interesa
estudiar.
1 Introducción
1.
I t d
ió a los
l diseños
di ñ de
d experimentos
i
t factoriales
f t i l
2. Diseño con dos factores
3. Diseño con dos factores e interacción
4. Otros diseños de experimentos
1
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales
Se trata de realizar comparaciones, lo más homogéneas posibles,
para identificar los factores (variables categóricas) que explican la
variabilidad entre las respuesta a un fenómeno que nos interesa
estudiar.
Ejemplos::
Ejemplos
A
A. En la fabricación de un vino ecológico se trata de ver si la
producción depende del tipo de suelo y de si se utiliza o
no una fertilización natural.
B. En un estudio sobre la sensibilización de la población de la
UE frente al cambio climático, se quiere ver si depende del
sexo, para ello se consideran individuos de todos los
países.
Se comparan los niveles medios de respuesta en cada grupo
2
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales
DISEÑOS FACTORIALES
Cuando se obtienen observaciones para todos los niveles de cada
factor cruzados con todos los niveles de todos los otros factores.
Algunos
g
ejemplos:
j
p
Modelo con dos factores:
yij    i  uij
yijk    i   j  uijk
Modelo con tres factores:
yijkl    i   j   k  uijkl
Modelo con dos factores
con interacción:
yijk    i   j  (
 )ij  uijk
Modelo con un factor:
Modelo con tres factores
que interaccionan:
yijkl    i   j   k  ( )ij 
 ( )ik  (  ) jjk  ( )ijkj  uijkl
j
3
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales
Los datos que tenemos que obtener para poder cruzar todos los
niveles en un diseño con dos factores para el estudio de sensibilización
sobre cambio climático son:
CR
Y1 28
Y2 28
1,…,28
2 x 28
Si consideramos también el factor educación a dos niveles:
Con estudios universitarios
Sin estudios universitarios
CR
Y1 28 1
Y2 28 1
CR
Y1 28 2
Y2 28 2
2 x 28 x 2
Y2 1 2 es la respuesta
p
de un hombre alemán con estudios universitarios
4
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales
Si tenemos
t
dos
d factores
f t
con I y J niveles,
i l
los
l datos
d t son:
yij es la respuesta de un individuo del nivel i-ésimo del primer factor y jésimo del segundo factor
Podemos calcular medias por filas, por columnas y de todos los datos
y i
es la media de todos los datos del grupo
i (i =1,…, I)
y j
es la media de todos los datos del grupo
j (j =1,…, J)
y 
es la media de todos los datos
Si podemos replicar el experimento K veces,
veces los datos son:
yijk es la respuesta del individuo k-ésimo a nivel i-ésimo del primer factor y
j-ésimo
ésimo del segundo factor
Si hay un factor más con k-niveles los datos sin replicar son:
yijk es la respuesta del individuo i-ésimo del primer factor, j-ésimo del
segundo factor y k-ésimo del tercer factor
5 5
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales
Ejemplo de una planta desalinizadora
Para la construcción de una planta desalinizadora se quiere adquirir la maquinaria que
produzca menos emisiones de CO2 por unidad fija desalada. Por las características de
estas máquinas se cree que las emisiones pueden depender de la cantidad de sal que
contenga el agua. Cinco fabricantes ofrecen sus productos y se realiza un experimento
para determinar cuál es la mejor oferta.
¿Qué máquina es más
eficiente?
fi i
?
y i
Salinidad
Poca
Bastante Mucha
Aparentemente
Máquina I
24
26
29
26,3
Máquina II
27
30
32
29 6
29,6
Máquina III
26
27
30
27,6
Máquina IV
25
28
28
27,0
Máquina V
28
29
31
29,3
y j
“la máquina”
es factor
principal
“La salinidad
del agua” es
un factor
instrumental
i t
t l
(bloque)
26
28
30
y   28
la mejor es la
máquina I
Ninguna es
más eficiente
que las
demás en
todas las
condiciones
de salinidad
¿Las emisiones de CO2 dependen de la máquina empleada?
¿Qué máquina es más eficiente?
¿Influye la salinidad del agua?
Si volviéramos a hacer el experimento, ¿consideraríamos las tres salinidades?
¿Qué explica más las diferencias entre los resultados
resultados, la salinidad del agua o la máquina?
6
Ana Justel - 2015
2. Diseño con dos factores
MODELO de DISEÑO de EXPERIMENTOS con DOS FACTORES
yijk    i   j  uijk
i =1,…, I
j =1,…, J
k =1,…, K
I
J


y se cumple que i 1 i  j 1  j 0

es la respuesta media de toda la población
i
es el efecto sobre la respuesta del nivel i del primer factor
 j es el efecto sobre la respuesta del nivel j del segundo factor
uijk es el error (o perturbación) aleatorio debido al resto de variables
que influyen en la respuesta del individuo k-ésimo a niveles i y j de
los factores
Hipótesis (condiciones) que asumimos que cumplen los datos:
yijk  N (   i   j ,  2 )
independientes
7
Ana Justel - 2015
2. Diseño con dos factores
METODOLOGÍA
8
Ana Justel - 2015
2. Diseño con dos factores
ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO
Estimadores de m, ai y bj
̂ 
ˆi 
ˆ j 
y
yi  y
y j  y
1 I J K
y

yijk


IJK i1 j1 k1
1 J K
y

yijk

i 
JK j1 k1
1 I K
y

yijkk

 j
IK i1 k1
Residuos del modelo
eijk  yijk  yi  y j  y
Grados de libertad
de los residuos
IJK  I  J  1
Estimador de la varianza s2
suma de residuosal cuadrado
2
ˆ
S

R
grados de libertad de los residuos
2



(
y
y
y
y
)


ijk







i
j
i j k

IJK  I  J  1
9
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora
Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
y i
Salinidad
S li id d
Poca
P
Bastante
B t t
Mucha
M h
Máquina I
24
26
29
26,3
Máquina II
27
30
32
29,6
Máquina III
26
27
30
27,6
Máquina IV
25
28
28
27,0
Má i V
Máquina
28
29
31
29 3
29,3
y j
26
28
30
y   28

S R2  0 , 583
¿Las emisiones de CO2 dependen de la máquina empleada?
H0: α1 = α2 … = αI = 0
¿Qué máquina es más eficiente?
Aparentemente la Máquina I, pero no sabemos si también la Máquina IV…
¿Influye la salinidad del agua?
H0: β1 = β2 … = βJ = 0
Si volviéramos a hacer el experimento, ¿consideraríamos los tres niveles de salinidad?
¿Qué explica
¿
p
más las diferencias entre los resultados,, la salinidad del agua
g o la máquina?
q
10
Ana Justel - 2015
2. Diseño con dos factores
Test ANOVA (¿el factor influye en la respuesta?)
H0: Los efectos del factor sobre la respuesta
p
son cero p
para todos los niveles
(el factor NO influye)
H1: Algún efecto es distinto de cero (el factor SI influye)
(Cuando H0 y las hipótesis del
modelo son ciertas)
Para el
otro factor
se cambia:
ap
por b
I por J
F  FI 1,IJK  I  J 1,
11
Ana Justel - 2015
2. Diseño con dos factores
Tabla ANOVA
En la tabla ANOVA se representa la idea de que la varianza se
puede descomponer en las distintas fuentes que la originan
IJK I J+1
IJK-I-J+1
IJK-I-J+1
IJK-1
12
Ana Justel - 2015
2. Diseño con dos factores
Descomposición de la variabilidad del experimento
SCE( )  JK i( yi  y )2
SCE( )  IK  j ( y j  y )2
2
SCT  
i j k ( yijk  y )
2
SCR  
i j k ( yijk  yi  y j  y )
13
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora
Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
y i
y j

S R2  0 , 583
y   28
¿Las emisiones de CO2 dependen de la máquina empleada?
Rechazamos H0. Hemos encontrado evidencia de que si dependen de la máquina
¿Qué máquina es más eficiente?
Aparentemente la Máquina I, pero no sabemos si también la Máquina IV…
¿Influye la salinidad del agua?
Rechazamos H0. Hemos encontrado evidencia de que influye el tipo de agua
Si volviéramos a hacer el experimento, ¿consideraríamos los tres niveles de salinidad?
¿?
¿Qué explica más las diferencias entre los resultados, la salinidad del agua o la máquina?
¿?
14
Ana Justel - 2015
2. Diseño con dos factores
¿Cómo evaluamos si el modelo propuesto sirve para explicar
la variabilidad en la respuesta?
COEFICIENTE DE DETERMINACIÓN
Es la proporción
ó de la variabilidad observada en los datos que
queda explicada por el modelo
R2=SCE/SCT
SCE/SCT
=(SCE(α
=(SCE(
α)/SCT)+(SCE(
)/SCT)+(SCE(β
β)/SCT)
15
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora
Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
R2 = R2(a) + R2(b) = 0.362
0 362 + 0
0.571
571 = 0
0.933
933
¿Qué habría pasado si no hubiéramos tenido en cuenta la distinta salinidad
del agua?
yi
y j

S R2  0 ,583
y   28
Con los mismos datos no habríamos encontrado la evidencia
16
Ana Justel - 2015
2. Diseño con dos factores
Consejos de actuación…
actuación…
1. En general ,cruzar todos los factores que creemos que pueden
influir en la respuesta es una herramienta más potente para
encontrar la evidencia
2 Si algún
2.
l ú ffactor no influye,
i fl
es mejor
j ((aunque no iimprescindible)
i dibl )
eliminarlo del análisis y repetir el ANOVA. Los datos no
cambian así que la información es la misma
cambian,
misma. Lo que disminuye
es el número de parámetros desconocidos. Por tanto, nuestro
análisis será más potente eliminando factores no influyentes
3. Los modelos con dos factores, se pueden generalizar para
considerar todos los factores necesarios para analizar el
experimento
p
correctamente
17
Ana Justel - 2015
2. Diseño con dos factores
Comparaciones de dos niveles
Si hay
h
evidencia
id
i para rechazar
h
l hipótesis
la
hi ót i nula
l para ell factor
f t
podemos preguntarnos ¿son iguales los efectos de los niveles i y j?
^
Si el cero no está dentro del intervalo,
entonces rechazamos la hipótesis nula
18
Ana Justel - 2015
2. Diseño con dos factores
Comparaciones dos a dos
Si queremos h
hacer comparaciones
i
múltiples,
últi l
podemos
d
aplicar
li
lla
corrección de BONFERRONI
19
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora
Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
La tabla ANOVA que se obtiene con el SPSS es:
20
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora
Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
21
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora
Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
22
Ana Justel - 2015
2. Diseño con dos factores
DIAGNÓSTICO DE LAS HIPÓTESIS DEL MODELO
¿Hay alguna evidencia CLARA en contra de alguna
d las
de
l
hipótesis
hi ót i del
d l modelo
d l que hemos
h
asumido?
id ?
Cuando las hipótesis del modelo no se pueden “comprobar” porque hay pocas
replicas
li
(K b
bajo)
j ) o muchos
h
niveles
i l
(
(I
(IxJ
I
IxJ
J alto)
alto),
l ) se analizan
li
llos residuos
id
Los residuos del modelo son aproximadamente:
Se estudian con:
N
Normalidad
lid d y media
di cero:
histograma, gráfico probabilístico
normal (Q-Q o P-P plot), test de
normalidad (Kolmogorov-Smirnov
(K l
S i
o
Shapiro-Wilk)
Cuando alguna de estas características falla es porque las
hipótesis
p
q
que hemos asumido en los datos no son ciertas
El 95% de los residuos
estandarizados deben estar
entre -2 y 2, en una nube de
puntos sin forma
 Homocedasticidad y linealidad:
Diagrama de dispersión (residuos
estandarizados vs. Valor pronosticado)
 Datos atípicos:
p
box-plot
p
23
Ana Justel - 2015
2. Diseño con dos factores
Gráficos de Residuos frente a Valores pronosticados
24
Ana Justel - 2015
2. Diseño con dos factores
Con los datos publicados sobre la reserva total de agua embalsada en cada
una de las cuencas de la Península en los meses de enero de 2004 y 2005,
¿hay
alguna
evidencia
iniciado
h
l
id
i de
d que en 2005 pudo
d haberse
h b
i i i d
un periodo de sequía?
ANOVA de un factor
25
Ana Justel - 2015
2. Diseño con dos factores
Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse
iniciado un periodo de sequía.
Si tenemos
en cuenta
t
t que una parte
t importante
i
t t de
d las
l
diferencias entre las cantidades de agua embalsadas
en el mismo año se debe a los diferentes tamaños de
las cuencas y que tenemos este factor controlado,
consideraremos un modelo que incluya la CUENCA
como un factor instrumental (bloque)
26
Ana Justel - 2015
2. Diseño con dos factores
Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse
iniciado un periodo de sequía.
Hemos encontrado evidencia estadística para rechazar que
Antes de dar por bueno el resultado, miramos los residuos.
¿Presentan alguna evidencia clara de que no se alguna de las hipótesis
que en hemos asumido en el modelo (normalidad, linealidad, etc…)?
27
Ana Justel - 2015
2. Diseño con dos factores
Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse
iniciado un periodo de sequía.
La homocedasticidad no se cumple. Transformamos la
variable
i bl respuesta
t con ell logaritmo
l
it
neperiano
i
28
Ana Justel - 2015
2. Diseño con dos factores
Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse
iniciado un periodo de sequía.
La conclusión
ó es la misma, pero la evidencia es más
á clara (sin
transformar, p-valor=0.027) y la proporción de variabilidad
explicada por el modelo mayor (sin transformar,
transformar R2= 0
0.985)
985)
29
Ana Justel - 2015
3. Diseño con dos factores e interacción
Cuando la respuesta en los niveles de un factor depende de cuál se
q
hay
y una INTERACCIÓN entre
el nivel de otro factor,, se dice que
los dos factores
Un ejemplo
de posible
interacción se da entre medicamentos
j
p típico
p
p
SIN INTERACCIÓN
CON INTERACCIÓN
CON INTERACCIÓN
sin B
sin B
sin B
con B
con B
sin A
sin A
sin A
con A
con A
con A
Y22 = μ+α2+β2+u22
sin B
con B
sin A
4
99
con A
101
200
con B
Y22 = μ+α2+β2+¿?+u22 Y22 = μ+α2+β2-¿?+u22
sin B
con B
sin A
4
99
con A
101
1985
sin B
con B
sin A
4
99
con A
101
1
30
Ana Justel - 2015
3. Diseño con dos factores e interacción
MODELO con dos FACTORES e INTERACCIÓN
(αβ)ij es el efecto de la interacción entre el nivel i del primer
factor y el nivel j del segundo factor
K es el número de réplicas del experimento
Para que los efectos de la interacción se puedan estimar (haya
más datos que parámetros) es necesario que K ≥ 2
31
Ana Justel - 2015
3. Diseño con dos factores e interacción
ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO
Estimadores de m , ai , bj y (ab)ij
ˆ , ˆi , ˆ j
Los mismos del modelo de
dos factores sin interacción
(
 )ij  yij  yi  y j  y
yij
1 K

yijk

K k1
Residuos del modelo
eijk  yijk  yij
Grados de libertad
de los residuos
IJ ( K  1)
Estimador de la varianza s2
suma de residuosal cuadrado
Sˆ 2 
R
grados de libertad de los residuos
2
y
y
(

)


ij
ijk
i j k

IJ ( K  1)
32
Ana Justel - 2015
3. Diseño con dos factores e interacción
T bl ANOVA
Tabla
33
Ana Justel - 2015
3. Diseño con dos factores e interacción
Tests ANOVA (¿el factor influye en la respuesta?)
H0: Los efectos del factor sobre la respuesta son cero para todos los niveles
(el factor NO influye)
H1: Algún efecto es distinto de cero (el factor SI influye)
Test ANOVA (¿la INTERACCIÓN influye en la respuesta?)
H0: Los efectos
f
de
d las
l interacciones sobre
b la
l respuesta son cero para todas
d
las combinaciones de los niveles de los dos factores (la interacción NO influye)
H1: Algún efecto es distinto de cero (la interacción SI influye)
34
Ana Justel - 2015
3. Diseño con dos factores e interacción
SIN INTERACCIÓN
sin B
con B
sin A
4
99
con A
101
200
a ab e depe d e te
espuesta
Suma de
cuadrados
19503,125
18915 125
18915,125
6,125
10,500
38434,875
Fuente
TratA
TratB
TratA * TratB
Error
Total corregida
sin B
con B
sin A
4
99
con A
101
1985
CON INTERACCIÓN
sin B
con B
sin A
4
99
con A
101
1
Fuente
TratA
TratB
TratA * TratB
Error
Total corregida
Fuente
TratA
TratB
Error
Total corregida
Suma de
cuadrados
1965153,125
1959210,125
1599376,625
5523739 875
5523739,875
1
1
1
4
7
Media
cuadrática
19503,125
18915 125
18915,125
6,125
2,625
F
7429,762
7205 762
7205,762
2,333
Significación
,000
,000
000
,201
a ab e depe d e te
CON INTERACCIÓN
espuesta
Suma de
cuadrados
1965153,125
1959210,125
,
1599366,125
10,500
5523739,875
gl
a ab e depe d e e
Fuente
TratA
TratB
TratA * TratB
Error
Total corregida
espues a
Suma
cuadrados
1,125
10,125
19110,125
10,500
19131,875
gl
1
1
1
4
7
gl
1
1
5
7
gl
1
1
1
4
7
Media
cuadrática
1965153,1
1959210,1
,
1599366,1
2,625
F
748629,8
746365,8
,
609282,3
Significación
,000
,,000
,000
Media
cuadrática
1965153,1
1959210,1
319875,325
F
6,143
6,125
Significación
,056
,056
Media
cuadrática
1,125
10,125
19110,125
2,625
F
,429
3,857
7280,048
Significación
,548
,121
,000
35
Ana Justel - 2015
4. Otros diseños de experimentos
DISEÑOS PARA TRES FACTORES
MODELO completo
Para poder utilizar este modelo se necesitan un mínimo de IJK+1 datos
Por ejemplo con tres factores y 5 niveles cada uno, hay que hacer 125
experimentos. A veces no es fácil conseguir tantos datos
Alternativa: utilizar un DISEÑO DE CUADRADOS LATINOS
36
Ana Justel - 2015
4. Otros diseños de experimentos
DISEÑO DE CUADRADOS LATINOS
puede utilizar cuando tenemos,, TRES factores,, con el MISMO
Se p
número de niveles y SIN interacciones entre ellos.
Cada nivel de un factor se cruza solo una vez con cada uno de los
niveles de los otros factores.
Ejemplo de diseño de cuadrados latinos para 3 factores con 9 niveles:
Con este diseño el
número mínimo de datos
necesario es 9x9=81, en
lugar de los 9x9x9=729
del diseño factorial
37
Ana Justel - 2015
4. Otros diseños de experimentos
Ejemplo de mariposas nocturnas
Una asociación de Amigos de la Entomología quiere diseñar un cartel de sensibilización
para la conservación de las mariposas nocturnas. Para elegir la imagen del cartel deciden
hacer un estudio para ver como influyen algunos factores en la impresión que causan las
fotos. Los factores son: Saturación del color, Efectos, Composición
Se pide a 126 personas que valoren de 1 a 5 una foto cada uno del cuadrado latino.
38
Ana Justel - 2015
4. Otros diseños de experimentos
OTROS DISEÑOS DE EXPERIMENTOS:
Cuadrados greco-latinos
Factoriales a dos niveles
Anidados
Split-plot
Medidas repetidas
…
39
Descargar