Ana Justel - 2015 TEMA 2: DISEÑO DE EXPERIMENTOS Objetivo: Proponer modelos para analizar la influencia de varios factores sobre un fenómeno que nos interesa estudiar. 1 Introducción 1. I t d ió a los l diseños di ñ de d experimentos i t factoriales f t i l 2. Diseño con dos factores 3. Diseño con dos factores e interacción 4. Otros diseños de experimentos 1 Ana Justel - 2015 1. Introducción a los diseños de experimentos factoriales Se trata de realizar comparaciones, lo más homogéneas posibles, para identificar los factores (variables categóricas) que explican la variabilidad entre las respuesta a un fenómeno que nos interesa estudiar. Ejemplos:: Ejemplos A A. En la fabricación de un vino ecológico se trata de ver si la producción depende del tipo de suelo y de si se utiliza o no una fertilización natural. B. En un estudio sobre la sensibilización de la población de la UE frente al cambio climático, se quiere ver si depende del sexo, para ello se consideran individuos de todos los países. Se comparan los niveles medios de respuesta en cada grupo 2 Ana Justel - 2015 1. Introducción a los diseños de experimentos factoriales DISEÑOS FACTORIALES Cuando se obtienen observaciones para todos los niveles de cada factor cruzados con todos los niveles de todos los otros factores. Algunos g ejemplos: j p Modelo con dos factores: yij i uij yijk i j uijk Modelo con tres factores: yijkl i j k uijkl Modelo con dos factores con interacción: yijk i j ( )ij uijk Modelo con un factor: Modelo con tres factores que interaccionan: yijkl i j k ( )ij ( )ik ( ) jjk ( )ijkj uijkl j 3 Ana Justel - 2015 1. Introducción a los diseños de experimentos factoriales Los datos que tenemos que obtener para poder cruzar todos los niveles en un diseño con dos factores para el estudio de sensibilización sobre cambio climático son: CR Y1 28 Y2 28 1,…,28 2 x 28 Si consideramos también el factor educación a dos niveles: Con estudios universitarios Sin estudios universitarios CR Y1 28 1 Y2 28 1 CR Y1 28 2 Y2 28 2 2 x 28 x 2 Y2 1 2 es la respuesta p de un hombre alemán con estudios universitarios 4 Ana Justel - 2015 1. Introducción a los diseños de experimentos factoriales Si tenemos t dos d factores f t con I y J niveles, i l los l datos d t son: yij es la respuesta de un individuo del nivel i-ésimo del primer factor y jésimo del segundo factor Podemos calcular medias por filas, por columnas y de todos los datos y i es la media de todos los datos del grupo i (i =1,…, I) y j es la media de todos los datos del grupo j (j =1,…, J) y es la media de todos los datos Si podemos replicar el experimento K veces, veces los datos son: yijk es la respuesta del individuo k-ésimo a nivel i-ésimo del primer factor y j-ésimo ésimo del segundo factor Si hay un factor más con k-niveles los datos sin replicar son: yijk es la respuesta del individuo i-ésimo del primer factor, j-ésimo del segundo factor y k-ésimo del tercer factor 5 5 Ana Justel - 2015 1. Introducción a los diseños de experimentos factoriales Ejemplo de una planta desalinizadora Para la construcción de una planta desalinizadora se quiere adquirir la maquinaria que produzca menos emisiones de CO2 por unidad fija desalada. Por las características de estas máquinas se cree que las emisiones pueden depender de la cantidad de sal que contenga el agua. Cinco fabricantes ofrecen sus productos y se realiza un experimento para determinar cuál es la mejor oferta. ¿Qué máquina es más eficiente? fi i ? y i Salinidad Poca Bastante Mucha Aparentemente Máquina I 24 26 29 26,3 Máquina II 27 30 32 29 6 29,6 Máquina III 26 27 30 27,6 Máquina IV 25 28 28 27,0 Máquina V 28 29 31 29,3 y j “la máquina” es factor principal “La salinidad del agua” es un factor instrumental i t t l (bloque) 26 28 30 y 28 la mejor es la máquina I Ninguna es más eficiente que las demás en todas las condiciones de salinidad ¿Las emisiones de CO2 dependen de la máquina empleada? ¿Qué máquina es más eficiente? ¿Influye la salinidad del agua? Si volviéramos a hacer el experimento, ¿consideraríamos las tres salinidades? ¿Qué explica más las diferencias entre los resultados resultados, la salinidad del agua o la máquina? 6 Ana Justel - 2015 2. Diseño con dos factores MODELO de DISEÑO de EXPERIMENTOS con DOS FACTORES yijk i j uijk i =1,…, I j =1,…, J k =1,…, K I J y se cumple que i 1 i j 1 j 0 es la respuesta media de toda la población i es el efecto sobre la respuesta del nivel i del primer factor j es el efecto sobre la respuesta del nivel j del segundo factor uijk es el error (o perturbación) aleatorio debido al resto de variables que influyen en la respuesta del individuo k-ésimo a niveles i y j de los factores Hipótesis (condiciones) que asumimos que cumplen los datos: yijk N ( i j , 2 ) independientes 7 Ana Justel - 2015 2. Diseño con dos factores METODOLOGÍA 8 Ana Justel - 2015 2. Diseño con dos factores ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO Estimadores de m, ai y bj ̂ ˆi ˆ j y yi y y j y 1 I J K y yijk IJK i1 j1 k1 1 J K y yijk i JK j1 k1 1 I K y yijkk j IK i1 k1 Residuos del modelo eijk yijk yi y j y Grados de libertad de los residuos IJK I J 1 Estimador de la varianza s2 suma de residuosal cuadrado 2 ˆ S R grados de libertad de los residuos 2 ( y y y y ) ijk i j i j k IJK I J 1 9 Ana Justel - 2015 2. Diseño con dos factores Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad y i Salinidad S li id d Poca P Bastante B t t Mucha M h Máquina I 24 26 29 26,3 Máquina II 27 30 32 29,6 Máquina III 26 27 30 27,6 Máquina IV 25 28 28 27,0 Má i V Máquina 28 29 31 29 3 29,3 y j 26 28 30 y 28 S R2 0 , 583 ¿Las emisiones de CO2 dependen de la máquina empleada? H0: α1 = α2 … = αI = 0 ¿Qué máquina es más eficiente? Aparentemente la Máquina I, pero no sabemos si también la Máquina IV… ¿Influye la salinidad del agua? H0: β1 = β2 … = βJ = 0 Si volviéramos a hacer el experimento, ¿consideraríamos los tres niveles de salinidad? ¿Qué explica ¿ p más las diferencias entre los resultados,, la salinidad del agua g o la máquina? q 10 Ana Justel - 2015 2. Diseño con dos factores Test ANOVA (¿el factor influye en la respuesta?) H0: Los efectos del factor sobre la respuesta p son cero p para todos los niveles (el factor NO influye) H1: Algún efecto es distinto de cero (el factor SI influye) (Cuando H0 y las hipótesis del modelo son ciertas) Para el otro factor se cambia: ap por b I por J F FI 1,IJK I J 1, 11 Ana Justel - 2015 2. Diseño con dos factores Tabla ANOVA En la tabla ANOVA se representa la idea de que la varianza se puede descomponer en las distintas fuentes que la originan IJK I J+1 IJK-I-J+1 IJK-I-J+1 IJK-1 12 Ana Justel - 2015 2. Diseño con dos factores Descomposición de la variabilidad del experimento SCE( ) JK i( yi y )2 SCE( ) IK j ( y j y )2 2 SCT i j k ( yijk y ) 2 SCR i j k ( yijk yi y j y ) 13 Ana Justel - 2015 2. Diseño con dos factores Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad y i y j S R2 0 , 583 y 28 ¿Las emisiones de CO2 dependen de la máquina empleada? Rechazamos H0. Hemos encontrado evidencia de que si dependen de la máquina ¿Qué máquina es más eficiente? Aparentemente la Máquina I, pero no sabemos si también la Máquina IV… ¿Influye la salinidad del agua? Rechazamos H0. Hemos encontrado evidencia de que influye el tipo de agua Si volviéramos a hacer el experimento, ¿consideraríamos los tres niveles de salinidad? ¿? ¿Qué explica más las diferencias entre los resultados, la salinidad del agua o la máquina? ¿? 14 Ana Justel - 2015 2. Diseño con dos factores ¿Cómo evaluamos si el modelo propuesto sirve para explicar la variabilidad en la respuesta? COEFICIENTE DE DETERMINACIÓN Es la proporción ó de la variabilidad observada en los datos que queda explicada por el modelo R2=SCE/SCT SCE/SCT =(SCE(α =(SCE( α)/SCT)+(SCE( )/SCT)+(SCE(β β)/SCT) 15 Ana Justel - 2015 2. Diseño con dos factores Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad R2 = R2(a) + R2(b) = 0.362 0 362 + 0 0.571 571 = 0 0.933 933 ¿Qué habría pasado si no hubiéramos tenido en cuenta la distinta salinidad del agua? yi y j S R2 0 ,583 y 28 Con los mismos datos no habríamos encontrado la evidencia 16 Ana Justel - 2015 2. Diseño con dos factores Consejos de actuación… actuación… 1. En general ,cruzar todos los factores que creemos que pueden influir en la respuesta es una herramienta más potente para encontrar la evidencia 2 Si algún 2. l ú ffactor no influye, i fl es mejor j ((aunque no iimprescindible) i dibl ) eliminarlo del análisis y repetir el ANOVA. Los datos no cambian así que la información es la misma cambian, misma. Lo que disminuye es el número de parámetros desconocidos. Por tanto, nuestro análisis será más potente eliminando factores no influyentes 3. Los modelos con dos factores, se pueden generalizar para considerar todos los factores necesarios para analizar el experimento p correctamente 17 Ana Justel - 2015 2. Diseño con dos factores Comparaciones de dos niveles Si hay h evidencia id i para rechazar h l hipótesis la hi ót i nula l para ell factor f t podemos preguntarnos ¿son iguales los efectos de los niveles i y j? ^ Si el cero no está dentro del intervalo, entonces rechazamos la hipótesis nula 18 Ana Justel - 2015 2. Diseño con dos factores Comparaciones dos a dos Si queremos h hacer comparaciones i múltiples, últi l podemos d aplicar li lla corrección de BONFERRONI 19 Ana Justel - 2015 2. Diseño con dos factores Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad La tabla ANOVA que se obtiene con el SPSS es: 20 Ana Justel - 2015 2. Diseño con dos factores Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad 21 Ana Justel - 2015 2. Diseño con dos factores Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad 22 Ana Justel - 2015 2. Diseño con dos factores DIAGNÓSTICO DE LAS HIPÓTESIS DEL MODELO ¿Hay alguna evidencia CLARA en contra de alguna d las de l hipótesis hi ót i del d l modelo d l que hemos h asumido? id ? Cuando las hipótesis del modelo no se pueden “comprobar” porque hay pocas replicas li (K b bajo) j ) o muchos h niveles i l ( (I (IxJ I IxJ J alto) alto), l ) se analizan li llos residuos id Los residuos del modelo son aproximadamente: Se estudian con: N Normalidad lid d y media di cero: histograma, gráfico probabilístico normal (Q-Q o P-P plot), test de normalidad (Kolmogorov-Smirnov (K l S i o Shapiro-Wilk) Cuando alguna de estas características falla es porque las hipótesis p q que hemos asumido en los datos no son ciertas El 95% de los residuos estandarizados deben estar entre -2 y 2, en una nube de puntos sin forma Homocedasticidad y linealidad: Diagrama de dispersión (residuos estandarizados vs. Valor pronosticado) Datos atípicos: p box-plot p 23 Ana Justel - 2015 2. Diseño con dos factores Gráficos de Residuos frente a Valores pronosticados 24 Ana Justel - 2015 2. Diseño con dos factores Con los datos publicados sobre la reserva total de agua embalsada en cada una de las cuencas de la Península en los meses de enero de 2004 y 2005, ¿hay alguna evidencia iniciado h l id i de d que en 2005 pudo d haberse h b i i i d un periodo de sequía? ANOVA de un factor 25 Ana Justel - 2015 2. Diseño con dos factores Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse iniciado un periodo de sequía. Si tenemos en cuenta t t que una parte t importante i t t de d las l diferencias entre las cantidades de agua embalsadas en el mismo año se debe a los diferentes tamaños de las cuencas y que tenemos este factor controlado, consideraremos un modelo que incluya la CUENCA como un factor instrumental (bloque) 26 Ana Justel - 2015 2. Diseño con dos factores Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse iniciado un periodo de sequía. Hemos encontrado evidencia estadística para rechazar que Antes de dar por bueno el resultado, miramos los residuos. ¿Presentan alguna evidencia clara de que no se alguna de las hipótesis que en hemos asumido en el modelo (normalidad, linealidad, etc…)? 27 Ana Justel - 2015 2. Diseño con dos factores Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse iniciado un periodo de sequía. La homocedasticidad no se cumple. Transformamos la variable i bl respuesta t con ell logaritmo l it neperiano i 28 Ana Justel - 2015 2. Diseño con dos factores Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse iniciado un periodo de sequía. La conclusión ó es la misma, pero la evidencia es más á clara (sin transformar, p-valor=0.027) y la proporción de variabilidad explicada por el modelo mayor (sin transformar, transformar R2= 0 0.985) 985) 29 Ana Justel - 2015 3. Diseño con dos factores e interacción Cuando la respuesta en los niveles de un factor depende de cuál se q hay y una INTERACCIÓN entre el nivel de otro factor,, se dice que los dos factores Un ejemplo de posible interacción se da entre medicamentos j p típico p p SIN INTERACCIÓN CON INTERACCIÓN CON INTERACCIÓN sin B sin B sin B con B con B sin A sin A sin A con A con A con A Y22 = μ+α2+β2+u22 sin B con B sin A 4 99 con A 101 200 con B Y22 = μ+α2+β2+¿?+u22 Y22 = μ+α2+β2-¿?+u22 sin B con B sin A 4 99 con A 101 1985 sin B con B sin A 4 99 con A 101 1 30 Ana Justel - 2015 3. Diseño con dos factores e interacción MODELO con dos FACTORES e INTERACCIÓN (αβ)ij es el efecto de la interacción entre el nivel i del primer factor y el nivel j del segundo factor K es el número de réplicas del experimento Para que los efectos de la interacción se puedan estimar (haya más datos que parámetros) es necesario que K ≥ 2 31 Ana Justel - 2015 3. Diseño con dos factores e interacción ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO Estimadores de m , ai , bj y (ab)ij ˆ , ˆi , ˆ j Los mismos del modelo de dos factores sin interacción ( )ij yij yi y j y yij 1 K yijk K k1 Residuos del modelo eijk yijk yij Grados de libertad de los residuos IJ ( K 1) Estimador de la varianza s2 suma de residuosal cuadrado Sˆ 2 R grados de libertad de los residuos 2 y y ( ) ij ijk i j k IJ ( K 1) 32 Ana Justel - 2015 3. Diseño con dos factores e interacción T bl ANOVA Tabla 33 Ana Justel - 2015 3. Diseño con dos factores e interacción Tests ANOVA (¿el factor influye en la respuesta?) H0: Los efectos del factor sobre la respuesta son cero para todos los niveles (el factor NO influye) H1: Algún efecto es distinto de cero (el factor SI influye) Test ANOVA (¿la INTERACCIÓN influye en la respuesta?) H0: Los efectos f de d las l interacciones sobre b la l respuesta son cero para todas d las combinaciones de los niveles de los dos factores (la interacción NO influye) H1: Algún efecto es distinto de cero (la interacción SI influye) 34 Ana Justel - 2015 3. Diseño con dos factores e interacción SIN INTERACCIÓN sin B con B sin A 4 99 con A 101 200 a ab e depe d e te espuesta Suma de cuadrados 19503,125 18915 125 18915,125 6,125 10,500 38434,875 Fuente TratA TratB TratA * TratB Error Total corregida sin B con B sin A 4 99 con A 101 1985 CON INTERACCIÓN sin B con B sin A 4 99 con A 101 1 Fuente TratA TratB TratA * TratB Error Total corregida Fuente TratA TratB Error Total corregida Suma de cuadrados 1965153,125 1959210,125 1599376,625 5523739 875 5523739,875 1 1 1 4 7 Media cuadrática 19503,125 18915 125 18915,125 6,125 2,625 F 7429,762 7205 762 7205,762 2,333 Significación ,000 ,000 000 ,201 a ab e depe d e te CON INTERACCIÓN espuesta Suma de cuadrados 1965153,125 1959210,125 , 1599366,125 10,500 5523739,875 gl a ab e depe d e e Fuente TratA TratB TratA * TratB Error Total corregida espues a Suma cuadrados 1,125 10,125 19110,125 10,500 19131,875 gl 1 1 1 4 7 gl 1 1 5 7 gl 1 1 1 4 7 Media cuadrática 1965153,1 1959210,1 , 1599366,1 2,625 F 748629,8 746365,8 , 609282,3 Significación ,000 ,,000 ,000 Media cuadrática 1965153,1 1959210,1 319875,325 F 6,143 6,125 Significación ,056 ,056 Media cuadrática 1,125 10,125 19110,125 2,625 F ,429 3,857 7280,048 Significación ,548 ,121 ,000 35 Ana Justel - 2015 4. Otros diseños de experimentos DISEÑOS PARA TRES FACTORES MODELO completo Para poder utilizar este modelo se necesitan un mínimo de IJK+1 datos Por ejemplo con tres factores y 5 niveles cada uno, hay que hacer 125 experimentos. A veces no es fácil conseguir tantos datos Alternativa: utilizar un DISEÑO DE CUADRADOS LATINOS 36 Ana Justel - 2015 4. Otros diseños de experimentos DISEÑO DE CUADRADOS LATINOS puede utilizar cuando tenemos,, TRES factores,, con el MISMO Se p número de niveles y SIN interacciones entre ellos. Cada nivel de un factor se cruza solo una vez con cada uno de los niveles de los otros factores. Ejemplo de diseño de cuadrados latinos para 3 factores con 9 niveles: Con este diseño el número mínimo de datos necesario es 9x9=81, en lugar de los 9x9x9=729 del diseño factorial 37 Ana Justel - 2015 4. Otros diseños de experimentos Ejemplo de mariposas nocturnas Una asociación de Amigos de la Entomología quiere diseñar un cartel de sensibilización para la conservación de las mariposas nocturnas. Para elegir la imagen del cartel deciden hacer un estudio para ver como influyen algunos factores en la impresión que causan las fotos. Los factores son: Saturación del color, Efectos, Composición Se pide a 126 personas que valoren de 1 a 5 una foto cada uno del cuadrado latino. 38 Ana Justel - 2015 4. Otros diseños de experimentos OTROS DISEÑOS DE EXPERIMENTOS: Cuadrados greco-latinos Factoriales a dos niveles Anidados Split-plot Medidas repetidas … 39