Análisis de la varianza con dos factores. Introducción Hasta ahora se ha visto el modelo de análisis de la varianza con un factor que es una variable cualitativa cuyas categorías sirven para clasificar las medidas de otra variable cuantitativa en grupos cuyas medias se desea comparar. Así, podremos comparar el peso medio de aves agrupándolas por especies, la variable de clasificación o factor es la especie y la variable dependiente es el peso. En el tema actual se ampliará el modelo para incluir dos factores en lugar de uno solo. Por ejemplo, cuando se pretenda comparar el peso medio de aves agrupándolas por especie y por sexo. La inclusión de un factor más no es trivial, el problema de la comparación de las medias de grupos inducidos por dos factores cua litativos no se resuelve por la simple ampliación del modelo de un factor a uno más, pues es posible que ambos factores sean fijos (Modelo I), ambos aleatorios (Modelo II) o uno fijo y otro aleatorio (Modelo III), pero además es posible que ambos factores actúen de modo independiente o que la acción combinada de ambos factores potencie o inhiba la acción de cada uno por separado, en este segundo caso diremos que existe interacción, por lo que podremos hablar de modelo con o sin interacción. También es posib le que el diseño sea equilibrado (todos los grupos son representados con un número igual de medidas) o que no lo sea. Una última posibilidad es que todas las categorías de un factor puedan ser combinadas con todas las del otro factor, entonces hablaremos de un diseño cruzado, (que en el caso de incluir interacción se denomina modelo factorial), o que las categorías de uno de los factores solamente puedan aparecer para determinados niveles del otro, en este caso decimos que el primer nivel está jerarquizado en el segundo o que el diseño es jerarquizado. En resumen, un análisis de la varianza de dos factores puede ser: Según el tipo de factores De factores fijos De factores aleatorios Mixto Según la interferencia entre los factores Con interacción Sin interacción Según el número de observaciones en Equilibrado cada categoría No equilibrado Según las posibles combinaciones de Cruzado niveles de ambos factores Jerarquizado Por supuesto, cada una de estas clasificaciones se puede combinar con cualquiera de las otras, así podremos encontrar, por ejemplo, un análisis de la varianza de dos factores fijos, con interacción, equilibrado y cruzado. En el caso del diseño jerarquizado no es posible determinar (al menos por los métodos convencionales) el efecto de la interacción de ambos factores. Modelo de análisis de la varianza con dos factores. En lo que sigue y salvo que se indique lo contrario, trataremos siempre con modelos equilibrados. Sean dos factores, que denominaremos A, con t niveles y B, con r niveles, si el diseño es cruzado tendremos tr clases en total, si además es equilibrado, con n observaciones en cada clase, el número total de observaciones es N = trn. El modelo de análisis de la varianza con dos factores sin interacción se puede escribir como: X ij = µ + Ai + Bj + ε ij Donde Xij es una variable aleatoria que representa al conjunto de valores posibles de la variable dependiente correspondiente al nivel i-ésimo del factor A y al nivel j-ésimo del factor B, µ es la media general, Ai es el efecto aditivo que sobre esa media produce el nivel i- ésimo del factor A, Bj el correspondiente al nivel j-ésimo del factor B y εij es el error o residuo del modelo. Los distintos elementos que componen el modelo se definen como: Ai = µ i• − µ , siendo µi • la media poblacional del nivel i-ésimo del factor A, sin considerar el factor B. B j = µ • j − µ siendo µ• j la media poblacional del nivel j-ésimo del factor B, sin considerar el factor A. ε ij = X ij − µi• − µ• j + µ En el caso de que se considere la interacción, el modelo se formula como: X ijk = µ + Ai + B j + ABij + ε ij Donde ABij es el efecto de la combinación del nivel i- ésimo del factor A con el j-ésimo del factor B no contemplado por dichos niveles individualmente. En este caso, si definimos µij = µ + Ai+ Bj+ ABij como la media total correspondiente a los niveles iésimo de A y j-ésimo de B, el modelo se puede expresar como: X ijk = µ ij + ε ij , con lo que el residuo es ε ij = X ij − µij , y la interacción: ABij = Xij − µ − Ai − Bj − εij = µij − µi• − µ• j + µ Vemos que el modelo sin interacción está incluido en el modelo con interacción, sin más que considerar en este último caso que ABij es cero, por ello, en lo que sigue se considera siempre modelo con interacción, procediendo a anular dicho término en el caso de que no lo haya. Análisis de la varianza de dos factores fijos cruzados. Cuando los factores son fijos, los distintos niveles de cada uno de ellos son todos los posibles (o todos los que interesa estudiar), en ese caso cada uno de los términos Ai Bj ABij son constantes, verificándose además que ΣAi= 0, ΣBj =0, ∑ ABij = 0 y que ∑ ABij = 0 . i j Sea cual sea el carácter de los factores, se considera que los términos εij son todos variables aleatorias Normales e incorreladas, de media cero y varianza σ2 igual para todos los grupos. El contraste de análisis de la varianza se plantea como: H0 : todos los Ai , los Bj y los ABij son cero. H1 : alguno de ellos no es cero. La hipótesis nula supone que si todos los efectos de todos los niveles de los factores son nulos, todas las medias de todos los grupos considerados son iguales entre sí e iguales a la media general y no hay interacción. Para resolver el contraste se toma una muestra aleatoria de cada una de las combinaciones de categorías de los factores considerados, si el diseño es equilibrado todas estas muestras son de igual tamaño n, por lo tanto, como se dijo al principio, si A tiene t niveles, B tiene r niveles y si el diseño es cruzado tendremos tr clases en total, si además es equilibrado, con n observaciones en cada clase, el número total de observaciones es N = trn = n•• Finalmente, se estima el modelo con las observaciones obtenidas y sus correspondientes medias: xijk = x••• + ai + b j + abij + eijk , siendo: x ijk la k-ésima (k toma valores entre 1 y n) observación correspondiente al nivel i- ésimo (i entre 1 y t) del factor A y el j-ésimo (j entre 1 y r) nivel del factor B. x••• es la media de todos los datos considerados como una sola muestra. ai = xi •• − x ••• la estimación del efecto del nivel i- ésimo del factor A, con xi•• la media de todos los datos incluidos dentro del nivel i-ésimo del factor (rn datos). bi = x• j• − x••• la estimación del efecto del nivel j-ésimo del factor B, con x• j • la media de todos los datos incluidos dentro del nivel j-ésimo del factor (tn datos). abij = xij • − xi•• − x• j • + x••• , con xij • la media de todos los datos medidos para la combinación ij de los niveles de los factores. eijk = x ijk − x ij• los residuos o diferencias de cada observación a la media de los datos correspondientes a la combinación ij de los factores. Pasando al primer miembro el término x••• , elevando al cuadrado y sumando, teniendo en cuenta que todos los dobles productos se anulan al sumar, queda: ( xijk − x••• ) 2 = ( xi•• − x••• ) + ( x• j • − x••• ) + ( xij • − xi •• − x• j • + x••• ) + ( xijk − x••• ) 2 2 2 2 Que es la expresión para dos factores del teorema de descomposición de la varianza. Los grados de libertad de cada uno de los sumandos son: N-1 = trn-1 para la suma de cuadrados total t-1 para la suma de cuadrados de A r-1 para la suma de cuadrados de B (t-1)(r-1) para la suma de cuadrados de la interacción. N-tr = tr(n-1) para la suma de cuadrados del error. Abreviadamente, este teorema se expresa: SC = SCA + SCB + SCAB + SCE Además cada uno de los términos es una variable aleatoria Chi cuadrado con sus respectivos grados de libertad e independientes entre sí. El paso siguiente es determinar la media de cuadrados, dividiendo cada suma de cuadrados entre sus correspondientes grados de libertad. La esperanza matemática de cada una de las medias de cuadrados son las siguientes. ∑ Ai2 SCA E(MCA) = E = σ 2 + rn i t −1 t −1 Bi2 ∑ SCB j E(MCB) = E = σ 2 + tn r −1 r −1 ∑ ABij2 SCAB 2 i E(MCAB) = E = σ + n ( t − 1) ( r − 1) ( t − 1)( r − 1) SCE E(MCE) = E = σ2 N − tr Por lo tanto, si es cierto H0 , todas las medias de cuadrados estiman la misma cantidad, la varianza de común σ 2 , mientras que si alguno de los niveles de algún factor o la interacción no son nulos, su media de cuadrados será mayor que la media de cuadrados del error, el contraste, que se resuelve de modo unilateral, termina por comparar el cociente entre cada media de cuadrados y la media de cuadrados del error con el cuantil correspondiente de la distribución F de Snedecor con los grados de libertad respectivos del numerador y del denominador. Se resume todo en una tabla como la siguiente: Fuente de Grados variación de libertad Factor A t-1 Factor B rt-1 Interacción (t-1)(r-1) AB Error N-tr Suma de cuadrados SCA = SCB = Media de Esperanza M. C. cuadrados 2 1 x••• 2 x − ∑ i •• N rn i SCA t −1 σ + rn 2 x••• SCB r −1 σ + tn 1 ∑ x•2 j• − N tn i 2 x••• 1 SCAB = ∑ xij2• − SCA − SCB − n ij N 2 SCE = ∑ xijk − ijk 1 xij2 • ∑ n ij 2 2 SCAB ( t −1) ( r −1) σ 2 + n SCE N − tr ∑ Ai2 i t −1 ∑ B 2j j r −1 ∑ ABij2 i ( t − 1 )(r − 1 ) Fexp SCA SCE SCB SCE SCAB SCE σ2 En las fórmulas de la anterior tabla, las equis cuyos subíndices han sido sustituidos por puntos indican la suma de todo los valores de la variable dependiente correspondientes a los subíndices sustituidos. Los sumatorios con más de un subíndice indican dobles o triples sumatorios para todos los posibles valores de los subíndices. Análisis de la varianza de dos factores aleatorios con interacción. Diseño cruzado y equilibrado. En este caso, los niveles de los factores A y B, y por tanto los de su interacción son una muestra aleatoria de todos los niveles posibles de ambos factores, que se consideran infinitos. En este caso, los efectos producidos por dichos niveles son variables aleatorias Normales, independientes, de media cero y varianzas respectivas σ 2A , σ B2 , σ 2AB , igual para todos los niveles. Por su parte, el error es una variable aleatoria Normal, independiente de las anteriores, de media cero y varianza σ 2 igual para todas las combinaciones de niveles. El contraste a realizar es: H0 : Las varianzas de los factores y la interacción son nulas. H1 : Alguna de ellas no lo es. La hipótesis nula supone que todos los factores son constantes y no inducen variabilidad en la variable dependiente, por lo que las medias de todas las combinaciones de factores han de ser iguales. el planteamiento del modelo es idéntico al de dos factores fijos, y la descomposic ión en sumas de cuadrados también, pero la esperanza de las media de cuadrados ya no son iguales, por lo que las F experimentales no se calculan del mismo modo. Los resultados son los siguientes: SCA E(MCA) = E = σ 2 + nσ 2AB + rnσ 2A t −1 SCB 2 2 2 E(MCB) = E = σ + nσ AB + tnσ B r − 1 SCAB 2 2 E(MCAB) = E = σ + nσ AB ( t − 1) ( r − 1) SCE E(MCE) = E = σ2 N − tr Por tanto, si hay interacción pero los factores de modo individual no tienen influencia, las medias de cuadrados de los factores son mayores que la media de cuadrados del error, pero serán aproximadamente iguales que la media de cuadrados de la interacción. Si la interacción no afecta, su media de cuadrados será parecida a la media de cuadrados del error. Así, para realizar el contraste sobre los factores, se calculan los cocientes de sus medias de cuadrados entre la media de cuadrados de la interacción y se comparan con una F de Snedecor con los grados de libertad correspondientes, mientras que para realizar el contraste sobre la interacción se divide su media de cuadrados entre la del error y se compara con la adecuada F de Snedecor. Análisis de la varianza de dos factores cruzados. Modelo mixto equilibrado. Sin pérdida de generalidad, supondremos que el factor A es el fijo, mientras que el B es aleatorio. Ahora, los efectos de A son constantes de suma nula, mientras que los de B y la interacción son variables aleatorias de media cero y varianzas respectivas σ B2 y σ 2AB , igual para todos los niveles. Por su parte, el error es una variable aleatoria Normal, independiente de las anteriores, de media cero y varianza σ 2 igual para todas las combinaciones de niveles. El contraste se planteará: H0 : Los Ai son todos nulos. Las varianzas del factor B y de la interacción, también. H1 : Alguna de ellas no lo es. Se resuelve planteando un modelo igual que el que ya visto, con idéntica descomposición en suma de cuadrados y grados de libertad, pero nuevamente, las esperanzas de las medias de cuadrados son distintas, ahora son: ∑ Ai2 SCA 2 2 i E(MCA) = E = σ + nσ AB + rn t − 1 t − 1 SCB = σ 2 + tnσ 2 E(MCB) = E B r −1 SCAB 2 2 E(MCAB) = E = σ + nσ AB ( t − 1) ( r − 1) SCE 2 E(MCE) = E =σ N − tr Ahora, la media de cuadrados del factor fijo A se comparará con la media de cuadrados de la interacción, mientras que la media de cuadrados del factor aleatorio y la de la interacción se han de comparar con la media de cuadrados del error. La tabla siguiente resume todos los casos: Esperanza Media de Cuadrados Fuente de Grados variación de libertad Factor A t-1 Factor B rt-1 Interacción AB (t-1)(r-1) Error N-tr Suma de cuadrados SCA = SCB = Media de cuadrados 2 x••• 1 2 x − ∑ i•• N rn i SCA t −1 2 x••• 2 x 1 SCAB = ∑ xij2• − SCA − SCB − ••• n ij N ijk 1 ∑ xij2• n ij σ + rn 2 SCAB ( t − 1 )(r − 1 ) SCE N − tr Aleatorio ∑ Ai2 i t −1 ∑ SCB r −1 1 ∑ x•2j • − N tn i 2 SCE = ∑ xijk − Fijo j σ + tn 2 σ +n 2 B 2j r −1 ∑ ABij2 i ( t − 1 )(r − 1 ) σ2 σ 2 + nσ 2AB + rnσ A2 Fexp Mixto (A es Fijo) σ + nσ 2 2 AB + rn ∑ Ai2 i t −1 Fijo Aleatorio SCA SCE SCA SCAB SCB SCAB σ 2 + nσ 2AB + tnσ B2 σ 2 + tnσ B2 SCB SCE σ 2 + nσ 2AB σ 2 + nσ 2AB SCAB SCE σ2 σ2 SCAB SCE Mixto SCA SCAB SCB SCE SCAB SCE Realización de contrastes de análisis de la varianza con dos factores mediante SPSS. Para realizar estos contrastes se tendrá que desplegar el menú Statistics-General Linear Model-GLM Factorial, que nos lleva a un cuadro de diálogo como el siguiente: Donde se puede seleccionar la variable dependiente y los factores, tanto fijos como aleatorios. Por defecto se realizará un modelo con interacción. Si se desea realizar un modelo sin interacción, se puede pulsar el botón Model que nos lleva a un nuevo cuadro de diálogo: En el que se puede seleccionar los factores que entran en el modelo, pulsando en el botón Custom y arrastrándolos desde el recuadro Factor & Covariates al recuadro Model. Los factores que interactúan se pueden seleccionar pulsando el cuadro desplegable Interaction. El cuadro de verificación Include intercept in Model permite considerar la media general como parte del modelo o considerarla en el primer miembro con lo cual estará incluida en la suma de cuadrados total. Ejercicio: Abrir el fichero Gastos familiares.sav y analizar la variable Consumo como si ambos factores fuesen fijos, como si ambos fuesen aleatorios o como si uno fuese aleatorio y el otro fijo.