Document

Anuncio
Análisis de la varianza con dos factores.
Introducción
Hasta ahora se ha visto el modelo de análisis de la varianza con un factor que es una
variable cualitativa cuyas categorías sirven para clasificar las medidas de otra variable
cuantitativa en grupos cuyas medias se desea comparar. Así, podremos comparar el peso
medio de aves agrupándolas por especies, la variable de clasificación o factor es la
especie y la variable dependiente es el peso.
En el tema actual se ampliará el modelo para incluir dos factores en lugar de uno solo.
Por ejemplo, cuando se pretenda comparar el peso medio de aves agrupándolas por
especie y por sexo.
La inclusión de un factor más no es trivial, el problema de la comparación de las medias
de grupos inducidos por dos factores cua litativos no se resuelve por la simple
ampliación del modelo de un factor a uno más, pues es posible que ambos factores sean
fijos (Modelo I), ambos aleatorios (Modelo II) o uno fijo y otro aleatorio (Modelo III),
pero además es posible que ambos factores actúen de modo independiente o que la
acción combinada de ambos factores potencie o inhiba la acción de cada uno por
separado, en este segundo caso diremos que existe interacción, por lo que podremos
hablar de modelo con o sin interacción. También es posib le que el diseño sea
equilibrado (todos los grupos son representados con un número igual de medidas) o que
no lo sea. Una última posibilidad es que todas las categorías de un factor puedan ser
combinadas con todas las del otro factor, entonces hablaremos de un diseño cruzado,
(que en el caso de incluir interacción se denomina modelo factorial), o que las
categorías de uno de los factores solamente puedan aparecer para determinados niveles
del otro, en este caso decimos que el primer nivel está jerarquizado en el segundo o que
el diseño es jerarquizado. En resumen, un análisis de la varianza de dos factores puede
ser:
Según el tipo de factores
De factores fijos
De factores aleatorios
Mixto
Según la interferencia entre los factores
Con interacción
Sin interacción
Según el número de observaciones en Equilibrado
cada categoría
No equilibrado
Según las posibles combinaciones de Cruzado
niveles de ambos factores
Jerarquizado
Por supuesto, cada una de estas clasificaciones se puede combinar con cualquiera de las
otras, así podremos encontrar, por ejemplo, un análisis de la varianza de dos factores
fijos, con interacción, equilibrado y cruzado.
En el caso del diseño jerarquizado no es posible determinar (al menos por los métodos
convencionales) el efecto de la interacción de ambos factores.
Modelo de análisis de la varianza con dos factores.
En lo que sigue y salvo que se indique lo contrario, trataremos siempre con modelos
equilibrados.
Sean dos factores, que denominaremos A, con t niveles y B, con r niveles, si el diseño
es cruzado tendremos tr clases en total, si además es equilibrado, con n observaciones
en cada clase, el número total de observaciones es N = trn.
El modelo de análisis de la varianza con dos factores sin interacción se puede escribir
como:
X ij = µ + Ai + Bj + ε ij
Donde Xij es una variable aleatoria que representa al conjunto de valores posibles de la
variable dependiente correspondiente al nivel i-ésimo del factor A y al nivel j-ésimo del
factor B, µ es la media general, Ai es el efecto aditivo que sobre esa media produce el
nivel i- ésimo del factor A, Bj el correspondiente al nivel j-ésimo del factor B y εij es el
error o residuo del modelo.
Los distintos elementos que componen el modelo se definen como:
Ai = µ i• − µ , siendo µi • la media poblacional del nivel i-ésimo del factor A, sin
considerar el factor B.
B j = µ • j − µ siendo µ• j la media poblacional del nivel j-ésimo del factor B, sin
considerar el factor A.
ε ij = X ij − µi• − µ• j + µ
En el caso de que se considere la interacción, el modelo se formula como:
X ijk = µ + Ai + B j + ABij + ε ij
Donde ABij es el efecto de la combinación del nivel i- ésimo del factor A con el j-ésimo
del factor B no contemplado por dichos niveles individualmente. En este caso, si
definimos µij = µ + Ai+ Bj+ ABij como la media total correspondiente a los niveles iésimo de A y j-ésimo de B, el modelo se puede expresar como:
X ijk = µ ij + ε ij , con lo que el residuo es
ε ij = X ij − µij , y la interacción:
ABij = Xij − µ − Ai − Bj − εij = µij − µi• − µ• j + µ
Vemos que el modelo sin interacción está incluido en el modelo con interacción, sin
más que considerar en este último caso que ABij es cero, por ello, en lo que sigue se
considera siempre modelo con interacción, procediendo a anular dicho término en el
caso de que no lo haya.
Análisis de la varianza de dos factores fijos cruzados.
Cuando los factores son fijos, los distintos niveles de cada uno de ellos son todos los
posibles (o todos los que interesa estudiar), en ese caso cada uno de los términos Ai Bj
ABij son constantes, verificándose además que ΣAi= 0, ΣBj =0, ∑ ABij = 0 y que
∑ ABij = 0 .
i
j
Sea cual sea el carácter de los factores, se considera que los términos εij son todos
variables aleatorias Normales e incorreladas, de media cero y varianza σ2 igual para
todos los grupos.
El contraste de análisis de la varianza se plantea como:
H0 : todos los Ai , los Bj y los ABij son cero.
H1 : alguno de ellos no es cero.
La hipótesis nula supone que si todos los efectos de todos los niveles de los factores son
nulos, todas las medias de todos los grupos considerados son iguales entre sí e iguales a
la media general y no hay interacción.
Para resolver el contraste se toma una muestra aleatoria de cada una de las
combinaciones de categorías de los factores considerados, si el diseño es equilibrado
todas estas muestras son de igual tamaño n, por lo tanto, como se dijo al principio, si A
tiene t niveles, B tiene r niveles y si el diseño es cruzado tendremos tr clases en total, si
además es equilibrado, con n observaciones en cada clase, el número total de
observaciones es N = trn = n••
Finalmente, se estima el modelo con las observaciones obtenidas y sus correspondientes
medias:
xijk = x••• + ai + b j + abij + eijk , siendo:
x ijk la k-ésima (k toma valores entre 1 y n) observación correspondiente al nivel i- ésimo
(i entre 1 y t) del factor A y el j-ésimo (j entre 1 y r) nivel del factor B.
x••• es la media de todos los datos considerados como una sola muestra.
ai = xi •• − x ••• la estimación del efecto del nivel i- ésimo del factor A, con xi•• la media
de todos los datos incluidos dentro del nivel i-ésimo del factor (rn datos).
bi = x• j• − x••• la estimación del efecto del nivel j-ésimo del factor B, con x• j • la media
de todos los datos incluidos dentro del nivel j-ésimo del factor (tn datos).
abij = xij • − xi•• − x• j • + x••• , con xij • la media de todos los datos medidos para la
combinación ij de los niveles de los factores.
eijk = x ijk − x ij• los residuos o diferencias de cada observación a la media de los datos
correspondientes a la combinación ij de los factores.
Pasando al primer miembro el término x••• , elevando al cuadrado y sumando, teniendo
en cuenta que todos los dobles productos se anulan al sumar, queda:
( xijk − x••• )
2
= ( xi•• − x••• ) + ( x• j • − x••• ) + ( xij • − xi •• − x• j • + x••• ) + ( xijk − x••• )
2
2
2
2
Que es la expresión para dos factores del teorema de descomposición de la varianza.
Los grados de libertad de cada uno de los sumandos son:
N-1 = trn-1 para la suma de cuadrados total
t-1 para la suma de cuadrados de A
r-1 para la suma de cuadrados de B
(t-1)(r-1) para la suma de cuadrados de la interacción.
N-tr = tr(n-1) para la suma de cuadrados del error.
Abreviadamente, este teorema se expresa:
SC = SCA + SCB + SCAB + SCE
Además cada uno de los términos es una variable aleatoria Chi cuadrado con sus
respectivos grados de libertad e independientes entre sí.
El paso siguiente es determinar la media de cuadrados, dividiendo cada suma de
cuadrados entre sus correspondientes grados de libertad. La esperanza matemática de
cada una de las medias de cuadrados son las siguientes.
∑ Ai2
SCA 
E(MCA) = E 
= σ 2 + rn i

t −1
 t −1 
Bi2
∑
SCB 
j
E(MCB) = E 
= σ 2 + tn

r −1
 r −1 
∑ ABij2
 SCAB 
2
i
E(MCAB) = E 
 = σ + n
( t − 1) ( r − 1)
 ( t − 1)( r − 1) 
SCE 
E(MCE) = E 
= σ2

 N − tr 
Por lo tanto, si es cierto H0 , todas las medias de cuadrados estiman la misma cantidad,
la varianza de común σ 2 , mientras que si alguno de los niveles de algún factor o la
interacción no son nulos, su media de cuadrados será mayor que la media de cuadrados
del error, el contraste, que se resuelve de modo unilateral, termina por comparar el
cociente entre cada media de cuadrados y la media de cuadrados del error con el cuantil
correspondiente de la distribución F de Snedecor con los grados de libertad respectivos
del numerador y del denominador. Se resume todo en una tabla como la siguiente:
Fuente de Grados
variación de
libertad
Factor A
t-1
Factor B
rt-1
Interacción (t-1)(r-1)
AB
Error
N-tr
Suma de cuadrados
SCA =
SCB =
Media
de Esperanza M. C.
cuadrados
2
1
x•••
2
x
−
∑ i •• N
rn i
SCA
t −1
σ + rn
2
x•••
SCB
r −1
σ + tn
1
∑ x•2 j• − N
tn i
2
x•••
1
SCAB = ∑ xij2• − SCA − SCB −
n ij
N
2
SCE = ∑ xijk
−
ijk
1
xij2 •
∑
n ij
2
2
SCAB
( t −1) ( r −1) σ 2 + n
SCE
N − tr
∑ Ai2
i
t −1
∑ B 2j
j
r −1
∑ ABij2
i
( t − 1 )(r − 1 )
Fexp
SCA
SCE
SCB
SCE
SCAB
SCE
σ2
En las fórmulas de la anterior tabla, las equis cuyos subíndices han sido sustituidos por puntos indican la suma de todo los valores de la variable
dependiente correspondientes a los subíndices sustituidos. Los sumatorios con más de un subíndice indican dobles o triples sumatorios para todos
los posibles valores de los subíndices.
Análisis de la varianza de dos factores aleatorios con interacción. Diseño cruzado y
equilibrado.
En este caso, los niveles de los factores A y B, y por tanto los de su interacción son una
muestra aleatoria de todos los niveles posibles de ambos factores, que se consideran
infinitos. En este caso, los efectos producidos por dichos niveles son variables aleatorias
Normales, independientes, de media cero y varianzas respectivas σ 2A , σ B2 , σ 2AB , igual
para todos los niveles. Por su parte, el error es una variable aleatoria Normal,
independiente de las anteriores, de media cero y varianza σ 2 igual para todas las
combinaciones de niveles.
El contraste a realizar es:
H0 : Las varianzas de los factores y la interacción son nulas.
H1 : Alguna de ellas no lo es.
La hipótesis nula supone que todos los factores son constantes y no inducen variabilidad
en la variable dependiente, por lo que las medias de todas las combinaciones de factores
han de ser iguales.
el planteamiento del modelo es idéntico al de dos factores fijos, y la descomposic ión en
sumas de cuadrados también, pero la esperanza de las media de cuadrados ya no son
iguales, por lo que las F experimentales no se calculan del mismo modo. Los resultados
son los siguientes:
SCA 
E(MCA) = E 
= σ 2 + nσ 2AB + rnσ 2A

 t −1 
SCB 
2
2
2
E(MCB) = E 
 = σ + nσ AB + tnσ B
r
−
1


 SCAB 
2
2
E(MCAB) = E 
 = σ + nσ AB
 ( t − 1) ( r − 1) 
SCE 
E(MCE) = E 
= σ2

 N − tr 
Por tanto, si hay interacción pero los factores de modo individual no tienen influencia,
las medias de cuadrados de los factores son mayores que la media de cuadrados del
error, pero serán aproximadamente iguales que la media de cuadrados de la interacción.
Si la interacción no afecta, su media de cuadrados será parecida a la media de cuadrados
del error. Así, para realizar el contraste sobre los factores, se calculan los cocientes de
sus medias de cuadrados entre la media de cuadrados de la interacción y se comparan
con una F de Snedecor con los grados de libertad correspondientes, mientras que para
realizar el contraste sobre la interacción se divide su media de cuadrados entre la del
error y se compara con la adecuada F de Snedecor.
Análisis de la varianza de dos factores cruzados. Modelo mixto equilibrado.
Sin pérdida de generalidad, supondremos que el factor A es el fijo, mientras que el B es
aleatorio.
Ahora, los efectos de A son constantes de suma nula, mientras que los de B y la
interacción son variables aleatorias de media cero y varianzas respectivas σ B2 y σ 2AB ,
igual para todos los niveles. Por su parte, el error es una variable aleatoria Normal,
independiente de las anteriores, de media cero y varianza σ 2 igual para todas las
combinaciones de niveles.
El contraste se planteará:
H0 : Los Ai son todos nulos. Las varianzas del factor B y de la interacción, también.
H1 : Alguna de ellas no lo es.
Se resuelve planteando un modelo igual que el que ya visto, con idéntica
descomposición en suma de cuadrados y grados de libertad, pero nuevamente, las
esperanzas de las medias de cuadrados son distintas, ahora son:
∑ Ai2
SCA 
2
2
i
E(MCA) = E 
 = σ + nσ AB + rn t − 1
t
−
1


SCB
 = σ 2 + tnσ 2
E(MCB) = E 
B

 r −1
 SCAB 
2
2
E(MCAB) = E 
 = σ + nσ AB
 ( t − 1) ( r − 1) 
SCE 
2
E(MCE) = E 
=σ
N
−
tr


Ahora, la media de cuadrados del factor fijo A se comparará con la media de cuadrados
de la interacción, mientras que la media de cuadrados del factor aleatorio y la de la
interacción se han de comparar con la media de cuadrados del error.
La tabla siguiente resume todos los casos:
Esperanza Media de Cuadrados
Fuente
de Grados
variación
de
libertad
Factor A
t-1
Factor B
rt-1
Interacción
AB
(t-1)(r-1)
Error
N-tr
Suma de cuadrados
SCA =
SCB =
Media
de
cuadrados
2
x•••
1
2
x
−
∑ i•• N
rn i
SCA
t −1
2
x•••
2
x
1
SCAB = ∑ xij2• − SCA − SCB − •••
n ij
N
ijk
1
∑ xij2•
n ij
σ + rn
2
SCAB
( t − 1 )(r − 1 )
SCE
N − tr
Aleatorio
∑ Ai2
i
t −1
∑
SCB
r −1
1
∑ x•2j • − N
tn i
2
SCE = ∑ xijk
−
Fijo
j
σ + tn
2
σ +n
2
B 2j
r −1
∑ ABij2
i
( t − 1 )(r − 1 )
σ2
σ
2
+ nσ 2AB
+ rnσ A2
Fexp
Mixto (A es Fijo)
σ + nσ
2
2
AB
+ rn
∑ Ai2
i
t −1
Fijo
Aleatorio
SCA
SCE
SCA
SCAB
SCB
SCAB
σ 2 + nσ 2AB + tnσ B2
σ 2 + tnσ B2
SCB
SCE
σ 2 + nσ 2AB
σ 2 + nσ 2AB
SCAB
SCE
σ2
σ2
SCAB
SCE
Mixto
SCA
SCAB
SCB
SCE
SCAB
SCE
Realización de contrastes de análisis de la varianza con dos factores mediante SPSS.
Para realizar estos contrastes se tendrá que desplegar el menú Statistics-General Linear
Model-GLM Factorial, que nos lleva a un cuadro de diálogo como el siguiente:
Donde se puede seleccionar la variable dependiente y los factores, tanto fijos como
aleatorios. Por defecto se realizará un modelo con interacción. Si se desea realizar un
modelo sin interacción, se puede pulsar el botón Model que nos lleva a un nuevo cuadro
de diálogo:
En el que se puede seleccionar los factores que entran en el modelo, pulsando en el
botón Custom y arrastrándolos desde el recuadro Factor & Covariates al recuadro
Model. Los factores que interactúan se pueden seleccionar pulsando el cuadro
desplegable Interaction.
El cuadro de verificación Include intercept in Model permite considerar la media
general como parte del modelo o considerarla en el primer miembro con lo cual estará
incluida en la suma de cuadrados total.
Ejercicio:
Abrir el fichero Gastos familiares.sav y analizar la variable Consumo como si ambos
factores fuesen fijos, como si ambos fuesen aleatorios o como si uno fuese aleatorio y el
otro fijo.
Descargar