El análisis de la varianza

Anuncio
El análisis de la varianza
Joaquín Aldás Manzano1
Universitat de València
Dpto. de Dirección de Empresas “Juan José Renau Piqueras”
1
Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de seleccionar, ordenar y, en algunos casos traducir los textos originales.
2
Análisis de la varianza
Joaquín Aldás Manzano
El análisis de la varianza
1. ¿Qué es el análisis de la varianza?
(Uriel, 1995)
El análisis de la varianza es un método estadístico para determinar si una
variable determinada toma valores medios iguales o distintos en los grupos que
forma otra variable, por ejemplo, si la opinión que tiene una muestra de individuos sobre si deben o no subirse los impuestos sobre el tabaco, es la misma o
distinta entre los fumadores y los no fumadores.
Se denomina factor a la variable que supuestamente ejerce una influencia sobre
la variable dependiente. En nuestro ejemplo la variable dependiente es la
opinión manifestada sobre la subida de impuestos sobre el tabaco, mientras que
el factor es pertenecer al grupo de fumadores o al de no fumadores.
El diseño que hemos visto se conoce como análisis de la varianza de un factor,
puesto que se considera la influencia de una sola variable (fumar o no fumar).
En este tema se verá también el análisis de la varianza de dos factores, donde
se considera la influencia conjunta de dos variables independientes (podría ser
fumar o no fumar y el sexo, por ejemplo).
2. Un ejemplo de aplicación del análisis de la varianza de un
factor
(Elaboración propia y Uriel, 1995)
Paso 1. Establecimiento de los objetivos
Como se ha indicado, un análisis de la varianza es adecuado cuando queremos
saber si una variable toma valores medios significativamente distintos en los
grupos que forma otra variable que llamamos factor. La primera cuestión
importante es saber cómo deben ser las escalas de medida de cada una de las
variables.
Ÿ
El factor, o variable independiente, debe ser una variable nominal.
En el ejemplo que estamos utilizando, los encuestados se clasifican
3
Análisis de la varianza
Joaquín Aldás Manzano
Ÿ
en 1 = fumadores; 2 = Fumaban pero lo han dejado y 3 = No
fumadores.
La variable dependiente, debe ser métrica, dado que el cálculo del
valor medio debe tener sentido y, precisamente, es el valor medio lo
que deseamos saber si toma valores significativamente diferentes
entre los fumadores, no fumadores o los que lo han dejado. En
nuestro ejemplo, la variable dependiente está medida del siguiente
modo. Exprese su acuerdo o desacuerdo sobre la siguiente
afirmación: “Deben subirse los impuestos que gravan el tabaco”. La
respuesta se recoge en una escala de 5 puntos donde 1 = Estoy
totalmente en desacuerdo y 5 = Estoy totalmente de acuerdo.
Este objetivo se plantea estadísticamente formulando una hipótesis nula que
deberá ser aceptada o rechazada a la luz de la evidencia empírica. En nuestro
caso la hipótesis nula es que la opinión que expresan los entrevistados acerca de
que se suban los impuestos sobre el tabaco, es la misma entre los fumadores y
los no fumadores o, dicho de otro modo, que el ser fumador no ejerce ningún
tipo de influencia sobre la opinión manifestada acerca de subir los impuestos
sobre el tabaco. De una manera más formal, la hipótesis nula se plantea de este
modo:
H 0 : x F = xNF = x D
Es decir que la media de las respuestas a la pregunta formulada es la misma
entre los fumadores, los no fumadores o los que lo han dejado. Es muy importante dejar claro cuál es la hipótesis alternativa, es decir, la que asumiríamos si
no pudiésemos aceptar la hipótesis nula planteada. Esta no es que todas las
medias sean distintas entre sí, sino que, al menos una es significativamente
distinta de todas las demás. Esto es, si rechazáramos la hipótesis nula no
podríamos decir que los no fumadores piensan distinto que los fumadores y que
los que lo han dejado y que los no fuamdores también piensan diferente de los
que lo han dejado. Podría ocurrir que los fumadores pensaran de manera
distinta a los no fumadores y los que lo han dejado, pero estos dos últimos
piensan igual. Para determinar en qué caso nos encontramos habrá que recurrir
a otro tipo de pruebas, que denominamos comparaciones pareadas a posteriori
o pruebas post hoc, como veremos posteriormente.
El proceso que se sigue para determinar si podemos aceptar o rechazar la
hipótesis nula, es el mismo que se sigue en cualquier otra técnica de inferencia
estadística y que podemos asimilar a la decisión de un juez en un juicio. El juez
4
Análisis de la varianza
Joaquín Aldás Manzano
mantendrá siempre la hipótesis nula (inocencia del acusado) a no ser que se
logren acumular suficientes pruebas en contra del acusado como para que la
probabilidad de que se equivoque al rechazar la hipótesis nula (declararle
culpable) sea lo suficientemente pequeña. La “acumulación de pruebas” en
inferencia estadística es la construcción de un estadístico que, en nuestro caso,
es una F. Según cual sea el valor que tome ese estadístico F, podremos aceptar
o rechazar la hipótesis nula. Sin embargo es imposible tener en la cabeza las
tablas del estadístico, por eso los programas de ordenador “traducen” ese
estadístico mediante un valor que llaman p o significatividad que no es, ni más
ni menos, que la probabilidad de equivocarnos cuando rechazamos la hipótesis
nula. Si esa probabilidad es “lo suficientemente baja” lo rechazaremos.
Pero “suficientemente baja” es un término subjetivo. Para objetivarlo, la
práctica en Ciencias Sociales es considerar los valores máximos del 1% o del
5%. Si la probabilidad mencionada es inferior al 1% (5%) consideramos que es
improbable que nos equivoquemos y rechazaremos la hipótesis nula, teniendo
que aceptarla en caso contrario.
Pero vayamos paso a paso y veamos, en primer lugar, cómo se calcula el
estadístico F.
Llamemos Yi a la variable que recoge la respuesta del individuo i a la pregunta
“Deben subirse los impuestos que gravan el tabaco”. Cada individuo pertenece
a uno de los G grupos existentes del factor (en nuestro caso 3: fumadores, no
fumadores o los que lo han dejado), con lo que llamaremos Ygi a la respuesta
dada a esa pregunta por el individuo i dado que pertenece a grupo g. La media
de la variable Y para todos los individuos, sin distinguir grupos la llamamos Y
con lo que la desviación de cada observación respecto a la media global será:
Ygi - Y
desviación que puede descomponerse de la siguiente forma:
Ygi - Y = (Y g - Y ) + (Ygi - Y
)
donde el primer componente,(Y g − Y ) refleja la desviación de la media muestral
de cada grupo respecto a la media global, lo que llamamos desviación explicada
por el factor.
5
Análisis de la varianza
Joaquín Aldás Manzano
El segundo componente, (Y gi − Y g ), es la desviación que no explica el factor, y
que denominamos desviación residual. Elevando al cuadrado ambos términos
de la ecuación [1] tenemos que:
(Ygi -Y )
2
= (Yg -Y
)2
+(Ygi -Yg ) + 2 (Yg - Y
2
)(Ygi -Y )
Si la expresión anterior la sumamos para todos los grupos (G en total) y para
todos los individuos de cada grupo (ng) se obtiene que:
G
ng
G
G
ng
å å (Ygi - Y ) =å ng (Yg - Y ) +åå (Ygi - Yg )
g =1 i =1
2
g =1
2
2
g =1 i =1
En el primer miembro de la ecuación anterior aparece la suma de cuadrados de
las desviaciones de cada observación respecto a la media global, suma que
denominaremos Suma de Cuadrados Total (SCT) y que refleja la variabilidad
total. Si se divide por el tamaño total de muestra se obtiene la varianza total.
Pues bien, de acuerdo con [2] esta SCT se divide en dos partes:
Ÿ
Ÿ
La suma de cuadrados de las desviaciones entre la media de cada
grupo y la media general. Esta es la suma de cuadrados explicada
por el factor considerado, a la que denominaremos Suma de cuadrados del factor (SCF) o variabilidad explicada.
La suma de cuadrados de las desviaciones entre cada dato y la
media de su grupo. Esta es la suma de cuadrados no explicada, a la
que denominaremos Suma de cuadrados residual (SCR) o variabilidad residual.
Cada suma de cuadrados tiene sus propios grados de libertad. La SCT es el
número total de casos menos uno, es decir n-1; La SCF es el número de grupos
menos uno, es decir, G-1 y la SCR es el número total de datos menos G, es
decir, n-G. En el análisis de la varianza, se define una media cuadrática como
el cociente entre la suma de cuadrados y sus correspondientes grados de libertad:
6
Análisis de la varianza
Joaquín Aldás Manzano
SCF
G -1
SCR
MCR =
n -G
SCT
MCT =
n -1
MCF =
pues bien, el estadístico F que nos ha de decir si tenemos “pruebas suficientes”
para rechazar o aceptar la hipótesis nula, se calcula del siguiente modo:
SCF
MCF
F =
= G -1
SCR
MCR
n -G
y se distribuye según una F de Snedecor con G-1 grados de libertad en el
numerador y n-G en el denominador. Pero como hemos dicho, es difícil saberse
de memoria la tabla de esta distribución, por eso el programa traduce directamente ese valor en una probabilidad de equivocarnos al rechazar la hipótesis
nula o significatividad llamada p.
El cuadro 2 nos ofrece la salida de SPSS del análisis de la varianza de un
factor que nos está sirviendo de ejemplo. Sin adelantar cuál es el resultado
obtenido, vemos que nos proporciona la mayor parte de la información que
hemos descrito hasta el momento.
Cuadro 2. Salida de SPSS para el análisis de la varianza
ANOVA
Deben aumentarse los impuestos
Suma de
cuadrados
Media
cuadrática
gl
Inter-grupos
171,378
2
Intra-grupos
344,721
238
Total
516,100
240
F
85,689 59,161
Sig.
,000
1,448
La SCF es 171,3, y el número de grado de libertad 2 (tenemos 3 grupos,
fumadores, no fumadores y los que lo han dejado, menos uno). La SCR es
344,7 con 238 grados de libertad (241 datos menos 3 grupos). La SCT es la
7
Análisis de la varianza
Joaquín Aldás Manzano
suma de las dos anteriores y el número de grados de libertad es el total de
datos menos uno, es decir 240. El estadístico F se obtiene:
SCF
171,37
MCF
3 - 1 = 59,16
F =
= G - 1 = 344,72
SCR
MCR
n -G
241 - 3
Paso 2. Condiciones de aplicabilidad
La hipótesis más relevante que deben cumplir los datos para poder aplicar un
análisis de la varianza, es la hipótesis de homoscedasticidad, es decir, que la
varianza de la variable dependiente (opinión acerca de que deben subirse los
impuestos sobre el tabaco) es constante en los grupos que hace el factor
(fumadores, no fumadores y los que lo han dejado).
Algunos autores (Uriel, 1995; Stevens, 1986) afirman, sin embargo, que el
estadístico F no se ve muy afectado por el hecho de que no exista homoscedasticidad siempre que las muestras de los diferentes grupos sean del mismo o
similar tamaño. Se afirma que el estadístico se verá afectado cuando la razón
entre el tamaño muestral del grupo de mayor tamaño y el más pequeño sea
superior a 2. El cuadro 2.2 nos muestra unos estadísticos descriptivos de
nuestra muestra de ejemplo, se observa que el grupo más numeroso es el de los
no fumadores con 120 individuos, mientras que el más pequeño es el de los que
han dejado de fumar con 14. Es evidente que la razón es superior a 2 (120/14
> 2), por lo que la vulneración de la hipótesis de homoscedasticidad sí que
afectará a la aplicabilidad del análisis de varianza.
¿Como saber entonces si se cumple la hipótesis de homoscedasticidad? y ¿cómo
actuar caso de no ser así?
8
Análisis de la varianza
Joaquín Aldás Manzano
Cuadro 2. Estadísticos descriptivos de la variable dependiente
Descriptivos
Deben aumentarse los impuestos
Intervalo de confianza para
la media al 95%
Media
Desviación
típica
Error típico
107
1,73
1,15
,11
1,51
1,95
1
5
14
2,86
1,56
,42
1,96
3,76
1
5
NO
120
3,47
1,20
,11
3,25
3,68
1
5
Total
241
2,66
1,47
9,45E-02
2,47
2,85
1
5
N
SI
DEJADO
Límite
inferior
Límite
superior
Mínimo Máximo
Para detectar la vulneración de la hipótesis de homoscedasticidad, SPSS
proporciona un test conocido como de Levene. Este test plantea la hipótesis
nula de homoscedasticidad, es decir, que las varianzas son iguales en todos los
grupos (fumadores, no fumadores y los que lo han dejado), que es la propiedad
deseable. Si el valor de la significatividad de este test es inferior a los límites
clásicos (1% o 5%), podremos rechazar la hipótesis nula, es decir, habrá
heteroscedasticidad y el ANOVA no será aplicable.
El cuadro 3 ofrece la salida de SPSS para el test de Levene, se observa que el
valor de la significatividad es superior tanto al 1% como al 5% (concretamente
p=0.089). Luego la probabilidad de equivocarnos al rechazar la hipótesis nula
es demasiado elevada, habrá que aceptarla, es decir, las varianzas son constantes, se cumple la hipótesis de homoscedasticidad y los resultados que se hayan
obtenido del análisis de la varianza serán consistentes.
Cuadro 3. Test de Levene
Prueba de homogeneidad de varianzas
Deben aumentarse los impuestos
Estadístico
de Levene
2,439
gl1
gl2
2
238
Sig.
,089
¿Qué podría haberse hecho caso de no poder aceptar la homoscedasticidad? Lo
habitual es transformar la variable dependiente tomando logaritmos
neperianos, lo que permite estabilizar la varianza y repetir entonces el ANOVA.
Si la variable está acotada entre 0 y 1 se recomienda también la transformación arcosenoidal.
9
Análisis de la varianza
Joaquín Aldás Manzano
Aunque algunos autores consideran que la no normalidad de la variable dependiente no afecta de forma importante al estadístico F, la hipótesis de normalidad es, teóricamente, un supuesto que debe verificarse antes de realizar un
análisis de la varianza. En el tema 1 se indicó uno de los procedimientos
habituales, que son los gráficos q-q. La figura 1 muestra que los residuos se
hallan homogéneamente repartidos por encima y por debajo de la diagonal, lo
que nos permite asumir con razonable precisión que estamos ante una distribución normal.
Figura 1. Gráfico q-q para el contraste de la normalidad
Gráfico Q-Q normal de Deben aumentarse los impuestos
1,5
1,0
,5
Normal esperado
0,0
-,5
-1,0
0
1
2
3
4
5
6
Valor observado
Paso 3. Estimación del modelo y medida del ajuste global
Hasta este momento, hemos planteado los objetivos del ANOVA (saber si la
opinión que se tiene acerca de que se suban los impuestos sobre el tabaco, varía
o no entre fumadores y no fumadores), hemos comprobado las hipótesis que
deben cumplir los datos y, además, hemos construído el estadístico que nos ha
de permitir aceptar o rechazar la hipótesis nula de igualdad de medias, pero
¿cuál es el resultado del análisis?
Observando el cuadro 2, se observa que las medias son aparentemente muy
distintas entre cada uno de los grupos analizados. Así, los fumadores parecen
estar muy en desacuerdo en que se suban los impuestos (1,73 en una escala de
1 a 5), los no fumadores están mucho más de acuerdo (3,47) y los que han
dejado de fumar se muestran algo más comprensivos (2,86). Pero estas diferencias pueden ser aparentes más que estadísticamente significativas y, por ese
motivo, hemos realizado el análisis de la varianza. Del cuadro 2.1 vemos que el
10
Análisis de la varianza
Joaquín Aldás Manzano
estadístico F=59,16 no nos dice mucho dado que no conocemos de memoria las
tablas, pero sí el valor de la significatividad p=0.000. Dijimos que la significatividad era la probabilidad de equivocarnos al rechazar la hipótesis nula de que
las medias son iguales. Esta probabilidad es nula (en todo caso menor que
cualquiera de los dos valores críticos: 0.01 y 0.05), por lo que, dado que no
tenemos ninguna probabilidad de equivocarnos la rechazaremos, es decir,
alguna de las medias es significativamente distinta de las demás. Sin embargo
no sabemos si todas son distintas entre sí (xF≠xNF≠xD) o, por ejemplo, la de los
fumadores es distinta del grupo de no fumadores y lo han dejado, pero estas
dos últimas no son diferentes (xF≠xNF=xD). Para ello habrá que realizar alguna
prueba post hoc, como veremos inmediatamente.
El cuadro 2.4 nos permite responder a la duda que hemos planteado. Si el
anova demuestra que alguna media es distinta de las demás, como es el caso,
SPSS nos ofrece diversos tests post hoc de comparaciones múltiples para detectar qué media es distinta de cuál. En este caso hemos recurrido a una de las
múltiples posibilidades, el test de la diferencia honestamente significativa de
Tukey (Tukey’s HSD). El cuadro debe leerse de la siguiente manera. Veamos
primero la primera fila. La diferencia de las medias de respuesta a la variable
“deben subirse los impuestos sobre el tabaco” entre los que sí que fuman y los
que lo han dejado es de 1,13 y entre los que sí que fuman y los que no fuman
es de 1,74. Ambas diferencias son significativas al 5%, como lo demuestra el
asterisco (*) que llevan ambas. Es más, ambas son significativamente distintas
también al 1%, dado que la significatividad es también inferior a esta cantidad
(0.003 y 0.000 respectivamente). Luego ya sabemos que la opinión de los que sí
que fuman es distinta de los otros dos grupos, pero ¿qué ocurre entre ellos?.
Leamos ahora la segunda fila. Ahora la diferencia entre los que lo han dejado y
los que sí que fuman es de 1,13 y significativa (ya lo sabíamos de la fila
anterior), pero la diferencia ente los que lo han dejado y los que no fuman es
de 0,61 y NO ES SIGNFICATIVA, dado que ni lleva asterisco ni 0,172<0,05.
Luego la opinión de los que fuman es distinta de los que lo han dejado, pero la
de estos últimos no es distinta de los que no fuman.
La tercera fila nos confirma lo anterior. La diferencia de opinión entre los que
no fuman y los que sí (1,74) es estadísticamente significativa, pero no la
diferencia con los que lo han dejado (0,61).
11
Análisis de la varianza
Joaquín Aldás Manzano
Cuadro 4. Test de comparaciones múltiples
Comparaciones múltiples
Variable dependiente: Deben aumentarse los impuestos
HSD de Tukey
(I) ¿FUMA USTED? (J) ¿FUMA USTED?
SI
DEJADO
Diferencia
de medias
(I-J)
Intervalo de confianza al
95%
Error típico
Sig.
Límite
inferior
Límite
superior
SI
DEJADO
-1,13 *
,342
,003
-1,93
-,33
NO
-1,74 *
,160
,000
-2,11
-1,36
SI
1,13*
,342
,003
,33
1,93
NO
-,61
,340
,172
-1,41
,19
SI
1,74*
,160
,000
1,36
2,11
,61
,340
,172
-,19
1,41
DEJADO
NO
DEJADO
NO
*. La diferencia entre las medias es significativa al nivel .05.
En síntesis, como muestra el cuadro 5 que ofrece los grupos con la misma
media, por un lado tenemos el grupo de los no fumadores, con media 1,73 que
mantiene una opinión distinta (son menos favorables a que se suban los
impuestos) que el otro grupo, formado por no fumadores y quienes lo han
dejado, cuyas medias no son significativamente diferentes.
Cuadro 5. Grupos con la misma media
Deben aumentarse los impuestos
HSD de Tukey1,2
Subconjunto
para alfa = .05
¿FUMA USTED?
N
1
SI
107
1,73
DEJADO
NO
Sig.
2
14
2,86
120
3,47
1,000
,094
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
1. Usa tamaño de la muestra de la media armónica = 33,667.
2. Los tamaños de los grupos no son iguales. Se utilizará la
media armónica de los tamaños de los grupos. Los niveles de
error del tipo I no están garantizados.
12
Análisis de la varianza
Joaquín Aldás Manzano
Finalmente, para medir si es importante la parte de la variabilidad total explicada por el factor (medida de bondad del ajuste) se utiliza el coeficiente de
determinación que viene dado por la siguiente expresión:
R2 =
SCF
171,37
=
= 0,33
SCT
516,10
Aunque SPSS no da este estadístico, este puede obtenerse de manera bastante
sencilla de la información proporcionada por el cuadro 1. Vemos que gran
parte (33%) de la diferencia de opinión respecto al aumento de impuestos sobre
el tabaco, se explica por el hecho de que el que conteste sea o no fumador.
Paso 4. Interpretación de los resultados
Por claridad expositiva, los resultados del análisis de la varianza efectuado se
han interpretado simultáneamente a la estimación del modelo en el paso
anterior. Sin embargo, a modo de conclusión, repetiremos que el fumar o no
fumar, independientemente de que no se haya hecho nunca o se haya dejado el
hábito, ejerce una influencia importante sobre el apoyo de los individuos a que
se suban los impuestos sobre el tabaco. Los fumadores son mucho más reacios
(1,73 en una escala de 1 a 5) a esta subida que los no fumadores, que no se
distinguen de los que lo han dejado en esta opinión.
Paso 5. Validación de los resultados
El único procedimiento adecuado para validar los resultados de un análisis de
la varianza, consiste en replicar el experimento para una muestra diferente y
constatar la convergencia de los resultados lo que, por motivos obvios de
medios, no suele ser habitual en los trabajos en ciencias sociales.
13
Análisis de la varianza
Joaquín Aldás Manzano
3. Un ejemplo de aplicación del análisis de varianza de dos factores
(Elaboración propia; Uriel, 1995 y Hatcher y Stepanski, 1994)
En el ejemplo anterior intentábamos determinar la influencia sobre el acuerdo
con que se subieran los impuestos sobre el tabaco, de un factor a priori relevante, como era el hecho de que se fumara o no. Pero supongamos que hay dos
variables independientes cuya posible influencia queremos controlar: el hecho
de fumar o no y el sexo del individuo. Podríamos pensar que es necesario llevar
a cabo un análisis de la varianza de un factor para cada uno de ellos, sin
embargo es posible trabajar con las dos variables independientes de manera
simultánea en un único estudio.
El diseño experimental que se sigue en estos casos, es conocido como diseño
factorial, donde dos o más variables independientes son manipuladas en un
único estudio de tal forma que en el análisis se representan todas las posibles
combinaciones de los diversos niveles de las variables independientes.
Teóricamente, un diseño factorial puede incluir cualquier número de variables
independientes, en la práctica resulta poco adecuado utilizar más de tres o
cuatro. Nosotros ilustraremos el tema con un diseño factorial que incluye dos
factores: el ser o no fumador, y el sexo del entrevistado. En síntesis, queremos
constatar si:
Ser o no fumador hace que se tengan opiniones distintas sobre que
se suban los impuestos sobre el tabaco.
Ser hombre o mujer ejerce algún tipo de influencia sobre esa
opinión.
Ÿ
Ÿ
De una manera similar al caso de un factor, la varianza total puede descomponerse del siguiente modo (donde G es el número total de grupos de un factor,
en nuestro caso, por ejemplo los tres niveles de fumar, no fumar o haberlo
dejado; J es el número total de grupos del segundo factor, en nuestro caso 2,
hombres y mujeres):
G
J
ngj
G
J
å å å (Ygji -Y ) =åå ngj (Ygj -Y )
g =1 j =1 i =1
2
g =1 j =1
2
G
J
ngj
+ å å å (Ygji - Ygj )
g =1 j =1 i =1
2
14
Análisis de la varianza
Joaquín Aldás Manzano
El primer término de la expresión anterior refleja, como hemos dicho, la suma
de los cuadrados con respecto a la media muestral global. El triple sumatorio se
refiere: el primero a los niveles del primer factor (e.g. fumar o no fumar), el
segundo a los del segundo factor (e.g. hombre o mujer) y el tercero a los datos
individuales del cruce de los dos anteriores. El segundo término de la expresión
se descompone en dos sumandos. El primero refleja las diferencias al cuadrado
entre la media de cada celda y la media global, mientras que el segundo
sumando es la suma de cuadrados residual SCR.
Lo interesantes está en analizar qué ocasiona las diferencias del primer sumando, es decir, las diferencias al cuadrado entre la media de cada celda. Puede
demostrarse que:
G
J
å å ngj (Ygj - Y )
=
G
J
G
2
g =1 j =1
J
G
=
J
å å ngj (Yg -Y ) + åå ngj (Yj -Y ) + åå ngj (Ygj -Y g -Y j +Y
g =1 j =1
2
g =1 j =1
2
g =1 j =1
)
2
se ve claramente en esta expresión que los dos primeros sumandos corresponden a las sumas de cuadrados de los dos factores, llamémosles A y B. A estas
sumas las denominaremos SCFA y SCFB. El último término refleja la interacción de los factores A y B, es decir el efecto de los dos factores que no ha es
debido individualmente a ninguno de ellos. El efecto interacción, será denominado SCFAxB. En síntesis, la suma total de cuadrados puede descomponerse, en
el caso de dos factores del siguiente modo:
SCT = SCF A + SCF B + SCF A%B + SCR
Al igual que en el caso de un factor, cada suma de cuadrados tiene sus propios
grados de libertad, tal y como ilustramos en el cuadro 2.7. En este mismo
cuadro ilustramos también como se construye cada uno de los estadísticos F
que, ahora, han de permitirnos determinar si el efecto de cada factor por
separado y la interacción de ambos, son o no significativos.
15
Análisis de la varianza
Joaquín Aldás Manzano
Cuadro 7. Tabla de análisis de la varianza con dos factores
Fuente de
Suma de
Grados de
Variación
cuadrados
libertad
Factor A
SCFA
G-1
MCF A =
SCF A
G−1
F=
MCF A
MCR
Factor B
SCFB
J-1
MCF B =
SCF B
J−1
F=
MCF B
MCR
Interacción
SCFAxB
(G-1)(J-1)
F=
MCF A%B
MCR
Residual
SCR
n-GJ
MCR =
SCR
n−GJ
Total
SCT
n-1
MCT =
SCT
n−1
Media cuadrática
MCF A%B =
SCF A%B
(G−1 )(J−1
Estadístico F
Antes de comentar los resultados concretos del ejemplo que venimos analizando, tratemos de analizar los posibles resultados que podrían obtenerse y
comprender, así, qué significará que uno de los factores, o la interacción de
ambos sea significativa. La figura 2 es una ilustración del resultado que se
obtendría si el efecto del factor 1 (fumar o no fumar) fuera significativo sin que
lo sea el factor 2 (sexo) ni la interacción entre ambos. En el eje y se ha representado la opinión sobre que se suban los impuestos. En el eje x vienen representados los tres niveles del factor 1 (fumador, no fumador, han dejado de
fumar) y se han representado las medias de la opinión en cada uno de estos
tres grupos pero utilizando dos lineas, una para hombres y otra para mujeres.
Decimos que el factor 1 influye y el factor 2 no porque:
Ÿ
Ÿ
La opinión acerca de la subida de impuestos es más favorable en la
medida en que se pasa de ser fumador a haberlo dejado o no haber
fumado nunca (línea recta creciente)
Las medias en cada grupo de hábito coinciden, sin embargo, entre
hombres y mujeres, como demuestra el hecho de que las líneas sean
coincidentes.
La figura 3 ilustra el caso en que el resultado fuera que el sexo influye, pero no
lo hace el factor 1, es decir, el hábito. Se observa que en este caso las líneas
están separadas (sexo influye), pero las medias de opinión son las mismas
independientemente del hábito (líneas paralelas al eje x).
16
Análisis de la varianza
Joaquín Aldás Manzano
Figura 2. Sólo el efecto hábito es significativo.
Acuerdo
l Hombres
n Mujeres
Opinión
l
n
l
n
Desacuerdo
Fumador
Dejado
No fumador
Factor 1: Fumar
Figura 3. Sólo el efecto sexo es significativo.
Acuerdo
l
l
Hombres
n
n
n
Mujeres
Dejado
No fumador
Opinión
l
Desacuerdo
Fumador
Factor 1: Fumar
Figura 4. Los dos factores son significativos. No hay interacción
l Hombres
Acuerdo
n Mujeres
Opinión
l
n
l
Desacuerdo
n
Fumador
Dejado
No fumador
Factor 1: Fumar
En la figura 4, se observa el resultado que se obtendría cuando el sexo influye
(líneas separadas), pero también lo hace el hábito (medias distintas en los tres
grupos, es decir líneas no paralelas respecto al eje x).
17
Análisis de la varianza
Joaquín Aldás Manzano
La figura 5 muestra el resultado que conseguiremos cuando no influyan
ninguno de los dos factores (líneas juntas y paralelas al eje x) y, finalmente, la
figura 6 ilustra el caso de que ambos factores sean significativos (líneas separadas, no paralelas al eje x) pero, además, existe una interacción significativa
entre los factores, es decir, el hábito afecta más al cambio de opinión entre los
hombres que entre las mujeres, puesto que la pendiente de la recta de ellos es
superior a la de ellas.
Figura 5. Efectos principales no significativos
Opinión
Acuerdo
l
n
l
n
l
n
Hombres
Mujeres
Desacuerdo
Fumador
Dejado
No fumador
Factor 1: Fumar
Figura 6. Efectos principales e interacción significativos
Acuerdo
Opinión
l Hombres
l
n Mujeres
n
Desacuerdo
l
n
Fumador
Dejado
No fumador
Factor 1: Fumar
Ilustradas las posibles soluciones a nuestro ejemplo, veamos a continuación
cuáles son los resultados reales que se obtendrían tal y como los proporciona
SPSS. El cuadro 7 nos muestra los estadísticos descriptivos, básicamente, las
medias de la opinión sobre que se suban los impuestos sobre el tabaco entre
fumadores, no fumadores y aquellos que lo han dejado, pero distinguiendo
entre hombres y mujeres. Observando los datos, se comprueba que el
18
Análisis de la varianza
Joaquín Aldás Manzano
desacuerdo entre los fumadores es prácticamente el mismo sean estos hombres
(1,71) o mujeres (1,74). Tampoco se aprecian grandes diferencias en el acuerdo
entre no fumadores (3,59) y no fumadoras (3,39). La única diferencia apreciable está en que los hombres que lo han dejado, son menos comprensivos con los
fumadores (3,50) que las mujeres que lo han dejado (2,60).
Cuadro 7. Estadísticos descriptivos
Estadísticos descriptivos
Variable dependiente: Deben aumentarse los impuestos
sexo
¿FUMA USTED?
Hombre
SI
1,71
1,25
41
DEJADO
3,50
1,73
4
NO
3,59
1,26
46
Total
2,74
1,57
91
SI
1,74
1,10
66
DEJADO
2,60
1,51
10
NO
3,39
1,17
74
Total
2,61
1,40
150
SI
1,73
1,15
107
DEJADO
2,86
1,56
14
NO
3,47
1,20
120
Total
2,66
1,47
241
Mujer
Total
Media Desv. típ.
N
Estas diferencias basadas en estadísticos descriptivos son, sin embargo, aparentes. Debemos constatar si son estadísticamente significativas atendiendo al
contraste de hipótesis que se ha descrito. El análisis del cuadro 8 nos permite
obtener las siguientes conclusiones:
Ÿ
Ÿ
Ÿ
El sexo no ejerce una influencia significativa sobre la opinión
manifestada por los entrevistados acerca de que se suban o no los
impuestos. Se observa que la significatividad del estadístico F=1.82
de esta variable es superior a 0.05, concretamente p=0.178.
El fumar o no fumar, sí que ejerce una influencia significativa sobre
dicha opinión, como ya cabía esperar de los resultados que obtuvimos al realizar un análisis de la varianza de un factor. La significatividad del estadístico F=57.9 sí que es inferior a 0.05, en este caso
p=0.
La interacción de los dos factores anteriores tampoco es significativa
(F=0.862; p=0.424), es decir que las diferentes opiniones según el
19
Análisis de la varianza
Joaquín Aldás Manzano
hábito no son más o menos marcadas según cuál sea el sexo del
entrevistado.
Cuadro 8. Análisis de los efectos principales e interacción
Pruebas de los efectos inter-sujetos
Variable dependiente: Deben aumentarse los impuestos
Fuente
Suma de
cuadrados
tipo III
Media
cuadrática
gl
1
174,803
Intercept
643,121
1
SEXO
2,645
1
2,645
1,821
,178
FUMA
168,187
2
84,094
57,903
,000
2,503
2
1,252
,862
,424
Error
341,296
235
1,452
Total
2221,000
241
516,100
240
Total corregido
34,961
Sig.
Modelo corregido
SEXO * FUMA
5
F
24,072
,000
643,121 442,822
,000
1. R cuadrado = ,339 (R cuadrado corregido = ,325)
Se deja como ejercicio para el lector el que se comprueben los cálculos que
permiten obtener los estadísticos F de acuerdo con lo descrito en el cuadro 6.
Por ejemplo, para el factor sexo:
MCFsexo
F =
=
MCR
SCFsexo
2,645
J -1 =
2-1
341,29 = 1,821
SCR
n - GJ
241 - 3 × 2
Tal y como ocurría con el análisis de varianza de un factor, es fundamental
constatar el cumplimiento de la hipótesis de homogeneidad de las varianzas de
la variable dependiente mediante el test de Levene. Como se observa en el
cuadro 9, no puede rechazarse la hipótesis nula de homoscedasticidad
(p=0.225) a un nivel de significación razonable, luego los resultados pueden
considerarse sin las precauciones que se derivarían de su incumplimiento.
20
Análisis de la varianza
Joaquín Aldás Manzano
Cuadro 9. Test de Levene
Contraste de Levene sobre la igualdad de las varianzas error
1
Variable dependiente: Deben aumentarse los impuestos
F
1,400
gl1
gl2
5
235
Sig.
,225
Contrasta la hipótesis nula de que la varianza error de la variable
dependiente es igual a lo largo de todos los grupos.
1. Diseño: Intercept+FUMA+SEXO+FUMA * SEXO
Finalmente, ilustraremos el resultado obtenido (recuérdese: el hábito influye,
pero no así el sexo ni la interacción de ambos), con un gráfico similar a los que
utilizábamos para ejemplificar los posibles resultados que podían obtenerse
(figuras 2 a la 6), que se obtiene directamente de la salidad de SPSS. Analizando la figura 7, podemos constatar que las medias crecen sistemáticamente
cuando se pasa de ser fumador a haberlo dejado o no fumar. Por sexo las
medias están muy cercanas entre los fumadores y también entre los no fumadores, y la diferencia que se aprecia por sexo entre quienes lo han dejado, no
compensan la igualdad anterior, lo que se deriva en no influencia del factor
sexo. Esto es tanto más cierto, cuanto que el tamaño muestral de este grupo es
muy inferior a los demás, como se puede apreciar en el cuadro 7 (14 sobre 241
entrevistados).
21
Análisis de la varianza
Joaquín Aldás Manzano
Figura 7. Resultado gráfico del ANOVA
Medias marginales estimadas de Deben aumentarse los impuestos
4,0
Medias marginales estimadas
3,5
3,0
2,5
sexo
2,0
Hombre
1,5
Mujer
SI
DEJADO
NO
¿FUMA USTED?
Referencias bibliográficas
URIEL , E. (1995): Análisis de datos. Series temporales y análisis multivariable.
Madrid: Editorial AC.
HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate
Data Analysis. 4ª edición. Englewood Cliffs: Prentice Hall.
HATCHER, L. Y STEPANSKI, E.J. (1994): A Step-by-Step approach to using the
SAS System for univariate and multivariate statistics. Cary: SAS Institute Inc.
STEVENS, J. (1996): Applied Multivariate Statistics for the Social Sciences. 3ª
edición. Mahwah, NJ: Lawrence Erlbaum.
Descargar