Modelos de ANOVA

Anuncio
Ignacio Martín Tamayo
25
Tema: ANÁLISIS DE VARIANZA CON SPSS 8.0
ÍNDICE
--------------------------------------------------------1. Modelos de ANOVA
2. ANOVA unifactorial entregrupos
3. ANOVA multifactorial entregrupos
4. ANOVA con medidas repetidas
---------------------------------------------------------1.- Modelos de ANOVA
La técnica del Análisis de la Varianza (ANOVA o AVAR) es una de las técnicas más utilizadas
en los análisis de los datos de los diseños experimentales. Se utiliza cuando queremos contrastar más de
dos medias, por lo que puede verse como una extensión de la prueba t para diferencias de dos medias.
El ANOVA es un método muy flexible que permite construir modelos estadísticos para el análisis de
los datos experimentales cuyo valor ha sido constatado en muy diversas circunstancias. Básicamente es
un procedimiento que permite dividir la varianza de la variable dependiente en dos o más componentes,
cada uno de los cuales puede ser atribuido a una fuente (variable o factor) identificable.
Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma:
(Valor observado) =∑ (efectos atribuibles) + ∑ (efectos no atribuibles o residuales)
El valor observado se refiere al que se obtiene en la variable cuantitativa dependiente. Los efectos
atribuibles son parámetros o variables aleatorias que son el resultado de cambios en los factores o
variables independientes y, por tanto, atribuibles a ellos. Aquellos efectos no atribuibles a ningún factor
controlado se denominan efectos residuales o variables aleatorias residuales.
El ANOVA está basado en ciertos supuestos, unos más plausibles que otros, acerca de dichas
variables aleatorias. Es evidente que cuantos más factores introduzcamos menos cantidad de variación
residual (error) quedará por explicar. Pero siempre quedará alguna variación residual. Los supuestos en
los que está basado respecto a la variación residual se resumen en los siguientes:
1.
El valor esperado de cada variable aleatoria residual es cero. Esto significa que toda la variación de
los valores esperados es debida a los parámetros (y/o variables aleatorias) que representan efectos
atribuibles. En la mayor parte de las situaciones este supuesto no es incorrecto.
2. Las variables aleatorias residuales son mutuamente independientes. Significa que entre las
observaciones no existe nexo alguno que no sea explicado por los factores controlados. El supuesto
no es tan claramente correcto como el primero, pero se puede mantener razonablemente si los
individuos se eligen al azar y la medición se hace separadamente para cada uno.
3. Todas las variables aleatorias residuales tienen la misma desviación típica. Es el llamado supuesto
de homoscedasticidad o de igualdad de varianzas. Es el menos viable, pues los métodos de medida
producen variaciones de diferente magnitud y sabemos que los valores esperados están relacionados
con las desviaciones típicas. Hay distintos métodos para conseguir que tal supuesto sea satisfecho:
número igual de sujetos en los tratamientos, transformación de las observaciones originales, etc.
4. Toda variable aleatoria residual se distribuye normalmente. Es probablemente, el menos válido de
los cuatro. Sin embargo, se puede tolerar cierto alejamiento de la normalidad con mínimo efecto
práctico sobre las propiedades del ANOVA.
Los modelos del ANOVA son muchos y no vamos a desarrollarlos todos. Los que veremos son, quizá,
los más representativos, pero no sirven para todas las situaciones. Tres son los criterios que vamos a
utilizar para clasificar los modelos: número de factores, muestreo de niveles y tipo de aleatorización.
a) Número de factores: Aquellos experimentos que utilizan una sola variable independiente o
factor y una variable dependiente se analizan mediante varianza llamado de un factor, de
clasificación simple, unidireccional o de una vía (one way). Se trata de comparar grupos o muestras
que difieren sistemáticamente en un solo factor.
Ignacio Martín Tamayo
26
Si varios grupos o muestras se asignan a diferentes combinaciones de dos factores, el ANOVA
correspondiente es llamado de dos factores, de clasificación doble, bidireccional o de dos vías (two
way). Se trata de comparar grupos o muestras que difieren sistemáticamente en dos factores. Y así
sucesivamente.
b) Muestreo de niveles: Como sabemos, el factor es la variable independiente o experimental
controlada por el investigador. Puede tomar pocos o muchos valores o niveles, a cada uno de los
cuales se asignan los grupos o muestras. Si se toman K niveles del factor, a cada uno se asignan las
muestras y las inferencias se refieren exclusivamente a los K niveles y no a otros que podrían haber
sido incluidos, el ANOVA se llama de efectos fijos, sistemático o paramétrico. El interés del diseño
se centra en saber si esos niveles concretos difieren entre sí.
Cuando los niveles son muchos y se seleccionan al azar K niveles, pero las inferencias se desean
hacer respecto al total de niveles, el análisis de varianza se denomina de efectos aleatorios. La idea
básica es que el investigador no tiene interés en niveles particulares del factor.
Cuando se utilizan dos factores, cada uno con varios niveles, uno de efectos fijos y otro de
efectos aleatorios, el análisis de varianza es mixto.
Los dos criterios de clasificación vistos hasta el momento obviamente se verán reflejados en el
modelo general del análisis de varianza. Cuando los factores sean de efectos fijos aparecerán en la
fórmula como parámetros (con letras griegas), cuando los factores sean de efectos aleatorios,
aparecerán como variables aleatorias (con letras mayúsculas latinas). Así:
a) Yjj = µ + αi + Eij
b) Yjj = µ + Ai + Eij
e) Yijk =µ + αi + βj + Eij
d) Yijk =µ + αi + Bj + Eij, etc.
El a) es un ANOVA de un factor, efectos fijos; el b) es un ANOVA de un factor, efectos
aleatorios; el c) es un ANOVA de dos factores, efectos fijos; el d) es un ANOVA de dos factores, en
el que el factor A es fijo y el factor B aleatorio; es, por tanto, un modelo mixto; µ es una constante y
+ Eij es la variable aleatoria residual o error.
c) Tipo de aleatorización: Sabemos que la aleatorización es el procedimiento por el cual las
unidades experimentales (en general, los sujetos) se asignan al azar a los niveles del factor o
tratamientos, de modo que todas ellas tengan la misma probabilidad de recibir un tratamiento o nivel
determinado.
Esta aleatorización se puede llevar a cabo en el total de las observaciones o por bloques. Ello
dará origen a dos tipos distintos de diseño experimental: completamente aleatorizado (CA) o
aleatorizado en bloques (BA).
Cuando una variable extraña se utiliza para dividir a los sujetos en subgrupos o bloques se
denomina variable de bloqueo. El objetivo es eliminar su efecto. Diseños más complejos pueden
utilizar más de una variable de bloqueo. El bloqueo llevado a sus extremos puede ser aquel en el que
un bloque son medidas de un único sujeto. Es decir, sólo un sujeto recibe todos los tratamientos, de
modo que se eliminará mayor número de variables exógenas o extrañas. Este tipo de diseño se suele
llamar de medidas repetidas o intrasujetos.
2.- ANOVA unifactorial entregrupos
El procedimiento ANOVA de un factor de SPSS genera un Análisis de la Varianza de un factor
para una variable dependiente cuantitativa respecto a una única variable de factor (la variable
independiente) de efectos fijos y completamente aleatorizado. Se utiliza para contrastar la hipótesis de si
las medias calculadas en varios grupos son iguales o diferentes.
Además de determinar que existen diferencias entre las medias, es posible que desee saber qué
medias difieren. Existen dos tipos de contrastes para comparar medias: los contrastes a priori y las
pruebas post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y las pruebas post
hoc se realizan después de haber llevado a cabo el experimento. También pueden contrastarse las
tendencias existentes a través de las categorías.
Para obtener el ANOVA de un factor debe elegir en la barra de menús Estadística y
posteriormente el procedimiento Comparar medias y dentro de este ANOVA de un factor. Cuando
seleccione este procedimiento le aparecerá en pantalla la siguiente ventana.
Ignacio Martín Tamayo
27
Por ejemplo, si quisiéramos saber si tres métodos de enseñanza distintos influyen sobre el
rendimiento académico de tres grupos distintos de sujetos podríamos realizar un ANOVA unifactorial
entregrupos o completamente aleatorizado de efectos fijos usando como Variable Dependiente el
Rendimiento y como factor el método (nota: hay que incluir el factor método como variable entera y no
de cadena al definir las variables). En este caso obtendríamos una salida como esta:
ANOVA RENDIMIENTO
Suma de cuadrados gl Media cuadrática
Inter-grupos
45,805
2
22,902
Intra-grupos
85,350
27
3,161
Total
131,155
29
F
7,245
Sig.
,003
El procedimiento permite establecer contrastes a priori en el botón Contrastes. En esta opción
se pueden dividir las sumas de cuadrados en componentes de tendencia o bien especificar contrastes a
priori que estén implícitos en las hipótesis planteadas por el investigador previo a los análisis. Para
realizarlos debe introducir un coeficiente para cada grupo de la variable factor y pulsar Añadir después de
cada entrada. El orden de entrada es importante porque se corresponde con el orden ascendente de los
valores de las categorías de la variable factor. Por ejemplo si deseáramos contrastar el método 1 frente al
2 y el 3 deberíamos introducir los coeficientes en este orden –1, 0.5 y 0.5. Para la mayoría de las
aplicaciones la suma de los coeficientes deberá ser cero.
El botón Post hoc permite realizar contrastes a posteriori para determinar que medias difieren si
el análisis ha salido significativo. Se pueden elegir entre distintos estadísticos para realizar los contrastes.
El botón Opciones permite seleccionar estadísticos descriptivos, prueba de homogeneidad de
varianzas, gráfico para las medias y permite controlar el tratamiento de valores perdidos.
3. - ANOVA multifactorial entregrupos
Si deseamos realizar una ANOVA unifactorial entregrupos del tipo anterior o otro tipo o
ANOVAs de dos o más factores entregrupos el procedimiento indicado por el programa SPSS es en el
menú Estadística la opción Modelo lineal general y dentro de esta MLG Factorial general.
El procedimiento MLG (Modelo Lineal General) Factorial general proporciona un análisis de
regresión y un ANOVA para una variable dependiente mediante uno o más factores o variables que
dividen la población en grupos. Con este procedimiento se pueden contrastar hipótesis nulas sobre los
efectos de otras variables en las medias de varias agrupaciones de una única variable dependiente. Se
pueden investigar las interacciones entre los factores así como los efectos de los factores individuales,
algunos de los cuales pueden ser de efectos aleatorios. Además, aunque no es de nuestro interés en este
tema, se pueden incluir los efectos de covariables y las interacciones de covariables con los factores. Para
el análisis de regresión, las variables independientes (predictoras) se especifican como covariables.
Es posible contrastar modelos equilibrados (si todas las casillas del modelo contienen igual
número de casos) y no equilibrados. También permite estimar los parámetros del modelo. Además, se
encuentran disponibles contrastes a priori y a posteriori.
Ignacio Martín Tamayo
28
Supongamos que un investigador está interesado en conocer el efecto que tiene la intensidad
luminosa de un estímulo y el color sobre el tiempo de reacción. Para ello, eligió seis grupos de cinco
sujetos asignados aleatoriamente a los que presentó diez estímulos. A cada grupo le presentó los
estímulos con un color diferente (verde y azul) y con un nivel de intensidad distinto (baja, media y alta) y
calculó el tiempo de reacción medio en los diez estímulos presentados a cada sujeto. ¿Tiene efecto el
color y la intensidad de presentación en el tiempo de reacción? Lo se debería realizar para responder a
esta pregunta es un ANOVA con dos factores de efectos fijos y completamente aleatorizado. Si
utilizaramos el SPSS la ventana que aparecería tras introducir los datos y elegir en el menú Estadística y
la opción Modelo lineal general y posteriormente MLG Factorial general será:
Si situamos la variable tiempo de reacción en la cuadro dependiente y las variables color e
intensidad en el cuadro Factores fijos la salida que proporciona el programa es la siguiente:
Pruebas de los efectos inter-sujetos
Variable dependiente: TR
Fuente
Suma de cuadrados
gl
Media
tipo III
cuadrática
Modelo corregido
2062,167
5
412,433
Intersección
37949,633
1
37949,633
INTENSID
2054,867
2
1027,433
COLOR
4,033
1
4,033
INTENSID * COLOR
3,267
2
1,633
Error
1001,200
24
41,717
Total
41013,000
30
Total corregido
3063,367
29
R cuadrado = ,673 (R cuadrado corregido = ,605)
F
Sig.
9,887
909,700
24,629
,097
,039
,000
,000
,000
,759
,962
La tabla que proporciona la salida contiene en las filas los componentes del modelo que
contribuyen a la variación de la variable dependiente. La filas denominadas Modelo corregido e
intersección contienen los valores para el modelo de regresión. Las columnas INTENSID y COLOR son
los efectos principales del modelo e INTENSID * COLOR es la interacción entre los dos factores y el
Error hace referencia al término error del ANOVA. En estas filas debemos observar la suma de
cuadrados, los grados de libertad, la media cuadrática, el valor del estadístico de contraste F y la
significación del contraste (para considerar un contraste significativo la probabilidad debe ser menor de
0.05 o de 0.01). En este caso sólo la variable Intensidad ha tenido efecto sobre la variable dependiente
Tiempo de reacción.
Ignacio Martín Tamayo
29
Además, el procedimiento MLG Factorial general permite trabajar con una serie de opciones que
pueden seleccionarse pulsando los botones que aparen en la ventana principal de este procedimiento. Las
posibilidades principales son:
a)
Modelo: permite especificar el modelo de ANOVA. Por defecto se entiende que el modelo
es Factorial completo que contiene todos los efectos principales y de interacción. Si desea
puede realizar un modelo personalizado (por ejemplo, si tiene una variable de bloqueo no
incluirá la interacción de esta variable con las demás variables de tratamiento). Si
selecciona la opción personalizado debe especificar los efectos principales e interacciones
que desee incluir en el modelo. En esta ventana también puede seleccionar el tipo de suma
de cuadrados (Tipo I, II, III y IV). Esta opción determina el método para calcular las sumas
de cuadrados. Para los modelos equilibrados y no equilibrados, el método más utilizado es
el Tipo III, que es el que se incluye por defecto.
b) Contrastes: se utiliza para contrastar las diferencias entre los niveles de un factor. Puede
especificarse un contraste para cada factor del modelo. Los contrastes disponibles son:
desviación (compara la media de cada nivel con la media global de todos los niveles),
simple (compara la media de cada nivel con la media de un nivel especificado), diferencia
(Compra la media de cada nivel con la media de los niveles anteriores), Helmert (compara
la media de cada nivel con los niveles siguientes), Repetido (compara la media de cada
nivel con la media del nivel siguiente) y polinómico (compara el efecto lineal, cuadrático,
cúbico, etc.
c)
Gráficos: Permite realizar gráficos de perfil que sirven para comparar las medias
marginales del modelo.
d) Post hoc: Una vez que se ha determinado que hay diferencias entre las medias, las pruebas
de rango post hoc y las comparaciones pueden determinar qué medias difieren. Se realizan
las comparaciones para aquellos efectos significativos con la opción de asumir o no
igualdad de varianzas.
e)
Guardar: La opción guardar permite guardar los valores pronosticados por el modelo, los
residuos y las medias relacionadas como variables nuevas en el editor de datos Muchas de
estas variables se pueden utilizar para examinar supuestos sobre los datos.
f)
Opciones: Este cuadro de diálogo contiene estadísticos opcionales. Los estadísticos se
calculan utilizando un modelo de efectos fijos.
4.- ANOVA con medidas repetidas
Este procedimiento debe utilizarse cuando tenemos al menos una variable manipulada
intrasujetos, es decir, cuando todos los sujetos reciben o pasan por todos los niveles de esa variable
independiente. Así, se utilizará en aquellos casos que tengamos sólo una variable independiente
intrasujeto (diseño unifactorial de medidas repetidas), o cuando tengamos dos variables independientes
ambas intrasujeto (Diseño bifactorial de medidas repetidas) o una de ellas intrasujeto y la otra entregrupos
(diseño bifactorial mixto). En todos estos casos y en sus extensiones lo más adecuado es seleccionar en el
menú Estadística el procedimiento Modelo lineal general y después MLG Medidas repetidas.
Veamos un ejemplo de un diseño bifactorial con las dos variables independientes manipuladas
intrasujeto. Un investigador está comprobando si la dosis de cierta droga y el momento del dia en la que
se administren tiene efecto sobre los procesos atencionales. Para ello seleccionó una muestra de sujetos y
les administro dosis de droga en seis ocasiones distintas: tres por la mañana y tres por la tarde con tres
niveles de droga distintos en cada ocasión y midió el número de aciertos de cero a cien en una tarea
atencional. Para ello introdujo los datos en el Editor del Spss de la siguiente forma:
Ignacio Martín Tamayo
30
Como habitualmente, se utiliza una fila para cada sujeto y, por tanto, hay seis medidas de la
variable dependiente en seis casos distintos, desde dosis de droga baja por la mañana (d1m1) hasta dosis
de droga alta por la tarde (d3m2). Una vez introducidos los datos debemos seleccionar el procedimiento
MLG Medidas repetidas. Cuando realizamos esta acción, la ventana que aparece es la siguiente:
En esta ventana debemos ir definiendo los factores o variables independientes uno a uno. En
nuestro caso tenemos dos factores. El factor dosis de droga con tres niveles (baja, media y elevada) y
momento del día con dos niveles (mañana y tarde).
Cada vez debemos indicar el nombre del factor y el número de niveles y pulsar después el botón
añadir. En nuestro caso podemos poner en el nombre del factor intrasujetos dosis y en el número de
niveles 3 y pulsar añadir, para posteriormente nombrar como momento y 2 niveles y volver a pulsar
añadir. Cuando hemos finalizado debemos pulsar el botón Definir y automáticamente aparecerá la
siguiente ventana.
Ignacio Martín Tamayo
31
En esa ventana se deben ir seleccionando ordenadamente la combinación de niveles de la
variable intrasujetos. También permite introducir variables manipuladas entregrupos para los diseños
mixtos y covariables para los Análisis de Covarianza. Una vez que se han seleccionado los niveles
adecuadamente la salida que proporciona SPSS es similar a la siguiente:
Pruebas de efectos intra-sujetos.
Suma de cuad.
gl
Media
F
Sig.
tipo III
cuadrática
DOSIS
Esfericidad asumida
10213,233
2
5106,617 133,261 ,000
Greenhouse-Geisser
10213,233
1,595
6404,991 133,261 ,000
Huynh-Feldt
10213,233
1,883
5423,400 133,261 ,000
Límite-inferior
10213,233
1,000 10213,233 133,261 ,000
Error(DOSIS)
Esfericidad asumida
689,767
18
38,320
Greenhouse-Geisser
689,767
14,351
48,063
Huynh-Feldt
689,767
16,949
40,698
Límite-inferior
689,767
9,000
76,641
MOMEN
Esfericidad asumida
1,667
1
1,667
,281 ,609
Greenhouse-Geisser
1,667
1,000
1,667
,281 ,609
Huynh-Feldt
1,667
1,000
1,667
,281 ,609
Límite-inferior
1,667
1,000
1,667
,281 ,609
Error(MOMEN) Esfericidad asumida
53,333
9
5,926
Greenhouse-Geisser
53,333
9,000
5,926
Huynh-Feldt
53,333
9,000
5,926
Límite-inferior
53,333
9,000
5,926
DOSIS * MOMEN Esfericidad asumida
3,433
2
1,717
,444 ,648
Greenhouse-Geisser
3,433
1,500
2,289
,444 ,595
Huynh-Feldt
3,433
1,733
1,981
,444 ,622
Límite-inferior
3,433
1,000
3,433
,444 ,522
Error(DOSIS*MO Esfericidad asumida
69,567
18
3,865
MEN)
Greenhouse-Geisser
69,567
13,497
5,154
Huynh-Feldt
69,567
15,596
4,461
Límite-inferior
69,567
9,000
7,730
Fuente
Como puede comprobarse sólo el factor dosis ha tenido efecto significativo sobre la variable
atención en el componente lineal y cuadrático.
Como en el caso del procedimiento MLG Factorial general , en este caso también disponemos de
diversas opciones similares a las ya indicadas en el apartado anterior. La diferencia más importante hace
referencia al botón Post hoc, ya que en MLG Medidas repetidas estas pruebas no están disponibles si no
hay factores entregrupos.
Descargar