Ignacio Martín Tamayo 25 Tema: ANÁLISIS DE VARIANZA CON SPSS 8.0 ÍNDICE --------------------------------------------------------1. Modelos de ANOVA 2. ANOVA unifactorial entregrupos 3. ANOVA multifactorial entregrupos 4. ANOVA con medidas repetidas ---------------------------------------------------------1.- Modelos de ANOVA La técnica del Análisis de la Varianza (ANOVA o AVAR) es una de las técnicas más utilizadas en los análisis de los datos de los diseños experimentales. Se utiliza cuando queremos contrastar más de dos medias, por lo que puede verse como una extensión de la prueba t para diferencias de dos medias. El ANOVA es un método muy flexible que permite construir modelos estadísticos para el análisis de los datos experimentales cuyo valor ha sido constatado en muy diversas circunstancias. Básicamente es un procedimiento que permite dividir la varianza de la variable dependiente en dos o más componentes, cada uno de los cuales puede ser atribuido a una fuente (variable o factor) identificable. Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma: (Valor observado) =∑ (efectos atribuibles) + ∑ (efectos no atribuibles o residuales) El valor observado se refiere al que se obtiene en la variable cuantitativa dependiente. Los efectos atribuibles son parámetros o variables aleatorias que son el resultado de cambios en los factores o variables independientes y, por tanto, atribuibles a ellos. Aquellos efectos no atribuibles a ningún factor controlado se denominan efectos residuales o variables aleatorias residuales. El ANOVA está basado en ciertos supuestos, unos más plausibles que otros, acerca de dichas variables aleatorias. Es evidente que cuantos más factores introduzcamos menos cantidad de variación residual (error) quedará por explicar. Pero siempre quedará alguna variación residual. Los supuestos en los que está basado respecto a la variación residual se resumen en los siguientes: 1. El valor esperado de cada variable aleatoria residual es cero. Esto significa que toda la variación de los valores esperados es debida a los parámetros (y/o variables aleatorias) que representan efectos atribuibles. En la mayor parte de las situaciones este supuesto no es incorrecto. 2. Las variables aleatorias residuales son mutuamente independientes. Significa que entre las observaciones no existe nexo alguno que no sea explicado por los factores controlados. El supuesto no es tan claramente correcto como el primero, pero se puede mantener razonablemente si los individuos se eligen al azar y la medición se hace separadamente para cada uno. 3. Todas las variables aleatorias residuales tienen la misma desviación típica. Es el llamado supuesto de homoscedasticidad o de igualdad de varianzas. Es el menos viable, pues los métodos de medida producen variaciones de diferente magnitud y sabemos que los valores esperados están relacionados con las desviaciones típicas. Hay distintos métodos para conseguir que tal supuesto sea satisfecho: número igual de sujetos en los tratamientos, transformación de las observaciones originales, etc. 4. Toda variable aleatoria residual se distribuye normalmente. Es probablemente, el menos válido de los cuatro. Sin embargo, se puede tolerar cierto alejamiento de la normalidad con mínimo efecto práctico sobre las propiedades del ANOVA. Los modelos del ANOVA son muchos y no vamos a desarrollarlos todos. Los que veremos son, quizá, los más representativos, pero no sirven para todas las situaciones. Tres son los criterios que vamos a utilizar para clasificar los modelos: número de factores, muestreo de niveles y tipo de aleatorización. a) Número de factores: Aquellos experimentos que utilizan una sola variable independiente o factor y una variable dependiente se analizan mediante varianza llamado de un factor, de clasificación simple, unidireccional o de una vía (one way). Se trata de comparar grupos o muestras que difieren sistemáticamente en un solo factor. Ignacio Martín Tamayo 26 Si varios grupos o muestras se asignan a diferentes combinaciones de dos factores, el ANOVA correspondiente es llamado de dos factores, de clasificación doble, bidireccional o de dos vías (two way). Se trata de comparar grupos o muestras que difieren sistemáticamente en dos factores. Y así sucesivamente. b) Muestreo de niveles: Como sabemos, el factor es la variable independiente o experimental controlada por el investigador. Puede tomar pocos o muchos valores o niveles, a cada uno de los cuales se asignan los grupos o muestras. Si se toman K niveles del factor, a cada uno se asignan las muestras y las inferencias se refieren exclusivamente a los K niveles y no a otros que podrían haber sido incluidos, el ANOVA se llama de efectos fijos, sistemático o paramétrico. El interés del diseño se centra en saber si esos niveles concretos difieren entre sí. Cuando los niveles son muchos y se seleccionan al azar K niveles, pero las inferencias se desean hacer respecto al total de niveles, el análisis de varianza se denomina de efectos aleatorios. La idea básica es que el investigador no tiene interés en niveles particulares del factor. Cuando se utilizan dos factores, cada uno con varios niveles, uno de efectos fijos y otro de efectos aleatorios, el análisis de varianza es mixto. Los dos criterios de clasificación vistos hasta el momento obviamente se verán reflejados en el modelo general del análisis de varianza. Cuando los factores sean de efectos fijos aparecerán en la fórmula como parámetros (con letras griegas), cuando los factores sean de efectos aleatorios, aparecerán como variables aleatorias (con letras mayúsculas latinas). Así: a) Yjj = µ + αi + Eij b) Yjj = µ + Ai + Eij e) Yijk =µ + αi + βj + Eij d) Yijk =µ + αi + Bj + Eij, etc. El a) es un ANOVA de un factor, efectos fijos; el b) es un ANOVA de un factor, efectos aleatorios; el c) es un ANOVA de dos factores, efectos fijos; el d) es un ANOVA de dos factores, en el que el factor A es fijo y el factor B aleatorio; es, por tanto, un modelo mixto; µ es una constante y + Eij es la variable aleatoria residual o error. c) Tipo de aleatorización: Sabemos que la aleatorización es el procedimiento por el cual las unidades experimentales (en general, los sujetos) se asignan al azar a los niveles del factor o tratamientos, de modo que todas ellas tengan la misma probabilidad de recibir un tratamiento o nivel determinado. Esta aleatorización se puede llevar a cabo en el total de las observaciones o por bloques. Ello dará origen a dos tipos distintos de diseño experimental: completamente aleatorizado (CA) o aleatorizado en bloques (BA). Cuando una variable extraña se utiliza para dividir a los sujetos en subgrupos o bloques se denomina variable de bloqueo. El objetivo es eliminar su efecto. Diseños más complejos pueden utilizar más de una variable de bloqueo. El bloqueo llevado a sus extremos puede ser aquel en el que un bloque son medidas de un único sujeto. Es decir, sólo un sujeto recibe todos los tratamientos, de modo que se eliminará mayor número de variables exógenas o extrañas. Este tipo de diseño se suele llamar de medidas repetidas o intrasujetos. 2.- ANOVA unifactorial entregrupos El procedimiento ANOVA de un factor de SPSS genera un Análisis de la Varianza de un factor para una variable dependiente cuantitativa respecto a una única variable de factor (la variable independiente) de efectos fijos y completamente aleatorizado. Se utiliza para contrastar la hipótesis de si las medias calculadas en varios grupos son iguales o diferentes. Además de determinar que existen diferencias entre las medias, es posible que desee saber qué medias difieren. Existen dos tipos de contrastes para comparar medias: los contrastes a priori y las pruebas post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y las pruebas post hoc se realizan después de haber llevado a cabo el experimento. También pueden contrastarse las tendencias existentes a través de las categorías. Para obtener el ANOVA de un factor debe elegir en la barra de menús Estadística y posteriormente el procedimiento Comparar medias y dentro de este ANOVA de un factor. Cuando seleccione este procedimiento le aparecerá en pantalla la siguiente ventana. Ignacio Martín Tamayo 27 Por ejemplo, si quisiéramos saber si tres métodos de enseñanza distintos influyen sobre el rendimiento académico de tres grupos distintos de sujetos podríamos realizar un ANOVA unifactorial entregrupos o completamente aleatorizado de efectos fijos usando como Variable Dependiente el Rendimiento y como factor el método (nota: hay que incluir el factor método como variable entera y no de cadena al definir las variables). En este caso obtendríamos una salida como esta: ANOVA RENDIMIENTO Suma de cuadrados gl Media cuadrática Inter-grupos 45,805 2 22,902 Intra-grupos 85,350 27 3,161 Total 131,155 29 F 7,245 Sig. ,003 El procedimiento permite establecer contrastes a priori en el botón Contrastes. En esta opción se pueden dividir las sumas de cuadrados en componentes de tendencia o bien especificar contrastes a priori que estén implícitos en las hipótesis planteadas por el investigador previo a los análisis. Para realizarlos debe introducir un coeficiente para cada grupo de la variable factor y pulsar Añadir después de cada entrada. El orden de entrada es importante porque se corresponde con el orden ascendente de los valores de las categorías de la variable factor. Por ejemplo si deseáramos contrastar el método 1 frente al 2 y el 3 deberíamos introducir los coeficientes en este orden –1, 0.5 y 0.5. Para la mayoría de las aplicaciones la suma de los coeficientes deberá ser cero. El botón Post hoc permite realizar contrastes a posteriori para determinar que medias difieren si el análisis ha salido significativo. Se pueden elegir entre distintos estadísticos para realizar los contrastes. El botón Opciones permite seleccionar estadísticos descriptivos, prueba de homogeneidad de varianzas, gráfico para las medias y permite controlar el tratamiento de valores perdidos. 3. - ANOVA multifactorial entregrupos Si deseamos realizar una ANOVA unifactorial entregrupos del tipo anterior o otro tipo o ANOVAs de dos o más factores entregrupos el procedimiento indicado por el programa SPSS es en el menú Estadística la opción Modelo lineal general y dentro de esta MLG Factorial general. El procedimiento MLG (Modelo Lineal General) Factorial general proporciona un análisis de regresión y un ANOVA para una variable dependiente mediante uno o más factores o variables que dividen la población en grupos. Con este procedimiento se pueden contrastar hipótesis nulas sobre los efectos de otras variables en las medias de varias agrupaciones de una única variable dependiente. Se pueden investigar las interacciones entre los factores así como los efectos de los factores individuales, algunos de los cuales pueden ser de efectos aleatorios. Además, aunque no es de nuestro interés en este tema, se pueden incluir los efectos de covariables y las interacciones de covariables con los factores. Para el análisis de regresión, las variables independientes (predictoras) se especifican como covariables. Es posible contrastar modelos equilibrados (si todas las casillas del modelo contienen igual número de casos) y no equilibrados. También permite estimar los parámetros del modelo. Además, se encuentran disponibles contrastes a priori y a posteriori. Ignacio Martín Tamayo 28 Supongamos que un investigador está interesado en conocer el efecto que tiene la intensidad luminosa de un estímulo y el color sobre el tiempo de reacción. Para ello, eligió seis grupos de cinco sujetos asignados aleatoriamente a los que presentó diez estímulos. A cada grupo le presentó los estímulos con un color diferente (verde y azul) y con un nivel de intensidad distinto (baja, media y alta) y calculó el tiempo de reacción medio en los diez estímulos presentados a cada sujeto. ¿Tiene efecto el color y la intensidad de presentación en el tiempo de reacción? Lo se debería realizar para responder a esta pregunta es un ANOVA con dos factores de efectos fijos y completamente aleatorizado. Si utilizaramos el SPSS la ventana que aparecería tras introducir los datos y elegir en el menú Estadística y la opción Modelo lineal general y posteriormente MLG Factorial general será: Si situamos la variable tiempo de reacción en la cuadro dependiente y las variables color e intensidad en el cuadro Factores fijos la salida que proporciona el programa es la siguiente: Pruebas de los efectos inter-sujetos Variable dependiente: TR Fuente Suma de cuadrados gl Media tipo III cuadrática Modelo corregido 2062,167 5 412,433 Intersección 37949,633 1 37949,633 INTENSID 2054,867 2 1027,433 COLOR 4,033 1 4,033 INTENSID * COLOR 3,267 2 1,633 Error 1001,200 24 41,717 Total 41013,000 30 Total corregido 3063,367 29 R cuadrado = ,673 (R cuadrado corregido = ,605) F Sig. 9,887 909,700 24,629 ,097 ,039 ,000 ,000 ,000 ,759 ,962 La tabla que proporciona la salida contiene en las filas los componentes del modelo que contribuyen a la variación de la variable dependiente. La filas denominadas Modelo corregido e intersección contienen los valores para el modelo de regresión. Las columnas INTENSID y COLOR son los efectos principales del modelo e INTENSID * COLOR es la interacción entre los dos factores y el Error hace referencia al término error del ANOVA. En estas filas debemos observar la suma de cuadrados, los grados de libertad, la media cuadrática, el valor del estadístico de contraste F y la significación del contraste (para considerar un contraste significativo la probabilidad debe ser menor de 0.05 o de 0.01). En este caso sólo la variable Intensidad ha tenido efecto sobre la variable dependiente Tiempo de reacción. Ignacio Martín Tamayo 29 Además, el procedimiento MLG Factorial general permite trabajar con una serie de opciones que pueden seleccionarse pulsando los botones que aparen en la ventana principal de este procedimiento. Las posibilidades principales son: a) Modelo: permite especificar el modelo de ANOVA. Por defecto se entiende que el modelo es Factorial completo que contiene todos los efectos principales y de interacción. Si desea puede realizar un modelo personalizado (por ejemplo, si tiene una variable de bloqueo no incluirá la interacción de esta variable con las demás variables de tratamiento). Si selecciona la opción personalizado debe especificar los efectos principales e interacciones que desee incluir en el modelo. En esta ventana también puede seleccionar el tipo de suma de cuadrados (Tipo I, II, III y IV). Esta opción determina el método para calcular las sumas de cuadrados. Para los modelos equilibrados y no equilibrados, el método más utilizado es el Tipo III, que es el que se incluye por defecto. b) Contrastes: se utiliza para contrastar las diferencias entre los niveles de un factor. Puede especificarse un contraste para cada factor del modelo. Los contrastes disponibles son: desviación (compara la media de cada nivel con la media global de todos los niveles), simple (compara la media de cada nivel con la media de un nivel especificado), diferencia (Compra la media de cada nivel con la media de los niveles anteriores), Helmert (compara la media de cada nivel con los niveles siguientes), Repetido (compara la media de cada nivel con la media del nivel siguiente) y polinómico (compara el efecto lineal, cuadrático, cúbico, etc. c) Gráficos: Permite realizar gráficos de perfil que sirven para comparar las medias marginales del modelo. d) Post hoc: Una vez que se ha determinado que hay diferencias entre las medias, las pruebas de rango post hoc y las comparaciones pueden determinar qué medias difieren. Se realizan las comparaciones para aquellos efectos significativos con la opción de asumir o no igualdad de varianzas. e) Guardar: La opción guardar permite guardar los valores pronosticados por el modelo, los residuos y las medias relacionadas como variables nuevas en el editor de datos Muchas de estas variables se pueden utilizar para examinar supuestos sobre los datos. f) Opciones: Este cuadro de diálogo contiene estadísticos opcionales. Los estadísticos se calculan utilizando un modelo de efectos fijos. 4.- ANOVA con medidas repetidas Este procedimiento debe utilizarse cuando tenemos al menos una variable manipulada intrasujetos, es decir, cuando todos los sujetos reciben o pasan por todos los niveles de esa variable independiente. Así, se utilizará en aquellos casos que tengamos sólo una variable independiente intrasujeto (diseño unifactorial de medidas repetidas), o cuando tengamos dos variables independientes ambas intrasujeto (Diseño bifactorial de medidas repetidas) o una de ellas intrasujeto y la otra entregrupos (diseño bifactorial mixto). En todos estos casos y en sus extensiones lo más adecuado es seleccionar en el menú Estadística el procedimiento Modelo lineal general y después MLG Medidas repetidas. Veamos un ejemplo de un diseño bifactorial con las dos variables independientes manipuladas intrasujeto. Un investigador está comprobando si la dosis de cierta droga y el momento del dia en la que se administren tiene efecto sobre los procesos atencionales. Para ello seleccionó una muestra de sujetos y les administro dosis de droga en seis ocasiones distintas: tres por la mañana y tres por la tarde con tres niveles de droga distintos en cada ocasión y midió el número de aciertos de cero a cien en una tarea atencional. Para ello introdujo los datos en el Editor del Spss de la siguiente forma: Ignacio Martín Tamayo 30 Como habitualmente, se utiliza una fila para cada sujeto y, por tanto, hay seis medidas de la variable dependiente en seis casos distintos, desde dosis de droga baja por la mañana (d1m1) hasta dosis de droga alta por la tarde (d3m2). Una vez introducidos los datos debemos seleccionar el procedimiento MLG Medidas repetidas. Cuando realizamos esta acción, la ventana que aparece es la siguiente: En esta ventana debemos ir definiendo los factores o variables independientes uno a uno. En nuestro caso tenemos dos factores. El factor dosis de droga con tres niveles (baja, media y elevada) y momento del día con dos niveles (mañana y tarde). Cada vez debemos indicar el nombre del factor y el número de niveles y pulsar después el botón añadir. En nuestro caso podemos poner en el nombre del factor intrasujetos dosis y en el número de niveles 3 y pulsar añadir, para posteriormente nombrar como momento y 2 niveles y volver a pulsar añadir. Cuando hemos finalizado debemos pulsar el botón Definir y automáticamente aparecerá la siguiente ventana. Ignacio Martín Tamayo 31 En esa ventana se deben ir seleccionando ordenadamente la combinación de niveles de la variable intrasujetos. También permite introducir variables manipuladas entregrupos para los diseños mixtos y covariables para los Análisis de Covarianza. Una vez que se han seleccionado los niveles adecuadamente la salida que proporciona SPSS es similar a la siguiente: Pruebas de efectos intra-sujetos. Suma de cuad. gl Media F Sig. tipo III cuadrática DOSIS Esfericidad asumida 10213,233 2 5106,617 133,261 ,000 Greenhouse-Geisser 10213,233 1,595 6404,991 133,261 ,000 Huynh-Feldt 10213,233 1,883 5423,400 133,261 ,000 Límite-inferior 10213,233 1,000 10213,233 133,261 ,000 Error(DOSIS) Esfericidad asumida 689,767 18 38,320 Greenhouse-Geisser 689,767 14,351 48,063 Huynh-Feldt 689,767 16,949 40,698 Límite-inferior 689,767 9,000 76,641 MOMEN Esfericidad asumida 1,667 1 1,667 ,281 ,609 Greenhouse-Geisser 1,667 1,000 1,667 ,281 ,609 Huynh-Feldt 1,667 1,000 1,667 ,281 ,609 Límite-inferior 1,667 1,000 1,667 ,281 ,609 Error(MOMEN) Esfericidad asumida 53,333 9 5,926 Greenhouse-Geisser 53,333 9,000 5,926 Huynh-Feldt 53,333 9,000 5,926 Límite-inferior 53,333 9,000 5,926 DOSIS * MOMEN Esfericidad asumida 3,433 2 1,717 ,444 ,648 Greenhouse-Geisser 3,433 1,500 2,289 ,444 ,595 Huynh-Feldt 3,433 1,733 1,981 ,444 ,622 Límite-inferior 3,433 1,000 3,433 ,444 ,522 Error(DOSIS*MO Esfericidad asumida 69,567 18 3,865 MEN) Greenhouse-Geisser 69,567 13,497 5,154 Huynh-Feldt 69,567 15,596 4,461 Límite-inferior 69,567 9,000 7,730 Fuente Como puede comprobarse sólo el factor dosis ha tenido efecto significativo sobre la variable atención en el componente lineal y cuadrático. Como en el caso del procedimiento MLG Factorial general , en este caso también disponemos de diversas opciones similares a las ya indicadas en el apartado anterior. La diferencia más importante hace referencia al botón Post hoc, ya que en MLG Medidas repetidas estas pruebas no están disponibles si no hay factores entregrupos.