Pruebas de Hipótesis-ANOVA Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016 Análisis de la Varianza de un factor (ANOVA) • El análisis de la varianza (ANOVA) es una técnica estadística paramétrica de contraste de hipótesis. El ANOVA de un factor sirve para comparar varios grupos en una variable cuantitativa. Se trata, por tanto, de una generalización de la Prueba T para dos muestras independientes al caso de diseños con más de dos muestras. • A la variable categórica (nominal u ordinal) que define los grupos que deseamos comparar la llamamos independiente o factor y la representamos por VI. A la variable cuantitativa (de intervalo o razón) en la que deseamos comparar los grupos la llamamos dependiente y la representamos por VD. • La hipótesis nula que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las medias de la VD en cada nivel de la VI) son iguales. Si las medias poblacionales son iguales, eso significa que los grupos no difieren en la VD y que, en consecuencia, la VI o factor es independiente de la VD. 18/08/2016 QF JOSE AVILA PARCO 2 ANOVA Condiciones: Cada muestra debe ser independiente de las otras. Cada muestra debe haber sido seleccionada al azar de la población de donde proviene. Las población de donde provienen las muestras debe tener distribución normal. Las varianzas de cada población deben ser iguales. 18/08/2016 QF JOSE AVILA PARCO 3 ANOVA Ejemplo Una Directora de un Instituto, preocupada de explicar los problemas de comportamiento de sus estudiantes, se dispuso a hacer un estudio para establecer si existían diferencias en ese aspecto según estado civil de los padres, entre otras variables. Para ese fin, solicitó a los padres de 45 estudiantes la aplicación del Child Behavior Checklist, versión para padres. El CBCL (Achenbach, 1991) es un instrumento conformado por 113 ítems que comprenden problemas específicos, agrupados en síndromes que exploran dos tipos de anomalías de conducta: externalización (agresión, delincuencia y trastornos de conducta) e internalización (aislamiento, preocupaciones somáticas, depresión y ansiedad). Además, (Friedrich et al., 1986) seis de sus ítems conforman la escala de problemas sexuales, la que sólo se aplica a jóvenes de ambos sexos. Los ítems son categorizados 0=no es cierto o nunca observado, 1=es cierto algunas veces o de cierta manera, 2=muy cierto o a menudo cierto. El puntaje total se obtiene a partir de la suma de los parciales. 18/08/2016 QF JOSE AVILA PARCO 4 ANOVA Paso 1: Obtiene los siguientes datos CASADO SEPARADO VIUDO SOLTERO 10 23 78 22 19 62 70 70 36 90 48 48 55 30 68 28 45 73 62 45 41 30 29 30 30 40 38 55 41 28 68 45 32 43 60 50 46 54 61 42 38 49 58 66 15 19 25 30 62 60 55 28 63 5 18/08/2016 QF JOSE AVILA PARCO ANOVA Paso 2: Calculamos la media de cada grupo y la media global CASADO SEPARADO VIUDO SOLTERO 10 23 78 22 19 62 70 70 36 90 48 48 55 30 68 28 45 73 62 45 41 30 29 30 30 40 38 55 41 28 68 45 Mg 32 43 60 50 46 54 61 42 38 49 58 66 15 19 25 30 62 60 55 28 63 35,21 46,27 58,18 45,08 45,53 6 18/08/2016 QF JOSE AVILA PARCO ANOVA Paso 3: Calculamos la suma de cuadrados de las desviaciones de cada observación respecto a la media global, suma que denominaremos Suma de Cuadrados Total (SCT) y que refleja la variabilidad total. Si se divide por el tamaño total de muestra se obtiene la varianza total. SCT xi M g 2 18/08/2016 QF JOSE AVILA PARCO 7 ANOVA CASADO SEPARADO VIUDO SOLTERO 1262,26 507,52 1054,41 553,58 703,75 271,32 598,86 598,86 90,79 1977,73 6,11 6,11 89,71 241,13 504,98 307,24 0,28 754,69 271,32 0,28 20,51 241,13 273,18 241,13 241,13 30,56 56,68 89,71 20,51 307,24 504,98 0,28 183,01 6,39 209,43 20,00 0,22 71,77 239,37 12,45 56,68 12,05 155,54 419,09 931,98 703,75 421,41 241,13 271,32 209,43 89,71 307,24 305,26 SCT xi M g 16695,208 2 16695,208 8 18/08/2016 QF JOSE AVILA PARCO ANOVA Paso 4: Calculamos la suma de cuadrados de las desviaciones entre la media de cada grupo y la media general. Esta es la suma de cuadrados explicada por el factor considerado, a la que denominaremos Suma de cuadrados del factor (SCF) o variabilidad explicada. SC F nK M K M g 2 • Siendo: M g media global n número de sujetos en el grupo k k MK media aritmética del grupo k En la literatura científica también se denomina a la SCF como SC Entre los grupos (SS Between) o SC del Modelo (SS Model) 18/08/2016 QF JOSE AVILA PARCO 9 ANOVA CASADO SEPARADO VIUDO SOLTERO MEDIA GLOBAL MEDIA 35,21 46,27 58,18 45,08 45,53 n 14 15 11 13 (x-X)2 106,38 0,55 160,11 0,20 n(x-X)2 1489,305 8,178 1761,226 2,649 3261,358 SC F nK M K M g 3261,358 2 18/08/2016 QF JOSE AVILA PARCO 10 ANOVA Paso 5: Calculamos la suma de cuadrados de las desviaciones entre cada dato y la media de su grupo. Esta es la suma de cuadrados no explicada, a la que denominaremos Suma de cuadrados residual (SCR) o variabilidad residual. SC R xik M k • Siendo: 2 xik cada dato i del grupo k ___ xk media aritmética del grupo k En la literatura científica también se denomina a la SCR como SC Dentro de los grupos (SS Within) Si SCT SCF SCR SCR SCT SCF 11 18/08/2016 QF JOSE AVILA PARCO ANOVA CASADO SEPARADO VIUDO SOLTERO 635,76 541,34 392,76 532,54 262,90 247,54 139,67 621,16 0,62 1912,60 103,67 8,54 391,47 264,60 96,40 291,62 95,76 714,67 14,58 0,01 33,47 264,60 851,58 227,31 27,19 39,27 407,31 98,47 33,47 333,67 96,40 0,01 10,33 10,67 3,31 24,24 116,33 59,80 7,94 9,47 7,76 7,47 0,03 437,78 408,62 743,47 403,08 27,19 247,54 222,70 391,47 333,67 280,00 2 SCR xik M k 13433,850 13433,850 12 18/08/2016 QF JOSE AVILA PARCO ANOVA Paso 6: Calculamos las medias cuadráticas, para lo cual necesitamos conocer los grados de libertad correspondiente a cada suma de cuadrados de las desviaciones • • • • • Cada suma de cuadrados tiene sus propios grados de libertad. La SCT es el número total de casos menos uno, es decir n-1; La SCF es el número de grupos menos uno, es decir, k-1 y La SCR es el número total de datos menos k, es decir, n-k. En el análisis de la varianza, se define una media cuadrática como el cociente entre la suma de cuadrados y sus correspondientes grados de libertad: 13 18/08/2016 QF JOSE AVILA PARCO ANOVA Grados de libertad Factor, Entre los grupos (between) (k-1): (4 - 1) = 3 Residual, Dentro de los grupos (within) (n-k): 53-4 = 49 Total = (n – 1): 53 - 1 = 52 glSCT glSCF glSCR 14 18/08/2016 QF JOSE AVILA PARCO ANOVA Medias Cuadráticas SC F 3261,358 MC F 1087,119 MC F 3 k 1 SC R MC 13433,850 274,160 R MC R 49 nk SCT 16695,208 MCT MCT 52 n 1 15 18/08/2016 QF JOSE AVILA PARCO ANOVA Paso 7: Calculamos el estadístico F de Snedecor, que nos informará si tenemos “pruebas suficientes” para rechazar o aceptar la hipótesis nula. SC F 2 MC F S F k 1 F 2 SC R MC R S R nk En nuestro caso 1087,119 F 3,965 274,160 18/08/2016 QF JOSE AVILA PARCO 16 ANOVA Paso 8: Con el fin de informar los resultados, se procede a generar el cuadro resumen del ANOVA. FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado FACTOR SC ENTRE k-1 SC Entre / k-1 MC Entre/MC Dentro RESIDUAL SC DENTRO n-k SC Dentro/ n-k TOTAL SC TOTAL n-1 FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado FACTOR 3261,358 3 1087,119 3,965 RESIDUAL 13433,850 49 274,160 TOTAL 16695,208 52 En nuestro caso 17 18/08/2016 QF JOSE AVILA PARCO ANOVA Paso 9) Se procede a establecer la probabilidad de error tipo I o alfa asociada a nuestro valor F. Procedimiento: • • Encuentre el valor crítico en una distribución F, con k-1 grados de libertad en el numerador (en las columnas) y n-k grados de libertad en el denominador (en las filas), que deje una probabilidad de en la cola superior de la distribución. Rechace la hipótesis nula si el estadístico F calculado en el Paso 7 es mayor o igual que el valor crítico F(k-1, n-K) que encontramos en la tabla de F. 18/08/2016 QF JOSE AVILA PARCO 18 ANOVA REGLAS DE DECISIÓN H 0 : 1 2 ...k H1 : (1 2 ...k ) Las reglas de decisión en este procedimiento son las siguientes: Rechace H 0 si Fobs F( ) No rechace H 0 si Fobs F( ) 18/08/2016 QF JOSE AVILA PARCO 19 ANOVA Si desarrollamos el contraste en nuestro ejemplo, tenemos los siguientes valores: glF (k 1) 3 glR (n k ) 49 F 3,965 En la tabla correspondiente, ubicamos los valores (k-1) en las columnas; y (n-k) en las filas y el punto de intersección nos informa el valor F con el cual compararemos el Fobs 18/08/2016 QF JOSE AVILA PARCO 20 ANOVA Los valores críticos de F son: F0.10 2,28 F0.05 2,92 F0.025 3,59 F0.01 5,24 Al realizar la comparación de Fobs con F, se observa que Fobs F0.05 3,965 2,920 Paso 10) Se concluye sobre la Hipótesis nula. Por lo tanto, podemos rechazar la hipótesis nula, al 2,5% y aceptamos que existe evidencia empírica suficiente para afirmar que existen diferencias significativas entre las medias de, al menos, dos de los grupos de padres. 18/08/2016 QF JOSE AVILA PARCO 21 ANOVA A partir de los resultados expuestos sabemos que las cuatro categorías de la variable independiente presentan resultados diferentes. Pero no sabemos exactamente entre que categoría se presentan dichas diferencias, pues ANOVA no nos informa al respecto. Nos dice que hay diferencias significativas, pero no entre que pares 18/08/2016 QF JOSE AVILA PARCO 22 ANOVA •Podemos tener varias preguntas: ¿Los hijos de padres casados presentan menos problemas específicos que los de padres separados? ¿Los hijos de padres viudos presentan más problemas específicos que los de padres separados? ¿Existen diferencias entre los hijos de padres solteros y los de padres separados •El ANOVA de un factor no responde estas preguntas 23 18/08/2016 QF JOSE AVILA PARCO