RES342 Estadística II Análisis de la varianza ANOVA • El análisis de la varianza (ANOVA) es la técnica más importante en la estadística experimental. • Permite comparar las medias de 3 o más poblaciones; es decir, contrasta la hipótesis nula de que todas las medias poblacionales son iguales: H 0 : 1 2 3 k • Contra la hipótesis alternativa de que alguna de ellas es diferente a las demás: H1 i j para algunas i, j Fundamentos • Se asume que cada muestra sigue una distribución normal y todas comparten la misma varianza (σ2). • Se calculan dos estimadores de esta varianza: 1. La varianza entre las muestras se basa en la variación entre las medias muestrales. 2. La varianza dentro de las muestras se basa en las varianzas muestrales. • La proporción de estos estimadores será el estadístico de prueba: F varianza entre las muestras varianza dentro de las muestras Muestras del mismo tamaño • La forma más sencilla de hacer las estimaciones mencionadas de la varianza es cuando todas las muestras tienen el mismo tamaño (n). Muestra 1 Muestra 2 x11 x21 x12 x22 x13 x23 … … x1n x2n … Muestra i xi1 xi2 xi3 … xin ... Muestra k xk1 xk2 xk3 … xkn Muestras del mismo tamaño • En cada columna (muestra) consideramos la media muestral y la varianza muestral: X 1 , X 2 , X 3 ,, X k y s12 , s22 , s32 ,, sk2 • Para calcular la varianza entre las muestras calculamos la varianza del conjunto de medias x1, x 2, ..., x k , es decir: s x2 varianza de X 1 , X 2 , X k • Así como la media de las varianzas , esto es: s 2p promedio de s12 , s 22 ,s 2k Fórmula del estadístico de prueba • La estimación de la varianza entre los grupos es el número ns 2 x • Para la estimación dentro de los grupos calculamos simplemente el promedio de las varianzas. • Ambas estimaciones se comparan dividiendo: varianza entre las muestras ns 2 x F 2 varianza dentro de las muestras s p • La varianza entre las muestras es grande cuando H0 es falsa, mientras que la varianza dentro de las muestras es independiente de H0. Distribución F de Fisher • Comparamos el resultado de F contra el valor crítico Fα,gl1,gl2 de la distribución F de Fisher. • Esta es una distribución sesgada positivamente. Las tablas que se utilizan dependen tanto de los grados de libertad del numerador (gl1), como de los grados de libertad del denominador (gl2). • La prueba es siempre de cola derecha, donde el nivel de significancia (α) es el tamaño de la cola. Puntos críticos • Los valores críticos se localizan en unas tablas que corresponden a un nivel de significancia dado, utilizando los grados de libertad del numerador en las columnas y del denominador en los renglones. • gl numerador = gl1= k - 1 • gl denominador= gl2= k(n1) Ejemplo • Se quiere comprobar si hay diferencias reales entre las aptitudes mecánicas de los alumnos de 4 grandes escuelas. • Se recaban los resultados de un examen aplicado a 10 estudiantes de cada escuela elegidos aleatoriamente. Escuela 1 Escuela 2 Escuela 3 Escuela 4 73 57 95 78 86 61 80 98 64 78 84 95 96 62 80 87 100 74 85 77 69 80 73 62 50 71 84 66 52 73 65 58 82 86 35 52 70 79 43 60 Solución • El ANOVA compara la hipótesis de que las 4 escuelas tienen los mismos resultados en promedio . H 0 : 1 2 3 4 • Para encontrar el valor crítico usamos gl1= k - 1 = 3; gl2 = k(n - 1) = 4(9) = 36 y α=0.05 • Buscando en la tabla obtenemos F0.05,3,36 = 2.87 • Las medias muestrales son x1 77, x 2 84, x3 68, x 4 63 • Las varianzas muestrales son Se rechaza H0: las aptitudes medias son distintas en las 4 escuelas. s12 188.67, s22 131.11, s32 120, s42 282 • La varianza de las medias es s x2 87.33 • El promedio de las varianzas es s 2p 180.44 • Así, el estadístico de prueba es ns 2 x 873.33 F 2 4.84 s p 180.44 Muestras de distinto tamaño • El Instituto del automóvil desea comparar el consumo de combustible de tres tipos de automóviles (A, B y C). • Seleccionan a 20 conductores y les asignan un tipo de auto a cada uno. Consumo de combustible en km/litro Automóviles A Automóviles B Automóviles C 22.2 24.6 22.7 19.9 23.1 21.9 20.3 22.0 23.2 21.4 23.5 24.1 21.2 23.6 22.1 21.0 22.1 23.4 20.3 23.5 Fuentes de variación • Como se mencionó, la variabilidad de los datos se presenta tanto entre los diferentes grupos o muestras, como dentro de cada muestra. • La variabilidad total se expresa como la suma total de cuadrados (SCT). SCE • La variabilidad debida al cambio entre las muestras se estima usando la suma de cuadrados entre las muestras (SCE). • Para calcular SCE se usa la fórmula: k SCE ni ( x i x) 2 i 1 donde x es la media global y xi es la media de la muestra i (i=1,2,…,k). SCD • La variación interna en cada una de las muestras resulta en la suma de cuadrados dentro de las muestras (SCD). • Para determinar SCD se usa la fórmula: k SCD SCi i 1 donde la Suma de cuadrados parcial SCi es: ni SCi xij xi j 1 2 Solución al ejemplo de los autos Suma Promedio Promedio general A 22.2 19.9 20.3 21.4 21.2 21 20.3 SCA 1.69 1 0.36 0.25 0.09 0.01 0.36 B 24.6 23.1 22 23.5 23.6 22.1 23.5 SCB 1.96 0.01 1.44 0.09 0.16 1.21 0.09 C 22.7 21.9 23.2 24.1 22.1 23.4 SCC 0.04 1 0.09 1.44 0.64 0.25 146.3 20.9 3.76 162.4 23.2 4.96 137.4 22.9 3.46 22.31 k SCD SCi 3.76 4.96 3.46 12.18 i 1 SCE 7(20.9 22.31) 2 7(23.2 22.31) 2 6(22.9 22.31) 2 21.55 • Con el fin de resumir los cálculos que se realizan para validar la hipótesis nula, se elabora una tabla de doble entrada: Fuente de la variación Entre los grupos Suma de cuadrados Grados de libertad SCE k–1 Dentro de los grupos SCD nT – k Total STC nT-1 Media de los cuadrados MCE MCD SCE k 1 SCD nT k Cociente F MCE MCD • Donde k = número de grupos y nT = número total de datos. • Con los datos obtenidos en este problema, la tabla queda así: Fuente de la variación Suma de cuadrados Grados de libertad Media de los cuadrados Entre los grupos 21.55 3–1=2 21.55/2 = 10.78 Dentro de los grupos 12.18 20 – 3 = 17 Total 33.73 20 - 1 = 19 12.18/17 = 0.7164 Cociente F 10.78/0.716 = 15.04 • Para los grados de libertad gl1=2 y gl2=17 y el nivel de significancia de α=5% , el valor crítico es: F0.05,2,17 = 3.59 Como el valor calculado de F es 15.04 se rechaza la hipótesis nula, es decir, el consumo de los tres tipos de automóvil no es igual. 3.59