Subido por Ezequiel Basurto N.

RES342 S3 E ANOVA (1)

Anuncio
RES342 Estadística II
Análisis de la varianza
ANOVA
• El análisis de la varianza (ANOVA) es la técnica más
importante en la estadística experimental.
• Permite comparar las medias de 3 o más poblaciones;
es decir, contrasta la hipótesis nula de que todas las
medias poblacionales son iguales:
H 0 : 1  2  3    k
• Contra la hipótesis alternativa de que alguna de ellas es
diferente a las demás:
H1  i   j
para algunas
i, j
Fundamentos
• Se asume que cada muestra sigue una distribución
normal y todas comparten la misma varianza (σ2).
• Se calculan dos estimadores de esta varianza:
1. La varianza entre las muestras se basa en la
variación entre las medias muestrales.
2. La varianza dentro de las muestras se basa en las
varianzas muestrales.
• La proporción de estos estimadores será el estadístico
de prueba:
F
varianza entre las muestras
varianza dentro de las muestras
Muestras del mismo tamaño
• La forma más sencilla de hacer las estimaciones
mencionadas de la varianza es cuando todas las
muestras tienen el mismo tamaño (n).
Muestra 1
Muestra 2
x11
x21
x12
x22
x13
x23
…
…
x1n
x2n
…
Muestra i
xi1
xi2
xi3
…
xin
...
Muestra k
xk1
xk2
xk3
…
xkn
Muestras del mismo tamaño
• En cada columna (muestra) consideramos la media
muestral y la varianza muestral:
X 1 , X 2 , X 3 ,, X k
y s12 , s22 , s32 ,, sk2
• Para calcular la varianza entre las muestras calculamos
la varianza del conjunto de medias x1, x 2, ..., x k , es decir:
s x2  varianza de X 1 , X 2 ,  X k
• Así como la media de las varianzas , esto es:
s 2p  promedio de s12 , s 22 ,s 2k
Fórmula del estadístico de prueba
• La estimación de la varianza entre los grupos es el
número ns 2 x
• Para la estimación dentro de los grupos calculamos
simplemente el promedio de las varianzas.
• Ambas estimaciones se comparan dividiendo:
varianza entre las muestras
ns 2 x
F
 2
varianza dentro de las muestras
s p
• La varianza entre las muestras es grande cuando H0 es
falsa, mientras que la varianza dentro de las muestras
es independiente de H0.
Distribución F de Fisher
• Comparamos el resultado de F contra el valor crítico
Fα,gl1,gl2 de la distribución F de Fisher.
• Esta es una distribución sesgada positivamente. Las
tablas que se utilizan dependen tanto de los grados de
libertad del numerador (gl1), como de los grados de
libertad del denominador (gl2).
• La prueba es siempre de cola derecha, donde el nivel
de significancia (α) es el tamaño de la cola.
Puntos críticos
• Los valores críticos se
localizan en unas tablas que
corresponden a un nivel de
significancia dado,
utilizando los grados de
libertad del numerador en
las columnas y del
denominador en los
renglones.
• gl numerador = gl1= k - 1
• gl denominador= gl2= k(n1)
Ejemplo
• Se quiere comprobar si hay diferencias reales entre las
aptitudes mecánicas de los alumnos de 4 grandes
escuelas.
• Se recaban los resultados de un examen aplicado a 10
estudiantes de cada escuela elegidos aleatoriamente.
Escuela 1
Escuela 2
Escuela 3
Escuela 4
73
57
95
78
86
61
80
98
64
78
84
95
96
62
80
87
100
74
85
77
69
80
73
62
50
71
84
66
52
73
65
58
82
86
35
52
70
79
43
60
Solución
• El ANOVA compara la hipótesis de que las 4 escuelas
tienen los mismos resultados en promedio .
H 0 : 1  2  3  4
• Para encontrar el valor crítico usamos
gl1= k - 1 = 3; gl2 = k(n - 1) = 4(9) = 36 y α=0.05
• Buscando en la tabla obtenemos F0.05,3,36 = 2.87
• Las medias muestrales son
x1  77, x 2  84, x3  68, x 4  63
• Las varianzas muestrales son
Se rechaza H0: las aptitudes
medias son distintas en las
4 escuelas.
s12  188.67, s22  131.11, s32  120, s42  282
• La varianza de las medias es
s x2  87.33
• El promedio de las varianzas es
s 2p  180.44
• Así, el estadístico de prueba es
ns 2 x 873.33
F 2 
 4.84
s p 180.44
Muestras de distinto tamaño
• El Instituto del automóvil desea comparar el consumo
de combustible de tres tipos de automóviles (A, B y C).
• Seleccionan a 20 conductores y les asignan un tipo de
auto a cada uno.
Consumo de combustible en km/litro
Automóviles A
Automóviles B
Automóviles C
22.2
24.6
22.7
19.9
23.1
21.9
20.3
22.0
23.2
21.4
23.5
24.1
21.2
23.6
22.1
21.0
22.1
23.4
20.3
23.5
Fuentes de variación
• Como se mencionó, la variabilidad de los datos se
presenta tanto entre los diferentes grupos o muestras,
como dentro de cada muestra.
• La variabilidad total se expresa como la suma total de
cuadrados (SCT).
SCE
• La variabilidad debida al cambio entre las muestras se
estima usando la suma de cuadrados entre las
muestras (SCE).
• Para calcular SCE se usa la fórmula:
k
SCE   ni ( x i  x) 2
i 1
donde x es la media global y xi es la media de la
muestra i (i=1,2,…,k).
SCD
• La variación interna en cada una de las muestras
resulta en la suma de cuadrados dentro de las
muestras (SCD).
• Para determinar SCD se usa la fórmula:
k
SCD   SCi
i 1
donde la Suma de cuadrados parcial SCi es:
ni
SCi    xij  xi 
j 1
2
Solución al ejemplo de los autos
Suma
Promedio
Promedio
general
A
22.2
19.9
20.3
21.4
21.2
21
20.3
SCA
1.69
1
0.36
0.25
0.09
0.01
0.36
B
24.6
23.1
22
23.5
23.6
22.1
23.5
SCB
1.96
0.01
1.44
0.09
0.16
1.21
0.09
C
22.7
21.9
23.2
24.1
22.1
23.4
SCC
0.04
1
0.09
1.44
0.64
0.25
146.3
20.9
3.76
162.4
23.2
4.96
137.4
22.9
3.46
22.31
k
SCD   SCi  3.76  4.96  3.46  12.18
i 1
SCE  7(20.9  22.31) 2  7(23.2  22.31) 2  6(22.9  22.31) 2
 21.55
• Con el fin de resumir los cálculos que se realizan para
validar la hipótesis nula, se elabora una tabla de doble
entrada:
Fuente de la
variación
Entre los grupos
Suma de
cuadrados
Grados de
libertad
SCE
k–1
Dentro de los
grupos
SCD
nT – k
Total
STC
nT-1
Media de los
cuadrados
MCE
MCD 
SCE
k 1
SCD
nT  k
Cociente
F
MCE
MCD
• Donde k = número de grupos y nT = número total de
datos.
• Con los datos obtenidos en este problema, la tabla
queda así:
Fuente de la
variación
Suma de
cuadrados
Grados de
libertad
Media de los
cuadrados
Entre los
grupos
21.55
3–1=2
21.55/2 = 10.78
Dentro de los
grupos
12.18
20 – 3 = 17
Total
33.73
20 - 1 = 19
12.18/17 = 0.7164
Cociente
F
10.78/0.716 =
15.04
• Para los grados de libertad gl1=2 y gl2=17 y el nivel de
significancia de α=5% , el valor crítico es:
F0.05,2,17 = 3.59
Como el valor calculado de F
es 15.04 se rechaza la hipótesis
nula, es decir, el consumo de los
tres tipos de automóvil no es
igual.
3.59
Descargar