Ejercicios de ANOVA Excel Minitab - Contacto: 55-52-17-49-12

Anuncio
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
P. Reyes / 13/11/2015
III. ANALISIS DE VARIANZA DE UNA VÍA o DIRECCIÓN
(ANOVA 1 VIA)
El análisis de la varianza de un criterio (ANOVA) es una metodología para analizar la variación
entre muestras y la variación al interior de las mismas mediante la determinación de varianzas.
Es llamado de un criterio porque analiza un variable independiente o Factor ej: Velocidad.
Como tal, es un método estadístico útil para comparar dos o más medias poblacionales. El
ANOVA de un criterio nos permite poner a prueba hipótesis tales como:
H 0  1   2  3  ....   k
H1 : Al menosdos medias poblacionales son diferentes.
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras
independientes son:
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es,  1
El estadístico tiene una distribución muestral resultando:
2
Fc 
  22 .
sb2
sw2
El valor crítico para la prueba F es:
F (k  1, k (n  1))
Donde el número de grados de libertad para el numerador es k-1 y para el denominador es k(n1), siendo  el nivel de significancia.
k = número de muestras.
Por ejemplo:
1. Cuatro catalizadores que pueden afectar la concentración de un componente en una mezcla
líquida de tres componentes están siendo investigado.
Se obtienen las siguientes concentraciones:
A
58.2
57.2
58.4
55.8
54.9
Catalizador
B
56.3
54.5
57
55.3
C
50.1
54.2
55.4
D
52.9
49.9
50
51.7
Página 1
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
P. Reyes / 13/11/2015
Ho mu1=mu2=mu3=mu4
alfa(1/2)
0.025
Catalizadores A
1
2
3
4
5
B
58.2
57.2
58.4
55.8
54.9
sumatoria
promedio
284.5
56.9
g.promedio
54.4875
n
c
r
gl SCT
gl SCTR
gl SCE
SCT
SCTR
SCE
CMT
CMTR
CME
Fc
Ft(0.025,3,12)
C
D
52.9
49.9
50
51.7
Prom
56.3
50.1
58.2
54.5
54.2
57.2
57
55.4
58.4
55.3
55.8
54.9
56.3
223.1
159.7 204.5
54.5
55.775 53.2333 51.13
57
55.3
50.1
54.2
55.4
52.9
49.9
50
51.7
16
4
5
15
3
12
120.2384
85.6758373
34.5625627
8.01589333
28.5586124
2.88021356
9.91544963
4.47 4.474185
SCT
SC
13.8384
7.3984
15.3664
1.7424
0.1764
3.3124
0.0004
6.3504
0.6724
19.1844
0.0784
0.8464
2.4964
20.9764
20.0704
7.7284
#
SCR
renglones
29.1128
5
6.63578
4
4.71504
3
45.2122
4
85.6758 SCTR
120.238
9.915 es mayor que 4.47, por lo tanto cae en la zona de rechazo,
se rechaza Ho.Los catalizadores tienen efectos diferentes
Tabla de Análisis de varianza
Suma de
cuadrados
Entre muestras
85.67584
Grados de
libertad
3
Dentro de muestras
34.56256
12
Varianza total
120.2384
15
Valor P
Cuadrado medio
28.5586
2.88021
0.00143578
Como el valor P es menor que alfa(1/2) por lo que se confirma que Ho se rechaza.
Prueba de Tukey
T
4.11529534
q(0.01,4,12)
4.2
Diferencia minima significativa
DMS
2.339
F(0.05,1,12)
4.75
Página 2
Valor
F
9.915
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
x1-x2
1.125 menor que T
x1-x3
3.66666667 menor que T
x1-x4
x2-x3
5.775 mayor que T
2.54166667 menor que T
x2-x4
x3-x4
4.65 mayor que T
2.10833333 menor que T
P. Reyes / 13/11/2015
menor que
1.125 DMS
mayor que
3.667 DMS
mayor que
5.775 DMS
mayor que
2.542 DMS
mayor que
4.65 DMS
menor que
2.108 DMS
Basandonos en la diferencia minima significativa que es mas precisa, concluimos
que solamente A es igual con B y C es igual con D.
La maxima concentracion se obtiene con el catalizador A
Residuales
1.3
0.3
1.5
-1.1
-2
0.52
-1.28
1.22
-0.48
-3.13
0.97
2.17
1.77
-1.23
-1.13
0.57
Utilizando los paquetes de Excel y Minitab se tiene:
Ejemplo 1:
Tres tipos distintos de motores de gasolina fueron probados para determinar cuánto tiempo son
útiles antes de necesitar una reparación; si los tiempos de vida de los motores de cada tipo se
distribuyen normalmente y tienen la misma varianza, haga una prueba usando   0.05 para
determinar si difieren las medias de vida útil antes de requerir una reparación. En la tabla
aparecen los tiempos de vida útil, en decenas de miles de millas para cada tipo de motor.
A
6
2
4
1
7
B
8
7
7
2
6
C
3
2
5
4
1
Mediante Minitab determinamos si las muestras provienen de una población Normal.
Página 3
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
P. Reyes / 13/11/2015
Seleccione en el menu para cada muestra:
Stat > Basic statistics > Normalita test
Variable – Columnas de datos
Test for normality – Seleccionar Ryan Joiner OK
>=0.05
.
Hay normalidad si P value es
Probability Plot of A
Normal
99
95
90
Mean
StDev
N
RJ
P-Value
4
2.550
5
0.982
>0.100
Mean
StDev
N
RJ
P-Value
6
2.345
5
0.909
>0.100
Percent
80
70
60
50
40
30
20
10
5
1
-2
0
2
4
A
6
8
10
Probability Plot of B
Normal
99
95
90
Percent
80
70
60
50
40
30
20
10
5
1
0
2
4
6
B
8
10
Página 4
12
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
P. Reyes / 13/11/2015
Probability Plot of C
Normal
99
Mean
StDev
N
RJ
P-Value
95
90
3
1.581
5
0.998
>0.100
Percent
80
70
60
50
40
30
20
10
5
1

-1
0
1
2
3
C
4
5
6
7
Analizando las gráficas nos damos cuenta de que las muestras provienen de poblaciones
normales.
Si denotamos por
1,  2 y3
las medias poblacionales de los tiempos de vida útil para los tipos
A, B y C, respectivamente, entonces podemos escribir las hipótesis estadísticas como:
H 0 : 1   2  3
H1: Al menos dos medias poblacionales no son iguales.
Procedimiento en Excel:


En el menú herramientas seleccione la opción Análisis de datos, en funciones para análisis
seleccione Análisis de varianza de un factor.
En Rango de entrada seleccionar la matriz de datos.
Página 5
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA


P. Reyes / 13/11/2015
Alfa = 0.05
En Rango de salida indicar la celda donde se inciará la presentación de resultados.
Análisis de varianza de un factor
RESUMEN
Grupos
Columna 1
Columna 2
Columna 3
ANÁLISIS DE VARIANZA
Origen de las variaciones
Entre grupos
Dentro de los grupos
Cuenta
Suma
5
5
5
Promedio
20
30
15
4
6
3
Varianza
6.5
5.5
2.5
Suma de cuadrados Grados de libertad Promedio de los cuadrados
F
Probabilidad Valor crítico para F
23.33333333
2
11.66666667 2.413793103 0.13150932
3.885290312
58
12
4.833333333
Total
81.33333333
14
En la tabla observamos que el estadístico de prueba Fc es menor al
valor crítico para F
2.41<3.88, por lo cual no rechazamos al Hipótesis nula H0. No
tenemos evidencia estadística para afirmar que los tiempos de vida
útil de los motores, antes de requerir una reparación son diferentes.
Página 6
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
P. Reyes / 13/11/2015
ANOVA en Minitab.
Utilice
  0.05 para calcular si difiere el rendimiento de los motores.
Seleccionar:
Stat > ANOVA > One Way (Unstacked)
Response in separate columns A, B, C
Seleccionar º! Store Residuals º! Store Fits
Confidence level 95%
Graphs
Seleccionar Normal plot of residuals
Comparisons
Seleccionar Tukey’s Family error rate OK
Resultados:
La gráfica normal de residuos debe mostrar los residuos aproximados por una recta para
validar el modelo:
Normal Probability Plot of the Residuals
(responses are A, B, C)
99
95
90
Percent
80
70
60
50
40
30
20
10
5
1
-5.0
-2.5
0.0
Residual
2.5
5.0
One-way ANOVA: A, B, C
Source
Factor
Error
Total
DF
2
12
14
SS
23.33
58.00
81.33
MS
11.67
4.83
F
2.41
P
0.132
Como este valor P es mayor a 0.05 se rechaza la hipótesis nula y A, B y C no
tienen efecto en la respuesta.
S = 2.198
Level
A
N
5
R-Sq = 28.69%
Mean
4.000
StDev
2.550
R-Sq(adj) = 16.80%
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+---------+--(----------*----------)
Página 7
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
B
C
5
5
6.000
3.000
2.345
1.581
P. Reyes / 13/11/2015
(----------*----------)
(----------*----------)
------+---------+---------+---------+--2.0
4.0
6.0
8.0
Pooled StDev = 2.198
Los intervalos de confianza de los tres niveles A, B, C del factor se pueden
traslapar por tanto sus efectos no son diferentes.
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 97.94%
A subtracted from:
B
C
Lower
-1.707
-4.707
Center
2.000
-1.000
Upper
5.707
2.707
---------+---------+---------+---------+
(----------*---------)
(---------*----------)
---------+---------+---------+---------+
-3.5
0.0
3.5
7.0
Upper
0.707
---------+---------+---------+---------+
(---------*----------)
---------+---------+---------+---------+
-3.5
0.0
3.5
7.0
B subtracted from:
C
Lower
-6.707
Center
-3.000
Como el cero pertenece al intervalo de confianza de las diferencias entre A y
B; A y C y entre B y C no hay diferencia entre el efecto entre estos niveles.
A continuación se muestran los residuos y los valores estimados para la respuesta Y por el
modelo:
RESI1
2
-2
0
-3
3
RESI2
2
1
1
-4
0
RESI3
0
-1
2
1
-2
FITS1
4
4
4
4
4
FITS2
6
6
6
6
6
FITS3
3
3
3
3
3
Donde cada residuo es Eij = Yij observado – Yij estimado
Yij estimado es el promedio en cada columna.
Ejemplo: La tabla adjunta contiene el número de palabras escritas por minuto por cuatro
secretarias de la universidad en cinco ocasiones diferentes usando la misma máquina.
A
82
79
75
68
65
B
55
67
84
77
71
C
69
72
78
83
74
D
87
61
82
61
72
Página 8
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
P. Reyes / 13/11/2015
La gráfica de residuos los muestra apegados a la recta, indicando que el modelo es válido:
Normal Probability Plot of the Residuals
(responses are A, B, C, D)
99
95
90
Percent
80
70
60
50
40
30
20
10
5
1
-20
-10
0
Residual
10
20
One-way ANOVA: A, B, C, D
Source
Factor
Error
Total
DF
3
16
19
SS
52.2
1367.6
1419.8
MS
17.4
85.5
F
0.20
P
0.892
Como el valor P de 0.892 es mayor a alfa de 0.05 no hay efecto en la respuesta cambiando los
niveles del factor A, B, C y D.
S = 9.245
Level
A
B
C
D
N
5
5
5
5
R-Sq = 3.68%
Mean
73.800
70.800
75.200
72.600
StDev
7.190
10.918
5.450
11.887
R-Sq(adj) = 0.00%
Individual 95% CIs For Mean Based on
Pooled StDev
-------+---------+---------+---------+-(--------------*--------------)
(--------------*--------------)
(-------------*--------------)
(--------------*--------------)
-------+---------+---------+---------+-66.0
72.0
78.0
84.0
Pooled StDev = 9.245
Se pueden traslapar los intervalos de confianza de los niveles del factor, por tanto no hay
diferencia significativa en sus efectos.
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 98.87%
A subtracted from:
B
C
D
Lower
-19.745
-15.345
-17.945
Center
-3.000
1.400
-1.200
Upper
13.745
18.145
15.545
--------+---------+---------+---------+(-------------*------------)
(-------------*-------------)
(-------------*-------------)
--------+---------+---------+---------+-12
0
12
24
Página 9
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
P. Reyes / 13/11/2015
B subtracted from:
C
D
Lower
-12.345
-14.945
Center
4.400
1.800
Upper
21.145
18.545
--------+---------+---------+---------+(-------------*-------------)
(------------*-------------)
--------+---------+---------+---------+-12
0
12
24
Upper
14.145
--------+---------+---------+---------+(-------------*-------------)
--------+---------+---------+---------+-12
0
12
24
C subtracted from:
D
Lower
-19.345
Center
-2.600
En la prueba de Tukey como el cero pertenece a los intervalos de confianza de todas las
diferencias entre niveles A, B, C y D, no hay diferencia entre sus efectos en la respuesta.
Los residuos y valores estimados Fits se muestran a continuación:
RESI1
8.2
5.2
1.2
-5.8
-8.8
RESI2
-15.8
-3.8
13.2
6.2
0.2
RESI3
-6.2
-3.2
2.8
7.8
-1.2
RESI4
14.4
-11.6
9.4
-11.6
-0.6
FITS1
73.8
73.8
73.8
73.8
73.8
FITS2
70.8
70.8
70.8
70.8
70.8
FITS3
75.2
75.2
75.2
75.2
75.2
FITS4
72.6
72.6
72.6
72.6
72.6
Prueba de Tukey-Snedecor1
Cuando la hipótesis nula Ho es rechazada, estamos interesados en identificar el grupo o
grupos particulares que inducen a la diferencia estadísticamente significativa. Los pasos para
realizar la prueba son los siguientes:
1. Se ubican las medias de los tratamientos, primero la de mayor valor y por último la de
menor, así como la diferencia entre ellas.
2. Se calcula el error estándar de la media :
Sx 
S w2
n
3. Determinamos el valor Q en la tabla de valores críticos Tukey-Snedecor del apéndice,
mediante el número de tratamientos k y los grados de libertad dentro de grupos.
4. Se calcula D, utilizando: D  QSx
5. Se compara el valor D con la diferencia de los pares de medias de los tratamientos. La
presencia de pares mayores que D significa que dichos tratamientos difieren
significativamente del nivel  .
1
Estadística para las ciencias sociales y del comportamiento. Haroldo Elorza. Segunda Edición. Oxford
University Press.
Página 10
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
P. Reyes / 13/11/2015
Problemas de ANOVA de 1 vía / Diseño de experimentos de 1
factor:
Cálculo manual, Excel y Minitab
Problema 1
Para determinar si existe diferencia significativa en el nivel de Matemáticas de 4 grupos de
estudiantes de Ingeniería se realizó un examen aleatorio a 6 individuos por grupo. Determine
cuales son los grupos en los cuales existen diferencias a un 95% de nivel de confianza.
A
B
C
D
75
78
55
64
93
91
66
72
78
97
49
68
71
64
77
63
82
85
70
56
76
77
68
95
Xij
A) Método Manual
a) Establecimiento de las hipótesis:
H 0  1   2  3  ....   k
Cada Mu representa el promedio de calificación por cada grupo
H1 : Al menosdos medias poblacionales son diferentes.
b) Suma de cuadrados total
r
SCT  
i 1
c
 ( Xij  X )
2
j 1
r = No. de renglones
c = No. de Columnas
c) Suma de cuadrados de los tratamientos
r
SCTR   rj ( X j  X ) 2
j 1
Xj es el promedio de cada columna y rj = 6
d) Suma de cuadrados del error
SCE = SCT - SCTR
e) Grados de libertad
Gl SCT = N – 1
N = número de datos totales
Gl SCTR = C – 1 C = No. de columnas
Gl SCE = Gl SCT – Gl SCTR
f) Cuadrados medios
Página 11
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
P. Reyes / 13/11/2015
MSTR = SCTR / Gl SCTR
MSE = SCE / Gl SCE
g) Estadístico Fc
Fc = MSTR / MSE
h) Estadístico de alfa el cual define la región de rechazo
Falfa = Distr.f.inv (Alfa, Gl SCTR, Gl SCE)
i) Observar si Fc cae en la zona de rechazo lo que indicaría que todas las
medias poblacionales no son iguales.
j) Determinar el valor P de la prueba y compararlo con alfa para decidir si se
rechaza Ho
P = Distr.f(Fc, Gl MSTR, GL MSE)
B) En Excel (Análisis de datos - ANOVA de un factor)
C) Con Minitab (Stat > ANOVA > One Way (unstacked) )
¿Qué grupo tiene el mayor nivel y cual el menor nivel?
Problema 2
Las calificaciones en el examen a 18 empleados de tres unidades de negocio
Se muestran a continuación:
Probar si no hay diferencia entre las unidades a un 5% de nivel de significancia.
A
85
75
82
76
71
85
B
71
75
73
74
69
82
C
59
64
62
69
75
67
¿Qué unida de negocio tiene la más alta calificación?
Problema 3 – Excel y Minitab
Probar si hay diferencia en los tiempos de servicio de 4 unidades de negocio
para el mismo servicio a un nivel de significancia del 10%.
A
5.4
7.8
5.3
7.4
8.4
B
8.7
7.4
9.4
10.1
9.2
C
11.1
10.3
9.7
10.3
9.2
D
9.9
12.8
12.1
10.8
11.3
Página 12
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
7.3
9.8
8.8
P. Reyes / 13/11/2015
11.5
Problema 4 – Excel y Minitab
Cuatro catalizadores que pueden afectar la concentración de un componente
en una mezcla líquida de tres componentes están siendo investigados.
Se obtienen las siguientes concentraciones:
A
58.2
57.2
58.4
55.8
54.9
Catalizador
B
56.3
54.5
57
55.3
C
50.1
54.2
55.4
D
52.9
49.9
50
51.7
¿Qué conclusiones se obtienen a un 10% de nivel de signficancia?
¿Qué catalizador da la mayor concentración?
Problema 5 – Excel y Minitab
La resistencia a la tensión observada en función del peso porcentual del
algodón en una fibra sintética es:
Peso porcentual del algodón
15
7
7
15
11
9
20
12
17
12
18
18
25
14
18
18
19
19
30
19
25
22
19
23
35
7
10
11
15
11
Probar si hay diferencia en la resistencia al usar peso porcentuales diferentes a
un 5% de significancia o 95% de confianza. ¿Qué peso proporciona la mayor
resistencia?
a) En Excel los datos se introducen como están en la tabla (Análisis de Datos).
b) Para Minitab los datos se deben arreglar como sigue:
Otra opción (Response y Factor):
%Algodon Resistencia
15
7
15
7
15
15
15
11
15
9
Página 13
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
20
20
20
20
20
25
25
25
25
12
17
12
18
18
14
18
18
19
25
30
30
30
30
30
35
35
35
35
35
19
19
25
22
19
23
7
10
11
15
11
P. Reyes / 13/11/2015
Problemas de ANOVA de 2 vías / Diseño de experimentos de 1
factor y una variable de bloqueo:
Problema 6 – Excel y Minitab
Una empresa de taxis intenta crear un sistema de rutas que minimice el tiempo
que se pasa manejando a ciertas localidades. El tiempo que toma viajar en
cada ruta por los taxis se muestra a continuación:
Taxista
1
2
3
4
5
1
12
18
10
13
18
Factor - Ruta
2
3
15
17
18
18
11
15
12
12
14
12
4
13
17
9
15
15
Probar a un nivel del 5% identificar si hay rutas más rápidas y si afecta el taxista.
a) En Excel los datos se introducen como están en la tabla (Análisis de Datos
ANOVA de dos factores con una muestra por grupo).
b) Para Minitab los datos se deben arreglar como sigue:
(Stat > ANOVA > Two ways Response Row factor Column factor)
Arreglo de datos
Taxi_Renglon Ruta_Columna Tiempo_Resp
1
1
12
Página 14
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4
P. Reyes / 13/11/2015
18
10
13
18
15
18
11
12
14
17
18
15
12
12
13
17
9
15
15
Problema 7 – Excel y Minitab
Se prueba si el tiempo en aprender diferentes sistemas es el mismo. Probar a un 5% con 5
alumnos.
Alumno
1
2
3
4
5
A
16
19
14
13
18
Sistema
B
C
16
24
17
22
13
19
12
18
22
17
Reng
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
Col
A
A
A
A
A
B
B
B
B
B
C
C
C
C
C
Tiempo
16
19
14
13
18
16
17
13
12
17
24
22
19
18
22
Problema 8 – Excel y Minitab
Se quiere probar si los tiempos de verificación de autos probados en Analizador
computarizado y en probadores electrónicos son iguales, para lo cual se usan
tres tamaños de autos. Probar a un 5% de significancia.
Página 15
uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA
Compacto
Mediano
Grande
Analizador
Computarizado Electrónico
50
42
55
44
63
46
Página 16
P. Reyes / 13/11/2015
Reng
C
M
G
C
M
G
Col
Tiempo
Com
50
Com
55
Com
63
Ele
42
Ele
44
Ele
46
Descargar