Análisis de la varianza - Universitat de les Illes Balears

Anuncio
Análisis de la varianza
Magdalena Cladera Munar
mcladera@uib.es
Departamento de Economía Aplicada
Universitat de les Illes Balears
CONTENIDOS
ƒAnálisis de la varianza de un factor.
ƒ Análisis de la varianza con más de
un factor.
ƒAnálisis de la covarianza.
Bibliografía:
ƒ LÉVY, J.P. Y VARELA, J. (2003). Análisis multivariable para
las ciencias sociales. Ed. Pearson Prentice Hall. Madrid.
ƒ NEWBOLD, P. (1997). Estadística para los Negocios y la
Economía. Prentice Hall. Madrid.
ƒ PARDO, A. RUÍZ, M. A. (2001). SPSS 10.0. Guía para el
análisis de datos. Accesible en:
http://www.uca.es/serv/ai/formacion/spss/Inicio.pdf
ƒ PEÑA, D. (2001) ESTADÍSTICA. Modelos y Métodos. Tomo II:
Fundamentos. Ed. Alianza Universidad Textos.Madrid.
ƒ PÉREZ, C. (2001). Técnicas estadísticas con SPSS. Ed.
Pearson Prentice Hall. Madrid.
ƒ PERÉZ, C. (2004). Técnicas de Anàlisis Multivariante de
Datos. Aplicaciones con SPSS. Pearson Educación, S. A.
Madrid.
ƒ URIEL, E. Y ALDÁS, J. (2005). Anàlisis Multivariante Aplicado.
Thomson. Madrid.
Análisis de la varianza y la covarianza
Análisis de la Varianza de un factor
El Análisis de la Varianza (ANOVA) permite contrastar la igualdad de
medias en k poblaciones.
En cada una de las poblaciones, la variable cuantitativa X tiene la
siguiente distribución:
Xj ∼ N(µj, σ2) para j = 1, 2, …, k
Hipótesis a contrastar:
H0: µ1 = µ2 = … = µk = µ
HA: al menos una media es diferente
La causa de la posible heterogeneidad de las poblaciones se
denomina factor.
Los factores son variables cualitativas cuyas categorías determinan
las diferentes poblaciones que se comparan.
Análisis de la varianza y la covarianza
Análisis de la Varianza de un factor
Supuestos:
ƒLas varianzas de todas las poblaciones son iguales
(homocedasticidad).
ƒLa variable analizada se distribuye normalmente en
todas las poblaciones.
Incumplimiento de los supuestos:
ƒEl ANOVA es una técnica robusta a la presencia de
heterocedasticidad si el número de observaciones de
cada grupo es similar.
ƒEl ANOVA es una técnica robusta al incumplimiento del
supuesto de normalidad si las muestras son grandes.
Análisis de la varianza y la covarianza
Análisis de la Varianza de un factor
Información muestral:
POBLACIÓN
Observaciones
muestrales
Medias
Media global
1
2
…
k
x11
x21
…
xk1
x12
x22
…
xk2
⏐
⏐
x1n
x2n
x1
x2
⏐
…
…
x
xkn
xk
Análisis de la varianza y la covarianza
Análisis de la Varianza de un factor
Información muestral:
Medidas de variabilidad:
POBLACIÓN
1
2
…
- Variabilidad intragrupos:
k
∑∑ (x
ij
Observaciones
muestrales
Medias
Media global
x11
x21
…
xk1
x12
x22
…
xk2
⏐
⏐
x1n
x2n
…
xkn
x1
x2
…
xk
⏐
x
− xj )
2
- Variabilidad entre grupos:
∑ (x
− x)
2
j
- Variabilidad total:
∑∑ (x
ij
− x)
2
Análisis de la varianza y la covarianza
Análisis de la Varianza de un factor
Estadístico de contraste:
∑ (x − x ) (k − 1)
F=
∑∑ (x − x ) (n − k )
- Variabilidad intragrupos:
2
∼ Fk −1,n − k
j
2
ij
j
Medidas de variabilidad:
∑∑ (x
ij
Ho cierta
− xj )
2
- Variabilidad entre grupos:
Rho si F > Fk-1, n-k; α
∑ (x
− x)
2
j
- Variabilidad total:
∑∑ (x
ij
− x)
2
Análisis de la varianza y la covarianza
Análisis de la Varianza de un factor
Tabla ANOVA:
Fuentes de
variación
Sumas de
cuadrados
Entre
grupos
∑ (x
Grados de
libertad
− x)
2
j
k −1
∑ (x
∑∑ (x
Intragrupos
∑∑ (x
− xj )
n−k
Total
∑∑ (x
− x)
n −1
2
ij
ij
2
Medias de
cuadrados
− x)
(k − 1)
2
j
ij
− xj )
2
(n − k )
F
p-valor
F
p-valor
Análisis de la varianza y la covarianza
Análisis de la Varianza de un factor
Ejemplo. Coste en farmacia por CA.
Descriptivos
Costes totales por habitante (población total) en euros
N
Asturias
Cantabria
La Rioja
Murcia
Aragón
Castilla La Mancha
Extremadura
Illes Balears
Madrid
Castilla y León
Total
75
32
18
71
112
187
97
41
289
232
1154
Media
147,1725
137,7320
142,1683
142,0445
158,8742
161,9665
146,9971
119,8415
102,2012
143,2552
137,0145
Desviación
típica
20,10973
24,41170
27,18609
14,08061
35,62395
32,19195
26,83451
26,98319
28,72670
32,54685
36,66620
Error típico
2,32207
4,31542
6,40782
1,67106
3,36615
2,35411
2,72463
4,21407
1,68981
2,13681
1,07935
Intervalo de confianza para
la media al 95%
Límite
Límite inferior
superior
142,5457
151,7993
128,9306
146,5333
128,6489
155,6876
138,7117
145,3773
152,2040
165,5445
157,3223
166,6106
141,5888
152,4055
111,3245
128,3584
98,8753
105,5271
139,0451
147,4653
134,8968
139,1322
Mínimo
99,43
90,88
95,34
116,21
73,30
90,72
89,96
68,96
10,60
59,51
10,60
Máximo
201,90
206,35
185,37
187,43
252,25
290,77
214,83
178,99
226,11
230,20
290,77
Análisis de la varianza y la covarianza
Análisis de la Varianza de un factor
Ejemplo. Coste en farmacia por CA.
ANOVA
Costes totales por habitante (población total) en euros
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
561026,249
989078,878
1550105,1
gl
9
1144
1153
Media
cuadrática
62336,250
864,579
F
72,100
Sig.
,000
Análisis de la varianza y la covarianza
Análisis de la Varianza con más de un factor
ƒPermite evaluar el efecto individual y conjunto de dos o más
variables categóricas sobre una variable dependiente
cuantitativa.
ƒHipótesis. Existe una hipótesis nula por cada factor y una por
cada posible combinación de factores:
ƒLa hipótesis nula referida a un factor afirma que las medias de
las poblaciones definidas por los niveles del factor son iguales.
ƒLa hipótesis referida al efecto de una interacción afirma que su
efecto es nulo.
ƒPara contrastar cada hipótesis se utiliza un estadístico F
siguiendo la misma lógica que en el caso del ANOVA de un
factor.
Análisis de la varianza y la covarianza
Análisis de la Varianza con más de un factor
ƒSupuestos:
ƒSe trabaja con tantas poblaciones como casillas resultan de la
combinación de todas las categorías de los factores.
ƒTodas las poblaciones son normales.
ƒIgualdad de varianzas en todas las poblaciones.
Análisis de la varianza y la covarianza
Análisis de la Varianza con más de un factor
Ejemplo. Coste en farmacia por acreditación docente y
porcentaje de MIR
Pruebas de los efectos inter-sujetos
Variable dependiente: Costes totales por habitante (población total) en euros
Fuente
Modelo corregido
Intersección
porc_mir
docencia
porc_mir * docencia
Error
Total
Total corregida
Suma de
cuadrados
tipo III
194018,582a
2240345,702
67997,830
6403,169
11677,475
378099,655
8778802,089
572118,238
gl
6
1
3
1
2
430
437
436
Media
cuadrática
32336,430
2240345,7
22665,943
6403,169
5838,737
879,302
a. R cuadrado = ,339 (R cuadrado corregida = ,330)
F
36,775
2547,870
25,777
7,282
6,640
Significación
,000
,000
,000
,007
,001
Análisis de la varianza y la covarianza
Análisis de la Varianza con más de un factor
Ejemplo. Coste en farmacia por acreditación docente y
porcentaje de MIR
Análisis de la varianza y la covarianza
Análisis de la Varianza con más de un factor
Ejemplo. Coste en farmacia por acreditación docente y
porcentaje de MIR
Estadísticos descriptivos
Variable dependiente: Costes totales por habitante (población total) en euros
Formación de médicos Existencia de
Media
Desv. típ.
N
0
No
182,0577
26,40935
11
Total
182,0577
26,40935
11
inferior al 34%
No
151,1011
30,76412
263
Sí
118,1513
28,14032
19
Total
148,8811
31,64848
282
entre el 34% y el 66%
No
118,2273
29,65015
68
Sí
112,2300
24,77521
24
Total
116,6628
28,45036
92
superior al 66%
No
97,1619
28,11215
24
Sí
101,2119
25,61119
28
Total
99,3427
26,60492
52
Total
No
142,3868
35,42615
366
Sí
109,4694
26,62058
71
Total
137,0387
36,22427
437
Análisis de la varianza y la covarianza
Análisis de la Varianza con más de un factor
Ejemplo. Coste en farmacia por acreditación docente y
porcentaje de MIR
Estimaciones de los parámetros
Variable dependiente: Costes totales por habitante (población total) en euros
Parámetro
Intersección
[porc_mir=0]
[porc_mir=1]
[porc_mir=2]
[porc_mir=3]
[docencia=0]
[docencia=1]
[porc_mir=0] *
[docencia=0]
[porc_mir=1] *
[docencia=0]
[porc_mir=1] *
[docencia=1]
[porc_mir=2] *
[docencia=0]
[porc_mir=2] *
[docencia=1]
[porc_mir=3] *
[docencia=0]
[porc_mir=3] *
[docencia=1]
B
101,212
84,896
16,939
11,018
0a
-4,050
0a
0
a
37,000
0
a
10,047
0
0
0
a
a
a
Intervalo de confianza al
95%.
Límite
superior
Límite inferior
90,197
112,226
63,675
106,117
-,384
34,263
-5,195
27,231
.
.
-20,263
12,163
.
.
Error típ.
5,604
10,797
8,814
8,249
.
8,249
.
t
18,061
7,863
1,922
1,336
.
-,491
.
Significación
,000
,000
,055
,182
.
,624
.
.
.
.
.
.
10,847
3,411
,001
15,680
58,320
.
.
.
.
.
10,845
,926
,355
-11,268
31,363
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a. Al parámetro se le ha asignado el valor cero porque es redundante.
Análisis de la varianza y la covarianza
Análisis de la Covarianza
ƒEl ANCOVA permite eliminar de la variable dependiente el
efecto atribuible a variables no incluidas como factores.
ƒEl interés sigue siendo analizar los efectos de los factores,
contrastándose las mismas hipótesis que en el ANOVA.
ƒAdemás, se contrasta la hipótesis nula de que el efecto de la
covariable sobre la dependiente es cero.
Análisis de la varianza y la covarianza
Análisis de la Covarianza
Ejemplo. Coste en farmacia por acreditación docente,
porcentaje de MIR, frecuentación y calidad de la prescripción.
Pruebas de los efectos inter-sujetos
Variable dependiente: Costes totales por habitante (población total) en euros
Fuente
Modelo corregido
Intersección
porc_mir
docencia
porc_mir * docencia
frecuent
utb_1998
Error
Total
Total corregida
Suma de
cuadrados
tipo III
272291,773a
269226,479
15153,080
3586,459
4616,142
17504,011
61532,367
265099,886
8562645,903
537391,659
gl
8
1
3
1
2
1
1
410
419
418
Media
cuadrática
34036,472
269226,479
5051,027
3586,459
2308,071
17504,011
61532,367
646,585
a. R cuadrado = ,507 (R cuadrado corregida = ,497)
F
52,640
416,382
7,812
5,547
3,570
27,071
95,165
Significación
,000
,000
,000
,019
,029
,000
,000
Análisis de la varianza y la covarianza
Análisis de la Covarianza
Ejemplo. Coste en farmacia por acreditación docente,
porcentaje de MIR, frecuentación y calidad de la prescripción.
Estimaciones de los parámetros
Variable dependiente: Costes totales por habitante (población total) en euros
Parámetro
Intersección
[porc_mir=0]
[porc_mir=1]
[porc_mir=2]
[porc_mir=3]
[docencia=0]
[docencia=1]
[porc_mir=0] *
[docencia=0]
[porc_mir=1] *
[docencia=0]
[porc_mir=1] *
[docencia=1]
[porc_mir=2] *
[docencia=0]
[porc_mir=2] *
[docencia=1]
[porc_mir=3] *
[docencia=0]
[porc_mir=3] *
[docencia=1]
frecuent
utb_1998
B
72,248
47,377
5,390
2,050
0a
-4,135
0a
Intervalo de confianza al
95%.
Límite
superior
Límite inferior
61,241
83,254
27,376
67,379
-10,564
21,344
-12,334
16,435
.
.
-19,233
10,963
.
.
Error típ.
5,599
10,175
8,116
7,318
.
7,680
.
t
12,903
4,656
,664
,280
.
-,538
.
Significación
,000
,000
,507
,779
.
,591
.
0
.
.
.
.
.
27,064
10,179
2,659
,008
7,055
47,074
0
.
.
.
.
.
13,291
9,848
1,350
,178
-6,068
32,649
.
.
.
.
.
.
.
.
.
.
0
.
.
.
.
.
1,349
3,163
,259
,324
5,203
9,755
,000
,000
,840
2,526
1,859
3,801
a
a
a
0
a
0
a
a. Al parámetro se le ha asignado el valor cero porque es redundante.
Análisis de la varianza y la covarianza
Análisis de la Covarianza
Ejemplo. Coste en farmacia por acreditación docente,
porcentaje de MIR, frecuentación y calidad de la prescripción.
ANOVA
ANCOVA
Descargar