Análisis de la varianza Magdalena Cladera Munar mcladera@uib.es Departamento de Economía Aplicada Universitat de les Illes Balears CONTENIDOS Análisis de la varianza de un factor. Análisis de la varianza con más de un factor. Análisis de la covarianza. Bibliografía: LÉVY, J.P. Y VARELA, J. (2003). Análisis multivariable para las ciencias sociales. Ed. Pearson Prentice Hall. Madrid. NEWBOLD, P. (1997). Estadística para los Negocios y la Economía. Prentice Hall. Madrid. PARDO, A. RUÍZ, M. A. (2001). SPSS 10.0. Guía para el análisis de datos. Accesible en: http://www.uca.es/serv/ai/formacion/spss/Inicio.pdf PEÑA, D. (2001) ESTADÍSTICA. Modelos y Métodos. Tomo II: Fundamentos. Ed. Alianza Universidad Textos.Madrid. PÉREZ, C. (2001). Técnicas estadísticas con SPSS. Ed. Pearson Prentice Hall. Madrid. PERÉZ, C. (2004). Técnicas de Anàlisis Multivariante de Datos. Aplicaciones con SPSS. Pearson Educación, S. A. Madrid. URIEL, E. Y ALDÁS, J. (2005). Anàlisis Multivariante Aplicado. Thomson. Madrid. Análisis de la varianza y la covarianza Análisis de la Varianza de un factor El Análisis de la Varianza (ANOVA) permite contrastar la igualdad de medias en k poblaciones. En cada una de las poblaciones, la variable cuantitativa X tiene la siguiente distribución: Xj ∼ N(µj, σ2) para j = 1, 2, …, k Hipótesis a contrastar: H0: µ1 = µ2 = … = µk = µ HA: al menos una media es diferente La causa de la posible heterogeneidad de las poblaciones se denomina factor. Los factores son variables cualitativas cuyas categorías determinan las diferentes poblaciones que se comparan. Análisis de la varianza y la covarianza Análisis de la Varianza de un factor Supuestos: Las varianzas de todas las poblaciones son iguales (homocedasticidad). La variable analizada se distribuye normalmente en todas las poblaciones. Incumplimiento de los supuestos: El ANOVA es una técnica robusta a la presencia de heterocedasticidad si el número de observaciones de cada grupo es similar. El ANOVA es una técnica robusta al incumplimiento del supuesto de normalidad si las muestras son grandes. Análisis de la varianza y la covarianza Análisis de la Varianza de un factor Información muestral: POBLACIÓN Observaciones muestrales Medias Media global 1 2 … k x11 x21 … xk1 x12 x22 … xk2 ⏐ ⏐ x1n x2n x1 x2 ⏐ … … x xkn xk Análisis de la varianza y la covarianza Análisis de la Varianza de un factor Información muestral: Medidas de variabilidad: POBLACIÓN 1 2 … - Variabilidad intragrupos: k ∑∑ (x ij Observaciones muestrales Medias Media global x11 x21 … xk1 x12 x22 … xk2 ⏐ ⏐ x1n x2n … xkn x1 x2 … xk ⏐ x − xj ) 2 - Variabilidad entre grupos: ∑ (x − x) 2 j - Variabilidad total: ∑∑ (x ij − x) 2 Análisis de la varianza y la covarianza Análisis de la Varianza de un factor Estadístico de contraste: ∑ (x − x ) (k − 1) F= ∑∑ (x − x ) (n − k ) - Variabilidad intragrupos: 2 ∼ Fk −1,n − k j 2 ij j Medidas de variabilidad: ∑∑ (x ij Ho cierta − xj ) 2 - Variabilidad entre grupos: Rho si F > Fk-1, n-k; α ∑ (x − x) 2 j - Variabilidad total: ∑∑ (x ij − x) 2 Análisis de la varianza y la covarianza Análisis de la Varianza de un factor Tabla ANOVA: Fuentes de variación Sumas de cuadrados Entre grupos ∑ (x Grados de libertad − x) 2 j k −1 ∑ (x ∑∑ (x Intragrupos ∑∑ (x − xj ) n−k Total ∑∑ (x − x) n −1 2 ij ij 2 Medias de cuadrados − x) (k − 1) 2 j ij − xj ) 2 (n − k ) F p-valor F p-valor Análisis de la varianza y la covarianza Análisis de la Varianza de un factor Ejemplo. Coste en farmacia por CA. Descriptivos Costes totales por habitante (población total) en euros N Asturias Cantabria La Rioja Murcia Aragón Castilla La Mancha Extremadura Illes Balears Madrid Castilla y León Total 75 32 18 71 112 187 97 41 289 232 1154 Media 147,1725 137,7320 142,1683 142,0445 158,8742 161,9665 146,9971 119,8415 102,2012 143,2552 137,0145 Desviación típica 20,10973 24,41170 27,18609 14,08061 35,62395 32,19195 26,83451 26,98319 28,72670 32,54685 36,66620 Error típico 2,32207 4,31542 6,40782 1,67106 3,36615 2,35411 2,72463 4,21407 1,68981 2,13681 1,07935 Intervalo de confianza para la media al 95% Límite Límite inferior superior 142,5457 151,7993 128,9306 146,5333 128,6489 155,6876 138,7117 145,3773 152,2040 165,5445 157,3223 166,6106 141,5888 152,4055 111,3245 128,3584 98,8753 105,5271 139,0451 147,4653 134,8968 139,1322 Mínimo 99,43 90,88 95,34 116,21 73,30 90,72 89,96 68,96 10,60 59,51 10,60 Máximo 201,90 206,35 185,37 187,43 252,25 290,77 214,83 178,99 226,11 230,20 290,77 Análisis de la varianza y la covarianza Análisis de la Varianza de un factor Ejemplo. Coste en farmacia por CA. ANOVA Costes totales por habitante (población total) en euros Inter-grupos Intra-grupos Total Suma de cuadrados 561026,249 989078,878 1550105,1 gl 9 1144 1153 Media cuadrática 62336,250 864,579 F 72,100 Sig. ,000 Análisis de la varianza y la covarianza Análisis de la Varianza con más de un factor Permite evaluar el efecto individual y conjunto de dos o más variables categóricas sobre una variable dependiente cuantitativa. Hipótesis. Existe una hipótesis nula por cada factor y una por cada posible combinación de factores: La hipótesis nula referida a un factor afirma que las medias de las poblaciones definidas por los niveles del factor son iguales. La hipótesis referida al efecto de una interacción afirma que su efecto es nulo. Para contrastar cada hipótesis se utiliza un estadístico F siguiendo la misma lógica que en el caso del ANOVA de un factor. Análisis de la varianza y la covarianza Análisis de la Varianza con más de un factor Supuestos: Se trabaja con tantas poblaciones como casillas resultan de la combinación de todas las categorías de los factores. Todas las poblaciones son normales. Igualdad de varianzas en todas las poblaciones. Análisis de la varianza y la covarianza Análisis de la Varianza con más de un factor Ejemplo. Coste en farmacia por acreditación docente y porcentaje de MIR Pruebas de los efectos inter-sujetos Variable dependiente: Costes totales por habitante (población total) en euros Fuente Modelo corregido Intersección porc_mir docencia porc_mir * docencia Error Total Total corregida Suma de cuadrados tipo III 194018,582a 2240345,702 67997,830 6403,169 11677,475 378099,655 8778802,089 572118,238 gl 6 1 3 1 2 430 437 436 Media cuadrática 32336,430 2240345,7 22665,943 6403,169 5838,737 879,302 a. R cuadrado = ,339 (R cuadrado corregida = ,330) F 36,775 2547,870 25,777 7,282 6,640 Significación ,000 ,000 ,000 ,007 ,001 Análisis de la varianza y la covarianza Análisis de la Varianza con más de un factor Ejemplo. Coste en farmacia por acreditación docente y porcentaje de MIR Análisis de la varianza y la covarianza Análisis de la Varianza con más de un factor Ejemplo. Coste en farmacia por acreditación docente y porcentaje de MIR Estadísticos descriptivos Variable dependiente: Costes totales por habitante (población total) en euros Formación de médicos Existencia de Media Desv. típ. N 0 No 182,0577 26,40935 11 Total 182,0577 26,40935 11 inferior al 34% No 151,1011 30,76412 263 Sí 118,1513 28,14032 19 Total 148,8811 31,64848 282 entre el 34% y el 66% No 118,2273 29,65015 68 Sí 112,2300 24,77521 24 Total 116,6628 28,45036 92 superior al 66% No 97,1619 28,11215 24 Sí 101,2119 25,61119 28 Total 99,3427 26,60492 52 Total No 142,3868 35,42615 366 Sí 109,4694 26,62058 71 Total 137,0387 36,22427 437 Análisis de la varianza y la covarianza Análisis de la Varianza con más de un factor Ejemplo. Coste en farmacia por acreditación docente y porcentaje de MIR Estimaciones de los parámetros Variable dependiente: Costes totales por habitante (población total) en euros Parámetro Intersección [porc_mir=0] [porc_mir=1] [porc_mir=2] [porc_mir=3] [docencia=0] [docencia=1] [porc_mir=0] * [docencia=0] [porc_mir=1] * [docencia=0] [porc_mir=1] * [docencia=1] [porc_mir=2] * [docencia=0] [porc_mir=2] * [docencia=1] [porc_mir=3] * [docencia=0] [porc_mir=3] * [docencia=1] B 101,212 84,896 16,939 11,018 0a -4,050 0a 0 a 37,000 0 a 10,047 0 0 0 a a a Intervalo de confianza al 95%. Límite superior Límite inferior 90,197 112,226 63,675 106,117 -,384 34,263 -5,195 27,231 . . -20,263 12,163 . . Error típ. 5,604 10,797 8,814 8,249 . 8,249 . t 18,061 7,863 1,922 1,336 . -,491 . Significación ,000 ,000 ,055 ,182 . ,624 . . . . . . 10,847 3,411 ,001 15,680 58,320 . . . . . 10,845 ,926 ,355 -11,268 31,363 . . . . . . . . . . . . . . . a. Al parámetro se le ha asignado el valor cero porque es redundante. Análisis de la varianza y la covarianza Análisis de la Covarianza El ANCOVA permite eliminar de la variable dependiente el efecto atribuible a variables no incluidas como factores. El interés sigue siendo analizar los efectos de los factores, contrastándose las mismas hipótesis que en el ANOVA. Además, se contrasta la hipótesis nula de que el efecto de la covariable sobre la dependiente es cero. Análisis de la varianza y la covarianza Análisis de la Covarianza Ejemplo. Coste en farmacia por acreditación docente, porcentaje de MIR, frecuentación y calidad de la prescripción. Pruebas de los efectos inter-sujetos Variable dependiente: Costes totales por habitante (población total) en euros Fuente Modelo corregido Intersección porc_mir docencia porc_mir * docencia frecuent utb_1998 Error Total Total corregida Suma de cuadrados tipo III 272291,773a 269226,479 15153,080 3586,459 4616,142 17504,011 61532,367 265099,886 8562645,903 537391,659 gl 8 1 3 1 2 1 1 410 419 418 Media cuadrática 34036,472 269226,479 5051,027 3586,459 2308,071 17504,011 61532,367 646,585 a. R cuadrado = ,507 (R cuadrado corregida = ,497) F 52,640 416,382 7,812 5,547 3,570 27,071 95,165 Significación ,000 ,000 ,000 ,019 ,029 ,000 ,000 Análisis de la varianza y la covarianza Análisis de la Covarianza Ejemplo. Coste en farmacia por acreditación docente, porcentaje de MIR, frecuentación y calidad de la prescripción. Estimaciones de los parámetros Variable dependiente: Costes totales por habitante (población total) en euros Parámetro Intersección [porc_mir=0] [porc_mir=1] [porc_mir=2] [porc_mir=3] [docencia=0] [docencia=1] [porc_mir=0] * [docencia=0] [porc_mir=1] * [docencia=0] [porc_mir=1] * [docencia=1] [porc_mir=2] * [docencia=0] [porc_mir=2] * [docencia=1] [porc_mir=3] * [docencia=0] [porc_mir=3] * [docencia=1] frecuent utb_1998 B 72,248 47,377 5,390 2,050 0a -4,135 0a Intervalo de confianza al 95%. Límite superior Límite inferior 61,241 83,254 27,376 67,379 -10,564 21,344 -12,334 16,435 . . -19,233 10,963 . . Error típ. 5,599 10,175 8,116 7,318 . 7,680 . t 12,903 4,656 ,664 ,280 . -,538 . Significación ,000 ,000 ,507 ,779 . ,591 . 0 . . . . . 27,064 10,179 2,659 ,008 7,055 47,074 0 . . . . . 13,291 9,848 1,350 ,178 -6,068 32,649 . . . . . . . . . . 0 . . . . . 1,349 3,163 ,259 ,324 5,203 9,755 ,000 ,000 ,840 2,526 1,859 3,801 a a a 0 a 0 a a. Al parámetro se le ha asignado el valor cero porque es redundante. Análisis de la varianza y la covarianza Análisis de la Covarianza Ejemplo. Coste en farmacia por acreditación docente, porcentaje de MIR, frecuentación y calidad de la prescripción. ANOVA ANCOVA