MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (UPC). CURS 08-09 Q1 – EXAMEN EXTRAORDINARI DE JULIOL Mètodes de Captació, Anàlisi i Interpretació de Dades . (Data: 8/7/2009 10:00-13:00 h Nom de l’alumne: Professor responsable: Localització: Normativa de l’examen: Durada del test: Sortida de notes: Revisió: Lloc: Aula – A6101) Lídia Montero Mercadé Edifici C5 D217 NO ES PERMÉS DE DUR ELS APUNTS PUBLICATS SI TAULES ESTADÍSTIQUES ES POT DUR CALCULADORA Només cal fer 1 dels 2 problemes 2h 00 min Abans 10/7/09 a les 15:00 al WEB de l’assignatura. El 10/7/09 a les 15:00 hores (C5-217). Problema 1 - Puntuació sobre 10 – 1 Punt per Apartat Caso de estudio de modo (preferencias reveladas) entre Sidney y Melbourne, GREENE CH 19 "ECONOMETRIC ANALYSIS" 5TH ED Table F21.2: Data Used to Study Travel Mode Choice, 840 Observations On 4 Modes For 210 Individuals. Source: Greene and Hensher (1997). Son 210 individuos con información para cada modo de: 1. mode = choice; Air, Train, Bus, or Car - Ref. Car 2. ttme = terminal waiting time, 0 for car 3. invc = in vehicle cost - cost component, 4. invt = travel time, in vehicle, 5. gcost = generalized cost measure, 6. hinc = household income, 7. psize = party size in mode chosen. Se va a estudiar la elección modal del tren frente al avión a partir de la diferencia en las variables explicativas entre el avión y el tren, concretamente se usará como respuesta positiva tren y por tanto, negativa avión y se construyen las variables tiempo de espera en terminal del tren menos el correspondiente al avión, coste del tren menos el de avión, tiempo de viaje en vehículo del tren menos el de avión, coste generalizado del tren menos el de avión. 1. Estimad manualmente los coeficientes del modelo nulo empleando la transformación logit. > summary(m0) Call: glm(formula = fresposta ~ 1, family = binomial, data = df) Deviance Residuals: Min 1Q Median -1.213 -1.213 1.143 3Q 1.143 Max 1.143 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.08269 0.18197 0.454 0.65 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 Residual deviance: 167.53 AIC: 169.53 on 120 on 120 degrees of freedom degrees of freedom 1 Number of Fisher Scoring iterations: 3 > pnul=63/(63+58);oddnul=63/58; logoddnul=log(oddnul) > pnul; oddnul;logoddnul [1] 0.5206612 [1] 1.086207 [1] 0.08269172 > 2. Estimad manualmente los coeficientes del modelo nulo empleando la transformación probit. > glm(fresposta~1,data=df, family=binomial(link=probit)) Call: glm(formula = fresposta ~ 1, family = binomial(link = probit), data = df) Coefficients: (Intercept) 0.05181 Degrees of Freedom: 120 Total (i.e. Null); Null Deviance: 167.5 Residual Deviance: 167.5 AIC: 169.5 > qnorm(pnul) [1] 0.05181301 > 120 Residual 3. Determinar si las variables de las diferencias en los tiempos de espera en terminal, en trayecto en vehículo y en coste son estadísticamente significativas en el modelo aditivo que contiene las 3 (modelo (m1)). > drop1(m1,test="Chisq") Single term deletions Model: fresposta ~ invt2.1 + ttme2.1 + invc2.1 Df Deviance AIC LRT Pr(Chi) <none> 119.639 127.639 invt2.1 1 124.073 130.073 4.434 0.03524 * ttme2.1 1 160.876 166.876 41.236 1.349e-10 *** invc2.1 1 121.654 127.654 2.014 0.15582 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > La variable cost del viatge no és estadísticamente significativa després d’incloure la resta de variables en el model. Per criterio d’Akaike el millor model és l’additiu amb totes 3 variables. 4. ¿Interpretad el modelo (m2), qué finalidad creeis que se persigue? Es persegueix definir una diferència en els timps de viatge totals (espera més en vehicle), el model es pot comparar per deviança amb el model m1 (m1 és millor que m2). 5. Comparad en los términos estadísticos que creais adecuados (razonando porqué) los modelos (m2) y (m1), con cual de los 2 os quedariais? Es poden comparar per AIC o per deviança, doncs són models encaixats m2 implica aferir una restricció a m1 tal que els 2 coeficients de les variables temps siguin iguals. Es millor m1. > AIC(m2);AIC(m1) [1] 162.6461 [1] 127.6393 > anova(m2,m1,test="Chisq") Analysis of Deviance Table Model 1: fresposta ~ I(invt2.1 + ttme2.1) + invc2.1 Model 2: fresposta ~ invt2.1 + ttme2.1 + invc2.1 Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 118 156.646 2 117 119.639 1 37.007 1.177e-09 6. Los economistas denominan disponibilidad a pagar (pathworth) al cociente entre los coeficientes de los tiempos (de espera y en trayecto dentro del vehículo) y el coeficiente del coste. Las unidades de tiempo 2 son minutos y el coste son dólares autralianos. Calculad la disponibilidad a pagar por reducir un minuto del tiempo de espera en terminal y por reducir el tiempo del trayecto en vehículo. > # Preg 6 > coef(m1) (Intercept) invt2.1 ttme2.1 invc2.1 -0.718636402 -0.002302195 -0.054749391 -0.012463629 > wtpte<-coef(m1)[3]/coef(m1)[4] > wtptinv<-coef(m1)[2]/coef(m1)[4] > wtpte;wtptinv ttme2.1 4.392733 invt2.1 0.1847130 > > 7. Si se quisiera determinar una disponibilidad a pagar por reducir el tiempo de viaje global (espera más trayecto en vehículo), cómo podríais calcularlo con los modelos disponibles? > # Preg 7 > coef(m2) (Intercept) I(invt2.1 + ttme2.1) 0.83503400 -0.00285351 > wtptt<-coef(m2)[2]/coef(m2)[3];wtptt I(invt2.1 + ttme2.1) 0.2757873 > invc2.1 -0.01034678 8. Parece que la disponibilidad a pagar tiene que estar relacionada con la capacidad adquisitiva de los individuos, de ahí que se relativice el coste del viaje dividiéndolo por los ingresos del hogar del individuo y se reajuste el modelo con coeficientes diferenciados para las distintas componentes del tiempo. Os parece una buena idea en términos estadísticos, qué modelo prefeririais m1, m2 o m3? > summary(m3) Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc), family = binomial, data = df) Deviance Residuals: Min 1Q Median -2.1258 -0.6746 0.1996 3Q 0.6860 Max 2.6428 Coefficients: (Intercept) invt2.1 ttme2.1 I(invc2.1/hinc) --Signif. codes: Estimate Std. Error z value Pr(>|z|) -0.540768 0.606298 -0.892 0.37244 -0.002785 0.001170 -2.380 0.01731 * -0.054370 0.010675 -5.093 3.52e-07 *** -0.216530 0.083289 -2.600 0.00933 ** 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 Residual deviance: 112.08 AIC: 120.08 on 120 on 117 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 5 > AIC(m1) [1] 127.6393 > AIC(m2) [1] 162.6461 > AIC(m3) [1] 120.0796 > És una idea excel.lent, ara la variable cost és estadísticamente significativa (com indica el sentit comú). Les disponibilitats a pagar s’haurien de calcular i interpretar amb cautela. Per AIC el millor model és el barrer m3. 3 9. Interpretad el efecto del número de pasajeros que viajan juntos en la probabilidad de elegir el modo avión: (m4). Coefficients: (Intercept) invt2.1 ttme2.1 I(invc2.1/hinc) psize Estimate Std. Error z value Pr(>|z|) -2.199265 0.976464 -2.252 0.02430 * -0.002384 0.001210 -1.970 0.04882 * -0.061262 0.011657 -5.256 1.48e-07 *** -0.242748 0.086306 -2.813 0.00491 ** 0.763014 0.336854 2.265 0.02351 * Per cada individu que creix el grup el logodds de triar tren s’incrementa en un 0.763 unitats i els odds de tren sobre avió s’incrementen en un (exp(0.763)-1)*100 = 114%, suposant que no hi ha canvis en la resta de les variables. 10. Para ahorrar parámetros y complejidad al modelo se decide crear una variable dicotòmica donde se codifica si el número de viajeros és 1 o es 2 o más. Con este factor se recalcula el modelo m5. Argumentad estadísticamente si vale la pena esta maniobra o es mejor considerar como covariante el número de viajeros que van juntos. Val la pena, estrictament per AIC és menor el model m4, però la simplicitat també és un factor a tenir en compta davant de la tria entre covariant o factor dicotòmic. RESULTATS R > # Mantenim només les observacions de resposta Air o Tren ll<-which((df$fresposta=="Air") | (df$fresposta=="Train"));ll;length(ll) df<-df[ll,] df$fresposta<-factor(df$fresposta) summary(df) dim(df) > df = transform(df , ttme2.1 = ttme2-ttme1, + invc2.1 = invc2-invc1, + invt2.1 = invt2-invt1, + gcost2.1 = gcost2-gcost1, + hinc = hinc1, + psize = factor(psize1) + ) > summary(df) id mode ttme1 ttme2 ttme3 ttme4 Min. : 6.00 Min. :1.000 Min. : 5.00 Min. : 1.0 Min. :35.00 Min. :0 1st Qu.: 44.00 1st Qu.:1.000 1st Qu.:45.00 1st Qu.:25.0 1st Qu.:35.00 1st Qu.:0 Median : 77.00 Median :2.000 Median :64.00 Median :34.0 Median :35.00 Median :0 Mean : 93.33 Mean :1.521 Mean :56.95 Mean :33.3 Mean :43.48 Mean :0 3rd Qu.:147.00 3rd Qu.:2.000 3rd Qu.:69.00 3rd Qu.:44.0 3rd Qu.:53.00 3rd Qu.:0 Max. :207.00 Max. :2.000 Max. :99.00 Max. :99.0 Max. :53.00 Max. :0 invc1 invc2 invc3 invc4 invt1 invt2 Min. : 44.00 Min. : 11.00 Min. :12.00 Min. : 3.00 Min. : 63.0 Min. : 255.0 1st Qu.: 61.00 1st Qu.: 25.00 1st Qu.:25.00 1st Qu.:10.00 1st Qu.: 93.0 1st Qu.: 344.0 Median : 85.00 Median : 35.00 Median :31.00 Median :17.00 Median :115.0 Median : 596.0 Mean : 88.63 Mean : 47.53 Mean :33.23 Mean :22.17 Mean :131.5 Mean : 568.2 3rd Qu.:108.00 3rd Qu.: 71.00 3rd Qu.:45.00 3rd Qu.:33.00 3rd Qu.:161.0 3rd Qu.: 800.0 Max. :180.00 Max. :112.00 Max. :70.00 Max. :86.00 Max. :333.0 Max. :1030.0 invt3 invt4 gcost1 gcost2 gcost3 gcost4 Min. : 345.0 Min. :268.0 Min. : 56.0 Min. : 42.0 Min. : 56.0 Min. : 41.00 1st Qu.: 405.0 1st Qu.:316.0 1st Qu.: 73.0 1st Qu.: 72.0 1st Qu.: 73.0 1st Qu.: 53.00 Median : 590.0 Median :577.0 Median :104.0 Median :113.0 Median : 98.0 Median : 94.00 Mean : 622.6 Mean :571.1 Mean :105.6 Mean :120.3 Mean :113.1 Mean : 95.55 3rd Qu.: 882.0 3rd Qu.:862.0 3rd Qu.:128.0 3rd Qu.:163.0 3rd Qu.:145.0 3rd Qu.:141.00 Max. :1068.0 Max. :990.0 Max. :197.0 Max. :245.0 Max. :206.0 Max. :223.00 hinc1 hinc2 hinc3 hinc4 psize1 psize2 Min. : 4.00 Min. : 4.00 Min. : 4.00 Min. : 4.00 Min. :1.000 Min. :1.000 1st Qu.:12.00 1st Qu.:12.00 1st Qu.:12.00 1st Qu.:12.00 1st Qu.:1.000 1st Qu.:1.000 Median :30.00 Median :30.00 Median :30.00 Median :30.00 Median :1.000 Median :1.000 Mean :32.01 Mean :32.01 Mean :32.01 Mean :32.01 Mean :1.620 Mean :1.620 3rd Qu.:45.00 3rd Qu.:45.00 3rd Qu.:45.00 3rd Qu.:45.00 3rd Qu.:2.000 3rd Qu.:2.000 Max. :72.00 Max. :72.00 Max. :72.00 Max. :72.00 Max. :4.000 Max. :4.000 psize3 psize4 Air Train Bus Car fresposta Min. :1.000 Min. :1.000 Min. :0.0000 Min. :0.0000 Min. :0 Min. :0 Air :58 4 1st Qu.:1.000 Train:63 Median :1.000 Mean :1.620 3rd Qu.:2.000 Max. :4.000 ttme2.1 Min. :-68.00 1st Qu.:-46.00 Median :-26.00 Mean :-23.65 3rd Qu.: -1.00 Max. : 39.00 > dim(df) [1] 121 37 > summary(m1) 1st Qu.:1.000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0 1st Qu.:0 Median :1.000 Mean :1.620 3rd Qu.:2.000 Max. :4.000 invc2.1 Min. :-114.0 1st Qu.: -56.0 Median : -40.0 Mean : -41.1 3rd Qu.: -26.0 Max. : 17.0 Median :0.0000 Mean :0.4793 3rd Qu.:1.0000 Max. :1.0000 invt2.1 Min. :141.0 1st Qu.:235.0 Median :461.0 Mean :436.8 3rd Qu.:636.0 Max. :855.0 Median :1.0000 Mean :0.5207 3rd Qu.:1.0000 Max. :1.0000 gcost2.1 Min. :-75.00 1st Qu.:-10.00 Median : 6.00 Mean : 14.67 3rd Qu.: 44.00 Max. :125.00 Median :0 Median :0 Mean :0 Mean :0 3rd Qu.:0 3rd Qu.:0 Max. :0 Max. :0 hinc psize Min. : 4.00 1:69 1st Qu.:12.00 2:36 Median :30.00 3: 9 Mean :32.01 4: 7 3rd Qu.:45.00 Max. :72.00 Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + invc2.1, family = binomial, data = df) Deviance Residuals: Min 1Q Median -2.1058 -0.8155 0.3353 3Q 0.7861 Max 2.6903 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.718636 0.653419 -1.100 0.2714 invt2.1 -0.002302 0.001123 -2.050 0.0403 * ttme2.1 -0.054749 0.010429 -5.250 1.52e-07 *** invc2.1 -0.012464 0.008857 -1.407 0.1594 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 Residual deviance: 119.64 AIC: 127.64 on 120 on 117 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 4 > step(m1) Start: AIC=127.64 fresposta ~ invt2.1 + ttme2.1 + invc2.1 <none> - invc2.1 - invt2.1 - ttme2.1 Call: Df Deviance 119.64 1 121.65 1 124.07 1 160.88 AIC 127.64 127.65 130.07 166.88 glm(formula = fresposta ~ invt2.1 + ttme2.1 + invc2.1, family = binomial, Coefficients: (Intercept) -0.718636 invt2.1 -0.002302 ttme2.1 -0.054749 invc2.1 -0.012464 Degrees of Freedom: 120 Total (i.e. Null); Null Deviance: 167.5 Residual Deviance: 119.6 AIC: 127.6 > drop1(m1,test="Chisq") Single term deletions 117 Residual Model: fresposta ~ invt2.1 + ttme2.1 + invc2.1 Df Deviance AIC LRT Pr(Chi) <none> 119.639 127.639 invt2.1 1 124.073 130.073 4.434 0.03524 * ttme2.1 1 160.876 166.876 41.236 1.349e-10 *** invc2.1 1 121.654 127.654 2.014 0.15582 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > > summary(m2) Call: 5 data = df) glm(formula = fresposta ~ I(invt2.1 + ttme2.1) + invc2.1, family = binomial, data = df) Deviance Residuals: Min 1Q Median -1.7344 -1.1088 0.8287 3Q 0.9751 Max 1.5726 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.8350340 0.4846115 1.723 0.08487 . I(invt2.1 + ttme2.1) -0.0028535 0.0009314 -3.064 0.00219 ** invc2.1 -0.0103468 0.0078252 -1.322 0.18609 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 Residual deviance: 156.65 AIC: 162.65 on 120 on 118 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 4 > anova(m2,m1,test="Chisq") Analysis of Deviance Table Model 1: fresposta ~ I(invt2.1 + ttme2.1) + invc2.1 Model 2: fresposta ~ invt2.1 + ttme2.1 + invc2.1 Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 118 156.646 2 117 119.639 1 37.007 1.177e-09 > step(m2) Start: AIC=162.65 fresposta ~ I(invt2.1 + ttme2.1) + invc2.1 - invc2.1 <none> - I(invt2.1 + ttme2.1) Df Deviance AIC 1 158.45 162.45 156.65 162.65 1 166.84 170.84 Step: AIC=162.45 fresposta ~ I(invt2.1 + ttme2.1) <none> - I(invt2.1 + ttme2.1) Call: Df Deviance AIC 158.45 162.45 1 167.53 169.53 glm(formula = fresposta ~ I(invt2.1 + ttme2.1), family = binomial, Coefficients: (Intercept) 1.170376 I(invt2.1 + ttme2.1) -0.002625 Degrees of Freedom: 120 Total (i.e. Null); Null Deviance: 167.5 Residual Deviance: 158.5 AIC: 162.5 > summary(m3) 119 Residual Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc), family = binomial, data = df) Deviance Residuals: Min 1Q Median -2.1258 -0.6746 0.1996 3Q 0.6860 Max 2.6428 Coefficients: (Intercept) invt2.1 ttme2.1 I(invc2.1/hinc) --Signif. codes: Estimate Std. Error z value Pr(>|z|) -0.540768 0.606298 -0.892 0.37244 -0.002785 0.001170 -2.380 0.01731 * -0.054370 0.010675 -5.093 3.52e-07 *** -0.216530 0.083289 -2.600 0.00933 ** 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) 6 data = df) Null deviance: 167.53 Residual deviance: 112.08 AIC: 120.08 on 120 on 117 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 5 > AIC(m1) [1] 127.6393 > AIC(m2) [1] 162.6461 > AIC(m3) [1] 120.0796 > > # Preg 9 > summary(m4) Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) + psize, family = binomial, data = df) Deviance Residuals: Min 1Q Median -2.2213 -0.6136 0.1752 3Q 0.6451 Max 2.0808 Coefficients: (Intercept) invt2.1 ttme2.1 I(invc2.1/hinc) psize --Signif. codes: Estimate Std. Error z value Pr(>|z|) -2.199265 0.976464 -2.252 0.02430 * -0.002384 0.001210 -1.970 0.04882 * -0.061262 0.011657 -5.256 1.48e-07 *** -0.242748 0.086306 -2.813 0.00491 ** 0.763014 0.336854 2.265 0.02351 * 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 Residual deviance: 106.28 AIC: 116.28 on 120 on 116 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 5 > anova(m3,m4,test="Chisq") Analysis of Deviance Table Model 1: fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) Model 2: fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) + psize Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 117 112.080 2 116 106.279 1 5.800 0.016 > Preg 10 > df$f.tamany<-factor(df$psize) > levels(df$f.tamany)<-c("1","2+","2+","2+") > summary(m5) Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) + f.tamany, family = binomial, data = df) Deviance Residuals: Min 1Q Median -2.0769 -0.6374 0.2030 3Q 0.6487 Max 2.5162 Coefficients: (Intercept) invt2.1 ttme2.1 I(invc2.1/hinc) f.tamany2+ --Signif. codes: Estimate Std. Error z value Pr(>|z|) -1.392766 0.764994 -1.821 0.0687 . -0.002406 0.001201 -2.003 0.0452 * -0.060174 0.011582 -5.196 2.04e-07 *** -0.236174 0.084335 -2.800 0.0051 ** 1.063533 0.525279 2.025 0.0429 * 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 on 120 degrees of freedom 7 Residual deviance: 107.69 AIC: 117.69 on 116 degrees of freedom Number of Fisher Scoring iterations: 5 > Problema 2 - Puntuació sobre 13 – 1 Punt per Apartat La recogida de residuos se efectúa parcialmente de forma selectiva en Catalunya, dando lugar a un registro de los totales recogidos a nivel municipal y de su composición. De la parte que se recoge mezclada (entre el 15% y el 70%, según el municipio), se conoce el total municipal pero no su composición, de ahí que se tenga que recurrir a métodos de muestreo para la caracterización de la composición de la fracción de residuos de tipo resto a nivel municipal, comarcal y global del país. Los datos municipales sobre la cantidad y composición de los residuos generados en los diversos municipios, clasificados por comarcas son accesibles informáticamente a través del enlace de la Agencia de Residuos de Catalunya (http://www.arc-cat.net/). Después de acceder a los datos municipales y unificar en un solo archivo toda la información, se dispone a nivel municipal de las siguientes variables características de la generación de residuos municipales anuales durantes el año 2007: • Pob07.1: Padrón de residentes en 2007. • TotROrga, TotRVidre, TotPaper, TotEnvas, TotVolum, TotPoda, TotPila, TotMede, TotTextil, TotAlter: Total generado anual de residuos orgánicos, vidrio, papel, envases, objetos voluminosos, poda y jardinaería, medicamentos, textiles y otros residuos recogidos de manera selectiva. • PerRecSel: Porcentaje de recogida selectiva municipal, sobre total de residuos generados en 2007. • FRTracta, FRDipo, FRInci, FRDipoF: Toneladas en 2007 de fracción resto tratada, directa a depósito controlado, directa a incineradora, directa a disposición final, • TotFResta: Toneladas totales de residuos de Fracción Resto generados en 2007. • PerFRsTot: Porcentaje de Fracción Resta sobre el total de Residuos municipales generados en 2007. • TotRes07: Toneladas totales de residuos municipales generados en 2007. • Res07pHab: Residuos diarios generados por residente y día en 2007 a nivel municipal (en kg). • Res07pHabETCA: Residuos diarios generados por persona y día en 2007 a nivel municipal (en kg), contiene corrección estacionalidad. • PRSOrga, PRSVidre, PRSPaper, PRSEnvas, PRSVolum, PRSPoda, PRSPila, PRSMede, PRSTextil, PRSAlter: Porcentaje que supone el Total generado anual de residuos orgánicos, vidrio, papel, envases, objetos voluminosos, poda y jardinería, medicamentos, textiles y otros residuos recogidos de manera selectiva sobre el Total anual de residuos de Recogida Selectiva. La variable de respuesta que se va a estudiar está relacionada con la generación de residuos diarios por habitante equivalente (en kg): Res07pHabETCA. Las variables explicativas son: porcentaje de recogida selectiva en 2007, PRSOrga, PRSVidre, PRSPaper, PRSEnvas, PRSVolum, PRSPoda, PRSPila, PRSMede, PRSTextil, PRSAlter y otras variables sociodemográficas que pudieran desarrollarse durante el ejercicio. 1. La variable de respuesta que se va estudiar es la generación de residuos municipales por persona y día con correccion de estacionalidad. ¿Se puede considerar que la generación diaria por persona está relacionada con la implicación en la recogida selectiva? > cor.test(rga1$Res07pHabETCA,rga1$PerRecSel) Pearson's product-moment correlation data: rga1$Res07pHabETCA and rga1$PerRecSel t = -3.3166, df = 861, p-value = 0.0009493 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.17771773 -0.04592423 sample estimates: cor -0.1123149 8 Técnicament sí, el p valor de la hipótesi nul.la que indica que no hi ha correlació és de 1 per mil, per tant, es rebutja la H0 i per tant hi ha una correlación lineal diferent de 0 i negativa, a major recollida selectiva menor generación diària per persona. 2. La variable de respuesta, generación diaria por habitante equivalente, ¿pensais que tiene una distribución de probabilidad aceptablemente normal? No, ni de lluny només cal veure l’assimetria que mostra la distribució. A més si s’aplica un contrast de normalitat de Shapiro-Wilk la normalitat com a hipótesi nula es rebutja. 3. La variable de respuesta, generación diaria por habitante equivalente, ¿pensais que tiene valores atípicos? Determinar el rango de valores atípicos y atípicos extremos. S’han donat dades descriptives dels quartils de la variable de resposta. Valors atípics: més petits de 0.56 kg i més grans de 2.32 kg. Valors extremadamente atípics: generación més gran de 3,0 kg per persona i dia. > edvr<-summary(rga1$Res07pHabETCA) > iqr<-edvr[5]-edvr[2] > ii<-edvr[2]-1.5*iqr;is<-edvr[5]+1.5*iqr;ii;is 1st Qu. 0.56 3rd Qu. 2.32 > ii<-edvr[2]-3*iqr;is<-edvr[5]+3*iqr;ii;is 1st Qu. -0.1 3rd Qu. 2.98 > edvr<-summary(rga1$Res07pHabETCA);edvr Min. 1st Qu. Median Mean 3rd Qu. Max. 0.400 1.220 1.430 1.502 1.660 5.160 4. Se procede a una discretización de la variable PerRecSel según: f.RecSel <- factor(cut(PerRecSel, breaks=c(1,15,25,35,100)),labels=c(‘moltbaix’,'baix','mig','alt')). La variable de respuesta que se va estudiar es la generación de residuos municipales por persona y día con correccion de estacionalidad. ¿Se puede considerar que la generación diaria por persona tiene una media diferente según el factor de implicación en la recogida selectiva? Gràficament l’única cosa que es veu és que la dispersió de la generació diària és clarament diferent en el grup d’implicació molt baix en la recollida selectiva que en la resta. Hi ha molts valors atípics en aquest grup (diagrama bivariant i boxplots). Per inferència, el Kruskal – Wallis dona un p valor significativament menor del 5% per la hipótesis nula d’igualtat entre les mitjanes de generación, malgrat la cautela que s’ha de tenir devant de l’heterocedasticitat present. 5. ¿Cuál es la generación diaria por persona en la mediana de implicación en la recogida selectiva y el modelo cuyos resultados se ilustran? Apliqueu la predicció lineal de la regressió simple: 1.602-0.003779*24.36 = 1.51 kg/persona i dia > predict(m2,newdata=data.frame(PerRecSel=24.36 )) 1 1.509646 > summary(m2) Call: lm(formula = rga1$Res07pHabETCA ~ rga1$PerRecSel) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.601695 0.033810 47.373 < 2e-16 *** rga1$PerRecSel -0.003779 0.001139 -3.317 0.00095 *** 9 Ahora se va a estudiar el modelo predictivo para la generación de residuos municipales por persona y día con correccion de estacionalidad según la implicación en la recogida selectiva (covariante o factor, a deducir de las preguntas concretas de los apartados) y los porcentajes de esa recogida en algunas de las tipologías. 6. Determinar la suma de cuadrados residual del modelo de nulo. La suma de quadrats del model nul coincideix amb la suma de quadrats total que és la variança mostral multiplicada per el nombre d’observacions menys 1: teniu dados de la variança mostral, és a dir, > var(rga1[,c(2,3)],use="pairwise.complete.obs") PerRecSel Res07pHabETCA PerRecSel 184.19186 -0.6960100 Res07pHabETCA -0.69601 0.2084902 > 0.2084902*862 [1] 179.7186 > anova(m0) Analysis of Variance Table Response: rga1$Res07pHabETCA Df Sum Sq Mean Sq F value Pr(>F) Residuals 862 179.719 0.208 > 7. Determinar ¿ cuál es la suma de cuadrados explicada por el modelo de regresión lineal entre Y e X (en m2)? El quadrat del coeficient de correlación lineal (-0.1123149* -0.1123149=0.01261) per la suma de quadrats total que coincideix amb la residual del model nul, és a dir (0.01261*179.719=2.267) la part de la inèrcia de les dades explicada pel percentatge de recollida selectiva. > anova(m2) Analysis of Variance Table Response: Res07pHabETCA Df Sum Sq Mean Sq F value Pr(>F) PerRecSel 1 2.267 2.267 11 0.0009493 *** Residuals 861 177.452 0.206 --Signif. codes: 0 ‘** 8. Calcular el coeficiente de determinación del modelo (m2). El quadrat del coeficient de correlación lineal (-0.1123149* -0.1123149=0.01261), és a dir 1.3% de la variabilitat de les dades bé explicada pel percentatge de recollida selectiva. 9. Determinar si la relación entre la generación de residuos por persona depende de la penetración de la recogida selectiva por valoración de los gráficos disponibles. S’observa una tendència negativa en les dades, però l’efecte de la sobredispersió de les observacions amb poca incidència de recollida selectiva sembla que condiciona els resultats. 10. Determinar si la relación entre la generación de residuos por persona depende de la penetración de la recogida selectiva y de la incidencia de la recogida selectiva de tipo orgánico considerando sólo modelos de regresión multiple (variables explicativas cuantitativas). Per inferència es poden comparar per variança incremental si els 2 models són equivalents (amb/sense percentatge de recollida orgànica): el p valor és del 13% per tant no fa falta el percentatge de recollida orgànica, en canvi el percentatge de recollida selectiva és estadísticamente significativa a jutjar pel p valor del coeficiente dins del model (m2) subministrat en un apartat anterior. > anova(m3,m31) Analysis of Variance Table Model 1: rga1$Res07pHabETCA ~ rga1$PerRecSel Model 2: rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga Res.Df RSS Df Sum of Sq F Pr(>F) 1 861 177.45 10 2 860 177.00 1 0.45 2.1862 0.1396 > anova(m0,m3) Analysis of Variance Table Model 1: rga1$Res07pHabETCA ~ 1 Model 2: rga1$Res07pHabETCA ~ rga1$PerRecSel Res.Df RSS Df Sum of Sq F Pr(>F) 1 862 179.719 2 861 177.452 1 2.267 11 0.0009493 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > 11. Interpretar las ecuaciones para la predicción la generación por persona según el modelo aditivo con tratamiento de la incidencia de recogida selectiva como factor y la incidencia de la recogida selectiva de tipo orgánico. Coefficients: (Intercept) rga1$f.RecSelbaix rga1$f.RecSelmig rga1$f.RecSelalt rga1$PRSOrga Estimate Std. Error t value Pr(>|t|) 1.639098 0.032836 49.917 < 2e-16 *** -0.190895 0.044859 -4.255 2.32e-05 *** -0.105091 0.046832 -2.244 0.0251 * -0.111034 0.055259 -2.009 0.0448 * -0.001882 0.001097 -1.715 0.0867 . Recollida Selectiva en nivells: ‘molt baix’ : 1.64 +0 – 0.001882 PRSOrga ‘baix’ : 1.64-0.191 – 0.001882 PRSOrga ‘mig’ : 1.64-0.105091– 0.001882 PRSOrga ‘alt’ : 1.64-0.111034 – 0.001882 PRSOrga 12. ¿Cuál será la predicción total de residuos anuales para una ciudad de 30000 residentes en la mediana de incidencia de la recogida orgánica y un compromiso máximo con el medio ambiente en el modelo aditivo con tratamiento de la recogida selectiva como factor? La mediana de PRSORga és 9.8 i d’aquí aplicar l’equació (no importa la població, no intervé) del punt anterior per nivell alt : 1.64-0.111034 – 0.001882 PRSOrga = 1.64-0.111034 – 0.001882 * 9.8 = 1.509623. > predict(m32,newdata=data.frame(PRSOrga=9.8 ,f.RecSel="alt")) 1 1.509623 > Generació total de 30000 x 1.509623 = 45289 kg per dia. Por 365 dará el promedio anual. Ahora se va a estudiar el modelo predictivo para la generación de residuos municipales por persona y día con correccion de estacionalidad según la implicación en la recogida selectiva y los porcentajes de esa recogida en algunas de las tipologías. Se usará la escala logarítmica para las variables cuantitativas. 13. ¿Cuál es la generación diaria por persona según en la mediana de implicación en la recogida selectiva y el modelo cuyos resultados se ilustran? > summary(m4) Call: lm(formula = log(rga1$Res07pHabETCA) ~ log(rga1$PerRecSel)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.57730 0.05441 10.610 < 2e-16 *** log(rga1$PerRecSel) -0.06688 0.01709 -3.913 9.84e-05 *** Manualment, exp(0.5773-0.06688 *ln(24.36))=1,4387 > m4<-lm(log(Res07pHabETCA)~log(PerRecSel),data=rga1 ) 11 > predict(m4,newdata=data.frame(PerRecSel=24.36 )) 1 0.3637511 > exp(predict(m4,newdata=data.frame(PerRecSel=24.36 ))) 1 >> Generació total de 30000 x 1.438716 = 43161 kg per dia. Por 365 dará el promedio anual. RESULTADOS: > dim(rga1) [1] 863 33 summary(rga1[,c(91,100:110)]) PerRecSel Res07pHabETCA Min. : 3.21 Min. :0.400 1st Qu.:16.48 1st Qu.:1.220 Median :24.36 Median :1.430 Mean :26.39 Mean :1.502 3rd Qu.:33.02 3rd Qu.:1.660 Max. :77.60 Max. :5.160 PRSVolum PRSPoda Min. : 0.000 Min. : 0.00 1st Qu.: 0.445 1st Qu.: 0.00 Median : 5.830 Median : 0.01 Mean : 8.488 Mean : 1.69 3rd Qu.:12.550 3rd Qu.: 1.73 Max. :39.340 Max. :19.44 PRSOrga PRSVidre PRSPaper PRSEnvas Min. : 0.00 Min. : 0.81 Min. : 0.86 Min. : 0.010 1st Qu.: 0.00 1st Qu.:11.73 1st Qu.:19.17 1st Qu.: 7.375 Median : 9.80 Median :19.78 Median :28.21 Median :10.420 Mean :15.04 Mean :23.14 Mean :29.34 Mean :11.266 3rd Qu.:29.21 3rd Qu.:30.90 3rd Qu.:36.98 3rd Qu.:14.890 Max. :62.06 Max. :66.38 Max. :67.16 Max. :28.460 PRSPila PRSMede PRSTextil PRSAltre Min. :0.00000 Min. :0.01000 Min. :0.0000 Min. : 0.00 1st Qu.:0.00000 1st Qu.:0.04000 1st Qu.:0.0000 1st Qu.: 0.00 Median :0.03000 Median :0.06000 Median :0.0000 Median : 6.28 Mean :0.04159 Mean :0.07479 Mean :0.2178 Mean :10.69 3rd Qu.:0.05000 3rd Qu.:0.09000 3rd Qu.:0.0700 3rd Qu.:19.02 Max. :1.04000 Max. :0.55000 Max. :6.0000 Max. :56.66 > var(rga1[,c(2,3)],use="pairwise.complete.obs") PerRecSel Res07pHabETCA PerRecSel 184.19186 -0.6960100 Res07pHabETCA -0.69601 0.2084902 > cor(rga1[,c(2,3)],use="pairwise.complete.obs") PerRecSel Res07pHabETCA PerRecSel 1.0000000 -0.1123149 Res07pHabETCA -0.1123149 1.0000000 > Residus municipals 2007 per habitant equivalent i dia (kg) Mirem les dades ... Density 0.6 0.0 0.0 1 0.2 0.2 0.4 2 0.4 Density 3 0.6 0.8 4 0.8 1.0 1.2 1.0 5 Mirem les dades ... 0 1 2 3 4 5 0 rga1$Res07pHabETCA 1 2 3 N = 863 Bandw idth = 0.07645 > shapiro.test( (rga1$Res07pHabETCA) ) Shapiro-Wilk normality test data: (rga1$Res07pHabETCA) W = 0.8628, p-value < 2.2e-16 > plot( rga1$Res07pHabETCA~rga1$f.RecSel ) > kruskal.test( rga1$Res07pHabETCA~rga1$f.RecSel ) 12 4 5 Kruskal-Wallis rank sum test data: rga1$Res07pHabETCA by rga1$f.RecSel Kruskal-Wallis chi-squared = 13.6471, df = 3, p-value = 0.003427 > fligner.test( rga1$Res07pHabETCA~rga1$f.RecSel ) Fligner-Killeen test of homogeneity of variances 0.5 log(rga1$Res07pHabETCA) 0.0 3 -0.5 2 -1.0 1 rga1$Res07pHabETCA 4 1.0 1.5 5 data: rga1$Res07pHabETCA by rga1$f.RecSel Fligner-Killeen:med chi-squared = 61.404, df = 3, p-value = 2.946e-13 moltbaix baix mig alt moltbaix rga1$f.RecSel baix mig rga1$f.RecSel 13 alt 1.5 0.0 0.5 log(rga1$Res07pHabETCA) 1.0 0.0 0.5 log(rga1$Res07pHabETCA) 1.0 1.5 5 4 3 rga1$Res07pHabETCA -0.5 -0.5 2 40 60 -1.0 -1.0 1 20 80 20 40 rga1$PerRecSel 60 80 rga1$PerRecSel > summary(m31) Call: lm(formula = rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga) Residuals: Min 1Q Median -1.03836 -0.27817 -0.06098 3Q 0.16397 Max 3.63676 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.596646 0.033959 47.016 <2e-16 *** rga1$PerRecSel -0.002650 0.001371 -1.933 0.0535 . rga1$PRSOrga -0.001645 0.001112 -1.479 0.1396 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.4537 on 860 degrees of freedom Multiple R-squared: 0.01512, Adjusted R-squared: 0.01283 F-statistic: 6.601 on 2 and 860 DF, p-value: 0.001429 > step(m31) Start: AIC=-1361.21 rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga Df Sum of Sq <none> - rga1$PRSOrga - rga1$PerRecSel 1 1 0.45 0.77 RSS AIC 177.00 -1361.21 177.45 -1361.02 177.77 -1359.47 Call: lm(formula = rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga) Coefficients: (Intercept) 1.596646 rga1$PerRecSel -0.002650 rga1$PRSOrga -0.001645 > summary(m32) Call: lm(formula = rga1$Res07pHabETCA ~ rga1$f.RecSel + rga1$PRSOrga) Residuals: 14 1.5 2.0 2.5 3.0 log(rga1$PerRecSel) 3.5 4.0 Min 1Q Median -1.08913 -0.23820 -0.04498 3Q 0.15809 Max 3.62599 Coefficients: (Intercept) rga1$f.RecSelbaix rga1$f.RecSelmig rga1$f.RecSelalt rga1$PRSOrga --Signif. codes: 0 Estimate Std. Error t value Pr(>|t|) 1.639098 0.032836 49.917 < 2e-16 *** -0.190895 0.044859 -4.255 2.32e-05 *** -0.105091 0.046832 -2.244 0.0251 * -0.111034 0.055259 -2.009 0.0448 * -0.001882 0.001097 -1.715 0.0867 . ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.4504 on 858 degrees of freedom Multiple R-squared: 0.03167, Adjusted R-squared: 0.02716 F-statistic: 7.016 on 4 and 858 DF, p-value: 1.471e-05 > summary(m33) Call: lm(formula = rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga) Residuals: Min 1Q Median -1.08244 -0.24262 -0.04189 3Q 0.16047 Max 3.69470 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.647763 0.034106 48.313 < 2e-16 rga1$f.RecSelbaix -0.165142 0.049265 -3.352 0.000837 rga1$f.RecSelmig -0.182460 0.056277 -3.242 0.001232 rga1$f.RecSelalt -0.142095 0.080797 -1.759 0.078992 rga1$PRSOrga -0.006105 0.004770 -1.280 0.200952 rga1$f.RecSelbaix:rga1$PRSOrga 0.001596 0.005053 0.316 0.752186 rga1$f.RecSelmig:rga1$PRSOrga 0.008516 0.005210 1.635 0.102490 rga1$f.RecSelalt:rga1$PRSOrga 0.004983 0.005262 0.947 0.343995 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 *** *** ** . Residual standard error: 0.4492 on 855 degrees of freedom Multiple R-squared: 0.0402, Adjusted R-squared: 0.03234 F-statistic: 5.116 on 7 and 855 DF, p-value: 1.034e-05 > anova(m32,m33) Analysis of Variance Table Model 1: rga1$Res07pHabETCA ~ rga1$f.RecSel + rga1$PRSOrga Model 2: rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga Res.Df RSS Df Sum of Sq F Pr(>F) 1 858 174.026 2 855 172.494 3 1.532 2.5314 0.05591 . --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > step(m33) Start: AIC=-1373.47 rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga Df Sum of Sq <none> - rga1$f.RecSel:rga1$PRSOrga 3 1.53 RSS AIC 172.49 -1373.47 174.03 -1371.84 Call: lm(formula = rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga) Coefficients: (Intercept) rga1$f.RecSelbaix 1.647763 -0.165142 rga1$f.RecSelalt rga1$f.RecSelbaix:rga1$PRSOrga rga1$PRSOrga rga1$f.RecSelmig 0.182460 15 - -0.142095 0.001596 rga1$f.RecSelmig:rga1$PRSOrga 0.008516 -0.006105 rga1$f.RecSelalt:rga1$PRSOrga 0.004983 > 16