Mètodes de Captació, Anàlisi i Interpretació de Dades .

Anuncio
MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (UPC).
CURS 08-09 Q1 – EXAMEN EXTRAORDINARI DE JULIOL
Mètodes de Captació, Anàlisi i Interpretació de Dades .
(Data: 8/7/2009 10:00-13:00 h
Nom de l’alumne:
Professor responsable:
Localització:
Normativa de l’examen:
Durada del test:
Sortida de notes:
Revisió:
Lloc: Aula – A6101)
Lídia Montero Mercadé
Edifici C5 D217
NO ES PERMÉS DE DUR ELS APUNTS PUBLICATS
SI TAULES ESTADÍSTIQUES
ES POT DUR CALCULADORA
Només cal fer 1 dels 2 problemes
2h 00 min
Abans 10/7/09 a les 15:00 al WEB de l’assignatura.
El 10/7/09 a les 15:00 hores (C5-217).
Problema 1 - Puntuació sobre 10 – 1 Punt per Apartat
Caso de estudio de modo (preferencias reveladas) entre Sidney y Melbourne, GREENE CH 19
"ECONOMETRIC ANALYSIS" 5TH ED Table F21.2: Data Used to Study Travel Mode Choice, 840
Observations On 4 Modes For 210 Individuals. Source: Greene and Hensher (1997). Son 210 individuos
con información para cada modo de:
1. mode = choice; Air, Train, Bus, or Car - Ref. Car
2. ttme = terminal waiting time, 0 for car
3. invc = in vehicle cost - cost component,
4. invt = travel time, in vehicle,
5. gcost = generalized cost measure,
6. hinc = household income,
7. psize = party size in mode chosen.
Se va a estudiar la elección modal del tren frente al avión a partir de la diferencia en las variables explicativas
entre el avión y el tren, concretamente se usará como respuesta positiva tren y por tanto, negativa avión y se
construyen las variables tiempo de espera en terminal del tren menos el correspondiente al avión, coste del tren
menos el de avión, tiempo de viaje en vehículo del tren menos el de avión, coste generalizado del tren menos el de
avión.
1. Estimad manualmente los coeficientes del modelo nulo empleando la transformación logit.
> summary(m0)
Call:
glm(formula = fresposta ~ 1, family = binomial, data = df)
Deviance Residuals:
Min
1Q Median
-1.213 -1.213
1.143
3Q
1.143
Max
1.143
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.08269
0.18197
0.454
0.65
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 167.53
Residual deviance: 167.53
AIC: 169.53
on 120
on 120
degrees of freedom
degrees of freedom
1
Number of Fisher Scoring iterations: 3
> pnul=63/(63+58);oddnul=63/58; logoddnul=log(oddnul)
> pnul; oddnul;logoddnul
[1] 0.5206612
[1] 1.086207
[1] 0.08269172
>
2. Estimad manualmente los coeficientes del modelo nulo empleando la transformación probit.
> glm(fresposta~1,data=df, family=binomial(link=probit))
Call:
glm(formula = fresposta ~ 1, family = binomial(link = probit),
data = df)
Coefficients:
(Intercept)
0.05181
Degrees of Freedom: 120 Total (i.e. Null);
Null Deviance:
167.5
Residual Deviance: 167.5
AIC: 169.5
> qnorm(pnul)
[1] 0.05181301
>
120 Residual
3. Determinar si las variables de las diferencias en los tiempos de espera en terminal, en trayecto en vehículo
y en coste son estadísticamente significativas en el modelo aditivo que contiene las 3 (modelo (m1)).
> drop1(m1,test="Chisq")
Single term deletions
Model:
fresposta ~ invt2.1 + ttme2.1 + invc2.1
Df Deviance
AIC
LRT
Pr(Chi)
<none>
119.639 127.639
invt2.1 1 124.073 130.073
4.434
0.03524 *
ttme2.1 1 160.876 166.876 41.236 1.349e-10 ***
invc2.1 1 121.654 127.654
2.014
0.15582
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
La variable cost del viatge no és estadísticamente significativa després d’incloure la resta de variables en el
model. Per criterio d’Akaike el millor model és l’additiu amb totes 3 variables.
4. ¿Interpretad el modelo (m2), qué finalidad creeis que se persigue?
Es persegueix definir una diferència en els timps de viatge totals (espera més en vehicle), el model es pot
comparar per deviança amb el model m1 (m1 és millor que m2).
5. Comparad en los términos estadísticos que creais adecuados (razonando porqué) los modelos (m2) y (m1),
con cual de los 2 os quedariais?
Es poden comparar per AIC o per deviança, doncs són models encaixats m2 implica aferir una restricció a m1
tal que els 2 coeficients de les variables temps siguin iguals. Es millor m1.
> AIC(m2);AIC(m1)
[1] 162.6461
[1] 127.6393
> anova(m2,m1,test="Chisq")
Analysis of Deviance Table
Model 1: fresposta ~ I(invt2.1 + ttme2.1) + invc2.1
Model 2: fresposta ~ invt2.1 + ttme2.1 + invc2.1
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
118
156.646
2
117
119.639
1
37.007 1.177e-09
6. Los economistas denominan disponibilidad a pagar (pathworth) al cociente entre los coeficientes de los
tiempos (de espera y en trayecto dentro del vehículo) y el coeficiente del coste. Las unidades de tiempo
2
son minutos y el coste son dólares autralianos. Calculad la disponibilidad a pagar por reducir un minuto
del tiempo de espera en terminal y por reducir el tiempo del trayecto en vehículo.
> # Preg 6
> coef(m1)
(Intercept)
invt2.1
ttme2.1
invc2.1
-0.718636402 -0.002302195 -0.054749391 -0.012463629
> wtpte<-coef(m1)[3]/coef(m1)[4]
> wtptinv<-coef(m1)[2]/coef(m1)[4]
> wtpte;wtptinv
ttme2.1
4.392733
invt2.1
0.1847130
>
>
7. Si se quisiera determinar una disponibilidad a pagar por reducir el tiempo de viaje global (espera más
trayecto en vehículo), cómo podríais calcularlo con los modelos disponibles?
> # Preg 7
> coef(m2)
(Intercept) I(invt2.1 + ttme2.1)
0.83503400
-0.00285351
> wtptt<-coef(m2)[2]/coef(m2)[3];wtptt
I(invt2.1 + ttme2.1)
0.2757873
>
invc2.1
-0.01034678
8. Parece que la disponibilidad a pagar tiene que estar relacionada con la capacidad adquisitiva de los
individuos, de ahí que se relativice el coste del viaje dividiéndolo por los ingresos del hogar del individuo
y se reajuste el modelo con coeficientes diferenciados para las distintas componentes del tiempo. Os
parece una buena idea en términos estadísticos, qué modelo prefeririais m1, m2 o m3?
> summary(m3)
Call:
glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc),
family = binomial, data = df)
Deviance Residuals:
Min
1Q
Median
-2.1258 -0.6746
0.1996
3Q
0.6860
Max
2.6428
Coefficients:
(Intercept)
invt2.1
ttme2.1
I(invc2.1/hinc)
--Signif. codes:
Estimate Std. Error z value Pr(>|z|)
-0.540768
0.606298 -0.892 0.37244
-0.002785
0.001170 -2.380 0.01731 *
-0.054370
0.010675 -5.093 3.52e-07 ***
-0.216530
0.083289 -2.600 0.00933 **
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 167.53
Residual deviance: 112.08
AIC: 120.08
on 120
on 117
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 5
> AIC(m1)
[1] 127.6393
> AIC(m2)
[1] 162.6461
> AIC(m3)
[1] 120.0796
>
És una idea excel.lent, ara la variable cost és estadísticamente significativa (com indica el sentit comú). Les
disponibilitats a pagar s’haurien de calcular i interpretar amb cautela. Per AIC el millor model és el barrer m3.
3
9. Interpretad el efecto del número de pasajeros que viajan juntos en la probabilidad de elegir el modo avión:
(m4).
Coefficients:
(Intercept)
invt2.1
ttme2.1
I(invc2.1/hinc)
psize
Estimate Std. Error z value Pr(>|z|)
-2.199265
0.976464 -2.252 0.02430 *
-0.002384
0.001210 -1.970 0.04882 *
-0.061262
0.011657 -5.256 1.48e-07 ***
-0.242748
0.086306 -2.813 0.00491 **
0.763014
0.336854
2.265 0.02351 *
Per cada individu que creix el grup el logodds de triar tren s’incrementa en un 0.763
unitats i els odds de tren sobre avió s’incrementen en un (exp(0.763)-1)*100 = 114%,
suposant que no hi ha canvis en la resta de les variables.
10. Para ahorrar parámetros y complejidad al modelo se decide crear una variable dicotòmica donde se
codifica si el número de viajeros és 1 o es 2 o más. Con este factor se recalcula el modelo m5. Argumentad
estadísticamente si vale la pena esta maniobra o es mejor considerar como covariante el número de
viajeros que van juntos.
Val la pena, estrictament per AIC és menor el model m4, però la simplicitat també és un
factor a tenir en compta davant de la tria entre covariant o factor dicotòmic.
RESULTATS R
> # Mantenim només les observacions de resposta Air o Tren
ll<-which((df$fresposta=="Air") | (df$fresposta=="Train"));ll;length(ll)
df<-df[ll,]
df$fresposta<-factor(df$fresposta)
summary(df)
dim(df)
> df = transform(df , ttme2.1 = ttme2-ttme1,
+ invc2.1 = invc2-invc1,
+ invt2.1 = invt2-invt1,
+ gcost2.1 = gcost2-gcost1,
+ hinc = hinc1,
+ psize = factor(psize1)
+ )
> summary(df)
id
mode
ttme1
ttme2
ttme3
ttme4
Min.
: 6.00
Min.
:1.000
Min.
: 5.00
Min.
: 1.0
Min.
:35.00
Min.
:0
1st Qu.: 44.00
1st Qu.:1.000
1st Qu.:45.00
1st Qu.:25.0
1st Qu.:35.00
1st Qu.:0
Median : 77.00
Median :2.000
Median :64.00
Median :34.0
Median :35.00
Median :0
Mean
: 93.33
Mean
:1.521
Mean
:56.95
Mean
:33.3
Mean
:43.48
Mean
:0
3rd Qu.:147.00
3rd Qu.:2.000
3rd Qu.:69.00
3rd Qu.:44.0
3rd Qu.:53.00
3rd Qu.:0
Max.
:207.00
Max.
:2.000
Max.
:99.00
Max.
:99.0
Max.
:53.00
Max.
:0
invc1
invc2
invc3
invc4
invt1
invt2
Min.
: 44.00
Min.
: 11.00
Min.
:12.00
Min.
: 3.00
Min.
: 63.0
Min.
: 255.0
1st Qu.: 61.00
1st Qu.: 25.00
1st Qu.:25.00
1st Qu.:10.00
1st Qu.: 93.0
1st Qu.: 344.0
Median : 85.00
Median : 35.00
Median :31.00
Median :17.00
Median :115.0
Median : 596.0
Mean
: 88.63
Mean
: 47.53
Mean
:33.23
Mean
:22.17
Mean
:131.5
Mean
: 568.2
3rd Qu.:108.00
3rd Qu.: 71.00
3rd Qu.:45.00
3rd Qu.:33.00
3rd Qu.:161.0
3rd Qu.: 800.0
Max.
:180.00
Max.
:112.00
Max.
:70.00
Max.
:86.00
Max.
:333.0
Max.
:1030.0
invt3
invt4
gcost1
gcost2
gcost3
gcost4
Min.
: 345.0
Min.
:268.0
Min.
: 56.0
Min.
: 42.0
Min.
: 56.0
Min.
: 41.00
1st Qu.: 405.0
1st Qu.:316.0
1st Qu.: 73.0
1st Qu.: 72.0
1st Qu.: 73.0
1st Qu.: 53.00
Median : 590.0
Median :577.0
Median :104.0
Median :113.0
Median : 98.0
Median : 94.00
Mean
: 622.6
Mean
:571.1
Mean
:105.6
Mean
:120.3
Mean
:113.1
Mean
: 95.55
3rd Qu.: 882.0
3rd Qu.:862.0
3rd Qu.:128.0
3rd Qu.:163.0
3rd Qu.:145.0
3rd Qu.:141.00
Max.
:1068.0
Max.
:990.0
Max.
:197.0
Max.
:245.0
Max.
:206.0
Max.
:223.00
hinc1
hinc2
hinc3
hinc4
psize1
psize2
Min.
: 4.00
Min.
: 4.00
Min.
: 4.00
Min.
: 4.00
Min.
:1.000
Min.
:1.000
1st Qu.:12.00
1st Qu.:12.00
1st Qu.:12.00
1st Qu.:12.00
1st Qu.:1.000
1st Qu.:1.000
Median :30.00
Median :30.00
Median :30.00
Median :30.00
Median :1.000
Median :1.000
Mean
:32.01
Mean
:32.01
Mean
:32.01
Mean
:32.01
Mean
:1.620
Mean
:1.620
3rd Qu.:45.00
3rd Qu.:45.00
3rd Qu.:45.00
3rd Qu.:45.00
3rd Qu.:2.000
3rd Qu.:2.000
Max.
:72.00
Max.
:72.00
Max.
:72.00
Max.
:72.00
Max.
:4.000
Max.
:4.000
psize3
psize4
Air
Train
Bus
Car
fresposta
Min.
:1.000
Min.
:1.000
Min.
:0.0000
Min.
:0.0000
Min.
:0
Min.
:0
Air
:58
4
1st Qu.:1.000
Train:63
Median :1.000
Mean
:1.620
3rd Qu.:2.000
Max.
:4.000
ttme2.1
Min.
:-68.00
1st Qu.:-46.00
Median :-26.00
Mean
:-23.65
3rd Qu.: -1.00
Max.
: 39.00
> dim(df)
[1] 121 37
> summary(m1)
1st Qu.:1.000
1st Qu.:0.0000
1st Qu.:0.0000
1st Qu.:0
1st Qu.:0
Median :1.000
Mean
:1.620
3rd Qu.:2.000
Max.
:4.000
invc2.1
Min.
:-114.0
1st Qu.: -56.0
Median : -40.0
Mean
: -41.1
3rd Qu.: -26.0
Max.
: 17.0
Median :0.0000
Mean
:0.4793
3rd Qu.:1.0000
Max.
:1.0000
invt2.1
Min.
:141.0
1st Qu.:235.0
Median :461.0
Mean
:436.8
3rd Qu.:636.0
Max.
:855.0
Median :1.0000
Mean
:0.5207
3rd Qu.:1.0000
Max.
:1.0000
gcost2.1
Min.
:-75.00
1st Qu.:-10.00
Median : 6.00
Mean
: 14.67
3rd Qu.: 44.00
Max.
:125.00
Median :0
Median :0
Mean
:0
Mean
:0
3rd Qu.:0
3rd Qu.:0
Max.
:0
Max.
:0
hinc
psize
Min.
: 4.00
1:69
1st Qu.:12.00
2:36
Median :30.00
3: 9
Mean
:32.01
4: 7
3rd Qu.:45.00
Max.
:72.00
Call:
glm(formula = fresposta ~ invt2.1 + ttme2.1 + invc2.1, family = binomial,
data = df)
Deviance Residuals:
Min
1Q
Median
-2.1058 -0.8155
0.3353
3Q
0.7861
Max
2.6903
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.718636
0.653419 -1.100
0.2714
invt2.1
-0.002302
0.001123 -2.050
0.0403 *
ttme2.1
-0.054749
0.010429 -5.250 1.52e-07 ***
invc2.1
-0.012464
0.008857 -1.407
0.1594
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 167.53
Residual deviance: 119.64
AIC: 127.64
on 120
on 117
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 4
> step(m1)
Start: AIC=127.64
fresposta ~ invt2.1 + ttme2.1 + invc2.1
<none>
- invc2.1
- invt2.1
- ttme2.1
Call:
Df Deviance
119.64
1
121.65
1
124.07
1
160.88
AIC
127.64
127.65
130.07
166.88
glm(formula = fresposta ~ invt2.1 + ttme2.1 + invc2.1, family = binomial,
Coefficients:
(Intercept)
-0.718636
invt2.1
-0.002302
ttme2.1
-0.054749
invc2.1
-0.012464
Degrees of Freedom: 120 Total (i.e. Null);
Null Deviance:
167.5
Residual Deviance: 119.6
AIC: 127.6
> drop1(m1,test="Chisq")
Single term deletions
117 Residual
Model:
fresposta ~ invt2.1 + ttme2.1 + invc2.1
Df Deviance
AIC
LRT
Pr(Chi)
<none>
119.639 127.639
invt2.1 1 124.073 130.073
4.434
0.03524 *
ttme2.1 1 160.876 166.876 41.236 1.349e-10 ***
invc2.1 1 121.654 127.654
2.014
0.15582
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> > summary(m2)
Call:
5
data = df)
glm(formula = fresposta ~ I(invt2.1 + ttme2.1) + invc2.1, family = binomial,
data = df)
Deviance Residuals:
Min
1Q
Median
-1.7344 -1.1088
0.8287
3Q
0.9751
Max
1.5726
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
0.8350340 0.4846115
1.723 0.08487 .
I(invt2.1 + ttme2.1) -0.0028535 0.0009314 -3.064 0.00219 **
invc2.1
-0.0103468 0.0078252 -1.322 0.18609
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 167.53
Residual deviance: 156.65
AIC: 162.65
on 120
on 118
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 4
> anova(m2,m1,test="Chisq")
Analysis of Deviance Table
Model 1: fresposta ~ I(invt2.1 + ttme2.1) + invc2.1
Model 2: fresposta ~ invt2.1 + ttme2.1 + invc2.1
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
118
156.646
2
117
119.639
1
37.007 1.177e-09
> step(m2)
Start: AIC=162.65
fresposta ~ I(invt2.1 + ttme2.1) + invc2.1
- invc2.1
<none>
- I(invt2.1 + ttme2.1)
Df Deviance
AIC
1
158.45 162.45
156.65 162.65
1
166.84 170.84
Step: AIC=162.45
fresposta ~ I(invt2.1 + ttme2.1)
<none>
- I(invt2.1 + ttme2.1)
Call:
Df Deviance
AIC
158.45 162.45
1
167.53 169.53
glm(formula = fresposta ~ I(invt2.1 + ttme2.1), family = binomial,
Coefficients:
(Intercept)
1.170376
I(invt2.1 + ttme2.1)
-0.002625
Degrees of Freedom: 120 Total (i.e. Null);
Null Deviance:
167.5
Residual Deviance: 158.5
AIC: 162.5
> summary(m3)
119 Residual
Call:
glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc),
family = binomial, data = df)
Deviance Residuals:
Min
1Q
Median
-2.1258 -0.6746
0.1996
3Q
0.6860
Max
2.6428
Coefficients:
(Intercept)
invt2.1
ttme2.1
I(invc2.1/hinc)
--Signif. codes:
Estimate Std. Error z value Pr(>|z|)
-0.540768
0.606298 -0.892 0.37244
-0.002785
0.001170 -2.380 0.01731 *
-0.054370
0.010675 -5.093 3.52e-07 ***
-0.216530
0.083289 -2.600 0.00933 **
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
6
data = df)
Null deviance: 167.53
Residual deviance: 112.08
AIC: 120.08
on 120
on 117
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 5
> AIC(m1)
[1] 127.6393
> AIC(m2)
[1] 162.6461
> AIC(m3)
[1] 120.0796
> > # Preg 9
> summary(m4)
Call:
glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) +
psize, family = binomial, data = df)
Deviance Residuals:
Min
1Q
Median
-2.2213 -0.6136
0.1752
3Q
0.6451
Max
2.0808
Coefficients:
(Intercept)
invt2.1
ttme2.1
I(invc2.1/hinc)
psize
--Signif. codes:
Estimate Std. Error z value Pr(>|z|)
-2.199265
0.976464 -2.252 0.02430 *
-0.002384
0.001210 -1.970 0.04882 *
-0.061262
0.011657 -5.256 1.48e-07 ***
-0.242748
0.086306 -2.813 0.00491 **
0.763014
0.336854
2.265 0.02351 *
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 167.53
Residual deviance: 106.28
AIC: 116.28
on 120
on 116
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 5
> anova(m3,m4,test="Chisq")
Analysis of Deviance Table
Model 1: fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc)
Model 2: fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) + psize
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
117
112.080
2
116
106.279
1
5.800
0.016
> Preg 10
> df$f.tamany<-factor(df$psize)
> levels(df$f.tamany)<-c("1","2+","2+","2+")
> summary(m5)
Call:
glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) +
f.tamany, family = binomial, data = df)
Deviance Residuals:
Min
1Q
Median
-2.0769 -0.6374
0.2030
3Q
0.6487
Max
2.5162
Coefficients:
(Intercept)
invt2.1
ttme2.1
I(invc2.1/hinc)
f.tamany2+
--Signif. codes:
Estimate Std. Error z value Pr(>|z|)
-1.392766
0.764994 -1.821
0.0687 .
-0.002406
0.001201 -2.003
0.0452 *
-0.060174
0.011582 -5.196 2.04e-07 ***
-0.236174
0.084335 -2.800
0.0051 **
1.063533
0.525279
2.025
0.0429 *
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 167.53
on 120
degrees of freedom
7
Residual deviance: 107.69
AIC: 117.69
on 116
degrees of freedom
Number of Fisher Scoring iterations: 5
>
Problema 2 - Puntuació sobre 13 – 1 Punt per Apartat
La recogida de residuos se efectúa parcialmente de forma selectiva en Catalunya, dando lugar a un registro de los
totales recogidos a nivel municipal y de su composición. De la parte que se recoge mezclada (entre el 15% y el
70%, según el municipio), se conoce el total municipal pero no su composición, de ahí que se tenga que recurrir a
métodos de muestreo para la caracterización de la composición de la fracción de residuos de tipo resto a nivel
municipal, comarcal y global del país. Los datos municipales sobre la cantidad y composición de los residuos
generados en los diversos municipios, clasificados por comarcas son accesibles informáticamente a través del
enlace de la Agencia de Residuos de Catalunya (http://www.arc-cat.net/). Después de acceder a los datos
municipales y unificar en un solo archivo toda la información, se dispone a nivel municipal de las siguientes
variables características de la generación de residuos municipales anuales durantes el año 2007:
• Pob07.1: Padrón de residentes en 2007.
• TotROrga, TotRVidre, TotPaper, TotEnvas, TotVolum, TotPoda, TotPila, TotMede, TotTextil, TotAlter:
Total generado anual de residuos orgánicos, vidrio, papel, envases, objetos voluminosos, poda y jardinaería,
medicamentos, textiles y otros residuos recogidos de manera selectiva.
• PerRecSel: Porcentaje de recogida selectiva municipal, sobre total de residuos generados en 2007.
• FRTracta, FRDipo, FRInci, FRDipoF: Toneladas en 2007 de fracción resto tratada, directa a depósito
controlado, directa a incineradora, directa a disposición final,
• TotFResta: Toneladas totales de residuos de Fracción Resto generados en 2007.
• PerFRsTot: Porcentaje de Fracción Resta sobre el total de Residuos municipales generados en 2007.
• TotRes07: Toneladas totales de residuos municipales generados en 2007.
• Res07pHab: Residuos diarios generados por residente y día en 2007 a nivel municipal (en kg).
• Res07pHabETCA: Residuos diarios generados por persona y día en 2007 a nivel municipal (en kg), contiene
corrección estacionalidad.
• PRSOrga, PRSVidre, PRSPaper, PRSEnvas, PRSVolum, PRSPoda, PRSPila, PRSMede, PRSTextil,
PRSAlter: Porcentaje que supone el Total generado anual de residuos orgánicos, vidrio, papel, envases,
objetos voluminosos, poda y jardinería, medicamentos, textiles y otros residuos recogidos de manera selectiva
sobre el Total anual de residuos de Recogida Selectiva.
La variable de respuesta que se va a estudiar está relacionada con la generación de residuos diarios por habitante
equivalente (en kg): Res07pHabETCA. Las variables explicativas son: porcentaje de recogida selectiva en 2007,
PRSOrga, PRSVidre, PRSPaper, PRSEnvas, PRSVolum, PRSPoda, PRSPila, PRSMede, PRSTextil,
PRSAlter y otras variables sociodemográficas que pudieran desarrollarse durante el ejercicio.
1. La variable de respuesta que se va estudiar es la generación de residuos municipales por persona y día
con correccion de estacionalidad. ¿Se puede considerar que la generación diaria por persona está relacionada
con la implicación en la recogida selectiva?
> cor.test(rga1$Res07pHabETCA,rga1$PerRecSel)
Pearson's product-moment correlation
data: rga1$Res07pHabETCA and rga1$PerRecSel
t = -3.3166, df = 861, p-value = 0.0009493
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.17771773 -0.04592423
sample estimates:
cor
-0.1123149
8
Técnicament sí, el p valor de la hipótesi nul.la que indica que no hi ha correlació és de 1 per mil, per tant, es
rebutja la H0 i per tant hi ha una correlación lineal diferent de 0 i negativa, a major recollida selectiva menor
generación diària per persona.
2. La variable de respuesta, generación diaria por habitante equivalente, ¿pensais que tiene una distribución de
probabilidad aceptablemente normal?
No, ni de lluny només cal veure l’assimetria que mostra la distribució. A més si s’aplica un contrast de
normalitat de Shapiro-Wilk la normalitat com a hipótesi nula es rebutja.
3. La variable de respuesta, generación diaria por habitante equivalente, ¿pensais que tiene valores atípicos?
Determinar el rango de valores atípicos y atípicos extremos.
S’han donat dades descriptives dels quartils de la variable de resposta. Valors atípics: més petits de 0.56 kg i
més grans de 2.32 kg. Valors extremadamente atípics: generación més gran de 3,0 kg per persona i dia.
> edvr<-summary(rga1$Res07pHabETCA)
> iqr<-edvr[5]-edvr[2]
> ii<-edvr[2]-1.5*iqr;is<-edvr[5]+1.5*iqr;ii;is
1st Qu.
0.56
3rd Qu.
2.32
> ii<-edvr[2]-3*iqr;is<-edvr[5]+3*iqr;ii;is
1st Qu.
-0.1
3rd Qu.
2.98
> edvr<-summary(rga1$Res07pHabETCA);edvr
Min. 1st Qu. Median
Mean 3rd Qu.
Max.
0.400
1.220
1.430
1.502
1.660
5.160
4. Se procede a una discretización de la variable PerRecSel según:
f.RecSel <- factor(cut(PerRecSel, breaks=c(1,15,25,35,100)),labels=c(‘moltbaix’,'baix','mig','alt')).
La variable de respuesta que se va estudiar es la generación de residuos municipales por persona y día
con correccion de estacionalidad. ¿Se puede considerar que la generación diaria por persona tiene una media
diferente según el factor de implicación en la recogida selectiva?
Gràficament l’única cosa que es veu és que la dispersió de la generació diària és clarament diferent en el grup
d’implicació molt baix en la recollida selectiva que en la resta. Hi ha molts valors atípics en aquest grup
(diagrama bivariant i boxplots). Per inferència, el Kruskal – Wallis dona un p valor significativament menor
del 5% per la hipótesis nula d’igualtat entre les mitjanes de generación, malgrat la cautela que s’ha de tenir
devant de l’heterocedasticitat present.
5. ¿Cuál es la generación diaria por persona en la mediana de implicación en la recogida selectiva y el modelo
cuyos resultados se ilustran?
Apliqueu la predicció lineal de la regressió simple: 1.602-0.003779*24.36 = 1.51 kg/persona i dia
> predict(m2,newdata=data.frame(PerRecSel=24.36 ))
1
1.509646
> summary(m2)
Call:
lm(formula = rga1$Res07pHabETCA ~ rga1$PerRecSel)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1.601695
0.033810 47.373 < 2e-16 ***
rga1$PerRecSel -0.003779
0.001139 -3.317 0.00095 ***
9
Ahora se va a estudiar el modelo predictivo para la generación de residuos municipales por persona y día
con correccion de estacionalidad según la implicación en la recogida selectiva (covariante o factor, a
deducir de las preguntas concretas de los apartados) y los porcentajes de esa recogida en algunas de las
tipologías.
6. Determinar la suma de cuadrados residual del modelo de nulo.
La suma de quadrats del model nul coincideix amb la suma de quadrats total que és la variança mostral
multiplicada per el nombre d’observacions menys 1: teniu dados de la variança mostral, és a dir,
> var(rga1[,c(2,3)],use="pairwise.complete.obs")
PerRecSel Res07pHabETCA
PerRecSel
184.19186
-0.6960100
Res07pHabETCA -0.69601
0.2084902
> 0.2084902*862
[1] 179.7186
> anova(m0)
Analysis of Variance Table
Response: rga1$Res07pHabETCA
Df Sum Sq Mean Sq F value Pr(>F)
Residuals 862 179.719
0.208
>
7. Determinar ¿ cuál es la suma de cuadrados explicada por el modelo de regresión lineal entre Y e X (en m2)?
El quadrat del coeficient de correlación lineal (-0.1123149* -0.1123149=0.01261) per la suma de
quadrats total que coincideix amb la residual del model nul, és a dir
(0.01261*179.719=2.267) la part de la inèrcia de les dades explicada pel percentatge de
recollida selectiva.
> anova(m2)
Analysis of Variance Table
Response: Res07pHabETCA
Df Sum Sq Mean Sq F value
Pr(>F)
PerRecSel
1
2.267
2.267
11 0.0009493 ***
Residuals 861 177.452
0.206
--Signif. codes: 0 ‘**
8. Calcular el coeficiente de determinación del modelo (m2).
El quadrat del coeficient de correlación lineal (-0.1123149* -0.1123149=0.01261), és a dir 1.3% de la
variabilitat de les dades bé explicada pel percentatge de recollida selectiva.
9. Determinar si la relación entre la generación de residuos por persona depende de la penetración de la recogida
selectiva por valoración de los gráficos disponibles.
S’observa una tendència negativa en les dades, però l’efecte de la sobredispersió de les observacions amb poca
incidència de recollida selectiva sembla que condiciona els resultats.
10. Determinar si la relación entre la generación de residuos por persona depende de la penetración de la recogida
selectiva y de la incidencia de la recogida selectiva de tipo orgánico considerando sólo modelos de regresión
multiple (variables explicativas cuantitativas).
Per inferència es poden comparar per variança incremental si els 2 models són equivalents (amb/sense
percentatge de recollida orgànica): el p valor és del 13% per tant no fa falta el percentatge de recollida
orgànica, en canvi el percentatge de recollida selectiva és estadísticamente significativa a jutjar pel p valor del
coeficiente dins del model (m2) subministrat en un apartat anterior.
> anova(m3,m31)
Analysis of Variance Table
Model 1: rga1$Res07pHabETCA ~ rga1$PerRecSel
Model 2: rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga
Res.Df
RSS Df Sum of Sq
F Pr(>F)
1
861 177.45
10
2
860 177.00
1
0.45 2.1862 0.1396
> anova(m0,m3)
Analysis of Variance Table
Model 1: rga1$Res07pHabETCA ~ 1
Model 2: rga1$Res07pHabETCA ~ rga1$PerRecSel
Res.Df
RSS Df Sum of Sq F
Pr(>F)
1
862 179.719
2
861 177.452
1
2.267 11 0.0009493 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
11. Interpretar las ecuaciones para la predicción la generación por persona según el modelo aditivo con
tratamiento de la incidencia de recogida selectiva como factor y la incidencia de la recogida selectiva de tipo
orgánico.
Coefficients:
(Intercept)
rga1$f.RecSelbaix
rga1$f.RecSelmig
rga1$f.RecSelalt
rga1$PRSOrga
Estimate Std. Error t value Pr(>|t|)
1.639098
0.032836 49.917 < 2e-16 ***
-0.190895
0.044859 -4.255 2.32e-05 ***
-0.105091
0.046832 -2.244
0.0251 *
-0.111034
0.055259 -2.009
0.0448 *
-0.001882
0.001097 -1.715
0.0867 .
Recollida Selectiva en nivells:
‘molt baix’ : 1.64 +0 – 0.001882 PRSOrga
‘baix’ : 1.64-0.191 – 0.001882 PRSOrga
‘mig’ : 1.64-0.105091– 0.001882 PRSOrga
‘alt’ : 1.64-0.111034
– 0.001882 PRSOrga
12. ¿Cuál será la predicción total de residuos anuales para una ciudad de 30000 residentes en la mediana de
incidencia de la recogida orgánica y un compromiso máximo con el medio ambiente en el modelo aditivo con
tratamiento de la recogida selectiva como factor?
La mediana de PRSORga és 9.8 i d’aquí aplicar l’equació (no importa la població, no intervé) del punt anterior
per nivell alt :
1.64-0.111034
– 0.001882 PRSOrga = 1.64-0.111034
– 0.001882 * 9.8 = 1.509623.
> predict(m32,newdata=data.frame(PRSOrga=9.8 ,f.RecSel="alt"))
1
1.509623
> Generació total de 30000 x 1.509623 = 45289 kg per dia. Por 365 dará el promedio anual.
Ahora se va a estudiar el modelo predictivo para la generación de residuos municipales por persona y día
con correccion de estacionalidad según la implicación en la recogida selectiva y los porcentajes de esa
recogida en algunas de las tipologías. Se usará la escala logarítmica para las variables cuantitativas.
13. ¿Cuál es la generación diaria por persona según en la mediana de implicación en la recogida selectiva y el
modelo cuyos resultados se ilustran?
> summary(m4)
Call:
lm(formula = log(rga1$Res07pHabETCA) ~ log(rga1$PerRecSel))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
0.57730
0.05441 10.610 < 2e-16 ***
log(rga1$PerRecSel) -0.06688
0.01709 -3.913 9.84e-05 ***
Manualment, exp(0.5773-0.06688
*ln(24.36))=1,4387
> m4<-lm(log(Res07pHabETCA)~log(PerRecSel),data=rga1 )
11
> predict(m4,newdata=data.frame(PerRecSel=24.36 ))
1
0.3637511
> exp(predict(m4,newdata=data.frame(PerRecSel=24.36 )))
1
>> Generació total de 30000 x 1.438716 = 43161 kg per dia. Por 365 dará el promedio anual.
RESULTADOS:
> dim(rga1)
[1] 863 33
summary(rga1[,c(91,100:110)])
PerRecSel
Res07pHabETCA
Min.
: 3.21
Min.
:0.400
1st Qu.:16.48
1st Qu.:1.220
Median :24.36
Median :1.430
Mean
:26.39
Mean
:1.502
3rd Qu.:33.02
3rd Qu.:1.660
Max.
:77.60
Max.
:5.160
PRSVolum
PRSPoda
Min.
: 0.000
Min.
: 0.00
1st Qu.: 0.445
1st Qu.: 0.00
Median : 5.830
Median : 0.01
Mean
: 8.488
Mean
: 1.69
3rd Qu.:12.550
3rd Qu.: 1.73
Max.
:39.340
Max.
:19.44
PRSOrga
PRSVidre
PRSPaper
PRSEnvas
Min.
: 0.00
Min.
: 0.81
Min.
: 0.86
Min.
: 0.010
1st Qu.: 0.00
1st Qu.:11.73
1st Qu.:19.17
1st Qu.: 7.375
Median : 9.80
Median :19.78
Median :28.21
Median :10.420
Mean
:15.04
Mean
:23.14
Mean
:29.34
Mean
:11.266
3rd Qu.:29.21
3rd Qu.:30.90
3rd Qu.:36.98
3rd Qu.:14.890
Max.
:62.06
Max.
:66.38
Max.
:67.16
Max.
:28.460
PRSPila
PRSMede
PRSTextil
PRSAltre
Min.
:0.00000
Min.
:0.01000
Min.
:0.0000
Min.
: 0.00
1st Qu.:0.00000
1st Qu.:0.04000
1st Qu.:0.0000
1st Qu.: 0.00
Median :0.03000
Median :0.06000
Median :0.0000
Median : 6.28
Mean
:0.04159
Mean
:0.07479
Mean
:0.2178
Mean
:10.69
3rd Qu.:0.05000
3rd Qu.:0.09000
3rd Qu.:0.0700
3rd Qu.:19.02
Max.
:1.04000
Max.
:0.55000
Max.
:6.0000
Max.
:56.66
> var(rga1[,c(2,3)],use="pairwise.complete.obs")
PerRecSel Res07pHabETCA
PerRecSel
184.19186
-0.6960100
Res07pHabETCA -0.69601
0.2084902
> cor(rga1[,c(2,3)],use="pairwise.complete.obs")
PerRecSel Res07pHabETCA
PerRecSel
1.0000000
-0.1123149
Res07pHabETCA -0.1123149
1.0000000
>
Residus municipals 2007 per habitant equivalent i dia (kg)
Mirem les dades ...
Density
0.6
0.0
0.0
1
0.2
0.2
0.4
2
0.4
Density
3
0.6
0.8
4
0.8
1.0
1.2
1.0
5
Mirem les dades ...
0
1
2
3
4
5
0
rga1$Res07pHabETCA
1
2
3
N = 863 Bandw idth = 0.07645
> shapiro.test( (rga1$Res07pHabETCA) )
Shapiro-Wilk normality test
data: (rga1$Res07pHabETCA)
W = 0.8628, p-value < 2.2e-16
> plot( rga1$Res07pHabETCA~rga1$f.RecSel )
> kruskal.test( rga1$Res07pHabETCA~rga1$f.RecSel )
12
4
5
Kruskal-Wallis rank sum test
data: rga1$Res07pHabETCA by rga1$f.RecSel
Kruskal-Wallis chi-squared = 13.6471, df = 3, p-value = 0.003427
> fligner.test( rga1$Res07pHabETCA~rga1$f.RecSel )
Fligner-Killeen test of homogeneity of variances
0.5
log(rga1$Res07pHabETCA)
0.0
3
-0.5
2
-1.0
1
rga1$Res07pHabETCA
4
1.0
1.5
5
data: rga1$Res07pHabETCA by rga1$f.RecSel
Fligner-Killeen:med chi-squared = 61.404, df = 3, p-value = 2.946e-13
moltbaix
baix
mig
alt
moltbaix
rga1$f.RecSel
baix
mig
rga1$f.RecSel
13
alt
1.5
0.0
0.5
log(rga1$Res07pHabETCA)
1.0
0.0
0.5
log(rga1$Res07pHabETCA)
1.0
1.5
5
4
3
rga1$Res07pHabETCA
-0.5
-0.5
2
40
60
-1.0
-1.0
1
20
80
20
40
rga1$PerRecSel
60
80
rga1$PerRecSel
> summary(m31)
Call:
lm(formula = rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga)
Residuals:
Min
1Q
Median
-1.03836 -0.27817 -0.06098
3Q
0.16397
Max
3.63676
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1.596646
0.033959 47.016
<2e-16 ***
rga1$PerRecSel -0.002650
0.001371 -1.933
0.0535 .
rga1$PRSOrga
-0.001645
0.001112 -1.479
0.1396
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4537 on 860 degrees of freedom
Multiple R-squared: 0.01512,
Adjusted R-squared: 0.01283
F-statistic: 6.601 on 2 and 860 DF, p-value: 0.001429
> step(m31)
Start: AIC=-1361.21
rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga
Df Sum of Sq
<none>
- rga1$PRSOrga
- rga1$PerRecSel
1
1
0.45
0.77
RSS
AIC
177.00 -1361.21
177.45 -1361.02
177.77 -1359.47
Call:
lm(formula = rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga)
Coefficients:
(Intercept)
1.596646
rga1$PerRecSel
-0.002650
rga1$PRSOrga
-0.001645
> summary(m32)
Call:
lm(formula = rga1$Res07pHabETCA ~ rga1$f.RecSel + rga1$PRSOrga)
Residuals:
14
1.5
2.0
2.5
3.0
log(rga1$PerRecSel)
3.5
4.0
Min
1Q
Median
-1.08913 -0.23820 -0.04498
3Q
0.15809
Max
3.62599
Coefficients:
(Intercept)
rga1$f.RecSelbaix
rga1$f.RecSelmig
rga1$f.RecSelalt
rga1$PRSOrga
--Signif. codes: 0
Estimate Std. Error t value Pr(>|t|)
1.639098
0.032836 49.917 < 2e-16 ***
-0.190895
0.044859 -4.255 2.32e-05 ***
-0.105091
0.046832 -2.244
0.0251 *
-0.111034
0.055259 -2.009
0.0448 *
-0.001882
0.001097 -1.715
0.0867 .
‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4504 on 858 degrees of freedom
Multiple R-squared: 0.03167,
Adjusted R-squared: 0.02716
F-statistic: 7.016 on 4 and 858 DF, p-value: 1.471e-05
> summary(m33)
Call:
lm(formula = rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga)
Residuals:
Min
1Q
Median
-1.08244 -0.24262 -0.04189
3Q
0.16047
Max
3.69470
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1.647763
0.034106 48.313 < 2e-16
rga1$f.RecSelbaix
-0.165142
0.049265 -3.352 0.000837
rga1$f.RecSelmig
-0.182460
0.056277 -3.242 0.001232
rga1$f.RecSelalt
-0.142095
0.080797 -1.759 0.078992
rga1$PRSOrga
-0.006105
0.004770 -1.280 0.200952
rga1$f.RecSelbaix:rga1$PRSOrga 0.001596
0.005053
0.316 0.752186
rga1$f.RecSelmig:rga1$PRSOrga
0.008516
0.005210
1.635 0.102490
rga1$f.RecSelalt:rga1$PRSOrga
0.004983
0.005262
0.947 0.343995
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
***
***
**
.
Residual standard error: 0.4492 on 855 degrees of freedom
Multiple R-squared: 0.0402,
Adjusted R-squared: 0.03234
F-statistic: 5.116 on 7 and 855 DF, p-value: 1.034e-05
> anova(m32,m33)
Analysis of Variance Table
Model 1: rga1$Res07pHabETCA ~ rga1$f.RecSel + rga1$PRSOrga
Model 2: rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga
Res.Df
RSS Df Sum of Sq
F Pr(>F)
1
858 174.026
2
855 172.494
3
1.532 2.5314 0.05591 .
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> step(m33)
Start: AIC=-1373.47
rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga
Df Sum of Sq
<none>
- rga1$f.RecSel:rga1$PRSOrga
3
1.53
RSS
AIC
172.49 -1373.47
174.03 -1371.84
Call:
lm(formula = rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga)
Coefficients:
(Intercept)
rga1$f.RecSelbaix
1.647763
-0.165142
rga1$f.RecSelalt
rga1$f.RecSelbaix:rga1$PRSOrga
rga1$PRSOrga
rga1$f.RecSelmig
0.182460
15
-
-0.142095
0.001596
rga1$f.RecSelmig:rga1$PRSOrga
0.008516
-0.006105
rga1$f.RecSelalt:rga1$PRSOrga
0.004983
>
16
Descargar