ES POT DUR CALCULADORA i FORMULARI OFICIAL

Anuncio
MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (UPC).
CURS 07-08 Q1 – EXAMEN PARCIAL
Mètodes de Captació, Anàlisi i Interpretació de Dades .
(Data: 22/11/2008 18:00-20:00 h
Nom de l’alumne:
Lloc: Aula 1.3 H)
Professor responsable:
Lídia Montero Mercadé
Localització:
Edifici C5 D217 – Campus Nord
Normativa: NO ES PERMÉS DE DUR ELS APUNTS PUBLICATS
ES POT DUR CALCULADORA i FORMULARI OFICIAL
Durada de l’examen:
2h 00 min
Sortida de notes:
Abans 28/11 al WEB de l’assignatura.
Revisió:
El 28/11 a les 15:00 hores (C5-217 Campus Nord).
Puntuació sobre 20 – 1 Punt per Apartat
Se va a trabajar con datos reales procedentes de una Encuesta de Movilidad Domiciliaria, donde a los
individuos de la muestra se les preguntaba por una descripción exhaustiva de todos los
desplazamientos que realizaron durante el dia anterior. El ámbito del estudio está constituído por un
núcleo urbano grande y su corona metropolitana (ámbito Urba y CTM). Nos vamos a centrar en los
datos contenidos en la grabación de los desplazamientos diarios. Un viaje viene caracterizado por un
motivo y puede desglosarse en máximo 4 etapas, cada una de las cuales viene caracterizada por un
modo de transporte. Se han codificado modo y motivo tal como indica el siguiente script y se ha
definido un modo principal para un viaje (modop). El número de etapas está contenido en el campo
netap. Se considerarán únicamente los viajes realizados en laborable y con origen y final el ámbito del
estudio. Las variables disponibles de la grabación se listan a continuación:
library(MASS)
options(contrasts=c("contr.treatment","contr.treatment"))
names(dfexa)
[1] "SERIALID" "NUMDESP" "SEXO"
"EDAD_SEL" "EDAD"
[7] "NUM_DESP" "HORA"
"MINUTO"
"TIEMPO"
"FREC"
[13] "uns"
"ambito"
"ztd"
"distrito" "zto"
[19] "disf"
"diso"
"mot"
"mota"
"mod1"
[25] "mod3"
"mod4"
"modop"
"netap"
"DIA"
"PONDE_V2"
"ztf"
"mod2"
Este es el archivo disponible para la realización de este ejercicio. Se deben contemplar las siguientes
variables (columnas):


















SERIALID: Identificador del individuo dentro de la muestra
NUMDESP: Número de viaje del día anterior que recoge el registro
SEXO: Género del individuo
EDAD: Edad del individuo
DIA: Día de la semana a que hace referencia el viaje
HORA: Hora de inicio del viaje
MINUTO: Minuto dentro de la hora del inicio del viaje
TIEMPO: Duración total del viaje en minutos
FREC: Regularidad de realización del viaje
PONDE_V2: Factor de expansión.
Uns: Columna de unos
Ambito: Factor dicotómico: urbano o metropolitano de residencia del individuo
Ztd: Zona de transporte donde reside el individuo.
Distrito: Distrito urbano donde reside el individuo
Zto: Zona de transporte origen del viaje
Ztf: Zona de transporte destino del viaje
Diso, disf: distritos origen y destino del viaje respectivamente.
Mot : Motivo del viaje c("Ninguno", "Ocupacional", "Gestiones", "Compras", "Ocio",
"RegresoH", "Otros").
1



Mod1, mod2, mod3, mod4: Modo de transporte empleado en la etapa correspondiente c("Ninguna","Pie",
"Bici", "Auto", "Bus", "VEM", "Otros").
Netap: Número de etapas del viaje (entre 1 y 4).
Modop: Modo principal del viaje (alguno de los modos de las etapas).
1. ¿Cuales son las dimensiones de la matriz de datos?
2. Se va a examinar las variables relativas al factor de expansión, el factor EDAD y al subámbito de
residencia (ambito). Indicar los indicadores estadísticos numéricos de estadística descriptiva para
las variables indicadas.
3. Determinar el valor a partir del cual el factor de expansión puede considerarse un valor
atípicamente grande. Justificar estadísticamente la respuesta.
4. Analizar estadísticamente si el factor de expansión resulta en promedio de igual magnitud en los
residentes en el ámbito urbano que en el ámbito metropolitano. Indicar el contraste de hipótesis a
formular, su p valor y la interpretación de éste.
5. Analizar estadísticamente si la varianza del factor de expansión puede considerarse de igual
magnitud en los residentes en el ámbito urbano que en el ámbito metropolitano. Indicar el contraste
de hipótesis a formular, su p valor y la interpretación de éste.
6. Construir un modelo de regresión general para explicar el factor expansión en función del
subámbito de residencia de los individuos de la muestra. ¿Cuál es el coeficiente de determinación
del modelo? Valorarlo.
7. Interpretar el modelo resultante del Punto 6 e indicar cuál es el valor predicho del factor de
expansión para los residentes en entorn urbano y para los residente en entorno metropolitano.
8. Construir un modelo de regresión general para explicar el factor expansión en función del grupo de
edad de los individuos de la muestra. ¿Cuál es el coeficiente de determinación del modelo?
Valorarlo.
9. Interpretar el modelo resultante del Punto 8 e indicar cuál es el valor predicho del factor de
expansión para cada uno de los grupos de edad de los residentes.
10. ¿Cuál es el valor predicho para el factor de expansión en el modelo nulo? ¿Sabeis si tiene alguna
relación con alguno de los estadísticos descriptivos numéricos habituales?
11. ¿Qué variable de entre ámbito y edad (el factor) os parece más asociada con el valor del factor de
expansión? Justificar la respuesta.
12. ¿Os parece que existe una asociación estadística entre los factores grupo de edad (EDAD) y el
subámbito de residencia (ambito)? Justificar la respuesta.
13. Considerar el modelo ANOVA de 2 vias para explicar el factor de expansión de un individuo de la
muestra en función del ámbito de residencia y del grupo de edad. Construir el modelo completo
con interacciones y el modelo aditivo por regresión (método lm(.)). ¿ És estadísticamente
significativa la interacción entre ámbito y edad? Construir el contraste necesario y valorar el p valor
de la hipótesis nula.
14. Calcular el modelo ANCOVA completo con el método lm(.) para la variable de respuesta factor de
expansión y las variables explicativas del factor ámbito y la edad numérica (EDAD_SEL). ¿ És
estadísticamente significativa la interacción entre ámbito y edad? Construir el contraste necesario y
valorar el p valor de la hipótesis nula.
15. Elegir el mejor modelo de entre todos los tanteados hasta el momento según algún criterio
estadístico. ¿Consideras satisfactorio el análisis de regresión con los estimadores mínimos
cuadrados?
16. Aplicar la transformada Box-Cox a la respuesta para estabilizar su varianza en el mejor modelo
seleccionado en el punto anterior. ¿Cuál es la transformación más adecuada a la vista de los
resultados del método boxcox(.) de R en la librería MASS?
17. Indicar si existe presencia de outliers en los residuos, así como el criterio empleado para la
diagnosis.
18. Hacer un diagrama bivariante de residuos versus valores predichos e interpretarlo.
19. Indicar si hay observaciones que son influyentes, así como el criterio empleado para la diagnosis.
20. Resumir las conclusiones de lo que habéis aprendido con el análisis del presente conjunto de datos.
2
Descargar