MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (UPC). CURS 07-08 Q1 – EXAMEN PARCIAL Mètodes de Captació, Anàlisi i Interpretació de Dades . (Data: 22/11/2008 18:00-20:00 h Nom de l’alumne: Lloc: Aula 1.3 H) Professor responsable: Lídia Montero Mercadé Localització: Edifici C5 D217 – Campus Nord Normativa: NO ES PERMÉS DE DUR ELS APUNTS PUBLICATS ES POT DUR CALCULADORA i FORMULARI OFICIAL Durada de l’examen: 2h 00 min Sortida de notes: Abans 28/11 al WEB de l’assignatura. Revisió: El 28/11 a les 15:00 hores (C5-217 Campus Nord). Puntuació sobre 20 – 1 Punt per Apartat Se va a trabajar con datos reales procedentes de una Encuesta de Movilidad Domiciliaria, donde a los individuos de la muestra se les preguntaba por una descripción exhaustiva de todos los desplazamientos que realizaron durante el dia anterior. El ámbito del estudio está constituído por un núcleo urbano grande y su corona metropolitana (ámbito Urba y CTM). Nos vamos a centrar en los datos contenidos en la grabación de los desplazamientos diarios. Un viaje viene caracterizado por un motivo y puede desglosarse en máximo 4 etapas, cada una de las cuales viene caracterizada por un modo de transporte. Se han codificado modo y motivo tal como indica el siguiente script y se ha definido un modo principal para un viaje (modop). El número de etapas está contenido en el campo netap. Se considerarán únicamente los viajes realizados en laborable y con origen y final el ámbito del estudio. Las variables disponibles de la grabación se listan a continuación: library(MASS) options(contrasts=c("contr.treatment","contr.treatment")) names(dfexa) [1] "SERIALID" "NUMDESP" "SEXO" "EDAD_SEL" "EDAD" [7] "NUM_DESP" "HORA" "MINUTO" "TIEMPO" "FREC" [13] "uns" "ambito" "ztd" "distrito" "zto" [19] "disf" "diso" "mot" "mota" "mod1" [25] "mod3" "mod4" "modop" "netap" "DIA" "PONDE_V2" "ztf" "mod2" Este es el archivo disponible para la realización de este ejercicio. Se deben contemplar las siguientes variables (columnas): SERIALID: Identificador del individuo dentro de la muestra NUMDESP: Número de viaje del día anterior que recoge el registro SEXO: Género del individuo EDAD: Edad del individuo DIA: Día de la semana a que hace referencia el viaje HORA: Hora de inicio del viaje MINUTO: Minuto dentro de la hora del inicio del viaje TIEMPO: Duración total del viaje en minutos FREC: Regularidad de realización del viaje PONDE_V2: Factor de expansión. Uns: Columna de unos Ambito: Factor dicotómico: urbano o metropolitano de residencia del individuo Ztd: Zona de transporte donde reside el individuo. Distrito: Distrito urbano donde reside el individuo Zto: Zona de transporte origen del viaje Ztf: Zona de transporte destino del viaje Diso, disf: distritos origen y destino del viaje respectivamente. Mot : Motivo del viaje c("Ninguno", "Ocupacional", "Gestiones", "Compras", "Ocio", "RegresoH", "Otros"). 1 Mod1, mod2, mod3, mod4: Modo de transporte empleado en la etapa correspondiente c("Ninguna","Pie", "Bici", "Auto", "Bus", "VEM", "Otros"). Netap: Número de etapas del viaje (entre 1 y 4). Modop: Modo principal del viaje (alguno de los modos de las etapas). 1. ¿Cuales son las dimensiones de la matriz de datos? 2. Se va a examinar las variables relativas al factor de expansión, el factor EDAD y al subámbito de residencia (ambito). Indicar los indicadores estadísticos numéricos de estadística descriptiva para las variables indicadas. 3. Determinar el valor a partir del cual el factor de expansión puede considerarse un valor atípicamente grande. Justificar estadísticamente la respuesta. 4. Analizar estadísticamente si el factor de expansión resulta en promedio de igual magnitud en los residentes en el ámbito urbano que en el ámbito metropolitano. Indicar el contraste de hipótesis a formular, su p valor y la interpretación de éste. 5. Analizar estadísticamente si la varianza del factor de expansión puede considerarse de igual magnitud en los residentes en el ámbito urbano que en el ámbito metropolitano. Indicar el contraste de hipótesis a formular, su p valor y la interpretación de éste. 6. Construir un modelo de regresión general para explicar el factor expansión en función del subámbito de residencia de los individuos de la muestra. ¿Cuál es el coeficiente de determinación del modelo? Valorarlo. 7. Interpretar el modelo resultante del Punto 6 e indicar cuál es el valor predicho del factor de expansión para los residentes en entorn urbano y para los residente en entorno metropolitano. 8. Construir un modelo de regresión general para explicar el factor expansión en función del grupo de edad de los individuos de la muestra. ¿Cuál es el coeficiente de determinación del modelo? Valorarlo. 9. Interpretar el modelo resultante del Punto 8 e indicar cuál es el valor predicho del factor de expansión para cada uno de los grupos de edad de los residentes. 10. ¿Cuál es el valor predicho para el factor de expansión en el modelo nulo? ¿Sabeis si tiene alguna relación con alguno de los estadísticos descriptivos numéricos habituales? 11. ¿Qué variable de entre ámbito y edad (el factor) os parece más asociada con el valor del factor de expansión? Justificar la respuesta. 12. ¿Os parece que existe una asociación estadística entre los factores grupo de edad (EDAD) y el subámbito de residencia (ambito)? Justificar la respuesta. 13. Considerar el modelo ANOVA de 2 vias para explicar el factor de expansión de un individuo de la muestra en función del ámbito de residencia y del grupo de edad. Construir el modelo completo con interacciones y el modelo aditivo por regresión (método lm(.)). ¿ És estadísticamente significativa la interacción entre ámbito y edad? Construir el contraste necesario y valorar el p valor de la hipótesis nula. 14. Calcular el modelo ANCOVA completo con el método lm(.) para la variable de respuesta factor de expansión y las variables explicativas del factor ámbito y la edad numérica (EDAD_SEL). ¿ És estadísticamente significativa la interacción entre ámbito y edad? Construir el contraste necesario y valorar el p valor de la hipótesis nula. 15. Elegir el mejor modelo de entre todos los tanteados hasta el momento según algún criterio estadístico. ¿Consideras satisfactorio el análisis de regresión con los estimadores mínimos cuadrados? 16. Aplicar la transformada Box-Cox a la respuesta para estabilizar su varianza en el mejor modelo seleccionado en el punto anterior. ¿Cuál es la transformación más adecuada a la vista de los resultados del método boxcox(.) de R en la librería MASS? 17. Indicar si existe presencia de outliers en los residuos, así como el criterio empleado para la diagnosis. 18. Hacer un diagrama bivariante de residuos versus valores predichos e interpretarlo. 19. Indicar si hay observaciones que son influyentes, así como el criterio empleado para la diagnosis. 20. Resumir las conclusiones de lo que habéis aprendido con el análisis del presente conjunto de datos. 2