V - Departament d`Estadística i Investigació Operativa

MODELS AVANÇATS DE DEMANDA DE TRANSPORT MASTER DE LOGÍSTICA, TRANSPORT i MOBILITAT MASTER D’ESTADÍSTICA i INVESTIGACIÓ OPERATIVA APUNTS DE CLASSE PROF. LÍDIA MONTERO TEMA 5: MODELS DE REPARTIMENT MODAL. AUTORS: Lídia Montero Mercadé – Esteve Codina Sancho Departament d’Estadística i Investigació Operativa Versió 1.0 Febrer del 2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC TABLA DE CONTENIDOS 5-1. MODELOS DE REPARTO MODAL: TIPOLOGÍA ___________________________________________________________________________________4 5-1.1 ELEMENTOS QUE INTERVIENEN EN EL REPARTO MODAL ________________________________________________________________________________4 5-1.2 LOS MODELOS AGREGADOS DE DISTRIBUCIÓN Y REPARTO MODAL _______________________________________________________________________8 5-1.2.1 EJEMPLO DE ORTÚZAR ET AL. 6.1 _________________________________________________________________________________________________15 5-1.2.2 EJEMPLO LOGIT MULTINOMIAL VS LOGIT CONDICIONAL _______________________________________________________________________________20 5-2. MODELOS DE DEMANDA DIRECTA_____________________________________________________________________________________________31 5-3. MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS _____________________________________________________________________32 5-3.1 INTRODUCCIÓN ________________________________________________________________________________________________________________32 5-3.2 TEORÍA DE LA UTILIDAD ALEATORIA ______________________________________________________________________________________________37 5-3.3 EJEMPLOS ____________________________________________________________________________________________________________________47 5-3.4 DEDUCCIÓN DEL MODELO LOGIT MULTINOMIAL _____________________________________________________________________________________51 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL______________________________________________________________________________53 5-4.1 PROPIEDADES DEL MODELO MNL _________________________________________________________________________________________________57 5-4.1.1 VARIACIONES INDIVIDUALES EN LOS GUSTOS ________________________________________________________________________________________57 5-4.1.2 PATRONES DE SUSTITUCIÓN ______________________________________________________________________________________________________59 5-4.1.2.1 Paradoja del autobús rojo-azul __________________________________________________________________________________________________60 5-4.1.2.2 Elasticidad directa y cruzada____________________________________________________________________________________________________62 5-4.1.3 BENEFICIO AL CONSUMIDOR (CONSUMER SURPLUS) ___________________________________________________________________________________63 5-4.1.4 ROL DEL TÉRMINO INDEPENDIENTE Y CHOICE-BASED SAMPLES __________________________________________________________________________64 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: HL (LOGIT JERARQUICO) _________________________________________________________66 5-5.1 FORMULACIÓN DEL MODELO LOGIT JERÁRQUICO ____________________________________________________________________________________66 5-5.2 MODELOS DE VALOR EXTREMO GENERALIZADO (GEV) _______________________________________________________________________________69 5-5.3 PROPIEDADES DEL MODELO LOGIT JERÁRQUICO (NESTED LOGIT) _______________________________________________________________________69 5-5.4 MNL LOGIT HETEROCEDÁSTICO__________________________________________________________________________________________________71 5-5.5 CASO PARTICULAR: ÁRBOL DE DOS NIVELES_________________________________________________________________________________________72 5-5.6 EJEMPLOS ____________________________________________________________________________________________________________________74 5-5.6.1 PROCESO SECUENCIAL DE ESTIMACIÓN DE LOS MODELOS LOGIT JERÁRQUICOS ______________________________________________________________77 5-5.6.2 OTROS PROCESOS DE ESTIMACIÓN DE LOS MODELOS LOGIT JERÁRQUICOS: FULL TREE LOGIT MODELS ____________________________________________78 5-5.7 INTRODUCCIÓN A LA TEORÍA DE LOS MODELOS GEV __________________________________________________________________________________81 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: OTROS PARADIGMAS _____________________________________________________________86 5-6.1 EL MODELO PROBIT MULTINOMIAL ________________________________________________________________________________________________86 5-6.2 PATRONES DE SUSTITUCIÓN NO IIA ________________________________________________________________________________________________90 5-6.3 VARIACIONES EN LOS GUSTOS NO OBSERVABLES (EFECTOS ALEATORIOS) ________________________________________________________________91 5-6.4 ESTIMACIÓN DE MODELOS PROBIT ________________________________________________________________________________________________94 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO ______________________________________________________________________107 5-7.1 DEFINICIÓN Y PROBABILIDADES DE ELECCIÓN ______________________________________________________________________________________111 Prof. Lídia Montero – Esteve Codina © Pàg. 5-2 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC TABLA DE CONTENIDOS 5-7.2 EJEMPLO LOGIT JERÁRQUICO COMO CASO PARTICULAR LOGIT MIXTO ________________________________________________________________113 5-7.3 PATRONES DE SUSTITUCIÓN _____________________________________________________________________________________________________115 5-7.4 ESTIMACIÓN DEL MODELO LOGIT MIXTO __________________________________________________________________________________________116 5-7.5 CORRELACIÓN ENTRE SELECCIONES INDIVIDUALES: REPEATED CHOICES ________________________________________________________________117 5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS ________________________________119 5-8.1 ESPECIFICACIÓN: DETERMINACIÓN DEL CONJUNTO DE ALTERNATIVAS DISPONIBLES ______________________________________________________120 5-8.2 ESTIMACIÓN DE LOS MODELOS DESAGREGADOS: VEROSIMILITUD (SIMULADA) ___________________________________________________________121 5-9. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD _______________________________________________________________125 Prof. Lídia Montero – Esteve Codina © Pàg. 5-3 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1. MODELOS DE REPARTO MODAL: TIPOLOGÍA 5-1.1 Elementos que intervienen en el reparto modal Generación y Los modelos de reparto modal son probablemente los más importantes dentro del esquema de las cuatro fases. El transporte público utiliza los recursos energéticos e infraestructuras de manera más eficiente que el transporte privado y son imprescindibles para garantizar la calidad de vida de los habitantes de las ciudades medias y grandes, así como, satisfacer las cuotas de reducción de emisiones contaminantes a la atmósfera debidas al tráfico que han firmado los países europeos. El reparto modal resulta importante en entornos urbanos, pero también interurbanos. Se han desarrollado modelos sensibles a los atributos o características que influencian la elección individual del modo de transporte. Los modelos agregados de reparto modal suelen revelar una precaria validez. Prof. Lídia Montero – Esteve Codina © Pàg. 5-4 Atracción de Viajes D E M A N D A O F E R T A Distribución Reparto Modal Asignación Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.1 MODELOS DE REPARTO MODAL: CARACTERÍSTICAS A CONSIDERAR ... La • • • • • selección del modo de transporte depende de las características del VIAJERO Disponibilidad vehículo Renta Estructura familiar Densidad residencial Condicionantes del resto del día Prof. Lídia Montero – Esteve Codina © La selección del modo de transporte depende de las características del MODO • Tiempo de viaje • Tiempo de espera • Coste del viaje • Coste y disponibilidad parking • Confort • Regularidad • Seguridad Pàg. 5-5 La selección del modo de transporte depende de las características del VIAJE • • • Motivo del viaje Hora del día Origen-Destino: multietapas. Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.1 MODELOS DE REPARTO MODAL: CARACTERÍSTICAS A CONSIDERAR ... Los modelos de reparto modal son agregados si las variables explicativas que intervienen en la selección modal se consideran a nivel de zona de transporte o inter-zonas de transporte (por ejemplo: la densidad por zona o los tiempos de viajes modales entre zonas). Los modelos de reparto modal más obsoletos consideraron que las características más determinantes en el reparto modal eran las del viajero y por tanto, estos modelos se aplicaban después directamente de la etapa de generación/atracción de viajes y por tanto las características del viaje y del modo se omitían como variables explicativas, incluyéndose a lo sumo la disponibilidad de transporte público como un índice de accesibilidad. Esto resultó válido mientras el vehículo privado no estuvo al alcance de todo el mundo y no se daban índices elevados de congestión. En Europa, los modelos de reparto modal se aplicaron después de la etapa de distribución de los viajes y por tanto, las características del viaje, del modo y la competencia entre modos, se tuvieron en cuenta, pero resultaba más difícil de introducir las características del viajero, ya que éstas se habían agregado en la etapa de distribución anterior. Los modelos pioneros fueron bimodales (público, privado) e incluyeron una o dos características del modo y viaje como el tiempo de viaje o su coste generalizado y se observó una relación no lineal pero (monótona) creciente entre la incidencia de uso de uno de los modos sobre el resto con respecto a la diferencia de tiempos (o ( 1 2 ∆ x = − γ x − x coste, genéricamente, variable explicativa x) entre los modos: ij ij Prof. Lídia Montero – Esteve Codina © Pàg. 5-6 ) Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.1 MODELOS DE REPARTO MODAL: CARACTERÍSTICAS A CONSIDERAR ... Las curvas empíricas que se observaron a partir de la captura de datos se denominaron curvas de dispersión (diversion curves), dado que al reparto modal se le atribuyó un mismo comportamiento que a la selección de rutas entre la tradicional y un bypass más largo, pero más rápido. Por ejemplo, en Londres se utilizaron curvas de dispersión público-privado para modelizar los viajes con destino al Centro y fuera del Centro para los distintos motivos de desplazamiento. Probabilidad modo 1 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 logit probit gompit cloglog -3 .6 -3 .2 -2 .8 -2 .4 -2 .0 -1 .6 -1 .2 -0 .8 -0 .4 0. 0 0. 4 0. 8 1. 2 1. 6 2. 0 2. 4 2. 8 3. 2 3. 6 4. 0 Si xij1 < x ij2 entonces p ij1 > p ij2. Si x ij1 > x ij2 entonces p ij1 < p ij2. Si x ij1=x ij2 entonces p ij1=p ij2=0.5 Técnicamente son poco sensibles a políticas de tarifas de transporte público, parking, etc ya que al ser modelos agregados las respuestas individuales de los viajeros ante cambios en política tarifaria resultan mal modelados. Las curvas logit se validaron contra la recogida de datos y surgen en el contexto de modelos de regresión generalizados con respuesta binaria, diferencia de tiempos (i,j) modales y función de enlace logít o lo que es equivalente una formulación en variable latente logística obtenida a partir de diferencias de tiempos OD modales con distribución de valor extremo máximo (ley de Gumbel, relacionada con la denominada log Weibull en contextos de fiabilidad y supervivencia, y con leyes de valor extremo mínimo o Gompertz para los estadísticos). Prof. Lídia Montero – Esteve Codina © Pàg. 5-7 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.2 ... REPARTO MODAL: MODELOS SINTÉTICOS 5-1.2 Los modelos agregados de distribución y reparto modal Se pueden argumentar a partir de los modelos de maximización de entropía vistos en el apartado de modelos de distribución de viajes: en un contexto bimodal, ( ( ) ∑g = Op , ∀p ∈ I ∑g = Dq , ∀q ∈ J m m m MAX H(g) = −∑ ∑ gpq log gpq − gpq m m pq s.t. (p,q ) ) q,m m pq p,m m m m g C = C, g ∑ ∑ pq pq pq ≥ 0, ∀p ∈ I, ∀q ∈ J, m = 1,2 m (p,q ) Es un problema de optimización convexo cuya función lagrangiana es: ( ( )− g ) L(g, α,β, γ ) = −∑ ∑ g log g m (p,q ) m pq m pq m pq     m m  m m       +∑ α p  Op − ∑ gpq  + ∑ β q  D q − ∑ gpq  + γ C − ∑ ∑ gpqCpq  p j,k q,m m (p,q )       q Donde las alfas y las betas representan respectivamente a los multiplicadores de Lagrange de las restricciones de generación y atracción total de las zonas y γ es el multiplicador de Lagrange de la restricción de coste total. Las condiciones de optimalidad de primer orden requieren que se anule de gradiente de la lagrangiana: Prof. Lídia Montero – Esteve Codina © Pàg. 5-8 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.2 ... REPARTO MODAL: MODELOS SINTÉTICOS ∂L m m m m = ⇒ = − − − ⇒ = − − − 0 log g α β γC g exp α β γC pq p q pq pq p q pq m ∂gpq ( ) { Y efectuando los cambios habituales de : puede expresarse como: { m m gpq = ApOp B qDqexp − γCpq exp(- αp ) = Ap Op ∀p∈I, exp(- β q ) = B qD q ∀q∈J } la solución } Los coeficientes de balanceado As y Bs pueden calcularse con el algoritmo de Furness modificado y un valor inicial del parámetro a calibrar γ que sea la inversa del coste generalizado medio entre zonas. El reparto (bi)modal resultante es: P = 1 pq g1pq 2 g1pq + gpq = { { } }+ exp{− γC } exp − γC1pq exp − γC1pq 2 pq En este modelo el parámetro γ juega un rol doble: actúa como parámetro de control de la dispersión en el reparto modal (inversamente proporcional al parámetro de escala de la ley logística) y también modela la selección de destinos en función del coste generalizado (p, q). Eso es demasiado para un único parámetro y en la práctica los modelos conjuntos de distribución y reparto modal empleados tienen formas más complejas. Primero, extendiendo a la posibilidad de M modos en competencia: Prof. Lídia Montero – Esteve Codina © Pàg. 5-9 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.2 ... REPARTO MODAL: MODELOS SINTÉTICOS { } g1pq exp − γC1pq P = 1 = M gpq + K + gpq ∑ exp − γCpqk 1 pq { } ∀p∈I, ∀q∈J k Después considerando una tipología de viajeros según sus características socio-económicas, que define H estratos y definiendo el coste ponderado por modos de viaje entre (p, q) por estrato h como m,h pq g { = A O B qDq exp − γ hK h p h p h pq } { m exp − γ h Cpq { ∑ exp − γ hC } k pq } donde k K hpq m,h m,h K hpq = ∑ ppq Cpq m y m,h p pq son proporciones a priori (estudio anterior) de selección del modo m por el estrato h en la relación OD (p, q) Reparto modal multimodal: Multimodal split Son modelos agregados que pueden deducirse a partir de la formulación de entropía (ver apartado 0) y la hipótesis de independencia entre modos, en que la probabilidad de seleccionar el modo m se puede expresar como, P = m pq m gpq g +K+ g 1 pq M pq = { m exp − γCpq } ∑ exp{− γC } k pq ∀p∈I, ∀q∈J, ∀m=1...M k Este modelo se denomina logit multinomial Prof. Lídia Montero – Esteve Codina © Pàg. 5-10 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS Los modelos agregados más sencillos de reparto modal son los modelos logit multinomiales que a decir verdad no pueden reflejar toda la complicación que implica la selección entre M modos en un entorno. Genéricamente la elección modal podría estructurarse a nivel conceptual de muy diferentes maneres: · Por ejemplo, M=4 1 2 3 4 ↓ 1 2 1 2 3 4 ↓ ↓ 1 2 3 3 4 1 2 3 4 ↓ 4 2 3 4 ↓ 3 4 La jerarquía de dicotomías es una alternativa natural y atractiva cuando las categorías de la politomía representan un proceso ordenado de selección independiente estadísticamente, por ejemplo, en un proceso de · selección modal de alternativas de transporte en la ciudad de Barcelona, un viajero podría concebir el siguiente proceso de selección de modo de transporte, Prof. Lídia Montero – Esteve Codina © Pàg. 5-11 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS Privado Colectivo ↓ Auto ↓ Taxi Bus Infraestrura Fija ↓ Metro Renfe · Veamos un ejemplo de sentido común que justifique la importancia de la independencia de las alternativas por niveles a la hora de poder formular un modelo jerárquico consistentemente. El Ejemplo procede de Mayberry (1973). Supóngase los habitantes de una ciudad pequeña que dispone de una única línea de autobús, no existen otros modos de transporte colectivo, y la única alternativa de transporte mecanizado disponible es el transporte privado (en alguna de sus modalidades que se consideran agrupadamente). Un estudio determina que la probabilidad de seleccionar un modo privado o el autobús para ir al centro de compras son equiprobables: P(privado)=0.5 y P(bus)=0.5 (odds de privado vs bus = 1). Supóngase que un intento de incrementar el uso del autobús lleva pintar la mitad de la flota de rojo, y la otra mitad de azul, el nivel de servicio de la línea se mantiene igual. La selección modal por sentido común tendría que ser: P(privado)=0.5 , P(bus rojo)=0.25 y P(bus azul)=0.25. Prof. Lídia Montero – Esteve Codina © Pàg. 5-12 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS Selección Modal al Centro Selección Modal al Centro ↓ ↓ Privado Bus Rojo Bus Azul Privado Bus 0.5 0.25 0.25 Sentido Común 0.5 0.33 0.33 0.33 MNL Rojo Azul 0.5 0.5 ↓ El problema es que el modelo de respuesta multinomial, no jerárquico no es adecuado, ya que los odds entre 2 categorías (modos) únicamente dependen de los costes de las 2 categorías, no se ve afectados por el coste de ninguna otra categoría, pero ésto es un problema si existen alternativas correlacionadas como es el caso de bus rojo y bus azul. En efecto, los odds entre categorías se mantienen constantes, tal como eran antes de la brillante idea de pintar de 2 colores la flota, (odds de privado vs bus rojo = 1, privado vs bus azul = 1 y bus rojo vs bus azul = 1). Un modelo jerárquico mantendría el sentido común: odds de privado vs bus = 1 y en el segundo nivel, odds de bus rojo vs bus azul = 1. Las alternativas se agrupan en bloques de alternativas asociados o similares, no pueden haber alternativas de un grupo correlacionadas con alternativas de otro grupo. Prof. Lídia Montero – Esteve Codina © Pàg. 5-13 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS En apartados posteriores se ilustrará la práctica de la estimación de un modelo jerárquico donde cada etapa contiene un modelo logit multinomial, en un supuesto concreto de selección de modo de transporte entre auto privado (C) , autobús (B) y metro (M), donde las 2 categorías de transporte colectivo se suponen correlacionadas. Modelo MNL no jerárquico Modelo Jerárquico ↓ Auto Bus ↓ Metro Auto Transporte Colectivo ↓ (No válido para alternativas correlacionadas) Bus Metro Técnicamente, estos modelos agregados de reparto modal son modelos lineales generalizados de respuesta politómica multinomial. La práctica se simplifica notablemente si se trabaja con dicotomías en cada nodo de la estructura de selección modal propuesta, ya que entonces los modelos estadísticos involucrados son modelos generalizados de respuesta binaria agregada (es decir, binomial), con procedimientos de estimación disponibles en todos los paquetes estadísticos y de planificación del transporte. Prof. Lídia Montero – Esteve Codina © Pàg. 5-14 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS 5-1.2.1 Ejemplo de Ortúzar et al. 6.1 Se dispone de los datos de una encuesta de selección modal entre automóvil y tren en un corredor que conecta 4 zonas residenciales (A,B,C,D) y 3 zonas con alta actividad económica (U, V, W). El servicio de tren del corredor es muy bueno, pero el de coche sufre de fuertes congestiones resultando a menudo más rápido el tren que el coche privado. Se recoge información sobre INVEHTT (in vehicle travel time en min), EXCTT (tiempo a pie más de espera en min), TCOST (coste del viaje en peniques, gasolina o tarifa según el caso), PKCOST (tarifa del parking asociada con un viaje en peniques). Los datos se han introducido en R: > bimodal 1 2 3 4 5 6 7 8 9 10 11 12 od.pair car.invehtt car.exctt car.tcost car.pkcost train.invehtt train.exctt train.tcost train.pkcost pcar_train A.U 23 3 120 40 19 10 72 0 0.82 B.U 20 3 96 40 17 8 64 0 0.80 C.U 18 3 80 40 14 10 28 0 0.88 D.U 15 3 68 40 14 12 20 0 0.95 A.V 26 4 152 60 23 10 104 0 0.72 B.V 19 4 96 60 18 9 72 0 0.90 C.V 14 4 60 60 11 9 36 0 0.76 D.V 12 4 56 60 12 11 28 0 0.93 A.W 30 5 160 80 25 10 120 0 0.51 B.W 20 5 100 80 16 8 92 0 0.56 C.W 15 5 64 80 12 9 36 0 0.58 D.W 10 5 52 80 8 9 24 0 0.64 > summary(bimodal) od.pair A.U :1 A.V :1 A.W :1 B.U :1 B.V :1 B.W :1 (Other):6 car.invehtt Min. :10.00 1st Qu.:14.75 Median :18.50 Mean :18.50 3rd Qu.:20.75 Max. :30.00 car.exctt Min. :3 1st Qu.:3 Median :4 Mean :4 3rd Qu.:5 Max. :5 Prof. Lídia Montero – Esteve Codina © car.tcost Min. : 52 1st Qu.: 63 Median : 88 Mean : 92 3rd Qu.:105 Max. :160 car.pkcost Min. :40 1st Qu.:40 Median :60 Mean :60 3rd Qu.:80 Max. :80 train.invehtt Min. : 8.00 1st Qu.:12.00 Median :15.00 Mean :15.75 3rd Qu.:18.25 Max. :25.00 train.exctt Min. : 8.000 1st Qu.: 9.000 Median : 9.500 Mean : 9.583 3rd Qu.:10.000 Max. :12.000 Pàg. 5-15 train.tcost Min. : 20 1st Qu.: 28 Median : 50 Mean : 58 3rd Qu.: 77 Max. :120 train.pkcost Min. :0 1st Qu.:0 Median :0 Mean :0 3rd Qu.:0 Max. :0 pcar_train Min. :0.5100 1st Qu.:0.6250 Median :0.7800 Mean :0.7542 3rd Qu.:0.8850 Max. :0.9500 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL. 1. Estimar el modelo logit de reparto modal asumiendo que el valor del tiempo es de 8 peniques por minuto y que el valor del tiempo adicional (car.exctt o train.exctt) es el doble. 2. Estimar el impacto en el reparto modal para cada pareja OD de un incremento de los precios de la gasolina que doblase el coste del viaje en coche pero no alterara la tarifa de tren. 3. Estimar cual sería el trasvase de viajes del coche al tren si la tarifa del tren fuera gratuïta. bimodal$dinvehtc <- bimodal$car.invehtc - bimodal$train.invehtc bimodal$dexctc<- bimodal$car.exctc - bimodal$train.exctc bimodal$dtcost<- bimodal$car.tcost - bimodal$train.tcost bimodal$dpkcost<- bimodal$car.pkcost - bimodal$train.pkcost resposta <- cbind( 100*pcar_train, 100*(1-pcar_train) ) > summary(m1) Call: glm(formula = resposta ~ dinvehtc + dexctc + dtcost + dpkcost, family = binomial, data = bimodal) Deviance Residuals: Min 1Q Median -0.6230 -0.5210 -0.1814 3Q 0.1343 Max 1.4477 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.954013 0.948514 2.060 0.039391 * dinvehtc -0.029494 0.008490 -3.474 0.000512 *** dexctc -0.023840 0.008772 -2.718 0.006572 ** dtcost -0.023844 0.011499 -2.074 0.038116 * dpkcost -0.021760 0.007237 -3.007 0.002639 ** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 143.9910 Residual deviance: 5.7255 AIC: 70.032 Prof. Lídia Montero – Esteve Codina © on 11 on 7 degrees of freedom degrees of freedom Pàg. 5-16 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL. > # Estimar l'impacte d'augment del petroli que porti a car.tcost a doblar-se > pdf1 <- bimodal > pdf1$dtcost<- 2*pdf1$car.tcost - pdf1$train.tcost > op1 <-predict( m1, newdata = pdf1, type="response", se=T ) > cbind( op1$fit, pcar_train ) pcar_train 1 0.23220594 0.82 2 0.31668039 0.80 3 0.41641245 0.88 4 0.81976150 0.95 5 0.07312894 0.72 6 0.36781262 0.90 7 0.46129143 0.76 8 0.78844946 0.93 9 0.02128689 0.51 10 0.10326707 0.56 11 0.23820584 0.58 12 0.34514269 0.64 > > > > > # Estimació de l'efecte de tarifa 0 en tren pdf2 <- bimodal pdf2$dtcost<- pdf1$car.tcost op2 <-predict( m1, newdata = pdf2, type="response", se=T ) > cbind( op2$fit, pcar_train ) pcar_train 1 0.48715482 0.82 2 0.49848339 0.80 3 0.71143465 0.88 4 0.93457805 0.95 5 0.19859714 0.72 6 0.50765945 0.90 7 0.60279094 0.76 8 0.87902530 0.93 9 0.05343402 0.51 10 0.12231493 0.56 11 0.37873679 0.58 12 0.50679168 0.64 > 4. Estimar el modelo logit de reparto modal sin añadir información sobre el valor del tiempo y con variable explicativa para el coste del viaje como coste total (coste del viaje más coste del aparcamento). Determinar el valor del tiempo en viaje y en espera. 5. Estimar el impacto en el reparto modal para cada pareja OD de un incremento de los precios de la gasolina que doblase el coste del viaje en coche pero no alterara la tarifa de tren. 6. Estimar cual sería el trasvase de viajes del coche al tren si la tarifa del tren fuera gratuíta. Prof. Lídia Montero – Esteve Codina © Pàg. 5-17 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL. > bimodal$dinvehtt <- bimodal$car.invehtt - bimodal$train.invehtt > bimodal$dexctt<- bimodal$car.exctt - bimodal$train.exctt > m2 <- glm( resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost), family=binomial, data=bimodal ) > m0 <- glm( resposta ~ 1, family=binomial, data=bimodal ) > summary( m2 ) Call: glm(formula = resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost), family = binomial, data = bimodal) … Coefficients: Estimate Std. Error z value Pr(>|z|) Valor temps de viatge invehicle (Intercept) 2.055498 0.598467 3.435 0.000593 *** > coef(m2)[2]/coef(m2)[4] dinvehtt -0.239916 0.061481 -3.902 9.53e-05 *** dinvehtt dexctt -0.363570 0.053045 -6.854 7.18e-12 *** 10.69168 I(dtcost + dpkcost) -0.022440 0.005309 -4.227 2.37e-05 *** Valor temps d’espera (exctt) … > coef(m2)[3]/coef(m2)[4] Null deviance: 143.9910 on 11 degrees of freedom dexctt Residual deviance: 5.7445 on 8 degrees of freedom 16.20221 AIC: 68.051 > anova(m0, m2, test='Chisq' ) Analysis of Deviance Table Model 1: resposta ~ 1 Model 2: resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost) Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 11 143.991 2 8 5.744 3 138.247 9.027e-30 > anova(m0, m2, test='Cp' ) Analysis of Deviance Table Model 1: resposta ~ 1 Model 2: resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost) Resid. Df Resid. Dev Df Deviance Cp 1 11 143.991 145.991 2 8 5.744 3 138.247 13.745 Prof. Lídia Montero – Esteve Codina © Pàg. 5-18 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL. > > > > > > # Estimar l'impacte d'augment del petroli que porti a car.tcost a doblar-se pdf1 <- bimodal pdf1$dtcost<- 2*pdf1$car.tcost - pdf1$train.tcost op11 <-predict( m2, newdata = pdf1, type="response") cbind( op11$fit, pcar_train ) pcar_train 1 0.26374399 0.82 2 0.35063672 0.80 3 0.44552313 0.88 4 0.83021417 0.95 5 0.08971594 0.72 6 0.39994766 0.90 7 0.48058654 0.76 > # Estimació de l'efecte de tarifa 0 en tren 8 0.79725029 0.93 > pdf2 <- bimodal 9 0.02635723 0.51 > pdf2$dtcost<- pdf1$car.tcost 10 0.11587476 0.56 > op20 <-predict( m2, newdata = pdf2, type="response") 11 0.25548490 0.58 > cbind( op20$fit, pcar_train ) 12 0.36345975 0.64 pcar_train 1 2 3 4 5 6 7 8 9 10 11 12 Prof. Lídia Montero – Esteve Codina © 0.51262193 0.52543387 0.72072881 0.93488346 0.22443410 0.53316760 0.61321718 0.88053469 0.06228529 0.13557114 0.39144007 0.51697541 Pàg. 5-19 0.82 0.80 0.88 0.95 0.72 0.90 0.76 0.93 0.51 0.56 0.58 0.64 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL. 5-1.2.2 Ejemplo Logit Multinomial vs Logit Condicional Se dispone de datos hipotéticos (es decir, los generaremos aleatoriamente) de una encuesta de selección modal entre automóvil, autobús, tren y pie para n=100 individuos. Se dispone de las variables explicativas coste y tiempo de viaje para cada modo. Vamos a generar la muestra que dará pie a establecer la diferencia fundamental entre los modelos estadísticos estimados por defecto y los modelos combinados (con base condicional) empleados en la modelización del reparto modal. > library(MASS) > library(VGAM) > # Example 4: The use of the xij argument (conditional logit model) > n = 100 > M = 3 # Nb individus de la mostra # Hi han M+1 modes de transport en competència > # ymat: crea una matriu de zeros amb n files i M+1 columnes > ymat = matrix(0, n, M+1) > # Genera mostra de tamany 100 i sobre uniforme 1 a M+1: > y <- sample(x=M+1, size=n, replace=TRUE) > ymat[1:7, ] auto bus tren peu [1,] 0 0 1 0 [2,] 0 0 0 1 [3,] 0 0 1 0 [4,] 0 0 0 1 [5,] 0 1 0 0 [6,] 0 0 1 0 [7,] 0 0 1 0 > y[1:7] [1] 3 4 3 4 2 3 3 > > # Per cada individu, la mostra conté un numeret de 1 a 4 (el mode), cal posar un 1 en la columna corresponent al mode triat a ymat > # Resultat: ymat(i,j)=1 si individu i ha triat el mode j, ymat(i,j)=0 altrament. > ymat[cbind(1:n, y )] = 1 > dimnames(ymat) = list(NULL, c("auto","bus","tren","peu")) Prof. Lídia Montero – Esteve Codina © Pàg. 5-20 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL Crear el objeto de datos R (data.frame) con coste y durn (tiempo de viaje) por modo y las variables Cost i Durn que para cada modo son la diferencia de cost respecto el modo de referencia (cost.peu) y simetricamente para durn: > > + + + > > > + + + + + + > 1 2 3 4 5 6 1 2 3 4 5 6 # Per cada mode es disposa de cost i durada, cadascun en una columna transport = data.frame(ymat, y, cost.bus=runif(n), cost.tren=runif(n), cost.auto=runif(n), cost.peu=runif(n), durn.bus=runif(n), durn.tren=runif(n), durn.auto=runif(n), durn.peu=runif(n)) transport = round(transport, dig=2) # Per claretat # Mode 4 (peu=) triat de referència: es creen Cost i Durn diferència respecte peu (4) transport = transform(transport, Cost.bus = cost.bus - cost.peu, Cost.auto = cost.auto - cost.peu, Cost.tren = cost.tren - cost.peu, Durn.bus = durn.bus - durn.peu, Durn.auto = durn.auto - durn.peu, Durn.tren = durn.tren - durn.peu) head(transport) auto bus tren peu y cost.bus cost.tren cost.auto cost.peu durn.bus durn.tren 0 0 1 0 3 0.04 0.52 0.96 0.08 0.46 0.80 0 0 0 1 4 0.14 0.35 0.61 0.54 0.72 0.23 0 0 1 0 3 0.77 0.69 0.85 0.72 0.44 0.08 0 0 0 1 4 0.69 0.68 0.45 0.69 0.60 0.13 0 1 0 0 2 0.28 0.34 0.03 0.64 0.54 0.52 0 0 1 0 3 0.78 0.01 0.95 0.82 0.38 0.72 durn.auto durn.peu Cost.bus Cost.auto Cost.tren Durn.bus Durn.auto Durn.tren 0.71 0.68 -0.04 0.88 0.44 -0.22 0.03 0.12 0.67 0.40 -0.40 0.07 -0.19 0.32 0.27 -0.17 0.89 0.40 0.05 0.13 -0.03 0.04 0.49 -0.32 0.50 0.92 0.00 -0.24 -0.01 -0.32 -0.42 -0.79 0.05 0.99 -0.36 -0.61 -0.30 -0.45 -0.94 -0.47 0.31 0.90 -0.04 0.13 -0.81 -0.52 -0.59 -0.18 Prof. Lídia Montero – Esteve Codina © Pàg. 5-21 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL Estimación del modelo logit condicional con método vglm(.) del paquete VGAM de Thomas W. Yee: # Model logit multinomial condicional on indica que els coeficients de Cost i Durn han de # ser els mateixos per cada mode: entren a la utilidad amb coeficient comú. m1.condicional = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus + Durn.tren + Durn.auto, fam = multinomial, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto, Durn ~ Durn.bus + Durn.tren + Durn.auto), data=transport) model.matrix(m1.condicional, type="lm")[1:7,] # LM model matrix model.matrix(m1.condicional, type="vlm")[1:7,] # Big VLM model matrix coef(m1.condicional) coef(m1.condicional, matrix=TRUE) > summary(m1.condicional) Call: vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus + Durn.tren + Durn.auto, family = multinomial, data = transport, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto, Durn ~ Durn.bus + Durn.tren + Durn.auto)) > coef(m1.condicional, matrix=TRUE) … log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) Coefficients: (Intercept) 0.19379010 0.45209555 0.38456651 Cost 0.32426883 0.32426883 0.32426883 Value Std. Error t value (Intercept):1 0.193790 0.31031 0.624502 Durn 0.03802221 0.03802221 0.03802221 (Intercept):2 0.452096 0.29373 1.539175 (Intercept):3 0.384567 0.29766 1.291956 Cost 0.324269 0.40803 0.794727 Durn 0.038022 0.40337 0.094261 Number of linear predictors: 3 Names of linear predictors: log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 273.5984 on 295 degrees of freedom Log-likelihood: -136.7992 on 295 degrees of freedomPàg. Prof. Lídia Montero – Esteve Codina © Number of Iterations: 3 5-22 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL Estimación del modelo logit multinomial con método vglm(.) del paquete VGAM de Thomas W. Yee: no es correcto eliminar directamente las reestricciones: > > > + + + > # Model logit multinomial els coeficients de Cost i Durn no són # els mateixos per cada mode: entren a la utilidad amb coeficient diferent. m1.multi = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus + Durn.tren + Durn.auto, fam = multinomial, data=transport) coef(m1.multi, matrix=TRUE) log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) (Intercept) 0.16893659 0.5356045 0.4999525 Cost.bus 0.57936918 0.1599811 0.3446324 Cost.tren -0.09580872 0.1295857 -0.7330982 Cost.auto 0.54698547 -0.7696662 0.2897552 Durn.bus 0.10352308 -1.7803520 -1.9986496 Durn.tren -0.74342682 -0.2881240 -0.5135572 Durn.auto 0.24268914 -0.8861623 0.1203233 > summary(m1.multi) Coefficients: Value Std. Error 0.37149 0.34044 0.34163 0.579369 0.98967 0.159981 1.00725 0.344632 1.00399 -0.095809 0.99242 0.129586 0.96520 -0.733098 0.98599 0.546985 0.91870 -0.769666 0.87349 0.289755 0.89663 0.103523 1.10301 -1.780352 1.07811 -1.998650 1.07181 -0.743427 0.93108 -0.288124 0.92987 -0.513557 0.92677 Curs 2.006-2.007 0.242689 0.96564 -0.886162 0.92473 0.120323 0.94846 Call: (Intercept):1 0.168937 vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus + (Intercept):2 0.535604 Durn.tren + Durn.auto, family = multinomial, data = transport) (Intercept):3 0.499952 Pearson Residuals: ... Number of linear predictors: 3 Names of linear predictors: log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 250.188 on 279 degrees of freedom Log-likelihood: -125.094 on 279 degrees of freedom Number of Iterations: 4 Prof. Lídia Montero – Esteve Codina © Pàg. 5-23 Cost.bus:1 Cost.bus:2 Cost.bus:3 Cost.tren:1 Cost.tren:2 Cost.tren:3 Cost.auto:1 Cost.auto:2 Cost.auto:3 Durn.bus:1 Durn.bus:2 Durn.bus:3 Durn.tren:1 Durn.tren:2 Durn.tren:3 Durn.auto:1 Durn.auto:2 Durn.auto:3 t value 0.454750 1.573265 1.463425 0.585415 0.158830 0.343261 -0.096540 0.134258 -0.743512 0.595391 -0.881136 0.323159 0.093855 -1.651360 -1.864739 -0.798454 -0.309854 -0.554134 0.251325 -0.958294 0.126862 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL Estimación del modelo logit multinomial con método multinom(.) del paquete nnet del R: # Solució amb el mètode per defecte del package nnet: penseu format especificació # de la resposta és diferent i de fet la variable explicativa Cost o Durn s'ha de posar # segons la tria efectuada: transport$Cost <- transport$Cost.auto transport$Durn <- transport$Durn.auto transport[ y==2, ]$Cost <- transport[ y==2, ]$Cost.bus transport[ y==2, ]$Durn <- transport[ y==2, ]$Durn.bus transport[ y==3, ]$Cost <- transport[ y==3, ]$Cost.tren transport[ y==3, ]$Durn <- transport[ y==3, ]$Durn.tren transport[ y==4, ]$Cost<- 0 transport[ y==4, ]$Durn<- 0 > m1.mass <- multinom(y ~ Cost + Durn, data=transport) # weights: 16 (9 variable) > head(transport) initial value 138.629436 auto bus tren peu y cost.bus cost.tren cost.auto cost.peu iter 10 value 129.671668 1 0 0 1 0 3 0.04 0.52 0.96 0.08 final value 129.659368 2 0 0 0 1 4 0.14 0.35 0.61 0.54 converged 3 0 0 1 0 3 0.77 0.69 0.85 0.72 > m1.mass 4 0 0 0 1 4 0.69 0.68 0.45 0.69 Call: 5 1 0 0 2 0.28 0.34 0.03 0.64 multinom(formula = y ~ Cost + Durn, data = 0transport) 6 0 0 1 0 3 0.78 0.01 0.95 0.82 Cost.bus Cost.auto Cost.tren Durn.bus Durn.auto Durn.tren Coefficients: 1 -0.04 0.88 0.44 -0.22 0.03 0.12 (Intercept) Cost Durn 2 0.33945612 -1.627994 -2.912721 2 -0.40 0.07 -0.19 0.32 0.27 -0.17 3 0.30513190 -1.528267 -2.651115 3 0.05 0.13 -0.03 0.04 0.49 -0.32 4 -0.01845862 -1.112796 -1.560384 4 0.00 -0.24 -0.01 -0.32 -0.42 -0.79 5 -0.36 -0.61 -0.30 -0.45 -0.94 -0.47 Residual Deviance: 259.3187 6 -0.04 0.13 -0.81 -0.52 -0.59 -0.18 AIC: 277.3187 El número de parámetros del modelo no coincide con m1.multi, éste es el logit multinomial ! Prof. Lídia Montero – Esteve Codina © Pàg. 5-24 Curs 2.006-2.007 durn.bus durn. 0.46 0.72 0.44 0.60 0.54 0.38 Durn Cost 0.12 0.44 0.00 0.00 -0.32 -0.03 0.00 0.00 -0.45 -0.36 -0.18 -0.81 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL Estimación del modelo logit multinomial con método multinom(.) del paquete nnet del R con los mismos parámetros: > yp<-factor(y, levels=c('4','1','2','3')) > m2.mass <- multinom(yp ~ Cost.bus + Cost.tren + Cost.auto + + Durn.bus + Durn.tren + Durn.auto, data=transport) # weights: 32 (21 variable) initial value 138.629436 iter 10 value 125.159479 final value 125.094011 converged > m2.mass Call: multinom(formula = yp ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus + Durn.tren + Durn.auto, data = transport) Coefficients: (Intercept) Cost.bus Cost.tren Cost.auto Durn.bus Durn.tren Durn.auto 1 0.1689013 0.5792480 -0.09602884 0.5472283 0.103583 -0.7435731 0.2429367 2 0.5356021 0.1600326 0.12932940 -0.7695516 -1.780200 -0.2882721 -0.8860066 3 0.4999457 0.3447692 -0.73345933 0.2899314 -1.998452 -0.5137646 0.1205029 Residual Deviance: 250.188 AIC: 292.188 > Ahora si que coinciden los estimadores de m1.multi, pero hay que reconocer que puede no tener demasiado sentido que las variables de coste y tiempo de viaje de otros modos también participen en la descripción de la utilidad del modo auto (por ejemplo!): no es el modelo logit multinomial entendido en modelos de discretos. Prof. Lídia Montero – Esteve Codina © Pàg. 5-25 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL Estimación del modelo logit combinado multinomial-condicional con método vglm(.) del package VGAM de Yee: contempla el coste con coeficiente común en todos los modos, pero el tiempo de viaje variable su coeficiente en la definición de la utilidad de los modos, así mismo los tiempos de viajes de otros modos no aparecen en la utilidad de cada uno de ellos. ¿Modelo M1 es incorrecto, asimismo M2, sabeís por qué? > # Model COMBINAT logit multinomial condicional on indica que els coeficients de Cost han de > # ser els mateixos per cada mode, però no els Durn: entren a la utilidad amb coeficient comú (Cost) i diferent (Durn). > m1.combinat = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + + Durn.bus + Durn.tren + Durn.auto, + fam = multinomial, + xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto), + data=transport) > coef(m1.combinat, matrix=TRUE) log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) (Intercept) 0.2179618 0.5504227 0.4885284 Cost 0.3697537 0.3697537 0.3697537 Durn.bus 0.1691331 -1.8395640 -2.0618982 Durn.tren -0.8274091 -0.2734426 -0.4801288 Durn.auto 0.1466325 -0.7766799 0.1338975 > # Model M1 fa intervenir tots els temps de viatge dels modes en cadascun d'ells: NO > m2.combinat = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + + Durn, + fam = multinomial, + xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto), + data=transport) > coef(m2.combinat, matrix=TRUE) log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) (Intercept) 0.1129710 0.3642013 0.3293322 Cost 0.4986201 0.4986201 0.4986201 Durn 1.4369845 -1.2663248 -1.0388187 Prof. Lídia Montero – Esteve Codina © Pàg. 5-26 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL > summary(m2.combinat) Call: vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn, family = multinomial, data = transport, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto)) Pearson Residuals: Min 1Q Median 3Q Max log(mu[,1]/mu[,4]) -1.3268 -0.51835 -0.23363 -0.10865 2.5754 log(mu[,2]/mu[,4]) -1.4084 -0.50197 -0.34649 1.09783 3.2263 log(mu[,3]/mu[,4]) -1.3660 -0.45787 -0.34779 1.22232 2.0632 Coefficients: Value Std. Error t value (Intercept):1 0.11297 0.32321 0.34953 (Intercept):2 0.36420 0.30347 1.20011 (Intercept):3 0.32933 0.30446 1.08171 Cost 0.49862 0.41923 1.18936 Durn:1 1.43698 0.99765 1.44037 Durn:2 -1.26632 0.93365 -1.35632 Durn:3 -1.03882 0.93810 -1.10737 Number of linear predictors: 3 Names of linear predictors: log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 262.7987 on 293 degrees of freedom Log-likelihood: -131.3993 on 293 degrees of freedom Number of Iterations: 4 Prof. Lídia Montero – Esteve Codina © Pàg. 5-27 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL > # Model COMBINAT logit multinomial condicional on indica que els coeficients de Cost han de # ser els mateixos per cada mode, però no les durades: entren a la utilidad amb coeficient comú (Cost) i diferent (Durn). # Model M1 fa intervenir tots els temps de viatge dels modes en cadascun d'ells: NO És el que es demana # Model M2 usa durada del mode triat en el càlcul de totes les utilitats: no és correcte. # Model M3 és un combinat, però de fet és un condicional amb interacció de mode a la Durada transport = transform(transport, DurnB.bus = durn.bus - durn.peu, DurnB.auto = 0, DurnB.tren = 0, DurnT.bus = 0, DurnT.auto = 0, DurnT.tren = durn.tren - durn.peu, DurnA.bus = 0, DurnA.auto = durn.auto - durn.peu, DurnA.tren = 0 ) m3.combinat = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + DurnB.bus + DurnB.tren + DurnB.auto + DurnT.bus + DurnT.tren + DurnT.auto + DurnA.bus + DurnA.tren + DurnA.auto , fam = multinomial, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto, DurnB ~ DurnB.bus + DurnB.tren + DurnB.auto, DurnT ~ DurnT.bus + DurnT.tren + DurnT.auto, DurnA ~ DurnA.bus + DurnA.tren + DurnA.auto ), data=transport) > coef(m3.combinat, matrix=TRUE) log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) (Intercept) 0.09799303 0.4155546 0.3866297 Cost 0.31996453 0.3199645 0.3199645 DurnB 1.20484973 1.2048497 1.2048497 DurnT -0.53292382 -0.5329238 -0.5329238 DurnA -0.19980580 -0.1998058 -0.1998058 Prof. Lídia Montero – Esteve Codina © Pàg. 5-28 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL > summary(m3.combinat) Call: vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + DurnB.bus + DurnB.tren + DurnB.auto + DurnT.bus + DurnT.tren + DurnT.auto + DurnA.bus + DurnA.tren + DurnA.auto, family = multinomial, data = transport, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto, DurnB ~ DurnB.bus + DurnB.tren + DurnB.auto, DurnT ~ DurnT.bus + DurnT.tren + DurnT.auto, DurnA ~ DurnA.bus + DurnA.tren + DurnA.auto)) ... Coefficients: Value Std. Error t value (Intercept):1 0.097993 0.32454 0.30194 (Intercept):2 0.415555 0.29800 1.39447 (Intercept):3 0.386630 0.29771 1.29867 Cost 0.319965 0.41066 0.77915 DurnB 1.204850 0.65216 1.84748 DurnT -0.532924 0.55292 -0.96383 DurnA -0.199806 0.59145 -0.33782 Number of linear predictors: 3 Names of linear predictors: log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 267.4826 on 293 degrees of freedom Log-likelihood: -133.7413 on 293 degrees of freedom Number of Iterations: 4 > Prof. Lídia Montero – Esteve Codina © Pàg. 5-29 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL En síntesis y expresado en la notación habitual para los modelos de regresión con respuesta politómica: Modelo logit Multinomial (estimación por método vglm(.) en VGAM con variable auxiliar o multinom(.) en nnet): π ij (x j , w ij ) Vij = ηij (x j , w ij ) = log = α j + γ Tj w ij π ik (xk , w ik ) j = 1, K , k − 1 i = 1, K , n Modelo logit Condicional (estimación por método vglm(.) en VGAM con constraints=list(.)): Vij = ηij (x j , w ij ) = log π ij (x j , w ij ) = α j + βTx j π ik (xk , w ik ) j = 1, K , k − 1 i = 1, K , n Modelos logit combinado Multinomial-Condicional (estimación por método vglm(.) en VGAM con constraints=list(.), más variable auxiliar): Vij = η ij (x , w ) = log π ((x , w )) = α ij j ij j ij π ik x k , w ik T T + β x + γ j j j w ij j = 1,K , k − 1 i = 1,K , n Los modelos condicionales contienen variables explicativas ligadas a alternativas ( x j ), los parámetros β son comunes a los individuos y alternativas. Los modelos combinados contienen adicionalmente variables ligadas a características socio-demográficas ( w ij ) de los individuos que pueden intervenir en la utilidad observada de manera distinta según la alternativa, de ahí γ j coeficiente que refleja la interacción individuo-alternativa. Prof. Lídia Montero – Esteve Codina © Pàg. 5-30 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-2. MODELOS DE DEMANDA DIRECTA Responden a la propuesta directa y simultanea de englobar las etapas de generación, distribución y reparto modal de viajes. Los modelos directos pioneros son de tipo multiplicativo (Kraft, 1968) y determinan la demana modal entre zonas como una función de tipo multiplicativo de variables relacionadas con la actividad económica y realidad social de las zonas. m gpq = φ0 ∏ (Apr Aqr ) r ∏ C αpqll ∏ (C pqlm C pqlb ) l φ r β l l donde φ, α, β son parámetros a calibrar, r indexa los atributos vinculados a zonas (población, nivel económica, etc.) l indexa atributos de coste (tarifa, headway, travel time, etc.); C pqlb es el valor del mejor atributo l entre (p,q). Técnicamente son modelos log-lineales, es decir, modelos de regresión generalizados que pueden calibrarse a partir de los datos en R, SPLUS, SPSS, SAS o GLIM. Un caso más simple podría agrupar las etapas de generación y distribución, concretando en un ejemplo de demanda de un operador de transporte público (Ortúzar et al): −2 −1 0.8 gpq = 10000 t pq c pq q pq Donde t, c y q modelan respectivamente el tiempo de viaje en horas, la tarifa en $ y el servicio en salidas/día. −2 −1 Si t pq c pq q pq = cnt la demanda no se ve afectada. Se han aplicado un análisis por elasticidad a formulaciones de 0.8 este estilo. Prof. Lídia Montero – Esteve Codina © Pàg. 5-31 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS 5-3.1 Introducción Los modelos de demanda de primera generación son agregados en el sentido en que se basan en magnitudes promedio a nivel zonal. Estos modelos se usaron masivamente hasta los inicios de los 80s. Premio Nobel 2000 Dr. Mc Fadden “for his development of theory and methods for analyzing discrete choice” . • Discurso de recogida del Premio: Economic Choices, The American Economic Review Vol 91 No 3 (June 2001), 351-378. • Charles Manski, The Structure of Random Utility Models, Theory and Decision 8 (1977) 229-254 Los modelos de demanda de segunda generación se basan en las decisiones individuales de los viajeros y por tanto, se espera que puedan ofrecer modelos de selección modal más realistas. Estos modelos postulan que la probabilidad individual de seleccionar una determinada alternativa es una función de las características socioeconómicas del individuo y de lo atractivo de la alternativa, en términos relativos. Prof. Lídia Montero – Esteve Codina © Pàg. 5-32 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN Lo atractivo de una alternativa se suele englobar bajo el nombre de utilidad de la alternativa. La utilidad es tautológicamente lo que los individuos intentan maximizar. Las alternativas por ellas mismas no producen utilidad, sinó que ésta se deriva de sus características. La utilidad se compone de una parte observable o sistemática y una parte aleatoria, de ahí que la utilidad de la alternativa auto se pueda escribir como: U auto = Vauto + ε auto { { sistemática Vauto aleatoria y sea una combinación lineal de variables explicativas relacionadas con características de la alternativa, por ejemplo: Vauto = 0.25 − 1.21 ⋅ VT − 2.5 ⋅ TA − 0.3 ⋅ C I + 1.1 ⋅ NCAR • En esta ecuación, una unidad más del tiempo de acceso (TA) implica una pérdida de utilidad de 2.5 unidades. • El coeficiente en la ecuación de la utilidad sistemática traduce la importancia y contribución de cada atributo del modo en la cuantificación de su utilidad. De ahí que un aumento en 1 unidad del tiempo de acceso tenga un impacto de más del doble que el tiempo de viaje (TV). • La constante se interpreta normalmente como la influencia neta de todas las características del modo que no son observables (por ejemplo, atributos de confort o conveniencia que resultan de difícil cuantificación e inclusión como parte sistemática de un modelo de selección de alternativas). Prof. Lídia Montero – Esteve Codina © Pàg. 5-33 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN Los modelos desagregados se fundamentan en la teoría del comportamiento individual de los usuarios y no en analogías con modelos físicos. Los modelos desagregados se construyen y estiman a partir de datos individuales y por tanto son más eficientes en cuanto al uso de la información, ya que requieren de menor volumen de datos. Los modelos desagregados pueden incorporar todos los elementos de la variabilidad inherente en el proceso de selección. Son menos suceptibles a sufrir sesgo debido a la asociación entre los individuos y enmascaramientos del comportamiento individual debido a la agregación de la información a nivel zonal que sufren los modelos agregados. Existen ejemplos paradigmáticos de lo que se conoce como correlación ecológica. Los modelos desagregados son modelos probabilísticos en el sentido que ofrecen una probabilidad de selección de cada una de las alternativas y por tanto, se debe trabajar con conceptos probabilísticos. Por ejemplo, el número esperado de personas que en una determinada zona harán uso de un modo concreto es la suma de las probabilidades individuales, j = 1 ≡ auto M h = ∑i =1Kn π ij h Prof. Lídia Montero – Esteve Codina © Pàg. 5-34 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN Una jerarquía de selecciones puede modelarse separadamente utilizando los conceptos de distribuciones condicionales (probabilidad condicionada), por ejemplo la probabilidad de seleccionar la ruta r, dentro del modo j, hacia el destino q, dentro del grupo de usuarios h, sería π hqjr = π r |hqj ⋅ π hqj = K = π r |hqj ⋅ π j|hq ⋅ π q|h ⋅ π h . Todas las variables explicativas observables pueden incluirse en el modelo y se les pueden estimar coeficientes, por tanto resultan modelos más flexibles y representativos de las políticas de movilidad, con coeficientes interpretables en términos de utilidad marginal. Para realizar predicciones de la alternativa a seleccionar, el valor de la utilidad de todos las posibles opciones tiene que contrastarse (en principio, un valor real) y convertirse a probabilidad (un valor entre 0 y 1), para ello es necesario un cambio de escala desde la utilidad a la probabilidad y ese cambio se realiza a partir de la denominada función de enlace (link function) en terminología estadística. Supongamos el caso dicotómico, M=2 con j = 1 ≡ auto y j = 2 ≡ bus . • Si la función de enlace es la logit, entonces  π  exp(Vauto ) exp(Vauto ) logit (π auto ) = log auto  = Vauto → π auto = = Vbus = 0 1 + exp(Vauto ) exp(Vbus ) + exp(Vauto )  1 − π auto  exp(Vauto − Vbus ) π = Vbus ≠ 0 bien, auto exp(− Vbus ) + exp(Vauto − Vbus ) Prof. Lídia Montero – Esteve Codina © Pàg. 5-35 Curs 2.006-2.007 o Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN • Si la función de enlace es la probit, entonces Φ −Z1 (π auto ) = Vauto → π auto = Φ Z (Vauto ) Φ Z ( z ) = P([Z ≤ z ]) Vauto tipificada ∞ (V −V + x ) ( ]) ( )[( ) ( ) π auto = ∫ ∫ auto bus 1 exp − −∞ −∞ 1 2 1− ρ 2 x1 2 + σ1 x2 σ2 2 πσ1σ 2 1− ρ 2 2 2ρ x x 1 2 − σ1σ 2 y Vbus = 0 o bien, dx 2 dx1 . Estos modelos son modelos de regresión generalizados o modelos lineales generalizados que no pueden estimarse por técnicas estándard de mínimos cuadrados (las incógnitas son los coeficientes que acompañan a las variables explicativas observables que caracterizan la utilidad de la alternativa). Prof. Lídia Montero – Esteve Codina © Pàg. 5-36 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA 5-3.2 Teoría de la Utilidad Aleatoria La base teórica para la selección de alternativas procede de la teoría de la utilidad aleatoria que postula: 1. Los individuos pertenecen a una población homogénea, actúan racionalmente y poseen información perfecta, de manera que ante una selección de alternativas siempre eligen la que maximiza su utilidad personal sujeta a restricciones legales, sociales, físicas y presupuestarias. 2. El conjunto de alternativas disponibles es A=1, 2 , …, k (categorías) y un conjunto de variables explicativas (factores y/o covariables) definen los atributos de los individuos, las alternativas y/o la interacción de ambos, genéricamente agrupadas en la matriz de diseño X nxp. Un individuo i tiene como atributos la fila i -ésima de X, con un conjunto de alternativas disponibles A(i) (quizás todas) con variables explicativas vinculadas a cada una de ellas, más variables comunes a las alternativas pero específicas del individuo e interacciones entre ambas. Las alternativas tienen que cumplir: o Ser mutuamente excluyentes. o El choice set (conjunto de alternativas) tiene que ser exhaustivo (todas las posibilidades deben estar contempladas). o La cardinalidad del choice set debe ser finito. La última de las características es la más restrictiva y diferencia la teoría de elección discreta de la regresión múltiple. Prof. Lídia Montero – Esteve Codina © Pàg. 5-37 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA 3. Cada alternativa j tiene asociada una utilidad para cada individuo i : U ij . Sin embargo, al estudiar el proceso de selección no se dispone de información completa sobre el sistema, sobre los elementos que considera un individuo al efectuar su selección, de manera que la utilidad de cada alternativa está compuesta de: una componente sistemática componente aleatoria ε ij Vij que es función (lineal) de las variables explicativas (x , w ) y una j ij que refleja las particularidades de cada individuo y los errores de observación inherente al estudio empírico. Los modelos de elección discreta de alternativas se derivan de la hipótesis comportamental de maximización de de la utilidad aleatoria (son RUM, random utility models). Son modelos que pueden contemplarse como una simple relación entre las variables explicativas y el resultado de la elección, sin detallar en como se realiza exactamente el proceso de selección. La utilidad no es observable per se, sólamente los atributos que definen la utilidad sistemática. El término de error juega el rol de recoger el efecto de todos los factores que afectan a la selección de alternativas pero que no se incluyen en la utilidad sistemática, bien por simplificación o porqué no son directamente observables. U ij = Vij { sistemática Prof. Lídia Montero – Esteve Codina © + ε ij { aleatoria Pàg. 5-38 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA Dos individuos con los mismos atributos y disponibilidad de alternativas pueden no seleccionar la misma alternativa, debido a la componente aleatoria. Considérense por simplicidad los modelos condicionales, donde intervienen sólo variables explicativas ligadas a alternativas: los parámetros y alternativas β son comunes a los individuos T U = V + ε = β x j + ε ij . ij ij ij y no se considera constante específica de alternativa, 4. El individuo i selecciona la alternativa j si ésta tiene utilidad máxima: U ij = Vij + ε ij ≥ U il = Vil + ε il → Vij − Vil ≥ ε il − ε ij ∀ l ≠ j , y por tanto, la probabilidad de selección de j viene dada por [ ] Ρ ( ε i = ε il − ε ij ≤ (Vij − Vil ) ∀ l ≠ j ) = ∫ I (ε i ≤ Vij − Vil ∀ l ≠ j ) f (ε i )dε i ε , lo que requiere establecer alguna distribución de probabilidad para los errores. La distribución de ε i = ε il − ε ij representa entre toda la población con idéntica utilidad observada para todas las alternativas l, la distribución de la parte de utilidad no observada. Prof. Lídia Montero – Esteve Codina © Pàg. 5-39 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA Logit, GEV (General Extreme Value), probit y mixed logit son casos particulares que se derivan de la especificación de la distribución de probabilidad de los factores no observados de la utilidad, • Los modelos de selección discreta logit son los más simples y se derivan de la hipótesis que f (ε i ) . ε il son i.i.d. de valor extremo. Es decir, los errores son no correlacionados entre las alternativas y tienen idéntica varianza, lo cual resulta muy restrictivo ya que los factores no observados ligados a una alternativa pueden ser similares a aquellos vinculados con alguna otra de las alternativas. Además si se desea aplicar un modelo logit de elección discreta a datos procedentes de un panel (secuencia de elecciones a lo largo del tiempo efectuadas por el mismo individuo), la independencia entre periodos resulta poco creíble. La estimación no requiere de simulación. • Los modelos GEV permiten una correlación entre los factores no observados (errores aleatorios) de las alternativas y colapsa al modelo logit cuando son i.i.d. Hay múltiples formas en los modelos GEV, con una estructura de correlaciones más o menos complicada, la más popular responde al denominado logit jerárquico, donde se definen nidos o nodos de grupos de alternativas, con estructura arborescente, donde los factores no observados de la utilidad tienen la misma varianza dentro de un nido y las alternativas pertenecientes a nidos distintos no presentan correlación. La estimación no requiere de simulación. • Los modelos probit asumen que los factores no observados (errores) tienen conjuntamente una distribución normal multivariante. Permiten cualquier patrón de asociación entre alternativas y heterocedasticidad. Son flexibles pero la estimación requiere de simulación. • Los modelos logit mixtos presuponen que los factores no observados siguen una distribución cualquiera pero satisface que puede descomponerse en dos partes; una parte donde se incluye toda la componente de correlaciones y heterocedasticidad y otra parte i.i.d. de valor extremo. Es muy flexible y Train (2002) demuestra que puede aproximar cualquier modelo de elección discreta y es totalmente general. Prof. Lídia Montero – Esteve Codina © Pàg. 5-40 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA La identificación y especificación del modelo de elección discreta afecta a cualquier modelo y debe contemplar dos características comunes a todos los modelos basados en la maximización de la utilidad: 1. Sólamente son relevantes las diferencias en la utilidad entre alternativas. 2. La escala de la utilidad es arbitraria e irrelevante. El valor absoluto de la utilidad es irrelevante para el individuo que efectua la elección y tambien para el investigador. Si se añade una constante común a la utilidad de todas las alternativas, sus diferencias siguen siendo las mismas y la alternativa con màxima utilidad es la misma, [ [ ] [ ]) o ∀ l ≠ j ) f (ε )dε Ρ ( U ij − U il ≥ 0 ∀ l ≠ j ) = Ρ ( Vij − Vil ≥ 0 ∀ l ≠ j ] Ρ ( ε i = ε il − ε ij ≤ Vij − Vil ∀ l ≠ j ) = ∫ I (ε i ≤ Vij − Vil i i ε De hecho, sólo pueden identificarse en los modelos los parámetros que están relacionados con las diferencias en la utilidad entre alternativas, no aquellos ligados al valor absoluto de la utilidad de cada una de ellas. Habitualmente, la utilidad observada (sistemática) es una combinación lineal de los factores observados de manera que puede expresarse: Vij = β T x j + κ j , donde la constante específica κ j captura el efecto medio en la utilidad de todos los factores no observados (no incluídos en el modelo) de la alternativa j. Prof. Lídia Montero – Esteve Codina © Pàg. 5-41 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA Cuando se incluyen constante específicas en la utilidad entonces resulta equivalente a suponer que la esperanza de los errores es cero, ésto es, U ij = β T x j + ε ij* con [ ] Ε ε ij* = κ j → U ij = β T x j + κ j + ε ij [ ] Ε ε ij = 0 . Por tanto resulta razonable incluir una constante por alternativa, sin embargo, como sólo son relevantes las diferencias entre alternativas, únicamente van a ser relevantes las diferencias entre las constantes específicas y de hecho no son identificables todas ellas, las k constantes, solamente k-1, lo que requiere una normalización de una de las constantes a 0, la de la alternativa de referencia. Los factores relativos a las alternativas varían con las alternativas, pero los factores relacionados con el individuo permanecen constantes en las distintas alternativas (no su efecto en la utilidad). Conviene normalizar el efecto de las variables comunes a las alternativas para una alternativa de referencia, por ej. j=1, Vij = β T x j + γ Tj w i + κ j pero Vi1 = β T x i1 + 0 + 0 γ1 = 0 y por tanto γ jT se interpretan como los efectos diferenciales en la utilidad respecto al grupo de referencia para las variables comunes a todas las alternativas (dependientes generalmente de las características socioeconómicas de los individuos). Si hay interacciones entre individuo y alternativa no es necesaria la normalización: Vij = β T x j + γ Tj w ij + κ j . El número de términos de error estadísticamente independientes debe considerarse afectado por el hecho que hay k-1 diferencias de errores y por tanto, [ ] [ ] Ρ ( U ij ≥ U il ∀ l ≠ j ) = Ρ ( ε i = ε il − ε ij ≤ Vij − Vil ∀ l ≠ j ) = ∫ I (ε i ≤ Vij − Vil ∀ l ≠ j ) f (ε i )dε i ε Prof. Lídia Montero – Esteve Codina © Pàg. 5-42 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA f (ε i ) hace referencia a la distribución de las diferencias. • Si los errores son i.i.d. Gumbel entonces las diferencias son i.i.d. logísticas. • Si los errores son normales multivariantes entonces las diferencias afectarán al patrón de la matriz de varianzas-covarianzas entre las alternativas (no independientes) que pasará a ser de dimensión k-1 y la normalización relacionada con la escala, que se detalla a continuación, resulta más compleja de realizar. La escala de la utilidad resulta irrelevante ya que si se multiplica por una constante positiva común a la utilidad de todas las alternativas, sus diferencias son proporcionalmente las mismas y la alternativa con màxima utilidad es la misma, U ij = Vij + ε ij ([ ~ U y ij = λU ij = λVij + λε ij ]) λ>0 [ entonces, ] [ ~ ~ Ρ U ij ≥ U il ∀ l ≠ j = Ρ ( λU ij ≥ λU il ∀ l ≠ j ) = Ρ ( U ij ≥ U il ∀ l ≠ j ]) La escala de la utilidad afecta a las magnitudes de los parámetros de los factores observables (variables explicativas), por tanto se debe normalizar la escala de la utilidad. La escala de la utilidad está relacionada con la escala de la componente aleatoria (errores), [ ] [ ]y V λεij = λ 2V εij por tanto normalizar la escala del término de error equivale a normalizar la escala de la utilidad. El partworth de un atributo es el coeficiente del atributo en la función de utilidad, es por tanto el coeficiente en la utilidad y es un término empleado asiduamente en marketing. Prof. Lídia Montero – Esteve Codina © Pàg. 5-43 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA Si los errores son i.i.d. la normalización es trivial y habitualmente en el modelo logit se presupone que los errores [ ] tienen una distribución de valor extremo estándard (parámetro de escala 1) con varianza por tanto V εij = π Si se normaliza para obtener unos errores i.i.d. con varianza 1 , V 2 6. [ε ] = 1 , entonces si la utilidad original es ij ~ ~ U ij = Vij + ~ εij = β T x j + ~ εij con V [~εij ] = λ 2 , la utilidad normalizada es ~ U ij = U ij λ = β T λ x j + ~ εij λ = β T λ x j + εij . ( ) ( ) ( ) Los coeficientes de las variables explicativas aparecen divididos por la desviación tipo de la parte no observada de la utilidad, de hecho, no son identificables los parámetros y la escala de la utilidad simultaneamente y por tanto, la normalización es imperativa. Cuando se interpretan modelos i.i.d. logit y probit, debe tenerse en cuenta la normalización efectuada a la hora de interpretar los coeficientes de las variables explicativas. Habitualmente, en modelos probit [ ] [ ] V εij = 1 , y en logit V εij = π 2 6 (pero si se contemplan las diferencias V [εi ] = π 2 3 , distribución logística estándard). Cuando se interpretan modelos i.i.d. logit (o probit) idénticos estimados sobre conjuntos de datos distintos, los coeficientes representan un reescalado respecto la varianza de los errores, pero los errores son la parte de la utilidad no observada y por tanto, la varianza de la componente no observada de la utilidad puede ser distinta en cada conjunto de datos. Hay un ejemplo muy ilustrativo de Kenneth Train (pp. 29) relativo a un modelo de reparto modal binario logit aplicado a los datos de Chicago y de Boston. Prof. Lídia Montero – Esteve Codina © Pàg. 5-44 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA V j = k − 1.78 ⋅ Time − 0.55 ⋅ Cost V j = k '−2.69 ⋅ Time − 0.81 ⋅ Cost Chicago Boston El cociente entre los partworths (coeficientes en la utilidad) de coste y tiempo está alrededor de 0.3 para ambas ciudades. La magnitud de los coeficientes es un 50% mayor en Boston que en Chicago y ésto se puede interpretar: o La utilidad no observada tiene una varianza menor en Boston que en Chicago o bien, o factores que no son tiempo y coste tienen menor impacto en Boston que en Chicago o bien o que la importancia del coste y el tiempo en la utilidad son mayores en Boston que Chicago. Si los errores son independientes, pero con escala distinta (errores heterocedásticos) entonces es posible normalizar la escala de una alternativa y estimar el resto de escalas de manera relativa a la escala de la alternativa normalizada. Esto resulta muy útil cuando se usan datos de distintos ámbitos geográficos o cuando se desean combinar datos de preferencias declaradas y de preferencias reveladas. Si los errores no son independientes, la normalización no es trivial, ya que normalizar la escala de una alternativa no implica automáticamente normalizar las diferencias entre alternativas ya que intervienen términos de covarianzas entre las alternativas. La normalización debe especificarse adhoc dado el patrón o estructura de la matriz de varianzas-covarianzas entre las alternativas. Prof. Lídia Montero – Esteve Codina © Pàg. 5-45 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA Por ejemplo, en matrices completas de varianzas-covarianzas entre alternativas, la normalización de las diferencias implica habitualmente una drástica reducción del número de parámetros de la matriz de varianzascovarianzas, si K=4 entonces, la normalización de una de las diferencias lleva a una matriz reducida con K(K-1)/2-1 parámetros, es decir, 5 parámetros en lugar de los 10 originales (K(K+1)/2). Las interpretaciones deben referirse a la diferencia normalizada, lo que las hace resultar mucho más complejas. La normalización es automática en modelos logit y logit jerárquicos (caso particular de modelos GEV), pero en modelos probit y mixed logit no es automática y se deben explicitar concretamente las hipótesis (hay diversas posibilidades), ya que afectan tanto a la especificación del modelo, como a la interpretación de los parámetros. Prof. Lídia Montero – Esteve Codina © Pàg. 5-46 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA 5-3.3 Ejemplos • Si se asume que hay 2 alternativas (k=2), los errores son normales con media 0, varianzas respectivas σ 2j , σ l2 y covarianza σ jl , entonces ε il − ε ij ≈ N (0, σ 2 = σ l2 + σ 2j − 2σ jl ) y por tanto, la probabilidad de seleccionar la alternativa j, notado Pi(j), es V −V π ij = Ρi ( j ) = Ρ( ε il − ε ij ≤ Vij − Vil ) = Φ ij il  σ [ ]  β T (x j − x l )     = Φ   (Probit binario condicional). σ    Por conveniencia, la escala de la función de utilidad 1 σ se asume 1. • Si se asume que hay 2 alternativas (k=2), otra posibilidad consiste en suponer una distribución logística para la diferencia de utilidades ε i = ε il − ε ij . Si Y tiene distribución logística con parámetros de posición a y de escala b>0, entonce la media es a, la varianza es · π 2b 2 3 y la función de distribución de probabilidad es:   1 1  = FY (y ) = Ρ( [Y ≤ y ]) = 1 −   1 + exp(( y − a ) b )  1 + exp(− ( y − a ) b ) En R, plogis(q, location = a, scale = b). La inversa de la función de distribución es y = FY−1 (π ) = a + b log(1−ππ ) . En R, qlogis(p, location = a, scale = b) . Prof. Lídia Montero – Esteve Codina © Pàg. 5-47 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA La ley logística estandard tiene parámetro a=0 y b=1, siendo simétrica y con varianza ε =ε −ε il ij • Si i tiene distribución logística centrada en 0 (a=0), requiere que independientes y idénticamente distribuidos según una ley Gumbel. π 2 3. ε il , ε ij sean errores Si Y tiene distribución Gumbel con parámetros de posición a (la moda) y de escala b>0, entonces la media es a − b Γ' (1) = a + 0.57721b , la varianza es π 2b 2 · 6 y la función de distribución de probabilidad es: FY (y ) = Ρ( [Y ≤ y ]) = exp(− exp(− ( y − a ) b )) La inversa de la función de distribución es y = FY−1 (π ) = a − b log(log(π1 )) . • En general, la diferencia de 2 v.a. Gumbel i.i.d con escala b>0 es una ley logística con parámetro a=0 y b>0 (el parámetro de escala de las gumbel), siendo simétrica alrededor del 0 y con varianza π 2b 2 3 . Si se asume que hay 2 alternativas (k=2), otra posibilidad consiste en suponer una distribución logística para la diferencia de utilidades ε i = ε il − ε ij , entonces la probabilidad de seleccionar la alternativa j, notado Pi(j), es π ij = Ρi ( j ) = Ρ( [ε i = ε il − ε ij ≤ Vij − Vil ]) = Prof. Lídia Montero – Esteve Codina © exp(Vij b ) 1 = 1 + exp(− (Vij − Vil ) b ) exp(Vij b ) + exp(Vil b ) Pàg. 5-48 (Logit binario). Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA 1. Si b → ∞ entonces la selección de alternativas es equiprobable y si b → 0 la varianza de la diferencia es 0 y por tanto la selección de las alternativas es determinista y depende exclusivamente de la diferencia entre utilidades sistemáticas (la alternativa con mayor utilidad observada se lleva el 100% de los viajes). 2. Por comodidad se puede considerar π2 6 b = 1 entonces las leyes Gumbel han de tener una moda 0 y varianza y la ley logística diferencia entre ambas tiene media 0 y varianza π 2 3. 3. Una propiedad de las leyes Gumbel es que el máximo de k variables Gumbel independientes de idéntica escala b y parámetros de posición ( a1 K ak sigue ) a = b log ∑ j =1Kk exp(a j b ) . también una ley Gumbel con parámetro de escala b y posición 4. Otra propiedad es que si Y es de ley Gumbel(a,b) y c, d son constantes reales, entonces dY+c sigue una ley Gumbel( da+c, db ). Prof. Lídia Montero – Esteve Codina © Pàg. 5-49 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA • Si se asume que hay k alternativas y los errores son independientes y idénticamente distribuidos según una ley Gumbel con moda 0 y b>0, entonces la probabilidad de seleccionar la alternativa j, notado Pi(j), es π ij = Ρi ( j ) = Ρ( [max l ≠ j {Vil + ε il } ≤ Vij + ε ij ]) = ∑ exp(Vij b ) 1≤ l ≤ k exp(Vil b ) (Logit Multinomial) Si b → 0 , la selección de alternativas es determinista (depende únicamente de la componente sistemática) y si b→∞ la selección es equiprobable. El modelo logit multinomial es el más simple de los modelos de selección discreta. Se debe a Domenich y McFadden (1975) y presupone que los errores aleatorios de la utilidad son IID Gumbel. La ley Gumbel es una ley de distribución de valores extremos, concretamente es el máximo de muchos valores aleatorios y capturan atributos no observables, medidas y errores de especificación. El aspecto clave reside en la independencia de las errores. Prof. Lídia Montero – Esteve Codina © Pàg. 5-50 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA 5-3.4 Deducción del modelo logit multinomial El individuo i selecciona la alternativa j si ésta tiene utilidad máxima: U ij = Vij + ε ij ≥ U il = Vil + ε il ∀ l ≠ j → Vij − Vil ≥ ε il − ε ij ∀ l ≠ j U ij ≥ maxl ≠ j U il o bien Vij + ε ij ≥ maxl ≠ j {Vil + ε il } y por tanto, la probabilidad de selección de j viene dada por Sean los errores Se define ε il [ ]. Ρ ( Vij + ε ij ≥ max l ≠ j {Vil + ε il } ) i.i.d con distribución de probabilidad Gumbel(a=0,b) y Vil + ε il también es Gumbel(a= Vil ,b) U i* ≥ max l ≠ j U il = max l ≠ j {Vil + ε il } puede reescribir como U i = Vi + ε i y * * ([ * ]) exp(Vij b ) ( ( ( ( ) , b) y ahora si, exp(Vij b ) 1 = = * * 1 + exp − Vij − Vi b exp(Vij b ) + exp Vi b ( ( ) ) exp(Vij b ) + exp b log ∑l ≠ j exp(Vil b ) b Prof. Lídia Montero – Esteve Codina © y Vi * ≡ Gumbel b log ∑l ≠ j exp(Vil b ) ε i* ≡ Gumbel (0 , b ) Ρi ( j ) = Ρ Vij + ε ij ≥ Vi * + ε i* = = , que es equivalente a = ) ) ( exp(Vij b ) exp(Vij b ) + Pàg. 5-51 (∑ l≠ j ) exp(Vil b ) = ) exp(Vij b ) ∑ exp(V b ) l il Curs 2.006-2.007 , pero se Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA El paradigma teórico de la maximización de utilidad permite modelizar las aparentes irracionalidades: U auto = Vauto + ε auto { { sistemática aleatoria 1. Dos individuos con los mismos atributos observados y el mismo conjunto de alternativas pueden seleccionar opciones distintas. 2. No siempre los individuos seleccionan la alternativa con la utilidad sistemática (observada) máxima, ya que la componente aleatoria interviene en la selección. 3. Se requiere para que sea correcta la descomposición de la utilidad que los individuos sean homogeneos en el sentido que compartan el mismo conjunto de alternativas y sufran las mismas restricciones; éso se consigue segmentando la población. Prof. Lídia Montero – Esteve Codina © Pàg. 5-52 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL π ij = Ρi ( j ) = Ρ( [max l ≠ j {Vil + ε il } ≤ Vij + ε ij ]) = ∑ exp(Vij b ) 1≤ l ≤ k U ij = Vij + ε ij = α j + β T x j + γ Tj w ij + ε ij exp(Vil b ) (MNL) con errores iid Gumbel(0,1) La determinación de las variables que van a ser incluídas en el modelos recae en estrategias de construcción de modelos estadísticos de regresión generalizada. Se pueden emplear procedimientos step(.) (stepwise existentes en los paquetes estadísticos) y comparar modelos mediante inferencia por diferencias de devianzas (si son encajados) o bien por AIC (Akaike Information Criteria) si no lo son. La explicabilidad del modelo final se puede cuantificar en base al coeficiente de determinación generalizado (R2 de Naglekerke). Se puede medir la capacidad predictiva mediante el estadístico c (área bajo la curva ROC). En cualquier caso, la selección del mejor modelo dada una colección de variables explicativas, recae en técnicas estandard de carácter estadístico. Los modelos estadísticos de respuesta politómica toman una de las alternativas como de referencia y se estiman el resto de parámetros en términos relativos a la referencia. Cada alternativa tiene un término constante en la especificación de la utilidad sistemática, salvo la de referencia (se supone 0) y el resto de variables explicativas pueden ser: • Genéricas, ya que aparecen en la utilidad de todas las alternativas, con coeficientes idénticos • Específicas, sólo son aplicables a la utilidad de alguna de las alternativas. Prof. Lídia Montero – Esteve Codina © Pàg. 5-53 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL Los modelos estadísticos que suelen resultar más interpretables son los que adoptan la convención ηik (x k , w ik ) = 0 (utilidad igual a valor del predictor lineal) en la reparametrización base-line con categoría base k, el término independiente se considera específico de alternativa con α k = 0 y los modelos se expresan en base a los log-odds respecto la categoría base k (la última) quedan: Modelo logit Multinomial (estimación por método vglm(.) en VGAM con variable auxiliar o multinom(.) en nnet): π ij (x j , w ij ) Vij = ηij (x j , w ij ) = log = α j + γ Tj w ij π ik (xk , w ik ) j = 1, K , k − 1 i = 1, K , n Modelo logit Condicional (estimación por método vglm(.) en VGAM con constraints=list(.)): π ij (x j , w ij ) Vij = ηij (x j , w ij ) = log = α j + βTx j π ik (xk , w ik ) j = 1, K , k − 1 i = 1, K , n Modelos logit combinado Multinomial-Condicional (estimación por método vglm(.) en VGAM con constraints=list(.), más variable auxiliar): Vij = η ij (x j , w ij ) = log Prof. Lídia Montero – Esteve Codina © π ij (x j , w ij ) = α j + β T x j + γ Tj w ij π ik (x k , w ik ) Pàg. 5-54 j = 1,K , k − 1 i = 1,K , n Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL Los modelos multinomiales habituales (estimables mediante nnet(.) en R) son estructuralmente distintos: π ij (x j , w ij ) π ij (w i ) = = exp{α j + γ Tj w i } → π ij (w i ) = π ik (w i ) exp{α j + γ Tj w i } = π ik (w i ) exp{Vij } π ik (x k , w ik ) π ik (w i ) El odds de la categoría j-ésima sobre la categoría l-ésima tiene por expresión, j ≠ k, l ≠ k , π ij (w i ) π ij (w i ) π ik (w i ) T = = exp (α j − αl ) + (β j − βl ) w i π il (w i ) π il (w i ) π ik (w i ) { Dado el tipo de reparametrización, j = 1, K , k − 1 i = 1, K , n se cumple π ij (w i ) = } exp (ηij (w i )) = exp (Vij ) ∑ exp (η (w )) ∑ exp (V ) r ir i r y 1 1 1 π ik (w i ) = = = 1 + ∑ r ≠ k exp (ηir (w i )) 1 + ∑ r ≠ k exp (Vir ) 1 + ∑ r ≠ k π ij (w i ) π ik (w i ) Prof. Lídia Montero – Esteve Codina © Pàg. 5-55 Curs 2.006-2.007 ir Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL Los modelos logit condicionales puros (estimables mediante vglm(.) de VGAM en R) son: π ij (x j , w ij ) π ij (x j ) = = exp{α j + β T x j } → π ij (x j ) = π ik (x k ) exp{α j + β T x j } = π ik (x k ) exp{Vij } π ik (x k , w ik ) π ik (x k ) El odds de la categoría j-ésima sobre la categoría l-ésima tiene por expresión, j ≠ k, l ≠ k , π ij (x j ) π ij (x j ) π ik (xk ) = = exp{(α j − αl ) + βT (x j − xl )} π il (xl ) π il (xl ) π ik (xk ) Dado el tipo de reparametrización, j = 1, K , k − 1 i = 1, K , n se cumple π ij (x j ) = exp (ηij (x j )) = exp (Vij ) ∑ exp (η (x )) ∑ exp (V ) r ir r r y π ik (xk ) = 1 1 1 = = 1 + ∑ r ≠ k exp (ηir (w i )) 1 + ∑ r ≠ k exp (Vir ) 1 + ∑ r ≠ k π ij (x j ) π ik (xk ) Prof. Lídia Montero – Esteve Codina © Pàg. 5-56 Curs 2.006-2.007 ir Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL 5-4.1 Propiedades del modelo MNL El modelo logit es aplicable como modelo de selección de alternativas (discretas) si: 1. Las variaciones individuales en los gustos están representadas en la componente sistemática (observable) de la utilidad. Si las variaciones del gustos son aleatorias (forman parte de la utilidad no observable) entonces no pueden tratarse mediante modelos logit. 2. El patrón de sustitución (efecto del cambio en alguna de las componentes observables de una alternativa) es proporcional entre las alternativas. 3. Si los factores no observables son independientes del tiempo en situaciones de selección repetida de alternativas. Si los factores no observables están correlacionadas en el tiempo no pueden capturarse mediante un modelo logit. 5-4.1.1 Variaciones individuales en los gustos El valor o importancia de los factores que caracterizan las alternativas pueden variar según los individuos (enfrentados al proceso de selección). El precio de una tarifa de parking es más importante para los individuos con bajos ingresos que para los más ricos y ésta es una característica del individuo. Dos individuos con igual nivel socioeconómico pueden efectuar una elección distinta de tipo de vehículo, ya que depende de sus gustos individuales. Prof. Lídia Montero – Esteve Codina © Pàg. 5-57 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL Por ejemplo, U ij = Vij + ε ij = β x j + ε ij x ≡ Tarifa (€ / h) , pero si se relaciona la tarifa con el salario medio por hora del individuo, entonces el efecto individual de la tarifa quedará absorbido en la componente observable y por tanto, no invalidará un modelo de selección logit donde se presenta una interacción de individuo-alternativa: ( ) U ij = Vij + ε ij = θ x j I i + ε ij x ≡ Tarifa (€ / h ) I i ≡ Salario(€ / h ) La limitación del modelo logit se da cuando se desea modelizar cambios en atributos no observables, es decir vinculados a la componente aleatoria de la utilidad. Por ejemplo, si se supone que la importancia de la tarifa tiene que ver con factores observables (salario) y no observables, de manera que β i = (θ I i ) + bi , donde observable; de ahí, ( ) ( ) U ij = Vij + ε ij = θ x j I i + bi x j + ε ij = θ x j I i + ε~ij x ≡ Tarifa (€ / h ) Pero los errores ahora pueden ser correlacionados entre alternativas: [ ] [ [ ] [ bi no es I i ≡ Salario(€ / h ) ] COV ε~ij , ε~ik = COV bi x j + ε ij , bi xk + ε ik = x jV [bi ]xk ≠ 0 y ] [ ] V ε~ij = V bi x j + ε ij = x 2jV [bi ] + V ε ij ≠ cnt , la varianza no es constante en las distintas alternativas. Cuando hay variaciones aleatorias de los gustos entonces los modelos logit facilitan una aproximación al gusto medio, pero para incorporarlas plenamente se necesita una modelización más compleja mediante modelos probit o logit mixtos. Prof. Lídia Montero – Esteve Codina © Pàg. 5-58 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL 5-4.1.2 Patrones de sustitución Los patrones de sustitución son los cambios en la demanda (cuota de mercado de las alternativas) cuando los atributos observables cambian. Los modelos logit presentan un patrón de sustitución proporcional entre las alternativas y ésto puede verse como una restricción en el cociente de las cuotas de mercado (odds relativos) o bien en las elasticidades cruzadas de las probabilidades. El modelo satisface la independencia entre alternativas irrelevantes (IIA, Independence from Irrelevant Alternatives ) que puede formularse como: Donde haya dos alternativas con probabilidad no nula de ser elegidas, el cociente de una sobre la otra (odds) no se ve afectado por la presencia o ausencia de ninguna alternativa entre todas las posibles. π ij (x j , w i ) exp{Vij } ∑l exp{Vil } exp{Vij } T = = = exp (α j − α r ) + β T (x j − x r ) + (γ j − γ r ) w i π ir (x r , w i ) exp{Vir } ∑l exp{Vil } exp{Vir } { } k referencia 1. Observar que no depende de la utilidad de ninguna otra alternativa. 2. Si hubiera muchas alternativas, entonces McFadden demostró que se pueden obtener estimadores no sesgados de los parámetros si el modelo se estima a partir de una muestra aleatoria del conjunto de alternativas disponibles para cada individuo. Esta propiedad se consideró beneficiosa porque permitía tratar el problema de la introducción de nuevas alternativas (no presentes en la etapa de calibración). Sin embargo, convierte el modelo en inválido en presencia de alternativas correlacionadas: paradoja del autobús rojo-azul. Prof. Lídia Montero – Esteve Codina © Pàg. 5-59 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL 5-4.1.2.1 Paradoja del autobús rojo-azul Supóngase los habitantes de una ciudad pequeña que dispone de una única línea de autobús, no existen otros modos de transporte colectivo, y la única alternativa de transporte mecanizado disponible es el transporte privado (en alguna de sus modalidades que se consideran agrupadamente). Un estudio determina que la probabilidad de seleccionar un modo privado o el autobús para ir al centro de compras son equiprobables: P(privado)=0.5 y P(bus)=0.5 (odds de privado vs bus = 1). Supóngase que se llega a pintar la mitad de la flota de rojo, y la otra mitad de azul, el nivel de servicio de la línea se mantiene igual. La selección modal por sentido común tendría que ser: P(privado)=0.5 , P(bus rojo)=0.25 y P(bus azul)=0.25. Selección Modal al Centro Selección Modal al Centro ↓ ↓ Privado Bus Rojo Bus Azul Privado 0.5 0.25 0.25 Sentido Común 0.33 0.33 0.33 MNL Bus 0.5 ↓ Rojo Azul 0.5 0.5 El índice i indica individuo y j el modo, con valores arbitrarios j=1 privado, j=2 bus rojo y j=3 bus azul. Prof. Lídia Montero – Esteve Codina © Pàg. 5-60 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL Si la utilidad percibida de cada modo viene reflejada en el valor del predictor lineal y ésta es constante, es decir ηij (x i ) = cnt per j = 1, K, 3 i = 1, K , n , entonces el modelo de respuesta multinomial (MNL) daría como probabilidades de selección modal equiprobables, π ij (x i ) = exp (η ij (x i )) ∑ exp (η (x )) r ir i = 1 3 ηij (x i ) = cnt per j = 1, K , 3 i = 1, K , n lo que va contra el sentido común. El problema es que el modelo de respuesta multinomial, no jerárquico no es adecuado, ya que los odds entre 2 categorías (modos) únicamente dependen de las diferencias entre los predictores lineales (utilidades) de las 2 categorías, no se ve afectado por la utilidad de ninguna otra categoría, pero esto es un problema si existen alternativas correlacionadas como es el caso de bus rojo y bus azul. En efecto, los odds entre categorías se mantienen constantes, tal como eran antes de la brillante idea de pintar de 2 colores la flota, (odds de privado vs bus rojo = 1, privado vs bus azul = 1 y bus rojo vs bus azul = 1). Un modelo jerárquico mantendría el sentido común: odds de privado vs bus = 1 y en el segundo nivel, odds de bus rojo vs bus azul = 1. Prof. Lídia Montero – Esteve Codina © Pàg. 5-61 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL 5-4.1.2.2 Elasticidad directa y cruzada Si el cociente de probabilidades de dos alternativas cambia con la introducción de una nueva alternativa o bien por el cambio en la utilidad de una tercera, entonces no se cumple la independencia entre alternativas irrelevantes, que puede expresarse también en términos de elasticidades cruzadas de las probabilidades logit. La elasticidad directa de la alternativa j a un atributo es el porcentaje de cambio en la probabilidad de usar la alternativa con respecto al cambio marginal de un atributo que forma parte de la utilidad (l-ésimo) y tiene por expresión: ∂π ij ∂xijl ( ) = π ij 1 − π ij β l → ∂π ij xijl ∂xijl π ij ( ) = (1 − π )x = ∂ log(x ) ∂ log π ij ij ijl βl ijl La elasticidad cruzada directa es el porcentaje de cambio en la probabilidad de usar una alternativa con respecto al cambio marginal de un atributo de otra alternativa (fijemos el l-ésimo). ∂π ij ∂xikl ( ) ∂π ij xikl ∂ log π ij = −π ik ⋅ π ij ⋅ β l → = = −π ik ⋅ xikl ⋅ β l ∂xikl π ij ∂ log( xikl ) Como consecuencia de la propiedad de independencia de alternativas irrelevantes, la elasticidad cruzada tiene un efecto idéntico en todas las alternativas (MNL es uniforme): una mejora en un atributo de una alternativa reduce la probabilidad del resto de alternativas en el mismo porcentaje. Este es un patrón de sustitución de decalaje proporcional. Patrones más complejos deben modelarse con modelos logit anidados, probit o logit mixto. Prof. Lídia Montero – Esteve Codina © Pàg. 5-62 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL Por ejemplo, supóngase un reparto modal de auto, bus y metro de 0.4, 0.3 y 0.3. Si se mejora la calidad de la red de autobus sin ampliar su red y se consigue un incremento de la cuota de mercado del autobús del 0.3 al 0.37, entonces bajo un patrón de sustitución proporcional, implicaría que el decremento del auto y del metro sería proporcionalmente el mismo, es decir 0.36 y 0.27 para el auto y el metro. Este patrón no tiene porqué ser realista ya que es mucho más probable en un entorno urbano que el impacto se note más en el otro transporte público (el metro) que en el modo auto. 5-4.1.3 Beneficio al consumidor (consumer surplus) El anàlisis de la políticas de gestión del tráfico suelen evaluar el cambio percibido por el consumidor (utilidad). Por ejemplo, si se desea evaluar el impacto de la inclusión de un metro ligero, habrá que comparar costes de implantación con beneficios para los usuarios. Bajo la hipótesis logit, el beneficio para el consumidor toma una expresión cerrada y sencilla. Los ciudadanos seleccionan la alternativa modal que maximiza su utilidad y el ( ) beneficio para el usuario es CSi = 1 β i maxl {U il } donde dividir por β i (valor absoluto del coeficiente de precio o de coste en la utilidad, muy crítica su precisión en la aplicación presentada) la utilidad marginal del ingreso es dU i dX = β i X : Ingresos (derivada de la utilidad respecto los ingresos del individuo i, no depende de los ingresos es una constante), traslada la utilidad a unidades monetarias. De ahí se puede demostrar que el beneficio esperado (€), es un término de log sum’s más una constante que se normaliza a 0: ( ) ( ) ( ) ( ) Ε[CSi ] = 1 β i Ε[max l {U il }] = 1 β i Ε[max l {Vil + ε il }] = 1 β i log ∑l exp{Vil } + cnt Prof. Lídia Montero – Esteve Codina © Pàg. 5-63 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MÁS PROPIEDADES MNL 5-4.1.4 Rol del término independiente y choice-based samples El término independiente de la utilidad juega un rol de promedio de la parte de la utilidad no observada y todos los modelos con término independiente en la utilidad (salvo en la alternativa de referencia) cumplen el satisfacer las probabilidades marginales muestrales de las alternativas: π ij (x j , w i ) exp{Vij } T T = = exp{Vij − Vik } = exp α + β x + γ { j j j wi π ik (x r , w k ) exp{Vik } V =0 { } k referencia ik Si los individuos proceden de un m.a.s. entonces el promedio de las probabilidades predecidas por el modelo con constantes específicas, πˆ ij , coincide con las probabilidades muestrales de las alternativas. Si se intenta usar un modelo de elección discreta estimado en un estudio anterior para la predicción de las probabilidades individuales de elección de alternativa en la actualidad, entonces puede aparecer un ligero desajuste ya que las probabilidades marginales predecidas por el modelo pueden no ajustarse al reparto actual (cuota de mercado actual que puede conocerse a nivel agregado). La solución reside en actualizar convenientemente y en proceso iterativo las constantes específicas de alternativa en el modelo de elección discreta hasta que las probabilidades marginales predecidas coincidan con las probabilidades marginales de la realidad actual : los coeficientes de las variables explicativas son consistentes y deben mantenerse. Prof. Lídia Montero – Esteve Codina © Pàg. 5-64 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MÁS PROPIEDADES MNL El rol de las constantes en la utilidad va más allá. A menudo si hay alternativas con poca cuota de mercado es habitual seleccionar para la estimación de los modelos discretos de elección muestras que no son m.a.s, es decir se seleccionan muestras donde se favorece la observación de elecciones con baja cuota de mercado; así se disponen de observaciones de las alternativas ‘raras’ sin necesidad de tener que aumentar demasiado la muestra (y por tanto el presupuesto destinado a la recogida de datos). Si los planes de muestreo son complejos, la estimación de los parámetros de la utilidad pueden ser altamente complejos y requerir de software específico. Manski y Lerman (1977) demostraron un resultado muy útil que permite adaptar los modelos logit de selección discreta estimados bajo una muestra no aleatoria simple con los procedimientos habituales de la inferencia estadística. Si la utilidad contiene los términos independientes específicos de las alternativas y se estiman los modelos con la muestra choice-based y los procedimientos estadísticos habituales, entonces los estimadores de los coeficientes de las variables explicativas son consistentes con los que se obtendrían con una muestra aleatoria. Las constantes específicas de la utilidad en cada alternativa son sesgadas y deben reajustarse : α j ← α j + log donde MAS j MAS j CBS j es la cuota de mercado de la alternativa j en la población y CBS j es la cuota de mercado en la muestra choice-based (no aleatoria). Sólo es necesario disponer de las cuotas de mercado poblacionales a nivel agregado ! Prof. Lídia Montero – Esteve Codina © Pàg. 5-65 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: HL (LOGIT JERARQUICO) 5-5.1 Formulación del modelo logit jerárquico Considérese la estructura de vector aleatorio para todas las posibles alternativas seleccionables por el individuo n-ésimo. Si entonces aparece el modelo probit multinomial, para el que no hay una expresión cerrada para las probabilidades de las alternativas y se debe recurrir a integración numérica. En el caso MNL, ε n ≈ Gumbel (0, Σ ) 2 con Σ = σ I J y Σ es la matriz de varianzas-covarianzas del vector aleatorio de errores de las utilidades de las alternativas. • El MNL es extremadamente simple y puede no ajustarse a la realidad de la selección de alternativas cuando éstas no son independientes (es decir, hay grupos de alternativas más similares que otras, como los distintos modos de transporte público versus el auto privado). • Tampoco resulta posible modelar las variaciones aleatorias en los gustos según los usuarios (es decir, la percepción de la tarifa varía con la renta, pero la variable percepción de la tarifa no es medible), en cuyo caso hay que trabajar con modelos de efectos aleatorios, en lugar de efectos fijos. • Los modelos probit multinomiales permiten más capacidad modelística, pero no son tratables en general. Otra extensión posible de los MNL son los modelos generalizados de valor extremo (GEV models), que se expondrán en el próximo apartado. Prof. Lídia Montero – Esteve Codina © Pàg. 5-66 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO Una situación en que la estructura del proceso de selección alternativas se puede jerarquizar parece adecuado para los procesos combinados de selección de destino y modo de transporte. Primer nivel con la selección del destino y segundo nivel de la jerarquía de selección del modo de transporte. La función de utilidad se puede proponer con: U(d, m) = U(d) + U(m | d )= V(d) + V(m | d )+ ε(d) + ε(m | d ) U(d) es la parte de la utilidad asociada al destino d y U(m | d ) es la parte de utilidad vinculada al coste de viaje con el modo m, dado que se ha elegido el destino d. Se puede demostrar que si las componentes aleatorias ε son i.i.d Gumbel por niveles, entonces bajo ciertas condiciones ( b1 ≤ b2 ) aparece el modelo logit jerárquico o logit anidado (nested logit, Williams 1977), con una ecuación para la probabilidad conjunta: (( ) ) (( ) ) Vid* (xi ) = b1 log(∑s exp (Vids (xi ) b1 )) exp Vid (x i ) + Vid* (x i ) b2 exp (Vidm (x i ) b1 ) π idm (x i ) * ( ) exp V x + V ∑r ir i ir (x i ) b2 ∑ s exp (Vids (x i ) b1 ) con Las alternativas se agrupan en bloques de alternativas correlacionadas, no pueden haber alternativas de un grupo correlacionadas con alternativas de otro grupo. Prof. Lídia Montero – Esteve Codina © Pàg. 5-67 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO Se puede ver, que para un mismo destino, la estructura jeràrquica refleja una correlación ligada al término ε(d), U(d, m) = U(d) + U(m | d )= V(d) + V(m | d )+ ε(d) + ε(m | d ) U(d, m’) = U(d) + U(m’ | d)= V(d) + V(m’ | d )+ ε(d) + ε(m’ | d ) Si los ε(d)’s tienen covarianzas 0 entonces el HL se convierte en MNL. Por cuestiones de identificabilidad, se suele suponer que b1 = b2 = 1 . La utilidad esperada compuesta de un nodo no terminal tiene dos elementos la parte EMU (Expected Maximum Utility) más la parte de variables comunes de todas las alternativas del nodo. EMU: ( = ) ViT* (wi ) = log ∑ s = B , M exp (ViTs (wi )) T-transit ViT (wi , zi ) = φ EMU + β T zi w x =   Donde  z  , con z variables con valores comunes T al nodo T y w las variables específicas de alternativa dentro del nodo T. φ , β son parámetros a estimar. A-Auto I- Prof. Lídia Montero – Esteve Codina © B-Bus M-Metro Pàg. 5-68 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO 5-5.2 Modelos de valor extremo generalizado (GEV) Estos modelos constituyen una generalización de la propuesta logit que permite patrones de sustitución más complejos que el decalaje proporcional. Son modelos en que la parte no observable de la utilidad en las distintas alternativas muestra una distribución conjunta de Valor Extremo Generalizado. Esta distribución permite correlaciones entre las componentes aleatorias de la utilidad, pero si las correlaciones son cero entonces a un modelo logit (MNL) :la distribución conjunta es producto de distribuciones Gumbel. Los modelos logit jerárquicos son los representantes más conocidos de la familia de modelos GEV. 5-5.3 Propiedades del modelo logit jerárquico (nested logit) Son modelos apropiados cuando el conjunto de alternativas puede descomponerse en subconjuntos jerárquicos denominados nidos o nodos (nests ). La estructura logit jerárquica se puede representar de manera arborescente, con árboles n-arios y de profundidad variable según las ramas. Se deben cumplir las siguientes propiedades: • Si dos alternativas estan en el mismo nodo, entonces el cociente de probabilidades es independiente de los atributos o de la existencia de todas las otras alternativas. IIA se cumple dentro del nodo. • Si dos alternativas están en nodos distintos, entonces su cociente de probabilidades puede depender de los atributos de otras alternativas de los dos nodos, pero no de alternativas de otros nodos. Prof. Lídia Montero – Esteve Codina © Pàg. 5-69 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO McFadden y Williams demostraron por vías distintas e independientes que los modelos logit jerárquicos son consistentes con la teoría de la maximización de la utilidad. Sean las K alternativas particionadas en J subconjuntos disjuntos, denominados B1 K BJ . La utilidad percibida por el individuo i-ésimo responde a una componente sistemática más una aleatoria, U ij = Vij + ε ij = α j + β T x j + γ j w i + ε ij con errores de distribución de valor extremo generalizada con una T  J  función de distribución exp − ∑  j =1 donde ) (∑   { } − exp ε λ il j  l∈B j  λ j mide el grado de dependencia en la parte no observable de la utilidad entre las alternativas del nodo j. • Si λ j → 1 entonces independencia intra nodo. • Si λ j → 0 entonces máxima dependencia intra nodo. • Las ε il ’s están correlacionadas dentro del mismo nodo, pero no lo están si pertenecen a nodos distintos. • Si todas las λ j son 1, entonces el logit jerárquico colapsa a logit MNL. La probabilidad para la alternativa m del nodo j es, ( ) π im = exp(Vim λ j ) ∑l∈B exp{Vil λ j } Prof. Lídia Montero – Esteve Codina © j λ j −1 Pàg. 5-70 ∑ (∑ J j =1 l∈B j ) exp{Vil λ j } λj Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO Los odds para las alternativas m y m’ pertenecientes a nodos distintos y notados j y j’ son: ( ( ) ) exp(Vim λ j ) ∑l∈B exp{Vil λ j } π im = π im' exp(Vim' λ j ' ) ∑l∈B exp{Vil λ j ' } λ λ j −1 j j' j ' −1 independencia entre alternativas de nodos irrelevantes (IIN) π im exp(Vim λ j ) Los odds para las alternativas m y m’ pertenecientes al mismo nodo j: π = exp(V λ ) . im ' im ' j 5-5.4 MNL Logit Heterocedástico Una de las múltiples posibilidades de los modelos GEV consiste en mantener la independencia entre alternativas pero incorporar una variación en la escala de la utilidad vinculada a cada nodo. Sea j el índice de las alternativas. U ij = Vij + ε ij = α j + β T x j + γ j w i + ε ij → cov(ε ij , ε ij ' ) = 0 T j ≠ j' [ ] pero V ε ij = (θ j π ) 6 2 Las probabilidades de las distintas alternativas no responden a una fórmula cerrada, pero pueden aproximarse por simulación y resulta de gran utilidad modelística: Si ω = ε ij   → π ij = ∫ ∏ exp(− exp(− (Vij − Vil + θ j ω) θ j ))exp(− exp(− ω))exp(− ω)dω 1444424444 3 θj  j ≠l  densidad valor extremo Prof. Lídia Montero – Esteve Codina © Pàg. 5-71 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO 5-5.5 Caso particular: árbol de dos niveles La utilidad observada se descompone en dos partes: una parte constante para las alternativas de un nodo concreto (W, variable entre nodos) y una parte que varía según las alternativas del nodo (Y, variable intranodo), de manera que la utilidad se puede reescribir para el modo m dentro del nodo j y el individuo i, como: U im = Vim + ε im = Wij + Yim + ε im Ahora se puede reescribir la probabilidad conjunta logit jerárquica como producto de los probabilidades logit, una marginal por una condicional, es decir la probabilidad de elegir la alternativa m dentro del nodo j, es la probabilidad marginal de elegir el nodo j por la probabilidad condicional de elegir el modo m dado que se ha elegido el nodo j, ambas probabilidades toman la forma funcional de las probabilidades logit en el caso jerárquico de 2 niveles: π iB j π im = π iB j π im|B j Expected Maximum Utiliy ( EMU = I ij λ j ) → π im|B j I ij = exp(Wij + I ij λ j ) = = ∑ exp(W + I λ ) exp(Y λ ) ∑ exp(Y λ ) log ∑ exp(Y λ ) il il l Bl im j k∈B j ik k∈B j ik Hay que notar que los coeficientes del modelo de nivel inferior están divididos por j j λ j que afecta a su vez en la definición de la utilidad esperada por nodo, de otro modo se pierde la consistencia con el paradigma de maximización de utilidad. Prof. Lídia Montero – Esteve Codina © Pàg. 5-72 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO • λj es un parámetro a estimar y refleja el grado de independencia entre la parte no observada de la utilidad en el nodo j. • I ij se denomina utilidad inclusiva del nodo j. • λ j I ij es la utilidad esperada por seleccionar una alternativa del nodo j. La utilidad esperada es la misma que para un modelo logit simple, ya que condicionado al nodo, la selección de alternativas es IIA. (ε im , ε im' ) = 0 si las alternativas m y Corr(ε im , ε im' ) ≈ 1 − λ j . • 1- λ j refleja la correlación entre las alternativas del nodo j ( COV m’ pertenecen a nodos distintos, pero si pertenecen al mismo nodo j • No hay que confundir utilidad marginal con utilidad condicional: COV (ε im| j , ε im'| j ) = 0 si las alternativas m y m’ pertenecen al mismo nodo j y de ahí que la propiedad IIA se cumpla en el interior del nodo. Rango λj Interpretación λj Equivalencia RUM 0 < λj <1 Patrón de sustitución mayor dentro del propio nodo que entre nodos Si λj =1 Patrón de sustitución proporcional: colapsa a MNLogit Si λj >1 Patrón de sustitución mayor entre otros nodos que dentro del propio nodo λj < 0 No tiene Prof. Lídia Montero – Esteve Codina © Pàg. 5-73 No siempre No Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO 5-5.6 Ejemplos Ejemplo 1: En el presente ejemplo se pretende ilustrar la práctica de la formulación y estimación de un modelo jerárquico donde cada etapa contiene un modelo logit multinomial, en un supuesto de selección de modo de transporte entre auto privado (C) , autobús (B) y metro (M), donde las 2 categorías de transporte colectivo se suponen correlacionadas. Modelo MNL no jerárquico ↓ Auto Bus Metro (No válido para alternativas correlacionadas) 1. Sean las utilidades de las alternativas: U iC Modelo Jerárquico ↓ Transporte Colectivo ↓ Bus Metro Auto auto privado (C) , 2. Sean las utilidades sistemáticas de las alternativas: ViC U iB autobús (B) y auto privado (C) , ViB U iM metro (M). autobús (B) y ViM metro (M). 3. Las utilidades sistemáticas de los modos de transporte colectivo (TC) se dividen en componentes compartidas por los modos TC y componentes compartidas con el nivel anterior, auto privado, de manera que ViB = ViTC + ViB / TC y Prof. Lídia Montero – Esteve Codina © ViM = ViTC + ViM / TC . Pàg. 5-74 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO 4. Una descomposición similar corresponde a las componentes aleatorias. U iC = ViC + ε iC , U iB = ViB + ε iB = WiTC + YiB / TC + ε iTC + ε iB / TC y U iM = ViM + ε iM = WiTC + YiM / TC + ε iTC + ε iM / TC . En el nivel superior, la selección entre auto privado (C) o transporte colectivo (TC) responde a otro logit binario, exp(ViC ) Ρ(C ) = exp(ViC ) + exp(ViTC ) y Ρ (TC ) = 1 − Ρ (C ) Para el nivel inferior, selección de Bus o Metro dentro del grupo de alternativas de transporte colectivo, se tendrá el logit binario, Ρ(M TC ) = exp(YiM / TC λTC ) exp(YiM / TC λTC ) + exp(YiB / TC λTC ) Ρ(M ) = Ρ(M TC )Ρ(TC ) y y Ρ (B TC ) = 1 − Ρ (M TC ) Ρ (B ) = Ρ (B TC )Ρ (TC ) (Ojo ! Ρ ( B ) ≠ 1 − Ρ (M ) ) La condición de contorno que deben satisfacer las probabilidades es que su suma sea 1: Ρ (B ) + Ρ (M ) + Ρ (C ) = 1 Prof. Lídia Montero – Esteve Codina © Curs 2.006-2.007 Pàg. 5-75 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO Ahora bien, la utilidad sistemática del transporte colectivo contiene la utilidad máxima esperada (EMU) derivada del nivel inferior que se define para modelos logísticos: λTC I ij = λTC log(exp (YiM / TC λTC ) + exp(YiB / TC λTC )) ViTC = λTC I ij + WiTC Ahora bien, los modelos jerárquicos no deben limitarse a respuestas binarias en cada uno de los niveles, los modelos jerárquicos tienen sentido per se y son enormemente potentes, a pesar de sus limitaciones: • Comparten con los MNL el no poder tratar con las variaciones de gusto individuales, no son modelos de efectos aleatorios. • Pueden tratar interdependencias a nivel de nodo, pero no puede modelar asociaciones entre alternativas de distintos nodos. • La estructura del proceso jerárquico de decisiones puede no ser evidente y requerir de varias tentativas. • La estimación de HL a partir de la estimación secuencial de modelos MNL a nivel de nodo es simple, pero se han documentado problemas de eficiencia si los nodos de menos jerarquía se quedan con pocas observaciones, situación que se ha de evitar a toda costa. • La estimación de HL a partir de la estimación secuencial de modelos MNL produce modelos sobreparametrizados y requiere de normalización a la escala de los niveles inferiores. Prof. Lídia Montero – Esteve Codina © Pàg. 5-76 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO 5-5.6.1 Proceso secuencial de estimación de los modelos logit jerárquicos 1. Estructurar el proceso de decisión en forma de arbol jerárquico, donde se agrupan en un nodo las alternativas más similares. 2. Estimar secuencialmente los modelos MNL de cada nodo, empezando por los nodos terminales (hojas) y subiendo hacia la raíz (down to top). Niveles 0 son las hojas y nivel s>0 es la raiz del árbol. 3. La introducción de la utilidad compuesta de un nodo (no raíz) en el nodo immediatamente superior (padre) requiere del cálculo de su EMU (Expected Maximum Utility) que vendrá afectado de un parámetro 0 < φ1 ≤ K ≤ φs ≤ 1 de nivel, más las variables explicativas comunes para las alternativas de un nodo (z’s), que tambien vendrán afectadas por parámetros a estimar en el MNL del nodo padre. 4. Despues de estimar todos los modelos MNL de los nodos del árbol de decisiones, las probabilidades absolutas de selección de cada alternativa se calculan de arriba a abajo (top-down) mediante formulas derivadas de la probabilidad condicional. 5. Los indicadores de bondad del ajuste se calculan como suma de los indicadores por nodo: AIC global es la suma de los AICs de cada nodo. La comparación entre estructuras de decisión (árboles de decisión) se puede efectuar por AIC (el modelo HL con mínimo AIC resulta preferible). Los estimadores son sesgados si el proceso de estimación se realiza top-down y contiene generalmente estimaciones redundantes de parámetros comunes que no pueden forzarse a la igualdad: alternativa cómoda, pero técnicamente incorrecta. Si 0 < φ1 = K = φs = 1 el modelo logit jerárquico colapsa a un logit multinomial (MNL) con todas las alternativas del proceso de decisión en el mismo nivel. Prof. Lídia Montero – Esteve Codina © Pàg. 5-77 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO 5-5.6.2 Otros procesos de estimación de los modelos logit jerárquicos: full tree logit models Estimación simultánea de los modelos HL es más costosa computacionalmente y requiere de software específico no disponible en los paquetes de planificación del transporte habituales (EMME/2, TRANSCAD, AIMSUN, etc). En los 80s se desarrollaron LIMDEP, HIELOW, ALOGIT. Este último fue propuesto por Daly (1987) es muy eficiente y es posiblemente el más conocido entre los profesionales de la planificación del transporte. 0 < φ j ≤ 1 ALOGIT es fuente de controversia ya que para la estimación simultánea del modelo HL es necesario normalizar uno de los parámetros de escala, por ejemplo el del nivel superior fijarlo a 1, lo que conlleva reescalar convenientemente las utilidades de los nodos de niveles inferiores. En la práctica, la estimación simultánea de modelos estandarizados jerárquicos (un modelo es estandarizado si al añadir una constante a cada utilidad, las probabilidades de las alternativas no cambian) con ALOGIT lleva a la necesidad de definir para la alternativa primaría (de jerarquía de más alto nivel) un nodo particular donde esté ella sola. En el Ejemplo 1, Nivel 1 T-transit 0 < φ0 ≤ φ1 ≤ 1 T-transit Nivel 0 A-Auto A-Auto B-bus M-Metro Prof. Lídia Montero – Esteve Codina © Pàg. 5-78 B-Bus M-Metro Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: FULL TREE LOGIT MODELS La teoria de la utilidad aleatoria y el comportamiento en que se basa el logit jerárquico es complejo y su derivación requiere de una formulación en desigualdades variacionales. Sin embargo, la expresión del modelo en forma de probabilidades predichas para cada una de las alternativas es más que suficiente para las aplicaciones prácticas y éste es el punto de vista que se va a detallar en este curso. Se requiere del desarrollo de una notación específica y por razones históricas se toma la notación del artículo original de Andrew Daly (Transp. Research 1987 21 B). Se ilustra con un árbol binivel (Ejemplo 1). p jl = p j ⋅ pl pl j = exp(Vl ∑ l' Probabilidad conjunta de seleccionar el modo j en el nivel superior y el modo l en el nivel inferior, igual a probab absoluta de modo j en nivel superior por prob nivel l condicionado a j. Utilidad observada de alternativa l de nivel inferior condicionada a alternativa j de nivel sup (errores Gumbel). El sumatorio es para todas las alternativas de nivel inferior (notadas l’) j j ) exp(Vl ' j exp(V j ) pj = ∑ jj' exp(V j' ) ) Utilidad observada de alternativa j de nivel de nivel sup (errores Gumbel). El sumatorio es para todas las alternativas de nivel superior (notadas j’) Vl j = x Tl jβ l j Utilidad de l condicionada a j. Depende de variables explicativas ( V j = x Tj β j + φ j log ∑l ' exp(Vl ' j )) estimarse y han de βl j Utilidad del modo j de nivel superior. X j var. explicativas (las hay comunes a todos los modos de nivel inferior. Se calcula la utilidad compuesta del nodo inferior. Restricción Prof. Lídia Montero – Esteve Codina © Xl j 0 < φ j ≤ 1 , se denominan parámetros estructurales. Pàg. 5-79 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: FULL TREE LOGIT MODELS La estructura del árbol jerárquico de decisiones es fija y se supone un input al proceso. Se pueden ensayar distintas propuestas, las cuales podrán compararse gracias al proceso de estimación por maximización de verosimilitud que permite definer para un model su AIC y comparar modelos cualesquiera en base al criterio de minimización del AIC. La función de verosimilitud es complicada de escribir para una estructura arborescente general y requiere de la inclusión de un nodo ficticio que es el nodo raíz. Implicitamente hay restricciones en las probabibilidades, ya que 1 = ∑ j' p j' ∀j ∑l ' pl ' j = 1 φ 0 ≤ 1 se interpreta en términos de correlación entre las En el Ejemplo binivel: 0 < φ0 ≤ φ1 ≤ 1 y el cociente φ1  φ0 utilidades totales de dos alternativas que comparten el nodo 1 corr (U l , U l ' ) = 1 −   φ1  V [ε jl ]       o bien  φ0  =   V [ε ] + V [ε ]  . El φ j jl   1   2 2 φ0 ≤ 1 debe estimarse y se suele suponer φ0 = 1 (normalizar escala en las hojas). cociente φ1 Ojo ! en los apartados de exposición del nested logit (5-5.3 y5-5.5 ) es implícita una normalización del nodo raíz. La varianza de las utilidades es mínima en el nodo de más profundidad y a medida que se ‘sube’ por el árbol va aumentando. La inferencia sobre los parámetros estructurales a φ j = 1 implica la existencia de un modelo multinomial no jerárquico (HL colapsa a MNL). Prof. Lídia Montero – Esteve Codina © Pàg. 5-80 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: GEV 5-5.7 Introducción a la teoría de los modelos gev Modelos GEV (valor extremo generalizado) no pueden tratar todas las posibles estructuras de correlación entre alternativas, pero si muchas de ellas. No pueden capturar la heterocedasticidad ni la heterogeneidad de los individuos. En la práctica se ha de recurrir a modelos complejos basados en mixtures de funciones de probabilidad. Presentación de Bierlaire. Los modelos de valor extremo generalizado fueron propuestos por McFadden (1978). Idea: Un modelo viene generado por una función G : ℜ J → ℜ , donde G puede ser: • Una función de distribución de un vector aleatorio multidimensional de los errores εn . • Un modelo de probabilidad. • La utilidad esperada máxima. Prof. Lídia Montero – Esteve Codina © Pàg. 5-81 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MODELOS GEV • • µ ( ) G α x = α G( x ) . G es homogenea de grado µ , con µ > 0 , si satisface que lim xi → +∞ G ( x1 ,K, xi ,K, xJ ) = +∞ , para cada i = 1, K , J • La derivada parcial k-ésima con respecto a k distintos xi es no negativa si k es impar y no positiva si k es k G (x ) ∂ k (− 1) ≤ 0 ∀x ∈ ℜ +J ∂xi1 K ∂xik par, es decir, para cualquier subconjunto de indices . • La función densidad de probabilidad ( ( F ( ε 1 , K , ε J ) = exp − G e −ε1 K e −ε J • La probabilidad de selección de la alternativa j es )) . ( )   ( )   ∂G eV1 K eVJ expVi + ln ∂xi   P( j ) =  ∂G eV1 K eVJ ∑ j V j + ln ∂x j        y tiene por tanto una expresión cerrada y es consistente con la hipótesis de selección por maximización de la utilidad (aleatoria). Prof. Lídia Montero – Esteve Codina © Pàg. 5-82 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MODELOS GEV ( • La utilidad màxima esperada del conjunto de alternativas )  G eV1 K eVJ + γ   ln µ   es donde γ es la constante de Euler. • Por tanto, P( j ) = ∂VC ∂Vi . Por ejemplo, el caso del modelo logit multinomial es un caso particular: ( ) G eV1 K eVJ = ∑ j exp(µ V j ) y ( )   ∂G eV1 K eVJ    expV j + ln    ∂ x j    P( j ) =   ∂G eV1 K eVJ     ∑lexpVl + ln  ∂xl    ( ) ( ∂G e V1 con ) K e VJ = µ x iµ ∂x i De donde, Prof. Lídia Montero – Esteve Codina © Pàg. 5-83 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MODELOS GEV (   ∂G eV1 K eVJ expVi + ln ∂xi   )   = exp(V + ln(µ ) + (µ − 1)ln(e )) = exp(µV + ln(µ ))  Vi i  i Y de ahí, ( )   ∂G eV1 K eVJ    expV j + ln    ∂ x exp(µV j + ln (µ )) exp(µV j ) j    = = P( j ) = VJ V1   ∂G e K e   ∑lexp(µVl + ln (µ )) ∑lexp(µVl )   ∑lexpVl + ln  ∂xl    ( Prof. Lídia Montero – Esteve Codina © ) Pàg. 5-84 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MODELOS GEV Por ejemplo, el caso del modelo logit jerárquico es un caso particular: M G (V ) = ∑ m =1 (∑ l =1,K, J m Vl µm ) µ µm M es el número de nodos en el árbol que define la estructura de selección del modelo (también se suelen llamar nidos) M (∑ ) ∑ (∑ M • G (αV ) = ∑ • lim xi→+∞ G ( x1 ,K, xi ,K, xJ ) = +∞, i = 1,K, J m =1 (αVl ) µ µm µm l =1,K, J m =α µ m =1 (Vl ) µm l =1,K, J m . BIOGEME: BIerlaire’s Optimization toolbox for GEV Models Estimation Prof. Lídia Montero – Esteve Codina © Pàg. 5-85 Curs 2.006-2.007 ) µ µm . Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: OTROS PARADIGMAS 5-6.1 El modelo probit multinomial En la estructura de vector aleatorio para todas las posibles alternativas seleccionables por el individuo n-ésimo, si entonces aparece el modelo probit multinomial. Únicamente en el caso binario (J=2), aparecen modelos simples sin necesidades de tratamiento numérico. Si ρ es el coeficiente de correlación lineal entre las utilidades de las 2 alternativas, la matriz de varianzas y covarianzas puede escribirse: •  σ A2 Σ =   ρ σ Aσ B • Entonces ρ σ Aσ B   2 σ B  ε iB − ε iA ≈ N (0,σ 2 = σ A2 + σ B2 − 2 ρ σ Aσ B ) y por tanto, la probabilidad de seleccionar la alternativa A, notado Pi(A), es  (ViA − ViB )   (Probit binario). σ   π iA = Ρi ( A) = Ρ( [U iB = ViB + ε iB ≤ ViA + ε iA = U iA ]) = Ρ( [ε iB − ε iA ≤ ViA − ViB ]) = Φ Por conveniencia, la escala de la función de utilidad 1 σ se asume 1, lo que equivale a afirmar que sólo se puede identificar los partworths normalizados (es decir, coeficiente en la utilidad dividido por escala). Prof. Lídia Montero – Esteve Codina © Pàg. 5-86 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT El modelo probit permite superar las 3 limitaciones del modelo MN Logit: • Puede representar variaciones individuales aleatorias en los gustos. • Puede representar cualquier patrón de sustitución, más general que el proporcional. • Puede usarse en datos longitudinales (paneles) para modelar correlaciones en la parte no observada de la utilidad a lo largo del tiempo. El problema reside en que hay que recurrir a la integración numérica o a la simulación porqué no hay una fórmula analítica cerrada para la probabilidad de elección de las alternativas (culpa de la distribución normal multivariante que modela la componente no observada de la utilidad). π ij = Ρi ( j ) = Ρ ( [U ij = Vij + ε ij ≥ Vil + ε il = U il ] ∀l ≠ j ) = ∫ I (Vij + ε ij ≥ Vil + ε il ∀l ≠ j )Φ (ε i )dε i La probabilidad anterior tiene una expresión cerrada, tiene dimensión J y debe evaluarse numéricamente, para facilitar la tarea resulta conveniente reescribir la integral. Sea Bij = {ε i = ε il − ε ij | Vij + ε ij ≥ Vil + ε il ∀l ≠ j} → Ρi ( j ) = ∫ ε i ∈Bij Φ (ε i )dε i , que simplifica el dominio de integración y además si se tiene en cuenta que sólo las diferencias en utilidad son caracterizables, la probabilidad de una alternativa puede reexpresarse como una integral de dimensión (J-1), sea la diferencia de utilidad respecto la alternativa j (la que estamos calculando), Prof. Lídia Montero – Esteve Codina © Pàg. 5-87 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT ([ ]) ~ ~ ~ U ilj = U il − U ij , Vilj = Vil − Vij , ε~ilj = ε il − ε ij → Ρi ( j ) = Ρ U ilj ≤ 0 ∀l ≠ j = ∫~ Donde { ~ ~ Bij = ~εij | Vilj + ε~ilj < 0 ∀l ≠ j } y la integral tiene dimensión J-1 en ese dominio. Hay que tener en cuenta que la diferencia de normales también es normal y que covarianzas ~ Σj ~ε ij de dimensión J-1 que puede calcularse eficientemente a partir de ~ εij∈Bij Φ (~εij )d ~εij tiene una matriz de Σ pre y post multiplicando ésta por la matriz identidad de dimensión J-1 con una columna adicional de -1’s en la posición j. Por ejemplo,  σ 11 σ 12 σ 13    j =2   ε i1 − ε i 2   ε i12   1 − 1 0 ~  =    = M j ΣM Tj Σ = σ 12 σ 22 σ 23  →  Mj =  → Σ j = COV    0 − 1 1   ε i 3 − ε i 2   ε i 32   σ  σ σ 23 33   13 Ahora bien, los modelos tienen que normalizarse ya que sólo diferencias en utilidad son medibles y su escala es irrelevante, en general en los modelos logit y GEV una alternativa facilita una utilidad de esperanza nula y la escala responde a la distribución estándard, en los modelos probit es más complicado y debe normalizarse explícitamente no hay defecto. La normalización está relacionada con la identificabilidad de los parámetros y sólo los que son identificables y por tanto caracterizan la selección de la alternativa deben ser considerados en un modelo normalizado. Pero a veces no es evidente qué parámetros se asocian al nivel de referencia y a la escala. Train propone un esquema de normalización que garantiza la identificabilidad de todos los parámetros y que siguiendo su exposición se describe a continuación a partir del ejemplo anterior. Prof. Lídia Montero – Esteve Codina © Pàg. 5-88 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT Primero se diferencia de la primera alternativa j=1 (defecto en el método MNP del paquete R (sea J=3):  σ 11 σ 12 σ 13    j =1   ε i 2 − ε i1   ε i 21   θ 22 θ 23  − 1 1 0 ~ T       Σ = σ 12 σ 22 σ 23  → = Σ = M1 =  COV M M → Σ = = 1 1 1 θ  ε − ε  ε  θ33  − 1 0 1 i3 i1  i 31   23       σ   13 σ 23 σ 33  Después se normaliza la escala fijando a 1 la diagonal primera de la covarianza de las diferencias (defecto R) V (ε i 21 )) = 1 , lo que resulta, θ * jl * * * θ jl ~ * θ 22 θ 23   1 θ 23  = →Σ 1 =  * = * *  *  θ 22 θ θ θ θ 23 33 23 33     Si la matriz original tiene J(J+1)/2=6 elementos por identificar, ahora la matriz normalizada tiene J(J-1)/2-1=2 parámetros y son éstos los únicos identificables, es decir, habrá valores de las covarianzas entre alternativas que no podrán identificarse y son los únicos con contenido relevante para el modelo de elección de alternativa. Podría darse el caso que después de aplicar el procedimiento descrito, todavía no fueran identificables todos los parámetros con lo que habría de añadirse alguna restricción adicional. Por ejemplo en un modelo de J=3 alternativas donde el investigador propone una matriz de covarianzas de los errores originales donde sólo están asociadas la 1 y la 2 alternativa, ρ 0  1 + ρ 1   j =1 1  ~ * 1 2 − 1 1 0 ~ 2  T Σ =  ρ 1+ ρ 0  → M 1 =  → Σ = M M → Σ = Σ = 1 1 1 1 1 1+ ρ  1 2 + 2ρ  − 1 0 1  2   2   0  0 1+ ρ   Prof. Lídia Montero – Esteve Codina © Pàg. 5-89 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT Sólo tiene un parámetro identificable, no 2 y dado un estimador de la segunda diagonal de la matriz de covarianzas (normalizada), se puede inferir el parámetro ρ y de ahí la matriz de covarianzas original. o Si las alternativas fuesen i.i.d, cual sería la matriz de covarianzas normalizada ? σ  Σ= 0 0  5-6.2 0 σ 0 0  j =1 − 1 1 0 ~ 2σ T → Σ = Σ = 0  → M1 =  M M 1 1 1  σ − 1 0 1     σ  σ  ~* 1 12  → Σ 1 = 1   2σ   2 1 Patrones de sustitución no IIA La matriz de covarianzas es la que caracteriza el patrón de sustitución, si las alternativas fuesen i.i.d. normales entonces se tendría una matriz diagonal, que acabaría normalizada y donde no sería posible identificar el parámetro único (quedaría absorbido en los partworths). El investigador debe determinar el patrón de sustitución más adecuado para los datos (la situación de elección discreta bajo estudio). La primera tentativa podría ser modelar un patrón de sustitución no restringido mediante la estimación de la matriz de covarianzas completa (bien, de los J(J-1)/2-1 parámetros identificables). El problema reside en la falta de interpretabilidad de la matriz normalizada estimada, ya que no se puede inferir nada sobre la matriz original: * ~ *  1 θ 23  Σ1= * →Σ =? *  θ 23 θ 33  Prof. Lídia Montero – Esteve Codina © Si se imponen restricciones a la matriz de covarianzas original Σ , los parámetros estimados por los métodos estadísticos (MNP en R) son más interpretables! Pàg. 5-90 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT NO IIA 5-6.3 Variaciones en los gustos no observables (efectos aleatorios) Las variaciones de gusto individuales son intratables con los modelos de efectos fijos, hay que ir a parar a los modelos mixtos estadísticos, es decir, con coeficientes aleatorios. El Ejemplo 7.3 del texto de Ortúzar & Willumsen considera un modelo binario de reparto modal con dos variables explicativas numéricas, el coste y el tiempo y la función de utilidad U = β1 ⋅ X 1 + β 2 ⋅ X 2 + ε . Si se supone que la percepción del coste varía según los ingresos (I), entonces la utilidad se reformular como: o U = β '1⋅ X 1 I + β 2 ⋅ X 2 + ε misma distribución que o En general, si β '1 I . U ij = β iT x j + ε ij y el modelo será correcto únicamente si con βi p N(β, Σ) β1 es una variable aleatoria con la distribuido según una normal multivariante, entonces el modelo resultante es un modelo condicional de selección de alternativas discretas probit multinomial (Daganzo y Sheffi trabajaron esta formulación). Supóngase una utilidad lineal en los parámetros, de alternativa o específicos de usuario, pero que estos no son fijos sinó que varían aleatoriamente entre los individuos. La utilidad puede expresarse como, U ij = α j + β Ti x j ( con x j = x1 T K x p ) el vector de variables explicativas del individuo en la alternativa j y β i el vector de coeficientes desconocidos que varían según el individuo. Prof. Lídia Montero – Esteve Codina © Pàg. 5-91 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT ALEATORIO La variabilidad de β i induce correlación entre las opciones. El vector de coeficientes (partworths) para un individuo se puede expresar como la suma de la media poblacional β (desconocida) más la perturbación del individuo η i y de ahí reescribir la utilidad (prescidiendo de las constantes específicas de la alternativa) como: U ij = β Ti x j + ε ij = β T x j + ηTi x j + ε ij = β T x j + ηTi x j + ε ij = β T x j + ν ij { { 1424 3 { observable aleatoria observable aleatoria Si β i , ε ij se distribuyen según leyes normales multivariantes entonces sería un model probit de efectos aleatorios. Se puede ver que la matriz de covarianzas de ν ij depende de la varianza de β i y de las variables explicativas, de individuo o de alternativa. Por ejemplo, en un caso de J=3 alternativas con una variable explicativa dependiente de alternativa, pero 2 variaciones individuales aleatorias, sin constantes específicas, con errores i.i.d. de varianza σ ε y con la variación 2 individual i.i.d de varianza σ β , con variaciones individuales y utilidad observable independientes, entonces U i1 = β T x1 + ηTi x1 + ε i1 = β T x1 + ν i1 { { observable aleatoria y de ahí, U i 2 = β T x 2 + ηTi x 2 + ε i 2 = β T x 2 + ν i 2 y U i 3 = β T x 3 + ηTi x 3 + ε i 3 = β T x 3 + ν i 3 donde (ν i1 ν i 2 ν i3 ) T ( ) tienen una distribución normal trivariante con esperanza 0 (cada una) y varianza de ( ) V (ν ij ) = V η i x ij + ε ij = x ij2 σ β2 + σ ε2 y covarianzas COV (ν ij ,ν ij´ ) = COV η i x ij + ε ij ,η i x ij ' + ε ij ' = x ij x ij 'σ β2 . Prof. Lídia Montero – Esteve Codina © Pàg. 5-92 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT ALEATORIO De ahí,  x i21σ β2 + σ ε2  2 Σ =  x i1xi 2 β  xi1xi 3σ β2  xi1x i 2σ β2 x i22σ β2 + σ ε2 xi 2 x i 3σ β2 x i1x i 3σ β2   xi21   2 xi 2 xi 3σ β  = σ β2 x i1x i 2  xi1xi 3 xi23σ β2 + σ ε2    xi1xi 2 x i22 xi 2 xi3 xi1x i 3  1 0 0  xi 2 xi 3  + σ ε2 0 1 0 0 0 1 x i23  Una normalización habitual es imponer una varianza unidad para la componente no observable de la utilidad, 2 σ ε = 1 . Los únicos parámetros a estimar son β , σ β . Se puede generalizar a más variables explicativas directamente. Prof. Lídia Montero – Esteve Codina © Pàg. 5-93 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R 5-6.4 Estimación de modelos probit Imai, Kosuke and David A. van Dyk. (2005b) “MNP: R Package for Fitting the Multinomial Probit Models,” Journal of Statistical Software, Vol. 14, No. 3 (May), pp.1-32. Fitting the Multinomial Probit Model via Markov chain Monte Carlo mnp is used to fit (Bayesian) multinomial probit model via Markov chain Monte Carlo. mnp can also fit the model with different choice sets for each observation, and complete or partial ordering of all the available alternatives. The computation uses the efficient marginal data augmentation algorithm that is developed by Imai and van Dyk (2005a). Usage mnp(formula, data = parent.frame(), choiceX = NULL, cXnames = NULL, base = NULL, latent = FALSE, invcdf = FALSE, n.draws = 5000, p.var = "Inf", p.df = n.dim+1, p.scale = 1, coef.start = 0, cov.start = 1, burnin = 0, thin = 0, verbose = FALSE) See Also coef.mnp, cov.mnp, predict.mnp, summary.mnp; MNP home page at http://imai.princeton.edu/research/MNP.html Prof. Lídia Montero – Esteve Codina © Pàg. 5-94 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R Detergent Brand Choice This dataset gives the laundry detergent brand choice by households and the price of each brand. A data frame containing the following 7 variables and 2657 observations. choice factor a brand chosen by each household TidePrice numeric log price of Tide WiskPrice numeric log price of Wisk EraPlusPrice numeric log price of EraPlus SurfPrice numeric log price of Surf SoloPrice numeric log price of Solo AllPrice numeric log price of All References Chintagunta, P. K. and Prasad, A. R. (1998) “An Empirical Investigation of the `Dynamic McFadden' Model of Purchase Timing and Brand Choice: Implications for Market Structure”. Journal of Business and Economic Statistics vol. 16 no. 1 pp.2-12. # Estimació MN logit i probit # Problem Set 3 - MNL - Tria de detergents #Imai, Kosuke and David A. van Dyk. (2005b) “MNP: R Package for Fitting the Multinomial Probit Models,” Journal of Statistical Software, Vol. 14, No. 3 (May), pp.1-32. library(MASS) library(VGAM) library(MNP) # dades R Prof. Lídia Montero – Esteve Codina © Pàg. 5-95 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R data(detergent) deter<-detergent summary(deter) head(deter) # Creo numèrica amb la resposta: All, EraPlus, Solo,Surf,Tide i Wisk (M=6) . # Canvio l'ordenació per facilitar un VGLM: Tide, Wisk,EraPlus,Surf,Solo, All. Ref. All deter$fdepvar <-factor(deter$choice, levels=c("Tide","Wisk","EraPlus","Surf","Solo","All" )) deter$depvar <-as.numeric(deter$fdepvar) deter$node <- 1 summary(deter) head(deter) dim(deter)[1] n = 2657 # Nb individus de la mostra, suposo no és SP M = 5 # Hi han M+1 alternatives en competència zeros<-rep(0,n) uns<-rep(1,n) # ymat: crea una matriu de zeros amb n files i M+1 columnes ymat = matrix(0, n, M+1) # Genera mostra de tamany 100 i sobre uniforme 1 a M+1: # y <- sample(x=M+1, size=n, replace=TRUE) # Per cada individu, la mostra conté un numeret de 1 a 4 (el mode), cal posar un 1 en la columna corresponent al mode triat a ymat # Resultat: ymat(i,j)=1 si individu i ha triat el mode j, ymat(i,j)=0 altrament. ymat[cbind(1:n, deter$depvar )] = 1 dimnames(ymat) <- list(NULL, c("Tide","Wisk","EraPlus","Surf","Solo","All" )) ymat[1:7, ] deter[1:7,]$depvar # Per cada alternativa es disposa de preu en una columna deter <- data.frame(deter, ymat ) Prof. Lídia Montero – Esteve Codina © Pàg. 5-96 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC head(deter) 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R ######## MNL : primer model # Alternativa 6 (All) triat de referència: es crea preu 'all' (6) deter = transform(deter , preu1.6 = TidePrice-AllPrice, preu2.6 = WiskPrice-AllPrice, preu3.6 = EraPlusPrice-AllPrice, preu4.6 = SurfPrice-AllPrice, preu5.6 = SoloPrice-AllPrice) head(deter) # Model logit multinomial condicional on indica que el coeficient de preu ha de # ser el mateix per cada alternativa: entren a la utilidad amb coeficient comú. # No hi ha terme independent. # S'usa diferencia d'utilitat respecte 6. # Probabilitats mostral de la resposta: table(deter$fdepvar)/n # Tinc definides variables y, ymat i dins deter tinc els preus m0 <- vglm(ymat ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 -1 , fam = multinomial, xij = list(preu ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 ), data=deter) model.matrix(m0, type="lm")[1:7,] # LM model matrix model.matrix(m0, type="vlm")[1:7,] # Big VLM model matrix coef(m0, matrix=TRUE) summary(m0) pm0 <-predict.vglm( m0, type="terms" ) # No va pm0 <-predict.vglm( m0, type="res" ) apply(pm0,2,mean) Prof. Lídia Montero – Esteve Codina © Pàg. 5-97 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R # # # # Model logit multinomial condicional on indica que el coeficient de preu ha de ser el mateix per cada alternativa: entren a la utilidad amb coeficient comú. SI hi ha terme independent. S'usa diferencia d'utilitat respecte 6. # Probabilitats mostral de la resposta: table(deter$fdepvar)/n # Tinc definides variables y, ymat i dins deter tinc els preus m1 <- vglm(ymat ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 , fam = multinomial, xij = list(preu ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 ), data=deter) model.matrix(m1, type="lm")[1:7,] # LM model matrix model.matrix(m1, type="vlm")[1:7,] # Big VLM model matrix coef(m1, matrix=TRUE) summary(m1) pm1 <-predict.vglm( m1, type="terms" ) # No va pm1 <-predict.vglm( m1, type="res" ) pm1[ 1: 7,] apply(pm1,2,mean) logLik(m1) vcov(m1) Prof. Lídia Montero – Esteve Codina © Pàg. 5-98 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R # MNPROBIT ## run the standard multinomial probit model with intercepts and the price m3 <- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter, n.draws = 500, burnin = 100, thin = 3, verbose = TRUE) ## summarize the results summary(m3) attributes(m3) logLik.mnp(m3) # No n'hi ha cov.mnp(m3) # Indescriptible coef.mnp(m3)# Indescriptible ## calculate the quantities of interest for the first 3 observations pm3 <- predict.mnp(m3, newdata = deter[1:3,]) Prof. Lídia Montero – Esteve Codina © Pàg. 5-99 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R > coef(m0, matrix=TRUE) preu log(mu[,1]/mu[,6]) log(mu[,2]/mu[,6]) log(mu[,3]/mu[,6]) log(mu[,4]/mu[,6]) log(mu[,5]/mu[,6]) -35.33106 -35.33106 -35.33106 -35.33106 -35.33106 > summary(m0) Call: vglm(formula = ymat ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6 - 1, family = multinomial, data = deter, xij = list(preu ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6)) Pearson Residuals: log(mu[,1]/mu[,6]) log(mu[,2]/mu[,6]) log(mu[,3]/mu[,6]) log(mu[,4]/mu[,6]) log(mu[,5]/mu[,6]) Min -1.09793 -1.10649 -0.85821 -1.21323 -0.94413 1Q -0.22612 -0.32711 -0.22513 -0.28298 -0.23961 Median 3Q Max -0.18712 1.76697 3.6248 -0.26927 1.34406 2.8755 -0.19203 -0.15102 10.1056 -0.23687 -0.18845 5.9518 -0.20792 -0.17137 3.6736 Coefficients: Value Std. Error t value preu -35.331 1.8726 -18.868 Number of linear predictors: 5 Names of linear predictors: log(mu[,1]/mu[,6]), log(mu[,2]/mu[,6]), log(mu[,3]/mu[,6]), log(mu[,4]/mu[,6]), log(mu[,5]/mu[,6]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 9161.362 on 13284 degrees of freedom Log-likelihood: -4580.681 on 13284 degrees of freedom Number of Iterations: 3 Prof. Lídia Montero – Esteve Codina © Pàg. 5-100 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R > coef(m1, matrix=TRUE) log(mu[,1]/mu[,6]) log(mu[,2]/mu[,6]) log(mu[,3]/mu[,6]) log(mu[,4]/mu[,6]) (Intercept) 4.782045 3.043896 4.599833 3.037336 preu -134.492372 -134.492372 -134.492372 -134.492372 log(mu[,5]/mu[,6]) (Intercept) 3.699452 preu -134.492372 > summary(m1) Call: vglm(formula = ymat ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6, family = multinomial, data = deter, xij = list(preu ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6)) Pearson Residuals: ... Coefficients: (Intercept):1 (Intercept):2 (Intercept):3 (Intercept):4 (Intercept):5 preu Value Std. Error t value 4.7820 0.14015 34.121 3.0439 0.11947 25.479 4.5998 0.14385 31.977 3.0373 0.12945 23.463 3.6995 0.14605 25.329 -134.4924 3.82114 -35.197 Number of linear predictors: 5 Names of linear predictors: log(mu[,1]/mu[,6]), log(mu[,2]/mu[,6]), log(mu[,3]/mu[,6]), log(mu[,4]/mu[,6]), log(mu[,5]/mu[,6]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 6974.065 on 13279 degrees of freedom Log-likelihood: -3487.033 on 13279 degrees of freedom Prof. Lídia Montero – Esteve Codina © Pàg. 5-101 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R > table(deter$fdepvar)/n Tide Wisk EraPlus Surf Solo All 0.26383139 0.26458412 0.19081671 0.15280391 0.09522017 0.03274370 > pm0 <-predict.vglm( m0, type="res" ) > apply(pm0,2,mean) Tide Wisk EraPlus Surf Solo All 0.1286505 0.1990001 0.1226328 0.1649222 0.1261243 0.2586702 > apply(pm1,2,mean) Tide Wisk EraPlus Surf Solo All 0.26383139 0.26458412 0.19081671 0.15280391 0.09522017 0.03274370 > summary(m3) Call: mnp(formula = choice ~ 1, data = deter, choiceX = list(Surf = SurfPrice, Tide = TidePrice, Wisk = WiskPrice, EraPlus = EraPlusPrice, Solo = SoloPrice, All = AllPrice), cXnames = "price", n.draws = 500, burnin = 100, thin = 3, verbose = TRUE) Coefficients: mean std.dev. 2.5% 97.5% (Intercept):EraPlus 2.3146 0.1762 1.9504 2.630 (Intercept):Solo 1.3160 0.1194 1.1024 1.537 (Intercept):Surf 1.2962 0.1274 1.0582 1.522 (Intercept):Tide 2.4766 0.1446 2.1767 2.724 (Intercept):Wisk 1.3498 0.0830 1.1950 1.490 price -83.0981 5.0645 -90.7319 -72.398 Prof. Lídia Montero – Esteve Codina © Pàg. 5-102 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R Covariances: EraPlus:EraPlus EraPlus:Solo EraPlus:Surf ... mean std.dev. 2.5% 1.00000 0.00000 1.00000 0.48106 0.10107 0.27539 0.03172 0.15313 -0.21417 97.5% 1.000 0.666 0.356 Base category: All Number of alternatives: 6 Number of observations: 2657 Number of estimated parameters: 20 Number of stored MCMC draws: 100 > attributes(m3) $names [1] "param" [10] "p.mean" $class [1] "mnp" "x" "p.var" "y" "p.df" "w" "call" "p.scale" "burnin" "alt" "thin" "n.alt" "base" "invcdf" o Sabrías estimar el modelo probit bajo la hipótesis i.i.d. de la componente no observable de la utilidad ¿? No se puede, no permite las restricciones. M4<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter, n.draws = 500, burnin = 100, thin = 3, verbose = TRUE, p.scale=diag(1.0,5,5), p.df=6 ) Prof. Lídia Montero – Esteve Codina © Pàg. 5-103 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R El modelo probit se calcula por simulación con muestras generadas mediante algoritmos MCMC (Markov Chain Monte Carlo) de los parámetros identificables y análisis bayesiano donde se debe especificar la distribución a priori de los estimadores de coeficientes de las variables explicativas (puede ser una distribución impropia constante, coeficientes fijos) y de la matriz de covarianzas de los parámetros identificables. El paquete coda de R permite un análisis de convergencia de la cadena de Markov implícita en la generación de muestras y de alguna manera determinar si el número de muestras (n.draws) es suficiente o hay que augmentarlo. Se calculan 3 cadenas independientes que se almacenan como un objeto mcmc (mcmc.list(.) en coda package de R) y posteriormente se calcula el estadístico de Gelman-Rubin que para cada parámetro estimado tiene que facilitar un estimador puntual por debajo de 1.1 (si no es así hay que alargar las cadenas). También se puede ver la estabilización de los estimadores gráficamente mediante gelman.plot(.). He aquí los comandos y algunos de los resultados que validan que n.draws=50000 es suficiente y por tanto los estimadores convergen. # Package coda per determinar si ha convergit la cadena MCMC library(coda) m41<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter, n.draws = 50000, burnin = 100, thin = 3, verbose = TRUE ) m42<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter, n.draws = 50000, burnin = 100, thin = 3, verbose = TRUE, coef.start=c(1,-1,1,-1,1,1)*10, cov.start=matrix(0.5,5,5)+diag(0.5,5), p.df=6 ) Prof. Lídia Montero – Esteve Codina © Pàg. 5-104 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R m43<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter, n.draws = 50000, burnin = 100, thin = 3, verbose = TRUE, coef.start=c(-1,1,-1,1,1,1)*10, cov.start=matrix(0.9,5,5)+diag(0.1,5), p.df=6 ) mcoda<- mcmc.list(chain1=mcmc(m41$param[,-7]),chain2=mcmc(m42$param[,-7]), chain3=mcmc(m43$param[,-7]) ) gelman.diag( mcoda, transform=TRUE ) gelman.plot( mcoda, transform=TRUE, ylim=c(1,1.2) ) > gelman.diag( mcoda, transform=TRUE ) Potential scale reduction factors: (Intercept):EraPlus (Intercept):Solo (Intercept):Surf (Intercept):Tide (Intercept):Wisk price EraPlus:Solo EraPlus:Surf EraPlus:Tide EraPlus:Wisk Solo:Solo Solo:Surf Solo:Tide Solo:Wisk Surf:Surf Surf:Tide Surf:Wisk Tide:Tide Tide:Wisk Wisk:Wisk Point est. 97.5% quantile 1.01 1.03 1.01 1.03 1.01 1.02 1.01 1.04 1.01 1.02 1.03 1.10 1.08 1.26 1.03 1.10 1.03 1.10 1.01 1.04 1.04 1.12 1.03 1.09 1.04 1.12 1.04 1.13 1.02 1.09 1.03 1.11 1.01 1.03 1.03 1.11 1.02 1.04 1.01 1.02 Multivariate psrf 1.11+0i Prof. Lídia Montero – Esteve Codina © Pàg. 5-105 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R > gelman.plot( mcoda, transform=TRUE, ylim=c(1,1.2) ) Esperando para confirmar cambio de página... Esperando para confirmar cambio de página... > Prof. Lídia Montero – Esteve Codina © Pàg. 5-106 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO Los modelos lineales generalizados con respuesta binaria o politómica son el referente para el tratamiento estadístico de los modelos de efectos fijos de selección de alternativas discretas. Los modelos de selección de alternativas discretas y efectos aleatorios permiten modelizar las preferencias individuales e incluir variables subjetivas. El tratamiento más prometedor dentro del análisis de la demanda en planificación del transporte viene del modelo logit mixto. Denominado por muchos expertos como el modelo del nuevo milenio ha sido propuesta por dos grupos de investigación que trabajaban en paralelo, el grupo del MIT (Ben Akiva & Bolduc, 1996) y el grupo de Berkeley (Mc Fadden & Train, 2000). La función de utilidad aleatoria para una alternativa se puede expresar como una combinación lineal (algunos autores consideran la posibilidad de cualquier función, nosotros no) de variables explicativas (comunes o específicas de alternativa) con coeficientes no fijos, sinó aleatorios dependientes del individuo (éso sí, con una cierta distribución de probabilidad en la población), más una componente aleatoria de error no observado con distribución i.i.d. Gumbel independiente de la distribución de los coeficientes, U ij = α j + β Ti x j ( con x j = x1 T K x p ) el vector de variables explicativas del individuo en la alternativa j y β i el vector de coeficientes desconocidos que varían según el individuo. Prof. Lídia Montero – Esteve Codina © Pàg. 5-107 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO La variabilidad de β i induce correlación entre las opciones. El vector coeficientes para un individuo se puede expresar como la suma de la media poblacional β (desconocida) más la perturbación del individuo reescribir la utilidad (prescidiendo de las constantes específicas de la alternativa) como: ( U ij = β Ti x j + ε ij = β + ηi )x T j + ε ij = β T x j + ηTi x j + ε ij = β T x j + { observable η i y de ahí ηTi x j + ε ij 1424 3 aleatoria ≡ no observable La componente aleatoria refleja la asociación entre alternativas debido a la influencia de η i y resulta posible conseguir un patrón muy general de correlaciones, variaciones de gusto y heterocedasticidad con la correcta especificación de los parámetros y las variables. Si β i , ε ij se distribuyen según leyes normales multivariantes entonces sería un model probit de efectos aleatorios. Sea la distribución de β i ≈ f (β, τ ) , dependiente de un parámetro de media y desviación (posición y escala, en general). Habitualmente se supone una distribución normal o lognormal (facilita la restricción en signos de los coeficientes). Mc Fadden y Train han demostrado que cualquier modelo de selección de alternativas discretas basado en la maximización de la utilidad aleatoria puede aproximarse con la formulación logit mixta. Por ejemplo, un modelo HL (heterocedástico) se puede obtener definiendo una variable artificial (dummy) para cada nodo y permitiendo una variación aleatoria sobre los coeficientes de las dummies, de manera que se induce una correlación en la componente no observada de la utilidad a nivel de nodo y en cambio entre nodos no existen correlaciones. Prof. Lídia Montero – Esteve Codina © Pàg. 5-108 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO La idea simplificada del modelo logit mixto es que las probabilidades de las alternativas se obtienen integrando las probabilidades ponderadas por la densidad de probabilidad de β i ≈ f (β ) , ésto en Estadística es una mixed function. El mixed logit es una mixtura de la función logit evaluada en distintos β i con la mixing distribution f (β ) . π ij = ∫ L (β ) f (β )d β ij con Lij (β ) = exp(Vij (β )) ∑ exp(V (β )) il l Mixed Logit Dada una muestra, la función de verosimilitud no tiene una expresión cerrada y por tanto no se puede determinar el máximo analítico y se recurre a las técnicas de Monte-Carlo, concretamente a la maximización de la logverosimilitud simulada (SLL). Esta técnica facilita estimadores consistentes y asintóticamente normales. Si f (β ) es una función degenerada con f (β ) = 1 para un único vector MN Logit clásico. β , entonces el modelo se convierte en el Si f (β ) es una función de probabilidad de una variable discreta con H valores, β h , f (β h ) = sh entoces aparecen los modelos latentes y las probabilidades se convierten en:  exp(Vij (β h ))   π ij = ∑ sh    h =1  ∑l exp(Vil (β h ))  H Prof. Lídia Montero – Esteve Codina © Pàg. 5-109 Curs 2.006-2.007 h = 1, K , H Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO Si f (β ) es la fdp de una normal multivariante f (β | b, τ ) entonces los parámetros de media y matriz de covarianzas son una incógnita que se deben estimar durante el proceso de ahí que la formulación clásica basada en maximización de la verosimilitud esté dando paso a la entrada de los esquemas bayesianos que ofrecen simultaneamente información sobre los parámetros de la f (β | b, τ ) y las β i . Si se supone que los coeficientes aleatorios son i.i.d, es decir, la matriz de covarianzas es diagonal con valor 2 constante s (desconocido), y esperanza bl entonces la fdp conjunta será producto de fdp de los partworths. El cálculo de la LogV Simulada resulta simple de implementar. Incluso se puede pensar en otros modelos que permitan garantizar el signo o acote los valores, para un partworth específico (se omite el subíndice l), la b y la s no son parámetros de posición o escala ahora, son útiles sencillamente: 1. β lognormal, es decir, log( β ) ≈ N (b, s ) . Las aplicaciones con Rayleigh suelen dar menos problemas. 2 2. β ≈ U [0, s ] o β ≈ U [b − s, b + s ] . 3. β triangular con moda b y rango entre b-s y b+s, con b y s valores a estimar. En la página personal de Kenneth Train se puede descargar software de libre distribución para la estimación SLL de modelos logit mixtos con distribución de los efectos aleatorios normal o lognormal, en GAUSS o MATLAB, mediante el esquema clásico y el paradigma bayesiano (Bayes jerárquico). Los paquetes comerciales ALOGIT y LIMDEP-NLOGIT/ACA ofrecen modulos de estimación rápidos y fiables para los modelos logit mixtos. Este último se puede descargar libremente, con restricciones de uso, en la página web que acompaña el texto de Hensher,Rose & Greene, Applied Choice Analysis (2005): http://www.cambridge.org/0521605776. Prof. Lídia Montero – Esteve Codina © Pàg. 5-110 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO 5-7.1 Definición y probabilidades de elección El modelo logit mixto se define sobre una forma funcional para las probabilidades individuales de elección y explicitamente un modelo logit mixto es todo aquel modelo cuyas probabilidades se pueden expresar como, π ij = ∫ L (β ) f (β | θ )d β con las probabilidades logit Lij (β ) = ij evaluadas en un punto concreto exp(Vij (β )) ∑l exp(Vil (β )) = ( exp β T x j ) ∑ exp(β x ) T l l β y la función densidad de probabilidad de los parámetros f (β | θ ) . ( ) Para simplificar la notación se va a denominar θ = β, τ al vector de los parámetros de posición y escala de los coeficientes aleatorios. La utilidad se ha notado sin constantes específicas, ni variables explicativas asociadas a características de los individuos para relajar la notación. Por tanto, el logit mixto es una suma ponderada según la distribución de los parámetros de las probabilidades logit. Existen dos conjuntos de parámetros a estimar: • Los parámetros de posición y escala de la función fdp f (β | θ ) : θ = (β, τ ) . No siempre suelen ser de interés. • Los partworths β i que aparecen en la fórmula logit. Los parámetros β i juegan un papel semejante a los errores de la componente no observable de la utilidad ambos términos deben integrarse para obtener las probabilidades de selección de cada alternativa e individuo. Prof. Lídia Montero – Esteve Codina © Pàg. 5-111 Curs 2.006-2.007 ε: Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO El modelo logit mixto puede derivarse del paradigma de maximización de utilidad a partir de la perspectiva de los coeficientes aleatorios. El individuo i se enfrenta a J posibles alternativas y la utilidad de la alternativa j se define como: U ij = β Ti x j + ε ij donde β Ti es el vector de coeficientes que acompañan la utilidad observada, variables según el individuo lo que permite representar los gustos personales, con una fdp T El individuo conoce su β i y su U ij > U il f (β | θ ) y ε ij son los errores i.i.d. Gumbel. ε ij para todas las alternativas disponibles y selecciona la j-ésima si y sólo si ∀ l≠ j . T Por tanto si β i fuera observable, las probabilidades serían las logit estándard, es decir, la probabilidad de π ij (β i ) = ( T selección condicionada a β i es exp β Ti x j ( ) ∑l exp β x l T i ) → π ij ( ) =∫ f (β | θ )d β ∑ exp(β x ) exp β T x j T l l . El planificador fija la distribución de probabilidad de los coeficientes aleatorios, habitualmente normal o lognormal y se deben estimar sus parámetros triangular recientemente. Prof. Lídia Montero – Esteve Codina © θ. También se han usado la distribución Rayleigh, uniforme y la Pàg. 5-112 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO El modelo logit mixto puede emplearse sin una interpretación subyacente de coeficientes aleatorios y simplemente representar componentes del error que creen correlaciones entre las utilidades de distintas alternativas, de ahí que la utilidad se especifique desde este punto de vista, U ij = β T x j + ν iT z j + ε ij donde x i , z j son los vectores de variables de la utilidad observada, β son coeficientes ν i son coeficientes aleatorios variables según el individuo lo que permite representar los gustos personales, con una fdp ν i ≈ f (0, D ) y ε ij son los errores i.i.d. Gumbel, independientes de ν i . fijos y Por tanto, la parte no observable y por tanto estocástica de la utilidad es ηij = ν iT z j + ε ij , en función de z j se pueden definir asociaciones entre alternativas. • En el modelo logit estàndard: z j = 0 → cov(η ij ,η il ) = 0 • Si z j ≠ 0 → cov(η ij ,η il ) = z j Dz l T j≠l. ( ) 2 j ≠ l y V (η ij ) = z jT Dz j + π 2 6 . Aunque D = σ ll sea diagonal, es decir los términos aleatorios no correlacionados con varianzas distintas, las alternativas están correlacionadas. 5-7.2 Ejemplo Logit Jerárquico como caso particular Logit Mixto Por ejemplo, el modelo logit jerárquico con dos niveles no forzosamente binarios podría formularse en un esquema logit mixto especificando una variable dummy para cada nodo con 1s para todas las alternativas de ese nodo y ceros en el resto de alternativas. Sería necesario crear el factor Nodo e incluirlo como efecto aleatorio, centrado en 0 y distribuido normalmente. Prof. Lídia Montero – Esteve Codina © Pàg. 5-113 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO Sea d jm = 1 si la alternativa m pertenece al nodo j y 0 de otro modo. Supóngase que ( ) νij ≈ f 0, σ 2j , entonces ηim = ν Ti z m + ε im = νij d jm + ε im . • Ahora si dos alternativas pertenecen al mismo nodo, sean m y m’ en el nodo j, entonces su covarianza es: cov(ηim ,ηim' ) = cov( νij d jm + ε im , νij d jm' + ε im' ) = σ 2j • Ahora si una alternativa m pertenece al nodo j, entonces su varianza es: ( V (ηim ) = cov(ηim ,ηim ) = cov( νij d jm + ε im , νij d jm + ε im ) = σ 2j + π 2 6 ) • Ahora si dos alternativas pertenecen al mismo nodo, sean m y m’ en el nodo j, entonces su correlación es: ( ( corr (ηim ,ηim' ) = σ 2j σ 2j + π 2 6 )) • Ahora si dos alternativas pertenecen a distintos nodos, sean m y m’ en los nodos j y j’, entonces su covarianza es: cov(ηim ,ηim' ) = cov( νij d jm + ε im , νij 'd j 'm' + ε im' ) = 0 Prof. Lídia Montero – Esteve Codina © Pàg. 5-114 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO 5-7.3 Patrones de sustitución El cociente de probabilidades entre dos alternatives, j y k, depende de todos los datos, incluyendo los atributos de alternativas distintas de j y k: los denominadores de la fórmula logit están dentro de la integral y por tanto no se cancelan, la elasticidad cruzada de la alternativa j ante un cambio del parámetro l de la alternativa k tiene por expresión: ∂π ij xikl 1 =− ∂xikl π ij π ij ( exp β T x ij ∫β ∑ l ( ) T exp β x im m ( exp β T x ik )∑ ( ) T exp β x im m ) f (β | θ)d β El porcentaje de cambio en la probabilidad de la alternativa j al cambio en la variable l-ésima de la alternativa k depende de la correlación entre las alternativas para distintos valores del parámetro β , la cual viene especificada por el planificador a través de la especificación de las variables que intervienen en la utilidad sistemática y el patrón de mixtura que refleja la fdp especificada para los coeficientes aleatorios. Prof. Lídia Montero – Esteve Codina © Pàg. 5-115 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO 5-7.4 Estimación del modelo logit mixto La estimación de los modelos logit mixtos se realiza por simulación, ya que no existe una fórmula cerrada para la integral, π ij ( ) = ∫ L (β ) f (β | θ )d β = ∫ f (β | θ )d β ∑ exp(β x ) exp β T x ij ij T l il Las probabilidades se pueden aproximar por simulación para cualquier valor θ fijado, de hecho el algoritmo podría ser: 1. Extraer β r un vector aleatorio con componentes distribuídas f (β | θ ) . 2. Calcular el cociente logit ( ) Lij β r . 3. Repetir los pasos 1 y 2, R veces (varios millares de veces). ( ) 1 R r π̂ = L β ∑ ij ij 4. La probabilidad simulada es la media de los cocientes logit: . Es un estimador consistente, R r =1 no sesgado, dos veces diferenciable en θ y que facilita una logverosimilitud simulada SLL(θ ) = ∑∑ dij log (πˆ ij ) con d ij = 1 si el individuo i elige la alternativa j y 0 de otro modo. J i j =1 El estimador máximo verosimil simulado (MSLE) es el vector θ̂ que maximiza Prof. Lídia Montero – Esteve Codina © Pàg. 5-116 SLL (θ ) . Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO 5-7.5 Correlación entre selecciones individuales: repeated choices El modelo logit mixto puede capturar la asociación entre respuestas del mismo individuo que suele darse en encuestas de preferencias declaradas o sencillamente pensar en los datos como un panel, no cross-sectional. Sea la utilidad de la alternativa j en la situación de elección t para la persona i, U ijt = β Ti x jt + ε ijt , condicional a β i , la probabilidad de la secuencia de elecciones del individuo i se puede expresar como producto de las probabilidades de cada situación de elección: T LijT (β ) = ∏ t =1 Se supone que los ε ijt ( exp β T x jt ∑ exp(β l T ) x lt ) son independientes dentro de cada tiempo, es decir que la utilidad en la situación t presenta una componente de errores no observables i.i.d. Gumbel estándar, es decir ( ) COV ε ijt , ε ilt = 0 ∀t . En prácticamente todas las aplicaciones, β i se consideran fijos para un individuo en todo instante t, pero se puede emplear la idea de una variación del gusto aleatoria que dependa del instante para cada individuo de manera muy cómoda en el esquema logit mixto. Por ejemplo una correlación serial entre las situaciones de elección de una persona y con β i escalar: ( ) U ijt = βit xijt + ε ijt = b + ηit xijt + ε ijt ηit = ρ ηit −1 + µit µit i.i.d y b efecto fijo (a estimar). Prof. Lídia Montero – Esteve Codina © Pàg. 5-117 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO La simulación de las probabilidades para cada individuo i, alternativa j y situación de elección t seguiría un esquema: 1. Calcular un valor aleatorio µi1r para el primer instante y calcular la probabilidad logit condicionada a µir2 para el segundo instante y calcular la probabilidad logit condicionada a βir1 = b + µir1 . 2. Calcular un valor aleatorio βir2 = b + ρ µir1 + µir2 . 3. Continuar para t=3,...,T y al final calcular el producto de las T probabilidades logit. 4. Repetir los pasos 1 a 3, r=1,...,R. 5. Promediar los R resultados. Si el número de variables explicativas es superior a 1 (lo habitual) y T es grande, el coste computacional puede ser muy elevado, pero es la única tentativa disponible. Las probabilidades resultantes del procedimiento anterior se usan para calcular la log verosimilitud simulada y en un proceso iterativo guiado por un método de optimización se conseguirá determinar los valores b y ρ. Este es el esquema clásico: maximización de la log verosimilitud que suele presentar problemas numéricos que pueden superarse saltando a un esquema bayesiano, tanto más eficiente como más compleja sea la estructura de covarianzas modelada, en estas técnicas el proceso de optimización se sustituye por el cálculo numérico de esperanzas matemáticas. Prof. Lídia Montero – Esteve Codina © Pàg. 5-118 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS La estimación de los modelos discretos involucrados en el análisis desagregada de la demanda de transporte (también extensible a otras aplicaciones de carácter econométrico) son objeto de estudio y aplicación de procedimientos de estimación, selección y diagnosis de modelos estadísticos de regresión lineal generalizada (con respuesta de la familia exponencial) sin/con efectos aleatorios. El problema de la comprensión estadística de los modelos y de la disponibilidad de software para su estimación han sido históricamente las principales dificultades de la perspectiva desagregada en el análisis de la demanda. La especificación del modelo es una parte que concierne más al ingeniero de transporte, ya que tiene que identificar en el contexto del estudio concreto cuáles son las opciones o alternativas disponibles por los usuarios, es lo que se denomina en terminología anglosajona: choice-set determination. Las alternativas a considerar tienen que ser todas las posibles a considerar por los usuarios, consciente o inconscientemente; ya que la reducción del conjunto posible de alternativas (por carecer de importancia aparente algunas de ellas o para simplificar el proceso de estimación) casi siempre conduce a la formulación y estimación de modelos que resultan sesgados. La formulación de los modelos discretos de selección de alternativas en planificación depende en gran medida de: o Formación del ingeniero, conjuntamente con el tiempo y recursos disponibles para la etapa modelística. o El grado de interrelación entre las alternativas disponibles (a más interelación, más complejidad es requerida). o La precisión requerida para las predicciones. Prof. Lídia Montero – Esteve Codina © Pàg. 5-119 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS 5-8.1 Especificación: determinación del conjunto de alternativas disponibles Esta etapa tiene que resolver cuáles son realmente todas las alternativas disponibles para cada individuo de la muestra y es un trade-off entre realismo y complejidad modelística. En los modelos de reparto modal el número de alternativas no suele ser demasiado grande, sin embargo, en los modelos de distribución donde la alternativa es la zona de transporte de destino, el conjunto de alternativas puede ser muy grande. Las posibilidades son: 1. Especificar el subconjunto de alternativas efectivas en la muestra disponible (trabajo de campo). 2. Especificar para cada individuo todas las posibles alternativas existentes, independientemente de si son realistas o no se han constatado en el trabajo de campo. 3. Efectuar una agregación que lleve a una jerarquía de decisiones. 4. Obtener información individual directamente de la muestra, preguntando a los individuos por su percepción de las opciones disponibles. 5. Considerar el proceso de decisión dividido en dos etapas: una primera etapa para determinar el subconjunto de alternativas disponibles (reglas de decisión compensatorias y no compensatorias) y el segundo, establecer las probabilidades para las alternativas disponibles. Prof. Lídia Montero – Esteve Codina © Pàg. 5-120 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS 5-8.2 Estimación de los modelos desagregados: verosimilitud (simulada) · La forma funcional de la utilidad observada es una combinación lineal de variables explicativas. Las variables T T explicativas xij = (x1 K x p ) en Vij = xij β j pueden ser: • Variables cuantitativas. • Transformaciones de variables cuantitativas. • Regresores polinómicos formados a partir de variables cuantitativas. • Variables mudas (dummies) que representan variables cualitativas. • Variables mudas que representan interacciones entre variables cualitativas o cuantitativas. La estimación de los parámetros a partir de una muestra aleatoria se realiza por maximización de verosimilitud. Sea l(θ,φ , y ) , la función de log-verosimilitud de una observación de Y de distribución caracterizada por parámetros de posición y escala θ, φ . Algebraicamente, la función de verosimilitud L(θ,φ , y ) = f Y ( y ,θ , φ ) tiene f Y ( y ,θ,φ ) , únicamente el cambio de orden de los parámetros enfatiza el contexto de estimación de los parámetros dada la observación y. El máximo de l(θ,φ , y ) coincide con el máximo de la función de verosimilitud L(θ,φ , y ) puesto que la función logaritmo es monótona. la misma estructura que Prof. Lídia Montero – Esteve Codina © Pàg. 5-121 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS Las propiedades más representativas de los estimadores máximo verosímiles son: • Son asintóticamente centrados: [] Ε βˆ = β . Para muestras pequeñas suelen ser sesgados. • Son asintóticamente normales. La varianza del estimador MV (intuitivamente la variabilidad del máximo de L(θ,φ , y ) ( ) o l θ,φ , y en distintas muestras) es inversamente proporcional a la curvatura observada: si la curvatura es grande, el máximo está bien definido por los datos y varia poco de muestra en muestra (poca varianza del estimador, hessiana de la log-verosimilitud con valores propios muy negativos), si por el contrario l(θ,φ , y ) la curvatura es pequeña, la función es muy plana en el máximo y pequeñas variaciones muestrales modificarán mucho su posición (varianza elevada del estimador, hessiana de la log-verosimilitud con valores propios poco negativos) . No confundir curvatura con condicionamiento de la hessiana ¡!! ( ) Fisher denominó información observada a menos la segunda derivada de l θ,φ , y en el máximo (menos la hessiana en el caso multivariante) y es la inversa de la varianza asintótica del estimador. La varianza [ ] 2 estimada del estimador máximo verosímil es, V[θ MV ] = − ∇ θ l(θ MV ,φ , y ) Asintóticamente se verifica, Prof. Lídia Montero – Esteve Codina © V[θ MV ] − 1 2 −1  ∂ 2 l(θ MV ,φ , y ) = −  θ θ ∂ ∂ i j   −1 = IO(θ MV ) . 1 2 (θ − θ MV ) = IO(θ MV ) (θ − θ MV ) → N(0, I ) Pàg. 5-122 Curs 2.006-2.007 −1 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS • Son asintóticamente eficientes, es decir, de mínima varianza (definida por la cota de Cramer-Rao en modelos que satisfacen ciertas condiciones de regularidad). [ ] V[θ MV ] = − Ε ∇ 2θ l(θ V ,φ , y ) −1 = I E(θ ) −1 −1  ∂ 2 l(θ V , φ , y ) = Ε−  . ∂θ i ∂θ j   ( ) La matriz de información esperada de Fisher se ha notado por IE θ = ℑ . • Son invariantes, si h(θ ) es una función del estimador, entonces el estimador MV de h(θ ) es h(θ MV ) . La normalidad de los estimadores MV, ( ) θˆ ≈ N p θ , IE (θ ) , bajo ciertas condiciones de regularidad en muestras −1 grandes ofrece la base para construir test de hipótesis a través del denominado estadístico de Wald: ) [ ] (θˆ − θ ) ( T ˆ ˆ W = θ − θ Η : θ = θ • 0 V θ 0 0 por • T T T Si θ = (θ 1 , θ 2 ) con dim( θ • Si dim( θ 2 )=1 entonces Η 0 : 2 [] −1 () () −1 ≈ χ p2 . Donde V θˆ = IE (θ ) ≈ IE θˆ ≈ IO θˆ . 0 [ ] θˆ ˆT ˆ )=q<p i Η 0 : θ 2 = 0 entonces W = θ 2 V θ 2 −1 2 ≈ χ q2 . θ 2 = 0 se toma la raíz cuadrada del estadístico de Wald y se trata habitualmente el cociente como una normal estándar: z = θˆ2 [ ] V θˆ ≈ N (0, 1) . 2 Prof. Lídia Montero – Esteve Codina © Pàg. 5-123 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS Según Ortúzar, una guía práctica para examinar la coherencia de los valores estimados de los parámetros, se podría resumir genéricamente en la siguiente tabla: Variable Relevante de Política Adicional Significativamente distinta de 0 No significativamente distinta de cero o Signo correcto OK Mantener en el modelo Signo incorrecto Problema serio Problema Signo correcto Probar si es posible sacarla del modelo OK Signo incorrecto Sacar del modelo Sacar del modelo Si el trabajo de campo conduce a una muestra no aleatoria simple, es decir, una choice-based sample. Entonces los procesos estadísticos de estimación por verosimilitud se vuelven intratables, pero el usar los procedimientos como si la muestra fuera aleatoria conduce a inconsistencias en los estimadores. Si se conoce la proporción poblacional para cada alternativa, entonces es posible establecer ponderaciones o pesos a los individuos de la muestra no aleatoria y con éstos entrar en un procedimiento standard de estimación MV. El peso de cada individuo es el cociente entre la proporción poblacional y la proporción muestral de la alternativa seleccionada. Prof. Lídia Montero – Esteve Codina © Pàg. 5-124 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-9. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD En los modelos desagregados de demanda bajo el paradigma de la utilidad aleatoria, el problema de la agregación consiste en obtener a partir de modelos individuales, medidas agregadas esperadas de comportamiento en la población (no en una muestra), como la cuota de mercado de algún modo público o los volúmenes en los arcos, etc. El uso de variables promedio (por zonas de transporte) en el proceso de estimación de los parámetros en los modelos desagregados lleva a la obtención de estimadores sesgados (Daly & Ortúzar, TEC-1990). En principio, el error de agregación puede reducirse técnicamento hasta no representar un problema, sin embargo, el coste de esa reducción implica un trade-off entre precisión y recursos invertidos para la correcta predicción agregada. Los métodos de agregación descritos en la literatura son: o Método naïve de uso de variables promedio en las ecuaciones de selección individuales. o Clasificación. o Enumeración explícita El método naïve consiste en reemplazar las variables contínuas de la utilidad de cada alternativa por sus valores promedio (zonales, por ejemplo si la agregación se desea a ese nivel). π ij = Ρi ( j ) = f (x ij ) → π a = f ( x j ) j Prof. Lídia Montero – Esteve Codina © Pàg. 5-125 Curs 2.006-2.007 Models Avançats de Demanda de Transport – MASTER LTM - UPC 5-11. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD Si f(.) es lineal entonces el promedio de las f’s coincide con la imagen de los promedios de las variables explicativas (contínuas por simplicidad). De otro modo, NO. Imaginemos un caso muy sencillo con una zona definida por 2 usuarios, 1 i 2, y una elección MNL, para la alternativa j: (π 1 j + π 2 j ) 2 = ( f (V1 j ) + f (V2 j ) ) 2 , pero π a = f ((V1j + V2 j ) 2) ≠ (π 1 j + π 2 j ) 2 j En general, para una población de M individuos la proporción de ellos que seleccionará la opción j es: π ij = Ρi ( j ) = f (x ij ) → π a = j 1 M ∑ i =1,K,M f (x ij ) Si la muestra de m individuos disponible es representativa, entonces el método se denomina de enumeración (sample enumeration) y da buenos resultados en predicciones a corto plazo. A medio y largo plazo, la muestra disponible seguro que ya no es representativa de la población en ese momento y por tanto, las predicciones resultan inválidas. π ij = Ρi ( j ) = f (x ij ) → π a = j 1 m ∑ i =1,K,m f ( x ij ) Los métodos de clasificación responden a una estratificación en la población y están relacionados con los procedimientos de recomposición por post-estratificación en Teoría del Muestreo. π ij = Ρi ( j ) = f (x ij ) → π a = ∑h=1,K,H MM f ( x hj ) h j donde Mh es el número de individuos por estrato en la población y x hj es el promedio de las variables explicativas en el estrato h-ésimo. Si H=1 entonces coincide con el método naïve y si H=m entonces coincide con el método de enumeración explícita. Prof. Lídia Montero – Esteve Codina © Pàg. 5-126 Curs 2.006-2.007

V - Departament d`Estadística i Investigació Operativa

Documentos relacionados

Productos

Apoyo

V - Departament d`Estadística i Investigació Operativa

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib