V - Departament d`Estadística i Investigació Operativa

Anuncio
MODELS AVANÇATS DE DEMANDA
DE TRANSPORT
MASTER DE LOGÍSTICA, TRANSPORT i MOBILITAT
MASTER D’ESTADÍSTICA i INVESTIGACIÓ OPERATIVA
APUNTS DE CLASSE PROF. LÍDIA MONTERO
TEMA 5: MODELS DE REPARTIMENT MODAL.
AUTORS:
Lídia Montero Mercadé – Esteve Codina Sancho
Departament d’Estadística i Investigació Operativa
Versió 1.0
Febrer del 2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
TABLA DE CONTENIDOS
5-1. MODELOS DE REPARTO MODAL: TIPOLOGÍA ___________________________________________________________________________________4
5-1.1 ELEMENTOS QUE INTERVIENEN EN EL REPARTO MODAL ________________________________________________________________________________4
5-1.2 LOS MODELOS AGREGADOS DE DISTRIBUCIÓN Y REPARTO MODAL _______________________________________________________________________8
5-1.2.1 EJEMPLO DE ORTÚZAR ET AL. 6.1 _________________________________________________________________________________________________15
5-1.2.2 EJEMPLO LOGIT MULTINOMIAL VS LOGIT CONDICIONAL _______________________________________________________________________________20
5-2. MODELOS DE DEMANDA DIRECTA_____________________________________________________________________________________________31
5-3. MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS _____________________________________________________________________32
5-3.1 INTRODUCCIÓN ________________________________________________________________________________________________________________32
5-3.2 TEORÍA DE LA UTILIDAD ALEATORIA ______________________________________________________________________________________________37
5-3.3 EJEMPLOS ____________________________________________________________________________________________________________________47
5-3.4 DEDUCCIÓN DEL MODELO LOGIT MULTINOMIAL _____________________________________________________________________________________51
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL______________________________________________________________________________53
5-4.1 PROPIEDADES DEL MODELO MNL _________________________________________________________________________________________________57
5-4.1.1 VARIACIONES INDIVIDUALES EN LOS GUSTOS ________________________________________________________________________________________57
5-4.1.2 PATRONES DE SUSTITUCIÓN ______________________________________________________________________________________________________59
5-4.1.2.1 Paradoja del autobús rojo-azul __________________________________________________________________________________________________60
5-4.1.2.2 Elasticidad directa y cruzada____________________________________________________________________________________________________62
5-4.1.3 BENEFICIO AL CONSUMIDOR (CONSUMER SURPLUS) ___________________________________________________________________________________63
5-4.1.4 ROL DEL TÉRMINO INDEPENDIENTE Y CHOICE-BASED SAMPLES __________________________________________________________________________64
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: HL (LOGIT JERARQUICO) _________________________________________________________66
5-5.1 FORMULACIÓN DEL MODELO LOGIT JERÁRQUICO ____________________________________________________________________________________66
5-5.2 MODELOS DE VALOR EXTREMO GENERALIZADO (GEV) _______________________________________________________________________________69
5-5.3 PROPIEDADES DEL MODELO LOGIT JERÁRQUICO (NESTED LOGIT) _______________________________________________________________________69
5-5.4 MNL LOGIT HETEROCEDÁSTICO__________________________________________________________________________________________________71
5-5.5 CASO PARTICULAR: ÁRBOL DE DOS NIVELES_________________________________________________________________________________________72
5-5.6 EJEMPLOS ____________________________________________________________________________________________________________________74
5-5.6.1 PROCESO SECUENCIAL DE ESTIMACIÓN DE LOS MODELOS LOGIT JERÁRQUICOS ______________________________________________________________77
5-5.6.2 OTROS PROCESOS DE ESTIMACIÓN DE LOS MODELOS LOGIT JERÁRQUICOS: FULL TREE LOGIT MODELS ____________________________________________78
5-5.7 INTRODUCCIÓN A LA TEORÍA DE LOS MODELOS GEV __________________________________________________________________________________81
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: OTROS PARADIGMAS _____________________________________________________________86
5-6.1 EL MODELO PROBIT MULTINOMIAL ________________________________________________________________________________________________86
5-6.2 PATRONES DE SUSTITUCIÓN NO IIA ________________________________________________________________________________________________90
5-6.3 VARIACIONES EN LOS GUSTOS NO OBSERVABLES (EFECTOS ALEATORIOS) ________________________________________________________________91
5-6.4 ESTIMACIÓN DE MODELOS PROBIT ________________________________________________________________________________________________94
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO ______________________________________________________________________107
5-7.1 DEFINICIÓN Y PROBABILIDADES DE ELECCIÓN ______________________________________________________________________________________111
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-2
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
TABLA DE CONTENIDOS
5-7.2 EJEMPLO LOGIT JERÁRQUICO COMO CASO PARTICULAR LOGIT MIXTO ________________________________________________________________113
5-7.3 PATRONES DE SUSTITUCIÓN _____________________________________________________________________________________________________115
5-7.4 ESTIMACIÓN DEL MODELO LOGIT MIXTO __________________________________________________________________________________________116
5-7.5 CORRELACIÓN ENTRE SELECCIONES INDIVIDUALES: REPEATED CHOICES ________________________________________________________________117
5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS ________________________________119
5-8.1 ESPECIFICACIÓN: DETERMINACIÓN DEL CONJUNTO DE ALTERNATIVAS DISPONIBLES ______________________________________________________120
5-8.2 ESTIMACIÓN DE LOS MODELOS DESAGREGADOS: VEROSIMILITUD (SIMULADA) ___________________________________________________________121
5-9. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD _______________________________________________________________125
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-3
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1. MODELOS DE REPARTO MODAL: TIPOLOGÍA
5-1.1
Elementos que intervienen en el reparto modal
Generación y
Los modelos de reparto modal son probablemente los más importantes
dentro del esquema de las cuatro fases.
El transporte público utiliza los recursos energéticos e
infraestructuras de manera más eficiente que el transporte privado y
son imprescindibles para garantizar la calidad de vida de los habitantes
de las ciudades medias y grandes, así como, satisfacer las cuotas de
reducción de emisiones contaminantes a la atmósfera debidas al tráfico
que han firmado los países europeos.
El reparto modal resulta importante en entornos urbanos, pero también
interurbanos.
Se han desarrollado modelos sensibles a los atributos o características
que influencian la elección individual del modo de transporte. Los
modelos agregados de reparto modal suelen revelar una precaria
validez.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-4
Atracción de Viajes
D
E
M
A
N
D
A
O
F
E
R
T
A
Distribución
Reparto Modal
Asignación
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.1 MODELOS DE REPARTO MODAL: CARACTERÍSTICAS A CONSIDERAR ...
La
•
•
•
•
•
selección del
modo
de
transporte
depende de las
características del
VIAJERO
Disponibilidad
vehículo
Renta
Estructura familiar
Densidad
residencial
Condicionantes del
resto del día
Prof. Lídia Montero – Esteve Codina ©
La
selección del
modo
de
transporte
depende de las
características
del MODO
• Tiempo de viaje
• Tiempo de espera
• Coste del viaje
• Coste y
disponibilidad
parking
• Confort
• Regularidad
• Seguridad
Pàg. 5-5
La selección del
modo
de
transporte
depende de las
características
del VIAJE
•
•
•
Motivo del viaje
Hora del día
Origen-Destino:
multietapas.
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.1 MODELOS DE REPARTO MODAL: CARACTERÍSTICAS A CONSIDERAR ...
Los modelos de reparto modal son agregados si las variables explicativas que intervienen en la selección modal se
consideran a nivel de zona de transporte o inter-zonas de transporte (por ejemplo: la densidad por zona o los
tiempos de viajes modales entre zonas).
Los modelos de reparto modal más obsoletos consideraron que las características más determinantes en el
reparto modal eran las del viajero y por tanto, estos modelos se aplicaban después directamente de la etapa de
generación/atracción de viajes y por tanto las características del viaje y del modo se omitían como variables
explicativas, incluyéndose a lo sumo la disponibilidad de transporte público como un índice de accesibilidad. Esto
resultó válido mientras el vehículo privado no estuvo al alcance de todo el mundo y no se daban índices elevados de
congestión.
En Europa, los modelos de reparto modal se aplicaron después de la etapa de distribución de los viajes y por tanto,
las características del viaje, del modo y la competencia entre modos, se tuvieron en cuenta, pero resultaba más
difícil de introducir las características del viajero, ya que éstas se habían agregado en la etapa de distribución
anterior. Los modelos pioneros fueron bimodales (público, privado) e incluyeron una o dos características del modo
y viaje como el tiempo de viaje o su coste generalizado y se observó una relación no lineal pero (monótona)
creciente entre la incidencia de uso de uno de los modos sobre el resto con respecto a la diferencia de tiempos (o
(
1
2
∆
x
=
−
γ
x
−
x
coste, genéricamente, variable explicativa x) entre los modos:
ij
ij
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-6
)
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.1 MODELOS DE REPARTO MODAL: CARACTERÍSTICAS A CONSIDERAR ...
Las curvas empíricas que se observaron a
partir de la captura de datos se denominaron
curvas de dispersión (diversion curves), dado
que al reparto modal se le atribuyó un mismo
comportamiento que a la selección de rutas
entre la tradicional y un bypass más largo, pero
más rápido. Por ejemplo, en Londres se
utilizaron curvas de dispersión público-privado
para modelizar los viajes con destino al Centro
y fuera del Centro para los distintos motivos
de desplazamiento.
Probabilidad modo 1
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
logit
probit
gompit
cloglog
-3
.6
-3
.2
-2
.8
-2
.4
-2
.0
-1
.6
-1
.2
-0
.8
-0
.4
0.
0
0.
4
0.
8
1.
2
1.
6
2.
0
2.
4
2.
8
3.
2
3.
6
4.
0
Si xij1 < x ij2 entonces p ij1 > p ij2.
Si x ij1 > x ij2 entonces p ij1 < p ij2.
Si x ij1=x ij2 entonces p ij1=p ij2=0.5
Técnicamente son poco sensibles a políticas de tarifas de transporte público, parking, etc ya que al ser modelos
agregados las respuestas individuales de los viajeros ante cambios en política tarifaria resultan mal modelados.
Las curvas logit se validaron contra la recogida de datos y surgen en el contexto de modelos de regresión
generalizados con respuesta binaria, diferencia de tiempos (i,j) modales y función de enlace logít o lo que es
equivalente una formulación en variable latente logística obtenida a partir de diferencias de tiempos OD modales
con distribución de valor extremo máximo (ley de Gumbel, relacionada con la denominada log Weibull en contextos
de fiabilidad y supervivencia, y con leyes de valor extremo mínimo o Gompertz para los estadísticos).
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-7
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.2 ... REPARTO MODAL: MODELOS SINTÉTICOS
5-1.2
Los modelos agregados de distribución y reparto modal
Se pueden argumentar a partir de los modelos de maximización de entropía vistos en el apartado de modelos de
distribución de viajes: en un contexto bimodal,
(
( )
∑g
= Op ,
∀p ∈ I
∑g
= Dq ,
∀q ∈ J
m
m
m
MAX H(g) = −∑ ∑ gpq
log gpq
− gpq
m
m
pq
s.t.
(p,q )
)
q,m
m
pq
p,m
m
m
m
g
C
=
C,
g
∑ ∑ pq pq
pq ≥ 0, ∀p ∈ I, ∀q ∈ J, m = 1,2
m
(p,q )
Es un problema de optimización convexo cuya función lagrangiana es:
(
( )− g )
L(g, α,β, γ ) = −∑ ∑ g log g
m (p,q )
m
pq
m
pq
m
pq




m
m 
m
m 





+∑ α p  Op − ∑ gpq  + ∑ β q  D q − ∑ gpq  + γ C − ∑ ∑ gpqCpq 
p
j,k
q,m
m (p,q )





 q
Donde las alfas y las betas representan respectivamente a los multiplicadores de Lagrange de las restricciones de
generación y atracción total de las zonas y γ es el multiplicador de Lagrange de la restricción de coste total. Las
condiciones de optimalidad de primer orden requieren que se anule de gradiente de la lagrangiana:
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-8
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.2 ... REPARTO MODAL: MODELOS SINTÉTICOS
∂L
m
m
m
m
=
⇒
=
−
−
−
⇒
=
−
−
−
0
log
g
α
β
γC
g
exp
α
β
γC
pq
p
q
pq
pq
p
q
pq
m
∂gpq
( )
{
Y efectuando los cambios habituales de :
puede expresarse como:
{
m
m
gpq
= ApOp B qDqexp − γCpq
exp(- αp ) = Ap Op ∀p∈I, exp(- β q ) = B qD q ∀q∈J
}
la solución
}
Los coeficientes de balanceado As y Bs pueden calcularse con el algoritmo de Furness modificado y un valor inicial
del parámetro a calibrar γ que sea la inversa del coste generalizado medio entre zonas.
El reparto (bi)modal resultante es:
P =
1
pq
g1pq
2
g1pq + gpq
=
{
{
}
}+ exp{− γC }
exp − γC1pq
exp − γC1pq
2
pq
En este modelo el parámetro γ juega un rol doble: actúa como parámetro de control de la dispersión en el reparto
modal (inversamente proporcional al parámetro de escala de la ley logística) y también modela la selección de
destinos en función del coste generalizado (p, q). Eso es demasiado para un único parámetro y en la práctica los
modelos conjuntos de distribución y reparto modal empleados tienen formas más complejas. Primero, extendiendo
a la posibilidad de M modos en competencia:
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-9
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.2 ... REPARTO MODAL: MODELOS SINTÉTICOS
{
}
g1pq
exp − γC1pq
P = 1
=
M
gpq + K + gpq
∑ exp − γCpqk
1
pq
{
}
∀p∈I, ∀q∈J
k
Después considerando una tipología de viajeros según sus características socio-económicas, que define H estratos
y definiendo el coste ponderado por modos de viaje entre (p, q) por estrato h como
m,h
pq
g
{
= A O B qDq exp − γ hK
h
p
h
p
h
pq
}
{
m
exp − γ h Cpq
{
∑ exp − γ hC
}
k
pq
}
donde
k
K hpq
m,h m,h
K hpq = ∑ ppq
Cpq
m
y
m,h
p pq
son
proporciones a priori (estudio anterior) de selección del modo m por el estrato h en la relación OD (p, q)
Reparto modal multimodal: Multimodal split
Son modelos agregados que pueden deducirse a partir de la formulación de entropía (ver apartado 0) y la
hipótesis de independencia entre modos, en que la probabilidad de seleccionar el modo m se puede expresar como,
P =
m
pq
m
gpq
g +K+ g
1
pq
M
pq
=
{
m
exp − γCpq
}
∑ exp{− γC }
k
pq
∀p∈I, ∀q∈J, ∀m=1...M
k
Este modelo se denomina logit multinomial
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-10
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS
Los modelos agregados más sencillos de reparto modal son los modelos logit multinomiales que a decir verdad no
pueden reflejar toda la complicación que implica la selección entre M modos en un entorno. Genéricamente la
elección modal podría estructurarse a nivel conceptual de muy diferentes maneres:
· Por ejemplo, M=4
1 2 3 4
↓
1
2
1 2
3 4
↓
↓
1
2
3
3
4
1
2 3 4
↓
4
2
3 4
↓
3
4
La jerarquía de dicotomías es una alternativa natural y atractiva cuando las categorías de la politomía
representan un proceso ordenado de selección independiente estadísticamente, por ejemplo, en un proceso de
·
selección modal de alternativas de transporte en la ciudad de Barcelona, un viajero podría concebir el siguiente
proceso de selección de modo de transporte,
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-11
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS
Privado
Colectivo
↓
Auto
↓
Taxi
Bus
Infraestrura Fija
↓
Metro
Renfe
·
Veamos un ejemplo de sentido común que justifique la importancia de la independencia de las alternativas
por niveles a la hora de poder formular un modelo jerárquico consistentemente. El Ejemplo procede de Mayberry
(1973).
Supóngase los habitantes de una ciudad pequeña que dispone de una única línea de autobús, no existen otros
modos de transporte colectivo, y la única alternativa de transporte mecanizado disponible es el transporte
privado (en alguna de sus modalidades que se consideran agrupadamente).
Un estudio determina que la probabilidad de seleccionar un modo privado o el autobús para ir al centro de compras
son equiprobables: P(privado)=0.5 y P(bus)=0.5 (odds de privado vs bus = 1).
Supóngase que un intento de incrementar el uso del autobús lleva pintar la mitad de la flota de rojo, y la otra
mitad de azul, el nivel de servicio de la línea se mantiene igual. La selección modal por sentido común tendría que
ser:
P(privado)=0.5 , P(bus rojo)=0.25 y P(bus azul)=0.25.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-12
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS
Selección Modal al Centro
Selección Modal al Centro
↓
↓
Privado
Bus Rojo
Bus Azul
Privado
Bus
0.5
0.25
0.25
Sentido Común
0.5
0.33
0.33
0.33
MNL
Rojo
Azul
0.5
0.5
↓
El problema es que el modelo de respuesta multinomial, no jerárquico no es adecuado, ya que los odds entre 2
categorías (modos) únicamente dependen de los costes de las 2 categorías, no se ve afectados por el coste de
ninguna otra categoría, pero ésto es un problema si existen alternativas correlacionadas como es el caso de bus
rojo y bus azul.
En efecto, los odds entre categorías se mantienen constantes, tal como eran antes de la brillante idea de pintar
de 2 colores la flota, (odds de privado vs bus rojo = 1, privado vs bus azul = 1 y bus rojo vs bus azul = 1). Un
modelo jerárquico mantendría el sentido común: odds de privado vs bus = 1 y en el segundo nivel, odds de bus rojo
vs bus azul = 1. Las alternativas se agrupan en bloques de alternativas asociados o similares, no pueden haber
alternativas de un grupo correlacionadas con alternativas de otro grupo.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-13
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS
En apartados posteriores se ilustrará la práctica de la estimación de un modelo jerárquico donde cada etapa
contiene un modelo logit multinomial, en un supuesto concreto de selección de modo de transporte entre auto
privado (C) , autobús (B) y metro (M), donde las 2 categorías de transporte colectivo se suponen correlacionadas.
Modelo MNL no jerárquico
Modelo Jerárquico
↓
Auto
Bus
↓
Metro
Auto
Transporte Colectivo
↓
(No válido para alternativas
correlacionadas)
Bus
Metro
Técnicamente, estos modelos agregados de reparto modal son modelos lineales generalizados de respuesta
politómica multinomial. La práctica se simplifica notablemente si se trabaja con dicotomías en cada nodo de la
estructura de selección modal propuesta, ya que entonces los modelos estadísticos involucrados son modelos
generalizados de respuesta binaria agregada (es decir, binomial), con procedimientos de estimación disponibles en
todos los paquetes estadísticos y de planificación del transporte.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-14
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS
5-1.2.1
Ejemplo de Ortúzar et al. 6.1
Se dispone de los datos de una encuesta de selección modal entre automóvil y tren en un corredor que conecta 4
zonas residenciales (A,B,C,D) y 3 zonas con alta actividad económica (U, V, W). El servicio de tren del corredor es
muy bueno, pero el de coche sufre de fuertes congestiones resultando a menudo más rápido el tren que el coche
privado.
Se recoge información sobre INVEHTT (in vehicle travel time en min), EXCTT (tiempo a pie más de espera en
min), TCOST (coste del viaje en peniques, gasolina o tarifa según el caso), PKCOST (tarifa del parking asociada
con un viaje en peniques). Los datos se han introducido en R:
> bimodal
1
2
3
4
5
6
7
8
9
10
11
12
od.pair car.invehtt car.exctt car.tcost car.pkcost train.invehtt train.exctt train.tcost train.pkcost pcar_train
A.U
23
3
120
40
19
10
72
0
0.82
B.U
20
3
96
40
17
8
64
0
0.80
C.U
18
3
80
40
14
10
28
0
0.88
D.U
15
3
68
40
14
12
20
0
0.95
A.V
26
4
152
60
23
10
104
0
0.72
B.V
19
4
96
60
18
9
72
0
0.90
C.V
14
4
60
60
11
9
36
0
0.76
D.V
12
4
56
60
12
11
28
0
0.93
A.W
30
5
160
80
25
10
120
0
0.51
B.W
20
5
100
80
16
8
92
0
0.56
C.W
15
5
64
80
12
9
36
0
0.58
D.W
10
5
52
80
8
9
24
0
0.64
> summary(bimodal)
od.pair
A.U
:1
A.V
:1
A.W
:1
B.U
:1
B.V
:1
B.W
:1
(Other):6
car.invehtt
Min.
:10.00
1st Qu.:14.75
Median :18.50
Mean
:18.50
3rd Qu.:20.75
Max.
:30.00
car.exctt
Min.
:3
1st Qu.:3
Median :4
Mean
:4
3rd Qu.:5
Max.
:5
Prof. Lídia Montero – Esteve Codina ©
car.tcost
Min.
: 52
1st Qu.: 63
Median : 88
Mean
: 92
3rd Qu.:105
Max.
:160
car.pkcost
Min.
:40
1st Qu.:40
Median :60
Mean
:60
3rd Qu.:80
Max.
:80
train.invehtt
Min.
: 8.00
1st Qu.:12.00
Median :15.00
Mean
:15.75
3rd Qu.:18.25
Max.
:25.00
train.exctt
Min.
: 8.000
1st Qu.: 9.000
Median : 9.500
Mean
: 9.583
3rd Qu.:10.000
Max.
:12.000
Pàg. 5-15
train.tcost
Min.
: 20
1st Qu.: 28
Median : 50
Mean
: 58
3rd Qu.: 77
Max.
:120
train.pkcost
Min.
:0
1st Qu.:0
Median :0
Mean
:0
3rd Qu.:0
Max.
:0
pcar_train
Min.
:0.5100
1st Qu.:0.6250
Median :0.7800
Mean
:0.7542
3rd Qu.:0.8850
Max.
:0.9500
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL.
1. Estimar el modelo logit de reparto modal asumiendo que el valor del tiempo es de 8 peniques por minuto y que el
valor del tiempo adicional (car.exctt o train.exctt) es el doble.
2. Estimar el impacto en el reparto modal para cada pareja OD de un incremento de los precios de la gasolina que
doblase el coste del viaje en coche pero no alterara la tarifa de tren.
3. Estimar cual sería el trasvase de viajes del coche al tren si la tarifa del tren fuera gratuïta.
bimodal$dinvehtc <- bimodal$car.invehtc - bimodal$train.invehtc
bimodal$dexctc<- bimodal$car.exctc - bimodal$train.exctc
bimodal$dtcost<- bimodal$car.tcost - bimodal$train.tcost
bimodal$dpkcost<- bimodal$car.pkcost - bimodal$train.pkcost
resposta <- cbind( 100*pcar_train, 100*(1-pcar_train) )
> summary(m1)
Call:
glm(formula = resposta ~ dinvehtc + dexctc + dtcost + dpkcost,
family = binomial, data = bimodal)
Deviance Residuals:
Min
1Q
Median
-0.6230 -0.5210 -0.1814
3Q
0.1343
Max
1.4477
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.954013
0.948514
2.060 0.039391 *
dinvehtc
-0.029494
0.008490 -3.474 0.000512 ***
dexctc
-0.023840
0.008772 -2.718 0.006572 **
dtcost
-0.023844
0.011499 -2.074 0.038116 *
dpkcost
-0.021760
0.007237 -3.007 0.002639 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 143.9910
Residual deviance:
5.7255
AIC: 70.032
Prof. Lídia Montero – Esteve Codina ©
on 11
on 7
degrees of freedom
degrees of freedom
Pàg. 5-16
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL.
> # Estimar l'impacte d'augment del petroli que
porti a car.tcost a doblar-se
> pdf1 <- bimodal
> pdf1$dtcost<- 2*pdf1$car.tcost - pdf1$train.tcost
>
op1
<-predict(
m1,
newdata
=
pdf1,
type="response", se=T )
> cbind( op1$fit, pcar_train )
pcar_train
1 0.23220594
0.82
2 0.31668039
0.80
3 0.41641245
0.88
4 0.81976150
0.95
5 0.07312894
0.72
6 0.36781262
0.90
7 0.46129143
0.76
8 0.78844946
0.93
9 0.02128689
0.51
10 0.10326707
0.56
11 0.23820584
0.58
12 0.34514269
0.64
>
>
>
>
>
# Estimació de l'efecte de tarifa 0 en tren
pdf2 <- bimodal
pdf2$dtcost<- pdf1$car.tcost
op2 <-predict( m1, newdata = pdf2, type="response", se=T )
> cbind( op2$fit, pcar_train )
pcar_train
1 0.48715482
0.82
2 0.49848339
0.80
3 0.71143465
0.88
4 0.93457805
0.95
5 0.19859714
0.72
6 0.50765945
0.90
7 0.60279094
0.76
8 0.87902530
0.93
9 0.05343402
0.51
10 0.12231493
0.56
11 0.37873679
0.58
12 0.50679168
0.64
>
4. Estimar el modelo logit de reparto modal sin añadir información sobre el valor del tiempo y con variable
explicativa para el coste del viaje como coste total (coste del viaje más coste del aparcamento). Determinar el
valor del tiempo en viaje y en espera.
5. Estimar el impacto en el reparto modal para cada pareja OD de un incremento de los precios de la gasolina que
doblase el coste del viaje en coche pero no alterara la tarifa de tren.
6. Estimar cual sería el trasvase de viajes del coche al tren si la tarifa del tren fuera gratuíta.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-17
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL.
> bimodal$dinvehtt <- bimodal$car.invehtt - bimodal$train.invehtt
> bimodal$dexctt<- bimodal$car.exctt - bimodal$train.exctt
> m2 <- glm( resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost), family=binomial, data=bimodal )
> m0 <- glm( resposta ~ 1, family=binomial, data=bimodal )
> summary( m2 )
Call:
glm(formula = resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost),
family = binomial, data = bimodal)
…
Coefficients:
Estimate Std. Error z value Pr(>|z|)
Valor temps de viatge invehicle
(Intercept)
2.055498
0.598467
3.435 0.000593 ***
> coef(m2)[2]/coef(m2)[4]
dinvehtt
-0.239916
0.061481 -3.902 9.53e-05 ***
dinvehtt
dexctt
-0.363570
0.053045 -6.854 7.18e-12 ***
10.69168
I(dtcost + dpkcost) -0.022440
0.005309 -4.227 2.37e-05 ***
Valor temps d’espera (exctt)
…
> coef(m2)[3]/coef(m2)[4]
Null deviance: 143.9910 on 11 degrees of freedom
dexctt
Residual deviance:
5.7445 on 8 degrees of freedom
16.20221
AIC: 68.051
> anova(m0, m2, test='Chisq' )
Analysis of Deviance Table
Model 1: resposta ~ 1
Model 2: resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost)
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
11
143.991
2
8
5.744 3 138.247 9.027e-30
> anova(m0, m2, test='Cp' )
Analysis of Deviance Table
Model 1: resposta ~ 1
Model 2: resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost)
Resid. Df Resid. Dev Df Deviance
Cp
1
11
143.991
145.991
2
8
5.744 3 138.247 13.745
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-18
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL.
>
>
>
>
>
>
# Estimar l'impacte d'augment del petroli
que porti a car.tcost a doblar-se
pdf1 <- bimodal
pdf1$dtcost<- 2*pdf1$car.tcost - pdf1$train.tcost
op11 <-predict( m2, newdata = pdf1, type="response")
cbind( op11$fit, pcar_train )
pcar_train
1 0.26374399
0.82
2 0.35063672
0.80
3 0.44552313
0.88
4 0.83021417
0.95
5 0.08971594
0.72
6 0.39994766
0.90
7 0.48058654
0.76
> # Estimació de l'efecte de tarifa 0 en tren
8 0.79725029
0.93
> pdf2 <- bimodal
9 0.02635723
0.51
> pdf2$dtcost<- pdf1$car.tcost
10 0.11587476
0.56
> op20 <-predict( m2, newdata = pdf2, type="response")
11 0.25548490
0.58
> cbind( op20$fit, pcar_train )
12 0.36345975
0.64
pcar_train
1
2
3
4
5
6
7
8
9
10
11
12
Prof. Lídia Montero – Esteve Codina ©
0.51262193
0.52543387
0.72072881
0.93488346
0.22443410
0.53316760
0.61321718
0.88053469
0.06228529
0.13557114
0.39144007
0.51697541
Pàg. 5-19
0.82
0.80
0.88
0.95
0.72
0.90
0.76
0.93
0.51
0.56
0.58
0.64
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL.
5-1.2.2
Ejemplo Logit Multinomial vs Logit Condicional
Se dispone de datos hipotéticos (es decir, los generaremos aleatoriamente) de una encuesta de selección modal
entre automóvil, autobús, tren y pie para n=100 individuos. Se dispone de las variables explicativas coste y tiempo
de viaje para cada modo. Vamos a generar la muestra que dará pie a establecer la diferencia fundamental entre
los modelos estadísticos estimados por defecto y los modelos combinados (con base condicional) empleados en la
modelización del reparto modal.
> library(MASS)
> library(VGAM)
> # Example 4: The use of the xij argument (conditional logit model)
> n = 100
> M = 3
# Nb individus de la mostra
# Hi han M+1 modes de transport en competència
> # ymat: crea una matriu de zeros amb n files i M+1 columnes
> ymat = matrix(0, n, M+1)
> # Genera mostra de tamany 100 i sobre uniforme 1 a M+1:
> y <- sample(x=M+1, size=n, replace=TRUE)
> ymat[1:7, ]
auto bus tren peu
[1,]
0
0
1
0
[2,]
0
0
0
1
[3,]
0
0
1
0
[4,]
0
0
0
1
[5,]
0
1
0
0
[6,]
0
0
1
0
[7,]
0
0
1
0
> y[1:7]
[1] 3 4 3 4 2 3 3
>
> # Per cada individu, la mostra conté un numeret de 1 a 4 (el mode), cal posar un 1 en la columna
corresponent al mode triat a ymat
> # Resultat: ymat(i,j)=1 si individu i ha triat el mode j, ymat(i,j)=0 altrament.
> ymat[cbind(1:n, y )] = 1
> dimnames(ymat) = list(NULL, c("auto","bus","tren","peu"))
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-20
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
Crear el objeto de datos R (data.frame) con coste y durn (tiempo de viaje) por modo y las variables Cost i Durn
que para cada modo son la diferencia de cost respecto el modo de referencia (cost.peu) y simetricamente para
durn:
>
>
+
+
+
>
>
>
+
+
+
+
+
+
>
1
2
3
4
5
6
1
2
3
4
5
6
# Per cada mode es disposa de cost i durada, cadascun en una columna
transport = data.frame(ymat, y, cost.bus=runif(n), cost.tren=runif(n),
cost.auto=runif(n), cost.peu=runif(n),
durn.bus=runif(n), durn.tren=runif(n),
durn.auto=runif(n), durn.peu=runif(n))
transport = round(transport, dig=2) # Per claretat
# Mode 4 (peu=) triat de referència: es creen Cost i Durn diferència respecte peu (4)
transport = transform(transport,
Cost.bus
= cost.bus
- cost.peu,
Cost.auto
= cost.auto
- cost.peu,
Cost.tren = cost.tren - cost.peu,
Durn.bus
= durn.bus
- durn.peu,
Durn.auto
= durn.auto
- durn.peu,
Durn.tren = durn.tren - durn.peu)
head(transport)
auto bus tren peu y cost.bus cost.tren cost.auto cost.peu durn.bus durn.tren
0
0
1
0 3
0.04
0.52
0.96
0.08
0.46
0.80
0
0
0
1 4
0.14
0.35
0.61
0.54
0.72
0.23
0
0
1
0 3
0.77
0.69
0.85
0.72
0.44
0.08
0
0
0
1 4
0.69
0.68
0.45
0.69
0.60
0.13
0
1
0
0 2
0.28
0.34
0.03
0.64
0.54
0.52
0
0
1
0 3
0.78
0.01
0.95
0.82
0.38
0.72
durn.auto durn.peu Cost.bus Cost.auto Cost.tren Durn.bus Durn.auto Durn.tren
0.71
0.68
-0.04
0.88
0.44
-0.22
0.03
0.12
0.67
0.40
-0.40
0.07
-0.19
0.32
0.27
-0.17
0.89
0.40
0.05
0.13
-0.03
0.04
0.49
-0.32
0.50
0.92
0.00
-0.24
-0.01
-0.32
-0.42
-0.79
0.05
0.99
-0.36
-0.61
-0.30
-0.45
-0.94
-0.47
0.31
0.90
-0.04
0.13
-0.81
-0.52
-0.59
-0.18
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-21
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
Estimación del modelo logit condicional con método vglm(.) del paquete VGAM de Thomas W. Yee:
# Model logit multinomial condicional on indica que els coeficients de Cost i Durn han de
# ser els mateixos per cada mode: entren a la utilidad amb coeficient comú.
m1.condicional = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto +
Durn.bus + Durn.tren + Durn.auto,
fam = multinomial,
xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto,
Durn ~ Durn.bus + Durn.tren + Durn.auto),
data=transport)
model.matrix(m1.condicional, type="lm")[1:7,]
# LM model matrix
model.matrix(m1.condicional, type="vlm")[1:7,] # Big VLM model matrix
coef(m1.condicional)
coef(m1.condicional, matrix=TRUE)
> summary(m1.condicional)
Call:
vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus +
Durn.tren + Durn.auto, family = multinomial, data = transport,
xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto, Durn ~
Durn.bus + Durn.tren + Durn.auto))
> coef(m1.condicional, matrix=TRUE)
…
log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4])
Coefficients:
(Intercept)
0.19379010
0.45209555
0.38456651
Cost
0.32426883
0.32426883
0.32426883
Value Std. Error t value
(Intercept):1 0.193790
0.31031 0.624502
Durn
0.03802221
0.03802221
0.03802221
(Intercept):2 0.452096
0.29373 1.539175
(Intercept):3 0.384567
0.29766 1.291956
Cost
0.324269
0.40803 0.794727
Durn
0.038022
0.40337 0.094261
Number of linear predictors: 3
Names of linear predictors:
log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4])
Dispersion Parameter for multinomial family:
1
Residual Deviance: 273.5984 on 295 degrees of freedom
Log-likelihood:
-136.7992
on 295 degrees of freedomPàg.
Prof.
Lídia Montero – Esteve
Codina ©
Number of Iterations: 3
5-22
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
Estimación del modelo logit multinomial con método vglm(.) del paquete VGAM de Thomas W. Yee: no es correcto
eliminar directamente las reestricciones:
>
>
>
+
+
+
>
# Model logit multinomial els coeficients de Cost i Durn no són
# els mateixos per cada mode: entren a la utilidad amb coeficient diferent.
m1.multi = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto +
Durn.bus + Durn.tren + Durn.auto,
fam = multinomial,
data=transport)
coef(m1.multi, matrix=TRUE)
log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4])
(Intercept)
0.16893659
0.5356045
0.4999525
Cost.bus
0.57936918
0.1599811
0.3446324
Cost.tren
-0.09580872
0.1295857
-0.7330982
Cost.auto
0.54698547
-0.7696662
0.2897552
Durn.bus
0.10352308
-1.7803520
-1.9986496
Durn.tren
-0.74342682
-0.2881240
-0.5135572
Durn.auto
0.24268914
-0.8861623
0.1203233
> summary(m1.multi)
Coefficients:
Value Std. Error
0.37149
0.34044
0.34163
0.579369
0.98967
0.159981
1.00725
0.344632
1.00399
-0.095809
0.99242
0.129586
0.96520
-0.733098
0.98599
0.546985
0.91870
-0.769666
0.87349
0.289755
0.89663
0.103523
1.10301
-1.780352
1.07811
-1.998650
1.07181
-0.743427
0.93108
-0.288124
0.92987
-0.513557
0.92677
Curs 2.006-2.007
0.242689
0.96564
-0.886162
0.92473
0.120323
0.94846
Call:
(Intercept):1 0.168937
vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus
+
(Intercept):2
0.535604
Durn.tren + Durn.auto, family = multinomial, data = transport)
(Intercept):3 0.499952
Pearson Residuals:
...
Number of linear predictors: 3
Names of linear predictors:
log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4])
Dispersion Parameter for multinomial family:
1
Residual Deviance: 250.188 on 279 degrees of freedom
Log-likelihood: -125.094 on 279 degrees of freedom
Number of Iterations: 4
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-23
Cost.bus:1
Cost.bus:2
Cost.bus:3
Cost.tren:1
Cost.tren:2
Cost.tren:3
Cost.auto:1
Cost.auto:2
Cost.auto:3
Durn.bus:1
Durn.bus:2
Durn.bus:3
Durn.tren:1
Durn.tren:2
Durn.tren:3
Durn.auto:1
Durn.auto:2
Durn.auto:3
t value
0.454750
1.573265
1.463425
0.585415
0.158830
0.343261
-0.096540
0.134258
-0.743512
0.595391
-0.881136
0.323159
0.093855
-1.651360
-1.864739
-0.798454
-0.309854
-0.554134
0.251325
-0.958294
0.126862
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
Estimación del modelo logit multinomial con método multinom(.) del paquete nnet del R:
# Solució amb el mètode per defecte del package nnet: penseu format especificació
# de la resposta és diferent i de fet la variable explicativa Cost o Durn s'ha de posar
# segons la tria efectuada:
transport$Cost <- transport$Cost.auto
transport$Durn <- transport$Durn.auto
transport[ y==2, ]$Cost <- transport[ y==2, ]$Cost.bus
transport[ y==2, ]$Durn <- transport[ y==2, ]$Durn.bus
transport[ y==3, ]$Cost <- transport[ y==3, ]$Cost.tren
transport[ y==3, ]$Durn <- transport[ y==3, ]$Durn.tren
transport[ y==4, ]$Cost<- 0
transport[ y==4, ]$Durn<- 0
> m1.mass <- multinom(y ~ Cost + Durn, data=transport)
# weights: 16 (9 variable)
> head(transport)
initial value 138.629436
auto bus tren peu y cost.bus cost.tren cost.auto cost.peu
iter 10 value 129.671668
1
0
0
1
0 3
0.04
0.52
0.96
0.08
final value 129.659368
2
0
0
0
1 4
0.14
0.35
0.61
0.54
converged
3
0
0
1
0
3
0.77
0.69
0.85
0.72
> m1.mass
4
0
0
0
1
4
0.69
0.68
0.45
0.69
Call:
5
1
0
0 2
0.28
0.34
0.03
0.64
multinom(formula = y ~ Cost + Durn, data
= 0transport)
6
0
0
1
0 3
0.78
0.01
0.95
0.82
Cost.bus Cost.auto Cost.tren Durn.bus Durn.auto Durn.tren
Coefficients:
1
-0.04
0.88
0.44
-0.22
0.03
0.12
(Intercept)
Cost
Durn
2 0.33945612 -1.627994 -2.912721
2
-0.40
0.07
-0.19
0.32
0.27
-0.17
3 0.30513190 -1.528267 -2.651115
3
0.05
0.13
-0.03
0.04
0.49
-0.32
4 -0.01845862 -1.112796 -1.560384
4
0.00
-0.24
-0.01
-0.32
-0.42
-0.79
5
-0.36
-0.61
-0.30
-0.45
-0.94
-0.47
Residual Deviance: 259.3187
6
-0.04
0.13
-0.81
-0.52
-0.59
-0.18
AIC: 277.3187
El número de parámetros del modelo no coincide con m1.multi, éste es el logit multinomial !
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-24
Curs 2.006-2.007
durn.bus durn.
0.46
0.72
0.44
0.60
0.54
0.38
Durn Cost
0.12 0.44
0.00 0.00
-0.32 -0.03
0.00 0.00
-0.45 -0.36
-0.18 -0.81
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
Estimación del modelo logit multinomial con método multinom(.) del paquete nnet del R con los mismos parámetros:
> yp<-factor(y, levels=c('4','1','2','3'))
> m2.mass <- multinom(yp ~ Cost.bus + Cost.tren + Cost.auto +
+
Durn.bus + Durn.tren + Durn.auto, data=transport)
# weights: 32 (21 variable)
initial value 138.629436
iter 10 value 125.159479
final value 125.094011
converged
> m2.mass
Call:
multinom(formula = yp ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus +
Durn.tren + Durn.auto, data = transport)
Coefficients:
(Intercept) Cost.bus
Cost.tren Cost.auto Durn.bus Durn.tren Durn.auto
1
0.1689013 0.5792480 -0.09602884 0.5472283 0.103583 -0.7435731 0.2429367
2
0.5356021 0.1600326 0.12932940 -0.7695516 -1.780200 -0.2882721 -0.8860066
3
0.4999457 0.3447692 -0.73345933 0.2899314 -1.998452 -0.5137646 0.1205029
Residual Deviance: 250.188
AIC: 292.188
>
Ahora si que coinciden los estimadores de m1.multi, pero hay que reconocer que puede no tener demasiado sentido
que las variables de coste y tiempo de viaje de otros modos también participen en la descripción de la utilidad del
modo auto (por ejemplo!): no es el modelo logit multinomial entendido en modelos de discretos.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-25
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
Estimación del modelo logit combinado multinomial-condicional con método vglm(.) del package VGAM de Yee:
contempla el coste con coeficiente común en todos los modos, pero el tiempo de viaje variable su coeficiente en la
definición de la utilidad de los modos, así mismo los tiempos de viajes de otros modos no aparecen en la utilidad de
cada uno de ellos. ¿Modelo M1 es incorrecto, asimismo M2, sabeís por qué?
> # Model COMBINAT logit multinomial condicional on indica que els coeficients de Cost han de
> # ser els mateixos per cada mode, però no els Durn: entren a la utilidad amb coeficient comú (Cost) i
diferent (Durn).
> m1.combinat = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto +
+
Durn.bus + Durn.tren + Durn.auto,
+
fam = multinomial,
+
xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto),
+
data=transport)
> coef(m1.combinat, matrix=TRUE)
log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4])
(Intercept)
0.2179618
0.5504227
0.4885284
Cost
0.3697537
0.3697537
0.3697537
Durn.bus
0.1691331
-1.8395640
-2.0618982
Durn.tren
-0.8274091
-0.2734426
-0.4801288
Durn.auto
0.1466325
-0.7766799
0.1338975
> # Model M1 fa intervenir tots els temps de viatge dels modes en cadascun d'ells: NO
> m2.combinat = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto +
+
Durn,
+
fam = multinomial,
+
xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto),
+
data=transport)
> coef(m2.combinat, matrix=TRUE)
log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4])
(Intercept)
0.1129710
0.3642013
0.3293322
Cost
0.4986201
0.4986201
0.4986201
Durn
1.4369845
-1.2663248
-1.0388187
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-26
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
> summary(m2.combinat)
Call:
vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn,
family = multinomial, data = transport, xij = list(Cost ~
Cost.bus + Cost.tren + Cost.auto))
Pearson Residuals:
Min
1Q
Median
3Q
Max
log(mu[,1]/mu[,4]) -1.3268 -0.51835 -0.23363 -0.10865 2.5754
log(mu[,2]/mu[,4]) -1.4084 -0.50197 -0.34649 1.09783 3.2263
log(mu[,3]/mu[,4]) -1.3660 -0.45787 -0.34779 1.22232 2.0632
Coefficients:
Value Std. Error t value
(Intercept):1 0.11297
0.32321 0.34953
(Intercept):2 0.36420
0.30347 1.20011
(Intercept):3 0.32933
0.30446 1.08171
Cost
0.49862
0.41923 1.18936
Durn:1
1.43698
0.99765 1.44037
Durn:2
-1.26632
0.93365 -1.35632
Durn:3
-1.03882
0.93810 -1.10737
Number of linear predictors:
3
Names of linear predictors: log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4])
Dispersion Parameter for multinomial family:
1
Residual Deviance: 262.7987 on 293 degrees of freedom
Log-likelihood: -131.3993 on 293 degrees of freedom
Number of Iterations: 4
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-27
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
> # Model COMBINAT logit multinomial condicional on indica que els coeficients de Cost han de
# ser els mateixos per cada mode, però no les durades: entren a la utilidad amb coeficient comú (Cost) i
diferent (Durn).
# Model M1 fa intervenir tots els temps de viatge dels modes en cadascun d'ells: NO És el que es demana
# Model M2 usa durada del mode triat en el càlcul de totes les utilitats: no és correcte.
# Model M3 és un combinat, però de fet és un condicional amb interacció de mode a la Durada
transport = transform(transport,
DurnB.bus
= durn.bus
- durn.peu,
DurnB.auto
= 0,
DurnB.tren = 0,
DurnT.bus
= 0,
DurnT.auto
= 0,
DurnT.tren = durn.tren - durn.peu,
DurnA.bus
= 0,
DurnA.auto
= durn.auto
- durn.peu,
DurnA.tren = 0 )
m3.combinat = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto +
DurnB.bus + DurnB.tren + DurnB.auto +
DurnT.bus + DurnT.tren + DurnT.auto +
DurnA.bus + DurnA.tren + DurnA.auto ,
fam = multinomial,
xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto,
DurnB ~ DurnB.bus + DurnB.tren + DurnB.auto,
DurnT ~ DurnT.bus + DurnT.tren + DurnT.auto,
DurnA ~ DurnA.bus + DurnA.tren + DurnA.auto ),
data=transport)
> coef(m3.combinat, matrix=TRUE)
log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4])
(Intercept)
0.09799303
0.4155546
0.3866297
Cost
0.31996453
0.3199645
0.3199645
DurnB
1.20484973
1.2048497
1.2048497
DurnT
-0.53292382
-0.5329238
-0.5329238
DurnA
-0.19980580
-0.1998058
-0.1998058
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-28
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
> summary(m3.combinat)
Call:
vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + DurnB.bus +
DurnB.tren + DurnB.auto + DurnT.bus + DurnT.tren + DurnT.auto +
DurnA.bus + DurnA.tren + DurnA.auto, family = multinomial,
data = transport, xij = list(Cost ~ Cost.bus + Cost.tren +
Cost.auto, DurnB ~ DurnB.bus + DurnB.tren + DurnB.auto,
DurnT ~ DurnT.bus + DurnT.tren + DurnT.auto, DurnA ~
DurnA.bus + DurnA.tren + DurnA.auto))
...
Coefficients:
Value Std. Error t value
(Intercept):1 0.097993
0.32454 0.30194
(Intercept):2 0.415555
0.29800 1.39447
(Intercept):3 0.386630
0.29771 1.29867
Cost
0.319965
0.41066 0.77915
DurnB
1.204850
0.65216 1.84748
DurnT
-0.532924
0.55292 -0.96383
DurnA
-0.199806
0.59145 -0.33782
Number of linear predictors: 3
Names of linear predictors:
log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4])
Dispersion Parameter for multinomial family:
1
Residual Deviance: 267.4826 on 293 degrees of freedom
Log-likelihood: -133.7413 on 293 degrees of freedom
Number of Iterations: 4
>
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-29
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL
En síntesis y expresado en la notación habitual para los modelos de regresión con respuesta politómica:
Modelo logit Multinomial (estimación por método vglm(.) en VGAM con variable auxiliar o multinom(.) en nnet):
π ij (x j , w ij )
Vij = ηij (x j , w ij ) = log
= α j + γ Tj w ij
π ik (xk , w ik )
j = 1, K , k − 1
i = 1, K , n
Modelo logit Condicional (estimación por método vglm(.) en VGAM con constraints=list(.)):
Vij = ηij (x j , w ij ) = log
π ij (x j , w ij )
= α j + βTx j
π ik (xk , w ik )
j = 1, K , k − 1
i = 1, K , n
Modelos logit combinado Multinomial-Condicional (estimación por método vglm(.) en VGAM con constraints=list(.),
más variable auxiliar):
Vij = η ij
(x , w ) = log π ((x , w )) = α
ij
j
ij
j
ij
π ik x k , w ik
T
T
+
β
x
+
γ
j
j
j w ij
j = 1,K , k − 1
i = 1,K , n
Los modelos condicionales contienen variables explicativas ligadas a alternativas ( x j ), los parámetros
β
son
comunes a los individuos y alternativas. Los modelos combinados contienen adicionalmente variables ligadas a
características socio-demográficas ( w ij ) de los individuos que pueden intervenir en la utilidad observada de
manera distinta según la alternativa, de ahí γ j coeficiente que refleja la interacción individuo-alternativa.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-30
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-2. MODELOS DE DEMANDA DIRECTA
Responden a la propuesta directa y simultanea de englobar las etapas de generación, distribución y reparto modal
de viajes. Los modelos directos pioneros son de tipo multiplicativo (Kraft, 1968) y determinan la demana modal
entre zonas como una función de tipo multiplicativo de variables relacionadas con la actividad económica y realidad
social de las zonas.
m
gpq
= φ0 ∏ (Apr Aqr ) r ∏ C αpqll ∏ (C pqlm C pqlb ) l
φ
r
β
l
l
donde φ, α, β son parámetros a calibrar, r
indexa los atributos vinculados a zonas (población, nivel económica, etc.) l indexa atributos de coste (tarifa,
headway, travel time, etc.);
C pqlb es el valor del mejor atributo l entre (p,q).
Técnicamente son modelos log-lineales, es decir, modelos de regresión generalizados que pueden calibrarse a
partir de los datos en R, SPLUS, SPSS, SAS o GLIM.
Un caso más simple podría agrupar las etapas de generación y distribución, concretando en un ejemplo de
demanda de un operador de transporte público (Ortúzar et al):
−2 −1 0.8
gpq = 10000 t pq
c pq q pq
Donde t, c y q modelan respectivamente el tiempo de viaje en horas, la tarifa en $ y el servicio en salidas/día.
−2
−1
Si t pq c pq q pq = cnt la demanda no se ve afectada. Se han aplicado un análisis por elasticidad a formulaciones de
0.8
este estilo.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-31
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS
5-3.1
Introducción
Los modelos de demanda de primera generación son agregados en el sentido en que se basan en magnitudes
promedio a nivel zonal. Estos modelos se usaron masivamente hasta los inicios de los 80s.
Premio Nobel 2000 Dr. Mc Fadden “for his development of theory and methods for
analyzing discrete choice” .
• Discurso de recogida del Premio: Economic Choices, The American Economic Review
Vol 91 No 3 (June 2001), 351-378.
• Charles Manski, The Structure of Random Utility Models, Theory and Decision 8
(1977) 229-254
Los modelos de demanda de segunda generación se basan en las decisiones individuales de los viajeros y por tanto,
se espera que puedan ofrecer modelos de selección modal más realistas. Estos modelos postulan que la
probabilidad individual de seleccionar una determinada alternativa es una función de las características
socioeconómicas del individuo y de lo atractivo de la alternativa, en términos relativos.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-32
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN
Lo atractivo de una alternativa se suele englobar bajo el nombre de utilidad de la alternativa. La utilidad es
tautológicamente lo que los individuos intentan maximizar. Las alternativas por ellas mismas no producen utilidad,
sinó que ésta se deriva de sus características. La utilidad se compone de una parte observable o sistemática y
una parte aleatoria, de ahí que la utilidad de la alternativa auto se pueda escribir como:
U auto = Vauto + ε auto
{
{
sistemática
Vauto
aleatoria
y
sea una combinación lineal de variables explicativas relacionadas con características de la alternativa, por
ejemplo:
Vauto = 0.25 − 1.21 ⋅ VT − 2.5 ⋅ TA − 0.3 ⋅ C I + 1.1 ⋅ NCAR
• En esta ecuación, una unidad más del tiempo de acceso (TA) implica una pérdida de utilidad de 2.5 unidades.
• El coeficiente en la ecuación de la utilidad sistemática traduce la importancia y contribución de cada
atributo del modo en la cuantificación de su utilidad. De ahí que un aumento en 1 unidad del tiempo de acceso
tenga un impacto de más del doble que el tiempo de viaje (TV).
• La constante se interpreta normalmente como la influencia neta de todas las características del modo que no
son observables (por ejemplo, atributos de confort o conveniencia que resultan de difícil cuantificación e
inclusión como parte sistemática de un modelo de selección de alternativas).
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-33
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN
Los modelos desagregados se fundamentan en la teoría del comportamiento individual de los usuarios y no en
analogías con modelos físicos.
Los modelos desagregados se construyen y estiman a partir de datos individuales y por tanto son más eficientes
en cuanto al uso de la información, ya que requieren de menor volumen de datos.
Los modelos desagregados pueden incorporar todos los elementos de la variabilidad inherente en el proceso de
selección. Son menos suceptibles a sufrir sesgo debido a la asociación entre los individuos y enmascaramientos del
comportamiento individual debido a la agregación de la información a nivel zonal que sufren los modelos agregados.
Existen ejemplos paradigmáticos de lo que se conoce como correlación ecológica.
Los modelos desagregados son modelos probabilísticos en el sentido que ofrecen una probabilidad de selección de
cada una de las alternativas y por tanto, se debe trabajar con conceptos probabilísticos.
Por ejemplo, el número esperado de personas que en una determinada zona harán uso de un modo concreto es la
suma de las probabilidades individuales,
j = 1 ≡ auto M h = ∑i =1Kn π ij
h
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-34
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN
Una jerarquía de selecciones puede modelarse separadamente utilizando los conceptos de distribuciones
condicionales (probabilidad condicionada), por ejemplo la probabilidad de seleccionar la ruta r, dentro del modo j,
hacia el destino q, dentro del grupo de usuarios h, sería
π hqjr = π r |hqj ⋅ π hqj = K = π r |hqj ⋅ π j|hq ⋅ π q|h ⋅ π h .
Todas las variables explicativas observables pueden incluirse en el modelo y se les pueden estimar coeficientes,
por tanto resultan modelos más flexibles y representativos de las políticas de movilidad, con coeficientes
interpretables en términos de utilidad marginal.
Para realizar predicciones de la alternativa a seleccionar, el valor de la utilidad de todos las posibles opciones
tiene que contrastarse (en principio, un valor real) y convertirse a probabilidad (un valor entre 0 y 1), para ello es
necesario un cambio de escala desde la utilidad a la probabilidad y ese cambio se realiza a partir de la denominada
función de enlace (link function) en terminología estadística. Supongamos el caso dicotómico, M=2 con
j = 1 ≡ auto y j = 2 ≡ bus .
• Si la función de enlace es la logit, entonces
 π

exp(Vauto )
exp(Vauto )
logit (π auto ) = log auto  = Vauto → π auto =
=
Vbus = 0
1 + exp(Vauto ) exp(Vbus ) + exp(Vauto )
 1 − π auto 
exp(Vauto − Vbus )
π
=
Vbus ≠ 0
bien, auto
exp(− Vbus ) + exp(Vauto − Vbus )
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-35
Curs 2.006-2.007
o
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN
• Si la función de enlace es la probit, entonces
Φ −Z1 (π auto ) = Vauto → π auto = Φ Z (Vauto ) Φ Z ( z ) = P([Z ≤ z ]) Vauto tipificada
∞ (V −V + x ) (
])
( )[( ) ( )
π auto = ∫
∫
auto
bus
1
exp −
−∞ −∞
1
2 1− ρ 2
x1 2
+
σ1
x2
σ2
2 πσ1σ 2 1− ρ 2
2 2ρ x x
1 2
−
σ1σ 2
y Vbus = 0
o bien,
dx 2 dx1 .
Estos modelos son modelos de regresión generalizados o modelos lineales generalizados que no pueden estimarse
por técnicas estándard de mínimos cuadrados (las incógnitas son los coeficientes que acompañan a las variables
explicativas observables que caracterizan la utilidad de la alternativa).
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-36
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
5-3.2
Teoría de la Utilidad Aleatoria
La base teórica para la selección de alternativas procede de la teoría de la utilidad aleatoria que postula:
1. Los individuos pertenecen a una población homogénea, actúan racionalmente y poseen información perfecta,
de manera que ante una selección de alternativas siempre eligen la que maximiza su utilidad personal sujeta
a restricciones legales, sociales, físicas y presupuestarias.
2. El conjunto de alternativas disponibles es A=1, 2 , …, k (categorías) y un conjunto de variables explicativas
(factores y/o covariables) definen los atributos de los individuos, las alternativas y/o la interacción de
ambos, genéricamente agrupadas en la matriz de diseño X nxp.
Un individuo i tiene como atributos la fila i -ésima de X, con un conjunto de alternativas disponibles A(i)
(quizás todas) con variables explicativas vinculadas a cada una de ellas, más variables comunes a las
alternativas pero específicas del individuo e interacciones entre ambas.
Las alternativas tienen que cumplir:
o Ser mutuamente excluyentes.
o El choice set (conjunto de alternativas) tiene que ser exhaustivo (todas las posibilidades deben estar
contempladas).
o La cardinalidad del choice set debe ser finito.
La última de las características es la más restrictiva y diferencia la teoría de elección discreta de la
regresión múltiple.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-37
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
3. Cada alternativa j tiene asociada una utilidad para cada individuo i :
U ij .
Sin embargo, al estudiar el
proceso de selección no se dispone de información completa sobre el sistema, sobre los elementos que
considera un individuo al efectuar su selección, de manera que la utilidad de cada alternativa está compuesta
de: una componente sistemática
componente aleatoria
ε ij
Vij
que es función (lineal) de las variables explicativas
(x , w ) y una
j
ij
que refleja las particularidades de cada individuo y los errores de observación
inherente al estudio empírico.
Los modelos de elección discreta de alternativas se derivan de la hipótesis comportamental de maximización de de
la utilidad aleatoria (son RUM, random utility models). Son modelos que pueden contemplarse como una simple
relación entre las variables explicativas y el resultado de la elección, sin detallar en como se realiza exactamente
el proceso de selección.
La utilidad no es observable per se, sólamente los atributos que definen la utilidad sistemática. El término de
error juega el rol de recoger el efecto de todos los factores que afectan a la selección de alternativas pero que
no se incluyen en la utilidad sistemática, bien por simplificación o porqué no son directamente observables.
U ij =
Vij
{
sistemática
Prof. Lídia Montero – Esteve Codina ©
+ ε ij
{
aleatoria
Pàg. 5-38
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
Dos individuos con los mismos atributos y disponibilidad de alternativas pueden no seleccionar la misma
alternativa, debido a la componente aleatoria. Considérense por simplicidad los modelos condicionales, donde
intervienen sólo variables explicativas ligadas a alternativas: los parámetros
y alternativas
β
son comunes a los individuos
T
U
=
V
+
ε
=
β
x j + ε ij .
ij
ij
ij
y no se considera constante específica de alternativa,
4. El individuo i selecciona la alternativa j si ésta tiene utilidad máxima:
U ij = Vij + ε ij ≥ U il = Vil + ε il → Vij − Vil ≥ ε il − ε ij ∀ l ≠ j , y por tanto, la probabilidad de selección
de j viene dada por
[
]
Ρ ( ε i = ε il − ε ij ≤ (Vij − Vil ) ∀ l ≠ j ) = ∫ I (ε i ≤ Vij − Vil ∀ l ≠ j ) f (ε i )dε i
ε
, lo
que requiere establecer alguna distribución de probabilidad para los errores.
La distribución de
ε i = ε il − ε ij representa entre toda la población con idéntica utilidad observada para todas
las alternativas l, la distribución de la parte de utilidad no observada.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-39
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
Logit, GEV (General Extreme Value), probit y mixed logit son casos particulares que se derivan de la
especificación de la distribución de probabilidad de los factores no observados de la utilidad,
• Los modelos de selección discreta logit son los más simples y se derivan de la hipótesis que
f (ε i ) .
ε il son i.i.d. de valor
extremo. Es decir, los errores son no correlacionados entre las alternativas y tienen idéntica varianza, lo cual
resulta muy restrictivo ya que los factores no observados ligados a una alternativa pueden ser similares a
aquellos vinculados con alguna otra de las alternativas. Además si se desea aplicar un modelo logit de elección
discreta a datos procedentes de un panel (secuencia de elecciones a lo largo del tiempo efectuadas por el
mismo individuo), la independencia entre periodos resulta poco creíble. La estimación no requiere de simulación.
• Los modelos GEV permiten una correlación entre los factores no observados (errores aleatorios) de las
alternativas y colapsa al modelo logit cuando son i.i.d. Hay múltiples formas en los modelos GEV, con una
estructura de correlaciones más o menos complicada, la más popular responde al denominado logit jerárquico,
donde se definen nidos o nodos de grupos de alternativas, con estructura arborescente, donde los factores no
observados de la utilidad tienen la misma varianza dentro de un nido y las alternativas pertenecientes a nidos
distintos no presentan correlación. La estimación no requiere de simulación.
• Los modelos probit asumen que los factores no observados (errores) tienen conjuntamente una distribución
normal multivariante. Permiten cualquier patrón de asociación entre alternativas y heterocedasticidad. Son
flexibles pero la estimación requiere de simulación.
• Los modelos logit mixtos presuponen que los factores no observados siguen una distribución cualquiera pero
satisface que puede descomponerse en dos partes; una parte donde se incluye toda la componente de
correlaciones y heterocedasticidad y otra parte i.i.d. de valor extremo. Es muy flexible y Train (2002)
demuestra que puede aproximar cualquier modelo de elección discreta y es totalmente general.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-40
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
La identificación y especificación del modelo de elección discreta afecta a cualquier modelo y debe contemplar
dos características comunes a todos los modelos basados en la maximización de la utilidad:
1. Sólamente son relevantes las diferencias en la utilidad entre alternativas.
2. La escala de la utilidad es arbitraria e irrelevante.
El valor absoluto de la utilidad es irrelevante para el individuo que efectua la elección y tambien para el
investigador. Si se añade una constante común a la utilidad de todas las alternativas, sus diferencias siguen siendo
las mismas y la alternativa con màxima utilidad es la misma,
[
[
]
[
]) o
∀ l ≠ j ) f (ε )dε
Ρ ( U ij − U il ≥ 0 ∀ l ≠ j ) = Ρ ( Vij − Vil ≥ 0 ∀ l ≠ j
]
Ρ ( ε i = ε il − ε ij ≤ Vij − Vil ∀ l ≠ j ) = ∫ I (ε i ≤ Vij − Vil
i
i
ε
De hecho, sólo pueden identificarse en los modelos los parámetros que están relacionados con las diferencias en la
utilidad entre alternativas, no aquellos ligados al valor absoluto de la utilidad de cada una de ellas.
Habitualmente, la utilidad observada (sistemática) es una combinación lineal de los factores observados de
manera que puede expresarse:
Vij = β T x j + κ j , donde la constante específica κ j
captura el efecto medio en la utilidad de todos los
factores no observados (no incluídos en el modelo) de la alternativa j.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-41
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
Cuando se incluyen constante específicas en la utilidad entonces resulta equivalente a suponer que la esperanza de
los errores es cero, ésto es,
U ij = β T x j + ε ij*
con
[ ]
Ε ε ij* = κ j → U ij = β T x j + κ j + ε ij
[ ]
Ε ε ij = 0 .
Por tanto resulta razonable incluir una constante por alternativa, sin embargo, como sólo son relevantes las
diferencias entre alternativas, únicamente van a ser relevantes las diferencias entre las constantes específicas y
de hecho no son identificables todas ellas, las k constantes, solamente k-1, lo que requiere una normalización de
una de las constantes a 0, la de la alternativa de referencia.
Los factores relativos a las alternativas varían con las alternativas, pero los factores relacionados con el individuo
permanecen constantes en las distintas alternativas (no su efecto en la utilidad). Conviene normalizar el efecto de
las variables comunes a las alternativas para una alternativa de referencia, por ej. j=1,
Vij = β T x j + γ Tj w i + κ j
pero
Vi1 = β T x i1 + 0 + 0 γ1 = 0 y por tanto γ jT
se interpretan como los efectos
diferenciales en la utilidad respecto al grupo de referencia para las variables comunes a todas las alternativas
(dependientes generalmente de las características socioeconómicas de los individuos). Si hay interacciones entre
individuo y alternativa no es necesaria la normalización:
Vij = β T x j + γ Tj w ij + κ j .
El número de términos de error estadísticamente independientes debe considerarse afectado por el hecho que
hay k-1 diferencias de errores y por tanto,
[
]
[
]
Ρ ( U ij ≥ U il ∀ l ≠ j ) = Ρ ( ε i = ε il − ε ij ≤ Vij − Vil ∀ l ≠ j ) = ∫ I (ε i ≤ Vij − Vil ∀ l ≠ j ) f (ε i )dε i
ε
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-42
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
f (ε i )
hace referencia a la distribución de las diferencias.
• Si los errores son i.i.d. Gumbel entonces las diferencias son i.i.d. logísticas.
• Si los errores son normales multivariantes entonces las diferencias afectarán al patrón de la matriz de
varianzas-covarianzas entre las alternativas (no independientes) que pasará a ser de dimensión k-1 y la
normalización relacionada con la escala, que se detalla a continuación, resulta más compleja de realizar.
La escala de la utilidad resulta irrelevante ya que si se multiplica por una constante positiva común a la utilidad de
todas las alternativas, sus diferencias son proporcionalmente las mismas y la alternativa con màxima utilidad es la
misma, U ij = Vij + ε ij
([
~
U
y
ij = λU ij = λVij + λε ij
])
λ>0
[
entonces,
]
[
~
~
Ρ U ij ≥ U il ∀ l ≠ j = Ρ ( λU ij ≥ λU il ∀ l ≠ j ) = Ρ ( U ij ≥ U il ∀ l ≠ j
])
La escala de la utilidad afecta a las magnitudes de los parámetros de los factores observables (variables
explicativas), por tanto se debe normalizar la escala de la utilidad.
La escala de la utilidad está relacionada con la escala de la componente aleatoria (errores),
[ ]
[ ]y
V λεij = λ 2V εij
por tanto normalizar la escala del término de error equivale a normalizar la escala de la utilidad.
El partworth de un atributo es el coeficiente del atributo en la función de utilidad, es por tanto el coeficiente en
la utilidad y es un término empleado asiduamente en marketing.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-43
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
Si los errores son i.i.d. la normalización es trivial y habitualmente en el modelo logit se presupone que los errores
[ ]
tienen una distribución de valor extremo estándard (parámetro de escala 1) con varianza por tanto V εij = π
Si se normaliza para obtener unos errores i.i.d. con varianza 1 , V
2
6.
[ε ] = 1 , entonces si la utilidad original es
ij
~
~
U ij = Vij + ~
εij = β T x j + ~
εij con V [~εij ] = λ 2 , la utilidad normalizada es
~
U ij = U ij λ = β T λ x j + ~
εij λ = β T λ x j + εij .
(
)
(
) (
)
Los coeficientes de las variables explicativas aparecen divididos por la desviación tipo de la parte no observada de
la utilidad, de hecho, no son identificables los parámetros y la escala de la utilidad simultaneamente y por tanto, la
normalización es imperativa.
Cuando se interpretan modelos i.i.d. logit y probit, debe tenerse en cuenta la normalización efectuada a la hora de
interpretar los coeficientes de las variables explicativas. Habitualmente, en modelos probit
[ ]
[ ]
V εij = 1 , y en logit
V εij = π 2 6 (pero si se contemplan las diferencias V [εi ] = π 2 3 , distribución logística estándard).
Cuando se interpretan modelos i.i.d. logit (o probit) idénticos estimados sobre conjuntos de datos distintos, los
coeficientes representan un reescalado respecto la varianza de los errores, pero los errores son la parte de la
utilidad no observada y por tanto, la varianza de la componente no observada de la utilidad puede ser distinta en
cada conjunto de datos. Hay un ejemplo muy ilustrativo de Kenneth Train (pp. 29) relativo a un modelo de reparto
modal binario logit aplicado a los datos de Chicago y de Boston.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-44
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
V j = k − 1.78 ⋅ Time − 0.55 ⋅ Cost
V j = k '−2.69 ⋅ Time − 0.81 ⋅ Cost
Chicago
Boston
El cociente entre los partworths (coeficientes en la utilidad) de coste y tiempo está alrededor de 0.3 para ambas
ciudades. La magnitud de los coeficientes es un 50% mayor en Boston que en Chicago y ésto se puede interpretar:
o La utilidad no observada tiene una varianza menor en Boston que en Chicago o bien,
o factores que no son tiempo y coste tienen menor impacto en Boston que en Chicago o bien
o que la importancia del coste y el tiempo en la utilidad son mayores en Boston que Chicago.
Si los errores son independientes, pero con escala distinta (errores heterocedásticos) entonces es posible
normalizar la escala de una alternativa y estimar el resto de escalas de manera relativa a la escala de la
alternativa normalizada. Esto resulta muy útil cuando se usan datos de distintos ámbitos geográficos o cuando
se desean combinar datos de preferencias declaradas y de preferencias reveladas.
Si los errores no son independientes, la normalización no es trivial, ya que normalizar la escala de una alternativa
no implica automáticamente normalizar las diferencias entre alternativas ya que intervienen términos de
covarianzas entre las alternativas. La normalización debe especificarse adhoc dado el patrón o estructura de la
matriz de varianzas-covarianzas entre las alternativas.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-45
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
Por ejemplo, en matrices completas de varianzas-covarianzas entre alternativas, la normalización de las
diferencias implica habitualmente una drástica reducción del número de parámetros de la matriz de varianzascovarianzas, si K=4 entonces, la normalización de una de las diferencias lleva a una matriz reducida con K(K-1)/2-1
parámetros, es decir, 5 parámetros en lugar de los 10 originales (K(K+1)/2). Las interpretaciones deben referirse
a la diferencia normalizada, lo que las hace resultar mucho más complejas.
La normalización es automática en modelos logit y logit jerárquicos (caso particular de modelos GEV), pero en
modelos probit y mixed logit no es automática y se deben explicitar concretamente las hipótesis (hay diversas
posibilidades), ya que afectan tanto a la especificación del modelo, como a la interpretación de los parámetros.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-46
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
5-3.3
Ejemplos
• Si se asume que hay 2 alternativas (k=2), los errores son normales con media 0, varianzas respectivas
σ 2j , σ l2
y covarianza
σ jl ,
entonces
ε il − ε ij ≈ N (0, σ 2 = σ l2 + σ 2j − 2σ jl )
y por tanto, la
probabilidad de seleccionar la alternativa j, notado Pi(j), es
V −V
π ij = Ρi ( j ) = Ρ( ε il − ε ij ≤ Vij − Vil ) = Φ ij il
 σ
[
]
 β T (x j − x l ) 


 = Φ

 (Probit binario condicional).
σ



Por conveniencia, la escala de la función de utilidad 1 σ se asume 1.
• Si se asume que hay 2 alternativas (k=2), otra posibilidad consiste en suponer una distribución logística para
la diferencia de utilidades
ε i = ε il − ε ij . Si Y tiene distribución logística con parámetros de posición a y de
escala b>0, entonce la media es a, la varianza es
·
π 2b 2 3
y la función de distribución de probabilidad es:


1
1
 =
FY (y ) = Ρ( [Y ≤ y ]) = 1 − 
 1 + exp(( y − a ) b )  1 + exp(− ( y − a ) b )
En R, plogis(q, location = a, scale = b).
La inversa de la función de distribución es
y = FY−1 (π ) = a + b log(1−ππ ) .
En R, qlogis(p, location = a, scale = b) .
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-47
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
La ley logística estandard tiene parámetro a=0 y b=1, siendo simétrica y con varianza
ε =ε −ε
il
ij
• Si i
tiene distribución logística centrada en 0 (a=0), requiere que
independientes y idénticamente distribuidos según una ley Gumbel.
π 2 3.
ε il , ε ij
sean errores
Si Y tiene distribución Gumbel con parámetros de posición a (la moda) y de escala b>0, entonces la media
es a − b Γ'
(1) = a + 0.57721b , la varianza es π 2b 2
·
6 y la función de distribución de probabilidad es:
FY (y ) = Ρ( [Y ≤ y ]) = exp(− exp(− ( y − a ) b ))
La inversa de la función de distribución es
y = FY−1 (π ) = a − b log(log(π1 )) .
• En general, la diferencia de 2 v.a. Gumbel i.i.d con escala b>0 es una ley logística con parámetro a=0 y b>0 (el
parámetro de escala de las gumbel), siendo simétrica alrededor del 0 y con varianza
π 2b 2 3 .
Si se asume que hay 2 alternativas (k=2), otra posibilidad consiste en suponer una distribución logística para la
diferencia de utilidades
ε i = ε il − ε ij , entonces la probabilidad de seleccionar la alternativa j, notado Pi(j), es
π ij = Ρi ( j ) = Ρ( [ε i = ε il − ε ij ≤ Vij − Vil ]) =
Prof. Lídia Montero – Esteve Codina ©
exp(Vij b )
1
=
1 + exp(− (Vij − Vil ) b ) exp(Vij b ) + exp(Vil b )
Pàg. 5-48
(Logit binario).
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
1. Si b → ∞ entonces la selección de alternativas es equiprobable y si b → 0 la varianza de la diferencia es
0 y por tanto la selección de las alternativas es determinista y depende exclusivamente de la diferencia
entre utilidades sistemáticas (la alternativa con mayor utilidad observada se lleva el 100% de los viajes).
2. Por comodidad se puede considerar
π2 6
b = 1 entonces las leyes Gumbel han de tener una moda 0 y varianza
y la ley logística diferencia entre ambas tiene media 0 y varianza
π 2 3.
3. Una propiedad de las leyes Gumbel es que el máximo de k variables Gumbel independientes de idéntica escala
b y parámetros de posición
(
a1 K ak sigue
)
a = b log ∑ j =1Kk exp(a j b ) .
también una ley Gumbel con parámetro de escala b y posición
4. Otra propiedad es que si Y es de ley Gumbel(a,b) y c, d son constantes reales, entonces dY+c sigue una ley
Gumbel( da+c, db ).
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-49
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
• Si se asume que hay k alternativas y los errores son independientes y idénticamente distribuidos según una
ley Gumbel con moda 0 y b>0, entonces la probabilidad de seleccionar la alternativa j, notado Pi(j), es
π ij = Ρi ( j ) = Ρ( [max l ≠ j {Vil + ε il } ≤ Vij + ε ij ]) =
∑
exp(Vij b )
1≤ l ≤ k
exp(Vil b )
(Logit Multinomial)
Si b → 0 , la selección de alternativas es determinista (depende únicamente de la componente sistemática) y
si
b→∞
la selección es equiprobable.
El modelo logit multinomial es el más simple de los modelos de selección discreta. Se debe a Domenich y McFadden
(1975) y presupone que los errores aleatorios de la utilidad son IID Gumbel.
La ley Gumbel es una ley de distribución de valores extremos, concretamente es el máximo de muchos
valores aleatorios y capturan atributos no observables, medidas y errores de especificación. El aspecto
clave reside en la independencia de las errores.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-50
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
5-3.4
Deducción del modelo logit multinomial
El individuo i selecciona la alternativa j si ésta tiene utilidad máxima:
U ij = Vij + ε ij ≥ U il = Vil + ε il ∀ l ≠ j → Vij − Vil ≥ ε il − ε ij ∀ l ≠ j
U ij ≥ maxl ≠ j U il
o bien
Vij + ε ij ≥ maxl ≠ j {Vil + ε il }
y por tanto, la probabilidad de selección de j viene dada por
Sean los errores
Se define
ε il
[
].
Ρ ( Vij + ε ij ≥ max l ≠ j {Vil + ε il } )
i.i.d con distribución de probabilidad Gumbel(a=0,b) y Vil + ε il también es Gumbel(a= Vil ,b)
U i* ≥ max l ≠ j U il = max l ≠ j {Vil + ε il }
puede reescribir como U i = Vi + ε i y
*
*
([
*
])
exp(Vij b )
( (
( (
) , b)
y ahora si,
exp(Vij b )
1
=
=
*
*
1 + exp − Vij − Vi b exp(Vij b ) + exp Vi b
( (
) )
exp(Vij b ) + exp b log ∑l ≠ j exp(Vil b ) b
Prof. Lídia Montero – Esteve Codina ©
y
Vi * ≡ Gumbel b log ∑l ≠ j exp(Vil b )
ε i* ≡ Gumbel (0 , b )
Ρi ( j ) = Ρ Vij + ε ij ≥ Vi * + ε i* =
=
, que es equivalente a
=
) )
(
exp(Vij b )
exp(Vij b ) +
Pàg. 5-51
(∑
l≠ j
)
exp(Vil b )
=
)
exp(Vij b )
∑ exp(V b )
l
il
Curs 2.006-2.007
, pero se
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA
El paradigma teórico de la maximización de utilidad permite modelizar las aparentes irracionalidades:
U auto = Vauto + ε auto
{
{
sistemática
aleatoria
1. Dos individuos con los mismos atributos observados y el mismo conjunto de alternativas pueden seleccionar
opciones distintas.
2. No siempre los individuos seleccionan la alternativa con la utilidad sistemática (observada) máxima, ya que la
componente aleatoria interviene en la selección.
3. Se requiere para que sea correcta la descomposición de la utilidad que los individuos sean homogeneos en el
sentido que compartan el mismo conjunto de alternativas y sufran las mismas restricciones; éso se consigue
segmentando la población.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-52
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL
π ij = Ρi ( j ) = Ρ( [max l ≠ j {Vil + ε il } ≤ Vij + ε ij ]) =
∑
exp(Vij b )
1≤ l ≤ k
U ij = Vij + ε ij = α j + β T x j + γ Tj w ij + ε ij
exp(Vil b )
(MNL)
con errores iid Gumbel(0,1)
La determinación de las variables que van a ser incluídas en el modelos recae en estrategias de construcción de
modelos estadísticos de regresión generalizada. Se pueden emplear procedimientos step(.) (stepwise existentes
en los paquetes estadísticos) y comparar modelos mediante inferencia por diferencias de devianzas (si son
encajados) o bien por AIC (Akaike Information Criteria) si no lo son. La explicabilidad del modelo final se puede
cuantificar en base al coeficiente de determinación generalizado (R2 de Naglekerke). Se puede medir la capacidad
predictiva mediante el estadístico c (área bajo la curva ROC). En cualquier caso, la selección del mejor modelo
dada una colección de variables explicativas, recae en técnicas estandard de carácter estadístico.
Los modelos estadísticos de respuesta politómica toman una de las alternativas como de referencia y se estiman
el resto de parámetros en términos relativos a la referencia. Cada alternativa tiene un término constante en la
especificación de la utilidad sistemática, salvo la de referencia (se supone 0) y el resto de variables explicativas
pueden ser:
• Genéricas, ya que aparecen en la utilidad de todas las alternativas, con coeficientes idénticos
• Específicas, sólo son aplicables a la utilidad de alguna de las alternativas.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-53
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL
Los modelos estadísticos que suelen resultar más interpretables son los que adoptan la
convención ηik (x k , w ik ) = 0 (utilidad igual a valor del predictor lineal) en la reparametrización
base-line con categoría base k, el término independiente se considera específico de
alternativa con α k = 0 y los modelos se expresan en base a los log-odds respecto la
categoría base k (la última) quedan:
Modelo logit Multinomial (estimación por método vglm(.) en VGAM con variable auxiliar o multinom(.) en nnet):
π ij (x j , w ij )
Vij = ηij (x j , w ij ) = log
= α j + γ Tj w ij
π ik (xk , w ik )
j = 1, K , k − 1
i = 1, K , n
Modelo logit Condicional (estimación por método vglm(.) en VGAM con constraints=list(.)):
π ij (x j , w ij )
Vij = ηij (x j , w ij ) = log
= α j + βTx j
π ik (xk , w ik )
j = 1, K , k − 1
i = 1, K , n
Modelos logit combinado Multinomial-Condicional (estimación por método vglm(.) en VGAM con constraints=list(.),
más variable auxiliar):
Vij = η ij (x j , w ij ) = log
Prof. Lídia Montero – Esteve Codina ©
π ij (x j , w ij )
= α j + β T x j + γ Tj w ij
π ik (x k , w ik )
Pàg. 5-54
j = 1,K , k − 1
i = 1,K , n
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL
Los modelos multinomiales habituales (estimables mediante nnet(.) en R) son estructuralmente distintos:
π ij (x j , w ij ) π ij (w i )
=
= exp{α j + γ Tj w i } → π ij (w i ) = π ik (w i ) exp{α j + γ Tj w i } = π ik (w i ) exp{Vij }
π ik (x k , w ik ) π ik (w i )
El odds de la categoría j-ésima sobre la categoría l-ésima tiene por expresión,
j ≠ k, l ≠ k ,
π ij (w i ) π ij (w i ) π ik (w i )
T
=
= exp (α j − αl ) + (β j − βl ) w i
π il (w i ) π il (w i ) π ik (w i )
{
Dado el tipo de reparametrización,
j = 1, K , k − 1
i = 1, K , n
se cumple
π ij (w i ) =
}
exp (ηij (w i ))
=
exp (Vij )
∑ exp (η (w )) ∑ exp (V )
r
ir
i
r
y
1
1
1
π ik (w i ) =
=
=
1 + ∑ r ≠ k exp (ηir (w i )) 1 + ∑ r ≠ k exp (Vir ) 1 + ∑ r ≠ k π ij (w i ) π ik (w i )
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-55
Curs 2.006-2.007
ir
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL
Los modelos logit condicionales puros (estimables mediante vglm(.) de VGAM en R) son:
π ij (x j , w ij ) π ij (x j )
=
= exp{α j + β T x j } → π ij (x j ) = π ik (x k ) exp{α j + β T x j } = π ik (x k ) exp{Vij }
π ik (x k , w ik ) π ik (x k )
El odds de la categoría j-ésima sobre la categoría l-ésima tiene por expresión,
j ≠ k, l ≠ k ,
π ij (x j ) π ij (x j ) π ik (xk )
=
= exp{(α j − αl ) + βT (x j − xl )}
π il (xl ) π il (xl ) π ik (xk )
Dado el tipo de reparametrización,
j = 1, K , k − 1
i = 1, K , n
se cumple
π ij (x j ) =
exp (ηij (x j ))
=
exp (Vij )
∑ exp (η (x )) ∑ exp (V )
r
ir
r
r
y
π ik (xk ) =
1
1
1
=
=
1 + ∑ r ≠ k exp (ηir (w i )) 1 + ∑ r ≠ k exp (Vir ) 1 + ∑ r ≠ k π ij (x j ) π ik (xk )
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-56
Curs 2.006-2.007
ir
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL
5-4.1
Propiedades del modelo MNL
El modelo logit es aplicable como modelo de selección de alternativas (discretas) si:
1. Las variaciones individuales en los gustos están representadas en la componente sistemática (observable) de la
utilidad. Si las variaciones del gustos son aleatorias (forman parte de la utilidad no observable) entonces no
pueden tratarse mediante modelos logit.
2. El patrón de sustitución (efecto del cambio en alguna de las componentes observables de una alternativa) es
proporcional entre las alternativas.
3. Si los factores no observables son independientes del tiempo en situaciones de selección repetida de
alternativas. Si los factores no observables están correlacionadas en el tiempo no pueden capturarse mediante
un modelo logit.
5-4.1.1
Variaciones individuales en los gustos
El valor o importancia de los factores que caracterizan las alternativas pueden variar según los individuos
(enfrentados al proceso de selección). El precio de una tarifa de parking es más importante para los individuos con
bajos ingresos que para los más ricos y ésta es una característica del individuo. Dos individuos con igual nivel
socioeconómico pueden efectuar una elección distinta de tipo de vehículo, ya que depende de sus gustos
individuales.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-57
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL
Por ejemplo,
U ij = Vij + ε ij = β x j + ε ij
x ≡ Tarifa (€ / h) , pero si se relaciona la tarifa con el salario medio
por hora del individuo, entonces el efecto individual de la tarifa quedará absorbido en la componente observable y
por tanto, no invalidará un modelo de selección logit donde se presenta una interacción de individuo-alternativa:
(
)
U ij = Vij + ε ij = θ x j I i + ε ij
x ≡ Tarifa (€ / h )
I i ≡ Salario(€ / h )
La limitación del modelo logit se da cuando se desea modelizar cambios en atributos no observables, es decir
vinculados a la componente aleatoria de la utilidad. Por ejemplo, si se supone que la importancia de la tarifa tiene
que ver con factores observables (salario) y no observables, de manera que β i = (θ I i ) + bi , donde
observable; de ahí,
(
)
(
)
U ij = Vij + ε ij = θ x j I i + bi x j + ε ij = θ x j I i + ε~ij
x ≡ Tarifa (€ / h )
Pero los errores ahora pueden ser correlacionados entre alternativas:
[ ] [
[
]
[
bi no es
I i ≡ Salario(€ / h )
]
COV ε~ij , ε~ik = COV bi x j + ε ij , bi xk + ε ik = x jV [bi ]xk ≠ 0 y
]
[ ]
V ε~ij = V bi x j + ε ij = x 2jV [bi ] + V ε ij ≠ cnt
, la varianza no es constante en las distintas alternativas.
Cuando hay variaciones aleatorias de los gustos entonces los modelos logit facilitan una aproximación al
gusto medio, pero para incorporarlas plenamente se necesita una modelización más compleja mediante
modelos probit o logit mixtos.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-58
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL
5-4.1.2
Patrones de sustitución
Los patrones de sustitución son los cambios en la demanda (cuota de mercado de las alternativas) cuando los
atributos observables cambian. Los modelos logit presentan un patrón de sustitución proporcional entre las
alternativas y ésto puede verse como una restricción en el cociente de las cuotas de mercado (odds relativos) o
bien en las elasticidades cruzadas de las probabilidades. El modelo satisface la independencia entre alternativas
irrelevantes (IIA, Independence from Irrelevant Alternatives ) que puede formularse como:
Donde haya dos alternativas con probabilidad no nula de ser elegidas, el cociente de una sobre la otra
(odds) no se ve afectado por la presencia o ausencia de ninguna alternativa entre todas las posibles.
π ij (x j , w i ) exp{Vij } ∑l exp{Vil } exp{Vij }
T
=
=
= exp (α j − α r ) + β T (x j − x r ) + (γ j − γ r ) w i
π ir (x r , w i ) exp{Vir } ∑l exp{Vil } exp{Vir }
{
}
k
referencia
1. Observar que no depende de la utilidad de ninguna otra alternativa.
2. Si hubiera muchas alternativas, entonces McFadden demostró que se pueden obtener estimadores no sesgados
de los parámetros si el modelo se estima a partir de una muestra aleatoria del conjunto de alternativas
disponibles para cada individuo.
Esta propiedad se consideró beneficiosa porque permitía tratar el problema de la introducción de nuevas
alternativas (no presentes en la etapa de calibración). Sin embargo, convierte el modelo en inválido en presencia
de alternativas correlacionadas: paradoja del autobús rojo-azul.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-59
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL
5-4.1.2.1
Paradoja del autobús rojo-azul
Supóngase los habitantes de una ciudad pequeña que dispone de una única línea de autobús, no existen otros
modos de transporte colectivo, y la única alternativa de transporte mecanizado disponible es el transporte
privado (en alguna de sus modalidades que se consideran agrupadamente). Un estudio determina que la
probabilidad de seleccionar un modo privado o el autobús para ir al centro de compras son equiprobables:
P(privado)=0.5 y P(bus)=0.5 (odds de privado vs bus = 1).
Supóngase que se llega a pintar la mitad de la flota de rojo, y la otra mitad de azul, el nivel de servicio de la línea
se mantiene igual. La selección modal por sentido común tendría que ser:
P(privado)=0.5 , P(bus rojo)=0.25 y P(bus azul)=0.25.
Selección Modal al Centro
Selección Modal al Centro
↓
↓
Privado
Bus Rojo
Bus Azul
Privado
0.5
0.25
0.25
Sentido Común
0.33
0.33
0.33
MNL
Bus
0.5
↓
Rojo
Azul
0.5
0.5
El índice i indica individuo y j el modo, con valores arbitrarios j=1 privado, j=2 bus rojo y j=3 bus azul.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-60
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL
Si la utilidad percibida de cada modo viene reflejada en el valor del predictor lineal y ésta es constante, es decir
ηij (x i ) = cnt per j = 1, K, 3
i = 1, K , n
, entonces el modelo de respuesta multinomial (MNL) daría como
probabilidades de selección modal equiprobables,
π ij (x i ) =
exp (η ij (x i ))
∑ exp (η (x ))
r
ir
i
=
1
3
ηij (x i ) = cnt per j = 1, K , 3
i = 1, K , n
lo que va contra el sentido común.
El problema es que el modelo de respuesta multinomial, no jerárquico no es adecuado, ya que los odds entre 2
categorías (modos) únicamente dependen de las diferencias entre los predictores lineales (utilidades) de las 2
categorías, no se ve afectado por la utilidad de ninguna otra categoría, pero esto es un problema si existen
alternativas correlacionadas como es el caso de bus rojo y bus azul.
En efecto, los odds entre categorías se mantienen constantes, tal como eran antes de la brillante idea de pintar
de 2 colores la flota, (odds de privado vs bus rojo = 1, privado vs bus azul = 1 y bus rojo vs bus azul = 1). Un
modelo jerárquico mantendría el sentido común: odds de privado vs bus = 1 y en el segundo nivel, odds de bus rojo
vs bus azul = 1.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-61
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL
5-4.1.2.2
Elasticidad directa y cruzada
Si el cociente de probabilidades de dos alternativas cambia con la introducción de una nueva alternativa o bien por
el cambio en la utilidad de una tercera, entonces no se cumple la independencia entre alternativas irrelevantes,
que puede expresarse también en términos de elasticidades cruzadas de las probabilidades logit.
La elasticidad directa de la alternativa j a un atributo es el porcentaje de cambio en la probabilidad de usar la
alternativa con respecto al cambio marginal de un atributo que forma parte de la utilidad (l-ésimo) y tiene por
expresión:
∂π ij
∂xijl
(
)
= π ij 1 − π ij β l →
∂π ij xijl
∂xijl π ij
(
)
= (1 − π )x
=
∂ log(x )
∂ log π ij
ij
ijl
βl
ijl
La elasticidad cruzada directa es el porcentaje de cambio en la probabilidad de usar una alternativa con respecto
al cambio marginal de un atributo de otra alternativa (fijemos el l-ésimo).
∂π ij
∂xikl
( )
∂π ij xikl ∂ log π ij
= −π ik ⋅ π ij ⋅ β l →
=
= −π ik ⋅ xikl ⋅ β l
∂xikl π ij ∂ log( xikl )
Como consecuencia de la propiedad de independencia de alternativas irrelevantes, la elasticidad cruzada tiene un
efecto idéntico en todas las alternativas (MNL es uniforme): una mejora en un atributo de una alternativa reduce
la probabilidad del resto de alternativas en el mismo porcentaje. Este es un patrón de sustitución de decalaje
proporcional. Patrones más complejos deben modelarse con modelos logit anidados, probit o logit mixto.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-62
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL
Por ejemplo, supóngase un reparto modal de auto, bus y metro de 0.4, 0.3 y 0.3. Si se mejora la calidad de la red
de autobus sin ampliar su red y se consigue un incremento de la cuota de mercado del autobús del 0.3 al 0.37,
entonces bajo un patrón de sustitución proporcional, implicaría que el decremento del auto y del metro sería
proporcionalmente el mismo, es decir 0.36 y 0.27 para el auto y el metro. Este patrón no tiene porqué ser realista
ya que es mucho más probable en un entorno urbano que el impacto se note más en el otro transporte público (el
metro) que en el modo auto.
5-4.1.3
Beneficio al consumidor (consumer surplus)
El anàlisis de la políticas de gestión del tráfico suelen evaluar el cambio percibido por el consumidor (utilidad). Por
ejemplo, si se desea evaluar el impacto de la inclusión de un metro ligero, habrá que comparar costes de
implantación con beneficios para los usuarios. Bajo la hipótesis logit, el beneficio para el consumidor toma una
expresión cerrada y sencilla. Los ciudadanos seleccionan la alternativa modal que maximiza su utilidad y el
(
)
beneficio para el usuario es CSi = 1 β i maxl {U il } donde dividir por
β i (valor absoluto del coeficiente de precio
o de coste en la utilidad, muy crítica su precisión en la aplicación presentada) la utilidad marginal del ingreso es
dU i dX = β i
X : Ingresos (derivada de la utilidad respecto los ingresos del individuo i, no depende de los
ingresos es una constante), traslada la utilidad a unidades monetarias.
De ahí se puede demostrar que el beneficio esperado (€), es un término de log sum’s más una constante que se
normaliza a 0:
(
)
(
)
(
) (
)
Ε[CSi ] = 1 β i Ε[max l {U il }] = 1 β i Ε[max l {Vil + ε il }] = 1 β i log ∑l exp{Vil } + cnt
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-63
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MÁS PROPIEDADES MNL
5-4.1.4
Rol del término independiente y choice-based samples
El término independiente de la utilidad juega un rol de promedio de la parte de la utilidad no observada y todos los
modelos con término independiente en la utilidad (salvo en la alternativa de referencia) cumplen el satisfacer las
probabilidades marginales muestrales de las alternativas:
π ij (x j , w i ) exp{Vij }
T
T
=
= exp{Vij − Vik } =
exp
α
+
β
x
+
γ
{
j
j
j wi
π ik (x r , w k ) exp{Vik }
V =0
{
}
k
referencia
ik
Si los individuos proceden de un m.a.s. entonces el promedio de las probabilidades predecidas por el modelo con
constantes específicas, πˆ ij , coincide con las probabilidades muestrales de las alternativas.
Si se intenta usar un modelo de elección discreta estimado en un estudio anterior para la predicción de las
probabilidades individuales de elección de alternativa en la actualidad, entonces puede aparecer un ligero
desajuste ya que las probabilidades marginales predecidas por el modelo pueden no ajustarse al reparto actual
(cuota de mercado actual que puede conocerse a nivel agregado). La solución reside en actualizar
convenientemente y en proceso iterativo las constantes específicas de alternativa en el modelo de elección
discreta hasta que las probabilidades marginales predecidas coincidan con las probabilidades marginales de la
realidad actual : los coeficientes de las variables explicativas son consistentes y deben mantenerse.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-64
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MÁS PROPIEDADES MNL
El rol de las constantes en la utilidad va más allá. A menudo si hay alternativas con poca cuota de mercado es
habitual seleccionar para la estimación de los modelos discretos de elección muestras que no son m.a.s, es decir se
seleccionan muestras donde se favorece la observación de elecciones con baja cuota de mercado; así se disponen
de observaciones de las alternativas ‘raras’ sin necesidad de tener que aumentar demasiado la muestra (y por
tanto el presupuesto destinado a la recogida de datos).
Si los planes de muestreo son complejos, la estimación de los parámetros de la utilidad pueden ser altamente
complejos y requerir de software específico. Manski y Lerman (1977) demostraron un resultado muy útil que
permite adaptar los modelos logit de selección discreta estimados bajo una muestra no aleatoria simple con los
procedimientos habituales de la inferencia estadística. Si la utilidad contiene los términos independientes
específicos de las alternativas y se estiman los modelos con la muestra choice-based y los procedimientos
estadísticos habituales, entonces los estimadores de los coeficientes de las variables explicativas son
consistentes con los que se obtendrían con una muestra aleatoria. Las constantes específicas de la utilidad en
cada alternativa son sesgadas y deben reajustarse :
α j ← α j + log
donde
MAS j
MAS j
CBS j
es la cuota de mercado de la alternativa j en la población y
CBS j
es la cuota de
mercado en la muestra choice-based (no aleatoria).
Sólo es necesario disponer de las cuotas de mercado poblacionales a nivel agregado !
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-65
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: HL (LOGIT JERARQUICO)
5-5.1
Formulación del modelo logit jerárquico
Considérese la estructura de vector aleatorio para todas las
posibles alternativas seleccionables por el individuo n-ésimo.
Si
entonces aparece el modelo probit
multinomial, para el que no hay una expresión cerrada para las
probabilidades de las alternativas y se debe recurrir a integración
numérica.
En el caso MNL,
ε n ≈ Gumbel (0, Σ )
2
con Σ = σ I J y
Σ es la matriz de varianzas-covarianzas del vector
aleatorio de errores de las utilidades de las alternativas.
• El MNL es extremadamente simple y puede no ajustarse a la realidad de la selección de alternativas cuando
éstas no son independientes (es decir, hay grupos de alternativas más similares que otras, como los distintos
modos de transporte público versus el auto privado).
• Tampoco resulta posible modelar las variaciones aleatorias en los gustos según los usuarios (es decir, la
percepción de la tarifa varía con la renta, pero la variable percepción de la tarifa no es medible), en cuyo caso
hay que trabajar con modelos de efectos aleatorios, en lugar de efectos fijos.
• Los modelos probit multinomiales permiten más capacidad modelística, pero no son tratables en general. Otra
extensión posible de los MNL son los modelos generalizados de valor extremo (GEV models), que se expondrán
en el próximo apartado.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-66
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
Una situación en que la estructura del proceso de selección alternativas se puede jerarquizar parece adecuado
para los procesos combinados de selección de destino y modo de transporte. Primer nivel con la selección del
destino y segundo nivel de la jerarquía de selección del modo de transporte. La función de utilidad se puede
proponer con:
U(d, m) = U(d) + U(m | d )= V(d) + V(m | d )+ ε(d) + ε(m | d )
U(d) es la parte de la utilidad asociada al destino d y U(m | d ) es la parte de utilidad vinculada al coste
de viaje con el modo m, dado que se ha elegido el destino d.
Se puede demostrar que si las componentes aleatorias ε son i.i.d Gumbel por niveles, entonces bajo ciertas
condiciones ( b1 ≤ b2 ) aparece el modelo logit jerárquico o logit anidado (nested logit, Williams 1977), con una
ecuación para la probabilidad conjunta:
((
) )
((
) )
Vid* (xi ) = b1 log(∑s exp (Vids (xi ) b1 ))
exp Vid (x i ) + Vid* (x i ) b2 exp (Vidm (x i ) b1 )
π idm (x i )
*
(
)
exp
V
x
+
V
∑r
ir
i
ir (x i ) b2 ∑ s exp (Vids (x i ) b1 )
con
Las alternativas se agrupan en bloques de alternativas correlacionadas, no pueden haber alternativas de un grupo
correlacionadas con alternativas de otro grupo.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-67
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
Se puede ver, que para un mismo destino, la estructura jeràrquica refleja una correlación ligada al término ε(d),
U(d, m) = U(d) + U(m | d )= V(d) + V(m | d )+ ε(d) + ε(m | d )
U(d, m’) = U(d) + U(m’ | d)= V(d) + V(m’ | d )+ ε(d) + ε(m’ | d )
Si los
ε(d)’s
tienen covarianzas
0 entonces el HL se convierte en MNL.
Por cuestiones de identificabilidad, se suele suponer que b1 = b2 = 1 . La utilidad esperada compuesta de un nodo
no terminal tiene dos elementos la parte EMU (Expected Maximum Utility) más la parte de variables comunes de
todas las alternativas del nodo.
EMU:
(
=
)
ViT* (wi ) = log ∑ s = B , M exp (ViTs (wi ))
T-transit
ViT (wi , zi ) = φ EMU + β T zi
w
x =  
Donde
 z  , con z variables con valores comunes
T
al nodo T y w las variables específicas de alternativa dentro del nodo T. φ , β son parámetros a estimar.
A-Auto
I-
Prof. Lídia Montero – Esteve Codina ©
B-Bus
M-Metro
Pàg. 5-68
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
5-5.2
Modelos de valor extremo generalizado (GEV)
Estos modelos constituyen una generalización de la propuesta logit que permite patrones de sustitución más
complejos que el decalaje proporcional. Son modelos en que la parte no observable de la utilidad en las distintas
alternativas muestra una distribución conjunta de Valor Extremo Generalizado. Esta distribución permite
correlaciones entre las componentes aleatorias de la utilidad, pero si las correlaciones son cero entonces a un
modelo logit (MNL) :la distribución conjunta es producto de distribuciones Gumbel. Los modelos logit jerárquicos
son los representantes más conocidos de la familia de modelos GEV.
5-5.3
Propiedades del modelo logit jerárquico (nested logit)
Son modelos apropiados cuando el conjunto de alternativas puede descomponerse en subconjuntos jerárquicos
denominados nidos o nodos (nests ). La estructura logit jerárquica se puede representar de manera arborescente,
con árboles n-arios y de profundidad variable según las ramas. Se deben cumplir las siguientes propiedades:
• Si dos alternativas estan en el mismo nodo, entonces el cociente de probabilidades es independiente de los
atributos o de la existencia de todas las otras alternativas. IIA se cumple dentro del nodo.
• Si dos alternativas están en nodos distintos, entonces su cociente de probabilidades puede depender de los
atributos de otras alternativas de los dos nodos, pero no de alternativas de otros nodos.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-69
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
McFadden y Williams demostraron por vías distintas e independientes que los modelos logit jerárquicos son
consistentes con la teoría de la maximización de la utilidad. Sean las K alternativas particionadas en J
subconjuntos disjuntos, denominados
B1 K BJ .
La utilidad percibida por el individuo i-ésimo responde a una
componente sistemática más una aleatoria,
U ij = Vij + ε ij = α j + β T x j + γ j w i + ε ij con errores de distribución de valor extremo generalizada con una
T
 J

función de distribución exp − ∑
 j =1
donde
)
(∑


{
}
−
exp
ε
λ
il
j 
l∈B j

λ j mide el grado de dependencia en la parte no observable de la utilidad entre las alternativas del nodo j.
• Si
λ j → 1 entonces independencia intra nodo.
• Si
λ j → 0 entonces máxima dependencia intra nodo.
• Las
ε il ’s están correlacionadas dentro del mismo nodo, pero no lo están si pertenecen a nodos distintos.
• Si todas las
λ j son 1, entonces el logit jerárquico colapsa a logit MNL.
La probabilidad para la alternativa m del nodo j es,
(
)
π im = exp(Vim λ j ) ∑l∈B exp{Vil λ j }
Prof. Lídia Montero – Esteve Codina ©
j
λ j −1
Pàg. 5-70
∑ (∑
J
j =1
l∈B j
)
exp{Vil λ j }
λj
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
Los odds para las alternativas m y m’ pertenecientes a nodos distintos y notados j y j’ son:
(
(
)
)
exp(Vim λ j ) ∑l∈B exp{Vil λ j }
π im
=
π im' exp(Vim' λ j ' ) ∑l∈B exp{Vil λ j ' } λ
λ j −1
j
j'
j ' −1
independencia entre alternativas de nodos irrelevantes (IIN)
π im exp(Vim λ j )
Los odds para las alternativas m y m’ pertenecientes al mismo nodo j: π = exp(V λ ) .
im '
im '
j
5-5.4
MNL Logit Heterocedástico
Una de las múltiples posibilidades de los modelos GEV consiste en mantener la independencia entre alternativas
pero incorporar una variación en la escala de la utilidad vinculada a cada nodo. Sea j el índice de las alternativas.
U ij = Vij + ε ij = α j + β T x j + γ j w i + ε ij → cov(ε ij , ε ij ' ) = 0
T
j ≠ j'
[ ]
pero V ε ij = (θ j π ) 6
2
Las probabilidades de las distintas alternativas no responden a una fórmula cerrada, pero pueden aproximarse por
simulación y resulta de gran utilidad modelística:
Si ω =
ε ij


→ π ij = ∫ ∏ exp(− exp(− (Vij − Vil + θ j ω) θ j ))exp(− exp(− ω))exp(− ω)dω
1444424444
3
θj
 j ≠l

densidad valor extremo
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-71
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
5-5.5
Caso particular: árbol de dos niveles
La utilidad observada se descompone en dos partes: una parte constante para las alternativas de un nodo concreto
(W, variable entre nodos) y una parte que varía según las alternativas del nodo (Y, variable intranodo), de manera
que la utilidad se puede reescribir para el modo m dentro del nodo j y el individuo i, como:
U im = Vim + ε im = Wij + Yim + ε im
Ahora se puede reescribir la probabilidad conjunta logit jerárquica como producto de los probabilidades logit, una
marginal por una condicional, es decir la probabilidad de elegir la alternativa m dentro del nodo j, es la
probabilidad marginal de elegir el nodo j por la probabilidad condicional de elegir el modo m dado que se ha elegido
el nodo j, ambas probabilidades toman la forma funcional de las probabilidades logit en el caso jerárquico de 2
niveles:
π iB j
π im = π iB j π im|B j
Expected Maximum
Utiliy ( EMU = I ij λ j )
→ π im|B j
I ij
= exp(Wij + I ij λ j )
=
=
∑ exp(W + I λ )
exp(Y λ ) ∑ exp(Y λ )
log ∑ exp(Y λ )
il
il
l
Bl
im
j
k∈B j
ik
k∈B j
ik
Hay que notar que los coeficientes del modelo de nivel inferior están divididos por
j
j
λ j que afecta a su vez en la
definición de la utilidad esperada por nodo, de otro modo se pierde la consistencia con el paradigma de
maximización de utilidad.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-72
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
•
λj
es un parámetro a estimar y refleja el grado de independencia entre la parte no observada de la utilidad
en el nodo j.
•
I ij se denomina utilidad inclusiva del nodo j.
•
λ j I ij
es la utilidad esperada por seleccionar una alternativa del nodo j. La utilidad esperada es la misma que
para un modelo logit simple, ya que condicionado al nodo, la selección de alternativas es IIA.
(ε im , ε im' ) = 0 si las alternativas m y
Corr(ε im , ε im' ) ≈ 1 − λ j .
• 1- λ j refleja la correlación entre las alternativas del nodo j ( COV
m’ pertenecen a nodos distintos, pero si pertenecen al mismo nodo j
• No hay que confundir utilidad marginal con utilidad condicional:
COV (ε im| j , ε im'| j ) = 0
si las alternativas m
y m’ pertenecen al mismo nodo j y de ahí que la propiedad IIA se cumpla en el interior del nodo.
Rango
λj
Interpretación
λj
Equivalencia RUM
0 < λj <1
Patrón de sustitución mayor dentro del propio nodo que entre nodos
Si
λj =1
Patrón de sustitución proporcional: colapsa a MNLogit
Si
λj >1
Patrón de sustitución mayor entre otros nodos que dentro del propio nodo
λj < 0
No tiene
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-73
No siempre
No
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
5-5.6
Ejemplos
Ejemplo 1:
En el presente ejemplo se pretende ilustrar la práctica de la formulación y estimación de un modelo jerárquico
donde cada etapa contiene un modelo logit multinomial, en un supuesto de selección de modo de transporte entre
auto privado (C) , autobús (B) y metro (M), donde las 2 categorías de transporte colectivo se suponen
correlacionadas.
Modelo MNL no jerárquico
↓
Auto
Bus
Metro
(No válido para alternativas
correlacionadas)
1. Sean las utilidades de las alternativas:
U iC
Modelo Jerárquico
↓
Transporte Colectivo
↓
Bus
Metro
Auto
auto privado (C) ,
2. Sean las utilidades sistemáticas de las alternativas:
ViC
U iB
autobús (B) y
auto privado (C) ,
ViB
U iM
metro (M).
autobús (B) y
ViM
metro
(M).
3. Las utilidades sistemáticas de los modos de transporte colectivo (TC) se dividen en componentes
compartidas por los modos TC y componentes compartidas con el nivel anterior, auto privado, de manera que
ViB = ViTC + ViB / TC
y
Prof. Lídia Montero – Esteve Codina ©
ViM = ViTC + ViM / TC .
Pàg. 5-74
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
4. Una descomposición similar corresponde a las componentes aleatorias.
U iC = ViC + ε iC ,
U iB = ViB + ε iB = WiTC + YiB / TC + ε iTC + ε iB / TC
y
U iM = ViM + ε iM = WiTC + YiM / TC + ε iTC + ε iM / TC .
En el nivel superior, la selección entre auto privado (C) o transporte colectivo (TC) responde a otro logit binario,
exp(ViC )
Ρ(C ) =
exp(ViC ) + exp(ViTC )
y
Ρ (TC ) = 1 − Ρ (C )
Para el nivel inferior, selección de Bus o Metro dentro del grupo de alternativas de transporte colectivo, se
tendrá el logit binario,
Ρ(M TC ) =
exp(YiM / TC λTC )
exp(YiM / TC λTC ) + exp(YiB / TC λTC )
Ρ(M ) = Ρ(M TC )Ρ(TC )
y
y
Ρ (B TC ) = 1 − Ρ (M TC )
Ρ (B ) = Ρ (B TC )Ρ (TC )
(Ojo !
Ρ ( B ) ≠ 1 − Ρ (M ) )
La condición de contorno que deben satisfacer las probabilidades es que su suma sea 1:
Ρ (B ) + Ρ (M ) + Ρ (C ) = 1
Prof. Lídia Montero – Esteve Codina ©
Curs 2.006-2.007
Pàg. 5-75
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
Ahora bien, la utilidad sistemática del transporte colectivo contiene la utilidad máxima esperada (EMU) derivada
del nivel inferior que se define para modelos logísticos:
λTC I ij = λTC log(exp (YiM / TC λTC ) + exp(YiB / TC λTC ))
ViTC = λTC I ij + WiTC
Ahora bien, los modelos jerárquicos no deben limitarse a respuestas binarias en cada uno de los niveles, los
modelos jerárquicos tienen sentido per se y son enormemente potentes, a pesar de sus limitaciones:
• Comparten con los MNL el no poder tratar con las variaciones de gusto individuales, no son modelos de
efectos aleatorios.
• Pueden tratar interdependencias a nivel de nodo, pero no puede modelar asociaciones entre alternativas de
distintos nodos.
• La estructura del proceso jerárquico de decisiones puede no ser evidente y requerir de varias tentativas.
• La estimación de HL a partir de la estimación secuencial de modelos MNL a nivel de nodo es simple, pero se
han documentado problemas de eficiencia si los nodos de menos jerarquía se quedan con pocas
observaciones, situación que se ha de evitar a toda costa.
• La estimación de HL a partir de la estimación secuencial de modelos MNL produce modelos
sobreparametrizados y requiere de normalización a la escala de los niveles inferiores.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-76
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
5-5.6.1
Proceso secuencial de estimación de los modelos logit jerárquicos
1. Estructurar el proceso de decisión en forma de arbol jerárquico, donde se agrupan en un nodo las
alternativas más similares.
2. Estimar secuencialmente los modelos MNL de cada nodo, empezando por los nodos terminales (hojas) y
subiendo hacia la raíz (down to top). Niveles 0 son las hojas y nivel s>0 es la raiz del árbol.
3. La introducción de la utilidad compuesta de un nodo (no raíz) en el nodo immediatamente superior (padre)
requiere del cálculo de su EMU (Expected Maximum Utility) que vendrá afectado de un parámetro
0 < φ1 ≤ K ≤ φs ≤ 1 de nivel, más las variables explicativas comunes para las alternativas de un nodo (z’s),
que tambien vendrán afectadas por parámetros a estimar en el MNL del nodo padre.
4. Despues de estimar todos los modelos MNL de los nodos del árbol de decisiones, las probabilidades
absolutas de selección de cada alternativa se calculan de arriba a abajo (top-down) mediante formulas
derivadas de la probabilidad condicional.
5. Los indicadores de bondad del ajuste se calculan como suma de los indicadores por nodo: AIC global es la
suma de los AICs de cada nodo. La comparación entre estructuras de decisión (árboles de decisión) se puede
efectuar por AIC (el modelo HL con mínimo AIC resulta preferible). Los estimadores son sesgados si el
proceso de estimación se realiza top-down y contiene generalmente estimaciones redundantes de
parámetros comunes que no pueden forzarse a la igualdad: alternativa cómoda, pero técnicamente
incorrecta.
Si
0 < φ1 = K = φs = 1 el modelo logit jerárquico colapsa a un logit multinomial (MNL) con todas las alternativas
del proceso de decisión en el mismo nivel.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-77
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO
5-5.6.2
Otros procesos de estimación de los modelos logit jerárquicos: full tree logit models
Estimación simultánea de los modelos HL es más costosa computacionalmente y requiere de software específico
no disponible en los paquetes de planificación del transporte habituales (EMME/2, TRANSCAD, AIMSUN, etc).
En los 80s se desarrollaron LIMDEP, HIELOW, ALOGIT. Este último fue propuesto por Daly (1987) es muy
eficiente y es posiblemente el más conocido entre los profesionales de la planificación del transporte.
0 < φ j ≤ 1 ALOGIT es fuente de controversia ya que para la estimación simultánea del modelo HL es necesario
normalizar uno de los parámetros de escala, por ejemplo el del nivel superior fijarlo a 1, lo que conlleva reescalar
convenientemente las utilidades de los nodos de niveles inferiores. En la práctica, la estimación simultánea de
modelos estandarizados jerárquicos (un modelo es estandarizado si al añadir una constante a cada utilidad, las
probabilidades de las alternativas no cambian) con ALOGIT lleva a la necesidad de definir para la alternativa
primaría (de jerarquía de más alto nivel) un nodo particular donde esté ella sola. En el Ejemplo 1,
Nivel 1
T-transit 0 < φ0 ≤ φ1 ≤ 1
T-transit
Nivel 0
A-Auto
A-Auto B-bus M-Metro
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-78
B-Bus
M-Metro
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: FULL TREE LOGIT MODELS
La teoria de la utilidad aleatoria y el comportamiento en que se basa el logit jerárquico es complejo y su
derivación requiere de una formulación en desigualdades variacionales. Sin embargo, la expresión del modelo en
forma de probabilidades predichas para cada una de las alternativas es más que suficiente para las aplicaciones
prácticas y éste es el punto de vista que se va a detallar en este curso.
Se requiere del desarrollo de una notación específica y por razones históricas se toma la notación del artículo
original de Andrew Daly (Transp. Research 1987 21 B). Se ilustra con un árbol binivel (Ejemplo 1).
p jl = p j ⋅ pl
pl j =
exp(Vl
∑
l'
Probabilidad conjunta de seleccionar el modo j en el nivel superior y el modo l en
el nivel inferior, igual a probab absoluta de modo j en nivel superior por prob
nivel l condicionado a j.
Utilidad observada de alternativa l de nivel inferior condicionada a alternativa j
de nivel sup (errores Gumbel). El sumatorio es para todas las alternativas de
nivel inferior (notadas l’)
j
j
)
exp(Vl '
j
exp(V j )
pj =
∑ jj' exp(V j' )
)
Utilidad observada de alternativa j de nivel de nivel sup (errores Gumbel). El
sumatorio es para todas las alternativas de nivel superior (notadas j’)
Vl j = x Tl jβ l j
Utilidad de l condicionada a j. Depende de variables explicativas
(
V j = x Tj β j + φ j log ∑l ' exp(Vl '
j
))
estimarse
y han de
βl j
Utilidad del modo j de nivel superior.
X j var.
explicativas (las hay comunes a
todos los modos de nivel inferior. Se calcula la utilidad compuesta del nodo
inferior. Restricción
Prof. Lídia Montero – Esteve Codina ©
Xl j
0 < φ j ≤ 1 , se denominan parámetros estructurales.
Pàg. 5-79
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: FULL TREE LOGIT MODELS
La estructura del árbol jerárquico de decisiones es fija y se supone un input al proceso. Se pueden ensayar
distintas propuestas, las cuales podrán compararse gracias al proceso de estimación por maximización de
verosimilitud que permite definer para un model su AIC y comparar modelos cualesquiera en base al criterio de
minimización del AIC.
La función de verosimilitud es complicada de escribir para una estructura arborescente general y requiere de la
inclusión de un nodo ficticio que es el nodo raíz. Implicitamente hay restricciones en las probabibilidades, ya que
1 = ∑ j' p j'
∀j ∑l ' pl ' j = 1
φ
0
≤ 1 se interpreta en términos de correlación entre las
En el Ejemplo binivel: 0 < φ0 ≤ φ1 ≤ 1 y el cociente
φ1
 φ0
utilidades totales de dos alternativas que comparten el nodo 1 corr (U l , U l ' ) = 1 − 
 φ1

V [ε jl ] 
  

 o bien  φ0  = 
 V [ε ] + V [ε ]  . El
φ
j
jl 
 1 

2
2
φ0
≤ 1 debe estimarse y se suele suponer φ0 = 1 (normalizar escala en las hojas).
cociente
φ1
Ojo ! en los apartados de exposición del nested logit (5-5.3 y5-5.5 ) es implícita una normalización del nodo raíz.
La varianza de las utilidades es mínima en el nodo de más profundidad y a medida que se ‘sube’ por el árbol va
aumentando. La inferencia sobre los parámetros estructurales a
φ j = 1 implica la existencia de un modelo
multinomial no jerárquico (HL colapsa a MNL).
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-80
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: GEV
5-5.7
Introducción a la teoría de los modelos gev
Modelos GEV (valor extremo generalizado) no pueden tratar todas las posibles estructuras de correlación entre
alternativas, pero si muchas de ellas.
No pueden capturar la heterocedasticidad ni la heterogeneidad de los individuos.
En la práctica se ha de recurrir a modelos complejos basados en mixtures de funciones de probabilidad.
Presentación de Bierlaire.
Los modelos de valor extremo generalizado fueron propuestos por McFadden (1978).
Idea: Un modelo viene generado por una función
G : ℜ J → ℜ , donde G puede ser:
• Una función de distribución de un vector aleatorio multidimensional de los errores
εn .
• Un modelo de probabilidad.
• La utilidad esperada máxima.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-81
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MODELOS GEV
•
•
µ
(
)
G
α
x
=
α
G( x ) .
G es homogenea de grado µ , con µ > 0 , si satisface que
lim xi → +∞ G ( x1 ,K, xi ,K, xJ ) = +∞ , para cada i = 1, K , J
• La derivada parcial k-ésima con respecto a k distintos
xi
es no negativa si k es impar y no positiva si k es
k
G (x )
∂
k
(− 1)
≤ 0 ∀x ∈ ℜ +J
∂xi1 K ∂xik
par, es decir, para cualquier subconjunto de indices
.
• La función densidad de probabilidad
( (
F ( ε 1 , K , ε J ) = exp − G e −ε1 K e −ε J
• La probabilidad de selección de la alternativa j es
))
.
(
)  
(
)

 ∂G eV1 K eVJ
expVi + ln
∂xi


P( j ) =
 ∂G eV1 K eVJ
∑ j V j + ln
∂x j







y
tiene por tanto una expresión cerrada y es consistente con la hipótesis de selección por maximización de
la utilidad (aleatoria).
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-82
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MODELOS GEV
(
• La utilidad màxima esperada del conjunto de alternativas
)
 G eV1 K eVJ + γ 

ln
µ

 es
donde γ es la
constante de Euler.
• Por tanto,
P( j ) =
∂VC
∂Vi
.
Por ejemplo, el caso del modelo logit multinomial es un caso particular:
(
)
G eV1 K eVJ = ∑ j exp(µ V j ) y
(
)

 ∂G eV1 K eVJ  

expV j + ln



∂
x
j



P( j ) =

 ∂G eV1 K eVJ  
 
∑lexpVl + ln

∂xl



(
)
(
∂G e V1
con
)
K e VJ
= µ x iµ
∂x i
De donde,
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-83
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MODELOS GEV
(

 ∂G eV1 K eVJ
expVi + ln
∂xi


)   = exp(V + ln(µ ) + (µ − 1)ln(e )) = exp(µV + ln(µ ))

Vi
i

i
Y de ahí,
(
)

 ∂G eV1 K eVJ  

expV j + ln



∂
x
exp(µV j + ln (µ ))
exp(µV j )
j



=
=
P( j ) =
VJ
V1

 ∂G e K e   ∑lexp(µVl + ln (µ )) ∑lexp(µVl )
 
∑lexpVl + ln

∂xl



(
Prof. Lídia Montero – Esteve Codina ©
)
Pàg. 5-84
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MODELOS GEV
Por ejemplo, el caso del modelo logit jerárquico es un caso particular:
M
G (V ) = ∑
m =1
(∑
l =1,K, J m
Vl
µm
)
µ
µm
M es el número de nodos en el árbol que define la estructura de selección del modelo (también se suelen llamar
nidos)
M
(∑
)
∑ (∑
M
•
G (αV ) = ∑
•
lim xi→+∞ G ( x1 ,K, xi ,K, xJ ) = +∞, i = 1,K, J
m =1
(αVl )
µ
µm
µm
l =1,K, J m
=α
µ
m =1
(Vl )
µm
l =1,K, J m
.
BIOGEME: BIerlaire’s Optimization toolbox for GEV Models Estimation
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-85
Curs 2.006-2.007
)
µ
µm
.
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: OTROS PARADIGMAS
5-6.1
El modelo probit multinomial
En la estructura de vector aleatorio para todas las posibles alternativas seleccionables por el individuo n-ésimo, si
entonces aparece el modelo probit multinomial.
Únicamente en el caso binario (J=2), aparecen modelos simples sin
necesidades de tratamiento numérico. Si ρ es el coeficiente de
correlación lineal entre las utilidades de las 2 alternativas, la matriz
de varianzas y covarianzas puede escribirse:
•
 σ A2
Σ = 
 ρ σ Aσ B
• Entonces
ρ σ Aσ B 

2
σ B 
ε iB − ε iA ≈ N (0,σ 2 = σ A2 + σ B2 − 2 ρ σ Aσ B )
y por tanto, la probabilidad de seleccionar la
alternativa A, notado Pi(A), es
 (ViA − ViB ) 
 (Probit binario).
σ


π iA = Ρi ( A) = Ρ( [U iB = ViB + ε iB ≤ ViA + ε iA = U iA ]) = Ρ( [ε iB − ε iA ≤ ViA − ViB ]) = Φ
Por conveniencia, la escala de la función de utilidad 1 σ se asume 1, lo que equivale a afirmar que sólo se
puede identificar los partworths normalizados (es decir, coeficiente en la utilidad dividido por escala).
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-86
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT
El modelo probit permite superar las 3 limitaciones del modelo MN Logit:
• Puede representar variaciones individuales aleatorias en los gustos.
• Puede representar cualquier patrón de sustitución, más general que el proporcional.
• Puede usarse en datos longitudinales (paneles) para modelar correlaciones en la parte no observada de la
utilidad a lo largo del tiempo.
El problema reside en que hay que recurrir a la integración numérica o a la simulación porqué no hay una
fórmula analítica cerrada para la probabilidad de elección de las alternativas (culpa de la distribución normal
multivariante que modela la componente no observada de la utilidad).
π ij = Ρi ( j ) = Ρ ( [U ij = Vij + ε ij ≥ Vil + ε il = U il
]
∀l ≠ j ) = ∫ I (Vij + ε ij ≥ Vil + ε il
∀l ≠ j )Φ (ε i )dε i
La probabilidad anterior tiene una expresión cerrada, tiene dimensión J y debe evaluarse numéricamente, para
facilitar la tarea resulta conveniente reescribir la integral.
Sea
Bij = {ε i = ε il − ε ij | Vij + ε ij ≥ Vil + ε il
∀l ≠ j} → Ρi ( j ) = ∫
ε i ∈Bij
Φ (ε i )dε i , que simplifica el
dominio de integración y además si se tiene en cuenta que sólo las diferencias en utilidad son caracterizables, la
probabilidad de una alternativa puede reexpresarse como una integral de dimensión (J-1), sea la diferencia de
utilidad respecto la alternativa j (la que estamos calculando),
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-87
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT
([
])
~
~
~
U ilj = U il − U ij , Vilj = Vil − Vij , ε~ilj = ε il − ε ij → Ρi ( j ) = Ρ U ilj ≤ 0 ∀l ≠ j = ∫~
Donde
{
~
~
Bij = ~εij | Vilj + ε~ilj < 0 ∀l ≠ j
} y la integral tiene dimensión J-1 en ese dominio.
Hay que tener en cuenta que la diferencia de normales también es normal y que
covarianzas
~
Σj
~ε
ij
de dimensión J-1 que puede calcularse eficientemente a partir de
~
εij∈Bij
Φ (~εij )d ~εij
tiene una matriz de
Σ
pre y post multiplicando ésta
por la matriz identidad de dimensión J-1 con una columna adicional de -1’s en la posición j.
Por ejemplo,
 σ 11 σ 12 σ 13 

 j =2
  ε i1 − ε i 2   ε i12  
1 − 1 0 ~
 =    = M j ΣM Tj
Σ = σ 12 σ 22 σ 23  →
 Mj = 
→ Σ j = COV  

0 − 1 1
  ε i 3 − ε i 2   ε i 32  
σ

σ
σ
23
33 
 13
Ahora bien, los modelos tienen que normalizarse ya que sólo diferencias en utilidad son medibles y su escala es
irrelevante, en general en los modelos logit y GEV una alternativa facilita una utilidad de esperanza nula y la escala
responde a la distribución estándard, en los modelos probit es más complicado y debe normalizarse explícitamente
no hay defecto. La normalización está relacionada con la identificabilidad de los parámetros y sólo los que son
identificables y por tanto caracterizan la selección de la alternativa deben ser considerados en un modelo
normalizado. Pero a veces no es evidente qué parámetros se asocian al nivel de referencia y a la escala.
Train propone un esquema de normalización que garantiza la identificabilidad de todos los parámetros y que
siguiendo su exposición se describe a continuación a partir del ejemplo anterior.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-88
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT
Primero se diferencia de la primera alternativa j=1 (defecto en el método MNP del paquete R (sea J=3):
 σ 11 σ 12 σ 13 

 j =1
  ε i 2 − ε i1   ε i 21  
θ 22 θ 23 
− 1 1 0 ~
T






Σ = σ 12 σ 22 σ 23  →
=
Σ
=
M1 = 
COV
M
M
→
Σ
=
=
1
1
1
θ

ε − ε  ε 
θ33 
−
1
0
1
i3
i1 
i 31  
23






σ

 13 σ 23 σ 33 
Después se normaliza la escala fijando a 1 la diagonal primera de la covarianza de las diferencias (defecto R)
V (ε i 21 )) = 1 , lo que resulta,
θ
*
jl
*
*
*
θ jl
~ * θ 22 θ 23   1 θ 23 
=
→Σ 1 =  *
= *
* 
* 
θ 22
θ
θ
θ
θ
23
33
23
33 

 
Si la matriz original tiene J(J+1)/2=6 elementos por identificar, ahora la matriz normalizada tiene J(J-1)/2-1=2
parámetros y son éstos los únicos identificables, es decir, habrá valores de las covarianzas entre alternativas que
no podrán identificarse y son los únicos con contenido relevante para el modelo de elección de alternativa. Podría
darse el caso que después de aplicar el procedimiento descrito, todavía no fueran identificables todos los
parámetros con lo que habría de añadirse alguna restricción adicional.
Por ejemplo en un modelo de J=3 alternativas donde el investigador propone una matriz de covarianzas de los
errores originales donde sólo están asociadas la 1 y la 2 alternativa,
ρ
0 
1 + ρ
1

 j =1
1  ~ * 1
2
− 1 1 0 ~
2 
T
Σ =  ρ 1+ ρ
0  → M 1 = 
→
Σ
=
M
M
→
Σ
=
Σ
=
1
1
1
1
1 1+ ρ
 1 2 + 2ρ 
− 1 0 1

2


2

 0

0 1+ ρ 

Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-89
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT
Sólo tiene un parámetro identificable, no 2 y dado un estimador de la segunda diagonal de la matriz de
covarianzas (normalizada), se puede inferir el parámetro ρ y de ahí la matriz de covarianzas original.
o Si las alternativas fuesen i.i.d, cual sería la matriz de covarianzas normalizada ?
σ

Σ= 0
0

5-6.2
0
σ
0
0
 j =1
− 1 1 0 ~
2σ
T
→
Σ
=
Σ
=
0  → M1 = 
M
M
1
1
1

σ
−
1
0
1




σ 
σ  ~* 1 12 
→ Σ 1 = 1 

2σ 
 2 1
Patrones de sustitución no IIA
La matriz de covarianzas es la que caracteriza el patrón de sustitución, si las alternativas fuesen i.i.d. normales
entonces se tendría una matriz diagonal, que acabaría normalizada y donde no sería posible identificar el
parámetro único (quedaría absorbido en los partworths). El investigador debe determinar el patrón de sustitución
más adecuado para los datos (la situación de elección discreta bajo estudio).
La primera tentativa podría ser modelar un patrón de sustitución no restringido mediante la estimación de la
matriz de covarianzas completa (bien, de los J(J-1)/2-1 parámetros identificables). El problema reside en la falta
de interpretabilidad de la matriz normalizada estimada, ya que no se puede inferir nada sobre la matriz original:
*
~ *  1 θ 23 
Σ1= *
→Σ =?
* 
θ 23 θ 33 
Prof. Lídia Montero – Esteve Codina ©
Si se imponen restricciones a la matriz de covarianzas original Σ ,
los parámetros estimados por los métodos estadísticos (MNP en R)
son más interpretables!
Pàg. 5-90
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT NO IIA
5-6.3
Variaciones en los gustos no observables (efectos aleatorios)
Las variaciones de gusto individuales son intratables con los modelos de efectos fijos, hay que ir a parar a los
modelos mixtos estadísticos, es decir, con coeficientes aleatorios.
El Ejemplo 7.3 del texto de Ortúzar & Willumsen considera un modelo binario de reparto modal con dos variables
explicativas numéricas, el coste y el tiempo y la función de utilidad U = β1 ⋅ X 1 + β 2 ⋅ X 2 + ε . Si se supone
que la percepción del coste varía según los ingresos (I), entonces la utilidad se reformular como:
o
U = β '1⋅ X 1 I + β 2 ⋅ X 2 + ε
misma distribución que
o En general, si
β '1 I .
U ij = β iT x j + ε ij
y el modelo será correcto únicamente si
con
βi p N(β, Σ)
β1
es una variable aleatoria con la
distribuido según una normal multivariante, entonces el
modelo resultante es un modelo condicional de selección de alternativas discretas probit multinomial
(Daganzo y Sheffi trabajaron esta formulación).
Supóngase una utilidad lineal en los parámetros, de alternativa o específicos de usuario, pero que estos no son
fijos sinó que varían aleatoriamente entre los individuos. La utilidad puede expresarse como,
U ij = α j + β Ti x j
(
con x j = x1
T
K x p ) el vector de variables explicativas del individuo en la alternativa j y β i
el vector de coeficientes desconocidos que varían según el individuo.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-91
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT ALEATORIO
La variabilidad de β i induce correlación entre las opciones. El vector de coeficientes (partworths) para un
individuo se puede expresar como la suma de la media poblacional β (desconocida) más la perturbación del
individuo
η i y de ahí reescribir la utilidad (prescidiendo de las constantes específicas de la alternativa) como:
U ij = β Ti x j + ε ij = β T x j + ηTi x j + ε ij = β T x j + ηTi x j + ε ij = β T x j + ν ij
{
{ 1424
3 {
observable
aleatoria
observable
aleatoria
Si β i , ε ij se distribuyen según leyes normales multivariantes entonces sería un model probit de efectos
aleatorios. Se puede ver que la matriz de covarianzas de
ν ij
depende de la varianza de β i y de las variables
explicativas, de individuo o de alternativa.
Por ejemplo, en un caso de J=3 alternativas con una variable explicativa dependiente de alternativa, pero
2
variaciones individuales aleatorias, sin constantes específicas, con errores i.i.d. de varianza σ ε y con la variación
2
individual i.i.d de varianza σ β , con variaciones individuales y utilidad observable independientes, entonces
U i1 = β T x1 + ηTi x1 + ε i1 = β T x1 + ν i1
{
{
observable
aleatoria
y
de
ahí,
U i 2 = β T x 2 + ηTi x 2 + ε i 2 = β T x 2 + ν i 2
y
U i 3 = β T x 3 + ηTi x 3 + ε i 3 = β T x 3 + ν i 3
donde
(ν i1
ν i 2 ν i3 )
T
(
)
tienen una distribución normal trivariante con esperanza 0 (cada una) y varianza de
(
)
V (ν ij ) = V η i x ij + ε ij = x ij2 σ β2 + σ ε2 y covarianzas COV (ν ij ,ν ij´ ) = COV η i x ij + ε ij ,η i x ij ' + ε ij ' = x ij x ij 'σ β2 .
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-92
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT ALEATORIO
De ahí,
 x i21σ β2 + σ ε2

2
Σ =  x i1xi 2 β

xi1xi 3σ β2

xi1x i 2σ β2
x i22σ β2 + σ ε2
xi 2 x i 3σ β2
x i1x i 3σ β2 
 xi21


2
xi 2 xi 3σ β  = σ β2 x i1x i 2

xi1xi 3
xi23σ β2 + σ ε2 


xi1xi 2
x i22
xi 2 xi3
xi1x i 3 
1 0 0

xi 2 xi 3  + σ ε2 0 1 0
0 0 1
x i23 
Una normalización habitual es imponer una varianza unidad para la componente no observable de la utilidad,
2
σ ε = 1 . Los únicos parámetros a estimar son β , σ β . Se puede generalizar a más variables explicativas
directamente.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-93
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
5-6.4
Estimación de modelos probit
Imai, Kosuke and David A. van Dyk. (2005b) “MNP: R Package for Fitting the Multinomial Probit Models,” Journal
of Statistical Software, Vol. 14, No. 3 (May), pp.1-32.
Fitting the Multinomial Probit Model via Markov chain Monte Carlo
mnp is used to fit (Bayesian) multinomial probit model via Markov chain Monte Carlo. mnp can also fit the model
with different choice sets for each observation, and complete or partial ordering of all the available alternatives.
The computation uses the efficient marginal data augmentation algorithm that is developed by Imai and van Dyk
(2005a).
Usage
mnp(formula, data = parent.frame(), choiceX = NULL, cXnames = NULL,
base = NULL, latent = FALSE, invcdf = FALSE, n.draws = 5000,
p.var = "Inf", p.df = n.dim+1, p.scale = 1, coef.start = 0,
cov.start = 1, burnin = 0, thin = 0, verbose = FALSE)
See Also
coef.mnp, cov.mnp, predict.mnp, summary.mnp;
MNP home page at http://imai.princeton.edu/research/MNP.html
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-94
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
Detergent Brand Choice
This dataset gives the laundry detergent brand choice by households and the price of each brand. A data frame
containing the following 7 variables and 2657 observations.
choice
factor
a brand chosen by each household
TidePrice
numeric
log price of Tide
WiskPrice
numeric
log price of Wisk
EraPlusPrice numeric
log price of EraPlus
SurfPrice
numeric
log price of Surf
SoloPrice
numeric
log price of Solo
AllPrice
numeric
log price of All
References
Chintagunta, P. K. and Prasad, A. R. (1998) “An Empirical Investigation of the `Dynamic McFadden' Model of
Purchase Timing and Brand Choice: Implications for Market Structure”. Journal of Business and Economic
Statistics vol. 16 no. 1 pp.2-12.
# Estimació MN logit i probit
# Problem Set 3 - MNL - Tria de detergents
#Imai, Kosuke and David A. van Dyk. (2005b) “MNP: R Package for Fitting the Multinomial
Probit Models,” Journal of Statistical Software, Vol. 14, No. 3 (May), pp.1-32.
library(MASS)
library(VGAM)
library(MNP)
# dades R
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-95
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
data(detergent)
deter<-detergent
summary(deter)
head(deter)
# Creo numèrica amb la resposta: All, EraPlus, Solo,Surf,Tide i Wisk (M=6) .
# Canvio l'ordenació per facilitar un VGLM: Tide, Wisk,EraPlus,Surf,Solo, All. Ref. All
deter$fdepvar <-factor(deter$choice,
levels=c("Tide","Wisk","EraPlus","Surf","Solo","All" ))
deter$depvar <-as.numeric(deter$fdepvar)
deter$node <- 1
summary(deter)
head(deter)
dim(deter)[1]
n = 2657 # Nb individus de la mostra, suposo no és SP
M = 5 # Hi han M+1 alternatives en competència
zeros<-rep(0,n)
uns<-rep(1,n)
# ymat: crea una matriu de zeros amb n files i M+1 columnes
ymat = matrix(0, n, M+1)
# Genera mostra de tamany 100 i sobre uniforme 1 a M+1:
# y <- sample(x=M+1, size=n, replace=TRUE)
# Per cada individu, la mostra conté un numeret de 1 a 4 (el mode), cal posar un 1 en la
columna corresponent al mode triat a ymat
# Resultat: ymat(i,j)=1 si individu i ha triat el mode j, ymat(i,j)=0 altrament.
ymat[cbind(1:n, deter$depvar )] = 1
dimnames(ymat) <- list(NULL, c("Tide","Wisk","EraPlus","Surf","Solo","All" ))
ymat[1:7, ]
deter[1:7,]$depvar
# Per cada alternativa es disposa de preu en una columna
deter <- data.frame(deter, ymat )
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-96
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
head(deter)
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
######## MNL : primer model
# Alternativa 6 (All) triat de referència: es crea preu 'all' (6)
deter = transform(deter ,
preu1.6
= TidePrice-AllPrice,
preu2.6
= WiskPrice-AllPrice,
preu3.6
= EraPlusPrice-AllPrice,
preu4.6
= SurfPrice-AllPrice,
preu5.6
= SoloPrice-AllPrice)
head(deter)
# Model logit multinomial condicional on indica que el coeficient de preu ha de
# ser el mateix per cada alternativa: entren a la utilidad amb coeficient comú.
# No hi ha terme independent.
# S'usa diferencia d'utilitat respecte 6.
# Probabilitats mostral de la resposta:
table(deter$fdepvar)/n
# Tinc definides variables y, ymat i dins deter tinc els preus
m0 <- vglm(ymat ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6
-1 ,
fam = multinomial,
xij = list(preu ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 ),
data=deter)
model.matrix(m0, type="lm")[1:7,]
# LM model matrix
model.matrix(m0, type="vlm")[1:7,] # Big VLM model matrix
coef(m0, matrix=TRUE)
summary(m0)
pm0 <-predict.vglm( m0, type="terms" ) # No va
pm0 <-predict.vglm( m0, type="res" )
apply(pm0,2,mean)
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-97
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
#
#
#
#
Model logit multinomial condicional on indica que el coeficient de preu ha de
ser el mateix per cada alternativa: entren a la utilidad amb coeficient comú.
SI hi ha terme independent.
S'usa diferencia d'utilitat respecte 6.
# Probabilitats mostral de la resposta:
table(deter$fdepvar)/n
# Tinc definides variables y, ymat i dins deter tinc els preus
m1 <- vglm(ymat ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 ,
fam = multinomial,
xij = list(preu ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 ),
data=deter)
model.matrix(m1, type="lm")[1:7,]
# LM model matrix
model.matrix(m1, type="vlm")[1:7,] # Big VLM model matrix
coef(m1, matrix=TRUE)
summary(m1)
pm1 <-predict.vglm( m1, type="terms" ) # No va
pm1 <-predict.vglm( m1, type="res" )
pm1[ 1: 7,]
apply(pm1,2,mean)
logLik(m1)
vcov(m1)
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-98
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
# MNPROBIT
## run the standard multinomial probit model with intercepts and the price
m3 <- mnp(choice ~ 1,
choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice,
Solo=SoloPrice, All=AllPrice),
cXnames = "price", data = deter, n.draws = 500, burnin = 100, thin = 3, verbose =
TRUE)
## summarize the results
summary(m3)
attributes(m3)
logLik.mnp(m3) # No n'hi ha
cov.mnp(m3) # Indescriptible
coef.mnp(m3)# Indescriptible
## calculate the quantities of interest for the first 3 observations
pm3 <- predict.mnp(m3, newdata = deter[1:3,])
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-99
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
> coef(m0, matrix=TRUE)
preu
log(mu[,1]/mu[,6]) log(mu[,2]/mu[,6]) log(mu[,3]/mu[,6]) log(mu[,4]/mu[,6]) log(mu[,5]/mu[,6])
-35.33106
-35.33106
-35.33106
-35.33106
-35.33106
> summary(m0)
Call:
vglm(formula = ymat ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 +
preu5.6 - 1, family = multinomial, data = deter, xij = list(preu ~
preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6))
Pearson Residuals:
log(mu[,1]/mu[,6])
log(mu[,2]/mu[,6])
log(mu[,3]/mu[,6])
log(mu[,4]/mu[,6])
log(mu[,5]/mu[,6])
Min
-1.09793
-1.10649
-0.85821
-1.21323
-0.94413
1Q
-0.22612
-0.32711
-0.22513
-0.28298
-0.23961
Median
3Q
Max
-0.18712 1.76697 3.6248
-0.26927 1.34406 2.8755
-0.19203 -0.15102 10.1056
-0.23687 -0.18845 5.9518
-0.20792 -0.17137 3.6736
Coefficients:
Value Std. Error t value
preu -35.331
1.8726 -18.868
Number of linear predictors:
5
Names of linear predictors:
log(mu[,1]/mu[,6]), log(mu[,2]/mu[,6]), log(mu[,3]/mu[,6]), log(mu[,4]/mu[,6]), log(mu[,5]/mu[,6])
Dispersion Parameter for multinomial family:
1
Residual Deviance: 9161.362 on 13284 degrees of freedom
Log-likelihood: -4580.681 on 13284 degrees of freedom
Number of Iterations: 3
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-100
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
> coef(m1, matrix=TRUE)
log(mu[,1]/mu[,6]) log(mu[,2]/mu[,6]) log(mu[,3]/mu[,6]) log(mu[,4]/mu[,6])
(Intercept)
4.782045
3.043896
4.599833
3.037336
preu
-134.492372
-134.492372
-134.492372
-134.492372
log(mu[,5]/mu[,6])
(Intercept)
3.699452
preu
-134.492372
> summary(m1)
Call:
vglm(formula = ymat ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 +
preu5.6, family = multinomial, data = deter, xij = list(preu ~
preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6))
Pearson Residuals:
...
Coefficients:
(Intercept):1
(Intercept):2
(Intercept):3
(Intercept):4
(Intercept):5
preu
Value Std. Error t value
4.7820
0.14015 34.121
3.0439
0.11947 25.479
4.5998
0.14385 31.977
3.0373
0.12945 23.463
3.6995
0.14605 25.329
-134.4924
3.82114 -35.197
Number of linear predictors:
5
Names of linear predictors:
log(mu[,1]/mu[,6]), log(mu[,2]/mu[,6]), log(mu[,3]/mu[,6]), log(mu[,4]/mu[,6]), log(mu[,5]/mu[,6])
Dispersion Parameter for multinomial family:
1
Residual Deviance: 6974.065 on 13279 degrees of freedom
Log-likelihood: -3487.033 on 13279 degrees of freedom
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-101
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
> table(deter$fdepvar)/n
Tide
Wisk
EraPlus
Surf
Solo
All
0.26383139 0.26458412 0.19081671 0.15280391 0.09522017 0.03274370
> pm0 <-predict.vglm( m0, type="res" )
> apply(pm0,2,mean)
Tide
Wisk
EraPlus
Surf
Solo
All
0.1286505 0.1990001 0.1226328 0.1649222 0.1261243 0.2586702
> apply(pm1,2,mean)
Tide
Wisk
EraPlus
Surf
Solo
All
0.26383139 0.26458412 0.19081671 0.15280391 0.09522017 0.03274370
> summary(m3)
Call:
mnp(formula = choice ~ 1, data = deter, choiceX = list(Surf = SurfPrice,
Tide = TidePrice, Wisk = WiskPrice, EraPlus = EraPlusPrice,
Solo = SoloPrice, All = AllPrice), cXnames = "price", n.draws = 500,
burnin = 100, thin = 3, verbose = TRUE)
Coefficients:
mean std.dev.
2.5%
97.5%
(Intercept):EraPlus
2.3146
0.1762
1.9504
2.630
(Intercept):Solo
1.3160
0.1194
1.1024
1.537
(Intercept):Surf
1.2962
0.1274
1.0582
1.522
(Intercept):Tide
2.4766
0.1446
2.1767
2.724
(Intercept):Wisk
1.3498
0.0830
1.1950
1.490
price
-83.0981
5.0645 -90.7319 -72.398
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-102
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
Covariances:
EraPlus:EraPlus
EraPlus:Solo
EraPlus:Surf
...
mean std.dev.
2.5%
1.00000 0.00000 1.00000
0.48106 0.10107 0.27539
0.03172 0.15313 -0.21417
97.5%
1.000
0.666
0.356
Base category: All
Number of alternatives: 6
Number of observations: 2657
Number of estimated parameters: 20
Number of stored MCMC draws: 100
> attributes(m3)
$names
[1] "param"
[10] "p.mean"
$class
[1] "mnp"
"x"
"p.var"
"y"
"p.df"
"w"
"call"
"p.scale" "burnin"
"alt"
"thin"
"n.alt"
"base"
"invcdf"
o Sabrías estimar el modelo probit bajo la hipótesis i.i.d. de la componente no observable de la utilidad ¿? No
se puede, no permite las restricciones.
M4<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice,
EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter,
n.draws = 500, burnin = 100, thin = 3, verbose = TRUE, p.scale=diag(1.0,5,5), p.df=6 )
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-103
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
El modelo probit se calcula por simulación con muestras generadas mediante algoritmos MCMC (Markov Chain
Monte Carlo) de los parámetros identificables y análisis bayesiano donde se debe especificar la distribución a
priori de los estimadores de coeficientes de las variables explicativas (puede ser una distribución impropia
constante, coeficientes fijos) y de la matriz de covarianzas de los parámetros identificables.
El paquete coda de R permite un análisis de convergencia de la cadena de Markov implícita en la generación de
muestras y de alguna manera determinar si el número de muestras (n.draws) es suficiente o hay que augmentarlo.
Se calculan 3 cadenas independientes que se almacenan como un objeto mcmc (mcmc.list(.) en coda package de R)
y posteriormente se calcula el estadístico de Gelman-Rubin que para cada parámetro estimado tiene que facilitar
un estimador puntual por debajo de 1.1 (si no es así hay que alargar las cadenas). También se puede ver la
estabilización de los estimadores gráficamente mediante gelman.plot(.). He aquí los comandos y algunos de los
resultados que validan que n.draws=50000 es suficiente y por tanto los estimadores convergen.
# Package coda per determinar si ha convergit la cadena MCMC
library(coda)
m41<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice,
EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter,
n.draws = 50000, burnin = 100, thin = 3, verbose = TRUE )
m42<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice,
EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter,
n.draws = 50000, burnin = 100, thin = 3, verbose = TRUE, coef.start=c(1,-1,1,-1,1,1)*10,
cov.start=matrix(0.5,5,5)+diag(0.5,5), p.df=6 )
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-104
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
m43<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice,
EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter,
n.draws = 50000, burnin = 100, thin = 3, verbose = TRUE, coef.start=c(-1,1,-1,1,1,1)*10, cov.start=matrix(0.9,5,5)+diag(0.1,5), p.df=6 )
mcoda<- mcmc.list(chain1=mcmc(m41$param[,-7]),chain2=mcmc(m42$param[,-7]),
chain3=mcmc(m43$param[,-7]) )
gelman.diag( mcoda, transform=TRUE )
gelman.plot( mcoda, transform=TRUE, ylim=c(1,1.2) )
> gelman.diag( mcoda, transform=TRUE )
Potential scale reduction factors:
(Intercept):EraPlus
(Intercept):Solo
(Intercept):Surf
(Intercept):Tide
(Intercept):Wisk
price
EraPlus:Solo
EraPlus:Surf
EraPlus:Tide
EraPlus:Wisk
Solo:Solo
Solo:Surf
Solo:Tide
Solo:Wisk
Surf:Surf
Surf:Tide
Surf:Wisk
Tide:Tide
Tide:Wisk
Wisk:Wisk
Point est. 97.5% quantile
1.01
1.03
1.01
1.03
1.01
1.02
1.01
1.04
1.01
1.02
1.03
1.10
1.08
1.26
1.03
1.10
1.03
1.10
1.01
1.04
1.04
1.12
1.03
1.09
1.04
1.12
1.04
1.13
1.02
1.09
1.03
1.11
1.01
1.03
1.03
1.11
1.02
1.04
1.01
1.02
Multivariate psrf
1.11+0i
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-105
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R
> gelman.plot( mcoda, transform=TRUE, ylim=c(1,1.2) )
Esperando para confirmar cambio de página...
Esperando para confirmar cambio de página...
>
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-106
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
Los modelos lineales generalizados con respuesta binaria o politómica son el referente para el tratamiento
estadístico de los modelos de efectos fijos de selección de alternativas discretas.
Los modelos de selección de alternativas discretas y efectos aleatorios permiten modelizar las preferencias
individuales e incluir variables subjetivas. El tratamiento más prometedor dentro del análisis de la demanda en
planificación del transporte viene del modelo logit mixto. Denominado por muchos expertos como el modelo del
nuevo milenio ha sido propuesta por dos grupos de investigación que trabajaban en paralelo, el grupo del MIT (Ben
Akiva & Bolduc, 1996) y el grupo de Berkeley (Mc Fadden & Train, 2000).
La función de utilidad aleatoria para una alternativa se puede expresar como una combinación lineal (algunos
autores consideran la posibilidad de cualquier función, nosotros no) de variables explicativas (comunes o
específicas de alternativa) con coeficientes no fijos, sinó aleatorios dependientes del individuo (éso sí, con una
cierta distribución de probabilidad en la población), más una componente aleatoria de error no observado con
distribución i.i.d. Gumbel independiente de la distribución de los coeficientes,
U ij = α j + β Ti x j
(
con x j = x1
T
K x p ) el vector de variables explicativas del individuo en la alternativa j y β i
el vector de coeficientes desconocidos que varían según el individuo.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-107
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
La variabilidad de β i induce correlación entre las opciones. El vector coeficientes para un individuo se puede
expresar como la suma de la media poblacional β (desconocida) más la perturbación del individuo
reescribir la utilidad (prescidiendo de las constantes específicas de la alternativa) como:
(
U ij = β Ti x j + ε ij = β + ηi
)x
T
j
+ ε ij = β T x j + ηTi x j + ε ij = β T x j +
{
observable
η i y de ahí
ηTi x j + ε ij
1424
3
aleatoria ≡ no observable
La componente aleatoria refleja la asociación entre alternativas debido a la influencia de η i y resulta posible
conseguir un patrón muy general de correlaciones, variaciones de gusto y heterocedasticidad con la correcta
especificación de los parámetros y las variables.
Si β i , ε ij se distribuyen según leyes normales multivariantes entonces sería un model probit de efectos
aleatorios.
Sea la distribución de β i ≈ f (β, τ ) , dependiente de un parámetro de media y desviación (posición y escala, en
general). Habitualmente se supone una distribución normal o lognormal (facilita la restricción en signos de los
coeficientes).
Mc Fadden y Train han demostrado que cualquier modelo de selección de alternativas discretas basado en la
maximización de la utilidad aleatoria puede aproximarse con la formulación logit mixta. Por ejemplo, un modelo HL
(heterocedástico) se puede obtener definiendo una variable artificial (dummy) para cada nodo y permitiendo una
variación aleatoria sobre los coeficientes de las dummies, de manera que se induce una correlación en la
componente no observada de la utilidad a nivel de nodo y en cambio entre nodos no existen correlaciones.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-108
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
La idea simplificada del modelo logit mixto es que las probabilidades de las alternativas se obtienen integrando las
probabilidades ponderadas por la densidad de probabilidad de β i ≈ f (β ) , ésto en Estadística es una mixed
function. El mixed logit es una mixtura de la función logit evaluada en distintos β i con la mixing distribution f (β ) .
π ij = ∫ L (β ) f (β )d β
ij
con
Lij (β ) =
exp(Vij (β ))
∑ exp(V (β ))
il
l
Mixed Logit
Dada una muestra, la función de verosimilitud no tiene una expresión cerrada y por tanto no se puede determinar
el máximo analítico y se recurre a las técnicas de Monte-Carlo, concretamente a la maximización de la logverosimilitud simulada (SLL). Esta técnica facilita estimadores consistentes y asintóticamente normales.
Si f (β ) es una función degenerada con f (β ) = 1 para un único vector
MN Logit clásico.
β , entonces el modelo se convierte en el
Si f (β ) es una función de probabilidad de una variable discreta con H valores, β h ,
f (β h ) = sh
entoces aparecen los modelos latentes y las probabilidades se convierten en:
 exp(Vij (β h )) 

π ij = ∑ sh 


h =1
 ∑l exp(Vil (β h )) 
H
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-109
Curs 2.006-2.007
h = 1, K , H
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
Si f (β ) es la fdp de una normal multivariante f (β | b, τ ) entonces los parámetros de media y matriz de
covarianzas son una incógnita que se deben estimar durante el proceso de ahí que la formulación clásica basada en
maximización de la verosimilitud esté dando paso a la entrada de los esquemas bayesianos que ofrecen
simultaneamente información sobre los parámetros de la f (β | b, τ ) y las β i .
Si se supone que los coeficientes aleatorios son i.i.d, es decir, la matriz de covarianzas es diagonal con valor
2
constante s (desconocido), y esperanza bl entonces la fdp conjunta será producto de fdp de los partworths. El
cálculo de la LogV Simulada resulta simple de implementar. Incluso se puede pensar en otros modelos que
permitan garantizar el signo o acote los valores, para un partworth específico (se omite el subíndice l), la b y la s
no son parámetros de posición o escala ahora, son útiles sencillamente:
1. β lognormal, es decir, log( β ) ≈ N (b, s ) . Las aplicaciones con Rayleigh suelen dar menos problemas.
2
2. β ≈ U [0, s ] o β ≈ U [b − s, b + s ] .
3. β triangular con moda b y rango entre b-s y b+s, con b y s valores a estimar.
En la página personal de Kenneth Train se puede descargar software de libre distribución para la estimación SLL
de modelos logit mixtos con distribución de los efectos aleatorios normal o lognormal, en GAUSS o MATLAB,
mediante el esquema clásico y el paradigma bayesiano (Bayes jerárquico).
Los paquetes comerciales ALOGIT y LIMDEP-NLOGIT/ACA ofrecen modulos de estimación rápidos y fiables para
los modelos logit mixtos. Este último se puede descargar libremente, con restricciones de uso, en la página web
que acompaña el texto de Hensher,Rose & Greene, Applied Choice Analysis (2005):
http://www.cambridge.org/0521605776.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-110
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
5-7.1
Definición y probabilidades de elección
El modelo logit mixto se define sobre una forma funcional para las probabilidades individuales de elección y
explicitamente un modelo logit mixto es todo aquel modelo cuyas probabilidades se pueden expresar como,
π ij = ∫ L (β ) f (β | θ )d β con las probabilidades logit Lij (β ) =
ij
evaluadas en un punto concreto
exp(Vij (β ))
∑l exp(Vil (β ))
=
(
exp β T x j
)
∑ exp(β x )
T
l
l
β y la función densidad de probabilidad de los parámetros f (β | θ ) .
(
)
Para simplificar la notación se va a denominar θ = β, τ al vector de los parámetros de posición y escala de los
coeficientes aleatorios. La utilidad se ha notado sin constantes específicas, ni variables explicativas asociadas a
características de los individuos para relajar la notación.
Por tanto, el logit mixto es una suma ponderada según la distribución de los parámetros de las probabilidades
logit. Existen dos conjuntos de parámetros a estimar:
• Los parámetros de posición y escala de la función fdp
f (β | θ ) : θ = (β, τ ) . No siempre suelen ser de interés.
• Los partworths β i que aparecen en la fórmula logit.
Los parámetros β i juegan un papel semejante a los errores de la componente no observable de la utilidad
ambos términos deben integrarse para obtener las probabilidades de selección de cada alternativa e individuo.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-111
Curs 2.006-2.007
ε:
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
El modelo logit mixto puede derivarse del paradigma de maximización de utilidad a partir de la perspectiva de los
coeficientes aleatorios. El individuo i se enfrenta a J posibles alternativas y la utilidad de la alternativa j se
define como:
U ij = β Ti x j + ε ij donde
β Ti es el vector de coeficientes que acompañan la utilidad observada, variables según el
individuo lo que permite representar los gustos personales, con una fdp
T
El individuo conoce su β i y su
U ij > U il
f (β | θ ) y ε ij son los errores i.i.d. Gumbel.
ε ij para todas las alternativas disponibles y selecciona la j-ésima si y sólo si
∀ l≠ j .
T
Por tanto si β i fuera observable, las probabilidades serían las logit estándard, es decir, la probabilidad de
π ij (β i ) =
(
T
selección condicionada a β i es
exp β Ti x j
(
)
∑l exp β x l
T
i
)
→ π ij
(
)
=∫
f (β | θ )d β
∑ exp(β x )
exp β T x j
T
l
l
.
El planificador fija la distribución de probabilidad de los coeficientes aleatorios, habitualmente normal o
lognormal y se deben estimar sus parámetros
triangular recientemente.
Prof. Lídia Montero – Esteve Codina ©
θ.
También se han usado la distribución Rayleigh, uniforme y la
Pàg. 5-112
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
El modelo logit mixto puede emplearse sin una interpretación subyacente de coeficientes aleatorios y simplemente
representar componentes del error que creen correlaciones entre las utilidades de distintas alternativas, de ahí
que la utilidad se especifique desde este punto de vista,
U ij = β T x j + ν iT z j + ε ij donde x i , z j
son los vectores de variables de la utilidad observada,
β son coeficientes
ν i son coeficientes aleatorios variables según el individuo lo que permite representar los gustos
personales, con una fdp ν i ≈ f (0, D ) y ε ij son los errores i.i.d. Gumbel, independientes de ν i .
fijos y
Por tanto, la parte no observable y por tanto estocástica de la utilidad es
ηij = ν iT z j + ε ij , en función de z j
se
pueden definir asociaciones entre alternativas.
• En el modelo logit estàndard: z j = 0 → cov(η ij ,η il ) = 0
• Si z j ≠ 0 → cov(η ij ,η il ) = z j Dz l
T
j≠l.
( )
2
j ≠ l y V (η ij ) = z jT Dz j + π 2 6 . Aunque D = σ ll sea diagonal, es decir
los términos aleatorios no correlacionados con varianzas distintas, las alternativas están correlacionadas.
5-7.2
Ejemplo Logit Jerárquico como caso particular Logit Mixto
Por ejemplo, el modelo logit jerárquico con dos niveles no forzosamente binarios podría formularse en un esquema
logit mixto especificando una variable dummy para cada nodo con 1s para todas las alternativas de ese nodo y
ceros en el resto de alternativas. Sería necesario crear el factor Nodo e incluirlo como efecto aleatorio, centrado
en 0 y distribuido normalmente.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-113
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
Sea d jm = 1 si la alternativa m pertenece al nodo j y 0 de otro modo. Supóngase que
(
)
νij ≈ f 0, σ 2j , entonces
ηim = ν Ti z m + ε im = νij d jm + ε im .
• Ahora si dos alternativas pertenecen al mismo nodo, sean m y m’ en el nodo j, entonces su covarianza es:
cov(ηim ,ηim' ) = cov( νij d jm + ε im , νij d jm' + ε im' ) = σ 2j
• Ahora si una alternativa m pertenece al nodo j, entonces su varianza es:
(
V (ηim ) = cov(ηim ,ηim ) = cov( νij d jm + ε im , νij d jm + ε im ) = σ 2j + π 2 6
)
• Ahora si dos alternativas pertenecen al mismo nodo, sean m y m’ en el nodo j, entonces su correlación es:
(
(
corr (ηim ,ηim' ) = σ 2j σ 2j + π 2 6
))
• Ahora si dos alternativas pertenecen a distintos nodos, sean m y m’ en los nodos j y j’, entonces su
covarianza es:
cov(ηim ,ηim' ) = cov( νij d jm + ε im , νij 'd j 'm' + ε im' ) = 0
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-114
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
5-7.3
Patrones de sustitución
El cociente de probabilidades entre dos alternatives, j y k, depende de todos los datos, incluyendo los atributos
de alternativas distintas de j y k: los denominadores de la fórmula logit están dentro de la integral y por tanto no
se cancelan, la elasticidad cruzada de la alternativa j ante un cambio del parámetro l de la alternativa k tiene por
expresión:
∂π ij xikl
1
=−
∂xikl π ij
π ij
(
exp β T x ij
∫β ∑
l
(
)
T
exp
β
x im
m
(
exp β T x ik
)∑
(
)
T
exp
β
x im
m
) f (β | θ)d β
El porcentaje de cambio en la probabilidad de la alternativa j al cambio en la variable l-ésima de la alternativa k
depende de la correlación entre las alternativas para distintos valores del parámetro β , la cual viene
especificada por el planificador a través de la especificación de las variables que intervienen en la utilidad
sistemática y el patrón de mixtura que refleja la fdp especificada para los coeficientes aleatorios.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-115
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
5-7.4
Estimación del modelo logit mixto
La estimación de los modelos logit mixtos se realiza por simulación, ya que no existe una fórmula cerrada para la
integral,
π ij
(
)
= ∫ L (β ) f (β | θ )d β = ∫
f (β | θ )d β
∑ exp(β x )
exp β T x ij
ij
T
l
il
Las probabilidades se pueden aproximar por simulación para cualquier valor θ fijado, de hecho el algoritmo podría
ser:
1. Extraer
β r un vector aleatorio con componentes distribuídas f (β | θ ) .
2. Calcular el cociente logit
( )
Lij β r .
3. Repetir los pasos 1 y 2, R veces (varios millares de veces).
( )
1 R
r
π̂
=
L
β
∑
ij
ij
4. La probabilidad simulada es la media de los cocientes logit:
. Es un estimador consistente,
R r =1
no sesgado, dos veces diferenciable en θ y que facilita una logverosimilitud simulada
SLL(θ ) = ∑∑ dij log (πˆ ij ) con d ij = 1 si el individuo i elige la alternativa j y 0 de otro modo.
J
i
j =1
El estimador máximo verosimil simulado (MSLE) es el vector θ̂ que maximiza
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-116
SLL (θ ) .
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
5-7.5
Correlación entre selecciones individuales: repeated choices
El modelo logit mixto puede capturar la asociación entre respuestas del mismo individuo que suele darse en
encuestas de preferencias declaradas o sencillamente pensar en los datos como un panel, no cross-sectional.
Sea la utilidad de la alternativa j en la situación de elección t para la persona i,
U ijt = β Ti x jt + ε ijt
, condicional a
β i , la probabilidad de la secuencia de elecciones del individuo i se puede expresar como producto de las
probabilidades de cada situación de elección:
T
LijT (β ) = ∏
t =1
Se supone que los
ε ijt
(
exp β T x jt
∑ exp(β
l
T
)
x lt
)
son independientes dentro de cada tiempo, es decir que la utilidad en la situación t presenta
una componente de errores no observables i.i.d. Gumbel estándar, es decir
(
)
COV ε ijt , ε ilt = 0 ∀t .
En prácticamente todas las aplicaciones, β i se consideran fijos para un individuo en todo instante t, pero se
puede emplear la idea de una variación del gusto aleatoria que dependa del instante para cada individuo de manera
muy cómoda en el esquema logit mixto. Por ejemplo una correlación serial entre las situaciones de elección de una
persona y con β i escalar:
(
)
U ijt = βit xijt + ε ijt = b + ηit xijt + ε ijt ηit = ρ ηit −1 + µit µit i.i.d y b efecto fijo (a estimar).
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-117
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO
La simulación de las probabilidades para cada individuo i, alternativa j y situación de elección t seguiría un
esquema:
1. Calcular un valor aleatorio
µi1r
para el primer instante y calcular la probabilidad logit condicionada a
µir2
para el segundo instante y calcular la probabilidad logit condicionada a
βir1 = b + µir1 .
2. Calcular un valor aleatorio
βir2 = b + ρ µir1 + µir2 .
3. Continuar para t=3,...,T y al final calcular el producto de las T probabilidades logit.
4. Repetir los pasos 1 a 3, r=1,...,R.
5. Promediar los R resultados.
Si el número de variables explicativas es superior a 1 (lo habitual) y T es grande, el coste computacional puede ser
muy elevado, pero es la única tentativa disponible. Las probabilidades resultantes del procedimiento anterior se
usan para calcular la log verosimilitud simulada y en un proceso iterativo guiado por un método de optimización se
conseguirá determinar los valores b y ρ. Este es el esquema clásico: maximización de la log verosimilitud que suele
presentar problemas numéricos que pueden superarse saltando a un esquema bayesiano, tanto más eficiente como
más compleja sea la estructura de covarianzas modelada, en estas técnicas el proceso de optimización se
sustituye por el cálculo numérico de esperanzas matemáticas.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-118
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DE SELECCIÓN DE
ALTERNATIVAS DISCRETAS
La estimación de los modelos discretos involucrados en el análisis desagregada de la demanda de transporte
(también extensible a otras aplicaciones de carácter econométrico) son objeto de estudio y aplicación de
procedimientos de estimación, selección y diagnosis de modelos estadísticos de regresión lineal generalizada (con
respuesta de la familia exponencial) sin/con efectos aleatorios. El problema de la comprensión estadística de los
modelos y de la disponibilidad de software para su estimación han sido históricamente las principales dificultades
de la perspectiva desagregada en el análisis de la demanda.
La especificación del modelo es una parte que concierne más al ingeniero de transporte, ya que tiene que
identificar en el contexto del estudio concreto cuáles son las opciones o alternativas disponibles por los usuarios,
es lo que se denomina en terminología anglosajona: choice-set determination. Las alternativas a considerar tienen
que ser todas las posibles a considerar por los usuarios, consciente o inconscientemente; ya que la reducción del
conjunto posible de alternativas (por carecer de importancia aparente algunas de ellas o para simplificar el
proceso de estimación) casi siempre conduce a la formulación y estimación de modelos que resultan sesgados.
La formulación de los modelos discretos de selección de alternativas en planificación depende en gran medida de:
o Formación del ingeniero, conjuntamente con el tiempo y recursos disponibles para la etapa modelística.
o El grado de interrelación entre las alternativas disponibles (a más interelación, más complejidad es
requerida).
o La precisión requerida para las predicciones.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-119
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS
5-8.1
Especificación: determinación del conjunto de alternativas disponibles
Esta etapa tiene que resolver cuáles son realmente todas las alternativas disponibles para cada individuo de la
muestra y es un trade-off entre realismo y complejidad modelística. En los modelos de reparto modal el número
de alternativas no suele ser demasiado grande, sin embargo, en los modelos de distribución donde la alternativa es
la zona de transporte de destino, el conjunto de alternativas puede ser muy grande.
Las posibilidades son:
1. Especificar el subconjunto de alternativas efectivas en la muestra disponible (trabajo de campo).
2. Especificar para cada individuo todas las posibles alternativas existentes, independientemente de si son
realistas o no se han constatado en el trabajo de campo.
3. Efectuar una agregación que lleve a una jerarquía de decisiones.
4. Obtener información individual directamente de la muestra, preguntando a los individuos por su percepción
de las opciones disponibles.
5. Considerar el proceso de decisión dividido en dos etapas: una primera etapa para determinar el subconjunto
de alternativas disponibles (reglas de decisión compensatorias y no compensatorias) y el segundo, establecer
las probabilidades para las alternativas disponibles.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-120
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS
5-8.2
Estimación de los modelos desagregados: verosimilitud (simulada)
· La forma funcional de la utilidad observada es una combinación lineal de variables explicativas. Las variables
T
T
explicativas xij = (x1 K x p ) en Vij = xij β j pueden ser:
• Variables cuantitativas.
• Transformaciones de variables cuantitativas.
• Regresores polinómicos formados a partir de variables cuantitativas.
• Variables mudas (dummies) que representan variables cualitativas.
• Variables mudas que representan interacciones entre variables cualitativas o cuantitativas.
La estimación de los parámetros a partir de una muestra aleatoria se realiza por maximización de verosimilitud.
Sea
l(θ,φ , y ) ,
la función de log-verosimilitud de una observación de Y de distribución caracterizada por
parámetros de posición y escala
θ, φ . Algebraicamente, la función de verosimilitud L(θ,φ , y ) = f Y ( y ,θ , φ )
tiene
f Y ( y ,θ,φ ) , únicamente el cambio de orden de los parámetros enfatiza el contexto de
estimación de los parámetros dada la observación y. El máximo de l(θ,φ , y ) coincide con el máximo de la función
de verosimilitud L(θ,φ , y ) puesto que la función logaritmo es monótona.
la misma estructura que
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-121
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS
Las propiedades más representativas de los estimadores máximo verosímiles son:
• Son asintóticamente centrados:
[]
Ε βˆ = β . Para muestras pequeñas suelen ser sesgados.
• Son asintóticamente normales. La varianza del estimador MV (intuitivamente la variabilidad del máximo de
L(θ,φ , y )
(
)
o l θ,φ , y en distintas muestras) es inversamente proporcional a la curvatura observada: si la
curvatura es grande, el máximo está bien definido por los datos y varia poco de muestra en muestra (poca
varianza del estimador, hessiana de la log-verosimilitud con valores propios muy negativos), si por el contrario
l(θ,φ , y )
la curvatura es pequeña, la función
es muy plana en el máximo y pequeñas variaciones muestrales
modificarán mucho su posición (varianza elevada del estimador, hessiana de la log-verosimilitud con valores
propios poco negativos) . No confundir curvatura con condicionamiento de la hessiana ¡!!
(
)
Fisher denominó información observada a menos la segunda derivada de l θ,φ , y en el máximo (menos la
hessiana en el caso multivariante) y es la inversa de la varianza asintótica del estimador. La varianza
[
]
2
estimada del estimador máximo verosímil es, V[θ MV ] = − ∇ θ l(θ MV ,φ , y )
Asintóticamente se verifica,
Prof. Lídia Montero – Esteve Codina ©
V[θ MV ]
−
1
2
−1
 ∂ 2 l(θ MV ,φ , y )
= −

θ
θ
∂
∂
i
j


−1
= IO(θ MV ) .
1
2
(θ − θ MV ) = IO(θ MV ) (θ − θ MV ) → N(0, I )
Pàg. 5-122
Curs 2.006-2.007
−1
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS
• Son asintóticamente eficientes, es decir, de mínima varianza (definida por la cota de Cramer-Rao en modelos
que satisfacen ciertas condiciones de regularidad).
[
]
V[θ MV ] = − Ε ∇ 2θ l(θ V ,φ , y )
−1
= I E(θ )
−1
−1
 ∂ 2 l(θ V , φ , y )
= Ε−
 .
∂θ i ∂θ j 

( )
La matriz de información esperada de Fisher se ha notado por IE θ = ℑ .
• Son invariantes, si
h(θ ) es una función del estimador, entonces el estimador MV de h(θ ) es h(θ MV ) .
La normalidad de los estimadores MV,
(
)
θˆ ≈ N p θ , IE (θ ) , bajo ciertas condiciones de regularidad en muestras
−1
grandes ofrece la base para construir test de hipótesis a través del denominado estadístico de Wald:
) [ ] (θˆ − θ )
(
T
ˆ
ˆ
W
=
θ
−
θ
Η
:
θ
=
θ
•
0 V θ
0
0 por
•
T
T
T
Si θ = (θ 1 , θ 2
) con dim( θ
• Si dim( θ 2 )=1 entonces Η 0 :
2
[]
−1
()
()
−1
≈ χ p2 . Donde V θˆ = IE (θ ) ≈ IE θˆ ≈ IO θˆ .
0
[ ] θˆ
ˆT ˆ
)=q<p i Η 0 : θ 2 = 0 entonces W = θ 2 V θ 2
−1
2
≈ χ q2 .
θ 2 = 0 se toma la raíz cuadrada del estadístico de Wald y se trata habitualmente
el cociente como una normal estándar: z =
θˆ2
[ ]
V θˆ
≈ N (0, 1) .
2
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-123
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS
Según Ortúzar, una guía práctica para examinar la coherencia de los valores estimados de los parámetros, se
podría resumir genéricamente en la siguiente tabla:
Variable
Relevante
de Política
Adicional
Significativamente distinta de 0 No significativamente distinta de cero
o
Signo correcto
OK
Mantener en el modelo
Signo incorrecto Problema serio
Problema
Signo correcto
Probar si es posible sacarla del modelo
OK
Signo incorrecto Sacar del modelo
Sacar del modelo
Si el trabajo de campo conduce a una muestra no aleatoria simple, es decir, una choice-based sample. Entonces los
procesos estadísticos de estimación por verosimilitud se vuelven intratables, pero el usar los procedimientos como
si la muestra fuera aleatoria conduce a inconsistencias en los estimadores. Si se conoce la proporción poblacional
para cada alternativa, entonces es posible establecer ponderaciones o pesos a los individuos de la muestra no
aleatoria y con éstos entrar en un procedimiento standard de estimación MV. El peso de cada individuo es el
cociente entre la proporción poblacional y la proporción muestral de la alternativa seleccionada.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-124
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-9. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD
En los modelos desagregados de demanda bajo el paradigma de la utilidad aleatoria, el problema de la agregación
consiste en obtener a partir de modelos individuales, medidas agregadas esperadas de comportamiento en la
población (no en una muestra), como la cuota de mercado de algún modo público o los volúmenes en los arcos, etc.
El uso de variables promedio (por zonas de transporte) en el proceso de estimación de los parámetros en los
modelos desagregados lleva a la obtención de estimadores sesgados (Daly & Ortúzar, TEC-1990). En principio, el
error de agregación puede reducirse técnicamento hasta no representar un problema, sin embargo, el coste de
esa reducción implica un trade-off entre precisión y recursos invertidos para la correcta predicción agregada.
Los métodos de agregación descritos en la literatura son:
o Método naïve de uso de variables promedio en las ecuaciones de selección individuales.
o Clasificación.
o Enumeración explícita
El método naïve consiste en reemplazar las variables contínuas de la utilidad de cada alternativa por sus valores
promedio (zonales, por ejemplo si la agregación se desea a ese nivel).
π ij = Ρi ( j ) = f (x ij ) → π a = f ( x j )
j
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-125
Curs 2.006-2.007
Models Avançats de Demanda de Transport – MASTER LTM - UPC
5-11. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD
Si f(.) es lineal entonces el promedio de las f’s coincide con la imagen de los promedios de las variables
explicativas (contínuas por simplicidad). De otro modo, NO. Imaginemos un caso muy sencillo con una zona definida
por 2 usuarios, 1 i 2, y una elección MNL, para la alternativa j:
(π
1 j + π 2 j ) 2 = ( f (V1 j ) + f (V2 j ) ) 2 , pero
π a = f ((V1j + V2 j ) 2) ≠ (π 1 j + π 2 j ) 2
j
En general, para una población de M individuos la proporción de ellos que seleccionará la opción j es:
π ij = Ρi ( j ) = f (x ij ) → π a =
j
1
M
∑
i =1,K,M
f (x ij )
Si la muestra de m individuos disponible es representativa, entonces el método se denomina de enumeración
(sample enumeration) y da buenos resultados en predicciones a corto plazo. A medio y largo plazo, la muestra
disponible seguro que ya no es representativa de la población en ese momento y por tanto, las predicciones
resultan inválidas.
π ij = Ρi ( j ) = f (x ij ) → π a =
j
1
m
∑
i =1,K,m
f ( x ij )
Los métodos de clasificación responden a una estratificación en la población y están relacionados con los
procedimientos de recomposición por post-estratificación en Teoría del Muestreo.
π ij = Ρi ( j ) = f (x ij ) → π a = ∑h=1,K,H MM f ( x hj )
h
j
donde Mh es el número de individuos por estrato en la población y x hj es el promedio de las variables explicativas
en el estrato h-ésimo.
Si H=1 entonces coincide con el método naïve y si H=m entonces coincide con el método de enumeración explícita.
Prof. Lídia Montero – Esteve Codina ©
Pàg. 5-126
Curs 2.006-2.007
Descargar