18:28:36 Modelos de elección discreta Econometrı́a II Grado en Economı́a Universidad de Granada Econometrı́a II Modelos de elección discreta – 1 / 37 18:28:36 Contenidos ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 2 / 37 18:28:36 ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Introducción Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 3 / 37 18:28:36 Introducción ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Hasta el momento se ha trabajado con variables cualitativas incluyéndolas dentro del grupo de variables independientes, pero ¿puede la variable dependiente ser de naturaleza cualitativa? ¿qué ocurre en tal caso? ¿sigue siendo válido el modelo lineal y su estimación por Mı́nimos Cuadrados? En ocasiones, analizamos datos donde la variable dependiente de interés toma valores discretos: Variables dependientes binarias (ej: comprar o no comprar, conceder o no un préstamo, tener o no una enfermedad). Variables discretas sin ordenación (ej: tren, autobús...). Variables discretas con orden (ej: calificación o rating financiero). Un modelo de regresión lineal puede no ser lo más adecuado en estos casos porque: Contrastación de hipótesis los resultados son difı́ciles de interpretar: no se puede hablar de cambio continuo. Modelos de alternativas múltiples la variable dependiente sólo admite valores discretos, y puede que sólo nonegativos. podemos estar interesados en estimar la probabilidad de la ocurrencia de los distintos valores de la variable dependiente y no tanto en el valor esperado predicho. A continuación analizaremos con algo más de profundidad los problemas que surgen al considerar un modelo de regresión lineal clásico en el que la variable dependiente es cualitativa (más concretamente, binaria) y se plantearán las dos principales alternativas que se tienen en este caso: los modelos logit y probit. Econometrı́a II Modelos de elección discreta – 4 / 37 18:28:36 ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Modelos de elección binaria Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 5 / 37 18:28:36 Modelos de elección binaria ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II De los ejemplos considerados anteriormente, este capı́tulo se centra fundamentalmente en el caso en el que la variable dependdiente es una variable binaria (dicotómica). Es decir, supondremos que la variable dependiente Y solo puede tomar dos valores: n 1 , con probabilidad p Y = , (1) 0 , con probabilidad 1 − p donde el valor 1 denota que el individuo ha tomado alguna acción. La variable Y , por tanto, sigue una distribución de Bernoulli: Pr(Y = y) E(Y ) V ar(Y ) = = = py (1 − p)1−y , p, p(1 − p). (2) En tal caso, se estará interesado en analizar cuál es la probabilidad de que el individuo i, dadas sus caracterı́sticas (es decir, valores de las variables independientes, Xi ), tome una acción (es decir, Yi = 1). Modelos de elección discreta – 6 / 37 18:28:36 Modelos de elección binaria: ejemplo ❖ Contenidos A lo largo del presente capı́tulo desarrollaremos el siguiente ejemplo: Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II En numerosas ocasiones los docentes nos hemos preguntado por los factores que influyen en que un estudiante apruebe o no las asignaturas que impartimos. Esta cuestión es aún más interesante desde el punto de vista del alumno. Por tanto, serı́a deseable poder proporcionar a los mismos una orientación sobre factores que les puedan ayudar a obtener un mayor desempeño en la asignatura. Para analizar qué factores influyen (positiva o negativamente) en el desempeño (rendimiento) académico de los alumnos se propone realizar una regresión logı́stica donde la variable dependiente es codificada como 1 para aquellos alumnos con una calificación final de 5 o superior y como 0 en caso contrario. Es decir, el desempeño se mide como una variable binaria que considera los valores de aprobado (éxito) o suspenso (fracaso). Por tanto, el modelo econométrico planteado estima la probabilidad que tiene un alumno de superar la asignatura. Como variables independientes se consideran la realización de ejercicios en pizarra, EP , en ordenador, EO, y exámenes tipo test, T T , sobre cada tema. Modelos de elección discreta – 7 / 37 18:28:36 ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad ❖ Modelo Lineal de Probabilidad ❖ Inconvenientes El modelo Logit y Probit Inferencia en los modelos de elección discreta Modelo Lineal de Probabilidad Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 8 / 37 18:28:36 Modelo Lineal de Probabilidad ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad ❖ Modelo Lineal de Probabilidad ❖ Inconvenientes El Modelo Lineal de Probabilidad consiste simplemente en considerar un modelo de regresión lineal en el que la variable dependiente es binaria, es decir: Yi = β1 + β2 X2i + · · · + βk Xki + ui , Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples (3) con u ∼ N (0, σ 2 ) e Yi de la forma dada en (1). En este caso, dados los valores x2 , ..., xk de las variables independientes, se verifica que: E(Yi |X = x) = = = = El modelo Logit y Probit Inferencia en los modelos de elección discreta i = 1, . . . , n, E(Yi |X = x) Pr(Yi = 1|X = x) · 1 + Pr(Yi = 0|X = x) · 0 Pr(Yi = 1|X = x), E(β0 + β1 X2i + · · · + βk Xki + ui |X = x) β1 + β2 x2i + · · · + βk xki . Es decir, la parte derecha de la ecuación (3) debe ser interpretada como la probabilidad de que la variable dependiente sea igual a la unidad: pi = Pr(Yi = 1|X = x) = β1 + β2 x2i + · · · + βk xki . (4) Y, por tanto, βi es la variación de la probabilidad de que Yi = 1 asociada con una variación unitaria en Xi , manteniendo constantes las otras variables explicativas (con i = 1, . . . , k). Todo lo que conocido sobre el modelo de regresión lineal se puede aplicar directamente: estimación, contraste de hipótesis, interpretación de los parámetros, etc. Solo debemos recordar que la esperanza condicional es, en este caso, una probabilidad, por lo que 0 ≤ E(Yi |X = x) ≤ 1. Econometrı́a II Modelos de elección discreta – 9 / 37 18:28:36 Inconvenientes del Modelo Lineal de Probabilidad ❖ Contenidos Introducción Modelos de elección binaria La distribución de la muestra en este tipo de modelos se caracteriza por una nube de puntos de tal manera que las observaciones muestrales se dividen en dos subgrupos: uno formado por las observaciones en las que ocurrió el acontecimiento objeto de estudio (Yi = 1), y otro, por los puntos muestrales en los que no ocurrió (Yi = 0). Modelo Lineal de Probabilidad ❖ Modelo Lineal de Probabilidad Y con respecto a X (con ajuste mínimo−cuadrático) 1.4 Y = −2.29 + 0.0544X ❖ Inconvenientes 1.2 El modelo Logit y Probit 1 Inferencia en los modelos de elección discreta Y Interpretación de los coeficientes 0.8 0.6 Bondad de ajuste 0.4 Contrastación de hipótesis 0.2 Modelos de alternativas múltiples 0 −0.2 40 45 50 55 60 65 X Por tanto, el coeficiente de determinación R2 no es particularmente útil porque no es posible que todos los datos se encuentren exactamente en la recta de regresión (R2 = 1). Econometrı́a II Modelos de elección discreta – 10 / 37 18:28:36 Inconvenientes del Modelo Lineal de Probabilidad ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad ❖ Modelo Lineal de Probabilidad ❖ Inconvenientes El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Otros inconvenientes importantes son: Puesto que la variable dependiente solo toma valores 0 ó 1, el supuesto de normalidad de las perturbaciones no se cumple ya que siguen la distribución de Bernoulli: Yi = 1 Yi = 0 ei = Yi − Ŷi 1 − β̂1 − β̂2 X2i − · · · − β̂k Xki −β̂1 − β̂2 X2i − · · · − β̂k Xki Probabilidad p 1−p Perturbaciones heteroscedásticas (incumplimiento de la hipótesis de homocedasticidad) ya que su varianza depende de las variables independientes: V ar(ei ) = = + E(ei − E(ei ))2 = E(ei )2 (1 − β̂1 − β̂2 X2i − · · · − β̂k Xki )2 p (−β̂1 − β̂2 X2i − · · · − β̂k Xki )2 (1 − p). Las predicciones de la variable dependiente pueden estar fuera del rango [0, 1]. El modelo lineal de probabilidad implica que el efecto marginal de cada una de las variables explicativas es constante. Este supuesto no es muy razonable ya que es esperable que las variaciones en la probabilidad sean distintos en los valores centrales de las variables dependientes a las producidas en sus extremos. Econometrı́a II Modelos de elección discreta – 11 / 37 18:28:36 ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit ❖ Modelo Logit ❖ Modelo Probit ❖ Comparación modelos Logit y Probit El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 12 / 37 18:28:36 El modelo Logit y Probit ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit ❖ Modelo Logit ❖ Modelo Probit ❖ Comparación modelos Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Como se ha puesto de relevancia, el modelo lineal de probabilidad presenta importantes inconvenientes que desaconsejan su uso ante variables dependientes binarias y crea la necesidad de recurrir a otros tipos de modelos. Las regresiones Probit y Logit son modelos de regresión no lineales diseñados especı́ficamente para variables dependientes binarias. Se trata de adoptar una formulación no lineal que obligue a que los valores estimados estén entre 0 y 1 ya que, como hemos visto, la regresión con una variable binaria dependiente Y modeliza la probabilidad de que Y = 1. La regresión Logit utiliza una función de distribución logı́stica, mientras que la regresión Probit utiliza una función de distribución normal estándar. Ambas funciones de distribución de probabilidad dan lugar a probabilidades ente 0 y 1, y presentan un crecimiento no lineal (con mayores incrementos en la parte central). De esta forma se resuelven dos de los problemas anteriormente señalados. 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0 −5 0.1 −4 −3 −2 −1 0 1 2 3 4 5 0 −5 −4 −3 −2 −1 0 1 2 3 4 5 Figura 1: Representación gráfica de la función logı́stica (izquierda) y de la probabilidad acumulada de una normal (derecha) Econometrı́a II Modelos de elección discreta – 13 / 37 18:28:36 Modelo Logit ❖ Contenidos El modelo de regresión Logit se basa en la función logı́stica: Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit ❖ Modelo Logit ❖ Modelo Probit ❖ Comparación modelos Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples f (z) = 1 1 ez = = , 1 + e−z 1 + ez 1 + e1z la cual está acotada entre 0 y 1 ya que: lı́m f (z) = 0, z→−∞ lı́m f (z) = 1, z→∞ y, como se muestra en la Figura 1, presenta una forma de S que se ajusta al crecimiento no lineal deseado (leves incrementos en los extremos y mayores en la parte central). El modelo de regresión Logit será de la forma: Yi = f (Zi ) + ui , ı = 1, . . . , n, (5) donde Zi = β1 + β2 X2i + · · · + βk Xki y, dados los valores de las variables independientes x2 , ..., xk , las probabilidades de que la variable dependiente tome los valores 1 y 0 son: ezi , 1 + ezi 1 = , 1 + ezi Pr(Y = 1|x2 , ..., xk ) = E(Yi |X = x) = Pr(Y = 0|x2 , ..., xk ) = 1− ezi 1 + ezi con zi = β1 + β2 x2i + · · · + βk xki . Econometrı́a II Modelos de elección discreta – 14 / 37 18:28:36 Modelo Probit ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit ❖ Modelo Logit El modelo de regresión Probit se basa en la distribución de probabilidad acumulada de una normal tipificada: 1 Φ(z) = Pr(Z ≥ z) = √ 2π z e− s2 2 ds, −∞ donde Z ∼ N (0, 1) y es tal que, dados los valores x2 , ..., xk de las variables independientes, se verifica que: ❖ Modelo Probit ❖ Comparación modelos Logit y Probit Inferencia en los modelos de elección discreta Z Pr(Y = 1|x2 , ..., xk ) = Φ(zi ), con zi = β1 + β2 x2i + · · · + βk xki tal que: Y = Interpretación de los coeficientes n 1 0 si zi > 0 . si zi < 0 Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 15 / 37 18:28:36 Comparación modelos Logit y Probit ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit ❖ Modelo Logit ❖ Modelo Probit ❖ Comparación modelos Logit y Probit Los modelos logit y probit comparten practicamente las mismas carecterı́sticas: son modelos no lineales que son estimados por los métodos estudiados en el tema anterior (mı́nimos cuadrados no lineales o máxima verosimilitud), donde la interpretación de los coeficientes no es tan inmediata como en el modelo lineal de probabilidad. Además, en ambos casos hay que buscar una medida alternativa al coeficiente de determinación para medir la bondad del ajuste realizado. La única diferencia entre ambos modelos es que la función logı́stica (curva azul) tiene colas más anchas, por lo que la probabilidad de éxito será mayor en los extremos cuando se use el modelo logit. 1 Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 −5 Econometrı́a II −4 −3 −2 −1 0 1 2 3 4 5 Modelos de elección discreta – 16 / 37 18:28:36 ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Inferencia en los modelos de elección discreta ❖ Método de MV Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 17 / 37 18:28:36 Método de Máxima Verosimilitud ❖ Contenidos Introducción Modelos de elección binaria Como la relación entre la variable dependiente y las explicativas es no lineal no se puede aplicar el método de MCO. Si se usa el método de máxima verosimilitud, a partir de (2) y (4) se obtiene la función de densidad conjunta: Modelo Lineal de Probabilidad L= El modelo Logit y Probit Inferencia en los modelos de elección discreta i=1 ln L = n X = n X i=1 Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples i=1 n = X i=1 yi ln(pi ) + (1 − yi ) ln(1 − pi ) yi ln(pi ) − yi ln(1 − pi ) + ln(1 − pi ) yi ln pi 1 − pi donde se ha llamado zi = ln Econometrı́a II y pi i (1 − pi )1−yi , la cual, al considerar logaritmos neperianos queda: ❖ Método de MV Interpretación de los coeficientes n Y ! + pi 1−pi n X i=1 ln(1 − pi ) = n X i=1 yi z i − n X ln(1 + ezi ), i=1 . Modelos de elección discreta – 18 / 37 18:28:36 Método de Máxima Verosimilitud ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad Teniendo en cuenta que pi = β1 + β2 x2i + · · · + βk xki , derivar la expresión anterior con respecto a cada coeficiente conduce a: ∂ ln L ∂β1 = i=1 n El modelo Logit y Probit Inferencia en los modelos de elección discreta ❖ Método de MV Interpretación de los coeficientes Bondad de ajuste n X ∂ ln L ∂βj = X i=1 yi − n X i=1 yi xji − ezi 1 + ezi n X i=1 , ezi 1 + ezi xji , j = 2, . . . , k. Al igualar a cero las derivadas anteriores se obtiene el siguiente sistema de ecuaciones normales no lineal que tendrá que ser resuelto mediante un algoritmo de optimización: n X Contrastación de hipótesis Modelos de alternativas múltiples i=1 yi − n X i=1 n X yi xji − i=1 X n i=1 = 0. xji = 0, ezi 1 + ezi ezi 1 + ezi j = 2, . . . , k. Bajo supuestos generales, los estimadores ası́ obtenidos son consistentes, asintóticamente eficientes y con distribución asintótica normal. Además, aplicando este método de estimación se solventa el problema de heteroscedasticidad anteriormente comentado. Econometrı́a II Modelos de elección discreta – 19 / 37 18:28:36 ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Interpretación de los coeficientes ❖ Efecto marginal ❖ Odd ratio Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 20 / 37 18:28:36 Efecto marginal ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad En los modelos lineales (como el modelo lineal de probabilidad) la derivada parcial de la variable dependiente, Y , con respecto a cada una de las variables explicativas, Xj , j = 1, . . . , p, es la constante βj , y se interpreta como el cambio producido en Y cuando Xj aumenta una unidad. Puesto que los modelos logit y probit son no lineales, esta interpretación no es correcta. En el modelo Logit, partiendo de (5), la derivada parcial anterior es: El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes ❖ Efecto marginal ❖ Odd ratio Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples e−Zi ∂Yi = · βj , ∂Xji (1 + e−Zi )2 j = 1, . . . , k, mientras que en el probit ∂Yi = φ(zi )βj , ∂Xji j = 1, . . . , k, siendo φ la función de densidad de la distrbución normal tipificada. Por tanto, el efecto marginal en ambos modelos depende de los valores que toman las variables explicativas (ya no es constante: uno de los objetivos perseguidos por estos modelos). Pueden, por tanto, calcularse los efectos marginales para cada observación de la muestra (alternativamente, los efectos marginales pueden evaluarse para el valor medio de las variables explicativas). Puesto que la exponencial y la función de densidad φ son siempre positivas, queda claro que el signo de los coeficientes indica la dirección del efecto marginal. Es decir, un signo positivo indicará una relación directa, mientras que uno negativo inversa. Econometrı́a II Modelos de elección discreta – 21 / 37 18:28:36 Efecto marginal: ejemplo ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes ❖ Efecto marginal ❖ Odd ratio Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Para el ejemplo planteado, considerando un modelo de regresión logı́stica de la forma dada en (5) con Zi = β1 + β2 EPt + β3 EOt + β4 T Tt , se obtiene la siguiente estimación: b1 = −3.3537, β b2 = 0.1535, β b3 = 0.2529, β b4 = 4.6931. β Puesto que todas las estimaciones de los coeficientes de las variables independientes tienen signo positivo, se tiene que el efecto marginal de estas variables será positivo. Es decir, incrementos en estas variables significarán (siempre que se rechaze la hipótesis nula en los contrastes de significación individual) un aumento en la probabilidad de aprobar. ¿Cuanto aumenta la probabilidad de aprobar si, para la misma calificación en los ejercicios en la pizarra y mismo porcentaje de preguntas correctas en los tipo test, se pasa de obtener una calificación de 3 en el examen de ordenador a 4? Considerando, por ejemplo, fijos los valores EP = 5 y T T = 0.6, se tiene que: Pr(Y = 1|EP = 5, EO = 3, T T = 0.6) = 0.7287639, Pr(Y = 1|EP = 5, EO = 4, T T = 0.6) = 0.7757833, es decir, el incremento de la probabilidad es 0.0470194. ¿Es este incremento constante? Econometrı́a II Modelos de elección discreta – 22 / 37 18:28:36 Efecto marginal: ejemplo ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes ❖ Efecto marginal EP 5 5 5 5 5 5 5 5 5 5 5 EO 0 1 2 3 4 5 6 7 8 9 10 TT 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 Pr(Y = 1) 0.5571640 0.6183522 0.6760023 0.7287639 0.7757833 0.8167018 0.8515816 0.8807929 0.9048969 0.9245446 0.9404006 Incremento 0.0611882 0.0576501 0.0527616 0.0470194 0.0409185 0.0348798 0.0292113 0.024104 0.0196477 0.015856 ❖ Odd ratio Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Tal y como se observa en la tabla, para los valores constantes de calificación en pizarra de 5 y de un 60 % de preguntas correctas en los exámenes tipo test, el cambio en la probabilidad de aprobar a medida que cambia la calificación en el examen de ordenador no es constante. Cada una de las probabilidades anteriores se obtiene sustituyendo el correspondiente valor de EP , EO y T T en la siguiente expresión: bi eZ bi 1 + eZ Econometrı́a II , bi = βb1 + βb2 EPt + βb3 EOt + βb4 T Tt . donde Z Modelos de elección discreta – 23 / 37 18:28:36 Efecto marginal: ejemplo ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Si se hubiese considerado un modelo Probit, las probabilidades de éxito anteriores se hubiesen obtenido a partir de la siguiente expresión: Pr(Y = 1|EP = ep, EO = eo, T T = tt) = Φ(b zi ) = Pr(Z ≤ b zi ), b1 + βb2 ep + βb3 eo + βb4 tt y Z ∼ N (0, 1). donde b zi = β En el ejemplo que nos ocupa: Pr(Y = 1|EP = 5, EO = 3, T T = 0.6) = Pr(Z ≤ 0.98836) ≃ 0.8389, Pr(Y = 1|EP = 5, EO = 4, T T = 0.6) = Pr(Z ≤ 1.24126) ≃ 0.8925, y entonces el incremento de la probabilidad es de 0.0536. ❖ Efecto marginal ❖ Odd ratio Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 24 / 37 18:28:36 Odd ratio ❖ Contenidos Introducción En la práctica, en el modelo logit, lo que se suele hacer es calcular la razón entre ambas probabilidades, cociente denominado odd-ratio, es decir: Modelos de elección binaria pi = 1 − pi Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes ❖ Efecto marginal ❖ Odd ratio Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples ezi 1+ezi 1 1+ezi = ezi , con zi = β1 + β2 x2i + · · · + βk xki . Por tanto, el odd ratio es el número de veces que es más probable que ocurra el fenómeno o suceso frente a que no ocurra. El odd-ratio asociado a un cambio de xjh a xjl , h 6= l, h, l = 1, . . . , n en la variable Xj , j = 1, . . . , k, supuesto que el resto de variables permanecen constantes, viene dado por: ezh = eβj (xjh −xjl ) . ezl En tal caso: Si no existe relación entre la variable dependiente y la variable en estudio el oddratio toma el valor uno. Si la variable dependiente incrementa la probabilidad sobre la variable explicada el odd-ratio será superior a uno tanto mayor cuanto más elevada sea esta relación. Si la variable dependiente disminuye la probabilidad de la variable explicada el odd-ratio será menor que uno. Econometrı́a II Modelos de elección discreta – 25 / 37 18:28:36 Odd ratio: ejemplo ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes ❖ Efecto marginal ❖ Odd ratio Los odd-ratios asociados a un cambio unitario en las variables del ejemplo considerado se recogen en la siguiente tabla: Variables Odd-ratio EP 1.1659 EO 1.2878 TT 109.1859 bj , con Adviértase que dichos valores se han obtenido a partir de la expresión eβ j = 2, 3, 4. Los odd-ratios asociados a un cambio de 5 unidades en cada una de las bj . variables serı́a obtenido a partir de e5·β Ası́, por ejemplo, para un alumno que tiene una calificación en ordenador un punto superior a otro es 1.2878 veces más probable que apruebe. Un alumno que tiene una calificación 5 veces superior a otro es 3.541322 veces más probable que apruebe. Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 26 / 37 18:28:36 ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Bondad de ajuste ❖ Coeficiente de McFadden y proporción de aciertos Contrastación de hipótesis Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 27 / 37 18:28:36 Coeficiente de McFadden y proporción de aciertos ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste ❖ Coeficiente de McFadden y proporción de aciertos Contrastación de hipótesis Modelos de alternativas múltiples En los modelos logit y probit, debido a que el método de estimación no es el de MCO sino el de MV, no podemos utilizar el coeficiente de determinación clásico para medir la bondad del ajuste. Recordemos que este era uno de los problemas que surgı́an en el modelo lineal de probabilidad. En su lugar, se utiliza el pseudo R2 de McFadden: R̃2 = 1 − ln L , ln Lr donde ln L es el logaritmo neperiano de la función de verosimilitud del modelo sin restricciones (el modelo con todas las variables explicativas) y ln Lr es el logaritmo neperiano de la función de verosimilitud del modelo restringido (solo incluye el término independiente del modelo). Otra opción para analizar la bondad del modelo es contabilizar el porcentaje de aciertos del modelo teniendo en cuenta que, por ejemplo, las probabilidades predichas por encima de 0.5 contabilizan como Yi = 1 y menores que 0.5 estiman Yi = 0: Yi = 1 Yi = 0 Ŷi = 1 A C Ŷi = 0 B D En los casos A y D se habra predicho correctamente el valor de Y , por tanto, la proporción de aciertos vendrá dada por el cociente A+D . n Si se desea ser exigente con el modelo (lo recomendado), en lugar de usar el umbral del 0.5 se debe usar la proporción de éxitos (de unos) que hay en la variable dependiente. Econometrı́a II Modelos de elección discreta – 28 / 37 18:28:36 Proporción de aciertos: ejemplo ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste ❖ Coeficiente de McFadden y proporción de aciertos Contrastación de hipótesis Modelos de alternativas múltiples Observados - Predichos Suspensos Aprobados Total Suspensos 14 22 36 Aprobados 6 83 89 Total 20 105 125 Porcentaje 70 % 79.04 % 77.6 % En la tabla anterior se cruzan las observaciones disponibles sobre el número de suspensos y aprobados con las predicciones realizadas por el modelo. Recordemos que el modelo logı́stico proporciona la probabilidad de aprobar, por tanto, es necesario establecer un umbral para clasificar dicha probabilidad como aprobada o suspensa. En este caso, puesto que en la muestra se tiene un 84 % de aprobados se ha decidido que una probabilidad por debajo de 0.84 sea clasificada como suspenso y por encima como aprobado (se puede apreciar por tanto que se ha establecido un umbral bastante exigente). Con esta premisa se tiene que de los 20 suspensos clasifica bien a 14 (un 70 %), mientras que de los 105 aprobados clasifica correctamente a 83 (un 79.04 %). Finalmente, el modelo ajustado clasifica adecuadamente un 77.6 % de los datos (97 de 125), una cifra más que aceptable si se tiene en cuenta las exigencias establecidas. Econometrı́a II Modelos de elección discreta – 29 / 37 18:28:36 ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Contrastación de hipótesis Bondad de ajuste Contrastación de hipótesis ❖ Significación individual de los coeficientes ❖ Significación conjunta de los coeficientes Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 30 / 37 18:28:36 Significación individual de los coeficientes ❖ Contenidos Para realizar contrastes de significación individual sobre los coeficientes: Introducción H0 : βj = 0 H1 : βj 6= 0 Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Contrastación de hipótesis ❖ Significación individual de los coeficientes ❖ Significación conjunta de los coeficientes Modelos de alternativas múltiples , nos basaremos en que los estimadores siguen uns distribución normal: β̂j ∼ N (βj , Var(βj )). Por tanto, para tomar una decisión en el contraste utilizamos la siguiente regla de decisión: Interpretación de los coeficientes Bondad de ajuste o Se rechaza H0 si β̂j ≥Z p 1−α/2 , Var(β̂j ) donde P [Z < Z1−α/2 ] = 1 − α/2 con Z ∼ N (0, 1). Adviértase que la obtención de la matriz de varianzas-covarianzas de los coeficientes, βj , no es una tarea fácil. Por suerte todos los programas informáticos lo realizan automáticamente, por lo que se puede realizar inferencia en la forma habitual. Econometrı́a II Modelos de elección discreta – 31 / 37 18:28:36 Significación conjunta de los coeficientes ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad Para realizar contrastes de significación conjunta sobre todos los coeficientes (o un subconjunto), se puede utilizar el contraste de la razón de verosimilitudes: H0 : β2 = β3 = ... = βk = 0 H1 : en caso contrario o . El estadı́stico de contraste es: El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis −2 ln L(β̂r ) L(β̂) ∼ χ2q , donde L(β̂r ) es la verosimilitud del modelo restringido, es decir, del modelo en el que se impone la H0 , L(β̂) es la verosimilitud del modelo sin restricciones y q es el número de restricciones. ❖ Significación individual de los coeficientes ❖ Significación conjunta de los coeficientes Modelos de alternativas múltiples Econometrı́a II Modelos de elección discreta – 32 / 37 18:28:36 ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Modelos de alternativas múltiples Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples ❖ Modelos de alternativas múltiples ❖ Ejemplo Econometrı́a II Modelos de elección discreta – 33 / 37 18:28:36 Modelos de alternativas múltiples ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Los modelos de alternativas múltiples o multinomiales generalizan a los estudiados hasta el momento para problemas donde la variable dependiente es nominal, es decir, cuando existen más de dos posibles resultados discretos. Algunos ejemplos pueden ser: Elección de la universidad en la que estudiar basándose en las calificaciones del estudiante, sus gustos, medios económicos, etc. Qué candidato recibirá el voto de una persona a partir de caracterı́sticas demográficas o socio-culturales. Posibles ocupaciones profesionales de una persona en función de los trabajos de los padres, nivel de educación, etc. Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples ❖ Modelos de alternativas múltiples ❖ Ejemplo Econometrı́a II Modelos de elección discreta – 34 / 37 18:28:36 Modelos de alternativas múltiples: ejemplo ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad Supongamos que disponemos de información sobre la demanda de un determinado producto fabricado por tres marcas: A, B y C. Queremos estudiar el efecto que tiene la variable edad de cada individuo (xi ) sobre la elección de cada marca. La variable dependiente yij mide la elección (yij = 1) o no (yij = 0) de la marca j-ésima realizada por el individuo i: El modelo Logit y Probit Inferencia en los modelos de elección discreta Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis ❖ Ejemplo = yiB = = yiC 1 0 marca A, otra marca n 1 0 marca B, otra marca 1 0 marca C, otra marca n El modelo quedarı́a: Modelos de alternativas múltiples ❖ Modelos de alternativas múltiples yiA n yij = β1 + β2 xi + ǫij , i = 1, ..., n; j = A, B, C. La probabilidad de que cada individuo elija una determinada marca es: piA piB piC = = = β11 + β21 xi , β12 + β22 xi , β13 + β23 xi , donde se ha de cumplir que la suma de las probabilidades es igual a la unidad. Econometrı́a II Modelos de elección discreta – 35 / 37 18:28:36 Modelos de alternativas múltiples: ejemplo ❖ Contenidos Introducción En el caso del modelo logit multinomial, la probabilidad de escoger una de las alternativas es: Modelos de elección binaria pij = Modelo Lineal de Probabilidad El modelo Logit y Probit eβ1j +β2j xi j=1 pi1 = eβ11 +β21 xi P3 j=1 y el resto: β1j +β2j xi e Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples ❖ Modelos de alternativas múltiples ❖ Ejemplo , i = 1, ..., n; j = A, B, C. Una de las alternativas es la de referencia: Inferencia en los modelos de elección discreta Interpretación de los coeficientes eβ1j +β2j xi P3 pij = = 1+ P3 eβ1j +β2j xi 1+ P3 eβ1j +β2j xi j=2 1 j=2 , eβ1j +β2j xi j = B, C. Los odds ratio se obtienen como el cociente entre probabilidades: pij = eβ1j +β2j xi , j = B, C, pi1 y el logaritmo del odd ratio: ln Econometrı́a II p ij pi1 = β1j + β2j xi , j = B, C. Modelos de elección discreta – 36 / 37 18:28:36 Modelos de alternativas múltiples: ejemplo ❖ Contenidos Introducción Modelos de elección binaria Modelo Lineal de Probabilidad El modelo Logit y Probit Inferencia en los modelos de elección discreta También se pueden comparar entre las alternativas 2 y 3: pi2 β12 + β22 xi = = eβ12 −β13 +(β22 −β23 )xi . pi3 β13 + β23 xi Para estimar los parámetros, utilizaremos el método de máxima verosimilitud. En este ejemplo, la función de verosimilitud es: L = i=1 n Interpretación de los coeficientes Bondad de ajuste Contrastación de hipótesis Modelos de alternativas múltiples ❖ Modelos de alternativas múltiples ❖ Ejemplo Econometrı́a II n Y × Y × Y i=1 n i=1 1+ P3 1+ P3 1+ P3 1 j=2 eβ1j +β2j xi eβ12 +β22 xi j=2 eβ1j +β2j xi eβ13 +β23 xi eβ1j +β2j xi j=2 . Modelos de elección discreta – 37 / 37