Universidad de la República, Facultad de Ciencias Económicas y Administración. ECONOMETRIA II- CURSO 2003 MODELOS DE VARIABLE DEPENDIENTE CUALITATIVA Y MODELOS DE VARIABLE DEPENDIENTE LIMITADA EJERCICIO 1 A- Una investigación sobre el mercado laboral de las mujeres en Uruguay ha prestado especial atención al grado de dedicación de la población económicamente activa femenina. Así, se ha optado por modelizar econométricamente la decisión de participar en forma de "tiempo completo" o en "tiempo parcial". Para ello se optó por ajustar un modelo logit cuya variable dependiente fue precisamente una variable Y dicotómica (tiempo completo=1, tiempo parcial=0). SE PIDE: 1) Indicar las razones por las cuales se juzgó utilizar un modelo logit y no un modelo clásico. 2) Indicar por qué no se opta generalmente por un modelo de probabilidad lineal. 3) ¿Qué forma funcional tiene la probabilidad (Pi) en los modelos logit y cuál es el sentido que tiene la misma? ¿Y en el modelo probit? B- La investigación arrojó los siguientes resultados (modelo logit): X β̂ = 3,640 - 0,434. X 1 - 0,143. X 2 + 0,053. X 3 - 0,287. X 4 - 0,1. X 5 (6,3) (-5,3) (-2,66) (0,71) (-1,9) (-6,9) donde: X1= educación en años de estudio X2= cantidad de menores de 14 años en el hogar X3= número de inactivos en el hogar X4= categoría de la ocupación (0= sector público, 1= sector privado) X5= tipo de ocupación ordenada de mayor a menor ingreso. Los valores entre paréntesis es el valor de t. Por otra parte se sabe: a) que ln L(Ω)= -826.99 b) el número de observaciones fue de 1789 mujeres activas. c) el R2 fue de 0.56 d) Si se hace el mismo modelo pero únicamente con la constante (sin variables explicativas) se observa que el logaritmo neperiano de la función de verosimilitud nueva es de ln L(ω)= -2345.4 e) las medias de las variables son: X 1 = 9 X 2 = 1,8 X 3 = 2 X 4 = 0,7 X 5 = 7,8 SE PIDE: 1) ¿Qué método de estimación se utilizó para este modelo si entendemos que el investigador no se equivocó? 2) ¿Cómo juzga Ud. este modelo a la luz de los resultados obtenidos? 3) ¿Cómo se interpreta el coeficiente de X2? EJERCICIO 2 A partir de una encuesta de marketing sobre consumo de bebidas light se observó que de 100 personas encuestadas, (57 mujeres y 43 hombres), el 63% prefería esta categoría de bebidas a las tradicionales. Esta preferencia resultó ser sensiblemente superior entre las consumidoras mujeres, de las 57 encuestadas, 45 respondieron afirmativamente. Contrariamente, entre los 43 encuestados de sexo masculino, sólo 18 manifestaron preferirlas. Para analizar esta comportamiento particular se especificó el modelo econométrico siguiente: F(X, a0 , a1 ) = P(Y = 1) = 1 1 + exp(- a0 - a1* SEXO) donde, Y=1 si el individuo prefiere las bebidas light Y=0 en el caso contrario. SEXO=1 si sexo femenino SEXO=0 si sexo masculino A partir de los datos de la encuesta realizada sobre una muestra de 100 individuos, se estimaron por el método de máxima verosimilitud los parámetros del modelo anterior, y en una segunda etapa se estima el modelo restringido, donde a1=0, obteniendo los resultados siguientes: [1] Modelo sin restricción coef. Variable Estim. Err.Std. a0 Constante -0.328 0.031 a1 SEXO 1.650 0.448 ln L= ln(LH)= -58.568 [2] Modelo con restricción a1=0 coef Variable b0 Constante Estim.Err.Std. 0.53220.207 En este caso el log de la función de verosimilitud se define como: 100 100 ln (LH) = ∑ i =1 y i * ln F ( b 0 ) + ∑ (1 - y i ) * ln [1 - F( b 0 )] i=1 SE PIDE: (a) Analizar los resultados de la estimación en [1] explicitando la significación estadística y la interpretación de los estimadores. (b) Calcular ln[LH] para el modelo [2] y verificar la validez de la restricción a1=0. (c) Mostrar que en el caso del modelo lineal Y= b0 + b1*X + u, donde Y es una variable binaria y el residuo u tiene media 0, éste es heteroscedástico. Explicitar los problemas de estimación y de formulación que se presentan. EJERCICIO 3 Se busca analizar los factores que diferencian a las empresas exportadoras dinámicas, a partir de una muestra de 100 firmas exportadoras. Se propone estimar el modelo logit siguiente: [1] P(Y = 1) = F(X, β ) = 1 1 + exp(-X.β ) donde Y=1, si la empresa es dinámica; Y=0, si la empresa no lo es. X , vector de variables que identifican la estrategia de la empresa; β: vector de parámetros. Los resultados obtenidos de la estimación por máxima verosimilitud son los siguientes: Ln(Verosimilitud)= ln[LH]= -12.78 Coef. Variable β0 β1 β2 β3 β4 β5 Coef.Estim. Constante Flex (var.binaria) Ps.Prd(var.continua) Ps.Tec(var.continua) Acuerdos (var.binar) % Región (var.cont.) -4.052 2.518 0.012 0.211 2.605 -1.042 Err.Std. T-Stat 1.727 1.442 0.006 0.103 1.430 0.573 -2.346 1.741 2.005 2.045 1.821 -1.818 donde: * Flex=1 si la empresa tiene una estructura de producción flexible, en caso contrario Flex=0. * Ps.Prd, Ps.Tec: representa el total de personal de producción y personal técnico respectivamente. * Acuerdos=1, si la empresa inició su actividad exportadora motivada por las preferencias otorgadas por los acuerdos comerciales con los países de la Región. * % Región: representa el % de las exportaciones de la firma a la Región (Brasil y Argentina) en el total de sus exportaciones. En una segunda etapa se estimó el modelo [1] imponiendo las siguientes restricciones al modelo inicial [2] β1=β2=β3=β4=β5=0. La estimación del modelo con restricciones por máxima verosimilitud, da como resultado: ln L[LH]= -23.05 SE PIDE: 1)Explicite las ventajas del modelo logit sobre el modelo de probabilidad lineal. 2) Analizar los resultados presentados y verificar la validez de las restricciones [2]. EJERCICIO 4 Se desea explicar los determinantes de que llevan a los trabajadores de una rama a sindicalizarse o no, para lo cual se estima un modelo logit siguiente en base a una encuesta a 595 trabajadores (valores de t entre paréntesis): ln [Pi/(1-Pi)] = 2.734 - 0.74 EXP -0.68.EDU - 0.483.SEX + 1.038. OCUP + (3.27) (-1.15) (-1.93) (-1.85) (6.27) 0.114.MANUF + 0.247. ESTCIV + 0.567. LUGRES. (1.96) (1.68) (2.34) donde: EXP: experiencia en años en el trabajo. EDU: años de educación. SEX: variable dummy con 1= mujer y 0= hombre OCUP: variable dummy con 1= ocupaciones manuales y 0= no manuales. MANUF: variable dummy con 1= rama industrial manufacturera, 0= otro caso. ESTCIV: variable dummy con 1= casado o unido y 0 otro caso. LUGRES: variable dummy con 1= residencia en Montevideo y 0 en el resto. Se sabe además que: (i) el logaritmo de la función de verosimilitud en la estimación anterior dio -312.37 (ii) el pseudo R2 de McFadden fue calculado en 0.201 (iii) el logaritmo de la función de verosimilitud de la estimación sin considerar las variables LUGRES ni MANUF fue -410.34 SE PIDE: a) Comentar la calidad y razonabilidad de cada variable del modelo completo anteriormente presentado, indicando las propiedades de los estimadores utilizados. b) Indique cómo calcularía el efecto marginal en la probabilidad de sindicalización de la variable LUGRES (por ejemplo, cúanto cambiaría y en qué sentido la probabilidad de sindicalizarse de un trabajador que se muda a Montevideo). c) Pruebe la hipótesis (al 5%) de que las variables LUGRES y MANUF son significativas conjuntamente, indicando claramente hipótesis nula, región crítica y decisión tomada. EJERCICIO 5 Se realiza en una ciudad un estudio para estudiar los factores explicativos de la decisión de los consumidores por seleccionar el crédito más barato antes de hacer una compra. Al respecto se observa que el consumidor no siempre hace una búsqueda previa y así muchas veces no compara entre créditos del proveedor o bancarios. Para modelizar el problema se consideran las siguientes variables: FUENTE: variable dummy con 1= si el consumidor seleccionó el crédito más barato, 0= en caso contrario ALTOC: dummy 1= el consumidor incurrió en altos costos al buscar el crédito más barato, 0= en caso contrario. ANTES: dummy 1= el consumidor utilizó previamente la fuente de crédito elegida, 0= en caso contrario. TAMANO: tamaño del crédito en una escala de 1 a 6, en orden creciente. INGRESO: ingreso del consumidor. RECHANT: dummy 1= el consumidor tuvo rechazos anteriores a solicitudes de crédito, 0= en caso contrario. RECHHOY: dummy 1= el consumidor es rechazado en esta solicitud de crédito, 0= en caso contrario. SANCION: dummy 1= el consumidor teme a las sanciones por incumplimiento, 0= en caso contrario. LUGAR : dummy 1= el consumidor vive en la ciudad del otorgante, 0= en caso contrario. A los efectos de modelizar la decisión de seleccionar o no el crédito más barato de plaza, se plantea el siguiente modelo: LS // Dependent Variable is FUENTE SMPL range: 1 100 Number of observations: 100 ======================================================================== VARIABLE COEFFICIENT STD. ERROR T-STAT. 2-TAIL SIG. ======================================================================== C 0.2705197 0.1313461 2.0595949 0.0423 ALTOC 0.0739448 0.1943647 0.3804435 0.7045 ANTES 0.2912300 0.0893644 3.2589030 0.0016 TAMANO 0.0546167 0.0231947 2.3547061 0.0207 INGRESO 6.399E-06 3.890E-06 1.6449111 0.1034 RECHANT -0.0860358 0.1038707 -0.8282970 0.4097 RECHHOY 0.0120319 0.1690905 0.0711566 0.9434 SANCION 0.0694218 0.1924804 0.3606696 0.7192 LUGAR 0.0978643 0.1051313 0.9308768 0.3544 ======================================================================== R-squared 0.221826 Mean of dependent var 0.710000 Adjusted R-squared 0.153416 S.D. of dependent var 0.456048 S.E. of regression 0.419610 Sum of squared resid 16.02259 Log likelihood -50.33533 F-statistic 3.242562 Durbin-Watson stat 1.554376 Prob(F-statistic) 0.002722 ======================================================================== Como se observa que algunas variables no son muy significativas se opta por un modelo más parco cuya salida se presenta a continuación: LS // Dependent Variable is FUENTE SMPL range: 1 100 Number of observations: 100 ======================================================================== VARIABLE COEFFICIENT STD. ERROR T-STAT. 2-TAIL SIG. ======================================================================== C 0.2637668 0.1088323 2.4236080 0.0173 ALTOC 0.0538265 0.1898632 0.2835017 0.7774 ANTES 0.2968236 0.0872215 3.4031022 0.0010 TAMANO 0.0564739 0.0227219 2.4854390 0.0147 INGRESO 6.466E-06 3.665E-06 1.7642790 0.0809 ======================================================================== R-squared 0.206925 Mean of dependent var 0.710000 Adjusted R-squared 0.173533 S.D. of dependent var 0.456048 S.E. of regression 0.414594 Sum of squared resid 16.32941 Log likelihood -51.28373 F-statistic 6.196737 Durbin-Watson stat 1.467090 Prob(F-statistic) 0.000179 ======================================================================== PARTE A SE PIDE: a.1) Comente sobre la modelización realizada indicando las ventajas inconvenientes de plantear el modelo de la manera en que fue realizado. e a.2) Compare los modelos anteriores utilizando un test asintótico conveniente. Dado que los inconvenientes de la anterior modelización fueron considerados excesivos, se opta por un modelo logit, cuyas salidas se presentan a continuación: LOGIT // Dependent Variable is FUENTE SMPL range: 1 100 Number of observations: 100 Convergence achieved after 4 iterations ======================================================================== VARIABLE COEFFICIENT STD. ERROR T-STAT. 2-TAIL SIG. ======================================================================== C -1.5747465 0.7789884 -2.0215277 0.0462 ALTOC 0.6740321 1.5122936 0.4457019 0.6569 ANTES 1.6300818 0.5205796 3.1312824 0.0023 TAMANO 0.3995130 0.1664400 2.4003422 0.0184 INGRESO 4.167E-05 2.439E-05 1.7084777 0.0910 RECHANT -0.4845424 0.5624051 -0.8615541 0.3912 RECHHOY -0.0992501 0.8994445 -0.1103459 0.9124 SANCION 0.3625645 1.1195969 0.3238349 0.7468 LUGAR 0.6280505 0.6559669 0.9574424 0.3409 ======================================================================== Log likelihood -47.708822 Cases with FUENTE = 1 71 Cases with FUENTE = 0 29 ======================================================================== LOGIT // Dependent Variable is FUENTE Date: 11-30-1997 / Time: 19:10 SMPL range: 1 100 Number of observations: 100 Convergence achieved after 2 iterations ======================================================================== VARIABLE COEFFICIENT STD. ERROR T-STAT. 2-TAIL SIG. ======================================================================== C 0.8953840 0.2203513 4.0634381 0.0001 ======================================================================== Log likelihood -60.215168 Cases with FUENTE = 1 71 Cases with FUENTE = 0 29 ======================================================================== PARTE B: b. 1) Estime la probabilidad de que una persona que no tuvo costos elevados de búsqueda, que utilizó la actual fuente de préstamo previamente, con un monto solicitado de crédito en una escala de 4, con $25000 de ingreso, sin antecedentes de rechazos previos ni actuales, sin temores a sanciones y viviendo en la ciudad del proveedor de crédito, haya seleccionado el crédito más barato. b. 2) Calcule una medida de bondad del modelo logit estimado. b. 3) Plantee la forma de la función de verosimilitud que está implícita en la estimación anterior e indique cuál serían, a su juicio, los más útiles valores iniciales a dar a los parámetros en la optimización de la misma. EJERCICIO 6 Se postula una relación teórica entre una variable y*: y* = β1 + β2.x2 + u. Al contrastarlo empíricamente, se sabe que la variable y* es censurada y, en realidad, se observa sólo sí es mayor o igual a cero. Por ello se opta por estimar un modelo tobit, para lo cual se observan 20 observaciones y se redefine el modelo teórico así: y = y* si y* ≥ 0 = 0 en otro caso Para estimar el modelo tobit se cuenta con la siguiente información: y x2 y x2 0 0 0 0 3.1348 3.508 0.8312 8.0064 0 0 1 2 3 4 5 6 7 8 9 10 3.9048 6.5144 5.9772 3.726 10.4124 16.9064 9.2968 7.8916 14.2164 2.9352 12 13 14 15 16 17 18 19 20 11 Al estimarlo se utiliza el software LIMDEP 7.0 del cual surgen las siguientes salidas: --> TOBIT;Lhs=Y;Rhs=ONE,X2$ +-----------------------------------------------------------------------+ | Limited Dependent Variable Model - CENSORED Regression | | Ordinary least squares regression Weighting variable = none | | Dep. var. = Y Mean= 4.863080000 , S.D.= 4.999494698 | | Model size: Observations = 20, Parameters = 2, Deg.Fr.= 18 | | Residuals: Sum of squares= 465.0228905 , Std.Dev.= 5.08278 | | Fit: R-squared= .020807, Adjusted R-squared = -.03359 | | Model test: F[ 1, 18] = .38, Prob value = .54403 | | Diagnostic: Log-L = -59.8423, Restricted(b=0) Log-L = -60.0526 | | LogAmemiyaPrCrt.= 3.347, Akaike Info. Crt.= 6.184 | +-----------------------------------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Constant 4.399890411 1.3611271 3.233 .0012 X2 .2988319928E-01 .48319808E-01 .618 .5363 15.500000 Normal exit from iterations. Exit status=0. +---------------------------------------------+ | Limited Dependent Variable Model - CENSORED | | Maximum Likelihood Estimates | | Dependent variable Y | | Weighting variable ONE | | Number of observations 20 | | Iterations completed 4 | | Log likelihood function -51.19597 | | Threshold values for the model: | | Lower= .0000 Upper=+infinity | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Primary Index Equation for Model Constant 2.773231770 1.8644910 1.487 .1369 X2 .5410185033E-01 .62094804E-01 .871 .3836 15.500000 Disturbance standard deviation Sigma 6.429371360 1.3031508 4.934 .0000 SE PIDE: 1) Analice la pertinencia de la utilización del modelo tobit como método de estimación de una variable dependiente censurada. 2) ¿Qué hubiera cambiado del análisis anterior si usáramos un modelo de variable dependiente truncada? 3) Analice las salidas de LIMDEP evaluando el modelo tobit y el modelo estimado por MCO. EJERCICIO 7 Se desean analizar los determinantes del ingreso per cápita de los hogares que se encuentran bajo la línea de pobreza en Uruguay. Para ello, se plantea el trabajo con una muestra de 350 hogares calificados previamente como "pobres". El modelo planteado es: yi = β0 + β1.X1i + β2.X2i + β3.X3i + β4.X4i + β5.X5i + ui donde: y = log del ingreso per cápita del hogar (yi > línea de pobreza) X1 = años de educación del jefe del hogar X2 = sexo del jefe del hogar (variable dummy 1=hombre, 0=mujer) X3 = variable dummy de actividad del jefe (1=ocupado, 0=no ocupado) X4 = cantidad de perceptores de ingreso en el hogar X5 = rama de actividad del jefe (1= servicios y comercio, 0= otras). SE PIDE: 1) Indicar si el método de los MCO es apropiado para encarar la estimación del modelo planteado. En caso de no serlo, describa el método más apropiado para proceder fundamentando la razón en un sentido u otro. 2) Suponiendo que se estimó el modelo utilizando el mejor método de estimación en función del punto 1) se obtuvo el siguiente modelo estimado: yi = 0.324 + 1,724.X1 + 1,836.X2 + 0,107.X3 + 0,987.X4 + 1,234.X5 (0.23) (4.21) (8.31) (7.32) (12.43) (3.92) (Wald entre paréntesis) ln L(β) = -2252.36 Además, si se supone β1 = β2 = β3 = β4 = β5 = 0 y se estima nuevamente el modelo anterior, se obtuvo que: ln L(β) = -3886.58 De acuerdo a lo anterior, indique -utilizando la prueba de hipótesis que Ud. juzgue adecuada- si el modelo estimado es o no significativo al 95%. 3) Plantee la forma de la función de verosimilitud a maximizar en el modelo en caso de estimarlo por el método de máxima verosimilitud realizando los supuestos que Ud. juzgue necesarios. EJERCICIO 8 A los efectos de estudiar los factores explicativos de las horas trabajadas de las mujeres en Montevideo, se estimaron varios modelos que se complementan (son resultados ficticios): 1) un modelo probit explicativo de la tasa de actividad de las mujeres en función de características individuales de las mujeres y del hogar de pertenencia. 2) Un modelo de regresión lineal explicativo de su salario (ecuación salarial en el sentido de Mincer) incorporando como variable explicativa el llamado “sesgo de selección”. 3) Un modelo tobit explicativo de las horas trabajadas de las mujeres en función de características individuales y del hogar de origen. 4) Finalmente se realizó, para el modelo tobit, la descomposición de McDonald y Moffit a los efectos de contar con mayor poder explicativo de los resultados obtenidos. Los resultados resumidos fueron: 1) Modelo Probit Variable explicada: Y (1: activa; 0: inactiva) Variables explicativas: Coeficiente Constante 0.0443 Edad -0.0268 Educación 0.4156 Estado Civil -0.0958 Jefe (1,0) 0.7039 Ingr.total Del hogar sin muj. -0.0010 Otros ingresos -0.0007 Niños de 0 a 2 -0.3193 Niños de 3 a 5 -0.1192 Niños de 6 a 12 -0.0480 Serv.doméstico 0.8281 Cant.de desocup. 0.3604 Cant.de preceptores 0.4824 Log likelihood: -1250.7 Número de observaciones: 2624 t 0.14 -5.71 11.29 -2.58 4.66 -6.12 -4.13 -5.22 -2.04 -1.41 3.33 4.68 14.47 2) Ecuación Salarial con sesgo de selección (λ) Variable explicativa: W (salario por hora) Variables explicativas: Coeficiente Constante -1.96625 Edad 0.00581 Edad al cuadrado -0.0251 Educación 0.34989 Ingr.Total del hogar Sin la mujer 0.0034 λ 0.18828 t -16.82 2.428 3.21 15.66 4.189 2.238 R2 corregido: 0.48 3) Modelo tobit Variable explicativa: HRS (horas trabajadas) Variables explativas: Coeficiente Constante -6.822 Edad -0.2008 Educación 2.1532 Estado Civil -1.6448 Jefe 15.3362 Ingr.total del Hogar sin mujer -0.02830 Niños de 0 a 2 -0.00185 Niños de 3 a 5 -2.25421 Niños de 6 a 12 -0.96392 Serv.doméstico 1.2372 Número desocupados -18.089 Número de preceptores 11.1137 Salario de Reserva (W) 16.05272 t -1.026 -1.778 1.453 -1.64 5.072 -4.641 -3.835 -1.546 -1.1513 3.35 -9.834 14.41 2.019 Varianza estimada σ2: 1022.4 Log likelihood: -8264 Número de observaciones: 2624 (El salario de reserva surge de imputarle un salario a las mujeres que no son activas de acuerdo al modelo 2. 4) Descomposición de McDonald y Moffit: Calculada en la media de las variables, el 45.6% del efecto total se debe a cambios en las variables por encima de cero, es decir de cambios en el conjunto de variables explicativas en las horas trabajadas, sabiendo que ectivamente son activas. SE PIDE: a) Comente los resultados de los modelos. b) Explicite la forma del sesgo de selección λ y su significado. c) Explicite los componentes de la descomposición de McDonald y Moffit y su significado. d) Indique cómo estimaría el modelo tobit por el método bietápico de Heckman. ¿Qué relación guarda con lo realizado anteriormente?