Regresión con Variables Instrumentales (VI) (SW Capítulo 10) Tres problemas a considerar: • Sesgo por omisión de variables (OV) no observadas (y, por tanto, no incluidas en la regresión) que están correlacionadas con X; • Sesgo por causalidad simultánea (CS); es decir, X causa a Y e Y causa a X; • Sesgo por errores en las variables (EV); es decir, medimos X con error. La regresión VI puede eliminar los anteriores sesgos. 10-1 El estimador VI con un único regresor y un único instrumento (SW Sección 10.1) Yi = β0 + β1Xi + ui • La regresión VI divide X en dos partes: una que puede estar correlacionada con u, y la otra que no. Aislando esta última, podremos estimar β1. • Para ello, utilizaremos una variable instrumental, Zi, no correlacionada con ui. • Para estimar β1, la VI detecta aquellos movimientos en Xi que no están correlacionados con ui. 10-2 Terminología: endogeneidad y exogeneidad Una variable es endógena si está correlacionada con u. Una variable es exógena si no lo está. Nota histórica: “Endógeno” significa literalmente “determinado dentro del sistema,” es decir, una variable que se determina conjuntamente con Y, o bien que está sujeta a CS. Sin embargo, nuestra definición es más general y la regresión IV puede utilizarse también en los casos OV y EV. 10-3 Dos condiciones para que un instrumento sea válido Yi = β0 + β1Xi + ui Para que un “instrumento” Z sea válido, debe satisfacer las dos siguientes condiciones: 1. relevante: corr(Zi,Xi) ≠ 0 2. exógeno: corr(Zi,ui) = 0 Supongamos que disponemos de un Zi (discutiremos posteriormente la forma de obtenerlo). ¿Cómo lo podemos utilizar para estimar β1? 10-4 El estimador VI: una X y una Z Explicación #1: Mínimos Cuadrados en Dos Etapas Como suena: MC2E tiene dos etapas – dos regresiones: (1) Primero se aísla la parte de X que no está correlacionada con u: regresión de X sobre Z por MCO Xi = π0 + π1Zi + vi (1) • Como Zi no está correlacionada con ui, π0 + π1Zi tampoco lo estará con ui. No conocemos π0 or π1 pero sabemos estimarlos. • Hallar las estimaciones de Xi, Xˆ i , donde Xˆ i = πˆ0 + πˆ1 Zi, i = 1,…,n. 10-5 (2) Reemplazar Xi por Xˆ i en la regresión de interés: regresión de Y sobre Xˆ i por MCO: Yi = β0 + β1 Xˆ i + ui (2) • Como Xˆ i no está correlacionada con ui en muestras grandes, el primero de los supuestos MCO se cumple. • Por tanto, β1 puede estimarse por MCO en (2) • Éste es un argumento de muestras grandes (es decir π0 y π1 estarán bien estimadas en (1)) • El estimador resultante es el MC2E, βˆ1MC 2 E . 10-6 MC2E (Continuación) Si disponemos de un instrumento válido, Zi, Etapa 1ª: Regresión de Xi sobre Zi, para obtener Xˆ i Etapa 2ª: Regresión de Yi sobre Xˆ i ; el coeficiente de Xˆ i es el MC2E, βˆ1MC 2 E . Entonces, βˆ1MC 2 E es consistente de β1. 10-7 El estimador VI: una X y una Z, (continuación). Explicación #2: (sólo) un poco de álgebra Yi = β0 + β1Xi + ui Entonces, cov(Yi,Zi) = cov(β0 + β1Xi + ui,Zi) = cov(β0,Zi) + cov(β1Xi,Zi) + cov(ui,Zi) = 0 + cov(β1Xi,Zi) + 0 = β1cov(Xi,Zi) donde cov(ui,Zi) = 0 (instrumento exógeno); por tanto cov(Yi , Z i ) β1 = cov( X i , Z i ) 10-8 El estimador VI: una X y una Z. (continuación) cov(Yi , Z i ) β1 = cov( X i , Z i ) El estimador VI reemplaza estas covarianzas poblacionales por las muestrales: sYZ MC 2 E ˆ = , β1 s XZ sYZ y sXZ son las covarianzas muestrales. Éste es el estimador MC2E – una derivación diferente. 10-9 Consistencia del estimador MC2E sYZ MC 2 E ˆ = β1 s XZ p Las covarianzas muestrales son consistentes: sYZ → p cov(Y,Z) y sXZ → cov(X,Z). Por tanto, βˆ MC 2 E 1 sYZ p cov(Y , Z ) = = β1 → cov( X , Z ) s XZ • La condición de relevancia del instrumento, cov(X,Z) ≠ 0, impide dividir por cero. 10-10 Ejemplo #2: Oferta y demanda de mantequilla La regresión IV tuvo su origen en la estimación de elasticidades de demanda de bienes agrícolas, por ejemplo la de la mantequilla: ln(Qimant ) = β0 + β1ln( Pi mant ) + ui • β1 = elasticidad precio de la mantequilla = cambio porcentual en la cantidad demandada debido a un cambio de un 1% en el precio. • Datos: observaciones sobre precio y cantidad de mantequilla consumida en distintos años • La regresión MCO de ln(Qimant ) sobre ln( Pi mant ) adolece de sesgo CS (¿por qué?) 10-11 La CS en la regresión MCO de ln(Qimant ) sobre ln( Pi mant ) se debe a que el precio y la cantidad vienen determinados por la interacción de la demanda y oferta 10-12 Esta interacción de demanda y oferta produce… ¿Podría una regresión utilizar estas observaciones para hallar la curva de demanda? 10-13 ¿Qué es lo que se obtendría si sólo la curva de oferta se desplazara? 10-14 • MC2E estima la curva de demanda aislando los cambios en el precio y cantidad que son consecuencia de desplazamientos en la curva de oferta. • Z es una variable que desplaza la oferta pero no la demanda. Sea Z = lluvia en regiones productoras de leche. ¿Es Z un instrumento válido? (1) ¿Exógeno? corr(lluviai,ui) = 0? Posiblemente: el que llueva o no en dichas regiones no debería afectar a la demanda (2) ¿Relevante? corr(lluviai,ln( Pi mant )) ≠ 0? Posiblemente: lluvia escasa significa menos pasto, y, por tanto, menos mantequilla 10-15 MC2E en el ejemplo de oferta y demanda ln(Qimant ) = β0 + β1ln( Pi mant ) + ui Zi = lluviai en regiones productoras de leche. Etapa 1: regresión de ln( Pi mant ) sobre lluvia; obtener ln( Pi mant ) ln( Pi mant ) aísla cambios del precio por el lado de la oferta Etapa 2: regresión de ln(Qimant ) sobre ln( Pi mant ) 10-16 Ejemplo #2: Número de alumnos y notas • Los resultados de las regresiones en el ejemplo de California podrían adolecer de sesgo OV (por ejemplo, ayuda de los padres en los estudios de sus hijos). • Este sesgo podría eliminarse mediante VI (MC2E). • La regresión requiere un instrumento válido,: (1) relevante: corr(Zi,STRi) ≠ 0 (2) exógeno: corr(Zi,ui) = 0 10-17 Ejemplo #2: Número de alumnos y notas (cont.) El siguiente podría ser un (hipotético) instrumento: • los distritos que han sido afectados por algún terremoto han tenido también un mayor número de alumnos: Zi = Terri = 1 si ha habido algún terremoto. • ¿Se cumplirían las dos condiciones de instrumentos válidos? • El comportamiento aleatorio de los terremotos implica que la variación en STR como consecuencia de uno de ellos es exógena. • Primera etapa: regresión de STR sobre Terr, aislando así la parte de STR que es exógena. 10-18 Inferencia con MC2E • En muestras grandes, la distribución muestral del estimador MC2E es normal • Inferencia (tests de hipótesis, intervalos de confianza) de la misma forma, e.g. ± 1.96SE • El estimador MC2E es – como los demás tratados hasta ahora – un promedio de variables i.i.d. con media cero, al que podemos aplicar el TCL. 10-19 sYZ MC 2 E ˆ = β1 s XZ 1 n (Yi − Y )( Z i − Z ) ∑ n − 1 i =1 = 1 n ( X i − X )( Z i − Z ) ∑ n − 1 i =1 Sustituir en Yi = β0 + β1Xi + ui y simplificar: Primero, Yi – Y = β1(Xi – X ) + (ui – u ) luego 1 n 1 n (Yi − Y )( Z i − Z ) = [ β1 ( X i − X ) + (u i − u )]( Z i − Z ) ∑ ∑ n − 1 i =1 n − 1 i =1 1 n 1 n ( X i − X )( Z i − Z ) + (ui − u )( Z i − Z ) . = β1 ∑ ∑ n − 1 i =1 n − 1 i =1 10-20 Por tanto βˆ1MC 2 E 1 n (Yi − Y )( Z i − Z ) ∑ n − 1 i =1 = 1 n ( X i − X )( Z i − Z ) ∑ n − 1 i =1 1 n 1 n ( X i − X )( Z i − Z ) + (ui − u )( Z i − Z ) β1 ∑ ∑ n − 1 i =1 n − 1 i =1 = 1 n ( X i − X )( Z i − Z ) ∑ n − 1 i =1 1 n (ui − u )( Z i − Z ) ∑ n − 1 i =1 = β1 + . n 1 ( X i − X )( Z i − Z ) ∑ n − 1 i =1 Restando β1 de ambos lados obtenemos, 10-21 βˆ1MC 2 E 1 n (ui − u )( Z i − Z ) ∑ n − 1 i =1 – β1 = 1 n ( X i − X )( Z i − Z ) ∑ n − 1 i =1 Multiplicando por n − 1 y utilizando la aproximación n −1 ≈ n, n ( βˆ1MC 2 E 1 n (ui − u )( Z i − Z ) ∑ – β1) ≈ nn i =1 1 ( X i − X )( Z i − Z ) ∑ n i =1 10-22 n ( βˆ1MC 2 E 1 n (ui − u )( Z i − Z ) ∑ – β1) ≈ nn i =1 1 ( X i − X )( Z i − Z ) ∑ n i =1 • Numerador: en muestras grandes, 1 n (ui − u )( Z i − Z ) ~ N(0,var[(Z–µZ)u]) ∑ n i =1 • Denominator: p 1 n ( X i − X )( Z i − Z ) → cov(X,Z) por LGN ∑ n i =1 donde cov(X,Z) ≠ 0 porque el instrumento es relevante 10-23 Consecuentemente: n ( βˆ1MC 2 E 1 n (ui − u )( Z i − Z ) ∑ – β1) ≈ nn i =1 1 ( X i − X )( Z i − Z ) ∑ n i =1 p 1 n ( X i − X )( Z i − Z ) → cov(X,Z) ∑ n i =1 1 n (ui − u )( Z i − Z ) ~ N(0,var[(Z–µZ)u]) ∑ n i =1 Finalmente, βˆ MC 2 E se distribuye aproximadamente 1 N(β1,σ β2ˆ TSLS 1 donde ), σ 2 βˆ1MC 2 E 1 var[( Z i − µZ )ui ] = . 2 n [cov( Z i , X i )] 10-24 Inferencia con MC2E (cont.) βˆ1MC 2 E se distribuye aprox. N(β1,σ β2ˆ MC 2 E ), 1 • Inferencia como siempre. • Justificación como siempre: muestras grandes. • Instrumentos válidos. • Nota importante sobre errores estándar: o Los errores estándar MCO de la 2ª etapa no son los correctos – no consideran que la primera etapa ha sido estimada ( Xˆ i ). o En su lugar, usaremos MC2E y los SEs correctos. o Como siempre, usaremos los SEs robustos a la heteroscedasticidad. 10-25 Digresión: Breve historia de IV • ¿Cuánto dinero se recaudaría mediante una tarifa de importación sobre aceites vegetales y animales (mantequilla, aceite de soja, linaza, etc.)? • Para calcularlo, necesitamos conocer las elasticidades de oferta y demanda, interior y exterior. • Este problema fue resuelto por primera vez en el apéndice B de Wright (1928), “The Tariff on Animal and Vegetable Oils.” 10-26 Gráfico 4, p. 296, Apéndice B (1928): 10-27 Philip Wright (1861-1934) Sewall Wright (1889-1988) economista y poeta famoso estadístico en Genética MA Harvard, Econ, 1887 ScD Harvard, Biology, 1915 Lect.r, Harvard, 1913-1917 Prof., U. Chicago, 1930-1954 10-28 Ejemplo: Demanda de Tabaco • ¿Cuánto reducirá un impuesto el consumo de tabaco? • Para ello, necesitaremos conocer su elasticidad de demanda; es decir, β1, en la regresión, ln(Qitabaco ) = β0 + β1ln( Pi tabaco ) + ui • ¿Estará sesgado el MCO? ¿Por qué o por qué no? 10-29 Ejemplo: Demanda de tabaco (cont.) ln(Qitabaco ) = β0 + β1ln( Pi tabaco ) + ui Datos de Panel: • Consumo anual de tabaco y precio medio (impuestos incluidos) • 48 estados de USA, 1985-1995 Propuesta VI: • Zi = Impuesto = SalesTaxi • ¿Es válido? (1) ¿Relevante? corr(SalesTaxi, ln( Pi tabaco )) ≠ 0? (2) ¿Exógeno? corr(SalesTaxi,ui) = 0? 10-30 Por ahora, sólo utilizaremos observaciones de 1995. Primera etapa: regresión MCO ln( Pi tabaco ) = 4.63 + .031SalesTaxi, n = 48 Segunda etapa: regresión MCO ln( Qitabaco ) = 9.72 – 1.08 ln( Pi tabaco ) , n = 48 Regresión combinada con errores estándar robustos a la heteroscedasticidad: ln( Qitabaco ) = 9.72 – 1.08 ln( Pi tabaco ) , n = 48 (1.53) (0.32) 10-31 STATA Ejemplo: Demanda de tabaco, Primera etapa Instrumento = Z = rtaxso = impuesto (real $/pack) X Z . reg lravgprs rtaxso if year==1995, r; Regression with robust standard errors Number of obs = F( 1, 46) = Prob > F = R-squared = Root MSE = 48 40.39 0.0000 0.4710 .09394 -----------------------------------------------------------------------------| Robust lravgprs | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------rtaxso | .0307289 .0048354 6.35 0.000 .0209956 .0404621 _cons | 4.616546 .0289177 159.64 0.000 4.558338 4.674755 -----------------------------------------------------------------------------X-hat . predict lravphat; Now we have the predicted values from the 1st stage 10-32 Segunda etapa Y X-hat . reg lpackpc lravphat if year==1995, r; Regression with robust standard errors Number of obs = F( 1, 46) = Prob > F = R-squared = Root MSE = 48 10.54 0.0022 0.1525 .22645 -----------------------------------------------------------------------------| Robust lpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------lravphat | -1.083586 .3336949 -3.25 0.002 -1.755279 -.4118932 _cons | 9.719875 1.597119 6.09 0.000 6.505042 12.93471 ------------------------------------------------------------------------------ • Éstas son las estimaciones MC2E • Los errores estándar no son los correctos porque ignoran el hecho de que la primera etapa fue estimada 10-33 Regresión combinada: Y X Z . ivreg lpackpc (lravgprs = rtaxso) if year==1995, r; IV (2SLS) regression with robust standard errors Number of obs = F( 1, 46) = Prob > F = R-squared = Root MSE = 48 11.54 0.0014 0.4011 .19035 -----------------------------------------------------------------------------| Robust lpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------lravgprs | -1.083587 .3189183 -3.40 0.001 -1.725536 -.4416373 _cons | 9.719876 1.528322 6.36 0.000 6.643525 12.79623 -----------------------------------------------------------------------------Instrumented: lravgprs This is the endogenous regressor Instruments: rtaxso This is the instrumental varible -----------------------------------------------------------------------------OK, the change in the SEs was small this time...but not always! ln( Qitabaco ) = 9.72 – 1.08 ln( Pi tabaco ) , n = 48 (1.53) (0.32) 10-34 Resumen de la regresión VI con únicos X y Z • Un instrumento válido Z debe satisfacer dos condiciones: (1) relevancia: corr(Zi,Xi) ≠ 0 (2) exogeneidad: corr(Zi,ui) = 0 • MC2E: regresión de X sobre Z para obtener X̂ , y luego de Y sobre X̂ . • La idea más importante es que en la primera regresión se aísla la parte de la variación de X que no está correlacionada con u • Si el instrumento es válido, la distribución en muestras grandes del MC2E será normal. 10-35 El modelo general de regresión VI (SW Sección 10.2) • Hasta ahora hemos considerado la regresión VI con un único regresor endógeno (X) y un únco instrumento (Z). • Ahora extenderemos el modelo a: o múltiples regresores endógenos (X1,…,Xk) o múltiples variables exógenas (W1,…,Wr) o múltiples instrumentos (Z1,…,Zm) Más instrumentos pueden producir menor varianza en MC2E: el R2 de la primera etapa aumenta, es decir mayor variación en X̂ . 10-36 Ejemplo: Demanda de tabaco • Otro determinante de la demanda de tabaco es la renta; su omisión resultará en sesgo por OV. • demanda con una X, una W, y 2 Z’s: ln(Qitabaco ) = β0 + β1ln( Pi tabaco ) + β2ln(Rentai) + ui Z1i = impuestos generales Z2i = impuesto específico sobre el tabaco • Otras W’s podrían ser los efectos del Estado y/o Año (con datos de panel…) 10-37 El modelo general de regresión VI: notación Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui • Yi es la variable dependiente • X1i,…, Xki son regresores endógenos (potencialmente correlacionados con ui) • W1i,…,Wri son regresores exógenos incluidos or (no correlacionados con ui) • β0, β1,…, βk+r son los coeficientes desconocidos • Z1i,…,Zmi son m instrumentos (variables exógenas excluidas) 10-38 El modelo general de regression VI (cont.) Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui • Terminología: identificación y sobreidentificación • MC2E con variables exógenas incluidas o un regresor endógeno o múltiples regresores endógenos • Supuestos: o instrumentos válidos (relevancia y exogeneidad) o supuestos generales de la regresión VI 10-39 Identificación • En general, un parámetro está identificado si diferentes valores del parámetro dan lugar a diferentes distribuciones de las observaciones. • En la regresión VI, el que los coeficientes estén identificados depende del número de instrumentos (m) y el de regresores endógenos (k) • Intuitivamente, si hay menos instrumentos que regresores endógenos, no podremos estimar β1,…,βk • Por ejemplo, k = 1 y m = 0 (ningún instrumento)! 10-40 Identificación (cont.) Los coeficientes β1,…,βk están • exactamente identificados si m = k. • overidentified if m > k. Hay más instrumentos de los necesarios para estimar β1,…,βk. Podremos, sin embargo, contrastar la validez de ellos mediante tests de sobreidentificación • no identificados si m < k. No hay un número suficiente de instrumentos para estimar β1,…,βk. Si es así, necesitaremos buscar más instrumentos! 10-41 Regresión general VI: MC2E, 1 regresor endógeno Yi = β0 + β1X1i + β2W1i + … + β1+rWri + ui • Instrumentos: Z1i,…,Zm • Primera etapa o Regresión de X1 sobre todos los regresores exógenos: X1 sobre W1,…,Wr,Z1,…,Zm por MCO o Hallar Xˆ 1i , i = 1,…,n • Segunda etapa o Regresión de Y sobre X̂ 1,W1,…,Wr por MCO o Los coeficientes de esta segunda etapa son MC2E, pero SEs son incorrectos • Para obtener los SEs correctos, hágalo en un solo paso 10-42 Ejemplo: Demanda de tabaco ln(Qitabaco ) = β0 + β1ln( Pi tabaco ) + β2ln(Rentai) + ui Z1i = impuesto generali Z2i = impuesto específicoi • Regresor endógeno: ln( Pi tabaco ) (“una X”) • Regresor exógeno incluido: ln(Rentai) (“una W”) • Instrumentos (variables exógenas excluidas): impuestos general y específico (“dos Zs”) • ¿Está la elasticidad de demanda β1 sobre-, exactamente o no identificada? 10-43 Ejemplo: Demanda de tabaco, un instrumento Y W X Z . ivreg lpackpc lperinc (lravgprs = rtaxso) if year==1995, r; IV (2SLS) regression with robust standard errors Number of obs = F( 2, 45) = Prob > F = R-squared = Root MSE = 48 8.19 0.0009 0.4189 .18957 -----------------------------------------------------------------------------| Robust lpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------lravgprs | -1.143375 .3723025 -3.07 0.004 -1.893231 -.3935191 lperinc | .214515 .3117467 0.69 0.495 -.413375 .842405 _cons | 9.430658 1.259392 7.49 0.000 6.894112 11.9672 -----------------------------------------------------------------------------Instrumented: lravgprs Instruments: lperinc rtaxso STATA lists ALL the exogenous regressors as instruments – slightly different terminology than we have been using ------------------------------------------------------------------------------ • Un sólo comando da los SEs correctos • Usar , r para los SEs robustos a la heteroscedasticidad 10-44 Ejemplo: Demanda de tabaco, dos instrumentos Y W X Z1 Z2 . ivreg lpackpc lperinc (lravgprs = rtaxso rtax) if year==1995, r; IV (2SLS) regression with robust standard errors Number of obs = F( 2, 45) = Prob > F = R-squared = Root MSE = 48 16.17 0.0000 0.4294 .18786 -----------------------------------------------------------------------------| Robust lpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------lravgprs | -1.277424 .2496099 -5.12 0.000 -1.780164 -.7746837 lperinc | .2804045 .2538894 1.10 0.275 -.230955 .7917641 _cons | 9.894955 .9592169 10.32 0.000 7.962993 11.82692 -----------------------------------------------------------------------------Instrumented: lravgprs Instruments: lperinc rtaxso rtax STATA lists ALL the exogenous regressors as “instruments” – slightly different terminology than we have been using ------------------------------------------------------------------------------ 10-45 MC2E, Z = impuesto (m = 1) ln( Qitabaco ) = 9.43 – 1.14 ln( Pi tabaco ) + 0.21ln(Rentai) (1.26) (0.37) (0.31) MC2E, Z = impuestos general y específico (m = 2) ln( Qitabaco ) = 9.89 – 1.28 ln( Pi tabaco ) + 0.28ln(Rentai) (0.96) (0.25) (0.25) • Menores SEs con m = 2. Utilizando 2 instrumentos es más informativo– mayor variación aleatoria. • Baja elasticidad renta (no es un bien de lujo); no es significativamente distinta de cero • Sorprendentemente alta elasticidad precio 10-46 Regresión general VI: MC2E con múltiples regresores endógenos Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui • Instrumentos: Z1i,…,Zm • Ahora hay k regresiones en primera etapa: o X1 sobre W1,…, Wr, Z1,…, Zm por MCO o Hallar Xˆ 1i , i = 1,…,n o X2 sobre W1,…, Wr, Z1,…, Zm por MCO o Hallar Xˆ 2i , i = 1,…,n o Repetir con todas las X’s y obtener Xˆ 1i , Xˆ 2i ,…, Xˆ ki 10-47 MC2E con múltiples regresores endógenos (cont.) • Segunda etapa o Y sobre Xˆ 1i , Xˆ 2i ,…, Xˆ ki , W1,…, Wr por MCO o Los coeficientes de esta segunda etapa son MC2E, pero sus SEs son incorrectos • Para obtener los SEs correctos, hágalo en un sólo paso • ¿Qué sucedería en la segunda etapa si los coeficientes no estuviesen identificados ( #instrumentos < #variables endógenas);por ejemplo, k = 2, m = 1? 10-48 Distribución muestral de MC2E en el modelo de regresión general VI • Significado de instrumento “válido” en el caso general • Supuestos • Implicaciones: si se cumplen los supuestos, entonces MC2E se distribuye normal, y la inferencia (contrastes e intervalos de confianza) se lleva a cabo como siempre 10-49 Conjunto de instrumentos “válidos” en el caso general El conjunto debe ser relevante y exógeno: 1. Relevancia: Caso especial de una X Al menos uno de los instrumentos debe ser significativo en la primera etapa. 2. Exogeneidad Ninguno debe estar correlacionado con u: corr(Z1i,ui) = 0,…, corr(Zm,ui) = 0 10-50 Instrumentos “Válidos” en el caso general (cont.) (1) Condición general de relevancia: • Múltiples X’s Supongamos que la segunda etapa pudiera utilizar los valores de predicción de la primera etapa poblacional. Entonces, no habría multicolinealidad. • Caso especial de una X Al menos uno de los instrumentos debe ser significativo en la primera etapa. 10-51 Supuestos Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui 1. E(ui|W1i,…,Wri) = 0 2. (Yi,X1i,…,Xki,W1i,…,Wri,Z1i,…,Zmi) son i.i.d. 3. Las X’s, W’s, Z’s, e Y poseen momentos finitos de cuarto orden no nulos. 4. Las W’s no son perfectamente multicolineales. 5. Los (Z1i,…,Zmi) satisfacen las condiciones de validez. • #1 dice “los regresores exógenos son exógenos.” • #2 – #4 no son nuevos; hemos discutido #5. 10-52 Implicaciones: Distribución muestral de MC2E • Si los supuestos se cumplen, entonces MC2E se distribuye normal en grandes muestras. • Inferencia (contrastación, intervalos de confianzas) se lleva a cabo como siempre. • Dos notas sobre los errores estándar: o Los SEs de la segunda etapa son incorrectos porque no tienen en cuenta que la primera etapa ha sido estimada; para obtener los correctos, deberá llevarse a cabo la regresión con un único comando. o Utilizar SEs robustos. 10-53 Comprobación de la validez (SW Sección 10.3) Recuérdese que los dos requisitos para que un instrumento sea válido son: 1. Relevancia (caso especial de una X) Al menos uno de los instrumentos debe ser significativo en la primera etapa. 2. Exogeneidad Ningún instrumento debe estar correlacionado con el término de error: corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0 10-54 Comprobar el Supuesto #1: Relevancia En el caso de un único regresor endógeno incluido, Yi = β0 + β1Xi + β2W1i + … + β1+rWri + ui Primera etapa: Xi = π0 + π1Z1i +…+ πmiZmi + πm+1iW1i +…+ πm+kiWki + ui • Los instrumentos serán relevantes si al menos uno de los π1,…,πm es no nulo. • Los instrumentos serán débiles si todos los π1,…,πm son nulos o cercanos a cero. • Instrumentos débiles explican muy poco de la variación en X, más allá de la ya explicada por W’s 10-55 ¿Qué consecuencias tienen los instrumentos débiles? Considerar el caso más simple: Yi = β0 + β1Xi + ui Xi = π0 + π1Zi + ui sYZ MC 2 E ˆ • β1 = s XZ • Si cov(X,Z) es cero o cercana a cero, sXZ sera pequeña. • En este caso, la distribución muestral de βˆ1MC 2 E (y su estadístico t) no estará bien aproximado por una normal… 10-56 Ejemplo: Distribución de MC2E - t con instrumentos débiles Línea oscura = instrumentos irrelevantes Línea punteada = instrumentos fuertes 10-57 ¿Por qué falla la aproximación normal? sYZ MC 2 E ˆ = β1 s XZ • Si cov(X,Z) es baja, pequeños cambios en sXZ (de una muestra a otra) producirán grandes cambios en βˆ1MC 2 E • Supongamos que en una muestra sXZ = .00001! • Entonces, la normal no será una buena aproximación a la distribución muestral de βˆ1MC 2 E • Una aproximación mejor es que βˆ1MC 2 E se distribuya como un cociente de dos normales correlacionadas (véase SW Ap. 10.4) • Si los instrumentos son débiles, no deberemos confiar en los métodos tradicionales de inferencia. 10-58 Cómo medir en la práctica la fortaleza de un instrumento: El estadístico F de la 1ª etapa • Primera etapa (una X): Regresión de X sobre Z1,..,Zm,W1,…,Wk. • Instrumentos totalmente irrelevantes ⇔ todos los coeficientes de Z1,…,Zm, son cero. • El estadístico F de la 1ª etapa contrasta la hipótesis de que Z1,…,Zm no entre en la primera regresión. • Instrumentos débiles implican un valor pequeño de F. 10-59 Comprobar instrumentos débiles con una única X • Hallar F de la primera etapa Consejo: Si F es menos de 10, considerar que el conjunto de instrumentos es débil. • En este caso, MC2E estará sesgado, y desconfiaremos de la inferencia (errores estándar, contrastes, intervalos de confianza). • Nótese que no es suficiente rechazar simplemente que los coeficientes de Z sean cero – necesitaremos además un contenido predictivo sustancial para considerar a la normal una buena aproximación. 10-60 ¿Qué hacemos si nuestros instrumentos son débiles? • Buscarlos mejores (!) • Si disponemos de muchos, algunos serán más débiles que otros y sera una Buena idea eliminar los más débiles (lo que aumentará el F de 1ª etapa) • Utilizar un estimador VI distinto de MC2E o Hay muchos estimadores VI cuando los coeficientes están sobreidentificados. o Máxima Verosimilitud con Información Limitada (LIML) se ve menos afectada con instrumentos débiles. 10-61 Comprobación del Supuesto #2: Exogeneidad • Exogeneidad: Ningún instrumento estará correlacionado con el término de error: corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0 • En otro caso, la 1ª etapa de MC2E no aislará convenientemente el componente de X incorrelacionado con u, y X̂ estará correlacionada con u y MC2E será inconsistente. • Si se dispone de más instrumentos que regresores endógenos, será posible contrastar – parcialmente – la exogeneidad de los instrumentos. 10-62 Contraste de sobreidentificación Considerar el caso más simple: Yi = β0 + β1Xi + ui, • Disponemos de 2 instrumentos válidos: Z1i, Z2i • Llevar a cabo 2 regresiones separadas MC2E. • Si las estimaciones MC2E son muy distintas, entonces algo debe estar mal: uno u otro (o los dos) deben ser inválidos. • El contraste J de sobreidentificación hace esta comparación de forma precisa cuando #Z’s > #X’s 10-63 Supongamos que #instruments = m > # X’s = k Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui Contraste J 1. Estimar la ecuación mediante MC2E utilizando los m instrumentos; hallar Yˆi , utilizando el valor observado de X’s (no las X̂ ’s de la 2ª etapa) 2. Hallar los residuos uˆi = Yi – Yˆi 3. Regresión de uˆi sobre Z1i,…,Zmi, W1i,…,Wri 4. Hallar F del contraste de la hipótesis de que todos los coeficientes de Z1i,…,Zmi son cero; 5. Estadístico J es J = mF 10-64 J = mF, donde F es el del contraste de significación conjunta de los coeficientes de Z1i,…,Zmi en la regresión de los residuos MC2E sobre Z1i,…,Zmi, W1i,…,Wri. Distribución del estadístico J • Bajo la nula de que todos los instrumentos son exógenos, J se distribuye como una chi-cuadrado con m–k grados de libertad • If m = k, J = 0 (¿tiene sentido?) • Si algunos instrumentos son exógenos y otros no, J será grande, y la nula rechazada. 10-65 Aplicación a la demanda de tabaco (SW Sección 10.4) ¿Por qué estamos interesados en conocer la elasticidad de la demanda de tabaco? • Teoría de la imposición óptima: el impuesto óptimo está relacionado inversamente con dicha elasticidad. • Externalidades: o Fumadores pasivos o Externalidades monetarias 10-66 Datos de Panel • Consumo anual de tabaco, precio medio (impuestos incluidos), renta personal • 48 estados USA, 1985-1995 Estrategia de estimación • Datos de panel nos permite controlar el efecto “estado” no observable que entra en la demanda de tabaco, en tanto en cuanto no varía con el tiempo. • Pero todavía necesitamos VI para eliminar el sesgo CS de la interacción entre la oferta y demanda. 10-67 Modelo de Efectos Fijos (EF) ln(Qittabaco ) = αi + β1ln( Pittabaco ) + β2ln(Rentait) + uit • i = 1,…,48, t = 1985, 1986,…,1995 • αi recoge factores omitidos no observables que varían con los estados pero no con el tiempo; e.g. actitud en relación con fumar • corr(ln( Pittabaco ),uit) puede ser no nula debido a las interacciones entre la oferta y demanda • Estrategia de estimación: o Eliminar αi o MC2E contra el sesgo CS. 10-68 Regresión con datos de panel: dos enfoques (a) El método de los “n-1 indicadores binarios” (b) El método de los “cambios” (cuando T=2) (a) Método de los “n-1 indicadores binarios” Escribir ln(Qittabaco ) = αi + β1ln( Pittabaco ) + β2ln(Rentait) + uit como ln(Qittabaco ) = β0 + β1ln( Pittabaco ) + β2ln(Rentait) + γ2D2it + … + γ48D48it + uit Instrumentos: Z1it = impuesto generalit Z2it = impuesto específicoit 10-69 Éste es el modelo general VI: ln(Qittabaco ) = β0 + β1ln( Pittabaco ) + β2ln(Rentait) + γ2D2it + … + γ48D48it + uit • X (regresor endógeno) = ln( Pittabaco ) • 48 W’s (regresores exógenous incluidos) = ln(Rentait), D2it,…, D48it • Dos instrumentos = Z1it, Z2it • Estimar el modelo complete por MC2E! • ¿Cómo introducir efectos retardados? (respuesta dinámica) – se necesita tiempo para dejar de fumar 10-70 (b) Método de los “cambios” (cuando T=2) • Una forma de estudiar la dinámica es la consideración de cambios en 10 años, entre 1985 y 1995 • Escribir la regression en la forma de “cambios”: tabaco ln(Qitabaco ) – ln( Q 1995 i1985 ) tabaco tabaco = β1[ln( Pi1995 ) – ln( Pi1985 )] +β2[ln(Rentai1995) – ln(Rentai1985)] + (ui1995 – ui1985) • Variables de “cambio a 10 años”, por ejemplo: Cambio a 10 años en log-precio = ln(Pi1995) – ln(Pi1985) • Estimar la elasticidad de demanda por MC2E utilizando cambios a 10 años en los instrumentos • Seguiremos este enfoque 10-71 STATA: Demanda de tabaco Primero creamos “variables a 10 años” Cambio a 10 años en log-precio = ln(Pit) – ln(Pit–10) = ln(Pit/Pit–10) . . . . . . gen gen gen gen gen gen dlpackpc = log(packpc/packpc[_n-10]); dlavgprs = log(avgprs/avgprs[_n-10]); dlperinc = log(perinc/perinc[_n-10]); drtaxs = rtaxs-rtaxs[_n-10]; drtax = rtax-rtax[_n-10]; drtaxso = rtaxso-rtaxso[_n-10]; _n-10 is the 10-yr lagged value 10-72 Elasticidad de demanda por MC2E utilizando variables de “cambios a 10 años” Y W X Z . ivreg dlpackpc dlperinc (dlavgprs = drtaxso) , r; IV (2SLS) regression with robust standard errors Number of obs = F( 2, 45) = Prob > F = R-squared = Root MSE = 48 12.31 0.0001 0.5499 .09092 -----------------------------------------------------------------------------| Robust dlpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------dlavgprs | -.9380143 .2075022 -4.52 0.000 -1.355945 -.5200834 dlperinc | .5259693 .3394942 1.55 0.128 -.1578071 1.209746 _cons | .2085492 .1302294 1.60 0.116 -.0537463 .4708446 -----------------------------------------------------------------------------Instrumented: dlavgprs Instruments: dlperinc drtaxso -----------------------------------------------------------------------------NOTE: - All the variables – Y, X, W, and Z’s – are in 10-year changes - Estimated elasticity = –.94 (SE = .21) – surprisingly elastic! - Income elasticity small, not statistically different from zero - Must check whether the instrument is relevant… 10-73 Comprobación de la relevancia: F de 1ª etapa . reg dlavgprs drtaxso dlperinc , r; Regression with robust standard errors Number of obs = F( 2, 45) = Prob > F = R-squared = Root MSE = 48 16.84 0.0000 0.5146 .06334 -----------------------------------------------------------------------------| Robust dlavgprs | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------drtaxso | .0254611 .0043876 5.80 0.000 .016624 .0342982 dlperinc | -.2241037 .2188815 -1.02 0.311 -.6649536 .2167463 _cons | .5321948 .0295315 18.02 0.000 .4727153 .5916742 -----------------------------------------------------------------------------. test drtaxso; ( 1) drtaxso = 0 F( 1, We didn’t need to run “test” here because with m=1 instrument, the F-statistic is the square of the t-statistic, that is, 5.80*5.80 = 33.67 45) = 33.67 Prob > F = 0.0000 First stage F = 33.7 > 10 so instrument is not weak ¿Podemos comprobar la exogeneidad? No…m = k 10-74 Dos instrumentos (impuestos general y específico) . ivreg dlpackpc dlperinc (dlavgprs = drtaxso drtax) , r; IV (2SLS) regression with robust standard errors Number of obs = F( 2, 45) = Prob > F = R-squared = Root MSE = 48 21.30 0.0000 0.5466 .09125 -----------------------------------------------------------------------------| Robust dlpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------dlavgprs | -1.202403 .1969433 -6.11 0.000 -1.599068 -.8057392 dlperinc | .4620299 .3093405 1.49 0.142 -.1610138 1.085074 _cons | .3665388 .1219126 3.01 0.004 .1209942 .6120834 -----------------------------------------------------------------------------Instrumented: dlavgprs Instruments: dlperinc drtaxso drtax -----------------------------------------------------------------------------drtaxso = general sales tax only drtax = cigarette-specific tax only Estimated elasticity is -1.2, even more elastic than using general sales tax only Con m>k, podemos contrastar sobreidentificación 10-75 Contraste de sobreidentificación . . predict e, resid; Computes predicted values for most recently estimated regression (the previous TSLS regression) reg e drtaxso drtax dlperinc; Regress e on Z’s and W’s Source | SS df MS -------------+-----------------------------Model | .037769176 3 .012589725 Residual | .336952289 44 .007658007 -------------+-----------------------------Total | .374721465 47 .007972797 Number of obs F( 3, 44) Prob > F R-squared Adj R-squared Root MSE = = = = = = 48 1.64 0.1929 0.1008 0.0395 .08751 -----------------------------------------------------------------------------e | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------drtaxso | .0127669 .0061587 2.07 0.044 .000355 .0251789 drtax | -.0038077 .0021179 -1.80 0.079 -.008076 .0004607 dlperinc | -.0934062 .2978459 -0.31 0.755 -.6936752 .5068627 _cons | .002939 .0446131 0.07 0.948 -.0869728 .0928509 -----------------------------------------------------------------------------. test drtaxso drtax; ( 1) ( 2) drtaxso = 0 drtax = 0 F( 2, 44) = Prob > F = Compute J-statistic, which is m*F, where F tests whether coefficients on the instruments are zero 2.47 0.0966 so J = 2 × 2.47 = 4.93 ** WARNING – this uses the wrong d.f. ** 10-76 Los grados de libertad del estadístico J son m–k: • J = mF, donde F es el F del contraste de significación conjunta de los coeficientes de Z1i,…,Zmi en la regresión de los residuos MC2E sobre Z1i,…,Zmi, W1i,…,Wmi. • Bajo la nula de que todos los instrumentos son exogenous,, J se distribuye chi-cuadrado con m–k gradops de libertad • Aquí, J = 4.93, distribuido chi-cuadrado con g.l. = 1; el valor crítico al 5% es 3.84; por tanto, rechazamos al 5% de nivel de significación. . dis "J-stat = " r(df)*r(F) " p-value = " J-stat = 4.9319853 p-value = .02636401 J = 2 × 2.47 = 4.93 chiprob(r(df)-1,r(df)*r(F)); p-value from chi-squared(1) distribution 10-77 Comprobar relevancia: F de 1ª etapa . X Z1 Z2 W reg dlavgprs drtaxso drtax dlperinc , r; Regression with robust standard errors Number of obs = F( 3, 44) = Prob > F = R-squared = Root MSE = 48 66.68 0.0000 0.7779 .04333 -----------------------------------------------------------------------------| Robust dlavgprs | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------drtaxso | .013457 .0031405 4.28 0.000 .0071277 .0197863 drtax | .0075734 .0008859 8.55 0.000 .0057879 .0093588 dlperinc | -.0289943 .1242309 -0.23 0.817 -.2793654 .2213767 _cons | .4919733 .0183233 26.85 0.000 .4550451 .5289015 -----------------------------------------------------------------------------. test drtaxso drtax; ( 1) ( 2) drtaxso = 0 drtax = 0 F( 2, 44) = Prob > F = 88.62 0.0000 88.62 > 10 so instruments aren’t weak 10-78 Resumen de los resultados: 10-79 ¿Cómo debe interpretarse el rechazo por J? • J rechaza el que ambos instrumentos sean exógenos • O bien rtaxso is endógena, o bien lo es rtax, o ambas • ¡J no nos dice cuál! ¡debemos pensar! • ¿Por qué rtax (específico) debería ser endógena? o Por presión social, la imposición sobre el tabaco ha sido tradicionalmente baja o En este caso, el impuesto específico sobre el tabaco sería endógeno • Este razonamiento no es aplicable a una imposición general • ⇒ utilizar un único instrumento: el impuesto general 10-80 La demanda de tabaco: Resumen de los resultados empíricos • Utilizar la elasticidad estimada por MC2E con el impuesto general como único instrumento: Elasticity = -.94, SE = .21 • Esta elasticidad es sorprendentemente elástica. – un incremento del 1% en el precio reduce las ventas en cerca de un 1%. • Ésta es una elasticidad de largo plazo (cambio a 10 años). ¿Como esperaría Vd. que fuese la elasticidad de corto plazo (cambio a 1 año)? – ¿más o menos elástica? 10-81 ¿Qué problemas quedan por resolver que afecten a la validez interna del modelo? • ¿Sesgo OV? o El estimador con datos de panel probablemente sea el correcto • ¿Especificación inadecuada de la forma funcional del modelo? o Hmmm…deberíamos comprobarlo… o Una cuestión relacionada sería la distinta interpretación de la elasticidad según el cambio sea a 10 años (largo plazo) o a 1 año (corto plazo) 10-82 • ¿Sesgo CS o No si el impuesto general es un instrumento válido: ¿relevancia? ¿exogeneidad? • ¿Sesgo EV? ¿Estamos midiendo correctamente el precio? ¿Qué hay del contrabando? • ¿Sesgo de selección? (no, disponemos de observaciones sobre todos los estados) 10-83 ¿De dónde proceden los instrumentos válidos? (SW Sección 10.5) • Instrumentos válidos son (1) relevantes y (2) exógenos • Una forma general de encontrar instrumentos válidos es buscando variación exógena que afecte a X – variación “como si” fuese generada aleatoriamente. o La lluvia desplaza la curva de oferta de mantequilla pero no la de demanda; lluvia “como si” fuese aleatoriamente asignada o Los impuestos desplazan la curva de oferta de tabaco pero no la de demanda; impuestos “como si” fuesen aleatoriamente asignados 10-84 Ejemplo: Cateterización cardiaca (CC) ¿Mejora la longevidad de los pacientes que han sufrido algún ataque al corazón el haber recibido CC? Yi = tiempo de supervivencia (en días) Xi = 1 si el paciente recibe CC, = 0 si el paciente no la recibe • Historiales clínicos han demostrado que CardCath afecta SurvivalDays. • ¿Pero es el tratamiento realmente efectivo? SurvivalDaysi = β0 + β1CardCathi + ui • ¿Es MCO insesgado? La decisión de utilizar CC es endógena – sólo se administra a aquellos pacientes que, por lo demás, se encuentran en buen estado de salud 10-85 • Si sólo aquellos pacientes con mejor estado de salud reciben CC, MCO adolecerá de sesgo CS, y estimará al alza el efecto CC • Instrumento propuesto: distancia al hospital CC más cercano • Z = distancia al hospital CC o ¿Relevante? Si el hospital CC está muy alejado, el paciente no será trasladado allí y no recibirá CC o ¿Exógena? Si la distancia afecta a SurvivalDays sólo a través de CardCathi, entonces corr(distancia,ui) = 0 y, por tanto, será exógena 10-86 o Si la localización del paciente es aleatoria, entonces la distancia estará asignada “como si” fuese aleatoriamente. o La 1ª etapa es un modelo de probabilidad lineal: la distancia afecta a la probabilidad de recibir el tratamiento • Resultados (McClellan, McNeil, Newhous, JAMA, 1994): o MCO significativo y gran efecto CC o MC2E no significativo y pequeño efecto CC 10-87 Resumen: Regresión VI (SW Sección 10.6) • Un instrumento válido nos permite aislar la parte de X no correlacionada con u, y utilizarla para estimar el efecto de un cambio en X sobre Y • La regresión VI está basada en instrumentos válidos: (1) Relevancia: comprobar F de la 1ª etapa (2) Exogeneidad: Contrastar sobreidentificación via J • Un instrumento válido aísla la variación en X “como si” fuese aleatoriamente asignada. • El requisito de al menos m instrumentos válidos no puede ser contrastado – Debe Vd. Utilizar su cabeza. 10-88