Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Econometrı́a Grado en Finanzas y Contabilidad Helena Veiga Apuntes basados en el libro ”Introduction to Econometrics: A modern Approach” de Wooldridge Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad 5.1 Causas de la endogeneidad 5.2 Estimadores de Variables Instrumentales 5.3 Contrastes de endogeneidad Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad La endogeneidad aparece si en el modelo de regresión múltiple : y = β0 + β1 x1 + β2 x2 + β3 x3 + ... + βk xk + u, los regresores están correlados con el error, es decir, si: E (xj u) 6= 0 para algunos xj . Hay tres situaciones principales en que esto puede suceder: caso 1 No incluimos en el modelo una variable independiente importante; caso 2 Las variables independientes se observan con error; caso 3 Tenemos un sistema de varias ecuaciones de regresión simultáneas. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad caso 1: Omisión de un regresor importante Supongamos que omitimos una variable que deberı́a estar en el modelo verdadero (o poblacional). Este es un problema de mala especificación (subespecificación en este caso) del modelo, que causa que los estimadores de OLS sean sesgados e inconsistentes. La obtención del sesgo cuando se omite una variable importante es un ejemplo de análisis de la mala especificación. Para empezar, veamos el caso en que el modelo poblacional verdadero tiene dos variables explicativas: y = β0 + β1 x1 + β2 x2 + u Helena Veiga Capı́tulo 5: Regresores Endógenos (1) Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Suponemos que este modelo cumple las hipótesis clásicas y que nos interesa principalmente β1 , el efecto parcial de x1 sobre y . Por ejemplo, y puede ser el salario por hora (o su logaritmo), x1 la educación, y x2 una medida de la capacidad innata del individuo. Para obtener un estimador insesgado de β1 , tendrı́amos que calcular la regresión de y sobre x1 y x2 (esto nos darı́a estimadores insesgados de todos los parámetros). Sin embargo, sea por ignorancia o porque no disponemos de datos, estimamos el modelo excluyendo a x2 , es decir: ỹ = β̃0 + β̃1 x1 . Usamos el sı́mbolo ˜ en lugar de ˆ para hacer hincapié en que β̃1 se obtiene a partir de un modelo mal especificado. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Obtendremos el valor esperado de β̃1 , condicionado a los valores muestrales de x1 y x2 . El cálculo de esta esperanza no es difı́cil, porque β̃1 es el estimador de OLS de una pendiente. Lo importante es que estudiamos sus propiedades cuando el modelo de regresión está mal specificado porque hemos omitido una variable. Pn (x1i − x̄1 )yi β̃1 = Pin 2 i (x1i − x̄1 ) El siguiente paso es el mas importante. Como (1) es el modelo verdadero, podemos escribir yi = β0 + β1 x1i + β2 x2i + ui . Despues de algunos cálculos y tras tomar esperanza condicionada a los valores de las variables independientes obtenemos Pn (x1i − x̄1 )x2i E (β̃1 ) = β1 + β2 Pi n 2 i (x1i − x̄1 ) Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Por P tanto, en general, E (β̃1 ) no es igual a β1 : β̃1 es sesgado para n (x −x̄ )x β1 . Pi n (x1i −x̄11 )22i es, simplemente, la pendiente de la regresión de x2 1i i sobre x1 , la cual se puede expresar como x̃2 = δ̃0 + δ̃1 x1 . Como estamos condicionando a los valores muestrales de las dos variables independientes, δ̃1 no es aleatorio. Por tanto, podemos escribir E (β̃1 ) como E (β̃1 ) = β1 + β2 δ̃1 . Esto implica quer el sesgo de β̃1 es E (β̃1 ) − β1 = β2 δ̃1 . A menudo se llama a esto el sesgo de la variable omitida. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Hay dos casos en que β̃1 es insesgado: • Si β2 = 0, x2 no está en el modelo poblacional y β̃1 es insesgado. • Si δ̃1 = 0, entonces β̃1 es insesgado para β1 , incluso si β2 6= 0. Como δ̃1 es la covarianza muestral entre x1 y x2 dividida por la varianza muestral de x1 , δ̃1 = 0 si y solo si x1 y x2 están incorreladas en la muestra. Por tanto, obtenemos la conclusión importante de que si x1 y x2 están incorreladas en la muestra, entonces β̃1 es insesgado. En otro caso, aparece la endogeneidad y β̃1 es sesgado e inconsistente. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Resumen del sesgo de β̃1 cuando se omite x2 : β2 > 0 β2 < 0 corr (x1 , x2 ) > 0 sesgo positivo sesgo negativo Helena Veiga corr (x1 , x2 ) < 0 sesgo negativo sesgo positivo Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad caso 2: Errores de medida en las variables independientes Sabemos que si en un modelo se excluye una variable importante, por ejemplo porque no tengamos datos de ella, tenemos un problema importante. ¿Como podemos resolver, o al menos reducir, el problema del sesgo de la variable omitida? Una posibilidad es obtener una variable próxima (proxy) a la variable omitida. Una variable próxima es una que está relacionada con la variable que deberı́amos incluir en nuestro modelo (pero que no lo hacemos). Para ilustrar las ideas fundamentales nos basta con un modelo de tres variables independientes, de las cuales se observan dos: y = β0 + β1 x1 + β2 x2 + β3 x3∗ + u. Suponemos que se dispone de datos de y , x1 , y x2 , no de x3∗ , pero que tenemos una variable próxima a x3∗ , a la que llamamos x3 . Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad ¿Que le pedimos a x3 ? Como mı́nimo, que tenga una relación con x3∗ del tipo: x3 = x3∗ + v3 , donde v3 ∼ N(0, σv2 ) y v3 está incorrelado con x3∗ y u. Por tanto, el modelo que podemos estimar es: y y y = β0 + β1 x1 + β2 x2 + β3 (x3 − v3 ) + u = β0 + β1 x1 + β2 x2 + β3 x3 + (−β3 v3 + u) = β0 + β1 x1 + β2 x2 + β3 x3 + e, donde e = (−β3 v3 + u). Como cov (x3 , e) 6= 0, x3 es endógena y el estimador de OLS es sesgado e inconsistente. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad caso 3: Ecuaciones simultáneas Es util ver, en un modelo simple, cómo una variable explicativa que es, a la vez, explicada, está, en general, correlada con el término de error. Esto lleva a sesgo en OLS, como ya sabemos. Sea el modelo estructural de dos ecuaciones: y1 = α1 y2 + β1 z1 + u1 (2) y2 = α2 y1 + β2 z2 + u2 (3) y supongamos que nos interesa estimar la primera ecuación. Las variables z1 y z2 son exógenas y están, por tanto, incorreladas con u1 y u2 . Por sencillez, hemos quitado las constantes de las dos ecuaciones. Para demostrar que y2 está correlada con u1 , despejamos en las dos ecuaciones y1 e y2 en función de las variables exógenas y los errores. Nos queda, para y2 : Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad y2 = π21 z1 + π22 z2 + v2 , donde π21 = α2 β1 /(1 − α2 α1 ), π22 = β2 /(1 − α2 α1 ), y v2 = (α2 u1 + u2 )/(1 − α2 α1 ). Esta ecuación, que nos pone y2 en función de las variables exógenas y los errores, es la forma reducida de y2 . Los parámetros π21 y π22 se llaman parámetros de la forma reducida. Debemos notar que son funciones no lineales de los parámetros estructurales (o sea, de los parámetros que aparecen en la forma estructural). El error de la forma reducida, v2 , es función lineal de los erores de la forma estructural, u1 y u2 . Como u1 y u2 están ambos incorrelados con z1 y z2 , v2 también está incorrelado con z1 y z2 . Por tanto, podemos estimar en forma consistente π21 y π22 mediante OLS. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Sin embargo, lo que nos interesa es etimar la ecuación (2). En ella, cov (y2 , u1 ) = cov (π21 z1 + π22 z2 + v2 , u1 ) = cov (v2 , u1 ) = cov ((α2 u1 + u2 )/(1 − α2 α1 ), u1 ) 6= 0, y por tanto hay endogeneidad, el estimador de OLS es sesgado e inconsistente. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad En esta sección, veremos cómo el método de las variables instrumentales (IV) puede resolver el problema de la endogeneidad de una o mas variables explicativas. Como ejemplo, sea el problema de la capacidad innata, no observada, en la ecuación del salario de adultos que trabajan. Un modelo inicial es: log (wage) = β0 + β1 educ + β2 abil + e, donde e es el término de error. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Supongamos que, o no disponemos de una variable próxima, o ésta no tiene las propiedades mı́nimas para que obtengamos un estimador consistente de β1 . Entonces, si metemos abil junto el término de error, nos queda el modelo de regresión sencillo: log (wage) = β0 + β1 educ + u, (2) donde u contiene a abil . Si estimamos este modelo por OLS, obtenemos un estimador de β1 , que será sesgado e inconsistente si educ y abil están correladas. A pesar de esto, resulta que podremos utilizar el modelo (2) como base de nuestra estimación si podemos encontrar una variable instrumental para educ. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad En concreto, volviendo a escribir el model de regresión sencillo, y = β0 + β1 x + u, con x y u posiblemente correladas: Cov (x, u) 6= 0. El método de las variables instrumentales funciona tanto si x y u están correladas como si no lo están, pero, por razones que veremos despues, si están incorreladas es mejor usar OLS. Para poder tener estimadores consistentes de β0 y β1 cuando x y u están correladas, necesitamos mas información. Supongamos que tenemos una variable observada z que cumple dos condiciones: Cond. 1 z está incorrelada con u, o sea, cov (z, u) = 0; Cond. 2 z está correlada con x, es decir,cov (z, x) 6= 0. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Llamamos a z una variable instrumental para x. Estas dos condiciones son muy distintas, en el sentido de que la primera nunca la podemos contrastar, porque el error u no se observa. Nos conformaremos con creer que se cumple esta condición porque ello se deduzca de la teorı́a económica o simplemente por intuición. En cambio, la condición de que z esté incorrelada con x en la población se puede contrastar con la muestra aleatoria. La manera mas sencilla de hacerlo es ajustar una regresión entre x y z. Para la población será: x = π0 + π1 z + v . Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Entonces, como π1 = Cov (z, x)/Var (z), la segunda hipótesis se cumple si y solo si π 6= 0. Por tanto, si x y z están correladas, para un nivel de significación suficientemente pequeño (p.ej. 5 % o 1 %), rechazaremos la hipótesis nula H0 : π1 = 0 frente a la alternativa bilateral H0 : π1 6= 0. En este caso, podemos tener una confianza razonable de que la segunda condición se cumple. En el ejemplo del salario (o su logaritmo) wage, una variable instrumental z para educ debe estar 1) incorrelada con la capacidad innata abil (y con cualquier otro factor no observable que explique a wage), y 2) correlada con educ. Por ejemplo, la variable última cifra del DNI seguramente estará incorrelada con abil , pero no estrá correlada con educ, asi que no nos servirá como variable instrumental para educ. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Lo que habı́amos llamado variable próxima (proxy) a una variable no observada tampoco es una buena variable instrumental por el motivo contrario. Por ejemplo, una variable próxima a abil estará muy correlada con ella, pero debe no estarlo para ser una buena variable instrumental. Una posible IV para educ serı́a el número de hermanos que tenı́a el individuo en la época en que recibı́a la educación. Es probable que el número de hermanos esté incorrelado con abil , pero correlado con educ. Ahora vamos a demostrar que la disponibilidad de una variable instrumental se puede utilizar para estimar consistentemente los parámetros de la ecuación (2). Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Dado el modelo sencillo: y = β0 + β1 x + u, la covarianza entre z e y es cov (y , z) = β1 cov (x, z) + cov (z, u). y, por las condiciones 1 y 2 que deben cumplir las variables instrumentales, cov (z, u) = 0 y cov (z, x) 6= 0, por tanto β1 = cov (y , z) . cov (x, z) Después de simplificar los tamaños muestrales de numerador y denominador obtenemos el siguiente estimador de β1 mediante IV: Pn (zi − z̄)(yi − ȳ ) β̂1 = Pin i (zi − z̄)(xi − x̄) Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad El estimador de IV de β0 es simplemente β̂0 = ȳ − β̂1 x̄, o sea, es parecido al de OLS, pero con β̂1 estimado por IV en vez de por OLS. Una caracterı́stica del estimador de IV es que, cuando x y u están de verdad correladas, nunca es insesgado. Pero, para muestras pequeñas, puede haber un sesgo importante. Por eso es preferible utilizar muestras grandes con el estimador de IV: Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Dado el parecido de los estimadores de IV y de OLS, no nos sorprende el que el estimador de IV tenga una distribución aproximadamente normal para muestras grandes. Para hacer inferencia acerca de β1 , necesitamos una desviación tı́pica con la que poder calcular estadı́sticos t e intervalos de confianza. Lo habitual es imponer hipótesis de homocedasticidad, como en el caso de OLS. Pero ahora la homocedasticidad es condicional en la variable instrumental, en lugar de serlo en la variable explicativa endógena x, es decir, tenemos el resto de hipótesis sobre u, x, y z, y, además, E (u 2 |z) = σ 2 . Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad La varianza asintótica de β̂1 es ahora: σ2 , nσx2 ρ2xz donde σx2 es la varianza poblacional de x, σ 2 es la varianza poblacional de u, y ρ2xz es el cuadrado de la correlación poblacional entre x y z. De esta forma podemos obtener una desviación tı́pica para el estimador de IV. Todas las cantidades necesarias se pueden estimar en forma consistente a partir de una muestra aleatoria. Para estimar σx2 , simplemente calculamos la varianza muestral de los xi ; para estimar ρ2xz , podemos obtener el R cuadrado de la 2 . Finalmente, para regresión de los xi sobre los zi , esP decir Rx,z n 2 2 2 estimar σ , podemos usar σ̂ = i ûi /(n − 2). La desviación tı́pica (asintótica) de β̂1 es, pues, la raiz cuadrada de: σ̂ 2 , 2 SSTx Rxz Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad donde SSTx es la suma total de cuadrados de los xi . La desviación tı́pica que se obtiene se puede usar para construir o estadı́sticos t para hipótesis sobre β1 o intervalos de confianza. Es informativo el comparar las varianzas asintóticas de los estimadores de IV y OLS cuando x y u están incorrelados. Bajo las hipótesis de Gauss-Markov la varianza del estimador de OLS es 2 ); σ 2 /SSTx , mientras que para el estimador de IV es σ 2 /(SSTx Rx,z Como un R cuadrado está entre 0 y 1, la varianza de IV es siempre 2 es mayor o igual que la de OLS (si OLS es válido, claro). Si Rx,z pequeño, entonces la varianza de IV puede ser mucho mayor que la de OLS, pero si el R cuadrado es 1, entonces las dos varianzas son iguales (o sea, si x está incorrelada con u, entonces la misma x puede ser la variable instrumental de x). Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Estimación por MC2E-Modelos de Ecuaciones Simultáneas Sea el sistema de ecuaciones simultáneas de antes en forma estructural: y1 = α1 y2 + β1 z1 + u1 (2) y2 = α2 y1 + β2 z2 + u2 (3) cuya forma reducida es: y1 = π11 z1 + π12 z2 + v1 , (4) y2 = π21 z1 + π22 z2 + v2 (5), donde π11 = α1 β2 /(1 − α1 α2 ), π12 = β1 /(1 − α1 α2 ), v1 = (u1 + α1 u2 )/(1 − α1 α2 ). Además, en cuanto a la ecuación (5), es π21 = α2 β1 /(1 − α1 α2 ), π22 = β2 /(1 − α1 α2 ) y v2 = (u2 + α2 u1 )/(1 − α1 α2 ). Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Como, en la forma reducida, cada ecuación solo tiene variables exógenas, podemos estimar la forma reducida por OLS, y los estimadores de los πij serán BLUE. El método de mı́nimos cuadrados bietépicos consta de dos pasos, el primero es el que acabamos de describir, estimar la forma reducida por OLS (una vez que sepamos que el modelo está identificado). Entonces se estiman y1 e y2 mediante: ŷ1 = π̂11 z1 + π̂12 z2 ŷ2 = π̂21 z1 + π̂22 z2 . En el segundo paso, estas estimaciones se usan como instrumentos de y1 e y2 en la forma estructural del sistema. Nótese que son de verdad instrumentos, porque están incorrelados con los vj y, por tanto, con los uj y, en cambio, están correlados con los yj Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Es decir, en el segundo paso, sustituimos los yj endógenos de la forma estructural por sus instrumentos y estimamos el modelo resultante por OLS: y1 = α1 ŷ2 + β1 z1 + u1 y2 = α2 ŷ1 + β2 z2 + u2 A estos dos pasos se les llama mı́nimos cuadrados bietápicos (MC2E o 2SLS) y se obtiene ası́ un estimador que es consistente, pero no es eficiente ni insesgado. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad El estimador de MC2E es menos eficiente que el de OLS cuando las variables explicativas son exógenas. Por tanto, es útil disponer de un contraste de endogeneidad para saber si necesitamos los MC2E. La obtención de un contraste de este tipo es sencilla. En el ejemplo anterior tenemos, para y1 , y1 = α1 y2 + β1 z1 + u1 , (3) con z1 exógena. Si y2 está incorrelada con u1 , deberı́amos estimar la ecuación por OLS. Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad ¿Como podemos contrastar esto? Hausman (1978) sugirió comparar las estimaciones de OLS y MC2E y determinar si la diferencia entre ambas es estadı́sticamente significativa La idea es que ambos, OLS y MC2E son consistentes si todos los regresores son exógenos, por tanto, si OLS y MC2E son muy distintos, y2 debe ser endógena (seguimos suponiendo que las zj son exógenas). Es una buena idea calcular las estimaciones de OLS y MC2E para ver si son muy diferentes. Para determinar si la diferencia es significativa, lo mas sencillo es hacer un contraste de regresión. Este se basa en estimar la forma reducida de y2 , o sea y2 = π21 z1 + π22 z2 + v2 Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Ahora, como los zj están incorrelados con u1 , y2 estará incorrelado con u1 si y solo si v2 está incorrelado con u1 ; esto es lo que tenemos que contrastar. Escribimos u1 = δ1 v2 + e1 , donde e1 está incorrelado con v2 y tiene media cero. Entonces, u1 y v2 están incorrelados si y solo si δ1 = 0. La manera más sencilla de llevar esto a la práctica es incluir a v2 como regresor adicional en (3) y hacer un contraste de la t. El problema es que v2 es un término de error y, por tanto, no lo observamos. Pero como podemos estimar la forma reducida en la ecuación de y2 , también podemos calcular los residuos de esta forma reducida, v̂2 . Helena Veiga Capı́tulo 5: Regresores Endógenos Esquema 5.1 Causas de la endogeneidad 5.2 Estimador de variables instrumentales 5.3 Contrastes de endogeneidad Por tanto, estimamos y1 = α1 y2 + β1 z1 + δ1 v̂2 + error , mediante OLS y contrastamos H0 : δ1 = 0 con el estadı́stico de la t. Si rechazamos H0 para un nivel de significación pequeño, deducimos que y2 es endógena, puesto que v2 y u1 están correlados. Helena Veiga Capı́tulo 5: Regresores Endógenos