Fichero: capitulo 4 CAPÍTULO 4 PROBLEMAS DE ADECUACIÓN MODELO-REALIDAD (I) ERRORES DE ESPECIFICACIÓN 1. TIPOS DE ERRORES DE ESPECIFICACIÓN La construcción de un modelo econométrico está sujeta en la práctica a un conjunto de condicionantes que atentan contra el buen resultado de la inferencia que a continuación se realiza. Las teorías económicas que deben inspirar su especificación concreta y la calidad de la información muestral son dos de los elementos clave en este desarrollo. La información a priori proporcionada por la teoría económica o, en su defecto, por el conocimiento de la realidad económica basado en la observación de los hechos no permite, en la mayoría de los casos, establecer con el nivel de detalle deseable qué variables deben intervenir en el modelo, ni su estructura temporal en el caso de tratarse de relaciones asociadas con datos temporales. Por otra parte, la información estadística utilizada incorpora a menudo aproximaciones empíricas que no son completamente satisfactorias con los conceptos manejados por los teóricos. Cuando en un modelo empírico tratamos de establecer los mecanismos explicativos del comportamiento de los consumidores de un bien duradero, como es el caso -por poner un ejemplo- de la compra de automóviles, acudimos a la teoría del consumidor que nos ofrece, entre alguna de sus múltiples aproximaciones, hipótesis del estilo siguiente: "la renta permanente y la riqueza son, además de los precios y las ______________________________________ Manual de Econometría. Capítulo 4, página 1. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC preferencias personales, factores que revelan las variaciones en el consumo entre los individuos con características similares". Aproximar la renta permanente por los ingresos declarados, y la riqueza por los activos es una opción tomada comunmente en las aplicaciones empíricas para este tipo de modelo de consumo. En otras ocasiones se opta por la no inclusión en el modelo de la variable riqueza debido a la falta de información estadística disponible y fiable. En otro orden de cosas, la relación paramétrica establecida en un modelo econométrico suele ser lineal, o linealizable después de alguna transformación en los valores de las variables. En cualquier caso se trata de una representación formal que trata de ser lo más cercana posible a la verdadera relación que es, como sabemos, desconocida por parte del investigador. En sentido amplio, entendemos por errores de especificación todos aquellos errores que se cometen en la construcción de un modelo econométrico. Estos errores pueden afectar tanto a la definición de los regresores como a las hipótesis que suponemos cumple la perturbación aleatoria de la ecuación de regresión. En la primera categoría de errores situaríamos al que se comete cuando no incorporamos un factor relevante en la explicación de la variabilidad de la variable endógena de un modelo, mientras que incurrimos en la segunda categoría de errores cuando estimamos un modelo por MCO suponiendo que las perturbaciones tienen varianza constante cuando en realidad son heteroscedásticas. En este capítulo nos limitaremos a considerar los errores de especificación en un sentido más restringido: nos referiremos por el momento a los errores cometidos al especificar la matriz X de regresores. Se incluyen en este tipo de errores los siguientes casos: ______________________________________ Manual de Econometría. Capítulo 4, página 2. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC a) La omisión de factores explicativos relevantes b) La inclusión de variables supérfluas c) Los errores de medida de las variables (problema que será analizado en un capítulo posterior) d) La incorrecta especificación funcional Dedicaremos los próximos epígrafes en este capítulo al desarrollo formal de las consecuencias que cada uno de estos tipos de error transmite sobre la estimación por MCO en el modelo de regresión lineal. Para ello seguiremos el esquema utilizado en los capítulos precedentes, es decir, en primer lugar formalizaremos la situación descrita conceptualmente, a continuación pasaremos a descubrir los efectos que la asunción de los diferentes tipos de error tirne sobre los estimadores MCO. A continuación, se introducirán algunos elementos que permitan diagnosticar el error de cosntrucción del modelo y, finalmente, se apuntarán las posibles conductas a seguir para mejorar el resultado de la estimación realizada. Conviene insistir, antes de iniciar los desarrollos enunciados, en una cuestión de importancia capital. El trabajo con modelos econométricos no pretende el descubrimiento a toda costa del verdadero modelo o de la relación subyacente. Se trata de establecer los mecanismos necesarios para lograr que el investigador aplicado se acerque en la medida de sus posibilidades, y las que ofrecen los datos y la información teórica previa, a un nivel de concocimiento de las conductas de los agentes económicos que le permita alcanzar, con un cierto grado de verosimilitud, los objetivos planteados. Estos objetivos pueden ser, como ya anunciábamos en el primer capítulo del libro, el análisis de las relaciones estructurales existentes entre las variables o, alternativamente, la obtención de buenos pronósticos fuera de la muestra considerada. ______________________________________ Manual de Econometría. Capítulo 4, página 3. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC 2. OMISIÓN DE VARIABLES RELEVANTES 2.1. OMISIÓN DE UNA VARIABLE RELEVANTE EN UNA ESTIMACIÓN POR REGRESIÓN LINEAL SIMPLE Supongamos por el momento que el modelo verdadero fuese conocido por nosotros. Para ilustrar este hecho supongamos que las variaciones en el absentismo laboral (Y) se explican a partir de una relación lineal entre el tamaño de la empresa medido por el número de empleados (X) y el salario medio por empleado (Z). Y i = α + β X i + γ Z i + ui (4.1) Supongamos que esta relación es poblacionalmente correcta y, de este modo, denominamos a la expresión (4.1) el modelo verdadero. En dicha ecuación, como de costumbre, u representa el término de error aleatorio. La anterior ecuación es válida para los n elementos de la muestra (i=1...n). El término de error u es una variable aleatoria que satisface las hipótesis 5 a 8 enunciadas en el modelo lineal estándard, es decir se distribuye con valor esperado igual a cero, y de forma idéntica e independiente con varianza constante igual a σ2 y siguiendo una ley normal. Para facilitar los desarrollos posteriores utilizaremos en lo que sigue un modelo equivalente al anterior en el que no aparece el término constante de la relación. Para ello basta con expresar la ecuación (4.1) en desviaciones respecto de las medias de las variables, es decir y i = β xi + γ z i + u i (4.2) en donde, ______________________________________ Manual de Econometría. Capítulo 4, página 4. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC y i = Y i - Y ; xi = X i - X ; z i = Z i - Z con lo cual el modelo a estimar presenta solamente dos parámetros, además de la varianza del término de error y el término constante que se derivaría de la información proporcionada por la estimación de ß y γ. La estimación MCO de los parámetros de (4.2), dada una muestra de n observaciones de y, x y z, goza de las propiedades deseables. Dicho de otro modo, las estimaciones MCO de ß y γ se obtienen haciendo ∑ ∑ xy - ∑ xz ∑ zy βˆ = z 2 2 ∑ x ∑ z - ( ∑ xz )2 2 (4.3) γˆ = ∑ x 2 ∑ zy - ∑ xz ∑ xy ∑ x 2 ∑ z 2 - ( ∑ xz )2 y son estimadores ELIO, o sea, lineales, insesgados y de varianza mínima. Las respectivas varianzas se obtienen de Var( βˆ ) = σ u2 ∑ z2 ∑ x 2 ∑ z 2 - ( ∑ xz )2 (4.4) ∑ x2 Var( γˆ ) = σ ∑ x 2 ∑ z 2 - ( ∑ xz )2 2 u Obsérvese que, con objeto de aligerar las expresiones análiticas, en los sumatorios se ha eliminado la referencia al término genérico que corresponde a todos los valores desde i=1 hasta i=n. ______________________________________ Manual de Econometría. Capítulo 4, página 5. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC Supongamos ahora que en una situación distinta a la anterior, el investigador utilizara un modelo empírico en el que por alguna razón no utilizaramos el salario medio por empleado (Z) como factor explicativo de las variaciones en el absentismo (Y). Tal como apuntábamos en la introducción a este tema de la especificación errónea de un modelo econométrico, podría suceder que la omisión de una variable explicativa se debiera a causas tan dispares como la falta de información estadística suficiente o el desconocimiento del hecho de la intervención de dicha variable en el modelo. En el primer caso se trataría de una omisión por pobreza muestral, mientras que en el segundo la razón estribaría en el desconocimiento de la influencia de la variable suprimida. Razones de la omisón de variables relevantes: Limitación de la información estadística disponible (pobreza muestral) Desconocimiento de la existencia de una relación estable entre dicha variable y la variable endógena (desconocimiento del modelo) Simplificación funcional (error de aproximación de la forma funcional) La inferencia por MCO del modelo resultante de la omisión de una variable explicativa Z, lleva a la formulación de un modelo alternativo en la forma: y i = β xi + vi (4.5) en donde, como es obvio, vi= ui+γzi. Advirtamos en seguida que, el hecho de que u cumpliera las hipótesis del modelo estándar no garantiza en absoluto que vaya a suceder lo mismo con el nuevo término de error aleatorio v. En efecto, el término de error v de la ecuación (4.5) es tal que su valor esperado es cero, pero su varianza viene determinada por la varianza de la variable omitida z y que puede ser distinta ______________________________________ Manual de Econometría. Capítulo 4, página 6. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC para cada i. La independencia también vendrá condicionada a la más que probable correlación entre los sucesivos valores de las z's, cuando los datos son temporales. En consecuencia, v es un término de error en el que con toda probabilidad se incumplirán las condiciones estándar de homoscedasticidad y/o no autocorrelación serial. Por lo que se refiere a la estimación de ß, y para la misma muestra de tamaño n, la estimación MCO proporciona los siguientes resultados ~ ∑ xy β= ∑ x2 que puede expresarse alternativamente, sin más que sustituir la variable y por su valor según la ecuación (4.5), mediante: ∑ x( βx + v) ∑ xv ∑ x(γz + u ) = β + γ ∑ xz + ∑ xu = + = + β~ = β β ∑ x2 ∑ x2 ∑ x2 ∑ x 2 ∑ x2 (4.6) Veamos a continuación cuáles son las propiedades del estimador de ß obtenido en (4.6), es decir en una situación de especificación incorrecta debida a omisión de una variable relevante. Por lo que respecta al valor esperado de la distribución en el muestreo de este estimador, de (4.7) se deduce que γ ∑ xz ∑ xu γ ∑ xz ~ E( β ) = E[ β + + ]=β+ ≠β 2 2 ∑x ∑x ∑ x2 (4.7) o, lo que es lo mismo, el estimador de ß en el caso de omisión de una variable relevante es un estimador sesgado. La magnitud del sesgo viene determinada por la expresión ______________________________________ Manual de Econometría. Capítulo 4, página 7. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC SESGO = γ ∑ xz ∑ x2 Esto significa que el signo del sesgo depende de los signos del parámetro γ y de la covarianza entre la variable incluida x y la omitida z. Si ambos signos coinciden, el sesgo es positivo, en tanto que si γ y Σ xz son de signos contrarios, entonces el sesgo es negativo. Una situación extrema, aunque altamente improbable tratándose de variables económicas, en la que x y z estuviesen perfectamente incorrelacionadas linealmente (en cuyo caso, Σ xz = 0) conduciría a una estimación insesgada de ß a pesar de la ausencia de z en el modelo. Es decir, explicar las variaciones en el absentismo a través de la variabilidad del tamaño de las empresas olvidando los salarios medios, conduce a estimadores sesgados del parámetro que refleja la respuesta del absentismo a las variaciones en la dimensión empresarial. Si las empresas mayores son las que ofrecen salarios medios más elevados (rxz>0), y se espera que a mayores salarios corresponden menores tasas de absentismo, entonces el sesgo es negativo. Por lo que respecta a la varianza del estimador de ß, para el modelo mal especificado, vale: 1 ∑ xu 2 ~ ~ ~ Var( β ) = E[ β - E( β ) ] 2 = E[ ] = σ u2 2 ∑x ∑ x2 (4.8) Vemos que esta varianza es menor que la que se obtenía en el caso de trabajar con el modelo completo. En efecto, la varianza del estimador para el modelo completo ("verdadero") es: ______________________________________ Manual de Econometría. Capítulo 4, página 8. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC Var( βˆ ) = σ u2 ∑ z2 1 = σ u2 2 2 2 2 ∑ x (1 - r 2xz ) ∑ x ∑ z - ( ∑ xz ) (4.9) Comparando las expresiones (4.8) y (4.9) se llega a la conclusión siguiente: ~ Var( β ) ≤ Var( βˆ ) que muestra como la varianza del estimador de ß que se obtiene del modelo en el que se incurre en un error de omisión de una variable relevante es menor que la varianza del estimador de ß obtenido del modelo correcto. La anterior afirmación puede parecer una contradicción por cuanto nos señala que la distribución del estimador en presencia de un error de especificación del modelo es más concentrada que la obtenida con el modelo bien construido. Sin embargo, la distribución de beta tilde es sesgada respecto de ß. En consecuencia, para decidir cuál de los dos estimadores es preferible debemos recurrir a la medida de su respectivo error cuadrático medio (ECM) que nos informará conjuntamente de la magnitud del sesgo y de la varianza. En el caso que nos ocupa tenemos que el ECM del estimador de ß deducido del modelo de la ecuación (4.2), es decir en el modelo correcto es, ECM( βˆ ) = [Sesgo ( βˆ ) ] 2 + Var ( βˆ ) = 0 + σ u2 ∑ x 2 (1 - r 2xz ) (4.10) 2 σ u = ∑ x 2 (1 - r 2xz ) ______________________________________ Manual de Econometría. Capítulo 4, página 9. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC mientras que el ECM del estimador de ß a partir de la ecuación (4.5) en el que se incurre en el error por omisión de la variable relevante z, resulta ~ ~ ~ γ ∑ xz 2 σ u2 ECM( β ) = [Sesgo ( β ) ] 2 + Var ( β ) = [ ] + ∑ x2 ∑ x2 (4.11) = γ 2 ( ∑ xz )2 σ u2 + ∑ x2 ( ∑ x 2 )2 ) La comparación de las dos expresiones anteriores permite obtener, después de un entretenido proceso de simplificación que no mostramos aquí, el resultado siguiente ~ ECM( β ) = 1 + r 2xz ( τ 2 - 1) ˆ ECM( β ) con τ definida como τ= γ Var( γˆ ) que no es otra cosa que el valor teórico del estadístico de prueba de la hipótesis nula Ho: γ=0. Decimos que se trata de un valor teórico puesto que en el denominador interviene el verdadero valor de la varianza del estimador y no su estimación, como sucede en el cálculo del estadístico t de student utilizado en el contraste de significación individual de los parámetros en el modelo de regresión. En definitiva, tenemos que ______________________________________ Manual de Econometría. Capítulo 4, página 10. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC ECM( βˆ ) ≤ ECM( β~ ) (4.12) si y solo si : 1 + r ( τ - 1) > 0 2 xz 2 o, lo que es lo mismo, si τ =| γ |> 1 Var( γˆ ) expresión que debemos interpretar en el sentido siguiente: la ausencia de una variable relevante proporciona estimadores peores, en términos del error cuadrático medio, siempre que la variable omitida tenga una significación débil en la contribución a la variabilidad de la variable dependiente. Dicho de otra forma, la omisión de una variable relevante no es preocupante si el valor teórico del estadístico t de student para la prueba de significación individual es menor, en valor absoluto, que la unidad. Debemos hacer hincapié en el hecho de que la comparación entre los estimadores se ha venido realizando en términos del valor teórico de un estadístico de prueba. En la práctica no disponemos más que una aproximación a este valor, fruto de la estimación de σ2 que es deconocida, por lo que las conclusiones derivadas de las afirmaciones anteriores deben tomarse con gran precaución. Un ejemplo de aplicación de los resultados de la comparación entre los ECM de los estimadores deducidos con y sin error por omisión aparece en los modelos con multicolinealidad. Habíamos dejado en el capítulo anterior una discusión pendiente relativa a las consecuencias de eliminar de la regresión la variable causante de la colinealidad. Pues bien, ahora disponemos ya de mayores elementos de juicio para tomar, o no, esta decisión drástica. Si eliminamos una variable relevante del modelo introducimos sesgo en la estimación de los restantes estimadores pero disminuimos sus varianzas. La omisión de la variable colineal estaría justificada solamente en ______________________________________ Manual de Econometría. Capítulo 4, página 11. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC aquellos casos en los que el estadístico de prueba de significación del parámetro que la acompaña presentara valores sensiblemente inferiores a la unidad, es decir que la relevancia de la variable excluida fuera escasa. 2.2. EL CASO GENERAL DE OMISIÓN DE VARIABLES La generalización de los resultados anteriores al caso del modelo de regresión con K variables requiere abandonar la notación sumatorial y retomar la formulación matricial. Supongamos a tal efecto que el modelo verdadero contiene como regresores a los que ocupan todas las columnas de la matriz X, pero estimamos (incorrectamente) un modelo cuyos regresores forman la matriz X*: Modelo Verdadero : Y = Xβ + U; E(U) = 0; E(U ′U) = σ 2 I (4.13) Modelo Estimado : Y = X * β +V Los estimadores MCO que obtenemos utilizando X* como matriz de variables explicativas son los siguientes -1 -1 −1 b* = (X ´* X * ) X ´* Y = (X ´* X * ) X ´* Xβ + (X ´* X * ) X ´* U (4.14) Dichos estimadores son estimadores sesgados, puesto que E( b* ) = ( X ´* X * ) −1 X ´* Xβ ≠ β (4.15) ______________________________________ Manual de Econometría. Capítulo 4, página 12. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC En general, cuando cometemos errores de especificación decidiendo incorrectamente los regresores que entran en la ecuación, los estimadores MCO son sesgados. Cuando el error de especificación se concreta en la omisión de variables relevantes, estimamos un modelo que contiene únicamente r regresores (matriz X1), pero el modelo verdadero tiene K (K>r) variables explicativas, incluyendo además de X1, otro conjunto de variables a las que llamamos X2: Modelo Verdadero : Y = Xβ + U = X 1 β 1 + X 2 β 2 + U Modelo Estimado : (4.16) Yˆ = X * βˆ 1 = X 1 b* X * = [ X 1 X 2 ... X r ] = X 1 X = [ X 1 X 2 ... X r X r+1 ... X K ] = [ X 1 X 2 ] En este caso, teniendo en cuenta (4.16) podemos ver que: ( X ´* X * -1 ) X ´ * X = ( X ´1 X -1 1 ) X ´1 [ X 1 X 2 ] (4.17) = ( X ´1 X -1 1 ) [ X ´1 X 1 X ´1 X 2 ] = [ Ir ( X ´1 X -1 1 ) X ´1 X 2 ] La última matriz de (4.17) tiene r filas y K columnas. Sus primeras r columnas forman una matriz identidad. Las otras K-r columnas son los estimadores MCO de la regresión de cada una de las variables en X2 (dependientes) contra ______________________________________ Manual de Econometría. Capítulo 4, página 13. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC X1(independientes). Sustituyendo (4.17) en (4.15), que es válida en general, vemos que los estimadores MCO son sesgados. Además, el sesgo depende de la correlación entre las variables incluídas y las omitidas y de los parámetros β de las variables omitidas: E( ~ β * j )= β j + a j, r + 1 β r+ 1 ...+ a j, K β K (4.18) (j = 1,2,...r) donde el valor aj,k es el elemento de la fila j-ésima y la columna k-ésima de la matriz (X1'X1)-1 X1'X2, es decir, los valores a son los coeficientes de la regresión que explica el comportamiento de cada variable excluída en función de las incluidas en el modelo. Los valores señalados con a, así como el sesgo, dependen de la correlación entre los dos conjuntos de variables. Solamente en el caso que X1 y X2 sean ortogonales (correlaciones nulas: X1'X2 = 0) los estimadores son insesgados. Por otra parte, en (4.18) vemos también que el sesgo depende de la importancia real de las variables omitidas en la explicación de la endógena (los parámetros β de los regresores excluidos). Por otra parte, se comprueba que el sesgo no tiende a cero al aumentar el tamaño muestral. Por lo tanto, en presencia de variables omitidas los estimadores MCO son inconsistentes. Finalmente, el estimador de la varianza del error también es sesgado, con lo cual se añade un problema nuevo a todo el proceso de estimación de modelos con variables relevantes excluidas. Para comprobar esta afirmación debemos partir del hecho de que el vector de residuos MCO para el modelo estimado (4.16) es (ver a este respecto la expresión (2.11) del capítulo 2) ______________________________________ Manual de Econometría. Capítulo 4, página 14. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC e = M 1 Y = [I - X 1 ( X ´1 X -1 1 ) X ´1 ]Y siendo M1 una matriz simétrica e idempotente de rango n-r. Teniendo en cuenta esta última expresión y que M1 es ortogonal con X1, es decir, que: X´1 M1 = M1 X1 = 0 podemos obtener la expresión de la suma de cuadrados de los errores para nuestro modelo, en función de las perturbaciones U, de las exógenas X y de los parámetros β: SCE = e′e = Y ′ M 1 Y = ( X 1 β 1 + X 2 β 2 + U)′ M 1 ( X 1 β 1 + X 2 β 2 + U) (4.19) = ( X 2 β 2 + U)′ M 1 ( X 2 β 2 + U) = U ′ M 1U + β ´2 X ´2 M 1 X 2 β 2 + 2 β ´2 X ´2 M 1U Aplicando esperanzas a (4.19) obtenemos la expresión de la esperanza de la suma de cuadrados de los residuos MCO: E(e′e) = E(U ′ M 1U) + β ´2 X ´2 M 1 X 2 β 2 (4.20) = σ 2 (n - r) + β ´2 X ´2 M 1 X 2 β 2 El estimador MCO de la varianza de la perturbación es, como sabemos, la suma de cuadrados de los residuos dividida entre los grados de libertad (n-r). Es un estimador sesgado, ya que: ______________________________________ Manual de Econometría. Capítulo 4, página 15. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC σˆ 2 = e′e n-r (4.21) E( σˆ 2 ) = σ 2 + 1 β ´2 X ´2 M 1 X 2 β 2 n-r y, en definitiva, el sesgo en la estimación de la varianza del término de perturbación, que es el segundo sumando, existe y además es de signo positivo. En caso de excluir del modelo variables relevantes, los estimadores MCO de β son sesgados. El sesgo depende de la correlación entre las variables excluidas y las omitidas, y de la influencia de estas últimas sobre Y. Los estimadores son inconsistentes. El estimador de la varianza de la perturbación también es sesgado, por lo que el proceso de inferencia estadística puede proporcionar resultados erróneos. 3. INCLUSIÓN DE VARIABLES IRRELEVANTES 3.1. INCLUSIÓN DE UNA VARIABLE SUPÉRFLUA El segundo tipo de error de especificación que aboradaremos en este capítulo se refiere a la incorporación en el modelo de variables irrelevantes o supérfluas. Para ello supondremos en principio que el modelo verdadero contiene una única variable explicativa y que estimamos un modelo que contiene, además, una variable ______________________________________ Manual de Econometría. Capítulo 4, página 16. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC irrelevante. Más adelante procederemos a la generalización de los resultados alcanzados con el ejemplo más simple con el que inciamos el desarrollo. Consideremos que el valor mensual de una cartera de activos financieros viene explicado por el precio del dinero. Supongamos que, en un intento de explicar mejor las variaciones temporales de la cartera, se incorpora en el modelo una segunda variable explicativa que, como el consumo privado, refleja las variaciones en una dimensión de la actividad económica. Sea el modelo correcto el representado por la ecuación siguiente (en desviaciones respecto a las medias): y i = β xi + u i (4.22) en donde, Y representa el valor de la cartera, X el precio del dinero. El modelo que incorpora la variable consumo (C), que vamos a suponer que resulte irrelevante en la explicación del valor de la cartera, es y i = β xi + δ ci + u i (4.23) Las variables se han expresado, en ambos modelos, en desviaciones respecto de sus medias para evitar la presencia explícita del término constante de cada una de las ecuaciones. De este modo, y i = Y i - Y ; xi = X i - X ; ci = C i - C ; i = 1...n La estimación del parámetro ß en el modelo (4.23), en el que se incluye de manera errónea la variable c, viene dada por: ______________________________________ Manual de Econometría. Capítulo 4, página 17. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC ∑ 2 ∑ xy - ∑ xc ∑ cy β~ = c 2 ∑ x ∑ c 2 - ( ∑ xc )2 (4.24) Como se observa en la anterior expresión conservaremos el símbolo tilde para indicar que se trata del estimador deducido de un modelo incorrecto. Este estimador es un estimador insesgado de ß como se demuestra fácilmente sin más que utilizar estas dos iguladades: E[ ∑ cy] = E[ ∑ c( βx + u)] = β ∑ xc (4.25) E[ ∑ xy] = E[ ∑ x( βx + u)] = β ∑ x 2 En efecto: ∑ c 2 E[ ∑ xy] - ∑ xc E[ ∑ cy] ~ E[ β ] = ∑ x 2 ∑ c 2 - ( ∑ xc )2 (4.26) ∑ c ( β ∑ x ) - ∑ xc ( β ∑ xc) =β ∑ x 2 ∑ c 2 - ( ∑ xc )2 2 = 2 Por lo que se refiere a la varianza del estimador, que coincidirá con su ECM puesto que se trata de un estimador insesgado, tenemos Var( β~ ) = ECM( β~ ) = σ u2 ∑ c2 ∑ x 2 ∑ c 2 - ( ∑ xc )2 (4.27) = σ u2 1 ∑ x (1 - r 2xc ) 2 ______________________________________ Manual de Econometría. Capítulo 4, página 18. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC Esta varianza es, en cualquier caso, superior a la varianza que se obtiene del modelo correcto, es decir ~ Var( β ) = σ u2 1 1 ≥ Var( βˆ ) = σ u2 2 ∑ x (1 - r xc ) ∑ x2 2 (4.28) Finalmente, el estimador de la varianza del término de perturbación es insesgado a pesar de la presencia de variables irrelevantes, es decir que se puede demostrar que: E( σ~u2 ) = σ u2 Si repetimos el ejercicio para el estimador del parámetro δ en el modelo (4.23), tenemos que ~ ∑ 2 ∑ cy - ∑ xc ∑ xy δ = x2 ∑ x ∑ c 2 - ( ∑ xc )2 y, utilizando de nuevo las expresiones que aparecen en (4.25), resulta E[ δ~ ] = ∑ x 2 E[ ∑ cy] - ∑ xc E[ ∑ xy] ∑ x 2 ∑ c 2 - ( ∑ xc )2 (4.29) = ∑ x 2 β ∑ xc - ∑ xc E[ β ∑ x 2 ] =0 ∑ x 2 ∑ c 2 - ( ∑ xc )2 que demuestra la insesgadez del estimador de δ puesto que poblacionalmente es decir, en el modelo correcto su valor es igual a cero. Así pues, en presencia de variables irrelevantes los estimadores MCO de los ______________________________________ Manual de Econometría. Capítulo 4, página 19. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC parámetros en el modelo de regresión siguen siendo insesgados, pero pierden precisión como consecuencia del aumento de las varianzas de sus distribuciones muestrales. 3.2. INCLUSIÓN DE s VARIABLES IRRELEVANTES Para el modelo general con K variables explicativas al que se le añaden s variables irrelevantes se mantienen las propiedades de los estimadores tal como se mostró en el caso de un regresor. En efecto, el verdadero modelo contiene K regresores (X1), pero añadimos en la ecuación a estimar s variables explicativas irrelevantes de más. La matriz de regresores contiene, pues, los conjuntos X1 y X2: Modelo Verdadero Y = X Modelo 1 β 1 : + U Estimado : (4.30) Yˆ = X 1 b1+ X X = [ X X * = [ X 1 1 2 b 2 ] 2 ] X Teniendo en cuenta (4.30) podemos ver que los estimadores MCO son insesgados: ______________________________________ Manual de Econometría. Capítulo 4, página 20. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC ( ( X ´* X * ) -1 X ´* ) IK 0 (4.31) El sesgo es nulo, porque los coeficientes de la regresión de X1 contra X1 y X2 son la unidad (cuando una variable se regresa contra sí misma) o cero (cuando se regresa contra las demás). Por lo tanto, los estimadores de los coeficientes de las variables relevantes (X1) son insesgados, mientras que los estimadores de los parámetros correspondientes a las variables irrelevantes tienen media nula (en general, resultarán no significativos). El estimador de la varianza del error también es insesgado. En efecto, en este caso el vector de residuos MCO es el siguiente: e = MY, con M = I - X * (X ´* X * )-1 X ´* y, teniendo en cuenta que MX1 = MX* = 0, vemos que la suma de cuadrados de los errores de la regresión es U'M U: SCE = e′e = Y ′MY = ( X 1 β 1 + U)′ M ( X 1 β 1 + U) (4.32) = U ′MU + β ´1 X ´1 M X 1 β 1 + 2 β ´1 X ´1 MU = U ′MU La esperanza matemática de la suma de cuadrados de los errores es: E(e′e) = E(U ′MU) = σ 2 tr(M) = σ 2 (N - K - s) donde, como de costumbre, tr indica la traza de la matriz que, en nuestro caso, ______________________________________ Manual de Econometría. Capítulo 4, página 21. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC coincide con los grados de libertad del modelo estimado, es decir, N-K-s. El estimador MCO de la varianza del error es insesgado, ya que: σ~ 2 = e′e ; N -K -s (4.33) N -K -s E (σ~ 2 ) = σ 2 =σ2 N -k -s En caso de incluir en el modelo variables irrelevantes, los estimadores MCO son insesgados y consistentes. El estimador de la varianza del error también lo es. Pero hay un coste de eficiencia: los estimadores tienen varianzas mayores que si se hubiera especificado el modelo correctamente. 4. ESPECIFICACIÓN INCORRECTA DE LA FORMA FUNCIONAL La especificación incorrecta de la forma funcional es un error de especificación asimilable al cometido por omisión de variables relevantes. Sus consecuencias son, por lo tanto, estimadores MCO sesgados e inconsistentes. Para ilustrar este caso, supondremos que el verdadero modelo es cuadrático en la (única) variable explicativa X2, pero que, incorrectamente, estimamos un modelo lineal. Estamos omitiendo la variable relevante X2i2. En desviaciones respecto a las medias: ______________________________________ Manual de Econometría. Capítulo 4, página 22. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC Modelo Verdadero : y i = β 2 x 2i + β 3 x 22i + u i (4.34) Modelo Estimado : y i = β 2 x 2 i + vi Deduzcamos la expresión del estimador MCO de β2: β~2 = ∑x y ∑x 2 2 2 (4.35) donde, x 2i = X 2i - X 2 ; u i = U i - U ; i = 1...n Tomando esperanza en (4.35) y sustituyendo y por su expresión según el modelo "verdadero", descubrimos que el estimador en general es sesgado. El sesgo será nulo únicamente cuando la distribución muestral de la variable X2 sea simétrica, y por tanto cuando su momento centrado de tercer orden sea nulo. A mayor asimetría de la distribución, mayor sesgo: E( b2 ) = β 2 + β 3 ∑ x32i ∑ x 22i (4.36) expresión que podemos comparar con la obtenida en (4.7) para ver que efectivamente se trata del mismo tipo de problema y, en consecuencia, del mismo resultado. 5. ESPECIFICACIÓN INCORRECTA DEL NIVEL DE ANÁLISIS. PROBLEMAS DE ______________________________________ Manual de Econometría. Capítulo 4, página 23. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC AGREGACIÓN Y "FALACIA ECOLÓGICA" En este apartado se menciona un problema de especificaciín que encontramos frecuentemente en la práctica. Consiste en especificar el modelo a un nivel de análisis inadecuado. Por ejemplo, una relación causal se produce a nivel micro, entre agentes económicos, pero la estimamos e interpretamos, incorrectamente, con datos agragados (macro), como si la interpretación micro pudiera trasladarse al nivel agregado. A este sesgo de agregación se le llama en la literatura, a veces, "falacia ecológica" (interpretar para un colectivo resultados que solo son válidos al nivel individual). Piense en el gasto en medicamentos de un paciente (nivel 1), función lineal de la gravedad, aproximada por la edad del paciente. Cuanto más veijo, más gasto. Pero estimamos la ecuación a nivel de médico prescriptor (nivel 2). Su variable endógena es el gasto medio por paciente y como explicativa tendremos la edad media de los pacientes asignados a cada médico. ¿Influye relamente la edad media de los pacientes en el gasto del médico?. No, pero la ecuación resulta de agregar las ecuaciones individuales de los pacientes que atiende. Volveremos a este problema en el capítulo de los modelos de panel y los modelos jerárquicos. De momento, lo dejamos así planteado. ______________________________________ Manual de Econometría. Capítulo 4, página 24. 1 2 © Carlos Murillo Fort y Beatriz González López-Valcárcel (2000) 1 Catedrático Universidad Pompeu Fabra 2 Catedrática Universidad de Las Palmas de GC