(I) ERRORES DE ESPECIFICACIÓN 1. TIPOS DE ERRORES DE

Anuncio
Fichero: capitulo 4
CAPÍTULO 4
PROBLEMAS DE ADECUACIÓN MODELO-REALIDAD (I)
ERRORES DE ESPECIFICACIÓN
1. TIPOS DE ERRORES DE ESPECIFICACIÓN
La construcción de un modelo econométrico está sujeta en la práctica a un conjunto
de condicionantes que atentan contra el buen resultado de la inferencia que a
continuación se realiza. Las teorías económicas que deben inspirar su especificación
concreta y la calidad de la información muestral son dos de los elementos clave en
este desarrollo. La información a priori proporcionada por la teoría económica o, en su
defecto, por el conocimiento de la realidad económica basado en la observación de
los hechos no permite, en la mayoría de los casos, establecer con el nivel de detalle
deseable qué variables deben intervenir en el modelo, ni su estructura temporal en el
caso de tratarse de relaciones asociadas con datos temporales. Por otra parte, la
información estadística utilizada incorpora a menudo aproximaciones empíricas que
no son completamente satisfactorias con los conceptos manejados por los teóricos.
Cuando en un modelo empírico tratamos de establecer los mecanismos explicativos
del comportamiento de los consumidores de un bien duradero, como es el caso -por
poner un ejemplo- de la compra de automóviles, acudimos a la teoría del consumidor
que nos ofrece, entre alguna de sus múltiples aproximaciones, hipótesis del estilo
siguiente: "la renta permanente y la riqueza son, además de los precios y las
______________________________________
Manual de Econometría. Capítulo 4, página 1.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
preferencias personales, factores que revelan las variaciones en el consumo entre los
individuos con características similares". Aproximar la renta permanente por los
ingresos declarados, y la riqueza por los activos es una opción tomada comunmente
en las aplicaciones empíricas para este tipo de modelo de consumo. En otras
ocasiones se opta por la no inclusión en el modelo de la variable riqueza debido a la
falta de información estadística disponible y fiable.
En otro orden de cosas, la relación paramétrica establecida en un modelo
econométrico suele ser lineal, o linealizable después de alguna transformación en los
valores de las variables. En cualquier caso se trata de una representación formal que
trata de ser lo más cercana posible a la verdadera relación que es, como sabemos,
desconocida por parte del investigador.
En sentido amplio, entendemos por errores de especificación todos aquellos errores
que se cometen en la construcción de un modelo econométrico. Estos errores pueden
afectar tanto a la definición de los regresores como a las hipótesis que suponemos
cumple la perturbación aleatoria de la ecuación de regresión. En la primera categoría
de errores situaríamos al que se comete cuando no incorporamos un factor relevante
en la explicación de la variabilidad de la variable endógena de un modelo, mientras
que incurrimos en la segunda categoría de errores cuando estimamos un modelo por
MCO suponiendo que las perturbaciones tienen varianza constante cuando en
realidad son heteroscedásticas.
En este capítulo nos limitaremos a considerar los errores de especificación en un
sentido más restringido: nos referiremos por el momento a los errores cometidos al
especificar la matriz X de regresores. Se incluyen en este tipo de errores los
siguientes casos:
______________________________________
Manual de Econometría. Capítulo 4, página 2.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
a) La omisión de factores explicativos relevantes
b) La inclusión de variables supérfluas
c) Los errores de medida de las variables (problema que será analizado en un
capítulo posterior)
d) La incorrecta especificación funcional
Dedicaremos los próximos epígrafes en este capítulo al desarrollo formal de las
consecuencias que cada uno de estos tipos de error transmite sobre la estimación por
MCO en el modelo de regresión lineal. Para ello seguiremos el esquema utilizado en
los capítulos precedentes, es decir, en primer lugar formalizaremos la situación
descrita conceptualmente, a continuación pasaremos a descubrir los efectos que la
asunción de los diferentes tipos de error tirne sobre los estimadores MCO. A
continuación, se introducirán algunos elementos que permitan diagnosticar el error de
cosntrucción del modelo y, finalmente, se apuntarán las posibles conductas a seguir
para mejorar el resultado de la estimación realizada.
Conviene insistir, antes de iniciar los desarrollos enunciados, en una cuestión de
importancia capital. El trabajo con modelos econométricos no pretende el
descubrimiento a toda costa del verdadero modelo o de la relación subyacente. Se
trata de establecer los mecanismos necesarios para lograr que el investigador
aplicado se acerque en la medida de sus posibilidades, y las que ofrecen los datos y
la información teórica previa, a un nivel de concocimiento de las conductas de los
agentes económicos que le permita alcanzar, con un cierto grado de verosimilitud, los
objetivos planteados. Estos objetivos pueden ser, como ya anunciábamos en el primer
capítulo del libro, el análisis de las relaciones estructurales existentes entre las
variables o, alternativamente, la obtención de buenos pronósticos fuera de la muestra
considerada.
______________________________________
Manual de Econometría. Capítulo 4, página 3.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
2. OMISIÓN DE VARIABLES RELEVANTES
2.1. OMISIÓN DE UNA VARIABLE RELEVANTE EN UNA ESTIMACIÓN POR
REGRESIÓN LINEAL SIMPLE
Supongamos por el momento que el modelo verdadero fuese conocido por nosotros.
Para ilustrar este hecho supongamos que las variaciones en el absentismo laboral (Y)
se explican a partir de una relación lineal entre el tamaño de la empresa medido por el
número de empleados (X) y el salario medio por empleado (Z).
Y i = α + β X i + γ Z i + ui
(4.1)
Supongamos que esta relación es poblacionalmente correcta y, de este modo,
denominamos a la expresión (4.1) el modelo verdadero. En dicha ecuación, como de
costumbre, u representa el término de error aleatorio. La anterior ecuación es válida
para los n elementos de la muestra (i=1...n). El término de error u es una variable
aleatoria que satisface las hipótesis 5 a 8 enunciadas en el modelo lineal estándard,
es decir se distribuye con valor esperado igual a cero, y de forma idéntica e
independiente con varianza constante igual a σ2 y siguiendo una ley normal.
Para facilitar los desarrollos posteriores utilizaremos en lo que sigue un modelo
equivalente al anterior en el que no aparece el término constante de la relación. Para
ello basta con expresar la ecuación (4.1) en desviaciones respecto de las medias de
las variables, es decir
y i = β xi + γ z i + u i
(4.2)
en donde,
______________________________________
Manual de Econometría. Capítulo 4, página 4.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
y i = Y i - Y ; xi = X i - X ; z i = Z i - Z
con lo cual el modelo a estimar presenta solamente dos parámetros, además de la
varianza del término de error y el término constante que se derivaría de la información
proporcionada por la estimación de ß y γ.
La estimación MCO de los parámetros de (4.2), dada una muestra de n observaciones
de y, x y z, goza de las propiedades deseables. Dicho de otro modo, las estimaciones
MCO de ß y γ se obtienen haciendo
∑ ∑ xy - ∑ xz ∑ zy
βˆ = z 2 2
∑ x ∑ z - ( ∑ xz )2
2
(4.3)
γˆ =
∑ x 2 ∑ zy - ∑ xz ∑ xy
∑ x 2 ∑ z 2 - ( ∑ xz )2
y son estimadores ELIO, o sea, lineales, insesgados y de varianza mínima. Las
respectivas varianzas se obtienen de
Var( βˆ ) = σ u2
∑ z2
∑ x 2 ∑ z 2 - ( ∑ xz )2
(4.4)
∑ x2
Var( γˆ ) = σ
∑ x 2 ∑ z 2 - ( ∑ xz )2
2
u
Obsérvese que, con objeto de aligerar las expresiones análiticas, en los sumatorios se
ha eliminado la referencia al término genérico que corresponde a todos los valores
desde i=1 hasta i=n.
______________________________________
Manual de Econometría. Capítulo 4, página 5.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
Supongamos ahora que en una situación distinta a la anterior, el investigador utilizara
un modelo empírico en el que por alguna razón no utilizaramos el salario medio por
empleado (Z) como factor explicativo de las variaciones en el absentismo (Y). Tal
como apuntábamos en la introducción a este tema de la especificación errónea de un
modelo econométrico, podría suceder que la omisión de una variable explicativa se
debiera a causas tan dispares como la falta de información estadística suficiente o el
desconocimiento del hecho de la intervención de dicha variable en el modelo. En el
primer caso se trataría de una omisión por pobreza muestral, mientras que en el
segundo la razón estribaría en el desconocimiento de la influencia de la variable
suprimida.
Razones de la omisón de variables relevantes:
Limitación de la información estadística disponible (pobreza muestral)
Desconocimiento de la existencia de una relación estable entre dicha
variable y la variable endógena (desconocimiento del modelo)
Simplificación funcional (error de aproximación de la forma funcional)
La inferencia por MCO del modelo resultante de la omisión de una variable explicativa
Z, lleva a la formulación de un modelo alternativo en la forma:
y i = β xi + vi
(4.5)
en donde, como es obvio, vi= ui+γzi. Advirtamos en seguida que, el hecho de que u
cumpliera las hipótesis del modelo estándar no garantiza en absoluto que vaya a
suceder lo mismo con el nuevo término de error aleatorio v. En efecto, el término de
error v de la ecuación (4.5) es tal que su valor esperado es cero, pero su varianza
viene determinada por la varianza de la variable omitida z y que puede ser distinta
______________________________________
Manual de Econometría. Capítulo 4, página 6.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
para cada i. La independencia también vendrá condicionada a la más que probable
correlación entre los sucesivos valores de las z's, cuando los datos son temporales.
En consecuencia, v es un término de error en el que con toda probabilidad se
incumplirán las condiciones estándar de homoscedasticidad y/o no autocorrelación
serial.
Por lo que se refiere a la estimación de ß, y para la misma muestra de tamaño n, la
estimación MCO proporciona los siguientes resultados
~ ∑ xy
β=
∑ x2
que puede expresarse alternativamente, sin más que sustituir la variable y por su valor
según la ecuación (4.5), mediante:
∑ x( βx + v)
∑ xv
∑ x(γz + u ) = β + γ ∑ xz + ∑ xu
=
+
=
+
β~ =
β
β
∑ x2
∑ x2
∑ x2
∑ x 2 ∑ x2
(4.6)
Veamos a continuación cuáles son las propiedades del estimador de ß obtenido en
(4.6), es decir en una situación de especificación incorrecta debida a omisión de una
variable relevante. Por lo que respecta al valor esperado de la distribución en el
muestreo de este estimador, de (4.7) se deduce que
γ ∑ xz ∑ xu
γ ∑ xz
~
E( β ) = E[ β +
+
]=β+
≠β
2
2
∑x
∑x
∑ x2
(4.7)
o, lo que es lo mismo, el estimador de ß en el caso de omisión de una variable
relevante es un estimador sesgado. La magnitud del sesgo viene determinada por la
expresión
______________________________________
Manual de Econometría. Capítulo 4, página 7.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
SESGO =
γ ∑ xz
∑ x2
Esto significa que el signo del sesgo depende de los signos del parámetro γ y de la
covarianza entre la variable incluida x y la omitida z. Si ambos signos coinciden, el
sesgo es positivo, en tanto que si γ y Σ xz son de signos contrarios, entonces el sesgo
es negativo. Una situación extrema, aunque altamente improbable tratándose de
variables económicas, en la que x y z estuviesen perfectamente incorrelacionadas
linealmente (en cuyo caso, Σ xz = 0) conduciría a una estimación insesgada de ß a
pesar de la ausencia de z en el modelo.
Es decir, explicar las variaciones en el absentismo a través de la variabilidad del
tamaño de las empresas olvidando los salarios medios, conduce a estimadores
sesgados del parámetro que refleja la respuesta del absentismo a las variaciones en
la dimensión empresarial. Si las empresas mayores son las que ofrecen salarios
medios más elevados (rxz>0), y se espera que a mayores salarios corresponden
menores tasas de absentismo, entonces el sesgo es negativo.
Por lo que respecta a la varianza del estimador de ß, para el modelo mal especificado,
vale:
1
∑ xu 2
~
~
~
Var( β ) = E[ β - E( β ) ] 2 = E[
] = σ u2
2
∑x
∑ x2
(4.8)
Vemos que esta varianza es menor que la que se obtenía en el caso de trabajar con
el modelo completo. En efecto, la varianza del estimador para el modelo completo
("verdadero") es:
______________________________________
Manual de Econometría. Capítulo 4, página 8.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
Var( βˆ ) = σ u2
∑ z2
1
= σ u2
2
2
2
2
∑ x (1 - r 2xz )
∑ x ∑ z - ( ∑ xz )
(4.9)
Comparando las expresiones (4.8) y (4.9) se llega a la conclusión siguiente:
~
Var( β ) ≤ Var( βˆ )
que muestra como la varianza del estimador de ß que se obtiene del modelo en el que
se incurre en un error de omisión de una variable relevante es menor que la varianza
del estimador de ß obtenido del modelo correcto.
La anterior afirmación puede parecer una contradicción por cuanto nos señala que la
distribución del estimador en presencia de un error de especificación del modelo es
más concentrada que la obtenida con el modelo bien construido. Sin embargo, la
distribución de beta tilde es sesgada respecto de ß. En consecuencia, para decidir
cuál de los dos estimadores es preferible debemos recurrir a la medida de su
respectivo error cuadrático medio (ECM) que nos informará conjuntamente de la
magnitud del sesgo y de la varianza.
En el caso que nos ocupa tenemos que el ECM del estimador de ß deducido del
modelo de la ecuación (4.2), es decir en el modelo correcto es,
ECM( βˆ ) = [Sesgo ( βˆ ) ] 2 + Var ( βˆ ) = 0 +
σ u2
∑ x 2 (1 - r 2xz )
(4.10)
2
σ
u
=
∑ x 2 (1 - r 2xz )
______________________________________
Manual de Econometría. Capítulo 4, página 9.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
mientras que el ECM del estimador de ß a partir de la ecuación (4.5) en el que se
incurre en el error por omisión de la variable relevante z, resulta
~
~
~
γ ∑ xz 2 σ u2
ECM( β ) = [Sesgo ( β ) ] 2 + Var ( β ) = [
] +
∑ x2
∑ x2
(4.11)
=
γ 2 ( ∑ xz )2 σ u2
+
∑ x2
( ∑ x 2 )2
)
La comparación de las dos expresiones anteriores permite obtener, después de un
entretenido proceso de simplificación que no mostramos aquí, el resultado siguiente
~
ECM( β )
= 1 + r 2xz ( τ 2 - 1)
ˆ
ECM( β )
con τ definida como
τ=
γ
Var( γˆ )
que no es otra cosa que el valor teórico del estadístico de prueba de la hipótesis nula
Ho: γ=0. Decimos que se trata de un valor teórico puesto que en el denominador
interviene el verdadero valor de la varianza del estimador y no su estimación, como
sucede en el cálculo del estadístico t de student utilizado en el contraste de
significación individual de los parámetros en el modelo de regresión.
En definitiva, tenemos que
______________________________________
Manual de Econometría. Capítulo 4, página 10.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
ECM( βˆ ) ≤ ECM( β~ )
(4.12)
si y solo si : 1 + r ( τ - 1) > 0
2
xz
2
o, lo que es lo mismo, si
τ =|
γ
|> 1
Var( γˆ )
expresión que debemos interpretar en el sentido siguiente: la ausencia de una variable
relevante proporciona estimadores peores, en términos del error cuadrático medio,
siempre que la variable omitida tenga una significación débil en la contribución a la
variabilidad de la variable dependiente. Dicho de otra forma, la omisión de una
variable relevante no es preocupante si el valor teórico del estadístico t de student
para la prueba de significación individual es menor, en valor absoluto, que la unidad.
Debemos hacer hincapié en el hecho de que la comparación entre los estimadores se
ha venido realizando en términos del valor teórico de un estadístico de prueba. En la
práctica no disponemos más que una aproximación a este valor, fruto de la estimación
de σ2 que es deconocida, por lo que las conclusiones derivadas de las afirmaciones
anteriores deben tomarse con gran precaución.
Un ejemplo de aplicación de los resultados de la comparación entre los ECM de los
estimadores deducidos con y sin error por omisión aparece en los modelos con
multicolinealidad. Habíamos dejado en el capítulo anterior una discusión pendiente
relativa a las consecuencias de eliminar de la regresión la variable causante de la
colinealidad. Pues bien, ahora disponemos ya de mayores elementos de juicio para
tomar, o no, esta decisión drástica. Si eliminamos una variable relevante del modelo
introducimos sesgo en la estimación de los restantes estimadores pero disminuimos
sus varianzas. La omisión de la variable colineal estaría justificada solamente en
______________________________________
Manual de Econometría. Capítulo 4, página 11.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
aquellos casos en los que el estadístico de prueba de significación del parámetro que
la acompaña presentara valores sensiblemente inferiores a la unidad, es decir que la
relevancia de la variable excluida fuera escasa.
2.2. EL CASO GENERAL DE OMISIÓN DE VARIABLES
La generalización de los resultados anteriores al caso del modelo de regresión con K
variables requiere abandonar la notación sumatorial y retomar la formulación matricial.
Supongamos a tal efecto que el modelo verdadero contiene como regresores a los
que ocupan todas las columnas de la matriz X, pero estimamos (incorrectamente) un
modelo cuyos regresores forman la matriz X*:
Modelo Verdadero :
Y = Xβ + U; E(U) = 0; E(U ′U) = σ 2 I
(4.13)
Modelo Estimado :
Y = X * β +V
Los estimadores MCO que obtenemos utilizando X* como matriz de variables
explicativas son los siguientes
-1
-1
−1
b* = (X ´* X * ) X ´* Y = (X ´* X * ) X ´* Xβ + (X ´* X * ) X ´* U
(4.14)
Dichos estimadores son estimadores sesgados, puesto que
E( b* ) = ( X ´* X * ) −1 X ´* Xβ ≠ β
(4.15)
______________________________________
Manual de Econometría. Capítulo 4, página 12.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
En general, cuando cometemos errores de especificación decidiendo incorrectamente
los regresores que entran en la ecuación, los estimadores MCO son sesgados.
Cuando el error de especificación se concreta en la omisión de variables relevantes,
estimamos un modelo que contiene únicamente r regresores (matriz X1), pero el
modelo verdadero tiene K (K>r) variables explicativas, incluyendo además de X1, otro
conjunto de variables a las que llamamos X2:
Modelo Verdadero :
Y = Xβ + U = X 1 β 1 + X 2 β 2 + U
Modelo Estimado :
(4.16)
Yˆ = X * βˆ 1 = X 1 b*
X * = [ X 1 X 2 ... X r ] = X 1
X = [ X 1 X 2 ... X r X r+1 ... X K ] = [ X 1 X 2 ]
En este caso, teniendo en cuenta (4.16) podemos ver que:
( X ´* X
*
-1
) X ´ * X = ( X ´1 X
-1
1
) X ´1 [ X
1
X
2
]
(4.17)
= ( X ´1 X
-1
1
) [ X ´1 X
1
X ´1 X
2
] = [ Ir
( X ´1 X
-1
1
) X ´1 X
2
]
La última matriz de (4.17) tiene r filas y K columnas. Sus primeras r columnas forman
una matriz identidad. Las otras K-r columnas son los estimadores MCO de la
regresión
de
cada
una
de
las
variables
en
X2
(dependientes)
contra
______________________________________
Manual de Econometría. Capítulo 4, página 13.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
X1(independientes). Sustituyendo (4.17) en (4.15), que es válida en general, vemos
que los estimadores MCO son sesgados.
Además, el sesgo depende de la correlación entre las variables incluídas y las
omitidas y de los parámetros β de las variables omitidas:
E(
~
β
* j
)= β
j
+ a
j, r + 1
β
r+ 1
...+
a
j, K
β
K
(4.18)
(j = 1,2,...r)
donde el valor aj,k es el elemento de la fila j-ésima y la columna k-ésima de la matriz
(X1'X1)-1 X1'X2, es decir, los valores a son los coeficientes de la regresión que explica
el comportamiento de cada variable excluída en función de las incluidas en el modelo.
Los valores señalados con a, así como el sesgo, dependen de la correlación entre los
dos conjuntos de variables. Solamente en el caso que X1 y X2 sean ortogonales
(correlaciones nulas: X1'X2 = 0) los estimadores son insesgados.
Por otra parte, en (4.18) vemos también que el sesgo depende de la importancia real
de las variables omitidas en la explicación de la endógena (los parámetros β de los
regresores excluidos).
Por otra parte, se comprueba que el sesgo no tiende a cero al aumentar el tamaño
muestral. Por lo tanto, en presencia de variables omitidas los estimadores MCO son
inconsistentes.
Finalmente, el estimador de la varianza del error también es sesgado, con lo cual se
añade un problema nuevo a todo el proceso de estimación de modelos con variables
relevantes excluidas. Para comprobar esta afirmación debemos partir del hecho de
que el vector de residuos MCO para el modelo estimado (4.16) es (ver a este respecto
la expresión (2.11) del capítulo 2)
______________________________________
Manual de Econometría. Capítulo 4, página 14.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
e = M 1 Y = [I - X 1 ( X ´1 X
-1
1
) X ´1 ]Y
siendo M1 una matriz simétrica e idempotente de rango n-r. Teniendo en cuenta esta
última expresión y que M1 es ortogonal con X1, es decir, que:
X´1 M1 = M1 X1 = 0
podemos obtener la expresión de la suma de cuadrados de los errores para nuestro
modelo, en función de las perturbaciones U, de las exógenas X y de los parámetros β:
SCE = e′e = Y ′ M 1 Y
= ( X 1 β 1 + X 2 β 2 + U)′ M 1 ( X 1 β 1 + X 2 β 2 + U)
(4.19)
= ( X 2 β 2 + U)′ M 1 ( X 2 β 2 + U)
= U ′ M 1U + β ´2 X ´2 M 1 X 2 β 2 + 2 β ´2 X ´2 M 1U
Aplicando esperanzas a (4.19) obtenemos la expresión de la esperanza de la suma de
cuadrados de los residuos MCO:
E(e′e) = E(U ′ M 1U) + β ´2 X ´2 M 1 X 2 β 2
(4.20)
= σ 2 (n - r) + β ´2 X ´2 M 1 X 2 β 2
El estimador MCO de la varianza de la perturbación es, como sabemos, la suma de
cuadrados de los residuos dividida entre los grados de libertad (n-r). Es un estimador
sesgado, ya que:
______________________________________
Manual de Econometría. Capítulo 4, página 15.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
σˆ 2 =
e′e
n-r
(4.21)
E( σˆ 2 ) = σ 2 +
1
β ´2 X ´2 M 1 X 2 β 2
n-r
y, en definitiva, el sesgo en la estimación de la varianza del término de perturbación,
que es el segundo sumando, existe y además es de signo positivo.
En caso de excluir del modelo variables relevantes, los estimadores MCO de β
son sesgados. El sesgo depende de la correlación entre las variables excluidas y
las omitidas, y de la influencia de estas últimas sobre Y.
Los estimadores son inconsistentes.
El estimador de la varianza de la perturbación también es sesgado, por lo que el
proceso de inferencia estadística puede proporcionar resultados erróneos.
3. INCLUSIÓN DE VARIABLES IRRELEVANTES
3.1. INCLUSIÓN DE UNA VARIABLE SUPÉRFLUA
El segundo tipo de error de especificación que aboradaremos en este capítulo se
refiere a la incorporación en el modelo de variables irrelevantes o supérfluas. Para ello
supondremos en principio que el modelo verdadero contiene una única variable
explicativa y que estimamos un modelo que contiene, además, una variable
______________________________________
Manual de Econometría. Capítulo 4, página 16.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
irrelevante. Más adelante procederemos a la generalización de los resultados
alcanzados con el ejemplo más simple con el que inciamos el desarrollo.
Consideremos que el valor mensual de una cartera de activos financieros viene
explicado por el precio del dinero. Supongamos que, en un intento de explicar mejor
las variaciones temporales de la cartera, se incorpora en el modelo una segunda
variable explicativa que, como el consumo privado, refleja las variaciones en una
dimensión de la actividad económica.
Sea el modelo correcto el representado por la ecuación siguiente (en desviaciones
respecto a las medias):
y i = β xi + u i
(4.22)
en donde, Y representa el valor de la cartera, X el precio del dinero. El modelo que
incorpora la variable consumo (C), que vamos a suponer que resulte irrelevante en la
explicación del valor de la cartera, es
y i = β xi + δ ci + u i
(4.23)
Las variables se han expresado, en ambos modelos, en desviaciones respecto de sus
medias para evitar la presencia explícita del término constante de cada una de las
ecuaciones.
De este modo,
y i = Y i - Y ; xi = X i - X ;
ci = C i - C ; i = 1...n
La estimación del parámetro ß en el modelo (4.23), en el que se incluye de manera
errónea la variable c, viene dada por:
______________________________________
Manual de Econometría. Capítulo 4, página 17.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
∑ 2 ∑ xy - ∑ xc ∑ cy
β~ = c 2
∑ x ∑ c 2 - ( ∑ xc )2
(4.24)
Como se observa en la anterior expresión conservaremos el símbolo tilde para indicar
que se trata del estimador deducido de un modelo incorrecto. Este estimador es un
estimador insesgado de ß como se demuestra fácilmente sin más que utilizar estas
dos iguladades:
E[ ∑ cy] = E[ ∑ c( βx + u)] = β ∑ xc
(4.25)
E[ ∑ xy] = E[ ∑ x( βx + u)] = β ∑ x 2
En efecto:
∑ c 2 E[ ∑ xy] - ∑ xc E[ ∑ cy]
~
E[ β ] =
∑ x 2 ∑ c 2 - ( ∑ xc )2
(4.26)
∑ c ( β ∑ x ) - ∑ xc ( β ∑ xc)
=β
∑ x 2 ∑ c 2 - ( ∑ xc )2
2
=
2
Por lo que se refiere a la varianza del estimador, que coincidirá con su ECM puesto
que se trata de un estimador insesgado, tenemos
Var( β~ ) = ECM( β~ ) = σ u2
∑ c2
∑ x 2 ∑ c 2 - ( ∑ xc )2
(4.27)
= σ u2
1
∑ x (1 - r 2xc )
2
______________________________________
Manual de Econometría. Capítulo 4, página 18.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
Esta varianza es, en cualquier caso, superior a la varianza que se obtiene del modelo
correcto, es decir
~
Var( β ) = σ u2
1
1
≥ Var( βˆ ) = σ u2
2
∑ x (1 - r xc )
∑ x2
2
(4.28)
Finalmente, el estimador de la varianza del término de perturbación es insesgado a
pesar de la presencia de variables irrelevantes, es decir que se puede demostrar que:
E( σ~u2 ) = σ u2
Si repetimos el ejercicio para el estimador del parámetro δ en el modelo (4.23),
tenemos que
~ ∑ 2 ∑ cy - ∑ xc ∑ xy
δ = x2
∑ x ∑ c 2 - ( ∑ xc )2
y, utilizando de nuevo las expresiones que aparecen en (4.25), resulta
E[ δ~ ] =
∑ x 2 E[ ∑ cy] - ∑ xc E[ ∑ xy]
∑ x 2 ∑ c 2 - ( ∑ xc )2
(4.29)
=
∑ x 2 β ∑ xc - ∑ xc E[ β ∑ x 2 ]
=0
∑ x 2 ∑ c 2 - ( ∑ xc )2
que demuestra la insesgadez del estimador de δ puesto que poblacionalmente es
decir, en el modelo correcto su valor es igual a cero.
Así pues, en presencia de variables irrelevantes los estimadores MCO de los
______________________________________
Manual de Econometría. Capítulo 4, página 19.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
parámetros en el modelo de regresión siguen siendo insesgados, pero pierden
precisión como consecuencia del aumento de las varianzas de sus distribuciones
muestrales.
3.2. INCLUSIÓN DE s VARIABLES IRRELEVANTES
Para el modelo general con K variables explicativas al que se le añaden s variables
irrelevantes se mantienen las propiedades de los estimadores tal como se mostró en
el caso de un regresor. En efecto, el verdadero modelo contiene K regresores (X1),
pero añadimos en la ecuación a estimar s variables explicativas irrelevantes de más.
La matriz de regresores contiene, pues, los conjuntos X1 y X2:
Modelo
Verdadero
Y = X
Modelo
1
β
1
:
+ U
Estimado
:
(4.30)
Yˆ = X
1
b1+ X
X = [ X
X
*
= [ X
1
1
2
b
2
]
2
]
X
Teniendo en cuenta (4.30) podemos ver que los estimadores MCO son insesgados:
______________________________________
Manual de Econometría. Capítulo 4, página 20.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
( ( X ´* X
*
)
-1
X ´* )
IK 
 0  (4.31)


El sesgo es nulo, porque los coeficientes de la regresión de X1 contra X1 y X2 son la
unidad (cuando una variable se regresa contra sí misma) o cero (cuando se regresa
contra las demás). Por lo tanto, los estimadores de los coeficientes de las variables
relevantes (X1) son insesgados, mientras que los estimadores de los parámetros
correspondientes a las variables irrelevantes tienen media nula (en general, resultarán
no significativos).
El estimador de la varianza del error también es insesgado. En efecto, en este caso el
vector de residuos MCO es el siguiente:
e = MY, con M = I - X * (X ´* X * )-1 X ´*
y, teniendo en cuenta que MX1 = MX* = 0, vemos que la suma de cuadrados de los
errores de la regresión es U'M U:
SCE = e′e = Y ′MY = ( X 1 β 1 + U)′ M ( X 1 β 1 + U)
(4.32)
= U ′MU + β ´1 X ´1 M X 1 β 1 + 2 β ´1 X ´1 MU = U ′MU
La esperanza matemática de la suma de cuadrados de los errores es:
E(e′e) = E(U ′MU) = σ 2 tr(M) = σ 2 (N - K - s)
donde, como de costumbre, tr indica la traza de la matriz que, en nuestro caso,
______________________________________
Manual de Econometría. Capítulo 4, página 21.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
coincide con los grados de libertad del modelo estimado, es decir, N-K-s. El estimador
MCO de la varianza del error es insesgado, ya que:
σ~ 2 =
e′e
;
N -K -s
(4.33)
N -K -s
E (σ~ 2 ) = σ 2
=σ2
N -k -s
En caso de incluir en el modelo variables irrelevantes, los estimadores MCO son
insesgados y consistentes. El estimador de la varianza del error también lo es.
Pero hay un coste de eficiencia: los estimadores tienen varianzas mayores que si
se hubiera especificado el modelo correctamente.
4. ESPECIFICACIÓN INCORRECTA DE LA FORMA FUNCIONAL
La especificación incorrecta de la forma funcional es un error de especificación
asimilable al cometido por omisión de variables relevantes. Sus consecuencias son,
por lo tanto, estimadores MCO sesgados e inconsistentes. Para ilustrar este caso,
supondremos que el verdadero modelo es cuadrático en la (única) variable explicativa
X2, pero que, incorrectamente, estimamos un modelo lineal. Estamos omitiendo la
variable relevante X2i2. En desviaciones respecto a las medias:
______________________________________
Manual de Econometría. Capítulo 4, página 22.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
Modelo Verdadero :
y i = β 2 x 2i + β 3 x 22i + u i
(4.34)
Modelo Estimado :
y i = β 2 x 2 i + vi
Deduzcamos la expresión del estimador MCO de β2:
β~2 =
∑x y
∑x
2
2
2
(4.35)
donde,
x 2i = X
2i
- X 2 ; u i = U i - U ; i = 1...n
Tomando esperanza en (4.35) y sustituyendo y por su expresión según el modelo
"verdadero", descubrimos que el estimador en general es sesgado. El sesgo será
nulo únicamente cuando la distribución muestral de la variable X2 sea simétrica, y por
tanto cuando su momento centrado de tercer orden sea nulo. A mayor asimetría de la
distribución, mayor sesgo:
E( b2 ) = β 2 + β 3
∑ x32i
∑ x 22i
(4.36)
expresión que podemos comparar con la obtenida en (4.7) para ver que efectivamente
se trata del mismo tipo de problema y, en consecuencia, del mismo resultado.
5. ESPECIFICACIÓN INCORRECTA DEL NIVEL DE ANÁLISIS. PROBLEMAS DE
______________________________________
Manual de Econometría. Capítulo 4, página 23.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
AGREGACIÓN Y "FALACIA ECOLÓGICA"
En este apartado se menciona un problema de especificaciín que encontramos
frecuentemente en la práctica. Consiste en especificar el modelo a un nivel de análisis
inadecuado. Por ejemplo, una relación causal se produce a nivel micro, entre agentes
económicos, pero la estimamos e interpretamos, incorrectamente, con datos
agragados (macro), como si la interpretación micro pudiera trasladarse al nivel
agregado. A este sesgo de agregación se le llama en la literatura, a veces, "falacia
ecológica" (interpretar para un colectivo resultados que solo son válidos al nivel
individual).
Piense en el gasto en medicamentos de un paciente (nivel 1), función lineal de la
gravedad, aproximada por la edad del paciente. Cuanto más veijo, más gasto. Pero
estimamos la ecuación a nivel de médico prescriptor (nivel 2). Su variable endógena
es el gasto medio por paciente y como explicativa tendremos la edad media de los
pacientes asignados a cada médico. ¿Influye relamente la edad media de los
pacientes en el gasto del médico?. No, pero la ecuación resulta de agregar las
ecuaciones individuales de los pacientes que atiende.
Volveremos a este problema en el capítulo de los modelos de panel y los modelos
jerárquicos. De momento, lo dejamos así planteado.
______________________________________
Manual de Econometría. Capítulo 4, página 24.
1
2
© Carlos Murillo Fort y Beatriz González López-Valcárcel (2000)
1
Catedrático Universidad Pompeu Fabra
2
Catedrática Universidad de Las Palmas de GC
Descargar