Econometria I - WordPress.com

Anuncio
Econometría I
Autores:1
Jose Miguel Benavente
Andrés Otero
Javiera Vásquez
Agosto 2007
1 Cualquier
error es responsabilidad exclusiva de los autores.
Índice general
1. Introducción
5
2. Modelo de Regresión Lineal
8
2.1. Análisis de Regresión . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.1.1. ¾Qué es una regresión? . . . . . . . . . . . . . . . . . . . .
8
2.1.2. Relaciones estadísticas versus relaciones determinísticas . .
9
2.1.3. Regresión versus Causalidad . . . . . . . . . . . . . . . . .
10
2.1.4. Regresión versus Correlación . . . . . . . . . . . . . . . . .
10
2.2. Análisis de regresión con dos variables . . . . . . . . . . . . . . .
14
2.2.1. Función de regresión poblacional (FRP) . . . . . . . . . .
16
2.2.2. Especicación estocástica de la función de regresión poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.2.3. Función de regresión muestral . . . . . . . . . . . . . . . .
18
2.2.4. Propiedades de un Estimador . . . . . . . . . . . . . . . .
21
2.3. Modelo de regresión con dos variables . . . . . . . . . . . . . . . .
24
2.3.1. Método de Mínimos Cuadrados Ordinarios . . . . . . . . .
24
2.3.2. Supuestos detrás del método MCO . . . . . . . . . . . . .
31
2.3.3. Errores estándar de los Estimadores Mínimos Cuadrados
Ordinarios . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
1
2.3.4. Estimador Mínimo Cuadrado Ordinario de σ 2 . . . . . . .
36
2.4. Modelo de Regresión con k variables . . . . . . . . . . . . . . . .
38
2.4.1. Representación Matricial del Modelo de Regresión Lineal .
38
2.4.2. Estimador Mínimo Cuadrados Ordinarios . . . . . . . . . .
39
2.5. Propiedades del estimador MCO . . . . . . . . . . . . . . . . . . .
41
2.5.1. Propiedad de mejor estimador lineal insesgado . . . . . . .
42
2.5.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . .
42
2.6. Geometría del Estimador MCO . . . . . . . . . . . . . . . . . . .
44
2.7. Bondad de Ajuste y Análisis de Varianza . . . . . . . . . . . . . .
45
2.7.1. Modelo de Regresión Lineal en Desvíos . . . . . . . . . . .
45
2.7.2. Análisis de Varianza . . . . . . . . . . . . . . . . . . . . .
47
2.7.3. Bondad de Ajuste: R2 y R̃2 . . . . . . . . . . . . . . . . .
48
2.8. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
2.8.1. Test t (Una hipótesis lineal) . . . . . . . . . . . . . . . . .
53
2.8.2. Test F (Conjunto de hipótesis lineales) . . . . . . . . . . .
61
2.8.3. Intervalos de Conanza . . . . . . . . . . . . . . . . . . . .
61
2.8.4. Test de Normalidad (Test de Jarque-Bera) . . . . . . . . .
63
2.9. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
2.9.1. Medición de la precisión de la predicción . . . . . . . . . .
67
2.10. Estimación Máximo Verosímil (EMV) . . . . . . . . . . . . . . . .
74
2.10.1. Propiedades de los estimadores MV . . . . . . . . . . . . .
75
2.10.2. Estimación MV . . . . . . . . . . . . . . . . . . . . . . . .
76
2.11. Inferencia en el contexto MV . . . . . . . . . . . . . . . . . . . . .
80
2.11.1. Test de Razón de Verosimilitud (LR) . . . . . . . . . . . .
80
2
2.11.2. Test de Wald (W) . . . . . . . . . . . . . . . . . . . . . . .
81
2.11.3. Test del Multiplicador de Lagrange (LM) . . . . . . . . . .
81
2.12. Algunas acotaciones respecto a la estimación y la inferencia MV .
85
3. Forma Funcional y Especicación
87
3.1. Regresores Estocásticos en el Modelo de Regresión Lineal . . . . .
87
3.2. Incorporación de No Linealidades . . . . . . . . . . . . . . . . . .
89
3.2.1. Test de No Linealidades Omitidas (Test de Reset) . . . . .
90
3.3. Variables Dummies o cualitativas . . . . . . . . . . . . . . . . . .
92
3.3.1. Posibles usos de las variables Dummies . . . . . . . . . . .
97
3.4. Variable Dependiente Rezagada . . . . . . . . . . . . . . . . . . . 101
3.4.1. Ejemplo y advertencias sobre el uso de variable dependiente
rezagada como regresor . . . . . . . . . . . . . . . . . . . . 103
3.5. Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.5.1. Ejemplo: Retornos a la educación, diferencias entre hombres y mujeres . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.6. Regresión Particionada . . . . . . . . . . . . . . . . . . . . . . . . 109
3.7. Omisión de Variables Relevantes . . . . . . . . . . . . . . . . . . . 110
3.7.1. Impacto sobre el Insesgamiento . . . . . . . . . . . . . . . 110
3.7.2. Impacto sobre la Varianza . . . . . . . . . . . . . . . . . . 111
3.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.8. Inclusión de Variable Irrelevantes . . . . . . . . . . . . . . . . . . 114
3.8.1. Impacto sobre Insesgamiento . . . . . . . . . . . . . . . . . 114
3.8.2. Impacto sobre Varianza
. . . . . . . . . . . . . . . . . . . 114
3.8.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3
3.9. Perturbaciones no Esféricas . . . . . . . . . . . . . . . . . . . . . 117
3.9.1. Consecuencias de estimación por MCO . . . . . . . . . . . 118
3.9.2. Estimación Eciente: Mínimos Cuadrados Generalizados . 118
3.9.3. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 119
3.9.4. Estimación cuando Ω es desconocida:
Mínimos Cuadrados Factibles . . . . . . . . . . . . . . . . 120
3.9.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . 121
3.9.6. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . 130
4. Problemas con los datos
149
4.1. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.1.1. Multicolinealidad Exacta y Multicolinealidad Aproximada
4.1.2. Detección de Multicolinealidad
151
. . . . . . . . . . . . . . . 151
4.1.3. Otros métodos de detección de multicolinealidad . . . . . . 153
4.1.4. Remedios contra la Multicolinealidad . . . . . . . . . . . . 155
4.2. Error de Medición . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.2.1. Estimación por Variables Instrumentales . . . . . . . . . . 159
4.2.2. Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . 160
4
Capítulo 1
Introducción
Econometría es la ciencia que aplica métodos matemáticos y estadísticos al análisis de datos económicos, con el objetivo de dotar de una base empírica a una
teoría económica, para así refutarla o vericarla.
Aunque la econometría parece ser tan antigua como la misma ciencia económica,
sólo en 1930 se crea la Sociedad Econométrica, la cual sistematizó su estudio y
práctica. En 1933 se lanza el primer número de Econometrica en el que Ragnan
Frish (uno de los fundadores de la Sociedad Econométrica, a quién de hecho, se
le acredita el haber acuñado el término .Econometría") destaca: "La experiencia
ha mostrado que cada uno de estos tres puntos de vista, el de la estadística, la
teoría económica y las matemáticas, es necesario, pero por si mismo no suciente
para una comprensión real de las relaciones cuantitativas de la vida económica
modera. Es la unión de los tres aspectos lo que constituye una herramienta de
análisis potente. Es la unión lo que constituye la econometría".
Sin embargo, las metodologías aplicadas en econometría (los tres puntos de vista
de Frish), no han sido utilizados exclusivamente por la ciencia económica. Otras
ciencias naturales también han aprovechado sus ventajas. Sin embargo, en el
campo del comportamiento económico adquieren especial particularidad y relevancia, en tanto el ambiente y el comportamiento económicos, son esencialmente
no-experimentales, colocándonos en situaciones donde todas las variables relevantes parecen moverse constantemente y donde existen factores impredecibles
que pueden alterar los resultados. Es por esto que la econometría es esencialmente una ciencia no determinística, donde se reconoce la existencia de factores
esencialmente impredecibles que determinan nuestras conclusiones.
5
Econometría I
FEN, Universidad de Chile
Capitulo 1: Introducción
La metodología econométrica se puede detallar (a grandes rasgos) según lo enuncia la Figura 1. En primer lugar contamos con una teoría económica que busca
validez. Para ella, es necesario encontrar su equivalente modelo econométrico
(relaciones matemáticas que describan el comportamiento de los agentes involucrados). Para estimar entonces dicho modelo, se necesita de la ecuación resultante
del modelo, los datos que ella implica y los supuestos bajo los cuales se construye.
Sólo una vez que contamos con dichos ingredientes se procede a estimar cuantitativamente las predicciones o implicancias expuestas por la teoría económica
inicial. Luego, se debe realizar inferencia o pruebas de hipótesis, las cuales nos indicarán si nuestros resultados son estadísticamente signicativos. Si la respuesta
es si, entonces sólo queda realizar las predicciones pertinentes y las recomendaciones de política asociadas. Si la respuestas es no, entonces, debemos revisar los
posibles errores que existan a nivel de teoría o metodología.
TEORIA ECONOMICA
MODELO ECONOMETRICO
ECUACION
DATOS
SUPUESTOS
ESTIMACION
INFERENCIA Y PRUEBA DE HIPOTESIS
SI
NO
PREDICCIONES Y
RECOMENDACIONES DE POLITICA
TEORIA VERIFICADA
6
Econometría I
FEN, Universidad de Chile
Capitulo 1: Introducción
Esta breve descripción no es más que una somera vista a lo que realmente implica
hacer econometría. El camino no está exento de dicultades (en términos de la
calidad de los datos, de la dicultad de medir las variables que la teoría indica,
de los supuestos que realizamos, etc), sin embargo, esto, más que una dicultad,
implica un desafío.
7
Capítulo 2
Modelo de Regresión Lineal
2.1. Análisis de Regresión
2.1.1. ¾Qué es una regresión?
La regresión es un elemento fundamental en la Econometría, corresponde a un
estudio de dependencia entre una variable dependiente y una o más variables
explicativas. El análisis de regresión tiene como objeto estimar y/o predecir el
promedio poblacional de la variable dependiente para valores jos de la(s) variable(s) explicativa(s).
Por ejemplo, observemos la Figura 1, en el eje de las abscisas tenemos nuestra
variable explicativa (X): notas controles, y en el eje de las ordenadas tenemos
nuestra variable dependiente (Y): nota examen.
Notas de los controles
Figura 1: Distribución de las Notas del Examen vs. Promedio Notas de
Controles
8
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Podemos observar dos cosas: primero, para cada nota posible en los controles
(3.0, 4.0,..) tenemos un rango o distribución de notas en el examen y segundo,
el promedio de notas en el examen es mayor mientras mayores son notas de los
controles. Esto último se puede apreciar al trazar una recta que una los valores
promedios de notas en examen para cada nota en los controles (linea negra del la
Figura 1), la que corresponde a la recta de regresión. Esta nos permite, para
cada nivel de edad, predecir la estatura promedio correspondiente.
2.1.2. Relaciones estadísticas versus relaciones determinísticas
La calidad de un producto, por ejemplo el vino, dependerá de como fue su cosecha
y por lo tanto, de variables como la temperatura al que estuvo expuesta la uva, la
cantidad de lluvia, sol y los fertilizantes. La relación entre estas variables explicativas y la calidad del vino tiene una naturaleza estadística, ya que si bien estas
variables ayudan al productor de vino a saber más o menos como será la cosecha,
no podrá predecir en forma exacta la calidad del producto debido a los errores
involucrados en estas variables y porque pueden haber otros factores difíciles de
medir que estén afectando la calidad del vino.
La variable dependiente, en este caso la calidad del vino, tiene una variabilidad
aleatoria, ya que no puede ser explicada en su totalidad por las variables explicativas.
En la econometría nos interesa la dependencia estadística entre variables, donde
tratamos con variables aleatorias, es decir, variables que tienen una distribución
de probabilidad. La dependencia determinística, por el contrario, trata relaciones
como la ley de gravedad de Newton1 , las que son exactas (no tienen naturaleza
aleatoria).
1 La
ley de gravedad de Newton plantea que toda partícula en el universo atrae a cualquier
otra partícula con una fuerza directamente proporcional al producto de sus masas e inversamente
2
), donde F=fuerza, m1 y m2
proporcional al cuadrado de la distancia entre ellas: F=k( mr1 m
2
son la masa de las dos partículas, r es la distancia y k una constante de proporcionalidad. Esta
es una relación determinística, ya que para valores de masas, distancia y constante sabemos
exactamente a la fuerza que se atraen estas partículas. Si alguna de las variables estuviera
medida con error, la ley de Newton pasa a ser una relación estadística, y F se convierte en una
variable aleatoria.
9
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.1.3. Regresión versus Causalidad
Es importante tener claro que la regresión es una relación estadística, que no
implica causalidad apriori. En el ejemplo del vino, no hay una razón estadística
para suponer que la lluvia no depende de la calidad del vino. Pero nuestro sentido
común nos hace considerar como variable dependiente la calidad del vino y no la
lluvia. Es importante recordar de aquí en adelante que una relación estadística
no puede por sí misma implicar en forma lógica una causalidad.
2.1.4. Regresión versus Correlación
El Análisis de Correlación está estrechamente relacionado con el de regresión
aunque conceptualmente son dos cosas muy diferentes. El análisis de correlación
tiene como objetivo medir el grado de asociación lineal entre dos variables, medida
a través del coeciente de correlación. Por ejemplo, se puede estar interesado
en medir el grado de correlación entre años de educación y salario. En cambio, el
análisis de regresión trata de estimar o predecir el valor promedio de salario para
un nivel dado de educación.
Las diferencias fundamentales son que, en el análisis de regresión, tenemos una
variable dependiente y una o más explicativas, la que son tratadas en forma
asimétrica: la variable dependiente es aleatoria, tiene una distribución de probabilidad, en cambio las variables explicativas toman valores jos. En el análisis de
correlación las variables son tratadas de forma simétrica: la correlación entre educación y salario es igual a la correlación entre salario y educación. Además ambas
variables son aleatorias. Así, si x e y son dos variables aleatorias, el coeciente de
correlación se dene de la siguiente manera:
ρyx =
E {[x − E(x)] [y − E(y)]}
σxy
p
=p 2 2
σx σy
var(x)var(y)
Lo que se calcula para una muestra de la siguiente forma:
¤£
¤
Pn £
yi − Y
i=1 xi − X
ρ̂yx = qP £
¤2 qPn £
¤2
n
x
−
y
−
X
Y
i
i
i=1
i=1
con X =
1
n
Pn
i=1
xi e Y =
1
n
Pn
i=1
yi .
De ahora en adelante denotaremos con un ˆ a los estimadores de un estadístico obtenidos a partir de información muestral.
10
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Ejemplo 1: Portales de Internet, correlación entre número de visitas y valor de
la empresa:
Ejemplo 2: Correlación entre Empleo y Producto (serie de tiempo):
11
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Ejemplo 3: Correlación entre Producto per-capita y ranking fútbol:
Ejemplo 4: Correlación entre temperatura media del día y estudiantes ausentes
a clases:
12
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Algunas precauciones con el coeciente de correlación:
Cuidado cuando el grado de correlación muestral depende de solo unas
pocas observaciones.
El coeciente de correlación mide una relación lineal. Por lo tanto, una
variable puede depender de otra aún cuando la correlación sea cero si la
relación es no lineal.
Correlación no implica causalidad económica, es sólo una relación estadística.
Correlación puede indicar relación espuria.
No olvidar que la correlación muestral es una variable aleatoria y que por
lo tanto, el coeciente por si sólo no garantiza la existencia de una relación
estadística entre las series.
13
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.2. Análisis de regresión con dos variables
Para esta sección asumiremos que existe una variable dependiente (Y) que es
explicada por sólo una variable (X).
Consideremos el siguiente ejemplo. En la Tabla 1 se presentan datos de salarios
y nivel de educación para una población de 60 individuos 2
Tabla 1: Salarios y Años de Educación
Salario (Y)
E(Y|X)
8
16000
32868
50000
80000
100000
150000
219120
300000
547800
166199
9
18260
36520
54780
82170
109560
170000
273900
365200
730400
204532
10
Años de Educación (X)
11
15000
40000
58000
90000
120000
182600
280000
380000
913000
230956
12
15000
40000
60000
90000
120000
188973
328680
434120
821700
233164
20000
50000
73040
100000
140000
219120
365200
500000
1064558
281324
13
20000
54780
80000
100500
160000
257880
400000
550000
1460800
342662
14
15
21912
60000
89000
120000
200000
300000
500000
650000
1500000
382324
35000
73040
100000
140000
230000
400000
600000
883085
1826000
476347
16
40000
90000
105000
180000
280000
434686
730400
1000000
2487041
594125
17
60000
120000
165784
250000
365200
600000
1095600
1643400
4000000
922220
salario
2000000
3000000
4000000
La población tiene 10 niveles distintos de educación, que van desde 8 a 17. Para
cada uno de estos niveles tenemos 9 individuos con distintos salarios. A pesar de la
variabilidad en los salarios para cada nivel educacional considerado, en promedio
el salario se incrementa a medida que los años de educación aumentan. Esto
último se puede vericar al calcular el promedio para cada nivel de educación, lo
que se presenta en la última linea de la Tabla 1, estos corresponden a los valores
esperados condicionales, ya que dependen de los valores dados de la variable X.
En la Figura 2, los valores medios condicionales están marcados con una cruz. La
unión de estos valores representa la Recta de regresión poblacional, donde
el término poblacional se reere a que estamos trabajando con el total de la
población.
0
1000000
Recta de regesión
poblacional (RRP)
x
8
x
x
10
x
x
x
x
14
12
x
x
x
16
18
Escolaridad
Figura 2: Distribución de los salarios para distintos niveles de educación.
2 Una
población de 60 individuos puede parecer un poco pequeña, pero por el momento
consideremos que estas familias son el total existente
14
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Denición: La curva de regresión poblacional es simplemente el lugar geométrico de las medias condicionales de la variable dependiente para los valores jos de
la(s) variable(s) explicativa(s).
En el ejemplo anterior los valores de Y (salario) no estaban distribuidos de forma
simétrica en torno al valor promedio para cada valor X, desde ahora asumiremos
que esto si se cumple, tal como lo podemos apreciar en la Figura 3.
Figura 3: Ingreso semanal y Gasto semanal. Distribución simétrica
En este ejemplo, se ve la relación entre ingreso semanal y gasto en consumo
semanal, para cada nivel de ingreso se tiene un rango de gasto que se distribuye
en forma simétrica entorno al valor promedio condicional de gasto.
15
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.2.1. Función de regresión poblacional (FRP)
De lo anterior es claro que la media condicional E(Y|Xi ) es función de Xi , donde
Xi es un valor dado de X:
E(Y |Xi ) = f (Xi )
(2.1)
donde f(·) es una función cualquiera, en el ejemplo anterior era una función lineal.
La ecuación (2.1) se denomina Regresión Poblacional.
Que forma tiene f(·) es una pregunta empírica, aunque muchas veces la teoría nos
puede ayudar bastante. Supongamos que en nuestro ejemplo anterior el salario
esta relacionado linealmente con la educación, así podemos suponer que la función
de regresión poblacional E(Y|Xi ) es una función lineal de Xi , es decir:
E(Y |Xi ) = β1 + β2 Xi
(2.2)
donde β1 y β2 se denominan coecientes de regresión. Así el objetivo es estimar
β1 y β2 a partir de datos de X e Y.
2.2.2. Especicación estocástica de la función de regresión
poblacional
En los dos ejemplos anteriores veíamos que a medida que se incrementa la variable explicativa (educación o ingreso), el valor promedio de la variable dependiente (salario o gasto) también se incrementaba. Sin embargo, este patrón se da
solo a nivel de promedios. A nivel individual esto no es necesariamente cierto.
En la Tabla 1 podemos ver que el individuo que gana menos ingreso con 9 años
de educación, gana menos que el individuo con 8 años de educación con mayor
salario.
Existe una dispersion de los valores individuales de Yi en torno al promedio
condicional de esta variable. De esta forma, podemos denir:
ui = Yi − E(Y |Xi )
o
Yi = E(Y |Xi ) + ui
(2.3)
donde ui es una variable aleatoria no observable que toma valores positivos o negativos. Este término surge pues no se puede esperar que todas las observaciones
16
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Yi sean igual al promedio condicional a Xi .
Recordemos que la regresión es una relación estadística, a pesar de conocer los
valores de Xi , esto no nos permite predecir en forma exacta Yi . Lo que no podemos explicar debido a que tiene naturaleza aleatoria se representa a través de ui ,
denominado término de error estocástico.
Entonces siguiendo el ejemplo de la Figura 3, podemos decir que el gasto de una
familia individual (Yi ) corresponde a la suma de dos componentes:
E(Y|Xi ), que corresponde a la media de gasto de todas las familias con el
mismo nivel de ingresos → Componente Determinístico
ui → Componente Aleatorio
Si E(Y|Xi ) es lineal en Xi , podemos escribir la ecuación (2.3) de la siguiente
forma:
Yi = E(Y |Xi ) + ui
= β1 + β2 Xi + ui
(2.4)
Tomando el valor esperado condicional en Xi a la ecuación (2.4):
E(Yi |Xi ) = E[E(Y |Xi )|Xi ] + E(ui |Xi )
= E(Y |Xi ) + E(ui |Xi )
(2.5)
Debido a que E(Yi |Xi ) = E(Y |Xi ), implica que:
E(ui |Xi ) = 0
(2.6)
Así, el supuesto de que la recta de regresión pasa a través de las medias condicionales de Y, implica que la media condicional de ui es cero.
17
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.2.3. Función de regresión muestral
En la mayoría de los fenómenos económicos a estudiar, no disponemos de las
observaciones totales de la población, como hemos supuesto hasta ahora. En la
práctica se tiene alcance nada más que a una muestra de los valores de Y que
corresponden a unos valores jos de X. En este caso tenemos que estimar la función de regresión poblacional en base a información muestral.
Los datos poblacionales asociados a la Figura 3 son los siguientes:
Tabla 2. Ingreso familiar
Y|X
80 100 120
Gasto en
55 65
79
consumo
60 70
84
familiar
65 74
90
semanal
70 80
94
(Y)
75 85
98
88
Media Condicional 65 77
89
(X) y
140
80
93
95
103
108
113
115
101
Gasto
160
102
107
110
116
118
125
113
en consumo
180 200
110 120
115 136
120 140
130 144
135 145
140
125 137
(Y).
220
135
137
140
152
157
160
162
149
240
137
145
155
165
175
189
161
260
150
152
175
178
180
185
191
173
Supongamos que nosotros no conocemos estos datos, es decir, no tenemos acceso
a las observaciones correspondientes a la población total. Tenemos a nuestra disposición sólo una muestra (Tabla 3), la que ha sido obtenida de forma aleatoria
de la población.
Es importante notar que a partir de una población podemos sacar una gran cantidad de muestras en forma aleatoria y en la realidad nosotros observamos solo
una de ellas. Debido a esta variabilidad en las muestras podremos estimar la FRP
pero no de manera precisa. Para ejemplicar esto supongamos que además de la
muestra en la Tabla 3 se saco otra muestra (Tabla 4) a partir de la información
poblacional.
Tabla 3. Muestra aleatoria
de la población en tabla 2.
Y
X
70
80
65
100
90
120
95
140
110
160
115
180
120
200
140
220
155
240
150
260
Tabla 4. Muestra aleatoria
de la población en tabla 2.
Y
X
55
80
88
100
90
120
80
140
118
160
120
180
145
200
135
220
145
240
175
260
18
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Al gracar los datos de las Tablas 3 y 4 obtenemos los diagramas de dispersion en
la Figura 4. En este diagrama se han trazado dos rectas de regresión muestral: FRM1 corresponde a la primera muestra y FRM2 corresponde a la segunda.
Como vemos, no es posible asegurar cual de las dos rectas muestrales representa
mejor la recta de regresión poblacional.
Entonces es importante tener en mente que las rectas de regresión muestral representan la recta de regresión poblacional, pero debido a uctuaciones muestrales
pueden ser consideradas sólo como una aproximación.
Como contraparte muestral la función de regresión muestral puede escribirse
como:
Ŷi = β̂1 + β̂2 Xi
(2.7)
donde Ŷi es el estimador de E(Y|Xi ), β̂1 es el estimador de β1 y β̂2 es el estimador
de β2 .
Figura 4: Rectas de Regresión basadas en dos muestras distintas
Denición: Un estimador es una regla, fórmula o método que dice cómo determinar el parámetro poblacional a partir de la información suministrada por la
muestra disponible.
De igual manera que para el caso poblacional la función de regresión muestral
19
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
también tiene una representación estocástica:
Yi = β̂1 + β̂2 Xi + ûi
(2.8)
Entonces, el objetivo del Análisis de Regresión es estimar la Función de regresión
poblacional:
Yi = β1 + β2 Xi + ui
(2.9)
con base en la Función de regresión muestral:
Yi = β̂1 + β̂2 Xi + ûi
(2.10)
Esta aproximación se puede ver en la Figura 5:
Figura 5: Rectas de Regresión muestral y poblacional
En términos de la función de regresión muestral, la Yi observada puede ser expresada como:
Yi = Ŷi + ûi
(2.11)
y en términos de la función de regresión poblacional puede ser expresada como:
Yi = E(Y |Xi ) + ui
20
(2.12)
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
En la gura 5 podemos notar que para todo Xi a la derecha del punto A, Ŷi
sobreestima E(Y |Xi ). De igual manera, para cualquier punto a la izquierda de A,
Ŷi subestima E(Y |Xi ). Esta sobreestimación y subestimación del modelo poblacional es inevitable debido a las uctuaciones muestrales.
¾Cómo se puede construir la función de regresión muestral para β̂1
y β̂2 que este lo más cerca de los valores verdaderos (poblacionales) de
β1 y β2 ?
2.2.4. Propiedades de un Estimador
Un estimador, siendo función de la muestra, es una variable aleatoria y tiene su
propia distribución de probabilidad.
Las propiedades de los estimadores son las siguientes:
1. Se denomina sesgo a la diferencia entre el valor esperado del estimador y
su verdadero valor: E(β̂) − β . De esta forma, se dice que β̂ es un estimador
insesgado si E(β̂) = β .
2. El estimador es eciente o de mínima varianza si no hay ningún otro estimador insesgado que tenga una varianza menor que β̂ . En general se trata de
utilizar estimadores de varianza pequeña, pues de este modo la estimación
es más precisa.
3. El Error Cuadrático Medio (ECM) es una propiedad de los estimadores que
mezcla los conceptos de eciencia e insesgamiento. El ECM de β̂ se dene
como:
ECM (β̂) = E[(β̂ − β)2 ]
Lo que se puede expresar equivalentemente de la siguiente manera:
ECM (β̂) = V ar(β̂) + [Sesgo(β̂)]2
4. La última propiedad de un estimador es la consistencia. El estimador β̂
es consistente si converge (en el limite) al verdadero valor del parámetro.
Se dice que la sucesión de variables aleatorias X1 , X2 ,...,Xn converge en
probabilidad a la variable aleatoria (o constante) X si:
∀ε > 0,
lı́m P r[|Xn − X| < ε] = 1
n→∞
Esto se denota plim Xn = X . Dos reglas útiles al respecto son:
21
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
plim
¡ X ¢ plimX
= plimY
Y
plim (X · Y )=plimX · plimY
Ejemplo: Tenemos una variable yi que esta compuesta por la suma de un componente jo o determinístico (c) y un componente aleatorio(ui ):
yi =
+
c
|{z}
componente
f ijo
ui
|{z}
componente
aleatorio
Si ui ∼ N (0, σu2 ), entonces:
µ = E(yi ) = c
V (yi ) = E[(yi − E(yi ))2 ] = E[u2i ] = σu2
22
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Ahora consideremos el siguiente estimador de la esperanza de yi , la media muestral:
n
1
1X
µ̂ = Y = (y1 + y2 + ... + yn ) =
yi
n
n i=1
Veamos que propiedades tiene este estimador:
Insesgamiento: E(µ̂) = µ
¡ ¢
E(µ̂) = E Y
µ
¶
1
= E
(y1 + y2 + ... + yn )
n
1
=
(E(y1 ) + E(y2 ) + ... + E(yn ))
n
dado que E(yi ) = E(c) + E(ui ) = c,
| {z }
0
E(µ̂) = c = µ
Eciencia: V ar(µ̂)<V ar(µ̂1 )
Comparemos el estimador promedio muestral con un estimador que es simplemente cualquier valor de yi:
µ̂ = Y
µ̂1 = yi
E(Y ) = c
E(yi ) = c
2
V ar(Y )= σnu
V ar(yi ) = σu2
Entonces para n>1 siempre se cumple que µ̂ es más eciente (menor varianza) que µ̂1 .
Error Cuadrático Medio: Como µ̂ es un estimador insesgado de µ al
igual que µ̂1 , el error cuadrático medio de ambos estimadores es igual a la
varianza del estimador, de esta forma µ̂ tiene menor error cuadrático medio
que µ̂1 .
Consistencia: µ̂ es un estimador consistente dado que:
plim(µ̂) = plim(Y ) = c
Ya que si lı́mn→∞ V ar(Y ) = 0 ⇒ plim(Y ) = c.
23
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.3. Modelo de regresión con dos variables
2.3.1. Método de Mínimos Cuadrados Ordinarios
De la sección anterior teníamos que el error estimado era:
ûi = Yi − Ŷi
= Yi − β̂1 − β̂2 Xi
(2.13)
es decir, los residuos son simplemente la diferencia entre los valores verdaderos y
estimados de Y.
Si queremos que la función de regresión muestral sea lo más cercana posible
a la poblacional, debemos tratar de escoger los coecientes de regresión (los β 's)
de forma tal que los errores sean lo más pequeños posible. De acuerdo a esto
un criterio para escoger la P
función P
de regresión muestral podría ser minimizar
la suma de los los errores:
ûi = (Yi − Ŷi ), sin embargo este criterio no es
muy bueno. Observemos la Figura 6, existe una gran diferencia en la magnitud
de los errores, sin embargo en la suma de los errores todos reciben el mismo peso.
Debido a esto es posible que la suma de los errores sea muy pequeña cercana a
cero, incluso cuando la dispersion de los errores en torno a la función de regresión
muestral es alta.
Figura 6: Mínimos Cuadrados Ordinarios
24
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Este problema puede ser solucionado al considerar la suma de los errores al
cuadrado como criterio a minimizar, en este caso los errores más lejos reciben
un mayor peso:
X
X
(Yi − Ŷi )2
û2i =
X
=
(Yi − β̂1 − β̂2 Xi )2
(2.14)
El Método de Mínimos CuadradosPOrdinarios (MCO) escoge β̂1 y β̂2 de
forma tal que para una muestra dada,
û2i sea lo más pequeño posible.
Entonces el problema que este método propone resolver es el siguiente:
X
mı́n
(Yi − β̂1 − β̂2 Xi )2
β̂1 ,β̂2
(2.15)
las condiciones de primer orden de este problema son:
P
X
X
∂ û2i
= −2
(Yi − β̂1 − β̂2 Xi ) = −2
ûi = 0
∂ β̂1
P
X
X
∂ û2i
= −2
(Yi − β̂1 − β̂2 Xi )Xi = −2
ûi Xi = 0
∂ β̂2
(2.16)
Simplicando (2.16) y (2.17) obtenemos las ecuaciones normales:
X
X
Yi = nβ̂1 + β̂2
Xi
X
X
X
Yi Xi = β̂1
Xi + β̂2
Xi2
(2.18)
(2.17)
(2.19)
Debemos resolver un sistema con dos ecuaciones y dos incógnitas. De la ecuación
(2.18) podemos despejar β̂1 :
P
β̂1 =
Yi − β̂2
n
P
Xi
reemplazando (2.20) en (2.19):
ÃP
P ! X
X
X
Yi − β̂2 Xi
Yi X i =
·
Xi + β̂2
Xi2
n
De esta forma, el estimador de β2 es:
P
P P
n · Yi Xi − Xi Yi
P
P
β̂2 =
n · Xi2 − ( Xi )2
25
(2.20)
(2.21)
(2.22)
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
El que puede ser escrito de la siguiente forma (hacerlo):
P
xi y i
β̂2 = P 2
xi
P
donde xi = Xi − X e yi = Yi − Y , con X = n1 ni=1 Xi e Y =
Reemplazando (2.22) en (2.20):
P 2P
P P
Xi
Yi − Xi Xi Yi
P
P
β̂1 =
n · Xi2 − ( Xi )2
= Y − β̂2 X
(2.23)
1
n
Pn
i=1
Yi
(2.24)
(2.25)
Los resultados (2.23) y (2.25) podrían haber sido obtenidos de igual forma, expresando inicialmente el modelo de regresión en desviaciones con respecto a la media.
El modelo de regresión original es:
Yi = β̂1 + β̂2 Xi + ûi
si le restamos el promedio de esta:
Y = β̂1 + β̂2 X + ûi
(2.26)
y recordando que el valor esperado del término de error es 0, tenemos el siguiente
modelo de regresión lineal expresado en desviaciones con respecto a la media:
(Yi − Y ) = β̂2 (Xi − X) + ûi
yi = β̂2 xi + ûi
Así el problema de Mínimos Cuadrados Ordinarios es:
X
mı́n
(yi − β̂2 xi )2
β̂2
La condición de primer orden de este problema es:
P
X
∂ û2i
= −2
(yi − β̂2 xi )xi = 0
∂ β̂2
Así obtenemos el mismo estimador de β2 , encontrado en (2.23), y β1 se obtiene
simplemente despejando la ecuación (2.26):
β̂1 = Y − β̂2 X
26
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
que corresponde a lo mismo en la ecuación (2.25).
Una vez estimados los coecientes de regresión mediante MCO y utilizando la
información muestral, la recta de regresión muestral (Ŷi = β̂1 + β̂2 Xi ) puede ser
obtenida fácilmente.
Ejemplo 1: Disponemos datos de una empresa química sobre el gasto que ella realiza en Investigación y Desarrollo (I+D) y las ganancias anuales de esta
compañía:
Año
1990
1991
1992
1993
1994
1995
Gasto en I+D
(Millones de dólares)
2
3
5
4
11
5
Ganancia Anual
(Millones de dólares)
20
25
34
30
40
31
Ahora debemos debemos determinar de que forma como cambia el promedio
condicional de la variable dependiente (Ganancias) cuando cambia el valor jo de
la variable explicativa (Gasto en I+D).
\
La forma muestral de la recta de regresión: E(Y
i |Xi ) = β̂1 + β̂2 Xi requiere determinar el valor estimado de estos parámetros, para lo cual utilizaremos el método
27
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
de mínimos cuadrados ordinarios:
P
P P
n · Yi Xi − Xi Yi
P
P
β̂2 =
n · Xi2 − ( Xi )2
P
Yi Xi − nXY
β̂2 = P 2
Xi − n(X)2
Utilicemos los datos para obtener los cálculos necesarios para computar el estimador de β2 :
Año
(n=6)
1990
1991
1992
1993
1994
1995
Suma
Gasto en I+D (X )
(Millones de dólares)
2
3
5
4
11
P 5
X =30
Ganancia Anual (Y )
(Millones de dólares)
20
25
34
30
40
P 31
Y =180
XY
40
75
170
120
440
P 155
XY =1000
X2
4
9
25
16
121
P 25
X 2 =200
P
X = nX
X = 30
6
X =P5
Y = nY
Y = 180
6
Y = 30
← Media de los valores de la variable dependiente
← Media de los valores de la variable independiente
De esta forma,
β̂2 =
=
=
β̂2 =
β̂1 =
=
=
β̂1 =
1000 − 6 · 5 · 30
200 − 6 · (5)2
1000 − 900
200 − 150
100
50
2
Y − β̂2 X
30 − 2 · 5
30 − 10
20
De esta forma, la recta de regresión muestral estimada es:
Ŷ = 20 + 2 · X
28
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Con esta ecuación en mano, el gerente de I+D de esta compañía puede predecir
el promedio en ganancias futuras anuales a partir de la cantidad presupuestada
de gasto en Investigación y Desarrollo. Por ejemplo, si la compañía presupuesta
gastar 8 millones de dólares en I+D el próximo año, entonces debe ganar aproximadamente 36 millones de dólares durante este año.
Ejemplo 2: Tenemos los siguientes datos de portales de internet, con los cuales
queremos ver el impacto promedio del número de visitas en el valor de la empresa:
AOL
Yahoo
Lycos
Cnet
Juno Web
NBC Internet
Earthlink
El sitio
Promedio
Suma
β
1
β
2
vempresa
134844
55526
5533
4067
611
4450
2195
1225
26056.4
visitas
50
38
28
8
8
16
5
2
19.4
y-ybar
108787.6
29469.6
-20523.4
-21989.4
-25445.4
-21606.4
-23861.4
-24831.4
x-xbar
30.6
18.6
8.6
-11.4
-11.4
-3.4
-14.4
-17.4
2381.1
-20076.8
29
(y-ybar)*(x-xbar)
3331621.0
548871.8
-177014.1
250129.1
289441.1
72921.5
343007.3
431445.1
(x-xbar)^2
937.9
346.9
74.4
129.4
129.4
11.4
206.6
301.9
5090422.9
2137.9
ygorro
98976.5
70403.7
46593.1
-1028.3
-1028.3
18020.3
-8171.5
-15314.7
26056.4
ugorro
35867.5
-14877.7
-41060.1
5095.3
1639.3
-13570.3
10366.5
16539.7
0
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Utilizando estos datos tenemos:
n
X
(Xi − X)2 = 2137,9
i=1
n
X
(Yi − Y )(Xi − X) = 5090422,9
i=1
5090422,9
= 2381,1
2137,9
= 26056,4 − 2381,1 ∗ 19,4 = −20076,8
β̂2 =
β̂1
30
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.3.2. Supuestos detrás del método MCO
En el análisis de regresión nuestro objetivo no es sólo obtener los valores de β̂1 y
β̂2 sino también hacer inferencia sobre los verdaderos β1 y β2 . Nos interesa saber
que tan cerca están β̂1 y β̂2 de sus contraparte poblacional o que tan cerca esta Ŷi
de la verdadera E(Y|Xi ). La Función de regresión poblacional: Yi = β1 +β2 Xi +ui ,
nos muestra que Yi depende de Xi y ui . Así, los supuestos hechos para estas dos
variables son fundamentales para lograr una interpretación válida de los valores
estimados de la regresión. Mientras no se especique la forma como se generan
Xi y ui , no hay forma de hacer inferencia estadística sobre Yi ni sobre β1 y β2 .
Supuesto 1: Modelo de regresión lineal, el modelo de regresión es lineal en
parámetros:
Yi = β1 + β2 Xi + ui
Supuesto 2: Los valores de X son jos, X se supone no estocástica. Esto implica que el análisis de regresión es un análisis de regresión condicional,
condicionado a los valores dados del regresor X.
Supuesto 3: El valor medio del error ui es igual a cero. Dado el valor de
X, el valor esperado del término de error ui es cero:
E(ui |Xi ) = 0
Lo que nos dice este supuesto es que los factores que no están considerados
en el modelo y que están representados a través de ui , no afectan sistemáticamente el valor de la media de Y. Es decir, los valores positivos de ui se
cancelan con los valores negativos de ui . De esta forma, el efecto promedio
de ui sobre Y es cero. Ver Figura 7.
31
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Figura 7: Distribución condicional del término de error ui
Supuesto 4: Homocedasticidad o igual varianza de ui . Dado el valor de
X, la varianza de ui es la misma para todas las observaciones:
var(ui |Xi ) = E[ui − E(ui )|Xi ]2
= E(u2i |Xi ) por supuesto 3
= σ2
En la Figura 8 podemos apreciar el signicado del supuesto de homocedasticidad, la variación alrededor de la recta de regresión es la misma para
todos los valores de X. Esto implica que la función de densidad del término
de error ui es la misma.
Figura 8: Homocedasticidad
32
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Por el contrario, el la Figura 9 observamos el caso cuando la varianza del
término de error varia para cada Xi , en este caso particular la varianza del
error aumenta en la medida que Xi crece.
Figura 9: Heterocedasticidad
Esto se conoce como Heterocedasticidad o varianza desigual, lo que se
expresa de la siguiente manera:
var(ui |Xi ) = σi2
(2.27)
Supuesto 5: No existe autocorrelación entre los errores. Dado dos valores
de X, Xi y Xj , con i6= j, la correlación entre ui y uj es cero:
cov(ui , uj |Xi , Xj ) = E{[ui − E(ui )]|Xi }{[uj − E(uj )]|Xj }
= E(ui |Xi )(uj |Xj )
= 0
Si en la Función de regresión poblacional Yi = β1 + β2 Xi + ui , ui esta
correlacionado con uj , entonces Yi no depende solamente de Xi sino también
de uj . Al imponer le supuesto 5 estamos diciendo que solo se considerará
el efecto sistemático de Xi sobre Yi sin preocuparse de otros factores que
pueden estar afectando a Y, como la correlación entre los u's.
Supuesto 6: La covarianza entre ui y Xi es cero E(ui Xi ) = 0:
cov(ui , Xi ) =
=
=
=
=
E[ui − E(ui )][Xi − E(Xi )]
E[ui (Xi − E(Xi )] por supuesto E(ui ) = 0
E(ui Xi ) − E(ui )E(Xi ) por supuesto E(Xi ) no estocastica
E(ui Xi ) por supuesto E(ui ) = 0
0
33
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Como mencionamos en la sección 2.2.2 se supone que X y u tienen una inuencia separada sobre Y (determinística y estocástica, respectivamente),
ahora si X y u están correlacionadas, no es posible determinar los efectos
individuales sobre Y.
Este supuesto se cumple automáticamente si X es no estocástica y el supuesto
3 se cumple.
Supuesto 7: El número de observaciones n debe ser mayor que el número
de parámetros por estimar. El número de observaciones tiene que ser
mayor que el número de variables explicativas, de otra forma no se puede
resolver el sistema de ecuaciones. Supongamos que tenemos una sola observación para nuestra variable dependiente y nuestra variable explicativa (Y1
y X1 ), el modelo de regresión es tal que tiene intercepto, es decir:
Y1 = β1 + β2 X1 + u1
el estimador MCO de β2 es :
P
xi yi
β2 = P 2
xi
donde xi = Xi − X e yi = Yi − Y , sin embargo con una observación X1 = X
e Y1 = Y , así β2 no esta determinado y así tampoco podemos determinar
β1 .
Supuesto 8: Variabilidad en los valores de X. No todos los valores de X en
una muestra deben ser iguales, var(X) debe ser un número nito positivo.
Si las X son las mismas ⇒ Xi = X , de esta forma ni β2 ni β1 pueden ser
estimados.
Supuesto 9: El modelo de regresión esta correctamente especicado.
Esto es muy importante, ya que por ejemplo la omisión de variables importantes en el modelo, o la elección de la forma funcional inadecuada, o la
consideración de supuestos estocásticos equivocados sobre las variables del
modelo, harán cuestionable la validez de la interpretación de la regresión
estimada. (Aspectos que veremos más adelante).
34
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.3.3. Errores estándar de los Estimadores Mínimos Cuadrados Ordinarios
Como vimos en la sección 2.3.1, los valores estimados para β1 y β2 dependen de
los datos muestrales, sin embargo, los datos cambian de una muestra a otra y así
los valores estimados también, por eso es necesario tener una medida que nos permita decir que tan cercano son los valores estimados a los valores poblacionales
de los parámetros.
La medida que utilizaremos para medir la precisión del estimador es el error estándar, que es la desviación estándar de la distribución muestral del estimador,
la que a su vez es la distribución del conjunto de valores del estimador obtenidos
de todas las muestras posibles de igual tamaño de una población dada.
Recordemos el estimador MCO de β2 :
P
xi y i
β̂2 = P 2
xi
donde yi = β2 xi +ui (modelo poblacional en desviaciones con respecto a la media).
De esta forma reemplazando yi en el estimador de β2 :
P
xi (β2 xi + ui )
P 2
β̂2 =
x
P 2 iP
x
ui x i
= β2 P 2i + P 2
x
xi
Pi
ui x i
= β2 + P 2
xi
Aplicando valor esperado a la expresión anterior:
¶
µP
ui x i
E(β̂2 ) = β2 + E P 2
xi
µP
¶
E(ui )xi
P 2
= β2 +
por
xi
= β2 por supuesto 3
supuesto 2
(2.28)
La ecuación (2.28) nos dice que en valor esperado el estimador MCO de β̂2 es
igual a su verdadero valor. Esta propiedad del estimador MCO se conoce como
insesgamiento.
35
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Ahora procedamos a calcular la varianza de el estimador MCO de β2 :
var(β̂2 ) = E[β̂2 − E(β̂2 )]2
= E(β̂2 − β2 )2
µP
¶
[ xi ui ]2
P
= E
[ x2i ]2
Por supuesto 4 E(u2i ) = σ 2 y por supuesto 6 E(ui uj ) = 0, esto implica que:
σ2
var(β̂2 ) = P 2
xi
(2.29)
2.3.4. Estimador Mínimo Cuadrado Ordinario de σ 2
Ahora debemos estimar el parámetro poblacional σ 2 , como este corresponde al
valor esperado de u2i y ûi es una estimación de ui , por analogía:
Pn 2
û
2
σ̂ = i=1 i
n
pareciera ser un estimador razonable. Pero los errores de MCO, están estimados
imperfectamente si los comparamos con los errores poblacionales, ya que dependen de una estimación de β1 y β2 . Veamos esto con más detalle:
Partiendo del Regresión poblacional expresado en desviaciones con respecto a
la media:
yi = β2 xi + (ui − u)
(2.30)
ûi = yi − β̂2 xi
(2.31)
y recordando también que:
Al sustituir (2.30) en (2.31), se obtiene:
ûi = β2 xi + (ui − u) − β̂2 xi
Elevando al cuadrado la expresión anterior, aplicando sumatoria y tomando valor
esperado:
i
h
i
³X ´
hX
X
X
2
2
2
2
xi (ui − u)
E
ûi
= E(β̂2 − β2 )
xi + E
(ui − u) −2 E (β̂2 − β2 )
{z
}
{z
}
|
|
(i)
(ii)
·P
¸
X
x i ui X
2
= var(β̂2 )
xi + (n − 1)var(ui ) − 2E P 2
xi (ui − u)
xi
= σ 2 + (n − 1)σ 2 − 2σ 2
= (n − 2)σ 2
36
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
(i) E
hX
i
hX
i
(ui − u)2 = E
(u2i − 2ui u + u2 )
i
hX
X
= E
u2i − 2u
ui + nu2
hX
i
nX
2
2
= E
ui − 2u
ui + nu
n
i
hX
= E
u2i − 2nu2 + nu2
hX
i
2
2
= E
ui − nu
"
µP ¶2 #
X
ui
2
= E
ui − n
n
n
= nσ 2 − σ 2
n
= (n − 1)σ 2
h
i
h
i
X
X
(ii) E (β̂2 − β2 )
xi (ui − u) = E (β̂2 − β2 )
xi (ui − u)
¸
·P
x i ui X
= E P 2
xi (ui − u)
xi
P
P ¸
· P
( xi ui )2
x i ui x i
P 2 −u
P 2
= E
xi
xi
2
= σ
Por lo tanto se dene el estimador de la varianza σ
e2 como:
P 2
ûi
2
σ
e =
n−2
De forma tal que, σ
e2 es un estimador insesgado de σ 2 :
e2 =
σ
³X ´
1
E
û2i = σ 2
n−2
37
(2.32)
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.4. Modelo de Regresión con k variables
Ahora abandonemos la simplicación de solo usar dos variables, de ahora en adelante generalizaremos el modelo de regresión lineal para que pueda tener hasta k
variables explicativas.
Aclaración: haremos un cambio de notación, cada observación i de la variable
dependiente será denotada por yi y cada observación i de una variable explicativa, por ejemplo X1 , será denotada por x1i . Ahora las variables en minúscula no
signica que estén en desvíos.
El Modelo de Regresión Poblacional en este caso es:
yi = β1 + β2 x2i + β3 x3i + ... + βk xki + ui
i = 1, ..., n
2.4.1. Representación Matricial del Modelo de Regresión
Lineal
El modelo con k variables explicativas puede ser expresado en notación matricial.
En efecto, cada variable explicativa xj , con j=1,..., k, es un vector columna de
dimensión n, al igual que la variable dependiente y el término de error. De este
modo, el modelo puede ser reescrito de la siguiente forma:

  








y1
1
x21
x31
xk1
u1
 y2   1 
 x22 
 x32 
 xk2 
 u2 

  








β
+
β
+
...
+
β
+
 ..  =  ..  β1 + 





 .. 
..
..
..
2
3
k
 .   . 



 . 
. 
. 
. 
yn
1
x2n
x3n
xkn
un
Donde las variables explicativas se pueden agrupar en una sola matriz de dimensión n×k, que denotaremos simplemente como X, de esta manera el modelo se
expresa de la siguiente forma:

 
 
 

u1
β1
1 x21 x31 · · · xk1
y1
 y2   1 x22 x32 · · · xk2   β2   u2 

 
 
 

 ..  =  ..
..
.. . .
..  ·  ..  +  ..  ⇒ Y = Xβ + u(2.33)
 .   .
.
.
.
.   .   . 
yn
1 x2n x3n · · ·
βk
xkn
un
donde Y es un vector de dimensión n×1, X es la matriz de variables explicativas
de dimensión n×k y u es un vector correspondiente al término de error con dimensión n×1.
38
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Ahora debemos expresar la distribución del término de error en términos matriciales:


E(u1 )
 E(u2 ) 


E(u) = 
= 0
..
 n×1

.



E(uu ) = 

0
E(un )
E(u21 ) E(u1 u2 )
E(u2 u1 ) E(u22 )
..
..
.
.
E(un u1 ) E(un u2 )
· · · E(u1 un )
· · · E(u2 un )
..
..
.
.
· · · E(u2n )


 
 
=
 
σ2 0 · · · 0
0 σ2 · · · 0
..
.. . .
..
.
.
.
.
2
0 0 ··· σ



 = σ2 I
n×n

De los supuestos 3, 4 y 5, tenemos entonces que el término de error tiene la
siguiente distribución:
µ
¶
2
u ∼ 0 ,σ I
(2.34)
n×1
n×n
2.4.2. Estimador Mínimo Cuadrados Ordinarios
El método de MCO, plantea que los parámetros del modelo pueden ser estimados
minimizando la suma de los errores al cuadrado (SE (β̂ )), la que en términos
matriciales equivale a:
SE (β̂) =
n
X
û2i = û0 û
i=1
donde û = Y − X β̂ . Entonces el problema de minimizar la suma de los errores al
cuadrado se expresa de la siguiente forma:
h
i
0
mı́n SE (β̂) = mı́n (Y − X β̂) (Y − X β̂)
β̂
β̂
h
i
= mı́n Y 0 Y − 2β̂ 0 X 0 Y + β̂ 0 X 0 X β̂
β̂
∂SE (β̂)
∂ β̂ 0
= −2X 0 Y + 2X 0 X β̂ = 0
⇒ β̂ = (X 0 X)−1 X 0 Y
39
(2.35)
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
De (2.35) tenemos:
X 0 (Y − X β̂) = 0 ⇒ X 0 û = 0
(2.36)
(2.36) es la condición de ortogonalidad.
De esta forma, el vector de parámetros estimados β̂ se obtiene de resolver el
siguiente sistema de ecuaciones normales:
X 0 X β̂ = X 0 Y ⇔







1
1
1
x2,1 x2,2 x2,3
x3,1 x3,2 x3,3
..
..
..
.
.
.
xk,1 xk,2 xk,3
···
1
· · · x2,n
· · · x3,n
..
..
.
.
· · · xk,n











=


1 x2,1
1 x2,2
1 x2,3
..
..
.
.
1 x2,n
x3,1 · · · xk,1
x3,2 · · · xk,2
x3,3 · · · xk,3
..
..
..
.
.
.
x3,n · · · xk,n
1
1
1
x2,1 x2,2 x2,3
x3,1 x3,2 x3,3
..
..
..
.
.
.
xk,1 xk,2 xk,3

Pn
Pn
n
x
2,i
i=1
Pn 2
Pn i=1 x3,i
 Pn x2,i
i=1 x2,i x3,i
 Pni=1
Pn i=1 x2,i
P
n
2

⇔  i=1 x3,i
i=1 x3,i x2,i
i=1 x3,i

..
..
..

Pn .
Pn .
Pn .
i=1 xk,i
i=1 xk,i x2,i
i=1 xk,i x3,i
···
1
· · · x2,n
· · · x3,n
..
..
.
.
· · · xk,n
P
· · · P ni=1 xk,i
· · · Pni=1 x2,i xk,i
n
···
i=1 x3,i xk,i
..
..
.
Pn . 2
···
i=1 xk,i














β̂1
β̂2
β̂3
..
.
β̂k
y1
y2
y3
..
.














yn







β̂1
β̂2
β̂3
..
.
β̂k


 
 
 
=
 
 
Pn
Pn i=1 yi
yi x2,i
Pi=1
n
i=1 yi x3,i
..
Pn .
i=1 yi xk,i
Es importante recordar que el estimador MCO esta denido solo cuando la matriz
(X'X) es invertible, lo que ocurre siempre y cuando:
1. Las k columnas de la matriz X sean linealmente independientes.
2. Se disponga al menos de tantas observaciones como variables explicativas,
es decir: n≥ k .(Supuesto 7)
Pongamos atención en el segundo supuesto, cuando n=k la matriz X tiene dimensión k×k, por lo tanto salvo que no se cumpla el supuesto 8, X es invertible, y de
esta forma (X 0 X)−1 = X −1 (X 0 )−1 y por lo tanto:
β̂ = (X 0 X)−1 X 0 Y = X −1 (X 0 )−1 X 0 Y = X −1 Y
40
(2.37)







Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
el vector de residuos û = Y − X β̂ = Y − X(X −1 Y ) = Y − Y = 0n , de esta forma
el ajuste es perfecto, ya que todos los residuos son cero, la suma residual de igual
forma toma el mínimo valor posible, cero.
Sin embargo, esta no es una característica deseable, el ajuste perfecto ocurre
porque tenemos una muestra muy reducida. Esto trae como consecuencia poco
robustez e imprecisión en las estimaciones. Si escogemos una nueva muestra, del
mismo tamaño que la anterior, obtendremos otro estimador β̂ con suma residual
0, que puede diferir en forma arbitraria del anterior.
Para lograr estimaciones precisas de los parámetros, es necesario tener un número
de observaciones notablemente superior al de las variables explicativas. La diferencia n-k se conoce como el número de grados de libertad de la estimación.
2.5. Propiedades del estimador MCO
Notemos que el vector β̂ es un vector aleatorio, ya que depende del vector de
errores:
β̂ = (X 0 X)−1 X 0 Y = (X 0 X)−1 X 0 (Xβ + u) = β + (X 0 X)−1 X 0 u
(2.38)
E(β̂) = E(β) + E[(X 0 X)−1 X 0 u]
= β + (X 0 X)−1 X 0 E(u)
La esperanza de β es el mismo parámetro, ya que este es un constante (valor
poblacional), y por supuestos 2 y 3 el segundo término de la expresión anterior
es cero,
⇒ E(β̂) = β
(2.39)
Es decir, el estimador MCO es insesgado, tal como lo habíamos mostrado en la
ecuación (2.28).
De (2.38) podemos denir el error de estimación o sesgo como:
β̂ − β = (X 0 X)−1 X 0 u
41
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Ahora calculemos la varianza de β̂ :
var(β̂) =
=
=
=
=
=
E[(β̂ − E(β̂)) · (β̂ − E(β̂))0 ]
E[(β̂ − β) · (β̂ − β)0 ]
E[(X 0 X)−1 X 0 uu0 X(X 0 X)−1 ]
(X 0 X)−1 X 0 E(uu0 )X(X 0 X)−1
(X 0 X)−1 X 0 (σ 2 In )X(X 0 X)−1
σ 2 (X 0 X)−1
(2.40)
Para poder estimar la varianza de β̂ necesitamos reemplazar σ 2 en (2.40) por su
estimador insesgado:
σ
e2 =
u0 u
n−k
2.5.1. Propiedad de mejor estimador lineal insesgado
Se dice que β̂ , es el mejor estimador lineal insesgado (MELI) de β si se cumple
lo siguiente:
1. El lineal, es decir, es una función lineal de una variable aleatoria, como la
variable y en el modelo de regresión.
2. Es insesgado, es decir, su valor esperado, E(β̂), es igual a el verdadero
valor, β .
3. Tiene varianza mínima dentro de la clase de todos los estimadores lineales
insesgados; un estimador insesgado como varianza mínima es conocido como
un estimador eciente.
2.5.2. Teorema de Gauss-Markov
Proposición: El estimador MCO es el estimador lineal insesgado óptimo, en el
sentido de que cualquier otro estimador lineal e insesgado tiene una matriz de covarianza mayor que la del estimador MCO. Es decir, el estimador MCO es MELI.
e un estimador lineal de β , donde A
e es una matriz
Demostración: Sea βe = Ay
42
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
e − (X 0 X)−1 X 0 , de modo que:
k×n. Denotemos A = A
βe = [A + (X 0 X)−1 X 0 ]Y
= [A + (X 0 X)−1 X 0 ](Xβ + u)
= AXβ + β + [A + (X 0 X)−1 X 0 ]u
Aplicando esperanza a la expresión anterior:
e = AXβ + β + [A + (X 0 X)−1 X 0 ]E(u)
E(β)
= AXβ + β
El estimador βe será insesgado solo si la matriz A es tal que AX=0k×k . De esta
forma:
βe = β + [A + (X 0 X)−1 X 0 ]u
y su matriz de covarianza será:
e = E[(βe − β)(βe − β)0 ]
cov(β)
= E{([A + (X 0 X)−1 X 0 ]u)([A + (X 0 X)−1 X 0 ]u)0 }
= σ 2 AA0 + σ 2 (X 0 X)−1
| {z }
cov(β̂)
Como la matriz AA0 es semidenida positiva, se concluye la diferencia entre la
covarianza de βe y β̂ es una matriz semidenida positiva, con lo que la covarianza
de βe es mayor o igual a la covarianza de β̂
43
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.6. Geometría del Estimador MCO
Recordemos que el modelo de regresión muestral tiene la siguiente expresión:
Y = X β̂ + û
la que puede ser reescrita de la siguiente forma:
(2.41)
Y = P Y + MY
donde P se denomina matriz de proyección y se dene de la siguiente manera:
P = X(X 0 X)−1 X 0
Además se tiene que M=I-P. De acuerdo a la ecuación (2.36) el estimador MCO es
tal que los errores son ortogonales a las X, es decir se deben escoger los parámetros β de forma tal que el vector de errores sea ortogonal al espacio formados por
las variables explicativas.
Así, el estimador MCO nos permite descomponer Y en dos términos ortogonales
entre si: el primer componente puede ser escrito como una combinación lineal
de las columnas x y el segundo es un componente ortogonal a X (el término de
error), tal como lo muestra (2.41). Esto se representa grácamente en la Figura
10.
Y
MY
x1
PY
0
x2
Col X
Figura 10: Descomposición Ortogonal de Y
El término P Y alternativamente se puede ver como la proyección de Y en el
espacio barrido por las X's y M Y como la proyección de Y es el espacio ortogonal
a las X's.
44
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.7. Bondad de Ajuste y Análisis de Varianza
El objetivo de esta sección es introducir un criterio de ajuste de nuestra regresión, es decir, un criterio que nos indique cuan bien se ajusta nuestro modelo a
la muestra.
En principio, podríamos pensar que la suma de los residuos cuadrados, es decir, nuestro criterio original de ajuste, es una buena opción: a menor sea éste,
mejor es nuestro ajuste. Sin embargo, la suma de los residuos cuadrados puede
ser arbitrariamente escalada al multiplicar la variable dependiente (Y) por el factor de escala deseado, lo cual invalida su uso como criterio de ajuste.
Por ello, se ha desarrollado un criterio que elimine el problema anterior. Dicho estadístico ya no se basará en la magnitud de un valor (como la suma de
los cuadrados de los residuos), sino que intentará preguntarse si la variación de
las variables independientes (X) explica la variación de la variable independiente, como veremos más adelante. Para ello analizaremos con un poco más de
profundidad el modelo de regresión lineal en desvíos con respecto a la media y
presentaremos la llamada descomposición de varianza (o análisis de varianza),
ambos, insumos fundamentales para obtener nuestro estadístico de bondad de
ajuste.
2.7.1. Modelo de Regresión Lineal en Desvíos
Sea el modelo poblacional usual con k variables:
yi = β1 + β2 x2i + β3 x3i + · · · + βk xki + ui
(2.42)
donde i = 1 . . . n y cuya contraparte estimada es:
yi = β̂1 + β̂2 x2i + β̂3 x3i + · · · + β̂k xki + ûi
(2.43)
Luego, si sumamos para todas las observaciones y dividimos a ambos lados por
el tamaño muestral n, tenemos:
Ȳ = β̂1 + β̂2 x̄2 + β̂3 x̄3 + · · · + β̂k x̄k
(2.44)
β̂1 = Ȳ − β̂2 x̄2 + β̂3 x̄3 + · · · + β̂k x̄k
(2.45)
por lo cual:
45
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
La ecuación (2.45) muestra que el término independiente de una regresión queda
determinado por el resto de los k-1 coecientes involucrados. Finalmente, note
que restando las ecuaciones (2.43) y (2.44) obtenemos:
(2.46)
yi − Ȳ = β̂2 (x2i − x̄2 ) + β̂3 (x3i − x̄3 ) + · · · + β̂k (xki − x̄k ) + ûi
la cual es una expresión similar a (2.43), excepto por dos importantes diferencias.
Primero, el modelo no posee constante y segundo, las variables se encuentran
expresadas en desvíos con respecto a la media. A pesar de ello, note que los coecientes y los residuos son los mismos en ambos modelos.
De lo anterior surge un importante corolario respecto del término constante de
nuestro modelo. En general, el interés del investigador se centra en el impacto de
los regresores sobre la variable dependiente, por lo cual, el término constante no
es más que una corrección que garantiza que los promedios muestrales de ambos
miembros del modelo econométrico coincidan.
Para transformar en desvíos con respecto a la media un modelo en términos matriciales, introduciremos una matriz fundamental para el análisis de esta sección.
Denotaremos por M 0 una matriz de n × n, denida como:



 
1 0 ··· 0
1 1 ··· 1
1 − n1 − n1 · · ·
1


 
1 − n1 · · ·
ii0 
 0 1 ··· 0  1  1 1 ··· 1   −
M 0 = I − =  .. .. . . .. −  .. .. . . ..  =  .. n
..
..
n×n
n
 . .
. .  n . .
. .   .
.
.
0 0 ···
1
1 1 ···
1
− n1
− n1
···
donde I es la identidad (n×n) e i corresponde al vector unitario de dimensión n.
Dicha matriz es singular, simétrica (M 0 '=M 0 ) e idempotente (M 0 M 0 =M 0 ). En
general, M 0 es conocida como matriz de desvíos, ya que resta a cada columna de
la matriz involucrada, su media aritmética. Por ejemplo, es fácil comprobar que:

 


 Pn
y
−
Ȳ
y
y1
1
i
i=1
 y2  1  Pn yi   y2 − Ȳ 
1 0



 i=1  
0
M Y = Y − ii Y =  ..  − 
=

..
..
n
 

 .  n
.
Pn.
yn − Ȳ
yn
i=1 yi
Por lo tanto, nuestro modelo expresado en matrices, puede ser expresado en términos de desvío con respecto a la media como:
M 0 Y = M 0 Xβ + M 0 u
46
(2.47)
− n1
− n1
..
.
1−





1
n
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.7.2. Análisis de Varianza
Suponga entonces el siguiente modelo poblacional:
Y = Xβ + u
donde Y corresponde a una vector n × 1, X corresponde a nuestra matriz de regresores que incluye un término constante, tal que X es de n × k y u corresponde
a nuestro vector de errores de n × 1.
Buscamos entonces denir la variación de la variable dependiente (Suma de los
cuadrados totales = TSS) como3 :
T SS =
n
X
(Yi − Ȳ )2
(2.48)
i=1
Para encontrar entonces una expresión para (2.48), de la ecuación (2.47) tenemos
que nuestro modelo estimado en desvíos con respecto a la media es:
M 0 Y = M 0 X β̂ + M 0 û
con lo cual, al particionar nuestra matriz X en X = [i X2 ], nuestro vector de
parámetros en β 0 = [β1 β2 ] y considerando que M 0 i = 0 y que M 0 û = û,
tenemos que:
M 0Y
= M 0 iβ̂1 + M 0 X2 β̂2 + M 0 û
= M 0 X2 β̂2 + û
(2.49)
Luego, para formar la TSS(suma de los cuadrados totales o la suma de los cuadrados de las desviaciones de Y con respecto a su media), de la ecuación (2.48),
multiplicamos por Y' la ecuación (2.49):
Y 0M 0Y
=
=
=
0
0
Y M Y =
T SS =
Y 0 (M 0 X2 β̂2 + û)
(X β̂ + û)0 (M 0 X2 β̂2 + û)
β̂ 0 X 0 M 0 X2 β̂2 + β̂ 0 X 0 û + û0 M 0 X2 β̂2 + û0 û
β̂2 X20 M 0 X2 β̂2 + û0 û
ESS + RSS
(2.50)
(2.51)
donde el segundo y el tercer término desaparecen gracias a que los residuos estimados son, por construcción, ortogonales a las variables explicativas 4 . La igualdad
3 Note
que para dicha denición utilizamos los cuadrados de la desviaciones, ya que la suma
de las desviaciones es siempre cero.
4 Ya que X 0 û = X 0 (Y − X β̂) = X 0 Y − X 0 Y = 0.
47
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
anterior es conocida como la descomposición de varianza. El término de la
izquierda corresponde a TSS o la suma de los cuadrados de las desviaciones de
la variable dependiente. En otras palabras, la variabilidad de Y. En la derecha se
encuentra la variabilidad de las variables independientes o regresores y la variabilidad de los errores. ¾Cuál es entonces el objetivo?: descomponer la varianza de
la variable dependiente aquella parte que es explicada por la regresión (ESS) de
aquella parte explicada por los residuos (RSS). ¾Por qué?: porque intuitivamente,
la regresión se ajusta mejor si las desviaciones de Y se explican en su mayor parte
por desviaciones de X y no por desviaciones de los residuos.
2.7.3. Bondad de Ajuste: R2 y R̃2
Denimos entonces la bondad de ajuste del modelo a través del siguiente estadígrafo llamado también coeciente de determinación:
R2 =
ESS
T SS
(2.52)
es decir, como la proporción de la varianza de Y que es explicada por la varianza
de la regresión. Alternativamente:
R2 = 1 −
RSS
T SS
(2.53)
Note que:
1. El coeciente de determinación es siempre menor a 1. Ello porque RSS ≤
T SS y por lo tanto RSS
≤ 1.
T SS
2. El análisis de varianza anterior fue derivado bajo el supuesto que el modelo
incluía una constante (por ello utilizábamos la matriz M 0 ). En dicho caso,
necesariamente R2 ≥ 0. En caso de que el modelo no incluya una constante,
se debe utilizar la fórmula (2.5.2) utilizando TSS=Y'Y (sin desvíos).
3. Al agregar regresores al modelo, el R2 nunca decrecerá (se mantendrá constante o aumentará)
4. No es claro cuan bueno sea como predictor de ajuste.
Para ver este último punto, suponga que usted posee el siguiente modelo poblacional:
Y = β1 + β2 X + u
48
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
donde X es un vector (n × 1). Suponga ahora que restamos X a ambos lados de
nuestro modelo. Obtenemos entonces:
Y − X = β1 + γX + u
Si β2 ≈ 1, entonces es fácil vericar que el R2 del primer modelo será cercano a
1, mientras que el del segundo sera cercano a cero, a pesar de que los modelos
son matemáticamente equivalentes. A pesar de lo anterior, en trabajos aplicados,
el R2 es ampliamente utilizado, por lo cual se recomienda su publicación.
Retrocedamos ahora al punto tres. El nos dice que el coeciente de determinación
probablemente crecerá al incluir regresores. Ello plantea incentivos a incluir regresores no relevantes para nuestro modelo, con el n de obtener un mejor ajuste.
¾Porqué sucede esto?, ya que al incluir regresores, la RSS necesariamente decrece
(o en el mejor de los casos se mantiene), mientras que la TSS permanece constante.
Por esta razón se creó el coeciente de determinación ajustado, el cual corrige el
R2 original por los grados de libertad del numerador y el denominador. Entonces,
denimos el R2 ajustado (R̃2 ) como:
R̃2 = 1 −
û0 û/(n − k)
Y 0 M Y /(n − 1)
(2.54)
(n − 1)
(n − k)
(2.55)
o equivalentemente:
R̃2 = 1 − (1 − R2 )
49
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.8. Inferencia
Una vez que hemos estimado nuestra regresión muestral, es necesario preguntarse
cuan buena aproximación es dicha regresión de la poblacional. Para que la aproximación sea cercana, es condición necesaria que los parámetros incluidos en la
regresión muestral sea estadísticamente distintos de cero (en caso contrario, no
pertenecen a la regresión poblacional). Así, uno de nuestros objetivos puede ser
el testear la signicancia individual de los parámetros.
Pero lo anterior es sólo una de las preguntas que como investigadores podemos
estar interesados en responder. Por ejemplo, en la estimación de la función de
producción de una rma, que asumimos Cobb Douglas (Y = AK α Lβ eu o en logaritmo ln Y = ln A + α ln K + β ln L + u), podemos estar interesados en descubrir si
la rma presenta rendimientos constantes, crecientes o decrecientes a la escala, lo
cual se reejará en que α + β > o ≤ 1. Por lo tanto, ello podría ser otra hipótesis
interesante de plantearse. También podría ser interesante descubrir si todos los
parámetros a la vez son distintos de cero, o de algún valor determinado.
La gama de preguntas posibles respecto del valor de los parámetros es sólo acotada por la pregunta que el investigador desee responder. Nuestro objetivo es,
por lo tanto, desarrollar los métodos de inferencia y contraste de hipótesis que
nos permitan responder, en el contexto de una regresión muestral particular, las
preguntas anteriores.
Dos notas precautorias. En esta sección nos ocuparemos de restricciones o hipótesis lineales sobre los coecientes. Restricciones no lineales son más escasas en
econometría aplicada y se desarrollan en contexto de un modelo particular. Segundo, en todo lo que se reere a este apartado, asumiremos que los errores de
nuestra regresión muestral siguen una distribución normal (ya veremos porqué).
Entonces, sea nuestro modelo poblacional
Y = Xβ + u
donde X es una matriz de (n × k ),u e Y son vectores (n × 1) y β es vector de
(k × 1).
Sean entonces las siguientes hipótesis:
1. H0 : βi = 0 ⇒ Plantea que el regresor Xi no posee inuencia alguna sobre Y.
Este es el test más común y nos referiremos a él como test de signicancia.
50
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2. H0 : βi = βi0 ⇒ Plantea que el regresor Xi posee un impacto determinado
por βi0 sobre Y.
3. H0 : βi + βj =1 ⇒ Plantea que la suma de los regresores Xi y Xj poseen un
impacto conjunto de magnitud 1.
4. H0 : βi = βj ⇒ Plantea que los regresores Xi y Xj poseen el mismo impacto
sobre Y.
5. H0 : βi =0 ∀ i=2. . . k ⇒ Plantea que todos los regresores conjuntamente,
excepto la constante, son cero.
6. H0 : βl =0 donde el vector β ha sido particionado en dos (βl y βp ) con dimensiones (kl × 1) y (kp × 1) respectivamente, tal que kl + kp = k . Plantea
entonces que un subconjunto de parámetros son estadísticamente no signicativos.
Todas las hipótesis anteriores pueden ser resumidas en la siguiente expresión:
Rβ = r
donde R es una matriz de (q × k ) constantes conocidas (ceros o unos), cuyo objetivo será seleccionar los parámetros a testear, cuyo número de las, q, representa
el número de restricciones. A su vez, r es un vector de dimensión q y contiene el
real al cual es restringido cada parámetro. Veamos como serán las matrices R y
r en cada una de nuestras hipótesis:
1. R =[0. . . 010 . . . 0]; r=0; q=1
donde 1 se encuentra en la i-ésima posición
2. R =[0. . . 010 . . . 0]; r=βi0 ; q=1
donde 1 se encuentra en la i-ésima posición
3. R =[0. . . 010 . . . 010 . . . 0]; r=1; q=1
donde 1 se encuentra en la i-ésima posición y en la j-ésima posición.
4. R =[0. . . 010 . . . 0-10 . . . 0]; r=0; q=1
donde 1 se encuentra en la i-ésima posición y en la j-ésima posición.
5. R =[0q×1 Ik−1 ]; r=0; q=k − 1
6. R =[0ki ×kj Iki ]; r=0; q=ki
51
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Entonces, nuestra hipótesis nula corresponde a:
H0 : Rβ = r
(2.56)
con lo cual, sólo nos resta derivar el test que nos permita rechazar o no rechazar
nuestra nula. La construcción del estadígrafo es como sigue. Dado que MCO
(bajo los supuestos relevantes) es insesgado, tenemos que E(β̂) = β , por lo tanto,
E(Rβ̂) = Rβ , mientras que la varianza de Rβ̂ corresponde a
V [Rβ̂] = E[R(β̂ − β)(β̂ − β)0 R0 ]
= RV ar(β̂)R0
= σ 2 R(X 0 X)−1 R0
Necesitamos aún un supuesto más para determinar la distribución muestral de
nuestra nula. Dado que β̂ es función de u y u ∼ N (0, σ 2 ), entonces β̂ ∼ N (β, σ 2 (X 0 X)−1 )
y por lo tanto Rβ̂ ∼ N (r, σ 2 R(X 0 X)−1 R0 ), entonces:
β̂ ∼ N [β, σ 2 (X 0 X)−1 ]
(2.57)
Rβ̂ ∼ N [Rβ, σ 2 R(X 0 X)−1 R0 ]
(2.58)
y
y si la nula Rβ = r es cierta:
∴
(Rβ̂ − r) ∼ N [0, σ 2 R(X 0 X)−1 R0 ]
(2.59)
luego estandarizamos, con lo cual:
(Rβ̂ − r)
p
σ 2 R(X 0 X)−1 R0
∼ N [0, 1]
(2.60)
Además, se puede demostrar que (hacerlo)5 :
û0 û
∼ χ2(n−k)
σ2
(2.61)
Luego, se puede demostrar que (hacerlo)6 :
(Rβ̂ − r)0 [σ 2 R(X 0 X)−1 R0 ]−1 (Rβ̂ − r) ∼ χ2q
5 Basta
(2.62)
con recordar que si x corresponde a un vector de realizaciones normales (0,1), por lo
cual x ∼ N (0, σ 2 I) y A corresponde a una matriz simétrica e idempotente de rango n, entonces
1 0
2
σ 2 x Ax ∼ χn . Finalmente, recuerde que û = M Y = M u y que el rango de una matriz simétrica
e idempotente es su traza.
6 Basta con recorder que si el vector x, de dimensión n, es tal que x ∼ N (0, Σ), entonces,
0 −1
x Σ x ∼ χ2n .
52
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
luego, combinando los dos resultados anteriores, se puede demostrar que (hacerlo)7 :
[(Rβ̂ − r)0 [R(X 0 X)−1 R0 ]−1 (Rβ̂ − r)]/q
∼ F(q,n−k)
û0 û/(n − k)
(2.63)
El test expuesto en (2.63) corresponde a la forma general del test F. Dicho test
es de utilidad para testear cualquier hipótesis de la forma expuesta en (2.56). A
continuación veremos subcasos de dicho test general.
2.8.1. Test t (Una hipótesis lineal)
Reescribiendo el test F como:
[(Rβ̂ − r)0 [RVd
ar(β̂)R0 ]−1 (Rβ̂ − r)] ∼ F(q,n−k)
y haciendo el reemplazo respectivo de R y r correspondientes a las hipótesis 1 o
2 (H0 : βi = 0 = βi0 ), llegaremos a:
F =
(β̂ − βi0 )2
∼ F (1, n − k)
Vd
ar(βi )
(2.64)
Recordando que t2 es una caso particular de una F con un grado de libertad en
el numerador, tenemos que:
β̂ − βi0
t= q
∼ tn−k
Vd
ar(βi )
(2.65)
Lo anterior es conocido como el test t (test de signicancia) y en su versión más
β̂
utilizada corresponde a t = √ d
, donde se busca testear la hipótesis nula de
V ar(βi )
que el parámetro es cero.
El test t también cubre los casos 3. y 4.. En el caso 3. por ejemplo (H0 : βi +βj =1),
el estadígrafo corresponderá a:
β̂i + β̂j − 1
t= q
d β̂i , β̂j ) + Vd
Vd
ar(β̂i ) + 2Cov(
ar(β̂j )
∼ tn−k
(2.66)
La distribución t es simétrica y se aproxima a la normal para tamaños de muestras
7 Sólo
un poquito de álgebra y recordar como se construye una distribución F(q, n-k) a partir
de la división de dos χ2 con grados de libertad q en el numerador y n-k en el denominador.
53
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
grandes, sin embargo, la t posee colas más gruesas que la normal (lo cual es más
pronunciado en muestras pequeñas: n≤30). La siguiente gura expone la relación
entre la distribución t y la normal:
Probabilidad
Distribución Normal
Distribución t
0
Nota precautoria:
Toda la derivación anterior se basa en el estricto supuesto de normalidad de
los errores. En caso de que los mismos no distribuyan normal, la distribución
del test F (y por lo tanto el del t) es desconocida en muestras nitas. Sin ema
bargo, es posible demostrar que t ∼ N (0, 1), es decir, que el test t distribuye
asintóticamente normal. Luego, los valores críticos de t y Φ (normal estándar)
se encuentran sumamente cerca si n-k≥30, por lo cual, en términos prácticos no
importa mucho cual de ellas escojamos para los valores críticos (a menos que la
muestra sea especialmente pequeña).
Finalmente, nos queda examinar los criterios de rechazo del test y los niveles
de conanza. Como usted recordará de sus clases de estadística, lo anterior depende de como especiquemos la hipótesis alternativa. A continuación, pasamos
a revisar este punto.
54
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Criterio de Rechazo y Nivel de Conanza
Una vez que hemos calculado el valor del test para nuestra nula particular (o
valor calculado ), resta calcular el valor crítico o el valor que nos indica la tabla t.
Dicho valor crítico nos dirá si nuestra nula es falsa o si no podemos armar que lo
es. La elección de dicho valor crítico se toma desde la tabla de distribución t y el
número debe ser escogido tomado en cuenta el nivel de signicancia escogido
(1 %, 5 % o 10 %), el cual a su vez determina el nivel de conanza del test
(99 %, 95 % o 90 %, respectivamente). El nivel de conanza posee una explicación
intuitiva: Nuestro estadígrafo es función de la muestra con lo que estamos trabajando, por lo cual, si contáramos con una gran número de ellas y con cada una
pudiésemos calcular nuestro estadígrafo, el nivel de conanza indica el porcentaje de veces que calculamos nuestro estadígrafo en que realmente no rechazamos
lo cierto o rechazamos correctamente lo falso. La forma en que se distribuya la
probabilidad de rechazo, es decir, el nivel de signicancia, depende de nuestra
hipótesis alternativa. A continuación revisamos dicho asunto. Test de una cola
Supongamos que nuestra hipótesis es:
H0 : βi = βio
H1 : βi > βio
donde βi0 ∈ R. En dicho caso, el estadígrafo es calculado según lo propuesto en la
sección anterior. El punto está en como acumulamos la probabilidad de rechazo.
En este caso, el total de la probabilidad de rechazo se acumula en la cola derecha
de la distribución, como lo muestra la siguiente gura8 :
8 ¾Por
qué en la cola derecha? Porque la probabilidad de rechazo, es decir, el nivel de signicancia, nos indica hasta donde puedo tolerar un valor mayor a βio , por lo cual, carecería de
sentido que la zona de rechazo se encuentre en la cola izquierda de la distribución. Por ejemplo,
si βio =0, la distribución de nuestro estadígrafo se centra en cero (vea la fórmula), por lo cual la
hipótesis alternativa correspondería a que el parámetro es positivo. el punto es ¾cuán positivo
puedo aceptar que sea?.
55
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Probabilidad
Se Rechaza (5%)
No se Rechaza
por lo tanto, rechazaremos nuestra hipótesis nula de que el coeciente es cero
contra la hipótesis alternativa que el parámetro es mayor que βio , si el valor calculado del test es mayor al valor crítico de la tabla t. En el caso que H1 sea que
el parámetro es menor a βio , entonces la probabilidad de rechazo se concentra en
la cola izquierda y se rechaza la nula en el caso que el valor calculado sea menor
que el valor crítico de la tabla t.
Test de dos colas
Supongamos que nuestra hipótesis es:
H0 : βi = βio
H1 : βi 6= βio
En este caso estamos repartiendo uniformemente la probabilidad de rechazo en
ambas colas de la distribución como lo muestra la siguiente gura (al 95 % de
conanza):
56
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Probabilidad
Se Rechaza (2,5%))
Se Rechaza (2,5%)
No se Rechaza
Por lo tanto, rechazaremos la nula si el valor calculado es en módulo mayor que
el valor crítico de tabla. Note que en este caso, la probabilidad de rechazo se
reparte un partes iguales en ambas colas. Ello se justica en que la distribución
t corresponde a una distribución simétrica.
Error de Tipo I, Error de Tipo II, Tamaño y Potencia de un test
Antes de continuar, veremos cuatro conceptos estadísticos importantes que nos
indican características de nuestro test.
1. Error de Tipo I (ETI): Corresponde a la probabilidad de rechazar la
nula cuando es cierta.
2. Error de Tipo II (ETII): Corresponde a la probabilidad de aceptar la
nula cuando es falsa.
3. Tamaño del Test: Corresponde la probabilidad de cometer ETI. Se dene
como el nivel de signicancia del test (α).
4. Potencia del Test: Corresponde a la probabilidad de rechazar la nula
cuando es falsa. Se dene como Potencia =1-ETII.
El óptimo para el investigador sería minimizar ambos tipos de errores y tener un
test con un menor tamaño y mayor potencia posibles, sin embargo, note que el
57
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
tamaño del test y por lo tanto, el ETI, es una variable endógena al investigador,
en tanto que él decide con que nivel de conanza trabajar. Luego, el objetivo se
transforma en, dado un nivel de conanza, minimizar la ocurrencia de ETII.
Intuitivamente, si usted escoge un nivel de signicancia pequeño (1 %, por ejemplo), sus zonas de rechazo serán pequeñas, con lo cual, inevitablemente, la zona de
no rechazo crece, lo cual implica que por minimizar el ETI, ha aumentado el ETII.
P-value
Otra forma alternativa al valor crítico de tabla para rechazar o no rechazar nuestra nula, corresponde al uso de los llamados p-values, los cuales son reportados
en cualquier paquete estadístico. El p-value (p) se dene como:
p = p(tcalculado ) = P (|Z| ≥ |tcalculado |) = 2(1 − Φ(|tcalculado |))
(2.67)
es decir, el p-value representa la probabilidad de que el valor crítico (t de tabla, en
nuestro caso), sea mayor al valor t calculado, es decir, describe el nivel de significancia exacto asociado a un resultado econométrico en particular. Por ejemplo,
un p-value de 0.07 indica que un coeciente es estadisticamente signicativo en
un nivel de 0.07 (o con un 93 % de conanza).
Ejemplo:
Suponga el siguiente Modelo de Regresión Lineal Simple:
Yi = β1 + β2 Xi + ui
para i = 1, ..., N
Además posee la siguiente información muestral de X e Y:
Y
X
2
0
5
10
6
18
7
20
El estimador MCO de β1 y β2 es el siguiente:
¸ ·
¸−1 ·
¸ ·
¸
·
4 48
20
2,1935
βˆ1
=
β̂ = ˆ =
48 824
298
0,2338
β2
La matriz de varianzas y covarianzas de β̂ es:
V̂ (β̂) = σ̂u2 (X 0 X)−1
·
¸−1 ·
¸
0,436 4 48
0,180866 −0,010536
=
=
48 824
−0,010536 0,000878
2
58
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Primero veamos el ajuste de este modelo, es decir, en que grado la variable x
2
explica a la variable y , para lo cual calculemos el R2 y R :
P4
û2
RSS
0,436
2
R = 1−
= 1 − P4 i=1 i
=1−
= 0,969
2
T SS
14
(Y
−
Y
)
i
i=1
P4
2
RSS/2
2
i=1 ûi /2
R = 1−
= 1 − P4
= 0,953
2
T SS/3
i=1 (Yi − Y ) /3
Como podemos ver, el grado de ajuste del modelo es bastante bueno, como el
modelo incluye constante, el R2 se puede interpretar como la proporción de la
variabilidad de la variable independiente que es explicada por la variabilidad de
la variable dependiente, la que en este caso alcanza un 97 %.
Ahora veamos si estos parámetros estimados son signicativos a un 95 % de conanza, para lo cual realizaremos un test t de signicancia a cada uno de ellos:
1. Test de signicancia de β̂1 :
H0 : β̂1 = 0
H1 : β̂1 6= 0
t=
β̂1
V ar(β̂1 )
∼ t2
De esta forma, el valor calculado para el estadístico t es:
2,193548387
tc = √
= 5,157850523
0,180866
El valor de tabla del estadístico t a un 95 % de conanza y con dos grados
de libertad es 4,303.
Probabilidad
No se
Rechaza
Se
Rechaza
(2,5%))
Se
Rechaza
(2,5%)
t(2)=4,303
t(2)=4,303
tc=5,158
59
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
De esta forma, se rechaza la hipótesis nula de que β̂1 =0, y por lo tanto el
parámetro estimado resulta ser estadísticamente signicativo.
2. Test de signicancia de β̂2 :
H0 : β̂2 = 0
H1 : β̂2 6= 0
t=
β̂2
V ar(β̂2 )
∼ t2
De esta forma, el valor calculado para el estadístico t es:
0,233870968
= 7,892762865
tc = √
0,000878
El valor de tabla del estadístico t a un 95 % de conanza y con dos grados
de libertad es 4,303.
Probabilidad
No se
Rechaza
Se
Rechaza
(2,5%))
Se
Rechaza
(2,5%)
t(2)=4,303
t(2)=4,303
tc=7,893
De esta forma, se rechaza la hipótesis nula de que β̂2 =0, y por lo tanto el
parámetro estimado resulta ser estadísticamente signicativo.
3. TAREA: Testee la siguiente hipótesis nula:
H0 : β̂1 − β̂2 = 2
H1 : β̂1 − β̂2 6= 2
60
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.8.2. Test F (Conjunto de hipótesis lineales)
Los casos 6. y 5. corresponden a un conjunto de hipótesis a testear. En el caso
5. correspondía a un subconjunto particular de parámetros, mientras que el caso
6. correspondía a la nula de que todos ellos eran cero, menos la constante. En
dichos casos se aplica la fórmula del test F según la ecuación (2.63) y los criterios
de rechazo siguen lo expuesto en la sección anterior.
Sin embargo, en ambos casos podemos derivar expresiones alternativas para nuestro test.
Todas las pendientes del modelo son cero: En este caso, se puede
demostrar que el test F puede expresarse como:
F =
ESS/(k − 1)
∼ F(k−1,n−k)
RSS/(n − k)
(2.68)
o alternativamente, utilizando la denición del R2 :
F =
R2 /(k − 1)
∼ F(k−1,n−k)
(1 − R2 )/(n − k)
(2.69)
Un subconjunto de las pendientes del modelo son cero: En este
caso, se puede demostrar que el test F puede expresarse como:
F =
(û0∗ û∗ − û0 û)/k2
∼ F (k2 , n − k)
û0 û/(n − k)
(2.70)
donde û∗ denotan los residuos MCO restringidos (donde k2 representa el
número de regresores que han sido restringidos a cero), mientras que û
representan los residuos del modelo MCO original.
2.8.3. Intervalos de Conanza
Una forma alternativa (o mejor dicho complementaria) de examinar la signicancia estadística de un parámetro ( o un conjunto de ellos) es a través de intervalos
de conanza (IC). Ellos nos indican, dado un nivel de conanza, el rango de
valores admisibles del coeciente que se estima. Los niveles de conanza generalmente utilizados son 99 %, 95 % y 90 % (al igual que en los test de hipótesis),
61
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
donde el tamaño de los mismos es necesariamente decreciente9 .
Una manera natural de obtener el IC asociado a β̂i es a través del test t asociado. Vimos entonces que él corresponde a:
β̂ − βi0
qi
∼ tn−k
V ar(β̂i )
entonces, si deseamos un IC del (1-α) % de conanza (es decir, de α % de signicancia) para el parámetro β̂i , basta obtener de las tablas de distribución el valor
λα correspondiente, es decir:


β̂i − βi0
1 − α = P r Zα/2 ≤ q
≤ Z1−α/2 
V ar(β̂i )


β̂i − βi0
= P r −Z1−α/2 ≤ q
≤ Z1−α/2 
V ar(β̂i )
·
¸
q
q
= P r β̂i − Z1−α/2 V ar(β̂i ) ≤ βi0 ≤ β̂i + Z1−α/2 V ar(β̂i )
donde la tercera expresión se obtiene de despejar βi0 de la segunda. Note que el
intervalo ha sido construido en base a una distribución simétrica (como la t o la
normal), por lo cual el valor de tabla a escoger debe corresponder a α/2.
Note además que dicho intervalo está construido sólo en base a constantes conocidas. Una vez construido, se puede contrastar la nula (H0 : βi = βi0 ) al nivel
de signicancia α sencillamente observando si βi0 pertenece al intervalo (en cuyo
caso no rechazamos la nula) o se encuentra fuera de él (en cuyo caso rechazamos
la nula)10 . Nuevamente, la validez de dicho intervalo de conanza depende críticamente del supuesto de distribución de los errores. En el caso que el valor Zα
se obtenga de la tabla t, como ya sabemos, estamos suponiendo que los errores
siguen una distribución normal. Un caso más general es utilizar los valores críticos
de la distribución normal estándar.
También es posible derivar regiones de conanza, es decir, IC de conanza simultáneos para una conjunto de parámetros, sin embargo, su utilización es escasa
9 Intuitivamente, ya que a
más exacta es mi estimación del rango posible, con menos conanza
puedo armar estar en lo correcto.
10 Una forma fácil de verlo es pensando en β =0, es decir, que la variable x no ayuda a
i0
i
explicar y .
62
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
en econometría aplicada (½a menos que su pregunta puntual lo requiera!).
Finalmente derivaremos el intervalo de conanza para la varianza de los errores.
Sabemos de la ecuación (2.61) que:
û0 û
∼ χ2n−k
2
σ
∴
(n − k)σ̃ 2
∼ χ2n−k
2
σ
(2.71)
Utilizando la misma lógica que utilizamos para el IC de un parámetro β̂ , tenemos
que el IC para σ̃ 2 corresponde a:
"
#
2
(n − k)σ̃ 2
(n
−
k)σ̃
≤ σ2 ≤ 2
= (1 − α)
(2.72)
χ2n−k,α
χn−k,1−α
Note que los valores críticos utilizados corresponden a χ2n−k,1−α y χ2n−k,α , ya que
la distribución χ2 es una distribución asimétrica.
2.8.4. Test de Normalidad (Test de Jarque-Bera)
Consideramos ahora el problema de utilizar los momentos de los residuos MCO
para hacer inferencia sobre la distribución de los errores poblacionales. Dado que
algunas de las propiedades de MCO y de la inferencia dependen del supuesto de
normalidad en los errores, es importante poseer un contraste para dicho supuesto.
Como es sabido, la distribución normal es simétrica y mesocúrtica. La simetría
implica que el tercer momento poblacional E(u3 ) en torno a la media, es cero. El
hecho que sea mesocúrtica implica que la kurtosis es 3 (es decir, el ancho de las
colas de la distribución, el cual se mide utilizando el cuarto momento en torno
a la media). Recordemos entonces que el coeciente de simetría poblacional se
dene como:
√
E(u3 )
S=
3
(σ 2 ) 2
mientras que la kurtosis (o coeciente de):
E(u4 )
K=
(σ 2 )2
63
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
En base a los anteriores, Bera y Jarke (1981), propusieron el siguiente estadígrafo,
construido bajo la nula de normalidad:
"
#
Ŝ (K̂ − 3)2 a 2
JB = n
+
∼ χ(2)
6
24
Donde los estimadores muestrales del coeciente de asimetría y kurtosis se obtienen al considerar que un estimador natural de:
µr = E[ûr ]
corresponde a:
n
1X r
mr =
û
n i=1 i
Note que el estadígrafo está denido en términos del exceso de kurtosis, por
lo cual, a menor sea el valor, menor es la probabilidad de rechazar la nula de
normalidad. Note además que el estadístico es esencialmente no constructivo, en
términos de que no nos indica que camino seguir en caso de rechazar la nula,
además de que no rechazar normalidad no implica conrmar su existencia. Sin
embargo, en la práctica corresponde al test más utilizado.
64
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.9. Predicción
La predicción es una de las herramientas más atractivas y utilizadas en Econometría.
Si el modelo que hemos escogido conrma la teoría en consideración, es decir,
a sobrevivido a las pruebas de hipótesis, podemos utilizar el modelo estimado
Yb = X βb para predecir. La predicción se puede efectuar para un valor puntual de
la variable dependiente, y 0 , correspondiente a un valor dado de los regresores, x0 ,
o predecir el valor esperado E[y 0 /x0 ] condicional a las variables explicativas.
Supongamos primero que queremos predecir un valor individual de Y, y 0 , asociado a un vector de regresores x0j con j = 1, 2..., k de dimensión 1 × k .
De acuerdo con el modelo econométrico se tiene que y 0 = β1 +x02 β2 +.....+x0k βk +u0 .
Para predecir el valor de y 0 podemos utilizar la estimación MCO del modelo,
yb0 = x0 βb.
De esta forma, el error de predicción estará dado por :
b + u0
e0 = y 0 − yb0 = x0 (β − β)
En donde se distinguen dos fuentes del error de predicción
El error en la estimación del vector β
El error estocástico inherente al modelo u0
Sin embargo, si consideramos que el estimador MCO es insesgado y mantenemos
los supuestos de nuestro modelo de regresión lineal, es trivial mostrar que el valor
esperado del error de predicción será cero. Además, podemos calcular la varianza
del error de predicción:
b
b 0 x00 + 2x0 (β − β)u
b 0 + u0 u00 ]
V ar(b
e0 ) = E[x0 (β − β)(β
− β)
V ar(b
e0 ) = σµ2 + σµ2 x0 (X 0 X)−1 x00
La varianza del error de predicción dependerá de la matriz de regresores X de
dimensión n × k que se utilizó para obtener las estimaciones de β . Sabemos que
a mayor dispersion de las variables explicativas menor varianza tendrán nuestras estimaciones MCO11 . Además dependerá del vector x0 que hemos asumido
11 Es
posible y se recomienda derivar una expresión para la varianza del error de predicción
utilizando un modelo con 2 regresores. En está expresión se aprecia claramente la dependencia
de la varianza del error de predicción con la dispersion en torno a la media de las variables
explicativas.
65
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
conocido y del parámetro σµ2 , el cual no conocemos y deberá ser reemplazado por
su estimador σ
bµ2 si es que queremos construir un intervalo de conanza para la
predicción yb0 .
Bajo supuestos de normalidad del término de error, el error de predicción es
una combinación lineal de dos variables normales por lo tanto tiene una distribución Normal(0, σ
be2 ). Por lo tanto, por una razonamiento análogo al de las secciones
anteriores se tiene que:
q
y 0 − yb0
∼ N (0, 1)
⇒
σµ2 (1 + x0 (X 0 X)−1 x00 )
y 0 − yb0
q
∼ tn−k
σ
bµ2 (1 + x0 (X 0 X)−1 x00 )
Por lo tanto, dada una predicción puntual yb0 y una estimación de la desviación
estándar del error de predicción podemos construir un intervalo de conanza para
el valor de y 0 :
p
p
P r[b
y 0 − t1−α/2,n−k V ar(b
e0 ) ≤ y 0 ≤ yb0 + t1−α/2,T −k V ar(b
e0 )] = 1 − α
Consideremos ahora que el investigador no está interesado en predecir el valor
de la variable endógena y 0 , si no tan solo su valor esperado E(y 0 ) = x0 β . La
predicción, al igual que en el caso anterior, será x0 βb. La diferencia es que el error
de predicción en este caso estará denido por ee = E[y 0 ] − x0 βb = x0 β − x0 βb =
b.
x0 (β − β)
Calculando entonces la varianza (Hacerlo!) de este nuevo error de predicción
podemos construir ahora un intervalo de conanza para E(y 0 ) de la misma forma
que antes.
E[y 0 ] − yb0
q
∼ N (0, 1)
σµ2 (x0 (X 0 X)−1 x00 )
P r[b
y 0 − t1−α/2,n−k
p
⇒
E[y 0 ] − yb0
q
∼ tn−k
σ
bµ2 (x0 (X 0 X)−1 x00 )
V ar(e
e0 ) ≤ E[y 0 ] ≤ yb0 + t1−α/2,T −k
p
V ar(e
e0 )] = 1 − α
b = x0 V ar(β)x
b 00 = σ 2 x0 (X 0 X)−1 x00 .
Donde utilizamos V ar(yb0 ) = V ar(x0 β)
µ
La siguiente gura ejemplica las predicciones de y 0 y E[y 0 /x0 ] en un modelo
de 2 variables independientes.
66
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.9.1. Medición de la precisión de la predicción
Se han propuesto varias medidas para valorar la precisión de los modelos de
predicción. Muchas de estas medidas están para evaluar la predicción expost, es
decir, predicciones para las que las variables exógenas no tienen que ser predichas.
Dos de estas medidas que se basan en los residuos de la predicción, son la raíz
cuadrada del error cuadrado medio y el error absoluto medio.
rP
bi )2
i (yi − y
RM SE =
n0
67
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
P
M AE =
i
| yi − ybi |
n0
Donde n0 es el número de períodos que hay que predecir. Estos métodos presentan
un problema obvio de escala. Algunas medidas que no presentan este problema
se basan en el estadístico U de Theil.
s
P
(1/n0 ) i (yi − ybi )2
P
U=
(1/n0 ) i yi2
Ejemplo:
Supongamos que un analista comercial está pensando en construir un edicio
comercial para luego vender. Sin embargo, no sabe cuales son las características
que debiera tener el edicio para maximizar su rentabilidad. Para descubrir esto
el se propone realizar un análisis de regresión.
El analista elige al azar una muestra de 11 edicios de ocinas de 1500 edicios
posibles. Estos datos los puede utilizar para emplear el análisis de regresión lineal
multiple para estimar el valor de un edicio de ocinas en un área determinada
basándose en las siguientes variables.
Datos
x1
Supercie m2
2310
2333
2356
2379
2402
2425
2448
2471
2494
2517
2540
x2
Ocinas
2
2
3
3
2
4
2
2
3
4
2
x3
Entradas
2
2
1,5
2
3
2
1,5
2
3
4
3
x4
Antiguedad años
20
12
33
43
53
23
99
34
23
55
22
y
Valor Edicio US$
142000
144000
151000
150000
139000
169000
126000
142900
163000
169000
149000
Teniendo los datos podemos entonces utilizar cualquier software estadístico que
nos permita desarrollar la estimación por mínimos cuadrados ordinarios del modelo de regresión. Supongamos que el modelo que mejor describe el comportamiento de nuestra variable dependiente es un modelo lineal del tipo:
yi = β1 + β2 x2i + β3 x3i + β4 x4i + µi
Utilizando el software Stata tenemos:
68
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
A mayor número de metros cuadrados, entradas y cantidad de ocinas del edicio
mayor es el valor comercial de este. Además, mientras más años de construcción
menor es el valor del edicio. Todas las variables incluidas en el modelo son estadísticamente signicativas( lo cual se puede ver comparando los test calculados
con los de t de tabla, o viendo directamente el p-value) individualmente (Test
t) y conjuntamente(Test F). Un porcentaje importante de la varianza del precio
es explicada por la varianza de las variables explicativas, conclusión obtenida a
2
partir del alto R2 y R observado.
Las conclusiones obtenidas a partir de la inferencia realizada son válidas s i el
supuesto de normalidad de los errores se cumple. Para estudiar esto observemos el
comportamiento de los errores estimados y realicemos un Test de Normalidad(JarqueBera).
69
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Podemos ver que la distribución de los errores no es del todo simétrica (Skewness =
1,2) y que tampoco presenta un comportamiento mesocurtico (Kurtosis = 3).
Ambos elementos se ven reejados en el estadísitico Jarque - Bera, el cual cae en
la zona de rechazo (Ver además p -value).
Las estimaciones realizadas anteriormente pueden hacerse en cualquier programa
estadístico, incluso en el sub utilizado programa excel, el cual posee un comando
que permite obtener estimaciones de regresiones lineal de manera mu rápida.
70
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Con los parámetros estimados es posible realizar predicciones del valor de un
edicio particular condicional a sus características.
ybi = βb1 + βb2 x2i + βb3 x3i + βb4 x4i
Por ejemplo podría calcular el valor tasado de un edicio de ocinas en la misma
zona con 2500 metros cuadrados, tres ocinas, dos entradas y una antiguedad de
25 años. Es decir realizar predicciones fuera de la muestra.
158261 = 52318 + 27,64 ∗ 2500 + 12530 ∗ 3 + −234,24 ∗ 25
Para analizar la capacidad predictiva de nuestro modelo realicemos predicciones
utilizando la muestra que ya tenemos. Utilizando por ejemplo el programa Eviews
tenemos.
71
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
72
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Si analizamos los errores de predicción podemos ver que en promedio son cero,
tal como se demostró en clases.
Para ver la relación existente entre la varianza de la predicción y una de las
variables explicativas podemos realizar un ajuste con una variable.
Podemos ver que la varianza de la predicción es mayor a medida que las variables
explicativas están más lejos de su media.
73
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.10. Estimación Máximo Verosímil (EMV)
Hasta el momento hemos adoptado el criterio de estimación consistente con escoger los valores de los parámetros (β̂ ,σ̂ 2 ) de modo de minimizar la suma de los
residuos al cuadrado. A continuación, expondremos otra forma de obtener los
parámetros de interés, el cual, a diferencia de OLS, descansa en un determinado
supuesto respecto de la distribución del término de error, teniendo por objetivo,
como veremos más adelante, determinar los parámetros que maximicen la probabilidad de ocurrencia de la muestra observada. La ventaja de MV es que puede
producir estimadores consistentes y asintóticamente ecientes cuando MCO falla.
Sea Y'=[y1 , y2 , . . ., yn ] un vector n × 1 de valores muestrales para la variable
dependiente, los cuales dependen de un vector k × 1 θ' = [θ1 , θ2 , . . ., θk ]. Sea
f (y; θ) la densidad conjunta asociada. A dicha probabilidad conjunta se le llama
función de Verosimilitud y se denota por L(·):
L(θ; y) = f (y; θ)
Note que hemos invertido la notación entre L y la densidad. Ello porque la densidad describe los valores probables de Y dado un vector θ determinado, sin
embargo, en nuestro caso el sentido es inverso: estamos interesados en el vector θ
dado un vector Y determinado.
Al maximizar L(θ; Y ) respecto de θ se obtienen los estimadores máximo verosímiles
(θ̂M V ), los cuales maximizan la probabilidad de ocurrencia de la muestra observada, es decir:
θ̂M V = máx L(θ; Y )
(2.73)
θ̂M V = máx ln(L(θ; Y )) = máx l(θ; Y )
(2.74)
θ
o equivalentemente12
θ
θ
Luego, si asumimos que las observaciones de Y son independientes, entonces
n
n
X
Y
li (θ; yi )
l(θ; Y ) = ln( Li (θ; yi )) =
13
:
(2.75)
i=1
i=1
12 En
general se utiliza el logaritmo de la función de verosimilitud, denotado como l = ln(L)
como función objetivo. Note que dicha transformación es inocua, en términos de que el vector
∂l
de parámetros que maximize l será el que a su vez maximize L, ya que: ∂θ
= L1 ∂L
∂θ
13 Bajo independencia, la función de distribución conjunta de una muestra corresponde a la
multiplicación de las funciones de densidad individuales.
74
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
La primera derivada de L es generalmente conocida como Score, s = (θ; Y ), por
lo cual θ̂M V se obtienen al igualar el score a cero.
2.10.1. Propiedades de los estimadores MV
Las propiedades de los estimadores ML se derivan en grandes muestras, por lo
cual hablaremos de las propiedades asintóticas de los mismos. Ellas son:
1. Consistencia:
plim(θ̂M V ) = θ
(2.76)
es decir, asintóticamente, el parámetro estimado corresponde al parámetro
poblacional.
2. Eciencia Asintótica: La varianza del estimador ML alcanza la llamada
Cota Inferior de Cramer Rao, es decir I(θ)−1 . Esta propiedad asintótica
es la principal virtud de los estimadores ML. La cota inferior de Cramer
Rao corresponde al inverso de la matriz de información (que deniremos a
continuación), la cual corresponde a la mínima varianza que puede poseer
un estimador insesgado.
3. Normalidad Asintótica:
θ̂M V ∼a N (θ, I(θ)−1 )
(2.77)
es decir, el estimador ML distribuye asintóticamente normal, con media θ
y varianza igual al inverso de la llamada matriz de información (I(θ)).
Esta última se dene como:
·
· 2 ¸
¸
∂l ∂l 0
∂ l
I(θ) = E
= −E
∂θ ∂θ
∂θ∂θ0
donde note que la matriz hessiana de segundas derivadas de L es una matriz
cuadrada y simétrica de orden k × k .
4. Invarianza: Si θ̂ es el estimador ML de θ y g(θ) es una función continua
de θ, entonces g(θ̂) es el estimador ML de g(θ).
75
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.10.2. Estimación MV
Como ya es usual, sea el siguiente modelo poblacional:
Y = Xβ + u
iid
donde las matrices poseen los tamaños usuales y u ∼ N (0, σ 2 I). Entonces:
f (u1 , u2 , . . . , un ; σ 2 I) = f (u1 ) ∗ f (u2 ) ∗ · · · ∗ f (un ) =
n
Y
f (ui )
i=1
y asumiendo una distribución normal para los errores, tenemos que la función de
verosimilitud corresponde a:
2
f (u1 , u2 , . . . , un ; σ I) =
n
Y
i=1
=
√
1
2πσ 2
u2
i
exp− 2σ2
0
1
− u u2
n exp 2σ
(2πσ 2 ) 2
(2.78)
(2.79)
luego, dado nuestro modelo poblacional, tenemos que:
L = f (y1 , y2 , . . . , yn ; X, σ 2 , β) =
(Y −Xβ)0 (Y −Xβ)
1
−
2σ 2
exp
n
(2πσ 2 ) 2
(2.80)
2
0
con lo cual, nuestros estimadores θ̂M V = [β̂M V σ̂M
V ] se obtienen siguiendo la
regla expuesta en (2.74):
¶
µ
(Y −Xβ)0 (Y −Xβ)
1
−
2σ 2
máx
ln(L) = máx
ln
n exp
β,σ 2
β,σ 2
(2πσ 2 ) 2
µ
¶
n
n
(Y − Xβ)0 (Y − Xβ)
2
= máx
− ln(2π) − ln(σ ) −
(2.81)
β,σ 2
2
2
2σ 2
con lo cual, las CPO:
1
∂lnL
= 2 X 0 (Y − X β̂) = 0
∂β
σ̂
=⇒ β̂M V = (X 0 X)−1 X 0 Y
(2.82)
n
1
∂lnL
= − 2 + 4 (Y − X β̂)0 (Y − X β̂) = 0
∂σ
2σ̂
2σ̂
(Y − X β̂M V )0 (Y − X β̂M V )
=⇒ σˆ2 M V =
n
76
(2.83)
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Entonces, bajo normalidad de los errores, el estimador β̂M V es equivalente al estimador MCO. Sin embargo, note que el estimador de la varianza de los errores
(σ̂M V ) da lugar al estimador sesgado.
Nos queda entonces derivar la varianza de los estimadores MV. Vimos que la
matriz de varianzas correspondía al inverso de la matriz de información (I(θ)).
Por facilidad de cálculo, generalmente se utiliza la segunda denición de I(θ), es
decir, la de las segundas derivadas de la función de verosimilitud. Entonces:
∂2l
X 0X
=− 2
∂β∂β 0
σ
∴
·
¸
∂ 2l
X 0X
−E
=
∂β∂β 0
σ2
(2.84)
∂ 2l
X 0u
=− 4
∂β∂σ 2
σ
∴
·
¸
∂ 2l
−E
=0
∂β∂σ 2
(2.85)
∂2l
n
u0 u
=
−
∂(σ 2 )2
2σ 4
σ6
∴
·
¸
∂ 2l
n
−E
= 4
2
2
∂(σ )
2σ
(2.86)
donde esta última esperanza se deriva del hecho que E(u0 u) = nσ 2 . Entonces, la
matriz de información corresponde a:
µ X0X
¶
0
2
I(β, σ) = σ
(2.87)
n
0
2σ 4
mientras que su inversa:
µ
−1
I(β, σ)
=
(X 0 X)−1 σ 2
0
0
2σ 4
n
¶
(2.88)
Note que el hecho que la matriz de información (y por lo tanto su inversa) sea
una matriz diagonal, reeja que X y u se distribuyen independientemente (de otra
77
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
forma E(X 0 u) 6=0).
Ejemplo: Considere la siguiente función de densidad condicional:
λe−λy (λy)x
f (y|x) =
x!
y ≥ 0,
λ≥0
Obtenga el estimador de máxima verosimilitud de λ.
Primero debemos recordar que cada observación i de la variable dependiente y
tiene la siguiente densidad condicional a la variable explicativa x:
f (yi |xi , λ) =
λe−λyi (λyi )xi
xi !
El logaritmo de la función de verosimilitud asociada a cada observación i es:
µ −λyi
¶
λe
(λyi )xi
li (λ|yi , xi ) = ln
xi !
= ln λ − λyi + xi (ln λ + ln yi ) − ln(xi !)
De esta forma, aplicando sumatoria a la ecuación anterior obtengo la verosimilitud
conjunta:
L(λ|y, x) = n ln λ − λ
n
X
yi + ln λ
i=1
n
X
xi +
i=1
n
X
i=1
xi ln yi −
n
X
ln(xi !)
i=1
Maximizando la expresión anterior con respecto a λ obtenemos el estimador Máximo Verosímil:
Pn
n
xi
∂L
n X
= −
yi + i=1
= 0
∂λ
λ̂ i=1
λ̂
n
n
X
X
yi +
xi = 0
n − λ̂
i=1
i=1
P
n + ni=1 xi
Pn
λ̂ =
i=1 yi
1+x
λ̂ =
y
Ahora suponga que disponemos de los siguientes datos de la variable x e y :
y
x
2
4
5
10
78
6
18
7
20
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
En este caso el estimador Máximo Verosímil de λ es:
1+x
y
1 + 13
=
= 2,8
5
λ̂ =
79
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.11. Inferencia en el contexto MV
2.11.1. Test de Razón de Verosimilitud (LR)
El valor de la función de verosimilitud, L(β̂, σ̂ 2 ), corresponde al valor de la
verosimilitud irrestricta, es decir, sin imponer ninguna restricción sobre los
parámetros del modelo. Suponiendo entonces que nuestro interés se centra en
una serie de restricciones lineales del tipo Rβ = r (donde R y r se denen como
en la sección 2.8), entonces el modelo original es estimable en su versión restringida, al maximizar la función de verosimilitud sujeta a Rβ = r, cuyo resultado son
los estimadores β̃ y σ˜2 . Luego L(β̃ , σ˜2 ) corresponde al valor de la verosimilitud
restringida.
El valor de la verosimilitud restringida no puede ser superior al de la no restringida, sin embargo, podría esperarse que si las restricciones impuestas son correctas,
el valor de la primera esté cerca del de la segunda. Entonces, denimos la razón
de verosimilitud (λ) como:
L(β̃, σ˜2 )
λ=
L(β̂, σ̂ 2 )
El test LR se dene entonces como:
LR = −2 ln λ = 2[ln L(β̂, σ̂ 2 ) − ln L(β̃, σ˜2 )] ∼a χ2 (q)
(2.89)
donde q corresponde al número de restricciones impuestas (es decir, el número de
las de R).
Intuitivamente, el valor del estadígrafo crecerá a mayor sea la discrepancia entre
los valores de la verosimilitud restringida y la no restringida, lo cual nos aleja de
la posibilidad que las restricciones impuestas sea válidas (no rechazo de la nula).
En el caso que los errores distribuyan normal, es posible derivar una versión
alternativa del estadígrafo utilizando los residuos. Reemplazando β̂M V y σˆ2 M V en
l es posible demostrar:
µ
n
n
L(β̂, σˆ2 ) = (2πe)− 2 (σˆ2 )− 2 =
2πe
n
¶− n2
n
(û0 û)− 2
(2.90)
Luego, si denimos como ûN R los residuos del modelo irrestricto y como ûR ,
reemplazando en la denición del test, obtenemos:
LR = n(ln û0R ûR − ln û0N R ûN R )
80
(2.91)
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
2.11.2. Test de Wald (W)
Un segundo test asintótico en el contexto MV corresponde al llamado Test de
Wald. Dicho test se basa en evaluar la hipótesis nula en los coecientes estimados
y evaluar cuan cercano es el resultado comprado a lo propuesto por la nula. Una
de las ventajas del test de Wald es que sólo necesita de la estimación no restringida. Así, una vez obtenido β̂ , un vector (Rβ̂ − r) cercano a cero tendería a apoyar
la hipótesis nula.
Siguiendo la misma lógica de la demostración del test F, si:
a
β̂ ∼ (β, I(β)−1 )
(2.92)
entonces, bajo la hipótesis nula:
a
(Rβ̂ − r) ∼ (0, RI(β)−1 R0 )
(2.93)
entonces, se puede demostrar que:
a
(Rβ̂ − r)0 [RI(β)−1 R0 ]−1 (Rβ̂ − r) ∼ χ2q
(2.94)
donde q es el número de las de R y por lo tanto, el número de restricciones (según
la denimos en la sección 2.8). Luego, como los estimadores MV distribuyen asintóticamente normales, entonces la matriz de información expuesta en la ecuación
(2.88) es válida en muestras grandes, tenemos que el estadístico de Wald se dene
como14 :
(Rβ̂ − r)0 [R(X 0 X)−1 R0 ]−1 (Rβ̂ − r) a 2
(2.95)
∼ χq
σ̂ 2
Una nota: Dijimos que el test era válido asintóticamente, donde hemos utilizado
el resultado de normalidad asintótica de MV. En caso de que los errores efectivamente distribuyan normal en muestra nita, el test (lógicamente) mantiene su
distribución.
W =
2.11.3. Test del Multiplicador de Lagrange (LM)
Un tercer test corresponde al test LM, el cual también es conocido como el test
del Score. recordemos que el Score corresponde a la matriz de primeras derivadas
14 Note
que hemos utilizado sólo el bloque superior izquierdo de la inversa de la matriz de
información. Ello porque el test corresponde a los parámetros asociados a los coecientes de la
regresión. Además, ello es posible porque la matriz es diagonal, lo cual implica que no existe
correlación entre los errores y los regresores.
81
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
de la función de Verosimilitud:
∂ ln L
∂θ
∂l
=
∂θ
s(θ) =
Como vimos en la introducción, s(θ̂) = 0, por lo cual, al evaluar el score en el
estimador restringido bajo la nula Rβ − r = 0 (β̃ ), generalmente obtendremos
un vector diferente de cero, sin embargo, si la nula no se puede rechazar, esperaríamos obtener un vector cercano a cero.
Se puede demostrar que el score posee media cero y varianza igual a la matriz de
información (I(θ)). Por lo tanto, tenemos que la forma cuadrática:
a
s0 (θ)I(θ)−1 s(θ) ∼ χ2
con lo cual, al evaluar en el vector de parámetros restringido tenemos que bajo
la nula, el test LM se dene y distribuye como:
LM = s0 (θ̃)I(θ̃)−1 s(θ̃) ∼a χ2q
(2.96)
Note que contraposición al test de Wald, sólo necesitamos calcular el estimador
restringido. De hecho, su popularidad reside en que muchas veces es más fácil
calcular el estimador restringido que el irrestricto.
Dada la normalidad asintótica de los estimadores MV, podemos reducir el estadígrafo a una forma mucho más simple. Para ver lo anterior, considere una
notación matricial del score:
· ∂l ¸ ·
¸
1
0
2X u
∂β
σ
s(θ) =
=
u0 u
∂l
− 2σn2 + 2σ
4
∂σ 2
entonces, para evaluar el score en la estimación restringida, utilizamos los residuos
restringidos, los cuales denotaremos por:
u∗ = Y − X β̃
y por lo tanto:
σ̂ 2∗ =
con lo cual:
·
s(θ̃) =
u0∗ u∗
n
1
X 0 u∗
σ̂ 2∗
0
82
¸
(2.97)
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Entonces, tomado en cuenta la denición de I(θ)−1 dada en (2.87) y evaluándola
en el estimador restringido, tenemos que nuestro test en (2.96) queda como:
·
¸· 1 0
¸
£ 1 0
¤ σ̃ 2 (X 0 X)−1 0
u
X
2
∗
σ̃
uX 0
LM =
2σ̃ 4
σ̃ 2 ∗
0
0
n
u0∗ X(X 0 X)−1 X 0 u∗
σ̃ 2
0
u X(X 0 X)−1 X 0 u∗
= n ∗
u0∗ u∗
= nR2 ∼a χ2q
=
(2.98)
(2.99)
donde el R2 corresponde a la bondad de ajuste de la regresión auxiliar entre u∗
y X.
Resumiendo, el test se implementa en tres simples pasos:
1. Estimar el modelo restringido y obtener sus residuos
2. Con ellos correr una regresión de ellos contra X. Obtener el R2
3. Construir el estadístico
Ejemplo: Siguiendo con el ejemplo anterior, testee la hipótesis nula de que λ = 5.
(i) Test de Razón de Verosimilitud: recordemos que el estadístico de este test es:
LR = 2[ln L(λ̂) − ln L(λ̃)] ∼a χ2 (q)
Primero debemos evaluar el logaritmo de la verosimilitud en el parámetro
no restringido (estimado):
L(λ̂|y, x) = n ln λ̂ − λ̂
n
X
yi + ln λ̂
i=1
n
X
xi +
i=1
n
X
xi ln yi −
i=1
n
X
ln(xi !)
i=1
= 4 · ln(2,8) − 2,8 · 20 + ln(2,8) · 52 + 90,04 − 97,014
= −5,317999436
El siguiente paso es computar el logaritmo de la función de verosimilitud
restringida, es decir, evaluada en el valor del λ bajo la hipótesis nula (λ̃ = 5):
L(λ̃|y, x) = n ln λ̃ − λ̃
n
X
yi + ln λ̃
i=1
n
X
i=1
xi +
n
X
i=1
xi ln yi −
n
X
i=1
= 4 · ln(5) − 5 · 20 + ln(5) · 52 + 90,04 − 97,014
= −16,8481637
83
ln(xi !)
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Luego debemos computar el estadístico restando ambas verosimilitudes en
logaritmos y multiplicar esta diferencia por 2:
LR = 2[ln L(λ̂) − ln L(λ̃)]
= 2[−5,317999436 + −16,8481637] = 23,06032853
Finalmente, debemos comparar el valor de este estadístico con el valor de
tabla de una χ2 con 1 grado de libertad (sólo estamos testeando una hipótesis). El valor de la χ2 con un grado de libertad a un 5 % de signicancia es
de 3.84, por lo tanto se rechaza la hipótesis nula de que λ sea igual a 5.
(ii) Test de Wald: para poder realizar este test primero necesitamos computar la
matriz de varianzas y covarianzas del estimador, el inverso de la matriz de
información. Recordemos la forma de esta matriz:
·
¸
· 2 ¸
∂l ∂l 0
∂ l
I(θ) = E
= −E
∂θ ∂θ
∂θ∂θ0
El score (o primera derivada de el logaritmo de la función de verosimilitud
era:
Pn
n
xi
∂lnL
n X
= −
yi + i=1
∂λ
λ i=1
λ
Ahora, la segunda derivada (o Hessiano) es:
Pn
∂lnL2
n
i=1 xi
=
−
−
∂λ∂λ0
λ2 P λ2
2
(n + ni=1 xi )
∂lnL
= −
∂λ∂λ0
λ2
Como la variable x es ja el valor esperado del hessiano corresponde a la
misma expresión, luego el negativo de esto constituye la matriz de información:
P
(n + ni=1 xi )
I(λ) =
λ2
(4 + 52)
I(λ) =
λ2
56
I(λ) =
λ2
Ahora el estadístico de Wald se construye de la siguiente forma:
W = (λ̂ − 5)0 I(λ̂)(λ̂ − 5) ∼ χ21
84
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
Reemplazando λ̂ por 2.8:
W
c
µ
= (2,8 − 5)
0
56
(2,8)2
¶
(2,8 − 5)
W c = 34,6
Como el valor calculado del estadístico de Wald resulta ser mayor al valor
de tabla de una χ2 con un grado de libertad, se rechaza la hipótesis nula de
que λ̂ = 5.
(iii) Test de multiplicador de Lagrange: para construir este estadístico necesita-
mos evaluar el score y la matriz de información en el estimador restringuido
e), que en este caso es igual a 5:
(λ
Pn
n
n X
4
52
e
s(λ) =
−
= −8,8
yi + i=1 = − 20 +
e
e
5
5
λ
λ
i=1
56
e =
I(λ)
= 2,24
(5)2
Reemplazando en el estadístico:
e 0 I(λ)
e −1 s(λ)
e
LM = s(λ)
LM = (−8,8)(2,24)−1 (−8,8) = 34,6
Con lo cual se rechaza la hipótesis nula de que λ̂ = 5.
2.12. Algunas acotaciones respecto a la estimación
y la inferencia MV
1. La sección 2.10.2 asume que la distribución de los errores sigue una distribución normal. Sin embargo, suponer errores normales es sólo uno de los
posibles supuestos respecto a la distribución de los errores. Existe una gran
cantidad de posibilidades al respecto, utilizándose otras como la distribución
logística y la exponencial, muy regularmente en otros tópicos econométricos.
Lo anterior es una ventaja de la estimación MV, dado que sus propiedades
asintóticas se mantienen independientemente de la distribución utilizada.
2. Otra ventaja corresponde a la posibilidad de utilizar modelos no lineales.
MCO (tal y como lo hemos estudiado) sólo permite estimar modelos lineales
en parámetros, mientras que MV permite no linealidades (aunque ello implique la imposibilidad de obtener de obtener formas funcionales cerradas
85
Econometría I
FACEA, Universidad de Chile
Capitulo 2: Modelo de Regresión Lineal
para nuestros estimadores, lo cual implica necesariamente utilizar métodos
numéricos para optimizar la función objetivo).
3. Otra ventaja reside en la inferencia. Toda la inferencia vista en MCO poseía
distribución exacta bajo el supuesto de normalidad. Los test asintóticos
visto en la inferencia MV son válidos bajo cualquier distribución supuesta
(aunque asintóticamente).
4. Adicionalmente, los tres test vistos son capaces de lidiar con restricciones no
lineales. ¾Por qué? Porque MV es capaz de lidiar con modelos no lineales15
5. Es posible demostrar que W ≥ LR ≥ LM al ser aplicados a un modelo
lineal. Los tres son asintóticamente equivalentes, sin embargo, en muestras
nitas arrojarán resultados diferentes.
6. ¾Cuándo es recomendable utilizar un test t o un test F por sobre un test
asintótico?
7. Todos los paquetes estadísticos reportan el valor de la función de verosimilitud (es decir, la función evaluada en los parámetros estimados). Ello, muchas
veces es utilizado como un criterio de selección entre modelos (recuerde que
nuestro objetivo es maximizar la función de verosimilitud).
15 Un
ejemplo de restricción no lineal corresponde a H0 : ln(β32 ) = −0,1+ln(β2 ). Para estimar
el modelo restringido basta con aislar β2 e introducirlo en la función de verosimilitud que será
maximizada por métodos numéricos.
86
Capítulo 3
Forma Funcional y Especicación
3.1. Regresores Estocásticos en el Modelo de Regresión Lineal
En el desarrollo del modelo de regresión lineal realizado en la sección 2.4 asumimos que nuestras variables explicativas eran determinísticas (Supuesto 2). En
ese contexto, cada vez que tomábamos una muestra diferente los regresores permanecían jos y solo la variable dependiente cambiaba, haciendo entonces que
la regresión muestral fuera una aproximación a la regresión poblacional. En está
sección procederemos a eliminar este supuesto1 y veremos cuales son las consecuencias de asumir regresores estocásticos en las estimaciones del modelo de
regresión lineal. Es decir, asumiremos ahora que X es obtenida aleatoriamente a
partir de alguna distribución de probabilidad.
Si X es estocástico, X debe ser independiente de u si queremos mantener las
propiedades estadísticas de los estimadores MCO. Un método adecuado para
obtener las propiedades estadísticas de βb consiste en obtener primero los resultados condicionados en X. Esto equivale al caso de los regresores no estocásticos.
Después buscamos los resultados incondicionales "promediando"(por ejemplo, por
integración total) las distribuciones condicionadas. La clave de este razonamiento es que, si podemos establecer insesgamiento condicionado en un X arbitrario,
podemos promediar las X para obtener un resultado incondicionado.
Manteniendo los supuestos 3 y 4 dados por E(u|x)=E(u)=0, V ar(u|X) = V ar(u) =
1 Todos
los otros supuestos realizados anteriormente se mantienen.
87
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
σ 2 podemos al igual que antes estudiar si MCO es insesgado.
βb = β + (X 0 X)−1 X 0 u
b
E[β|X]
= β + (X 0 X)−1 X 0 E[u|X] = β
Ya que por supuesto 3 E[u|X] = 0. Podemos ahora calcular el valor esperado
incondicional aplicando esperanza sobre todo el espacio posible de los regresores.
b = Ex [E[β|X]]
b
E[β]
b = β + Ex [(X 0 X)−1 X 0 E[u|X]] = β
E[β]
b = Ex [E[β|X]]
b
Por lo tanto, βb también es insesgado incondicionalmente.E[β]
= β.
El insesgamiento de los parámetros MCO es robusto a los supuestos de la matriz
X.
Con respecto a la varianza de β condicionada en la matriz de variables independientes tenemos
b
V [β|X]
= σ 2 (X 0 X)−1
Sin embargo, la varianza incondicional de βb esta dada por2
b = Ex [V [β|X]]
b
b
V [β]
+ Vx [E[β|X]]
b = Ex [V [β|X]]
b
V [β]
+ Vx [β]
b = Ex [V [β|X]]
b
V [β]
= E[σ 2 (X 0 X)−1 ] = σ 2 E[(X 0 X)−1 ]
Nuestra conclusión inicial se altera un poco, tenemos que sustituir (X 0 X)−1 por
su valor esperado para obtener la matriz de covarianzas apropiadas. La varianza
incondicionada de βb solo puede ser descrita en términos del comportamiento
medio de X. Sin embargo, el teorema de Gauss Markov seguirá aplicando. Ya que
si para cada X particular el estimador MCO es el mejor estimador lineal insesgado
también lo será para los valores medios de los regresores.
2 Aplicando
descomposición de la varianza(Ver).
88
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Conclusiones:
Si los errores son independientes de las X entonces se cumplirá el Teorema
de Gauss Markov.
Bajo normalidad del error los test estadísticos tienen la misma distribución
que en el caso de las X no estocásticas.
3.2. Incorporación de No Linealidades
En la sección 2 asumimos que el modelo de regresión debía ser lineal. Sin embargo,
muchas de las relaciones económicas no son lineales. Veamos el siguiente ejemplo
de la relación entre las ventas de los portales de Internet y el número de visitas
al portal.
Claramente la relación es no lineal. No es lo mismo en términos de ventas aumentar desde 40 visitas a 50 que de 10 visitas a 20. Pero, ¾Cómo podemos incorporar
no linealidad entre Y y X en nuestro modelo de regresión?. Básicamente lo que
haremos es utilizar algunos tipos de transformación de variables. Esto nos permitirá tener un modelo no lineal y a partir de la aplicación de las transformaciones
tener un modelo de regresión lineal para el que se cumplen todas las cosas que
hemos visto.
89
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Transformación Logarítmica
Suponga un modelo original no lineal de la siguiente forma Yi = β1 Xiβ2 ui .
Si aplicamos logaritmo nos quedará un modelo transformado de la siguiente forma
ln(Yi ) = ln(β1 ) + β2 ln(Xi ) + ln(ui )
∂Y X
En donde β2 = ∂X
corresponde a la elasticidad X de Y. Este tipo de
Y
transformaciones es muy útil en modelos de demanda y de producción.
Transformación Semilogarítmica
Suponga un modelo original no lineal de la siguiente forma Yi = β1 eβ2 Xi ui .
Si aplicamos logaritmo nos quedará un modelo transformado de la siguiente forma
ln(Yi ) = ln(β1 ) + β2 Xi + ln(ui )
∂Y 1
En donde β2 = ∂X
corresponde a la semi elasticidad X de Y. Una utiY
lización común de la formulación semilogarítmica se da en los casos de
)
crecimiento exponencial. Si X es el tiempo t, entonces ∂ln(Y
= β2 =Tasa
∂t
media de crecimiento de Y.
Transformación Recíproca
Suponga un modelo original no lineal de la siguiente forma Yi = β1 +
β2 X1i + ui . El cual podemos expresar como un modelo transformado de
la siguiente forma
Yi = β 1 + β 2 Zi + u i
En donde β2 =
∂Y
∂X
corresponde al parámetro usual.
Si no se conoce a priori la forma funcional, existen algunos métodos que podrían
identicar la existencia de alguna no linealidad. A continuación veremos uno de
ellos.
3.2.1. Test de No Linealidades Omitidas (Test de Reset)
Una pregunta interesante de plantearse es si nuestro modelo ha omitido no linealidades en ciertos regresores3 . Ramsey (1969) introdujo el siguiente test. Bajo
3 Es
importante no confundir la no linealidad en regresores Vs no linealidades en parámetros.
Nuestro enfoque se basa en el primer tipo de ellas. El segundo es de mayor complejidad en tanto
90
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
la nula, el modelo poblacional corresponde a:
Y = Xβ + u
luego, denotamos, como ya es usual, Ŷ = X β̂ . Ramsey propuso estimar el siguiente modelo auxiliar a través de MCO.
Y = X β̂1 + Z β̂2 + û
donde:
Z =
£
Ŷ 2 Ŷ 3 . . .
Ŷ m
¤
luego la nula:
H0 : No Existen no linealidades omitidas
H0 : β2 =0
puede ser testeada utilizando un test de Wald sobre β2 . Es posible demostrar que
bajo la nula W∼a χ2m−1 . Por lo tanto, la nula se rechaza al α % de signicancia si
el estadígrafo es mayor que el valor crítico correspondiente. Para implementar el
test, m (es decir, el número de potencias de Y a incluir en la regresión auxiliar)
debe ser seleccionado previamente. Típicamente, valores pequeños como 2, 3 o 4
parecen funcionar mejor.
que al derivar la función objetivo con respecto a los parámetros de interés, podemos no obtener
una forma funcional cerrada para nuestro estimador. Ello nos llevará generalmente a utilizar
métodos numéricos para maximizar o minimizar nuestra función objetivo, la cual, incluso puede
dejar de ser estrictamente cóncava.
91
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.3. Variables Dummies o cualitativas
En en análisis de regresión, la variable dependiente esta inuida frecuentemente
no solo por variables continuas como so el ingreso, producción, precios, costos,
estatura, temperatura, etc..., sino también por variables que son esencialmente
cualitativas, estos son regresores binarios, es decir, variables que sólo toman el valor 0 o 1. Dichas variables son llamadas variables dummies, variables dicotómicas
o variables cticias. Muchas veces el regresor es binario porque así fue recogido
en la encuesta. Sin embargo, en otros casos el regresor binario ha sido construido
a partir de otras variables de los datos.
Algunos ejemplos de variable dummies son: género, raza, religión, nacionalidad,
región geográca, etc....Con respecto a las dos primeras variables mencionadas
por ejemplo, se ha encontrado que manteniendo todos los demás factores constantes, las trabajadoras mujeres ganan menos que sus colegas hombres, y que
las personas de color ganan menos que las blancas. Este patrón puede resultar de
discriminación sexual o racial, pero cualquiera sea la razón, las variables cualitativas tales como género o raza sí inuyen sobre la variable dependiente.
Por ejemplo, consideremos la siguiente variable dummy para género (mujer/hombre)
del individuo. Entonces la variable dummy consistirá en un vector (n × 1) con
elementos 0 o 1 según corresponda. Es decir:
(
1 mujer
d1i =
(3.1)
0 hombre
A modo de ejemplo, pensemos en una ecuación simple de salarios E(Salario(W)/Género),
la cual implica el siguiente modelo:
Wi = β0 + β1 d1i + ui
(3.2)
entonces, dada la especicación escogida para la dummy, tenemos que:
β0 = E(W/hombre)
β0 + β1 = E(W/mujer)
Alternativamente, podríamos haber denido la dummy de la siguiente forma:
(
0 mujer
d2i =
(3.3)
1 hombre
92
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
y el modelo como
Wi = β0 + β1 d2i + ui
entonces, en esta segunda especicación escogida para la dummy, tenemos que:
β0 + β1 = E(W/hombre)
β0 = E(W/mujer)
Una tercera forma de denir el modelo sería incluyendo ambas dummies:
Wi = β1 d1i + β2 d2i + ui
con el cual tendríamos que los retornos a ambos géneros serían:
β2 = E(W/hombre)
β1 = E(W/mujer)
Los tres modelos anteriores son equivalentes. Note que en el tercer modelo
no incluimos término constante ya que ello haría que la matriz X fuese singular y
por lo tanto, no invertible. Dicho error de especicación es llamado en la literatura Trampa de las Dummies y corresponde a un error netamente del investigador,
no de los datos.
Un modelo de regresión puede contener variables explicativas que son exclusivamente dicotómicas o cualitativas, tales modelos se denominas Modelos de
análisis de varianza (ANOVA), estos modelos son utilizados para determinar
la signicancia estadística de la diferencias de medias entre grupos, por ejemplo,
serviría para determinar si existe diferencia signicativa entre los ingresos medios
de los hombres y mujeres.
Ejemplo I:
Contamos con datos de ingreso proveniente de la ocupación principal para el año
2000, de acuerdo a zona geográca de Chile: Norte (de la primera a la cuarta
región), Centro (quinta región, sexta región y región metropolitana) y Sur (de
la séptima a la duodécima región). Suponga que deseamos averiguar si el salario
promedio diere entre las distintas zonas geográcas, si tomamos el promedio de
los salarios de los individuos en cada una de las zonas obtenemos lo siguiente:
Zona Geográfica
Salario Promedio
Norte
Centro
Sur
$ 270,154
$ 296,857.8
$240,238.9
93
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Estos números son claramente diferentes entre sí, pero lo que nos interesa saber
es si esta diferencia es estadísticamente signicativa, para esto utilizaremos un
modelo ANOVA.
Consideremos el siguiente modelo de regresión:
Yi = β0 + β1 D1i + β2 D2i + ui
donde:
Yi =Salario del individuo i.
D1i =es una variable dummy que toma valor 1 si la persona i vive en el norte y
cero sino.
D2i = es una variable dummy que toma valor 1 si la persona i vive en el sur y
cero sino.
Este modelo es como cualquier otro modelo de regresión lineal, la única diferencia que ahora todo nuestras variables explicativas son binarias. De esta forma,
el salario promedio de los individuos que viven en el norte es:
E(Yi |D1i = 1, D2i = 0) = β0 + β1
de igual forma el salario promedio de los individuos que viven en el sur es:
E(Yi |D1i = 0, D2i = 1) = β0 + β2
y por último, el salario promedio de los individuos que viven en el centro es:
E(Yi |D1i = 0, D2i = 0) = β0
Así, el salario promedio de los individuos de la zona centro esta dado por el intercepto de la ecuación de regresión, además los coecientes β1 y β2 ("pendiente"),
indican la cantidad en que los salarios promedios del norte y sur dieren de los del
centro, respectivamente. Ahora necesitamos ver si estas diferencias son estadísticamente signicativas.
El modelo estimado es:
94
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Como los tres coecientes estimados resultan ser estadísticamente signicativos,
la diferencia en los salarios promedios entre regiones es estadísticamente signicativa. De esta forma, se puede concluir que los salarios en la zona centro son
estadísticamente mayores a los de la zona norte y sur, y que los de la zona norte
son estadísticamente superior a los de la zona sur.
Es importante tener claro que las variables dicotómicas simplemente señalaran
las diferencias, si es que estas existen, pero no sugieren razones por las cuales
estas se presentan.
Desde ahora llamaremos a la categoría que no se le asigna dummy (en nuestro
ejemplo la zona centro) como categoría base, todas las comparaciones se harán
respecto a esta categoría. Los coecientes correspondientes a las variables dicotómicas los llamaremos coecientes de interacción diferencial.
Los modelos ANOVA que acabamos de analizar no son muy frecuentes en economía,
sólo se utilizan para testear diferencias de medias.
Los modelos econométricos generalmente son más amplios e introducen tanto variables explicativas continuas como dicotómicas. Por ejemplo, es razonable suponer
que, además del género, existen otros factores que explican el salario (educación
y experiencia (entre otros) siguiendo a Mincer (1974)).
Especiquemos nuevamente el modelo en (3.2) como E(Salario (W)/Educación
(E), Género):
Wi = β0 + β1 d2i + β2 Ei + ui
Dicho modelo presenta un efecto intercepto para el género, es decir, hombres
y mujeres poseen diferente intercepto, pero igual pendiente (β2 ) en educación
(retorno a la educación):
Hombres
W
Mujeres
β
β
0+β 1
β
β
2
2
0
E
Salario y Educación, diferencia de intercepto entre hombres
y mujeres
95
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Ahora, si quisiéramos especicar un modelo en que además las pendientes varíen
con el género (retornos a la educación diferenciados), tendríamos el siguiente
modelo:
Wi = β0 + β1 d2i + β2 Ei + β3 d2i · Ei + ui
donde:
E(Salario (W)/Educación (E), Hombre)=β0 + β1 +β2 E +β3 E .
E(Salario (W)/Educación (E), Mujer)=β0 +β2 E .
∂E(Salario(W )/Educacin(E),Hombre)
∂E
∂E(Salario(W )/Educacin(E),M ujer)
∂E
= β2 + β3 .
= β2 .
En el caso que existan otros regresores continuos (experiencia, por ejemplo), podría ser deseable poseer efectos diferenciados en la pendiente sólo para algunos
de ellos.
Hombres
W
β
β 2+β
0+β 1
β
β
3
Mujeres
2
0
E
Salario y Educación, diferencia de intercepto y pendiente
entre hombres y mujeres
96
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.3.1. Posibles usos de las variables Dummies
Como hemos mencionado las variable dummies pueden reejar características individuales como género, status marital,raza, etc, y de esta forma las habiamos
llamado variable cualitativas. Sin embargo, este no es el único motivo para
incluir dummies en una regresión. Existen además aquellas dummies llamadas
dummies estacionales cuyo objetivo es controlar por factores temporales de
los datos. Por ejemplo, estimando la demanda de helados, es posible que exista un .efecto verano"por lo cual la demanda aumente en algunos trimestres o
bimestres, de esta forma para controlar dicho efecto, se deben incluir 4 dummies
cada una correspondiente a un trimestre del año (o 6 en el caso del bimestre, o 2
en el caso del semestre, etc.). Recuerde que el caso de incluir una constante debe
retirar discrecionalmente alguna de ellas, la cual servirá como trimestre de referencia. Las dummies también pueden ser útiles para captar efectos umbrales.
Siguiendo con nuestro ejemplo de educación, podríamos tener que en la encuesta,
la variable Educación no fue recogida en forma continua, sino discreta (es decir,
si la persona posee: Educación Básica (8 años), Educación Media (12 años), Educación Universitaria (17 años), Educación universitaria con postgrado (19 años)).
Deniendo una dummy por cada nivel de educación, el coeciente asociado a cada una de ellas nos mostraría el retorno a cada tipo de educación. Finalmente,
las dummies pueden ser de utilidad para cuanticar efectos condicionales. Ya
habíamos enunciado éstas cuando vimos E(W/E,género), en que permitimos que
la pendiente varíe entre géneros. Dichas dummies son de interés cuando queremos
captar algún efecto condicional a alguna característica. Por ejemplo, el retorno a
la educación dado que se es mujer, o que se es casado, o que se es blanco, etc.
En dicho caso, basta introducir la dummy que identica el estado condicional
multiplicada por la variable de interés.
Concluyendo, la forma en que se incluyan las variables binarias en el modelo
de regresión depende de la pregunta que el investigador desee responder o del
objetivo que tenga para incluirlas. Creatividad y teoría.
Desde el punto de vista de la teoría de regresión, di corresponde a un variable aleatoria del mismo proceso de muestro que generó el resto de las variables.
Veamos entonces como manejarlas algebraicamente. Sea el modelo simple:
Wi = β1 d1i + β2 d2i + ui
o en nuestra notación matricial usual:
Y = Xβ + u
97
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
donde β = (β1 β2 ) y X = [D1 D2 ], entonces:
β̂ = (X 0 X)−1 X 0 Y
· 0
¸−1 · 0 ¸
D1 D1 D10 D2
D1 Y
=
D20 D1 D20 D2
D20 Y
¸
¸−1 · Pn
· Pn 2
Pn
d
y
d
d
d
1i
i
1i
2i
1i
i=1
i=1
i=1
Pn
Pn
Pn 2
=
i=1 d2i yi
i=1 d1i d2i
i=1 d2i
¸−1 · Pn
¸
·
n1 0
Pni=1 d1i yi
=
0 n2
i=1 d2i yi
·
¸
y¯1
=
y¯2
donde n1 y n2 son el número de observaciones con d1i =1 y d2i =1, respectivamente,
y y¯1 y y¯2 corresponden a las medias muestrales entre las respectivas observaciones.
Y con respecto a la varianza de los estimadores:
V (β) = (X 0 X)−1 σ̂ 2
" 2
#
σ̂
0
n1
=
2
0 σ̂n2
donde:
n
1X 2
σ̂ =
û
n i=1 i
2
es el estimador basado en la muestra completa.
98
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Ejemplo II:
A continuación veremos la aplicación de la llamada .Ecuación de Mincer"para
estimar el retorno a la educación. Los datos corresponden a un grupo de jóvenes
chilenos egresados de la educación media técnica, los que fueron entrevistados en
1997. La primera gura muestra la estimación de la ecuación de Mincer en su
versión original (1974):
ln(Salario)i = α + β1 Educacioni + ui
Consideremos ahora una versión más completa del modelo en que incluimos la
experiencia y una dummy que toma el valor 1 si el individuo es una mujer:
Note que el retorno a la educación sigue siendo positivo, mientras que la dummy
para mujer es negativa (¾Qué signica que el parámetro sea negativo?). Veamos a
continuación, la misma especicación, sólo que esta vez la dummy se dene como
1 si el individuo es hombre:
99
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
¾Cómo es el parámetro de la dummy para el hombre comparado con el de la
mujer? ¾Qué pasa con la estimación del resto de los parámetros?.
100
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.4. Variable Dependiente Rezagada
Cuando trabajamos con series de tiempo, es posible que sea de nuestro interés
incluir rezagos de la variable dependiente como variables explicativas. Ello puede
ocurrir cuando creemos que existe cierta persistencia de nuestra variable dependiente. Por ejemplo, para tratar de explicar el comportamiento de la inación
(πt ), tendría sentido introducir como variables explicativas, junto con la tasa de
crecimiento del dinero (mt ), rezagos de la propia tasa de inación:
πt = β0 + β1 πt−1 + β2 mt + ut
Supongamos el modelo más simple posible:
yt = β1 yt−1 + ut
con |β1 | < 1
(3.4)
Adelantándonos a la teoría de series de tiempo, el modelo anterior recibe el nombre de Proceso Autorregresivo de Primer Orden (AR(1)), donde el nombre
de autorregresivo se debe a que la variable se explica por rezagos de ella misma y
de primer orden porque depende sólo del primer rezago (el orden indica el número
máximo de rezagos incluidos).
La estimación MCO del modelo anterior es β̂ = (X 0 X)−1 X 0 Y , donde X=[i,Yt−1 ],
con la diferencia que esta vez poseemos n-1 datos, a menos que supongamos un
valor inicial para Y0 . En este caso dejan de cumplirse uno de los supuestos bajo
los cuales vimos las propiedades del estimador MCO y la inferencia asociada,
aunque continuemos haciendo los supuestos pertinentes para el término de error,
el modelo viola el supuesto de regresores jos (no estocásticos).
Analicemos esto con más detalle, el estimador MCO de β1 en (3.4) es:
PT
yt yt−1
β̂1 = Pt=2
T
t=2 yt−12
PT
t=2 (β1 yt−1 + ut )yt−1
=
PT 2
t=2 yt−1
PT
ut yt−1
= β1 + Pt=2
T
t=2 yt−12
para que este estimador sea insesgado se requiere que:
"P
#
T
u
y
t
t−1
E Pt=2
=0
T
t=2 yt−12
101
(3.5)
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
lo cual se cumplirá en la medida que ys y ut sean independientes para todo (t,s).
Para examinar este punto con más detalle, substituyamos el modelo en repetidas
ocasiones hasta llegar a una forma general:
y1 = β1 y0 + u1
y2 = β1 y1 + u2 ⇒ y2 = β1 (β1 y0 + u1 ) + u2 = β12 y0 + (u2 + β1 u1 )
y3 = β1 y2 + u3 ⇒ y3 = β1 (β12 y0 + u2 + β1 u1 ) + u3 = β13 y0 + β12 u1 + β1 u2 + u3
..
.
yt = β1t y0 + (ut + β1 ut−1 + β12 ut−2 + · · · + β1t−1 u1 )
Luego, multiplicando yt por ut , ut−1 , ut−2 , etc. y tomando esperanza, tenemos
que:
E(yt ut ) = σ 2
E(yt ut−1 ) = β1 σ 2
E(yt ut−2 ) = β12 σ 2
Por lo tanto, el valor actual de y se encuentra correlacionado con el error actual y
pasado (no con los futuros). De la misma forma, rezagando la expresión nal para
yt , multiplicando por ut , ut−1 , ut−2 , etc. se puede vericar que el regresor yt−1 no
se encuentra correlacionado con el valor actual del error, pero si con sus valores
pasados. Ello implica que nuestro supuesto E(ui Xi ) = 0 ya no es válido, por lo
cual, la matriz de varianzas y covarianzas involucradas ya no será una matriz de
ceros, lo cual se traducirá en que los estimadores MCO ya no serán insesgados,
pero si consistentes (Demostrarlo).
Note que lo anterior es válido para rezagos de la variable dependiente, pero no
para rezagos de variables explicativas, en cuanto estos últimos pueden ser aún
interpretados como jos. El único problema que puede presentar el incluir este
tipo de regresores es la alta correlación que existente entre el valor presente del
regresor y de su o sus rezagos incluidos en el modelo. Ello da origen a problemas
de multicolinealidad.
102
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.4.1. Ejemplo y advertencias sobre el uso de variable dependiente rezagada como regresor
Tenemos la siguiente información sobre Índice de Precios al Consumidor (IPC)
desde 1982 al 20034 . A partir de esta información podemos construir la inación
(cambio porcentual en el índice de precios):
πt =
IP Ct − IP Ct−1
IP Ct−1
Veamos que resultados obtenemos al realizar la siguiente regresión:
IP Ct = β0 + β1 IP Ct−1 + ut
4 Información
obtenida del Banco Central de Chile: www.bcentral.cl
103
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Cuando el coeciente de la variable dependiente rezagada es muy cercano a 1, se
dice que la serie tiene raiz unitaria5 . Sin embargo, este no es el caso. Si teoricamente siempre se espera que la inación sea pequeña pero positiva, deberiamos
esperar que el índice de precios siempre fuera creciendo, y por lo tanto esta serie
más que tener una raiz unitaria tiene una tendencia.
La persistencia en el índice de precios al consumidor es casi obvia. Lo que nos
interesa es determinar si existe persistencia en la inación, la que deberíamos
esperar fuera estable en el tiempo y con valores relativamente bajos y positivos.
Vemos que sucede al estimar el siguiente modelo:
πt = β0 + β1 πt−1 + ut
El coeciente β1 es signicativo y del orden del 0.8 ¾Que signica esto?.
5 Cuando
una serie tiene raiz unitaria, esta no es estacionaria, lo que signica que no uctúa
en torno a su valor promedio. El test t de signicancia del parámetro que acompaña a la variable
dependiente, no sirve para evaluar la hipótesis de raiz unitaria. Comente error tipo I
104
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.5. Selección de Modelos
Una pregunta crucial que se enfrenta en econometría aplicada es como escoger
entre diversas especicaciones planteadas para responder una misma pregunta.
No existe un respuesta única al problema anterior, sin embargo, algunas recomendaciones son:
Elegir el modelo más parsimonioso (lo más pequeño posible)
Que posea un buen ajuste
Que sea consistente con los datos observados
Sin embargo, el caso de tener que elegir entre modelos anidados, es posible utilizar
los llamados Criterios de Información. Suponga que usted desea escoger entre
alguno de los siguientes modelos:
Y = β0 + β1 x1 + β2 x2 + β3 x3 + u (1)
Y = α0 + α1 x1 + α3 x3 + v
Y = φ0 + φ(x1 + x2 ) + ω
(2)
(3)
donde se dice que el modelo (1) encompasa al (2) y al (3), ya que los dos segundos
son el versiones restringidas del primero. Luego, se dice (2) y (3) son anidados en
(1)
La pregunta relevante es ¾Cuál de las tres especicaciones anteriores es mejor?.
Los criterios de información nos ayudan a responder dicha pregunta. El primer
criterio de información es el Criterio de Akaike (ACI) y se dene como:
ACI = −
2 ln L k
+
n
n
mientras que el Criterio de Schwarz (BIC) se dene como:
BIC = −
ln(n)
2 ln L
+k
n
n
Luego, el criterio de selección entre modelos anidados corresponde a elegir el
modelo con menor criterio de información. Note que para que los criterios sean
comprables, deben poseer el mismo tamaño de muestra.
105
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.5.1. Ejemplo: Retornos a la educación, diferencias entre
hombres y mujeres
Recordemos lo aprendido en la sección 3.3 del curso. Veíamos que para estimar el
retorno a la educación, es decir, cuanto ingreso adicional me genera un año más
de educación, podíamos considerar al menos tres especicaciones:
M odelo I :
M odelo II :
M odelo III :
Wi = β0 + β1 d2i + β2 Ei + β3 Ei · d2i + ui
Wi = β0 + β1 d2i + β2 Ei + ui
Wi = β0 + β2 Ei + ui
donde Wi era el logaritmo natural del salario del individuo i, d2i era una variable
dummy que tomaba el valor 1 si la persona i era hombre y 0 sino, Ei eran los
años de educación del individuo i y Ei · d2i era una variable interactiva.
Además tenemos que el Modelo II anida al modelo III, y el modelo I anida a los
modelos II y III. De esta forma, podemos utilizar los criterios de información de
Akaike y Schwarz para determinar con que especicación nos quedamos.
Estimación del Modelo I:
Wi = β0 + β1 d2i + β2 Ei + β3 Ei · d2i + ui
106
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Estimación del Modelo II:
Wi = β0 + β1 d2i + β2 Ei + ui
Estimación del Modelo III:
Wi = β0 + β2 Ei + ui
107
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
En resumen:
Modelo
I
II
II
Akaike
2.278
2.279
2.338
Schwarz
-680692.847
-680676.053
-676154.845
Como debemos elegir el modelo que minimize el criterio de información, de acuerdo a ambos criterios debemos elegir el Modelo I.
108
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.6. Regresión Particionada
Sea el siguiente modelo de regresión lineal con k regresores:
Y = Xβ + u
La matrix X de dimensión n × k puede ser particionada en dos submatrices de
dimensiones n × k1 y n × k2 que llamaremos respectivamente X1 y X2 . De igual
forma el vector de parámetros β debe ser particionado en dos subvectores β1 y
β2 asociado a cada una de las submatrices de variables explicativas.
De esta forma, el modelo anterior puede ser reescrito como:
Y = X1 β1 + X2 β2 + u
En términos matriciales estamos haciendo lo siguiente:


β1
h
i
X1 X2
X = n×k
β =  k1 ×1  tal que
n×k2
1
β2
n×k
k×1
k = k1 + k2
k2 ×1
Recordando que la estimación mínimos cuadrados ordinaria implica despejar el
vector de parámetros del sistema de ecuaciones normales X 0 X β̂ = X 0 Y , podemos
escribir esto en función de las matrices particionadas:
·µ 0 ¶
¸ ·
¸ · 0 ¸
¡
¢
X1
X1 Y
β̂1
· X1 X2
·
=
X20
X20 Y
β̂2
· 0
¸ · 0 ¸
¸ ·
X1 X1 X10 X2
β̂1
X1 Y
·
=
0
0
X2 X1 X2 X2
X20 Y
β̂2
Lo que puede ser expresado de la siguiente forma:
X10 X1 β̂1 + X10 X2 β̂2 = X10 Y
X20 X1 β̂1 + X20 X2 β̂2 = X20 Y
(i)
(ii)
De (ii) podemos despejar β̂2 :
X20 X2 β̂2 = X20 Y − X20 X1 β̂1
X20 X2 β̂2 = X20 (Y − X1 β̂1 )
β̂2 = (X20 X2 )−1 X20 (Y − X1 β̂1 ) (iii)
109
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Reemplazando (iii) en (i):
X10 Y = X10 X1 β̂1 + X10 X2 (X20 X2 )−1 X20 (Y − X1 β̂1 )
|
{z
}
P2
X10 Y
X10 Y
= X10 X1 β̂1 + X10 P2 Y − X10 P2 X1 β̂1
− X10 P2 Y = X10 X1 β̂1 − X10 P2 X1 β̂1
X10 (I − P2 ) Y = X10 (I − P2 ) X1 β̂1
| {z }
| {z }
M2
M2
Así, obtenemos el estimador MCO de β1 (y β2 en forma análoga) de una regresión
particionada:
β̂1 = (X10 M2 X1 )−1 X10 M2 Y
β̂2 = (X20 M1 X2 )−1 X20 M1 Y
También se puede demostrar que las matrices de varianzas y covarianzas de ambos
estimadores son:
V̂ (β̂1 ) = σ
e2 (X10 M2 X1 )−1
V̂ (β̂2 ) = σ
e2 (X20 M1 X2 )−1
Donde σ
e2 se obtiene utilizando la muestra completa.
3.7. Omisión de Variables Relevantes
3.7.1. Impacto sobre el Insesgamiento
Considere el siguiente modelo poblacional (expresado en desvíos con respecto a
la media):
Y = X1 β1 + X2 β2 + u
Suponga ahora que el investigador se equivoca y estima el siguiente modelo:
Y = X1 β1 + u
Estimando el modelo incorrecto obtenemos:
β̂1 = (X10 X1 )−1 X10 Y
= β1 + (X10 X1 )−1 X10 X2 β2 + (X10 X1 )−1 X10 u
110
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
por lo cual:
E(β̂1 ) = β1 + (X10 X1 )−1 X10 X2 β2
= β1 + Zβ2
Ello implica que por lo general, la omisión de variables relevantes (que pertenecen
al modelo poblacional), causará que los parámetros estimados sea sesgados. Ello
no sucederá, sólo en el caso que Z=0 (es decir que X1 y X2 sea ortogonales) o si
β2 =0 (aunque dicho caso es contradictorio, dado que implicaría que la variable
no pertenece al modelo poblacional).
La dirección del sesgo es difícil de obtener, sin embargo, el análisis se simplica si pensamos en β1 y β2 como escalares. En dicho caso:
E(β̂1 ) = β1 +
Cov(X1 , X2 )
β2
V (X1 )
De lo anterior, se desprende que la dirección del sesgo depende de como covarien
las variables incluidas con respecto a las excluidas y del signo del parámetro
omitido.
3.7.2. Impacto sobre la Varianza
Estimando el modelo incorrecto, el estimador de la varianza será:
V (β̂1 /X1 ) = σ 2 (X10 X1 )−1
mientras que si hubiéramos estimado el modelo correcto, se puede demostrar que
la varianza del estimador insesgado de β1 (β̂1∗ ) correspondería a:
V (β̂1∗ /X1 , X2 ) = σ 2 (X10 M2 X1 )−1
donde M2 = I − X2 (X20 X2 )−1 X20 . Luego, comparamos las inversas de ambas matrices:
(V (β̂1 /X1 ))−1 − (V (β̂1∗ /X1 , X2 ))−1 = σ −2 (X10 X2 (X20 X2 )−1 X20 X1 )
tal que se puede demostrar que dicha matriz es denida positiva.
Por lo tanto, el omitir variables relevantes implica que los parámetros estimados
serán sesgados y que sus varianzas serán menores. Más aún, también es posible
demostrar que el estimador de la varianza de los errores (σ̃ 2 ) es sesgado hacia
arriba (la varianza poblacional es menor).
111
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.7.3. Ejemplo
Suponga que un investigador quiere estimar el retorno a la educación y que el
modelo verdadero(obviamente es un caso ilustrativo) está dado por:
Wi = β1 Ei + β2 EXPi + ui
(1)
Donde Wi corresponde al logaritmo del salario del individuo i, Ei corresponde a
los años de educación del individuo i, EXPi corresponde a los años de experiencia
laboral del individuo i6 y ui corresponde a un término de error bien comportado.
Sin embargo este investigador utiliza el siguiente modelo para su estimación.
Wi = β1 Ei + ui
(1)
Los resultados del modelo verdadero son
Los resultados el modelo estimado son
6 La
cual esta denida como EXPi = Edadi − Ei − 6.
112
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Podemos ver el parámetro que acompaña a la variable años de educación es menor
en el modelo estimado que en el modelo verdadero. Esta dirección del sesgo se
puede explicar por el signo del parámetro que acompaña a la variable experiencia
en el modelo verdadero y a la relación existente entre educación y experiencia en
el mercado laboral.
113
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.8. Inclusión de Variable Irrelevantes
3.8.1. Impacto sobre Insesgamiento
Considere ahora el siguiente modelo poblacional:
Y = X1 β1 + u
Suponga ahora que el investigador se equivoca y estima el siguiente modelo:
Y = X1 β1 + X2 β2 + u
Estimando el modelo incorrecto obtenemos:
β̂1 = (X10 M2 X1 )−1 X10 M2 Y
= β1 + (X10 M2 X1 )−1 X10 M2 u
donde M2 se dene igual que el la sección anterior. Entonces:
E(β̂1 ) = β1
y con el mismo razonamiento, se puede demostrar que:
¶
µ
û0 û
2
E(σ̃ ) = E
T − k1 − k2
2
= σ
es decir, la inclusión de variable irrelevantes no causa sesgo en los parámetros
estimados, ni en la varianza de los errores estimados. Bajo dichos resultados,
pareciera que es mejor poner muchos regresores en nuestro modelo. Sin embargo,
nos falta estudiar que sucede con la varianza de los parámetros estimados.
3.8.2. Impacto sobre Varianza
Recordemos que:
βˆ1 = β1 + (X10 M2 X1 )−1 X10 M2 u
con lo cual, la varianza estimada:
V (βˆ1 /X1 , X2 ) = σ 2 (X10 M2 X1 )−1
114
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
mientras que la varianza verdadera:
∗
V (βˆ1 /X1 ) = σ 2 (X10 X1 )−1
entonces, como probamos con anterioridad, la varianza verdadera es menor que
la varianza estimada. Ello implica que el incluir regresores adicionales, aumenta
la varianza de nuestros parámetros estimados, lo cual se traduce en parámetros
menos ecientes.
3.8.3. Ejemplo
Suponga que un investigador quiere estimar el retorno a la educación y que el
modelo verdadero(obviamente es un caso ilustrativo) está dado por:
Wi = β1 + β2 Ei + ui
(1)
Donde Wi corresponde al logaritmo del salario del individuo i, Ei corresponde a
los años de educación del individuo i y ui corresponde a u término de error bien
comportado.
Sin embargo este investigador utiliza el siguiente modelo para su estimación.
Wi = β1 + β2 Ei + β3 Di + ui
(1)
Donde Di corresponde a una variable dicotómica que toma el valor 1 si el individuo fuma y 0 si no fuma.
Los resultados del modelo verdadero son
Los resultados el modelo estimado son:
115
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Podemos ver no existe una variación importante en los parámetros del modelo
estimado y el modelo verdadero. Sin embargo, tal como habíamos demostrado, la
varianza de los parámetros aumenta disminuyendo entonces la eciencia.
116
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.9. Perturbaciones no Esféricas
Un supuesto importante en el modelo clásico de regresión lineal (Supuesto 4) es
que los errores ui son homocedásticos, es decir la varianza es constante para todo
valor de Xi :
V ar(ui ) = V ar(uj ) para i 6= j
Figura 8: Homocedasticidad
Cuando el supuesto 4 no se cumple los errores son Heterocedasticos:
Figura 9: Heterocedasticidad
Además se suponía que los términos de error no estaban correlacionados entre si
(Supuesto 5):
Cov(ui uj ) = 0 para i 6= j
117
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Es decir, teníamos que E[uu0 ]=σ 2 In , ahora si el término de error no cumple con
los supuestos del modelo de regresión lineal tenemos que E[uu0 ]=σ 2 Ω. Donde Ω
es una matriz denida positiva.
3.9.1. Consecuencias de estimación por MCO
Recordemos que el estimador MCO es:
β̂ = (X 0 X)−1 X 0 Y
= β + (X 0 X)−1 X 0 u
Como el supuesto de que E[u|X] = 0 se mantiene, tenemos que la E[β̂|X] = β y
por lo tanto, E[β̂ − β]=0. De esta forma, el estimador MCO con perturbaciones
no esféricas sigue siendo insesgado y consistente. Pero no será eciente, dado
E[uu0 ]=σ 2 Ω entonces la varianza de β̂ es:
·³
´³
´0 ¸
V ar(β̂) = E β̂ − β β̂ − β
£
¤
= E (X 0 X)−1 X 0 uu0 X(X 0 X)−1
= σ 2 (X 0 X)−1 (X 0 ΩX)(X 0 X)−1
De esta forma, solo si Ω = In la matriz de covarianzas de β̂ será igual a σ 2 (X 0 X)−1 ,
por lo tanto el estimador MCO en presencia de perturbaciones no esféricas no
tendrá varianza mínima, es decir, no será eciente. Entonces cualquier inferencia
basada en σ
e2 (X 0 X)−1 llevará a conclusiones erróneas.
3.9.2. Estimación Eciente: Mínimos Cuadrados Generalizados
La estimación eciente de β en el modelo generalizado, donde los errores pueden
no ser esféricos, requiere el conocimiento de Ω. Para comenzar supondremos que
Ω es una matriz conocida, simétrica y denida positiva.
Bajo estas condiciones el Método de Mínimos Cuadrados Generalizados nos
permite estimar de manera eciente los parámetros.
Dado que Ω es una matriz simétrica denida positiva, puede ser descompues-
118
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
ta de la siguiente manera:7
Ω = CΛC 0
donde las columnas de C son los vectores propios de Ω y los valores propios (λj )
de Ω se encuentran en la diagonal
sea Λ1/2 , la matriz diagonal
p de Λ. Entonces 1/2
con el j-ésimo elemento igual a λj y sea T = CΛ . De esta forma, Ω = T T 0 .
Además sea P 0 = CΛ−1/2 y por lo tanto, Ω−1 = P 0 P . 8
Si pre multiplicamos Y = Xβ + u por P obtenemos:
P Y = P Xβ + P u o
Y ∗ = X ∗ β + u∗
(3.6)
Notemos que (3.6) es un modelo transformado de forma tal que:
V ar(u∗ ) = E[u∗ u0∗ ]
= σ 2 P ΩP 0
= σ 2 In
(3.7)
Por lo tanto, el modelo transformado cumple con los supuestos del modelo clásico
de regresión, y se puede utilizar MCO para estimar el parámetro β :
β̂M CG = (X∗0 X∗ )−1 X∗0 Y
= (X 0 P 0 P X)−1 X 0 P 0 P Y
= (X 0 Ω−1 X)−1 X 0 Ω−1 Y
Como el estimador MCG de β es idéntico al estimador MCO aplicado al modelo
transformado (3.6) y que cumple con los supuestos, β̂M CG es MELI.
3.9.3. Test de Hipótesis
Nuevamente como el estimador MCG es igual al estimador MCO sólo que se aplica
al modelo transformado, todos los procesos para testear hipótesis y construir
intervalos de conanza se mantienen.
Por ejemplo si queremos testear q hipótesis lineales H0 : Q0 β = c, se tiene el
7 Esto
se conoce como Descomposición Espectral de una matriz.
viene de la ortogonalidad de C, lo que implica que I = C 0 C = CC 0 y entonces
0
−1
C =C .
8 Esto
119
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
siguiente estadístico F:
³
´0
³
´
−1
2
0
−1
0
Q0 β̂M CG − c [Q0 σ
eM
(X
X
)
Q]
Q
β̂
−
c
∗
M
CG
∗
CG
³
0
´0
Q β̂M CG − c [Q
1
·
q
q
0
−1
(X∗0 X∗ )−1 Q]
³
´
0
Q β̂M CG − c
2
σ
eM
CG
∼ Fq,n−k
∼ Fq,n−k
2
2
donde σ
eM
CG es el estimador insesgado de σ en presencia de perturbaciones no
esféricas:
³
´0
³
´
−1
Y − X β̂M CG Ω
Y − X β̂M CG
û0∗ û∗
2
σ
eM
=
=
CG
n−k
n−k
3.9.4. Estimación cuando Ω es desconocida:
Mínimos Cuadrados Factibles
Anteriormente asumimos que Ω era conocida, en este caso una simple transformación del modelo de regresión lineal lleva a una matriz de covarianza esférica.
En la práctica, Ω es desconocida y es necesario estimar los parámetros al interior
de esta matriz.
Entonces lo que debemos hacer es sustituir Ω por un estimador de ella Ω̂. Esto se denomina estimador Mínimos Cuadrados Factibles (MCF), donde el
estimador de β se dene de la siguiente forma:
³
´−1
β̂M CF = X 0 Ω̂−1 X
X 0 Ω̂−1 y
El problema es que tenemos más incógnitas (n(n+1)/2) en Ω que observaciones,
para n>1. En la práctica para lograr la estimación de Ω debemos asumir que es
función de un número jo y reducido de parámetros θ. El problema se reduce a
encontrar θ̂ y usarlo para computar Ω̂ = Ω(θ̂).
120
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.9.5. Heterocedasticidad
La Heterocedasticidad surge cuando a pesar de que Cov(ui uj )=0 para i6= j, las
varianzas de cada observación son diferentes, es decir, V ar(uj ) = σj2 para j=1,...,n.
La matriz de covarianzas en este caso es:




σ12 · · · 0
ω1 · · · 0




E[uu0 ] = σ 2 Ω =  ... . . . ...  = σ 2  ... . . . ... 
···
σn2
0
···
ωn
salario
2000000
3000000
4000000
0
0
1000000
Recta de regesión
poblacional (RRP)
x
8
x
x
10
x
x
x
x
14
12
x
x
x
16
18
Escolaridad
Figura 2: Distribución de los salarios para distintos niveles de educación.
La heterocedasticidad es un problema bastante recurrente, especialmente al trabajar con datos de corte transversal. Algunas razones por las que ui puede variar
son las siguientes:
En los modelos de aprendizaje sobre errores, a medida que la gente aprende,
sus errores de comportamiento son menores, así en este caso a medida que
aumentan las horas de práctica de una cierta actividad, la varianza de los
errores se reduce.
A medida que aumentan los ingresos, la gente tiene más posibilidades de
disponer de parte de ese ingreso de la forma que desee. Así en una regresión
de ahorro contra ingreso, es posible que σi2 aumente en la medida que el
ingreso aumenta.
La Heterocedasticidad también puede surgir por la presencia de factores
atípicos, que es muy diferente a las restantes observaciones.
121
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Al omitir variables relevantes, a parte del sesgo que se produce en las estimaciones por esto, se produce Heterocedasticidad ya que este variable estará
en el término de error y por lo tanto la varianza dependerá de ella.
Otra fuente de Heterocedasticidad es la asimetría en la distribución de una
o más variables explicativas incluidas en el modelo, por ejemplo: ingreso,
riqueza y educación.
122
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Como mencionamos anteriormente en presencia de Heterocedasticidad el estimador MCO seguirá siendo insesgado, pero no tendrá varianza mínima. El estimador que si cumple con la propiedad de MELI es el de MCG. Este último
estimador requiere conocimiento de la matriz Ω. Sin embargo, White (1980) ha
propuesto una aproximación a la matriz de covarianzas del estimador MCO:
V ar(β̂|X) = (X 0 X)−1 (X 0 σ 2 ΩX)(X 0 X)−1
que no requiere una representación especica de la forma funcional que adopta la
heterocedasticidad, por lo que no tendremos riesgo de asumir una forma funcional
incorrecta.
La sugerencia de White es que la varianza del estimador β̂M CO se exprese de
la siguiente forma:
µ
¶
1 2 0
0
−1
V ar(β̂|X) = n(X X)
σ X ΩX (X 0 X)−1
n
se dene:
Σ = n−1 σ 2 X 0 ΩX
n
X
−1
= n
σi2 xi x0i
i=1
la que se estima de la siguiente forma:
Σ̂ = n
−1
n
X
ûi 2 xi x0i
i=1
White demuestra bajo condiciones generales que:
Σ̂ = n−1
n
X
p
ûi 2 xi x0i → Σ
i=1
De esta forma, una estimación consistente de la matriz de covarianzas es:
V ar(β̂|X) = n(X 0 X)−1 Σ̂(X 0 X)−1
(3.8)
su comparación con σ 2 (X 0 X)−1 puede dar noción del grado de heterocedasticidad.
La estimación de White de una matriz consistente con Heterocedasticidad es
un resultado muy útil, ya que no se necesita saber la naturaleza de la Heterocedasticidad. Ante la duda de presencia de este problema es mejor ocupar este
estimador ya que no produce alteraciones, y nos permite hacer inferencia correcta
con o sin la presencia de Heterocedasticidad.
123
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Contrastes de Heterocedasticidad:
1. El contraste de White: La hipótesis nula es de Homocedasticidad (al
igual que en todos los contrastes que estudiaremos). Esto es, H0 : σi2 = σ 2
∀ i, bajo la hipótesis nula el estimador de la matriz de covarianzas de β̂ es
Vd
ar(β̂|X) = σ
e2 (X 0 X)−1 , pero bajo la hipótesis alternativa es (3.8). Basado en la observación de esto, White propone un test que puede obtenerse
al calcular nR2 de una regresión de û2i contra todos los productos posibles
entre las variables explicativas. Demuestra que nR2 ∼ χ2J−1 , donde J es el
número de regresores de esta ecuación.
Consideremos el siguiente modelo:
yi = β0 + β1 xi + β2 zi + ui
Los pasos para realizar el test de White son:
a ) Obtener β̂ y los residuos de la estimación del modelo anterior por MCO
{ûi }ni=1
b ) Correr una regresión de û2i sobre una constante, xi , zi , x2i , zi2 y xi zi .
c ) Computar nR2 de la regresión anterior
d ) Para el nivel de signicancia escogido, comparar nR2 con el valor crítico de una distribución chi cuadrado con 5 grados de libertad. Si nR2
excede el valor crítico se rechaza la hipótesis nula de Homocedasticidad.
2. El contraste de Goldfeld y Quandt: este contraste parte del supuesto de
que la magnitud de σi2 depende de cierta variable zi , la que generalmente
es una variable explicativa pero no es necesario. Supongamos que dicha
relación es positiva, es decir, para valores más altos de zi mayor es σi2 . Las
observaciones se dividen en dos grupos, bajo la hipótesis nula ambos grupos
tienen la misma varianza, pero bajo la alternativa las varianzas dieren
signicativamente. Entonces el contraste consiste en:
a ) Ordenar las observaciones por los valores de la variable zi , de menor a
mayor.
b ) Omitir p observaciones en la mitad de la muestra, se sugiere no eliminar
más de la tercera parte de las observaciones.
c ) Estimar dos veces el modelo original, una con las n−p
primeras ob2
n−p
servaciones muestrales y otra con las 2 últimas observaciones en la
muestra. Notar que p debe ser lo sucientemente pequeño de manera
sea mayor al número de parámetros.
que T −p
2
124
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
d ) Se calcula es estadístico:
û02 û2
∼ Fm,m
û01 û1
con m =
n−p
−k
2
Si se sospecha que la varianza del error depende inversamente de zi , entonces
las observaciones se deben ordenar de mayor a menor.
Si se llega a la conclusión de que el término de error del modelo no presenta
heterocedasticidad, podría deberse a que hemos comenzado con una mala
especicación del parámetro σi2 , que quizás depende de un variable diferente
a la que hemos supuesto. Por esta razón el contraste debería realizarse varias
veces con distintas variables de las que tengamos sospechas pueda depender
la varianza del término de error.
3. El contraste de Breusch y Pagan: supongamos que la varianza del
término de error de cada observación depende de un vector de variables zi
de dimensión p, es decir:
σi2 = h(zi0 α) = h(α0 + α1 z1i + α2 z2i + ... + αp zpi )
Notemos que si todos los coecientes α's excepto el correspondiente a α0
fuesen cero, tendríamos una situación de Homocedasticidad. Por lo tanto,
si puedieramos estimar los coecientes α0 , α1 ,...,αp un contraste para la
hipótesis nula de Homocedasticidad es:
H0 :
α1 = α2 = ... = αp = 0
Los pasos para realizar este contraste son:
a ) Se estima por MCO el modelo original y se obtienen los residuos correspondientes.
b ) Se obtiene la serie de residuos normalizados al cuadrado:
Pn 2
û
û2i
2
2
êi = 2 i = 1, ..., n donde σ̂u = i=1 i
σ̂u
n
c ) Se estima una regresión de ê2i sobre una constante y las variables z1i ,
z2i ,...,zpi y se obtiene la suma explicada (SE) de dicha regresión.9
d ) Bajo la hipótesis nula de Homocedasticidad y dado el supuesto de
se distribuye χ2p .
normalidad del término de error, la razón SE
2
9 Recordemos
que la suma explicada de una regresión es igual a
la variable dependiente.
125
Pn
i=1 (ŷi
− y)2 , cuando yi es
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
4. El contraste de Glesjer: este contraste es más ambicioso que el anterior,
ya que trata de estimar la verdadera estructura de Heterocedasticidad, no
limitándose a una estructura lineal. Sin embargo, una limitación del contraste de Glesjer es que sólo resulta útil cuando se cree que dicha estructura
puede explicarse solo con una variable. Este contraste se hace en tres etapas:
a ) Estimar el modelo por MCO y obtener los residuos correspondientes.
b ) Estimar una regresión del valor absoluto de ûi , o su cuadrado û2 , sobre
una potencia de la variable zi , es decir:
|ûi | = δ0 + δ1 zih + νi
©
ª
para distintos valores del exponente h: h = −1, 1, 21 , − 21 . Escoger el
valor de h que proporcione una mejor regresión (coeciente δ1 signicativo y una suma residual pequeña).
c ) Una vez seleccionado h, se divide el vector de dimensión (k+1) formado
por las observaciones (q
yi ,xi ) de cada periodo por δ̂0 +δ̂1 zih si se estimo la
regresión de |ûi | y por δ̂0 + δ̂1 zih si se estimo û2i , y se estima el modelo
de nuevo por MCO, pero ahora con las variables transformadas.
Ejemplo: Producción y Empleo por comunidades autónomas de España
Como ejemplo, estimemos la relación que existe entre empleo y Pib en las comunidades autónomas españolas. Se dispone datos del PIB en miles de millones de
pesetas, y de ocupados, en miles de personas para 1989, los que se muestran en
la siguiente tabla:
126
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Estimador de la
desviación estandar
del error
~2
σ u
~
=
SEC/(n-k)
=
4307097.27/16
=
269193.56
σ u=
127
518.84
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
El estimador del parámetro asociado al empleo resulta ser signicativo, por cada
1,000 empleador el PIB aumenta en 3,760 millones de pesetas. Sin embargo, la
estimación de la constante es bastante imprecisa, y por ello resulta ser no signicativa. Existe la posibilidad de que la varianza del componente del PIB no
explicado por el empleo aumente con este, es decir, tengamos un problema de
heterocedasticidad, donde σi depende de empleoi , y de esta forma, σi2 depende
de empleo2i . Con esta sospecha, es necesario testear Heterocedasticidad.
1. Test Breusch-Pagan: para realizar este test, primero de la estimación MCO
del modelo de interés se obtienen los residuos, luego se computan los residuos
normalizados (dividir cada residuo al cuadrado por el estimador de la varianza
del error). Se estima una regresión entre los residuos generalizados y el empleo al
cuadrado.
SE
= 7,64, que resulta
Una vez realizada la estimación se construye el estadístico SE
2
2
ser mayor al valor de tabla de una χ1 al 95 % de conanza (3.84), de esta forma
se rechaza la hipótesis nula de homocedasticidad.
2. Test Goldfeld y Quandt: es de esperar que la varianza dependa positivamente del nivel de empleo, de esta forma, ordenamos las observaciones de menor a
mayor nivel de empleo y omitimos las 6 observaciones que ocupan los lugares centrales. Luego estimamos dos modelos cada uno con 6 observaciones, y se computa
el estadístico λ igual a la división de la suma residual:
128
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
λ = 93.2
Este estadístico λ debe ser comparado con el valor de tabla de una distribución
Fm,m al 95 % de conanza, que es igual a 6.39. De esta forma, nuevamente se
rechaza la hipótesis nula de Homocedasticidad.
129
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
3.9.6. Autocorrelación
Al comienzo de esta sección examinamos el caso general cuando la matriz de varianzas y covarianzas del error dejaba de cumplir los supuestos 4 y 5, en este caso la
matriz ya no era σ 2 In , sino que era igual a σ 2 Ω. La forma que tome esta matriz Ω
dependerá de cual de los dos supuestos se estaba rompiendo. En la sección 3.8.5,
vimos que forma toma la matriz Ω si se rompe el supuesto 4 de Homocedasticidad
en el término de error, en este caso la matriz de varianzas y covarianzas del error
es no escalar (o no esférica) porque los elementos de la diagonal eran distintos
para cada observación i.
Por otra parte, la autocorrelación es un problema que surge cuando rompemos el
supuesto 5 de no autocorrelación en los errores. Ello implica que:
Cov(ui uj ) 6= 0 para i 6= j
La autocorrelación en el término de error se da en los datos se serie de tiempo,
donde es un problema bastante común.
Luego, nuestra matriz de varianzas y covarianzas del error ya no será una matriz
diagonal (como en el caso de varianzas esféricas y no esférica pero sólo con heterocedasticidad) ya que el término de error se encuentra correlacionado consigo
mismo a través del tiempo. La forma que toma la matriz cuando sólo tenemos
autocorrelación pero los errores son homocedásticos:


σ 2 σ1,2 σ1,3 · · · σ1,T
 σ2,1 σ 2 σ2,3 · · · σ2,T 


 σ3,1 σ3,2 σ 2 · · · σ3,T 
0
2
E[uu ] = σ Ω = 

 ..
..
..
.. 
.
.
 .
.
.
.
. 
σT,1 σT,2 σT,3 · · · σ 2
donde σt,q = cov(ut uq ).
Nuestro modelo ahora será:
yt = Xt β + ut t = 1, 2, ..., T.
ut = ρut−1 + εt
donde, como vimos en la sección 3.4, el error sigue un proceso AR(1).
130
(3.9)
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Matriz de Varianzas y Covarianzas cuando ut es un AR(1):
En este caso el término de error tiene la forma señalada en (3.9):
ut = ρut−1 + εt
1. V (ut ) = V (ρut−1 + εt )=ρ2 V (ut−1 ) + σε2 , de esta forma V (ut ) =
σε2
1−ρ2
2. Como E(ut ) = 0, Cov(ut ut−1 ) = E(ut · ut−1 ). Calculemos esta última esperanza:
ut · ut−1 = ut−1 · (ρut−1 + εt )
= ρu2t−1 + ut−1 εt /E(·)
E(ut · ut−1 ) = ρ E(u2t−1 ) + E(ut−1 εt )
| {z } | {z }
σ2
E(ut · ut−1 ) = ρσ
0
2
3. Siguiendo la misma lógica anterior, E(ut , ut−2 ) se calcula de la siguiente
forma:
ut · ut−2 = ut−2 · (ρut−1 + εt )
= ρut−1 ut−2 + ut−2 εt /E(·)
E(ut · ut−2 ) = ρ E(ut−1 ut−2 ) + E(ut−2 εt )
|
{z
} | {z }
ρσ 2
E(ut · ut−2 ) = ρ2 σ 2
4. Así se puede derivar la siguiente expresión genérica:
E(ut · ut−(T −1) ) = ρT −1 σ 2
131
0
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Entonces:




E[uu0 ] = σ 2 Ω = 






= 


σ 2 σ1,2 σ1,3
σ2,1 σ 2 σ2,3
σ3,1 σ3,2 σ 2
..
..
..
.
.
.
σT,1 σT,2 σT,3
σ2
ρ · σ2
ρ2 · σ 2
..
.
· · · σ1,T
· · · σ2,T
· · · σ3,T
..
..
.
.
· · · σ2
ρ · σ2
σ2
ρ · σ2
..
.
ρT −1 · σ 2 ρT −2 · σ 2

1
ρ
ρ2
 ρ
1
ρ

2

ρ
1
= σ2  ρ
 ..
..
..
 .
.
.
T −1
T −2
T −3
ρ
ρ
ρ







ρ2 · σ 2
ρ · σ2
σ2
..
.
· · · ρT −1 · σ 2
· · · ρT −2 · σ 2
· · · ρT −3 · σ 2
..
..
.
.
ρT −3 · σ 2 · · ·

· · · ρT −1
· · · ρT −2 

· · · ρT −3 

.. 
..
.
. 
···
1







σ2
Naturaleza y causas de la autocorrelación
Existe autocorrelación cuando el término de error de un modelo econométrico está
correlacionado consigo mismo a través del tiempo. Por supuesto, no es necesario
que ut este correlacionado consigo mismo sólo un periodo atrás, esta correlación
puede ser de cualquier orden, es decir, ut puede ser un AR(1), AR(2),...,AR(q),
etc. Así, dependiendo de cual sea el orden de la autocorrelación en el término de
error, la matriz de varianzas y covarianzas ira tomando distintas formas.
La autocorrelación en el término de error puede ser producida por varias causas:
Existencia de ciclos y tendencias : Si la autocorrelación es positiva (es decir,
en (3.9) el coeciente ρ es positivo), un valor alto de ut que genera un valor
de yt por sobre su media condicional, tendrá una probabilidad elevada de ir
seguido por un valor alto de ut+1 , y por ello, de un valor de yt+1 por encima
del promedio; lo mismo ocurría para yt debajo del promedio.
Sin embargo, si existe autocorrelación negativa, valores de yt por sobre su
valor promedio condicional irán seguidos, con alta probabilidad, de valores
de yt+1 por debajo de su promedio. Por lo tanto, la autocorrelación positiva
esta asociada a la existencia de rachas de valores altos y bajos de yt .
132
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Autocorrelación Negativa
Autocorrelación Positiva
Entonces, si debido a la inercia presente en la mayoría de las variables
macroeconómicas la variable endógena presenta ciclos, y estos no son bien
explicados por la variables exógenas del modelo, el término de error tendrá
autocorrelación.
Por otra parte, también es cierto que la mayoría de las variables económicas
(y especialmente las variables medidas en términos nominales) tienen una
tendencia, generalmente creciente. Si el conjunto de variables explicativas
del modelo no explican adecuadamente dicho comportamiento, entonces el
término de error incorporará dicha tendencia, lo que conduce a existencia de
autocorrelación positiva:una primera racha de residuos negativos seguidos
por otra racha de residuos positivos.
X Modelo
verdadero
XX
X
Modelo
X
XX
X
estimado
X
X
X X
XX
X
X
X
X
X
X
X X
Autocorrelación producida por una tendencia
Variables omitidas : Omisión tanto de variables relevantes, de no linealidades y de relaciones dinámicas (rezagos de la variable dependiente) serán
133
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
incorporadas al término de error, causando posible autocorrelación (además
de las diculatdes que usted ya comoce de las secciones 3.4 y 3.6).
Corolario: Si usted encuentra autocorrelación en sus residuos, entonces
revise su modelo, ya que el error está captando información relevante que
usted está omitiendo.
Todo lo dicho en las secciones 3.8.1 hasta 3.8.4 aplican en este contexto (recuerde
que la matriz Ω se planteó en términos generales). De esta forma, MCO sigue
siendo insesgado, pero pierde eciencia, por lo cual ya no es MELI. El estimador
de mínima varianza en este contexto es MCG, y en caso de desconocerse la forma
de la autocorrelación se debe utilizar MCF.
Sin embargo y siguiendo el espíritu de la corrección de White, Newey y West
(1987) propusieron una corrección para la matriz de varianzas y covarianzas de
MCO. Recordemos que en este contexto se cumple que:
V ar(β̂M CO /X) = σ 2 (X 0 X)−1 X 0 ΩX(X 0 X)−1
mientras que el estimador de Newey-West corresponde a:
V ar(β̂M CO /X) = n(X 0 X)−1 S(X 0 X)−1
(3.10)
donde el estimador consistente de S es:
n
Ŝ =
n
1XX
w(t − s)ût ûs xt x0s
n t=1 s=1
(3.11)
|t−s|<L
donde L corresponde al orden máximo de autocorrelación del término de error
(que no siempre es fácil de determinar).
134
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Contrastes de Autocorrelación
1. Test de Durbin-Watson (d): Lejos el test más utilizado para detectar
autocorrelación de los residuos es el test propuesto en 1951 por Durbin
y G.S Watson. El test está diseñado para detectar autocorrelación en los
residuos de la forma ut = ρut−1 +εt (AR(1)), donde ε es ruido blanco (media
cero y varianza constante). La nula corresponde a no autocorrelación de los
residuos (H0 : ρ = 0 H1 : ρ 6= 0)y el test se dene como:
Pn
(ût − ût−1 )2
d = t=2Pn 2
(3.12)
t=1 ût
Si ρ > 0, los valores de û probablemente serán muy cercanos, por lo cual el
numerador será muy pequeño en comparación al residuo mismo. Ello implica que d será pequeño. Si ρ < 0, entonces el numerador probablemente
será grande, más grande que el residuos n si mismo. Ello implica que d será
grande10 .
Se puede demostrar que para muestra grandes d converge a:
d ' 2(1 − ρ̂)
con:
(3.13)
Pn
t=2 ût ût−1
P
ρ̂ =
n
2
t=1 ût
donde ρ puede ser obtenido de la siguiente regresión:
ût = ρût−1 + ut
(3.14)
Respecto a los valores críticos del test, la distribución en muestras nitas
depende del supuesto de normalidad de los errores y de la matriz X, por
lo cual Durbin y Watson derivaron las tablas de valores de críticos para
facilitar la aplicación del test. Sin embargo, dichos valores poseen rangos
indeterminados, en los cuales no podemos tomar una decisión respecto a la
nula. El test distribuye con dos colas y se presenta en la siguiente gura:
10 Por
lo tanto, autocorrelación positiva tenderá a arrojar un pequeño d, mientras que autocorrelación negativa tenderá a arrojar un d grande
135
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Por ejemplo, el test rechaza la nula de no autocorrelación en favor de la
alternativa de correlación positiva si DW < dl y lo rechaza ante la alternativa de correlación negativa de los errores si DW > 4 − dl. El test posee dos
zonas grises que se presentan en los intervalos (dl,du) y (4-du, 4-dl), en las
cuales no podemos decir nada respecto de la nula. Finalmente, si DW cae
dentro del intervalo (du, 4-du) no se rechaza la nula de no autocorrelación.
Sin embargo, las tablas de valores críticos son raramente utilizadas. Lo
anterior debido a que si no existe autocorrelación, por la ecuación (3.13)
sabemos que el valor de d será cercano a dos, mientras que si hay evidencia
de autocorrelación positiva d será muy pequeño y si existe evidencia de
autocorrelación negativa,d será grande.
El test posee dos grandes omisiones. Primero, sólo sirve para detectar autocorrelación de orden 1 en los errores y segundo, no puede ser aplicado si
se incluyen regresores de la variable dependiente en el modelo (porque se
construye bajo el supuesto de regresores determinísticos). Además, se debe
tener presente que el test está construido bajo normalidad de los errores y
que existen las zonas grises o indeterminadas de las que hablábamos con
anterioridad.
2. Test de h-Durbin (h) Una variación del test DW puede ser aplicada
cuando existen variables rezagadas de la variable dependiente en nuestro
136
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
modelo. Esta variación se conoce como test de h-Durbin. El estadígrafo es:
µ
¶r
DW
n
1−
h =
∼a N (0, 1)
(3.15)
2
1 − nσ̂α̂2
donde σ̂α̂2 a la varianza del parámetro asociado al primer rezago de la variable
dependiente incluido en el modelo. Algunas notas respecto al test. Primero,
no importa cuantos rezagos de Y se hallan incluido en el modelo: sólo nos
interesa la varianza del primero de ellos. Segundo, el test no es aplicable
cuando nσ̂α̂2 > 1 y tercero, las propiedades del test sólo son conocidas asintóticamente, por lo cual debe ser implementado con cuidado en muestras
pequeñas.
3. Test de Breusch y Godfrey Este test es una alternativa para testear
autocorrelaciones de ordenes superiores a 1 y se basa en el test LM introducido en la sección 2.12.3. La nula, al igual que en todos los test de
autocorrelación es que los residuos no se encuentran correlacionados. Consideremos para distintos valores de k, el siguiente conjunto de estadísticos:
Pn
t=1 ût ût−k
rk = P
(3.16)
n
2
t=1 ût
note que si k=1, entonces estamos en una caso parecido al estadístico DW.
Los pasos para realizar el test son:
a ) Estimar el modelo por MCO y obtener los residuos û. El modelo puede
incluir rezagos de la variable dependiente.
b ) Estimar una regresión auxiliar de ût sobre p rezagos: ût−1 , . . . , ût−p ,
incluyendo las variables exógenas (X) del modelo original. Note que
deberá excluir p observaciones.
c ) Calcular el R2 de la regresión auxiliar
d ) Construir el estadígrafo nR2 ∼ χ2p
La lógica del test se basa en que si no existe autocorrelación, entonces los
residuos MCO no deberían ser explicados por sus retardos, por lo cual el
R2 de la regresión auxiliar debería ser cercano a cero, lo cual nos llevaría a
un bajo valor del estadígrafo y a un no rechazo de la nula.
4. Test de Box-Pierce-Ljung (Q-Stat) Este test se basa en el cuadrado
de las primeras p autocorrelaciones de los residuos MCO. El estadígrafo se
dene como:
Q=n
p
X
j=1
137
rj2
(3.17)
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
donde:
Pn
t=j+1 ût ût−j
P
rj =
2
t=1 ût
La distribución del estadígrafo bajo la nula de no autocorrelación es χ2 con
grados de libertad igual a p menos el número de rezagos del error incluidos
en la especicación autorregresiva del error. De ello se deduce que el test
permite detectar autocorrelación de ordenes superiores a 1.
Estimación de Modelos con Autocorrelación
Como vimos anteriormente la matriz Ω en presencia

1
ρ
ρ2 · · ·
 ρ
1
ρ
···

 ρ2
ρ
1
···
Ω = 
 ..
..
..
..
 .
.
.
.
T −1
T −2
T −3
ρ
ρ
ρ
···
Se puede demostrar que la matriz P en este caso
 p
1 − ρ2 0
0

−ρ
1
0


0
−ρ 1
P = 

..
..
..

.
.
.
0
0 ···
de autocorrelación es:

ρT −1
ρT −2 

ρT −3 

.. 
. 
1
es:

··· 0
··· 0 

··· 0 

.. 
..
. . 
−ρ 1
Entonces utilizando esta matriz P podemos transformar el modelo y aplicar Mínimos Cuadrados Generalizados. Al premultiplicar X e Y por la matriz P tendremos
que la primera observación se transforma de la siguiente forma:
p
p
p
1 − ρ2 y1 = ( 1 − ρ2 )x01 β + ( 1 − ρ2 )u1
(3.18)
Y para el resto de las (T − 1) observaciones la transformación es la siguiente:
yt − ρyt−1 = (xt − ρxt−1 )0 β + ut − ρut−1
| {z }
(3.19)
εt
El que la primera observación de la muestra tenga un trato especial, es porque
para ella no existe una observación anterior, y por lo tanto, es imposible aplicar
la transformación en (3.19).
138
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
1. Estimación MCF: El Método de Cochrane Orcutt
La matriz P que transforma nuestro modelo en un libre de autocorrelación
en el error, es tal que cada observación de las variables dependientes, explicativas y término de error, se debe transformar de acuerdo a (3.19). Si
es que nuestro modelo es el siguiente:
y t = x t β + ut
ut = ρut−1 + εt
El modelo transformado es de la siguiente forma:
yt − ρyt−1 = (xt − ρxt−1 ) β + ut − ρut−1
| {z }
| {z }
|
{z
}
yt∗
⇒
x∗t
yt∗
=
x∗t β
εt
+ εt
El Método de Cochrane-Orcutt es un procedimiento iterativo para obtener
la estimación de β y ρ:
a ) Estimar por Mínimos Cuadrados Ordinarios la regresión de interés,
ignorando la presencia (conocida) de autocorrelación de primer orden
en el término de error.
b ) Utilizar los residuos MCO para estimar el parámetro ρ. Esto puede
hacerse mediante una regresión de ût contra ût−1 , o a partir del estadístico DW de la estimación anterior.
c ) Utilizar este parámetro ρ̂ para transformar las variables, y obtener yt∗
y x∗t .
d ) Estimar por MCO un modelo con las variables transformadas, para
obtener un nuevo vector de coecientes β .
e ) Utilizar esta nueva estimación para computar otro vector de residuos,
y utilizar estos residuos para obtener una nueva estimación de ρ
f ) Repetir este procedimiento hasta que los β convergan11 .
Este Método puede ser fácilmente generalizado con autocorrelación de orden
superior.
2. Estimación por Máxima Verosimilitud
11 Esto
sucede cuando la diferencia entre el vector de parámetros β diere innitesimalmente
del β obtenido en la vuelta anterior.
139
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Supongamos que se pretende estimar el modelo de regresión con autocorrelación de primer orden. Además debemos asumir alguna distribución
para εt (recuerde que este es un requisito para poder estimar por máxima
verosimilitud). Supongamos que εt se distribuye N (0, σε2 ). Así, la función
de verosimilitud es:
Ã" P
#!
µ
¶T
− Tt=1 ε2t
1
√
L=
· exp
(3.20)
2σε2
σε 2π
Recordemos que P es la matriz que transforma ut en εt , es decir, εt =
P ut . La función de verosimilitud en (3.20) se puede expresar en función del
término de error ut (AR(1)) como12 :
Ã"
#!
PT
µ
¶T p
2 2
2
−(1
−
ρ
)u
−
(u
−
ρu
)
1
t
t−1
1
t=2
√
L=
· 1 − ρ2 · exp
2σε2
σε 2π
dado que en este caso el determinante de P (|P |) es
p
1 − ρ2 .
Finalmente, la función de verosimilitud en función del término de error
original autocorrelacionado es:
µ
L=
σε
1
√
µ· 0 −1 ¸¶
¶T p
−u Ω u
2
· 1 − ρ · exp
2σε2
2π
(3.21)
La ventaja de este método es que puedo estimar simultáneamente β y ρ.
12 Ver
Greene, Análisis Econométrico página 69. Si la función de densidad conjunta de la
variable εt es:
Ã" P
#!
µ
¶T
T
− t=2 ε2t
1
√
f (ε) =
· exp
2σε2
σε 2π
o equivalentemente:
µ
f (ε) =
1
√
σε 2π
¶T
µ·
· exp
−ε0 ε
2σε2
¸¶
la función de densidad de conjunta de P ut = εt es:
µ
f (u) =
1
√
σε 2π
¶T
µ·
· |P | · exp
140
u0 P 0 P u
2σε2
¸¶
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
El logaritmo de la Verosimilitud Condicional13 en términos de observables es:
µ
lnL = −
T −1
2
¶
µ
ln(2π) −
T −1
2
¶
ln(σε2 )
T
1 X
− 2
[(yt − xt β) − ρ(yt−1 − xt−1 β)]2
2σε t=2
Las condiciones de primer orden del problema de Máxima Verosimilitud son:
T
∂lnL
1 X ∗
=
ε̂t xt = 0 (k
∂β
σ̂ε2 t=2
ecuaciones)
T
∂lnL
1 X
=
(ût − ρ̂ût−1 )ût−1 = 0 (1 ecuacion)
∂ρ
σ̂ε2 t=2
PT 2
∂lnL
(T − 1) 1
t=2 ε̂t
·
=
−
+
= 0 (1 ecuacion)
∂σε2
2
σ̂ε2
σ̂ε4
(3.22)
(3.23)
(3.24)
De (3.22) podemos encontrar el estimador MV de β , que como podemos observar
coincide con el estimador MCF.
De (3.23) se determina el estimador MV de ρ:
PT
ρ̂ =
t=2
ût ût−1
ût−1
que corresponde exactamente a lo sugerido por el método de Cochrane-Orcutt.
Ejemplo: Estimación de Función Consumo
Suponga estamos interesados en estimar una función Consumo:
Ct = β0 + β1 Yt + ut
(3.25)
donde Ct es el consumo e Yt es el Ingreso. Para esto contamos con información
del consumo agregado del sector público y privado y del PIB de España para los
años 1954-1988. Estas series se muestran en el siguiente gráco:
13 La
estimación condicional toma la primera observación como dada y es eliminada de la
estimación, es decir, se estima con (T-1) observaciones
141
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
20000
16000
12000
8000
4000
0
1955
1960
1980
1965 1970 1975
CONSUMO
PIB
1985
Ahora estimemos (3.25) utilizando la información disponible:
142
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Dependent Variable: CONSUMO
Method: Least Squares
Date: 11/09/04 Time: 15:51
Sample: 1954 1988
Included observations: 35
CONSUMO=C(1)+C(2)*PIB
Coefficient
Std. Error
t-Statistic
Prob.
76.53412
0.768971
81.89808
0.006842
0.934504
112.3909
0.3568
0.0000
C(1)
C(2)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
0.997394
0.997315
180.8607
1079450.
-230.5536
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Durbin-Watson stat
8615.809
3490.620
13.28878
13.37765
0.338818
Si comparamos el valor del DW (0.34) con el valor de tabla (k'=1 y n=35 al 95 %
de conanza, di=1.4 y ds=1.52), tenemos que se rechaza la hipótesis nula de no
autocorrelación a favor de autocorrelación positiva. Además podemos apreciar
grácamente la forma autorregresiva de los residuos:
16000
12000
8000
400
4000
200
0
0
-200
-400
1955
1960
1965 1970 1975
Residual
Actual
1980
1985
Fitted
Veamos que sucede con nuestros parámetros estimados si aplicamos la corrección
de Newey-West a nuestra estimación MCO:
143
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Dependent Variable: CONSUMO
Method: Least Squares
Date: 11/09/04 Time: 15:59
Sample: 1954 1988
Included observations: 35
Newey-West HAC Standard Errors & Covariance (lag truncation=3)
CONSUMO=C(1)+C(2)*PIB
C(1)
C(2)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Coefficient
Std. Error
t-Statistic
Prob.
76.53412
0.768971
105.8340
0.008968
0.723152
85.75039
0.4747
0.0000
0.997394
0.997315
180.8607
1079450.
-230.5536
Mean dependent var
S.D. dependent var
Akaike info criterio
Schwarz criterion
Durbin-Watson sat
144
8615.809
3490.620
13.28878
13.37765
0.338818
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Para realizar la estimación MCF de la propensión marginal a consumir (que
es equivalente a la estimación Máximo Verosímil) debemos primero estimar la
función autorregresiva del error. Para esto determinemos primero el vector de
residuos de la estimación MCO de nuestro modelo de interés:
Y luego estimamos el siguiente modelo:
145
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
ρ^
Una vez estimado ρ podemos transformar el modelo original de acuerdo a la
ecuación (3.19), de forma que el error transformado (εt ) cumple con los requisitos
para que MCO sea MELI:
146
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
La estimación del modelo transformado arroja los siguientes resultados:
147
Econometría I
FACEA, Universidad de Chile
Capitulo 3: Forma Funcional y Especicación
Primero, podemos notar que el DW es 1.81, mayor al límite superior de tabla
(1.52) y menor a (4 − ds) = 2,48, por lo tanto no se puede rechazar la nula
de no autocorrelación. El parámetro de la propensión marginal a consumir es
exactamente el mismo que el obtenido de la estimación MCO del modelo original.
148
Capítulo 4
Problemas con los datos
4.1. Multicolinealidad
Es prácticamente imposible encontrar dos variables económicas cuyo coeciente
de correlación es una determinada muestra sea numéricamente cero, dicho coeciente puede tomar valores pequeños pero nunca llegar a ser cero. Granger y
Newbold (1974) entre otros autores han ilustrado como el sólo hecho de introducir una tendencia lineal en dos series de tiempo independientes aumenta su
correlación notablemente.
La Multicolinealidad aparece cuando las variables explicativas en modelo econométrico están correlacionadas entre si, esto tiene efectos negativas cuando se quire estimar los parámetros del modelo por MCO.
Existen diversas fuentes de la multicolinealidad:
El método de recolección de información empleado, obtención de muestras
en un intervalo limitado de valores de los regresores en la población.
Restricción en el modelo o en la población objeto de muestreo.
Especicación del modelo.
Consideremos el siguiente modelo:
yi = β1 + β2 x2i + ... + βk xki + ui
149
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
Si existe la inversa de X'X, el estimador MCO de este modelo, viene dado por
β̂M CO = (X 0 X)−1 X 0 y y su matriz de covarianzas es Var(β̂ )=σu2 (X 0 X)−1 .
Supongamos que la xji tiene un alto grado de correlación con las demás variables explicativas de modelo, es decir que la regresión lineal:
xji = δ1 + δ2 x2i + ... + δj−1 xj−1,i + δj+1 xj+1,i + ... + δk−1 xki + νi
(4.1)
tiene un coeciente de determinación alto.
En estas condiciones la variable xji puede escribirse aproximadamente como una
combinación lineal del resto de las variables explicativas del modelo, lo que se
puede apreciar en la ecuación (4.1). Como consecuencia una de las columnas
de la matriz X, la correspondiente a xji , puede escribirse como una combinación
lienal aproximada de las demás columnas de X, y de esta forma (X'X) será aproximadamente singular.
En la medida que el determinante de (X'X) sea distinto de cero, existirá (X'X)−1 ,
y por lo tanto también existirá es el estimador MCO, y sigue cumpliendo con la
propiedad de MELI, pero se tienen las siguientes consecuencias:
1. La solución del sistema de ecuaciones normales está mal denido: mientras
la dependencia de xji sea aleatoria como lo muestra la ecuación (4.1) y no
exacta, X'X no será exactamente singular y existirá un único estimador
MCO, ya que existe una única solución al sistema de ecuaciones normales,
pero también habrá un número de vectores β1 , β2 , ..., que al sustituirlos en
el sistema de ecuaciones normales, serían aproximadamente una solución al
mismo.
2. Pequeñas variaciones muestrales por incorporar o sustraer un número reducido de observaciones muestrales, introducirá ligeros cambios en (X'X) y
X'y, pero podrían generar importantes cambios en la solución β̂ del sistema
de ecuaciones normales.
3. Al ser la matriz X'X casi singular, es muy pequeña. Como consecuencia la
matriz de covarianzas será muy grande, por lo tanto el estimador MCO es
poco preciso en este caso.
150
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
4.1.1. Multicolinealidad Exacta y Multicolinealidad Aproximada
La presencia de multicolinealidad en un modelo de regresión lineal puede ser de
dos formas:
Multicolinealidad Exacta: una de las variables explicativas es una combinación lineal determinística de todas las demás (o algunas de ellas).
Multicolinealidad Aproximada: ocurre cuando una de las variables es
aproximadamente igual a una combinación lineal de las restantes, como en
la ecuación (3.1).
En la práctica, contrario a lo que se pudiera esperara es más complicado la multicolinealidad aproximada que la exacta.
4.1.2. Detección de Multicolinealidad
Puesto que la multicolinealidad es un problema de naturaleza muestral, que surge
principalmente por el carácter no experimental de la mayoría de la información
recopilada en las Ciencias Sociales, no tiene una manera única de ser detectada.
Lo que se tiene son algunas reglas prácticas detalladas a continuación:
1. El R2 es alto, pero los parámetros no resultan ser individualmente signicativos.
Por ejemplo: Considere los siguientes datos:
Tabla 6:
Periodo
1
2
3
4
5
6
7
Multicolinealidad
yi x2i x3i x4i
20 5 10 10
12 2
8
6
28 7 12 16
26 6
4 12
14 4 16 8
24 8 14 14
16 3
6
4
Las variables x3 y x4 tienen las mismas observaciones numéricas solo que en
distinto orden, de forma tal que la correlación entre x2 y estas dos variables
151
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
son: ρ23 = 0,32 y ρ24 = 0,93, altamente diferentes entre sí.
Una regresión de yi sobre x2i , x3i y una constante generó las siguientes
estimaciones MCO:
yt = 10,81 + 2,92x2i − 0,54x3i + ûi
(2,6)
(0,42)
(0,21)
(4.2)
R2 = 0,92 σ̂u2 = 2,09
Una regresión de y contra una constante, x2 y x4 , produjo las siguientes
estimaciones:
yi = 6,67 + 1,33x2i + 0,67x4i + ûi
(3,27)
(1,61)
(0,81)
(4.3)
R2 = 0,83 σ̂u2 = 3,16
Ambas regresiones no incluyen las mismas variables explicativas y por lo
tanto, no son comparables. Sin embargo, en el segundo modelo donde el grado de correlación entre las variables explicativas es alto, podemos apreciar
que a pesar de que el R2 es alto, los parámetros resultan ser insignicativos
individualmente (t4 =2.78).
152
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
2. Pequeños cambios en los datos, produce importantes variaciones en las estimaciones mínimo cuadráticas.
3. Los coecientes pueden tener signos opuestos a los esperados o una magnitud poco creíble.
4.1.3. Otros métodos de detección de multicolinealidad
(a) Métodos basados en la correlación entre variables explicativas: una
de las consecuencias de la multicolinealidad era varianzas de los estimadores
bastante altas. Entonces, ¾Cúal es la relación entre la varianza estimada y
el grado de correlación entre las variables explicativas?.
Si descomponemos la matriz X de la siguiente forma:
X = [xj ; Xj ]
donde xj es un vector columna correspondiente a la j-ésima variable explicativa y Xj una matriz de n×(k-1) con las observaciones de las restantes
variables. Entonces, X'X puede escribirse como:
· 0
¸
xj xj x0j Xj
0
XX=
Xj0 xj Xj0 Xj
De esta forma, el elemento (1,1) de (X 0 X)−1 es (Demostrar ):
1
[(x0j xj ) − x0j Xj (Xj0 Xj )−1 (Xj0 xj )]−1 = (x0j Mj xj )−1
donde Mj = In − Xj (Xj0 Xj )−1 Xj0 y donde x0j Mj xj corresponde a la suma de
los residuos al cuadrado de una regresión de xj sobre Xj , de esta forma se
tiene que:
σu2
V ar(β̂j ) = 0
xj Mj xj
(4.4)
Lo que tiene la siguiente expresión:
V ar(β̂j ) =
1 Recordar
σu2
STj (1 − Rj2 )
que la inversa de una matriz particionada es:
·
¸−1 · −1
¸
−1
A11 A12
A11 (I + A12 F2 A21 A−1
11 ) −A11 A12 F2
=
A21 A22
−F2 A21 A−1
F2
11
donde F2 =(A22 -A21 A−1
11 A12 ).
153
(4.5)
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
P
donde STj es la suma total de la regresión entre xj y Xj (STj = ni=1 (xji −
xj )2 ) y R2j es el coeciente de determinación de esta misma regresión.
La varianza de β̂j depende de tres cosas:
La varianza del término de error, que es independiente del grado de
correlación entre las x's.
La suma total propia de la variable xj , la que depende solo de esta
variable.
El coeciente de determinación R2j , el que si depende del grado del grado de correlación entre la variable xj y las restantes, es decir, depende
del grado de multicolinealidad.
La cota inferior para la varianza de β̂j , cuando R2j =0, es:
V ar(β̂j0 ) =
σu2
STj
Por lo que la relación entre las varianzas de la estimación de βj en un caso
de correlación entre variables explicativas y el caso de independencia lineal
es:
V ar(β̂j )
V
ar(β̂j0 )
=
154
1
1 − Rj2
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
De acuerdo con este análisis, los coecientes de determinación obtenidos
en las regresiones de cada variable explicativa con el resto son un buen
indicador de una posible situación de multicolinealidad.
(b) Métodos basados en el tamaño de la matriz X'X: cuando tenemos multicolinealidad la matriz X'X es casi singular, de esta manera una medida de
tamaño de esta matriz nos permite detectar la presencia de multicolinealidad. El determinante no es una medida buena, ya que tiene problemas de
sensibilidad a los cambios de unidades. Pero sabemos que el determinante
de una matriz simétrica es igual al producto de sus valores propios, y por lo
tanto el examen de estos valores nos da una idea del tamaño de la matriz.
De esta forma, Belsley propone la siguiente medida para ver el grado de
multicolinealidad:
r
λmax
γ=
λmin
Esta medida se denomina número de condición de la matriz X, y números
de este indicador mayores 25 suelen considerarse problemáticos.
Los λ's corresponden a los valores propios de la matriz B = S(X 0 X)S ,
donde S es la siguiente matriz diagonal:


√ 10
0
···
0
 x2 x2

..


1
√
0
.
 0

0x
x


3 3
S=

.
.
..
..


0
0


1
0
···
0 √0
xk xk
Esta matriz nos permite librarnos del problema de unidad en el tamaño de
los valores propios, ya que normaliza cada una de las variables al dividir
todas las observaciones por su desviación estándar.
El número de condición de la matriz X (γ ), implica que mientras mayor es
este valor, el valor de λmin es realmente pequeño al compararlo con λmax ,
indicando el potencial problema de multicolinealidad.
4.1.4. Remedios contra la Multicolinealidad
Se han propuesto varios métodos para hacer frente a la multicolinealidad. La
solución más sencilla es eliminar de la regresión las variables que se sospeche son
la causa del problema. Obviamente de este método surgen problemas de especicación, como la omisión de variables relevantes. Es necesario recordar que el
155
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
estimador MCO sigue siendo el mejor estimador lineal insesgado de los parámetros. El problema es que, cuando hay multicolinealidad, el mejor no resulta ser
muy bueno.
Las soluciones propuestas en la literatura (estimador de ridge o estimador cresta
y estimador de componentes principales) tienen como característica buscar un
estimador ligeramente sesgado pero cuya varianza sea mucho menor, es decir, un
estimador con menor error cuadrático medio. No existe una metodología que permita eliminar el problema de alta multicolinealidad sin alterar las propiedades y
la interpretación de los parámetros.
Estas metodologías tienen poco respaldo intuitivo, por lo tanto la interpretación
de los parámetros es desconocida.
156
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
4.2. Error de Medición
Una dicultad en todo trabajo empírico en Economía es la imposibilidad de
disponer de las observaciones muestrales de las variables de interés. Por ejemplo,
las variables de contabilidad nacional como el PIB, stock de capital o consumo,
son sólo estimaciones de conceptos teóricos que no se observan en la realidad. En
otros casos, como la Renta Permanente, inteligencia o habilidad de un trabajador,
no disponemos ni siquiera estimaciones, y debemos utilizar variables Proxies, que
aproximan los conceptos que se quieren utilizar. Así por ejemplo se utilizan años
de experiencia del trabajador para aproximar su habilidad.
Podemos adelantar que el error de medición o el uso de variables proxies generará
sesgos en las estimaciones por MCO, el que será menor:
cuanto más se aproxime la verdadera variable que debería incluirse en el
modelo con que que incluyo efectivamente.
cuanto más independiente sea el error de medida de las restantes variables
del modelo.
Consideremos el siguiente modelo lineal simple:
yi = βxi + ui
i = 1, ..., n
(4.6)
en el que la variable dependiente yi está medida con error, es decir, solo observamos:
yi∗ = yi + νi
i = 1, ..., n
(4.7)
donde asumimos que νi ∼ N (0, σν2 ) y es independiente de xi y ui .
Reemplazando (4.7) en (4.6):
yi∗ = βxi + (ui + νi ) = βxi + εi
(4.8)
Bajo los supuestos mencionados es fácil darse cuenta que el estimador de β será
el mismo que si observáramos el verdadero valor de yi .
En consecuencia, los errores de medida en la variable endógena no producen
ningún problema importante al estimar por MCO.
Ahora supongamos que la variable xi esta medida con error, es decir:
x∗i = xi + ωi
i = 1, ..., n
157
(4.9)
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
donde ωi ∼ N (0, σω2 ) y es independiente de ui , xi y de yi .
El modelo en términos de las variables observables es:
yi = βx∗i + (ui − βωi ) = βx∗i + εi
(4.10)
contrario a lo que ocurría en (4.8) en este caso tenemos dicultad al estimar por
MCO, ya que el término de error εi esta relacionado con x∗i , lo que va en contra
del supuesto 6, veamos:
Cov(εi , x∗i ) = Cov(ui − βωi , xi + ωi )
= Cov(ui , xi ) − βCov(ωi , xi ) + Cov(ui , ωi ) − βCov(ωi , ωi )
= 0 − β · 0 + 0 − βσω2
Esto hace que el estimador MCO de β en el modelo (4.10) sea sesgado:
PN
β̂ =
β̂ =
plimβ̂ =
plimβ̂ =
plimβ̂ =
plimβ̂ =
plimβ̂ =
plimβ̂ =
donde Sx2 = plim n1
Pn
i=1
Á
x∗i yi
1/N
·
Pi=1
N
∗2
1/N
i=1 xi
P
Á
N
1
∗
i=1 xi yi
N
plim
P
N
1
∗2
x
i
i=1
N
P
1
∗
plim N N
i=1 xi yi
P
∗2
plim N1 N
i=1 xi
P
plim N1 N
i=1 (xi + ωi )(βxi + ui )
P
2
plim N1 N
i=1 (xi + ωi )
P
plim N1 N
i=1 (xi + ωi )(βxi + ui + βωi
P
2
plim N1 N
i=1 (xi + ωi )
P
plim N1 N
i=1 (xi + ωi )(ui − βωi )
β+
P
2
plim N1 N
i=1 (xi + ωi )
−βσ 2
β + 2 ω2
Sx + σω
− βωi )
β
1+
2
σω
Sx2
x2i , que supondremos existe.
El resultado en términos generales es que el estimador MCO en presencia de
error de medición estará sesgado hacia en origen.
158
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
En el caso del modelo de regresión múltiple:
y = Xβ + u
X∗ = X + ω
donde todas las variables pueden estar medidas con error. Extendiendo lo desarrollado anteriormente:
plim β̂M CO = β − [Σxx + Σωω ]−1 Σωω β
donde Σxx = plim
X0X
n
y Σωω = plim
(4.11)
ω0 ω
.
n
Lo que implica que un sólo error basta para generar inconsistencias en todos
los coecientes del modelo.
4.2.1. Estimación por Variables Instrumentales
La estimación consistente de los parámetros en presencia de errores de medida es
posible si se disponen de instrumentos.
Denición: Un instrumento es una variable no incluida en el modelo, que cumple
con:
No estar correlacionada con el término de error.
Esta correlacionada con la variable explicativa para la cual actúa como
instrumento (en este caso la variable medida con error).
Volviendo al modelo en (4.10), el sesgo del estimador MCO de β surge por la
correlación entre la variable x∗i y εi . Supongamos ahora que se dispone de la
variable zi , tal que:
E(zi εi ) = 0 E(zi x∗i ) 6= 0
Entonces el estimador de variables instrumentales de (4.10) es:
Pn
zi yi
β̂V I = Pni=1 ∗
i=1 zi xi
En un modelo de regresión múltiple, tenemos que encontrar una matriz Z que
contenga los instrumentos de las variables medidas con error. El estimador de
Variables Instrumentales se obtiene de una regresión MCO en dos etapas:
159
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
i. En la primera etapa, se hace una regresión entre X ∗ y la matriz de instrumentos
Z, para obtener el valor estimado de X ∗ :
X ∗ = Zϕ + ²
ϕ̂ = (Z 0 Z)−1 Z 0 X ∗
X̂ ∗ = Z(Z 0 Z)−1 Z 0 X ∗
ii. En la segunda etapa se reemplaza el valor estimado de X ∗ en el modelo de
regresión original:
y = X ∗β + ε
y = X̂ ∗ β + ε
y obtengo el estimador de β mediante MCO:
0
0
β̂V I = (X̂ ∗ X̂ ∗ )−1 X̂ ∗ y
0
0
= [X ∗ Z(Z 0 Z)−1 Z 0 X ∗ ]−1 X ∗ Z(Z 0 Z)−1 Z 0 y
(4.12)
Si todas las variables explicativas están medidas con error cada una de ellas se
necesita un instrumento, entonces Z tiene dimensión n×k al igual que X ∗ , en este
caso se puede demostrar (Hacerlo ) que:
β̂V I = (Z 0 X ∗ )−1 Z 0 y
con matriz de varianzas y covarianzas (también demostrar ):
0
V ar(β̂V I ) = σε2 (Z 0 X ∗ )−1 (Z 0 Z)(X ∗ Z)−1
4.2.2. Test de Hausman
Bajo errores de medida, el estimador MCO es inconsistente, mientras que el estimador de variables instrumentales es consistente. Si en ralidad no hubiese errores
de medida, ambos estimadores serán consistentes, y MCO es además eciente,
lo que no ocurre con cualquier estimador de variables instrumentales (es un estimador en dos etapas, lo que hace perder eciencia).
Por lo tanto, para contrastar la existencia de errores de medida Hausman plantea
realizar un test estadístico comparando (β̂M CO − β̂V I ) con su matriz de varianzas
y covarianzas.
160
Econometría I
FACEA, Universidad de Chile
Capitulo 4: Problemas con los datos
La hipótesis nula es que no existe error de medida, es decir:
H0 :
β̂M CO − β̂V I = 0
(4.13)
Hausman demuestra que la matriz de varianzas y covarianzas de (β̂M CO − β̂V I )
es igual a V (β̂V I ) − V (β̂M CO ). De esta forma, se puede construir el siguiente
estadístico de Wald para la hipótesis nula en (4.13):
W = (β̂M CO − β̂V I )0 (V (β̂V I ) − V (β̂M CO ))−1 (β̂M CO − β̂V I ) ∼ χ2k
161
Descargar