β β β β β β β β β β β β

Anuncio
INTERPRETACIÓN DE LOS PARÁMETROS DE UN MODELO BÁSICO DE REGRESIÓN
LINEAL
Rafael de Arce
Ramón Mahía
Febrero de 2012
Además de abordar en otras sesiones y documentos los aspectos relativos a la
estimación de los parámetros de un MBRL, conviene tener claro, por encima de todo
la interpretación de los mismos.
I.- Interpretación “intuitiva” de los estimadores MCO en la regresión múltiple
Si imaginamos una ecuación estimada con dos variables exógenas más un término
independiente, el modelo estimado sería:
yˆ i  ˆ1  ˆ2 x2i  ˆ3 x3i
Imaginemos una muestra temporal donde “i” representa el paso del tiempo. Si
expresamos ahora el modelo “en diferencias”, es decir, si al valor estimado de “y” en el
período “i” ( ŷ i ) le restamos el valor estimado de “y” en el período “i-1” ( yˆ i 1 ) tenemos
que:

 
yˆ i  yˆ i 1  ˆ1  ˆ 2 x2i  ˆ3 x3i  ˆ1  ˆ 2 x2i 1  ˆ3 x3i 1
yˆ  ˆ x  ˆ x
i
2
2i
3

3i
¿Qué representa por tanto ˆ 2 ?. Una forma simple de expresar ˆ 2 es:
x3i  0 
yˆ i
 ˆ 2
x 2i
Es decir, ˆ 2 permite computar el cambio obtenido en “y” producido por un cambio en
“x2” manteniéndose “x3” constante. Es decir: los coeficientes de la regresión múltiple
son coeficientes ceteris paribus.
El punto clave, como señala Wooldridge1, es que la estimación de estos coeficientes
parciales se obtiene aún cundo los datos no se hayan observado o recogido en esas
condiciones. Es decir, “la regresión múltiple nos permite imitar (…) lo que los
científicos hacen en los entornos (experimentales) controlados de laboratorio:
conservar fijos otros factores”.
1
Introducción a la econometría. Un enfoque moderno. Ed. Thomson.
Imaginemos, por ejemplo, el resultado obtenido en la estimación de una regresión
que relaciona las ventas mensuales de nuestra empresa con los cambios en los precios
y en la publicidad:
Vˆi  2  0,5 Pri  1,3Pubi
Si las ventas y la publicidad están medidas en millones de euros y los precios en euros
por unidad:


El parámetro -0.5 de los precios indicaría que por cada incremento de un euro
en el precio unitario, nuestras ventas se reducirían en medio millón de euros
siempre y cuando se mantuviese constante el presupuesto en publicidad.
El coeficiente de 1.3, positivo, indica que, si no variamos el precio de venta, un
incremento de 1 millón de euros en publicidad genera un incremento de ventas
de 1.3 millones.
Evidentemente, la empresa nunca movió sólo los precios o sólo la publicidad, sino que
todos los años hizo, probablemente, ambas cosas: sin embargo, la regresión múltiple
permite “aislar” ambos efectos.
Una observación de interés es: ¿qué sucede si sólo utilizamos una de las dos variables
en la regresión? En ese caso, puede observarse que los resultados de las dos
regresiones individuales son:
Vˆi  1,9  0,38 Pri
Vˆi  1,6  3,9Pubi
Los resultados de la regresión sobre el precio son “similares” a los obtenidos en la
regresión múltiple pero ¿qué ha sucedido con los resultados de la regresión sobre la
publicidad? Utilizando los mismos datos, el signo de la Publicidad en su relación con las
ventas es ahora negativo ¿cómo podemos explicar esto? Observemos la evolución de
las ventas, los precios y la publicidad en los años utilizados para la estimación.
9
8
7
6
5
ventas
4
precio
3
publicidad
2
1
0
-1
-2
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Cuando tomamos sólo los datos de la publicidad y las ventas, observamos que,
efectivamente, a lo largo de los últimos 15 años la publicidad se ha incrementado
notablemente pero, sin embargo, las ventas han disminuido; sin embargo, durante
este mismo período, los precios han crecido también de forma muy significativa, de
modo que el efecto teóricamente positivo de la publicidad se ha visto anulado por un
incremento descontrolado de los precios. Si “sólo” observamos la relación entre ventas
y publicidad, subestimamos clamorosamente el efecto de la publicidad; del mismo
modo, si sólo observamos la relación entre ventas y precios, subestimamos también el
efecto negativo de un alza en los precios (la realidad es que, si no hubiésemos elevado
la publicidad a lo largo de estos 15 años, la caída de las ventas ante tal incremento de
los precios hubiera sido algo mayor).
La anterior exposición nos “obliga” a plantearnos algunas preguntas:
-
Si sólo estamos interesados en el efecto de una variable explicativa en su
relación con la endógena (y) ¿Es necesario incluir en la regresión múltiple
otras variables que son potencialmente relevantes para observar
adecuadamente ese único parámetro de interés?
Así es, el ejemplo anterior demuestra que, aunque nuestro interés se centre en
una variable exógena, debemos recoger información de las demás variables
que han podido variar durante el período muestral, de otro modo, no
podemos “aislar”, “distinguir del resto”, los efectos de la variable que nos
interesa. Este es, sin duda, el precio a pagar en la regresión a cambio de evitar
diseños experimentales “ceteris paribus”. Veremos más adelante, de modo más
formalizado, el porqué de este requisito y cuáles son los efectos técnicos de la
omisión de variables relevantes sobre el carácter sesgado de los parámetros de
un modelo de regresión múltiple.
-
¿Existe alguna excepción a lo anterior? Es decir, ¿es posible obtener
resultados correctos (no subestimados ni sobreestimados) en las regresiones
individuales?
Si. El problema reside, en realidad, en la existencia de correlación entre las
variables explicativas utilizadas en el ejemplo. ¿Por qué? El problema de una
muestra en la que existe correlación alta entre las explicativas (positiva o
negativa) es que la muestra no permite “aislar” el efecto de cada una sobre la
endógena, porque, imaginando que la correlación fuera positiva, cada vez que
una creció (respecto a su media), la otra también lo hizo. Digamos que la
muestra es lo contrario al tipo “ceteris paribus” que necesitaríamos para
observar el efecto individual de las exógenas. Ahora bien, si en nuestra muestra
podemos encontrar crecimientos de una exógena que se hayan combinado con
incrementos y disminuciones de la otra de modo que entre ambas no exista
una correlación sistemática, la muestra es ideal para observar los efectos de
forma individual (sin recurrir a la regresión múltiple) porque los efectos de
subestimación y sobreestimación en esas estimaciones individuales aparecerán
“compensados”, resultando nulos o poco significativos.
-
Si la regresión múltiple permite “separar” sin sesgos los efectos de las
distintas variables aún cuando las muestras no sean ”ceteris paribus”. ¿Por
qué es importante que no exista correlación muestral entre las exógenas?
¿Por qué se formula la hipótesis de ausencia de multicolinealidad?
Efectivamente, la regresión múltiple permite “separar” los efectos de cada
exógena sin cometer sesgos de sobre o subestimación aún cuando las muestras
sean “desfavorables” en ese sentido (es decir, aún cuando las exógenas estén
muy relacionadas). Sin embargo, la existencia de multicolinealidad implica un
precio a pagar inevitable: una menor precisión en la estimación de los
parámetros (una mayor varianza en la estimación). Esto puede entenderse
intuitivamente: si las variaciones de una variable X2 se ven sistemáticamente
acompañadas de la variación de otra variable X3 resulta difícil separar con
precisión qué parte de los efectos sobre “Y” se deben a los movimientos de X 2 y
que parte a los de X3.
Además de la explicación “intuitiva” veremos en el tema de la Multicolinealidad
como técnicamente, la varianza de un parámetro depende de tres factores y
uno de ellos es, precisamente, el grado de correlación que existe entre cada
variable exógena y el resto: a mayor relación, menor precisión en la estimación.
II.- Interpretación de los parámetros cuando en el modelo intervienen variables en
logaritmos
En muchas ocasiones, las variables implicadas en el modelo (exógenas, endógena o
ambas) vienen expresadas en logaritmos. El uso de los logaritmos puede deberse a
algunas causas frecuentes:
a) Desde el punto de vista puramente matemático, algunas veces el modelo
teórico original se expresa en forma no lineal de modo que para abordar su
estimación mediante métodos lineales, se “linealiza”, generándose una
expresión en logaritmos. Este es, por ejemplo, el caso de una función de
producción, en la que la expresión lógica (debido a la ley de rendimientos
decrecientes) es una función no lineal del tipo:


Pi  Li 1 * K i 2 * ui  ln( Pi )  1 Ln( Li )   2 Ln( K i )  Ln(ui )
Otro ejemplo habitual de este caso sería el de los llamados modelos de
gravitación basados en la expresión de Newton de la Gravedad: la fuerza que
atrae dos cuerpos es directamente proporcional a la diferencia de sus masas e
inversamente proporcional a la distancia al cuadrado que los separa. Esta
expresión se traslada en economía para representar, por ejemplo, flujos
comerciales entre dos puntos geográficos, midiendo la masa de los “cuerpos”
(como la renta de cada uno de los lugares) y la distancia entre ellos (bien en
términos físicos (km) o en función de otras variables que representen “distancia
económica”). En este modelo, tendríamos:
Flujo ij 
Re nta i  Re nta j
d
2
ij
U i  ln( Flujo ij )  1 ln(Re nta i )   2 ln(Re nta j )   3 Ln(d ij2 )  Wi
b) En otras ocasiones se emplean los logaritmos como simple estrategia de
transformación matemática tendente a reducir la dispersión original de una
serie. Efectivamente, la forma funcional logarítmica produce una “compresión”
de los valores originales dentro de un rango siempre menor que el original. Así,
por ejemplo, una serie que variase originalmente entre un mínimo de 1.000 y
un máximo de 1.000.000 (1.000 veces mayor) quedaría, al tomar logaritmos
naturales, transformada en una serie con un mínimo de 2=log(100) y un
máximo sólo 3 veces mayor, 6=log(1.000.000). Reducir la dispersión de una
variable (generalmente la endógena) limita el riesgo de aparición de
heterocedasticidad (varianza no constante de la perturbación aleatoria
condicionada a los valores de endógena) un problema que, como se verá más
adelante durante el curso, afecta a la eficiencia de los estimadores MCO.
Más allá de las dos razones previamente apuntadas, lo interesante del uso de los
logaritmos es que la forma en la que se expresan las variables en el modelo (niveles o
logaritmos) modifica conceptualmente el propio significado (e interpretación) de los
parámetros obtenidos.
Así, cuando ambas variables (endógena y exógena) están escritas en logaritmos, la
interpretación de los parámetros de un modelo de regresión es cercana al concepto de
“elasticidad” entre ambas variables (“y” y “X”) o, dicho de otro modo, la magnitud del
cambio porcentual en “y” ante una variación del 1% en la variable “x”2.
y
Elasticida d y / x   2 
y
y
  2 * x
x
y
x
 y
y
  2 * x
x
x
 log(y)   2 * log( x)
Así pues, por ejemplo, si en un modelo Consumo / Renta obtenemos el siguiente
resultado:
log( Ci )  2,92  0,4 log( Ri )
El parámetro de la renta (0,4) indicaría la elasticidad Consumo / Renta, es decir, que
por cada incremento del consumo de un 1%, la renta se incrementaría un 0,4%.
2
Ver Wooldrigge, 2009: “Introducción a la Econometría: un enfoque moderno”. Ed. Paraninfo Pg. 765770 con mayor detalle sobre el efecto de las transformaciones logarítmicas.
En los casos en los que se combinan niveles y logaritmos la interpretación es sencilla
si recordamos que los cambios de la variable en logaritmos han de asimilarse a
cambios “porcentuales” en tanto que los cambios en las variables en niveles han de
expresarse como “cambios en las unidades originales de esas variables”. En la
siguiente tabla se resume esa interpretación:
Especificación
Expresión
Nivel-Nivel
yi  1   2 x2i  ui
Log-nivel
log( yi )  1   2 x2i  ui
Nivel-log
yi  1   2 log( x2i )  ui
Log-Log
log( yi )  1   2 log( x2i )  ui

Interpretación de  2
Incremento de unidades en “y”
cuando aumenta 1 unidad la
“X” (ambas en sus unidades de
medida originales)

 2 *100 =
incremento
porcentual de “y” cuando
aumenta una unidad la “X”

 2 / 100 =incremento en
unidades de “y” cuando
aumenta un 1% la “X”
Incremento porcentual de “y”
cuando aumenta un 1% la “X”
Insistiendo con el interés conceptual de estas distintas “formulaciones”, y más allá de
la interpretación puramente matemática, es obvio que estas variaciones en la
medición de exógenas y endógena permite abordar la estimación de modelos
“teóricos” que sugieren CONCEPTUALMENTE relaciones “no lineales” entre variables.
Efectivamente, el modelo Nivel-Nivel, asume que el cambio de “Y” ante variaciones
de “X” es siempre el mismo, independientemente del nivel de partida de “Y” y de
“X”. Por ejemplo, este sería el modelo correcto si podemos suponer que una
habitación adicional en un piso genera un incremento de 20.000 euros en el valor de
mercado del inmueble, independientemente de si el piso tiene una, dos o tres
habitaciones e independientemente del valor que estemos considerando como
referencia. Otro ejemplo puede observarse en el gráfico siguiente que ilustra la
relación entre el número de hijos por mujer (fertilidad total) y la esperanza de vida (en
años). Aparentemente, el incremento de “años” de vida es constante para cada
disminución en la fertilidad (medida en hijos por mujer) independientemente del nivel
considerado para la fertilidad o la esperanza de vida. La regresión, en un caso como
este, se representaría como una línea recta que atravesaría la nube de puntos, y cuya
pendiente coincidiría con el parámetro estimado:
Relación Nivel-Nivel:
Fertilidad total (en número de hijos) y Esperanza de vida (en años)
Fuente: GapMinder.com
Alternativamente, los modelos log-log, son incompatibles con la idea previa y sugieren
modelos de “elasticidades constantes”; en estos modelos, se presupone que un
cambio porcentual en la “X” genera siempre un cambio porcentual constante en la “y”.
El cambio en niveles no será, por tanto, independiente del nivel de partida sino que, al
ser porcentual, será mayor cuanto mayores sean los niveles de comparación previos. El
gráfico siguiente ilustra un ejemplo del modelo log-log entre renta per-cápita (“x”) y el
consumo de energía eléctrica (“y”). El hecho de que la “linealidad” se verifique
utilizando logaritmos (log-log) indica que es “constante” el incremento porcentual que
se produce en el consumo de energía ante variaciones porcentuales en la renta.
Dicho de otro modo, un incremento en la renta de un 1% genera siempre el mismo
incremento porcentual en el consumo de energía. Si el coeficiente de la regresión
fuera, por ejemplo, igual a “1” (elasticidad renta/electricidad = 1) esto significaría que
en un país pobre (4.000 $) y con bajo consumo (1.000 Kw/h) un incremento de un 1%
en la renta (40$) genera un incremento porcentual semejante en el consumo (1% de
1.000 = 10 Kw/h). Esa misma “elasticidad” se mantiene constante para niveles más
altos de renta lo que significa que los “cambios” en renta y consumo son mucho
mayores: por ejemplo en un país rico (30.000 $) con consumo ya elevado (9.000 Kw/h)
un incremento de un 1% en la renta significaría 300 $ más (no 40 $) y el incremento de
consumo de electricidad que esto implicaría sería de 90 Kw/h, y no de 10 Kw/h. O
dicho de otro modo: que elevar un 1% la renta implica un mayor incremento del
consumo de energía eléctrica (en Kw) según la renta de los países es más alta.
Relación Log-Log:
Consumo de energía eléctrica (en logaritmos) en función de la Renta per cápita (en
logaritmos)
Fuente: GapMinder.com
Los modelos mixtos, Log – Nivel o Nivel – Log tienes interpretaciones sencillas en
términos similares a los ejemplificados previamente. Por ejemplo, el gráfico Nivel-Log
siguiente, ilustra que ES CONSTANTE la mejora en la esperanza de vida, medida en
años, para un incremento PORCENTUAL en la renta per – cápita (medida en
logaritmos). Esto significa que la mejora de la esperanza de vida en un año requiere un
esfuerzo RELATIVO de incremento de la renta IGUAL para todos los países: los países
más pobres deben crecer porcentualmente lo mismo respecto a su nivel previo que los
ricos PARA MEJORRA UN AÑO su esperanza de vida. Visto desde una perspectiva
diferente, el incremento de renta en dólares necesario para seguir mejorando la
esperanza de vida en los países ricos es mucho mayor que el incremento en dólares
requerido en un país menos desarrollado. Algo similar sucede con el segundo gráfico:
la mejora en la esperanza de vida (en años) requiere un incremento porcentual
constante en el gasto sanitario (o sea, un incremento del gasto tanto mayor cuanto
mayor sea la cuantía ya gastada previamente).
Relación Nivel-Log:
Esperanza de vida (en años) en función de la Renta per cápita (en logaritmos)
Fuente: GapMinder.com
Relación Nivel-Log:
Esperanza de vida (en años) en función del Gasto Sanitario (en logaritmos)
Fuente: GapMinder.com
Por último, el gráfico siguiente, ilustra una relación log-nivel entre la renta per – cápita
(en logaritmos) y los años de escolarización (en años). La relación gráfica sugiere que el
incremento en los años de escolarización medios genera incrementos de renta
relativos constantes (respecto al nivel previo) o, visto desde el otro punto de vista, que
un año más de escolarización genera un incremento en dólares cada vez más grande
cuanto mayor es el nivel de renta ya alcanzado.
Relación Log-Nivel:
Renta per cápita (en logaritmos) en función de la escolarización (en años)
Fuente: GapMinder.com
III.- Interpretación del término constante
En un modelo econométrico es siempre recomendable incluir un término constante
tanto para lograr un mejor ajuste en la curva de regresión estimada como para
obtener una mejor interpretabilidad de indicadores de ajuste como, por ejemplo, la R
cuadrado.
Matemáticamente, la inclusión del término constante nos permite que el origen de la
curva de ajuste no parta necesariamente del punto (0,0) en los ejes de coordenadas, lo
que casi siempre dará lugar a un mejor ajuste.
100
80
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
En el gráfico se puede observar una serie (roja) a estimar. La estimación de la línea
negra continua es una regresión de una recta con constante y la discontinua azul es
una estimación sin constante (obligada a partir del punto 0,0). El ajuste de la segunda
es claramente peor que el de la primera, ya que la serie de interés (la roja) claramente
no parte de este punto (0,0).
En defintiva, la inclusión de la constante en muchas ocasiones sólo es un artificio
matemático para lograr un mejor ajuste, sin que sea posible darle una interpretación
económica.
Sólo en el caso en el que todas las variables explicativas pudieran tomar el valor cero (y
en la muestra elegida para realizar la estimación de hecho tomaran este valor al mismo
tiempo en alguna ocasión) tendría sentido interpretar el parámetro que acompaña a la
constante como el valor de la endógena cuando no toman valor el resto de las
exógenas.
Por ejemplo, en el clásico modelo de consumo teórico de Keynes, este autor denomina
al término constante “consumo autónomo o de subsistencia” o aquel que se produciría
cuando la renta del individuo y los precios son cero; entendiendo que, en teoría, esta
circunstancia podría darse. En la práctica, cuando se estima este modelo, en la muestra
de datos utilizada no figurará ningún caso en el que los precios (y seguramente
tampoco la renta) valgan cero, por lo que el resultado del término constante no será
interpretable (pudiendo tener, por ejemplo, un signo negativo, lo que en principio
sería incompatible con la lógica si es que fuera interpretable).
IV.- Interpretación de los parámetros para variables dicotómicas e “interacciones”
entre ellas
En algunos modelos se plantea la necesidad de utilizar variables dicotómicas: género
(masculino o femenino), estado civil (soltero o casado), nacionalidad (extranjero o
nacional).
Cuando esto sucede, los parámetros tienen una interpretación muy concreta que
conviene conocer. Empezando por el caso más sencillo, con una única variable,
imagine un modelo del siguiente tipo:
salarioi  1   2 sexoi  ui
Donde explicamos el salario en función de la variable “sexo”, una variable dicotómica
con valor cero para los hombres y uno para las mujeres. En ese caso, el salario
estimado para hombres y mujeres sería:

Salario estimado para los hombres:
sˆi  ˆ1  ˆ2 (1)  ˆ1  ˆ2

Salario estimado para las mujeres:
sˆi  ˆ1  ˆ2 (0)  ˆ1
Es decir, el parámetro estimado β2 representaría el salario diferencial de los hombres
respecto a las mujeres. Dado que el modelo se verifica en medias, esto significa que la
estimación de β1 representaría el salario muestral medio de las mujeres y la suma β1+
β2 debe coincidir con el salario muestral medio de los hombres.
salarioi  1   2 sexoi  3 jornadai  ui
Si el modelo incluye otra variable no necesariamente dicotómica, la interpretación es
nuevamente sencilla. Para observarla, imaginemos ahora el modelo:
salarioi  1   2 sexoi   2 edad i  ui
En este caso, para dos personas “de la misma edad”, el salario estimado sería ahora:

Para un hombre:
sˆh  ˆ1  ˆ2 (1)  ˆ3 ( Edad )

Para una mujer:
sˆm  ˆ1  ˆ2 (0)  ˆ3 ( Edad )  ˆ1  ˆ3 ( Edad )
De modo que, restando ambas estimaciones tenemos:
sˆh  sˆm  ˆ1  ˆ2  ˆ3 ( Edad )  ˆ1  ˆ3 ( Edad )  ˆ2
Es decir, nuevamente, el parámetro estimado β2 representa el salario diferencial de un
hombre respecto a una mujer (para un mismo valor del resto de variables). En este
caso, sin embargo, debe tenerse la precaución de NO INTERPRETAR la estimación de β 1
como el salario “medio” de las mujeres o la suma β1+ β2 como el salario muestral
medio de los hombres. Para obtener el salario medio muestral de hombres y/o
mujeres debemos tener en cuenta también el parámetro estimado β3 y los valores
medios de edad para hombres y mujeres.
Supongamos ahora que tenemos dos variables dicotómicas, por ejemplo el “sexo” y la,
“jornada” (con valor cero para jornada a tiempo parcial y uno para jornada a tiempo
completo).
En este modelo, todas las variables pueden tomar valor cero y todos los parámetros
tienen un significado exacto y fácilmente interpretable:
Sexo \ Tipo jornada
Hombre
Tiempo parcial
salarioi  1
Tiempo completo
salarioi  1   3
Mujer
salarioi  1   2
salarioi  1   2  3
En definitiva, el salario del hombre con contrato a tiempo parcial se puede asociar
directamente con el valor del parámetro constante y, además, se convierte en el valor
de referencia sobre el que se puede comparar con el resto de los casos. El parámetro
estimado β2 es la diferencia en el salario entre la mujer con contrato parcial y el
hombre con contrato del mismo tipo, etc.
Tal y como se ha planteado este modelo, se está suponiendo que las diferencias entre
hombres a tiempo parcial y completo son las mismas que entre las mujeres a tiempo
parcial y completo. En este tipo de modelos, para contrastar si estas diferencias no son
las mismas, se suele incluir una variable explicativa más que recibe el nombre de
interacción y que se especificaría del siguiente modo:
salarioi  1   2 sexoi   3 jornadai   4 sexoi jornadai  ui
El parámetro β4, en caso de resultar significativamente distinto de cero cuando se
realice la estimación, nos permitiría contrastar la diferencia adicional en el salario en el
caso de “una mujer a tiempo completo”. Ahora, la tabla para la interpretación de los
parámetros quedaría del siguiente modo:
Sexo \ Tipo jornada
Hombre
Tiempo parcial
salarioi  1
Tiempo completo
salarioi  1   3
Mujer
salarioi  1   2
salarioi  1   2   3   4
Descargar