INTERPRETACIÓN DE LOS PARÁMETROS DE UN MODELO BÁSICO DE REGRESIÓN LINEAL Rafael de Arce Ramón Mahía Febrero de 2012 Además de abordar en otras sesiones y documentos los aspectos relativos a la estimación de los parámetros de un MBRL, conviene tener claro, por encima de todo la interpretación de los mismos. I.- Interpretación “intuitiva” de los estimadores MCO en la regresión múltiple Si imaginamos una ecuación estimada con dos variables exógenas más un término independiente, el modelo estimado sería: yˆ i ˆ1 ˆ2 x2i ˆ3 x3i Imaginemos una muestra temporal donde “i” representa el paso del tiempo. Si expresamos ahora el modelo “en diferencias”, es decir, si al valor estimado de “y” en el período “i” ( ŷ i ) le restamos el valor estimado de “y” en el período “i-1” ( yˆ i 1 ) tenemos que: yˆ i yˆ i 1 ˆ1 ˆ 2 x2i ˆ3 x3i ˆ1 ˆ 2 x2i 1 ˆ3 x3i 1 yˆ ˆ x ˆ x i 2 2i 3 3i ¿Qué representa por tanto ˆ 2 ?. Una forma simple de expresar ˆ 2 es: x3i 0 yˆ i ˆ 2 x 2i Es decir, ˆ 2 permite computar el cambio obtenido en “y” producido por un cambio en “x2” manteniéndose “x3” constante. Es decir: los coeficientes de la regresión múltiple son coeficientes ceteris paribus. El punto clave, como señala Wooldridge1, es que la estimación de estos coeficientes parciales se obtiene aún cundo los datos no se hayan observado o recogido en esas condiciones. Es decir, “la regresión múltiple nos permite imitar (…) lo que los científicos hacen en los entornos (experimentales) controlados de laboratorio: conservar fijos otros factores”. 1 Introducción a la econometría. Un enfoque moderno. Ed. Thomson. Imaginemos, por ejemplo, el resultado obtenido en la estimación de una regresión que relaciona las ventas mensuales de nuestra empresa con los cambios en los precios y en la publicidad: Vˆi 2 0,5 Pri 1,3Pubi Si las ventas y la publicidad están medidas en millones de euros y los precios en euros por unidad: El parámetro -0.5 de los precios indicaría que por cada incremento de un euro en el precio unitario, nuestras ventas se reducirían en medio millón de euros siempre y cuando se mantuviese constante el presupuesto en publicidad. El coeficiente de 1.3, positivo, indica que, si no variamos el precio de venta, un incremento de 1 millón de euros en publicidad genera un incremento de ventas de 1.3 millones. Evidentemente, la empresa nunca movió sólo los precios o sólo la publicidad, sino que todos los años hizo, probablemente, ambas cosas: sin embargo, la regresión múltiple permite “aislar” ambos efectos. Una observación de interés es: ¿qué sucede si sólo utilizamos una de las dos variables en la regresión? En ese caso, puede observarse que los resultados de las dos regresiones individuales son: Vˆi 1,9 0,38 Pri Vˆi 1,6 3,9Pubi Los resultados de la regresión sobre el precio son “similares” a los obtenidos en la regresión múltiple pero ¿qué ha sucedido con los resultados de la regresión sobre la publicidad? Utilizando los mismos datos, el signo de la Publicidad en su relación con las ventas es ahora negativo ¿cómo podemos explicar esto? Observemos la evolución de las ventas, los precios y la publicidad en los años utilizados para la estimación. 9 8 7 6 5 ventas 4 precio 3 publicidad 2 1 0 -1 -2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Cuando tomamos sólo los datos de la publicidad y las ventas, observamos que, efectivamente, a lo largo de los últimos 15 años la publicidad se ha incrementado notablemente pero, sin embargo, las ventas han disminuido; sin embargo, durante este mismo período, los precios han crecido también de forma muy significativa, de modo que el efecto teóricamente positivo de la publicidad se ha visto anulado por un incremento descontrolado de los precios. Si “sólo” observamos la relación entre ventas y publicidad, subestimamos clamorosamente el efecto de la publicidad; del mismo modo, si sólo observamos la relación entre ventas y precios, subestimamos también el efecto negativo de un alza en los precios (la realidad es que, si no hubiésemos elevado la publicidad a lo largo de estos 15 años, la caída de las ventas ante tal incremento de los precios hubiera sido algo mayor). La anterior exposición nos “obliga” a plantearnos algunas preguntas: - Si sólo estamos interesados en el efecto de una variable explicativa en su relación con la endógena (y) ¿Es necesario incluir en la regresión múltiple otras variables que son potencialmente relevantes para observar adecuadamente ese único parámetro de interés? Así es, el ejemplo anterior demuestra que, aunque nuestro interés se centre en una variable exógena, debemos recoger información de las demás variables que han podido variar durante el período muestral, de otro modo, no podemos “aislar”, “distinguir del resto”, los efectos de la variable que nos interesa. Este es, sin duda, el precio a pagar en la regresión a cambio de evitar diseños experimentales “ceteris paribus”. Veremos más adelante, de modo más formalizado, el porqué de este requisito y cuáles son los efectos técnicos de la omisión de variables relevantes sobre el carácter sesgado de los parámetros de un modelo de regresión múltiple. - ¿Existe alguna excepción a lo anterior? Es decir, ¿es posible obtener resultados correctos (no subestimados ni sobreestimados) en las regresiones individuales? Si. El problema reside, en realidad, en la existencia de correlación entre las variables explicativas utilizadas en el ejemplo. ¿Por qué? El problema de una muestra en la que existe correlación alta entre las explicativas (positiva o negativa) es que la muestra no permite “aislar” el efecto de cada una sobre la endógena, porque, imaginando que la correlación fuera positiva, cada vez que una creció (respecto a su media), la otra también lo hizo. Digamos que la muestra es lo contrario al tipo “ceteris paribus” que necesitaríamos para observar el efecto individual de las exógenas. Ahora bien, si en nuestra muestra podemos encontrar crecimientos de una exógena que se hayan combinado con incrementos y disminuciones de la otra de modo que entre ambas no exista una correlación sistemática, la muestra es ideal para observar los efectos de forma individual (sin recurrir a la regresión múltiple) porque los efectos de subestimación y sobreestimación en esas estimaciones individuales aparecerán “compensados”, resultando nulos o poco significativos. - Si la regresión múltiple permite “separar” sin sesgos los efectos de las distintas variables aún cuando las muestras no sean ”ceteris paribus”. ¿Por qué es importante que no exista correlación muestral entre las exógenas? ¿Por qué se formula la hipótesis de ausencia de multicolinealidad? Efectivamente, la regresión múltiple permite “separar” los efectos de cada exógena sin cometer sesgos de sobre o subestimación aún cuando las muestras sean “desfavorables” en ese sentido (es decir, aún cuando las exógenas estén muy relacionadas). Sin embargo, la existencia de multicolinealidad implica un precio a pagar inevitable: una menor precisión en la estimación de los parámetros (una mayor varianza en la estimación). Esto puede entenderse intuitivamente: si las variaciones de una variable X2 se ven sistemáticamente acompañadas de la variación de otra variable X3 resulta difícil separar con precisión qué parte de los efectos sobre “Y” se deben a los movimientos de X 2 y que parte a los de X3. Además de la explicación “intuitiva” veremos en el tema de la Multicolinealidad como técnicamente, la varianza de un parámetro depende de tres factores y uno de ellos es, precisamente, el grado de correlación que existe entre cada variable exógena y el resto: a mayor relación, menor precisión en la estimación. II.- Interpretación de los parámetros cuando en el modelo intervienen variables en logaritmos En muchas ocasiones, las variables implicadas en el modelo (exógenas, endógena o ambas) vienen expresadas en logaritmos. El uso de los logaritmos puede deberse a algunas causas frecuentes: a) Desde el punto de vista puramente matemático, algunas veces el modelo teórico original se expresa en forma no lineal de modo que para abordar su estimación mediante métodos lineales, se “linealiza”, generándose una expresión en logaritmos. Este es, por ejemplo, el caso de una función de producción, en la que la expresión lógica (debido a la ley de rendimientos decrecientes) es una función no lineal del tipo: Pi Li 1 * K i 2 * ui ln( Pi ) 1 Ln( Li ) 2 Ln( K i ) Ln(ui ) Otro ejemplo habitual de este caso sería el de los llamados modelos de gravitación basados en la expresión de Newton de la Gravedad: la fuerza que atrae dos cuerpos es directamente proporcional a la diferencia de sus masas e inversamente proporcional a la distancia al cuadrado que los separa. Esta expresión se traslada en economía para representar, por ejemplo, flujos comerciales entre dos puntos geográficos, midiendo la masa de los “cuerpos” (como la renta de cada uno de los lugares) y la distancia entre ellos (bien en términos físicos (km) o en función de otras variables que representen “distancia económica”). En este modelo, tendríamos: Flujo ij Re nta i Re nta j d 2 ij U i ln( Flujo ij ) 1 ln(Re nta i ) 2 ln(Re nta j ) 3 Ln(d ij2 ) Wi b) En otras ocasiones se emplean los logaritmos como simple estrategia de transformación matemática tendente a reducir la dispersión original de una serie. Efectivamente, la forma funcional logarítmica produce una “compresión” de los valores originales dentro de un rango siempre menor que el original. Así, por ejemplo, una serie que variase originalmente entre un mínimo de 1.000 y un máximo de 1.000.000 (1.000 veces mayor) quedaría, al tomar logaritmos naturales, transformada en una serie con un mínimo de 2=log(100) y un máximo sólo 3 veces mayor, 6=log(1.000.000). Reducir la dispersión de una variable (generalmente la endógena) limita el riesgo de aparición de heterocedasticidad (varianza no constante de la perturbación aleatoria condicionada a los valores de endógena) un problema que, como se verá más adelante durante el curso, afecta a la eficiencia de los estimadores MCO. Más allá de las dos razones previamente apuntadas, lo interesante del uso de los logaritmos es que la forma en la que se expresan las variables en el modelo (niveles o logaritmos) modifica conceptualmente el propio significado (e interpretación) de los parámetros obtenidos. Así, cuando ambas variables (endógena y exógena) están escritas en logaritmos, la interpretación de los parámetros de un modelo de regresión es cercana al concepto de “elasticidad” entre ambas variables (“y” y “X”) o, dicho de otro modo, la magnitud del cambio porcentual en “y” ante una variación del 1% en la variable “x”2. y Elasticida d y / x 2 y y 2 * x x y x y y 2 * x x x log(y) 2 * log( x) Así pues, por ejemplo, si en un modelo Consumo / Renta obtenemos el siguiente resultado: log( Ci ) 2,92 0,4 log( Ri ) El parámetro de la renta (0,4) indicaría la elasticidad Consumo / Renta, es decir, que por cada incremento del consumo de un 1%, la renta se incrementaría un 0,4%. 2 Ver Wooldrigge, 2009: “Introducción a la Econometría: un enfoque moderno”. Ed. Paraninfo Pg. 765770 con mayor detalle sobre el efecto de las transformaciones logarítmicas. En los casos en los que se combinan niveles y logaritmos la interpretación es sencilla si recordamos que los cambios de la variable en logaritmos han de asimilarse a cambios “porcentuales” en tanto que los cambios en las variables en niveles han de expresarse como “cambios en las unidades originales de esas variables”. En la siguiente tabla se resume esa interpretación: Especificación Expresión Nivel-Nivel yi 1 2 x2i ui Log-nivel log( yi ) 1 2 x2i ui Nivel-log yi 1 2 log( x2i ) ui Log-Log log( yi ) 1 2 log( x2i ) ui Interpretación de 2 Incremento de unidades en “y” cuando aumenta 1 unidad la “X” (ambas en sus unidades de medida originales) 2 *100 = incremento porcentual de “y” cuando aumenta una unidad la “X” 2 / 100 =incremento en unidades de “y” cuando aumenta un 1% la “X” Incremento porcentual de “y” cuando aumenta un 1% la “X” Insistiendo con el interés conceptual de estas distintas “formulaciones”, y más allá de la interpretación puramente matemática, es obvio que estas variaciones en la medición de exógenas y endógena permite abordar la estimación de modelos “teóricos” que sugieren CONCEPTUALMENTE relaciones “no lineales” entre variables. Efectivamente, el modelo Nivel-Nivel, asume que el cambio de “Y” ante variaciones de “X” es siempre el mismo, independientemente del nivel de partida de “Y” y de “X”. Por ejemplo, este sería el modelo correcto si podemos suponer que una habitación adicional en un piso genera un incremento de 20.000 euros en el valor de mercado del inmueble, independientemente de si el piso tiene una, dos o tres habitaciones e independientemente del valor que estemos considerando como referencia. Otro ejemplo puede observarse en el gráfico siguiente que ilustra la relación entre el número de hijos por mujer (fertilidad total) y la esperanza de vida (en años). Aparentemente, el incremento de “años” de vida es constante para cada disminución en la fertilidad (medida en hijos por mujer) independientemente del nivel considerado para la fertilidad o la esperanza de vida. La regresión, en un caso como este, se representaría como una línea recta que atravesaría la nube de puntos, y cuya pendiente coincidiría con el parámetro estimado: Relación Nivel-Nivel: Fertilidad total (en número de hijos) y Esperanza de vida (en años) Fuente: GapMinder.com Alternativamente, los modelos log-log, son incompatibles con la idea previa y sugieren modelos de “elasticidades constantes”; en estos modelos, se presupone que un cambio porcentual en la “X” genera siempre un cambio porcentual constante en la “y”. El cambio en niveles no será, por tanto, independiente del nivel de partida sino que, al ser porcentual, será mayor cuanto mayores sean los niveles de comparación previos. El gráfico siguiente ilustra un ejemplo del modelo log-log entre renta per-cápita (“x”) y el consumo de energía eléctrica (“y”). El hecho de que la “linealidad” se verifique utilizando logaritmos (log-log) indica que es “constante” el incremento porcentual que se produce en el consumo de energía ante variaciones porcentuales en la renta. Dicho de otro modo, un incremento en la renta de un 1% genera siempre el mismo incremento porcentual en el consumo de energía. Si el coeficiente de la regresión fuera, por ejemplo, igual a “1” (elasticidad renta/electricidad = 1) esto significaría que en un país pobre (4.000 $) y con bajo consumo (1.000 Kw/h) un incremento de un 1% en la renta (40$) genera un incremento porcentual semejante en el consumo (1% de 1.000 = 10 Kw/h). Esa misma “elasticidad” se mantiene constante para niveles más altos de renta lo que significa que los “cambios” en renta y consumo son mucho mayores: por ejemplo en un país rico (30.000 $) con consumo ya elevado (9.000 Kw/h) un incremento de un 1% en la renta significaría 300 $ más (no 40 $) y el incremento de consumo de electricidad que esto implicaría sería de 90 Kw/h, y no de 10 Kw/h. O dicho de otro modo: que elevar un 1% la renta implica un mayor incremento del consumo de energía eléctrica (en Kw) según la renta de los países es más alta. Relación Log-Log: Consumo de energía eléctrica (en logaritmos) en función de la Renta per cápita (en logaritmos) Fuente: GapMinder.com Los modelos mixtos, Log – Nivel o Nivel – Log tienes interpretaciones sencillas en términos similares a los ejemplificados previamente. Por ejemplo, el gráfico Nivel-Log siguiente, ilustra que ES CONSTANTE la mejora en la esperanza de vida, medida en años, para un incremento PORCENTUAL en la renta per – cápita (medida en logaritmos). Esto significa que la mejora de la esperanza de vida en un año requiere un esfuerzo RELATIVO de incremento de la renta IGUAL para todos los países: los países más pobres deben crecer porcentualmente lo mismo respecto a su nivel previo que los ricos PARA MEJORRA UN AÑO su esperanza de vida. Visto desde una perspectiva diferente, el incremento de renta en dólares necesario para seguir mejorando la esperanza de vida en los países ricos es mucho mayor que el incremento en dólares requerido en un país menos desarrollado. Algo similar sucede con el segundo gráfico: la mejora en la esperanza de vida (en años) requiere un incremento porcentual constante en el gasto sanitario (o sea, un incremento del gasto tanto mayor cuanto mayor sea la cuantía ya gastada previamente). Relación Nivel-Log: Esperanza de vida (en años) en función de la Renta per cápita (en logaritmos) Fuente: GapMinder.com Relación Nivel-Log: Esperanza de vida (en años) en función del Gasto Sanitario (en logaritmos) Fuente: GapMinder.com Por último, el gráfico siguiente, ilustra una relación log-nivel entre la renta per – cápita (en logaritmos) y los años de escolarización (en años). La relación gráfica sugiere que el incremento en los años de escolarización medios genera incrementos de renta relativos constantes (respecto al nivel previo) o, visto desde el otro punto de vista, que un año más de escolarización genera un incremento en dólares cada vez más grande cuanto mayor es el nivel de renta ya alcanzado. Relación Log-Nivel: Renta per cápita (en logaritmos) en función de la escolarización (en años) Fuente: GapMinder.com III.- Interpretación del término constante En un modelo econométrico es siempre recomendable incluir un término constante tanto para lograr un mejor ajuste en la curva de regresión estimada como para obtener una mejor interpretabilidad de indicadores de ajuste como, por ejemplo, la R cuadrado. Matemáticamente, la inclusión del término constante nos permite que el origen de la curva de ajuste no parta necesariamente del punto (0,0) en los ejes de coordenadas, lo que casi siempre dará lugar a un mejor ajuste. 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 En el gráfico se puede observar una serie (roja) a estimar. La estimación de la línea negra continua es una regresión de una recta con constante y la discontinua azul es una estimación sin constante (obligada a partir del punto 0,0). El ajuste de la segunda es claramente peor que el de la primera, ya que la serie de interés (la roja) claramente no parte de este punto (0,0). En defintiva, la inclusión de la constante en muchas ocasiones sólo es un artificio matemático para lograr un mejor ajuste, sin que sea posible darle una interpretación económica. Sólo en el caso en el que todas las variables explicativas pudieran tomar el valor cero (y en la muestra elegida para realizar la estimación de hecho tomaran este valor al mismo tiempo en alguna ocasión) tendría sentido interpretar el parámetro que acompaña a la constante como el valor de la endógena cuando no toman valor el resto de las exógenas. Por ejemplo, en el clásico modelo de consumo teórico de Keynes, este autor denomina al término constante “consumo autónomo o de subsistencia” o aquel que se produciría cuando la renta del individuo y los precios son cero; entendiendo que, en teoría, esta circunstancia podría darse. En la práctica, cuando se estima este modelo, en la muestra de datos utilizada no figurará ningún caso en el que los precios (y seguramente tampoco la renta) valgan cero, por lo que el resultado del término constante no será interpretable (pudiendo tener, por ejemplo, un signo negativo, lo que en principio sería incompatible con la lógica si es que fuera interpretable). IV.- Interpretación de los parámetros para variables dicotómicas e “interacciones” entre ellas En algunos modelos se plantea la necesidad de utilizar variables dicotómicas: género (masculino o femenino), estado civil (soltero o casado), nacionalidad (extranjero o nacional). Cuando esto sucede, los parámetros tienen una interpretación muy concreta que conviene conocer. Empezando por el caso más sencillo, con una única variable, imagine un modelo del siguiente tipo: salarioi 1 2 sexoi ui Donde explicamos el salario en función de la variable “sexo”, una variable dicotómica con valor cero para los hombres y uno para las mujeres. En ese caso, el salario estimado para hombres y mujeres sería: Salario estimado para los hombres: sˆi ˆ1 ˆ2 (1) ˆ1 ˆ2 Salario estimado para las mujeres: sˆi ˆ1 ˆ2 (0) ˆ1 Es decir, el parámetro estimado β2 representaría el salario diferencial de los hombres respecto a las mujeres. Dado que el modelo se verifica en medias, esto significa que la estimación de β1 representaría el salario muestral medio de las mujeres y la suma β1+ β2 debe coincidir con el salario muestral medio de los hombres. salarioi 1 2 sexoi 3 jornadai ui Si el modelo incluye otra variable no necesariamente dicotómica, la interpretación es nuevamente sencilla. Para observarla, imaginemos ahora el modelo: salarioi 1 2 sexoi 2 edad i ui En este caso, para dos personas “de la misma edad”, el salario estimado sería ahora: Para un hombre: sˆh ˆ1 ˆ2 (1) ˆ3 ( Edad ) Para una mujer: sˆm ˆ1 ˆ2 (0) ˆ3 ( Edad ) ˆ1 ˆ3 ( Edad ) De modo que, restando ambas estimaciones tenemos: sˆh sˆm ˆ1 ˆ2 ˆ3 ( Edad ) ˆ1 ˆ3 ( Edad ) ˆ2 Es decir, nuevamente, el parámetro estimado β2 representa el salario diferencial de un hombre respecto a una mujer (para un mismo valor del resto de variables). En este caso, sin embargo, debe tenerse la precaución de NO INTERPRETAR la estimación de β 1 como el salario “medio” de las mujeres o la suma β1+ β2 como el salario muestral medio de los hombres. Para obtener el salario medio muestral de hombres y/o mujeres debemos tener en cuenta también el parámetro estimado β3 y los valores medios de edad para hombres y mujeres. Supongamos ahora que tenemos dos variables dicotómicas, por ejemplo el “sexo” y la, “jornada” (con valor cero para jornada a tiempo parcial y uno para jornada a tiempo completo). En este modelo, todas las variables pueden tomar valor cero y todos los parámetros tienen un significado exacto y fácilmente interpretable: Sexo \ Tipo jornada Hombre Tiempo parcial salarioi 1 Tiempo completo salarioi 1 3 Mujer salarioi 1 2 salarioi 1 2 3 En definitiva, el salario del hombre con contrato a tiempo parcial se puede asociar directamente con el valor del parámetro constante y, además, se convierte en el valor de referencia sobre el que se puede comparar con el resto de los casos. El parámetro estimado β2 es la diferencia en el salario entre la mujer con contrato parcial y el hombre con contrato del mismo tipo, etc. Tal y como se ha planteado este modelo, se está suponiendo que las diferencias entre hombres a tiempo parcial y completo son las mismas que entre las mujeres a tiempo parcial y completo. En este tipo de modelos, para contrastar si estas diferencias no son las mismas, se suele incluir una variable explicativa más que recibe el nombre de interacción y que se especificaría del siguiente modo: salarioi 1 2 sexoi 3 jornadai 4 sexoi jornadai ui El parámetro β4, en caso de resultar significativamente distinto de cero cuando se realice la estimación, nos permitiría contrastar la diferencia adicional en el salario en el caso de “una mujer a tiempo completo”. Ahora, la tabla para la interpretación de los parámetros quedaría del siguiente modo: Sexo \ Tipo jornada Hombre Tiempo parcial salarioi 1 Tiempo completo salarioi 1 3 Mujer salarioi 1 2 salarioi 1 2 3 4