Introducción a la Econometría Tema 2: PLANTEAMIENTO DEL MODELO Tema 2: PLANTEAMIENTO DEL MODELO 2.1 El modelo lineal simple: hipótesis básicas. El modelo de regresión lineal simple es una clase de modelo econométrico con las siguientes características: lineal, uniecuacional, estático, con una variable endógena, una variable exógena, un término de error y dos parámetros. La formulación teórica es: Y = β1 + β2X + u Donde Y representa a la variable endógena, X a la variable exógena, u es la variable aleatoria que representa al término de error y β1 y β2 son los parámetros. Si consideramos los “N” elementos muestrales que se van a observar: Y1 = β1 + β2X1 + u1 Y2 = β1 + β2X2 + u2 ............ Yi = β1 + β2Xi + ui ............ YN = β1 + β2XN + uN pudiéndose expresar de forma compacta como: Siendo: Yi = β1 + β2Xi + ui i = 1, ... ,N Yi: observaciones muestrales de la variable endógena Y, variable cuyo comportamiento pretende explicar el modelo. Xi: observaciones muestrales de la variable exógena X, variable elegida como explicativa e influyente sobre la variable Y. ui: elementos muestrales latentes o no observables de la variable u, se denominan también perturbaciones aleatorias o términos de error. Representan al conjunto de causas explicativas de la variable Y, desconocidas o incontrolables y por tanto no incluidas en la estructura del modelo. β1 y β2: son los parámetros estructurales del modelo que permanecen invariantes respecto a la variación muestral. β1 es el término independiente u ordenada en el origen, β2 es la pendiente o coeficiente de regresión que es el parámetro que acompaña y pondera a la variable exógena X. La forma es evidentemente lineal respecto de los parámetros. Los datos serán de sección cruzada o bien, series temporales, en cuyo caso se referirán al mismo periodo de tiempo, sin retardos. 13 Departamento de Estadística e Investigación Operativa II (Métodos de Decisión) Hipótesis básicas: H-1: LINEALIDAD (respecto de los parámetros). H-2: Las variables Xi son NO ESTOCÁSTICAS ( o NO ALEATORIAS). H-3: MEDIA NULA: ∀ i = 1, ... , N E[ ui ] = 0 H-4: HOMOCEDASTICIDAD : ∀ i = 1, ... , N V[ ui ] = σ2 (Varianza constante) H-5: NO AUTOCORRELACIÓN: ∀ i ≠ j Cov [ui , uj ] = E[ ui·uj ] = 0 ( las tres últimas hipótesis supone que el conjunto de perturbaciones aleatorias {ui}i=1,...,N está generado por un proceso estocástico denominado ruido blanco ) H-6: NORMALIDAD: ∀ i = 1, ... , N con función de densidad f(u i ) = ui : N( 0 , σ2 ) 1 − 2 u 2i 1 e 2σ σ 2π ui ∈ R Esto supone que las variables ui , no sólo estarán incorrelacionadas sino serán independientes en probabilidad. A partir de estas hipótesis se deduce que las Yi, en el modelo, son variables aleatorias con las siguientes características: 1. E[ Yi / Xi ] = β1 + β2Xi + E[ui ] = β1 + β2Xi [2.1] 2. V[ Yi / Xi ] = V[β1 + β2Xi + ui ] = V[ui ] = σ2 3. Cov [ Yi,Yj / Xi,Xj] = E[ (Yi - β1 - β2Xi)⋅( Yj - β1 - β2Xj) ] = E[ ui⋅uj ] = 0 Recordemos que las Xi no son aleatorias y, por tanto, suponen cantidades conocidas en cada distribución de las Yi en el modelo. La notación de momentos condicionados se utiliza para reflejar que no hablamos de la distribución individual de Yi , sino de su distribución en el modelo. Por tanto, incorporando la hipótesis de normalidad, las variables Yi se distribuyen en el modelo como: Yi : N[β1 + β2Xi ; σ2 ] ∀ i = 1, ... , N independientes estocásticamente La expresión [2.1], que se ha obtenido considerando únicamente la hipótesis de media nula entre todas las hipótesis enunciadas sobre las perturbaciones aleatorias, es básica para entender e interpretar el modelo de regresión: E[ Yi / Xi ] = β1 + β2Xi 14 Introducción a la Econometría Tema 2: PLANTEAMIENTO DEL MODELO Nos dice que la estructura del modelo, constituida por la combinación lineal de parámetros y observaciones de la variable explicativa, es el valor medio o valor esperado de las correspondientes observaciones de la variable endógena. Es decir, si prescindiéramos de la variable explicativa X nos quedaríamos con las “n” observaciones, posiblemente dependientes, de la variable aleatoria Y, cuyo comportamiento medio vendría representado por su esperanza matemática E[Y] = μ que se estimaría por la media muestral de las observaciones Yi. Pero al incorporar la variable exógena X ese comportamiento medio se describe mejor por medio de la función β1 + β2Xi que nos da el valor esperado para la variable endógena Y según el valor Xi que haya tomado la variable explicativa, expresión que depende de los dos parámetros β1 y β2 cuyo valor tendremos que estimar. (El alumno debe recordar la definición dada de función de regresión dentro de la distribución bidimensional de probabilidad de la variable (ξ1,ξ2): ϕ1(X) = E[ξ2 /ξ1 = X] que en el caso que resultase lineal se expresaba ϕ1(X) = α + βX ) Gráficamente: Yi β$1 + β$2 X i β1 + β2Xi E[Y] = μ μ$ = Y μ Y Xi Donde se representan con trazo grueso las características medias “poblacionales” tanto de la variable endógena por sí sola, como la proporcionada por el modelo de regresión y por trazo fino la media muestral de las observaciones Yi de la variable endógena y una estimación del modelo de regresión lineal. La expresión [2.1] también nos permite interpretar el valor de los parámetros de la siguiente forma: β1: será el valor medio o esperado que tomará Yi cuando la variable explicativa sea igual a cero. β2: será lo que variará el valor medio o esperado de Yi cuando la variable explicativa aumente en una unidad. 15 Departamento de Estadística e Investigación Operativa II (Métodos de Decisión) Comentarios a los enunciados de las hipótesis básicas: - Es posible que de una especificación del modelo no lineal, por medio de las debidas transformaciones en las variables, se llegue a una expresión lineal, respecto a los parámetros, del modelo. Por ejemplo: - Transformación semilogarítmica: Si la especificación inicial es del tipo: Y = AeβX con A > 0 , tomando logaritmos se obtiene: logY = α +βX , siendo α = logA . El modelo econométrico quedaría: logYi = α +βXi + ui . - Transformación logarítmica: Si la especificación inicial es del tipo: Y = AXβ con A > 0 , tomando logaritmos se obtiene: logY = α +βlogX , siendo α = logA . El modelo econométrico quedaría: logYi = α +βlogXi + ui . - Transformación recíproca: Si la especificación inicial es del tipo: [Y - α].X = β , despejando se obtiene: Y = α + β.(1/X). El modelo econométrico quedaría: Yi = α + β.(1/Xi) + ui . En todos los casos una o las dos variables aparecen en la formulación lineal sustituidas por transformaciones de las variables originales. - La segunda hipótesis supone que los valores observados de la variable X han de ser considerados fijos o únicos, aunque se realizaran muestreos sucesivos, como si hubiesen sido los únicos valores posibles de obtener por parte de la variable X. Esta idea proviene de las primeras aplicaciones del modelo de regresión en las ciencias experimentales, en las que la variable explicativa era una variable controlada e incluso determinada, en el laboratorio, por el investigador. Es evidente que en las ciencias sociales es difícil mantener esta hipótesis. Nosotros lo haremos, pero adelantando que los resultados y propiedades de la estimación del modelo que vamos a obtener en el siguiente tema se podrán mantener con tal de que se cumpla la incorrelación entre las perturbaciones aleatorias y las observaciones de la variable exógena. Es decir: Cov( ui , Xj ) = 0 ∀ (i , j ) - La hipótesis de media nula significa que el efecto que pueda causar ui sobre Yi podrá ser, con igual probabilidad, positivo o negativo, de tal forma que se le asigna como valor medio el cero. No obstante si no se cumpliera esta hipótesis y se diera, por ejemplo, que E[ui] = c, con el valor de c desconocido, el modelo a estimar se puede transformar en : Yi = γ1 + β2Xi + vi , siendo γ1 = β1 + c y vi = ui c , cumpliéndose, ahora, que: E[vi] = E[ui] - c = c - c = 0 , con lo que las nuevas perturbaciones aleatorias tienen media nula. En este modelo se podrá estimar β2 y γ1, pero no podremos estimar ni β1 ni c. 16 Introducción a la Econometría Tema 2: PLANTEAMIENTO DEL MODELO - El supuesto de homocedasticidad que se hace en la cuarta hipótesis significa que para cada Xi, o lo que es lo mismo para cada observación, la posible dispersión de la observación de Yi respecto a su valor medio (β1 + β2Xi) es la misma, medida por el valor de la varianza constante σ2. Recordemos que anteriormente se obtuvo que V[ Yi / Xi ] = V[ui ] = σ2. Gráficamente lo podemos ver suponiendo que fuera posible obtener para cada Xi varias observaciones de la variable endógena. Quedaría: Yi x x x x x X1 x x x x x X2 x x x x x X3 x x x x x X4 x x x x x x X5 x x x x x x X6 β1 + β2Xi Xi Si, por ejemplo, estuviéramos analizando la influencia que tienen los ingresos familiares (Xi) sobre la cifra del gasto efectuado en bienes de consumo (Yi) durante un periodo determinado, a través de una encuesta realizada a cierto número de familias españolas, el cumplimiento de la hipótesis de homocedasticidad indicaría que las familias de menor renta tendrían un rango de variación posible de sus gastos equivalente al que pudieran tener las familias con mayores ingresos. Cosa bastante improbable y, por tanto, no sería admisible esta hipótesis. Habitualmente si el modelo utiliza datos de corte transversal se deberá probar estadísticamente la verificación del supuesto de homocedasticidad. - La hipótesis de no autocorrelación de las perturbaciones aleatorias, por la que ui está incorrelacionada con uj, implica que todas aquellas causas no previstas por la estructura del modelo que influyen en la determinación del valor de Yi no tienen relación con las que actúan en la determinación de Yj. Este supuesto es más admisible si las observaciones corresponden a distintas empresas o familias (datos de corte transversal) que a distintos instantes de tiempo (series temporales), en las que es más verosímil pensar que el efecto de esas causas imprevistas se mantenga durante varios periodos y, por tanto, se relacionen entre ellas. 17 Departamento de Estadística e Investigación Operativa II (Métodos de Decisión) 2.2 Ejemplo 2: el modelo de educación de Mincer. Este modelo, formulado por Jacob Mincer en su obra “Schooling, experience and earnings” en 1974 dentro de la teoría del capital humano, tiene como objetivo, en su expresión más sencilla, explicar la cantidad y variación de los ingresos salariales obtenidos por los individuos por medio de la inversión realizada por dicho individuo en educación formal y representada por el número de años empleados en la formación educativa. El supuesto fundamental en que se basa es que cada individuo decide invertir en su formación hasta hacer máximo el valor actual de la totalidad de ingresos futuros esperados. Es decir, una persona decide seguir estudiando, en lugar de incorporarse al mercado laboral porque espera obtener mayores ingresos en el futuro. Las cuatro hipótesis simplificadoras que se necesitan para el análisis previo a la obtención del modelo son: 1º: Los individuos únicamente invierten en educación. (Posteriormente Mincer completa su teoría incorporando la inversión en experiencia y formación laboral). 2º: Sólo se considera como coste educativo el denominado coste de oportunidad, es decir, los ingresos perdidos por continuar estudiando y no incorporarse al mercado de trabajo. 3º: Cada individuo comienza su vida laboral inmediatamente después de terminada su educación formal. 4º: La duración de la vida laboral de cada individuo es de “n” años, cualquiera que sea el nivel educativo alcanzado. Por tanto, los individuos, una vez cubierta la enseñanza obligatoria, tomarán la decisión de, o bien comenzar a trabajar, o bien continuar “S” años más estudiando, dejando de percibir los posibles ingresos que le pudieran corresponder. Si denominamos Y(S) al ingreso anual constante de un individuo con “S” años adicionales de estudio, Y(0) representará el coste de oportunidad del mismo durante esos años de estudio. Suponiendo que el individuo toma su decisión siguiendo el criterio, anteriormente definido, de maximización del valor actual de las ganancias futuras, la tasa de descuento “r” que iguale el valor actual de la corriente constante de ingresos con el valor actual de los costes considerados, será la que la economía financiera denomina tasa de rendimiento interna de la inversión y representa una medida de la ganancia obtenida por la inversión en educación. La igualdad de los valores actuales de las corrientes de ingresos y costes esperados, siendo “n” el número de años de la vida laboral y utilizando las expresiones que nos proporciona la matemática financiera, será: Y(S).e -r.S . 1 - e -r.n 1 - e -r.n = Y(0). r r donde tomando logaritmos, obtenemos: ; que simplificando: Y(S).e -r.S = Y(0) log Y(S) = log Y(0) + r.S que es la expresión teórica del modelo de educación de Mincer. 18 Introducción a la Econometría Tema 2: PLANTEAMIENTO DEL MODELO Con las siguientes equivalencias simbólicas podremos expresar el modelo econométrico de regresión lineal correspondiente al modelo de educación de Mincer: Y(S) = Y log Y(0) = β1 r = β2 log Yi = β1 + β2Si + ui siendo: Yi: observaciones muestrales de los ingresos salariales individuales. Si: recoge el número de años de estudio, desde el final de la enseñanza obligatoria, que corresponde al mayor nivel educativo del individuo. β2: parámetro cuyo valor representa la tasa de rendimiento de la inversión en educación. β1: parámetro cuya estimación se aproximará al valor del logaritmo del salario “medio” o “tipo” de los individuos que decidieron no seguir estudiando. ui: perturbación aleatoria que recoge todas las causas que influyen en la determinación del salario del individuo “i” distintas del nivel educativo logrado. 2.3 Ejemplo 3: el modelo del mercado de Sharpe Este modelo surge a partir de los trabajos de W. Sharpe sobre el riesgo en el mercado de capitales y, concretamente, sobre las decisiones de los individuos respecto a sus carteras de títulos. En estos trabajos llega a establecer una relación entre el rendimiento de un título determinado y el rendimiento medio de un conjunto o cartera de títulos al que pertenece el primero. En uno de sus artículos se puede leer: “La mejor manera de comprender su sentido económico consiste en considerar la relación entre el rendimiento del activo j y el de la combinación g de forma similar a la del análisis de regresión.”. La cartera de títulos más representativa será el conjunto total de títulos del mercado de valores. Si representamos por rj el rendimiento del título “j” durante el periodo que se considere, su cálculo se hará de la siguiente forma: rj = precio al final del periodo + dividendos - precio al principio del periodo precio al principio del periodo El rendimiento del mercado se medirá a través del valor de un índice de Bolsa, como el Índice General de la Bolsa de Madrid o el IBEX en España. Si lo representamos por RM su calculo será: RM = valor del índice al final del periodo - valor del índice al principio del periodo valor del índice al principio del periodo La ecuación que se establece para el estudio de la determinación del rendimiento del título “j” en el periodo, conocida como línea característica es: 19 Departamento de Estadística e Investigación Operativa II (Métodos de Decisión) rj = αj + βjRM + uj Dónde: βj: Es el denominado parámetro “beta” del título “j” que representa una medida del riesgo sistemático de la inversión en dicho título. Nos indica la variación posible del rendimiento del título “j” motivada por una variación en el rendimiento medio del mercado. Mide la volatilidad del título o intensidad de su respuesta a las alteraciones en el mercado. De tal forma que si βj es mayor que 1 se dice que el título “j” es volátil, indicando que cuando el mercado aumente su rendimiento medio el título “j” lo hará en mayor proporción, pero cuando el rendimiento del mercado disminuya el titulo “j” rebajará aún más el suyo. αj: Nos da el rendimiento que se espera para el título “j” si el mercado permanece estable, con rendimiento nulo, en el periodo. uj: Es el término de error o perturbación aleatoria. El modelo así definido se refiere a un determinado periodo de tiempo pero del cual sólo podremos tener una observación de las variables. Para poder estimar los parámetros deberemos extender el cumplimiento de la anterior ecuación a un intervalo de tiempo amplio que comprenda varios periodos. Así, utilizando como subíndice “t” para los distintos periodos de observación el modelo econométrico quedará especificado de la siguiente forma: rjt = αj +βjRMt +ujt para t = 1, ... ,N Con el significado conocido para las variables y parámetros que aparecen. EJERCICIOS PROPUESTOS 2.1 Encuestadas 20 personas, seleccionadas al azar, entre la población activa de cierta región española, sus salarios anuales en euros, y sus años de estudios han resultado ser: salario Años de salario Años de Obs. anual en € estudios Obs. anual en € estudios 1 24600 12 11 66960 16 2 37800 16 12 30240 20 3 57240 18 13 34800 12 4 31440 16 14 102600 16 5 52800 12 15 18120 10 6 9936 12 16 34200 18 7 36960 16 17 25680 16 8 20640 12 18 21240 20 9 23880 10 19 7704 12 10 11952 12 20 101880 16 1º: Calcule la media y la varianza de cada una de las dos distribuciones marginales. 2º: Calcule la covarianza. 3º: Realice los mismos cálculos, pero sustituyendo los valores de los salarios por sus logaritmos. 20 Introducción a la Econometría Tema 2: PLANTEAMIENTO DEL MODELO 2.2 Si los precios y los dividendos pagados para un título A son los que se exponen a continuación, junto con los valores del IBEX-35: periodos oct – 04 nov – 04 dic – 04 enero-05 feb – 05 marzo-05 abril – 05 mayo- 05 junio - 05 julio - 05 agosto-05 sept - 05 oct - 05 nov - 05 dic - 05 enero-06 feb - 06 marzo-06 abril - 06 mayo- 06 junio - 06 t 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 precio de un dividendos título “A” pagados (en euros) (en euros) 12,30 0,10 12,38 13,09 12,92 0,10 13,07 12,56 11,95 0,142 12,74 12,76 13,91 0,115 13,45 14,59 14,71 0,115 15,02 15,08 16,62 0,115 17,08 17,22 17,51 0,186 16,17 16,08 IBEX-35. 8418,3 8693 9080,8 9223,9 9391 9258,8 9001,6 9427,1 9783,2 10115,6 10008,9 10813,9 10493,8 10557,8 10733,9 11104,3 11740,7 11854,3 11892,5 11340,5 11548,1 1º: Calcule los valores de los rendimientos del título (rAt) y del mercado (RMt) que se consideran en el modelo del mercado de Sharpe. 2º: Calcule las medias, las varianzas y la covarianza de ambos rendimientos. 21 Departamento de Estadística e Investigación Operativa II (Métodos de Decisión) 22