Técnicas Econométricas Máster Universitario Técnicas Cuantitativas en Gestión Empresarial Román Salmerón Gómez Granada, 2013 Técnicas Econométricas: breve descripción de contenidos Román Salmerón Gómez A continuación se comenta brevemente la parte de la asignatura Técnicas Econométricas impartida por el Prof. Román Salmerón en el máster en Técnicas Cuantitativas para la Gestión Empresarial. Es conveniente hacer hincapié al estudiante de la necesidad de repasar conocimientos adquiridos en el grado (cálculo diferencial, álgebra matricial, inferencia estadı́stica, etc) ya que serán usados de forma constante durante el discurrir de la asignatura. La asignatura comienza con una introducción al alumno al concepto de Econometrı́a y modelo econométrico. Con tal objetivo se realiza un breve bosquejo histórico de la Econometrı́a, además de proporcionar una definición de la misma. A continuación se define qué se entiende por modelo econométrico y se describen las fases a realizar en todo análisis econométrico (especificación, estimación, validación y explotación del modelo). Finalmente, se explica la naturaleza de la información utilizada. Tras conocer qué es un modelo econométrico se presenta su formulación matemática ası́ como las hipótesis básicas que debe verificar. Este último aspecto es importante destacarlo, ya que el alumno debe saber que toda estimación y validación del modelo queda supeditada a que se verifiquen dichas hipótesis (es más, los últimos temas de la asignatura - segunda parte - se dedican a esta cuestión). A continuación se estimarán, por el método de Mı́nimos Cuadrados Ordinarios, las cantidades desconocidas del modelo (coeficientes de los regresores y varianza de la perturbación aleatoria) y se analizarán sus propiedades. Finalmente, se comenzará con la fase de validación del modelo econométrico presentando una primera herramienta para medir la bondad del ajuste realizado: el coeficiente de determinación y coeficiente de determinación corregido. A continuación se introduce en el modelo la suposición de que la perturbación aleatoria se distribuye según una normal. A partir de este momento, el modelo econométrico toma una nueva dimensión ya que esta suposición permitirá calcular intervalos de confianza y contrastes de hipótesis para los parámetros desconocidos del modelo. Ası́, en primer lugar se presentarán las distribuciones en el muestreo de los estimadores obtenidos en el tema anterior por el método de Mı́nimos Cuadrados Ordinarios (MCO), las cuales permitirán contrastar un conjunto de hipótesis lineales. Como casos particulares se destacan los contrastes de significación individual y se realiza una breve reseña a los Mı́nimos Cuadrados Restringidos. Además, constituyen también el punto de partida que permitirá introducir el análisis de la varianza (análisis ANOVA). En este punto es interesante mostrar su relación con el coeficiente de determinación, ya que permite obtener un valor a partir del cual éste último es significativo y, por tanto, valida el modelo. En la última fase, se explotará el modelo a partir de la predicción puntual óptima y por intervalo, ası́ como a través del contraste de permanencia estructural. Finalmente, se destacará que todas las conclusiones obtenidas no tienen validez si antes no se comprueba que la perturbación aleatoria sigue una distribución normal. Todos estos contenidos serán abordados tanto desde un aspecto teórico/práctico como (muy especialmente) desde un aspecto computacional, más concretamente, con el software econométrico Gretl. GUIA DOCENTE DE LA ASIGNATURA TÉCNICAS ECONOMÉTRICAS MÓDULO ASIGNATURA CURS O SEMESTR E CRÉDITOS CARÁCTER 1 TÉCNICAS ECONOMÉTRICAS 1 1 4 OPTATIVA PROFESOR(ES) JORGE CHICA OLMO ROMÁN SALMERÓN GÓMEZ DIRECCIÓN COMPLETA DE CONTACTO PARA TUTORÍAS (Dirección postal, teléfono, correo electrónico, etc.) Departamento de Métodos Cuantitativos para la Economía y la Empresa. Facultad de Ciencias Económicas y Empresariales. Campus de Cartuja s/n. 18011 Granada. Teléfono 958 240 619 Fax 958 240 620 Prof. Chica Olmo: jchica@ugr.es Despacho C-223. Tfno. 958 249922 Prof. Salmerón Gómez: romansg@ugr.es Despacho B-00. Tfno. 958 249637 HORARIO DE TUTORÍAS El horario actualizado de tutorías puede consultarse en el siguiente enlace: http://metodoscuantitativos.ugr.es/pages/doce ncia MÁSTER EN EL QUE SE IMPARTE OTROS MÁSTERES A LOS QUE SE PODRÍA OFERTAR Técnicas Cuantitativas en Gestión Empresarial PRERREQUISITOS Y/O RECOMENDACIONES (si procede) Conocimientos básicos de técnicas cuantitativas y ordenador. Página 1 BREVE DESCRIPCIÓN DE CONTENIDOS (SEGÚN MEMORIA DE VERIFICACIÓN DEL MÁSTER) REGRESIÓN 1. El modelo de Regresión Lineal. Supuestos e Hipótesis. 2. El Procedimiento de Estimación Mínimo Cuadrático. Estimación Máximo Verosímil. 3. Explotación de los Resultados de Estimación. Análisis de la Varianza (ANOVA). Medidas de Ajuste y Diagnosis del Modelo. 4. Caso Práctico de Aplicación INFERENCIA EN EL MODELO LINEAL 5. El Papel de Supuesto de Normalidad de las Perturbaciones. 6. Distribución de los Estimadores de los Parámetros en el Muestreo. 7. Inferencia en le Modelo de Regresión y Contraste de Hipótesis. Estimación por Intervalo. Intervalos de Confianza. 8. Caso Práctico de Aplicación (Continuación) TEMAS COMPLEMENTARIOS 9. Cambio Estructural y Estabilidad de los Parámetros 10. Estimación del Modelo Generalizado. 11. Problemas con los Datos: Multicolinealidad y Errores de Especificación. COMPETENCIAS GENERALES Y ESPECÍFICAS DEL MÓDULO Competencias Generales - * CG0: Hablar bien en público. CG1: Que los estudiantes adquieran la capacidad de trabajar en entornos internacionales. CG2: Que los estudiantes adquieran la capacidad de crítica y autocrítica. * CG3: Que los estudiantes sean capaces de buscar y recopilar información de un tema de interés proveniente de fuentes diversas, especialmente a partir de las nuevas tecnologías. * CG4: Que los estudiantes sean competentes para analizar, sintetizar y gestionar la información y documentos disponibles de forma eficaz, incluyendo la capacidad de interpretar, evaluar y emitir un juicio razonado. * CG5: Que los estudiantes adquieran la capacidad de trabajar en equipo, fomentando el intercambio de ideas, compartiendo el conocimiento y generando nuevas metas y modelos de trabajo colaborativo. CG6: Que los estudiantes tengan la capacidad de trabajar en equipos multidisciplinares. * CG7: Que los estudiantes tengan la capacidad de organización y planificación. Página 2 Competencias Específicas - - * * CE1: Aplicar las herramientas cuantitativas a la resolución de problemas en el ámbito empresarial planteados con datos procedentes de muestras de la población objetivo en estudio. * CE2: Aplicar las nuevas aportaciones en técnicas cuantitativas al ámbito empresarial así como la resolución de problemas en entornos nuevos o poco conocidos. * CE3: Capacidad de utilizar técnicas cuantitativas actuales que le permitan incorporarse a tareas de investigación en el contexto de la gestión empresarial. * CE4: Comprender el valor y los límites del método científico así como fomentar el interés por una investigación rigurosa propia del área de Métodos Cuantitativos para la Economía y la Empresa. * CE5: Capacidad de acceder a las bases de datos y fuentes documentales existentes para conocer las nuevas aportaciones en el campo de Métodos Cuantitativos para la Economía y la Empresa. CE6: Desarrollar una visión amplia y multidisciplinar de las aplicaciones de las principales técnicas cuantitativas. CE7: Adquirir conocimientos altamente especializados, alguno de ellos a la vanguardia en un campo de trabajo o estudio concreto, que sienten las bases de un pensamiento o investigación originales en el área de conocimiento de Métodos Cuantitativos para la Economía y la Empresa, así como ampliar sus conocimientos y atender las exigencias del mundo académico y profesional. CE8: Adquirir conciencia crítica de cuestiones de conocimiento en un tema concreto de las técnicas cuantitativas para emitir informes o juicios profesionales. * CE9: Capacidad de seleccionar las técnicas cuantitativas más idóneas para un correcto análisis o estudio. CE11: Plantear y construir modelos de series temporales que expliquen la evolución de una variable a lo largo del tiempo y a predecir sus valores futuros. * CE12: Capacidad de cuantificar relaciones de comportamiento entre variables económicas, verificar hipótesis sobre los parámetros de dichas relaciones y efectuar predicciones sobre las variables de interés. Con asterisco se indican las competencias de esta asignatura. OBJETIVOS (EXPRESADOS COMO RESULTADOS ESPERABLES DE LA ENSEÑANZA) El alumno sabrá/comprenderá: - Conocimientos sobre aspectos principales de la terminología económica, de la naturaleza de la economía y el entorno económico inmediato, nacional e internacional. - Conocimientos sobre los principales modelos y técnicas de representación y análisis de la realidad económica. - Las instituciones económicas como resultado y aplicación de representaciones teóricas o formales acerca de cómo funciona la economía. - Las principales técnicas instrumentales aplicadas al ámbito económico. El alumno será capaz de: - Interpretar datos económicos, proporcionar información relevante útil para todo tipo de usuarios. Aplicar al análisis de los problemas criterios profesionales basados en el manejo de instrumentos técnicos. Emitir informes de asesoramiento sobre situaciones concretas de la economía (internacional, nacional o regional) o de sectores de la misma. Desarrollar habilidades de aprendizaje para emprender estudios posteriores en el ámbito de la economía con un alto grado de autonomía. Página 3 TEMARIO DETALLADO DE LA ASIGNATURA REGRESIÓN 1. El modelo de Regresión Lineal. Supuestos e Hipótesis. 2. El Procedimiento de Estimación Mínimo Cuadrático. Estimación Máximo Verosímil. 3. Explotación de los Resultados de Estimación. Análisis de la Varianza (ANOVA). Medidas de Ajuste y Diagnosis del Modelo. 4. Casos prácticos desarrollados con software libre econométrico. INFERENCIA EN EL MODELO LINEAL 5. El Papel de Supuesto de Normalidad de la las Perturbaciones. 6. Distribución de los Estimadores de los Parámetros en el Muestreo. 7. Inferencia en le Modelo de Regresión y Contraste de Hipótesis. Estimación por Intervalo. Intervalos de Confianza. 8. Casos prácticos desarrollados con software libre econométrico (Continuación) TEMAS COMPLEMENTARIOS 9. Cambio Estructural y Estabilidad de los Parámetros. Test de Chow. 10. Incumplimiento de las hipótesis básicas del modelo. Contraste de normalidad en las perturbaciones. 11. Estimación del Modelo Generalizado. Heterocedasticiad y autocorrelación. 13. Problemas con los Datos. Multicolinealidad. Errores de Especificación. Datos espaciales. 14. Casos prácticos desarrollados con software libre econométrico (Continuación) BIBLIOGRAFÍA ALONSO, A.; FERNÁNDEZ, J. y GALLASTEGUI, I. (2005).- Econometría. Ed. Prentice Hall GUJARATI, D. (2010).- Econometría.- Ed. McGraw Hill MATILLA, M, PÉREZ, P y SANZ, B. (2013) Econometría y predicción. Ed. McGraw Hill SÁNCHEZ, C. (1999) Métodos Econométricos. Ariel Economía. Barcelona. STOCK, J.H. y WATSON, M.M. (2012) Introducción a la Econometría, 3ª ed. Pearson WOOLDRIDGE, J.M. (2010).- Introducción a la Econometría. Un enfoque moderno. 2ª Edic. Thomson ENLACES RECOMENDADOS Web del Dpto. de Métodos Cuantitativos para la Economía y la Empresa. http://metodoscuantitativos.ugr.es/ Instituto nacional de Estadística. http://www.ine.es/ Instituto de estadística andaluz. http://www.juntadeandalucia.es:9002/ Banco de España. http://www.bde.es/webbde/es/ Página 4 Bolsa de Madrid. http://www.bolsamadrid.es/homei.htm Anuario Económico de La Caixa. http://www.anuarieco.lacaixa.comunicacions.com Eurostat, http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/ . Descarga gratuita del programa Gretl: http://descargar.portalprogramas.com/gretl.html, http://gretl.softonic.com/ Guía multimedia para la elaboración de un modelo econométrico. www.ugr.es/local/jchica/Pagina2/Modelo/Modelo.htm Página personal de Román Salmerón: www.ugr.es/local/romansg/material/WebEco/index.html METODOLOGÍA DOCENTE La metodología que se llevará a cabo es la siguiente: 1. Tutorías personalizadas para buscar información reciente en diversas fuentes bibliográficas, plantear cuestiones de investigación, etc. 2. Realización de trabajos individuales o en grupo para la resolución de problemas en el ámbito empresarial. 3. Lectura e interpretación de la bibliografía especializada, incluyendo artículos de actualidad, propuesta en el programa de la materia. 4. Diseño, elaboración y exposición de un trabajo individual o en grupo de aplicación de los conocimientos teórico-práctico adquiridos. 5. Resolución de problemas relacionados con la materia y aplicados al ámbito empresarial. 6. Aplicaciones con ordenador. En dicha metodología es importante: 1. Desarrollo de clases teóricas en las que se expondrán los distintos contenidos con ayuda de material didáctico diverso. 2. Desarrollo de clases prácticas en las que se resolverán problemas relacionados con la materia y aplicados en el ámbito empresarial. Asimismo se fomentará la participación de los alumnos. 3. Realización de lecturas relacionadas con la materia, sobre las que se formularán preguntas o se solicitará un resumen crítico. 4. Realización de sesiones de discusión del material bibliográfico previas a las lecciones magistrales fomentando la participación del alumno. 5. Asistencia a seminarios teórico-prácticos que puedan desarrollarse durante el desarrollo de la materia y que incluyan foros de discusión. 6. Realización de prácticas en el aula de informática. 7. Charlas/coloquios que refuercen los conocimientos de la materia y fomenten la participación activa del alumno. Página 5 EVALUACIÓN (INSTRUMENTOS DE EVALUACIÓN, CRITERIOS DE EVALUACIÓN Y PORCENTAJE SOBRE LA CALIFICACIÓN FINAL, ETC.) 1. Prueba escrita: exámenes de ensayo, pruebas objetivas, resolución de problemas, casos o supuestos, pruebas de respuesta breve, informes y diarios de clase. (Ponderación: 0.6) 2. Prueba oral: exposiciones de trabajos orales en clase, individuales o en grupo, sobre contenidos de la materia (seminario) y sobre ejecución de tareas prácticas correspondientes a competencias concretas. (Ponderación: 0.3) 3. Técnicas basadas en la asistencia y participación activa del alumno en clase, seminarios y tutorías: trabajos en grupos reducidos sobre supuestos prácticos propuestos. (Ponderación: 0.1) El sistema de evaluación será preferentemente continua, entendiendo por tal la evaluación diversificada que se establece en este apartado. No obstante, se podrá realizar una evaluación única final a la que podrán acogerse aquellos estudiantes que no puedan cumplir con el método de evaluación continua por motivos laborales, estado de salud, discapacidad o cualquier otra causa debidamente justificada que les impida seguir el régimen de evaluación continua. INFORMACIÓN ADICIONAL La asignatura se desarrollará con la ayuda de ordenador. Página 6 Introducción a la Econometrı́a El modelo de regresión lineal múltiple Román Salmerón Gómez Universidad de Granada Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 1 / 68 Contenidos Contenidos Introducción Especificación del modelo Introducción Especificación del modelo Estimación del modelo Estimación del modelo Validación del modelo Validación del modelo Explotación del modelo Explotación del modelo Ejemplos Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 2 / 68 Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Introducción Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 3 / 68 Econometrı́a Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo La Estadı́stica juega un papel importante en cualquier ciencia empı́rica a la hora de estimular la formulación de modelos y contrastarlos. En la ciencia económica este papel se hace especialmente importante hasta el punto de que la necesidad de extender la Estadı́stica ha dado lugar al nacimiento de una disciplina nueva que hoy goza de una gran vitalidad: la Econometrı́a. La Econometrı́a es una rama de la Economı́a que aglutina a la Teorı́a Económica, las Matemáticas, la Estadı́stica y la Informática para estudiar y analizar fenómenos económicos. Puede decirse que constituye en sı́ misma una disciplina dentro de la Economı́a y a la vez una potente herramienta que tanto los economistas como otros muchos investigadores sociales utilizan para el estudio de sus problemas concretos. El principal propósito de la Econometrı́a es proporcionar un sustrato empı́rico a la Teorı́a Económica. Validación del modelo Explotación del modelo Ejemplos Máster TCGE Una breve descripción de la historia econométrica la puedes encontrar en las lecturas recomendadas. Introducción a la Econometrı́a: regresión múltiple – 4 / 68 Definición de Econometrı́a Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo De entre las muchas definiciones existentes sobre la Econometrı́a destacarı́a la siguiente: “La Econometrı́a, usando la Teorı́a Económica, las Matemáticas y la Inferencia Estadı́stica como fundamentos analı́ticos, y los datos económicos como la base informativa, proporciona una base para: 1. 2. Modificar, refinar o posiblemente refutar las conclusiones en el cuerpo de conocimientos conocido como Teorı́a Económica. Conseguir signos, magnitudes y afirmaciones de calidad para los coeficientes de las variables en las relaciones económicas, de modo que esta información puede usarse como base para la elección y toma de decisiones.” Validación del modelo Explotación del modelo Judge y otros (1985) Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 5 / 68 Modelo económico y econométrico Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE Modelo económico: Un modelo económico es una representación simplificada de la realidad económica mediante la expresión matemática de una determinada teorı́a económica. Modelo econométrico: Un modelo econométrico es aquel modelo económico que contiene todos los elementos necesarios para ser estudiado desde un punto de vista empı́rico. Es decir, un modelo económico en el que se ha especificado el tipo de relación entre variables (en este curso lineal), el número de variables, introducción de la perturbación aleatoria (para recoger el efecto de las variables no incluidas fundamentalmente), etc. Ası́, por ejemplo, un modelo económico es aquel en el que se especifica que el consumo es una función de la renta: Consumo = f (Renta). Mientras el modelo econométrico será aquel en el que se establece que la relación es lineal y se introduce la perturbación aleatoria ut : Consumot = β1 + β2 · Rentat + ut . Introducción a la Econometrı́a: regresión múltiple – 6 / 68 Fases del método econométrico Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE La elaboración de un modelo econométrico se puede dividir en las siguientes fases: Especificación: En esta fase se propone la forma matemática de la relación que liga las variables presentes en el modelo y la perturbación aleatoria. También debe decidirse el número de ecuaciones y variables que forman el modelo. Todo ello se realizará partiendo de la Teorı́a Económica. Estimación: Esta fase consiste en la obtención de valores numéricos de las cantidades constantes del modelo econométrico. Por tanto, será necesario disponer de información empı́rica sobre el fenómeno (datos) y haber decidido el método de estimación a usar. Validación: En esta fase se evalúan los resultados obtenidos en la etapa anterior para decidir si los mismos son o no aceptables tanto desde el punto de vista de la teorı́a económica (magnitudes, signos, etc) como desde el punto de vista estadı́stico (validez del modelo). Explotación: Si el modelo es aceptado, este puede ser usado para la predicción y contrastar la permanencia de la estructura estimada. Introducción a la Econometrı́a: regresión múltiple – 7 / 68 Componentes de un modelo econométrico Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Las principales componentes de un modelo econométrico son: Variables: Dentro de las variables podemos distinguir entre las variables observables (aquellas de las que se disponen datos) y no observables (la perturbación aleatoria). Y dentro de las primeras tenemos a las variables dependientes, explicadas o endógenas (aquellas que están influidas por otras variables) y variables independientes, explicativas o exógenas (aquellas que no están influidas por otras). Parámetros: Los parámetros son las cantidades fijas o constantes del modelo econométrico que se desean estimar (los coeficientes de las variables y la varianza de la perturbación aleatoria). Ecuaciones: Las relaciones entre las distintas variables se explicitará mediante una o más ecuaciones. Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 8 / 68 Naturaleza de la información utilizada en Econometrı́a Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE Los datos económicos suelen ser de clases muy variadas, siendo los tipos más importantes los siguientes: Datos de corte transversal: son un conjunto de datos formada por unidades (individuos, empresas, regiones, etc) observadas en un momento determinado (dı́a, mes, trimestre, año, etc). Por ejemplo, el consumo de varias familias en un mes en concreto. Datos de series temporales: son un conjunto de datos formado por observaciones de una misma variable a lo largo del tiempo. Por ejemplo, el consumo mensual de una familia a lo largo de todo un año. Datos de panel o longitudinales: son un conjunto de datos que combinan una dimensión temporal con otra transversal. Por ejemplo, el consumo mensual de un conjunto de familias a lo largo de todo un año. Habrá que atender al tipo de datos que se analicen ya que dependiendo de su naturaleza se podrán aplicar unos u otros métodos econométricos. Introducción a la Econometrı́a: regresión múltiple – 9 / 68 Contenidos Introducción Especificación del modelo Modelo lineal uniecuacional múltiple Hipótesis del modelo Estimación del modelo Especificación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 10 / 68 Modelo lineal uniecuacional múltiple Contenidos Introducción Especificación del modelo Modelo lineal uniecuacional múltiple El modelo lineal uniecuacional múltiple analiza la relación lineal entre una variable dependiente, Y , y más de una variable independiente, Xi , i = 1, . . . , k , k > 1, más un término aleatorio, u. Ası́, a partir de n observaciones para cada variable, el modelo puede ser expresado como: Hipótesis del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Yt = β1 + β2 Xt2 + β3 Xt3 + · · · + βk Xtk + ut , t = 1, . . . , n, (1) donde se ha considerado que hay término constante, es decir, X1t = 1, ∀t. El objetivo será estimar (es decir, obtener una aproximación numérica) aquellas cantidades constantes presentes en el modelo (1), ası́ como la bondad de la estimación realizada. En primer lugar, se escribe dicho modelo para todas y cada una de las observaciones: Y1 Y2 .. . Yn Máster TCGE = β1 + β2 X12 + β3 X13 + · · · + βk X1k + u1 = β1 + β2 X22 + β3 X23 + · · · + βk X2k + u2 .. . = β1 + β2 Xn2 + β3 Xn3 + · · · + βk Xnk + un Introducción a la Econometrı́a: regresión múltiple – 11 / 68 Modelo lineal uniecuacional múltiple Contenidos Que nos conduce a la siguiente forma matricial: Introducción yn×1 = Xn×k · βk×1 + un×1 , Especificación del modelo Modelo lineal uniecuacional múltiple donde: Hipótesis del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos yn×1 Y1 Y2 = . , .. Yn Xn×k Máster TCGE (2) βk×1 β1 β2 = . , .. βk 1 X12 1 X22 = . .. .. . 1 Xn2 un×1 u1 u2 = . , .. un X1k X2k . .. .. . . . . . Xnk ... ... Introducción a la Econometrı́a: regresión múltiple – 12 / 68 Hipótesis del modelo Contenidos Introducción Especificación del modelo Modelo lineal uniecuacional múltiple Hipótesis del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Consideraremos las siguientes hipótesis básicas en el modelo lineal uniecuacional múltiple: El vector y se puede expresar como combinación lineal de las variables explicativas más un vector de perturbación. La perturbación aleatoria está centrada (E[ut ] = 0, t= 1, . . . , n), es homocedástica V ar(ut ) = E[u2t ] = σ 2 , t = 1, . . . , n e incorrelada (Cov(ut , us ) = E[ut · us ] = 0, ∀t 6= s, t, s = 1, . . . , n). En tal caso se dice que las perturbaciones son esféricas y se verifica que E[u] = 0n×1 y V ar(u) = E[u · ut ] = σ 2 · In×n . La matriz X es no estocástica y de rango completo por columnas, es decir, rg(X) = k (como consecuencia n > k y las columnas de X , es decir, Xi , i = 1, . . . , n, son linealmente independientes). No hay relación entre variables independientes y la perturbación aleatoria: Cov(un×1 , Xi ) = = Máster TCGE E (u − E[u]) · (Xi − E[Xi ])t E u · (Xi − Xi )t = E[un×1 · 01×n ] = 0n×n . Introducción a la Econometrı́a: regresión múltiple – 13 / 68 Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Estimación del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 14 / 68 Estimación mı́nimo cuadrática de los coeficientes del modelo Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Definiendo los errores o residuos, e, del modelo lineal uniecuacional múltiple como la diferencia entre los verdaderos valores de la variable dependiente y su estimación, esto es e = y − yb, donde y b = X βb, y siguiendo la premisa de minimizar la suma de los cuadrados de los residuos b t · (y − X β) b = y t y − 2βbt X t y + βbt X t X β, b et e = (y − X β) se obtiene la estimación del parámetro β como Validación del modelo βb = X t X Explotación del modelo Ejemplos Máster TCGE −1 · X t y. Dicho método recibe el nombre de mı́nimos cuadrados ordinarios, MCO, por lo que los estimadores obtenidos a partir de dicho método reciben el nombre de estimadores de mı́nimos cuadrados ordinarios, EMCO. Como consecuencias de dicha estimación se verifica que X t · e = 0k×1 , it · e = 01×1 , it · yb = it · y y ybt · e = 01×1 donde it = (1 1 . . . 1)1×n . Introducción a la Econometrı́a: regresión múltiple – 15 / 68 Estimación mı́nimo cuadrática de los coeficientes del modelo Contenidos Adviértase que: Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos n P n X t2 t=1 X tX = .. . P n Xtk t=1 y n P Xt2 t=1 n P t=1 n P ··· .. . .. t=1 n P t=1 n P Xtk Xt2 Xtk t=1 . ··· Y t=1 t P n X Y t2 t t=1 X ty = .. . P n Xtk Yt t=1 Máster TCGE ··· 2 Xt2 Xtk Xt2 n P n P t=1 .. . 2 Xtk , . Introducción a la Econometrı́a: regresión múltiple – 16 / 68 Teorema de Gauss-Markov Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema 1 (Teorema de Gauss-Markov) Los estimadores de mı́nimos cuadrados ordinarios son lineales, insesgados y óptimos (ELIO), es decir, tienen varianza mı́nima entre la clase de los estimadores lineales e insesgados. En efecto, por la forma de escribirse el estimador es evidente que es lineal. Ası́, llamando: Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Ck×n = X t X −1 k×k t · Xk×n Validación del modelo Explotación del modelo Ejemplos c11 c21 = . .. ck1 c12 c22 .. . ck2 c1n c2n .. , .. . . . . . ckn ... ... b se expresa como combinación lineal del vector y : se tiene que β βbk×1 = Ck×n · yn×1 Máster TCGE c11 Y1 + c12 Y2 + . . . + c1n Yn c21 Y1 + c22 Y2 + . . . + c2n Yn = . .. . ck1 Y1 + ck2 Y2 + . . . + ckn Yn Introducción a la Econometrı́a: regresión múltiple – 17 / 68 Teorema de Gauss-Markov Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos b de β sea insesgado se ha de cumplir que E[β] b = β . En Para que el estimador β b: efecto, sustituyendo y = Xβ + u en β −1 · X t (Xβ + u) · X ty = X tX −1 −1 · X t u. · X t u −→ βb = β + X t X = β + X tX βb = −1 Entonces, teniendo en cuenta que E[u] = 0: i h −1 −1 t t b · X t · E[u] = β. · X u = β + X tX E[β] = E β + X X b: Por otro lado, la matriz de varianzas-covarianzas de β V ar βb = = = = Máster TCGE X tX t t b b b b b b =E β−β · β−β E β − E[β] · β − E[β] h −1 i −1 t X u · ut X X t X E X tX −1 −1 t X · E[u · ut ] · X X t X X tX −1 −1 −1 t , = σ2 · X t X X X X tX σ2 · X t X Introducción a la Econometrı́a: regresión múltiple – 18 / 68 Teorema de Gauss-Markov Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos b es insesgado, βb − β = (X t X)−1 X t u y donde se ha tenido en cuenta que β V ar(u) = E[u · ut ] = σ 2 · In×n . b es de mı́nima varianza consideraremos otro estimador, Para demostrar que β β ∗ , de β lineal e insesgado de forma que V ar βb < V ar (β ∗ ). En efecto, β ∗ = Dk×n · yn×1 tal que D · X = Ik×k es lineal e insesgado. Además, V ar (β ∗ ) = σ 2 · DD t . −1 En tal caso, puesto que podemos escribir D = (X t X) X t + W con −1 W 6= 0k×n , se tiene que DDt = (X t X) + W W t , y en tal caso: −1 2 t ∗ 2 t 2 t +σ ·W W = V ar βb +σ 2 ·W W t , V ar (β ) = σ ·DD = σ · X X b = σ2 · W W t. esto es, V ar (β ) − V ar β ∗ b > 0, y en tal Y como W W es definida positiva: V ar (β ) − V ar β caso: ∗ V ar (β ) > V ar βb . t Máster TCGE ∗ Introducción a la Econometrı́a: regresión múltiple – 19 / 68 Estimación de la varianza de la perturbación aleatoria Contenidos Introducción Especificación del modelo Además de los coeficientes de las variables independientes, hay en el modelo otra cantidad constante que habrá que estimar: la varianza de la perturbación aleatoria, σ 2 . Un estimador insesgado de σ 2 es: Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos σ b2 = et e , n−k ya que E[et e] = (n − k) · σ 2 . Para calcular dicho estimador se dispone de la expresión: y t y − βbt X t y . σ b = n−k 2 b es: En consecuencia, la estimación de la matriz de varianzas-covarianzas de β −1 \ . b2 · X t X V ar βb = σ Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 20 / 68 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Validación del modelo Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 21 / 68 Bondad de ajuste: Coeficiente de determinación Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Una vez estimado el modelo lineal uniecuacional multiple, es decir, una vez obtenidas las estimaciones de β y σ 2 , el siguiente paso será estudiar la calidad de dichas estimaciones. Ası́, a continuación, obtendremos el coeficiente de determinación, que no es más que una medida para estudiar la bondad del ajuste lineal determinado por los estimadores por mı́nimos cuadrados ordinarios. Dicho coeficiente de determinación, que se denota por R2 , se define como el porcentaje de variabilidad explicada por el modelo. Por tanto, éste se obtendrá como el cociente entre la varianza explicada por la estimación y la total: R2 = 1 T 1 T · · 2 n P Ybi − Y 2 n P Ybi − Y i=1 i=1 i=1 n P Yi − Y i=1 n 2 = P Yi − Y 2 . Como se observa, el coeficiente de determinación queda expresado en función de la suma de cuadrados explicados (SCE) y los totales (SCT). Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 22 / 68 Bondad de ajuste: Coeficiente de determinación Contenidos Luego, teniendo en cuenta la descomposición Introducción SCT = SCE + SCR, Especificación del modelo Estimación del modelo se tiene que R2 = Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo SCR SCE =1− . SCT SCT Entonces, para calcular dicho coeficiente se dispone de la expresión: 2 R = 2 βbt X t y − n · Y yt y − n · Y 2 =1− y t y − βbt X t y yt y − n · Y 2 . Adviértase que, siempre que el modelo lineal tenga término independiente, el coeficiente de determinación varı́a entre 0 y 1. El valor 0 lo toma cuando la SCE es nula y, por tanto, el modelo no es adecuado; mientras que toma el valor 1 cuando la SCR es nula y, por tanto, el modelo es adecuado. Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 23 / 68 Coeficiente de determinación corregido Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Puesto que a medida que vamos incluyendo variables en el modelo el coeficiente de determinación aumenta aunque las variables que incluyamos no sean significativas, esto supone un problema. 2 El coeficiente de determinación corregido, R , viene a resolver este problema del coeficiente de determinación. Dicho coeficiente mide el porcentaje de variación de la variable dependiente (al igual que el coeficiente de determinación) pero teniendo en cuenta el número de variables incluidas en el modelo. Se define como: 2 R = 1 − (1 − R2 ) · n−1 . n−k En cualquier caso, estas medidas de bondad del ajuste no deben de ser 2 sobrevaloradas. Obtener un R2 o R cercano a 1 no indica que los resultados sean fiables, ya que, por ejemplo, puede ser que no se cumpla alguna de las hipótesis básicas y los resultados no ser válidos. Por tanto, estos indicadores han de ser considerados como una herramienta más a tener en cuenta dentro del análisis. Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 24 / 68 Distribución en el muestreo de los estimadores MCO Contenidos Introducción Introduciendo la hipótesis de que la perturbación aleatoria sigue una distribución normal, esto es: un×1 ∼ N (0n×1 , σ 2 · In×n ). Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza −1 bk×1 ∼ N (β, σ 2 · (X t X) En consecuencia, β ), ya que: βb sigue una distribución normal ya que se puede expresar en función de una b = β + (X t X)−1 · X t u. normal: β h i b = β , y matriz de varianzasse tienen calculados el vector de medias, E β b = σ 2 · (X t X)−1 . covarianzas, V ar β −1 Por otro lado, ya que et e = ut M u siendo Mn×n = I − X (X t X) X t t u simétrica, idempotente y con rg(M ) = n − k < k se tiene que u σM ∼ χ2n−k , 2 lo que se traduce en que Intervalos de confianza (n − k) · σ b2 ∼ χ2n−k . 2 σ Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 25 / 68 Contraste de un conjunto de hipótesis lineales Contenidos Introducción Especificación del modelo A continuación abordaremos la especificación de contrastes sobre un conjunto de hipótesis lineales sobre los coeficientes del modelo. Concretamente, suponiendo q restricciones lineales independientes entre sı́: a11 β1 + a12 β2 + · · · + a1k βk a21 β1 + a22 β2 + · · · + a2k βk Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares aq1 β1 + aq2 β2 + · · · + aqk βk Análisis de la varianza Explotación del modelo Ejemplos Máster TCGE . = .. = bq Plantearemos contrastar la hipótesis nula H0 : Rβ = r donde Mı́nimos Cuadrados Restringidos Intervalos de confianza .. . .. . = b1 = b2 Rq×k a11 a21 = . .. aq1 a12 a22 .. . aq2 . . . a1k . . . a2k .. , .. . . . . . aqk rq×1 b1 b2 = . . . . bq Introducción a la Econometrı́a: regresión múltiple – 26 / 68 Contraste de un conjunto de hipótesis lineales Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Usando la distribución h i−1 t R (X t X)−1 Rt b b · Rβ − Rβ ∼ Fq,n−k , Rβ − Rβ · q·σ b2 rechazaremos la hipótesis nula al nivel de significación α si i−1 h −1 t t t R (X X) R b − r > Fq,n−k (1 − α), Rβb − r · · R β q·σ b2 donde Fq,n−k (1 − α) es el punto de una F de Senedecor de q y n − k grados de libertad que deja por debajo suyo una probabilidad 1 − α. Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 27 / 68 Casos particulares Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE Un caso particular de suma importancia será aquel en el que se desee contrastar la hipótesis nula H0 : βi = bi , i = 1, . . . , k . En tal caso, q = 1, R = (0 0 . . . 1i) . . . 0) y r = bi , por lo que la distribución anterior queda simplificada como 2 b βi − bi σ b 2 · wi ∼ F1,n−k , −1 donde wi es el elemento (i,i) de la matriz (X t X) −1 es el elemento (i,i) de σ b2 · (X t X) , o lo que es lo mismo, σ b 2 · wi \ = V ar βb , esto es, la varianza estimada bi . de β Teniendo en cuenta que la raı́z cuadrada de una F-Snedecor con 1 y n grados de libertad es una t-Student con n grados de libertad se tiene que βbi − bi √ ∼ tn−k , σ b · wi Introducción a la Econometrı́a: regresión múltiple – 28 / 68 Casos particulares Contenidos y en tal caso rechazaremos H0 : βi = bi al nivel de significación α si Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos βb − b α i i , √ > tn−k 1 − σ b · wi 2 donde tn−k 1 − α 2 es el punto de una distribución t de student con n − k grados de libertad que deja por debajo suya una probabilidad 1 − α 2. Este caso particular es de vital importancia cuando bi = 0, ya que entonces estaremos contrastando si el coeficiente de la variable independiente Xi es o no nulo. De forma que al rechazar dicha hipótesis tenemos garantizado que la variable Xi ha de estar en el modelo, por lo que sus variaciones influyen en la variable dependiente. En tal caso se dice que dicha variable es significativa y que el contraste es un contraste de significación individual. Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 29 / 68 Mı́nimos Cuadrados Restringidos Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE En el caso en el que no se rechace la hipótesis nula H0 : Rβ = r , serı́a deseable incorporar dicha información al modelo. En tal caso, se obtiene un nuevo estimador: h i βbR = βb + X t X −1 Rt R X t X −1 Rt −1 · r − Rβb , que recibe el nombre de mı́nimos cuadrados restringidos ya que se ha obtenido bR = r . con la restricción de que ha de verificar que Rβ Dicho estimador es lineal, insesgado siempre que la hipótesis nula H0 : Rβ = r sea cierta y óptimo. Es decir, el estimador por mı́nimos cuadrados restringidos tiene menor varianza que el estimador mı́nimo cuadrático ordinario siempre y cuando la restricción (hipótesis nula) sea cierta. Luego, cuando una restricción lineal sobre los coeficientes de las variables independientes es cierta, el estimador por mı́nimos cuadrados ordinarios deja de ser óptimo y habrá que usar el estimador por mı́nimos cuadrados restringidos. Además se verifica que: SCRR ≥ SCR, 2 RR ≤ R2 . Introducción a la Econometrı́a: regresión múltiple – 30 / 68 Análisis de la varianza Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación El análisis de la varianza aborda el contraste que tiene por hipótesis nula que todos los coeficientes de las variables independientes son nulos simultáneamente, esto es, H0 : β2 = β3 = · · · = βk = 0. Salta a la vista que estamos ante un caso particular de un contraste sobre k − 1 restricciones lineales de los coeficientes de las variables independientes. En este caso, rechazaremos la hipótesis nula al nivel de significación α si Fexp = Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza SCE k−1 SCR n−k > Fk−1,n−k (1 − α). Para calcular dicho estadı́stico se suele resumir la información anterior en una tabla, conocida como tabla de análisis de la varianza (tabla ANOVA) ya que en ella se recogen las fuentes de variación de la varianza: Fuente de variación Suma de Cuadrados Intervalos de confianza Grados de Libertad Medias k−1 n−k SCE k−1 SCR n−k 2 SCE = βbt X t y − nY SCR = y t y − βbt X t y Explicada Explotación del modelo Residuos Ejemplos SCT = y t y − nY Total Máster TCGE 2 n−1 Introducción a la Econometrı́a: regresión múltiple – 31 / 68 Análisis de la varianza Contenidos Introducción Especificación del modelo Estimación del modelo Adviértase que rechazar H0 implica que hay al menos un coeficiente no nulo, por lo que la relación existente entre las variables independientes y la dependiente no se debe al azar, lo cual valida el modelo en su conjunto. Por otro lado, sin más que dividir la región de rechazo por SCT tanto en el numerador como en el denominador se obtiene la expresión equivalente: Validación del modelo R2 k−1 1−R2 n−k Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos > Fk−1,n−k (1 − α). La importancia de esta nueva expresión para la región de rechazo es que permite calcular una cota, sin más que despejar R2 , a partir de la cual el coeficiente de determinación es significativo. Esto es, el coefciente de determinación es significativo al nivel de significación α si Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE 2 R > 1 k−1 n−k · Fk−1,n−k (1 − α) . k−1 + n−k · Fk−1,n−k (1 − α) Introducción a la Econometrı́a: regresión múltiple – 32 / 68 Intervalos de confianza Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE A partir de las distribuciones en el muestreo para los estimadores estudiados es inmediato obtener los siguientes intervalos de confianza al nivel 1 − α: Intervalo de confianza para βi √ α b ·σ b · wi , βi ± tn−k 1 − 2 i = 1, . . . , k. Intervalo de confianza para σ 2 " 2 2 # (n − k) · σ b (n − k) · σ b , α , α 2 2 χn−k 1 − 2 χn−k 2 y χ2n−k α son los puntos de una distribución chidonde χ2n−k 1 − α 2 2 cuadrado con n−k grados de libertad que dejan a su izquierda, respectivamente, α una probabilidad 1 − α 2 y 2. Una forma alternativa de contrastar hipótesis es usando los intervalos de confianza. De manera que para contrastar H0 : Rβ = r se calculará la región de confianza para Rβ y si r pertenece a dicha región, no se rechazará la hipótesis nula. Introducción a la Econometrı́a: regresión múltiple – 33 / 68 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 34 / 68 Predicción Puntual Óptima Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Ejemplos Una vez validado el modelo, la siguiente fase de un modelo econométrico es la explotación, siendo entonces la predicción o la permanencia estructural algunos de sus objetivos. La predicción se realiza desde dos puntos de vista: a) por un lado realizaremos una predicción puntual dando un único valor de predicción para un instante en concreto; b) por otra parte, puesto que Y es una variable aleatoria, podemos calcular su esperanza dado un valor en concreto de las variables independientes. Siguiendo las directrices anteriores se llega a la misma expresión algebráica en ambos casos: b p0 = xt0 · β, donde xt0 = (1 X02 X03 . . . X0k ) contiene los valores de las variables independientes para los que se quiere obtener la predicción. Este predictor, p0 , mı́nimo cuadrático (ya que se obtiene a partir del estimador por mı́nimos cuadrados ordinarios de β ) es lineal, insesgado y óptimo (en el sentido de mı́nima varianza). Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 35 / 68 Predicción por intervalo Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Ejemplos Máster TCGE En este apartado calcularemos el intervalo de confianza para el valor esperado de Y dado x0 , es decir, para E[Y0 /x0 ] = xt0 · β . b se distribuye según una normal (ya que está en función de βb) y Como xt0 · β b = xt β , ya que es insesgado. E[xt0· β] i 0 h t t b t t b t b = xt0 · = E x0 · β − x0 · β · x0 · β − x0 · β V ar x0 · β t −1 t b b ·x0 = x0 ·V ar βb ·x0 = σ 2 ·xt0 (X t X) x0 . E β−β · β−β se tiene que xt0 −1 t 2 t t b · β ∼ N x0 · β, σ · x0 X X x0 . Ahora bien, esta distribución no es apta para hacer inferencia puesto que depende de la cantidad desconocida σ 2 . Para resolver este problema, tipificaremos la anterior distribución normal y la dividiremos entre la raı́z cuadrada de la siguiente distribución chi-cuadrado Introducción a la Econometrı́a: regresión múltiple – 36 / 68 Predicción por intervalo Contenidos (n − k) · σ b2 ∼ χ2n−k , σ2 Introducción Especificación del modelo Estimación del modelo dividida a su vez entre sus grados de libertad, obteniendo la siguiente distribución t-Student: xt0 · βb − xt0 · β q ∼ tn−k . −1 t t σ b · x0 (X X) x0 Validación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Ejemplos A partir de esta distribución, el intervalo de confianza al nivel 1 − α para E[Y0 /x0 ] = xt0 · β es: q α ·σ b · xt0 (X t X)−1 x0 , · βb ± tn−k 1 − 2 donde tn−k 1 − α 2 es el punto de una distribución t de Student con n − k grados de libertad que deja a su izquierda una probabilidad 1 − α 2. xt0 Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 37 / 68 Contraste de Permanencia Estructural Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Al explotar el modelo mediante la predicción se está presuponiendo que la relación estimada se mantiene para la información no presente en la muestra observada. Para confirmar este aspecto, calcularemos el intervalo de confianza para Y dado x0 , de forma que si la nueva información pertenece a dicho intervalo, la estructura del modelo estimado permanecerá. Partiendo de que −1 2 t t b t b Y0 − Y0 = u0 − x0 β − β ∼ N 0, σ · 1 + x0 X X x0 , se llega de forma análoga a la anterior a la distribución Y0 − Yb0 q ∼ tn−k , −1 t t σ b · 1 + x0 (X X) x0 Ejemplos b0 = xt0 · βb. Por tanto, el intervalo de confianza al nivel 1 − α para Y0 es: donde Y xt0 Máster TCGE q α −1 b ·σ b · 1 + xt0 (X t X) x0 . · β ± tn−k 1 − 2 Introducción a la Econometrı́a: regresión múltiple – 38 / 68 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplos Ejemplo 1 Ejemplo 2 Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 39 / 68 Ejemplo 1 Contenidos A continuación vamos a realizar un análisis exhaustivo del modelo Introducción Especificación del modelo Estimación del modelo Yt = β1 + β2 · Xt2 + β3 · Xt3 + ut , a partir de las siguiente información muestral: Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Observación 1 2 3 4 5 6 7 8 Yt Xt2 Xt3 16 26 30 44 56 64 68 72 1 3 5 7 8 10 10 12 1 2 -1 3 -2 0 1 4 En primer lugar calcularemos la estimación por mı́nimos cuadrados ordinarios de los coeficientes de las variables a partir de la expresión Máster TCGE βb = X t X −1 X t y. (3) Introducción a la Econometrı́a: regresión múltiple – 40 / 68 Ejemplo 1 Contenidos A partir de la información muestral anterior es claro que: Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 de forma que: y= 16 26 30 44 56 64 68 72 , X= 8 56 8 X t X = 56 492 65 , 8 65 36 y entonces a partir de la fórmula (3): Máster TCGE 1 1 1 1 3 2 1 5 −1 1 7 3 , 1 8 −2 1 10 0 1 10 1 1 12 4 376 X t y = 3184 , 414 Introducción a la Econometrı́a: regresión múltiple – 41 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 −1 8 56 8 376 βb = 56 492 65 · 3184 8 65 36 414 376 0′ 62 −0′ 0688 −0′ 0136 = −0′ 0688 0′ 0103 −0′ 0033 · 3184 414 −0′ 0136 −0′ 0033 0′ 0368 ′ 8 5189 5′ 5587 . = −0′ 4296 b1 = 8′ 5189, βb2 = 5′ 5587 y βb3 = −0′ 4296. Lo cual se traduce en la Es decir, β siguiente estimación del modelo considerado: Ybt = 8′ 5189 + 5′ 5587Xt2 − 0′ 4296Xt3 . Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 42 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 A partir de estas estimaciones es sencillo obtener las estimaciones de Y : b yb = X β = 1 1 1 1 1 1 1 1 1 3 5 7 8 10 10 12 1 2 −1 3 −2 0 1 4 y los residuos del modelo: Máster TCGE e = y − yb = 16 26 30 44 56 64 68 72 ′ 8 5189 · 5′ 5587 = ′ −0 4296 − 13′ 6480 24′ 3358 36′ 7420 46′ 1410 53′ 8477 64′ 1059 63′ 6763 73′ 5049 = 13′ 6480 24′ 3358 36′ 7420 46′ 1410 53′ 8477 64′ 1059 63′ 6763 73′ 5049 2′ 3520 1′ 6642 −6′ 7420 −2′ 1410 2′ 1523 −0′ 1059 4′ 3237 −1′ 5049 , . Introducción a la Econometrı́a: regresión múltiple – 43 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Desde un punto de vista teórico, dichos residuos han de sumar cero, si bien en este caso la suma del vector anterior es igual a −0′ 0016. De igual forma, a partir de dichos residuos se puede obtener fácilmente la estimación de la varianza de la perturbación aleatoria, ya que por definición: Estimación del modelo Validación del modelo σ b2 = Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 et e , n−k (4) donde et e es la suma de los cuadrados de los residuos, n el número de observaciones del modelo y k el número de variables presentes en el mismo. En este caso: 83′ 8472 σ b = = 16′ 76944. 8−3 2 Otra forma equivalente de obtener la estimación anterior es: σ b2 = Máster TCGE y t y − βbt X t y . n−k (5) Introducción a la Econometrı́a: regresión múltiple – 44 / 68 Ejemplo 1 Contenidos Puesto que Introducción Especificación del modelo y t y = 20808, Estimación del modelo Validación del modelo es claro que 376 βbt X t y = (8′ 5189 5′ 5587 − 0′ 4296) 3184 = 20724′ 1528, 414 Explotación del modelo σ b2 = Ejemplos Ejemplo 1 Ejemplo 2 83′ 8472 20808 − 20724′ 1528 = = 16′ 76944. 8−3 5 Y a partir de esta estimación se puede obtener la estimación de la matriz de b mediante: varianzas-covarianzas de β \ V ar βb = = 0′ 62 −1 = 16′ 7694 · −0′ 0688 σ b2 · X t X −0′ 0136 10′ 3976 −1′ 1533 −0′ 2282 −1′ 1533 0′ 1727 −0′ 0555 , −0′ 2282 −0′ 0555 0′ 6168 Máster TCGE −0′ 0688 0′ 0103 −0′ 0033 −0′ 0136 −0′ 0033 0′ 0368 (6) Introducción a la Econometrı́a: regresión múltiple – 45 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo que será usada para calcular la región de rechazo de los contrastes de significación individual ası́ como para los intervalos de confianza de cada coeficiente de la regresión. Para medir la bondad del ajuste realizado mediante la estimación anterior calcularemos el coeficiente de determinación: Validación del modelo R2 = Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 y t y − βbt X t y βbt X t y − nY = 1 − . y t y − nY y t y − nY (7) Para la primera expresión de (7), teniendo en cuenta que: βbt X t y − nY = 20724′ 1528 − 8 · 472 = 20724′ 1528 − 17672 = 3052′ 1528, y t y − nY = 20808 − 17672 = 3136, se tiene que R2 = 3052′ 1528 = 0′ 97326301. 3136 2 Además, en tal caso: R = 1 − (1 − 0′ 97326301) · 57 = 0′ 9625682. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 46 / 68 Ejemplo 1 Contenidos Mientras que para la segunda expresión: Introducción R2 = 1 − Especificación del modelo 83′ 8472 = 1 − 0′ 02673699 = 0′ 97326301. 3136 Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 A partir de este coeficiente podemos afirmar que el ajuste realizado permite explicar un 97′ 326301 % de la variabilidad de la variable dependiente, que si bien se encuentra muy próximo al 100 %, más adelante comprobaremos si es significativo y, por tanto, si es suficiente para validar el modelo. Una vez estimadas las cantidades constantes del modelo, a continuación se estudiará la validez del mismo a partir de: contrastes de significación individual. contraste de significación conjunta. significación del coeficiente de determinación. Para abordar los contrastes de significación individual tendremos en cuenta que se rechaza H0 : βi = 0 si Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 47 / 68 Ejemplo 1 Contenidos texp Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 βb α i , = √ > tn−k 1 − σ b · wi 2 ∀i, −1 donde wi es el elemento (i, i) de la matriz (X t X) o, lo que es lo mismo, √ −1 b2 · (X t X) = σ b · wi es la raı́z cuadrada del elemento (i, i) de la matriz σ \ V ar βb . √ √ ′ 1727 = 0′ 4156 y σ 0 b · w3 = √ α ′ ′ 0′ 6168 = 0 7854. Teniendo en cuenta que tn−k 1 − 2 = t5 (0 975) = ′ 2 57, se obtiene que: Observando (6) es claro que σ b· √ w2 = ′ 5587 ′ ′ rechazo H0 : β2 = 0 si texp = 05′ 4156 ′ = 13 376 > 2 57. 4296 ′ ′ rechazo H0 : β3 = 0 si texp = −0 0′ 7854 = 0 547 > 2 57. Como es evidente, rechazamos H0 : β2 = 0 y no rechazamos H0 : β3 = 0, es decir, la variable Xt2 influye en Yt , mientras que la Xt3 no lo hace. En tal situación se dice que la segunda variable es significativa y que la tercera no es significativa. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 48 / 68 Ejemplo 1 Contenidos Introducción Para el contraste de significación conjunta, H0 : β2 = β3 = 0, se rechaza la hipótesis nula si Especificación del modelo Estimación del modelo Fexp = Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 SCE/k − 1 > Fk−1,n−k (1 − α), SCR/n − k donde Fk−1,n−k (1 − α) es el punto de una F de Snedecor con k − 1 y n − k grados de libertad que deja a su izquierda una probabilidad 1 − α, SCE denota a la suma de cuadrados explicada y SCR a la suma de los cuadrados de los residuos (cantidades que ya han sido calculadas con anterioridad al obtener el coeficiente de determinación). En este caso, para calcular la región de rechazo recurriremos a la tabla ANOVA: Fuentes de variación Explicada Residual Total Sumas de cuadrados ′ SCE = 3052 1528 SCR = 83′ 8472 SCT = 3136 Grados de libertad Medias k−1=2 n−k =8−3=5 1526′ 0764 16′ 76944 ′ 0764 ′ Luego Fexp = 1526 16′ 76944 = 91 00342. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 49 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Y como Fk−1,n−k (1 − α) = F2,5 (0′ 95) = 5′ 78, es evidente que se rechaza la hipótesis nula. Esto es, existe al menos un coeficiente que es no nulo de manera que entonces se puede afirmar que hay algún tipo de asociación (que no se debe al azar) entre las variables independientes y la dependiente. Para terminar con la validación del modelo, estuadiaremos si el coeficiente de determinación obtenido con anterioridad es significativo o no. Teniendo en cuenta que: R2 /k − 1 SCE/k − 1 = , SCR/n − k (1 − R2 )/n − k Ejemplos Ejemplo 1 Ejemplo 2 la región de rechazo anterior se puede expresar como: R2 /k − 1 > Fk−1,n−k (1 − α), (1 − R2 )/n − k y sin más que despejar el coeficiente de determinación, se obtiene que el modelo es significativo si 2 R > Máster TCGE 1 k−1 · Fk−1,n−k (1 − α) n−k k−1 + n−k · Fk−1,n−k (1 − α) 2 = Rsig . Introducción a la Econometrı́a: regresión múltiple – 50 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo 2 Esto es, se tiene una cota, Rsig , a partir de la cual el coeficiente de determinación es significativo. Puesto que en este caso: k−1 n−k = 2 = 0′ 4 5 Fk−1,n−k (1 − α) = F2,5 (0′ 95) = 5′ 78 ) Explotación del modelo 2 → Rsig = Ejemplos Ejemplo 1 Ejemplo 2 → k−1 n−k ′ ′ ′ · Fk−1,n−k (1 − α) = 0 4 · 5 78 = 2 312 2′ 312 = 0′ 6981. ′ 3 312 Recordemos que R2 = 0′ 97326301, que claramente es significativo al ser su2 perior a la cota inferior de significación Rsig = 0′ 6981. Esto es, el coeficiente de determinación obtenido implica que el modelo es explicativo. Por todo lo anterior, parece claro que el modelo es válido y, por tanto, apto para la predicción. Supongamos ahora que se tiene nueva información para las variables independientes (X02 = 2 y X03 = 3) y que se desea obtener una predicción puntual y por intervalo a partir de ella para la variable dependiente. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 51 / 68 Ejemplo 1 Contenidos A partir de dicha información, la predicción puntual óptima será 8′ 5189 xt0 βb = (1 2 3) · 5′ 5587 = 18′ 3475. −0′ 4296 Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Mientras que para la predicción por intervalo será necesario calcular: Ejemplos Ejemplo 1 Ejemplo 2 xt0 X t X −1 0′ 62 x0 = (1 2 3)· −0′ 0688 −0′ 0136 −0′ 0688 0′ 0103 −0′ 0033 −0′ 0136 1 −0′ 0033 2 = 0′ 596, 0′ 0368 3 de forma que el intervalo de confianza para el valor esperado de Y será: q α ·σ b · xt0 (X t X)−1 x0 1− 2 √ = 18′ 3475 ± 2′ 57 · 4′ 095051 · 0′ 596 = (10′ 221, 26′ 4742). xt0 βb ± tn−k y el intervalo de confianza para Y será: Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 52 / 68 Ejemplo 1 q α ·σ b · 1 + xt0 (X t X)−1 x0 1− 2 √ = 18′ 3475 ± 2′ 57 · 4′ 095051 · 1′ 596 = (5′ 04887, 31′ 64613). Contenidos xt0 βb ± tn−k Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Además, a partir de este último intervalo (conocido como permanencia estructural), si se sabe que acompañando a x0 se tiene Y0 = 6, puesto que este valor pertenece al intervalo calculado, se puede afirmar (al nivel de confianza considerado) que la relación estimada para las variables se sigue verificando (permanece la estructura) para la nueva información. Por último, con el objetivo de aplicar la estimación con información a priori al modelo considerado vamos contrastar la hipótesis nula H0 : β2 + β3 = 5. Ası́, en el caso de no rechazarla obtendremos el estimador por mı́nimos cuadrados restringidos. Como es sabido, se rechazará la hipótesis nula si Fexp Máster TCGE h i−1 t R (X t X)−1 Rt b b · Rβ − r > Fq,n−k (1 − α), = Rβ − r · q·σ b2 Introducción a la Econometrı́a: regresión múltiple – 53 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 donde Fq,n−k (1 − α) es el punto de una F de Snedecor con q y n − k grados de libertad que deja a su izquierda una probabilidad 1 − α. A partir de β2 + β3 = 5 se obtiene que q = 1, r = 5 y R = (0 1 1), de forma que 8′ 5189 Rβb − r = (0 1 1) · 5′ 5587 − 5 = 5′ 5587 − 0′ 4296 − 5 = 0′ 1291, −0′ 4296 0′ 62 −1 Rt = (0 1 1)· −0′ 0688 R X tX −0′ 0136 Y en tal caso: Fexp = Máster TCGE −0′ 0688 0′ 0103 −0′ 0033 −0′ 0136 0 −0′ 0033 · 1 = 0′ 0405. 0′ 0368 1 0′ 12912 = 0′ 02454025, 0′ 0405 · 16′ 76944 donde recordemos que σ b2 = 16′ 76944. Introducción a la Econometrı́a: regresión múltiple – 54 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Por otro lado, puesto que Fq,n−k (1 − α) = F1,5 (0′ 95) = 6′ 61, es evidente que no se rechaza la hipótesis nula, es decir, no rechazo que los coeficientes de las variables verifiquen la relación β2 + β3 = 5. En tal caso, habrá que incorporar dicha información al modelo con el fin de obtener un mejor estimador (cuando se dispone de información a priori el estimador por mı́nimos cuadrados ordinarios ya no es óptimo). En esta situación el estimador insesgado con mı́nima varianza es el de mı́nimos cuadrados restringidos, el cual responde a la siguiente expresión: Ejemplo 1 Ejemplo 2 βbR = βb + X t X −1 h −1 t i−1 t b R R X X R r − Rβ . t (8) De la expresión anterior se conoce: 8′ 5189 βb = 5′ 5587 , −0′ 4296 h R X tX −1 Rt i−1 = 1 , 0′ 0405 faltando calcular Máster TCGE r−Rβb = −0′ 1291, Introducción a la Econometrı́a: regresión múltiple – 55 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 ′ ′ ′ 0 62 −0 0688 −0 0136 0 −1 t t ′ ′ ′ −0 0688 0 0103 −0 0033 1 = R = X X · ′ ′ ′ −0 0136 −0 0033 0 0368 1 −0′ 0824 = 0′ 007 . 0′ 0335 Entonces, a partir de (8) se obtiene que: −0′ 0824 8′ 5189 8′ 781563 ′ 0 1291 0′ 007 = 5′ 536386 . · βbR = 5′ 5587 − ′ 0 0405 0′ 0335 −0′ 4296 −0′ 5363864 A partir de esta estimación es fácil comprobar que se obtiene: etR eR = 84′ 35455, 2 RR = 0′ 9731012, 2 σ bR = 14′ 05909, 2 < R2 . verificándose, como es sabido, que etR eR > et e y RR Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 56 / 68 Ejemplo 2 Contenidos Dado el modelo Introducción Yt = β1 + β2 Xt2 + β3 Xt3 + β4 Xt4 + ut , Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 (9) donde: Y es el consumo familiar mensual (medido en miles de euros). X2 es la renta familiar mensual (medida en miles de euros). X3 es una variable ficticia que toma el valor 1 si la familia correspondiente tiene una deuda en forma de un préstamo para la compra de una vivienda o coche, y el valor 0 en caso contrario. X4 es el número de hijos de una familia. Se pide analizar el modelo sabiendo que para 22 familias se ha obtenido que: y t y = 131′ 13, Máster TCGE 48′ 5 204′ 45 X ty = 37′ 9 , 69′ 3 Introducción a la Econometrı́a: regresión múltiple – 57 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo X tX Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Máster TCGE −1 0′ 3342 −0′ 0506 −0′ 1626 0′ 0041 −0′ 0506 0′ 0173 0′ 0051 −0′ 0114 . = −0′ 1626 0′ 0051 0′ 249 −0′ 0317 0′ 0041 −0′ 0114 −0′ 0317 0′ 0514 En primer lugar obtendremos la estimación de las cantidades constantes del modelo, es decir, de β y σ 2 : 48′ 5 0′ 3342 −0′ 0506 −0′ 1626 0′ 0041 204′ 45 −0′ 0506 0′ 0173 0′ 0051 −0′ 0114 b · β = −0′ 1626 0′ 0051 0′ 249 −0′ 0317 37′ 9 69′ 3 0′ 0041 −0′ 0114 −0′ 0317 0′ 0514 −0′ 0149 0′ 4862 = (10) 0′ 3969 , 0′ 2287 131′ 13 − 129′ 5643 1′ 5657 y t y − βbt X t y 2 = = = 0′ 087, (11) σ b = n−k 22 − 4 18 Introducción a la Econometrı́a: regresión múltiple – 58 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 donde se ha usado que 48′ 5 204′ 45 ′ βbt X t y = (−0′ 0149 0′ 4862 0′ 3969 0′ 2287) · 37′ 9 = 129 5643, 69′ 3 y se deduce que σ b = 0′ 2949 y Ybt = −0′ 0149 + 0′ 4862 · X2t + 0′ 3969 · X3t + 0′ 2287 · X4t . Además, a partir de la estimación de σ 2 se obtiene una estimación para la matriz b: de varianzas-covarianzas de β −1 \ V ar βb = σ b2 X t X 0′ 0291 −0′ 0044 = −0′ 0141 0′ 0004 Máster TCGE −0′ 0044 0′ 0015 0′ 0004 −0′ 001 −0′ 0141 0′ 0004 0′ 0217 −0′ 0028 0′ 0004 −0′ 001 . −0′ 0028 0′ 0045 Introducción a la Econometrı́a: regresión múltiple – 59 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo Esta matriz tiene importancia de cara a los contrastes de significación individual ya que entonces se usaran sus elementos de la diagonal principal. Pasamos a continuación a calcular la bondad del ajuste realizado, es decir, el coeficiente de determinación: Estimación del modelo R2 = 1 − Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 SCR . SCT Como SCR = 1′ 5657 ya ha sido calculada en la estimación de la varianza de la perturbación aleatoria, tan sólo hay que calcular: Ejemplo 2 2 SCT = y t y − nY = 131′ 13 − 22 · 2′ 20452 = 131′ 13 − 106′ 916 = 24′ 214, t donde se ha usado que a partir del primer elemento de X y , esto es, 48′ 5, se obtiene que Y = 48′ 5 22 22 P Yt = i=1 = 2′ 2045. En tal caso: 1′ 5657 = 1 − 0′ 0647 = 0′ 9353, R =1− ′ 24 214 2 Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 60 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo esto es, la estimación realizada explica un 93’53 % de la variabilidad de Y . Ahora bien, como es sabido, cuanto más cercano al 100 % mejor será el coeficiente de determinación y, por tanto, la estimación realizada. ¿Está en este caso suficientemente cerca del 100 % como para que la estimación realizada sea significativa? Como respuesta afirmativa a esta pregunta, el coeficiente de determinación ha de ser superior a la siguiente cota: Ejemplos Ejemplo 1 Ejemplo 2 1 k−1 n−k · Fk−1,n−k (1 − α) k−1 + n−k · Fk−1,n−k (1 − α) 3 18 · 3′ 15991 0′ 5267 = 0′ 345, = = ′ 3 ′ 1 5267 1 + 18 · 3 15991 donde se ha usado que F3,18 (0′ 95) = 3′ 15991. Puesto que el R2 obtenido es superior a dicha cota inferior podemos afirmar que el coeficiente de determinación es significativo, es decir, valida al modelo. Esta validación del modelo se puede establecer también a partir del contraste de significación conjunta. Bajo el supuesto de normalidad en el modelo rechazaremos H0 : β2 = β3 = β4 = 0 si Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 61 / 68 Ejemplo 2 Contenidos SCE k−1 SCR n−k Introducción Especificación del modelo Estimación del modelo > Fk−1,n−k (1 − α). Para calcular la región de rechazo y tomar una decisión en este contraste planteamos la tabla ANOVA: Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Fuentes de variación Explicada No explicada Total Sumas de cuadrados Grados de libertad Medias SCE = 22′ 6483 SCR = 1′ 5657 SCT = 24′ 214 k−1=3 n − k = 18 SCE = 7′ 5494 k−1 SCR = 0′ 087 n−k El único elemento no calculado hasta el momento de la tabla anterior es SCE = SCT − SCR = 24′ 214 − 1′ 5657 = 22′ 6483. En tal caso, se tiene para la región de rechazo que: 86′ 7747 > 3′ 15991, Máster TCGE de forma que es evidente que se rechaza la hipótesis nula de que todos los coeficientes pueden ser nulos de forma simultánea. Por tanto, se tiene que la relación existente entre las variables independientes y la dependiente no se debe al azar, validando el modelo. Introducción a la Econometrı́a: regresión múltiple – 62 / 68 Ejemplo 2 Contenidos Introducción Para finalizar estudiaremos los contrastes de significación individual. Como es sabido se rechazará la hipótesis H0 : βi = 0 si βb α i , √ > tn−k 1 − σ b wii 2 Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 \ √ donde σ b wii es la raı́z cuadrada del elemento (i, i) de la matriz V ar βb y tn−k 1 − α2 = t18 (0′ 975) = 2′ 10092. H0 : β 2 = 0 √ σ b w22 βb2√= 0′ 4862 = 0′ 0015 = 0′ 0387 =⇒ =⇒ H0 : β 3 = 0 √ Máster TCGE σ b w33 βb3√= 0′ 3969 = 0′ 0217 = 0′ 1473 βb2 = 12′ 5633 > 2′ 10092. √ σ b w22 βb3 = 2′ 6945 > 2′ 10092. √ σ b w33 Introducción a la Econometrı́a: regresión múltiple – 63 / 68 Ejemplo 2 Contenidos H0 : β 4 = 0 Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 √ σ b w44 βb4√= 0′ 2287 = 0′ 0045 = 0′ 0671 βb4 =⇒ √ = 3′ 4083 > 2′ 10092. σ b w44 En todos los casos se rechaza la hipótesis nula, lo que se interpreta como que las variables X2 , X3 y X4 son significativas. Como es sabido, para llegar a estas conclusiones también se podrı́an haber obtenido los intervalos de confianza de cada coeficiente: √ α b ·σ b · wii , βi ± tn−k 1 − 2 i = 1, 2, 3, 4. Ası́ por ejemplo, para el último coeficiente se tiene que el intervalo de confianza al 95 % es: 0′ 2287 ± 2′ 10092 · 0′ 0671 = (0′ 08772827, 0′ 3696717). Como el cero no pertenece a dicho intervalo se concluirá que el coeficiente correspondiente será distinto de cero. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 64 / 68 Ejemplo 2 Contenidos El intervalo de confianza al 95 % para el segundo coeficiente es: Introducción 0′ 4862 ± 2′ 10092 · 0′ 0387 = (0′ 4048944, 0′ 5675056). Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Al igual que antes se concluirá que el coeficiente correspondiente será distinto de cero. Para finalizar con el cálculo de intervalos de confianza, obtendremos a continuación el intervalo para la varianza de la perturbación aleatoria: " (n − k) · σ b2 (n − k) · σ b2 , χ2n−k 1 − α2 χ2n−k α2 # " # SCR SCR , 2 . = χ2n−k 1 − α2 χn−k α2 Puesto que SCR = 1′ 56574, χ2n−k 1 − α = χ218 (0′ 975) = 31′ 526 y 2 χ2n−k α2 = χ218 (0′ 025) = 8′ 231 es claro que el intervalo para σ 2 es: Máster TCGE 1′ 56574 1′ 56574 , 31′ 526 8′ 231 = (0′ 04966504, 0′ 1902248) . Introducción a la Econometrı́a: regresión múltiple – 65 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Por todo lo expuesto hasta ahora se tiene que el modelo estimado es válido y que las variables de renta familiar, deuda y número de hijos influyen positivamente en el consumo de las familias. Es decir, a mayor renta, deuda y número de hijos mayor consumo familiar. Además, al ser la variable correspondiente a la deuda una variable ficticia, habremos estimado la diferencia esperada en el consumo familiar entre familias con deuda y sin deuda con el mismo nivel de renta y número de hijos. En este caso se obtiene que dicha estimación es positiva, por lo que aquellas familias que tienen algún tipo de deuda consumen más que aquellas que no la tienen. Ejemplo 2 Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 66 / 68 Lecturas recomendadas Contenidos [1] Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Presentación de la edición española de Johnston, J. (1989). Métodos de Econometrı́a. Ed. Vicens-Vives por A.G. Barbancho. [2] Gómez, S. y Salmerón, R. (2011). Influencia del entorno institucional en el desarrollo del emprendimiento español. Un análisis empı́rico. Revista Venezolana de Gerencia, Volumen 16, Número 54, Páginas 191-208. [3] Novales, A. (1993). Econometrı́a. McGraw Hill. Capı́tulo 1 (repaso matrices). Ejemplos Ejemplo 1 Ejemplo 2 [4] Portillo, F. (2006). Introducción a la Econometrı́a. Logroño: autoedición. [5] Salmerón, R. y Tamayo, J. (2010). Técnicas cuantitativas aplicadas al análisis de la flexibilidad en la producción, la explotación y la exploración en las empresas. Revista Estadı́stica Española, Volumen 52, Número 175, Páginas 529-567. [6] Salmerón, R. y Gómez, S. (2012). Relación entre los factores institucionales y el emprendimiento: análisis mediante técnicas cuantitativas. Revista de Métodos Cuantitativos para la Economı́a y la Empresa, Número 13, Páginas 54-72. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 67 / 68 Bibliografia Contenidos Especificación del modelo [1] Esteban, M.V., Moral, M.P., Orbe, S., Regúlez, M., Zarraga, A. y Zubia, M. (2009). Econometrı́a básica aplicada con Gretl. Sarriko-On, Universidad del Paı́s Vasco. Estimación del modelo [2] Gujarati, D. (1997). Econometrı́a. Ed. McGraw Hill. Introducción Validación del modelo [3] Johnston, J. (1989). Métodos de Econometrı́a. Ed. Vicens-Vives. Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 [4] Matilla, M., Pérez, P. y Sanz, B. (2013). Econometrı́a y predicción. Ed. MacGraw Hill. [5] Novales, A. (1993). Econometrı́a. McGraw Hill. [6] Uriel, E., Contreras, D., Moltó, M.L. y Peiró, A. (1990). Econometrı́a. El Modelo Lineal. Ed. AC. [7] Máster TCGE Wooldridge, J.M. (2005). Introducción a la Econometrı́a: Un enfoque moderno. Ed. Thomson. Introducción a la Econometrı́a: regresión múltiple – 68 / 68 El Modelo Lineal Román Salmerón http://www.ugr.es/ romansg/ romansg@ugr.es 1. Especificación del Modelo Lineal Estudio de una variable dependiente a partir de k variables independientes (con constante) a partir de n observaciones. E[un×1] = 0n×1 ( ya que E[ut] = 0 ∀t ) 2 V ar(un×1) = σ · Idn×n ,→ V ar(ut) = σ 2 ∀t, Cov(ut, us) = 0, ∀t 6= s yn×1 = Xn×k · βk×1 + un×1 X no aleatoria con rg(X) = k ,→ Xi, i = 1, . . . , k, linealmente independientes X y u incorrelados β1 u1 Y1 1 X12 X13 · · · X1k β2 u2 Y2 1 X22 X23 · · · X2k y= .. .. = (i X2 · · · Xk ) , β = .. , u = .. . .. , X = .. .. Yn 1 Xn2 Xn3 · · · Xnk βk un 2. Estimación del Modelo Lineal Estimación de las constantes del modelo. −1cantidades ] βb = X tX X ty estimador por MCO de β a T Gauss-Markov: βb es un estimador lineal, insesgado y óptimo (mı́nima varianza) b = σ 2 · X tX −1 V ar(β) n P Consecuencias estimación MCO: it · e = et = 0, X t · e = 0, Y = Yb , ybt · e = 0. t=1 −1 ete estimador insesgado de σ 2 (ete es la SCR) ⇒ V\ b =σ ]σ b2 = n−k ar(β) b2 · X tX βbtX ty σ b2 = y y− n−k t 3. Validación del Modelo Lineal Herramientas para determinar si la estimación realizada es o no válida. ] Coeficiente de determinación (R2): porcentaje de variabilidad explicada por el ajuste (estimación) realizado del modelo. 2 t βbtX ty βbtX ty−nY SCR 2 R2 = SCE = 1 − y y− 2 2 SCT = 1 − SCT ⇒ R = t t y y−nY y y−nY Siempre que el modelo tenga constante: 0 ≤ R2 ≤ 1. Cuanto más próximo a 1 mejor será el ajuste. El coeficiente de determinación será significativo (es decir, validará el modelo) siempre que sea superior a la siguiente cota: k−1 n−k · Fk−1,n−k (1 − α) k−1 · F 1 + n−k k−1,n−k (1 − α) . 2 n−1 . Coeficiente de determinación corregido: R = 1 − (1 − R2) · n−k ] Distribuciones: h i t −1 −1 t −1 βb ∼ N β, σ 2 · X tX → Rβb − Rβ · R · X tX ·R · Rβb − Rβ ∼ χ2 q h ↓ i−1 t R·(X tX) ·Rt (n−k)·b σ2 ∼ χ2n−k → Rβb − Rβ · · Rβb − Rβ ∼ Fq,n−k σ2 q·b σ2 ] Contrastes de hipótesis: i h t R·(X tX)−1·Rt −1 Rechazo H0 : Rβ = r si Rβb − r · · Rβb − r > Fq,n−k (1 − α). 2 q·b σ βb −b −1 α t i i Rechazo H0 : βi = bi si σb√ . w > tn−k 1 − 2 , wi elemento (i, i) de X X −1 i ] Análisis de la varianza (ANOVA): SCE R2 n−k n−k k−1 Rechazo H0 : β2 = β3 = · · · = βk = 0 si SCR = k−12 > Fk−1,n−k (1 − α). 1−R ] Intervalos de confianza: t h −1 ti−1 Para Rβ: Rβb − r · R · X tX ·R · Rβb − r ≤ q · σ b2 · Fq,n−k (1 − α). √ α ·σ w . Para βi: βb ± t 1 − b · n−k 2 i i (n−k)·b σ 2 (n−k)·b σ2 Para σ 2: 2 , = 2 SCR α , SCR . χn−k (1− α2 ) χ2n−k ( α2 ) χn−k (1− 2 ) χ2n−k ( α2 ) 4. Explotación del Modelo Lineal ¿Qué ocurre para nueva información recogida en x0? b ] Predictor puntual: p0 = xt · β. 0 ,→ lineal, insesgado (E[p0] = xt0 · β) y óptimo (mı́nima varianza). ] Predictor por intervalo: q Para el valor esperado: xt0 · βb ± tn−k 1 − α2 · σ b · xt0 · (X tX)−1 · x0. q b · 1 + xt0 · (X tX)−1 · x0. Para la permanencia estructural: xt0 · βb ± tn−k 1 − α2 · σ 5. Estimación con información a priori ¿Cómo estimar β sabiendo que verifica que R · β = r (q restricciones)? ] Mı́nimos Cuadrados Restringidos −1 t h −1 ti−1 βbR = βb + X t · X · R · R · Xt · X ·R · r − R · βb . ,→ insesgado (siempre que r = R · β) y óptimo V ar βbR ≤ V ar βb . ] Consecuencias: 2 ≤ R2 . RR SCR = ete ≤ etReR = SCRR. et e 2 = R R . σ bR n−k+q (et eR−ete)/q Rechazamos H0 : R · β = r si eRte/(n−k) > Fq,n−k (1 − α). El Modelo Lineal Econometrı́a Ejercicios propuestos Román Salmerón Gómez 1. En la siguiente tabla se tienen los datos de los 6 primeros clasificados de la primera división de fútbol española: Equipo Real Madrid Barcelona Valencia Málaga Atlético de Madrid Levante P 100 91 61 58 56 55 PG 32 28 17 17 15 16 PE 4 7 10 7 11 7 PP 2 3 11 14 12 15 GF 121 114 59 54 53 54 GC 32 29 44 53 46 50 donde P son los puntos conseguidos, P G, P E y P P los partidos ganados, empatados y perdidos y, finalmente, GF y GC son los goles a favor y en contra recibidos. Dado el modelo Pt = β1 + β2 GFt + β3 GCt + ut , se pide: a) Obtener la estimación de los coeficientes de las variables del modelo. b) Estimar la varianza de la perturbación aleatoria. c) Interpretar los coeficientes de las variables significativas. d) Obtener el coeficiente de determinación y estudiar si el modelo es significativo globalmente a partir del mismo. e) Comprueba que la hipótesis β2 − 3β3 = 0 es cierta. ¿Qué deberı́as hacer con esta nueva información? 2. Teniendo en cuenta los datos del ejercicio anterior y el siguiente modelo econométrico: Pt = β1 + β2 DPt + β3 DGt + ut , donde DP = P G − P P y DG = GF − GC, se pide: a) Obtener la estimación de los parámetros desconocidos del modelo. b) ¿Influye la diferencia de goles en los puntos obtenidos? (usa un intervalo de confianza para responder a esta pregunta). c) Interpretar el coeficiente de la variable DP . d) Obtener el coeficiente de determinación corregido. e) Estudiar si el modelo es conjuntamente significativo. f) ¿Qué puntuación obtendrı́a un equipo con DP = 15 y DG = 6? Con dichos datos, ¿a qué intervalo pertenecerı́a la puntuación esperada? 3. En la asignatura Econometrı́a de LADE del curso académico 2011/2012 se realizó un examen final en el que el alumno debı́a anotar la calificación que esperaba obtener y podı́a elegir antre dos opciones. En la siguiente tabla se tiene la información de 8 alumnos correspondiente a las variables CO, calificación obtenida, CE, calificación esperada y OE, opción elegida (1 opción A y 0 opción B): 1 Alumno Abelardo Sergio Sonia Rodolfo Sofia Gertrudis Javier Elena CO 8’55 7’5 7’475 7’45 2’8 6’125 6’7 7’425 CE 9’5 8’5 7’5 7 4’5 6 3’7 6’5 OE 1 1 0 0 1 1 0 1 Dado el modelo COt = β1 + β2 CEt + β3 OEt + ut , se pide: a) Obtener la estimación de los parámetros desconocidos del modelo. b) Obtener un intervalo de confianza para la variable CE y para la perturbación aleatoria. c) Estudiar si el modelo es significativo de forma conjunta. d) Obtener el coeficiente de determinación y estudiar si el modelo es significativo globalmente a partir del mismo. e) Obtener el coeficiente de determinación corregido. f) Obtener el intervalo de predicción para la calificación obtenida de un alumno con una calificación esperada de 7 y que haya elegido la opción A. ¿Cuál serı́a el intervalo para la calificación obtenida media? g) Contrasta la hipótesis H0 : β1 − β3 = 1. h) ¿Es cierto que 2β2 − β3 = 0? 4. En la siguiente tabla se tiene el número de unidades (en miles) de ciclomotores producidos, U P , en los años 2006 al 2011 ası́ como el valor de la producción (en millones de euros) de cada año, V : Año 2006 2007 2008 2009 2010 2011 V 168’8 169’9 138’8 81’6 67’9 50’4 UP 111’4 111’8 97’9 54’9 52’5 38’6 Considerando el modelo Vt = β1 + β2 U Pt + ut , se pide: a) Obtener la estimación de los parámetros desconocidos del modelo. b) Realizar los contrastes de significación individual (de la variable U P ) y conjunta. ¿Qué ocurre al existir una única variable independiente? c) Obtener el coeficiente de determinación y estudiar si el modelo es significativo globalmente a partir del mismo. d) Obtener los intervalos de confianza para los parámetros desconocidos del modelo. 5. Consideremos el modelo P Gt = β1 + β2 P BBt + ut , donde P G es el precio del gasoil (en euros/litro) y P BB es el precio del barril de Brent (en dólares/barril) para los meses de enero a julio del año 2012. A partir de los siguientes datos: 2 Mes Enero Febrero Marzo Abril Mayo Junio Julio PG 1’334 1’364 1’399 1’372 1’35 1’3 1’378 PBB 111 119’71 128’14 118 110’52 95’59 103’57 Se pide: a) Obtener la estimación de los coeficientes de las variables del modelo. b) Estimar la varianza de la perturbación aleatoria. c) Interpretar el coeficiente de la variable P BB. d) Obtener el coeficiente de determinación corregido. e) Estudiar la significación conjunta del modelo. f) ¿Entre qué valores se encontrará el precio del gasoil si P BB = 100? ¿Y el precio esperado?. 6. El gerente de cierta empresa que se dedica a la venta de vino tiene delegaciones en 6 provincias del norte de España. Puesto que se está planteando ampliar mercado abriendo nuevas delegaciones ha recabado la siguiente información: Provincia León Cantabria Madrid Segovia Zamora La Rioja AV 100 120 135 98 80 120 C 4 5 5 3 2 4 P 0 0 0 1 1 1 donde AV es el número de artı́culos (botellas de vino) vendidas (en miles), C es el número de comerciales de los que dispone la delegación y P es una variable que toma el valor 1 si se ha realizado campaña publicitaria en dicha provincia y el valor 0 en caso contrario. Considerando el modelo AVt = β1 + β2 Ct + β3 Pt + ut , se pide: a) Obtener la estimación de las cantidades desconocidas del modelo. b) ¿Influye el número de comerciales en el número de artı́culos vendidos? ¿Y el haber realizado o no publicidad? c) Interpretar el coeficiente de las variables. d) Estudiar la significación conjunta del modelo. e) Contrastar H0 : β2 − β3 = 4. f) ¿Entre qué valores máximos y mı́nimos se encontrarı́a el número de artı́culos vendidos si en la nueva delegación se disponen de 4 comerciales y se realiza campaña publicitaria? 3 Soluciones 90 7225 1. a) βb = 00 6744 . 00 2196 b) (1’5692, 67’9788). c) texp = 70 3398 > 30 1824 = t3 (00 975) → la variable GF es significativa (es decir, sus variaciones influyen en los puntos conseguidos). texp = 00 7175 6> 30 1824 = t3 (00 975) → la variable GC no es significativa (es decir, sus variaciones no influyen en los puntos conseguidos). Si aumentan los goles a favor aumentan los puntos conseguidos, más concretamente, por cada gol a favor los puntos conseguidos aumentan en 0’6744. 2 d) R2 = 00 9926 > 00 8642 = Rsig → el modelo es significativo conjuntamente. e) Fexp = 00 00034 6> 100 1279 = F1,3 (00 95) → no rechazo la hipótesis nula (por lo que deberı́a incorporar lanueva información al modelo mediante los mı́nimos cuadrados restringidos). 0 52 2253 2. a) βb = 10 7603 y σ b2 = 10 3193. 0 −0 059 b) (−00 3875, 00 2675) → como el cero pertenece al intervalo de confianza del coeficiente de DG, dicha variable no influye en los puntos obtenidos. c) Conforme aumenta la diferencia de partidos aumentan los puntos obtenidos, más concretamente, por cada unidad que aumenta la diferencia de partidos los puntos obtenidos lo hacen en 1’7603). 2 d) R = 00 9966. e) Fexp = 7510 4578 > 90 5521 = F2,3 (00 95) → el modelo es significativo comjuntamente. f) P LIO = 780 27058, (65’2588, 91’2823). 0 2 8553 b2 = 10 529508. 3. a) βb = 00 7175 y σ −10 398 b) CE ∈ (00 07558, 10 3594) y σ 2 ∈ (00 5959, 90 2004). c) texp = 10 7049 6> 20 5705 = t5 (00 975) → término independiente no significativo. texp = 20 87327 6> 20 5705 = t5 (00 975) → la variable CE es significativa (es decir, conforme aumenta la calificación esperada lo hace la obtenida, más concretamente, por cada punto que aumenta CE, CO lo hace en 0’7175). texp = 10 4987 6> 20 5705 = t5 (00 975) → variable OE no significativa (lo cual es bueno?). d) Fexp = 40 4529 < 50 7861 = F2,5 (00 95) → el modelo no es significativo. 2 e) R2 = 00 6404 6> 00 6982 = Rsig → el modelo no es significativo conjuntamente. 2 f) R = 00 4966. g) (2’9974, 9’9625) y (5’058, 7’9017). h) Fexp = 20 6537 6> 60 6078 = F1,5 (00 95) → no rechazo la hipótesis nula. i) Fexp = 50 9351 6> 60 6078 = F1,5 (00 95) → no rechazo la hipótesis nula. −110 7898 b 4. a) β = yσ b2 = 240 3672. 10 6008 4 b) texp = 230 8086 > 20 7764 = t4 (00 975) → variable U P es significativa. Fexp = 5660 852 > 70 086 = F1,4 (00 95) → el modelo es significativo conjuntamente. En este caso los dos contrastes realizados coinciden, tienen la misma hipótesis nula y alternativa. 2 c) R2 = 00 9929 > 00 6583 = Rsig → el modelo es significativo conjuntamente. d) β1 ∈ (−270 3625, 30 78304), β2 ∈ (10 4141, 10 7874) y β3 ∈ (80 7468, 2010 2082). 0 1 097 b 5. a) β = . 00 0023 b) (0’0002006, 0’00309). c) texp = 110 3265 6> 20 5705 = t5 (00 975) → el término independiente es significativo (si el precio del barril de Brent fuese de 0 dólares, el gasoil tendrı́a un precio de 1’097 euros por litro). texp = 20 6912 6> 20 5705 = t5 (00 975) → la variable P BB es significativa (es decir, conforme aumenta el precio del barril de Brent lo hace el precio del gasoil). d) Un aumento de un dólar en el precio del barril de Brent supone un aumento de 0’0023 euros en el precio del gasoil. 2 e) R = 00 5099. f) Fexp = 70 2428 > 60 6078 = F1,5 (00 95) → el modelo es significativo conjuntamente. g) (1’26007, 1’3962) y (1’29306, 1’3632). 160 25 b2 = 470 7638. 6. a) βb = 210 875 y σ 0 17 4583 b) texp = 50 1687 > 30 1824 = t3 (00 975) → la variable C es significativa, luego influye en el número de botellas vendidas. texp = 10 9327 6> 30 1824 = t5 (00 975) → la variable P no es significativa, luego no influye en el número de botellas vendidas c) Al aumentar el número de comerciales también lo hace el número de botellas de vino vendidas, más concretamente, por cada comercial nuevo en la plantilla se venden 21875 botellas más. d) Fexp = 190 0263 > 90 55209 = F2,3 (00 95) → el modelo es significativo conjuntamente. e) Fexp = 00 0043 6> 100 1279 = F2,3 (00 95) → no se rechaza la hipótesis nula. f) (92’46102, 149’9556). Nota: todos los contrastes de hipótesis e intervalos de confianza han sido realizados, según corresponda, a un 5 % de significación o a un 95 % de confianza. 5 Ejercicios de ordenador con Gretl Román Salmerón Gómez Realiza un análisis econométrico completo de los siguientes modelos. 1. En el archivo Ejercicio1.gdt se tienen los datos correspondientes a la clasificación histórica de la primera división del fútbol español. Para los 59 equipos que han participado en ella hasta ahora, analiza el siguiente modelo econométrico: Pt = β1 + β2 P Gt + β3 P Et + β4 P Pt + β5 GFt + β6 GCt + ut , donde P son los puntos conseguidos por temporada de cada equipo, P G, P E y P P los partidos ganados, empatados y perdidos por temporada y, finalmente, GF y GC son los goles a favor y en contra recibidos por temporada de cada equipo. ¿Tiene sentido que haya término independiente en este modelo? 2. En el archivo Ejercicio2.gdt se tienen datos correspondientes a 47 alumnos que cursaron la asignatura Técnicas Cuantitativas 2 en el curso académico 2011/2012. Para dichos alumnos se dispone de las siguientes variables: CO es la calificación obtenida en el examen final de la asignatura. N E es la calificación esperada en el examen tras realizar el mismo. OE es la opción elegida en el examen final. Puesto que el examen estaba formado por dos modelos, se ha codificado con 1 al modelo A y con 0 al modelo B. G toma el valor 1 si el alumno en cuestión pertenece al doble grado en ADE-Derecho y 0 si pertenece al de Economı́a. Se pide analizar el modelo COt = β1 + β2 N Et + β3 OEt + β4 Gt + ut . 3. En el archivo Ejercicio3.gdt se tienen datos correspondientes a 47 alumnos que cursaron la asignatura Técnicas Cuantitativas 2 en el curso académico 2011/2012. En dicho curso académico se realizó una evaluación continua en el que el 30 % de la calificación final estaba formado por un ejercicio a resolver en pizarra, otro en ordenador y distintos exámenes tipo test al final de cada tema. Por tanto, se dispone de las siguientes variables: CO es la calificación obtenida en el examen final de la asignatura. EC es la calificación obtenida en el ejercicio realizado en clase. EO es la calificación obtenida en el ejercicio realizado con ordenador. T T es la calificación obtenida en los exámenes tipo test realizados. Se pide analizar el modelo COt = β1 + β2 ECt + β3 EOt + β4 T Tt + ut . 4. En el archivo Ejercicio4.gdt se tiene el número de unidades de turismos fabricados, U F , en España desde 1994 hasta 2011 y el valor de la producción anual, V P (en miles de euros). Se pide analizar el modelo V Pt = β1 + β2 U Ft + ut . 1 5. En el archivo Ejercicio5.gdt se tienen los datos (desde hasta) correpondientes al precio del gasóleo (en euros/litro), G, y del barril de Brent (en dólares/barril), BB . Se pide analizar el modelo que analiza el precio del gasóleo a partir del precio del barril de Brent. 6. En el archivo Ejercicio6.gdt se tienen los datos sobre renta, R, y consumo, C, mensual de 22 familias. También se dispone de información sobre el número de hijos de cada familia, H, y de si las familias tienen algún préstamo con cuantı́a superior a los 400 euros mensuales, D. Ésta variable tomará el valor 1 en caso afirmativo y 0 en el negativo. Se pide analizar el modelo Ct = β1 + β2 Rt + β3 Dt + β4 Ht + ut . 7. En el archivo Ejercicio7.gdt se tienen los salarios de un grupo de 177 individuos en el año 1990. Para cada uno de ellos se tiene información de su salario anual, S (medido en miles de dólares), de las ventas de la empresa en la que trabaja, V , y beneficios, B (medidos ambos en millones de dólares), y de los años que lleva trabajando en la empresa, A. Se pide analizar el modelo St = β1 +β2 Vt +β3 Bt +β4 At +ut . 8. En el archivo Ejercicio8.gdt se tienen datos anuales, desde 1976 a 2009, relativos al conjunto de importaciones de España, al producto interior bruto y a la inversión. Se pide analizar el modelo que explica el comportamiento de las importaciones como función del producto interior bruto y de la inversión. 9. En el archivo Ejercicio9.gdt se tienen series (desde 1970 hasta 2010) sobre el consumo de energı́a per cápita de la economı́a española, C, la renta per cápita, R, y la temperatura media para el año correspondiente, T . Se pide analizar el modelo Ct = β1 + β2 Rt + β3 Tt + ut . 10. En el archivo Ejercicio10.gdt se tienen los dividendos, D, repartidos por un conjunto de 100 empresas de un mismo sector, el ratio de endeudamiento a corto plazo, EC, el ratio de endeudamiento a largo plazo, EL, y las ventas medias diarias, V . Se pide analizar el modelo Dt = β1 + β2 ECt + β3 ELt + β4 Vt + ut . 11. En el archivo Ejercicio11.gdt se tiene la siguiente información sobre 935 personas: S es el salario mensual (en euros). E es la edad (en años). R es la raza (0 blanco, 1 no blanco). H es el número de horas de trabajo semanales. C es el esatdo civil (1 casado, 0 caso contrario). Se pide analizar el modelo St = β1 + β2 Et + β3 Rt + β4 Ht + +β5 Ct + ut . 12. En el archivo Ejercicio12.gdt se tiene información sobre el número total de hipotecas concedidas por trimestres en España, H, sobre la tasa de desempleo promedio en cada trimestre y del euribor promedio trimestral (desde el primer trimestre del año 2003 al segundo trimestre del año 2011). Se pide analizar el modelo que trata de explicar el número total de hipotecas concedidas a partir de la tasa de desempleo y el euribor. 13. En el archivo Ejercicio13.gdt se tiene, desde el primer trimestre del año 2003 al segundo trimestre del año 2011, la tasa de desempleo, P , y de ocupación hotelera, O, trimestral. Se pide analizar el modelo que analiza la tasa de ocupación hotelera apartir de la tasa de paro. Nota: los archivos de Gretl quı́ referenciados los puedes encontrar en la dirección web http://www.ugr.es/local/romansg/material/WebEco/index.html 2 El Modelo Lineal General mediante GRETL Estimación y validación de un modelo uniecuacional múltiple Román Salmerón Gómez Índice 1. Introducción 1 2. Algunas cuestiones básicas de Gretl 3 2.1. Descarga e instalación de Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2. Introducción de datos en Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.1. Introducción de los datos directamente . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.2. Recuperar los datos de otros formatos . . . . . . . . . . . . . . . . . . . . . . . 7 3. Estimación y validación de un modelo uniecuacional múltiple 1. 11 3.1. Estimación de las cantidades constantes del modelo. Bondad del ajuste realizado . . . 11 3.2. Análisis de los errores/residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3. Contrastes de significación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . 20 3.4. Análisis de la varianza: ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.6. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Introducción En las siguientes lı́neas abordaremos como realizar la estimación y validación de un modelo uniecuacional múltiple mediante el software econométrico Gretl. Para conseguir dicho objetivo, el presente documento se estructura de la siguiente forma: 1. Algunas cuestiones básicas de Gretl. a) Descarga e instalación de Gretl. b) Introducción de datos en Gretl. 2. Estimación y validación de un modelo uniecuacional múltiple. a) Estimación de las cantidades constantes del modelo. Bondad del ajuste realizado. b) Análisis de los errores/residuos. c) Contrastes de significación de los parámetros. d ) Análisis de la varianza: ANOVA. e) Intervalos de confianza. 1 Cuadro 1: Observaciones para 22 familias Familia Consumo Renta Deuda Hijos 1 1’3 1’5 1 1 2 2’5 3’2 1 2 3 1 2’2 0 0 4 2’7 4’1 1 2 5 1’8 1’7 1 1 6 1’1 2’3 0 0 7 2 2’8 1 3 8 1’2 1’8 1 0 9 1’6 2’5 1 1 10 2 3 0 3 11 1’5 2’7 0 0 12 1’7 2’6 1 0 13 3 5 0 1 14 1’4 2 1 0 15 4 8 1 2 16 4 6’6 1 1 17 2 5 0 0 18 1’5 3 1 0 19 2’3 2’7 1 1 20 5’1 7 1 3 21 1’6 2’5 1 2 22 3’2 4 1 2 Los contenidos aquı́ mostrados hacen referencia a la versión 1.8.0 de Gretl, por lo que podrı́a haber pequeñas diferencias con respecto a versiones posteriores. Por otro lado, destacar que no se pretende realizar un manual de manejo de Gretl, sino simplemente mostrar aquellas herramientas de dicho software que permiten realizar el análisis de un modelo uniecuacional múltiple. Para más información sobre Gretl de la aquı́ presentada se recomienda recurrir a la ayuda del propio programa (menú Ayuda de la parte superior derecha) o realizar una búsqueda por internet sin más que escribir “manual de Gretl” en cualquier buscador (por ejemplo, Google). Finalmente, cada uno de los apartados tendrá una parte práctica para facilitar su comprensión. Por este motivo, se procederá a resolver paso a paso el siguiente ejercicio: EJERCICIO 1 Supongamos que el consumo familar (Ct , medido en miles de euros) está relacionado con la renta (Rt , medida en miles de euros), la deuda de las familias (Dt , que toma el valor 1 si la familia tiene algún tipo de deuda y 0 en caso contrario) y el número de hijos (Ht ). Se pide analizar el modelo uniecuacional múltiple anterior a partir de las observaciones de la tabla del cuadro 1. Finalmente destacar que en la página web de Gretl (http://gretl.sourceforge.net/win32/index es.html) es posible obtener diversos ejemplos presentes en los libros de Wooldridge (Introductory Econometrics), Gujarati (Basic Econometrics), Stock y Watson (Introduction to Econometrics) y Davidson y Mackinnon (Econometric Theory and Methods), entre otros. 2 Figura 1: Página web oficial de Gretl Figura 2: Descarga de Gretl 2. Algunas cuestiones básicas de Gretl En este capı́tulo veremos dónde se puede descargar el programa y cómo instalarlo para que pueda ser usado, ası́ como la introducción de datos para su análisis. 2.1. Descarga e instalación de Gretl La descarga del software econométrico Gretl se realiza directamente a partir de su página web http://gretl.sourceforge.net/gretl espanol.html (figura 1), sin más que pinchar sobre el enlace gretl para Windows (si es que somos usuarios de dicha plataforma) situado en el margen superior izquierdo. En la nueva página a la que debemos ser dirigidos (figura 2) podremos descargarnos el fichero ejecutable auto-instalable de gretl (gretl-1.8.0.exe, en el momento de la creación de este documento) ası́ como diversas opciones extras que complementan al software (como pueden ser conjuntos de datos disponibles). Por ahora sólo estamos interesados en la instalación del software, ası́ que pincharemos sobre el ejecutable, gretl-1.8.0.exe. En tal caso, nos redireccionarán a un mirror donde podremos descargar el ejecutable (si la descarga no inicia de forma automática pichar sobre direct link ). Una vez descargado el archivo ejecutable en el disco duro del ordenador, hay que realizar doble click sobre el mismo para comenzar con el proceso de instalación. El cual es muy sencillo (siguiente, siguiente, siguiente, instalar, finalizar) ya que dejaremos las opciones que vienen por defecto. De esta forma, en el menú de inicio, seleccionando todos los programas (figura 3), tendremos un acceso directo al software sin más que pinchar sobre él. 3 Figura 3: Acceso directo en el menú Inicio de windows 2.2. Introducción de datos en Gretl Una vez instalado el programa, el primer paso para abordar el análisis de un modelo es la introducción de los datos del mismo. Esta tarea se puede realizar desde dos puntos de vista: realizando la introducción manual directa en Gretl o recuperando la información de otros formatos (excel, spss, txt, etc. . . ). 2.2.1. Introducción de los datos directamente Tras ejecutar el programa (accediendo a él mediante el anterior acceso directo), seleccionaremos la opción Nuevo conjunto de datos (Ctrl+N) del menú Archivo en la parte superior izquierda del programa (ver figura 4). Nos pedirá el número de observaciones, la estructura del conjunto de datos (seleccionaremos sección cruzada1 o de serie temporal según la naturaleza de los datos) y la confirmación de la estructura de los datos, para a continuación, sin más que seleccionar empezar a introducir los valores de los datos, comenzar con el proceso. En primer lugar pide el nombre de la variable, de manera que tras introducirlo, podremos añadir los datos como en cualquier hoja de cálculo (figura 5). Para añadir una nueva variable seleccionar Añadir en el menú Variable de la parte superior de la ventana y al finalizar de introducir variables pulsar sobre Cerrar. También está la opción de Definir nueva variable. . . del menú Añadir en la parte superior central del programa (figura 6). Ası́, para el ejercicio considerado, habrá que indicar que el número de observaciones es 22 e introducir las variables C, R, D y H, como en cualquier hoja de cálculo. Adviértase que en el nombre de las variables no se pueden escribir caracteres extraños (por ejemplo, tildes) y deben ser cortos. Además, a la hora de introducir los datos el delimitador decimal es la coma, si bien, si se usa el punto el programa lo modifica automáticamente. También cabe destacar que el programa genera de forma automática la constante del modelo, por lo que no es necesario introducirla. Como resultado final debemos tener la figura 7, de forma que si seleccionamos todas las variables y pulsamos enter se mostraran todos los datos (figura 8). En la nueva ventana donde se muestran los datos podemos (gracias al menú de la parte superior izquierda) guardar los mismos separados por tabuladores, por comas o por texto plano (muy útil si deseamos usarlos para trabajor con otro programa, ya que recuperarlos a partir de dichos formatos 1 En el ejemplo que vamos a considerar tenemos datos de sección cruzada, es decir, se miden unas series de variables para un conjunto de entidades (en este caso familias) en un instante de tiempo. 4 Figura 4: Introducción de un nuevo conjunto de datos Figura 5: Introducción de los datos 5 Figura 6: Añadir los datos de una nueva variale Figura 7: Variables introducidas 6 Figura 8: Menú mostrar datos suele ser fácil). También se pueden imprimir y copiar, modificar el número de decimales y realizar cualquier tipo de búsqueda. Finalmente, si se selecciona una variable y se pulsa el botón derecho del ratón surge un menú (figura 9) que permite mostrar los valores de la variable, calcular sus principales estadı́sticos descriptivos, representar su gráfico de frecuencias y de cajas, editar sus atributos, editar valores (es decir, modificar las observaciones de la variable en cuestión o añadir nuevas), copiar al cortapapeles, borrar la variable y definir una nueva. Destacar que en la opción de editar atributos se puede añadir un nombre largo (etiqueta descriptiva) para cada variable de forma que sean fáciles de identificar a partir del mismo, el nombre que deseamos que aparezca en las gráficas y si se trata de una variable discreta. Ası́, por ejemplo, en nuestro caso para la variable C introduciremos Consumo familiar (medido en miles de euros), para R Renta familiar (medida en miles de euros), para D Deuda familiar (1 si la hay, 0 si no la hay) y para H Número de hijos en cada familia (ver figura 10). 2.2.2. Recuperar los datos de otros formatos Es habitual disponer de los datos en otros formatos (excel, texto plano, spss, etc.), por lo que disponer de una herramienta para poder importarlos puede suponer una buena ayuda para evitar la tediosa tarea de introducir los datos directamente. Por suerte, Gretl permite importar datos desde formatos muy diversos: csv, ascii, octave, excel, eviews, stata o spss, por ejemplo. Simplemente hay que seleccionar el formato en cuestión del menú desplegado tras seleccionar la secuencia Archivo -> Abrir datos -> Importar (ver figura 11). Como reglas generales tener en cuenta que: 7 Figura 9: Opciones sobre cada variable Figura 10: Modificación de los atributos de una variable 8 Figura 11: Importar datos en otros formatos La primera fila del fichero deberı́a contener los nombres de las variables. La primera columna puede, opcionalmente, contener cadenas de fechas u otros ’marcadores’: en ese caso, la entrada de la fila 1 deberı́a estar en blanco, o deberı́a contener las expresiones ’obs’ o ’date’. El resto del fichero debe ser una formación de datos rectangular. Destacar que al seleccionar el archivo a importar, si el proceso se realiza con éxito, se nos pregunta el tipo de formato a dar a los datos. Puesto que por defecto se consideran los datos de sección cruzada y se nos pregunta si se desean cambiar a datos de series temporales o de panel, debemos responder a la pregunta que nos realizan y, en tal caso, habremos terminado con el proceso de importación de datos. En el caso de importar un fichero tipo ascii (figura 12), hay que tener en cuenta que aunque el limitador decimal sea la coma, si se utiliza ésta obtendremos un fallo en la importación de los datos ya que la coma será considerada como delimitador entre datos. Este problema se resuelve cambiando las comas por puntos, ya que en este caso este carácter no indica ningún tipo de delimitación entre datos y será automáticamente cambiado por el programa de forma conveniente. En la figura 13 se presentan los datos en formato de Excel. En este caso se nos pide la columna y fila a partir de la que empezar a importar y la hoja de Excel en la que se encuentran los datos. En este caso se seleccionarı́a la hoja 1 y se indicarı́a importar a partir de la primera columna y segunda fila, si no queremos importar los nombres de las variables que se encuentran en la primera fila, y a partir de la primera fila y primera columna si se quiere conservar los nombres de las variables. Finalmente, una vez introducidos los datos serı́a conveniente guardarlos en el formato propio de Gretl (.gdt) para poder disponer de ellos en un futuro. Con tal objetivo seleccionamos la opción Guardar datos (Ctrl+S) del menú Archivo (figura 14). En la ventana que emerge tenemos que escribir el nombre que queremos para el archivo e indicar el lugar donde guardarlo. Una vez guardados los datos podremos salir del programa sin más que seleccionar la opción Salir (Ctrl+X) del menú Archivo. 9 Figura 12: Datos en formato ascii Figura 13: Datos en formato de Excel 10 Figura 14: Guardar datos 3. Estimación y validación de un modelo uniecuacional múltiple A continuación vamos a analizar el modelo uniecuacional múltiple correspondiente al ejercicio, esto es: Ct = β0 + β1 · Rt + β2 · Dt + β3 · Ht + ut . Por tanto, entre otras cosas, estimaremos las cantidades constantes del mismo, calcularemos el coeficiente de determinación y los contrastes de significación individual y conjunta. Todo esto se realizará tanto a partir de la información proporcionada por el programa directamente como a partir de la teorı́a desarrollada en clase interpretando los resultados obtenidos. 3.1. Estimación de las cantidades constantes del modelo. Bondad del ajuste realizado Ya que acabamos de cerrar la aplicación, lo primero que tenemos que hacer es inicializarla y recuperar los datos. Puesto que los tenemos salvados en el formato propio de Gretl, para recuperarlos tenemos que seleccionar la opción Archivos de ususario. . . (Ctrl+O) del menú Abrir datos de Archivo (ver figura 15) y buscamos allı́ donde guardamos los datos. Observar también que disponemos de una lista de los últimos archivos usados, por lo que si no han sido reubicados o borrados, podremos recuperarlos rápidamente. Para estimar las cantidades constantes del modelo vamos a aplicar el método de mı́nimos cuadrados ordinarios (MCO). En Gretl existen dos formas distintas de acceder a dicho método. Una forma rápida, seleccionando el penúltimo icono de la parte inferior del programa, o seleccionando la opción de Mı́nimos cuadrados ordinarios. . . del menú Modelo en la parte superior derecha (figura 16). En ambos casos obtendremos el cuadro de diálogo correspondiente al método de MCO (figura 17), donde se puede introducir la variable dependiente y las independientes sin más que seleccionarlas y añadirlas o quitarlas. En nuestro caso introduciremos la variable C como dependiente y el resto como independientes, además de considerar constante en el modelo. Y entonces, simplemente con pulsar Aceptar obtendremos la estimación por MCO del modelo indicado (figura 18). Se obtiene, por tanto, 11 Figura 15: Abrir datos en formato de Gretl Figura 16: Acceso al método de MCO 12 Figura 17: Cuadro de diálogo del método de MCO la siguiente estimación de los coeficientes de las variables: término independiente -0’00832655; R 0’481571; D 0’388973 y H 0’230557. Para terminar de estimar las cantidades constantes del modelo faltarı́a la varianza de la perturbación aleatoria, cuya estimación se obtiene dividiendo la suma de los cuadrados de los residuos entre la diferencia de observaciones y el número de regresores. Por tanto, en este caso, la estimación de la varianza de la perturbación aleatoria se obtiene dividiendo 2’357020 entre 22-4, esto es, 0’1309456. Adviértase que justo al lado de la suma de los cuadrados de los residuos aparece la desviación tı́pica de la regresión, 0’361864, es decir, la raı́z cuadrada de la estimación anterior. Por otro lado, de entre toda la información disponible, ahora mismo destacaremos la bondad del ajuste realizado, es decir, el coeficiente de determinación. Que en este caso es de un 0’902641 (un 0’886414 para el R-cuadrado corregido). Puesto que está cercano al 1 podemos indicar que el modelo ajustado es adecuado y que explica un 90’2641 % de la variabilidad de la variable dependiente. Si en la columna correspondiente a Coeficiente se tienen las estimaciones de los coeficientes del modelo lineal uniecuacional múltiple anteriormente comentadas, en la siguiente columna, Desv. Tı́pica, se tienen las desviaciones tı́picas estimadas de cada coeficiente estimado2 . Esto es, en la segunda columna se tienen las raı́ces cuadradas de los elementos de la diagonal principal de la matriz de va \ rianzas covarianzas V ar βb . Atendiendo a esta información tradicionalmente se resume la estimación realizada como: bt C = -0’00832655 (0’209189) + 0’481571 ·Rt (0’0475691) + 0’388973 ·Dt (0’180558) + 0’230557 ·Ht (0’08207849) R2 = 00 902641 Finalmente, hay que destacar que en la nueva ventana donde se presentan los resultados tenemos distintos menús con opciones interesantes. Destacaremos las que nos resultan útiles en este momento: Archivo: nos permite salvar los resultados en formato de texto plano, rtf o tex e imprimirlos. 2 Para más detalle ver la sección de intervalos de confianza. 13 Figura 18: Resultados de la estimación por MCO Editar: nos permite copiar los resultados y modificar el modelo considerado (en este caso se abre la ventana de la figura 17, es decir, el cuadro de diálogo del método de MCO para realizar las modificaciones oportunas). Guardar: permite guardar como nuevas variables los valores estimados, los residuos o los residuos al cuadrado, entre otros. Gráficos: nos permite representar gráficos de residuos y de la variable estimada y observada. Analizar: permite, por ejemplo, mostrar de forma conjunta la variable observada, la estimada y los residuos. Ası́ por ejemplo, a partir del menú Gráficos (figura 19) podemos representar de forma conjunta los valores observados y estimados de la variable dependiente (figura 20). Adviértase que pulsando el botón derecho del ratón sobre la imagen en cuestión (figura 21) podemos, entre otras acciones, guardar la imagen en distintos formatos, imprimirla o editarla. Este último aspecto permite cambiar la apariencia de la representación gráfica: tı́tulos, escala, colores, etc. Por ejemplo, en la figura 22 se modifica la representación de puntos por lı́neas. 3.2. Análisis de los errores/residuos Destinaremos este apartado a analizar los residuos. Básicamente comprobaremos que tienen media cero y son normales. En un futuro se estudiarán las hipótesis de incorrelación y heteroscedasticidad. En primer lugar, pinchando en Mostrar variable observada, estimada y residuos del menú Análisis de la ventana de resultados se nos presentan de forma conjunta la variable estimada, observada y los residuos (figura 23). Si bien, para poder almacenar los residuos como una nueva variable hay que seleccionar Residuos del menú Guardar (figura 24). Habrá que indicar en este caso el nombre de la variable (por ejemplo, e) y su descripción (por ejemplo, residuos del modelo). De forma exploratoria podemos representar los residuos por número de observación pinchando en Por número de observación del menú Gráfico residuos de Gráficos (figura 25). En el gráfico que se obtiene (figura 26), se observa cómo los residuos se sitúan alrededor del cero (la que tiene que ser su media). Si bien, este aspecto lo confirmaremos calculando (nos situamos sobre la variable 14 Figura 19: Opción Gráfico de variable estimada y observada del menú Gráficos Figura 20: Representación conjunta de la variable dependiente estimada y observada 15 Figura 21: Opciones sobre un gráfico en Gretl Figura 22: Aspectos que se pueden modificar en un gráfico 16 Figura 23: Valores observados, estimados y residuos Figura 24: Guardar residuos como nueva variable 17 Figura 25: Obtener gráfico de los residuos Figura 26: Gráfico de los residuos frente al número de observación correspondiente a los residuos, pulsamos el botón derecho del ratón y seleccionamos la opción de Estadı́sticos descriptivos) los estadı́sticos descriptivos de los residuos (figura 27). Como es sabido la gran riqueza del modelo lineal se obtiene cuando se introduce la hipótesis de normalidad en el mismo, por lo que comprobar la suposición de normalidad en los residuos parece crucial. Pinchando sobre Normalidad residuos del menú Contrastes se obtiene la distribución de frecuencias de los residuos y la correspondiente prueba de la Chi-cuadrado sobre la normalidad (figura 28). También se obtiene un histograma de los residuos con la curva normal (figura 29) donde también aparece la prueba Chi-cuadrado. En este caso, puesto que el p-valor, mı́nimo valor a partir del cual se rechaza la hipótesis nula, es 0’0936175, no rechazaremos la hipótesis nula de normalidad (ya que es mayor que 0.05). Finalmente, aunque no tenga que ver con los residuos, podemos plantearnos contrastar si se verifica la hipótesis de linealidad, es decir, contrastar si la relación existente entre la variable dependiente, las variables independientes y la peturbación aleatoria es lineal. Con tal objetivo seleccionaremos, en la ventana donde tenemos la estimación por MCO, la opción No linealidad (cuadrados) o No linealidad (logs) del menú Contrastes. En ambos casos se trata de un contraste que tiene por hipótesis nula que la relación es lineal. Puesto que para los dos contrastes el p-valor es mayor que 0.05 (ver figura 30), se decide no rechazar la hipótesis nula, luego en este caso no rechazamos que la relación existente sea 18 Figura 27: Estadı́sticos descriptivos de los residuos del modelo Figura 28: Prueba de normalidad de los residuos 19 Figura 29: Histograma de los residuos con curva normal lineal. 3.3. Contrastes de significación de los parámetros En el presente apartado estudiaremos los distintos contrastes de hipótesis que permite realizar Gretl. Observando la figura 18 (que corresponde a la salida dada por el programa en la estimación por mı́nimos cuarados ordinarios), vemos que automáticamente Gretl proporciona los contrastes de significación individual, es decir, aquellos en los que la hipótesis nula afirma que βi = 0, para i=0,1,2,3. Para estos contrastes hay que fijarse en la última columna de la tabla que hay, es decir, en aquella que tiene por tı́tulo Valor p. En dicha columna tenemos el p-valor correspondiente a cada uno de los contrastes de significación individual. Si recordamos que el p-valor es el mı́nimo valor a partir del cual se rechaza la hipótesis nula, en aquellos casos en los que el p-valor se mayor que 0.05 (nivel de significación al que trabajamos) no rechazaremos la hipótesis nula. Luego no podemos rechazar que la constante sea igual a cero, al mismo tiempo se tiene que los coeficientes β1 , β2 y β3 son significativamente distintos de cero. Además, atendiendo al signo de la estimación obtenida, las variables R, D y H influyen positivamente sobre la variable dependiente (puesto que la constante no es significativamente distinta de cero no podemos realizar ningún tipo de comentario similar). Ası́ por ejemplo, la estimación de β3 es 0’230557 (ver primera columna de la tabla de la figura 18). Dicha estimación nos podrı́a hacer pensar que el valor de dicho parámetro pueda ser cero. Sin embargo, observando el p-valor, 0’0116, asociado al contraste de significación individual (hipótesis nula β3 = 0) nos indica que dicho parámetro es significativamente distinto de cero, ya que es menor que 0.05 y, por tanto, en dicho caso se rechaza la hipótesis nula del contraste planteado. Por otro lado, la estimación del término independiente es -0’00832655. De igual forma dicha estimación me puede hacer pensar que el valor del parámtero es cero, cuestión que se confirma en esta ocasión al comprobar que el p-valor, 0’9687, es mayor que el nivel de significación considerado, 0.05, por lo que no se rechazará la hipótesis nula de que el parámetro sea cero. Adviértase que en la tabla de la figura 18 viene también el valor experimental de la t-Student (columna correspondiente a Estadı́stico t) con el que se realiza el contraste de significación individual, dicho valor se obtiene, como es sabido, a partir de la estimación de cada coeficiente (columna Coeficiente) y la desviación tı́pica estimada de cada coeficiente estimado, es decir, la raı́z cuadrada de los elementos de la diagonal principal de la estimación de la matriz de varianzas-covarianzas de 20 Figura 30: Contrastes de linealidad la estimación de beta (colummna correspondiente a Desv. Tı́pica). Ası́, por ejemplo, para el segundo parámetro, 0’481571/0’0475691 = 10’12. Por tanto, también es posible tomar una decisión para el contraste a partir de la región de rechazo, sin más que comparar este valor con el valor teórico correspondiente de la t-Student. ¿Cómo se obtiene dicho valor teórico? Evidentemente hay que usar las tablas de la t-Student que tienen recogidos dichos valores, si bien, en nuestro caso podemos recurrir también a Gretl para obtener dicho valor. Seleccionando Tablas estadı́siticas del menú Herramientas nos aparece una nueva ventana donde podemos calcular el valor teórico de distintas distribuciones (por ejemplo, normal, t-Student, Chi-Cuadrado, F-Snedecor, Binomial, poisson), entonces seleccionando en este caso la tStudent tendremos que introducir los grados de libertad y la probabilidad que queda a la derecha (ver figura 31). En nuestro caso, los grados de libertad se obtienen a partir de n − k = 22 − 4 = 18, donde n representa el número de observaciones que se disponen y k el número de variables independientes presentes en el modelo (información que se obtiene a partir de la figura 18 sin mayores problemas). Mientras que la probabilidad de la cola derecha corresponde a 0.025, ya que trabajamos a un 5 % de significación y la t-Student es una distribución simétrica. Por tanto, el valor teórico de la t-Student con 18 grados de libertad que deja a la derecha una cola con probabilidad 0.025 que se obtiene es 2’10092 (figura 32). Luego como el valor experimental, 10’12, es mayor que el teórico se decide rechazar la hipótesis nula, es decir, el parámetro es significativamente distinto de cero. Finalmente, Gretl también permite plantear y resolver contrastes lineales sobre los parámetros de las variables. Algunos ejemplos de restricciones lineales pueden ser: b[1] - 2*b[2] + 3*b[0] = 0 b[2] - b[3] = 0 b[2] + 2*b[3] = 1 Ası́, para tomar una decisión sobre la hipótesis nula de que b[2] + 2*b[3] = 1, en la ventana donde tenemos las estimaciones de los parámetros (figura 18), seleccionamos la opción Restricciones lineales del menú Contrastes (figura 33). En la nueva ventana que emerge hay que especificar la restricción 21 Figura 31: Valores de las tablas estadı́sticas Figura 32: Valor teórico de la t-Student con 18 grados de libertad que deja a la derecha una cola con probabilidad 0.025 22 Figura 33: Restricciones lineales anterior (figura 34) y sin más que pulsar en aceptar se realizará el contraste. Si se pulsa sobre el botón de Ayuda, Gretl nos indica como introducir las restricciones lineales (por ejemplo, se pueden introducir más de una de forma simultánea). Finalmente, obtendremos los resultados del contraste en una nueva ventana (figura 35). Se nos proporciona el valor experimental de la F y el p-valor asociado, luego al igual que antes, tenemos dos opciones para tomar una decisión en el contraste: mediante la región de rechazo y mediante el p-valor. La primera opción se resuelve exactamente igual que en el caso del ANOVA: buscando el valor teórico y comparándolo con el experimental (que veremos a continuación), mientras que para la segunda opción sólo tenemos que comparar el p-valor con 0.05 (nivel de significación considerado). Puesto que en este caso p-valor = 0’489543 > 0.05 = nivel de significación, no se rechaza la hipótesis nula de que los coeficientes cumplen la relación lineal planteada. En tal caso habrá que tener en cuenta la nueva estimación de los coeficientes bajo la suposición de que la restricción anterior es cierta (mı́nimos cuarados restringidos): bt C = 0’086029 (0’158707) + 0’474688 ·Rt (0’0459383) + 0’262656 ·Dt (0’0229691) + 0’249346 ·Ht (0’0766041) Evidentemente hay que tener en cuenta las mismas en el caso de que no se rechace la hipótesis nula. A modo de resumen, cuando se resuelva un contraste a partir del p-valor, hay que tener en cuenta la siguiente regla que se deduce a partir de la definición del mismo: si p-valor es mayor que 0.05 no se rechaza la hipótesis nula del contraste siempre y cuando se trabaje al 5 % de significación (si es al 1 % el valor de comparación será 0.01). 3.4. Análisis de la varianza: ANOVA En el presente apartado estudiaremos el contraste de significación conjunta, es decir, aquel en el que la hipótesis nula afirma que β1 = β2 = β3 = 0. En tal caso, tenemos que fijarnos en la cuarta fila de los resultados que aparecen después de la tabla que contiene las estimaciones (ver figura 18). En este caso se nos proporciona el valor experimental de la F-Snedecor, 55’62750, y su p-valor asociado, 23 Figura 34: Especificación de las restricciones lineales Figura 35: Resultado del contraste de restricciones lineales sobre los parámetros 24 Figura 36: Valor teórico de la F de Snedecor con 3 y 18 grados de libertad que deja a la derecha una cola con probabilidad 0.05 0’00000000265. Atendiendo al p-valor, puesto que es claramente menor que 0.05 se rechaza la hipótesis nula de que los coeficientes son nulos de forma simultánea. Al mismo tiempo también es posible plantear la región de rechazo en este caso. Ya tenemos el valor experimental, luego sólo faltarı́a calcular el teórico. Para ello, en el mismo menú de antes (figura 36) hay que seleccionar los valores crı́ticos de F y especificar los grados de libertad del numerador y del denominador (3 y 18, respectivamente) y la probabilidad en la cola derecha, 0.05 (puesto que trabajamos a un 5 % de significación). Adviértase que los grados de libertad nos los proporciona el programa cuando nos da el valor de la F experimental. Puesto que el valor experimental, 55’62750, es claramente mayor que el teórico, 3’15991, se rechaza la hipótesis nula de que los coeficientes son nulos de forma simultánea. ¿Se puede obtener el valorexperimental de la F a partir de la información mostrada en la salida de la figura 18? Teniendo en cuenta que SCT = n · V ar(Y ) donde Y es la variable dependiente, ya que en dicha figura se tiene que la desviación tı́pica de la variable dependiente es 1’073702, es claro que SCT = 22·10 0737022 = 250 36239. Por otro lado se tiene que SCR = 20 357020, por lo que SCE = SCT −SCR = 250 36239 − 20 357020 = 230 00537. Entonces se tiene que: Fexp = SCE/(k − 1) 230 00537/3 70 668457 = 0 = 0 = 580 56216. SCR/(n − k) 2 357020/18 0 1309456 Otra opción para obtener dicho valor es usar la expresión equivalente: Fexp = R2 /(k − 1) 00 902641/3 00 3008803 = = 550 62758. (1 − R2 )/(n − k) 00 097359/18 00 005408833 ¿Por qué no salen iguales? Gretl, al igual que practicamente todos los paquetes estadı́sticos, trabaja con la cuasivarianza muestral en lugar de con la varianza muestral, ya que el primero es un estimador insesgado y el segundo no. Por tanto para calcular la SCT hay que multiplicar por n − 1 en lugar de por n. Si se repiten las cuentas partiendo de SCT = 21 · 10 0737022 = 240 20956 llegaremos a que Fexp = 550 6275. Destacar que este contraste es de suma importancia ya que mide el poder explicativo global de todas las variables, es decir, al rechazar la hipótesis nula rechazamos que la variabilidad observada en 25 Figura 37: Opción ANOVA Figura 38: Tabla ANOVA la variable dependiente sea explicable por el azar. ¿Y quién mide mide la variabilidad de la variable independiente? Se está afirmando pues que el coeficiente de determinación o R cuadrado es significativo y, por tanto, admitimos que hay algún tipo de asociación entre las variables dependientes y las independientes. Además, mediante el menú Análisis de la ventana de la figura 18, seleccionando ANOVA (figura 37), obtenemos la conocida como tabla ANOVA (figura 38). A partir de dicha tabla es fácil obtener el coeficiente de determinación (mediante su expresión en función de las sumas de cuadrados) y el valor experimental anterior de la F. 3.5. Intervalos de confianza En este apartado calcularemos los distintos intervalos de confianza que se pueden hacer en el modelo lineal. Ası́, seleccionando Intervalos de confianza para los coeficientes del menú Análisis de la ventana de la estimación por MCO (figura 39) obtenemos automáticamente los intervalos de confianza, al nivel de confianza del 95 %, para cada uno de los coeficientes de las variables del modelo (figura 40). Adviértase que también se nos proporciona el valor teórico de la distribución t-Student utilizado. En dicho menú también es posible seleccionar Elipse de confianza... (ver figura 39) que nos permite calcular la región de confianza conjunta para cualquier par de coeficientes de las variables del modelo. Ası́ por ejemplo, en la figura 41 se tiene la ventana para indicar los coeficientes para los que se quiere calcular dicha región de confianza (donde también se puede modificar el nivel de confianza al que 26 Figura 39: Menú de intervalos de confianza para los coeficientes Figura 40: Intervalos de confianza para los coeficientes 27 Figura 41: Selección del elipse de confianza para los coeficientes de Renta e Hijos Figura 42: Elipse de confianza para los coeficientes de Renta e Hijos calcular la elipse) y en la figura 42 los resultados obtenidos. Vemos como el centro de la elipse es (0’482, 0’231) y se puede comprobar gráficamente como, por ejemplo, el punto (0’3, 0’1) no pertenece a dicha región o como (0’5, 0’1) si lo hace. Por otro lado, no se puede obtener el intervalo de confianza para la varianza de la perturbación aleatoria de forma directa, si bien, con la información de la figura 18 se puede calcular éste sin mayores problemas, ya que nos proporciona la suma de los cuadrados de los residuos, 2’357020, que es la cantidad necesaria para calcular dicho intervalo. Para completar la información necesaria sólo faltan los puntos (que se pueden obtener como es sabido mediante Gretl) de una chi-cuadrado con 18 grados de libertad (n − k donde n es el número de observaciones y k el número de variables dependientes del modelo) que dejan a su izquierda una probabilidad de 0.025 y 0.975 (estamos calculando un intervalo al 5 % de nivel de confianza). Dichos puntos son, respectivamente, 8’23075 y 31’5264 (ver figura 43). Por tanto, el intervalo de confianza al nivel de confianza del 5 % para la varianza de la perturbación aleatoria es (2’357020/31’5264, 2’357020/8’23075) = (0’07476337, 0’2863676). Pero es que además, la figura 18 también proporciona la información necesaria para calcular los intervalos de confianza para cada uno de los coeficientes de las variables sin más que tener en cuenta 28 Figura 43: Puntos de una chi-cuadrado con 18 grados de libertad que dejan a su izquierda una probabilidad de 0.025 y 0.975 29 Figura 44: Valor teórico de la distribución t-Student con 18 grados de libertad que deja a su izquierda una probabilidad de 0.975 que éstos se construyen a partir de (coeficiente - valor t teórico * Desv. Tı́pica, coeficiente - valor t teórico * Desv. Tı́pica). Es decir: para constante: (-0’00832655 - 2’10092 * 0’209189, -0’00832655 + 2’10092 * 0’209189) = (-0’447817, 0’431164). para R: (0’481571 - 2’10092 * 0’0475691, 0’481571 + 2’10092 * 0’0475691) = (0’381632, 0’581510). para D: (0’388973 - 2’10092 * 0’180558, 0’388973 + 2’10092 * 0’180558) = (0’00963404, 0’768311). para H: (0’230557 - 2’10092 * 0’0820784, 0’230557 + 2’10092 * 0’0820784) = (0’0581163, 0’402997). Donde el valor teórico de la distribución t-Student se obtiene al igual que antes (para la chicuadrado) a partir del menú Herramientas seleccionando Tablas estadı́sticas (ver figura 44). Finalmente, destacar que mediante los intervalos de confianza calculados se puede dar respuesta a los contrastes de hipótesis con hipótesis nula βi = bi o σ 2 = σ0 , sin más que comprobar si bi o σ0 pertenecen al correspondiente intervalo de confianza. Es decir, si pertenecen al intervalo de confianza no se rechaza la hipótesis nula y si no lo hacen se rechazará la hipótesis nula. Ası́ por ejemplo, para los contrastes con hipótesis nula β2 = 0, β3 = 00 3, β0 = 2 o σ 2 = 1 se rechazarı́a, no rechazarı́a, rechazarı́a y rechazarı́a, respectivamente, dicha hipótesis nula al nivel de significación del 5 % (ya que el 0, el 2 y el 1 no pertenecen a los correspondientes intervalos de confianza, mientras que el 0’3 sı́). 3.6. Conclusión Por todo lo expuesto hasta ahora se tiene que el modelo estimado es válido y que las variables de renta familiar, deuda y número de hijos influyen positivamente en el consumo de las familias. Es decir, a mayor renta, deuda y número de hijos mayor consumo familiar. Además, al ser la variable correspondiente a la deuda una variable ficticia, habremos estimado la diferencia esperada en el consumo familiar entre familias con deuda y sin deuda con el mismo nivel de renta y número de hijos. En este caso se obtiene que dicha estimación es positiva, por lo que aquellas familias que tienen algún tipo de deuda consumen más que aquellas que no la tienen. Adviértase que las conclusiones anteriores se basan en los supuestos básicos realizados sobre la perturbación aleatoria, por tanto, se debe verificar que se cumplen dichas hipótesis. 30 Econometrı́a y el entorno de programación R: función MUM Román Salmerón Gómez Para afrontar un primer análisis de un modelo econométrico usando el entorno de programación R, los alumnos contarán con la ayuda de la siguiente información sobre la función MenuMUM. Destacar que se trata de una función creada por el profesor en la que se van calculando paso a paso cada uno de los conceptos explicados en clase. Pasos a seguir: Descarga e instalación de R. Enlace: http://www.ugr.es/local/romansg/material/softlibre/r1 es.html). ¡¡Ojo!! Asegurarse que se asocian los archivos .RData con R. Descargar la función MenuMUM: MenuMUM.RData. Enlace: http://www.ugr.es/local/romansg/material/WebEco/MenuMUM.RData). Ejecutar el archivo anterior. Si has instalado bien el programa apararecerá la siguiente pantalla donde podemos observar que nos avisan de que se ha cargado un espacio de trabajo ya creado: Y finalmente, sin más que escribir MenuMUM(), podremos empezar a trabajar!!!!. 1 Ejemplo Como ejemplo analicemos un modelo en el que el consumo familiar mensual (en miles de euros) es explicado a partir de la renta mensual familiar (también medida en miles de euros). Los datos de los que se disponen son los siguientes para el consumo: 1,32,512,71,81,121,21,621,51,731,44421,52,35,11,63,2, mientras que para la renta: 1,53,22,24,11,72,32,81,82,532,72,65286,6532,772,54. Al ejecutar MenuMUM() introduciremos los datos tal y como aparece en la siguiente imagen: Adviértase que el programa considera que el modelo tiene término independiente (por lo que no hay que incluirlo) y que, en este caso, no se ha querido realizar predicción ni contraste alguno sobre combinaciones lineales de los parámetros. Al finalizar, se mostrarán en pantalla la representación gráfica de los valores observados para el consumo junto a su estimación y la gráfica de los residuos. Además, también aparecerán los siguientes resultados: $‘X^{t}X‘ [,1] [,2] [1,] 22.0 76.2 [2,] 76.2 331.8 $‘X^{t}Y‘ [,1] [1,] 48.50 [2,] 204.45 $‘Estimación de los coeficientes de las variables‘ 2 [,1] [1,] 0.3437073 [2,] 0.5372499 $‘Estimación de la varianza de la perturbación aleatoria‘ [,1] [1,] 0.2309731 $‘Estimación de la matriz de varianzas-covarianzas de beta estimada‘ [,1] [,2] [1,] 0.05132529 -0.011787183 [2,] -0.01178718 0.003403124 $‘Estimación de la variable dependiente‘ [,1] [1,] 1.149582 [2,] 2.062907 [3,] 1.525657 [4,] 2.546432 [5,] 1.257032 [6,] 1.579382 [7,] 1.848007 [8,] 1.310757 [9,] 1.686832 [10,] 1.955457 [11,] 1.794282 [12,] 1.740557 [13,] 3.029957 [14,] 1.418207 [15,] 4.641706 [16,] 3.889556 [17,] 3.029957 [18,] 1.955457 [19,] 1.794282 [20,] 4.104456 [21,] 1.686832 [22,] 2.492707 $‘Residuos del modelo‘ [,1] [1,] 0.15041791 [2,] 0.43709314 [3,] -0.52565700 [4,] 0.15356827 [5,] 0.54296793 [6,] -0.47938198 [7,] 0.15199309 [8,] -0.11075705 [9,] -0.08683195 [10,] 0.04454312 3 [11,] [12,] [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,] [21,] [22,] -0.29428193 -0.04055694 -0.02995660 -0.01820702 -0.64170618 0.11044362 -1.02995660 -0.45545688 0.50571807 0.99554368 -0.08683195 0.70729326 $‘Sumas de cuadrados: SCT, SCE, SCR‘ [1] 24.209545 19.590084 4.619462 $‘Coeficiente de determinación‘ [,1] [1,] 0.8091884 $‘Coeficiente de determinación corregido‘ [,1] [1,] 0.7996478 $‘Selección de modelos‘ $‘Selección de modelos‘$‘Criterio de información de Akaike‘ [,1] [1,] 32.09648 $‘Selección de modelos‘$‘Criterio de información bayesiano de Schwarz‘ [,1] [1,] 34.27857 $‘Selección de modelos‘$‘Criterio de información de Hannan-Qinn‘ [,1] [1,] 32.61052 $‘Matriz de varianzas-covarianzas de las variables dependientes‘ [,1] [1,] 3.231948 $‘Matriz de correlaciones de las variables dependientes‘ [,1] [1,] 1 $‘Contrastes de significación individual‘ $‘Contrastes de significación individual‘$‘Valores experimentales de cada contraste‘ [,1] [,2] [1,] 1.517131 9.20953 4 $‘Contrastes de significación individual‘$‘Valor teórico de la t-Student‘ [1] 2.085963 $‘Contrastes de significación individual‘$‘Decisión de cada contraste‘ [,1] [,2] [1,] "La variable 1 no es significativa" "La variable 2 es significativa" $‘Contraste de significación conjunta‘ $‘Contraste de significación conjunta‘$‘Tabla ANOVA‘ [,1] [,2] [,3] [1,] "Fuentes de variación" "Sumas de cuadrados" "Grados de libertad" [2,] "Estimada" "19.5900835080695" "1" [3,] "Residual" "4.61946194647594" "20" [4,] "Total" "24.2095454545454" "" [,4] [1,] "Medias" [2,] "19.5900835080695" [3,] "0.230973097323797" [4,] "84.8154340702569" $‘Contraste de significación conjunta‘$‘Contraste ANOVA‘ [1] "Como la F experimental, 84.8154340702569 , es mayor que la teórica, 4.35124350332929 , se rechaza la hipótesis nula, es decir, existe al menos un coeficiente no nulo" $‘Significación del coeficiente de determinación‘ [1] "Puesto que el coeficiente de determinación, 0.809188406484162 ,es mayor que la cota inferior de significación, 0.178686706604301 ,es significativo" $‘Intervalos individuales para cada coeficiente‘ [,1] [,2] [1,] -0.1288695 0.8162841 [2,] 0.4155625 0.6589372 $‘Intervalo de confianza para la varianza de la perturbación aleatoria‘ [,1] [,2] [1,] 0.1351921 0.4816567 Notas finales R es un conjunto integrado de programas para manipulación de datos, cálculo y gráficos, que puede definirse como una nueva implementación del lenguaje S desarrollado en AT&T (por lo que muchos de los libros y manuales sobre S son útiles para R). El entorno de programación R está disponible como software libre con licencia GNU de la Fundación de Software Libre. Sus principales caracterı́sticas son: Almacenamiento y manipulación efectiva de datos. 5 Operadores para el cálculo sobre variables indexadas, en particular, matrices. Una amplia, coherente e integrada colección de herramientas para análisis de datos. Posibilidades gráficas para análisis de datos, que funcionan directamente sobre pantalla o impresora. Un lenguaje de programación bien desarrollado, simple y efectivo, que incluye condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. Más información en su web oficial: http://www.r-project.org/. Evidentemente se trata de un entorno de programación muy contrastado que ya tiene implementado de manera eficiente el análisis de un modelo econométrico (mediante la función lm). ¿Por qué no usar entonces la función que nos ofrece R para dicho análisis? Muy sencillo. Puesto que el fin final de estas lı́neas es puramente docente y no investigador se ha optado por crear una función donde los alumnos puedan identificar aquellas expresiones que se estudian a lo largo de la asignatura. Sin ninguna duda, la función lm del entorno R para el ajuste de modelos lineales es una herramienta más potente que la aquı́ expuesta. Puedes encontrar información sobre esta función fácilmente escribiendo su nombre en cualquier buscador de internet (por ejemplo, Google). En el siguiente enlace tienes un ejemplo de su uso: http://www.ugr.es/local/romansg/material/softlibre/r2 es.html 6 Regresión lineal múltiple con Stata Román Salmerón Gómez En el presente documento se aborda brevemente cómo estimar y validar un modelo lineal de regresión múltiple con Stata. Más concretamente, se analizará el modelo Ct = β1 + β2 Rt + β3 Dt + β4 Ht + ut , donde los datos de las variables consumo familiar, C, renta familiar, R, deuda, D, y número de hijos, H, se encuentran en la tabla 1. Cuadro 1: Observaciones para 22 familias Familia Consumo Renta Deuda Hijos 1 1’3 1’5 1 1 2 2’5 3’2 1 2 3 1 2’2 0 0 4 2’7 4’1 1 2 5 1’8 1’7 1 1 6 1’1 2’3 0 0 7 2 2’8 1 3 8 1’2 1’8 1 0 9 1’6 2’5 1 1 10 2 3 0 3 11 1’5 2’7 0 0 12 1’7 2’6 1 0 13 3 5 0 1 14 1’4 2 1 0 15 4 8 1 2 16 4 6’6 1 1 17 2 5 0 0 18 1’5 3 1 0 19 2’3 2’7 1 1 20 5’1 7 1 3 21 1’6 2’5 1 2 22 3’2 4 1 2 Los datos en Stata se introducen directamente pulsando el botón correspondiente a Data Editor (edit) o importándolos, por ejemplo desde Excel, sin más que copiarlos en la hoja de cálculo y pegándolos en la de Stata (si el nombre de las variables está escrito en la primera fila de la hoja de cálculo aparecerá un mensaje preguntando si dicha fila ha de tratarla como los nombres de las variables o como datos). Una vez introducimos los datos, en primer lugar vamos a calcular los principales estadı́sticos descriptivos de las variables (excepto de la variable D por ser dicotómica). Usaremos los comandos su y corr de Stata: 1 . su consumo renta deuda hijos, detail Consumo ------------------------------------------------------------Percentiles Smallest 1% 1 1 5% 1.1 1.1 10% 1.2 1.2 Obs 22 25% 1.5 1.3 Sum of Wgt. 22 50% 75% 90% 95% 99% 1.9 2.7 4 4 5.1 Largest 3.2 4 4 5.1 Mean Std. Dev. 2.204545 1.073702 Variance Skewness Kurtosis 1.152835 1.211082 3.718969 Renta ------------------------------------------------------------Percentiles Smallest 1% 1.5 1.5 5% 1.7 1.7 10% 1.8 1.8 Obs 22 25% 2.3 2 Sum of Wgt. 22 50% 75% 90% 95% 99% 2.75 4.1 6.6 7 8 Largest 5 6.6 7 8 Mean Std. Dev. 3.463636 1.797762 Variance Skewness Kurtosis 3.231948 1.240405 3.49813 Hijos ------------------------------------------------------------Percentiles Smallest 1% 0 0 5% 0 0 10% 0 0 Obs 22 25% 0 0 Sum of Wgt. 22 50% 75% 90% 95% 99% 1 2 3 3 3 Largest 2 3 3 3 Mean Std. Dev. 1.136364 1.082126 Variance Skewness Kurtosis 1.170996 .4186488 1.903154 . corr consumo renta hijos 2 | consumo renta hijos -------------+--------------------------consumo | 1.0000 renta | 0.8995 1.0000 hijos | 0.5814 0.3772 1.0000 A partir de las correlaciones podemos observar, por ejemplo, una alta correlación positiva entre el consumo y la renta. Para estimar y validar el modelo anterior usaremos el comando reg de Stata: . reg consumo renta deuda hijos Source | SS df MS -------------+-----------------------------Model | 21.8525248 3 7.28417492 Residual | 2.35702018 18 .130945566 -------------+-----------------------------Total | 24.2095449 21 1.15283547 Number of obs F( 3, 18) Prob > F R-squared Adj R-squared Root MSE = = = = = = 22 55.63 0.0000 0.9026 0.8864 .36186 -----------------------------------------------------------------------------consumo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------renta | .4815709 .0475691 10.12 0.000 .3816319 .5815099 deuda | .3889727 .1805582 2.15 0.045 .0096341 .7683114 hijos | .2305566 .0820784 2.81 0.012 .0581163 .402997 _cons | -.0083266 .2091894 -0.04 0.969 -.4478172 .4311641 -----------------------------------------------------------------------------Dicho comando da como salida fundamentalmente la tabla ANOVA (contraste de significación conjunta) junto a su p-valor asociado, el R2 (y su versión corregida) y las estimaciones de los coeficientes junto a sus p-valores asociados (contrastes de significación individual) e intervalos de confianza. Podemos observar que todas las variables son significativas (p-valor inferior a 0.05) excepto el término independiente, es decir, la constante no es significativamente distinta de cero. Ahora bien, ¿tiene sentido que el modelo tenga término independiente? Este término se interpreta como el consumo de una familia sin renta alguna, sin deudas y sin hijos. ¿Una familia sin renta consumirı́a? Parece por tanto que se puede prescindir del término independiente desde un principio. Estimamos1 entonces el nuevo modelo que se obtiene sin más que introducir noconstant al final de la orden: . reg consumo renta deuda hijos, noconstant 1 Hay que tener mucho cuidado cuando se trabaja con un modelo sin término independiente ya que, por ejemplo, el coeficiente de determinación ya no tiene por qué estar comprendido entre 0 y 1. 3 Source | SS df MS -------------+-----------------------------Model | 128.772772 3 42.9242573 Residual | 2.35722765 19 .124064613 -------------+-----------------------------Total | 131.129999 22 5.96045452 Number of obs F( 3, 19) Prob > F R-squared Adj R-squared Root MSE = = = = = = 22 345.98 0.0000 0.9820 0.9792 .35223 -----------------------------------------------------------------------------consumo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------renta | .4803109 .0345606 13.90 0.000 .4079747 .5526471 deuda | .3849219 .145174 2.65 0.016 .0810693 .6887745 hijos | .2306591 .0798535 2.89 0.009 .0635237 .3977944 -----------------------------------------------------------------------------Observamos que el modelo es conjuntamente válido (se rechaza hipótesis nula en el contraste de significación conjunta), tanto el coeficiente de determinación como el ajustado son muy altos (se explica alrededor de un 98 % de la variabilidad del consumo) y todas las variables independientes son significativas (se rechaza hipótesis nula en los contrastes de significación individual) con signo positivo, es decir, cuando aumentan también lo hace el consumo. Los valores estimados se pueden obtener con el comando predict: . predict est . l est 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. +----------+ | est | |----------| | 1.336047 | | 2.383235 | | 1.056684 | | 2.815515 | | 1.432109 | |----------| | 1.104715 | | 2.42177 | | 1.249481 | | 1.816358 | | 2.13291 | |----------| | 1.296839 | | 1.63373 | | 2.632213 | | 1.345544 | | 4.688727 | |----------| | 3.785633 | | 2.401554 | | 1.825855 | | 1.91242 | 4 20. | 4.439075 | |----------| 21. | 2.047017 | 22. | 2.767483 | +----------+ . su consumo est Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------consumo | 22 2.204545 1.073702 1 5.1 est | 22 2.205678 1.017523 1.056684 4.688727 . gener familia = [_n] . graph twoway line consumo est familia Obsérvese que se ha calculado también las medias, desviaciones tı́picas, mı́nimo y máximo del consumo y su estimación y (finalmente) se han representado de forma conjunta (previante se ha creado una variable correspondiente al número de familias). También se podrı́an obtener los residuos del modelo, cuestión importante a la hora de verificar que se cumplen las hipótesis básicas del modelo lineal general (como es el caso de la normalidad): . predict resid, residuals . l resid 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. +-----------+ | resid | |-----------| | -.0360473 | | .1167651 | | -.0566839 | | -.1155145 | | .3678904 | |-----------| | -.004715 | | -.4217695 | | -.0494814 | | -.2163582 | | -.1329098 | |-----------| | .2031606 | | .0662699 | | .3677866 | | .0544563 | | -.688727 | |-----------| | .2143673 | | -.4015544 | 5 18. | -.3258545 | 19. | .3875796 | 20. | .6609247 | |-----------| 21. | -.4470172 | 22. | .4325165 | +-----------+ . . su resid Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------resid | 22 -.0011325 .3350337 -.688727 .6609247 . . swilk resid Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------resid | 22 0.98537 0.371 -2.012 0.97790 Finalmente destacar que añadiendo vce(robust) al final del comando reg obtenemos estimadores robustos a los problemas de heteroscedasticidad y autorrelación, es decir, si existen dichos problemas los corrige directamente: . reg consumo renta deuda hijos, noconstant vce(robust) Linear regression Number of obs = F( 3, 19) = Prob > F = R-squared = Root MSE = 22 223.71 0.0000 0.9820 .35223 -----------------------------------------------------------------------------| Robust consumo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------renta | .4803109 .0426546 11.26 0.000 .3910338 .569588 deuda | .3849219 .119373 3.22 0.004 .1350714 .6347725 hijos | .2306591 .0735052 3.14 0.005 .0768109 .3845073 -----------------------------------------------------------------------------Por tanto, una posible lı́nea de comandos a ejecutar para estimar de forma óptima un modelo de regresión lineal serı́a: reg consumo renta deuda hijos, noconstant vce(robust) predict resid, residuals swilk resid 6 Apéndice Realizar inferencia es también muy fácil en Stata usando el comando ttest ya sea para comparar la media de una variable con un número: . ttest consumo = 2 One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------consumo | 22 2.204545 .228914 1.073702 1.728493 2.680598 -----------------------------------------------------------------------------mean = mean(consumo) t = 0.8935 Ho: mean = 2 degrees of freedom = 21 Ha: mean < 2 Pr(T < t) = 0.8092 Ha: mean != 2 Pr(|T| > |t|) = 0.3817 Ha: mean > 2 Pr(T > t) = 0.1908 O para comparar la media de dos variables (ya sea suponiendo varianzas iguales o distintas): . ttest consumo = renta, unpaired Two-sample t test with equal variances -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------consumo | 22 2.204545 .228914 1.073702 1.728493 2.680598 renta | 22 3.463636 .3832841 1.797762 2.666553 4.260719 ---------+-------------------------------------------------------------------combined | 44 2.834091 .2405935 1.595917 2.348888 3.319294 ---------+-------------------------------------------------------------------diff | -1.259091 .4464396 -2.160043 -.3581393 -----------------------------------------------------------------------------diff = mean(consumo) - mean(renta) t = -2.8203 Ho: diff = 0 degrees of freedom = 42 Ha: diff < 0 Pr(T < t) = 0.0036 Ha: diff != 0 Pr(|T| > |t|) = 0.0073 Ha: diff > 0 Pr(T > t) = 0.9964 . ttest consumo = renta, unpaired unequal Two-sample t test with unequal variances -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------consumo | 22 2.204545 .228914 1.073702 1.728493 2.680598 renta | 22 3.463636 .3832841 1.797762 2.666553 4.260719 ---------+-------------------------------------------------------------------7 combined | 44 2.834091 .2405935 1.595917 2.348888 3.319294 ---------+-------------------------------------------------------------------diff | -1.259091 .4464396 -2.166082 -.3520993 -----------------------------------------------------------------------------diff = mean(consumo) - mean(renta) t = -2.8203 Ho: diff = 0 Satterthwaite’s degrees of freedom = 34.2904 Ha: diff < 0 Pr(T < t) = 0.0040 Ha: diff != 0 Pr(|T| > |t|) = 0.0079 Ha: diff > 0 Pr(T > t) = 0.9960 Para contrastar si las varianzas son iguales se tiene la orden sdtest: . sdtest consumo=renta Variance ratio test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------consumo | 22 2.204545 .228914 1.073702 1.728493 2.680598 renta | 22 3.463636 .3832841 1.797762 2.666553 4.260719 ---------+-------------------------------------------------------------------combined | 44 2.834091 .2405935 1.595917 2.348888 3.319294 -----------------------------------------------------------------------------ratio = sd(consumo) / sd(renta) f = 0.3567 Ho: ratio = 1 degrees of freedom = 21, 21 Ha: ratio < 1 Pr(F < f) = 0.0111 Ha: ratio != 1 2*Pr(F < f) = 0.0223 Ha: ratio > 1 Pr(F > f) = 0.9889 Adviértase que para poder aplicar estas herramientas se necesitan muestras procedentes de una normal: . swilk consumo renta Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------consumo | 22 0.87679 3.121 2.308 0.01050 renta | 22 0.84221 3.997 2.810 0.00248 . by deuda, sort: swilk consumo renta -> deuda = 0 Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------consumo | 6 0.89617 1.286 0.380 0.35180 8 renta | 6 0.89486 1.302 0.400 0.34443 -> deuda = 1 Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------consumo | 16 0.86521 2.731 1.996 0.02299 renta | 16 0.81655 3.717 2.608 0.00456 9