Técnicas Econométricas - Universidad de Granada

Técnicas Econométricas Máster Universitario Técnicas Cuantitativas en Gestión Empresarial Román Salmerón Gómez Granada, 2013 Técnicas Econométricas: breve descripción de contenidos Román Salmerón Gómez A continuación se comenta brevemente la parte de la asignatura Técnicas Econométricas impartida por el Prof. Román Salmerón en el máster en Técnicas Cuantitativas para la Gestión Empresarial. Es conveniente hacer hincapié al estudiante de la necesidad de repasar conocimientos adquiridos en el grado (cálculo diferencial, álgebra matricial, inferencia estadı́stica, etc) ya que serán usados de forma constante durante el discurrir de la asignatura. La asignatura comienza con una introducción al alumno al concepto de Econometrı́a y modelo econométrico. Con tal objetivo se realiza un breve bosquejo histórico de la Econometrı́a, además de proporcionar una definición de la misma. A continuación se define qué se entiende por modelo econométrico y se describen las fases a realizar en todo análisis econométrico (especificación, estimación, validación y explotación del modelo). Finalmente, se explica la naturaleza de la información utilizada. Tras conocer qué es un modelo econométrico se presenta su formulación matemática ası́ como las hipótesis básicas que debe verificar. Este último aspecto es importante destacarlo, ya que el alumno debe saber que toda estimación y validación del modelo queda supeditada a que se verifiquen dichas hipótesis (es más, los últimos temas de la asignatura - segunda parte - se dedican a esta cuestión). A continuación se estimarán, por el método de Mı́nimos Cuadrados Ordinarios, las cantidades desconocidas del modelo (coeficientes de los regresores y varianza de la perturbación aleatoria) y se analizarán sus propiedades. Finalmente, se comenzará con la fase de validación del modelo econométrico presentando una primera herramienta para medir la bondad del ajuste realizado: el coeficiente de determinación y coeficiente de determinación corregido. A continuación se introduce en el modelo la suposición de que la perturbación aleatoria se distribuye según una normal. A partir de este momento, el modelo econométrico toma una nueva dimensión ya que esta suposición permitirá calcular intervalos de confianza y contrastes de hipótesis para los parámetros desconocidos del modelo. Ası́, en primer lugar se presentarán las distribuciones en el muestreo de los estimadores obtenidos en el tema anterior por el método de Mı́nimos Cuadrados Ordinarios (MCO), las cuales permitirán contrastar un conjunto de hipótesis lineales. Como casos particulares se destacan los contrastes de significación individual y se realiza una breve reseña a los Mı́nimos Cuadrados Restringidos. Además, constituyen también el punto de partida que permitirá introducir el análisis de la varianza (análisis ANOVA). En este punto es interesante mostrar su relación con el coeficiente de determinación, ya que permite obtener un valor a partir del cual éste último es significativo y, por tanto, valida el modelo. En la última fase, se explotará el modelo a partir de la predicción puntual óptima y por intervalo, ası́ como a través del contraste de permanencia estructural. Finalmente, se destacará que todas las conclusiones obtenidas no tienen validez si antes no se comprueba que la perturbación aleatoria sigue una distribución normal. Todos estos contenidos serán abordados tanto desde un aspecto teórico/práctico como (muy especialmente) desde un aspecto computacional, más concretamente, con el software econométrico Gretl. GUIA DOCENTE DE LA ASIGNATURA TÉCNICAS ECONOMÉTRICAS MÓDULO ASIGNATURA CURS O SEMESTR E CRÉDITOS CARÁCTER 1 TÉCNICAS ECONOMÉTRICAS 1 1 4 OPTATIVA PROFESOR(ES) JORGE CHICA OLMO ROMÁN SALMERÓN GÓMEZ DIRECCIÓN COMPLETA DE CONTACTO PARA TUTORÍAS (Dirección postal, teléfono, correo electrónico, etc.) Departamento de Métodos Cuantitativos para la Economía y la Empresa. Facultad de Ciencias Económicas y Empresariales. Campus de Cartuja s/n. 18011 Granada. Teléfono 958 240 619 Fax 958 240 620 Prof. Chica Olmo: jchica@ugr.es Despacho C-223. Tfno. 958 249922 Prof. Salmerón Gómez: romansg@ugr.es Despacho B-00. Tfno. 958 249637 HORARIO DE TUTORÍAS El horario actualizado de tutorías puede consultarse en el siguiente enlace: http://metodoscuantitativos.ugr.es/pages/doce ncia MÁSTER EN EL QUE SE IMPARTE OTROS MÁSTERES A LOS QUE SE PODRÍA OFERTAR Técnicas Cuantitativas en Gestión Empresarial PRERREQUISITOS Y/O RECOMENDACIONES (si procede) Conocimientos básicos de técnicas cuantitativas y ordenador. Página 1 BREVE DESCRIPCIÓN DE CONTENIDOS (SEGÚN MEMORIA DE VERIFICACIÓN DEL MÁSTER) REGRESIÓN 1. El modelo de Regresión Lineal. Supuestos e Hipótesis. 2. El Procedimiento de Estimación Mínimo Cuadrático. Estimación Máximo Verosímil. 3. Explotación de los Resultados de Estimación. Análisis de la Varianza (ANOVA). Medidas de Ajuste y Diagnosis del Modelo. 4. Caso Práctico de Aplicación INFERENCIA EN EL MODELO LINEAL 5. El Papel de Supuesto de Normalidad de las Perturbaciones. 6. Distribución de los Estimadores de los Parámetros en el Muestreo. 7. Inferencia en le Modelo de Regresión y Contraste de Hipótesis. Estimación por Intervalo. Intervalos de Confianza. 8. Caso Práctico de Aplicación (Continuación) TEMAS COMPLEMENTARIOS 9. Cambio Estructural y Estabilidad de los Parámetros 10. Estimación del Modelo Generalizado. 11. Problemas con los Datos: Multicolinealidad y Errores de Especificación. COMPETENCIAS GENERALES Y ESPECÍFICAS DEL MÓDULO Competencias Generales - * CG0: Hablar bien en público. CG1: Que los estudiantes adquieran la capacidad de trabajar en entornos internacionales. CG2: Que los estudiantes adquieran la capacidad de crítica y autocrítica. * CG3: Que los estudiantes sean capaces de buscar y recopilar información de un tema de interés proveniente de fuentes diversas, especialmente a partir de las nuevas tecnologías. * CG4: Que los estudiantes sean competentes para analizar, sintetizar y gestionar la información y documentos disponibles de forma eficaz, incluyendo la capacidad de interpretar, evaluar y emitir un juicio razonado. * CG5: Que los estudiantes adquieran la capacidad de trabajar en equipo, fomentando el intercambio de ideas, compartiendo el conocimiento y generando nuevas metas y modelos de trabajo colaborativo. CG6: Que los estudiantes tengan la capacidad de trabajar en equipos multidisciplinares. * CG7: Que los estudiantes tengan la capacidad de organización y planificación. Página 2 Competencias Específicas - - * * CE1: Aplicar las herramientas cuantitativas a la resolución de problemas en el ámbito empresarial planteados con datos procedentes de muestras de la población objetivo en estudio. * CE2: Aplicar las nuevas aportaciones en técnicas cuantitativas al ámbito empresarial así como la resolución de problemas en entornos nuevos o poco conocidos. * CE3: Capacidad de utilizar técnicas cuantitativas actuales que le permitan incorporarse a tareas de investigación en el contexto de la gestión empresarial. * CE4: Comprender el valor y los límites del método científico así como fomentar el interés por una investigación rigurosa propia del área de Métodos Cuantitativos para la Economía y la Empresa. * CE5: Capacidad de acceder a las bases de datos y fuentes documentales existentes para conocer las nuevas aportaciones en el campo de Métodos Cuantitativos para la Economía y la Empresa. CE6: Desarrollar una visión amplia y multidisciplinar de las aplicaciones de las principales técnicas cuantitativas. CE7: Adquirir conocimientos altamente especializados, alguno de ellos a la vanguardia en un campo de trabajo o estudio concreto, que sienten las bases de un pensamiento o investigación originales en el área de conocimiento de Métodos Cuantitativos para la Economía y la Empresa, así como ampliar sus conocimientos y atender las exigencias del mundo académico y profesional. CE8: Adquirir conciencia crítica de cuestiones de conocimiento en un tema concreto de las técnicas cuantitativas para emitir informes o juicios profesionales. * CE9: Capacidad de seleccionar las técnicas cuantitativas más idóneas para un correcto análisis o estudio. CE11: Plantear y construir modelos de series temporales que expliquen la evolución de una variable a lo largo del tiempo y a predecir sus valores futuros. * CE12: Capacidad de cuantificar relaciones de comportamiento entre variables económicas, verificar hipótesis sobre los parámetros de dichas relaciones y efectuar predicciones sobre las variables de interés. Con asterisco se indican las competencias de esta asignatura. OBJETIVOS (EXPRESADOS COMO RESULTADOS ESPERABLES DE LA ENSEÑANZA) El alumno sabrá/comprenderá: - Conocimientos sobre aspectos principales de la terminología económica, de la naturaleza de la economía y el entorno económico inmediato, nacional e internacional. - Conocimientos sobre los principales modelos y técnicas de representación y análisis de la realidad económica. - Las instituciones económicas como resultado y aplicación de representaciones teóricas o formales acerca de cómo funciona la economía. - Las principales técnicas instrumentales aplicadas al ámbito económico. El alumno será capaz de: - Interpretar datos económicos, proporcionar información relevante útil para todo tipo de usuarios. Aplicar al análisis de los problemas criterios profesionales basados en el manejo de instrumentos técnicos. Emitir informes de asesoramiento sobre situaciones concretas de la economía (internacional, nacional o regional) o de sectores de la misma. Desarrollar habilidades de aprendizaje para emprender estudios posteriores en el ámbito de la economía con un alto grado de autonomía. Página 3 TEMARIO DETALLADO DE LA ASIGNATURA REGRESIÓN 1. El modelo de Regresión Lineal. Supuestos e Hipótesis. 2. El Procedimiento de Estimación Mínimo Cuadrático. Estimación Máximo Verosímil. 3. Explotación de los Resultados de Estimación. Análisis de la Varianza (ANOVA). Medidas de Ajuste y Diagnosis del Modelo. 4. Casos prácticos desarrollados con software libre econométrico. INFERENCIA EN EL MODELO LINEAL 5. El Papel de Supuesto de Normalidad de la las Perturbaciones. 6. Distribución de los Estimadores de los Parámetros en el Muestreo. 7. Inferencia en le Modelo de Regresión y Contraste de Hipótesis. Estimación por Intervalo. Intervalos de Confianza. 8. Casos prácticos desarrollados con software libre econométrico (Continuación) TEMAS COMPLEMENTARIOS 9. Cambio Estructural y Estabilidad de los Parámetros. Test de Chow. 10. Incumplimiento de las hipótesis básicas del modelo. Contraste de normalidad en las perturbaciones. 11. Estimación del Modelo Generalizado. Heterocedasticiad y autocorrelación. 13. Problemas con los Datos. Multicolinealidad. Errores de Especificación. Datos espaciales. 14. Casos prácticos desarrollados con software libre econométrico (Continuación) BIBLIOGRAFÍA ALONSO, A.; FERNÁNDEZ, J. y GALLASTEGUI, I. (2005).- Econometría. Ed. Prentice Hall GUJARATI, D. (2010).- Econometría.- Ed. McGraw Hill MATILLA, M, PÉREZ, P y SANZ, B. (2013) Econometría y predicción. Ed. McGraw Hill SÁNCHEZ, C. (1999) Métodos Econométricos. Ariel Economía. Barcelona. STOCK, J.H. y WATSON, M.M. (2012) Introducción a la Econometría, 3ª ed. Pearson WOOLDRIDGE, J.M. (2010).- Introducción a la Econometría. Un enfoque moderno. 2ª Edic. Thomson ENLACES RECOMENDADOS Web del Dpto. de Métodos Cuantitativos para la Economía y la Empresa. http://metodoscuantitativos.ugr.es/ Instituto nacional de Estadística. http://www.ine.es/ Instituto de estadística andaluz. http://www.juntadeandalucia.es:9002/ Banco de España. http://www.bde.es/webbde/es/ Página 4 Bolsa de Madrid. http://www.bolsamadrid.es/homei.htm Anuario Económico de La Caixa. http://www.anuarieco.lacaixa.comunicacions.com Eurostat, http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/ . Descarga gratuita del programa Gretl: http://descargar.portalprogramas.com/gretl.html, http://gretl.softonic.com/ Guía multimedia para la elaboración de un modelo econométrico. www.ugr.es/local/jchica/Pagina2/Modelo/Modelo.htm Página personal de Román Salmerón: www.ugr.es/local/romansg/material/WebEco/index.html METODOLOGÍA DOCENTE La metodología que se llevará a cabo es la siguiente: 1. Tutorías personalizadas para buscar información reciente en diversas fuentes bibliográficas, plantear cuestiones de investigación, etc. 2. Realización de trabajos individuales o en grupo para la resolución de problemas en el ámbito empresarial. 3. Lectura e interpretación de la bibliografía especializada, incluyendo artículos de actualidad, propuesta en el programa de la materia. 4. Diseño, elaboración y exposición de un trabajo individual o en grupo de aplicación de los conocimientos teórico-práctico adquiridos. 5. Resolución de problemas relacionados con la materia y aplicados al ámbito empresarial. 6. Aplicaciones con ordenador. En dicha metodología es importante: 1. Desarrollo de clases teóricas en las que se expondrán los distintos contenidos con ayuda de material didáctico diverso. 2. Desarrollo de clases prácticas en las que se resolverán problemas relacionados con la materia y aplicados en el ámbito empresarial. Asimismo se fomentará la participación de los alumnos. 3. Realización de lecturas relacionadas con la materia, sobre las que se formularán preguntas o se solicitará un resumen crítico. 4. Realización de sesiones de discusión del material bibliográfico previas a las lecciones magistrales fomentando la participación del alumno. 5. Asistencia a seminarios teórico-prácticos que puedan desarrollarse durante el desarrollo de la materia y que incluyan foros de discusión. 6. Realización de prácticas en el aula de informática. 7. Charlas/coloquios que refuercen los conocimientos de la materia y fomenten la participación activa del alumno. Página 5 EVALUACIÓN (INSTRUMENTOS DE EVALUACIÓN, CRITERIOS DE EVALUACIÓN Y PORCENTAJE SOBRE LA CALIFICACIÓN FINAL, ETC.) 1. Prueba escrita: exámenes de ensayo, pruebas objetivas, resolución de problemas, casos o supuestos, pruebas de respuesta breve, informes y diarios de clase. (Ponderación: 0.6) 2. Prueba oral: exposiciones de trabajos orales en clase, individuales o en grupo, sobre contenidos de la materia (seminario) y sobre ejecución de tareas prácticas correspondientes a competencias concretas. (Ponderación: 0.3) 3. Técnicas basadas en la asistencia y participación activa del alumno en clase, seminarios y tutorías: trabajos en grupos reducidos sobre supuestos prácticos propuestos. (Ponderación: 0.1) El sistema de evaluación será preferentemente continua, entendiendo por tal la evaluación diversificada que se establece en este apartado. No obstante, se podrá realizar una evaluación única final a la que podrán acogerse aquellos estudiantes que no puedan cumplir con el método de evaluación continua por motivos laborales, estado de salud, discapacidad o cualquier otra causa debidamente justificada que les impida seguir el régimen de evaluación continua. INFORMACIÓN ADICIONAL La asignatura se desarrollará con la ayuda de ordenador. Página 6 Introducción a la Econometrı́a El modelo de regresión lineal múltiple Román Salmerón Gómez Universidad de Granada Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 1 / 68 Contenidos Contenidos Introducción Especificación del modelo Introducción Especificación del modelo Estimación del modelo Estimación del modelo Validación del modelo Validación del modelo Explotación del modelo Explotación del modelo Ejemplos Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 2 / 68 Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Introducción Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 3 / 68 Econometrı́a Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo La Estadı́stica juega un papel importante en cualquier ciencia empı́rica a la hora de estimular la formulación de modelos y contrastarlos. En la ciencia económica este papel se hace especialmente importante hasta el punto de que la necesidad de extender la Estadı́stica ha dado lugar al nacimiento de una disciplina nueva que hoy goza de una gran vitalidad: la Econometrı́a. La Econometrı́a es una rama de la Economı́a que aglutina a la Teorı́a Económica, las Matemáticas, la Estadı́stica y la Informática para estudiar y analizar fenómenos económicos. Puede decirse que constituye en sı́ misma una disciplina dentro de la Economı́a y a la vez una potente herramienta que tanto los economistas como otros muchos investigadores sociales utilizan para el estudio de sus problemas concretos. El principal propósito de la Econometrı́a es proporcionar un sustrato empı́rico a la Teorı́a Económica. Validación del modelo Explotación del modelo Ejemplos Máster TCGE Una breve descripción de la historia econométrica la puedes encontrar en las lecturas recomendadas. Introducción a la Econometrı́a: regresión múltiple – 4 / 68 Definición de Econometrı́a Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo De entre las muchas definiciones existentes sobre la Econometrı́a destacarı́a la siguiente: “La Econometrı́a, usando la Teorı́a Económica, las Matemáticas y la Inferencia Estadı́stica como fundamentos analı́ticos, y los datos económicos como la base informativa, proporciona una base para: 1. 2. Modificar, refinar o posiblemente refutar las conclusiones en el cuerpo de conocimientos conocido como Teorı́a Económica. Conseguir signos, magnitudes y afirmaciones de calidad para los coeficientes de las variables en las relaciones económicas, de modo que esta información puede usarse como base para la elección y toma de decisiones.” Validación del modelo Explotación del modelo Judge y otros (1985) Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 5 / 68 Modelo económico y econométrico Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE Modelo económico: Un modelo económico es una representación simplificada de la realidad económica mediante la expresión matemática de una determinada teorı́a económica. Modelo econométrico: Un modelo econométrico es aquel modelo económico que contiene todos los elementos necesarios para ser estudiado desde un punto de vista empı́rico. Es decir, un modelo económico en el que se ha especificado el tipo de relación entre variables (en este curso lineal), el número de variables, introducción de la perturbación aleatoria (para recoger el efecto de las variables no incluidas fundamentalmente), etc. Ası́, por ejemplo, un modelo económico es aquel en el que se especifica que el consumo es una función de la renta: Consumo = f (Renta). Mientras el modelo econométrico será aquel en el que se establece que la relación es lineal y se introduce la perturbación aleatoria ut : Consumot = β1 + β2 · Rentat + ut . Introducción a la Econometrı́a: regresión múltiple – 6 / 68 Fases del método econométrico Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE La elaboración de un modelo econométrico se puede dividir en las siguientes fases: Especificación: En esta fase se propone la forma matemática de la relación que liga las variables presentes en el modelo y la perturbación aleatoria. También debe decidirse el número de ecuaciones y variables que forman el modelo. Todo ello se realizará partiendo de la Teorı́a Económica. Estimación: Esta fase consiste en la obtención de valores numéricos de las cantidades constantes del modelo econométrico. Por tanto, será necesario disponer de información empı́rica sobre el fenómeno (datos) y haber decidido el método de estimación a usar. Validación: En esta fase se evalúan los resultados obtenidos en la etapa anterior para decidir si los mismos son o no aceptables tanto desde el punto de vista de la teorı́a económica (magnitudes, signos, etc) como desde el punto de vista estadı́stico (validez del modelo). Explotación: Si el modelo es aceptado, este puede ser usado para la predicción y contrastar la permanencia de la estructura estimada. Introducción a la Econometrı́a: regresión múltiple – 7 / 68 Componentes de un modelo econométrico Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Las principales componentes de un modelo econométrico son: Variables: Dentro de las variables podemos distinguir entre las variables observables (aquellas de las que se disponen datos) y no observables (la perturbación aleatoria). Y dentro de las primeras tenemos a las variables dependientes, explicadas o endógenas (aquellas que están influidas por otras variables) y variables independientes, explicativas o exógenas (aquellas que no están influidas por otras). Parámetros: Los parámetros son las cantidades fijas o constantes del modelo econométrico que se desean estimar (los coeficientes de las variables y la varianza de la perturbación aleatoria). Ecuaciones: Las relaciones entre las distintas variables se explicitará mediante una o más ecuaciones. Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 8 / 68 Naturaleza de la información utilizada en Econometrı́a Contenidos Introducción Definición de Econometrı́a Modelo económico y econométrico Fases del método econométrico Componentes de un modelo econométrico Naturaleza de la información utilizada en Econometrı́a Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE Los datos económicos suelen ser de clases muy variadas, siendo los tipos más importantes los siguientes: Datos de corte transversal: son un conjunto de datos formada por unidades (individuos, empresas, regiones, etc) observadas en un momento determinado (dı́a, mes, trimestre, año, etc). Por ejemplo, el consumo de varias familias en un mes en concreto. Datos de series temporales: son un conjunto de datos formado por observaciones de una misma variable a lo largo del tiempo. Por ejemplo, el consumo mensual de una familia a lo largo de todo un año. Datos de panel o longitudinales: son un conjunto de datos que combinan una dimensión temporal con otra transversal. Por ejemplo, el consumo mensual de un conjunto de familias a lo largo de todo un año. Habrá que atender al tipo de datos que se analicen ya que dependiendo de su naturaleza se podrán aplicar unos u otros métodos econométricos. Introducción a la Econometrı́a: regresión múltiple – 9 / 68 Contenidos Introducción Especificación del modelo Modelo lineal uniecuacional múltiple Hipótesis del modelo Estimación del modelo Especificación del modelo Validación del modelo Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 10 / 68 Modelo lineal uniecuacional múltiple Contenidos Introducción Especificación del modelo Modelo lineal uniecuacional múltiple El modelo lineal uniecuacional múltiple analiza la relación lineal entre una variable dependiente, Y , y más de una variable independiente, Xi , i = 1, . . . , k , k > 1, más un término aleatorio, u. Ası́, a partir de n observaciones para cada variable, el modelo puede ser expresado como: Hipótesis del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Yt = β1 + β2 Xt2 + β3 Xt3 + · · · + βk Xtk + ut , t = 1, . . . , n, (1) donde se ha considerado que hay término constante, es decir, X1t = 1, ∀t. El objetivo será estimar (es decir, obtener una aproximación numérica) aquellas cantidades constantes presentes en el modelo (1), ası́ como la bondad de la estimación realizada. En primer lugar, se escribe dicho modelo para todas y cada una de las observaciones: Y1 Y2 .. . Yn Máster TCGE = β1 + β2 X12 + β3 X13 + · · · + βk X1k + u1 = β1 + β2 X22 + β3 X23 + · · · + βk X2k + u2 .. . = β1 + β2 Xn2 + β3 Xn3 + · · · + βk Xnk + un Introducción a la Econometrı́a: regresión múltiple – 11 / 68 Modelo lineal uniecuacional múltiple Contenidos Que nos conduce a la siguiente forma matricial: Introducción yn×1 = Xn×k · βk×1 + un×1 , Especificación del modelo Modelo lineal uniecuacional múltiple donde: Hipótesis del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos yn×1   Y1  Y2    =  . ,  ..  Yn Xn×k Máster TCGE (2) βk×1    β1  β2    =  . ,  ..  βk 1 X12  1 X22  = . ..  .. . 1 Xn2 un×1   u1  u2    =  . ,  ..  un  X1k X2k   . .. ..  . . . . . Xnk ... ... Introducción a la Econometrı́a: regresión múltiple – 12 / 68 Hipótesis del modelo Contenidos Introducción Especificación del modelo Modelo lineal uniecuacional múltiple Hipótesis del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Consideraremos las siguientes hipótesis básicas en el modelo lineal uniecuacional múltiple: El vector y se puede expresar como combinación lineal de las variables explicativas más un vector de perturbación. La perturbación aleatoria está centrada (E[ut ] = 0, t= 1, . . . , n), es homocedástica V ar(ut ) = E[u2t ] = σ 2 , t = 1, . . . , n e incorrelada (Cov(ut , us ) = E[ut · us ] = 0, ∀t 6= s, t, s = 1, . . . , n). En tal caso se dice que las perturbaciones son esféricas y se verifica que E[u] = 0n×1 y V ar(u) = E[u · ut ] = σ 2 · In×n . La matriz X es no estocástica y de rango completo por columnas, es decir, rg(X) = k (como consecuencia n > k y las columnas de X , es decir, Xi , i = 1, . . . , n, son linealmente independientes). No hay relación entre variables independientes y la perturbación aleatoria: Cov(un×1 , Xi ) = = Máster TCGE E (u − E[u]) · (Xi − E[Xi ])t E u · (Xi − Xi )t = E[un×1 · 01×n ] = 0n×n . Introducción a la Econometrı́a: regresión múltiple – 13 / 68 Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Estimación del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 14 / 68 Estimación mı́nimo cuadrática de los coeficientes del modelo Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Definiendo los errores o residuos, e, del modelo lineal uniecuacional múltiple como la diferencia entre los verdaderos valores de la variable dependiente y su estimación, esto es e = y − yb, donde y b = X βb, y siguiendo la premisa de minimizar la suma de los cuadrados de los residuos b t · (y − X β) b = y t y − 2βbt X t y + βbt X t X β, b et e = (y − X β) se obtiene la estimación del parámetro β como Validación del modelo βb = X t X Explotación del modelo Ejemplos Máster TCGE −1 · X t y. Dicho método recibe el nombre de mı́nimos cuadrados ordinarios, MCO, por lo que los estimadores obtenidos a partir de dicho método reciben el nombre de estimadores de mı́nimos cuadrados ordinarios, EMCO. Como consecuencias de dicha estimación se verifica que X t · e = 0k×1 , it · e = 01×1 , it · yb = it · y y ybt · e = 01×1 donde it = (1 1 . . . 1)1×n . Introducción a la Econometrı́a: regresión múltiple – 15 / 68 Estimación mı́nimo cuadrática de los coeficientes del modelo Contenidos Adviértase que: Introducción  Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos n   P  n X  t2 t=1 X tX =   ..  .   P n Xtk t=1 y n P Xt2 t=1 n P t=1 n P ··· .. . .. t=1  n P t=1 n P Xtk Xt2 Xtk t=1 . ··· Y  t=1 t  P  n X Y  t2 t t=1 X ty =   ..  .   P n Xtk Yt t=1 Máster TCGE ··· 2 Xt2 Xtk Xt2 n P n P t=1 .. . 2 Xtk      ,          .     Introducción a la Econometrı́a: regresión múltiple – 16 / 68 Teorema de Gauss-Markov Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema 1 (Teorema de Gauss-Markov) Los estimadores de mı́nimos cuadrados ordinarios son lineales, insesgados y óptimos (ELIO), es decir, tienen varianza mı́nima entre la clase de los estimadores lineales e insesgados. En efecto, por la forma de escribirse el estimador es evidente que es lineal. Ası́, llamando: Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Ck×n = X t X −1 k×k t · Xk×n Validación del modelo Explotación del modelo Ejemplos  c11  c21  = .  .. ck1 c12 c22 .. . ck2  c1n c2n   ..  , .. . .  . . . ckn ... ... b se expresa como combinación lineal del vector y : se tiene que β βbk×1 = Ck×n · yn×1 Máster TCGE   c11 Y1 + c12 Y2 + . . . + c1n Yn  c21 Y1 + c22 Y2 + . . . + c2n Yn    = . ..   . ck1 Y1 + ck2 Y2 + . . . + ckn Yn Introducción a la Econometrı́a: regresión múltiple – 17 / 68 Teorema de Gauss-Markov Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos b de β sea insesgado se ha de cumplir que E[β] b = β . En Para que el estimador β b: efecto, sustituyendo y = Xβ + u en β −1 · X t (Xβ + u) · X ty = X tX −1 −1 · X t u. · X t u −→ βb = β + X t X = β + X tX βb = −1 Entonces, teniendo en cuenta que E[u] = 0: i h −1 −1 t t b · X t · E[u] = β. · X u = β + X tX E[β] = E β + X X b: Por otro lado, la matriz de varianzas-covarianzas de β V ar βb = = = = Máster TCGE X tX t t b b b b b b =E β−β · β−β E β − E[β] · β − E[β] h −1 i −1 t X u · ut X X t X E X tX −1 −1 t X · E[u · ut ] · X X t X X tX −1 −1 −1 t , = σ2 · X t X X X X tX σ2 · X t X Introducción a la Econometrı́a: regresión múltiple – 18 / 68 Teorema de Gauss-Markov Contenidos Introducción Especificación del modelo Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos b es insesgado, βb − β = (X t X)−1 X t u y donde se ha tenido en cuenta que β V ar(u) = E[u · ut ] = σ 2 · In×n . b es de mı́nima varianza consideraremos otro estimador, Para demostrar que β β ∗ , de β lineal e insesgado de forma que V ar βb < V ar (β ∗ ). En efecto, β ∗ = Dk×n · yn×1 tal que D · X = Ik×k es lineal e insesgado. Además, V ar (β ∗ ) = σ 2 · DD t . −1 En tal caso, puesto que podemos escribir D = (X t X) X t + W con −1 W 6= 0k×n , se tiene que DDt = (X t X) + W W t , y en tal caso: −1 2 t ∗ 2 t 2 t +σ ·W W = V ar βb +σ 2 ·W W t , V ar (β ) = σ ·DD = σ · X X b = σ2 · W W t. esto es, V ar (β ) − V ar β ∗ b > 0, y en tal Y como W W es definida positiva: V ar (β ) − V ar β caso: ∗ V ar (β ) > V ar βb . t Máster TCGE ∗ Introducción a la Econometrı́a: regresión múltiple – 19 / 68 Estimación de la varianza de la perturbación aleatoria Contenidos Introducción Especificación del modelo Además de los coeficientes de las variables independientes, hay en el modelo otra cantidad constante que habrá que estimar: la varianza de la perturbación aleatoria, σ 2 . Un estimador insesgado de σ 2 es: Estimación del modelo Estimación mı́nimo cuadrática de los coeficientes del modelo Teorema de Gauss-Markov Estimación de la varianza de la perturbación aleatoria Validación del modelo Explotación del modelo Ejemplos σ b2 = et e , n−k ya que E[et e] = (n − k) · σ 2 . Para calcular dicho estimador se dispone de la expresión: y t y − βbt X t y . σ b = n−k 2 b es: En consecuencia, la estimación de la matriz de varianzas-covarianzas de β −1 \ . b2 · X t X V ar βb = σ Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 20 / 68 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Validación del modelo Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 21 / 68 Bondad de ajuste: Coeficiente de determinación Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Una vez estimado el modelo lineal uniecuacional multiple, es decir, una vez obtenidas las estimaciones de β y σ 2 , el siguiente paso será estudiar la calidad de dichas estimaciones. Ası́, a continuación, obtendremos el coeficiente de determinación, que no es más que una medida para estudiar la bondad del ajuste lineal determinado por los estimadores por mı́nimos cuadrados ordinarios. Dicho coeficiente de determinación, que se denota por R2 , se define como el porcentaje de variabilidad explicada por el modelo. Por tanto, éste se obtendrá como el cociente entre la varianza explicada por la estimación y la total: R2 = 1 T 1 T · · 2 n P Ybi − Y 2 n P Ybi − Y i=1 i=1 i=1 n P Yi − Y i=1 n 2 = P Yi − Y 2 . Como se observa, el coeficiente de determinación queda expresado en función de la suma de cuadrados explicados (SCE) y los totales (SCT). Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 22 / 68 Bondad de ajuste: Coeficiente de determinación Contenidos Luego, teniendo en cuenta la descomposición Introducción SCT = SCE + SCR, Especificación del modelo Estimación del modelo se tiene que R2 = Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo SCR SCE =1− . SCT SCT Entonces, para calcular dicho coeficiente se dispone de la expresión: 2 R = 2 βbt X t y − n · Y yt y − n · Y 2 =1− y t y − βbt X t y yt y − n · Y 2 . Adviértase que, siempre que el modelo lineal tenga término independiente, el coeficiente de determinación varı́a entre 0 y 1. El valor 0 lo toma cuando la SCE es nula y, por tanto, el modelo no es adecuado; mientras que toma el valor 1 cuando la SCR es nula y, por tanto, el modelo es adecuado. Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 23 / 68 Coeficiente de determinación corregido Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Puesto que a medida que vamos incluyendo variables en el modelo el coeficiente de determinación aumenta aunque las variables que incluyamos no sean significativas, esto supone un problema. 2 El coeficiente de determinación corregido, R , viene a resolver este problema del coeficiente de determinación. Dicho coeficiente mide el porcentaje de variación de la variable dependiente (al igual que el coeficiente de determinación) pero teniendo en cuenta el número de variables incluidas en el modelo. Se define como: 2 R = 1 − (1 − R2 ) · n−1 . n−k En cualquier caso, estas medidas de bondad del ajuste no deben de ser 2 sobrevaloradas. Obtener un R2 o R cercano a 1 no indica que los resultados sean fiables, ya que, por ejemplo, puede ser que no se cumpla alguna de las hipótesis básicas y los resultados no ser válidos. Por tanto, estos indicadores han de ser considerados como una herramienta más a tener en cuenta dentro del análisis. Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 24 / 68 Distribución en el muestreo de los estimadores MCO Contenidos Introducción Introduciendo la hipótesis de que la perturbación aleatoria sigue una distribución normal, esto es: un×1 ∼ N (0n×1 , σ 2 · In×n ). Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza −1 bk×1 ∼ N (β, σ 2 · (X t X) En consecuencia, β ), ya que: βb sigue una distribución normal ya que se puede expresar en función de una b = β + (X t X)−1 · X t u. normal: β h i b = β , y matriz de varianzasse tienen calculados el vector de medias, E β b = σ 2 · (X t X)−1 . covarianzas, V ar β −1 Por otro lado, ya que et e = ut M u siendo Mn×n = I − X (X t X) X t t u simétrica, idempotente y con rg(M ) = n − k < k se tiene que u σM ∼ χ2n−k , 2 lo que se traduce en que Intervalos de confianza (n − k) · σ b2 ∼ χ2n−k . 2 σ Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 25 / 68 Contraste de un conjunto de hipótesis lineales Contenidos Introducción Especificación del modelo A continuación abordaremos la especificación de contrastes sobre un conjunto de hipótesis lineales sobre los coeficientes del modelo. Concretamente, suponiendo q restricciones lineales independientes entre sı́: a11 β1 + a12 β2 + · · · + a1k βk a21 β1 + a22 β2 + · · · + a2k βk Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares aq1 β1 + aq2 β2 + · · · + aqk βk Análisis de la varianza Explotación del modelo Ejemplos Máster TCGE . = .. = bq Plantearemos contrastar la hipótesis nula H0 : Rβ = r donde Mı́nimos Cuadrados Restringidos Intervalos de confianza .. . .. . = b1 = b2 Rq×k  a11  a21  = .  .. aq1 a12 a22 .. . aq2  . . . a1k . . . a2k   ..  , .. . .  . . . aqk rq×1   b1  b2    =  . . .  .  bq Introducción a la Econometrı́a: regresión múltiple – 26 / 68 Contraste de un conjunto de hipótesis lineales Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Usando la distribución h i−1 t R (X t X)−1 Rt b b · Rβ − Rβ ∼ Fq,n−k , Rβ − Rβ · q·σ b2 rechazaremos la hipótesis nula al nivel de significación α si i−1 h −1 t t t R (X X) R b − r > Fq,n−k (1 − α), Rβb − r · · R β q·σ b2 donde Fq,n−k (1 − α) es el punto de una F de Senedecor de q y n − k grados de libertad que deja por debajo suyo una probabilidad 1 − α. Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 27 / 68 Casos particulares Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE Un caso particular de suma importancia será aquel en el que se desee contrastar la hipótesis nula H0 : βi = bi , i = 1, . . . , k . En tal caso, q = 1, R = (0 0 . . . 1i) . . . 0) y r = bi , por lo que la distribución anterior queda simplificada como 2 b βi − bi σ b 2 · wi ∼ F1,n−k , −1 donde wi es el elemento (i,i) de la matriz (X t X) −1 es el elemento (i,i) de σ b2 · (X t X) , o lo que es lo mismo, σ b 2 · wi \ = V ar βb , esto es, la varianza estimada bi . de β Teniendo en cuenta que la raı́z cuadrada de una F-Snedecor con 1 y n grados de libertad es una t-Student con n grados de libertad se tiene que βbi − bi √ ∼ tn−k , σ b · wi Introducción a la Econometrı́a: regresión múltiple – 28 / 68 Casos particulares Contenidos y en tal caso rechazaremos H0 : βi = bi al nivel de significación α si Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos βb − b α i i , √ > tn−k 1 − σ b · wi 2 donde tn−k 1 − α 2 es el punto de una distribución t de student con n − k grados de libertad que deja por debajo suya una probabilidad 1 − α 2. Este caso particular es de vital importancia cuando bi = 0, ya que entonces estaremos contrastando si el coeficiente de la variable independiente Xi es o no nulo. De forma que al rechazar dicha hipótesis tenemos garantizado que la variable Xi ha de estar en el modelo, por lo que sus variaciones influyen en la variable dependiente. En tal caso se dice que dicha variable es significativa y que el contraste es un contraste de significación individual. Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 29 / 68 Mı́nimos Cuadrados Restringidos Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE En el caso en el que no se rechace la hipótesis nula H0 : Rβ = r , serı́a deseable incorporar dicha información al modelo. En tal caso, se obtiene un nuevo estimador: h i βbR = βb + X t X −1 Rt R X t X −1 Rt −1 · r − Rβb , que recibe el nombre de mı́nimos cuadrados restringidos ya que se ha obtenido bR = r . con la restricción de que ha de verificar que Rβ Dicho estimador es lineal, insesgado siempre que la hipótesis nula H0 : Rβ = r sea cierta y óptimo. Es decir, el estimador por mı́nimos cuadrados restringidos tiene menor varianza que el estimador mı́nimo cuadrático ordinario siempre y cuando la restricción (hipótesis nula) sea cierta. Luego, cuando una restricción lineal sobre los coeficientes de las variables independientes es cierta, el estimador por mı́nimos cuadrados ordinarios deja de ser óptimo y habrá que usar el estimador por mı́nimos cuadrados restringidos. Además se verifica que: SCRR ≥ SCR, 2 RR ≤ R2 . Introducción a la Econometrı́a: regresión múltiple – 30 / 68 Análisis de la varianza Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación El análisis de la varianza aborda el contraste que tiene por hipótesis nula que todos los coeficientes de las variables independientes son nulos simultáneamente, esto es, H0 : β2 = β3 = · · · = βk = 0. Salta a la vista que estamos ante un caso particular de un contraste sobre k − 1 restricciones lineales de los coeficientes de las variables independientes. En este caso, rechazaremos la hipótesis nula al nivel de significación α si Fexp = Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza SCE k−1 SCR n−k > Fk−1,n−k (1 − α). Para calcular dicho estadı́stico se suele resumir la información anterior en una tabla, conocida como tabla de análisis de la varianza (tabla ANOVA) ya que en ella se recogen las fuentes de variación de la varianza: Fuente de variación Suma de Cuadrados Intervalos de confianza Grados de Libertad Medias k−1 n−k SCE k−1 SCR n−k 2 SCE = βbt X t y − nY SCR = y t y − βbt X t y Explicada Explotación del modelo Residuos Ejemplos SCT = y t y − nY Total Máster TCGE 2 n−1 Introducción a la Econometrı́a: regresión múltiple – 31 / 68 Análisis de la varianza Contenidos Introducción Especificación del modelo Estimación del modelo Adviértase que rechazar H0 implica que hay al menos un coeficiente no nulo, por lo que la relación existente entre las variables independientes y la dependiente no se debe al azar, lo cual valida el modelo en su conjunto. Por otro lado, sin más que dividir la región de rechazo por SCT tanto en el numerador como en el denominador se obtiene la expresión equivalente: Validación del modelo R2 k−1 1−R2 n−k Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos > Fk−1,n−k (1 − α). La importancia de esta nueva expresión para la región de rechazo es que permite calcular una cota, sin más que despejar R2 , a partir de la cual el coeficiente de determinación es significativo. Esto es, el coefciente de determinación es significativo al nivel de significación α si Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE 2 R > 1 k−1 n−k · Fk−1,n−k (1 − α) . k−1 + n−k · Fk−1,n−k (1 − α) Introducción a la Econometrı́a: regresión múltiple – 32 / 68 Intervalos de confianza Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Bondad de ajuste: Coeficiente de determinación Distribución en el muestreo de los estimadores MCO Contraste de un conjunto de hipótesis lineales: casos particulares Mı́nimos Cuadrados Restringidos Análisis de la varianza Intervalos de confianza Explotación del modelo Ejemplos Máster TCGE A partir de las distribuciones en el muestreo para los estimadores estudiados es inmediato obtener los siguientes intervalos de confianza al nivel 1 − α: Intervalo de confianza para βi √ α b ·σ b · wi , βi ± tn−k 1 − 2 i = 1, . . . , k. Intervalo de confianza para σ 2 " 2 2 # (n − k) · σ b (n − k) · σ b , α , α 2 2 χn−k 1 − 2 χn−k 2 y χ2n−k α son los puntos de una distribución chidonde χ2n−k 1 − α 2 2 cuadrado con n−k grados de libertad que dejan a su izquierda, respectivamente, α una probabilidad 1 − α 2 y 2. Una forma alternativa de contrastar hipótesis es usando los intervalos de confianza. De manera que para contrastar H0 : Rβ = r se calculará la región de confianza para Rβ y si r pertenece a dicha región, no se rechazará la hipótesis nula. Introducción a la Econometrı́a: regresión múltiple – 33 / 68 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Ejemplos Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 34 / 68 Predicción Puntual Óptima Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Ejemplos Una vez validado el modelo, la siguiente fase de un modelo econométrico es la explotación, siendo entonces la predicción o la permanencia estructural algunos de sus objetivos. La predicción se realiza desde dos puntos de vista: a) por un lado realizaremos una predicción puntual dando un único valor de predicción para un instante en concreto; b) por otra parte, puesto que Y es una variable aleatoria, podemos calcular su esperanza dado un valor en concreto de las variables independientes. Siguiendo las directrices anteriores se llega a la misma expresión algebráica en ambos casos: b p0 = xt0 · β, donde xt0 = (1 X02 X03 . . . X0k ) contiene los valores de las variables independientes para los que se quiere obtener la predicción. Este predictor, p0 , mı́nimo cuadrático (ya que se obtiene a partir del estimador por mı́nimos cuadrados ordinarios de β ) es lineal, insesgado y óptimo (en el sentido de mı́nima varianza). Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 35 / 68 Predicción por intervalo Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Ejemplos Máster TCGE En este apartado calcularemos el intervalo de confianza para el valor esperado de Y dado x0 , es decir, para E[Y0 /x0 ] = xt0 · β . b se distribuye según una normal (ya que está en función de βb) y Como xt0 · β b = xt β , ya que es insesgado. E[xt0· β] i 0 h t t b t t b t b = xt0 · = E x0 · β − x0 · β · x0 · β − x0 · β V ar x0 · β t −1 t b b ·x0 = x0 ·V ar βb ·x0 = σ 2 ·xt0 (X t X) x0 . E β−β · β−β se tiene que xt0 −1 t 2 t t b · β ∼ N x0 · β, σ · x0 X X x0 . Ahora bien, esta distribución no es apta para hacer inferencia puesto que depende de la cantidad desconocida σ 2 . Para resolver este problema, tipificaremos la anterior distribución normal y la dividiremos entre la raı́z cuadrada de la siguiente distribución chi-cuadrado Introducción a la Econometrı́a: regresión múltiple – 36 / 68 Predicción por intervalo Contenidos (n − k) · σ b2 ∼ χ2n−k , σ2 Introducción Especificación del modelo Estimación del modelo dividida a su vez entre sus grados de libertad, obteniendo la siguiente distribución t-Student: xt0 · βb − xt0 · β q ∼ tn−k . −1 t t σ b · x0 (X X) x0 Validación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Ejemplos A partir de esta distribución, el intervalo de confianza al nivel 1 − α para E[Y0 /x0 ] = xt0 · β es: q α ·σ b · xt0 (X t X)−1 x0 , · βb ± tn−k 1 − 2 donde tn−k 1 − α 2 es el punto de una distribución t de Student con n − k grados de libertad que deja a su izquierda una probabilidad 1 − α 2. xt0 Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 37 / 68 Contraste de Permanencia Estructural Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Predicción Puntual Óptima Predicción por intervalo Contraste de Permanencia Estructural Al explotar el modelo mediante la predicción se está presuponiendo que la relación estimada se mantiene para la información no presente en la muestra observada. Para confirmar este aspecto, calcularemos el intervalo de confianza para Y dado x0 , de forma que si la nueva información pertenece a dicho intervalo, la estructura del modelo estimado permanecerá. Partiendo de que −1 2 t t b t b Y0 − Y0 = u0 − x0 β − β ∼ N 0, σ · 1 + x0 X X x0 , se llega de forma análoga a la anterior a la distribución Y0 − Yb0 q ∼ tn−k , −1 t t σ b · 1 + x0 (X X) x0 Ejemplos b0 = xt0 · βb. Por tanto, el intervalo de confianza al nivel 1 − α para Y0 es: donde Y xt0 Máster TCGE q α −1 b ·σ b · 1 + xt0 (X t X) x0 . · β ± tn−k 1 − 2 Introducción a la Econometrı́a: regresión múltiple – 38 / 68 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplos Ejemplo 1 Ejemplo 2 Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 39 / 68 Ejemplo 1 Contenidos A continuación vamos a realizar un análisis exhaustivo del modelo Introducción Especificación del modelo Estimación del modelo Yt = β1 + β2 · Xt2 + β3 · Xt3 + ut , a partir de las siguiente información muestral: Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Observación 1 2 3 4 5 6 7 8 Yt Xt2 Xt3 16 26 30 44 56 64 68 72 1 3 5 7 8 10 10 12 1 2 -1 3 -2 0 1 4 En primer lugar calcularemos la estimación por mı́nimos cuadrados ordinarios de los coeficientes de las variables a partir de la expresión Máster TCGE βb = X t X −1 X t y. (3) Introducción a la Econometrı́a: regresión múltiple – 40 / 68 Ejemplo 1 Contenidos A partir de la información muestral anterior es claro que:  Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 de forma que:      y=      16 26 30 44 56 64 68 72        ,           X=        8 56 8 X t X =  56 492 65  , 8 65 36 y entonces a partir de la fórmula (3): Máster TCGE  1 1 1 1 3 2   1 5 −1   1 7 3  , 1 8 −2   1 10 0   1 10 1  1 12 4   376 X t y =  3184  , 414 Introducción a la Econometrı́a: regresión múltiple – 41 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2  −1   8 56 8 376 βb =  56 492 65  ·  3184  8 65 36 414     376 0′ 62 −0′ 0688 −0′ 0136 =  −0′ 0688 0′ 0103 −0′ 0033  ·  3184  414 −0′ 0136 −0′ 0033 0′ 0368  ′  8 5189  5′ 5587  . = −0′ 4296 b1 = 8′ 5189, βb2 = 5′ 5587 y βb3 = −0′ 4296. Lo cual se traduce en la Es decir, β siguiente estimación del modelo considerado: Ybt = 8′ 5189 + 5′ 5587Xt2 − 0′ 4296Xt3 . Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 42 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 A partir de estas estimaciones es sencillo obtener las estimaciones de Y :       b yb = X β =       1 1 1 1 1 1 1 1 1 3 5 7 8 10 10 12 1 2 −1 3 −2 0 1 4 y los residuos del modelo:  Máster TCGE      e = y − yb =       16 26 30 44 56 64 68 72          ′     8 5189    ·  5′ 5587  =    ′   −0 4296                  −           13′ 6480 24′ 3358 36′ 7420 46′ 1410 53′ 8477 64′ 1059 63′ 6763 73′ 5049             =           13′ 6480 24′ 3358 36′ 7420 46′ 1410 53′ 8477 64′ 1059 63′ 6763 73′ 5049 2′ 3520 1′ 6642 −6′ 7420 −2′ 1410 2′ 1523 −0′ 1059 4′ 3237 −1′ 5049       ,            .      Introducción a la Econometrı́a: regresión múltiple – 43 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Desde un punto de vista teórico, dichos residuos han de sumar cero, si bien en este caso la suma del vector anterior es igual a −0′ 0016. De igual forma, a partir de dichos residuos se puede obtener fácilmente la estimación de la varianza de la perturbación aleatoria, ya que por definición: Estimación del modelo Validación del modelo σ b2 = Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 et e , n−k (4) donde et e es la suma de los cuadrados de los residuos, n el número de observaciones del modelo y k el número de variables presentes en el mismo. En este caso: 83′ 8472 σ b = = 16′ 76944. 8−3 2 Otra forma equivalente de obtener la estimación anterior es: σ b2 = Máster TCGE y t y − βbt X t y . n−k (5) Introducción a la Econometrı́a: regresión múltiple – 44 / 68 Ejemplo 1 Contenidos Puesto que Introducción Especificación del modelo y t y = 20808, Estimación del modelo Validación del modelo es claro que   376 βbt X t y = (8′ 5189 5′ 5587 − 0′ 4296)  3184  = 20724′ 1528, 414 Explotación del modelo σ b2 = Ejemplos Ejemplo 1 Ejemplo 2 83′ 8472 20808 − 20724′ 1528 = = 16′ 76944. 8−3 5 Y a partir de esta estimación se puede obtener la estimación de la matriz de b mediante: varianzas-covarianzas de β \ V ar βb = =  0′ 62 −1 = 16′ 7694 ·  −0′ 0688 σ b2 · X t X −0′ 0136   10′ 3976 −1′ 1533 −0′ 2282  −1′ 1533 0′ 1727 −0′ 0555  , −0′ 2282 −0′ 0555 0′ 6168 Máster TCGE −0′ 0688 0′ 0103 −0′ 0033  −0′ 0136 −0′ 0033  0′ 0368 (6) Introducción a la Econometrı́a: regresión múltiple – 45 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo que será usada para calcular la región de rechazo de los contrastes de significación individual ası́ como para los intervalos de confianza de cada coeficiente de la regresión. Para medir la bondad del ajuste realizado mediante la estimación anterior calcularemos el coeficiente de determinación: Validación del modelo R2 = Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 y t y − βbt X t y βbt X t y − nY = 1 − . y t y − nY y t y − nY (7) Para la primera expresión de (7), teniendo en cuenta que: βbt X t y − nY = 20724′ 1528 − 8 · 472 = 20724′ 1528 − 17672 = 3052′ 1528, y t y − nY = 20808 − 17672 = 3136, se tiene que R2 = 3052′ 1528 = 0′ 97326301. 3136 2 Además, en tal caso: R = 1 − (1 − 0′ 97326301) · 57 = 0′ 9625682. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 46 / 68 Ejemplo 1 Contenidos Mientras que para la segunda expresión: Introducción R2 = 1 − Especificación del modelo 83′ 8472 = 1 − 0′ 02673699 = 0′ 97326301. 3136 Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 A partir de este coeficiente podemos afirmar que el ajuste realizado permite explicar un 97′ 326301 % de la variabilidad de la variable dependiente, que si bien se encuentra muy próximo al 100 %, más adelante comprobaremos si es significativo y, por tanto, si es suficiente para validar el modelo. Una vez estimadas las cantidades constantes del modelo, a continuación se estudiará la validez del mismo a partir de: contrastes de significación individual. contraste de significación conjunta. significación del coeficiente de determinación. Para abordar los contrastes de significación individual tendremos en cuenta que se rechaza H0 : βi = 0 si Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 47 / 68 Ejemplo 1 Contenidos texp Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 βb α i , = √ > tn−k 1 − σ b · wi 2 ∀i, −1 donde wi es el elemento (i, i) de la matriz (X t X) o, lo que es lo mismo, √ −1 b2 · (X t X) = σ b · wi es la raı́z cuadrada del elemento (i, i) de la matriz σ \ V ar βb . √ √ ′ 1727 = 0′ 4156 y σ 0 b · w3 = √ α ′ ′ 0′ 6168 = 0 7854. Teniendo en cuenta que tn−k 1 − 2 = t5 (0 975) = ′ 2 57, se obtiene que: Observando (6) es claro que σ b· √ w2 = ′ 5587 ′ ′ rechazo H0 : β2 = 0 si texp = 05′ 4156 ′ = 13 376 > 2 57. 4296 ′ ′ rechazo H0 : β3 = 0 si texp = −0 0′ 7854 = 0 547 > 2 57. Como es evidente, rechazamos H0 : β2 = 0 y no rechazamos H0 : β3 = 0, es decir, la variable Xt2 influye en Yt , mientras que la Xt3 no lo hace. En tal situación se dice que la segunda variable es significativa y que la tercera no es significativa. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 48 / 68 Ejemplo 1 Contenidos Introducción Para el contraste de significación conjunta, H0 : β2 = β3 = 0, se rechaza la hipótesis nula si Especificación del modelo Estimación del modelo Fexp = Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 SCE/k − 1 > Fk−1,n−k (1 − α), SCR/n − k donde Fk−1,n−k (1 − α) es el punto de una F de Snedecor con k − 1 y n − k grados de libertad que deja a su izquierda una probabilidad 1 − α, SCE denota a la suma de cuadrados explicada y SCR a la suma de los cuadrados de los residuos (cantidades que ya han sido calculadas con anterioridad al obtener el coeficiente de determinación). En este caso, para calcular la región de rechazo recurriremos a la tabla ANOVA: Fuentes de variación Explicada Residual Total Sumas de cuadrados ′ SCE = 3052 1528 SCR = 83′ 8472 SCT = 3136 Grados de libertad Medias k−1=2 n−k =8−3=5 1526′ 0764 16′ 76944 ′ 0764 ′ Luego Fexp = 1526 16′ 76944 = 91 00342. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 49 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Y como Fk−1,n−k (1 − α) = F2,5 (0′ 95) = 5′ 78, es evidente que se rechaza la hipótesis nula. Esto es, existe al menos un coeficiente que es no nulo de manera que entonces se puede afirmar que hay algún tipo de asociación (que no se debe al azar) entre las variables independientes y la dependiente. Para terminar con la validación del modelo, estuadiaremos si el coeficiente de determinación obtenido con anterioridad es significativo o no. Teniendo en cuenta que: R2 /k − 1 SCE/k − 1 = , SCR/n − k (1 − R2 )/n − k Ejemplos Ejemplo 1 Ejemplo 2 la región de rechazo anterior se puede expresar como: R2 /k − 1 > Fk−1,n−k (1 − α), (1 − R2 )/n − k y sin más que despejar el coeficiente de determinación, se obtiene que el modelo es significativo si 2 R > Máster TCGE 1 k−1 · Fk−1,n−k (1 − α) n−k k−1 + n−k · Fk−1,n−k (1 − α) 2 = Rsig . Introducción a la Econometrı́a: regresión múltiple – 50 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo 2 Esto es, se tiene una cota, Rsig , a partir de la cual el coeficiente de determinación es significativo. Puesto que en este caso: k−1 n−k = 2 = 0′ 4 5 Fk−1,n−k (1 − α) = F2,5 (0′ 95) = 5′ 78 ) Explotación del modelo 2 → Rsig = Ejemplos Ejemplo 1 Ejemplo 2 → k−1 n−k ′ ′ ′ · Fk−1,n−k (1 − α) = 0 4 · 5 78 = 2 312 2′ 312 = 0′ 6981. ′ 3 312 Recordemos que R2 = 0′ 97326301, que claramente es significativo al ser su2 perior a la cota inferior de significación Rsig = 0′ 6981. Esto es, el coeficiente de determinación obtenido implica que el modelo es explicativo. Por todo lo anterior, parece claro que el modelo es válido y, por tanto, apto para la predicción. Supongamos ahora que se tiene nueva información para las variables independientes (X02 = 2 y X03 = 3) y que se desea obtener una predicción puntual y por intervalo a partir de ella para la variable dependiente. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 51 / 68 Ejemplo 1 Contenidos A partir de dicha información, la predicción puntual óptima será   8′ 5189 xt0 βb = (1 2 3) ·  5′ 5587  = 18′ 3475. −0′ 4296 Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Mientras que para la predicción por intervalo será necesario calcular: Ejemplos Ejemplo 1 Ejemplo 2 xt0 X t X −1  0′ 62 x0 = (1 2 3)· −0′ 0688 −0′ 0136 −0′ 0688 0′ 0103 −0′ 0033   −0′ 0136 1 −0′ 0033   2  = 0′ 596, 0′ 0368 3 de forma que el intervalo de confianza para el valor esperado de Y será: q α ·σ b · xt0 (X t X)−1 x0 1− 2 √ = 18′ 3475 ± 2′ 57 · 4′ 095051 · 0′ 596 = (10′ 221, 26′ 4742). xt0 βb ± tn−k y el intervalo de confianza para Y será: Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 52 / 68 Ejemplo 1 q α ·σ b · 1 + xt0 (X t X)−1 x0 1− 2 √ = 18′ 3475 ± 2′ 57 · 4′ 095051 · 1′ 596 = (5′ 04887, 31′ 64613). Contenidos xt0 βb ± tn−k Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Además, a partir de este último intervalo (conocido como permanencia estructural), si se sabe que acompañando a x0 se tiene Y0 = 6, puesto que este valor pertenece al intervalo calculado, se puede afirmar (al nivel de confianza considerado) que la relación estimada para las variables se sigue verificando (permanece la estructura) para la nueva información. Por último, con el objetivo de aplicar la estimación con información a priori al modelo considerado vamos contrastar la hipótesis nula H0 : β2 + β3 = 5. Ası́, en el caso de no rechazarla obtendremos el estimador por mı́nimos cuadrados restringidos. Como es sabido, se rechazará la hipótesis nula si Fexp Máster TCGE h i−1 t R (X t X)−1 Rt b b · Rβ − r > Fq,n−k (1 − α), = Rβ − r · q·σ b2 Introducción a la Econometrı́a: regresión múltiple – 53 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 donde Fq,n−k (1 − α) es el punto de una F de Snedecor con q y n − k grados de libertad que deja a su izquierda una probabilidad 1 − α. A partir de β2 + β3 = 5 se obtiene que q = 1, r = 5 y R = (0 1 1), de forma que   8′ 5189 Rβb − r = (0 1 1) ·  5′ 5587  − 5 = 5′ 5587 − 0′ 4296 − 5 = 0′ 1291, −0′ 4296  0′ 62 −1 Rt = (0 1 1)· −0′ 0688 R X tX −0′ 0136 Y en tal caso: Fexp = Máster TCGE −0′ 0688 0′ 0103 −0′ 0033   −0′ 0136 0 −0′ 0033 · 1  = 0′ 0405. 0′ 0368 1 0′ 12912 = 0′ 02454025, 0′ 0405 · 16′ 76944 donde recordemos que σ b2 = 16′ 76944. Introducción a la Econometrı́a: regresión múltiple – 54 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Por otro lado, puesto que Fq,n−k (1 − α) = F1,5 (0′ 95) = 6′ 61, es evidente que no se rechaza la hipótesis nula, es decir, no rechazo que los coeficientes de las variables verifiquen la relación β2 + β3 = 5. En tal caso, habrá que incorporar dicha información al modelo con el fin de obtener un mejor estimador (cuando se dispone de información a priori el estimador por mı́nimos cuadrados ordinarios ya no es óptimo). En esta situación el estimador insesgado con mı́nima varianza es el de mı́nimos cuadrados restringidos, el cual responde a la siguiente expresión: Ejemplo 1 Ejemplo 2 βbR = βb + X t X −1 h −1 t i−1 t b R R X X R r − Rβ . t (8) De la expresión anterior se conoce:   8′ 5189 βb =  5′ 5587  , −0′ 4296 h R X tX −1 Rt i−1 = 1 , 0′ 0405 faltando calcular Máster TCGE r−Rβb = −0′ 1291, Introducción a la Econometrı́a: regresión múltiple – 55 / 68 Ejemplo 1 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2     ′ ′ ′ 0 62 −0 0688 −0 0136 0 −1 t t ′ ′ ′    −0 0688 0 0103 −0 0033 1 = R = X X · ′ ′ ′ −0 0136 −0 0033 0 0368 1   −0′ 0824 =  0′ 007  . 0′ 0335 Entonces, a partir de (8) se obtiene que:      −0′ 0824 8′ 5189 8′ 781563 ′ 0 1291  0′ 007  =  5′ 536386  . · βbR =  5′ 5587  − ′ 0 0405 0′ 0335 −0′ 4296 −0′ 5363864  A partir de esta estimación es fácil comprobar que se obtiene: etR eR = 84′ 35455, 2 RR = 0′ 9731012, 2 σ bR = 14′ 05909, 2 < R2 . verificándose, como es sabido, que etR eR > et e y RR Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 56 / 68 Ejemplo 2 Contenidos Dado el modelo Introducción Yt = β1 + β2 Xt2 + β3 Xt3 + β4 Xt4 + ut , Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 (9) donde: Y es el consumo familiar mensual (medido en miles de euros). X2 es la renta familiar mensual (medida en miles de euros). X3 es una variable ficticia que toma el valor 1 si la familia correspondiente tiene una deuda en forma de un préstamo para la compra de una vivienda o coche, y el valor 0 en caso contrario. X4 es el número de hijos de una familia. Se pide analizar el modelo sabiendo que para 22 familias se ha obtenido que: y t y = 131′ 13, Máster TCGE   48′ 5  204′ 45   X ty =   37′ 9  , 69′ 3 Introducción a la Econometrı́a: regresión múltiple – 57 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo X tX Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Máster TCGE −1   0′ 3342 −0′ 0506 −0′ 1626 0′ 0041  −0′ 0506 0′ 0173 0′ 0051 −0′ 0114  . =  −0′ 1626 0′ 0051 0′ 249 −0′ 0317  0′ 0041 −0′ 0114 −0′ 0317 0′ 0514 En primer lugar obtendremos la estimación de las cantidades constantes del modelo, es decir, de β y σ 2 :    48′ 5 0′ 3342 −0′ 0506 −0′ 1626 0′ 0041  204′ 45   −0′ 0506 0′ 0173 0′ 0051 −0′ 0114  b    · β =  −0′ 1626 0′ 0051 0′ 249 −0′ 0317   37′ 9  69′ 3 0′ 0041 −0′ 0114 −0′ 0317 0′ 0514   −0′ 0149  0′ 4862   =  (10)  0′ 3969  , 0′ 2287 131′ 13 − 129′ 5643 1′ 5657 y t y − βbt X t y 2 = = = 0′ 087, (11) σ b = n−k 22 − 4 18  Introducción a la Econometrı́a: regresión múltiple – 58 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 donde se ha usado que   48′ 5  204′ 45  ′  βbt X t y = (−0′ 0149 0′ 4862 0′ 3969 0′ 2287) ·   37′ 9  = 129 5643, 69′ 3 y se deduce que σ b = 0′ 2949 y Ybt = −0′ 0149 + 0′ 4862 · X2t + 0′ 3969 · X3t + 0′ 2287 · X4t . Además, a partir de la estimación de σ 2 se obtiene una estimación para la matriz b: de varianzas-covarianzas de β −1 \ V ar βb = σ b2 X t X  0′ 0291  −0′ 0044 =  −0′ 0141 0′ 0004 Máster TCGE −0′ 0044 0′ 0015 0′ 0004 −0′ 001 −0′ 0141 0′ 0004 0′ 0217 −0′ 0028  0′ 0004 −0′ 001  . −0′ 0028  0′ 0045 Introducción a la Econometrı́a: regresión múltiple – 59 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo Esta matriz tiene importancia de cara a los contrastes de significación individual ya que entonces se usaran sus elementos de la diagonal principal. Pasamos a continuación a calcular la bondad del ajuste realizado, es decir, el coeficiente de determinación: Estimación del modelo R2 = 1 − Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 SCR . SCT Como SCR = 1′ 5657 ya ha sido calculada en la estimación de la varianza de la perturbación aleatoria, tan sólo hay que calcular: Ejemplo 2 2 SCT = y t y − nY = 131′ 13 − 22 · 2′ 20452 = 131′ 13 − 106′ 916 = 24′ 214, t donde se ha usado que a partir del primer elemento de X y , esto es, 48′ 5, se obtiene que Y = 48′ 5 22 22 P Yt = i=1 = 2′ 2045. En tal caso: 1′ 5657 = 1 − 0′ 0647 = 0′ 9353, R =1− ′ 24 214 2 Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 60 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo esto es, la estimación realizada explica un 93’53 % de la variabilidad de Y . Ahora bien, como es sabido, cuanto más cercano al 100 % mejor será el coeficiente de determinación y, por tanto, la estimación realizada. ¿Está en este caso suficientemente cerca del 100 % como para que la estimación realizada sea significativa? Como respuesta afirmativa a esta pregunta, el coeficiente de determinación ha de ser superior a la siguiente cota: Ejemplos Ejemplo 1 Ejemplo 2 1 k−1 n−k · Fk−1,n−k (1 − α) k−1 + n−k · Fk−1,n−k (1 − α) 3 18 · 3′ 15991 0′ 5267 = 0′ 345, = = ′ 3 ′ 1 5267 1 + 18 · 3 15991 donde se ha usado que F3,18 (0′ 95) = 3′ 15991. Puesto que el R2 obtenido es superior a dicha cota inferior podemos afirmar que el coeficiente de determinación es significativo, es decir, valida al modelo. Esta validación del modelo se puede establecer también a partir del contraste de significación conjunta. Bajo el supuesto de normalidad en el modelo rechazaremos H0 : β2 = β3 = β4 = 0 si Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 61 / 68 Ejemplo 2 Contenidos SCE k−1 SCR n−k Introducción Especificación del modelo Estimación del modelo > Fk−1,n−k (1 − α). Para calcular la región de rechazo y tomar una decisión en este contraste planteamos la tabla ANOVA: Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Fuentes de variación Explicada No explicada Total Sumas de cuadrados Grados de libertad Medias SCE = 22′ 6483 SCR = 1′ 5657 SCT = 24′ 214 k−1=3 n − k = 18 SCE = 7′ 5494 k−1 SCR = 0′ 087 n−k El único elemento no calculado hasta el momento de la tabla anterior es SCE = SCT − SCR = 24′ 214 − 1′ 5657 = 22′ 6483. En tal caso, se tiene para la región de rechazo que: 86′ 7747 > 3′ 15991, Máster TCGE de forma que es evidente que se rechaza la hipótesis nula de que todos los coeficientes pueden ser nulos de forma simultánea. Por tanto, se tiene que la relación existente entre las variables independientes y la dependiente no se debe al azar, validando el modelo. Introducción a la Econometrı́a: regresión múltiple – 62 / 68 Ejemplo 2 Contenidos Introducción Para finalizar estudiaremos los contrastes de significación individual. Como es sabido se rechazará la hipótesis H0 : βi = 0 si βb α i , √ > tn−k 1 − σ b wii 2 Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 \ √ donde σ b wii es la raı́z cuadrada del elemento (i, i) de la matriz V ar βb y tn−k 1 − α2 = t18 (0′ 975) = 2′ 10092. H0 : β 2 = 0 √ σ b w22 βb2√= 0′ 4862 = 0′ 0015 = 0′ 0387 =⇒ =⇒ H0 : β 3 = 0 √ Máster TCGE σ b w33 βb3√= 0′ 3969 = 0′ 0217 = 0′ 1473 βb2 = 12′ 5633 > 2′ 10092. √ σ b w22 βb3 = 2′ 6945 > 2′ 10092. √ σ b w33 Introducción a la Econometrı́a: regresión múltiple – 63 / 68 Ejemplo 2 Contenidos H0 : β 4 = 0 Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 √ σ b w44 βb4√= 0′ 2287 = 0′ 0045 = 0′ 0671 βb4 =⇒ √ = 3′ 4083 > 2′ 10092. σ b w44 En todos los casos se rechaza la hipótesis nula, lo que se interpreta como que las variables X2 , X3 y X4 son significativas. Como es sabido, para llegar a estas conclusiones también se podrı́an haber obtenido los intervalos de confianza de cada coeficiente: √ α b ·σ b · wii , βi ± tn−k 1 − 2 i = 1, 2, 3, 4. Ası́ por ejemplo, para el último coeficiente se tiene que el intervalo de confianza al 95 % es: 0′ 2287 ± 2′ 10092 · 0′ 0671 = (0′ 08772827, 0′ 3696717). Como el cero no pertenece a dicho intervalo se concluirá que el coeficiente correspondiente será distinto de cero. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 64 / 68 Ejemplo 2 Contenidos El intervalo de confianza al 95 % para el segundo coeficiente es: Introducción 0′ 4862 ± 2′ 10092 · 0′ 0387 = (0′ 4048944, 0′ 5675056). Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 Al igual que antes se concluirá que el coeficiente correspondiente será distinto de cero. Para finalizar con el cálculo de intervalos de confianza, obtendremos a continuación el intervalo para la varianza de la perturbación aleatoria: " (n − k) · σ b2 (n − k) · σ b2 , χ2n−k 1 − α2 χ2n−k α2 # " # SCR SCR , 2 . = χ2n−k 1 − α2 χn−k α2 Puesto que SCR = 1′ 56574, χ2n−k 1 − α = χ218 (0′ 975) = 31′ 526 y 2 χ2n−k α2 = χ218 (0′ 025) = 8′ 231 es claro que el intervalo para σ 2 es: Máster TCGE 1′ 56574 1′ 56574 , 31′ 526 8′ 231 = (0′ 04966504, 0′ 1902248) . Introducción a la Econometrı́a: regresión múltiple – 65 / 68 Ejemplo 2 Contenidos Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Ejemplos Ejemplo 1 Por todo lo expuesto hasta ahora se tiene que el modelo estimado es válido y que las variables de renta familiar, deuda y número de hijos influyen positivamente en el consumo de las familias. Es decir, a mayor renta, deuda y número de hijos mayor consumo familiar. Además, al ser la variable correspondiente a la deuda una variable ficticia, habremos estimado la diferencia esperada en el consumo familiar entre familias con deuda y sin deuda con el mismo nivel de renta y número de hijos. En este caso se obtiene que dicha estimación es positiva, por lo que aquellas familias que tienen algún tipo de deuda consumen más que aquellas que no la tienen. Ejemplo 2 Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 66 / 68 Lecturas recomendadas Contenidos [1] Introducción Especificación del modelo Estimación del modelo Validación del modelo Explotación del modelo Presentación de la edición española de Johnston, J. (1989). Métodos de Econometrı́a. Ed. Vicens-Vives por A.G. Barbancho. [2] Gómez, S. y Salmerón, R. (2011). Influencia del entorno institucional en el desarrollo del emprendimiento español. Un análisis empı́rico. Revista Venezolana de Gerencia, Volumen 16, Número 54, Páginas 191-208. [3] Novales, A. (1993). Econometrı́a. McGraw Hill. Capı́tulo 1 (repaso matrices). Ejemplos Ejemplo 1 Ejemplo 2 [4] Portillo, F. (2006). Introducción a la Econometrı́a. Logroño: autoedición. [5] Salmerón, R. y Tamayo, J. (2010). Técnicas cuantitativas aplicadas al análisis de la flexibilidad en la producción, la explotación y la exploración en las empresas. Revista Estadı́stica Española, Volumen 52, Número 175, Páginas 529-567. [6] Salmerón, R. y Gómez, S. (2012). Relación entre los factores institucionales y el emprendimiento: análisis mediante técnicas cuantitativas. Revista de Métodos Cuantitativos para la Economı́a y la Empresa, Número 13, Páginas 54-72. Máster TCGE Introducción a la Econometrı́a: regresión múltiple – 67 / 68 Bibliografia Contenidos Especificación del modelo [1] Esteban, M.V., Moral, M.P., Orbe, S., Regúlez, M., Zarraga, A. y Zubia, M. (2009). Econometrı́a básica aplicada con Gretl. Sarriko-On, Universidad del Paı́s Vasco. Estimación del modelo [2] Gujarati, D. (1997). Econometrı́a. Ed. McGraw Hill. Introducción Validación del modelo [3] Johnston, J. (1989). Métodos de Econometrı́a. Ed. Vicens-Vives. Explotación del modelo Ejemplos Ejemplo 1 Ejemplo 2 [4] Matilla, M., Pérez, P. y Sanz, B. (2013). Econometrı́a y predicción. Ed. MacGraw Hill. [5] Novales, A. (1993). Econometrı́a. McGraw Hill. [6] Uriel, E., Contreras, D., Moltó, M.L. y Peiró, A. (1990). Econometrı́a. El Modelo Lineal. Ed. AC. [7] Máster TCGE Wooldridge, J.M. (2005). Introducción a la Econometrı́a: Un enfoque moderno. Ed. Thomson. Introducción a la Econometrı́a: regresión múltiple – 68 / 68 El Modelo Lineal Román Salmerón http://www.ugr.es/ romansg/ romansg@ugr.es 1. Especificación del Modelo Lineal Estudio de una variable dependiente a partir de k variables independientes (con constante) a partir de n observaciones.  E[un×1] = 0n×1 ( ya que E[ut] = 0 ∀t )    2    V ar(un×1) = σ · Idn×n  ,→ V ar(ut) = σ 2 ∀t, Cov(ut, us) = 0, ∀t 6= s yn×1 = Xn×k · βk×1 + un×1  X no aleatoria con rg(X) = k     ,→ Xi, i = 1, . . . , k, linealmente independientes   X y u incorrelados         β1 u1 Y1 1 X12 X13 · · · X1k  β2   u2   Y2   1 X22 X23 · · · X2k         y= .. ..  = (i X2 · · · Xk ) , β =  ..  , u =  ..  .  ..  , X =  .. .. Yn 1 Xn2 Xn3 · · · Xnk βk un 2. Estimación del Modelo Lineal Estimación de las constantes del modelo. −1cantidades ] βb = X tX X ty estimador por MCO de β a T Gauss-Markov: βb es un estimador lineal, insesgado y óptimo (mı́nima varianza) b = σ 2 · X tX −1 V ar(β) n P Consecuencias estimación MCO: it · e = et = 0, X t · e = 0, Y = Yb , ybt · e = 0. t=1 −1 ete estimador insesgado de σ 2 (ete es la SCR) ⇒ V\ b =σ ]σ b2 = n−k ar(β) b2 · X tX βbtX ty σ b2 = y y− n−k t 3. Validación del Modelo Lineal Herramientas para determinar si la estimación realizada es o no válida. ] Coeficiente de determinación (R2): porcentaje de variabilidad explicada por el ajuste (estimación) realizado del modelo. 2 t βbtX ty βbtX ty−nY SCR 2 R2 = SCE = 1 − y y− 2 2 SCT = 1 − SCT ⇒ R = t t y y−nY y y−nY Siempre que el modelo tenga constante: 0 ≤ R2 ≤ 1. Cuanto más próximo a 1 mejor será el ajuste. El coeficiente de determinación será significativo (es decir, validará el modelo) siempre que sea superior a la siguiente cota: k−1 n−k · Fk−1,n−k (1 − α) k−1 · F 1 + n−k k−1,n−k (1 − α) . 2 n−1 . Coeficiente de determinación corregido: R = 1 − (1 − R2) · n−k ] Distribuciones: h i t −1 −1 t −1 βb ∼ N β, σ 2 · X tX → Rβb − Rβ · R · X tX ·R · Rβb − Rβ ∼ χ2 q h ↓ i−1 t R·(X tX) ·Rt (n−k)·b σ2 ∼ χ2n−k → Rβb − Rβ · · Rβb − Rβ ∼ Fq,n−k σ2 q·b σ2 ] Contrastes de hipótesis: i h t R·(X tX)−1·Rt −1 Rechazo H0 : Rβ = r si Rβb − r · · Rβb − r > Fq,n−k (1 − α). 2 q·b σ βb −b −1 α t i i Rechazo H0 : βi = bi si σb√ . w > tn−k 1 − 2 , wi elemento (i, i) de X X −1 i ] Análisis de la varianza (ANOVA): SCE R2 n−k n−k k−1 Rechazo H0 : β2 = β3 = · · · = βk = 0 si SCR = k−12 > Fk−1,n−k (1 − α). 1−R ] Intervalos de confianza: t h −1 ti−1 Para Rβ: Rβb − r · R · X tX ·R · Rβb − r ≤ q · σ b2 · Fq,n−k (1 − α). √ α ·σ w . Para βi: βb ± t 1 − b · n−k 2 i i (n−k)·b σ 2 (n−k)·b σ2 Para σ 2: 2 , = 2 SCR α , SCR . χn−k (1− α2 ) χ2n−k ( α2 ) χn−k (1− 2 ) χ2n−k ( α2 ) 4. Explotación del Modelo Lineal ¿Qué ocurre para nueva información recogida en x0? b ] Predictor puntual: p0 = xt · β. 0 ,→ lineal, insesgado (E[p0] = xt0 · β) y óptimo (mı́nima varianza). ] Predictor por intervalo: q Para el valor esperado: xt0 · βb ± tn−k 1 − α2 · σ b · xt0 · (X tX)−1 · x0. q b · 1 + xt0 · (X tX)−1 · x0. Para la permanencia estructural: xt0 · βb ± tn−k 1 − α2 · σ 5. Estimación con información a priori ¿Cómo estimar β sabiendo que verifica que R · β = r (q restricciones)? ] Mı́nimos Cuadrados Restringidos −1 t h −1 ti−1 βbR = βb + X t · X · R · R · Xt · X ·R · r − R · βb . ,→ insesgado (siempre que r = R · β) y óptimo V ar βbR ≤ V ar βb . ] Consecuencias: 2 ≤ R2 . RR SCR = ete ≤ etReR = SCRR. et e 2 = R R . σ bR n−k+q (et eR−ete)/q Rechazamos H0 : R · β = r si eRte/(n−k) > Fq,n−k (1 − α). El Modelo Lineal Econometrı́a Ejercicios propuestos Román Salmerón Gómez 1. En la siguiente tabla se tienen los datos de los 6 primeros clasificados de la primera división de fútbol española: Equipo Real Madrid Barcelona Valencia Málaga Atlético de Madrid Levante P 100 91 61 58 56 55 PG 32 28 17 17 15 16 PE 4 7 10 7 11 7 PP 2 3 11 14 12 15 GF 121 114 59 54 53 54 GC 32 29 44 53 46 50 donde P son los puntos conseguidos, P G, P E y P P los partidos ganados, empatados y perdidos y, finalmente, GF y GC son los goles a favor y en contra recibidos. Dado el modelo Pt = β1 + β2 GFt + β3 GCt + ut , se pide: a) Obtener la estimación de los coeficientes de las variables del modelo. b) Estimar la varianza de la perturbación aleatoria. c) Interpretar los coeficientes de las variables significativas. d) Obtener el coeficiente de determinación y estudiar si el modelo es significativo globalmente a partir del mismo. e) Comprueba que la hipótesis β2 − 3β3 = 0 es cierta. ¿Qué deberı́as hacer con esta nueva información? 2. Teniendo en cuenta los datos del ejercicio anterior y el siguiente modelo econométrico: Pt = β1 + β2 DPt + β3 DGt + ut , donde DP = P G − P P y DG = GF − GC, se pide: a) Obtener la estimación de los parámetros desconocidos del modelo. b) ¿Influye la diferencia de goles en los puntos obtenidos? (usa un intervalo de confianza para responder a esta pregunta). c) Interpretar el coeficiente de la variable DP . d) Obtener el coeficiente de determinación corregido. e) Estudiar si el modelo es conjuntamente significativo. f) ¿Qué puntuación obtendrı́a un equipo con DP = 15 y DG = 6? Con dichos datos, ¿a qué intervalo pertenecerı́a la puntuación esperada? 3. En la asignatura Econometrı́a de LADE del curso académico 2011/2012 se realizó un examen final en el que el alumno debı́a anotar la calificación que esperaba obtener y podı́a elegir antre dos opciones. En la siguiente tabla se tiene la información de 8 alumnos correspondiente a las variables CO, calificación obtenida, CE, calificación esperada y OE, opción elegida (1 opción A y 0 opción B): 1 Alumno Abelardo Sergio Sonia Rodolfo Sofia Gertrudis Javier Elena CO 8’55 7’5 7’475 7’45 2’8 6’125 6’7 7’425 CE 9’5 8’5 7’5 7 4’5 6 3’7 6’5 OE 1 1 0 0 1 1 0 1 Dado el modelo COt = β1 + β2 CEt + β3 OEt + ut , se pide: a) Obtener la estimación de los parámetros desconocidos del modelo. b) Obtener un intervalo de confianza para la variable CE y para la perturbación aleatoria. c) Estudiar si el modelo es significativo de forma conjunta. d) Obtener el coeficiente de determinación y estudiar si el modelo es significativo globalmente a partir del mismo. e) Obtener el coeficiente de determinación corregido. f) Obtener el intervalo de predicción para la calificación obtenida de un alumno con una calificación esperada de 7 y que haya elegido la opción A. ¿Cuál serı́a el intervalo para la calificación obtenida media? g) Contrasta la hipótesis H0 : β1 − β3 = 1. h) ¿Es cierto que 2β2 − β3 = 0? 4. En la siguiente tabla se tiene el número de unidades (en miles) de ciclomotores producidos, U P , en los años 2006 al 2011 ası́ como el valor de la producción (en millones de euros) de cada año, V : Año 2006 2007 2008 2009 2010 2011 V 168’8 169’9 138’8 81’6 67’9 50’4 UP 111’4 111’8 97’9 54’9 52’5 38’6 Considerando el modelo Vt = β1 + β2 U Pt + ut , se pide: a) Obtener la estimación de los parámetros desconocidos del modelo. b) Realizar los contrastes de significación individual (de la variable U P ) y conjunta. ¿Qué ocurre al existir una única variable independiente? c) Obtener el coeficiente de determinación y estudiar si el modelo es significativo globalmente a partir del mismo. d) Obtener los intervalos de confianza para los parámetros desconocidos del modelo. 5. Consideremos el modelo P Gt = β1 + β2 P BBt + ut , donde P G es el precio del gasoil (en euros/litro) y P BB es el precio del barril de Brent (en dólares/barril) para los meses de enero a julio del año 2012. A partir de los siguientes datos: 2 Mes Enero Febrero Marzo Abril Mayo Junio Julio PG 1’334 1’364 1’399 1’372 1’35 1’3 1’378 PBB 111 119’71 128’14 118 110’52 95’59 103’57 Se pide: a) Obtener la estimación de los coeficientes de las variables del modelo. b) Estimar la varianza de la perturbación aleatoria. c) Interpretar el coeficiente de la variable P BB. d) Obtener el coeficiente de determinación corregido. e) Estudiar la significación conjunta del modelo. f) ¿Entre qué valores se encontrará el precio del gasoil si P BB = 100? ¿Y el precio esperado?. 6. El gerente de cierta empresa que se dedica a la venta de vino tiene delegaciones en 6 provincias del norte de España. Puesto que se está planteando ampliar mercado abriendo nuevas delegaciones ha recabado la siguiente información: Provincia León Cantabria Madrid Segovia Zamora La Rioja AV 100 120 135 98 80 120 C 4 5 5 3 2 4 P 0 0 0 1 1 1 donde AV es el número de artı́culos (botellas de vino) vendidas (en miles), C es el número de comerciales de los que dispone la delegación y P es una variable que toma el valor 1 si se ha realizado campaña publicitaria en dicha provincia y el valor 0 en caso contrario. Considerando el modelo AVt = β1 + β2 Ct + β3 Pt + ut , se pide: a) Obtener la estimación de las cantidades desconocidas del modelo. b) ¿Influye el número de comerciales en el número de artı́culos vendidos? ¿Y el haber realizado o no publicidad? c) Interpretar el coeficiente de las variables. d) Estudiar la significación conjunta del modelo. e) Contrastar H0 : β2 − β3 = 4. f) ¿Entre qué valores máximos y mı́nimos se encontrarı́a el número de artı́culos vendidos si en la nueva delegación se disponen de 4 comerciales y se realiza campaña publicitaria? 3 Soluciones   90 7225 1. a) βb =  00 6744 . 00 2196 b) (1’5692, 67’9788). c) texp = 70 3398 > 30 1824 = t3 (00 975) → la variable GF es significativa (es decir, sus variaciones influyen en los puntos conseguidos). texp = 00 7175 6> 30 1824 = t3 (00 975) → la variable GC no es significativa (es decir, sus variaciones no influyen en los puntos conseguidos). Si aumentan los goles a favor aumentan los puntos conseguidos, más concretamente, por cada gol a favor los puntos conseguidos aumentan en 0’6744. 2 d) R2 = 00 9926 > 00 8642 = Rsig → el modelo es significativo conjuntamente. e) Fexp = 00 00034 6> 100 1279 = F1,3 (00 95) → no rechazo la hipótesis nula (por lo que deberı́a incorporar lanueva información al modelo mediante los mı́nimos cuadrados restringidos).  0  52 2253 2. a) βb =  10 7603  y σ b2 = 10 3193. 0 −0 059 b) (−00 3875, 00 2675) → como el cero pertenece al intervalo de confianza del coeficiente de DG, dicha variable no influye en los puntos obtenidos. c) Conforme aumenta la diferencia de partidos aumentan los puntos obtenidos, más concretamente, por cada unidad que aumenta la diferencia de partidos los puntos obtenidos lo hacen en 1’7603). 2 d) R = 00 9966. e) Fexp = 7510 4578 > 90 5521 = F2,3 (00 95) → el modelo es significativo comjuntamente. f) P LIO = 780 27058, (65’2588, 91’2823).   0 2 8553 b2 = 10 529508. 3. a) βb =  00 7175  y σ −10 398 b) CE ∈ (00 07558, 10 3594) y σ 2 ∈ (00 5959, 90 2004). c) texp = 10 7049 6> 20 5705 = t5 (00 975) → término independiente no significativo. texp = 20 87327 6> 20 5705 = t5 (00 975) → la variable CE es significativa (es decir, conforme aumenta la calificación esperada lo hace la obtenida, más concretamente, por cada punto que aumenta CE, CO lo hace en 0’7175). texp = 10 4987 6> 20 5705 = t5 (00 975) → variable OE no significativa (lo cual es bueno?). d) Fexp = 40 4529 < 50 7861 = F2,5 (00 95) → el modelo no es significativo. 2 e) R2 = 00 6404 6> 00 6982 = Rsig → el modelo no es significativo conjuntamente. 2 f) R = 00 4966. g) (2’9974, 9’9625) y (5’058, 7’9017). h) Fexp = 20 6537 6> 60 6078 = F1,5 (00 95) → no rechazo la hipótesis nula. i) Fexp = 50 9351 6> 60 6078 = F1,5 (00 95) → no rechazo la hipótesis nula. −110 7898 b 4. a) β = yσ b2 = 240 3672. 10 6008 4 b) texp = 230 8086 > 20 7764 = t4 (00 975) → variable U P es significativa. Fexp = 5660 852 > 70 086 = F1,4 (00 95) → el modelo es significativo conjuntamente. En este caso los dos contrastes realizados coinciden, tienen la misma hipótesis nula y alternativa. 2 c) R2 = 00 9929 > 00 6583 = Rsig → el modelo es significativo conjuntamente. d) β1 ∈ (−270 3625, 30 78304), β2 ∈ (10 4141, 10 7874) y β3 ∈ (80 7468, 2010 2082). 0 1 097 b 5. a) β = . 00 0023 b) (0’0002006, 0’00309). c) texp = 110 3265 6> 20 5705 = t5 (00 975) → el término independiente es significativo (si el precio del barril de Brent fuese de 0 dólares, el gasoil tendrı́a un precio de 1’097 euros por litro). texp = 20 6912 6> 20 5705 = t5 (00 975) → la variable P BB es significativa (es decir, conforme aumenta el precio del barril de Brent lo hace el precio del gasoil). d) Un aumento de un dólar en el precio del barril de Brent supone un aumento de 0’0023 euros en el precio del gasoil. 2 e) R = 00 5099. f) Fexp = 70 2428 > 60 6078 = F1,5 (00 95) → el modelo es significativo conjuntamente. g) (1’26007, 1’3962) y (1’29306, 1’3632).   160 25 b2 = 470 7638. 6. a) βb =  210 875  y σ 0 17 4583 b) texp = 50 1687 > 30 1824 = t3 (00 975) → la variable C es significativa, luego influye en el número de botellas vendidas. texp = 10 9327 6> 30 1824 = t5 (00 975) → la variable P no es significativa, luego no influye en el número de botellas vendidas c) Al aumentar el número de comerciales también lo hace el número de botellas de vino vendidas, más concretamente, por cada comercial nuevo en la plantilla se venden 21875 botellas más. d) Fexp = 190 0263 > 90 55209 = F2,3 (00 95) → el modelo es significativo conjuntamente. e) Fexp = 00 0043 6> 100 1279 = F2,3 (00 95) → no se rechaza la hipótesis nula. f) (92’46102, 149’9556). Nota: todos los contrastes de hipótesis e intervalos de confianza han sido realizados, según corresponda, a un 5 % de significación o a un 95 % de confianza. 5 Ejercicios de ordenador con Gretl Román Salmerón Gómez Realiza un análisis econométrico completo de los siguientes modelos. 1. En el archivo Ejercicio1.gdt se tienen los datos correspondientes a la clasificación histórica de la primera división del fútbol español. Para los 59 equipos que han participado en ella hasta ahora, analiza el siguiente modelo econométrico: Pt = β1 + β2 P Gt + β3 P Et + β4 P Pt + β5 GFt + β6 GCt + ut , donde P son los puntos conseguidos por temporada de cada equipo, P G, P E y P P los partidos ganados, empatados y perdidos por temporada y, finalmente, GF y GC son los goles a favor y en contra recibidos por temporada de cada equipo. ¿Tiene sentido que haya término independiente en este modelo? 2. En el archivo Ejercicio2.gdt se tienen datos correspondientes a 47 alumnos que cursaron la asignatura Técnicas Cuantitativas 2 en el curso académico 2011/2012. Para dichos alumnos se dispone de las siguientes variables: CO es la calificación obtenida en el examen final de la asignatura. N E es la calificación esperada en el examen tras realizar el mismo. OE es la opción elegida en el examen final. Puesto que el examen estaba formado por dos modelos, se ha codificado con 1 al modelo A y con 0 al modelo B. G toma el valor 1 si el alumno en cuestión pertenece al doble grado en ADE-Derecho y 0 si pertenece al de Economı́a. Se pide analizar el modelo COt = β1 + β2 N Et + β3 OEt + β4 Gt + ut . 3. En el archivo Ejercicio3.gdt se tienen datos correspondientes a 47 alumnos que cursaron la asignatura Técnicas Cuantitativas 2 en el curso académico 2011/2012. En dicho curso académico se realizó una evaluación continua en el que el 30 % de la calificación final estaba formado por un ejercicio a resolver en pizarra, otro en ordenador y distintos exámenes tipo test al final de cada tema. Por tanto, se dispone de las siguientes variables: CO es la calificación obtenida en el examen final de la asignatura. EC es la calificación obtenida en el ejercicio realizado en clase. EO es la calificación obtenida en el ejercicio realizado con ordenador. T T es la calificación obtenida en los exámenes tipo test realizados. Se pide analizar el modelo COt = β1 + β2 ECt + β3 EOt + β4 T Tt + ut . 4. En el archivo Ejercicio4.gdt se tiene el número de unidades de turismos fabricados, U F , en España desde 1994 hasta 2011 y el valor de la producción anual, V P (en miles de euros). Se pide analizar el modelo V Pt = β1 + β2 U Ft + ut . 1 5. En el archivo Ejercicio5.gdt se tienen los datos (desde hasta) correpondientes al precio del gasóleo (en euros/litro), G, y del barril de Brent (en dólares/barril), BB . Se pide analizar el modelo que analiza el precio del gasóleo a partir del precio del barril de Brent. 6. En el archivo Ejercicio6.gdt se tienen los datos sobre renta, R, y consumo, C, mensual de 22 familias. También se dispone de información sobre el número de hijos de cada familia, H, y de si las familias tienen algún préstamo con cuantı́a superior a los 400 euros mensuales, D. Ésta variable tomará el valor 1 en caso afirmativo y 0 en el negativo. Se pide analizar el modelo Ct = β1 + β2 Rt + β3 Dt + β4 Ht + ut . 7. En el archivo Ejercicio7.gdt se tienen los salarios de un grupo de 177 individuos en el año 1990. Para cada uno de ellos se tiene información de su salario anual, S (medido en miles de dólares), de las ventas de la empresa en la que trabaja, V , y beneficios, B (medidos ambos en millones de dólares), y de los años que lleva trabajando en la empresa, A. Se pide analizar el modelo St = β1 +β2 Vt +β3 Bt +β4 At +ut . 8. En el archivo Ejercicio8.gdt se tienen datos anuales, desde 1976 a 2009, relativos al conjunto de importaciones de España, al producto interior bruto y a la inversión. Se pide analizar el modelo que explica el comportamiento de las importaciones como función del producto interior bruto y de la inversión. 9. En el archivo Ejercicio9.gdt se tienen series (desde 1970 hasta 2010) sobre el consumo de energı́a per cápita de la economı́a española, C, la renta per cápita, R, y la temperatura media para el año correspondiente, T . Se pide analizar el modelo Ct = β1 + β2 Rt + β3 Tt + ut . 10. En el archivo Ejercicio10.gdt se tienen los dividendos, D, repartidos por un conjunto de 100 empresas de un mismo sector, el ratio de endeudamiento a corto plazo, EC, el ratio de endeudamiento a largo plazo, EL, y las ventas medias diarias, V . Se pide analizar el modelo Dt = β1 + β2 ECt + β3 ELt + β4 Vt + ut . 11. En el archivo Ejercicio11.gdt se tiene la siguiente información sobre 935 personas: S es el salario mensual (en euros). E es la edad (en años). R es la raza (0 blanco, 1 no blanco). H es el número de horas de trabajo semanales. C es el esatdo civil (1 casado, 0 caso contrario). Se pide analizar el modelo St = β1 + β2 Et + β3 Rt + β4 Ht + +β5 Ct + ut . 12. En el archivo Ejercicio12.gdt se tiene información sobre el número total de hipotecas concedidas por trimestres en España, H, sobre la tasa de desempleo promedio en cada trimestre y del euribor promedio trimestral (desde el primer trimestre del año 2003 al segundo trimestre del año 2011). Se pide analizar el modelo que trata de explicar el número total de hipotecas concedidas a partir de la tasa de desempleo y el euribor. 13. En el archivo Ejercicio13.gdt se tiene, desde el primer trimestre del año 2003 al segundo trimestre del año 2011, la tasa de desempleo, P , y de ocupación hotelera, O, trimestral. Se pide analizar el modelo que analiza la tasa de ocupación hotelera apartir de la tasa de paro. Nota: los archivos de Gretl quı́ referenciados los puedes encontrar en la dirección web http://www.ugr.es/local/romansg/material/WebEco/index.html 2 El Modelo Lineal General mediante GRETL Estimación y validación de un modelo uniecuacional múltiple Román Salmerón Gómez Índice 1. Introducción 1 2. Algunas cuestiones básicas de Gretl 3 2.1. Descarga e instalación de Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2. Introducción de datos en Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.1. Introducción de los datos directamente . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.2. Recuperar los datos de otros formatos . . . . . . . . . . . . . . . . . . . . . . . 7 3. Estimación y validación de un modelo uniecuacional múltiple 1. 11 3.1. Estimación de las cantidades constantes del modelo. Bondad del ajuste realizado . . . 11 3.2. Análisis de los errores/residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3. Contrastes de significación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . 20 3.4. Análisis de la varianza: ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.6. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Introducción En las siguientes lı́neas abordaremos como realizar la estimación y validación de un modelo uniecuacional múltiple mediante el software econométrico Gretl. Para conseguir dicho objetivo, el presente documento se estructura de la siguiente forma: 1. Algunas cuestiones básicas de Gretl. a) Descarga e instalación de Gretl. b) Introducción de datos en Gretl. 2. Estimación y validación de un modelo uniecuacional múltiple. a) Estimación de las cantidades constantes del modelo. Bondad del ajuste realizado. b) Análisis de los errores/residuos. c) Contrastes de significación de los parámetros. d ) Análisis de la varianza: ANOVA. e) Intervalos de confianza. 1 Cuadro 1: Observaciones para 22 familias Familia Consumo Renta Deuda Hijos 1 1’3 1’5 1 1 2 2’5 3’2 1 2 3 1 2’2 0 0 4 2’7 4’1 1 2 5 1’8 1’7 1 1 6 1’1 2’3 0 0 7 2 2’8 1 3 8 1’2 1’8 1 0 9 1’6 2’5 1 1 10 2 3 0 3 11 1’5 2’7 0 0 12 1’7 2’6 1 0 13 3 5 0 1 14 1’4 2 1 0 15 4 8 1 2 16 4 6’6 1 1 17 2 5 0 0 18 1’5 3 1 0 19 2’3 2’7 1 1 20 5’1 7 1 3 21 1’6 2’5 1 2 22 3’2 4 1 2 Los contenidos aquı́ mostrados hacen referencia a la versión 1.8.0 de Gretl, por lo que podrı́a haber pequeñas diferencias con respecto a versiones posteriores. Por otro lado, destacar que no se pretende realizar un manual de manejo de Gretl, sino simplemente mostrar aquellas herramientas de dicho software que permiten realizar el análisis de un modelo uniecuacional múltiple. Para más información sobre Gretl de la aquı́ presentada se recomienda recurrir a la ayuda del propio programa (menú Ayuda de la parte superior derecha) o realizar una búsqueda por internet sin más que escribir “manual de Gretl” en cualquier buscador (por ejemplo, Google). Finalmente, cada uno de los apartados tendrá una parte práctica para facilitar su comprensión. Por este motivo, se procederá a resolver paso a paso el siguiente ejercicio: EJERCICIO 1 Supongamos que el consumo familar (Ct , medido en miles de euros) está relacionado con la renta (Rt , medida en miles de euros), la deuda de las familias (Dt , que toma el valor 1 si la familia tiene algún tipo de deuda y 0 en caso contrario) y el número de hijos (Ht ). Se pide analizar el modelo uniecuacional múltiple anterior a partir de las observaciones de la tabla del cuadro 1. Finalmente destacar que en la página web de Gretl (http://gretl.sourceforge.net/win32/index es.html) es posible obtener diversos ejemplos presentes en los libros de Wooldridge (Introductory Econometrics), Gujarati (Basic Econometrics), Stock y Watson (Introduction to Econometrics) y Davidson y Mackinnon (Econometric Theory and Methods), entre otros. 2 Figura 1: Página web oficial de Gretl Figura 2: Descarga de Gretl 2. Algunas cuestiones básicas de Gretl En este capı́tulo veremos dónde se puede descargar el programa y cómo instalarlo para que pueda ser usado, ası́ como la introducción de datos para su análisis. 2.1. Descarga e instalación de Gretl La descarga del software econométrico Gretl se realiza directamente a partir de su página web http://gretl.sourceforge.net/gretl espanol.html (figura 1), sin más que pinchar sobre el enlace gretl para Windows (si es que somos usuarios de dicha plataforma) situado en el margen superior izquierdo. En la nueva página a la que debemos ser dirigidos (figura 2) podremos descargarnos el fichero ejecutable auto-instalable de gretl (gretl-1.8.0.exe, en el momento de la creación de este documento) ası́ como diversas opciones extras que complementan al software (como pueden ser conjuntos de datos disponibles). Por ahora sólo estamos interesados en la instalación del software, ası́ que pincharemos sobre el ejecutable, gretl-1.8.0.exe. En tal caso, nos redireccionarán a un mirror donde podremos descargar el ejecutable (si la descarga no inicia de forma automática pichar sobre direct link ). Una vez descargado el archivo ejecutable en el disco duro del ordenador, hay que realizar doble click sobre el mismo para comenzar con el proceso de instalación. El cual es muy sencillo (siguiente, siguiente, siguiente, instalar, finalizar) ya que dejaremos las opciones que vienen por defecto. De esta forma, en el menú de inicio, seleccionando todos los programas (figura 3), tendremos un acceso directo al software sin más que pinchar sobre él. 3 Figura 3: Acceso directo en el menú Inicio de windows 2.2. Introducción de datos en Gretl Una vez instalado el programa, el primer paso para abordar el análisis de un modelo es la introducción de los datos del mismo. Esta tarea se puede realizar desde dos puntos de vista: realizando la introducción manual directa en Gretl o recuperando la información de otros formatos (excel, spss, txt, etc. . . ). 2.2.1. Introducción de los datos directamente Tras ejecutar el programa (accediendo a él mediante el anterior acceso directo), seleccionaremos la opción Nuevo conjunto de datos (Ctrl+N) del menú Archivo en la parte superior izquierda del programa (ver figura 4). Nos pedirá el número de observaciones, la estructura del conjunto de datos (seleccionaremos sección cruzada1 o de serie temporal según la naturaleza de los datos) y la confirmación de la estructura de los datos, para a continuación, sin más que seleccionar empezar a introducir los valores de los datos, comenzar con el proceso. En primer lugar pide el nombre de la variable, de manera que tras introducirlo, podremos añadir los datos como en cualquier hoja de cálculo (figura 5). Para añadir una nueva variable seleccionar Añadir en el menú Variable de la parte superior de la ventana y al finalizar de introducir variables pulsar sobre Cerrar. También está la opción de Definir nueva variable. . . del menú Añadir en la parte superior central del programa (figura 6). Ası́, para el ejercicio considerado, habrá que indicar que el número de observaciones es 22 e introducir las variables C, R, D y H, como en cualquier hoja de cálculo. Adviértase que en el nombre de las variables no se pueden escribir caracteres extraños (por ejemplo, tildes) y deben ser cortos. Además, a la hora de introducir los datos el delimitador decimal es la coma, si bien, si se usa el punto el programa lo modifica automáticamente. También cabe destacar que el programa genera de forma automática la constante del modelo, por lo que no es necesario introducirla. Como resultado final debemos tener la figura 7, de forma que si seleccionamos todas las variables y pulsamos enter se mostraran todos los datos (figura 8). En la nueva ventana donde se muestran los datos podemos (gracias al menú de la parte superior izquierda) guardar los mismos separados por tabuladores, por comas o por texto plano (muy útil si deseamos usarlos para trabajor con otro programa, ya que recuperarlos a partir de dichos formatos 1 En el ejemplo que vamos a considerar tenemos datos de sección cruzada, es decir, se miden unas series de variables para un conjunto de entidades (en este caso familias) en un instante de tiempo. 4 Figura 4: Introducción de un nuevo conjunto de datos Figura 5: Introducción de los datos 5 Figura 6: Añadir los datos de una nueva variale Figura 7: Variables introducidas 6 Figura 8: Menú mostrar datos suele ser fácil). También se pueden imprimir y copiar, modificar el número de decimales y realizar cualquier tipo de búsqueda. Finalmente, si se selecciona una variable y se pulsa el botón derecho del ratón surge un menú (figura 9) que permite mostrar los valores de la variable, calcular sus principales estadı́sticos descriptivos, representar su gráfico de frecuencias y de cajas, editar sus atributos, editar valores (es decir, modificar las observaciones de la variable en cuestión o añadir nuevas), copiar al cortapapeles, borrar la variable y definir una nueva. Destacar que en la opción de editar atributos se puede añadir un nombre largo (etiqueta descriptiva) para cada variable de forma que sean fáciles de identificar a partir del mismo, el nombre que deseamos que aparezca en las gráficas y si se trata de una variable discreta. Ası́, por ejemplo, en nuestro caso para la variable C introduciremos Consumo familiar (medido en miles de euros), para R Renta familiar (medida en miles de euros), para D Deuda familiar (1 si la hay, 0 si no la hay) y para H Número de hijos en cada familia (ver figura 10). 2.2.2. Recuperar los datos de otros formatos Es habitual disponer de los datos en otros formatos (excel, texto plano, spss, etc.), por lo que disponer de una herramienta para poder importarlos puede suponer una buena ayuda para evitar la tediosa tarea de introducir los datos directamente. Por suerte, Gretl permite importar datos desde formatos muy diversos: csv, ascii, octave, excel, eviews, stata o spss, por ejemplo. Simplemente hay que seleccionar el formato en cuestión del menú desplegado tras seleccionar la secuencia Archivo -> Abrir datos -> Importar (ver figura 11). Como reglas generales tener en cuenta que: 7 Figura 9: Opciones sobre cada variable Figura 10: Modificación de los atributos de una variable 8 Figura 11: Importar datos en otros formatos La primera fila del fichero deberı́a contener los nombres de las variables. La primera columna puede, opcionalmente, contener cadenas de fechas u otros ’marcadores’: en ese caso, la entrada de la fila 1 deberı́a estar en blanco, o deberı́a contener las expresiones ’obs’ o ’date’. El resto del fichero debe ser una formación de datos rectangular. Destacar que al seleccionar el archivo a importar, si el proceso se realiza con éxito, se nos pregunta el tipo de formato a dar a los datos. Puesto que por defecto se consideran los datos de sección cruzada y se nos pregunta si se desean cambiar a datos de series temporales o de panel, debemos responder a la pregunta que nos realizan y, en tal caso, habremos terminado con el proceso de importación de datos. En el caso de importar un fichero tipo ascii (figura 12), hay que tener en cuenta que aunque el limitador decimal sea la coma, si se utiliza ésta obtendremos un fallo en la importación de los datos ya que la coma será considerada como delimitador entre datos. Este problema se resuelve cambiando las comas por puntos, ya que en este caso este carácter no indica ningún tipo de delimitación entre datos y será automáticamente cambiado por el programa de forma conveniente. En la figura 13 se presentan los datos en formato de Excel. En este caso se nos pide la columna y fila a partir de la que empezar a importar y la hoja de Excel en la que se encuentran los datos. En este caso se seleccionarı́a la hoja 1 y se indicarı́a importar a partir de la primera columna y segunda fila, si no queremos importar los nombres de las variables que se encuentran en la primera fila, y a partir de la primera fila y primera columna si se quiere conservar los nombres de las variables. Finalmente, una vez introducidos los datos serı́a conveniente guardarlos en el formato propio de Gretl (.gdt) para poder disponer de ellos en un futuro. Con tal objetivo seleccionamos la opción Guardar datos (Ctrl+S) del menú Archivo (figura 14). En la ventana que emerge tenemos que escribir el nombre que queremos para el archivo e indicar el lugar donde guardarlo. Una vez guardados los datos podremos salir del programa sin más que seleccionar la opción Salir (Ctrl+X) del menú Archivo. 9 Figura 12: Datos en formato ascii Figura 13: Datos en formato de Excel 10 Figura 14: Guardar datos 3. Estimación y validación de un modelo uniecuacional múltiple A continuación vamos a analizar el modelo uniecuacional múltiple correspondiente al ejercicio, esto es: Ct = β0 + β1 · Rt + β2 · Dt + β3 · Ht + ut . Por tanto, entre otras cosas, estimaremos las cantidades constantes del mismo, calcularemos el coeficiente de determinación y los contrastes de significación individual y conjunta. Todo esto se realizará tanto a partir de la información proporcionada por el programa directamente como a partir de la teorı́a desarrollada en clase interpretando los resultados obtenidos. 3.1. Estimación de las cantidades constantes del modelo. Bondad del ajuste realizado Ya que acabamos de cerrar la aplicación, lo primero que tenemos que hacer es inicializarla y recuperar los datos. Puesto que los tenemos salvados en el formato propio de Gretl, para recuperarlos tenemos que seleccionar la opción Archivos de ususario. . . (Ctrl+O) del menú Abrir datos de Archivo (ver figura 15) y buscamos allı́ donde guardamos los datos. Observar también que disponemos de una lista de los últimos archivos usados, por lo que si no han sido reubicados o borrados, podremos recuperarlos rápidamente. Para estimar las cantidades constantes del modelo vamos a aplicar el método de mı́nimos cuadrados ordinarios (MCO). En Gretl existen dos formas distintas de acceder a dicho método. Una forma rápida, seleccionando el penúltimo icono de la parte inferior del programa, o seleccionando la opción de Mı́nimos cuadrados ordinarios. . . del menú Modelo en la parte superior derecha (figura 16). En ambos casos obtendremos el cuadro de diálogo correspondiente al método de MCO (figura 17), donde se puede introducir la variable dependiente y las independientes sin más que seleccionarlas y añadirlas o quitarlas. En nuestro caso introduciremos la variable C como dependiente y el resto como independientes, además de considerar constante en el modelo. Y entonces, simplemente con pulsar Aceptar obtendremos la estimación por MCO del modelo indicado (figura 18). Se obtiene, por tanto, 11 Figura 15: Abrir datos en formato de Gretl Figura 16: Acceso al método de MCO 12 Figura 17: Cuadro de diálogo del método de MCO la siguiente estimación de los coeficientes de las variables: término independiente -0’00832655; R 0’481571; D 0’388973 y H 0’230557. Para terminar de estimar las cantidades constantes del modelo faltarı́a la varianza de la perturbación aleatoria, cuya estimación se obtiene dividiendo la suma de los cuadrados de los residuos entre la diferencia de observaciones y el número de regresores. Por tanto, en este caso, la estimación de la varianza de la perturbación aleatoria se obtiene dividiendo 2’357020 entre 22-4, esto es, 0’1309456. Adviértase que justo al lado de la suma de los cuadrados de los residuos aparece la desviación tı́pica de la regresión, 0’361864, es decir, la raı́z cuadrada de la estimación anterior. Por otro lado, de entre toda la información disponible, ahora mismo destacaremos la bondad del ajuste realizado, es decir, el coeficiente de determinación. Que en este caso es de un 0’902641 (un 0’886414 para el R-cuadrado corregido). Puesto que está cercano al 1 podemos indicar que el modelo ajustado es adecuado y que explica un 90’2641 % de la variabilidad de la variable dependiente. Si en la columna correspondiente a Coeficiente se tienen las estimaciones de los coeficientes del modelo lineal uniecuacional múltiple anteriormente comentadas, en la siguiente columna, Desv. Tı́pica, se tienen las desviaciones tı́picas estimadas de cada coeficiente estimado2 . Esto es, en la segunda columna se tienen las raı́ces cuadradas de los elementos de la diagonal principal de la matriz de va \ rianzas covarianzas V ar βb . Atendiendo a esta información tradicionalmente se resume la estimación realizada como: bt C = -0’00832655 (0’209189) + 0’481571 ·Rt (0’0475691) + 0’388973 ·Dt (0’180558) + 0’230557 ·Ht (0’08207849) R2 = 00 902641 Finalmente, hay que destacar que en la nueva ventana donde se presentan los resultados tenemos distintos menús con opciones interesantes. Destacaremos las que nos resultan útiles en este momento: Archivo: nos permite salvar los resultados en formato de texto plano, rtf o tex e imprimirlos. 2 Para más detalle ver la sección de intervalos de confianza. 13 Figura 18: Resultados de la estimación por MCO Editar: nos permite copiar los resultados y modificar el modelo considerado (en este caso se abre la ventana de la figura 17, es decir, el cuadro de diálogo del método de MCO para realizar las modificaciones oportunas). Guardar: permite guardar como nuevas variables los valores estimados, los residuos o los residuos al cuadrado, entre otros. Gráficos: nos permite representar gráficos de residuos y de la variable estimada y observada. Analizar: permite, por ejemplo, mostrar de forma conjunta la variable observada, la estimada y los residuos. Ası́ por ejemplo, a partir del menú Gráficos (figura 19) podemos representar de forma conjunta los valores observados y estimados de la variable dependiente (figura 20). Adviértase que pulsando el botón derecho del ratón sobre la imagen en cuestión (figura 21) podemos, entre otras acciones, guardar la imagen en distintos formatos, imprimirla o editarla. Este último aspecto permite cambiar la apariencia de la representación gráfica: tı́tulos, escala, colores, etc. Por ejemplo, en la figura 22 se modifica la representación de puntos por lı́neas. 3.2. Análisis de los errores/residuos Destinaremos este apartado a analizar los residuos. Básicamente comprobaremos que tienen media cero y son normales. En un futuro se estudiarán las hipótesis de incorrelación y heteroscedasticidad. En primer lugar, pinchando en Mostrar variable observada, estimada y residuos del menú Análisis de la ventana de resultados se nos presentan de forma conjunta la variable estimada, observada y los residuos (figura 23). Si bien, para poder almacenar los residuos como una nueva variable hay que seleccionar Residuos del menú Guardar (figura 24). Habrá que indicar en este caso el nombre de la variable (por ejemplo, e) y su descripción (por ejemplo, residuos del modelo). De forma exploratoria podemos representar los residuos por número de observación pinchando en Por número de observación del menú Gráfico residuos de Gráficos (figura 25). En el gráfico que se obtiene (figura 26), se observa cómo los residuos se sitúan alrededor del cero (la que tiene que ser su media). Si bien, este aspecto lo confirmaremos calculando (nos situamos sobre la variable 14 Figura 19: Opción Gráfico de variable estimada y observada del menú Gráficos Figura 20: Representación conjunta de la variable dependiente estimada y observada 15 Figura 21: Opciones sobre un gráfico en Gretl Figura 22: Aspectos que se pueden modificar en un gráfico 16 Figura 23: Valores observados, estimados y residuos Figura 24: Guardar residuos como nueva variable 17 Figura 25: Obtener gráfico de los residuos Figura 26: Gráfico de los residuos frente al número de observación correspondiente a los residuos, pulsamos el botón derecho del ratón y seleccionamos la opción de Estadı́sticos descriptivos) los estadı́sticos descriptivos de los residuos (figura 27). Como es sabido la gran riqueza del modelo lineal se obtiene cuando se introduce la hipótesis de normalidad en el mismo, por lo que comprobar la suposición de normalidad en los residuos parece crucial. Pinchando sobre Normalidad residuos del menú Contrastes se obtiene la distribución de frecuencias de los residuos y la correspondiente prueba de la Chi-cuadrado sobre la normalidad (figura 28). También se obtiene un histograma de los residuos con la curva normal (figura 29) donde también aparece la prueba Chi-cuadrado. En este caso, puesto que el p-valor, mı́nimo valor a partir del cual se rechaza la hipótesis nula, es 0’0936175, no rechazaremos la hipótesis nula de normalidad (ya que es mayor que 0.05). Finalmente, aunque no tenga que ver con los residuos, podemos plantearnos contrastar si se verifica la hipótesis de linealidad, es decir, contrastar si la relación existente entre la variable dependiente, las variables independientes y la peturbación aleatoria es lineal. Con tal objetivo seleccionaremos, en la ventana donde tenemos la estimación por MCO, la opción No linealidad (cuadrados) o No linealidad (logs) del menú Contrastes. En ambos casos se trata de un contraste que tiene por hipótesis nula que la relación es lineal. Puesto que para los dos contrastes el p-valor es mayor que 0.05 (ver figura 30), se decide no rechazar la hipótesis nula, luego en este caso no rechazamos que la relación existente sea 18 Figura 27: Estadı́sticos descriptivos de los residuos del modelo Figura 28: Prueba de normalidad de los residuos 19 Figura 29: Histograma de los residuos con curva normal lineal. 3.3. Contrastes de significación de los parámetros En el presente apartado estudiaremos los distintos contrastes de hipótesis que permite realizar Gretl. Observando la figura 18 (que corresponde a la salida dada por el programa en la estimación por mı́nimos cuarados ordinarios), vemos que automáticamente Gretl proporciona los contrastes de significación individual, es decir, aquellos en los que la hipótesis nula afirma que βi = 0, para i=0,1,2,3. Para estos contrastes hay que fijarse en la última columna de la tabla que hay, es decir, en aquella que tiene por tı́tulo Valor p. En dicha columna tenemos el p-valor correspondiente a cada uno de los contrastes de significación individual. Si recordamos que el p-valor es el mı́nimo valor a partir del cual se rechaza la hipótesis nula, en aquellos casos en los que el p-valor se mayor que 0.05 (nivel de significación al que trabajamos) no rechazaremos la hipótesis nula. Luego no podemos rechazar que la constante sea igual a cero, al mismo tiempo se tiene que los coeficientes β1 , β2 y β3 son significativamente distintos de cero. Además, atendiendo al signo de la estimación obtenida, las variables R, D y H influyen positivamente sobre la variable dependiente (puesto que la constante no es significativamente distinta de cero no podemos realizar ningún tipo de comentario similar). Ası́ por ejemplo, la estimación de β3 es 0’230557 (ver primera columna de la tabla de la figura 18). Dicha estimación nos podrı́a hacer pensar que el valor de dicho parámetro pueda ser cero. Sin embargo, observando el p-valor, 0’0116, asociado al contraste de significación individual (hipótesis nula β3 = 0) nos indica que dicho parámetro es significativamente distinto de cero, ya que es menor que 0.05 y, por tanto, en dicho caso se rechaza la hipótesis nula del contraste planteado. Por otro lado, la estimación del término independiente es -0’00832655. De igual forma dicha estimación me puede hacer pensar que el valor del parámtero es cero, cuestión que se confirma en esta ocasión al comprobar que el p-valor, 0’9687, es mayor que el nivel de significación considerado, 0.05, por lo que no se rechazará la hipótesis nula de que el parámetro sea cero. Adviértase que en la tabla de la figura 18 viene también el valor experimental de la t-Student (columna correspondiente a Estadı́stico t) con el que se realiza el contraste de significación individual, dicho valor se obtiene, como es sabido, a partir de la estimación de cada coeficiente (columna Coeficiente) y la desviación tı́pica estimada de cada coeficiente estimado, es decir, la raı́z cuadrada de los elementos de la diagonal principal de la estimación de la matriz de varianzas-covarianzas de 20 Figura 30: Contrastes de linealidad la estimación de beta (colummna correspondiente a Desv. Tı́pica). Ası́, por ejemplo, para el segundo parámetro, 0’481571/0’0475691 = 10’12. Por tanto, también es posible tomar una decisión para el contraste a partir de la región de rechazo, sin más que comparar este valor con el valor teórico correspondiente de la t-Student. ¿Cómo se obtiene dicho valor teórico? Evidentemente hay que usar las tablas de la t-Student que tienen recogidos dichos valores, si bien, en nuestro caso podemos recurrir también a Gretl para obtener dicho valor. Seleccionando Tablas estadı́siticas del menú Herramientas nos aparece una nueva ventana donde podemos calcular el valor teórico de distintas distribuciones (por ejemplo, normal, t-Student, Chi-Cuadrado, F-Snedecor, Binomial, poisson), entonces seleccionando en este caso la tStudent tendremos que introducir los grados de libertad y la probabilidad que queda a la derecha (ver figura 31). En nuestro caso, los grados de libertad se obtienen a partir de n − k = 22 − 4 = 18, donde n representa el número de observaciones que se disponen y k el número de variables independientes presentes en el modelo (información que se obtiene a partir de la figura 18 sin mayores problemas). Mientras que la probabilidad de la cola derecha corresponde a 0.025, ya que trabajamos a un 5 % de significación y la t-Student es una distribución simétrica. Por tanto, el valor teórico de la t-Student con 18 grados de libertad que deja a la derecha una cola con probabilidad 0.025 que se obtiene es 2’10092 (figura 32). Luego como el valor experimental, 10’12, es mayor que el teórico se decide rechazar la hipótesis nula, es decir, el parámetro es significativamente distinto de cero. Finalmente, Gretl también permite plantear y resolver contrastes lineales sobre los parámetros de las variables. Algunos ejemplos de restricciones lineales pueden ser: b[1] - 2*b[2] + 3*b[0] = 0 b[2] - b[3] = 0 b[2] + 2*b[3] = 1 Ası́, para tomar una decisión sobre la hipótesis nula de que b[2] + 2*b[3] = 1, en la ventana donde tenemos las estimaciones de los parámetros (figura 18), seleccionamos la opción Restricciones lineales del menú Contrastes (figura 33). En la nueva ventana que emerge hay que especificar la restricción 21 Figura 31: Valores de las tablas estadı́sticas Figura 32: Valor teórico de la t-Student con 18 grados de libertad que deja a la derecha una cola con probabilidad 0.025 22 Figura 33: Restricciones lineales anterior (figura 34) y sin más que pulsar en aceptar se realizará el contraste. Si se pulsa sobre el botón de Ayuda, Gretl nos indica como introducir las restricciones lineales (por ejemplo, se pueden introducir más de una de forma simultánea). Finalmente, obtendremos los resultados del contraste en una nueva ventana (figura 35). Se nos proporciona el valor experimental de la F y el p-valor asociado, luego al igual que antes, tenemos dos opciones para tomar una decisión en el contraste: mediante la región de rechazo y mediante el p-valor. La primera opción se resuelve exactamente igual que en el caso del ANOVA: buscando el valor teórico y comparándolo con el experimental (que veremos a continuación), mientras que para la segunda opción sólo tenemos que comparar el p-valor con 0.05 (nivel de significación considerado). Puesto que en este caso p-valor = 0’489543 > 0.05 = nivel de significación, no se rechaza la hipótesis nula de que los coeficientes cumplen la relación lineal planteada. En tal caso habrá que tener en cuenta la nueva estimación de los coeficientes bajo la suposición de que la restricción anterior es cierta (mı́nimos cuarados restringidos): bt C = 0’086029 (0’158707) + 0’474688 ·Rt (0’0459383) + 0’262656 ·Dt (0’0229691) + 0’249346 ·Ht (0’0766041) Evidentemente hay que tener en cuenta las mismas en el caso de que no se rechace la hipótesis nula. A modo de resumen, cuando se resuelva un contraste a partir del p-valor, hay que tener en cuenta la siguiente regla que se deduce a partir de la definición del mismo: si p-valor es mayor que 0.05 no se rechaza la hipótesis nula del contraste siempre y cuando se trabaje al 5 % de significación (si es al 1 % el valor de comparación será 0.01). 3.4. Análisis de la varianza: ANOVA En el presente apartado estudiaremos el contraste de significación conjunta, es decir, aquel en el que la hipótesis nula afirma que β1 = β2 = β3 = 0. En tal caso, tenemos que fijarnos en la cuarta fila de los resultados que aparecen después de la tabla que contiene las estimaciones (ver figura 18). En este caso se nos proporciona el valor experimental de la F-Snedecor, 55’62750, y su p-valor asociado, 23 Figura 34: Especificación de las restricciones lineales Figura 35: Resultado del contraste de restricciones lineales sobre los parámetros 24 Figura 36: Valor teórico de la F de Snedecor con 3 y 18 grados de libertad que deja a la derecha una cola con probabilidad 0.05 0’00000000265. Atendiendo al p-valor, puesto que es claramente menor que 0.05 se rechaza la hipótesis nula de que los coeficientes son nulos de forma simultánea. Al mismo tiempo también es posible plantear la región de rechazo en este caso. Ya tenemos el valor experimental, luego sólo faltarı́a calcular el teórico. Para ello, en el mismo menú de antes (figura 36) hay que seleccionar los valores crı́ticos de F y especificar los grados de libertad del numerador y del denominador (3 y 18, respectivamente) y la probabilidad en la cola derecha, 0.05 (puesto que trabajamos a un 5 % de significación). Adviértase que los grados de libertad nos los proporciona el programa cuando nos da el valor de la F experimental. Puesto que el valor experimental, 55’62750, es claramente mayor que el teórico, 3’15991, se rechaza la hipótesis nula de que los coeficientes son nulos de forma simultánea. ¿Se puede obtener el valorexperimental de la F a partir de la información mostrada en la salida de la figura 18? Teniendo en cuenta que SCT = n · V ar(Y ) donde Y es la variable dependiente, ya que en dicha figura se tiene que la desviación tı́pica de la variable dependiente es 1’073702, es claro que SCT = 22·10 0737022 = 250 36239. Por otro lado se tiene que SCR = 20 357020, por lo que SCE = SCT −SCR = 250 36239 − 20 357020 = 230 00537. Entonces se tiene que: Fexp = SCE/(k − 1) 230 00537/3 70 668457 = 0 = 0 = 580 56216. SCR/(n − k) 2 357020/18 0 1309456 Otra opción para obtener dicho valor es usar la expresión equivalente: Fexp = R2 /(k − 1) 00 902641/3 00 3008803 = = 550 62758. (1 − R2 )/(n − k) 00 097359/18 00 005408833 ¿Por qué no salen iguales? Gretl, al igual que practicamente todos los paquetes estadı́sticos, trabaja con la cuasivarianza muestral en lugar de con la varianza muestral, ya que el primero es un estimador insesgado y el segundo no. Por tanto para calcular la SCT hay que multiplicar por n − 1 en lugar de por n. Si se repiten las cuentas partiendo de SCT = 21 · 10 0737022 = 240 20956 llegaremos a que Fexp = 550 6275. Destacar que este contraste es de suma importancia ya que mide el poder explicativo global de todas las variables, es decir, al rechazar la hipótesis nula rechazamos que la variabilidad observada en 25 Figura 37: Opción ANOVA Figura 38: Tabla ANOVA la variable dependiente sea explicable por el azar. ¿Y quién mide mide la variabilidad de la variable independiente? Se está afirmando pues que el coeficiente de determinación o R cuadrado es significativo y, por tanto, admitimos que hay algún tipo de asociación entre las variables dependientes y las independientes. Además, mediante el menú Análisis de la ventana de la figura 18, seleccionando ANOVA (figura 37), obtenemos la conocida como tabla ANOVA (figura 38). A partir de dicha tabla es fácil obtener el coeficiente de determinación (mediante su expresión en función de las sumas de cuadrados) y el valor experimental anterior de la F. 3.5. Intervalos de confianza En este apartado calcularemos los distintos intervalos de confianza que se pueden hacer en el modelo lineal. Ası́, seleccionando Intervalos de confianza para los coeficientes del menú Análisis de la ventana de la estimación por MCO (figura 39) obtenemos automáticamente los intervalos de confianza, al nivel de confianza del 95 %, para cada uno de los coeficientes de las variables del modelo (figura 40). Adviértase que también se nos proporciona el valor teórico de la distribución t-Student utilizado. En dicho menú también es posible seleccionar Elipse de confianza... (ver figura 39) que nos permite calcular la región de confianza conjunta para cualquier par de coeficientes de las variables del modelo. Ası́ por ejemplo, en la figura 41 se tiene la ventana para indicar los coeficientes para los que se quiere calcular dicha región de confianza (donde también se puede modificar el nivel de confianza al que 26 Figura 39: Menú de intervalos de confianza para los coeficientes Figura 40: Intervalos de confianza para los coeficientes 27 Figura 41: Selección del elipse de confianza para los coeficientes de Renta e Hijos Figura 42: Elipse de confianza para los coeficientes de Renta e Hijos calcular la elipse) y en la figura 42 los resultados obtenidos. Vemos como el centro de la elipse es (0’482, 0’231) y se puede comprobar gráficamente como, por ejemplo, el punto (0’3, 0’1) no pertenece a dicha región o como (0’5, 0’1) si lo hace. Por otro lado, no se puede obtener el intervalo de confianza para la varianza de la perturbación aleatoria de forma directa, si bien, con la información de la figura 18 se puede calcular éste sin mayores problemas, ya que nos proporciona la suma de los cuadrados de los residuos, 2’357020, que es la cantidad necesaria para calcular dicho intervalo. Para completar la información necesaria sólo faltan los puntos (que se pueden obtener como es sabido mediante Gretl) de una chi-cuadrado con 18 grados de libertad (n − k donde n es el número de observaciones y k el número de variables dependientes del modelo) que dejan a su izquierda una probabilidad de 0.025 y 0.975 (estamos calculando un intervalo al 5 % de nivel de confianza). Dichos puntos son, respectivamente, 8’23075 y 31’5264 (ver figura 43). Por tanto, el intervalo de confianza al nivel de confianza del 5 % para la varianza de la perturbación aleatoria es (2’357020/31’5264, 2’357020/8’23075) = (0’07476337, 0’2863676). Pero es que además, la figura 18 también proporciona la información necesaria para calcular los intervalos de confianza para cada uno de los coeficientes de las variables sin más que tener en cuenta 28 Figura 43: Puntos de una chi-cuadrado con 18 grados de libertad que dejan a su izquierda una probabilidad de 0.025 y 0.975 29 Figura 44: Valor teórico de la distribución t-Student con 18 grados de libertad que deja a su izquierda una probabilidad de 0.975 que éstos se construyen a partir de (coeficiente - valor t teórico * Desv. Tı́pica, coeficiente - valor t teórico * Desv. Tı́pica). Es decir: para constante: (-0’00832655 - 2’10092 * 0’209189, -0’00832655 + 2’10092 * 0’209189) = (-0’447817, 0’431164). para R: (0’481571 - 2’10092 * 0’0475691, 0’481571 + 2’10092 * 0’0475691) = (0’381632, 0’581510). para D: (0’388973 - 2’10092 * 0’180558, 0’388973 + 2’10092 * 0’180558) = (0’00963404, 0’768311). para H: (0’230557 - 2’10092 * 0’0820784, 0’230557 + 2’10092 * 0’0820784) = (0’0581163, 0’402997). Donde el valor teórico de la distribución t-Student se obtiene al igual que antes (para la chicuadrado) a partir del menú Herramientas seleccionando Tablas estadı́sticas (ver figura 44). Finalmente, destacar que mediante los intervalos de confianza calculados se puede dar respuesta a los contrastes de hipótesis con hipótesis nula βi = bi o σ 2 = σ0 , sin más que comprobar si bi o σ0 pertenecen al correspondiente intervalo de confianza. Es decir, si pertenecen al intervalo de confianza no se rechaza la hipótesis nula y si no lo hacen se rechazará la hipótesis nula. Ası́ por ejemplo, para los contrastes con hipótesis nula β2 = 0, β3 = 00 3, β0 = 2 o σ 2 = 1 se rechazarı́a, no rechazarı́a, rechazarı́a y rechazarı́a, respectivamente, dicha hipótesis nula al nivel de significación del 5 % (ya que el 0, el 2 y el 1 no pertenecen a los correspondientes intervalos de confianza, mientras que el 0’3 sı́). 3.6. Conclusión Por todo lo expuesto hasta ahora se tiene que el modelo estimado es válido y que las variables de renta familiar, deuda y número de hijos influyen positivamente en el consumo de las familias. Es decir, a mayor renta, deuda y número de hijos mayor consumo familiar. Además, al ser la variable correspondiente a la deuda una variable ficticia, habremos estimado la diferencia esperada en el consumo familiar entre familias con deuda y sin deuda con el mismo nivel de renta y número de hijos. En este caso se obtiene que dicha estimación es positiva, por lo que aquellas familias que tienen algún tipo de deuda consumen más que aquellas que no la tienen. Adviértase que las conclusiones anteriores se basan en los supuestos básicos realizados sobre la perturbación aleatoria, por tanto, se debe verificar que se cumplen dichas hipótesis. 30 Econometrı́a y el entorno de programación R: función MUM Román Salmerón Gómez Para afrontar un primer análisis de un modelo econométrico usando el entorno de programación R, los alumnos contarán con la ayuda de la siguiente información sobre la función MenuMUM. Destacar que se trata de una función creada por el profesor en la que se van calculando paso a paso cada uno de los conceptos explicados en clase. Pasos a seguir: Descarga e instalación de R. Enlace: http://www.ugr.es/local/romansg/material/softlibre/r1 es.html). ¡¡Ojo!! Asegurarse que se asocian los archivos .RData con R. Descargar la función MenuMUM: MenuMUM.RData. Enlace: http://www.ugr.es/local/romansg/material/WebEco/MenuMUM.RData). Ejecutar el archivo anterior. Si has instalado bien el programa apararecerá la siguiente pantalla donde podemos observar que nos avisan de que se ha cargado un espacio de trabajo ya creado: Y finalmente, sin más que escribir MenuMUM(), podremos empezar a trabajar!!!!. 1 Ejemplo Como ejemplo analicemos un modelo en el que el consumo familiar mensual (en miles de euros) es explicado a partir de la renta mensual familiar (también medida en miles de euros). Los datos de los que se disponen son los siguientes para el consumo: 1,32,512,71,81,121,21,621,51,731,44421,52,35,11,63,2, mientras que para la renta: 1,53,22,24,11,72,32,81,82,532,72,65286,6532,772,54. Al ejecutar MenuMUM() introduciremos los datos tal y como aparece en la siguiente imagen: Adviértase que el programa considera que el modelo tiene término independiente (por lo que no hay que incluirlo) y que, en este caso, no se ha querido realizar predicción ni contraste alguno sobre combinaciones lineales de los parámetros. Al finalizar, se mostrarán en pantalla la representación gráfica de los valores observados para el consumo junto a su estimación y la gráfica de los residuos. Además, también aparecerán los siguientes resultados: $‘X^{t}X‘ [,1] [,2] [1,] 22.0 76.2 [2,] 76.2 331.8 $‘X^{t}Y‘ [,1] [1,] 48.50 [2,] 204.45 $‘Estimación de los coeficientes de las variables‘ 2 [,1] [1,] 0.3437073 [2,] 0.5372499 $‘Estimación de la varianza de la perturbación aleatoria‘ [,1] [1,] 0.2309731 $‘Estimación de la matriz de varianzas-covarianzas de beta estimada‘ [,1] [,2] [1,] 0.05132529 -0.011787183 [2,] -0.01178718 0.003403124 $‘Estimación de la variable dependiente‘ [,1] [1,] 1.149582 [2,] 2.062907 [3,] 1.525657 [4,] 2.546432 [5,] 1.257032 [6,] 1.579382 [7,] 1.848007 [8,] 1.310757 [9,] 1.686832 [10,] 1.955457 [11,] 1.794282 [12,] 1.740557 [13,] 3.029957 [14,] 1.418207 [15,] 4.641706 [16,] 3.889556 [17,] 3.029957 [18,] 1.955457 [19,] 1.794282 [20,] 4.104456 [21,] 1.686832 [22,] 2.492707 $‘Residuos del modelo‘ [,1] [1,] 0.15041791 [2,] 0.43709314 [3,] -0.52565700 [4,] 0.15356827 [5,] 0.54296793 [6,] -0.47938198 [7,] 0.15199309 [8,] -0.11075705 [9,] -0.08683195 [10,] 0.04454312 3 [11,] [12,] [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,] [21,] [22,] -0.29428193 -0.04055694 -0.02995660 -0.01820702 -0.64170618 0.11044362 -1.02995660 -0.45545688 0.50571807 0.99554368 -0.08683195 0.70729326 $‘Sumas de cuadrados: SCT, SCE, SCR‘ [1] 24.209545 19.590084 4.619462 $‘Coeficiente de determinación‘ [,1] [1,] 0.8091884 $‘Coeficiente de determinación corregido‘ [,1] [1,] 0.7996478 $‘Selección de modelos‘ $‘Selección de modelos‘$‘Criterio de información de Akaike‘ [,1] [1,] 32.09648 $‘Selección de modelos‘$‘Criterio de información bayesiano de Schwarz‘ [,1] [1,] 34.27857 $‘Selección de modelos‘$‘Criterio de información de Hannan-Qinn‘ [,1] [1,] 32.61052 $‘Matriz de varianzas-covarianzas de las variables dependientes‘ [,1] [1,] 3.231948 $‘Matriz de correlaciones de las variables dependientes‘ [,1] [1,] 1 $‘Contrastes de significación individual‘ $‘Contrastes de significación individual‘$‘Valores experimentales de cada contraste‘ [,1] [,2] [1,] 1.517131 9.20953 4 $‘Contrastes de significación individual‘$‘Valor teórico de la t-Student‘ [1] 2.085963 $‘Contrastes de significación individual‘$‘Decisión de cada contraste‘ [,1] [,2] [1,] "La variable 1 no es significativa" "La variable 2 es significativa" $‘Contraste de significación conjunta‘ $‘Contraste de significación conjunta‘$‘Tabla ANOVA‘ [,1] [,2] [,3] [1,] "Fuentes de variación" "Sumas de cuadrados" "Grados de libertad" [2,] "Estimada" "19.5900835080695" "1" [3,] "Residual" "4.61946194647594" "20" [4,] "Total" "24.2095454545454" "" [,4] [1,] "Medias" [2,] "19.5900835080695" [3,] "0.230973097323797" [4,] "84.8154340702569" $‘Contraste de significación conjunta‘$‘Contraste ANOVA‘ [1] "Como la F experimental, 84.8154340702569 , es mayor que la teórica, 4.35124350332929 , se rechaza la hipótesis nula, es decir, existe al menos un coeficiente no nulo" $‘Significación del coeficiente de determinación‘ [1] "Puesto que el coeficiente de determinación, 0.809188406484162 ,es mayor que la cota inferior de significación, 0.178686706604301 ,es significativo" $‘Intervalos individuales para cada coeficiente‘ [,1] [,2] [1,] -0.1288695 0.8162841 [2,] 0.4155625 0.6589372 $‘Intervalo de confianza para la varianza de la perturbación aleatoria‘ [,1] [,2] [1,] 0.1351921 0.4816567 Notas finales R es un conjunto integrado de programas para manipulación de datos, cálculo y gráficos, que puede definirse como una nueva implementación del lenguaje S desarrollado en AT&T (por lo que muchos de los libros y manuales sobre S son útiles para R). El entorno de programación R está disponible como software libre con licencia GNU de la Fundación de Software Libre. Sus principales caracterı́sticas son: Almacenamiento y manipulación efectiva de datos. 5 Operadores para el cálculo sobre variables indexadas, en particular, matrices. Una amplia, coherente e integrada colección de herramientas para análisis de datos. Posibilidades gráficas para análisis de datos, que funcionan directamente sobre pantalla o impresora. Un lenguaje de programación bien desarrollado, simple y efectivo, que incluye condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. Más información en su web oficial: http://www.r-project.org/. Evidentemente se trata de un entorno de programación muy contrastado que ya tiene implementado de manera eficiente el análisis de un modelo econométrico (mediante la función lm). ¿Por qué no usar entonces la función que nos ofrece R para dicho análisis? Muy sencillo. Puesto que el fin final de estas lı́neas es puramente docente y no investigador se ha optado por crear una función donde los alumnos puedan identificar aquellas expresiones que se estudian a lo largo de la asignatura. Sin ninguna duda, la función lm del entorno R para el ajuste de modelos lineales es una herramienta más potente que la aquı́ expuesta. Puedes encontrar información sobre esta función fácilmente escribiendo su nombre en cualquier buscador de internet (por ejemplo, Google). En el siguiente enlace tienes un ejemplo de su uso: http://www.ugr.es/local/romansg/material/softlibre/r2 es.html 6 Regresión lineal múltiple con Stata Román Salmerón Gómez En el presente documento se aborda brevemente cómo estimar y validar un modelo lineal de regresión múltiple con Stata. Más concretamente, se analizará el modelo Ct = β1 + β2 Rt + β3 Dt + β4 Ht + ut , donde los datos de las variables consumo familiar, C, renta familiar, R, deuda, D, y número de hijos, H, se encuentran en la tabla 1. Cuadro 1: Observaciones para 22 familias Familia Consumo Renta Deuda Hijos 1 1’3 1’5 1 1 2 2’5 3’2 1 2 3 1 2’2 0 0 4 2’7 4’1 1 2 5 1’8 1’7 1 1 6 1’1 2’3 0 0 7 2 2’8 1 3 8 1’2 1’8 1 0 9 1’6 2’5 1 1 10 2 3 0 3 11 1’5 2’7 0 0 12 1’7 2’6 1 0 13 3 5 0 1 14 1’4 2 1 0 15 4 8 1 2 16 4 6’6 1 1 17 2 5 0 0 18 1’5 3 1 0 19 2’3 2’7 1 1 20 5’1 7 1 3 21 1’6 2’5 1 2 22 3’2 4 1 2 Los datos en Stata se introducen directamente pulsando el botón correspondiente a Data Editor (edit) o importándolos, por ejemplo desde Excel, sin más que copiarlos en la hoja de cálculo y pegándolos en la de Stata (si el nombre de las variables está escrito en la primera fila de la hoja de cálculo aparecerá un mensaje preguntando si dicha fila ha de tratarla como los nombres de las variables o como datos). Una vez introducimos los datos, en primer lugar vamos a calcular los principales estadı́sticos descriptivos de las variables (excepto de la variable D por ser dicotómica). Usaremos los comandos su y corr de Stata: 1 . su consumo renta deuda hijos, detail Consumo ------------------------------------------------------------Percentiles Smallest 1% 1 1 5% 1.1 1.1 10% 1.2 1.2 Obs 22 25% 1.5 1.3 Sum of Wgt. 22 50% 75% 90% 95% 99% 1.9 2.7 4 4 5.1 Largest 3.2 4 4 5.1 Mean Std. Dev. 2.204545 1.073702 Variance Skewness Kurtosis 1.152835 1.211082 3.718969 Renta ------------------------------------------------------------Percentiles Smallest 1% 1.5 1.5 5% 1.7 1.7 10% 1.8 1.8 Obs 22 25% 2.3 2 Sum of Wgt. 22 50% 75% 90% 95% 99% 2.75 4.1 6.6 7 8 Largest 5 6.6 7 8 Mean Std. Dev. 3.463636 1.797762 Variance Skewness Kurtosis 3.231948 1.240405 3.49813 Hijos ------------------------------------------------------------Percentiles Smallest 1% 0 0 5% 0 0 10% 0 0 Obs 22 25% 0 0 Sum of Wgt. 22 50% 75% 90% 95% 99% 1 2 3 3 3 Largest 2 3 3 3 Mean Std. Dev. 1.136364 1.082126 Variance Skewness Kurtosis 1.170996 .4186488 1.903154 . corr consumo renta hijos 2 | consumo renta hijos -------------+--------------------------consumo | 1.0000 renta | 0.8995 1.0000 hijos | 0.5814 0.3772 1.0000 A partir de las correlaciones podemos observar, por ejemplo, una alta correlación positiva entre el consumo y la renta. Para estimar y validar el modelo anterior usaremos el comando reg de Stata: . reg consumo renta deuda hijos Source | SS df MS -------------+-----------------------------Model | 21.8525248 3 7.28417492 Residual | 2.35702018 18 .130945566 -------------+-----------------------------Total | 24.2095449 21 1.15283547 Number of obs F( 3, 18) Prob > F R-squared Adj R-squared Root MSE = = = = = = 22 55.63 0.0000 0.9026 0.8864 .36186 -----------------------------------------------------------------------------consumo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------renta | .4815709 .0475691 10.12 0.000 .3816319 .5815099 deuda | .3889727 .1805582 2.15 0.045 .0096341 .7683114 hijos | .2305566 .0820784 2.81 0.012 .0581163 .402997 _cons | -.0083266 .2091894 -0.04 0.969 -.4478172 .4311641 -----------------------------------------------------------------------------Dicho comando da como salida fundamentalmente la tabla ANOVA (contraste de significación conjunta) junto a su p-valor asociado, el R2 (y su versión corregida) y las estimaciones de los coeficientes junto a sus p-valores asociados (contrastes de significación individual) e intervalos de confianza. Podemos observar que todas las variables son significativas (p-valor inferior a 0.05) excepto el término independiente, es decir, la constante no es significativamente distinta de cero. Ahora bien, ¿tiene sentido que el modelo tenga término independiente? Este término se interpreta como el consumo de una familia sin renta alguna, sin deudas y sin hijos. ¿Una familia sin renta consumirı́a? Parece por tanto que se puede prescindir del término independiente desde un principio. Estimamos1 entonces el nuevo modelo que se obtiene sin más que introducir noconstant al final de la orden: . reg consumo renta deuda hijos, noconstant 1 Hay que tener mucho cuidado cuando se trabaja con un modelo sin término independiente ya que, por ejemplo, el coeficiente de determinación ya no tiene por qué estar comprendido entre 0 y 1. 3 Source | SS df MS -------------+-----------------------------Model | 128.772772 3 42.9242573 Residual | 2.35722765 19 .124064613 -------------+-----------------------------Total | 131.129999 22 5.96045452 Number of obs F( 3, 19) Prob > F R-squared Adj R-squared Root MSE = = = = = = 22 345.98 0.0000 0.9820 0.9792 .35223 -----------------------------------------------------------------------------consumo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------renta | .4803109 .0345606 13.90 0.000 .4079747 .5526471 deuda | .3849219 .145174 2.65 0.016 .0810693 .6887745 hijos | .2306591 .0798535 2.89 0.009 .0635237 .3977944 -----------------------------------------------------------------------------Observamos que el modelo es conjuntamente válido (se rechaza hipótesis nula en el contraste de significación conjunta), tanto el coeficiente de determinación como el ajustado son muy altos (se explica alrededor de un 98 % de la variabilidad del consumo) y todas las variables independientes son significativas (se rechaza hipótesis nula en los contrastes de significación individual) con signo positivo, es decir, cuando aumentan también lo hace el consumo. Los valores estimados se pueden obtener con el comando predict: . predict est . l est 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. +----------+ | est | |----------| | 1.336047 | | 2.383235 | | 1.056684 | | 2.815515 | | 1.432109 | |----------| | 1.104715 | | 2.42177 | | 1.249481 | | 1.816358 | | 2.13291 | |----------| | 1.296839 | | 1.63373 | | 2.632213 | | 1.345544 | | 4.688727 | |----------| | 3.785633 | | 2.401554 | | 1.825855 | | 1.91242 | 4 20. | 4.439075 | |----------| 21. | 2.047017 | 22. | 2.767483 | +----------+ . su consumo est Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------consumo | 22 2.204545 1.073702 1 5.1 est | 22 2.205678 1.017523 1.056684 4.688727 . gener familia = [_n] . graph twoway line consumo est familia Obsérvese que se ha calculado también las medias, desviaciones tı́picas, mı́nimo y máximo del consumo y su estimación y (finalmente) se han representado de forma conjunta (previante se ha creado una variable correspondiente al número de familias). También se podrı́an obtener los residuos del modelo, cuestión importante a la hora de verificar que se cumplen las hipótesis básicas del modelo lineal general (como es el caso de la normalidad): . predict resid, residuals . l resid 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. +-----------+ | resid | |-----------| | -.0360473 | | .1167651 | | -.0566839 | | -.1155145 | | .3678904 | |-----------| | -.004715 | | -.4217695 | | -.0494814 | | -.2163582 | | -.1329098 | |-----------| | .2031606 | | .0662699 | | .3677866 | | .0544563 | | -.688727 | |-----------| | .2143673 | | -.4015544 | 5 18. | -.3258545 | 19. | .3875796 | 20. | .6609247 | |-----------| 21. | -.4470172 | 22. | .4325165 | +-----------+ . . su resid Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------resid | 22 -.0011325 .3350337 -.688727 .6609247 . . swilk resid Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------resid | 22 0.98537 0.371 -2.012 0.97790 Finalmente destacar que añadiendo vce(robust) al final del comando reg obtenemos estimadores robustos a los problemas de heteroscedasticidad y autorrelación, es decir, si existen dichos problemas los corrige directamente: . reg consumo renta deuda hijos, noconstant vce(robust) Linear regression Number of obs = F( 3, 19) = Prob > F = R-squared = Root MSE = 22 223.71 0.0000 0.9820 .35223 -----------------------------------------------------------------------------| Robust consumo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------renta | .4803109 .0426546 11.26 0.000 .3910338 .569588 deuda | .3849219 .119373 3.22 0.004 .1350714 .6347725 hijos | .2306591 .0735052 3.14 0.005 .0768109 .3845073 -----------------------------------------------------------------------------Por tanto, una posible lı́nea de comandos a ejecutar para estimar de forma óptima un modelo de regresión lineal serı́a: reg consumo renta deuda hijos, noconstant vce(robust) predict resid, residuals swilk resid 6 Apéndice Realizar inferencia es también muy fácil en Stata usando el comando ttest ya sea para comparar la media de una variable con un número: . ttest consumo = 2 One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------consumo | 22 2.204545 .228914 1.073702 1.728493 2.680598 -----------------------------------------------------------------------------mean = mean(consumo) t = 0.8935 Ho: mean = 2 degrees of freedom = 21 Ha: mean < 2 Pr(T < t) = 0.8092 Ha: mean != 2 Pr(|T| > |t|) = 0.3817 Ha: mean > 2 Pr(T > t) = 0.1908 O para comparar la media de dos variables (ya sea suponiendo varianzas iguales o distintas): . ttest consumo = renta, unpaired Two-sample t test with equal variances -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------consumo | 22 2.204545 .228914 1.073702 1.728493 2.680598 renta | 22 3.463636 .3832841 1.797762 2.666553 4.260719 ---------+-------------------------------------------------------------------combined | 44 2.834091 .2405935 1.595917 2.348888 3.319294 ---------+-------------------------------------------------------------------diff | -1.259091 .4464396 -2.160043 -.3581393 -----------------------------------------------------------------------------diff = mean(consumo) - mean(renta) t = -2.8203 Ho: diff = 0 degrees of freedom = 42 Ha: diff < 0 Pr(T < t) = 0.0036 Ha: diff != 0 Pr(|T| > |t|) = 0.0073 Ha: diff > 0 Pr(T > t) = 0.9964 . ttest consumo = renta, unpaired unequal Two-sample t test with unequal variances -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------consumo | 22 2.204545 .228914 1.073702 1.728493 2.680598 renta | 22 3.463636 .3832841 1.797762 2.666553 4.260719 ---------+-------------------------------------------------------------------7 combined | 44 2.834091 .2405935 1.595917 2.348888 3.319294 ---------+-------------------------------------------------------------------diff | -1.259091 .4464396 -2.166082 -.3520993 -----------------------------------------------------------------------------diff = mean(consumo) - mean(renta) t = -2.8203 Ho: diff = 0 Satterthwaite’s degrees of freedom = 34.2904 Ha: diff < 0 Pr(T < t) = 0.0040 Ha: diff != 0 Pr(|T| > |t|) = 0.0079 Ha: diff > 0 Pr(T > t) = 0.9960 Para contrastar si las varianzas son iguales se tiene la orden sdtest: . sdtest consumo=renta Variance ratio test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------consumo | 22 2.204545 .228914 1.073702 1.728493 2.680598 renta | 22 3.463636 .3832841 1.797762 2.666553 4.260719 ---------+-------------------------------------------------------------------combined | 44 2.834091 .2405935 1.595917 2.348888 3.319294 -----------------------------------------------------------------------------ratio = sd(consumo) / sd(renta) f = 0.3567 Ho: ratio = 1 degrees of freedom = 21, 21 Ha: ratio < 1 Pr(F < f) = 0.0111 Ha: ratio != 1 2*Pr(F < f) = 0.0223 Ha: ratio > 1 Pr(F > f) = 0.9889 Adviértase que para poder aplicar estas herramientas se necesitan muestras procedentes de una normal: . swilk consumo renta Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------consumo | 22 0.87679 3.121 2.308 0.01050 renta | 22 0.84221 3.997 2.810 0.00248 . by deuda, sort: swilk consumo renta -> deuda = 0 Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------consumo | 6 0.89617 1.286 0.380 0.35180 8 renta | 6 0.89486 1.302 0.400 0.34443 -> deuda = 1 Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+-------------------------------------------------consumo | 16 0.86521 2.731 1.996 0.02299 renta | 16 0.81655 3.717 2.608 0.00456 9

Técnicas Econométricas - Universidad de Granada

Documentos relacionados

Productos

Apoyo

Técnicas Econométricas - Universidad de Granada

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib