Técnicas Econométricas - Universidad de Granada

Anuncio
Técnicas
Econométricas
Máster Universitario
Técnicas Cuantitativas en Gestión Empresarial
Román Salmerón Gómez
Granada, 2013
Técnicas Econométricas: breve descripción de contenidos
Román Salmerón Gómez
A continuación se comenta brevemente la parte de la asignatura Técnicas Econométricas impartida
por el Prof. Román Salmerón en el máster en Técnicas Cuantitativas para la Gestión Empresarial.
Es conveniente hacer hincapié al estudiante de la necesidad de repasar conocimientos adquiridos
en el grado (cálculo diferencial, álgebra matricial, inferencia estadı́stica, etc) ya que serán usados de
forma constante durante el discurrir de la asignatura.
La asignatura comienza con una introducción al alumno al concepto de Econometrı́a y modelo
econométrico. Con tal objetivo se realiza un breve bosquejo histórico de la Econometrı́a, además
de proporcionar una definición de la misma. A continuación se define qué se entiende por modelo
econométrico y se describen las fases a realizar en todo análisis econométrico (especificación, estimación,
validación y explotación del modelo). Finalmente, se explica la naturaleza de la información utilizada.
Tras conocer qué es un modelo econométrico se presenta su formulación matemática ası́ como las
hipótesis básicas que debe verificar. Este último aspecto es importante destacarlo, ya que el alumno
debe saber que toda estimación y validación del modelo queda supeditada a que se verifiquen dichas
hipótesis (es más, los últimos temas de la asignatura - segunda parte - se dedican a esta cuestión). A
continuación se estimarán, por el método de Mı́nimos Cuadrados Ordinarios, las cantidades desconocidas del modelo (coeficientes de los regresores y varianza de la perturbación aleatoria) y se analizarán sus
propiedades. Finalmente, se comenzará con la fase de validación del modelo econométrico presentando
una primera herramienta para medir la bondad del ajuste realizado: el coeficiente de determinación y
coeficiente de determinación corregido.
A continuación se introduce en el modelo la suposición de que la perturbación aleatoria se distribuye según una normal. A partir de este momento, el modelo econométrico toma una nueva dimensión
ya que esta suposición permitirá calcular intervalos de confianza y contrastes de hipótesis para los
parámetros desconocidos del modelo. Ası́, en primer lugar se presentarán las distribuciones en el muestreo de los estimadores obtenidos en el tema anterior por el método de Mı́nimos Cuadrados Ordinarios
(MCO), las cuales permitirán contrastar un conjunto de hipótesis lineales. Como casos particulares se
destacan los contrastes de significación individual y se realiza una breve reseña a los Mı́nimos Cuadrados Restringidos. Además, constituyen también el punto de partida que permitirá introducir el análisis
de la varianza (análisis ANOVA). En este punto es interesante mostrar su relación con el coeficiente
de determinación, ya que permite obtener un valor a partir del cual éste último es significativo y, por
tanto, valida el modelo.
En la última fase, se explotará el modelo a partir de la predicción puntual óptima y por intervalo,
ası́ como a través del contraste de permanencia estructural. Finalmente, se destacará que todas las
conclusiones obtenidas no tienen validez si antes no se comprueba que la perturbación aleatoria sigue
una distribución normal.
Todos estos contenidos serán abordados tanto desde un aspecto teórico/práctico como (muy especialmente) desde un aspecto computacional, más concretamente, con el software econométrico Gretl.
GUIA DOCENTE DE LA ASIGNATURA
TÉCNICAS ECONOMÉTRICAS
MÓDULO
ASIGNATURA
CURS
O
SEMESTR
E
CRÉDITOS
CARÁCTER
1
TÉCNICAS ECONOMÉTRICAS
1
1
4
OPTATIVA
PROFESOR(ES)
JORGE CHICA OLMO
ROMÁN SALMERÓN GÓMEZ
DIRECCIÓN COMPLETA DE CONTACTO PARA TUTORÍAS
(Dirección postal, teléfono, correo electrónico, etc.)
Departamento de Métodos Cuantitativos para
la Economía y la Empresa.
Facultad de Ciencias Económicas y
Empresariales. Campus de Cartuja s/n. 18011
Granada.
Teléfono 958 240 619 Fax 958 240 620
Prof. Chica Olmo: jchica@ugr.es
Despacho C-223. Tfno. 958 249922
Prof. Salmerón Gómez: romansg@ugr.es
Despacho B-00. Tfno. 958 249637
HORARIO DE TUTORÍAS
El horario actualizado de tutorías puede
consultarse en el siguiente enlace:
http://metodoscuantitativos.ugr.es/pages/doce
ncia
MÁSTER EN EL QUE SE IMPARTE
OTROS MÁSTERES A LOS QUE SE PODRÍA OFERTAR
Técnicas Cuantitativas en Gestión Empresarial
PRERREQUISITOS Y/O RECOMENDACIONES (si procede)
Conocimientos básicos de técnicas cuantitativas y ordenador.
Página 1
BREVE DESCRIPCIÓN DE CONTENIDOS (SEGÚN MEMORIA DE VERIFICACIÓN DEL MÁSTER)
REGRESIÓN
1. El modelo de Regresión Lineal. Supuestos e Hipótesis.
2. El Procedimiento de Estimación Mínimo Cuadrático. Estimación Máximo
Verosímil.
3. Explotación de los Resultados de Estimación. Análisis de la Varianza (ANOVA).
Medidas de Ajuste y Diagnosis del Modelo.
4. Caso Práctico de Aplicación
INFERENCIA EN EL MODELO LINEAL
5. El Papel de Supuesto de Normalidad de las Perturbaciones.
6. Distribución de los Estimadores de los Parámetros en el Muestreo.
7. Inferencia en le Modelo de Regresión y Contraste de Hipótesis. Estimación por
Intervalo. Intervalos de Confianza.
8. Caso Práctico de Aplicación (Continuación)
TEMAS COMPLEMENTARIOS
9. Cambio Estructural y Estabilidad de los Parámetros
10. Estimación del Modelo Generalizado.
11. Problemas con los Datos: Multicolinealidad y Errores de Especificación.
COMPETENCIAS GENERALES Y ESPECÍFICAS DEL MÓDULO
Competencias Generales
-
*
CG0: Hablar bien en público.
CG1: Que los estudiantes adquieran la capacidad de trabajar en entornos internacionales.
CG2: Que los estudiantes adquieran la capacidad de crítica y autocrítica.
*
CG3: Que los estudiantes sean capaces de buscar y recopilar información de un tema de interés
proveniente de fuentes diversas, especialmente a partir de las nuevas tecnologías.
*
CG4: Que los estudiantes sean competentes para analizar, sintetizar y gestionar la información y
documentos disponibles de forma eficaz, incluyendo la capacidad de interpretar, evaluar y emitir un
juicio razonado.
*
CG5: Que los estudiantes adquieran la capacidad de trabajar en equipo, fomentando el intercambio
de ideas, compartiendo el conocimiento y generando nuevas metas y modelos de trabajo colaborativo.
CG6: Que los estudiantes tengan la capacidad de trabajar en equipos multidisciplinares.
*
CG7: Que los estudiantes tengan la capacidad de organización y planificación.
Página 2
Competencias Específicas
-
-
*
*
CE1: Aplicar las herramientas cuantitativas a la resolución de problemas en el ámbito empresarial
planteados con datos procedentes de muestras de la población objetivo en estudio.
*
CE2: Aplicar las nuevas aportaciones en técnicas cuantitativas al ámbito empresarial así como la
resolución de problemas en entornos nuevos o poco conocidos.
*
CE3: Capacidad de utilizar técnicas cuantitativas actuales que le permitan incorporarse a tareas de
investigación en el contexto de la gestión empresarial.
*
CE4: Comprender el valor y los límites del método científico así como fomentar el interés por una
investigación rigurosa propia del área de Métodos Cuantitativos para la Economía y la Empresa.
*
CE5: Capacidad de acceder a las bases de datos y fuentes documentales existentes para conocer las
nuevas aportaciones en el campo de Métodos Cuantitativos para la Economía y la Empresa.
CE6: Desarrollar una visión amplia y multidisciplinar de las aplicaciones de las principales técnicas
cuantitativas.
CE7: Adquirir conocimientos altamente especializados, alguno de ellos a la vanguardia en un campo de
trabajo o estudio concreto, que sienten las bases de un pensamiento o investigación originales en el
área de conocimiento de Métodos Cuantitativos para la Economía y la Empresa, así como ampliar sus
conocimientos y atender las exigencias del mundo académico y profesional.
CE8: Adquirir conciencia crítica de cuestiones de conocimiento en un tema concreto de las técnicas
cuantitativas para emitir informes o juicios profesionales.
*
CE9: Capacidad de seleccionar las técnicas cuantitativas más idóneas para un correcto análisis o
estudio.
CE11: Plantear y construir modelos de series temporales que expliquen la evolución de una variable a
lo largo del tiempo y a predecir sus valores futuros.
*
CE12: Capacidad de cuantificar relaciones de comportamiento entre variables económicas, verificar
hipótesis sobre los parámetros de dichas relaciones y efectuar predicciones sobre las variables de
interés.
Con asterisco se indican las competencias de esta asignatura.
OBJETIVOS (EXPRESADOS COMO RESULTADOS ESPERABLES DE LA ENSEÑANZA)
El alumno sabrá/comprenderá:
- Conocimientos sobre aspectos principales de la terminología económica, de la naturaleza de la
economía y el entorno económico inmediato, nacional e internacional.
- Conocimientos sobre los principales modelos y técnicas de representación y análisis de la realidad
económica.
- Las instituciones económicas como resultado y aplicación de representaciones teóricas o formales
acerca de cómo funciona la economía.
- Las principales técnicas instrumentales aplicadas al ámbito económico.
El alumno será capaz de:
-
Interpretar datos económicos, proporcionar información relevante útil para todo tipo de usuarios.
Aplicar al análisis de los problemas criterios profesionales basados en el manejo de instrumentos
técnicos.
Emitir informes de asesoramiento sobre situaciones concretas de la economía (internacional, nacional
o regional) o de sectores de la misma.
Desarrollar habilidades de aprendizaje para emprender estudios posteriores en el ámbito de la
economía con un alto grado de autonomía.
Página 3
TEMARIO DETALLADO DE LA ASIGNATURA
REGRESIÓN
1. El modelo de Regresión Lineal. Supuestos e Hipótesis.
2. El Procedimiento de Estimación Mínimo Cuadrático. Estimación Máximo
Verosímil.
3. Explotación de los Resultados de Estimación. Análisis de la Varianza (ANOVA).
Medidas de Ajuste y Diagnosis del Modelo.
4. Casos prácticos desarrollados con software libre econométrico.
INFERENCIA EN EL MODELO LINEAL
5. El Papel de Supuesto de Normalidad de la las Perturbaciones.
6. Distribución de los Estimadores de los Parámetros en el Muestreo.
7. Inferencia en le Modelo de Regresión y Contraste de Hipótesis. Estimación por
Intervalo. Intervalos de Confianza.
8. Casos prácticos desarrollados con software libre econométrico (Continuación)
TEMAS COMPLEMENTARIOS
9. Cambio Estructural y Estabilidad de los Parámetros. Test de Chow.
10. Incumplimiento de las hipótesis básicas del modelo. Contraste de normalidad
en las perturbaciones.
11. Estimación del Modelo Generalizado. Heterocedasticiad y autocorrelación.
13. Problemas con los Datos. Multicolinealidad. Errores de Especificación. Datos
espaciales.
14. Casos prácticos desarrollados con software libre econométrico (Continuación)
BIBLIOGRAFÍA
ALONSO, A.; FERNÁNDEZ, J. y GALLASTEGUI, I. (2005).- Econometría. Ed. Prentice Hall
GUJARATI, D. (2010).- Econometría.- Ed. McGraw Hill
MATILLA, M, PÉREZ, P y SANZ, B. (2013) Econometría y predicción. Ed. McGraw Hill
SÁNCHEZ, C. (1999) Métodos Econométricos. Ariel Economía. Barcelona.
STOCK, J.H. y WATSON, M.M. (2012) Introducción a la Econometría, 3ª ed. Pearson
WOOLDRIDGE, J.M. (2010).- Introducción a la Econometría. Un enfoque moderno. 2ª Edic. Thomson
ENLACES RECOMENDADOS
Web del Dpto. de Métodos Cuantitativos para la Economía y la Empresa. http://metodoscuantitativos.ugr.es/
Instituto nacional de Estadística. http://www.ine.es/
Instituto de estadística andaluz. http://www.juntadeandalucia.es:9002/
Banco de España. http://www.bde.es/webbde/es/
Página 4
Bolsa de Madrid. http://www.bolsamadrid.es/homei.htm
Anuario Económico de La Caixa. http://www.anuarieco.lacaixa.comunicacions.com
Eurostat, http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/ .
Descarga gratuita del programa Gretl: http://descargar.portalprogramas.com/gretl.html,
http://gretl.softonic.com/
Guía multimedia para la elaboración de un modelo econométrico.
www.ugr.es/local/jchica/Pagina2/Modelo/Modelo.htm
Página personal de Román Salmerón: www.ugr.es/local/romansg/material/WebEco/index.html
METODOLOGÍA DOCENTE
La metodología que se llevará a cabo es la siguiente:
1. Tutorías personalizadas para buscar información reciente en diversas fuentes bibliográficas, plantear
cuestiones de investigación, etc.
2. Realización de trabajos individuales o en grupo para la resolución de problemas en el ámbito
empresarial.
3. Lectura e interpretación de la bibliografía especializada, incluyendo artículos de actualidad,
propuesta en el programa de la materia.
4. Diseño, elaboración y exposición de un trabajo individual o en grupo de aplicación de los
conocimientos teórico-práctico adquiridos.
5. Resolución de problemas relacionados con la materia y aplicados al ámbito empresarial.
6. Aplicaciones con ordenador.
En dicha metodología es importante:
1. Desarrollo de clases teóricas en las que se expondrán los distintos contenidos con ayuda de material
didáctico diverso.
2. Desarrollo de clases prácticas en las que se resolverán problemas relacionados con la materia y
aplicados en el ámbito empresarial. Asimismo se fomentará la participación de los alumnos.
3. Realización de lecturas relacionadas con la materia, sobre las que se formularán preguntas o se
solicitará un resumen crítico.
4. Realización de sesiones de discusión del material bibliográfico previas a las lecciones magistrales
fomentando la participación del alumno.
5. Asistencia a seminarios teórico-prácticos que puedan desarrollarse durante el desarrollo de la materia
y que incluyan foros de discusión.
6. Realización de prácticas en el aula de informática.
7. Charlas/coloquios que refuercen los conocimientos de la materia y fomenten la participación activa
del alumno.
Página 5
EVALUACIÓN (INSTRUMENTOS DE EVALUACIÓN, CRITERIOS DE EVALUACIÓN Y PORCENTAJE SOBRE LA CALIFICACIÓN FINAL, ETC.)
1. Prueba escrita: exámenes de ensayo, pruebas objetivas, resolución de problemas, casos o supuestos,
pruebas de respuesta breve, informes y diarios de clase. (Ponderación: 0.6)
2. Prueba oral: exposiciones de trabajos orales en clase, individuales o en grupo, sobre contenidos de la
materia (seminario) y sobre ejecución de tareas prácticas correspondientes a competencias concretas.
(Ponderación: 0.3)
3. Técnicas basadas en la asistencia y participación activa del alumno en clase, seminarios y tutorías:
trabajos en grupos reducidos sobre supuestos prácticos propuestos. (Ponderación: 0.1)
El sistema de evaluación será preferentemente continua, entendiendo por tal la evaluación diversificada que
se establece en este apartado. No obstante, se podrá realizar una evaluación única final a la que podrán
acogerse aquellos estudiantes que no puedan cumplir con el método de evaluación continua por motivos
laborales, estado de salud, discapacidad o cualquier otra causa debidamente justificada que les impida seguir
el régimen de evaluación continua.
INFORMACIÓN ADICIONAL
La asignatura se desarrollará con la ayuda de ordenador.
Página 6
Introducción a la Econometrı́a
El modelo de regresión lineal múltiple
Román Salmerón Gómez
Universidad de Granada
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 1 / 68
Contenidos
Contenidos
Introducción
Especificación del
modelo
Introducción
Especificación del modelo
Estimación del modelo
Estimación del modelo
Validación del modelo
Validación del modelo
Explotación del modelo
Explotación del modelo
Ejemplos
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 2 / 68
Contenidos
Introducción
Definición de
Econometrı́a
Modelo económico y
econométrico
Fases del método
econométrico
Componentes de un
modelo econométrico
Introducción
Naturaleza de la
información utilizada
en Econometrı́a
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 3 / 68
Econometrı́a
Contenidos
Introducción
Definición de
Econometrı́a
Modelo económico y
econométrico
Fases del método
econométrico
Componentes de un
modelo econométrico
Naturaleza de la
información utilizada
en Econometrı́a
Especificación del
modelo
Estimación del modelo
La Estadı́stica juega un papel importante en cualquier ciencia empı́rica a la hora
de estimular la formulación de modelos y contrastarlos. En la ciencia económica
este papel se hace especialmente importante hasta el punto de que la necesidad
de extender la Estadı́stica ha dado lugar al nacimiento de una disciplina nueva
que hoy goza de una gran vitalidad: la Econometrı́a.
La Econometrı́a es una rama de la Economı́a que aglutina a la Teorı́a
Económica, las Matemáticas, la Estadı́stica y la Informática para estudiar y analizar fenómenos económicos. Puede decirse que constituye en sı́ misma una disciplina dentro de la Economı́a y a la vez una potente herramienta que tanto los
economistas como otros muchos investigadores sociales utilizan para el estudio
de sus problemas concretos. El principal propósito de la Econometrı́a es proporcionar un sustrato empı́rico a la Teorı́a Económica.
Validación del modelo
Explotación del modelo
Ejemplos
Máster TCGE
Una breve descripción de la historia econométrica la puedes encontrar en las
lecturas recomendadas.
Introducción a la Econometrı́a: regresión múltiple – 4 / 68
Definición de Econometrı́a
Contenidos
Introducción
Definición de
Econometrı́a
Modelo económico y
econométrico
Fases del método
econométrico
Componentes de un
modelo econométrico
Naturaleza de la
información utilizada
en Econometrı́a
Especificación del
modelo
Estimación del modelo
De entre las muchas definiciones existentes sobre la Econometrı́a destacarı́a la
siguiente:
“La Econometrı́a, usando la Teorı́a Económica, las Matemáticas y
la Inferencia Estadı́stica como fundamentos analı́ticos, y los datos
económicos como la base informativa, proporciona una base para:
1.
2.
Modificar, refinar o posiblemente refutar las conclusiones en el
cuerpo de conocimientos conocido como Teorı́a Económica.
Conseguir signos, magnitudes y afirmaciones de calidad para
los coeficientes de las variables en las relaciones económicas,
de modo que esta información puede usarse como base para la
elección y toma de decisiones.”
Validación del modelo
Explotación del modelo
Judge y otros (1985)
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 5 / 68
Modelo económico y econométrico
Contenidos
Introducción
Definición de
Econometrı́a
Modelo económico y
econométrico
Fases del método
econométrico
Componentes de un
modelo econométrico
Naturaleza de la
información utilizada
en Econometrı́a
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Máster TCGE
Modelo económico: Un modelo económico es una representación simplificada
de la realidad económica mediante la expresión matemática de una determinada teorı́a económica.
Modelo econométrico: Un modelo econométrico es aquel modelo económico
que contiene todos los elementos necesarios para ser estudiado desde un punto de vista empı́rico. Es decir, un modelo económico en el que se ha especificado el tipo de relación entre variables (en este curso lineal), el número de
variables, introducción de la perturbación aleatoria (para recoger el efecto de
las variables no incluidas fundamentalmente), etc.
Ası́, por ejemplo, un modelo económico es aquel en el que se especifica que el
consumo es una función de la renta: Consumo = f (Renta).
Mientras el modelo econométrico será aquel en el que se establece que la
relación es lineal y se introduce la perturbación aleatoria ut :
Consumot = β1 + β2 · Rentat + ut .
Introducción a la Econometrı́a: regresión múltiple – 6 / 68
Fases del método econométrico
Contenidos
Introducción
Definición de
Econometrı́a
Modelo económico y
econométrico
Fases del método
econométrico
Componentes de un
modelo econométrico
Naturaleza de la
información utilizada
en Econometrı́a
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Máster TCGE
La elaboración de un modelo econométrico se puede dividir en las siguientes
fases:
Especificación: En esta fase se propone la forma matemática de la relación que
liga las variables presentes en el modelo y la perturbación aleatoria. También
debe decidirse el número de ecuaciones y variables que forman el modelo. Todo
ello se realizará partiendo de la Teorı́a Económica.
Estimación: Esta fase consiste en la obtención de valores numéricos de las
cantidades constantes del modelo econométrico. Por tanto, será necesario disponer de información empı́rica sobre el fenómeno (datos) y haber decidido el
método de estimación a usar.
Validación: En esta fase se evalúan los resultados obtenidos en la etapa anterior para decidir si los mismos son o no aceptables tanto desde el punto de vista
de la teorı́a económica (magnitudes, signos, etc) como desde el punto de vista
estadı́stico (validez del modelo).
Explotación: Si el modelo es aceptado, este puede ser usado para la predicción
y contrastar la permanencia de la estructura estimada.
Introducción a la Econometrı́a: regresión múltiple – 7 / 68
Componentes de un modelo econométrico
Contenidos
Introducción
Definición de
Econometrı́a
Modelo económico y
econométrico
Fases del método
econométrico
Componentes de un
modelo econométrico
Naturaleza de la
información utilizada
en Econometrı́a
Especificación del
modelo
Estimación del modelo
Validación del modelo
Las principales componentes de un modelo econométrico son:
Variables: Dentro de las variables podemos distinguir entre las variables observables (aquellas de las que se disponen datos) y no observables (la perturbación aleatoria). Y dentro de las primeras tenemos a las variables dependientes,
explicadas o endógenas (aquellas que están influidas por otras variables) y variables independientes, explicativas o exógenas (aquellas que no están influidas
por otras).
Parámetros: Los parámetros son las cantidades fijas o constantes del modelo econométrico que se desean estimar (los coeficientes de las variables y la
varianza de la perturbación aleatoria).
Ecuaciones: Las relaciones entre las distintas variables se explicitará mediante
una o más ecuaciones.
Explotación del modelo
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 8 / 68
Naturaleza de la información utilizada en Econometrı́a
Contenidos
Introducción
Definición de
Econometrı́a
Modelo económico y
econométrico
Fases del método
econométrico
Componentes de un
modelo econométrico
Naturaleza de la
información utilizada
en Econometrı́a
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Máster TCGE
Los datos económicos suelen ser de clases muy variadas, siendo los tipos más
importantes los siguientes:
Datos de corte transversal: son un conjunto de datos formada por unidades
(individuos, empresas, regiones, etc) observadas en un momento determinado
(dı́a, mes, trimestre, año, etc). Por ejemplo, el consumo de varias familias en un
mes en concreto.
Datos de series temporales: son un conjunto de datos formado por observaciones de una misma variable a lo largo del tiempo. Por ejemplo, el consumo
mensual de una familia a lo largo de todo un año.
Datos de panel o longitudinales: son un conjunto de datos que combinan una
dimensión temporal con otra transversal. Por ejemplo, el consumo mensual de
un conjunto de familias a lo largo de todo un año.
Habrá que atender al tipo de datos que se analicen ya que dependiendo de su
naturaleza se podrán aplicar unos u otros métodos econométricos.
Introducción a la Econometrı́a: regresión múltiple – 9 / 68
Contenidos
Introducción
Especificación del
modelo
Modelo lineal
uniecuacional múltiple
Hipótesis del modelo
Estimación del modelo
Especificación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 10 / 68
Modelo lineal uniecuacional múltiple
Contenidos
Introducción
Especificación del
modelo
Modelo lineal
uniecuacional múltiple
El modelo lineal uniecuacional múltiple analiza la relación lineal entre una variable
dependiente, Y , y más de una variable independiente, Xi , i = 1, . . . , k , k > 1,
más un término aleatorio, u.
Ası́, a partir de n observaciones para cada variable, el modelo puede ser
expresado como:
Hipótesis del modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Yt = β1 + β2 Xt2 + β3 Xt3 + · · · + βk Xtk + ut ,
t = 1, . . . , n,
(1)
donde se ha considerado que hay término constante, es decir, X1t = 1, ∀t.
El objetivo será estimar (es decir, obtener una aproximación numérica) aquellas cantidades constantes presentes en el modelo (1), ası́ como la bondad de la
estimación realizada. En primer lugar, se escribe dicho modelo para todas y cada
una de las observaciones:
Y1
Y2
..
.
Yn
Máster TCGE
= β1 + β2 X12 + β3 X13 + · · · + βk X1k + u1
= β1 + β2 X22 + β3 X23 + · · · + βk X2k + u2
..
.
= β1 + β2 Xn2 + β3 Xn3 + · · · + βk Xnk + un
Introducción a la Econometrı́a: regresión múltiple – 11 / 68
Modelo lineal uniecuacional múltiple
Contenidos
Que nos conduce a la siguiente forma matricial:
Introducción
yn×1 = Xn×k · βk×1 + un×1 ,
Especificación del
modelo
Modelo lineal
uniecuacional múltiple
donde:
Hipótesis del modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
yn×1


Y1
 Y2 


=  . ,
 .. 
Yn
Xn×k
Máster TCGE
(2)
βk×1



β1
 β2 


=  . ,
 .. 
βk
1 X12
 1 X22

= .
..
 ..
.
1 Xn2
un×1


u1
 u2 


=  . ,
 .. 
un

X1k
X2k 

.
..
..

.
.
. . . Xnk
...
...
Introducción a la Econometrı́a: regresión múltiple – 12 / 68
Hipótesis del modelo
Contenidos
Introducción
Especificación del
modelo
Modelo lineal
uniecuacional múltiple
Hipótesis del modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Consideraremos las siguientes hipótesis básicas en el modelo lineal uniecuacional
múltiple:
El vector y se puede expresar como combinación lineal de las variables explicativas más un vector de perturbación.
La perturbación aleatoria está centrada (E[ut ] = 0, t= 1, . . . , n), es
homocedástica
V ar(ut ) = E[u2t ] = σ 2 , t = 1, . . . , n e incorrelada
(Cov(ut , us ) = E[ut · us ] = 0, ∀t 6= s, t, s = 1, . . . , n). En tal caso se
dice que las perturbaciones son esféricas y se verifica que E[u] = 0n×1 y
V ar(u) = E[u · ut ] = σ 2 · In×n .
La matriz X es no estocástica y de rango completo por columnas, es decir,
rg(X) = k (como consecuencia n > k y las columnas de X , es decir, Xi ,
i = 1, . . . , n, son linealmente independientes).
No hay relación entre variables independientes y la perturbación aleatoria:
Cov(un×1 , Xi )
=
=
Máster TCGE
E (u − E[u]) · (Xi − E[Xi ])t
E u · (Xi − Xi )t = E[un×1 · 01×n ] = 0n×n .
Introducción a la Econometrı́a: regresión múltiple – 13 / 68
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Estimación mı́nimo
cuadrática de los
coeficientes del
modelo
Estimación del modelo
Teorema de
Gauss-Markov
Estimación de la
varianza de la
perturbación aleatoria
Validación del modelo
Explotación del modelo
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 14 / 68
Estimación mı́nimo cuadrática de los coeficientes del modelo
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Estimación mı́nimo
cuadrática de los
coeficientes del
modelo
Teorema de
Gauss-Markov
Estimación de la
varianza de la
perturbación aleatoria
Definiendo los errores o residuos, e, del modelo lineal uniecuacional múltiple como
la diferencia entre los verdaderos valores de la variable dependiente y su estimación, esto es
e = y − yb,
donde y
b = X βb, y siguiendo la premisa de minimizar la suma de los cuadrados
de los residuos
b t · (y − X β)
b = y t y − 2βbt X t y + βbt X t X β,
b
et e = (y − X β)
se obtiene la estimación del parámetro β como
Validación del modelo
βb = X t X
Explotación del modelo
Ejemplos
Máster TCGE
−1
· X t y.
Dicho método recibe el nombre de mı́nimos cuadrados ordinarios, MCO, por
lo que los estimadores obtenidos a partir de dicho método reciben el nombre de
estimadores de mı́nimos cuadrados ordinarios, EMCO.
Como consecuencias de dicha estimación se verifica que X t · e = 0k×1 ,
it · e = 01×1 , it · yb = it · y y ybt · e = 01×1 donde it = (1 1 . . . 1)1×n .
Introducción a la Econometrı́a: regresión múltiple – 15 / 68
Estimación mı́nimo cuadrática de los coeficientes del modelo
Contenidos
Adviértase que:
Introducción

Especificación del
modelo
Estimación del modelo
Estimación mı́nimo
cuadrática de los
coeficientes del
modelo
Teorema de
Gauss-Markov
Estimación de la
varianza de la
perturbación aleatoria
Validación del modelo
Explotación del modelo
Ejemplos
n

 P
 n X

t2
t=1
X tX = 

..

.

 P
n
Xtk
t=1
y
n
P
Xt2
t=1
n
P
t=1
n
P
···
..
.
..
t=1

n
P
t=1
n
P
Xtk
Xt2 Xtk
t=1
.
···
Y
 t=1 t
 P
 n X Y

t2 t
t=1
X ty = 

..

.

 P
n
Xtk Yt
t=1
Máster TCGE
···
2
Xt2
Xtk Xt2
n
P
n
P
t=1
..
.
2
Xtk





,









.




Introducción a la Econometrı́a: regresión múltiple – 16 / 68
Teorema de Gauss-Markov
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Estimación mı́nimo
cuadrática de los
coeficientes del
modelo
Teorema 1 (Teorema de Gauss-Markov) Los estimadores de mı́nimos cuadrados ordinarios son lineales, insesgados y óptimos (ELIO), es decir, tienen varianza
mı́nima entre la clase de los estimadores lineales e insesgados.
En efecto, por la forma de escribirse el estimador es evidente que es lineal.
Ası́, llamando:
Teorema de
Gauss-Markov
Estimación de la
varianza de la
perturbación aleatoria
Ck×n = X t X
−1
k×k
t
· Xk×n
Validación del modelo
Explotación del modelo
Ejemplos

c11
 c21

= .
 ..
ck1
c12
c22
..
.
ck2

c1n
c2n 

..  ,
..
.
. 
. . . ckn
...
...
b se expresa como combinación lineal del vector y :
se tiene que β
βbk×1 = Ck×n · yn×1
Máster TCGE


c11 Y1 + c12 Y2 + . . . + c1n Yn
 c21 Y1 + c22 Y2 + . . . + c2n Yn 


=
.
..


.
ck1 Y1 + ck2 Y2 + . . . + ckn Yn
Introducción a la Econometrı́a: regresión múltiple – 17 / 68
Teorema de Gauss-Markov
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Estimación mı́nimo
cuadrática de los
coeficientes del
modelo
Teorema de
Gauss-Markov
Estimación de la
varianza de la
perturbación aleatoria
Validación del modelo
Explotación del modelo
Ejemplos
b de β sea insesgado se ha de cumplir que E[β]
b = β . En
Para que el estimador β
b:
efecto, sustituyendo y = Xβ + u en β
−1
· X t (Xβ + u)
· X ty = X tX
−1
−1
· X t u.
· X t u −→ βb = β + X t X
= β + X tX
βb =
−1
Entonces, teniendo en cuenta que E[u] = 0:
i
h
−1
−1
t
t
b
· X t · E[u] = β.
· X u = β + X tX
E[β] = E β + X X
b:
Por otro lado, la matriz de varianzas-covarianzas de β
V ar βb
=
=
=
=
Máster TCGE
X tX
t t b
b
b
b
b
b
=E β−β · β−β
E β − E[β] · β − E[β]
h
−1 i
−1 t
X u · ut X X t X
E X tX
−1
−1 t
X · E[u · ut ] · X X t X
X tX
−1
−1
−1 t
,
= σ2 · X t X
X X X tX
σ2 · X t X
Introducción a la Econometrı́a: regresión múltiple – 18 / 68
Teorema de Gauss-Markov
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Estimación mı́nimo
cuadrática de los
coeficientes del
modelo
Teorema de
Gauss-Markov
Estimación de la
varianza de la
perturbación aleatoria
Validación del modelo
Explotación del modelo
Ejemplos
b es insesgado, βb − β = (X t X)−1 X t u y
donde se ha tenido en cuenta que β
V ar(u) = E[u · ut ] = σ 2 · In×n .
b es de mı́nima varianza consideraremos otro estimador,
Para demostrar que β
β ∗ , de β lineal e insesgado de forma que V ar βb < V ar (β ∗ ).
En efecto, β ∗ = Dk×n · yn×1 tal que D · X = Ik×k es lineal e insesgado.
Además, V ar (β ∗ ) = σ 2 · DD t .
−1
En tal caso, puesto que podemos escribir D = (X t X) X t + W con
−1
W 6= 0k×n , se tiene que DDt = (X t X) + W W t , y en tal caso:
−1
2
t
∗
2
t
2
t
+σ ·W W = V ar βb +σ 2 ·W W t ,
V ar (β ) = σ ·DD = σ · X X
b = σ2 · W W t.
esto es, V ar (β ) − V ar β
∗
b > 0, y en tal
Y como W W es definida positiva: V ar (β ) − V ar β
caso:
∗
V ar (β ) > V ar βb .
t
Máster TCGE
∗
Introducción a la Econometrı́a: regresión múltiple – 19 / 68
Estimación de la varianza de la perturbación aleatoria
Contenidos
Introducción
Especificación del
modelo
Además de los coeficientes de las variables independientes, hay en el modelo
otra cantidad constante que habrá que estimar: la varianza de la perturbación
aleatoria, σ 2 .
Un estimador insesgado de σ 2 es:
Estimación del modelo
Estimación mı́nimo
cuadrática de los
coeficientes del
modelo
Teorema de
Gauss-Markov
Estimación de la
varianza de la
perturbación aleatoria
Validación del modelo
Explotación del modelo
Ejemplos
σ
b2 =
et e
,
n−k
ya que E[et e] = (n − k) · σ 2 .
Para calcular dicho estimador se dispone de la expresión:
y t y − βbt X t y
.
σ
b =
n−k
2
b es:
En consecuencia, la estimación de la matriz de varianzas-covarianzas de β
−1
\
.
b2 · X t X
V ar βb = σ
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 20 / 68
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Validación del modelo
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 21 / 68
Bondad de ajuste: Coeficiente de determinación
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
Una vez estimado el modelo lineal uniecuacional multiple, es decir, una vez obtenidas las estimaciones de β y σ 2 , el siguiente paso será estudiar la calidad de
dichas estimaciones.
Ası́, a continuación, obtendremos el coeficiente de determinación, que no es
más que una medida para estudiar la bondad del ajuste lineal determinado por los
estimadores por mı́nimos cuadrados ordinarios.
Dicho coeficiente de determinación, que se denota por R2 , se define como el
porcentaje de variabilidad explicada por el modelo. Por tanto, éste se obtendrá como el cociente entre la varianza explicada por la estimación y la total:
R2 =
1
T
1
T
·
·
2
n P
Ybi − Y
2
n P
Ybi − Y
i=1
i=1
i=1
n
P
Yi − Y
i=1
n
2 = P
Yi − Y
2 .
Como se observa, el coeficiente de determinación queda expresado en función
de la suma de cuadrados explicados (SCE) y los totales (SCT).
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 22 / 68
Bondad de ajuste: Coeficiente de determinación
Contenidos
Luego, teniendo en cuenta la descomposición
Introducción
SCT = SCE + SCR,
Especificación del
modelo
Estimación del modelo
se tiene que
R2 =
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
SCR
SCE
=1−
.
SCT
SCT
Entonces, para calcular dicho coeficiente se dispone de la expresión:
2
R =
2
βbt X t y − n · Y
yt y − n · Y
2
=1−
y t y − βbt X t y
yt y − n · Y
2
.
Adviértase que, siempre que el modelo lineal tenga término independiente, el
coeficiente de determinación varı́a entre 0 y 1. El valor 0 lo toma cuando la SCE es
nula y, por tanto, el modelo no es adecuado; mientras que toma el valor 1 cuando
la SCR es nula y, por tanto, el modelo es adecuado.
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 23 / 68
Coeficiente de determinación corregido
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
Puesto que a medida que vamos incluyendo variables en el modelo el coeficiente
de determinación aumenta aunque las variables que incluyamos no sean significativas, esto supone un problema.
2
El coeficiente de determinación corregido, R , viene a resolver este problema del coeficiente de determinación. Dicho coeficiente mide el porcentaje de variación de la variable dependiente (al igual que el coeficiente de determinación)
pero teniendo en cuenta el número de variables incluidas en el modelo. Se define
como:
2
R = 1 − (1 − R2 ) ·
n−1
.
n−k
En cualquier caso, estas medidas de bondad del ajuste no deben de ser
2
sobrevaloradas. Obtener un R2 o R cercano a 1 no indica que los resultados
sean fiables, ya que, por ejemplo, puede ser que no se cumpla alguna de las
hipótesis básicas y los resultados no ser válidos. Por tanto, estos indicadores han
de ser considerados como una herramienta más a tener en cuenta dentro del
análisis.
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 24 / 68
Distribución en el muestreo de los estimadores MCO
Contenidos
Introducción
Introduciendo la hipótesis de que la perturbación aleatoria sigue una distribución
normal, esto es:
un×1 ∼ N (0n×1 , σ 2 · In×n ).
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Análisis de la varianza
−1
bk×1 ∼ N (β, σ 2 · (X t X)
En consecuencia, β
), ya que:
βb sigue una distribución normal ya que se puede expresar en función de una
b = β + (X t X)−1 · X t u.
normal: β
h i
b = β , y matriz de varianzasse tienen calculados el vector de medias, E β
b = σ 2 · (X t X)−1 .
covarianzas, V ar β
−1
Por otro lado, ya que et e = ut M u siendo Mn×n = I − X (X t X) X t
t
u
simétrica, idempotente y con rg(M ) = n − k < k se tiene que u σM
∼ χ2n−k ,
2
lo que se traduce en que
Intervalos de confianza
(n − k) · σ
b2
∼ χ2n−k .
2
σ
Explotación del modelo
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 25 / 68
Contraste de un conjunto de hipótesis lineales
Contenidos
Introducción
Especificación del
modelo
A continuación abordaremos la especificación de contrastes sobre un conjunto de
hipótesis lineales sobre los coeficientes del modelo. Concretamente, suponiendo
q restricciones lineales independientes entre sı́:
a11 β1 + a12 β2 + · · · + a1k βk
a21 β1 + a22 β2 + · · · + a2k βk
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
aq1 β1 + aq2 β2 + · · · + aqk βk
Análisis de la varianza
Explotación del modelo
Ejemplos
Máster TCGE
.
= ..
= bq
Plantearemos contrastar la hipótesis nula H0 : Rβ = r donde
Mı́nimos Cuadrados
Restringidos
Intervalos de confianza
..
.
..
.
= b1
= b2
Rq×k

a11
 a21

= .
 ..
aq1
a12
a22
..
.
aq2

. . . a1k
. . . a2k 

..  ,
..
.
. 
. . . aqk
rq×1


b1
 b2 


=  . .
.
 . 
bq
Introducción a la Econometrı́a: regresión múltiple – 26 / 68
Contraste de un conjunto de hipótesis lineales
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Usando la distribución
h
i−1
t R (X t X)−1 Rt
b
b
· Rβ − Rβ ∼ Fq,n−k ,
Rβ − Rβ ·
q·σ
b2
rechazaremos la hipótesis nula al nivel de significación α si
i−1
h
−1 t
t
t R (X X) R
b − r > Fq,n−k (1 − α),
Rβb − r ·
·
R
β
q·σ
b2
donde Fq,n−k (1 − α) es el punto de una F de Senedecor de q y n − k grados
de libertad que deja por debajo suyo una probabilidad 1 − α.
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 27 / 68
Casos particulares
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
Ejemplos
Máster TCGE
Un caso particular de suma importancia será aquel en el que se desee contrastar
la hipótesis nula H0 : βi = bi , i = 1, . . . , k .
En tal caso, q = 1, R = (0 0 . . . 1i) . . . 0) y r = bi , por lo que la
distribución anterior queda simplificada como
2
b
βi − bi
σ
b 2 · wi
∼ F1,n−k ,
−1
donde wi es el elemento (i,i) de la matriz (X t X)
−1
es el elemento (i,i) de σ
b2 · (X t X)
, o lo que es lo mismo, σ
b 2 · wi
\
= V ar βb , esto es, la varianza estimada
bi .
de β
Teniendo en cuenta que la raı́z cuadrada de una F-Snedecor con 1 y n grados
de libertad es una t-Student con n grados de libertad se tiene que
βbi − bi
√ ∼ tn−k ,
σ
b · wi
Introducción a la Econometrı́a: regresión múltiple – 28 / 68
Casos particulares
Contenidos
y en tal caso rechazaremos H0 : βi = bi al nivel de significación α si
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
βb − b α
i
i ,
√ > tn−k 1 −
σ
b · wi 2
donde tn−k 1 − α
2 es el punto de una distribución t de student con n − k
grados de libertad que deja por debajo suya una probabilidad 1 − α
2.
Este caso particular es de vital importancia cuando bi = 0, ya que entonces
estaremos contrastando si el coeficiente de la variable independiente Xi es o
no nulo. De forma que al rechazar dicha hipótesis tenemos garantizado que la
variable Xi ha de estar en el modelo, por lo que sus variaciones influyen en la
variable dependiente. En tal caso se dice que dicha variable es significativa y que
el contraste es un contraste de significación individual.
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 29 / 68
Mı́nimos Cuadrados Restringidos
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
Ejemplos
Máster TCGE
En el caso en el que no se rechace la hipótesis nula H0 : Rβ = r , serı́a deseable
incorporar dicha información al modelo. En tal caso, se obtiene un nuevo estimador:
h
i
βbR = βb + X t X
−1
Rt R X t X
−1
Rt
−1
· r − Rβb ,
que recibe el nombre de mı́nimos cuadrados restringidos ya que se ha obtenido
bR = r .
con la restricción de que ha de verificar que Rβ
Dicho estimador es lineal, insesgado siempre que la hipótesis nula H0 :
Rβ = r sea cierta y óptimo. Es decir, el estimador por mı́nimos cuadrados restringidos tiene menor varianza que el estimador mı́nimo cuadrático ordinario siempre
y cuando la restricción (hipótesis nula) sea cierta.
Luego, cuando una restricción lineal sobre los coeficientes de las variables
independientes es cierta, el estimador por mı́nimos cuadrados ordinarios deja de
ser óptimo y habrá que usar el estimador por mı́nimos cuadrados restringidos.
Además se verifica que:
SCRR ≥ SCR,
2
RR
≤ R2 .
Introducción a la Econometrı́a: regresión múltiple – 30 / 68
Análisis de la varianza
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
El análisis de la varianza aborda el contraste que tiene por hipótesis nula que
todos los coeficientes de las variables independientes son nulos simultáneamente,
esto es, H0 : β2 = β3 = · · · = βk = 0.
Salta a la vista que estamos ante un caso particular de un contraste sobre
k − 1 restricciones lineales de los coeficientes de las variables independientes.
En este caso, rechazaremos la hipótesis nula al nivel de significación α si
Fexp =
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Análisis de la varianza
SCE
k−1
SCR
n−k
> Fk−1,n−k (1 − α).
Para calcular dicho estadı́stico se suele resumir la información anterior en una
tabla, conocida como tabla de análisis de la varianza (tabla ANOVA) ya que en
ella se recogen las fuentes de variación de la varianza:
Fuente de variación
Suma de Cuadrados
Intervalos de confianza
Grados de Libertad
Medias
k−1
n−k
SCE
k−1
SCR
n−k
2
SCE = βbt X t y − nY
SCR = y t y − βbt X t y
Explicada
Explotación del modelo
Residuos
Ejemplos
SCT = y t y − nY
Total
Máster TCGE
2
n−1
Introducción a la Econometrı́a: regresión múltiple – 31 / 68
Análisis de la varianza
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Adviértase que rechazar H0 implica que hay al menos un coeficiente no nulo, por
lo que la relación existente entre las variables independientes y la dependiente no
se debe al azar, lo cual valida el modelo en su conjunto.
Por otro lado, sin más que dividir la región de rechazo por SCT tanto en el
numerador como en el denominador se obtiene la expresión equivalente:
Validación del modelo
R2
k−1
1−R2
n−k
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
> Fk−1,n−k (1 − α).
La importancia de esta nueva expresión para la región de rechazo es que permite
calcular una cota, sin más que despejar R2 , a partir de la cual el coeficiente de
determinación es significativo. Esto es, el coefciente de determinación es significativo al nivel de significación α si
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
Ejemplos
Máster TCGE
2
R >
1
k−1
n−k · Fk−1,n−k (1 − α)
.
k−1
+ n−k
· Fk−1,n−k (1 − α)
Introducción a la Econometrı́a: regresión múltiple – 32 / 68
Intervalos de confianza
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Bondad de ajuste:
Coeficiente de
determinación
Distribución en el
muestreo de los
estimadores MCO
Contraste de un
conjunto de hipótesis
lineales: casos
particulares
Mı́nimos Cuadrados
Restringidos
Análisis de la varianza
Intervalos de confianza
Explotación del modelo
Ejemplos
Máster TCGE
A partir de las distribuciones en el muestreo para los estimadores estudiados es
inmediato obtener los siguientes intervalos de confianza al nivel 1 − α:
Intervalo de confianza para βi
√
α
b
·σ
b · wi ,
βi ± tn−k 1 −
2
i = 1, . . . , k.
Intervalo de confianza para σ 2
"
2
2
#
(n − k) · σ
b
(n − k) · σ
b
,
α ,
α
2
2
χn−k 1 − 2
χn−k 2
y χ2n−k α
son los puntos de una distribución chidonde χ2n−k 1 − α
2
2
cuadrado con n−k grados de libertad que dejan a su izquierda, respectivamente,
α
una probabilidad 1 − α
2 y 2.
Una forma alternativa de contrastar hipótesis es usando los intervalos de
confianza. De manera que para contrastar H0 : Rβ = r se calculará la región de
confianza para Rβ y si r pertenece a dicha región, no se rechazará la hipótesis
nula.
Introducción a la Econometrı́a: regresión múltiple – 33 / 68
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Explotación del modelo
Predicción Puntual
Óptima
Predicción por
intervalo
Contraste de
Permanencia
Estructural
Ejemplos
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 34 / 68
Predicción Puntual Óptima
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Predicción Puntual
Óptima
Predicción por
intervalo
Contraste de
Permanencia
Estructural
Ejemplos
Una vez validado el modelo, la siguiente fase de un modelo econométrico es la
explotación, siendo entonces la predicción o la permanencia estructural algunos
de sus objetivos.
La predicción se realiza desde dos puntos de vista: a) por un lado realizaremos una predicción puntual dando un único valor de predicción para un instante
en concreto; b) por otra parte, puesto que Y es una variable aleatoria, podemos
calcular su esperanza dado un valor en concreto de las variables independientes.
Siguiendo las directrices anteriores se llega a la misma expresión algebráica
en ambos casos:
b
p0 = xt0 · β,
donde xt0 = (1 X02 X03 . . . X0k ) contiene los valores de las variables independientes para los que se quiere obtener la predicción.
Este predictor, p0 , mı́nimo cuadrático (ya que se obtiene a partir del estimador por mı́nimos cuadrados ordinarios de β ) es lineal, insesgado y óptimo (en el
sentido de mı́nima varianza).
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 35 / 68
Predicción por intervalo
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Predicción Puntual
Óptima
Predicción por
intervalo
Contraste de
Permanencia
Estructural
Ejemplos
Máster TCGE
En este apartado calcularemos el intervalo de confianza para el valor esperado
de Y dado x0 , es decir, para E[Y0 /x0 ] = xt0 · β .
b se distribuye según una normal (ya que está en función de βb) y
Como xt0 · β
b = xt β , ya que es insesgado.
E[xt0· β]
i
0
h
t
t b
t
t b
t b
= xt0 ·
= E x0 · β − x0 · β · x0 · β − x0 · β
V ar x0 · β
t −1
t
b
b
·x0 = x0 ·V ar βb ·x0 = σ 2 ·xt0 (X t X) x0 .
E β−β · β−β
se tiene que
xt0
−1 t
2
t
t
b
· β ∼ N x0 · β, σ · x0 X X
x0 .
Ahora bien, esta distribución no es apta para hacer inferencia puesto que
depende de la cantidad desconocida σ 2 . Para resolver este problema, tipificaremos la anterior distribución normal y la dividiremos entre la raı́z cuadrada de la
siguiente distribución chi-cuadrado
Introducción a la Econometrı́a: regresión múltiple – 36 / 68
Predicción por intervalo
Contenidos
(n − k) · σ
b2
∼ χ2n−k ,
σ2
Introducción
Especificación del
modelo
Estimación del modelo
dividida a su vez entre sus grados de libertad, obteniendo la siguiente distribución
t-Student:
xt0 · βb − xt0 · β
q
∼ tn−k .
−1
t
t
σ
b · x0 (X X) x0
Validación del modelo
Explotación del modelo
Predicción Puntual
Óptima
Predicción por
intervalo
Contraste de
Permanencia
Estructural
Ejemplos
A partir de esta distribución, el intervalo de confianza al nivel 1 − α para
E[Y0 /x0 ] = xt0 · β es:
q
α
·σ
b · xt0 (X t X)−1 x0 ,
· βb ± tn−k 1 −
2
donde tn−k 1 − α
2 es el punto de una distribución t de Student con n − k
grados de libertad que deja a su izquierda una probabilidad 1 − α
2.
xt0
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 37 / 68
Contraste de Permanencia Estructural
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Predicción Puntual
Óptima
Predicción por
intervalo
Contraste de
Permanencia
Estructural
Al explotar el modelo mediante la predicción se está presuponiendo que la relación
estimada se mantiene para la información no presente en la muestra observada.
Para confirmar este aspecto, calcularemos el intervalo de confianza para Y dado
x0 , de forma que si la nueva información pertenece a dicho intervalo, la estructura
del modelo estimado permanecerá.
Partiendo de que
−1 2
t
t b
t
b
Y0 − Y0 = u0 − x0 β − β ∼ N 0, σ · 1 + x0 X X
x0 ,
se llega de forma análoga a la anterior a la distribución
Y0 − Yb0
q
∼ tn−k ,
−1
t
t
σ
b · 1 + x0 (X X) x0
Ejemplos
b0 = xt0 · βb. Por tanto, el intervalo de confianza al nivel 1 − α para Y0 es:
donde Y
xt0
Máster TCGE
q
α
−1
b
·σ
b · 1 + xt0 (X t X) x0 .
· β ± tn−k 1 −
2
Introducción a la Econometrı́a: regresión múltiple – 38 / 68
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplos
Ejemplo 1
Ejemplo 2
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 39 / 68
Ejemplo 1
Contenidos
A continuación vamos a realizar un análisis exhaustivo del modelo
Introducción
Especificación del
modelo
Estimación del modelo
Yt = β1 + β2 · Xt2 + β3 · Xt3 + ut ,
a partir de las siguiente información muestral:
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
Observación
1
2
3
4
5
6
7
8
Yt
Xt2
Xt3
16
26
30
44
56
64
68
72
1
3
5
7
8
10
10
12
1
2
-1
3
-2
0
1
4
En primer lugar calcularemos la estimación por mı́nimos cuadrados ordinarios de
los coeficientes de las variables a partir de la expresión
Máster TCGE
βb = X t X
−1
X t y.
(3)
Introducción a la Econometrı́a: regresión múltiple – 40 / 68
Ejemplo 1
Contenidos
A partir de la información muestral anterior es claro que:

Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
de forma que:





y=





16
26
30
44
56
64
68
72







,










X=







8 56
8
X t X =  56 492 65  ,
8 65 36
y entonces a partir de la fórmula (3):
Máster TCGE

1 1
1
1 3
2 

1 5 −1 

1 7
3 
,
1 8 −2 

1 10 0 

1 10 1 
1 12 4


376
X t y =  3184  ,
414
Introducción a la Econometrı́a: regresión múltiple – 41 / 68
Ejemplo 1
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2

−1 

8 56 8
376
βb =  56 492 65  ·  3184 
8 65 36
414

 

376
0′ 62
−0′ 0688 −0′ 0136
=  −0′ 0688 0′ 0103 −0′ 0033  ·  3184 
414
−0′ 0136 −0′ 0033 0′ 0368
 ′

8 5189

5′ 5587  .
=
−0′ 4296
b1 = 8′ 5189, βb2 = 5′ 5587 y βb3 = −0′ 4296. Lo cual se traduce en la
Es decir, β
siguiente estimación del modelo considerado:
Ybt = 8′ 5189 + 5′ 5587Xt2 − 0′ 4296Xt3 .
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 42 / 68
Ejemplo 1
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
A partir de estas estimaciones es sencillo obtener las estimaciones de Y :






b
yb = X β = 





1
1
1
1
1
1
1
1
1
3
5
7
8
10
10
12
1
2
−1
3
−2
0
1
4
y los residuos del modelo:

Máster TCGE





e = y − yb = 





16
26
30
44
56
64
68
72







  ′
 


8 5189


 ·  5′ 5587  = 


′


−0
4296







 
 
 
 
 
−
 
 
 
 
 
13′ 6480
24′ 3358
36′ 7420
46′ 1410
53′ 8477
64′ 1059
63′ 6763
73′ 5049


 
 
 
 
 
=
 
 
 
 
 
13′ 6480
24′ 3358
36′ 7420
46′ 1410
53′ 8477
64′ 1059
63′ 6763
73′ 5049
2′ 3520
1′ 6642
−6′ 7420
−2′ 1410
2′ 1523
−0′ 1059
4′ 3237
−1′ 5049






,











.





Introducción a la Econometrı́a: regresión múltiple – 43 / 68
Ejemplo 1
Contenidos
Introducción
Especificación del
modelo
Desde un punto de vista teórico, dichos residuos han de sumar cero, si bien en
este caso la suma del vector anterior es igual a −0′ 0016. De igual forma, a partir
de dichos residuos se puede obtener fácilmente la estimación de la varianza de la
perturbación aleatoria, ya que por definición:
Estimación del modelo
Validación del modelo
σ
b2 =
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
et e
,
n−k
(4)
donde et e es la suma de los cuadrados de los residuos, n el número de observaciones del modelo y k el número de variables presentes en el mismo. En este
caso:
83′ 8472
σ
b =
= 16′ 76944.
8−3
2
Otra forma equivalente de obtener la estimación anterior es:
σ
b2 =
Máster TCGE
y t y − βbt X t y
.
n−k
(5)
Introducción a la Econometrı́a: regresión múltiple – 44 / 68
Ejemplo 1
Contenidos
Puesto que
Introducción
Especificación del
modelo
y t y = 20808,
Estimación del modelo
Validación del modelo
es claro que


376
βbt X t y = (8′ 5189 5′ 5587 − 0′ 4296)  3184  = 20724′ 1528,
414
Explotación del modelo
σ
b2 =
Ejemplos
Ejemplo 1
Ejemplo 2
83′ 8472
20808 − 20724′ 1528
=
= 16′ 76944.
8−3
5
Y a partir de esta estimación se puede obtener la estimación de la matriz de
b mediante:
varianzas-covarianzas de β
\
V ar βb
=
=

0′ 62
−1
= 16′ 7694 ·  −0′ 0688
σ
b2 · X t X
−0′ 0136


10′ 3976 −1′ 1533 −0′ 2282
 −1′ 1533
0′ 1727
−0′ 0555  ,
−0′ 2282 −0′ 0555
0′ 6168
Máster TCGE
−0′ 0688
0′ 0103
−0′ 0033

−0′ 0136
−0′ 0033 
0′ 0368
(6)
Introducción a la Econometrı́a: regresión múltiple – 45 / 68
Ejemplo 1
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
que será usada para calcular la región de rechazo de los contrastes de significación individual ası́ como para los intervalos de confianza de cada coeficiente de la
regresión.
Para medir la bondad del ajuste realizado mediante la estimación anterior calcularemos el coeficiente de determinación:
Validación del modelo
R2 =
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
y t y − βbt X t y
βbt X t y − nY
=
1
−
.
y t y − nY
y t y − nY
(7)
Para la primera expresión de (7), teniendo en cuenta que:
βbt X t y − nY = 20724′ 1528 − 8 · 472 = 20724′ 1528 − 17672 = 3052′ 1528,
y t y − nY = 20808 − 17672 = 3136,
se tiene que
R2 =
3052′ 1528
= 0′ 97326301.
3136
2
Además, en tal caso: R = 1 − (1 − 0′ 97326301) · 57 = 0′ 9625682.
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 46 / 68
Ejemplo 1
Contenidos
Mientras que para la segunda expresión:
Introducción
R2 = 1 −
Especificación del
modelo
83′ 8472
= 1 − 0′ 02673699 = 0′ 97326301.
3136
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
A partir de este coeficiente podemos afirmar que el ajuste realizado permite explicar un 97′ 326301 % de la variabilidad de la variable dependiente, que si bien se
encuentra muy próximo al 100 %, más adelante comprobaremos si es significativo
y, por tanto, si es suficiente para validar el modelo.
Una vez estimadas las cantidades constantes del modelo, a continuación se estudiará la validez del mismo a partir de:
contrastes de significación individual.
contraste de significación conjunta.
significación del coeficiente de determinación.
Para abordar los contrastes de significación individual tendremos en cuenta que
se rechaza H0 : βi = 0 si
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 47 / 68
Ejemplo 1
Contenidos
texp
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
βb
α
i
,
= √ > tn−k 1 −
σ
b · wi 2
∀i,
−1
donde wi es el elemento (i, i) de la matriz (X t X)
o, lo que es lo mismo,
√
−1
b2 · (X t X) =
σ
b · wi es la raı́z cuadrada del elemento (i, i) de la matriz σ
\
V ar βb .
√
√
′ 1727 = 0′ 4156 y σ
0
b
·
w3 =
√
α
′
′
0′ 6168 = 0 7854. Teniendo en cuenta que tn−k 1 − 2 = t5 (0 975) =
′
2 57, se obtiene que:
Observando (6) es claro que σ
b·
√
w2 =
′
5587
′
′
rechazo H0 : β2 = 0 si texp = 05′ 4156
′ = 13 376 > 2 57.
4296 ′
′
rechazo H0 : β3 = 0 si texp = −0
0′ 7854 = 0 547 > 2 57.
Como es evidente, rechazamos H0 : β2 = 0 y no rechazamos H0 : β3 = 0,
es decir, la variable Xt2 influye en Yt , mientras que la Xt3 no lo hace. En tal
situación se dice que la segunda variable es significativa y que la tercera no es
significativa.
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 48 / 68
Ejemplo 1
Contenidos
Introducción
Para el contraste de significación conjunta, H0 : β2 = β3 = 0, se rechaza la
hipótesis nula si
Especificación del
modelo
Estimación del modelo
Fexp =
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
SCE/k − 1
> Fk−1,n−k (1 − α),
SCR/n − k
donde Fk−1,n−k (1 − α) es el punto de una F de Snedecor con k − 1 y n − k
grados de libertad que deja a su izquierda una probabilidad 1 − α, SCE denota
a la suma de cuadrados explicada y SCR a la suma de los cuadrados de los
residuos (cantidades que ya han sido calculadas con anterioridad al obtener el
coeficiente de determinación).
En este caso, para calcular la región de rechazo recurriremos a la tabla ANOVA:
Fuentes de variación
Explicada
Residual
Total
Sumas de cuadrados
′
SCE = 3052 1528
SCR = 83′ 8472
SCT = 3136
Grados de libertad
Medias
k−1=2
n−k =8−3=5
1526′ 0764
16′ 76944
′
0764
′
Luego Fexp = 1526
16′ 76944 = 91 00342.
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 49 / 68
Ejemplo 1
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Y como Fk−1,n−k (1 − α) = F2,5 (0′ 95) = 5′ 78, es evidente que se rechaza la
hipótesis nula. Esto es, existe al menos un coeficiente que es no nulo de manera
que entonces se puede afirmar que hay algún tipo de asociación (que no se debe
al azar) entre las variables independientes y la dependiente.
Para terminar con la validación del modelo, estuadiaremos si el coeficiente de
determinación obtenido con anterioridad es significativo o no. Teniendo en cuenta
que:
R2 /k − 1
SCE/k − 1
=
,
SCR/n − k
(1 − R2 )/n − k
Ejemplos
Ejemplo 1
Ejemplo 2
la región de rechazo anterior se puede expresar como:
R2 /k − 1
> Fk−1,n−k (1 − α),
(1 − R2 )/n − k
y sin más que despejar el coeficiente de determinación, se obtiene que el modelo
es significativo si
2
R >
Máster TCGE
1
k−1
· Fk−1,n−k (1 − α)
n−k
k−1
+ n−k
· Fk−1,n−k (1 − α)
2
= Rsig
.
Introducción a la Econometrı́a: regresión múltiple – 50 / 68
Ejemplo 1
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
2
Esto es, se tiene una cota, Rsig
, a partir de la cual el coeficiente de determinación
es significativo.
Puesto que en este caso:
k−1
n−k
= 2
= 0′ 4
5
Fk−1,n−k (1 − α) = F2,5 (0′ 95) = 5′ 78
)
Explotación del modelo
2
→ Rsig
=
Ejemplos
Ejemplo 1
Ejemplo 2
→
k−1
n−k
′
′
′
· Fk−1,n−k (1 − α) = 0 4 · 5 78 = 2 312
2′ 312
= 0′ 6981.
′
3 312
Recordemos que R2 = 0′ 97326301, que claramente es significativo al ser su2
perior a la cota inferior de significación Rsig
= 0′ 6981. Esto es, el coeficiente de
determinación obtenido implica que el modelo es explicativo.
Por todo lo anterior, parece claro que el modelo es válido y, por tanto, apto para la
predicción.
Supongamos ahora que se tiene nueva información para las variables independientes (X02 = 2 y X03 = 3) y que se desea obtener una predicción puntual y
por intervalo a partir de ella para la variable dependiente.
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 51 / 68
Ejemplo 1
Contenidos
A partir de dicha información, la predicción puntual óptima será


8′ 5189
xt0 βb = (1 2 3) ·  5′ 5587  = 18′ 3475.
−0′ 4296
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Mientras que para la predicción por intervalo será necesario calcular:
Ejemplos
Ejemplo 1
Ejemplo 2
xt0 X t X
−1

0′ 62
x0 = (1 2 3)· −0′ 0688
−0′ 0136
−0′ 0688
0′ 0103
−0′ 0033


−0′ 0136
1
−0′ 0033   2  = 0′ 596,
0′ 0368
3
de forma que el intervalo de confianza para el valor esperado de Y será:
q
α
·σ
b · xt0 (X t X)−1 x0
1−
2
√
= 18′ 3475 ± 2′ 57 · 4′ 095051 · 0′ 596 = (10′ 221, 26′ 4742).
xt0 βb ± tn−k
y el intervalo de confianza para Y será:
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 52 / 68
Ejemplo 1
q
α
·σ
b · 1 + xt0 (X t X)−1 x0
1−
2
√
= 18′ 3475 ± 2′ 57 · 4′ 095051 · 1′ 596 = (5′ 04887, 31′ 64613).
Contenidos
xt0 βb ± tn−k
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
Además, a partir de este último intervalo (conocido como permanencia estructural), si se sabe que acompañando a x0 se tiene Y0 = 6, puesto que este valor
pertenece al intervalo calculado, se puede afirmar (al nivel de confianza considerado) que la relación estimada para las variables se sigue verificando (permanece
la estructura) para la nueva información.
Por último, con el objetivo de aplicar la estimación con información a priori al modelo considerado vamos contrastar la hipótesis nula H0 : β2 + β3 = 5. Ası́,
en el caso de no rechazarla obtendremos el estimador por mı́nimos cuadrados
restringidos.
Como es sabido, se rechazará la hipótesis nula si
Fexp
Máster TCGE
h
i−1
t R (X t X)−1 Rt
b
b
· Rβ − r > Fq,n−k (1 − α),
= Rβ − r ·
q·σ
b2
Introducción a la Econometrı́a: regresión múltiple – 53 / 68
Ejemplo 1
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
donde Fq,n−k (1 − α) es el punto de una F de Snedecor con q y n − k grados
de libertad que deja a su izquierda una probabilidad 1 − α.
A partir de β2 + β3 = 5 se obtiene que q = 1, r = 5 y R = (0 1 1), de forma
que


8′ 5189
Rβb − r = (0 1 1) ·  5′ 5587  − 5 = 5′ 5587 − 0′ 4296 − 5 = 0′ 1291,
−0′ 4296

0′ 62
−1
Rt = (0 1 1)· −0′ 0688
R X tX
−0′ 0136
Y en tal caso:
Fexp =
Máster TCGE
−0′ 0688
0′ 0103
−0′ 0033


−0′ 0136
0
−0′ 0033 · 1  = 0′ 0405.
0′ 0368
1
0′ 12912
= 0′ 02454025,
0′ 0405 · 16′ 76944
donde recordemos que σ
b2 = 16′ 76944.
Introducción a la Econometrı́a: regresión múltiple – 54 / 68
Ejemplo 1
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Por otro lado, puesto que Fq,n−k (1 − α) = F1,5 (0′ 95) = 6′ 61, es evidente que
no se rechaza la hipótesis nula, es decir, no rechazo que los coeficientes de las
variables verifiquen la relación β2 + β3 = 5.
En tal caso, habrá que incorporar dicha información al modelo con el fin de obtener
un mejor estimador (cuando se dispone de información a priori el estimador por
mı́nimos cuadrados ordinarios ya no es óptimo). En esta situación el estimador
insesgado con mı́nima varianza es el de mı́nimos cuadrados restringidos, el cual
responde a la siguiente expresión:
Ejemplo 1
Ejemplo 2
βbR = βb + X t X
−1
h
−1 t i−1 t
b
R R X X
R
r − Rβ .
t
(8)
De la expresión anterior se conoce:


8′ 5189
βb =  5′ 5587  ,
−0′ 4296
h
R X tX
−1
Rt
i−1
=
1
,
0′ 0405
faltando calcular
Máster TCGE
r−Rβb = −0′ 1291,
Introducción a la Econometrı́a: regresión múltiple – 55 / 68
Ejemplo 1
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2

  
′
′
′
0
62
−0
0688
−0
0136
0
−1 t
t
′
′
′



−0 0688 0 0103 −0 0033
1 =
R =
X X
·
′
′
′
−0 0136 −0 0033 0 0368
1


−0′ 0824
=  0′ 007  .
0′ 0335
Entonces, a partir de (8) se obtiene que:

 


−0′ 0824
8′ 5189
8′ 781563
′
0 1291 
0′ 007  =  5′ 536386  .
·
βbR =  5′ 5587  − ′
0 0405
0′ 0335
−0′ 4296
−0′ 5363864

A partir de esta estimación es fácil comprobar que se obtiene:
etR eR = 84′ 35455,
2
RR
= 0′ 9731012,
2
σ
bR
= 14′ 05909,
2
< R2 .
verificándose, como es sabido, que etR eR > et e y RR
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 56 / 68
Ejemplo 2
Contenidos
Dado el modelo
Introducción
Yt = β1 + β2 Xt2 + β3 Xt3 + β4 Xt4 + ut ,
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
(9)
donde:
Y es el consumo familiar mensual (medido en miles de euros).
X2 es la renta familiar mensual (medida en miles de euros).
X3 es una variable ficticia que toma el valor 1 si la familia correspondiente
tiene una deuda en forma de un préstamo para la compra de una vivienda o
coche, y el valor 0 en caso contrario.
X4 es el número de hijos de una familia.
Se pide analizar el modelo sabiendo que para 22 familias se ha obtenido que:
y t y = 131′ 13,
Máster TCGE


48′ 5
 204′ 45 

X ty = 
 37′ 9  ,
69′ 3
Introducción a la Econometrı́a: regresión múltiple – 57 / 68
Ejemplo 2
Contenidos
Introducción
Especificación del
modelo
X tX
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
Máster TCGE
−1


0′ 3342 −0′ 0506 −0′ 1626 0′ 0041
 −0′ 0506 0′ 0173
0′ 0051 −0′ 0114 
.
=
 −0′ 1626 0′ 0051
0′ 249
−0′ 0317 
0′ 0041 −0′ 0114 −0′ 0317 0′ 0514
En primer lugar obtendremos la estimación de las cantidades constantes del modelo, es decir, de β y σ 2 :

 
48′ 5
0′ 3342 −0′ 0506 −0′ 1626 0′ 0041
 204′ 45 
 −0′ 0506 0′ 0173
0′ 0051 −0′ 0114 
b



·
β = 
−0′ 1626 0′ 0051
0′ 249
−0′ 0317   37′ 9 
69′ 3
0′ 0041 −0′ 0114 −0′ 0317 0′ 0514


−0′ 0149
 0′ 4862 

= 
(10)
 0′ 3969  ,
0′ 2287
131′ 13 − 129′ 5643
1′ 5657
y t y − βbt X t y
2
=
=
= 0′ 087,
(11)
σ
b =
n−k
22 − 4
18

Introducción a la Econometrı́a: regresión múltiple – 58 / 68
Ejemplo 2
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
donde se ha usado que


48′ 5
 204′ 45 
′

βbt X t y = (−0′ 0149 0′ 4862 0′ 3969 0′ 2287) · 
 37′ 9  = 129 5643,
69′ 3
y se deduce que σ
b = 0′ 2949 y
Ybt = −0′ 0149 + 0′ 4862 · X2t + 0′ 3969 · X3t + 0′ 2287 · X4t .
Además, a partir de la estimación de σ 2 se obtiene una estimación para la matriz
b:
de varianzas-covarianzas de β
−1
\
V ar βb = σ
b2 X t X

0′ 0291
 −0′ 0044
=
 −0′ 0141
0′ 0004
Máster TCGE
−0′ 0044
0′ 0015
0′ 0004
−0′ 001
−0′ 0141
0′ 0004
0′ 0217
−0′ 0028

0′ 0004
−0′ 001 
.
−0′ 0028 
0′ 0045
Introducción a la Econometrı́a: regresión múltiple – 59 / 68
Ejemplo 2
Contenidos
Introducción
Especificación del
modelo
Esta matriz tiene importancia de cara a los contrastes de significación individual
ya que entonces se usaran sus elementos de la diagonal principal.
Pasamos a continuación a calcular la bondad del ajuste realizado, es decir, el
coeficiente de determinación:
Estimación del modelo
R2 = 1 −
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
SCR
.
SCT
Como SCR = 1′ 5657 ya ha sido calculada en la estimación de la varianza de la
perturbación aleatoria, tan sólo hay que calcular:
Ejemplo 2
2
SCT = y t y − nY = 131′ 13 − 22 · 2′ 20452 = 131′ 13 − 106′ 916 = 24′ 214,
t
donde se ha usado que a partir del primer elemento de X y , esto es,
48′ 5, se obtiene que Y =
48′ 5
22
22
P
Yt =
i=1
= 2′ 2045. En tal caso:
1′ 5657
= 1 − 0′ 0647 = 0′ 9353,
R =1− ′
24 214
2
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 60 / 68
Ejemplo 2
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
esto es, la estimación realizada explica un 93’53 % de la variabilidad de Y .
Ahora bien, como es sabido, cuanto más cercano al 100 % mejor será el coeficiente de determinación y, por tanto, la estimación realizada. ¿Está en este caso
suficientemente cerca del 100 % como para que la estimación realizada sea significativa?
Como respuesta afirmativa a esta pregunta, el coeficiente de determinación ha de
ser superior a la siguiente cota:
Ejemplos
Ejemplo 1
Ejemplo 2
1
k−1
n−k · Fk−1,n−k (1 − α)
k−1
+ n−k
· Fk−1,n−k (1 − α)
3
18
· 3′ 15991
0′ 5267
= 0′ 345,
=
= ′
3
′
1 5267
1 + 18 · 3 15991
donde se ha usado que F3,18 (0′ 95) = 3′ 15991. Puesto que el R2 obtenido es
superior a dicha cota inferior podemos afirmar que el coeficiente de determinación
es significativo, es decir, valida al modelo.
Esta validación del modelo se puede establecer también a partir del contraste de
significación conjunta. Bajo el supuesto de normalidad en el modelo rechazaremos H0 : β2 = β3 = β4 = 0 si
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 61 / 68
Ejemplo 2
Contenidos
SCE
k−1
SCR
n−k
Introducción
Especificación del
modelo
Estimación del modelo
> Fk−1,n−k (1 − α).
Para calcular la región de rechazo y tomar una decisión en este contraste planteamos la tabla ANOVA:
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
Fuentes de variación
Explicada
No explicada
Total
Sumas de cuadrados
Grados de libertad
Medias
SCE = 22′ 6483
SCR = 1′ 5657
SCT = 24′ 214
k−1=3
n − k = 18
SCE
= 7′ 5494
k−1
SCR
= 0′ 087
n−k
El único elemento no calculado hasta el momento de la tabla anterior es SCE =
SCT − SCR = 24′ 214 − 1′ 5657 = 22′ 6483. En tal caso, se tiene para la
región de rechazo que:
86′ 7747 > 3′ 15991,
Máster TCGE
de forma que es evidente que se rechaza la hipótesis nula de que todos los coeficientes pueden ser nulos de forma simultánea. Por tanto, se tiene que la relación
existente entre las variables independientes y la dependiente no se debe al azar,
validando el modelo.
Introducción a la Econometrı́a: regresión múltiple – 62 / 68
Ejemplo 2
Contenidos
Introducción
Para finalizar estudiaremos los contrastes de significación individual. Como es
sabido se rechazará la hipótesis H0 : βi = 0 si
βb α
i
,
√ > tn−k 1 −
σ
b wii 2
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
\
√
donde σ
b wii es la raı́z cuadrada del elemento (i, i) de la matriz V ar βb y
tn−k 1 − α2 = t18 (0′ 975) = 2′ 10092.
H0 : β 2 = 0
√
σ
b w22
βb2√= 0′ 4862
= 0′ 0015 = 0′ 0387
=⇒
=⇒
H0 : β 3 = 0
√
Máster TCGE
σ
b w33
βb3√= 0′ 3969
= 0′ 0217 = 0′ 1473
βb2
= 12′ 5633 > 2′ 10092.
√
σ
b w22
βb3
= 2′ 6945 > 2′ 10092.
√
σ
b w33
Introducción a la Econometrı́a: regresión múltiple – 63 / 68
Ejemplo 2
Contenidos
H0 : β 4 = 0
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
√
σ
b w44
βb4√= 0′ 2287
= 0′ 0045 = 0′ 0671
βb4
=⇒ √
= 3′ 4083 > 2′ 10092.
σ
b w44
En todos los casos se rechaza la hipótesis nula, lo que se interpreta como que las
variables X2 , X3 y X4 son significativas.
Como es sabido, para llegar a estas conclusiones también se podrı́an haber obtenido los intervalos de confianza de cada coeficiente:
√
α
b
·σ
b · wii ,
βi ± tn−k 1 −
2
i = 1, 2, 3, 4.
Ası́ por ejemplo, para el último coeficiente se tiene que el intervalo de confianza
al 95 % es:
0′ 2287 ± 2′ 10092 · 0′ 0671 = (0′ 08772827, 0′ 3696717).
Como el cero no pertenece a dicho intervalo se concluirá que el coeficiente correspondiente será distinto de cero.
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 64 / 68
Ejemplo 2
Contenidos
El intervalo de confianza al 95 % para el segundo coeficiente es:
Introducción
0′ 4862 ± 2′ 10092 · 0′ 0387 = (0′ 4048944, 0′ 5675056).
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
Al igual que antes se concluirá que el coeficiente correspondiente será distinto de
cero.
Para finalizar con el cálculo de intervalos de confianza, obtendremos a continuación el intervalo para la varianza de la perturbación aleatoria:
"
(n − k) · σ
b2 (n − k) · σ
b2
,
χ2n−k 1 − α2
χ2n−k α2
#
"
#
SCR
SCR
, 2
.
=
χ2n−k 1 − α2
χn−k α2
Puesto que SCR = 1′ 56574, χ2n−k 1 − α
= χ218 (0′ 975) = 31′ 526 y
2
χ2n−k α2 = χ218 (0′ 025) = 8′ 231 es claro que el intervalo para σ 2 es:
Máster TCGE
1′ 56574 1′ 56574
,
31′ 526
8′ 231
= (0′ 04966504, 0′ 1902248) .
Introducción a la Econometrı́a: regresión múltiple – 65 / 68
Ejemplo 2
Contenidos
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Ejemplos
Ejemplo 1
Por todo lo expuesto hasta ahora se tiene que el modelo estimado es válido y que
las variables de renta familiar, deuda y número de hijos influyen positivamente
en el consumo de las familias. Es decir, a mayor renta, deuda y número de hijos
mayor consumo familiar. Además, al ser la variable correspondiente a la deuda
una variable ficticia, habremos estimado la diferencia esperada en el consumo
familiar entre familias con deuda y sin deuda con el mismo nivel de renta y número
de hijos. En este caso se obtiene que dicha estimación es positiva, por lo que
aquellas familias que tienen algún tipo de deuda consumen más que aquellas que
no la tienen.
Ejemplo 2
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 66 / 68
Lecturas recomendadas
Contenidos
[1]
Introducción
Especificación del
modelo
Estimación del modelo
Validación del modelo
Explotación del modelo
Presentación de la edición española de Johnston, J. (1989). Métodos de
Econometrı́a. Ed. Vicens-Vives por A.G. Barbancho.
[2] Gómez, S. y Salmerón, R. (2011). Influencia del entorno institucional en el
desarrollo del emprendimiento español. Un análisis empı́rico. Revista Venezolana de Gerencia, Volumen 16, Número 54, Páginas 191-208.
[3] Novales, A. (1993). Econometrı́a. McGraw Hill. Capı́tulo 1 (repaso matrices).
Ejemplos
Ejemplo 1
Ejemplo 2
[4] Portillo, F. (2006). Introducción a la Econometrı́a. Logroño: autoedición.
[5] Salmerón, R. y Tamayo, J. (2010). Técnicas cuantitativas aplicadas al análisis de la flexibilidad en la producción, la explotación y la exploración en las
empresas. Revista Estadı́stica Española, Volumen 52, Número 175, Páginas
529-567.
[6] Salmerón, R. y Gómez, S. (2012). Relación entre los factores institucionales y el emprendimiento: análisis mediante técnicas cuantitativas. Revista de
Métodos Cuantitativos para la Economı́a y la Empresa, Número 13, Páginas
54-72.
Máster TCGE
Introducción a la Econometrı́a: regresión múltiple – 67 / 68
Bibliografia
Contenidos
Especificación del
modelo
[1] Esteban, M.V., Moral, M.P., Orbe, S., Regúlez, M., Zarraga, A. y Zubia, M.
(2009). Econometrı́a básica aplicada con Gretl. Sarriko-On, Universidad del
Paı́s Vasco.
Estimación del modelo
[2] Gujarati, D. (1997). Econometrı́a. Ed. McGraw Hill.
Introducción
Validación del modelo
[3] Johnston, J. (1989). Métodos de Econometrı́a. Ed. Vicens-Vives.
Explotación del modelo
Ejemplos
Ejemplo 1
Ejemplo 2
[4] Matilla, M., Pérez, P. y Sanz, B. (2013). Econometrı́a y predicción. Ed. MacGraw Hill.
[5] Novales, A. (1993). Econometrı́a. McGraw Hill.
[6] Uriel, E., Contreras, D., Moltó, M.L. y Peiró, A. (1990). Econometrı́a. El Modelo Lineal. Ed. AC.
[7]
Máster TCGE
Wooldridge, J.M. (2005). Introducción a la Econometrı́a: Un enfoque moderno. Ed. Thomson.
Introducción a la Econometrı́a: regresión múltiple – 68 / 68
El Modelo Lineal
Román Salmerón
http://www.ugr.es/ romansg/
romansg@ugr.es
1. Especificación del Modelo Lineal
Estudio de una variable dependiente a partir de k variables independientes (con constante) a partir de n observaciones.

E[un×1] = 0n×1 ( ya que E[ut] = 0 ∀t )



2


 V ar(un×1) = σ · Idn×n

,→ V ar(ut) = σ 2 ∀t, Cov(ut, us) = 0, ∀t 6= s
yn×1 = Xn×k · βk×1 + un×1
 X no aleatoria con rg(X) = k




,→ Xi, i = 1, . . . , k, linealmente independientes


X y u incorrelados
 


 
 
β1
u1
Y1
1 X12 X13 · · · X1k
 β2 
 u2 
 Y2 
 1 X22 X23 · · · X2k 



 
 
y=
..
..  = (i X2 · · · Xk ) , β =  ..  , u =  ..  .
 ..  , X =  .. ..
Yn
1 Xn2 Xn3 · · · Xnk
βk
un
2. Estimación del Modelo Lineal
Estimación de las
constantes del modelo.
−1cantidades
] βb = X tX
X ty estimador por MCO de β
a
T Gauss-Markov: βb es un estimador lineal, insesgado y óptimo (mı́nima varianza)
b = σ 2 · X tX −1
V ar(β)
n
P
Consecuencias estimación MCO: it · e =
et = 0, X t · e = 0, Y = Yb , ybt · e = 0.
t=1
−1
ete estimador insesgado de σ 2 (ete es la SCR) ⇒ V\
b =σ
]σ
b2 = n−k
ar(β)
b2 · X tX
βbtX ty
σ
b2 = y y−
n−k
t
3. Validación del Modelo Lineal
Herramientas para determinar si la estimación realizada es o no válida.
] Coeficiente de determinación (R2): porcentaje de variabilidad explicada por el ajuste (estimación) realizado del modelo.
2
t
βbtX ty
βbtX ty−nY
SCR
2
R2 = SCE
= 1 − y y−
2
2
SCT = 1 − SCT ⇒ R =
t
t
y y−nY
y y−nY
Siempre que el modelo tenga constante: 0 ≤ R2 ≤ 1.
Cuanto más próximo a 1 mejor será el ajuste.
El coeficiente de determinación será significativo (es decir, validará el modelo) siempre que sea superior a la siguiente cota:
k−1
n−k · Fk−1,n−k (1 − α)
k−1 · F
1 + n−k
k−1,n−k (1 − α)
.
2
n−1 .
Coeficiente de determinación corregido: R = 1 − (1 − R2) · n−k
] Distribuciones:
h
i
t
−1
−1 t −1 βb ∼ N β, σ 2 · X tX
→ Rβb − Rβ · R · X tX
·R
· Rβb − Rβ ∼ χ2
q
h
↓
i−1
t R·(X tX) ·Rt
(n−k)·b
σ2
∼ χ2n−k → Rβb − Rβ ·
· Rβb − Rβ ∼ Fq,n−k
σ2
q·b
σ2
] Contrastes de hipótesis:
i
h
t R·(X tX)−1·Rt −1 Rechazo H0 : Rβ = r si Rβb − r ·
· Rβb − r > Fq,n−k (1 − α).
2
q·b
σ
βb −b −1
α
t
i
i
Rechazo H0 : βi = bi si σb√
.
w > tn−k 1 − 2 , wi elemento (i, i) de X X
−1
i
] Análisis de la varianza (ANOVA):
SCE
R2
n−k
n−k
k−1
Rechazo H0 : β2 = β3 = · · · = βk = 0 si SCR
= k−12 > Fk−1,n−k (1 − α).
1−R
] Intervalos de confianza:
t h
−1 ti−1 Para Rβ: Rβb − r · R · X tX
·R
· Rβb − r ≤ q · σ
b2 · Fq,n−k (1 − α).
√
α ·σ
w
.
Para βi: βb
±
t
1
−
b
·
n−k
2
i
i
(n−k)·b
σ 2 (n−k)·b
σ2
Para σ 2: 2
,
= 2 SCR α , SCR
.
χn−k (1− α2 ) χ2n−k ( α2 )
χn−k (1− 2 ) χ2n−k ( α2 )
4. Explotación del Modelo Lineal
¿Qué ocurre para nueva información recogida en x0?
b
] Predictor puntual: p0 = xt · β.
0
,→ lineal, insesgado (E[p0] = xt0 · β) y óptimo (mı́nima varianza).
] Predictor por intervalo:
q
Para el valor esperado: xt0 · βb ± tn−k 1 − α2 · σ
b · xt0 · (X tX)−1 · x0.
q
b · 1 + xt0 · (X tX)−1 · x0.
Para la permanencia estructural: xt0 · βb ± tn−k 1 − α2 · σ
5. Estimación con información a priori
¿Cómo estimar β sabiendo que verifica que R · β = r (q restricciones)?
] Mı́nimos Cuadrados Restringidos
−1 t h
−1 ti−1 βbR = βb + X t · X
· R · R · Xt · X
·R
· r − R · βb .
,→ insesgado (siempre que r = R · β) y óptimo V ar βbR ≤ V ar βb .
] Consecuencias:
2 ≤ R2 .
RR
SCR = ete ≤ etReR = SCRR.
et e
2 = R R .
σ
bR
n−k+q
(et eR−ete)/q
Rechazamos H0 : R · β = r si eRte/(n−k)
> Fq,n−k (1 − α).
El Modelo Lineal
Econometrı́a
Ejercicios propuestos
Román Salmerón Gómez
1. En la siguiente tabla se tienen los datos de los 6 primeros clasificados de la primera división de fútbol
española:
Equipo
Real Madrid
Barcelona
Valencia
Málaga
Atlético de Madrid
Levante
P
100
91
61
58
56
55
PG
32
28
17
17
15
16
PE
4
7
10
7
11
7
PP
2
3
11
14
12
15
GF
121
114
59
54
53
54
GC
32
29
44
53
46
50
donde P son los puntos conseguidos, P G, P E y P P los partidos ganados, empatados y perdidos y,
finalmente, GF y GC son los goles a favor y en contra recibidos.
Dado el modelo Pt = β1 + β2 GFt + β3 GCt + ut , se pide:
a) Obtener la estimación de los coeficientes de las variables del modelo.
b) Estimar la varianza de la perturbación aleatoria.
c) Interpretar los coeficientes de las variables significativas.
d) Obtener el coeficiente de determinación y estudiar si el modelo es significativo globalmente a partir
del mismo.
e) Comprueba que la hipótesis β2 − 3β3 = 0 es cierta. ¿Qué deberı́as hacer con esta nueva información?
2. Teniendo en cuenta los datos del ejercicio anterior y el siguiente modelo econométrico:
Pt = β1 + β2 DPt + β3 DGt + ut ,
donde DP = P G − P P y DG = GF − GC, se pide:
a) Obtener la estimación de los parámetros desconocidos del modelo.
b) ¿Influye la diferencia de goles en los puntos obtenidos? (usa un intervalo de confianza para responder
a esta pregunta).
c) Interpretar el coeficiente de la variable DP .
d) Obtener el coeficiente de determinación corregido.
e) Estudiar si el modelo es conjuntamente significativo.
f) ¿Qué puntuación obtendrı́a un equipo con DP = 15 y DG = 6? Con dichos datos, ¿a qué intervalo
pertenecerı́a la puntuación esperada?
3. En la asignatura Econometrı́a de LADE del curso académico 2011/2012 se realizó un examen final en
el que el alumno debı́a anotar la calificación que esperaba obtener y podı́a elegir antre dos opciones. En
la siguiente tabla se tiene la información de 8 alumnos correspondiente a las variables CO, calificación
obtenida, CE, calificación esperada y OE, opción elegida (1 opción A y 0 opción B):
1
Alumno
Abelardo
Sergio
Sonia
Rodolfo
Sofia
Gertrudis
Javier
Elena
CO
8’55
7’5
7’475
7’45
2’8
6’125
6’7
7’425
CE
9’5
8’5
7’5
7
4’5
6
3’7
6’5
OE
1
1
0
0
1
1
0
1
Dado el modelo COt = β1 + β2 CEt + β3 OEt + ut , se pide:
a) Obtener la estimación de los parámetros desconocidos del modelo.
b) Obtener un intervalo de confianza para la variable CE y para la perturbación aleatoria.
c) Estudiar si el modelo es significativo de forma conjunta.
d) Obtener el coeficiente de determinación y estudiar si el modelo es significativo globalmente a partir
del mismo.
e) Obtener el coeficiente de determinación corregido.
f) Obtener el intervalo de predicción para la calificación obtenida de un alumno con una calificación
esperada de 7 y que haya elegido la opción A. ¿Cuál serı́a el intervalo para la calificación obtenida
media?
g) Contrasta la hipótesis H0 : β1 − β3 = 1.
h) ¿Es cierto que 2β2 − β3 = 0?
4. En la siguiente tabla se tiene el número de unidades (en miles) de ciclomotores producidos, U P , en los
años 2006 al 2011 ası́ como el valor de la producción (en millones de euros) de cada año, V :
Año
2006
2007
2008
2009
2010
2011
V
168’8
169’9
138’8
81’6
67’9
50’4
UP
111’4
111’8
97’9
54’9
52’5
38’6
Considerando el modelo Vt = β1 + β2 U Pt + ut , se pide:
a) Obtener la estimación de los parámetros desconocidos del modelo.
b) Realizar los contrastes de significación individual (de la variable U P ) y conjunta. ¿Qué ocurre al
existir una única variable independiente?
c) Obtener el coeficiente de determinación y estudiar si el modelo es significativo globalmente a partir
del mismo.
d) Obtener los intervalos de confianza para los parámetros desconocidos del modelo.
5. Consideremos el modelo P Gt = β1 + β2 P BBt + ut , donde P G es el precio del gasoil (en euros/litro) y
P BB es el precio del barril de Brent (en dólares/barril) para los meses de enero a julio del año 2012.
A partir de los siguientes datos:
2
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
PG
1’334
1’364
1’399
1’372
1’35
1’3
1’378
PBB
111
119’71
128’14
118
110’52
95’59
103’57
Se pide:
a) Obtener la estimación de los coeficientes de las variables del modelo.
b) Estimar la varianza de la perturbación aleatoria.
c) Interpretar el coeficiente de la variable P BB.
d) Obtener el coeficiente de determinación corregido.
e) Estudiar la significación conjunta del modelo.
f) ¿Entre qué valores se encontrará el precio del gasoil si P BB = 100? ¿Y el precio esperado?.
6. El gerente de cierta empresa que se dedica a la venta de vino tiene delegaciones en 6 provincias del norte
de España. Puesto que se está planteando ampliar mercado abriendo nuevas delegaciones ha recabado
la siguiente información:
Provincia
León
Cantabria
Madrid
Segovia
Zamora
La Rioja
AV
100
120
135
98
80
120
C
4
5
5
3
2
4
P
0
0
0
1
1
1
donde AV es el número de artı́culos (botellas de vino) vendidas (en miles), C es el número de comerciales
de los que dispone la delegación y P es una variable que toma el valor 1 si se ha realizado campaña
publicitaria en dicha provincia y el valor 0 en caso contrario.
Considerando el modelo AVt = β1 + β2 Ct + β3 Pt + ut , se pide:
a) Obtener la estimación de las cantidades desconocidas del modelo.
b) ¿Influye el número de comerciales en el número de artı́culos vendidos? ¿Y el haber realizado o no
publicidad?
c) Interpretar el coeficiente de las variables.
d) Estudiar la significación conjunta del modelo.
e) Contrastar H0 : β2 − β3 = 4.
f) ¿Entre qué valores máximos y mı́nimos se encontrarı́a el número de artı́culos vendidos si en la nueva
delegación se disponen de 4 comerciales y se realiza campaña publicitaria?
3
Soluciones


90 7225
1. a) βb =  00 6744 .
00 2196
b) (1’5692, 67’9788).
c) texp = 70 3398 > 30 1824 = t3 (00 975) → la variable GF es significativa (es decir, sus variaciones
influyen en los puntos conseguidos).
texp = 00 7175 6> 30 1824 = t3 (00 975) → la variable GC no es significativa (es decir, sus variaciones no
influyen en los puntos conseguidos).
Si aumentan los goles a favor aumentan los puntos conseguidos, más concretamente, por cada gol a
favor los puntos conseguidos aumentan en 0’6744.
2
d) R2 = 00 9926 > 00 8642 = Rsig
→ el modelo es significativo conjuntamente.
e) Fexp = 00 00034 6> 100 1279 = F1,3 (00 95) → no rechazo la hipótesis nula (por lo que deberı́a incorporar
lanueva información al modelo mediante los mı́nimos cuadrados restringidos).
 0

52 2253
2. a) βb =  10 7603  y σ
b2 = 10 3193.
0
−0 059
b) (−00 3875, 00 2675) → como el cero pertenece al intervalo de confianza del coeficiente de DG, dicha
variable no influye en los puntos obtenidos.
c) Conforme aumenta la diferencia de partidos aumentan los puntos obtenidos, más concretamente,
por cada unidad que aumenta la diferencia de partidos los puntos obtenidos lo hacen en 1’7603).
2
d) R = 00 9966.
e) Fexp = 7510 4578 > 90 5521 = F2,3 (00 95) → el modelo es significativo comjuntamente.
f) P LIO = 780 27058, (65’2588, 91’2823).

 0
2 8553
b2 = 10 529508.
3. a) βb =  00 7175  y σ
−10 398
b) CE ∈ (00 07558, 10 3594) y σ 2 ∈ (00 5959, 90 2004).
c) texp = 10 7049 6> 20 5705 = t5 (00 975) → término independiente no significativo.
texp = 20 87327 6> 20 5705 = t5 (00 975) → la variable CE es significativa (es decir, conforme aumenta
la calificación esperada lo hace la obtenida, más concretamente, por cada punto que aumenta CE,
CO lo hace en 0’7175).
texp = 10 4987 6> 20 5705 = t5 (00 975) → variable OE no significativa (lo cual es bueno?).
d) Fexp = 40 4529 < 50 7861 = F2,5 (00 95) → el modelo no es significativo.
2
e) R2 = 00 6404 6> 00 6982 = Rsig
→ el modelo no es significativo conjuntamente.
2
f) R = 00 4966.
g) (2’9974, 9’9625) y (5’058, 7’9017).
h) Fexp = 20 6537 6> 60 6078 = F1,5 (00 95) → no rechazo la hipótesis nula.
i) Fexp = 50 9351 6> 60 6078 = F1,5 (00 95) → no rechazo la hipótesis nula.
−110 7898
b
4. a) β =
yσ
b2 = 240 3672.
10 6008
4
b) texp = 230 8086 > 20 7764 = t4 (00 975) → variable U P es significativa.
Fexp = 5660 852 > 70 086 = F1,4 (00 95) → el modelo es significativo conjuntamente.
En este caso los dos contrastes realizados coinciden, tienen la misma hipótesis nula y alternativa.
2
c) R2 = 00 9929 > 00 6583 = Rsig
→ el modelo es significativo conjuntamente.
d) β1 ∈ (−270 3625, 30 78304), β2 ∈ (10 4141, 10 7874) y β3 ∈ (80 7468, 2010 2082).
0
1 097
b
5. a) β =
.
00 0023
b) (0’0002006, 0’00309).
c) texp = 110 3265 6> 20 5705 = t5 (00 975) → el término independiente es significativo (si el precio del
barril de Brent fuese de 0 dólares, el gasoil tendrı́a un precio de 1’097 euros por litro).
texp = 20 6912 6> 20 5705 = t5 (00 975) → la variable P BB es significativa (es decir, conforme aumenta
el precio del barril de Brent lo hace el precio del gasoil).
d) Un aumento de un dólar en el precio del barril de Brent supone un aumento de 0’0023 euros en el
precio del gasoil.
2
e) R = 00 5099.
f) Fexp = 70 2428 > 60 6078 = F1,5 (00 95) → el modelo es significativo conjuntamente.
g) (1’26007, 1’3962) y (1’29306, 1’3632).


160 25
b2 = 470 7638.
6. a) βb =  210 875  y σ
0
17 4583
b) texp = 50 1687 > 30 1824 = t3 (00 975) → la variable C es significativa, luego influye en el número de
botellas vendidas.
texp = 10 9327 6> 30 1824 = t5 (00 975) → la variable P no es significativa, luego no influye en el número
de botellas vendidas
c) Al aumentar el número de comerciales también lo hace el número de botellas de vino vendidas, más
concretamente, por cada comercial nuevo en la plantilla se venden 21875 botellas más.
d) Fexp = 190 0263 > 90 55209 = F2,3 (00 95) → el modelo es significativo conjuntamente.
e) Fexp = 00 0043 6> 100 1279 = F2,3 (00 95) → no se rechaza la hipótesis nula.
f) (92’46102, 149’9556).
Nota: todos los contrastes de hipótesis e intervalos de confianza han sido realizados, según corresponda,
a un 5 % de significación o a un 95 % de confianza.
5
Ejercicios de ordenador con Gretl
Román Salmerón Gómez
Realiza un análisis econométrico completo de los siguientes modelos.
1. En el archivo Ejercicio1.gdt se tienen los datos correspondientes a la clasificación histórica de la primera
división del fútbol español. Para los 59 equipos que han participado en ella hasta ahora, analiza el
siguiente modelo econométrico:
Pt = β1 + β2 P Gt + β3 P Et + β4 P Pt + β5 GFt + β6 GCt + ut ,
donde P son los puntos conseguidos por temporada de cada equipo, P G, P E y P P los partidos ganados,
empatados y perdidos por temporada y, finalmente, GF y GC son los goles a favor y en contra recibidos
por temporada de cada equipo.
¿Tiene sentido que haya término independiente en este modelo?
2. En el archivo Ejercicio2.gdt se tienen datos correspondientes a 47 alumnos que cursaron la asignatura
Técnicas Cuantitativas 2 en el curso académico 2011/2012. Para dichos alumnos se dispone de las
siguientes variables:
CO es la calificación obtenida en el examen final de la asignatura.
N E es la calificación esperada en el examen tras realizar el mismo.
OE es la opción elegida en el examen final. Puesto que el examen estaba formado por dos modelos,
se ha codificado con 1 al modelo A y con 0 al modelo B.
G toma el valor 1 si el alumno en cuestión pertenece al doble grado en ADE-Derecho y 0 si
pertenece al de Economı́a.
Se pide analizar el modelo COt = β1 + β2 N Et + β3 OEt + β4 Gt + ut .
3. En el archivo Ejercicio3.gdt se tienen datos correspondientes a 47 alumnos que cursaron la asignatura
Técnicas Cuantitativas 2 en el curso académico 2011/2012. En dicho curso académico se realizó una
evaluación continua en el que el 30 % de la calificación final estaba formado por un ejercicio a resolver
en pizarra, otro en ordenador y distintos exámenes tipo test al final de cada tema. Por tanto, se dispone
de las siguientes variables:
CO es la calificación obtenida en el examen final de la asignatura.
EC es la calificación obtenida en el ejercicio realizado en clase.
EO es la calificación obtenida en el ejercicio realizado con ordenador.
T T es la calificación obtenida en los exámenes tipo test realizados.
Se pide analizar el modelo COt = β1 + β2 ECt + β3 EOt + β4 T Tt + ut .
4. En el archivo Ejercicio4.gdt se tiene el número de unidades de turismos fabricados, U F , en España
desde 1994 hasta 2011 y el valor de la producción anual, V P (en miles de euros). Se pide analizar el
modelo V Pt = β1 + β2 U Ft + ut .
1
5. En el archivo Ejercicio5.gdt se tienen los datos (desde hasta) correpondientes al precio del gasóleo (en
euros/litro), G, y del barril de Brent (en dólares/barril), BB . Se pide analizar el modelo que analiza
el precio del gasóleo a partir del precio del barril de Brent.
6. En el archivo Ejercicio6.gdt se tienen los datos sobre renta, R, y consumo, C, mensual de 22 familias.
También se dispone de información sobre el número de hijos de cada familia, H, y de si las familias
tienen algún préstamo con cuantı́a superior a los 400 euros mensuales, D. Ésta variable tomará el valor
1 en caso afirmativo y 0 en el negativo. Se pide analizar el modelo Ct = β1 + β2 Rt + β3 Dt + β4 Ht + ut .
7. En el archivo Ejercicio7.gdt se tienen los salarios de un grupo de 177 individuos en el año 1990. Para
cada uno de ellos se tiene información de su salario anual, S (medido en miles de dólares), de las ventas
de la empresa en la que trabaja, V , y beneficios, B (medidos ambos en millones de dólares), y de los
años que lleva trabajando en la empresa, A. Se pide analizar el modelo St = β1 +β2 Vt +β3 Bt +β4 At +ut .
8. En el archivo Ejercicio8.gdt se tienen datos anuales, desde 1976 a 2009, relativos al conjunto de importaciones de España, al producto interior bruto y a la inversión. Se pide analizar el modelo que explica
el comportamiento de las importaciones como función del producto interior bruto y de la inversión.
9. En el archivo Ejercicio9.gdt se tienen series (desde 1970 hasta 2010) sobre el consumo de energı́a
per cápita de la economı́a española, C, la renta per cápita, R, y la temperatura media para el año
correspondiente, T . Se pide analizar el modelo Ct = β1 + β2 Rt + β3 Tt + ut .
10. En el archivo Ejercicio10.gdt se tienen los dividendos, D, repartidos por un conjunto de 100 empresas de
un mismo sector, el ratio de endeudamiento a corto plazo, EC, el ratio de endeudamiento a largo plazo,
EL, y las ventas medias diarias, V . Se pide analizar el modelo Dt = β1 + β2 ECt + β3 ELt + β4 Vt + ut .
11. En el archivo Ejercicio11.gdt se tiene la siguiente información sobre 935 personas:
S es el salario mensual (en euros).
E es la edad (en años).
R es la raza (0 blanco, 1 no blanco).
H es el número de horas de trabajo semanales.
C es el esatdo civil (1 casado, 0 caso contrario).
Se pide analizar el modelo St = β1 + β2 Et + β3 Rt + β4 Ht + +β5 Ct + ut .
12. En el archivo Ejercicio12.gdt se tiene información sobre el número total de hipotecas concedidas por
trimestres en España, H, sobre la tasa de desempleo promedio en cada trimestre y del euribor promedio
trimestral (desde el primer trimestre del año 2003 al segundo trimestre del año 2011). Se pide analizar
el modelo que trata de explicar el número total de hipotecas concedidas a partir de la tasa de desempleo
y el euribor.
13. En el archivo Ejercicio13.gdt se tiene, desde el primer trimestre del año 2003 al segundo trimestre del
año 2011, la tasa de desempleo, P , y de ocupación hotelera, O, trimestral. Se pide analizar el modelo
que analiza la tasa de ocupación hotelera apartir de la tasa de paro.
Nota: los archivos de Gretl quı́ referenciados los puedes encontrar en la dirección web
http://www.ugr.es/local/romansg/material/WebEco/index.html
2
El Modelo Lineal General mediante GRETL
Estimación y validación de un modelo uniecuacional múltiple
Román Salmerón Gómez
Índice
1. Introducción
1
2. Algunas cuestiones básicas de Gretl
3
2.1. Descarga e instalación de Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.2. Introducción de datos en Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2.1. Introducción de los datos directamente . . . . . . . . . . . . . . . . . . . . . . .
4
2.2.2. Recuperar los datos de otros formatos . . . . . . . . . . . . . . . . . . . . . . .
7
3. Estimación y validación de un modelo uniecuacional múltiple
1.
11
3.1. Estimación de las cantidades constantes del modelo. Bondad del ajuste realizado . . .
11
3.2. Análisis de los errores/residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.3. Contrastes de significación de los parámetros . . . . . . . . . . . . . . . . . . . . . . .
20
3.4. Análisis de la varianza: ANOVA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.6. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Introducción
En las siguientes lı́neas abordaremos como realizar la estimación y validación de un modelo uniecuacional múltiple mediante el software econométrico Gretl. Para conseguir dicho objetivo, el presente
documento se estructura de la siguiente forma:
1. Algunas cuestiones básicas de Gretl.
a) Descarga e instalación de Gretl.
b) Introducción de datos en Gretl.
2. Estimación y validación de un modelo uniecuacional múltiple.
a) Estimación de las cantidades constantes del modelo. Bondad del ajuste realizado.
b) Análisis de los errores/residuos.
c) Contrastes de significación de los parámetros.
d ) Análisis de la varianza: ANOVA.
e) Intervalos de confianza.
1
Cuadro 1: Observaciones para 22 familias
Familia Consumo Renta Deuda Hijos
1
1’3
1’5
1
1
2
2’5
3’2
1
2
3
1
2’2
0
0
4
2’7
4’1
1
2
5
1’8
1’7
1
1
6
1’1
2’3
0
0
7
2
2’8
1
3
8
1’2
1’8
1
0
9
1’6
2’5
1
1
10
2
3
0
3
11
1’5
2’7
0
0
12
1’7
2’6
1
0
13
3
5
0
1
14
1’4
2
1
0
15
4
8
1
2
16
4
6’6
1
1
17
2
5
0
0
18
1’5
3
1
0
19
2’3
2’7
1
1
20
5’1
7
1
3
21
1’6
2’5
1
2
22
3’2
4
1
2
Los contenidos aquı́ mostrados hacen referencia a la versión 1.8.0 de Gretl, por lo que podrı́a haber
pequeñas diferencias con respecto a versiones posteriores.
Por otro lado, destacar que no se pretende realizar un manual de manejo de Gretl, sino simplemente mostrar aquellas herramientas de dicho software que permiten realizar el análisis de un modelo
uniecuacional múltiple. Para más información sobre Gretl de la aquı́ presentada se recomienda recurrir
a la ayuda del propio programa (menú Ayuda de la parte superior derecha) o realizar una búsqueda
por internet sin más que escribir “manual de Gretl” en cualquier buscador (por ejemplo, Google).
Finalmente, cada uno de los apartados tendrá una parte práctica para facilitar su comprensión.
Por este motivo, se procederá a resolver paso a paso el siguiente ejercicio:
EJERCICIO 1
Supongamos que el consumo familar (Ct , medido en miles de euros) está relacionado con
la renta (Rt , medida en miles de euros), la deuda de las familias (Dt , que toma el valor 1
si la familia tiene algún tipo de deuda y 0 en caso contrario) y el número de hijos (Ht ).
Se pide analizar el modelo uniecuacional múltiple anterior a partir de las observaciones de
la tabla del cuadro 1.
Finalmente destacar que en la página web de Gretl (http://gretl.sourceforge.net/win32/index es.html)
es posible obtener diversos ejemplos presentes en los libros de Wooldridge (Introductory Econometrics), Gujarati (Basic Econometrics), Stock y Watson (Introduction to Econometrics) y Davidson y
Mackinnon (Econometric Theory and Methods), entre otros.
2
Figura 1: Página web oficial de Gretl
Figura 2: Descarga de Gretl
2.
Algunas cuestiones básicas de Gretl
En este capı́tulo veremos dónde se puede descargar el programa y cómo instalarlo para que pueda
ser usado, ası́ como la introducción de datos para su análisis.
2.1.
Descarga e instalación de Gretl
La descarga del software econométrico Gretl se realiza directamente a partir de su página web
http://gretl.sourceforge.net/gretl espanol.html (figura 1), sin más que pinchar sobre el enlace gretl
para Windows (si es que somos usuarios de dicha plataforma) situado en el margen superior izquierdo. En la nueva página a la que debemos ser dirigidos (figura 2) podremos descargarnos el fichero
ejecutable auto-instalable de gretl (gretl-1.8.0.exe, en el momento de la creación de este documento)
ası́ como diversas opciones extras que complementan al software (como pueden ser conjuntos de datos
disponibles).
Por ahora sólo estamos interesados en la instalación del software, ası́ que pincharemos sobre el
ejecutable, gretl-1.8.0.exe. En tal caso, nos redireccionarán a un mirror donde podremos descargar el
ejecutable (si la descarga no inicia de forma automática pichar sobre direct link ).
Una vez descargado el archivo ejecutable en el disco duro del ordenador, hay que realizar doble
click sobre el mismo para comenzar con el proceso de instalación. El cual es muy sencillo (siguiente,
siguiente, siguiente, instalar, finalizar) ya que dejaremos las opciones que vienen por defecto. De esta
forma, en el menú de inicio, seleccionando todos los programas (figura 3), tendremos un acceso directo
al software sin más que pinchar sobre él.
3
Figura 3: Acceso directo en el menú Inicio de windows
2.2.
Introducción de datos en Gretl
Una vez instalado el programa, el primer paso para abordar el análisis de un modelo es la introducción de los datos del mismo. Esta tarea se puede realizar desde dos puntos de vista: realizando la
introducción manual directa en Gretl o recuperando la información de otros formatos (excel, spss, txt,
etc. . . ).
2.2.1.
Introducción de los datos directamente
Tras ejecutar el programa (accediendo a él mediante el anterior acceso directo), seleccionaremos
la opción Nuevo conjunto de datos (Ctrl+N) del menú Archivo en la parte superior izquierda del
programa (ver figura 4). Nos pedirá el número de observaciones, la estructura del conjunto de datos
(seleccionaremos sección cruzada1 o de serie temporal según la naturaleza de los datos) y la confirmación de la estructura de los datos, para a continuación, sin más que seleccionar empezar a introducir
los valores de los datos, comenzar con el proceso.
En primer lugar pide el nombre de la variable, de manera que tras introducirlo, podremos añadir
los datos como en cualquier hoja de cálculo (figura 5). Para añadir una nueva variable seleccionar
Añadir en el menú Variable de la parte superior de la ventana y al finalizar de introducir variables
pulsar sobre Cerrar. También está la opción de Definir nueva variable. . . del menú Añadir en la parte
superior central del programa (figura 6).
Ası́, para el ejercicio considerado, habrá que indicar que el número de observaciones es 22 e introducir las variables C, R, D y H, como en cualquier hoja de cálculo. Adviértase que en el nombre de las
variables no se pueden escribir caracteres extraños (por ejemplo, tildes) y deben ser cortos. Además, a
la hora de introducir los datos el delimitador decimal es la coma, si bien, si se usa el punto el programa
lo modifica automáticamente. También cabe destacar que el programa genera de forma automática la
constante del modelo, por lo que no es necesario introducirla. Como resultado final debemos tener la
figura 7, de forma que si seleccionamos todas las variables y pulsamos enter se mostraran todos los
datos (figura 8).
En la nueva ventana donde se muestran los datos podemos (gracias al menú de la parte superior
izquierda) guardar los mismos separados por tabuladores, por comas o por texto plano (muy útil si
deseamos usarlos para trabajor con otro programa, ya que recuperarlos a partir de dichos formatos
1
En el ejemplo que vamos a considerar tenemos datos de sección cruzada, es decir, se miden unas series de variables
para un conjunto de entidades (en este caso familias) en un instante de tiempo.
4
Figura 4: Introducción de un nuevo conjunto de datos
Figura 5: Introducción de los datos
5
Figura 6: Añadir los datos de una nueva variale
Figura 7: Variables introducidas
6
Figura 8: Menú mostrar datos
suele ser fácil). También se pueden imprimir y copiar, modificar el número de decimales y realizar
cualquier tipo de búsqueda.
Finalmente, si se selecciona una variable y se pulsa el botón derecho del ratón surge un menú (figura
9) que permite mostrar los valores de la variable, calcular sus principales estadı́sticos descriptivos,
representar su gráfico de frecuencias y de cajas, editar sus atributos, editar valores (es decir, modificar
las observaciones de la variable en cuestión o añadir nuevas), copiar al cortapapeles, borrar la variable
y definir una nueva.
Destacar que en la opción de editar atributos se puede añadir un nombre largo (etiqueta descriptiva)
para cada variable de forma que sean fáciles de identificar a partir del mismo, el nombre que deseamos
que aparezca en las gráficas y si se trata de una variable discreta. Ası́, por ejemplo, en nuestro caso
para la variable C introduciremos Consumo familiar (medido en miles de euros), para R Renta
familiar (medida en miles de euros), para D Deuda familiar (1 si la hay, 0 si no la hay) y
para H Número de hijos en cada familia (ver figura 10).
2.2.2.
Recuperar los datos de otros formatos
Es habitual disponer de los datos en otros formatos (excel, texto plano, spss, etc.), por lo que
disponer de una herramienta para poder importarlos puede suponer una buena ayuda para evitar la
tediosa tarea de introducir los datos directamente.
Por suerte, Gretl permite importar datos desde formatos muy diversos: csv, ascii, octave, excel, eviews, stata o spss, por ejemplo. Simplemente hay que seleccionar el formato en cuestión del
menú desplegado tras seleccionar la secuencia Archivo -> Abrir datos -> Importar (ver figura 11).
Como reglas generales tener en cuenta que:
7
Figura 9: Opciones sobre cada variable
Figura 10: Modificación de los atributos de una variable
8
Figura 11: Importar datos en otros formatos
La primera fila del fichero deberı́a contener los nombres de las variables.
La primera columna puede, opcionalmente, contener cadenas de fechas u otros ’marcadores’: en
ese caso, la entrada de la fila 1 deberı́a estar en blanco, o deberı́a contener las expresiones ’obs’
o ’date’.
El resto del fichero debe ser una formación de datos rectangular.
Destacar que al seleccionar el archivo a importar, si el proceso se realiza con éxito, se nos pregunta
el tipo de formato a dar a los datos. Puesto que por defecto se consideran los datos de sección cruzada
y se nos pregunta si se desean cambiar a datos de series temporales o de panel, debemos responder
a la pregunta que nos realizan y, en tal caso, habremos terminado con el proceso de importación de
datos.
En el caso de importar un fichero tipo ascii (figura 12), hay que tener en cuenta que aunque el
limitador decimal sea la coma, si se utiliza ésta obtendremos un fallo en la importación de los datos
ya que la coma será considerada como delimitador entre datos. Este problema se resuelve cambiando
las comas por puntos, ya que en este caso este carácter no indica ningún tipo de delimitación entre
datos y será automáticamente cambiado por el programa de forma conveniente.
En la figura 13 se presentan los datos en formato de Excel. En este caso se nos pide la columna y
fila a partir de la que empezar a importar y la hoja de Excel en la que se encuentran los datos. En
este caso se seleccionarı́a la hoja 1 y se indicarı́a importar a partir de la primera columna y segunda
fila, si no queremos importar los nombres de las variables que se encuentran en la primera fila, y a
partir de la primera fila y primera columna si se quiere conservar los nombres de las variables.
Finalmente, una vez introducidos los datos serı́a conveniente guardarlos en el formato propio de
Gretl (.gdt) para poder disponer de ellos en un futuro. Con tal objetivo seleccionamos la opción
Guardar datos (Ctrl+S) del menú Archivo (figura 14). En la ventana que emerge tenemos que escribir
el nombre que queremos para el archivo e indicar el lugar donde guardarlo. Una vez guardados los
datos podremos salir del programa sin más que seleccionar la opción Salir (Ctrl+X) del menú Archivo.
9
Figura 12: Datos en formato ascii
Figura 13: Datos en formato de Excel
10
Figura 14: Guardar datos
3.
Estimación y validación de un modelo uniecuacional múltiple
A continuación vamos a analizar el modelo uniecuacional múltiple correspondiente al ejercicio, esto
es:
Ct = β0 + β1 · Rt + β2 · Dt + β3 · Ht + ut .
Por tanto, entre otras cosas, estimaremos las cantidades constantes del mismo, calcularemos el
coeficiente de determinación y los contrastes de significación individual y conjunta. Todo esto se
realizará tanto a partir de la información proporcionada por el programa directamente como a partir
de la teorı́a desarrollada en clase interpretando los resultados obtenidos.
3.1.
Estimación de las cantidades constantes del modelo. Bondad del ajuste realizado
Ya que acabamos de cerrar la aplicación, lo primero que tenemos que hacer es inicializarla y
recuperar los datos. Puesto que los tenemos salvados en el formato propio de Gretl, para recuperarlos
tenemos que seleccionar la opción Archivos de ususario. . . (Ctrl+O) del menú Abrir datos de Archivo
(ver figura 15) y buscamos allı́ donde guardamos los datos. Observar también que disponemos de
una lista de los últimos archivos usados, por lo que si no han sido reubicados o borrados, podremos
recuperarlos rápidamente.
Para estimar las cantidades constantes del modelo vamos a aplicar el método de mı́nimos cuadrados
ordinarios (MCO). En Gretl existen dos formas distintas de acceder a dicho método. Una forma
rápida, seleccionando el penúltimo icono de la parte inferior del programa, o seleccionando la opción
de Mı́nimos cuadrados ordinarios. . . del menú Modelo en la parte superior derecha (figura 16).
En ambos casos obtendremos el cuadro de diálogo correspondiente al método de MCO (figura 17),
donde se puede introducir la variable dependiente y las independientes sin más que seleccionarlas y
añadirlas o quitarlas. En nuestro caso introduciremos la variable C como dependiente y el resto como
independientes, además de considerar constante en el modelo. Y entonces, simplemente con pulsar
Aceptar obtendremos la estimación por MCO del modelo indicado (figura 18). Se obtiene, por tanto,
11
Figura 15: Abrir datos en formato de Gretl
Figura 16: Acceso al método de MCO
12
Figura 17: Cuadro de diálogo del método de MCO
la siguiente estimación de los coeficientes de las variables: término independiente -0’00832655; R
0’481571; D 0’388973 y H 0’230557.
Para terminar de estimar las cantidades constantes del modelo faltarı́a la varianza de la perturbación aleatoria, cuya estimación se obtiene dividiendo la suma de los cuadrados de los residuos entre
la diferencia de observaciones y el número de regresores. Por tanto, en este caso, la estimación de la
varianza de la perturbación aleatoria se obtiene dividiendo 2’357020 entre 22-4, esto es, 0’1309456.
Adviértase que justo al lado de la suma de los cuadrados de los residuos aparece la desviación tı́pica
de la regresión, 0’361864, es decir, la raı́z cuadrada de la estimación anterior.
Por otro lado, de entre toda la información disponible, ahora mismo destacaremos la bondad del
ajuste realizado, es decir, el coeficiente de determinación. Que en este caso es de un 0’902641 (un
0’886414 para el R-cuadrado corregido). Puesto que está cercano al 1 podemos indicar que el modelo
ajustado es adecuado y que explica un 90’2641 % de la variabilidad de la variable dependiente.
Si en la columna correspondiente a Coeficiente se tienen las estimaciones de los coeficientes del
modelo lineal uniecuacional múltiple anteriormente comentadas, en la siguiente columna, Desv. Tı́pica, se tienen las desviaciones tı́picas estimadas de cada coeficiente estimado2 . Esto es, en la segunda
columna se tienen las raı́ces cuadradas de los elementos de la diagonal principal de la matriz de va \
rianzas covarianzas V ar βb . Atendiendo a esta información tradicionalmente se resume la estimación
realizada como:
bt
C
=
-0’00832655
(0’209189)
+
0’481571 ·Rt
(0’0475691)
+
0’388973 ·Dt
(0’180558)
+
0’230557 ·Ht
(0’08207849)
R2 = 00 902641
Finalmente, hay que destacar que en la nueva ventana donde se presentan los resultados tenemos
distintos menús con opciones interesantes. Destacaremos las que nos resultan útiles en este momento:
Archivo: nos permite salvar los resultados en formato de texto plano, rtf o tex e imprimirlos.
2
Para más detalle ver la sección de intervalos de confianza.
13
Figura 18: Resultados de la estimación por MCO
Editar: nos permite copiar los resultados y modificar el modelo considerado (en este caso se abre
la ventana de la figura 17, es decir, el cuadro de diálogo del método de MCO para realizar las
modificaciones oportunas).
Guardar: permite guardar como nuevas variables los valores estimados, los residuos o los residuos
al cuadrado, entre otros.
Gráficos: nos permite representar gráficos de residuos y de la variable estimada y observada.
Analizar: permite, por ejemplo, mostrar de forma conjunta la variable observada, la estimada y
los residuos.
Ası́ por ejemplo, a partir del menú Gráficos (figura 19) podemos representar de forma conjunta
los valores observados y estimados de la variable dependiente (figura 20). Adviértase que pulsando
el botón derecho del ratón sobre la imagen en cuestión (figura 21) podemos, entre otras acciones,
guardar la imagen en distintos formatos, imprimirla o editarla. Este último aspecto permite cambiar
la apariencia de la representación gráfica: tı́tulos, escala, colores, etc. Por ejemplo, en la figura 22 se
modifica la representación de puntos por lı́neas.
3.2.
Análisis de los errores/residuos
Destinaremos este apartado a analizar los residuos. Básicamente comprobaremos que tienen media
cero y son normales. En un futuro se estudiarán las hipótesis de incorrelación y heteroscedasticidad.
En primer lugar, pinchando en Mostrar variable observada, estimada y residuos del menú Análisis
de la ventana de resultados se nos presentan de forma conjunta la variable estimada, observada y
los residuos (figura 23). Si bien, para poder almacenar los residuos como una nueva variable hay que
seleccionar Residuos del menú Guardar (figura 24). Habrá que indicar en este caso el nombre de la
variable (por ejemplo, e) y su descripción (por ejemplo, residuos del modelo).
De forma exploratoria podemos representar los residuos por número de observación pinchando
en Por número de observación del menú Gráfico residuos de Gráficos (figura 25). En el gráfico que
se obtiene (figura 26), se observa cómo los residuos se sitúan alrededor del cero (la que tiene que
ser su media). Si bien, este aspecto lo confirmaremos calculando (nos situamos sobre la variable
14
Figura 19: Opción Gráfico de variable estimada y observada del menú Gráficos
Figura 20: Representación conjunta de la variable dependiente estimada y observada
15
Figura 21: Opciones sobre un gráfico en Gretl
Figura 22: Aspectos que se pueden modificar en un gráfico
16
Figura 23: Valores observados, estimados y residuos
Figura 24: Guardar residuos como nueva variable
17
Figura 25: Obtener gráfico de los residuos
Figura 26: Gráfico de los residuos frente al número de observación
correspondiente a los residuos, pulsamos el botón derecho del ratón y seleccionamos la opción de
Estadı́sticos descriptivos) los estadı́sticos descriptivos de los residuos (figura 27).
Como es sabido la gran riqueza del modelo lineal se obtiene cuando se introduce la hipótesis de
normalidad en el mismo, por lo que comprobar la suposición de normalidad en los residuos parece
crucial. Pinchando sobre Normalidad residuos del menú Contrastes se obtiene la distribución de frecuencias de los residuos y la correspondiente prueba de la Chi-cuadrado sobre la normalidad (figura
28). También se obtiene un histograma de los residuos con la curva normal (figura 29) donde también
aparece la prueba Chi-cuadrado. En este caso, puesto que el p-valor, mı́nimo valor a partir del cual
se rechaza la hipótesis nula, es 0’0936175, no rechazaremos la hipótesis nula de normalidad (ya que es
mayor que 0.05).
Finalmente, aunque no tenga que ver con los residuos, podemos plantearnos contrastar si se verifica
la hipótesis de linealidad, es decir, contrastar si la relación existente entre la variable dependiente, las
variables independientes y la peturbación aleatoria es lineal. Con tal objetivo seleccionaremos, en la
ventana donde tenemos la estimación por MCO, la opción No linealidad (cuadrados) o No linealidad
(logs) del menú Contrastes. En ambos casos se trata de un contraste que tiene por hipótesis nula que
la relación es lineal. Puesto que para los dos contrastes el p-valor es mayor que 0.05 (ver figura 30),
se decide no rechazar la hipótesis nula, luego en este caso no rechazamos que la relación existente sea
18
Figura 27: Estadı́sticos descriptivos de los residuos del modelo
Figura 28: Prueba de normalidad de los residuos
19
Figura 29: Histograma de los residuos con curva normal
lineal.
3.3.
Contrastes de significación de los parámetros
En el presente apartado estudiaremos los distintos contrastes de hipótesis que permite realizar
Gretl.
Observando la figura 18 (que corresponde a la salida dada por el programa en la estimación
por mı́nimos cuarados ordinarios), vemos que automáticamente Gretl proporciona los contrastes de
significación individual, es decir, aquellos en los que la hipótesis nula afirma que βi = 0, para i=0,1,2,3.
Para estos contrastes hay que fijarse en la última columna de la tabla que hay, es decir, en aquella
que tiene por tı́tulo Valor p. En dicha columna tenemos el p-valor correspondiente a cada uno de los
contrastes de significación individual. Si recordamos que el p-valor es el mı́nimo valor a partir del cual se
rechaza la hipótesis nula, en aquellos casos en los que el p-valor se mayor que 0.05 (nivel de significación
al que trabajamos) no rechazaremos la hipótesis nula. Luego no podemos rechazar que la constante sea
igual a cero, al mismo tiempo se tiene que los coeficientes β1 , β2 y β3 son significativamente distintos
de cero. Además, atendiendo al signo de la estimación obtenida, las variables R, D y H influyen
positivamente sobre la variable dependiente (puesto que la constante no es significativamente distinta
de cero no podemos realizar ningún tipo de comentario similar).
Ası́ por ejemplo, la estimación de β3 es 0’230557 (ver primera columna de la tabla de la figura 18).
Dicha estimación nos podrı́a hacer pensar que el valor de dicho parámetro pueda ser cero. Sin embargo,
observando el p-valor, 0’0116, asociado al contraste de significación individual (hipótesis nula β3 = 0)
nos indica que dicho parámetro es significativamente distinto de cero, ya que es menor que 0.05 y, por
tanto, en dicho caso se rechaza la hipótesis nula del contraste planteado. Por otro lado, la estimación
del término independiente es -0’00832655. De igual forma dicha estimación me puede hacer pensar que
el valor del parámtero es cero, cuestión que se confirma en esta ocasión al comprobar que el p-valor,
0’9687, es mayor que el nivel de significación considerado, 0.05, por lo que no se rechazará la hipótesis
nula de que el parámetro sea cero.
Adviértase que en la tabla de la figura 18 viene también el valor experimental de la t-Student
(columna correspondiente a Estadı́stico t) con el que se realiza el contraste de significación individual, dicho valor se obtiene, como es sabido, a partir de la estimación de cada coeficiente (columna
Coeficiente) y la desviación tı́pica estimada de cada coeficiente estimado, es decir, la raı́z cuadrada
de los elementos de la diagonal principal de la estimación de la matriz de varianzas-covarianzas de
20
Figura 30: Contrastes de linealidad
la estimación de beta (colummna correspondiente a Desv. Tı́pica). Ası́, por ejemplo, para el segundo parámetro, 0’481571/0’0475691 = 10’12. Por tanto, también es posible tomar una decisión para
el contraste a partir de la región de rechazo, sin más que comparar este valor con el valor teórico
correspondiente de la t-Student.
¿Cómo se obtiene dicho valor teórico? Evidentemente hay que usar las tablas de la t-Student
que tienen recogidos dichos valores, si bien, en nuestro caso podemos recurrir también a Gretl para
obtener dicho valor. Seleccionando Tablas estadı́siticas del menú Herramientas nos aparece una nueva
ventana donde podemos calcular el valor teórico de distintas distribuciones (por ejemplo, normal,
t-Student, Chi-Cuadrado, F-Snedecor, Binomial, poisson), entonces seleccionando en este caso la tStudent tendremos que introducir los grados de libertad y la probabilidad que queda a la derecha (ver
figura 31).
En nuestro caso, los grados de libertad se obtienen a partir de n − k = 22 − 4 = 18, donde n
representa el número de observaciones que se disponen y k el número de variables independientes
presentes en el modelo (información que se obtiene a partir de la figura 18 sin mayores problemas).
Mientras que la probabilidad de la cola derecha corresponde a 0.025, ya que trabajamos a un 5 % de
significación y la t-Student es una distribución simétrica. Por tanto, el valor teórico de la t-Student con
18 grados de libertad que deja a la derecha una cola con probabilidad 0.025 que se obtiene es 2’10092
(figura 32). Luego como el valor experimental, 10’12, es mayor que el teórico se decide rechazar la
hipótesis nula, es decir, el parámetro es significativamente distinto de cero.
Finalmente, Gretl también permite plantear y resolver contrastes lineales sobre los parámetros de
las variables. Algunos ejemplos de restricciones lineales pueden ser:
b[1] - 2*b[2] + 3*b[0] = 0
b[2] - b[3] = 0
b[2] + 2*b[3] = 1
Ası́, para tomar una decisión sobre la hipótesis nula de que b[2] + 2*b[3] = 1, en la ventana donde
tenemos las estimaciones de los parámetros (figura 18), seleccionamos la opción Restricciones lineales
del menú Contrastes (figura 33). En la nueva ventana que emerge hay que especificar la restricción
21
Figura 31: Valores de las tablas estadı́sticas
Figura 32: Valor teórico de la t-Student con 18 grados de libertad que deja a la derecha una cola con
probabilidad 0.025
22
Figura 33: Restricciones lineales
anterior (figura 34) y sin más que pulsar en aceptar se realizará el contraste. Si se pulsa sobre el
botón de Ayuda, Gretl nos indica como introducir las restricciones lineales (por ejemplo, se pueden
introducir más de una de forma simultánea). Finalmente, obtendremos los resultados del contraste en
una nueva ventana (figura 35). Se nos proporciona el valor experimental de la F y el p-valor asociado,
luego al igual que antes, tenemos dos opciones para tomar una decisión en el contraste: mediante
la región de rechazo y mediante el p-valor. La primera opción se resuelve exactamente igual que en
el caso del ANOVA: buscando el valor teórico y comparándolo con el experimental (que veremos a
continuación), mientras que para la segunda opción sólo tenemos que comparar el p-valor con 0.05
(nivel de significación considerado). Puesto que en este caso p-valor = 0’489543 > 0.05 = nivel de
significación, no se rechaza la hipótesis nula de que los coeficientes cumplen la relación lineal planteada.
En tal caso habrá que tener en cuenta la nueva estimación de los coeficientes bajo la suposición de
que la restricción anterior es cierta (mı́nimos cuarados restringidos):
bt
C
=
0’086029
(0’158707)
+
0’474688 ·Rt
(0’0459383)
+
0’262656 ·Dt
(0’0229691)
+
0’249346 ·Ht
(0’0766041)
Evidentemente hay que tener en cuenta las mismas en el caso de que no se rechace la hipótesis
nula.
A modo de resumen, cuando se resuelva un contraste a partir del p-valor, hay que tener en cuenta
la siguiente regla que se deduce a partir de la definición del mismo:
si p-valor es mayor que 0.05 no se rechaza la hipótesis nula del contraste
siempre y cuando se trabaje al 5 % de significación (si es al 1 % el valor de comparación será 0.01).
3.4.
Análisis de la varianza: ANOVA
En el presente apartado estudiaremos el contraste de significación conjunta, es decir, aquel en el
que la hipótesis nula afirma que β1 = β2 = β3 = 0. En tal caso, tenemos que fijarnos en la cuarta fila
de los resultados que aparecen después de la tabla que contiene las estimaciones (ver figura 18). En
este caso se nos proporciona el valor experimental de la F-Snedecor, 55’62750, y su p-valor asociado,
23
Figura 34: Especificación de las restricciones lineales
Figura 35: Resultado del contraste de restricciones lineales sobre los parámetros
24
Figura 36: Valor teórico de la F de Snedecor con 3 y 18 grados de libertad que deja a la derecha una
cola con probabilidad 0.05
0’00000000265. Atendiendo al p-valor, puesto que es claramente menor que 0.05 se rechaza la hipótesis
nula de que los coeficientes son nulos de forma simultánea.
Al mismo tiempo también es posible plantear la región de rechazo en este caso. Ya tenemos el
valor experimental, luego sólo faltarı́a calcular el teórico. Para ello, en el mismo menú de antes (figura
36) hay que seleccionar los valores crı́ticos de F y especificar los grados de libertad del numerador
y del denominador (3 y 18, respectivamente) y la probabilidad en la cola derecha, 0.05 (puesto que
trabajamos a un 5 % de significación). Adviértase que los grados de libertad nos los proporciona el
programa cuando nos da el valor de la F experimental. Puesto que el valor experimental, 55’62750, es
claramente mayor que el teórico, 3’15991, se rechaza la hipótesis nula de que los coeficientes son nulos
de forma simultánea.
¿Se puede obtener el valorexperimental de la F a partir de la información mostrada en la salida
de la figura 18?
Teniendo en cuenta que SCT = n · V ar(Y ) donde Y es la variable dependiente, ya que en dicha
figura se tiene que la desviación tı́pica de la variable dependiente es 1’073702, es claro que SCT =
22·10 0737022 = 250 36239. Por otro lado se tiene que SCR = 20 357020, por lo que SCE = SCT −SCR =
250 36239 − 20 357020 = 230 00537. Entonces se tiene que:
Fexp =
SCE/(k − 1)
230 00537/3
70 668457
= 0
= 0
= 580 56216.
SCR/(n − k)
2 357020/18
0 1309456
Otra opción para obtener dicho valor es usar la expresión equivalente:
Fexp =
R2 /(k − 1)
00 902641/3
00 3008803
=
= 550 62758.
(1 − R2 )/(n − k) 00 097359/18
00 005408833
¿Por qué no salen iguales? Gretl, al igual que practicamente todos los paquetes estadı́sticos, trabaja
con la cuasivarianza muestral en lugar de con la varianza muestral, ya que el primero es un estimador
insesgado y el segundo no. Por tanto para calcular la SCT hay que multiplicar por n − 1 en lugar
de por n. Si se repiten las cuentas partiendo de SCT = 21 · 10 0737022 = 240 20956 llegaremos a que
Fexp = 550 6275.
Destacar que este contraste es de suma importancia ya que mide el poder explicativo global de
todas las variables, es decir, al rechazar la hipótesis nula rechazamos que la variabilidad observada en
25
Figura 37: Opción ANOVA
Figura 38: Tabla ANOVA
la variable dependiente sea explicable por el azar. ¿Y quién mide mide la variabilidad de la variable
independiente? Se está afirmando pues que el coeficiente de determinación o R cuadrado es significativo y, por tanto, admitimos que hay algún tipo de asociación entre las variables dependientes y las
independientes.
Además, mediante el menú Análisis de la ventana de la figura 18, seleccionando ANOVA (figura
37), obtenemos la conocida como tabla ANOVA (figura 38). A partir de dicha tabla es fácil obtener
el coeficiente de determinación (mediante su expresión en función de las sumas de cuadrados) y el
valor experimental anterior de la F.
3.5.
Intervalos de confianza
En este apartado calcularemos los distintos intervalos de confianza que se pueden hacer en el
modelo lineal. Ası́, seleccionando Intervalos de confianza para los coeficientes del menú Análisis de la
ventana de la estimación por MCO (figura 39) obtenemos automáticamente los intervalos de confianza,
al nivel de confianza del 95 %, para cada uno de los coeficientes de las variables del modelo (figura
40). Adviértase que también se nos proporciona el valor teórico de la distribución t-Student utilizado.
En dicho menú también es posible seleccionar Elipse de confianza... (ver figura 39) que nos permite
calcular la región de confianza conjunta para cualquier par de coeficientes de las variables del modelo.
Ası́ por ejemplo, en la figura 41 se tiene la ventana para indicar los coeficientes para los que se quiere
calcular dicha región de confianza (donde también se puede modificar el nivel de confianza al que
26
Figura 39: Menú de intervalos de confianza para los coeficientes
Figura 40: Intervalos de confianza para los coeficientes
27
Figura 41: Selección del elipse de confianza para los coeficientes de Renta e Hijos
Figura 42: Elipse de confianza para los coeficientes de Renta e Hijos
calcular la elipse) y en la figura 42 los resultados obtenidos. Vemos como el centro de la elipse es
(0’482, 0’231) y se puede comprobar gráficamente como, por ejemplo, el punto (0’3, 0’1) no pertenece
a dicha región o como (0’5, 0’1) si lo hace.
Por otro lado, no se puede obtener el intervalo de confianza para la varianza de la perturbación
aleatoria de forma directa, si bien, con la información de la figura 18 se puede calcular éste sin
mayores problemas, ya que nos proporciona la suma de los cuadrados de los residuos, 2’357020, que es
la cantidad necesaria para calcular dicho intervalo. Para completar la información necesaria sólo faltan
los puntos (que se pueden obtener como es sabido mediante Gretl) de una chi-cuadrado con 18 grados
de libertad (n − k donde n es el número de observaciones y k el número de variables dependientes del
modelo) que dejan a su izquierda una probabilidad de 0.025 y 0.975 (estamos calculando un intervalo
al 5 % de nivel de confianza). Dichos puntos son, respectivamente, 8’23075 y 31’5264 (ver figura 43).
Por tanto, el intervalo de confianza al nivel de confianza del 5 % para la varianza de la perturbación
aleatoria es (2’357020/31’5264, 2’357020/8’23075) = (0’07476337, 0’2863676).
Pero es que además, la figura 18 también proporciona la información necesaria para calcular los
intervalos de confianza para cada uno de los coeficientes de las variables sin más que tener en cuenta
28
Figura 43: Puntos de una chi-cuadrado con 18 grados de libertad que dejan a su izquierda una probabilidad de 0.025 y 0.975
29
Figura 44: Valor teórico de la distribución t-Student con 18 grados de libertad que deja a su izquierda
una probabilidad de 0.975
que éstos se construyen a partir de (coeficiente - valor t teórico * Desv. Tı́pica, coeficiente - valor t
teórico * Desv. Tı́pica). Es decir:
para constante: (-0’00832655 - 2’10092 * 0’209189, -0’00832655 + 2’10092 * 0’209189) = (-0’447817,
0’431164).
para R: (0’481571 - 2’10092 * 0’0475691, 0’481571 + 2’10092 * 0’0475691) = (0’381632, 0’581510).
para D: (0’388973 - 2’10092 * 0’180558, 0’388973 + 2’10092 * 0’180558) = (0’00963404, 0’768311).
para H: (0’230557 - 2’10092 * 0’0820784, 0’230557 + 2’10092 * 0’0820784) = (0’0581163, 0’402997).
Donde el valor teórico de la distribución t-Student se obtiene al igual que antes (para la chicuadrado) a partir del menú Herramientas seleccionando Tablas estadı́sticas (ver figura 44).
Finalmente, destacar que mediante los intervalos de confianza calculados se puede dar respuesta
a los contrastes de hipótesis con hipótesis nula βi = bi o σ 2 = σ0 , sin más que comprobar si bi o σ0
pertenecen al correspondiente intervalo de confianza. Es decir, si pertenecen al intervalo de confianza
no se rechaza la hipótesis nula y si no lo hacen se rechazará la hipótesis nula. Ası́ por ejemplo, para los
contrastes con hipótesis nula β2 = 0, β3 = 00 3, β0 = 2 o σ 2 = 1 se rechazarı́a, no rechazarı́a, rechazarı́a
y rechazarı́a, respectivamente, dicha hipótesis nula al nivel de significación del 5 % (ya que el 0, el 2 y
el 1 no pertenecen a los correspondientes intervalos de confianza, mientras que el 0’3 sı́).
3.6.
Conclusión
Por todo lo expuesto hasta ahora se tiene que el modelo estimado es válido y que las variables de
renta familiar, deuda y número de hijos influyen positivamente en el consumo de las familias. Es decir,
a mayor renta, deuda y número de hijos mayor consumo familiar. Además, al ser la variable correspondiente a la deuda una variable ficticia, habremos estimado la diferencia esperada en el consumo
familiar entre familias con deuda y sin deuda con el mismo nivel de renta y número de hijos. En este
caso se obtiene que dicha estimación es positiva, por lo que aquellas familias que tienen algún tipo de
deuda consumen más que aquellas que no la tienen.
Adviértase que las conclusiones anteriores se basan en los supuestos básicos realizados sobre la
perturbación aleatoria, por tanto, se debe verificar que se cumplen dichas hipótesis.
30
Econometrı́a y el entorno de programación R: función
MUM
Román Salmerón Gómez
Para afrontar un primer análisis de un modelo econométrico usando el entorno de programación R, los alumnos contarán con la ayuda de la siguiente información sobre la función
MenuMUM. Destacar que se trata de una función creada por el profesor en la que se van
calculando paso a paso cada uno de los conceptos explicados en clase.
Pasos a seguir:
Descarga e instalación de R.
Enlace: http://www.ugr.es/local/romansg/material/softlibre/r1 es.html).
¡¡Ojo!! Asegurarse que se asocian los archivos .RData con R.
Descargar la función MenuMUM: MenuMUM.RData.
Enlace: http://www.ugr.es/local/romansg/material/WebEco/MenuMUM.RData).
Ejecutar el archivo anterior. Si has instalado bien el programa apararecerá la siguiente
pantalla donde podemos observar que nos avisan de que se ha cargado un espacio de
trabajo ya creado:
Y finalmente, sin más que escribir MenuMUM(), podremos empezar a trabajar!!!!.
1
Ejemplo
Como ejemplo analicemos un modelo en el que el consumo familiar mensual (en miles de
euros) es explicado a partir de la renta mensual familiar (también medida en miles de euros).
Los datos de los que se disponen son los siguientes para el consumo:
1,32,512,71,81,121,21,621,51,731,44421,52,35,11,63,2,
mientras que para la renta:
1,53,22,24,11,72,32,81,82,532,72,65286,6532,772,54.
Al ejecutar MenuMUM() introduciremos los datos tal y como aparece en la siguiente
imagen:
Adviértase que el programa considera que el modelo tiene término independiente (por lo
que no hay que incluirlo) y que, en este caso, no se ha querido realizar predicción ni contraste
alguno sobre combinaciones lineales de los parámetros.
Al finalizar, se mostrarán en pantalla la representación gráfica de los valores observados
para el consumo junto a su estimación y la gráfica de los residuos. Además, también aparecerán
los siguientes resultados:
$‘X^{t}X‘
[,1] [,2]
[1,] 22.0 76.2
[2,] 76.2 331.8
$‘X^{t}Y‘
[,1]
[1,] 48.50
[2,] 204.45
$‘Estimación de los coeficientes de las variables‘
2
[,1]
[1,] 0.3437073
[2,] 0.5372499
$‘Estimación de la varianza de la perturbación aleatoria‘
[,1]
[1,] 0.2309731
$‘Estimación de la matriz de varianzas-covarianzas de beta estimada‘
[,1]
[,2]
[1,] 0.05132529 -0.011787183
[2,] -0.01178718 0.003403124
$‘Estimación de la variable dependiente‘
[,1]
[1,] 1.149582
[2,] 2.062907
[3,] 1.525657
[4,] 2.546432
[5,] 1.257032
[6,] 1.579382
[7,] 1.848007
[8,] 1.310757
[9,] 1.686832
[10,] 1.955457
[11,] 1.794282
[12,] 1.740557
[13,] 3.029957
[14,] 1.418207
[15,] 4.641706
[16,] 3.889556
[17,] 3.029957
[18,] 1.955457
[19,] 1.794282
[20,] 4.104456
[21,] 1.686832
[22,] 2.492707
$‘Residuos del modelo‘
[,1]
[1,] 0.15041791
[2,] 0.43709314
[3,] -0.52565700
[4,] 0.15356827
[5,] 0.54296793
[6,] -0.47938198
[7,] 0.15199309
[8,] -0.11075705
[9,] -0.08683195
[10,] 0.04454312
3
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
[21,]
[22,]
-0.29428193
-0.04055694
-0.02995660
-0.01820702
-0.64170618
0.11044362
-1.02995660
-0.45545688
0.50571807
0.99554368
-0.08683195
0.70729326
$‘Sumas de cuadrados: SCT, SCE, SCR‘
[1] 24.209545 19.590084 4.619462
$‘Coeficiente de determinación‘
[,1]
[1,] 0.8091884
$‘Coeficiente de determinación corregido‘
[,1]
[1,] 0.7996478
$‘Selección de modelos‘
$‘Selección de modelos‘$‘Criterio de información de Akaike‘
[,1]
[1,] 32.09648
$‘Selección de modelos‘$‘Criterio de información bayesiano de Schwarz‘
[,1]
[1,] 34.27857
$‘Selección de modelos‘$‘Criterio de información de Hannan-Qinn‘
[,1]
[1,] 32.61052
$‘Matriz de varianzas-covarianzas de las variables dependientes‘
[,1]
[1,] 3.231948
$‘Matriz de correlaciones de las variables dependientes‘
[,1]
[1,]
1
$‘Contrastes de significación individual‘
$‘Contrastes de significación individual‘$‘Valores experimentales de cada contraste‘
[,1]
[,2]
[1,] 1.517131 9.20953
4
$‘Contrastes de significación individual‘$‘Valor teórico de la t-Student‘
[1] 2.085963
$‘Contrastes de significación individual‘$‘Decisión de cada contraste‘
[,1]
[,2]
[1,] "La variable 1 no es significativa" "La variable 2 es significativa"
$‘Contraste de significación conjunta‘
$‘Contraste de significación conjunta‘$‘Tabla ANOVA‘
[,1]
[,2]
[,3]
[1,] "Fuentes de variación" "Sumas de cuadrados" "Grados de libertad"
[2,] "Estimada"
"19.5900835080695"
"1"
[3,] "Residual"
"4.61946194647594"
"20"
[4,] "Total"
"24.2095454545454"
""
[,4]
[1,] "Medias"
[2,] "19.5900835080695"
[3,] "0.230973097323797"
[4,] "84.8154340702569"
$‘Contraste de significación conjunta‘$‘Contraste ANOVA‘
[1] "Como la F experimental, 84.8154340702569 , es mayor que la teórica,
4.35124350332929 , se rechaza la hipótesis nula, es decir, existe
al menos un coeficiente no nulo"
$‘Significación del coeficiente de determinación‘
[1] "Puesto que el coeficiente de determinación, 0.809188406484162 ,es mayor
que la cota inferior de significación, 0.178686706604301 ,es significativo"
$‘Intervalos individuales para cada coeficiente‘
[,1]
[,2]
[1,] -0.1288695 0.8162841
[2,] 0.4155625 0.6589372
$‘Intervalo de confianza para la varianza de la perturbación aleatoria‘
[,1]
[,2]
[1,] 0.1351921 0.4816567
Notas finales
R es un conjunto integrado de programas para manipulación de datos, cálculo y gráficos,
que puede definirse como una nueva implementación del lenguaje S desarrollado en AT&T (por
lo que muchos de los libros y manuales sobre S son útiles para R). El entorno de programación
R está disponible como software libre con licencia GNU de la Fundación de Software Libre.
Sus principales caracterı́sticas son:
Almacenamiento y manipulación efectiva de datos.
5
Operadores para el cálculo sobre variables indexadas, en particular, matrices.
Una amplia, coherente e integrada colección de herramientas para análisis de datos.
Posibilidades gráficas para análisis de datos, que funcionan directamente sobre pantalla
o impresora.
Un lenguaje de programación bien desarrollado, simple y efectivo, que incluye condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas.
Más información en su web oficial: http://www.r-project.org/.
Evidentemente se trata de un entorno de programación muy contrastado que ya tiene implementado de manera eficiente el análisis de un modelo econométrico (mediante la función
lm). ¿Por qué no usar entonces la función que nos ofrece R para dicho análisis? Muy sencillo.
Puesto que el fin final de estas lı́neas es puramente docente y no investigador se ha optado por
crear una función donde los alumnos puedan identificar aquellas expresiones que se estudian
a lo largo de la asignatura. Sin ninguna duda, la función lm del entorno R para el ajuste de
modelos lineales es una herramienta más potente que la aquı́ expuesta.
Puedes encontrar información sobre esta función fácilmente escribiendo su nombre en cualquier buscador de internet (por ejemplo, Google).
En el siguiente enlace tienes un ejemplo de su uso:
http://www.ugr.es/local/romansg/material/softlibre/r2 es.html
6
Regresión lineal múltiple con Stata
Román Salmerón Gómez
En el presente documento se aborda brevemente cómo estimar y validar un modelo lineal
de regresión múltiple con Stata. Más concretamente, se analizará el modelo
Ct = β1 + β2 Rt + β3 Dt + β4 Ht + ut ,
donde los datos de las variables consumo familiar, C, renta familiar, R, deuda, D, y número de
hijos, H, se encuentran en la tabla 1.
Cuadro 1: Observaciones para 22 familias
Familia Consumo Renta Deuda Hijos
1
1’3
1’5
1
1
2
2’5
3’2
1
2
3
1
2’2
0
0
4
2’7
4’1
1
2
5
1’8
1’7
1
1
6
1’1
2’3
0
0
7
2
2’8
1
3
8
1’2
1’8
1
0
9
1’6
2’5
1
1
10
2
3
0
3
11
1’5
2’7
0
0
12
1’7
2’6
1
0
13
3
5
0
1
14
1’4
2
1
0
15
4
8
1
2
16
4
6’6
1
1
17
2
5
0
0
18
1’5
3
1
0
19
2’3
2’7
1
1
20
5’1
7
1
3
21
1’6
2’5
1
2
22
3’2
4
1
2
Los datos en Stata se introducen directamente pulsando el botón correspondiente a Data
Editor (edit) o importándolos, por ejemplo desde Excel, sin más que copiarlos en la hoja de
cálculo y pegándolos en la de Stata (si el nombre de las variables está escrito en la primera
fila de la hoja de cálculo aparecerá un mensaje preguntando si dicha fila ha de tratarla como
los nombres de las variables o como datos).
Una vez introducimos los datos, en primer lugar vamos a calcular los principales estadı́sticos descriptivos de las variables (excepto de la variable D por ser dicotómica). Usaremos los
comandos su y corr de Stata:
1
. su consumo renta deuda hijos, detail
Consumo
------------------------------------------------------------Percentiles
Smallest
1%
1
1
5%
1.1
1.1
10%
1.2
1.2
Obs
22
25%
1.5
1.3
Sum of Wgt.
22
50%
75%
90%
95%
99%
1.9
2.7
4
4
5.1
Largest
3.2
4
4
5.1
Mean
Std. Dev.
2.204545
1.073702
Variance
Skewness
Kurtosis
1.152835
1.211082
3.718969
Renta
------------------------------------------------------------Percentiles
Smallest
1%
1.5
1.5
5%
1.7
1.7
10%
1.8
1.8
Obs
22
25%
2.3
2
Sum of Wgt.
22
50%
75%
90%
95%
99%
2.75
4.1
6.6
7
8
Largest
5
6.6
7
8
Mean
Std. Dev.
3.463636
1.797762
Variance
Skewness
Kurtosis
3.231948
1.240405
3.49813
Hijos
------------------------------------------------------------Percentiles
Smallest
1%
0
0
5%
0
0
10%
0
0
Obs
22
25%
0
0
Sum of Wgt.
22
50%
75%
90%
95%
99%
1
2
3
3
3
Largest
2
3
3
3
Mean
Std. Dev.
1.136364
1.082126
Variance
Skewness
Kurtosis
1.170996
.4186488
1.903154
. corr consumo renta hijos
2
| consumo
renta
hijos
-------------+--------------------------consumo |
1.0000
renta |
0.8995
1.0000
hijos |
0.5814
0.3772
1.0000
A partir de las correlaciones podemos observar, por ejemplo, una alta correlación positiva
entre el consumo y la renta.
Para estimar y validar el modelo anterior usaremos el comando reg de Stata:
. reg consumo renta deuda hijos
Source |
SS
df
MS
-------------+-----------------------------Model | 21.8525248
3 7.28417492
Residual | 2.35702018
18 .130945566
-------------+-----------------------------Total | 24.2095449
21 1.15283547
Number of obs
F( 3,
18)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
22
55.63
0.0000
0.9026
0.8864
.36186
-----------------------------------------------------------------------------consumo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------renta |
.4815709
.0475691
10.12
0.000
.3816319
.5815099
deuda |
.3889727
.1805582
2.15
0.045
.0096341
.7683114
hijos |
.2305566
.0820784
2.81
0.012
.0581163
.402997
_cons | -.0083266
.2091894
-0.04
0.969
-.4478172
.4311641
-----------------------------------------------------------------------------Dicho comando da como salida fundamentalmente la tabla ANOVA (contraste de significación conjunta) junto a su p-valor asociado, el R2 (y su versión corregida) y las estimaciones
de los coeficientes junto a sus p-valores asociados (contrastes de significación individual) e
intervalos de confianza.
Podemos observar que todas las variables son significativas (p-valor inferior a 0.05) excepto
el término independiente, es decir, la constante no es significativamente distinta de cero. Ahora
bien, ¿tiene sentido que el modelo tenga término independiente? Este término se interpreta
como el consumo de una familia sin renta alguna, sin deudas y sin hijos. ¿Una familia sin
renta consumirı́a? Parece por tanto que se puede prescindir del término independiente desde
un principio.
Estimamos1 entonces el nuevo modelo que se obtiene sin más que introducir noconstant al
final de la orden:
. reg consumo renta deuda hijos, noconstant
1
Hay que tener mucho cuidado cuando se trabaja con un modelo sin término independiente ya que, por
ejemplo, el coeficiente de determinación ya no tiene por qué estar comprendido entre 0 y 1.
3
Source |
SS
df
MS
-------------+-----------------------------Model | 128.772772
3 42.9242573
Residual | 2.35722765
19 .124064613
-------------+-----------------------------Total | 131.129999
22 5.96045452
Number of obs
F( 3,
19)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
22
345.98
0.0000
0.9820
0.9792
.35223
-----------------------------------------------------------------------------consumo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------renta |
.4803109
.0345606
13.90
0.000
.4079747
.5526471
deuda |
.3849219
.145174
2.65
0.016
.0810693
.6887745
hijos |
.2306591
.0798535
2.89
0.009
.0635237
.3977944
-----------------------------------------------------------------------------Observamos que el modelo es conjuntamente válido (se rechaza hipótesis nula en el contraste
de significación conjunta), tanto el coeficiente de determinación como el ajustado son muy
altos (se explica alrededor de un 98 % de la variabilidad del consumo) y todas las variables
independientes son significativas (se rechaza hipótesis nula en los contrastes de significación
individual) con signo positivo, es decir, cuando aumentan también lo hace el consumo.
Los valores estimados se pueden obtener con el comando predict:
. predict est
. l est
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
+----------+
|
est |
|----------|
| 1.336047 |
| 2.383235 |
| 1.056684 |
| 2.815515 |
| 1.432109 |
|----------|
| 1.104715 |
| 2.42177 |
| 1.249481 |
| 1.816358 |
| 2.13291 |
|----------|
| 1.296839 |
| 1.63373 |
| 2.632213 |
| 1.345544 |
| 4.688727 |
|----------|
| 3.785633 |
| 2.401554 |
| 1.825855 |
| 1.91242 |
4
20. | 4.439075 |
|----------|
21. | 2.047017 |
22. | 2.767483 |
+----------+
. su consumo est
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------consumo |
22
2.204545
1.073702
1
5.1
est |
22
2.205678
1.017523
1.056684
4.688727
. gener familia = [_n]
. graph twoway line consumo est familia
Obsérvese que se ha calculado también las medias, desviaciones tı́picas, mı́nimo y máximo
del consumo y su estimación y (finalmente) se han representado de forma conjunta (previante
se ha creado una variable correspondiente al número de familias).
También se podrı́an obtener los residuos del modelo, cuestión importante a la hora de
verificar que se cumplen las hipótesis básicas del modelo lineal general (como es el caso de la
normalidad):
. predict resid, residuals
. l resid
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
+-----------+
|
resid |
|-----------|
| -.0360473 |
| .1167651 |
| -.0566839 |
| -.1155145 |
| .3678904 |
|-----------|
| -.004715 |
| -.4217695 |
| -.0494814 |
| -.2163582 |
| -.1329098 |
|-----------|
| .2031606 |
| .0662699 |
| .3677866 |
| .0544563 |
| -.688727 |
|-----------|
| .2143673 |
| -.4015544 |
5
18. | -.3258545 |
19. | .3875796 |
20. | .6609247 |
|-----------|
21. | -.4470172 |
22. | .4325165 |
+-----------+
.
. su resid
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------resid |
22
-.0011325
.3350337
-.688727
.6609247
.
. swilk resid
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Prob>z
-------------+-------------------------------------------------resid |
22
0.98537
0.371
-2.012
0.97790
Finalmente destacar que añadiendo vce(robust) al final del comando reg obtenemos estimadores robustos a los problemas de heteroscedasticidad y autorrelación, es decir, si existen dichos
problemas los corrige directamente:
. reg consumo renta deuda hijos, noconstant vce(robust)
Linear regression
Number of obs =
F( 3,
19) =
Prob > F
=
R-squared
=
Root MSE
=
22
223.71
0.0000
0.9820
.35223
-----------------------------------------------------------------------------|
Robust
consumo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------renta |
.4803109
.0426546
11.26
0.000
.3910338
.569588
deuda |
.3849219
.119373
3.22
0.004
.1350714
.6347725
hijos |
.2306591
.0735052
3.14
0.005
.0768109
.3845073
-----------------------------------------------------------------------------Por tanto, una posible lı́nea de comandos a ejecutar para estimar de forma óptima un modelo
de regresión lineal serı́a:
reg consumo renta deuda hijos, noconstant vce(robust)
predict resid, residuals
swilk resid
6
Apéndice
Realizar inferencia es también muy fácil en Stata usando el comando ttest ya sea para
comparar la media de una variable con un número:
. ttest consumo = 2
One-sample t test
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------consumo |
22
2.204545
.228914
1.073702
1.728493
2.680598
-----------------------------------------------------------------------------mean = mean(consumo)
t =
0.8935
Ho: mean = 2
degrees of freedom =
21
Ha: mean < 2
Pr(T < t) = 0.8092
Ha: mean != 2
Pr(|T| > |t|) = 0.3817
Ha: mean > 2
Pr(T > t) = 0.1908
O para comparar la media de dos variables (ya sea suponiendo varianzas iguales o distintas):
. ttest consumo = renta, unpaired
Two-sample t test with equal variances
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------consumo |
22
2.204545
.228914
1.073702
1.728493
2.680598
renta |
22
3.463636
.3832841
1.797762
2.666553
4.260719
---------+-------------------------------------------------------------------combined |
44
2.834091
.2405935
1.595917
2.348888
3.319294
---------+-------------------------------------------------------------------diff |
-1.259091
.4464396
-2.160043
-.3581393
-----------------------------------------------------------------------------diff = mean(consumo) - mean(renta)
t = -2.8203
Ho: diff = 0
degrees of freedom =
42
Ha: diff < 0
Pr(T < t) = 0.0036
Ha: diff != 0
Pr(|T| > |t|) = 0.0073
Ha: diff > 0
Pr(T > t) = 0.9964
. ttest consumo = renta, unpaired unequal
Two-sample t test with unequal variances
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------consumo |
22
2.204545
.228914
1.073702
1.728493
2.680598
renta |
22
3.463636
.3832841
1.797762
2.666553
4.260719
---------+-------------------------------------------------------------------7
combined |
44
2.834091
.2405935
1.595917
2.348888
3.319294
---------+-------------------------------------------------------------------diff |
-1.259091
.4464396
-2.166082
-.3520993
-----------------------------------------------------------------------------diff = mean(consumo) - mean(renta)
t = -2.8203
Ho: diff = 0
Satterthwaite’s degrees of freedom = 34.2904
Ha: diff < 0
Pr(T < t) = 0.0040
Ha: diff != 0
Pr(|T| > |t|) = 0.0079
Ha: diff > 0
Pr(T > t) = 0.9960
Para contrastar si las varianzas son iguales se tiene la orden sdtest:
. sdtest consumo=renta
Variance ratio test
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------consumo |
22
2.204545
.228914
1.073702
1.728493
2.680598
renta |
22
3.463636
.3832841
1.797762
2.666553
4.260719
---------+-------------------------------------------------------------------combined |
44
2.834091
.2405935
1.595917
2.348888
3.319294
-----------------------------------------------------------------------------ratio = sd(consumo) / sd(renta)
f =
0.3567
Ho: ratio = 1
degrees of freedom =
21, 21
Ha: ratio < 1
Pr(F < f) = 0.0111
Ha: ratio != 1
2*Pr(F < f) = 0.0223
Ha: ratio > 1
Pr(F > f) = 0.9889
Adviértase que para poder aplicar estas herramientas se necesitan muestras procedentes de
una normal:
. swilk consumo renta
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Prob>z
-------------+-------------------------------------------------consumo |
22
0.87679
3.121
2.308
0.01050
renta |
22
0.84221
3.997
2.810
0.00248
. by deuda, sort: swilk consumo renta
-> deuda = 0
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Prob>z
-------------+-------------------------------------------------consumo |
6
0.89617
1.286
0.380
0.35180
8
renta |
6
0.89486
1.302
0.400
0.34443
-> deuda = 1
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Prob>z
-------------+-------------------------------------------------consumo |
16
0.86521
2.731
1.996
0.02299
renta |
16
0.81655
3.717
2.608
0.00456
9
Descargar