TEMA 4: PRINCIPALES CARACTERÍSTICAS EN LA ESTIMACIÓN DE UN MODELO DE REGRESIÓN LINEAL MÚLTIPLE I. INTRODUCCIÓN 1. Conceptos 1. Econometría . Distintas definiciones de econometría: a) La ciencia social en la que se aplican los medios de la teoría económica, las matemáticas y la inferencia estadística al análisis del fenómeno económico. Arthur Goldberger b) El papel esencial de la econometría es la estimación y verificación de los modelos económicos dando cuerpo empírico a las estructuras teóricas. Johnston, J. c) La econometría se ocupa del estudio de estructuras que permitan analizar características o propiedad de una variable económica utilizando como causas explicativas otras variables económicas. Novales, A. d) Toda aplicación de las matemáticas y/o métodos estadísticos para el estudio de los fenómenos económicos. Malinvaud, E. e) El arte y la ciencia de usar los métodos estadísticos para la medición de las relaciones económicas. Chow, G.C De todo lo anterior se deduce el siguiente esquema explicativo de la ciencia econométrica: 1º. Análisis de fenómenos económicos. 2º. Análisis de una variable económica utilizando como causas explicativas otras variables económicas 3º. Necesidad de información estadística, datos de las variables económicas 4º. Cuantificación de las relaciones económicas La econometría surge de la agregación de tres ciencias: - La teoría económica: La economía analiza los sistemas económicos. Entendemos por sistema un conjunto de elementos vinculados entre sí por relaciones. Ejemplo: La empresa Para analizar el funcionamiento de una empresa debemos analizar el sistema en su conjunto, pero éste resulta demasiado complejo para entenderlo en su totalidad, la realidad se simplifica a través de modelos. Un modelo es una representación simplificada de un sistema. Así, un modelo que incluya las variables referidas a una empresa me facilitará la comprensión de las relaciones existentes - Las matemáticas: permiten expresar formalmente las relaciones extraídas de la teoría económica a través de una expresión matemática (lineal, exponencial, etc) - La estadística: a partir de la información estadística y de las técnicas estadísticas podré calcular el valor de las incógnitas o parámetros que me cuantifican la relación existente entre variables. 2. Modelo económico vs Modelo Econométrico El modelo económico es un modelo genérico que se aplica con validez general. Pero en las ciencias sociales (como la economía) un modelo resulta simplificado y excesivamente general como para ser aplicado a cualquier sistema. Lo que se cumplió en un determinado momento del tiempo y un espacio geográfico concreto puede no cumplirse bajo otras circunstancias. Por ello aparecen los modelos econométricos como modelos más específicos aplicados a sistemas reales concretos, aunque basados en modelos económicos. Estos modelos tendrán validez únicamente para el periodo temporal y sistema de referencia. Así, basándonos en la teoría económica sabemos que el PIB = CP + GP + I + (X – M) Esta expresión es una identidad contable en la que el PIB se obtiene como suma de sus componentes, pero no se analizan las causas que realmente generan alteraciones en los niveles de producción de un país. Si queremos analizar las causas de crecimiento o decrecimiento de la producción interna de un país, podríamos establecer las siguientes relaciones: PIB = f (renta (+), tipos de interés (-), renta mundial (+), impuestos (+ / -)) La concreción de este modelo económico me llevaría a la formulación de un modelo econométrico de este tipo: PIB ESP (80-00) = f (renta neta disponible (80-00), tipo interbancario (80-00), renta ue (80-00), recaudación impositiva(80-00)) Pero además necesito expresar el modelo a través de una forma funcional. Si supongo que las variables están relacionadas linealmente, la expresión de mi modelo econométrico quedaría: PIB ESP (80-00) = a + b renta neta disponible (80-00) + c tipo interbancario (80-00)+ e renta UE (80-00) + d recaudación impositiva(80-00) + componente residual Las características de los modelos econométricos frente a los económicos pueden resumirse en: - Especificación estadística más precisa a la hora de definir las variables. El modelo econométrico exige una especificación muy precisa de las variables que lo componen al estar referido a un espacio temporal y geográfico específico. Así, mientras que en un modelo económico únicamente se especifica que el consumo depende de la renta, en un modelo econométrico habla que definir de manera detallada las variables que se van a utilizar para medir esa relación: consumo privado en pesetas constantes desde el año 1980 al 2000 y renta bruta disponible en pesetas constantes desde el año 1980 al 2000. - Forma funcional definida. En econometría únicamente se pueden realizar modelos lineales o linealizables (que son aquellos que están expresados en logaritmos) - Inclusión de dinamicidad. La dinámica de los hechos reales obliga a que en la totalidad de los modelos econométricos se considere explícitamente el tiempo frente a los modelos económicos en que no se explicita el tiempo. La inclusión del fenómeno temporal en los modelos econométricos se da tanto en modelos temporales como transversales al estar referidos ambos a un momento temporal concreto. - No son relaciones exactas, frente a los modelos económicos que suelen plantearse como modelos deterministas o definidos por relaciones exactas. Estos es así porque en los modelos econométricos siempre existe un componente residual en el que están incluidos todos aquellos factores que influyen en la variable objeto de estudio pero de manera residual. Este componente residual es un factor aleatorio que impide que el modelo se exprese como una relación exacta de las variables incluidas. - Inclusión de variables distintas. Las variables relevantes en un modelo econométrico no suelen coincidir plenamente con las del modelo económico debido, fundamentalmente a su vocación a la concreción que le obliga a incorporar en la especificación variables específicas del momento temporal y geográfico para el cual estoy elaborando el modelo, pero no con validez general. En general la gran diferencia es la vocación de generalidad del modelo económico frente al intento de concreción a un sistema más real del modelo econométrico. II. CONCEPTO E HIPÓTESIS BÁSICAS 1. Concepto de Análisis de Regresión La REGRESIÓN de Y sobre X y será una función que para cada valor de X nos ofrece el valor esperado de la Y. NO necesariamente lineal. El análisis de regresión pretende así la estimación y/o predicción de la media (de la población) de la variable dependiente (Y), con base en los valores conocidos de las variables explicativas (Xs). La regresión lineal múltiple se basa por tanto en un modelo causal cuyo objetivo es la predicción/estimación de los valores que tomará la variable independiente Y para observaciones no contenidas en la muestra. Modelos de Regresión lineal simple vs Regresión lineal múltiple. 2. Hipótesis Básicas del Modelo Son supuestos simplificadores sobre el modelo y sus elementos. No tienen por qué verificarse en un modelo concreto, pero se supondrán ciertas mientras no haya evidencias en su contra. Son MUY IMPORTANTES: la idoneidad y validez de muchos resultados, propiedades y métodos econométricos descansa en su cumplimiento. Son los cimientos del modelo. Hay que tener cuidado de no confundir hipótesis básicas con propiedades, resultados ni axiomas. Existen tres tipos de hipótesis: 1. Hipótesis sobre las perturbaciones aleatorias. 2. Hipótesis sobre las variables explicativas. 3. Hipótesis sobre la especificación del modelo. 1. Hipótesis sobre las perturbaciones aleatorias - Concepto: Se define perturbación aleatoria como la diferencia entre el valor real/observado de la variable dependiente (Y) y su valor esperado/promedio de acuerdo a la regresión lineal. Así: ui = Yi – E [Yi/Xj]. Cada observación del modelo tiene una variable de perturbación aleatoria diferente, que consideradas conjuntamente todas ellas forman el vector u de perturbaciones aleatorias. Dada su condición de variables aleatorias, es necesario realizar unas suposiciones o hipótesis sobre su comportamiento en probabilidad. - Hipótesis: Hay 3 hipótesis básicas sobre las perturbaciones aleatorias: 1. HB I Media Nula: . - Concepto: Todas las perturbaciones aleatorias tienen media nula. En términos matriciales, el vector u de perturbaciones aleatorias tiene como vector de medias un vector de ceros. - Requisito: HB I requiere que la especificación del modelo contenga un término independiente (β1). 2. HBII Homocedasticidad: - Concepto: La varianza de las perturbaciones aleatorias es constante. - Cumplimiento: Esta hipótesis no siempre se cumple en aplicaciones reales, sobre todo cuando se trabaja con datos de corte transversal, dando lugar a la heteroscedasticidad. 3. HB III Ausencia de autocorrelación: - Concepto: No existe relación lineal entre perturbaciones aleatorias de distintas observaciones , es decir, están incorrelacionadas. - Cumplimiento: Es frecuente que NO se cumpla con datos en forma de SERIE TEMPORAL, especialmente en variables que presentan ciclos o tendencias temporales no recogidas en el modelo (x.ej: series temporales económicas). 2. Hipótesis sobre las variables explicativas 1. HB IV: Incorrelación entre las X y las U: - Concepto: Las variables explicativas y las perturbaciones aleatorias están incorrelacionadas. - Importancia: Esta hipótesis es importante para la estimación de los parámetros: de su cumplimiento dependen la insesgadez y consistencia de las estimaciones. 2. HBV Ausencia de multicolinealidad perfecta: Hipótesis de rango pleno. - Concepto: Ninguna variable explicativa puede ser Combinación lineal perfecta de otras: No puede existir una relación lineal perfecta entre las columnas de la matriz X. Si existe alta correlación sin que ésta llegue a ser perfecta nos encontramos con el problema de la multicolinealidad imperfecta grave. - Importancia: La ausencia de multicolinealidad perfecta es necesaria para poder estimar los parámetros según el método de Mínimos Cuadrados Ordinarios (MCO). 3. HB VI: Hipótesis necesaria para garantizar la consistencia de los estimadores de los parámetros. 3. Hipótesis básicas del modelo ( sobre la especificación del modelo) 1. Linealidad en los parámetros: - Concepto: Se dice que una función es lineal en el parámetro bi si el parámetro 1) Está elevado exclusivamente a una potencia de 1 2) No está multiplicado ni dividido por ningún otro parámetro. - Importancia: Es una hipótesis necesaria para la estimación por MCO. Por tanto, si el modelo especificado no respeta la linealidad en los parámetros habrá que transformarlo. Ej: Yt = eβ1 + Ptβ2+ Rtβ3 + eut tomar ln: LnYt = β1 + β2lnPt + β3lnRt + ut 2. Sin errores de medida/observación: - Concepto: o Observación: ausencia de errores en la estructura del modelo: todas las variables explicativas relevantes incluidas. o Medición: no errores de medición. 3. Estabilidad estructural: Estimadores Parámetros (bj) constantes - Concepto: Estimadores de los parámetros (bj) constantes para todas las observaciones de una muestra. La relación entre las X y la Y es estable para un determinado contexto espacial y temporal. 4. Datos temporales estacionarios y cointegrados - Concepto: a. Estacionariedad: media y varianza constante; incorrelacionados (covarianza nula). b. Cointegrados: relación estable a largo plazo - Importancia: sólo así tiene sentido la regresión lineal. - Incumplimiento: regresión espúrea. III. ELEMENTOS DE UN MODELO DE REGRESIÓN LINEAL MÚLTIPLE YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui 1. Variables: el modelo de regresión lineal múltiple está compuesto por una variable dependiente expresada como función lineal de una o más variables independientes. a. Variable a explicar (1) : Dependiente/Endógena/Regresada: Y b. Variables explicativas (1o más):Independientes/Exógena/ Regresoras: Xs c. Perturbación aleatoria: ui Variable aleatoria no observable, que puede tomar valores positivos o negativos, y que reocoge/expresa todos los factores que afectan a Y pero que no están explícitamente recogidos en el modelo por razones de desconocimento, falta información, coste, etc. Por tanto, ui implica el reconocimiento de que “Y” no puede ser explicada solamente con la(s) variable(s) incluidas en el modelo. 2. Parámetros (βj): a. Poblacionales: i. Concepto/Interpretación: El parámetro βj refleja el cambio en Y ante variaciones unitarias de la variable explicativa Xj. ii. Naturaleza: Son por definición valores constantes pero desconocidos y que por tanto hay que estimar en base a datos muestrales. b. Estimadores de los parámetros poblacionales (bj): i. Concepto/Interpretación: El estimador de cada parámetro (bj) refleja el efecto en Y (y el sentido de dicho efecto) de variaciones unitarias de Xj, para los datos de una determinada muestra. ii. Naturaleza: Los estimadores de los parámetros poblacionales (bJ) son estadísticos, es decir, función de elementos muestrales y como tal variables aleatorias cuyo valor depende de los datos de la muestra. Así, cada b es una variable aleatoria y el vector b es un vector aleatorio. Como todo vector aleatorio, b vendrá caracterizado por: 1. un vector de medias, de dimensión (kx1) 2. una matriz de varianzas y covarianzas, de dimensión (kxk). 3. Si se cumplen las hipótesis básicas: iii. Valores: Son función de elementos muestrales y su valor depende de los datos de la muestra. Así, para una misma muestra, dados unos valores de Xj, bj será constante para todas las observaciones Yi pero variará si se alterá la muestra. 3. Datos: Tienen dos clasificaciones: Según su fuente de obtención: Datos experimentales y no experimentales: Los primeros se recogen mediante experimentos controlados con individuos mientras que los no experimentales no. Según su naturaleza: Datos de corte transversal: unidades muy variadas recogidas en un momento determinado. El orden en que se obtengan los datos no es relevante. Datos de series temporales: Son observaciones sobre una o varias variables a lo largo del tiempo (1 variable- varíos períodos de tiempo). El orden de los datos si es relevante. Son más difíciles de analizar que los transversales. Datos fusionados de sección cruzada: Conjunto de datos con características de corte transversal y series temporales. Se analizan de forma similar a los datos transversales. Datos de panel o longitudinales: Son series temporales para cada unidad de corte transversal del conjunto de datos. Se diferencian de los anteriores en que el registro siempre se hace de las mismas unidades. IV. ETAPAS DEL ANÁLISIS DE REGRESIÓN MÚLTIPLE 1. Especificación modelo econométrico (regresión lineal múltiple): Se propone la forma matemática de la relación que liga la variable dependiente (Y) con las variables explicativas (X) y la perturbación aleatoria (U). EJ: YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui 2. Estimación del modelo (análisis regresión): La función de regresión poblacional no es directamente observable por lo que hay que estimarla a través de los datos muestrales. Es decir, hay que estimar los parámetros poblacionales: Obtener los valores de los estimadores (bj) de los parámetros poblacionales a partir de los datos muestrales de las variables explicativas. EJ: YI=b1+b2X2i+b3X 3i+…+bkX ki+ ei El objetivo reside por tanto en estimar la función de regresión poblacional con base en la función de regresión muestral de la manera más precisa posible y para ello se aplican a los datos muestrales uno de estos dos métodos estadísitcos a. Mínimos Cuadrados Ordinarios (MCO) b. Estimación por Máxima Verosimilitud (EMV) 3. Validación del modelo: Evaluar si los estimadores obtenidos son aceptables, desde un punto de vista teórico y estadístico. Contrastar que se cumplen las hipótesis de partida del modelo. Si se confirma la bondad del modelo, cabe aplicarlo para la predicción del valor de Y en observaciones no contenidas en la muestra. V. ESTIMACIÓN DEL MODELO 1. Concepto Por definición, los parámetros poblacionales son constantes desconocidas, razón por la que la función de regresión poblacional ( YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui) no es directamente observable y hay que estimarla. Es decir, hay que estimar los parámetros poblacionales (ßj) y obteniendo los valores de sus estimadores (bj) a partir de los datos muestrales de las variables explicativas. Así Población (No observable) ALGEBRAICAMENTE: YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui ki+ Muestra (Estimación) Y⌃ I=b1+b2X2i+b3X 3i+…+bkX ei Matricialmente Y = Xβ + U Y^ = Xb + e Residuos El objetivo reside por tanto en estimar la función de regresión poblacional con base en la función de regresión muestral de la manera más precisa posible, es decir, minimizando la diferencia entre los valores reales observados de Y y los estimados con el modelo (residuos). Para ello se aplican a los datos muestrales uno de estos dos métodos estadísitcos c. Mínimos Cuadrados Ordinarios (MCO) d. Estimación por Máxima Verosimilitud (EMV) 2. Métodos Estadísticos para la Estimación de Parámetros Poblacionales: 1) Mínimo Cuadrados Ordinarios (MCO) - Concepto: Serán estimadores (bj) de los parámetros poblacionales aquellos valores que hagan mínima la suma de cuadrados de los residuos. Residuo se define como la diferencia entre los valores reales observados de la variable independiente y los valores estimados por el modelo: . Se pretende así que la estimación sea lo más ajustada posible a la realidad. Matricialmente, el estmador del parámetro quedaría definido como 2) Estimación por Máxima Verosimilitud (EMV) - Concepto: max L (Y, β, σ2, u) Serán estimadores de los parámetros aquellos valores que maximicen la función de verosimilitud: que hagan máxima la probabilidad de obtener la muestra efectivamente observada. Se trata por tanto de encontrar aquel modelo bajo el que es más probable haber obtenido la muestra observada. MCO vs. EMV : bmv = bMCO si se cumplen los siguientes requisitos: 1) Cumplimiento hipótesis básicas 2) Las perturbaciones aleatorias (ui) siguen una distribución normal 3. Interpretación de las Estimaciones de los Parámetros En el método de MCO los estimadores (b) de los parámetros poblacionales (β) serán aquellos valores que hagan mínima la suma de cuadrados de los residuos. Puesto que el parámetro βj refleja el cambio en Y ante variaciones unitarias de la variable explicativa Xj, el valor que toma el estimador de cada parámetro (bj) refleja el efecto en Y (y el sentido de dicho efecto) de variaciones unitarias de Xj. A) Modelos no logarítimos: YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui Variación de Y: UNIDADES a. Xj: cuantitativa Bj = cambio en unidades en Y en término medio ante variaciones unitarias en Xj, caeteris paribus b. Xj: dicotómica Bj : efecto diferencial medio entre categorías codificación (1, 0): cambio en unidades en Y en término medio entre una categorización de Xj (=1) y otra (=0), caeteris paribus. c. Xj: medida en porcentaje Bj = cambio en unidades en Y en término medio ante variaciones de un punto porcentual en Xj, caeteris paribus B) Modelos log-log: lnY= ß1+ß2 lnX2i+ ui Variación de Y: PORCENTUAL Bj : elasticidad: cambio porcentual en Y en término medio ante variaciones porcentuales (+1%) en Xj, caeteris paribus C) Modelos semilogarítmicos: a) lnYI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui Variación en Y: PORCENTUAL. Bj : cambio porcentual en Y en término medio ante variaciones unitarias en Xj, caeteris paribus. Por tanto, para reflejar la variación en Y ante variaciones unitarias en Xj, hay que multiplicar bj*100. b) YI=ß1+ß2 lnX2i+…+ ui Variación en Y: UNIDADES Bj = cambio en unidades en Y en término medio ante variaciones porcentuales (+1%) en Xj, caeteris paribus. Por tanto, para reflejar la variación en Y ante variaciones porcentuales en Xj, hay que dividir bj/100. 4. Propiedades de los estimadores MCO (si se cumplen las HB) Si se cumplen las HB los estimadores obtenidos por el método MCO son lineales, insesgados, óptimos y consistentes (ELIO). BLUE BEST LINEAR UNBIASED 1. Lineales: b = (X’X)-1X’Y Concepto: Las Y´s pueden expresarse como combinación lineal de los b´s. Relación con HB: para que los estimadores de los parámetros cumplan la propiedad de linealidad es necesario que 1. La matriz X sea no estocástica (HB IV): las variables explicativas tienen que ser fijas, determinadas e independientes de la muestra. Es decir, han de ser constantes y no una variable aleatoria. 2. Modelo lineal 2.Insesgado: ; Concepto: en término medio el estimador no se aleja mucho del verdadero valor de l parámetro. Relación con HB: para que los estimadores de los parámetros sean insesgados es necesario que se cumplan las siguientes HB: 1. Media perturbaciones aleatorias nula (HBI) 2. La matriz X sea no estocástica (HB IV) 3. Modelo correctamente especificado: sin errores de observación y medición 4. Estabilidad estructural: bj constantes para todas las observaciones de una muestra. 3. Óptimo: Concepto: Los estimadores bMCO son los estimadores de mínima varianza entre todos los estimadores lineales e insesgados (Teorema Gauss-Markov). Relación con HB: para que los estimadores de los parámetros sean óptimos es necesario que se cumplan las siguientes HB: 1. Homocedasticidad (HB II) 2. Ausencia de autocorrelación (HB III) 4.Consistente: Concepto: cuando crece el tamaño muestral el estimador converge en probabilidad a el verdadero valor del parámetro. Así, un mayor tamaño muestral conlleva más precisión en la estimación. Por tanto, si los estimadores son consistentes compensa el coste de aumentar el tamaño muestral. Relación con HB: para que los estimadores de los parámetros sean consistentes es necesario que se cumplan la HB VI: 5. Bondad de Ajuste: Coeficiente de Determinación Fundamento: en el modelo MCO los estimadores de los parámetros poblacionales serán aquellos valores que hagan mínima la suma del cuadrado de los residuos, entendidos éstos como la diferencia entre el valor real observado de Y y el estimado según el modelo. Sí, será mejor el modelo cuanto menor sea la dispersión de las Ys realmente observadas con respecto a la recta de regresión estimada. Fórmula: Partiendo de la descomposición de la variable como , Concepto: R2 expresa el porcentaje de la variabilidad de Y explicada por la variabilidad de las Xs (por el modelo). Por tanto, 1- R2 indica el porcentaje de variabilidad de Y no explicada por el modelo, es decir, debida a factores no expresados en la especificación del modelo. Interpretación: a) Como criterio de valoración de un modelo: ¿buen modelo? Interpretación: Mayor R2 Mejor es el modelo: más porcentaje de la variabilidad de Y explica el modelo. Matizaciones: los datos transversales suelen tener bajo R2. b) Como criterio de comparación/selección entre distintos modelos Cuanto mayor es el número de variables explicativas mayor es R2 por lo que el criterio para comparar distintos modelos varía según el número de variables explicativas que contengan: a. Modelos con el mismo número de variables explicativas: R2 b. Modelos con distinto número de variables explicativas: R2 corregido R2 corregido = 1- [1-R2] (n-1)/(n-k) ∞< R2 corregido ≤ 1 IV. OTROS MODELOS ECONOMÉTRICOS: METODOLOGÍA BOX-JENKINS ARIMA PARA EL ANÁLISIS DE SERIES TEMPORALES. ESTUDIO COMPARATIVO. Box-Jenkins Regresión lineal múltiple Naturaleza No causal Causal Concepto Busca predecir el comportamiento Busca estimar el comportamiento futuro de la variable en base a su de la variable para observaciones comportamiento pasado. no contenidas en la muestra. Tipo de datos (para el Series temporales: datos históricos de Datos que es más apto) corte transversal: la variable: evolución de la variable a lo conocimiento del efecto de unas largo del tiempo Dificultades de variables sobre otras. Elegir modelo/proceso generador de la Elegir las variables explicativas. serie temporal. Inconvenientes Se necesita C/p: óptimo l/p: insuficiente se requiere información sobre varialbes explicativas información sobre variables explicativas en el futuro y ésta suele ser desconocida. EJEMPLO PRÁCTICO: EL ÉXITO DE LOS PAÍSES EN LOS MUNDIALES DE FÚTBOL 1. Introducción y definición de variables. Con este ejemplo práctico vamos a tratar de establecer qué variables influyen en el éxito de los países en el mundial de fútbol. De esta forma, la variable dependiente (variable a explicar) va a ser el éxito de los países en la copa internacional de fútbol masculino. Para ello, se va a tener en cuenta la puntuación del ranking mundial de FIFA/Coca-Cola que se recoge en el siguiente cuadro: Ahora, en cuento a las variables independientes (variables explicativas): POP: Población. Dado que según estudios realizados parece ser que cuanto mayor en la población de un país, mayor es el potencial de talento del mismo. GNP: Producto Nacional Bruto per cápita. La explicación es la siguiente: El desarrollo de un individuo depende de la existencia de infraestructura física y organización de instituciones relacionadas con el fútbol, así como de la disponibilidad de equipamiento. El acceso a equipamiento y la disponibilidad de tiempo libre para participar en actividades deportivas es importante en este contexto, aunque bien es verdad que un mayor PNB per cápita no garantiza de por sí un mayor éxito deportivo. LATIN: Variable dicotómica que asigna el valor 1 se el país es de Centroamérica, Sudamérica, España o Portugal y el valor 0 para el resto de países. HOST: Es decir, si el país ha hospedado el mundial de fútbol en alguna ocasión en el pasado. Esta variable es dicotómica que asigna el valor 1 si el país ha hospedado la final de la copa del mundo desde su inicio en 1930 y el valor 0 en caso contrario. TEMP: Temperatura media del año. Una temperatura media de 14ºC en la región se asocia a mejores resultados deportivos. La variable de va a definir como la temperatura del país menos 14ºC elevado al cuadro (para corregir valores negativos). 2. Definición del modelo a estimar. Donde βi son los parámetros a estimar y es el error. 3. Resultados. Tras la estimación del modelo llegamos a los siguientes resultados: Como podemos observar, GNP2, (TEMP-14)2 y HOST solo son significativas al 10%. Por ello habría que llevar a cabo ciertos análisis como el test de WALD para ver si estas variables deben seguir en el modelo o han de desecharse. GNP2: Una vez realizados los análisis llegamos a la siguiente conclusión: Incrementos en el PNB hace que mejoren los resultados en el mundial de futbol. Sin embargo, llega un punto en el que un aumento de dicho PNB hace que los resultados sean inferiores, esto es porque la relación entre estas dos variable es cuadrática con forma de U invertida. El punto a partir del cual El PNB empieza a disminuir es 21.836$. TEMP-14: Esta variable al igual que la anterior también tiene una forma cuadrática de U invertida. De esta forma cualquier desviación de esta temperatura de 14ºC hace que los resultados en el ranking sean inferiores. Esto coincide con países como España, Portugal y parte de Sudamérica. Como conclusión podemos decir que los países con clima mediterráneo tienen mejores condiciones para los deportes al exterior. HOST: El coeficiente asociado a esta variable dicotómica es 81,051. Esto quiere decir que, que un país que ha hospedado anteriormente el mundial debería obtener 81,051 puntos más que el resto de los países ceteris paribus. LATINxPOP: La interacción entre estas dos variables ha resultado significativa según el cuadro de resultados. Esto quiere decir que la población solo tiene relevancia en los puntos obtenidos si el país es Latino (tal y como se ha definido anteriormente). El coeficiente que acompaña a esta interacción de variables es 8587.46 que podría interpretarse como: Si un país de origen Latino es capaz de incrementar su población en un 1%, esto significaría que obtendría alrededor de 86 puntos más en el mundial ceteris paribus. 4. Conclusiones Los resultados demuestran la importancia de factores inherentes al país, tales como cultura, demografía y geografía, en el contexto del éxito internacional de fútbol. Mientras que la riqueza per-cápita es también un factor importante, encontramos que una vez alcanzado cierto nivel de riqueza, esta puede dañar el resultado en el mundial de fútbol de un país. La mayoría de los países destinan recursos nacionales para promover el éxito de sus equipos en los acontecimientos internacionales deportivos. Los resultados presentados aquí se pueden interpretar de forma que se sugiera un límite a este tipo de intervención por parte del gobierno. Sin embargo, la política del gobierno en relación al deporte puede ser útil por dos razones. En primer lugar, como el R2-value indica, solamente se ofrece una explicación parcial del éxito en el campeonato de fútbol. Un enfoque más completo podía incluir datos con respecto a los deportes en general que se financian y al gasto en fútbol en particular. Sin embargo, en el rango de países que se han considerado, tales datos son difíciles de obtener. En segundo lugar, la extensa participación en el deporte, con independencia del éxito internacional, tiene externalidades positivas significativas en términos de salud y bienestar de la población. Estas actividades deben ser proporcionadas, por lo tanto, a un nivel de eficiencia social. Una conveniente política del gobierno que fomente los deportes en general puede ayudar claramente a la compensación este déficit así como a contribuir al éxito deportivo internacional.