TEMA 4: PRINCIPALES CARACTERÍSTICAS EN LA ESTIMACIÓN DE UN MODELO... REGRESIÓN LINEAL MÚLTIPLE I. INTRODUCCIÓN

Anuncio
TEMA 4: PRINCIPALES CARACTERÍSTICAS EN LA ESTIMACIÓN DE UN MODELO DE
REGRESIÓN LINEAL MÚLTIPLE
I. INTRODUCCIÓN
1. Conceptos
1. Econometría . Distintas definiciones de econometría:
a) La ciencia social en la que se aplican los medios de la teoría económica, las
matemáticas y la inferencia estadística al análisis del fenómeno económico.
Arthur Goldberger
b) El papel esencial de la econometría es la estimación y verificación de los
modelos económicos dando cuerpo empírico a las estructuras teóricas.
Johnston, J.
c) La econometría se ocupa del estudio de estructuras que permitan analizar
características o propiedad de una variable económica utilizando como causas
explicativas otras variables económicas. Novales, A.
d) Toda aplicación de las matemáticas y/o métodos estadísticos para el estudio
de los fenómenos económicos. Malinvaud, E.
e) El arte y la ciencia de usar los métodos estadísticos para la medición de las
relaciones económicas. Chow, G.C
De todo lo anterior se deduce el siguiente esquema explicativo de la ciencia
econométrica:
1º. Análisis de fenómenos económicos.
2º. Análisis de una variable económica utilizando como
causas explicativas otras variables económicas
3º. Necesidad de información estadística, datos de las
variables económicas
4º. Cuantificación de las relaciones económicas
La econometría surge de la agregación de tres ciencias:
- La teoría económica: La economía analiza los sistemas económicos. Entendemos por
sistema un conjunto de elementos vinculados entre sí por relaciones. Ejemplo: La
empresa
Para analizar el funcionamiento de una empresa debemos analizar el sistema en su
conjunto, pero éste resulta demasiado complejo para entenderlo en su totalidad, la
realidad se simplifica a través de modelos. Un modelo es una representación
simplificada de un sistema. Así, un modelo que incluya las variables referidas a una
empresa me facilitará la comprensión de las relaciones existentes
- Las matemáticas: permiten expresar formalmente las relaciones extraídas de la
teoría económica a través de una expresión matemática (lineal, exponencial, etc)
- La estadística: a partir de la información estadística y de las técnicas estadísticas
podré calcular el valor de las incógnitas o parámetros que me cuantifican la relación
existente entre variables.
2. Modelo económico vs Modelo Econométrico
El modelo económico es un modelo genérico que se aplica con validez general. Pero
en las ciencias sociales (como la economía) un modelo resulta simplificado y
excesivamente general como para ser aplicado a cualquier sistema. Lo que se cumplió
en un determinado momento del tiempo y un espacio geográfico concreto puede no
cumplirse bajo otras circunstancias. Por ello aparecen los modelos econométricos
como modelos más específicos aplicados a sistemas reales concretos, aunque basados
en modelos económicos. Estos modelos tendrán validez únicamente para el periodo
temporal y sistema de referencia.
Así, basándonos en la teoría económica sabemos que el PIB = CP + GP + I + (X – M)
Esta expresión es una identidad contable en la que el PIB se obtiene como suma de
sus componentes, pero no se analizan las causas que realmente generan alteraciones
en los niveles de producción de un país. Si queremos analizar las causas de crecimiento
o decrecimiento de la producción interna de un país, podríamos establecer las
siguientes relaciones:
PIB = f (renta (+), tipos de interés (-), renta mundial (+), impuestos (+ / -))
La concreción de este modelo económico me llevaría a la formulación de un modelo econométrico de
este tipo:
PIB ESP (80-00) = f (renta neta disponible (80-00), tipo interbancario (80-00), renta ue (80-00),
recaudación impositiva(80-00))
Pero además necesito expresar el modelo a través de una forma funcional. Si supongo que las variables
están relacionadas linealmente, la expresión de mi modelo econométrico quedaría:
PIB ESP (80-00) = a + b renta neta disponible (80-00) + c tipo interbancario (80-00)+ e renta UE (80-00) +
d recaudación impositiva(80-00) + componente residual
Las características de los modelos econométricos frente a los económicos pueden
resumirse en:
- Especificación estadística más precisa a la hora de definir las variables. El modelo
econométrico exige una especificación muy precisa de las variables que lo componen
al estar referido a un espacio temporal y geográfico específico. Así, mientras que en un
modelo económico únicamente se especifica que el consumo depende de la renta, en
un modelo econométrico habla que definir de manera detallada las variables que se
van a utilizar para medir esa relación: consumo privado en pesetas constantes desde el
año 1980 al 2000 y renta bruta disponible en pesetas constantes desde el año 1980 al
2000.
- Forma funcional definida. En econometría únicamente se pueden realizar modelos
lineales o linealizables (que son aquellos que están expresados en logaritmos)
- Inclusión de dinamicidad. La dinámica de los hechos reales obliga a que en la
totalidad de los modelos econométricos se considere explícitamente el tiempo frente a
los modelos económicos en que no se explicita el tiempo. La inclusión del fenómeno
temporal en los modelos econométricos se da tanto en modelos temporales como
transversales al estar referidos ambos a un momento temporal concreto.
- No son relaciones exactas, frente a los modelos económicos que suelen plantearse
como modelos deterministas o definidos por relaciones exactas. Estos es así porque en
los modelos econométricos siempre existe un componente residual en el que están
incluidos todos aquellos factores que influyen en la variable objeto de estudio pero de
manera residual. Este componente residual es un factor aleatorio que impide que el
modelo se exprese como una relación exacta de las variables incluidas.
- Inclusión de variables distintas. Las variables relevantes en un modelo econométrico
no suelen coincidir plenamente con las del modelo económico debido,
fundamentalmente a su vocación a la concreción que le obliga a incorporar en la
especificación variables específicas del momento temporal y geográfico para el cual
estoy elaborando el modelo, pero no con validez general.
En general la gran diferencia es la vocación de generalidad del modelo económico
frente al intento de concreción a un sistema más real del modelo econométrico.
II. CONCEPTO E HIPÓTESIS BÁSICAS
1. Concepto de Análisis de Regresión
La REGRESIÓN de Y sobre X y será una función que para cada valor de X nos ofrece el
valor esperado de la Y. NO necesariamente lineal. El análisis de regresión pretende así
la estimación y/o predicción de la media (de la población) de la variable dependiente
(Y), con base en los valores conocidos de las variables explicativas (Xs).
La regresión lineal múltiple se basa por tanto en un modelo causal cuyo objetivo es la
predicción/estimación de los valores que tomará la variable independiente Y para
observaciones no contenidas en la muestra.
Modelos de Regresión lineal simple vs Regresión lineal múltiple.
2. Hipótesis Básicas del Modelo
Son supuestos simplificadores sobre el modelo y sus elementos. No tienen por qué
verificarse en un modelo concreto, pero se supondrán ciertas mientras no haya
evidencias en su contra.
Son MUY IMPORTANTES: la idoneidad y validez de muchos resultados, propiedades y
métodos econométricos descansa en su cumplimiento. Son los cimientos del modelo.
Hay que tener cuidado de no confundir hipótesis básicas con propiedades, resultados
ni axiomas.
Existen tres tipos de hipótesis:
1. Hipótesis sobre las perturbaciones aleatorias.
2. Hipótesis sobre las variables explicativas.
3. Hipótesis sobre la especificación del modelo.
1. Hipótesis sobre las perturbaciones aleatorias
- Concepto: Se define perturbación aleatoria como la diferencia entre el valor
real/observado de la variable dependiente (Y) y su valor esperado/promedio de
acuerdo a la regresión lineal. Así: ui = Yi – E [Yi/Xj]. Cada observación del modelo tiene
una variable de perturbación aleatoria diferente, que consideradas conjuntamente
todas ellas forman el vector u de perturbaciones aleatorias.
Dada su condición de variables aleatorias, es necesario realizar unas suposiciones o
hipótesis sobre su comportamiento en probabilidad.
- Hipótesis: Hay 3 hipótesis básicas sobre las perturbaciones aleatorias:
1. HB I  Media Nula:
.
- Concepto: Todas las perturbaciones aleatorias tienen media nula. En términos
matriciales, el vector u de perturbaciones aleatorias tiene como vector de medias
un vector de ceros.
- Requisito: HB I requiere que la especificación del modelo contenga un término
independiente (β1).
2. HBII Homocedasticidad:
- Concepto: La varianza de las perturbaciones aleatorias es constante.
- Cumplimiento: Esta hipótesis no siempre se cumple en aplicaciones reales, sobre
todo cuando se trabaja con datos de corte transversal, dando lugar a la
heteroscedasticidad.
3. HB III  Ausencia de autocorrelación:
- Concepto: No existe relación lineal entre perturbaciones aleatorias de distintas
observaciones , es decir, están incorrelacionadas.
- Cumplimiento: Es frecuente que NO se cumpla con datos en forma de SERIE
TEMPORAL, especialmente en variables que presentan ciclos o tendencias
temporales no recogidas en el modelo (x.ej: series temporales económicas).
2. Hipótesis sobre las variables explicativas
1. HB IV: Incorrelación entre las X y las U:
- Concepto: Las variables explicativas y las perturbaciones aleatorias están
incorrelacionadas.
- Importancia: Esta hipótesis es importante para la estimación de los parámetros:
de su cumplimiento dependen la insesgadez y consistencia de las estimaciones.
2. HBV  Ausencia de multicolinealidad perfecta: Hipótesis de rango pleno.
- Concepto: Ninguna variable explicativa puede ser Combinación lineal perfecta de
otras: No puede existir una relación lineal perfecta entre las columnas de la matriz
X. Si existe alta correlación sin que ésta llegue a ser perfecta nos encontramos con
el problema de la multicolinealidad imperfecta grave.
- Importancia: La ausencia de multicolinealidad perfecta es necesaria para poder
estimar los parámetros según el método de Mínimos Cuadrados Ordinarios (MCO).
3. HB VI:
Hipótesis necesaria para garantizar la consistencia de los estimadores de los
parámetros.
3. Hipótesis básicas del modelo ( sobre la especificación del modelo)
1. Linealidad en los parámetros:
- Concepto: Se dice que una función es lineal en el parámetro bi si el parámetro
1) Está elevado exclusivamente a una potencia de 1
2) No está multiplicado ni dividido por ningún otro parámetro.
-
Importancia: Es una hipótesis necesaria para la estimación por MCO. Por tanto,
si el modelo especificado no respeta la linealidad en los parámetros habrá que
transformarlo.
Ej: Yt = eβ1 + Ptβ2+ Rtβ3 + eut  tomar ln: LnYt = β1 + β2lnPt + β3lnRt + ut
2. Sin errores de medida/observación:
-
Concepto:
o Observación: ausencia de errores en la estructura del modelo: todas las
variables explicativas relevantes incluidas.
o Medición: no errores de medición.
3. Estabilidad estructural: Estimadores Parámetros (bj) constantes
- Concepto: Estimadores de los parámetros (bj) constantes para todas las
observaciones de una muestra. La relación entre las X y la Y es estable para un
determinado contexto espacial y temporal.
4. Datos temporales estacionarios y cointegrados
- Concepto:
a. Estacionariedad: media y varianza constante; incorrelacionados (covarianza
nula).
b. Cointegrados: relación estable a largo plazo
- Importancia: sólo así tiene sentido la regresión lineal.
- Incumplimiento: regresión espúrea.
III. ELEMENTOS DE UN MODELO DE REGRESIÓN LINEAL MÚLTIPLE
YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui
1. Variables: el modelo de regresión lineal múltiple está compuesto por una
variable dependiente expresada como función lineal de una o más variables
independientes.
a. Variable a explicar (1) : Dependiente/Endógena/Regresada: Y
b. Variables explicativas (1o más):Independientes/Exógena/ Regresoras: Xs
c. Perturbación aleatoria: ui
Variable aleatoria no observable, que puede tomar valores positivos o
negativos, y que reocoge/expresa todos los factores que afectan a Y pero que
no están explícitamente recogidos en el modelo por razones de
desconocimento, falta información, coste, etc. Por tanto, ui implica el
reconocimiento de que “Y” no puede ser explicada solamente con la(s)
variable(s) incluidas en el modelo.
2. Parámetros (βj):
a. Poblacionales:
i. Concepto/Interpretación: El parámetro βj refleja el cambio en Y
ante variaciones unitarias de la variable explicativa Xj.
ii. Naturaleza: Son por definición valores constantes pero
desconocidos y que por tanto hay que estimar en base a datos
muestrales.
b. Estimadores de los parámetros poblacionales (bj):
i. Concepto/Interpretación: El estimador de cada parámetro (bj)
refleja el efecto en Y (y el sentido de dicho efecto) de
variaciones unitarias de Xj, para los datos de una determinada
muestra.
ii. Naturaleza: Los estimadores de los parámetros poblacionales (bJ)
son estadísticos, es decir, función de elementos muestrales y
como tal variables aleatorias cuyo valor depende de los datos de
la muestra. Así, cada b es una variable aleatoria y el vector b es
un vector aleatorio. Como todo vector aleatorio, b vendrá
caracterizado por:
1. un vector de medias, de dimensión (kx1)
2. una matriz de varianzas y covarianzas, de dimensión (kxk).
3. Si
se
cumplen
las
hipótesis
básicas:
iii. Valores: Son función de elementos muestrales y su valor
depende de los datos de la muestra. Así, para una misma
muestra, dados unos valores de Xj, bj será constante para todas
las observaciones Yi pero variará si se alterá la muestra.
3. Datos: Tienen dos clasificaciones:
 Según su fuente de obtención: Datos experimentales y no
experimentales:
Los
primeros
se
recogen
mediante
experimentos controlados con individuos mientras que los no
experimentales no.
 Según su naturaleza:
 Datos de corte transversal: unidades muy variadas
recogidas en un momento determinado. El orden en que
se obtengan los datos no es relevante.
 Datos de series temporales: Son observaciones sobre una
o varias variables a lo largo del tiempo (1 variable- varíos
períodos de tiempo). El orden de los datos si es
relevante. Son más difíciles de analizar que los
transversales.
 Datos fusionados de sección cruzada: Conjunto de datos
con características de corte transversal y series
temporales. Se analizan de forma similar a los datos
transversales.
 Datos de panel o longitudinales: Son series temporales
para cada unidad de corte transversal del conjunto de
datos. Se diferencian de los anteriores en que el registro
siempre se hace de las mismas unidades.
IV. ETAPAS DEL ANÁLISIS DE REGRESIÓN MÚLTIPLE
1. Especificación modelo econométrico (regresión lineal múltiple): Se propone la
forma matemática de la relación que liga la variable dependiente (Y) con las
variables explicativas (X) y la perturbación aleatoria (U).
EJ: YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui
2. Estimación del modelo (análisis regresión): La función de regresión poblacional
no es directamente observable por lo que hay que estimarla a través de los
datos muestrales. Es decir, hay que estimar los parámetros poblacionales:
Obtener los valores de los estimadores (bj) de los parámetros poblacionales a
partir de los datos muestrales de las variables explicativas.
EJ: YI=b1+b2X2i+b3X 3i+…+bkX ki+ ei
El objetivo reside por tanto en estimar la función de regresión poblacional
con base en la función de regresión muestral de la manera más precisa
posible y para ello se aplican a los datos muestrales uno de estos dos
métodos estadísitcos
a. Mínimos Cuadrados Ordinarios (MCO)
b. Estimación por Máxima Verosimilitud (EMV)
3. Validación del modelo: Evaluar si los estimadores obtenidos son aceptables,
desde un punto de vista teórico y estadístico. Contrastar que se cumplen las
hipótesis de partida del modelo. Si se confirma la bondad del modelo, cabe
aplicarlo para la predicción del valor de Y en observaciones no contenidas en la
muestra.
V. ESTIMACIÓN DEL MODELO
1. Concepto
Por definición, los parámetros poblacionales son constantes desconocidas, razón por la
que la función de regresión poblacional ( YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui) no es
directamente observable y hay que estimarla. Es decir, hay que estimar los parámetros
poblacionales (ßj) y obteniendo los valores de sus estimadores (bj) a partir de los
datos muestrales de las variables explicativas. Así
Población (No observable)
ALGEBRAICAMENTE: YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui
ki+
Muestra (Estimación)
Y⌃ I=b1+b2X2i+b3X 3i+…+bkX
ei
Matricialmente
Y = Xβ + U
Y^ = Xb + e
Residuos
El objetivo reside por tanto en estimar la función de regresión poblacional con
base en la función de regresión muestral de la manera más precisa posible, es
decir, minimizando la diferencia entre los valores reales observados de Y y los
estimados con el modelo (residuos).
Para ello se aplican a los datos muestrales uno de estos dos métodos estadísitcos
c. Mínimos Cuadrados Ordinarios (MCO)
d. Estimación por Máxima Verosimilitud (EMV)
2. Métodos Estadísticos para la Estimación de Parámetros Poblacionales:
1) Mínimo Cuadrados Ordinarios (MCO)
- Concepto:
Serán estimadores (bj) de los parámetros poblacionales aquellos valores que hagan
mínima la suma de cuadrados de los residuos. Residuo se define como la diferencia
entre los valores reales observados de la variable independiente y los valores
estimados por el modelo:
. Se pretende así que la estimación sea lo más
ajustada posible a la realidad.
Matricialmente, el estmador del parámetro quedaría definido como
2) Estimación por Máxima Verosimilitud (EMV)
- Concepto: max L (Y, β, σ2, u)
Serán estimadores de los parámetros aquellos valores que maximicen la función de
verosimilitud: que hagan máxima la probabilidad de obtener la muestra efectivamente
observada. Se trata por tanto de encontrar aquel modelo bajo el que es más probable
haber obtenido la muestra observada.
 MCO vs. EMV : bmv = bMCO si se cumplen los siguientes requisitos:
1) Cumplimiento hipótesis básicas
2) Las perturbaciones aleatorias (ui) siguen una distribución normal
3. Interpretación de las Estimaciones de los Parámetros
En el método de MCO los estimadores (b) de los parámetros poblacionales (β)
serán aquellos valores que hagan mínima la suma de cuadrados de los residuos.
Puesto que el parámetro βj refleja el cambio en Y ante variaciones unitarias de la
variable explicativa Xj, el valor que toma el estimador de cada parámetro (bj)
refleja el efecto en Y (y el sentido de dicho efecto) de variaciones unitarias de Xj.
A) Modelos no logarítimos: YI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui
Variación de Y: UNIDADES
a. Xj: cuantitativa
Bj = cambio en unidades en Y en término medio ante variaciones unitarias en Xj,
caeteris paribus
b. Xj: dicotómica
Bj : efecto diferencial medio entre categorías codificación (1, 0):
cambio en unidades en Y en término medio entre una categorización de Xj (=1) y
otra (=0), caeteris paribus.
c. Xj: medida en porcentaje
Bj = cambio en unidades en Y en término medio ante variaciones de un punto
porcentual en Xj, caeteris paribus
B) Modelos log-log: lnY= ß1+ß2 lnX2i+ ui  Variación de Y: PORCENTUAL
Bj : elasticidad: cambio porcentual en Y en término medio ante variaciones
porcentuales (+1%) en Xj, caeteris paribus
C) Modelos semilogarítmicos:
a) lnYI=ß1+ß2X2i+ß3X 3i+…+ßkX ki+ ui  Variación en Y: PORCENTUAL.
Bj : cambio porcentual en Y en término medio ante variaciones unitarias en Xj,
caeteris paribus. Por tanto, para reflejar la variación en Y ante variaciones
unitarias en Xj, hay que multiplicar bj*100.
b) YI=ß1+ß2 lnX2i+…+ ui  Variación en Y: UNIDADES
Bj = cambio en unidades en Y en término medio ante variaciones porcentuales
(+1%) en Xj, caeteris paribus. Por tanto, para reflejar la variación en Y ante
variaciones porcentuales en Xj, hay que dividir bj/100.
4. Propiedades de los estimadores MCO (si se cumplen las HB)
Si se cumplen las HB los estimadores obtenidos por el método MCO son lineales,
insesgados, óptimos y consistentes (ELIO). BLUE BEST LINEAR UNBIASED
1. Lineales: b = (X’X)-1X’Y
Concepto: Las Y´s pueden expresarse como combinación lineal de los b´s.
Relación con HB: para que los estimadores de los parámetros cumplan la propiedad de
linealidad es necesario que
1. La matriz X sea no estocástica (HB IV): las variables explicativas tienen que
ser fijas, determinadas e independientes de la muestra. Es decir, han de ser
constantes y no una variable aleatoria.
2. Modelo lineal
2.Insesgado:
;
Concepto: en término medio el estimador no se aleja mucho del verdadero valor de l
parámetro.
Relación con HB: para que los estimadores de los parámetros sean insesgados es
necesario que se cumplan las siguientes HB:
1. Media perturbaciones aleatorias nula (HBI)
2. La matriz X sea no estocástica (HB IV)
3. Modelo correctamente especificado: sin errores de observación y medición
4. Estabilidad estructural: bj constantes para todas las observaciones de una
muestra.
3. Óptimo:
Concepto: Los estimadores bMCO son los estimadores de mínima varianza entre todos
los estimadores lineales e insesgados (Teorema Gauss-Markov).
Relación con HB: para que los estimadores de los parámetros sean óptimos es
necesario que se cumplan las siguientes HB:
1. Homocedasticidad (HB II)
2. Ausencia de autocorrelación (HB III)
4.Consistente:
Concepto: cuando crece el tamaño muestral el estimador converge en probabilidad a
el verdadero valor del parámetro. Así, un mayor tamaño muestral conlleva más
precisión en la estimación. Por tanto, si los estimadores son consistentes compensa el
coste de aumentar el tamaño muestral.
Relación con HB: para que los estimadores de los parámetros sean consistentes es
necesario que se cumplan la HB VI:
5. Bondad de Ajuste: Coeficiente de Determinación
Fundamento: en el modelo MCO los estimadores de los parámetros poblacionales
serán aquellos valores que hagan mínima la suma del cuadrado de los residuos,
entendidos éstos como la diferencia entre el valor real observado de Y y el estimado
según el modelo. Sí, será mejor el modelo cuanto menor sea la dispersión de las Ys
realmente observadas con respecto a la recta de regresión estimada.
Fórmula:
Partiendo
de
la
descomposición
de
la
variable
como
,
Concepto: R2 expresa el porcentaje de la variabilidad de Y explicada por la variabilidad
de las Xs (por el modelo). Por tanto, 1- R2 indica el porcentaje de variabilidad de Y no
explicada por el modelo, es decir, debida a factores no expresados en la especificación
del modelo.
Interpretación:
a) Como criterio de valoración de un modelo: ¿buen modelo?
Interpretación: Mayor R2  Mejor es el modelo: más porcentaje de la variabilidad de Y
explica el modelo.
Matizaciones: los datos transversales suelen tener bajo R2.
b) Como criterio de comparación/selección entre distintos modelos
Cuanto mayor es el número de variables explicativas mayor es R2 por lo que el criterio
para comparar distintos modelos varía según el número de variables explicativas que
contengan:
a. Modelos con el mismo número de variables explicativas: R2
b. Modelos con distinto número de variables explicativas: R2 corregido
R2 corregido = 1- [1-R2] (n-1)/(n-k)
∞< R2 corregido ≤ 1
IV. OTROS MODELOS ECONOMÉTRICOS: METODOLOGÍA BOX-JENKINS ARIMA PARA
EL ANÁLISIS DE SERIES TEMPORALES. ESTUDIO COMPARATIVO.
Box-Jenkins
Regresión lineal múltiple
Naturaleza
No causal
Causal
Concepto
Busca predecir el comportamiento Busca estimar el comportamiento
futuro de la variable en base a su de la variable para observaciones
comportamiento pasado.
no contenidas en la muestra.
Tipo de datos (para el Series temporales: datos históricos de Datos
que es más apto)
corte
transversal:
la variable: evolución de la variable a lo conocimiento del efecto de unas
largo del tiempo
Dificultades
de
variables sobre otras.
Elegir modelo/proceso generador de la Elegir las variables explicativas.
serie temporal.
Inconvenientes
Se necesita
C/p: óptimo
l/p:
insuficiente
se
requiere
información sobre varialbes explicativas
información sobre
variables explicativas en el futuro y
ésta suele ser desconocida.
EJEMPLO PRÁCTICO: EL ÉXITO DE LOS PAÍSES EN LOS MUNDIALES DE FÚTBOL
1. Introducción y definición de variables.
Con este ejemplo práctico vamos a tratar de establecer qué variables influyen en el
éxito de los países en el mundial de fútbol.
De esta forma, la variable dependiente (variable a explicar) va a ser el éxito de los
países en la copa internacional de fútbol masculino. Para ello, se va a tener en cuenta
la puntuación del ranking mundial de FIFA/Coca-Cola que se recoge en el siguiente
cuadro:
Ahora, en cuento a las variables independientes (variables explicativas):
 POP: Población. Dado que según estudios realizados parece ser que cuanto
mayor en la población de un país, mayor es el potencial de talento del mismo.
 GNP: Producto Nacional Bruto per cápita. La explicación es la siguiente: El
desarrollo de un individuo depende de la existencia de infraestructura física y
organización de instituciones relacionadas con el fútbol, así como de la
disponibilidad de equipamiento. El acceso a equipamiento y la disponibilidad
de tiempo libre para participar en actividades deportivas es importante en este
contexto, aunque bien es verdad que un mayor PNB per cápita no garantiza de
por sí un mayor éxito deportivo.
 LATIN: Variable dicotómica que asigna el valor 1 se el país es de Centroamérica,
Sudamérica, España o Portugal y el valor 0 para el resto de países.
 HOST: Es decir, si el país ha hospedado el mundial de fútbol en alguna ocasión
en el pasado. Esta variable es dicotómica que asigna el valor 1 si el país ha
hospedado la final de la copa del mundo desde su inicio en 1930 y el valor 0 en
caso contrario.
 TEMP: Temperatura media del año. Una temperatura media de 14ºC en la
región se asocia a mejores resultados deportivos. La variable de va a definir
como la temperatura del país menos 14ºC elevado al cuadro (para corregir
valores negativos).
2. Definición del modelo a estimar.
Donde βi son los parámetros a estimar y
es el error.
3. Resultados.
Tras la estimación del modelo llegamos a los siguientes resultados:
Como podemos observar, GNP2, (TEMP-14)2 y HOST solo son significativas al 10%. Por
ello habría que llevar a cabo ciertos análisis como el test de WALD para ver si estas
variables deben seguir en el modelo o han de desecharse.
 GNP2: Una vez realizados los análisis llegamos a la siguiente conclusión:
Incrementos en el PNB hace que mejoren los resultados en el mundial de
futbol. Sin embargo, llega un punto en el que un aumento de dicho PNB hace
que los resultados sean inferiores, esto es porque la relación entre estas dos
variable es cuadrática con forma de U invertida. El punto a partir del cual El
PNB empieza a disminuir es 21.836$.
 TEMP-14: Esta variable al igual que la anterior también tiene una forma
cuadrática de U invertida. De esta forma cualquier desviación de esta
temperatura de 14ºC hace que los resultados en el ranking sean inferiores. Esto
coincide con países como España, Portugal y parte de Sudamérica. Como
conclusión podemos decir que los países con clima mediterráneo tienen
mejores condiciones para los deportes al exterior.
 HOST: El coeficiente asociado a esta variable dicotómica es 81,051. Esto quiere
decir que, que un país que ha hospedado anteriormente el mundial debería
obtener 81,051 puntos más que el resto de los países ceteris paribus.
 LATINxPOP: La interacción entre estas dos variables ha resultado significativa
según el cuadro de resultados. Esto quiere decir que la población solo tiene
relevancia en los puntos obtenidos si el país es Latino (tal y como se ha definido
anteriormente). El coeficiente que acompaña a esta interacción de variables es
8587.46 que podría interpretarse como: Si un país de origen Latino es capaz de
incrementar su población en un 1%, esto significaría que obtendría alrededor
de 86 puntos más en el mundial ceteris paribus.
4. Conclusiones
Los resultados demuestran la importancia de factores inherentes al país, tales
como cultura, demografía y geografía, en el contexto del éxito internacional de fútbol.
Mientras que la riqueza per-cápita es también un factor importante, encontramos que
una vez alcanzado cierto nivel de riqueza, esta puede dañar el resultado en el mundial
de fútbol de un país. La mayoría de los países destinan recursos nacionales para
promover el éxito de sus equipos en los acontecimientos internacionales deportivos.
Los resultados presentados aquí se pueden interpretar de forma que se sugiera un
límite a este tipo de intervención por parte del gobierno. Sin embargo, la política del
gobierno en relación al deporte puede ser útil por dos razones. En primer lugar, como
el R2-value indica, solamente se ofrece una explicación parcial del éxito en el
campeonato de fútbol. Un enfoque más completo podía incluir datos con respecto a
los deportes en general que se financian y al gasto en fútbol en particular. Sin
embargo, en el rango de países que se han considerado, tales datos son difíciles de
obtener. En segundo lugar, la extensa participación en el deporte, con independencia
del éxito internacional, tiene externalidades positivas significativas en términos de
salud y bienestar de la población. Estas actividades deben ser proporcionadas, por lo
tanto, a un nivel de eficiencia social. Una conveniente política del gobierno que
fomente los deportes en general puede ayudar claramente a la compensación este
déficit así como a contribuir al éxito deportivo internacional.
Descargar