contrastes de significatividad individual de los parámetro…

Anuncio
ECONOMETRÍA I. LADE
Página 1/8
APUNTES DE CLASE
Profesor Rafael de Arce
rafael.dearce@uam.es
CONTRASTES DE SIGNIFICATIVIDAD INDIVIDUAL DE LOS PARÁMETROS
1. Introducción
2. Intervalo de confianza de los parámetros
3. Contraste T-estadística
1. Introducción
Una vez especificado el modelo correctamente, evidentemente es relevante
determinar la importancia de cada variable explicativa elegida para marcar la evolución
de la endógena; es decir, estimar el valor de los parámetros. Dado el carácter aleatorio
del modelo econométrico, dicha estimación no ofrece un cálculo exacto como
resultado, sino un valor aleatorio que, como tal, tendrá un rango de variación
determinado por su función de densidad.
Conocidas las buenas propiedades del estimador de los parámetros que hemos
propuesto, deducidos tanto por MCO como por Máxima Verosimilitud a partir de la
siguiente fórmula,
−1
βˆ = [ X ' X ] X ' Y
Ec. 1
habíamos llegado a la conclusión de que dicho estimador se podía escribir como una
combinación lineal de la perturbación aleatoria, simplemente sustituyendo en la
fórmula anterior la endógena por su valor:
Y = Xβ + U
βˆ = β + [ X ' X ]−1 X 'U
Ec. 2
de donde, obviamente, como combinación lineal de una variable aleatoria que se
distribuye como una normal (las U’es por hipótesis), podemos concluir que los
parámetros estimados según este procedimiento también se distribuirán como una
normal, de la que ya conocemos sus momentos de primer y segundo orden; ya que los
utilizamos para demostrar su insesgadez y eficiencia:
E ( βˆ ) = β
cov − var( βˆ ) = [ X ' X ]−1 σ 2
Ec. 3
luego los parámetros se distribuirán como una normal del tipo:
−1
βˆ → N ( β ;[ X ' X ] σ 2 )
Ec. 4
En la práctica, la utilización de esta expresión exige la estimación de la varianza de la
perturbación aleatoria para poder realizar el cálculo de las varianzas de los parámetros
estimados. Ya se demostró que la estimación insesgada de dicha varianza responde al
siguiente cálculo:
ECONOMETRÍA I. LADE
Página 2/8
n
ei2
∑
e
e
'
= i =1
σˆ 2 =
n−k n−k
Ec. 5
Incluyendo este estimador en la expresión de los parámetros tipificados (restada su
media y divididos por su desviación típica), obtenemos una nueva expresión útil para
poder determinar los intervalos de confianza de dichos parámetros:
βˆ j − β j βˆ j − β j
=
=
S ( βˆ j )
σˆ a jj
βˆ j − β j
(e' e n − k )a
Ec. 6
jj
donde denominamos a jj al elemento fila “j” columna “j” de la matriz [X ' X ] , con lo
−1
que el producto de este término por σˆ 2 no es otra cosa que la varianza del parámetro
estimado “j” (donde j=1...k).
Como se demostró anteriormente,
e' e = U ' MU
Ec. 7
De esta expresión, es fácil comprobar que, dividiendo por la varianza de la
perturbación aleatoria, tendríamos una función que se distribuye como una chicuadrado con (n-k) grados de libertad:
e' e U ' MU U ' U '
=
= M
σ2
σ2
σ
σ
Ec. 8
ya que se trata de la suma de (n-k) normales (0,1) al cuadrado independientes 1.
Volviendo a la expresión de la Ec. 6, la del parámetro estimado “j” tipificado, y
multiplicando y dividiendo por σ , tendríamos el siguiente resultado sin alterar la
expresión matemática:
(βˆ
βˆ j − β j
(e' e n − k )a
jj
σ 
= =
σ 
a jj
j
−β
)
j
σ
 e' e 
n − k  σ 2 
=
→ N (0,1)
→ t n −k Ec. 9
→ χ n2−k
En definitiva, aunque en términos teóricos los parámetros estandarizados se
distribuyen como un normal; cuando se incluye el valor estimado de la
desviación típica de la perturbación aleatoria para realizar el cálculo de las
desviaciones de los parámetros, la combinación matemática de la función
resultante se distribuye como un t de student a efectos prácticos.
1
Recuérdese que por hipótesis inicial, habíamos asumido que la U se distribuía como una
normal (0, σ )
2
ECONOMETRÍA I. LADE
Página 3/8
2. Intervalo de confianza de los parámetros
Para determinar ahora los márgenes de variación de los parámetros que hemos
estimado a partir del conocimiento de la función de densidad calculable de estos,
partiremos de la expresión:
βˆ j − β j
→ t n− k
S ( βˆ )
Ec. 10
j
El intervalo quedará conformado, en función del porcentaje de probabilidad que
fijemos, del siguiente modo:
− t εn −/k2 <
βˆ j − β j
< t εn −/k2
ˆ
S (β )
Ec. 11
j
donde es fácil despejar el parámetro real y llegar al siguiente resultado:
[
]
Pr βˆ j − S (βˆ j )t εn −/k2 < β j < βˆ j + S (βˆ j )t εn −/k2 = 1 − ε
Ec. 12
que, a efectos de cálculo para cada parámetro estimado “j”, se escribiría como:
[
]
Pr βˆ j − σˆ a jj t εn −/k2 < β j < βˆ j + σˆ a jj t εn −/k2 = 1 − ε
Ec. 13
En definitiva, con la expresión de la ecuación 13 podremos determinar, para el
nivel de confianza ε deseado y gracias a las tablas de la t-student, en qué
intervalo se moverá el valor real del parámetro que hemos estimado.
EJEMPLO 1(a):
Si estimamos un modelo de demanda de un bien en función de su precio del tipo:
Dt = α 0 + α 1 Pt + U t
n=25
y obtenemos un valor estimado del parámetro de interés de, por ejemplo, αˆ 1 = −0,5 y
una desviación típica de este igual a S (αˆ1 ) = 0,02 , para conocer entre qué valores
estará realmente el valor de dicho parámetro con un 95% de confianza, escribimos el
intervalo de confianza de la ecuación 13 como:
[
]
0, 05 / 2
Pr − 0,5 − 0,02t 25
< α1 < −0,5 + 0,02t 025,−052 / 2 = 1 − 0,05
−2
t 0 ,05 / 2
donde el valor de tablas de la t-student de 25− 2 es 2,068, luego el valor real del
parámetro que multiplica a los precios estará, con un 95% de confianza entre:
ECONOMETRÍA I. LADE
Página 4/8
[
]
0, 05 / 2
Pr − 0,5 − 0,02t 25
< α1 < −0,5 + 0,02t 025,−052 / 2 = 1 − 0,05
−2
O, dicho de otra forma, cada punto que aumenten los precios, con una probabilidad del
95%, dará lugar a una reducción de la demanda de entre -0,541 y –0,458 puntos.
Evidentemente, esta medida nos dará idea, en cierto modo, del grado de validez del
modelo que estamos empleando, siendo obvio que cuanto mayor sea el intervalo en el
que se mueva el intervalo del parámetro, más precaria o imprecisa será la utilidad del
modelo para hacer análisis estructural, simulación o predicción.
3. Contraste T-estadística
Ya ha quedado plenamente demostrado que los parámetros estandarizados, cuando
se cumplen las hipótesis realizadas sobre el MBRL, se distribuyen como una t-student
acotada por sus correspondientes valores tabulados en función del nivel de confianza
elegido:
ε /2
− t n −k
βˆ j − β j
<
< t nε−/k2
ˆ
S (β )
Ec. 14
j
Esta característica de los parámetros estimados en el MBRL debe cumplirse en
cualquier caso, lo que nos permite plantear distintas hipótesis sobre dichos parámetros
y juzgar su verosimilitud o no en la medida en que sean compatibles con el
cumplimiento de esta característica.
De entre las hipótesis más comunes que se pueden realizar, destaca la que nos
servirá para comprobar en qué medida podríamos asumir que el verdadero valor de un
parámetro concreto es igual o cero o no. Es decir, podríamos plantear H 0 ( β j = 0) y
trasladarla a la expresión anterior (ecuación 14) del siguiente modo:
t exp erimental =
βˆ j − 0
S ( βˆ )
j
Si la hipótesis planteada de nulidad del parámetro “j” es compatible con la realidad, el
valor del estadístico empírico calculado debe seguir entre los valores que las tablas de
la t-student nos indican que se encuentra algo que como tal se distribuye para el nivel
de confianza elegido, de tal forma que:
βˆ j − 0
> t εn −/k2
ˆ
S (β )
deberé rechazar la hipótesis nula planteada.
βˆ j − 0
< t εn −/k2
ˆ
S (β )
deberé aceptar la hipótesis nula planteada.
j
j
ECONOMETRÍA I. LADE
Página 5/8
En definitiva, el contraste t-student de significatividad individual de los
parámetros me servirá para juzgar si se debe incluir o no una variable en la
especificación del modelo, en la medida en que si el verdadero valor del
parámetro fuera igual a cero está claro que la importancia de dicha variable para
explicar a la endógena sería nula, y viceversa.
En cualquier caso, durante el proceso de modelización hasta llegar a la expresión final
de la ecuación, es frecuente que nos encontremos con parámetros estadísticamente
no significativos que, posteriormente, sí lo serán. La razón más habitual para que se
dé este hecho es la inclusión de variables repetidas o irrelevantes en el modelo.
Recordemos que, tal y como se ha visto que se calcula la desviación típica de los
parámetros, el número de grados de libertad es fundamental para aumentar o
disminuir los resultados de la t-student. Al estar dividiendo la expresión, si los grados
de libertad no son los suficientes (porque la muestra es pequeña o porque “k” es
elevado al haberse incluido variables sobrantes), los valores de la t-student serán más
bajos que los que resultarían si elimináramos dicho problema, siendo más fácil que
rechacemos falsamente la validez de un parámetro (errores tipo II). A sensu contrario,
en un modelo en que faltarán variables relevantes, los primeros análisis podrían dar
lugar a valores significativos de las variables presentes que, después de incluir las
ausentes inicialmente, podrían dejar de ser significativas. En definitiva, la
especificación correcta del modelo en cuanto a la incluisión-exclusión de variables
vuelve a ser un factor fundamental para dotar de validez a estos contrastes.
Por último, si bien es verdad que a partir de cierto número de grados de libertad un
valor experimental de la t superior a dos nos permite asegurar con un 95% de
confianza o más que el parámetro es significativo, lo dicho anteriormente nos hace ser
especialmente cautelosos cuando no contamos con esos “suficientes grados de
libertad”, siendo imprescindible recurrir al valor específico de las tablas para nuestro
caso concreto. En cualquier caso, casi todos los programas estadísticos de regresión
suelen incluir, además del cálculo de la t-experimental, el valor de la probabilidad de
aceptación de la hipótesis nula de este contraste. ES RECOMENDABLE ATENDER
SIEMPRE AL VALOR INDICADO EN LA PROBABILIDAD PARA DETERMINAR LA
VALIDEZ O NO DE UN PARÁMETRO DETERMINADO.
EJEMPLO 1(b):
Siguiendo con los datos del recuadro anterior, podríamos contrastar la significatividad
individual del parámetro de la variable precios a partir del cálculo de la t-experimental,
que resultaría del siguiente modo:
t exp erimental =
αˆ 1
− 0,5
=
= 25
s (αˆ1 )
0,02
y, al ser 25 superior al valor tabulado de la t-student con (25-2)=23 grados de libertad y
para el 95% de probabilidad, nos serviría para rechazar la hipótesis nula de
H 0 (αˆ1 = 0) ; es decir se demuestra que es significativa con una probabilidad del 95%.
Dicho de otra forma menos académica, “la variable precio en el modelo propuesto
serviría para explicar la demanda”.
ECONOMETRÍA I. LADE
Página 6/8
EJEMPLO DOS:
UTILIZANDO LA T PARA CONFIRMAR O RECHAZAR EL CRECIMIENTO TENDENCIAL DE
UNA ACCIÓN EN LA BOLSA
Desde hace varios años es frecuente oír hablar en los artículos científicos de la Tasa de
Crecimiento Tendencial Estimada para analizar de un modo estadísticamente contrastable la
existencia o no de un incremento-decremento en la evolución de una serie histórica.
Evidentemente, en una serie cronológica de datos cabe que, de una observación a otra y de un
modo más o menos coyuntural, se produzca una caída en la variable, aunque se sospeche que,
en todo el recorrido se puede hablar de un crecimiento claro de la misma. Para contrastar
estadísticamente este hecho se utiliza la Tasa de Crecimiento Tendencial Estimada según el
siguiente planteamiento:
Matemáticamente es posible calcular la tasa de crecimiento medio acumulada entre dos períodos
diferentes de tiempo a partir de la media geométrica. Dicho de otra forma, se puede calcular a que
tasa de crecimiento constante durante n períodos tendría que haber crecido una serie histórica
para que, partiendo de su valor inicial, se llegue al valor final. Este concepto se emplea
frecuentemente en economía financiera cuando se habla de los tipos de interés compuestos,
donde se van acumulando capitales:
C finanl = C inicial (1 + i) + (C inicial (1 + i) )(1 + i) + .... = C inicial (1 + i) n
Esta fórmula, trasladada a que el “interés” no es otra cosa que la tasa de crecimiento medio
acumulado, nos permitiría despejar dicho crecimiento, tomando logaritmos, como:
   C finanl
 

  log
C inicial   


 −1 = i
exp 


n




y así obtendríamos, a partir de un valor inicial y otro final de una magnitud, cuál debiera haber sido
su crecimiento medio durante “n” períodos para haber concluido en el valor final; pero, entre
medias, podría haber habido valores positivos y negativos y la tasa acumulada, siempre
calculable, no nos diría si se puede confirmar o no un crecimiento o un decrecimiento.
Para obtener un medio de contrastar este hecho, se puede plantear un modelo de regresión del
siguiente tipo:
Log 

yt
 = α tendencia +U
1
t
t
y1 
Al estimar este modelo, el valor del parámetro nos dará una visión más verosímil del crecimiento
medio experimentado durante todo el período que aquella que surge de la comparación única y
exclusivamente del primer valor con el último (el caso del crecimiento acumulado medio anterior).
Además, al poder valorar estadísticamente la significatividad de dicho parámetro, podremos
decidir si se puede dar crédito o no al resultado matemáticamente obtenido.
Realizando estos cálculos con una serie de números, obtendríamos los siguientes resultados que
pueden ilustrar mejor lo antedicho:
ECONOMETRÍA I. LADE
Página 7/8
Período Tendencia Valor acción Cto. Interp.
Enero
1
3
Febrero
2
8
167%
Marzo
3
13
63%
Abril
4
18
38%
Mayo
5
23
28%
Junio
6
20
-13%
Julio
7
25
25%
Agosto
8
30
20%
Septiembre
9
26
-13%
Octubre
10
31
19%
Noviembre
11
36
16%
Cto. Medio acum.
Modelo cto. Estimado
3*(1+0,28)
8*(1+0,28)
13*(1+0,28)
18*(1+0,28)
23*(1+0,28)
20*(1+0,28)
25*(1+0,28)
30*(1+0,28)
26*(1+0,28)
31*(1+0,28)
3*(1+alpha) =
8*(1+alpha) =
13*(1+alpha) =
18*(1+alpha) =
23*(1+alpha) =
20*(1+alpha) =
25*(1+alpha) =
30*(1+alpha) =
26*(1+alpha) =
31*(1+alpha) =
=
=
=
=
=
=
=
=
=
=
3,85
4,93
6,32
8,11
10,39
13,32
17,08
21,90
28,08
36,00
3,4
9,0
14,5
20,1
25,7
22,4
28,0
33,6
29,1
34,7
Como se puede ver, la evolución de la acción ha tenido momentos de caída y de subida durante
los meses de enero a noviembre. Aún así, se podría calcular como medida resumen del período la
tasa de crecimiento acumulada, respondiendo a la fórmula anteriormente expuesta. El resultado
sería:
  Valor finanl
 
  
  log
 log 36
Valor
inicial  
 
3
 − 1 = exp 

Cto. = exp


11

n





( ( )) − 1 = 28%


Como se comentaba anteriormente, esta tasa nos permite calcular qué valor de crecimiento
constante tendría que haber tenido cada período para que, partiendo de “3” se llegara a “36” en 11
períodos; obviándose todos los períodos intermedios, sin poder realizar ningún juicio crítico sobre
la credibilidad de este crecimiento.
El modelo del crecimiento tendencial propuesto ofrece, con estos datos, los siguientes resultados
en la estimación por MCO:
Log 

yt
 = 0,1191 * tendencia + e
t
t
y1 
α̂1 es la siguiente: S (αˆ1 ) = 0, 00952 y la t-experimental
αˆ 1
0,1191
calculable es por tanto
=
= 12,50 . Para los grados de libertad disponibles (11s(αˆ1 ) 0,00952
La desviación típica del parámetro
1=10), el valor tabulado de la t-student con el 95% de confianza es 2,228. Como la t-experimental
(12,50) es claramente superior a la de tablas, podemos concluir que el parámetro es significativo
o, dicho de otra forma, que con un 95% de probabilidades, podemos admitir que se produce un
crecimiento medio significativo en el valor de esa acción y que, además, dicho crecimiento
es del 11,91%.
Para contrastar el mayor poder explicativo de este sistema, considérense ahora los siguientes
datos sobre la evolución de la acción del ejemplo anterior:
Período
Enero
Febrero
Tendencia Valor acción Cto. Interp.
1
3
2
8
167%
Cto. Medio acum.
3*(1+Tasa) =
3,85
Modelo cto. Estimado
3*(1+alpha) =
3,1
ECONOMETRÍA I. LADE
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
3
4
5
6
7
8
9
10
11
Página 8/8
4
9
3
2
1
8
2
7
36
-50%
125%
-67%
-33%
-50%
700%
-75%
250%
414%
8*(1+Tasa) =
4*(1+Tasa) =
9*(1+Tasa) =
3*(1+Tasa) =
2*(1+Tasa) =
1*(1+Tasa) =
8*(1+Tasa) =
2*(1+Tasa) =
7*(1+Tasa) =
4,93
6,32
8,11
10,39
13,32
17,08
21,90
28,08
36,00
8*(1+alpha) =
4*(1+alpha) =
9*(1+alpha) =
3*(1+alpha) =
2*(1+alpha) =
1*(1+alpha) =
8*(1+alpha) =
2*(1+alpha) =
7*(1+alpha) =
8,3
4,1
9,3
3,1
2,1
1,0
8,3
2,1
7,2
La tasa de crecimiento medio acumulado, vulgarmente utilizada, tendría el mismo valor, ya que los
valores final e inicial no han sido modificados: 28%.
Sin embargo, ahora la tasa de crecimiento media estimada según el modelo por MCO ofrecería
los siguientes resultados:
Log 

yt
 = 0,031 * tendencia +e
t
t
y1 
La desviación típica del parámetro α̂1 es la siguiente: S (αˆ1 ) = 0,019 y la t-experimental calculable
es por tanto
αˆ 1
0,031
=
= 1,658 . Para los grados de libertad disponibles (11-1=10), el valor
s(αˆ1 ) 0,019
tabulado de la t-student con el 95% de confianza es 2,228. Como la t-experimental (1,658) es
claramente inferior a la de tablas, podemos concluir que el parámetro no es significativo o, dicho
de otra forma, que no podemos afirmar con un 95% de probabilidades que haya un
crecimiento estadísticamente significativo en los valores de la acción.
Descargar