ECONOMETRÍA I. LADE Página 1/8 APUNTES DE CLASE Profesor Rafael de Arce rafael.dearce@uam.es CONTRASTES DE SIGNIFICATIVIDAD INDIVIDUAL DE LOS PARÁMETROS 1. Introducción 2. Intervalo de confianza de los parámetros 3. Contraste T-estadística 1. Introducción Una vez especificado el modelo correctamente, evidentemente es relevante determinar la importancia de cada variable explicativa elegida para marcar la evolución de la endógena; es decir, estimar el valor de los parámetros. Dado el carácter aleatorio del modelo econométrico, dicha estimación no ofrece un cálculo exacto como resultado, sino un valor aleatorio que, como tal, tendrá un rango de variación determinado por su función de densidad. Conocidas las buenas propiedades del estimador de los parámetros que hemos propuesto, deducidos tanto por MCO como por Máxima Verosimilitud a partir de la siguiente fórmula, −1 βˆ = [ X ' X ] X ' Y Ec. 1 habíamos llegado a la conclusión de que dicho estimador se podía escribir como una combinación lineal de la perturbación aleatoria, simplemente sustituyendo en la fórmula anterior la endógena por su valor: Y = Xβ + U βˆ = β + [ X ' X ]−1 X 'U Ec. 2 de donde, obviamente, como combinación lineal de una variable aleatoria que se distribuye como una normal (las U’es por hipótesis), podemos concluir que los parámetros estimados según este procedimiento también se distribuirán como una normal, de la que ya conocemos sus momentos de primer y segundo orden; ya que los utilizamos para demostrar su insesgadez y eficiencia: E ( βˆ ) = β cov − var( βˆ ) = [ X ' X ]−1 σ 2 Ec. 3 luego los parámetros se distribuirán como una normal del tipo: −1 βˆ → N ( β ;[ X ' X ] σ 2 ) Ec. 4 En la práctica, la utilización de esta expresión exige la estimación de la varianza de la perturbación aleatoria para poder realizar el cálculo de las varianzas de los parámetros estimados. Ya se demostró que la estimación insesgada de dicha varianza responde al siguiente cálculo: ECONOMETRÍA I. LADE Página 2/8 n ei2 ∑ e e ' = i =1 σˆ 2 = n−k n−k Ec. 5 Incluyendo este estimador en la expresión de los parámetros tipificados (restada su media y divididos por su desviación típica), obtenemos una nueva expresión útil para poder determinar los intervalos de confianza de dichos parámetros: βˆ j − β j βˆ j − β j = = S ( βˆ j ) σˆ a jj βˆ j − β j (e' e n − k )a Ec. 6 jj donde denominamos a jj al elemento fila “j” columna “j” de la matriz [X ' X ] , con lo −1 que el producto de este término por σˆ 2 no es otra cosa que la varianza del parámetro estimado “j” (donde j=1...k). Como se demostró anteriormente, e' e = U ' MU Ec. 7 De esta expresión, es fácil comprobar que, dividiendo por la varianza de la perturbación aleatoria, tendríamos una función que se distribuye como una chicuadrado con (n-k) grados de libertad: e' e U ' MU U ' U ' = = M σ2 σ2 σ σ Ec. 8 ya que se trata de la suma de (n-k) normales (0,1) al cuadrado independientes 1. Volviendo a la expresión de la Ec. 6, la del parámetro estimado “j” tipificado, y multiplicando y dividiendo por σ , tendríamos el siguiente resultado sin alterar la expresión matemática: (βˆ βˆ j − β j (e' e n − k )a jj σ = = σ a jj j −β ) j σ e' e n − k σ 2 = → N (0,1) → t n −k Ec. 9 → χ n2−k En definitiva, aunque en términos teóricos los parámetros estandarizados se distribuyen como un normal; cuando se incluye el valor estimado de la desviación típica de la perturbación aleatoria para realizar el cálculo de las desviaciones de los parámetros, la combinación matemática de la función resultante se distribuye como un t de student a efectos prácticos. 1 Recuérdese que por hipótesis inicial, habíamos asumido que la U se distribuía como una normal (0, σ ) 2 ECONOMETRÍA I. LADE Página 3/8 2. Intervalo de confianza de los parámetros Para determinar ahora los márgenes de variación de los parámetros que hemos estimado a partir del conocimiento de la función de densidad calculable de estos, partiremos de la expresión: βˆ j − β j → t n− k S ( βˆ ) Ec. 10 j El intervalo quedará conformado, en función del porcentaje de probabilidad que fijemos, del siguiente modo: − t εn −/k2 < βˆ j − β j < t εn −/k2 ˆ S (β ) Ec. 11 j donde es fácil despejar el parámetro real y llegar al siguiente resultado: [ ] Pr βˆ j − S (βˆ j )t εn −/k2 < β j < βˆ j + S (βˆ j )t εn −/k2 = 1 − ε Ec. 12 que, a efectos de cálculo para cada parámetro estimado “j”, se escribiría como: [ ] Pr βˆ j − σˆ a jj t εn −/k2 < β j < βˆ j + σˆ a jj t εn −/k2 = 1 − ε Ec. 13 En definitiva, con la expresión de la ecuación 13 podremos determinar, para el nivel de confianza ε deseado y gracias a las tablas de la t-student, en qué intervalo se moverá el valor real del parámetro que hemos estimado. EJEMPLO 1(a): Si estimamos un modelo de demanda de un bien en función de su precio del tipo: Dt = α 0 + α 1 Pt + U t n=25 y obtenemos un valor estimado del parámetro de interés de, por ejemplo, αˆ 1 = −0,5 y una desviación típica de este igual a S (αˆ1 ) = 0,02 , para conocer entre qué valores estará realmente el valor de dicho parámetro con un 95% de confianza, escribimos el intervalo de confianza de la ecuación 13 como: [ ] 0, 05 / 2 Pr − 0,5 − 0,02t 25 < α1 < −0,5 + 0,02t 025,−052 / 2 = 1 − 0,05 −2 t 0 ,05 / 2 donde el valor de tablas de la t-student de 25− 2 es 2,068, luego el valor real del parámetro que multiplica a los precios estará, con un 95% de confianza entre: ECONOMETRÍA I. LADE Página 4/8 [ ] 0, 05 / 2 Pr − 0,5 − 0,02t 25 < α1 < −0,5 + 0,02t 025,−052 / 2 = 1 − 0,05 −2 O, dicho de otra forma, cada punto que aumenten los precios, con una probabilidad del 95%, dará lugar a una reducción de la demanda de entre -0,541 y –0,458 puntos. Evidentemente, esta medida nos dará idea, en cierto modo, del grado de validez del modelo que estamos empleando, siendo obvio que cuanto mayor sea el intervalo en el que se mueva el intervalo del parámetro, más precaria o imprecisa será la utilidad del modelo para hacer análisis estructural, simulación o predicción. 3. Contraste T-estadística Ya ha quedado plenamente demostrado que los parámetros estandarizados, cuando se cumplen las hipótesis realizadas sobre el MBRL, se distribuyen como una t-student acotada por sus correspondientes valores tabulados en función del nivel de confianza elegido: ε /2 − t n −k βˆ j − β j < < t nε−/k2 ˆ S (β ) Ec. 14 j Esta característica de los parámetros estimados en el MBRL debe cumplirse en cualquier caso, lo que nos permite plantear distintas hipótesis sobre dichos parámetros y juzgar su verosimilitud o no en la medida en que sean compatibles con el cumplimiento de esta característica. De entre las hipótesis más comunes que se pueden realizar, destaca la que nos servirá para comprobar en qué medida podríamos asumir que el verdadero valor de un parámetro concreto es igual o cero o no. Es decir, podríamos plantear H 0 ( β j = 0) y trasladarla a la expresión anterior (ecuación 14) del siguiente modo: t exp erimental = βˆ j − 0 S ( βˆ ) j Si la hipótesis planteada de nulidad del parámetro “j” es compatible con la realidad, el valor del estadístico empírico calculado debe seguir entre los valores que las tablas de la t-student nos indican que se encuentra algo que como tal se distribuye para el nivel de confianza elegido, de tal forma que: βˆ j − 0 > t εn −/k2 ˆ S (β ) deberé rechazar la hipótesis nula planteada. βˆ j − 0 < t εn −/k2 ˆ S (β ) deberé aceptar la hipótesis nula planteada. j j ECONOMETRÍA I. LADE Página 5/8 En definitiva, el contraste t-student de significatividad individual de los parámetros me servirá para juzgar si se debe incluir o no una variable en la especificación del modelo, en la medida en que si el verdadero valor del parámetro fuera igual a cero está claro que la importancia de dicha variable para explicar a la endógena sería nula, y viceversa. En cualquier caso, durante el proceso de modelización hasta llegar a la expresión final de la ecuación, es frecuente que nos encontremos con parámetros estadísticamente no significativos que, posteriormente, sí lo serán. La razón más habitual para que se dé este hecho es la inclusión de variables repetidas o irrelevantes en el modelo. Recordemos que, tal y como se ha visto que se calcula la desviación típica de los parámetros, el número de grados de libertad es fundamental para aumentar o disminuir los resultados de la t-student. Al estar dividiendo la expresión, si los grados de libertad no son los suficientes (porque la muestra es pequeña o porque “k” es elevado al haberse incluido variables sobrantes), los valores de la t-student serán más bajos que los que resultarían si elimináramos dicho problema, siendo más fácil que rechacemos falsamente la validez de un parámetro (errores tipo II). A sensu contrario, en un modelo en que faltarán variables relevantes, los primeros análisis podrían dar lugar a valores significativos de las variables presentes que, después de incluir las ausentes inicialmente, podrían dejar de ser significativas. En definitiva, la especificación correcta del modelo en cuanto a la incluisión-exclusión de variables vuelve a ser un factor fundamental para dotar de validez a estos contrastes. Por último, si bien es verdad que a partir de cierto número de grados de libertad un valor experimental de la t superior a dos nos permite asegurar con un 95% de confianza o más que el parámetro es significativo, lo dicho anteriormente nos hace ser especialmente cautelosos cuando no contamos con esos “suficientes grados de libertad”, siendo imprescindible recurrir al valor específico de las tablas para nuestro caso concreto. En cualquier caso, casi todos los programas estadísticos de regresión suelen incluir, además del cálculo de la t-experimental, el valor de la probabilidad de aceptación de la hipótesis nula de este contraste. ES RECOMENDABLE ATENDER SIEMPRE AL VALOR INDICADO EN LA PROBABILIDAD PARA DETERMINAR LA VALIDEZ O NO DE UN PARÁMETRO DETERMINADO. EJEMPLO 1(b): Siguiendo con los datos del recuadro anterior, podríamos contrastar la significatividad individual del parámetro de la variable precios a partir del cálculo de la t-experimental, que resultaría del siguiente modo: t exp erimental = αˆ 1 − 0,5 = = 25 s (αˆ1 ) 0,02 y, al ser 25 superior al valor tabulado de la t-student con (25-2)=23 grados de libertad y para el 95% de probabilidad, nos serviría para rechazar la hipótesis nula de H 0 (αˆ1 = 0) ; es decir se demuestra que es significativa con una probabilidad del 95%. Dicho de otra forma menos académica, “la variable precio en el modelo propuesto serviría para explicar la demanda”. ECONOMETRÍA I. LADE Página 6/8 EJEMPLO DOS: UTILIZANDO LA T PARA CONFIRMAR O RECHAZAR EL CRECIMIENTO TENDENCIAL DE UNA ACCIÓN EN LA BOLSA Desde hace varios años es frecuente oír hablar en los artículos científicos de la Tasa de Crecimiento Tendencial Estimada para analizar de un modo estadísticamente contrastable la existencia o no de un incremento-decremento en la evolución de una serie histórica. Evidentemente, en una serie cronológica de datos cabe que, de una observación a otra y de un modo más o menos coyuntural, se produzca una caída en la variable, aunque se sospeche que, en todo el recorrido se puede hablar de un crecimiento claro de la misma. Para contrastar estadísticamente este hecho se utiliza la Tasa de Crecimiento Tendencial Estimada según el siguiente planteamiento: Matemáticamente es posible calcular la tasa de crecimiento medio acumulada entre dos períodos diferentes de tiempo a partir de la media geométrica. Dicho de otra forma, se puede calcular a que tasa de crecimiento constante durante n períodos tendría que haber crecido una serie histórica para que, partiendo de su valor inicial, se llegue al valor final. Este concepto se emplea frecuentemente en economía financiera cuando se habla de los tipos de interés compuestos, donde se van acumulando capitales: C finanl = C inicial (1 + i) + (C inicial (1 + i) )(1 + i) + .... = C inicial (1 + i) n Esta fórmula, trasladada a que el “interés” no es otra cosa que la tasa de crecimiento medio acumulado, nos permitiría despejar dicho crecimiento, tomando logaritmos, como: C finanl log C inicial −1 = i exp n y así obtendríamos, a partir de un valor inicial y otro final de una magnitud, cuál debiera haber sido su crecimiento medio durante “n” períodos para haber concluido en el valor final; pero, entre medias, podría haber habido valores positivos y negativos y la tasa acumulada, siempre calculable, no nos diría si se puede confirmar o no un crecimiento o un decrecimiento. Para obtener un medio de contrastar este hecho, se puede plantear un modelo de regresión del siguiente tipo: Log yt = α tendencia +U 1 t t y1 Al estimar este modelo, el valor del parámetro nos dará una visión más verosímil del crecimiento medio experimentado durante todo el período que aquella que surge de la comparación única y exclusivamente del primer valor con el último (el caso del crecimiento acumulado medio anterior). Además, al poder valorar estadísticamente la significatividad de dicho parámetro, podremos decidir si se puede dar crédito o no al resultado matemáticamente obtenido. Realizando estos cálculos con una serie de números, obtendríamos los siguientes resultados que pueden ilustrar mejor lo antedicho: ECONOMETRÍA I. LADE Página 7/8 Período Tendencia Valor acción Cto. Interp. Enero 1 3 Febrero 2 8 167% Marzo 3 13 63% Abril 4 18 38% Mayo 5 23 28% Junio 6 20 -13% Julio 7 25 25% Agosto 8 30 20% Septiembre 9 26 -13% Octubre 10 31 19% Noviembre 11 36 16% Cto. Medio acum. Modelo cto. Estimado 3*(1+0,28) 8*(1+0,28) 13*(1+0,28) 18*(1+0,28) 23*(1+0,28) 20*(1+0,28) 25*(1+0,28) 30*(1+0,28) 26*(1+0,28) 31*(1+0,28) 3*(1+alpha) = 8*(1+alpha) = 13*(1+alpha) = 18*(1+alpha) = 23*(1+alpha) = 20*(1+alpha) = 25*(1+alpha) = 30*(1+alpha) = 26*(1+alpha) = 31*(1+alpha) = = = = = = = = = = = 3,85 4,93 6,32 8,11 10,39 13,32 17,08 21,90 28,08 36,00 3,4 9,0 14,5 20,1 25,7 22,4 28,0 33,6 29,1 34,7 Como se puede ver, la evolución de la acción ha tenido momentos de caída y de subida durante los meses de enero a noviembre. Aún así, se podría calcular como medida resumen del período la tasa de crecimiento acumulada, respondiendo a la fórmula anteriormente expuesta. El resultado sería: Valor finanl log log 36 Valor inicial 3 − 1 = exp Cto. = exp 11 n ( ( )) − 1 = 28% Como se comentaba anteriormente, esta tasa nos permite calcular qué valor de crecimiento constante tendría que haber tenido cada período para que, partiendo de “3” se llegara a “36” en 11 períodos; obviándose todos los períodos intermedios, sin poder realizar ningún juicio crítico sobre la credibilidad de este crecimiento. El modelo del crecimiento tendencial propuesto ofrece, con estos datos, los siguientes resultados en la estimación por MCO: Log yt = 0,1191 * tendencia + e t t y1 α̂1 es la siguiente: S (αˆ1 ) = 0, 00952 y la t-experimental αˆ 1 0,1191 calculable es por tanto = = 12,50 . Para los grados de libertad disponibles (11s(αˆ1 ) 0,00952 La desviación típica del parámetro 1=10), el valor tabulado de la t-student con el 95% de confianza es 2,228. Como la t-experimental (12,50) es claramente superior a la de tablas, podemos concluir que el parámetro es significativo o, dicho de otra forma, que con un 95% de probabilidades, podemos admitir que se produce un crecimiento medio significativo en el valor de esa acción y que, además, dicho crecimiento es del 11,91%. Para contrastar el mayor poder explicativo de este sistema, considérense ahora los siguientes datos sobre la evolución de la acción del ejemplo anterior: Período Enero Febrero Tendencia Valor acción Cto. Interp. 1 3 2 8 167% Cto. Medio acum. 3*(1+Tasa) = 3,85 Modelo cto. Estimado 3*(1+alpha) = 3,1 ECONOMETRÍA I. LADE Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre 3 4 5 6 7 8 9 10 11 Página 8/8 4 9 3 2 1 8 2 7 36 -50% 125% -67% -33% -50% 700% -75% 250% 414% 8*(1+Tasa) = 4*(1+Tasa) = 9*(1+Tasa) = 3*(1+Tasa) = 2*(1+Tasa) = 1*(1+Tasa) = 8*(1+Tasa) = 2*(1+Tasa) = 7*(1+Tasa) = 4,93 6,32 8,11 10,39 13,32 17,08 21,90 28,08 36,00 8*(1+alpha) = 4*(1+alpha) = 9*(1+alpha) = 3*(1+alpha) = 2*(1+alpha) = 1*(1+alpha) = 8*(1+alpha) = 2*(1+alpha) = 7*(1+alpha) = 8,3 4,1 9,3 3,1 2,1 1,0 8,3 2,1 7,2 La tasa de crecimiento medio acumulado, vulgarmente utilizada, tendría el mismo valor, ya que los valores final e inicial no han sido modificados: 28%. Sin embargo, ahora la tasa de crecimiento media estimada según el modelo por MCO ofrecería los siguientes resultados: Log yt = 0,031 * tendencia +e t t y1 La desviación típica del parámetro α̂1 es la siguiente: S (αˆ1 ) = 0,019 y la t-experimental calculable es por tanto αˆ 1 0,031 = = 1,658 . Para los grados de libertad disponibles (11-1=10), el valor s(αˆ1 ) 0,019 tabulado de la t-student con el 95% de confianza es 2,228. Como la t-experimental (1,658) es claramente inferior a la de tablas, podemos concluir que el parámetro no es significativo o, dicho de otra forma, que no podemos afirmar con un 95% de probabilidades que haya un crecimiento estadísticamente significativo en los valores de la acción.