APUNTES DE CLASE ECONOMETRÍA I UDI ECONOMETRÍA E INFORMÁTICA Prof. Ramón Mahía ramon.mahia@uam.es HIPÓTESIS ESTRUCTURALES: MUESTRAS PEQUEÑAS 1 - Como todo ejercicio de inferencia estadística, y el análisis econométrico lo es, el tamaño del conjunto de datos utilizados condiciona la fiabilidad de los resultados. - Debe señalarse, en el caso concreto de la modelización econométrica, que el asunto de interés no es tanto el número de datos disponibles “n”, sino el tamaño muestral en relación con el número de parámetros a estimar en el ejercicio global de análisis, es decir, los grados de libertad “n-k”. - Más allá de las implicaciones técnicas concretas, debe resaltarse la inconsistencia conceptual de un ejercicio de inferencia elaborado sobre la base de una muestra pequeña de información; el ejercicio econométrico es un ejercicio de exploración de una muestra de datos que debe reflejar una estructura poblacional de relaciones desconocida, parece pues evidente que la utilización de una muestra reducida se contrapone con el deseo de aproximar, en la mayor medida posible la estructura real del fenómeno analizado. - Analíticamente, lo anterior se refleja en muchos casos de forma muy evidente complicando el contraste estadístico de hipótesis. La aplicación de contrastes en la etapa de evaluación de los resultados de un modelo es siempre un ejercicio en el que el valor obtenido en los contrastes (“t”, “F”, “Chi”….) se compara siempre con el valor teórico señalado por las tablas de distribución estadística de las distribuciones correspondientes con el fin de aceptar o rechazar la hipótesis nula de turno. En la selección de esa valor de tablas el número de grados de libertad del modelo “N-k” determina el valor dado un determinado nivel de confianza: el valor de tablas, de referencia para cualquier contraste se vuelve más exigente cuantos menos grados de libertad hemos empleado para la estimación. - En este sentido, en presencia de escasos grados de libertad, los ejercicios de contraste de parámetros son siempre menos concluyentes: las varianzas de los parámetros estimados son demasiado amplias y los valores críticos de tablas muy elevados, por tanto, los intervalos de variación obtenidos para enmarcar los valores de los parámetros reales son igualmente amplios, impidiendo el rechazo de la hipótesis nula contrastada aún cuando esto sea cierto (elevado porcentaje de errores de tipo II).1 - Además de problemas operativos asociados, como se dijo, al contraste de hipótesis, un escaso tamaño muestral pone en cuestión algunas de las virtudes expuestas para el MBRL estimado por MCO, en concreto, todos aquellos que como la consistencia de los estimadores, se formulan y derivan en el contexto teórico de un tamaño muestral elevado. Ver ejercicio de Montecarlo sobre esta cuestión realizado M..S. Common (1976) y reproducido íntegramente, entre otros textos, en el libro Modelos Econométricos de Antonio Pulido y Julián Pérez, pg. 405. - Dadas las premisas anteriores, la conclusión que podría extraerse sería aparentemente simple: el analista debe garantizar la mayor cantidad de información posible, el tamaño muestral más amplio, ya que de ese modo evitaremos los problemas. Sin embargo, esta afirmación merece algunas matizaciones: o La cuestión del tamaño muestral debe estar siempre en relación con el concepto de variabilidad: a mayor variabilidad observada en la realidad, mayor debe ser el tamaño de la muestra seleccionada para representarla. No hay, por tanto, receta válida alguna: ni 15, ni 20, ni 10 grados de libertad,…. el analista debe tener la suficiente sensibilidad como para determinar si la muestra de datos seleccionada permite garantizar una mínima fiabilidad al ejercicio econométrico. o Ni siempre hay muestras de datos amplias disponibles para el análisis, bien por defectos en el sistema estadístico, bien por que el fenómeno analizado es relativamente reciente2 o, estructuralmente, por definición, de dimensiones reducidas.3 o En ocasiones, aún existiendo información histórica amplia, no interesa recopilarla desde el inicio de los datos ya que corremos el riesgo de mezclar estructuras de análisis diferentes cuando, en realidad, quizá nos interese analizar la realidad actual o más reciente sin “mezclar” esta realidad, con períodos lejanos en el tiempo cuya estructura o dinámica se ha abandonado ya y carece, por tanto, de interés analítico4. o En modelos temporales, la utilización de frecuencias de datos elevadas (trimestrales, mensuales, semanales) garantiza un elevado número de observaciones. Sin embargo, la selección de datos de alta frecuencia sólo tiene sentido si el análisis es un análisis de alta frecuencia en el que interesa la dinámica más reciente del fenómeno (por ejemplo, los últimos 28 trimestres) pero no es una estrategia válida si se utiliza con el único fin de “inflar” artificialmente la muestra de datos5 aún cuando el análisis de base es un análisis que exigiría una muestra de datos que recogiese el medio o el largo plazo de un determinado fenómeno. o La utilización de datos de panel (es decir, muestras combinadas de observaciones temporales y transversales) es una estrategia que, en línea con lo señalado en el punto anterior, permite reunir con facilidad amplios conjuntos de datos. Nuevamente, sin embargo, sólo tiene sentido como estrategia de selección muestral si está justificada 2 Suponga, por ejemplo, que debe realizar un análisis de los efectos de la incorporación de los 10 nuevos países del este en la Unión Europea. 3 Así, por ejemplo, si deseamos realizar un análisis transversal sobre los efectos diferenciales de la inversión extranjera en el 2002 en los distintos países del MERCOSUR, no podremos tener una muestra de 20 datos dado que sólo hay 4 países en esa asociación de libre mercado. 4 Por ejemplo, aunque podríamos disponer de series de comercio exterior desde hace casi 50 años, lo cierto es que la estructura del comercio exterior actual no tiene demasiado que ver con la de hace 25 años lo cual aconsejaría reducir el “foco” del análisis a un período más reciente. 5 No es poco habitual que un analista que quiere, por ejemplo, realizar un análisis de convergencia (esencialmente a largo plazo) haga algo como esto: dado que sólo tengo 5 años para el análisis, y son pocos, tomo datos mensuales y así tengo 60 observaciones para cada serie. La realidad es que este investigador sigue disponiendo sólo de 5 años y, por tanto, poco o nada podrá decir sobre el proceso de convergencia, un proceso que se observa, quizá, a lo largo de 10 o 15 años. Es como tener 5 observaciones repetidas 12 veces cada una; es, ridiculizando la idea, como tener sólo 5 encuestados pero haber preguntado a cada uno lo mismo 12 veces: ¿se tienen 60 respuestas?. analíticamente: es decir, si el interés del analista se centra tanto en la dinámica temporal del fenómeno como en su dinámica transversal6. o 6 Ante un reducido número de grados de libertad, y agotada la vía de aumentar “n” siempre cabe la posibilidad de intentar disminuir “k”. En principio, y más allá de la cuestión del tamaño muestral, reducir al máximo el número de variables relevantes es siempre, por razones de utilidad del instrumento econométrico, un consejo a tener en cuenta. Además de una cuidada selección de variables relevantes que permita reducir al máximo el número de parámetros a estimar, existen procedimientos de combinación de variables que permiten “comprimir” el conjunto de variables sin renunciar a una excesiva variabilidad (análisis factorial, por ejemplo) . Si decido tomar datos de los países del MERCOSUR (4 países) a lo largo de los últimos 5 años, tendría 20 observaciones para cada variable. Este conjunto de datos tiene interés si se desea observar la dinámica de, por ejemplo, la inversión extranjera, en lo referente a su evolución temporal y en lo referente a las diferencias en su comportamiento en los distintos países. Si sólo interés la cuestión temporal o sólo al transversal, el conjunto de datos de panel podría resolver algunas deficiencias analíticas pero sería conceptualmente poco defendible.