TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) PROCEDIMIENTOS ESTADISTICOS CONSTRUCCION DE MODELOS DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS Cada procedimiento es aplicable a un tipo particular de datos en una situación determinada. No importa tanto conocer los detalles del funcionamiento de cada técnica (ordenadores) como entender en términos generales qué hace y por qué. En estos caracteres se basa la elección del procedimiento. Algunos de los procedimientos más usuales son: - - - Posición de una muestra: Dada una muestra univariante, planteamos estimar la media poblacional. Podemos calcular una estimación puntual o, m ejor, un intervalo. Podemos construir un contraste de significación para la hipótesis de que la media poblacional sea igual a un valor predeterminado. Posición en dos muestras: Dadas dos muestras independientes, ¿cuál es la diferencia que existe entre las medias poblacionales? ¿es significativa la diferencia? Problemas de regresión: Dadas las observaciones de una variable respuesta, Y, y de un conjunto de variables impulso (X's), se trata de encontrar una curva que permita predecir Y a partir de las X's. Análisis de series temporales: Predecir una serie temporal en función de su propia historia o/y de los valores presentes y pasados de otras variables relacionadas. ANOVA (Análisis de la varianza): Dadas las observaciones de una variable respuesta, su variabilidad total se descompone en un conjunto de "efectos" atribuibles a las variables impulso y a sus combinaciones (interacciones). Técnicas multivariantes de reducción de datos, de agrupación, de discriminación. Técnicas para datos categóricos. Es importante decidir si se utiliza un enfoque paramétrico, que implica modelización y, por tanto,- abundantes hipótesis sobre las características de las Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo distribuciones de probabilidad utilizadas, o un enfoque no paramétrico que se caracteriza por hacer tan pocas asunciones como sea posible). ELECCION DEL PROCEDIMIENTO ADECUADO Elegir el procedimiento adecuado resulta difícil, en especial para el analista poco experimentado. Asumimos que ha sido realizado un IDA y que las conclusiones todavía no están claras. - ¿Qué estamos buscando? (objetivos) ¿Cuáles son los resultados mas importantes del IDA? ¿Hay información adicional? ¿Hemos resuelto problemas similares? ¿Alguien lo ha hecho? ¿Hemos visto problemas similares en los libros? ¿Puede reformularse el problema de manera que sea más sencillo? Algunos comentarios generales: 1. Hay que estar preparado para aplicar más de un método de análisis al mismo conjunto de datos 2. No es adecuado utilizar un método determinado sólo porque estemos familiarizados con el 3. Hay que estar preparado para mirar el problema desde distintas perspectivas ("pensamiento lateral") 4. Hay que estar dispuesto a realizar modificaciones ad hoc de las técnicas de análisis para recoger las características propias del problema a estudio 5. No es posible conocer al detalle todas las técnicas, pero hay que saber donde buscarlas 6. En igua!dad de condiciones (!) preferimos los métodos sencillos a los complicados, pero no debemos ser simplistas. Hasta los estadísticos más experimentados eligen en ocasiones un método de análisis inapropiado. Incluso cuando se elige el método apropiado, este puede ser aplicado de manera incorrecta. En caso de duda, conviene utilizar varios métodos y estudiar los conclusiones con cuidado. 2.- LA MODELIZACION Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo Un modelo es una representación simplificada de la realidad que recoge los aspectos fundamentales de la misma que tiene interés para los objetivos del investigador o analista. Su elección adecuada depende de los objetivos que el investigador se proponga es decir: • De las respuestas que pretenda contestar tras el planteamiento del mismo • Un modelo no debe ignorar ninguna de las variables cuya influencia sea importante • Debe ser fácil de interpretar. Y= g ( X ) g. es una función exacta (sentido matemático) ¿Qué forma tiene esta función? Si pensamos en relaciones empíricas los valores concretos que valla tomando Y y X determinaran la forma de g. (muestra ---- Distribución Estadística). ¿ COMO CONJUGAR LAS RELACIONES MATEMATICAS CON LAS DISTRIBUCIONES ESTADISTICAS QUE SON LOS VALORES DE LAS VARIABLES OBSERVADAS? Aunque el IDA es importante, y puede ser suficiente en ocasiones, normalmente es considerado como un prerrequisito para un análisis basado en modelos probabilísticos que requiere procedimientos inferenciales. Incluye la estimación de parámetros del modelo y el contraste de hipótesis. La inferencia se basa en modelos probabilísticos. Es necesario comprender las ventajas y limitaciones de este enfoque. Todos los modelos son erróneos, pero algunos son útiles. Se trata de obtener la mayor cantidad de información eligiendo un modelo que describa los aspectos relevantes del fenómeno bajo estudio. Objetivos de la modernización: • Representar de manera compacta uno o varios conjuntos de observaciones. Por "compacto" entendemos que el modelo debe Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo • • • • • ser tan simple como sea posible (y con tan pocos parámetros como sea posible). Comparar distintos conjuntos de observaciones (países, periodos) Confirmar o refutar una relación teórica establecida a priori Describir las propiedades de la componente aleatoria. Esto permite hacer inferencias (de la muestra-resíduo a la población) y garantizar la precisión de las estimaciones y la confianza en las conclusiones. Hacer predicciones de la evolución futura de las variables Hacer simulación (cómo afectan al comportamiento del output los cambios en la forma-sistema o en la estructura-parámetros del modelo) La "bondad de ajuste a un conjunto predeterminado de datos puede ser incrementada siempre haciendo el modelo mas y mas complejo, pero en general al reducir el sesgo se incrementa la varianza del error. Hay que buscar el equilibrio. Evidentemente, el modelo debe proporcionar una descripción adecuada de los datos y, entonces, será posible utilizarlo para inferir o predecir. Generalmente, el modelo contiene parámetros que deben ser estimados a partir de los datos. CONSTRUCCION DE MODELOS La modelización o construcción de modelos consta, en general, de tres tipos de actividades: • Formular el modelo (especificación) • Estimación de los parámetros (ajuste) • Evaluación (validación) Son etapas sucesivas, aunque una investigación requiere, por lo general, varios ciclos de formulación-estimación-evaluación antes de que el resultado sea satisfactorio. Una vez se alcanza un modelo satisfactorio, éste puede ser utilizado para describir, explicar, predecir o establecer comparaciones. ESPECIFICACION Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo Formular un modelo "apropiado" es una cuestión clave para el análisis, En general, se trata de expresar mediante ecuaciones las relaciones entre un conjunto de fenómenos o conceptos (categorías mentales). Pero las ecuaciones contienen variables (categorías observables) que deberán responder lo más fielmente posible a los conceptos teóricos. No existe una estrategia generalmente aceptada para la formulación de modelos. No obstante, los principios generales podrían ser: • Documentación: Hay que leer mucho y consultar a los expertos en la materia. El contexto de cada problema es crucial y no es serio tratar de modelizar una situación que no se haya racionalizado previamente. • Incorporar teoría: Tomar en cuenta la teoría disponible nos sugerirá que variables hay que incluir y qué tipo de relaciones pueden existir entre ellas. Atención a las restricciones (de signo, de signo de la variación...) • Realizar un análisis inicial completo del conjunto de observaciones. • Incorporar información de otros modelos y conjuntos de datos similares • Contrastar el modelo formulado con la teoría y con los datos. También si es coherente con cualquier conocimiento cualitativo que se posea sobre el sistema bajo estudio • Tener presente que el modelo es provisional, aproximado y tentativo. Cuando haya nuevos datós, habra de ser revisado. • La experiencia y la inspiración son fundamentales, ya que el proceso implica numerosas decisiones subjetivas. Junto a estos principios generales, hay que tener claro en todo momento - qué es conocido con (casi) certeza (vbles. observadas) - qué hemos supuesto sobre una base razonable (relaciones) - qué hemos asumido por conveniencia matemática (linealidad, p.ej.) - qué no está claro o es desconocido (parámetros, p.ej) La formulación de un modelo siempre requiere asumir supuestos P.ej. errores independientes distribuidos normalmente Una manera útil de comprender la modelización es: DATOS = AJUSTE + RESIDUOS Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo o bien DATOS = SEÑAL + RUIDO El ajuste o señal es la parte sistemática, en la que se centra el interés, mientras que el residuo o ruido es la parte aleatoria. La parte aleatoria incluye tanto los errores de medición como la variabilidad aleatoria natural que afecta a las unidades muestrales que se miden. Por lo general, se especifica en términos de su distribución de probabilidad. El análisis estadístico puede ser entendido como extraer información de la señal en presencia de ruido. ESTIMACION Consiste en ajustar utilizando los datos disponibles para estimar los parámetros que intervienen en el modelo. EVALUACION Una vez el modelo ha sido estimado es necesario contrastar las hipótesis que subyacen en su formulación con el objeto de modificar el modelo en caso de que no se mantengan las asunciones. Hay que responder a preguntas tales como - - - ¿Es satisfactoria la parte sistemática del modelo?. En caso contrario, ¿es necesario alterar la forma del modelo? ¿transformar variables? ¿incluir otras vbles? ¿eliminar alguna? ¿Es satisfactoria la componente aleatoria? ¿Cuál es la distribución de los errores? (en general se supone dist. normal con media cero? ¿Es su varianza aproximadamente constante? (tb. supuesto habitual) ¿Depende significativamente la bondad del ajuste de unas pocas observaciones influyentes? ¿Hay alguna característica relevante de los datos que no haya sido recogida? Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo - ¿Hay otros modelos considerados? alternativos que puedan ser La evaluación de modelos también se le llama análisis de residuos porque la mayoría de los procedimientos están relacionados con los residuos del ajuste. Hay muchos métodos para examinar los residuos, dependiendo de la clase o tipo de modelo considerado. En general, los residuos deben ser pequeños, con varianza pequeña y totalmente aleatorios (sin esquema reconocible, ya que de lo contrario ese esquema debería de formar parte de la componente sistemática). Prestamos especial atención a los residuos "grandes", que pueden surgir debido a: observaciones erróneas o atípicas, a la inadecuación del modelo o a la inadecuación del procedimiento de análisis. Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo