TEMA 2: EXPLORACION INICIAL DE LOS DATOS INTRODUCCION ESTRUCTURA DE LOS DATOS CALIDAD DE LA INFORMACION TECNICAS ESTADISTICAS DESCRIPTIVAS 1.- INTRODUCCION: LA ESTRATEGIA GENERAL Una vez delimitado el problema económico que se desea estudiar, planificada la investigación y obtenidos los datos, es necesario analizarlos para poder llegar a conclusiones. El análisis estadístico de un conjunto de datos presupone, en general, saber como: Procesar la observaciones Formular un modelo apropiado Ajustar el modelo a los datos y evaluarlo Utilizar el modelo para describir, predecir o establecer comparaciones Estas actividades se pueden agrupar en dos fases a efectos de estudio: A) Análisis inicial, preliminar o exploratorio: Consiste en procesar los datos de manera que sea posible un estudio sistemático de sus características. En general es necesario utilizar el ordenador. El análisis inicial engloba una serie de actividades: Comprobar la calidad de la información: Es importante reconocer la estructura limitaciones de los datos ¿Hay errores u observaciones atípicas? ¿Faltan observaciones(missing values)? ¿Han sido registrados de manera adecuada? Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo y Transformar los datos cuando sea necesario: Corrección de errores Recodificación de valores, variables y el calculo de variables compuestas Resumir adecuadamente la información mediante gráficos, tablas y medidas descriptivas. B) Análisis definitivo Generalmente se basa en formular, estimar y evaluar un modelo probabilistico utilizando los datos disponibles. Para llevar a cabo la construcción del modelo es necesario recurrir a técnicas inferenciales tales como la estimación de parámetros y la contratación de hipótesis. En ocasiones existirá un modelo previo (evidencia empírica o en buena teoría económica). En estos casos el análisis consiste en ver si los nuevos datos se comportan según el modelo. En ocasiones el análisis inicial permite establecer conclusiones tan claras que no es necesario proseguir la investigación. No se pueden utilizar métodos estadísticos avanzados sin haber examinado previamente los datos con cuidado. LA ESTRUCTURA DE LOS DATOS. Cualquier analisis de datos depende: Numero y tipo de variables implicadas Numero de observaciones disponibles A mayor numero de observaciones y variables mas complejo es el analisis. Criterio de relevancia: En economia es necesario seleccionar variables y observaciones entre las disponibles Criterio de Unicidad y Singularidad: El numero de variables nunca debe ser mayor que el de observaciones Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo El tipo d e variables condiciona la manera de procede al análisis: Cuantitativas – Cualitativas Continuas – Discretas Flujo – Stock Temporales – Transversales Al igual que serán mas apropiadas las variables y la clase de análisis según el tipo de escala en que estén medidas: Escala nominal Escala ordinal Escala de intervalo Escala de razón En la practica los problemas aparecen cuando tenemos variables de distintos tipos medidas en escalas distintas: Agrupar las variables del mismo tipo para realizar un análisis segmentado Recodificar variables numéricas agrupando los valores observados en categoría u ordenaciones. En general, las modoficaciones de los datos pueden ser de cuatro tipos: Ajuste de observaciones extremas Estimación de valores perdidos Transformación de una o mas variables Generación de nuevas variables a partir de las existentes Las razones que justifican la modificación de los datos pueden ser: Obtener variables mas ajustadas a los conceptos teóricos Estabilizar la variación Aproximar a la normalidad o a la simetría Crear efectos aditivos Linealizar las relaciones Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo CALIDAD DE LA INFORMACION Determinar la calidad de la información es muy importante cuando el analista no ha intervenido en la recolección de los datos. Hay que plantearse: ¿Cómo fueron obtenidos los datos? ¿provienen de una única fuente o de varias? ¿Hay incongruencias aparentes? ¿Hay errores, observaciones anómalas o perdidas? Antes de proseguir hay que: “editar” o “limpiar” los datos Chequear la credibilidad, la consistencia y la integridad de las observaciones Comprobar el fichero de datos, la distribución de frecuencias de cada variable Cuando aparecen valores sospechosos hay que: Muchos errores pueden ser corregidos volviendo a los registros originales de datos y si no pueden ser hay que tratarlos como MISSING Si existen observaciones atípicas no erróneas se debe realizar el análisis con ellas y sin ellas y observar los resultados. Si no existe gran diferencia es que no son importantes. En caso contrario hay que preguntarse la racionabilidad de las conclusiones. Los valores perdidos pueden deberse a varios factores: Falta de respuesta Ausencia de registro Descuidos Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo TECNICAS DE ESTADISTICA DESCRIPTIVA Se trata de describir verbal, gráfica y numéricamente el conjunto de observaciones disponibles. Podemos calcular medidas descriptivas (numéricas) de todo el conjunto de datos y/o de los subconjuntos que consideremos importantes. Medidas de Posición Medidas de Dispersión Medidas de la Forma Medidas de Covariación Gráficos La estadística descriptiva es útil no solo para resumir un conjunto de observaciones sino también para controlar la calidad de los datos, obtener ideas para el análisis formal y para ayudar a presentar las conclusiones. Algunas reglas son: Tomar en consideración las características de las distribución de datos Utilizar las medidas descriptivas que sean mas adecuadas Presentar gráficos y tablas rotuladas de manera clara Incluir siempre las unidades de medida Etiquetar los ejes de los gráficos Redondear los valores de manera razonable Prestar atención al detalle Utilizar el sentido común Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo