147 DATA WAREHOUSE PARA LA PRESTACIÓN DEL SERVICIO PÚBLICO DE INFORMACIÓN ESTADÍSTICA RICARDO LUJÁN SALAZAR INSTITUTO NACIONAL DE ESTADÍSTICA, GEOGRAFÍA E INFORMÁTICA (INEGI) MÉXICO 148 Data warehouse para la prestación... ÍNDICE Página Resumen ......................................................................................................................................... 149 1. Planteamiento....................................................................................................................... 149 2. Acerca del Proyecto ............................................................................................................. 150 Objetivos............................................................................................................................... 150 Investigación de proyectos similares .................................................................................... 150 En qué consiste el proyecto .................................................................................................. 150 3. Arquitectura de Información ................................................................................................ 151 Arquitectura de datos............................................................................................................ 151 Arquitectura de aplicaciones................................................................................................. 152 Arquitectura técnica.............................................................................................................. 152 4. Contenido ............................................................................................................................. 152 5. Desarrollo del Proyecto........................................................................................................ 153 Extracción, transformación y carga ...................................................................................... 153 Almacén de datos (data warehouse) ..................................................................................... 153 Mercado de datos (data marts).............................................................................................. 153 Herramientas de acceso ........................................................................................................ 153 Metadatos.............................................................................................................................. 155 Conclusiones................................................................................................................................... 155 Data warehouse para la prestación... 149 Resumen El Instituto Nacional de Estadística, Geografía e Informática (INEGI) tiene la responsabilidad de coordinar los Sistemas Nacionales Estadístico y de Información Geográfica de México, además de promover y orientar el desarrollo informático en el país. Este proyecto consiste en aplicar las tecnologías de bases de datos y data warehousing en el desarrollo de un almacén integrado de datos definitivos con información estadística obtenida de los programas de censos nacionales, encuestas y registros administrativos para la elaboración de productos, la toma de decisiones y la planeación facilitando que el personal del Instituto pueda atender con mayor oportunidad los requerimientos de información de los usuarios del INEGI en el marco del Sistema Nacional de Información Estadística y Geográfica. Palabras Claves: Información Estadística, censos, encuestas, bases de datos, data warehouse. 1. Planteamiento El INEGI, como responsable de coordinar los Sistemas Nacionales Estadístico y de Información Geográfica de México y de promover y orientar el desarrollo informático en el país ha incrementado de forma sustantiva la capacidad de obtener y difundir información mediante la colaboración de personal preparado profesionalmente, el uso de tecnología y su presencia en las 32 entidades federativas de la República Mexicana. Actualmente el INEGI cuenta con información proveniente de 56 distintos proyectos estadísticos, de los cuales se tiene diferente control y flujo de información, lo que provoca las siguientes áreas de oportunidad: Concepto Situación actual Área de oportunidad Ubicación de Islas de la información. información. Única fuente de datos definitivos con acceso distribuido mediante aplicaciones independientes de la base de datos. Conocimiento Disperso en las Interpretación de la información de la áreas asistida por metadatos y información. generadoras. documentación suficiente. Congruencia Aparente Obtener interpretaciones de los de datos. incongruencia datos considerando las entre datos de características particulares de cada distintas evento. fuentes. Generación de Información Información independiente de las productos. “amarrada” con aplicaciones. las aplicaciones. Aprovechamiento de la información. Parcial. Total. Dada esta situación se determinó la necesidad de aprovechar las tecnologías de data warehousing (extracción, transformación y carga; bases de datos relacionales; bases de datos multidimensionales; metadatos) para mejorar los procesos de generación y explotación de información estadística de modo que la información esté disponible en línea de una manera ágil y entendible para quien lo requiera con el objetivo de apoyar el servicio público de información estadística en beneficio de los diferentes sectores de la sociedad mexicana. 150 Data warehouse para la prestación... En el segundo trimestre del año 2002 se inició con el desarrollo de la primera etapa del proyecto que comprendió el análisis, diseño y desarrollo de la base de datos para nueve proyectos estadísticos. 2. Acerca del Proyecto Objetivos • Mejorar la oportunidad en la prestación del servicio público de información estadística. • Incrementar la confiabilidad de la información generada por el INEGI. • Lograr la satisfacción del cliente desarrollando nuevos y mejores servicios de información en línea. • Faciltar el proceso de toma de decisiones basado en información estadística. • Reducir los costos de operación en el aprovechamiento de información. Investigación de proyectos similares Al inicio del proyecto y durante su desarrollo se ha mantenido un proceso de investigación permanente para conocer y analizar proyectos de data warehouse en diferentes instituciones entre las que están: • Nacional Financiera • Banco de México • Comisión Federal de Electricidad • Buró de Censos de los EEUU De esta forma se ha podido analizar las prácticas que han dado mejor resultado en estas instituciones para aplicarlas en el proyecto. En qué consiste el proyecto Consiste en el análisis, diseño, desarrollo, implementación, mantenimiento y mejora continua del repositorio de información estadística del país para consulta y análisis que permita a los usuarios tomar mejores decisiones como parte del Sistema Nacional de Información Estadística y Geográfica. Tiene tres elementos principales: 1. Procesos automáticos de extracción, transformación y carga para mantener la información actualizada. 2. Información (datos y metadatos) • Integrada • Validada • Documentada • Única 3. Facilidades de acceso a la base de datos desde cualquier punto de la red INEGI para la consulta, explotación y análisis de la información. El proyecto no se considera como un producto sino como un procedimiento para integrar y homogeneizar la información proveniente de los proyectos de generación de información estadística, por lo que una Data warehouse para la prestación... 151 parte esencial de su conceptualización es integrarlo en los procesos de generación de información estadística, quedando entonces las etapas del proceso como sigue: • Planeación. • Diseño conceptual. • Diseño muestral. • Definición del procedimiento de captación y procesamiento. • Captación de la información. • Procesamiento. • Almacén de datos (data warehouse). • Presentación de resultados. Entonces el almacén de datos o data warehouse estadístico se incorpora en el proceso convirtiéndose en la fuente de datos única para la presentación de resultados que ahora no se limita a la generación de publicaciones sino que además será la fuente de información para sistemas de consulta interna, desarrollo de productos digitales comercializables y para el sitio del INEGI en Internet. También es de gran utilidad este almacén de datos estadísticos como un insumo para la planeación, diseño conceptual y diseño muestral de subsiguientes eventos estadísticos. 3. Arquitectura de Información La arquitectura de información institucional considerada en el proyecto se compone de las arquitecturas de datos, de aplicaciones y técnica. Arquitectura de datos Define el flujo de información desde los sistemas de captura y procesamiento de la información estadística que a través de los procesos de extracción, transformación y carga se incorporan en la base de datos relacional de información fuente y ésta a su vez es la fuente para información sumarizada y/o consolidada. Todo esto apoyado en un repositorio de metadatos. Interfaces de consulta (Lenguajes, OLAP, etc.) B.D. de consulta (estrella) Metadatos Base de datos Relacional (información a nivel cuestionario) Sistemas de generación de Información estadística 152 Data warehouse para la prestación... Arquitectura de aplicaciones Define las relaciones del proceso del data warehouse estadístico con aplicaciones institucionales, entre las que se encuentran: ! Sistemas de procesamiento para generación de información estadística. ! Sistema Integral Administrativo. ! Sitio del INEGI en Internet. ! Sistemas internos de consulta. ! Sitios intranet. ! Productos digitales comercializables. Arquitectura técnica Define la infraestructura de hardware que soporta el proyecto, dividida en cinco subsistemas: ! Subsistema de seguridad. ! Subsistema de bases de datos. ! Subsistema de procesamiento. ! Subsistema de aplicaciones. ! Subsistema de almacenamiento. 4. Contenido El proyecto tiene como objetivo abarcar toda la información estadística que genera el instituto y ser capaz de conectarse a bases de datos generadas por otras instituciones. Actualmente se tiene incorporados 11 eventos estadísticos en el proyecto: • XII Censo General de Población y Vivienda, 2000. • Censos Económicos 1999. • Estadística de Educación ciclo 1998-1999. • Encuesta sobre Seguridad y Orden Público 1998 a 2001. • Estadística de mortalidad 1985 a 2001. • Estadística de nacimientos 1985 a 2001. • Encuesta Nacional de Empleo Urbano 2001. • Encuesta Nacional de Ingreso Gasto de los Hogares 1996, 1998 y 2000. • Encuesta Industrial Mensual 1998 a 2002. • Censo de Población y Vivienda 1990. • Estadística de Comercio Exterior. Y se tiene planeado continuar esta incorporación de proyectos, entre otros, con los siguientes: • Conteo de Población y Vivienda 1995. Data warehouse para la prestación... 153 • Censo Ejidal y de Comunidades Agrarias 2001 y 1991. • Censos Agropecuarios 1991. • Censos Económicos 1994. • Estadística de Cultura 1995-2001. • Estadística de Relaciones Laborales 1990-2001. • Estadística de Matrimonios y Divorcios 1985-2001. • Encuesta Nacional de Ingreso Gasto de los Hogares 2002. 5. Desarrollo del Proyecto Extracción, transformación y carga Son los módulos que cumplen la función de extraer la información de las fuentes de datos (dispersas y en formatos varios) para cargarla en los modelos de base de datos previamente definidos. Transformación de los datos fuente A B Filtros y carga a la base de datos C SERVIDOR DTS – MS y SQL Loader - ORACLE OWB - ORACLE Almacén de datos (data warehouse) Se compone de las bases de datos relacionales que contienen la información fuente (a nivel cuestionario) de los proyectos estadísticos. Actualmente se cuenta con la información de 11 proyectos estadísticos algunos de ellos con más de cien millones de registros. Mercados de datos (data marts) Actualmente se realizan pruebas con diferentes diseños de modelos multidimensionales en esquema estrella para los proyectos de censos de población y económicos. Se pretende que estos modelos sean el primer contacto de los usuarios finales al consultar la información estadística. Herramientas de acceso Debido a que se tiene una amplia diversidad de perfiles de usuario y necesidades de acceso, se ha definido una gama de herramientas disponibles para extraer información de la base de datos. 154 Data warehouse para la prestación... Análisis estratégico Análisis táctico Consultas no planeadas Programación de reportes Desarrollo de aplicaciones • Oracle Discoverer • Excel • SQL • SQL PL/SQL • Delphi • • • JSP ASP Herramientas comerciales Análisis estratégico Sistema de Consulta en •Intranet • Análisis táctico • SCAI Consultas no planeadas Programación de reportes Desarrollo de aplicaciones Desarrollos INEGI Data warehouse para la prestación... Análisis estratégico Análisis táctico 155 • SAS • SPSS Consultas no planeadas Programación de reportes Desarrollo de aplicaciones Herramientas estadísticas Metadatos Por las características del proyecto es necesario poner especial atención en el desarrollo de un subsistema de metadatos que cuente con toda la información necesaria para consultar e interpretar los datos del data warehouse estadístico así como relacionar de manera efectiva cada dato con los metadatos correspondientes. Se han analizado los siguientes estándares internacionales para basar en ellos el subsistema de metadatos: • ISO-11179. • Document Data Interchange (DDI). • Survey Design and Statistical Methodology Metadata (SDSMM), del Buró de Censos de los EEUU. • Common Warehouse Metamodel. Este subsistema en desarrollo contará con tres módulos interrelacionados que permiten documentar los datos y los modelos de datos desde diferentes puntos de vista: • Metamodelo del sistema • Modelo del negocio • Registro de elementos de dato Conclusiones • El almacén de datos es un proyecto institucional que requiere del compromiso de todas las áreas para poner en marcha los cambios necesarios en la cadena de valor. • Debe evaluarse en particular la forma en que cada proyecto se incorpora al almacén para mantener la mejor relación costo-beneficio. 156 Data warehouse para la prestación... • Este proyecto requiere un enfoque general desde su inicio para que la integración sea óptima. • Lo importante es lo que está detrás de la tecnología: los procesos que soporta para generar valor. • El data warehouse del INEGI debe proveer la base de información para la prestación de nuevos y mejores servicios en línea que proporcionen a nuestros usuarios mayor capacidad de consulta y análisis para tomar mejores decisiones en beneficio de México.