INSTITUTO POLITÉCNICO NACIONAL UNIDAD PROFESIONAL INTERDISCIPLINARIA DE INGENIERÍA Y CIENCIAS SOCIALES Y ADMINISTRATIVAS INTELIGENCIA DE NEGOCIOS. APLICACIÓN EN LA ADMINISTRACIÓN DEL PRESUPUESTO EN UNA EMPRESA DEL SECTOR PÚBLICO. T E S I S QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS EN INFORMÁTICA P R E S E N T A GUSTAVO DAVID VEGA VIVAS DIRECTOR DE TESIS: M. EN C. GUILLERMO PEREZ VÁZQUEZ CODIRECTOR DE TESIS: M. EN C. MARTHA JIMENEZ GARCÍA MÉXICO, D.F. 2010 II III Resumen El presente trabajo consistió en el diseño e implementación de una herramienta de software usando tecnología de inteligencia de negocios, que cuenta con las características de confiabilidad y oportunidad, así como las últimas tecnologías de punta en materia de informática, para el apoyo a la toma de decisiones en los niveles estratégicos de la Secretaría de Comunicaciones y Transportes. Para ello, se realizó primeramente una identificación de la información y las fuentes de datos que utilizan las áreas involucradas para la elaboración de informes. Después se diseñó una base de datos multidimensional para consolidar esa información y se construyeron las interfaces de usuario necesarias, que sirven para mostrar los parámetros de control que los usuarios requieran evaluar. En el primer capítulo, se describe el significado, características y beneficios de los Sistemas de Información Ejecutivos, así como los conceptos de almacén de datos y de mercado de datos. También se habla sobre modelos de datos multidimensionales, cubos de información y minería de datos. En el capítulo dos se describen las actividades que se desarrollan en las áreas involucradas y la razón de querer implementar un Sistema de Información Ejecutivo en la organización. Finalmente, en los capítulos tres y cuatro se presenta la propuesta de solución y se hace una medición del impacto que tuvo su implementación, la cual resultó ser muy favorable en términos de confiabilidad y oportunidad a nivel estratégico y operacional. IV Abstract This work concerns the design and implementation of a software tool using business intelligence technology, which has the characteristics of reliability and timeliness, and the latest advanced technologies in information, to support making decisions at the strategic levels of the Secretariat of Communications and Transport. This will be done first identification information and data sources that use the areas involved for reporting. Then building a multidimensional database to consolidate this information and built the necessary user interfaces, which serve to show the control parameters, require users to evaluate. In the first chapter describes the meaning, characteristics and benefits of Executive Information Systems, and the concepts of data warehouse and data mart. It also discusses multidimensional data models, data cubes and data mining. In Chapter two describes the activities that develop in the areas involved and the reason for wanting to implement an Executive Information System in the organization. Finally, in chapters three and four present the proposed solution and provides a measurement of the impact of deployment, which turned out to be very favorable in terms of reliability and timeliness to the strategic and operational level. V Índice Relación de cuadros, gráficas e ilustraciones....................................................................... IX Glosario ........................................................................................................................................ 1 Introducción ................................................................................................................................. 3 Capitulo 1 Inteligencia de negocios. ................................................................................... 6 1.1 Sistemas de Información ejecutivos .............................................................................. 8 1.1.1 Características de los Sistemas de Información Ejecutivos ............................ 11 1.1.2 Factores de éxito de un Sistema de Información Ejecutivo ............................. 12 1.1.3 Beneficios de un Sistema de Información Ejecutivo ......................................... 13 1.1.4 Desarrollo de un Sistema de Información Ejecutivo ......................................... 14 1.1.5 Como mejoran los SIE el proceso de toma de decisiones .............................. 16 1.2 Concepto de data warehouse ....................................................................................... 17 1.2.1 Características de un data warehouse ................................................................ 19 1.2.2 Implementación de un data warehouse en la organización ............................. 20 1.2.3 Personal que participa en la implementación de un data warehouse ............ 23 1.2.4 Arquitectura para la construcción de un data warehouse ................................ 25 1.2.5 Diferencia entre un data warehouse y una base de datos relacional ............ 28 1.2.6 El data warehouse como un sistema de misión crítica ..................................... 31 1.2.7 Relación de un SIE con un data warehouse ...................................................... 34 1.2.8 Ventajas y desventajas en el uso de un data warehouse ................................ 36 1.3 Concepto de data mart .................................................................................................. 37 1.3.1 Construcción de un data mart............................................................................... 37 1.3.2 Requerimientos para la construcción de un data mart ..................................... 40 1.3.3 Data mart distribuido .............................................................................................. 44 1.3.4 La complejidad de transformar datos en información en una solución de data warehousing ............................................................................................................................ 45 1.4 Modelo de datos multidimensional .............................................................................. 46 VI 1.4.1 Modelo de estrella .................................................................................................. 52 1.4.2 Modelado de consultas empresariales ................................................................ 53 1.5 Minería de datos (data mining) ..................................................................................... 54 Capitulo 2 La Subsecretaría de Infraestructura de la SCT ........................................... 62 2.1 La Subsecretaría de Infraestructura ............................................................................ 63 2.2 La Dirección General de Carreteras (DGC) ............................................................... 64 2.3 La Dirección General de Conservación de Carreteras (DGCC) ............................. 65 2.4 La Dirección General de Servicios Técnicos (DGST)............................................... 65 2.5 Información a analizar en las áreas involucradas .................................................... 66 Capitulo 3 Diseño y desarrollo de la propuesta de solución ......................................... 71 3.1 Planteamiento del problema ......................................................................................... 72 3.2 Objetivos de este proyecto............................................................................................ 73 3.3 Metodología utilizada ..................................................................................................... 74 3.4 Análisis FODA de la solución ....................................................................................... 75 3.5 Diseño lógico del Sistema de Información Ejecutivo de Infraestructura ................ 75 3.5.1 Requerimientos de información............................................................................ 75 3.5.2 Análisis de requerimientos .................................................................................... 79 3.5.3 Descripción funcional del SIE ............................................................................... 82 3.5.4 Descripción de los procesos desarrollados ........................................................ 84 3.5.5 Parámetros de información que los usuarios pueden consultar ................... 104 3.5.6 Diseño de consultas empresariales ................................................................... 107 3.5.7 Herramienta que se utilizó para la implementación ........................................ 109 3.6 Diseño físico de la base de datos .............................................................................. 110 3.6.1 3.7 Desarrollo del data mart ...................................................................................... 111 Interfaces gráficas para el usuario final .................................................................... 117 3.7.1 Herramientas de análisis ..................................................................................... 123 VII 3.8 Seguridad de la información ....................................................................................... 127 Capitulo 4 Impacto de la propuesta de solución. .......................................................... 132 4.1 Desempeño de la aplicación desarrollada................................................................ 132 4.1.1 Elementos básicos de la arquitectura (dimensiones dispersas y densas) .. 132 4.1.2 Estimación de espacio en disco. ........................................................................ 137 4.1.3 Estimación de espacio en memoria................................................................... 142 4.2 Pruebas de funcionamiento ........................................................................................ 143 4.3 Medición de la calidad del software elaborado ........................................................ 146 4.4 Análisis de los resultados obtenidos ......................................................................... 148 Conclusiones ........................................................................................................................... 153 Bibliografía ............................................................................................................................... 156 Anexo I ..................................................................................................................................... 158 VIII Relación de cuadros, gráficas e ilustraciones Figura 1.1 Integración de aplicaciones para la construcción de un data warehouse (diseño propio) .............................................................................................................................................. 22 Figura 1.2 Arquitectura de referencia del data warehouse (Gill, H. S.) ................................. 26 Figura 1.3 Ciclo de madurez de la tecnología (Gill, H. S.) ....................................................... 33 Figura 1.4 Flujo de información entre un SIE y un data warehouse (diseño propio) ........... 34 Tabla 1.1 Ventajas y desventajas del uso de un data warehouse (diseño propio) .............. 36 Figura 1.5. Proceso de transformación de datos en información en una solución de data warehousing (diseño propio) ........................................................................................................ 45 Tabla 1.2 Una vista en dos dimensiones del presupuesto ejercido (métrica desplegada) en una empresa pública, con respecto a las dimensiones tiempo y tipo de trabajo en el Estado de Baja California (diseño propio) .................................................................................. 48 Tabla 1.3 Una vista 3-D del presupuesto ejercido (métrica desplegada) en una empresa pública, con respecto a las dimensiones tiempo, tipo de trabajo y localización (diseño propio) .............................................................................................................................................. 48 Figura 1.6 Una representación de un cubo de datos de tres dimensiones de la tabla 1.3, respecto a las dimensiones tiempo, tipo de trabajo y localización. La métrica que se despliega es el presupuesto ejercido en una empresa pública (diseño propio)................... 49 Figura 1.7 Representación de un cubo de datos de cuatro dimensiones (4-D) para el presupuesto ejercido de una empresa pública, respecto a las dimensiones tiempo, tipo de trabajo, localización y centro de trabajo. Solo son mostrados algunos datos de ejemplo (diseño propio). ............................................................................................................................... 49 Figura 1.8 Enramada de cuboides que forman un cubo de datos de cuatro dimensiones (4-D) las cuales son tiempo, tipo de trabajo, localización y centro de trabajo. Cada cuboide representa un grado diferente de agregación de la información (diseño propio)................. 50 Figura 1.9 Modelo de estrella (diseño propio) ........................................................................... 53 Figura 1.10. Modelo de molde de consulta (Gill, H. S.) ............................................................ 53 Figura 1.11. La minería de datos como un paso en el proceso de descubrimiento de conocimiento (Han, Jiawei) .......................................................................................................... 55 Figura 1.12. Arquitectura general de un sistema de minería de datos (Han, Jiawei) .......... 58 Figura 2.1 Organigrama de la Secretaría de Comunicaciones y Transportes (Manual de organización de la Subsecretaría de Infraestructura de la SCT) ............................................ 62 IX Figura 2.2. Proceso de ejercicio del presupuesto en obra pública (diseño propio) ............. 68 Tabla 3.1 Análisis FODA para la implementación del SIE (diseño propio) ........................... 77 Figura 3.1. Construcción de los diferentes data mart para la SCT (diseño propio) ............. 82 Figura 3.2. Modelo de referencia propuesto para el Sistema de Información Ejecutivo de Infraestructura (diseño propio) ..................................................................................................... 83 Figura 3.3 Sección de exportación de datos de uno de los programas utilizados para extraer datos desde las fuentes de datos para el data mart construido (diseño propio) .... 87 Figura 3.4 Muestra de los datos extraídos por la sección del programa de la figura 3.3, después de la ejecución del mismo (diseño propio) ................................................................. 87 Figura 3.5 Apertura del archivo en el editor de reglas de carga de Essbase con información de ejemplo (definición de una regla de carga en Essbase) ............................... 90 Figura 3.6 Ejemplo de delimitación de campos del archivo de texto en una regla de carga (definición de una regla de carga en Essbase) ......................................................................... 91 Figura 3.7 Resultado de haber deshabilitado los campos 1 y 5 en la regla de carga (definición de una regla de carga en Essbase) ......................................................................... 92 Figura 3.8 Adición de prefijos a algunos campos para su asociación con dimensiones de la base de datos dimensional (definición de una regla de carga en Essbase) ..................... 92 Figura 3.9 Asociación de campos en la regla de carga con las dimensiones de la base de datos (definición de una regla de carga en Essbase)............................................................... 93 Figura 3.10 Especificación del campo que contiene los valores que serán importados a la base de datos (definición de una regla de carga en Essbase) ............................................... 94 Figura 3.11 Configuración de datos de carga a nivel de definición de encabezado de una fuente de datos (definición de una regla de carga en Essbase) ............................................. 94 Figura 3.12. Modelo de estrella del SIE (diseño propio) .......................................................... 97 Figura 3.13 Implementación de la dimensión Métricas (diseño propio) .............................. 104 Figura 3.14 Molde de consulta empresarial de Presupuesto (diseño propio) .................... 108 Figura 3.15 Molde de consulta empresarial de Programa Operativo (diseño propio) ....... 108 Figura 3.16. Implementación de la dimensión Total Anual (diseño propio) ........................ 112 Figura 3.17. Implementación de la dimensión Centro SCT (diseño propio) ....................... 113 X Figura 3.18. Implementación de la dimensión Proyecto en los niveles de grupos de presupuesto y de tipo de contrato (diseño propio) .................................................................. 114 Figura 3.19 Implementación de la dimensión Proyecto en los niveles de obra y de contrato (diseño propio) .............................................................................................................................. 114 Figura 3.20 Implementación de la dimensión Avance (diseño propio) ................................ 115 Figura 3.21 Implementación de la dimensión Programa Operativo (diseño propio) ........ 115 Figura 3.22 Implementación de la dimensión Programa de Presupuesto (diseño propio)116 Figura 3.23 Implementación de la dimensión Unidad Donante (diseño propio) ................. 116 Figura 3.24 Implementación de la dimensión Financiamiento (diseño propio) ............. 116 Figura 3.25 Implementación de la dimensión Año (diseño propio) ...................................... 117 Figura 3.26 Implementación de la dimensión Dato (diseño propio) ..................................... 117 Figura 3.27 Página de inicio de SIE de Infraestructura (diseño propio) .............................. 117 Figura 3.28 Grupo de reportes para la Dir. Gral. de Carreteras Federales (diseño propio) ......................................................................................................................................................... 118 Figura 3.29 Grupo de reportes para la Subsecretaría de Infraestructura (diseño propio) 119 Figura 3.30 Grupo de reportes para la Dir. General de Conservación de Carreteras (diseño propio) .............................................................................................................................. 119 Figura 3.31 Reporte con información de muestra de obras por Estado de la Dir. Gral. de Carreteras (diseño propio) .......................................................................................................... 120 Figura 3.32 Reporte con información de muestra del presupuesto ejercido vs asignación presupuestal (presupuesto modificado) de la Dir. Gral. de Carreteras (diseño propio) .... 121 Figura 3.33 Reporte con información de muestra del presupuesto ejercido, ejercido en trámite y disponible de la Subsecretaría de Infraestructura (diseño propio) .................... 122 Figura 3.34 Reporte con información de muestra del presupuesto de inversión y metas de la Dir. Gral. de Conservación de Carreteras (diseño propio) ................................................ 123 Figura 3.35 Addin de Excel para realizar consultas al data mart de Infraestructura (diseño propio) ............................................................................................................................................ 124 Figura 3.36 Consulta con el addin de Excel al data mart de Infraestructura con información de muestra (diseño propio) ......................................................................................................... 125 XI Figura 3.37 Cruce entre las dimensiones tiempo, proyecto de presupuesto y región, para obtener un dato de la métrica presupuesto modificado (diseño propio). ............................. 126 Figura 3.38 Addin de Power Point para elaborar plantillas de consulta al data mart de Infraestructura (diseño propio) ................................................................................................... 126 Figura 3.39 Consola de administración de usuarios (diseño propio) ................................... 128 Figura 3.40 Definición de privilegios de acceso por grupo de usuarios (diseño propio) ... 129 Figura 3.41 Control de acceso a grupo de reportes por medio de Workspace (diseño propio) ............................................................................................................................................ 130 Figura 3.42 Definición de privilegios de acceso al grupo de reportes de la DGCC (diseño propio) ............................................................................................................................................ 131 Figura 4.1 Ejemplo de dimensiones dispersas (diseño propio). ........................................... 134 Figura 4.2 Representación de bloques de datos y del índice que almacena los apuntadores a cada bloque (diseño propio) ............................................................................. 134 Figura 4.3 Representación de un bloque de datos (diseño propio) ..................................... 135 Figura 4.4 Base de datos con dimensiones dispersas y densas (Analytic Services Database Administrator’s Guide) ............................................................................................... 136 Figura 4.5 Bloque de datos que representa la combinación de dimensiones densas para d22 -> e3 (Analytic Services Database Administrator’s Guide) ............................................ 136 Tabla 4.1 Configuración de las dimensiones de la base de datos desarrollada (diseño propio) ............................................................................................................................................ 137 Tabla 4.2 Dimensiones dispersas cuyo atributo de almacenamiento es “Almacenar dato” (diseño propio) .............................................................................................................................. 138 Tabla 4.3 Dimensiones densas cuyo atributo de almacenamiento es “Almacenar dato” (diseño propio) .............................................................................................................................. 140 Figura 4.6 Ejemplo de regla de carga de información hacia la base de datos (definición de regla de carga en Essbase) ........................................................................................................ 144 Figura 4.7 Scrip de importación y ejecución de cálculo de la base de datos multidimensional del data mart (diseño propio) ....................................................................... 145 Figura 4.8 Archivo log generado por la base de datos, durante la importación de información al data mart de Infraestructura Carretera (Oracle Hyperion Essbase) ........... 146 Figura 4.9 Datos resultantes de la aplicación del cuestionario para evaluar la calidad del software desarrollado (diseño propio) ....................................................................................... 148 XII XIII Glosario 4 GL El término lenguaje de cuarta generación, que se abrevia 4GL, se refiere a un lenguaje que permite al programador o usuario indicarle a la computadora qué debe hacer, en vez de cómo hacerlo. También se usa el término lenguaje natural porque la sintaxis de los 4GL puede ser muy similar a la forma como hablamos normalmente.1 Base de datos estructurada Una base de datos es un conjunto de información estructurada, con un contenido básicamente textual o alfanumérico, que ha sido grabada en soporte digital y que dispone, además de un programa informático que nos facilita su recuperación.2 Base de datos multidimensional Es una herramienta que crea vistas multidimensionales de los datos en bases de datos relacionales. El análisis multidimensional permite a los usuarios ver los mismos datos en diferentes maneras utilizando varias dimensiones. Cada aspecto de la información –producto, precio, costo, región o lapso de tiempo- representa una dimensión diferente.3 Clasificador por objeto del gasto El clasificador por objeto del gasto es el documento que ordena e identifica en forma genérica, homogénea y coherente, los recursos humanos, materiales, tecnológicos y financieros, que requieren las dependencias y entidades de la Administración Pública Federal para cumplir con los objetivos y programas que se establezcan en el Presupuesto de Egresos de la Federación. (Artículo 2 del acuerdo por el que se expide el Clasificador por Objeto del Gasto para la Administración Pública Federal. SHCP. Fecha de expedición en el D. O. F. 13-Octubre2000). Fuente de datos Información variable contenida en una fuente de datos, que puede ser una tabla de Microsoft Word, una base de datos de Microsoft Access o alguna otra fuente.4 Información no estructurada Documentos en lenguaje natural que no suelen tener una estructura predefinida.5 1 McLeod Jr, R. (2000). Sistemas de información gerencial, 7a ed. México: Prentice Hall. p. 236. Abadal Falgueras, E. (2001). Sistemas y servicios de información digital. Barcelona: Universidad de Barcelona. p. 44. 3 Laudon, K. C., & Laudon, J. P. (2004). Sistemas de Información Gerencial.8va. ed. México: Prentice Hall. p. 235. 4 Diccionario de informática e internet: Computer and internet Technology Definitions in Spanish. (2004). Boston, Massachusetts: Thomson. p. 47. 5 Joaquim, L. (2004). Tecnologías del texto y del habla. Barcelona: Universidad de Barcelona. p. 14. 2 Metadato Es un trabajo de referencia de datos acerca de ellos compilados por los analistas de sistemas para guiarse a través del análisis y diseño.6 ODBC Open Database Connectivity standard o el estándar de la conectividad abierta de base de datos, se desarrolló a principios de la década de 190, con el fin de proporcionar medios independientes del DBMS para el procesamiento de los datos de una base de datos relacional.7 OLAP (On Line Analytical Processing) En español procesamiento analítico en línea, es el proceso de craer y totalizar data multidimensional e histórica que soporte la toma de decisiones. Su objetivo principal es producir información precisa, a tiempo y entendible.8 Proceso de negocio Es una forma concreta de ordenar un conjunto de actividades, no acotadas por barreras organizativas, con un principio y un final, coordinadas y orientadas a la consecución de un producto que genera valor par un cliente final o intermedio. El elemento fundamental en la anterior definición es la búsqueda de la satisfacción del cliente final o intermedio. Si no hay cliente no hay proceso de negocio. De hecho la empresa se ha definido como una suma de procesos de negocio y el cliente la ve cuando utiliza uno determinado.9 RDBMS Sistema mediante el cual los datos están organizados como colección de tablas, y las relaciones entre las tablas se forman a tra´ves de un campo común. RDBMS es la forma abreviada, en idioma inglés, de relational database management system (sistema de administración de base de datos relacional)10 6 Kendall. (1997). Análisis y diseño de sistemas. 3ra ed. México: Prentice Hall. p. 293. Kroenke, D. (2003). Procesamiento de bases de datos. México: Prentice Hall. p. 441. 8 Cardoso Militao, L. I. (2006). Sistemas de Base de Datos II: teoría aplicada para profesores y estudiantes. Caracas: Universidad Católica Andrés Bello. p. 139. 9 Arjona Torres, M. (1999). Dirección estratégica. Un enfoque práctico. Madrid: Diaz de Santos. p. 43. 10 Diccionario de informática e internet: Computer and internet Technology Definitions in Spanish. (2004). Boston, Massachusetts: Thomson. p. 164. 7 2 Introducción En toda organización, sea pública o privada, la administración del presupuesto es una actividad prioritaria para el logro de los objetivos. En los últimos años, esto se ha convertido en un aspecto muy importante para las instituciones públicas, debido a la nueva Ley de Transparencia y Acceso a la Información Pública que tiene por objetivo garantizar a la ciudadanía el uso adecuado de los recursos públicos. Por otro lado, en los últimos años el presupuesto asignado a la SCT en gasto de inversión para la construcción y conservación de carreteras federales, se ha incrementando considerablemente. En el 2009 el presupuesto asignado fue de 50 mil millones de pesos. Lo que representa un aumento del 25% con respecto al del año 2008 que fue de 40 mil millones de pesos. Esto ha originado la necesidad de dotar a la Secretaría con herramientas de software que faciliten no solo la operación del presupuesto asignado, sino su control y seguimiento por los niveles estratégicos de esa dependencia, como son: la oficina del Secretario, el personal de la Subsecretaría de Infraestructura y sus direcciones generales y la Dirección General de Programación, Organización y Presupuesto (DGPOP). El conocimiento oportuno y permanente de la ejecución de las obras, tanto física como financiera, es fundamental para el análisis y toma de decisiones. La Subsecretaría de Infraestructura en coordinación con la Dirección General de Programación, Organización y Presupuesto, tienen la responsabilidad de ejercer más del 70% del presupuesto total asignado a la SCT, destinado principalmente a la construcción y mantenimiento en Infraestructura Carretera. Esta cantidad de recursos a invertir, da una mejor idea de la importancia que una herramienta de software puede tener, si proporcione los elementos de información necesarios para tomar decisiones. En el aspecto tecnológico, la SCT ha operado desde el año de 1992 con sistemas de información basados en tecnología cliente-servidor, utilizando Progress como motor de base de datos. Progress es una base de datos de cuarta generación (4GL), que permite generar de forma muy rápida, acceso a la información almacenada. Sin embargo y a pesar de contar con sistemas de información que automatizan en gran medida la administración de las obras de infraestructura carretera y que permiten a las áreas usuarias ejecutar en forma precisa el presupuesto asignado, el personal de la Subsecretaria de Infraestructura y de sus áreas normativas, no cuentan con las herramientas de software adecuadas que les permitan conocer de manera rápida y oportuna la situación de las obras carreteras a nivel nacional y 3 controlar aspectos como avance físico, avance financiero, gestión de los contratos asignados, presupuesto ejercido, entre otros. Es importante mencionar que en la actualidad las empresas tanto públicas como privadas, enfrentan el problema del explosivo crecimiento de datos que producen, lo cual es un reto que no solo se limita a la administración de una cada vez mayor base de datos, sino que ahora también es preciso gestionar los datos de manera que ayuden a los ejecutivos de una organización a tomar decisiones de manera rápida, con base en la información almacenada. Para las empresas, esa información puede llegar a representar la inversión de muchos recursos financieros y humanos durante años. Pero el problema ya no es el almacenamiento de esa información. En la actualidad, el problema se ha convertido en buscar la manera de utilizar esos datos, para aprovecharlos como un recurso estratégico de las organizaciones. En esos datos se encuentran contenidas tendencias de mercados, necesidades y motivaciones de los clientes, necesidades de producción, recursos invertidos, estados financieros, necesidades de consumo, etc. Pero para descubrirla y obtener únicamente la información más importante, es necesario analizar esos datos e interpretarlos. Hoy en día, se habla de un nuevo término que más que un concepto es un conjunto de tecnologías de análisis de datos para obtener la información estratégica que las organizaciones necesitan: “inteligencia de negocios o business intelligence, por sus siglas en ingles (BI)”. Ya hace algunos años, se hablaba de los Sistemas de Información Ejecutivos (SIE) o de los Sistemas de Información de Soporte a las Decisiones (SSD). Sistemas cuyo propósito era llevar información a los niveles gerenciales de la organización para tomar decisiones más rápidas y eficaces. Sin embargo, las tecnologías que se han desarrollado en inteligencia de negocios, han propiciado mayores avances y mejores resultados. Para la Secretaría de Comunicaciones y Transportes, se trata de un concepto nuevo en cuanto a tecnología se refiere. Actualmente, la dependencia cuenta con sistemas de información transaccionales que procesan y almacenan el detalle de la operación diaria. Sin embargo, lo que se busca con la aplicación de tecnología de inteligencia de negocios en la Secretaría, es llevar la información de las áreas operativas hacia las áreas estratégicas de manera rápida y precisa sin intervención humana, para proporcionar información al personal encargado de tomar decisiones en esas áreas. El presente trabajo que consistirá en la generación de un Sistema de Información Ejecutivo basado en tecnología de inteligencia de negocios, se desarrollará en 4 capítulos. 4 En el capítulo uno, inteligencia de negocios, se aborda el tema de los Sistemas de Información Ejecutivos (SIE). Se describe su significado, sus características y beneficios para una organización. También se describen los conceptos de almacén de datos o bodega de datos (data warehouse) y de mercado de datos (data mart). El SIE utilizará como base de datos un data mart que almacenará la información de la Subsecretaría de Infraestructura Carretera de la Secretaría de Comunicaciones y Transportes (SCT). Cabe mencionar que data mart y data warehouse son dos conceptos que forman parte de una solución basada en tecnología de business intelligence. En el capítulo dos, la información y la toma de decisiones en las áreas de la Subsecretaría de Infraestructura de la SCT, se habla brevemente sobre las actividades que desarrolla la Subsecretaría de Infraestructura. Qué herramientas se utilizan para tomar decisiones en materia de infraestructura carretera y cuál es la razón de querer implementar un SIE en las Direcciones Generales que conforman esa Subsecretaría. El capítulo tres, propuesta de solución, trata sobre el diseño y desarrollo del Sistema de Información Ejecutivo para la SCT. Se mencionan cuáles fueron las necesidades de los usuarios que dieron origen al proyecto. Se realiza un análisis de los requerimientos de información que se detectaron durante el desarrollo de las entrevistas llevadas a cabo con el personal de mando de la Dirección General de Conservación de Carreteras (DGCC), de la Dirección General de Carreteras (DGC) y de la Dirección General de Servicios Técnicos (DGST). Tres Direcciones de la Subsecretaría de Infraestructura encargadas del seguimiento a la construcción y conservación de las carreteras federales del país. En este capítulo, se habla también sobre la descripción funcional del Sistema y se presenta el diseño de la base de datos o data mart de la aplicación y las interfaces desarrolladas para el usuario final. Es importante mencionar que algunas de estas interfaces muestran los indicadores de control que los usuarios necesitan visualizar constantemente y que les sirven para detectar problemas en el ejercicio del presupuesto destinado a la inversión en carreteras. Finalmente, la medición del impacto que tuvo la implementación del Sistema de Información Ejecutivo de Infraestructura, es el tema tratado en el capítulo cuatro. En él se hablará sobre la aplicación de cuestionarios para evaluar la satisfacción de los usuarios del software desarrollado, mediante índices de resumen de los datos obtenidos. Adicionalmente, se encuentra la conclusión de la tesis, la bibliografía utilizada así como un glosario de términos. 5 Capitulo 1 Inteligencia de negocios. Para una organización, contar con información oportuna y precisa, puede representar la diferencia entre ganar o perder millones de dólares. En una empresa pública, puede representar cumplir en tiempo y forma con los objetivos y metas trazados con el mayor aprovechamiento de los recursos disponibles. Tener información que le permita a la alta gerencia saber en qué momento incursionar a un nuevo mercado, conocer las expectativas y preferencias de los clientes, determinar oportunidades de negocio, medir minuto a minuto el comportamiento financiero de la organización, entre otros aspectos, todos estos son parámetros estratégicos para tomar decisiones. Es precisamente en la administración de datos como la inteligencia de negocios puede ayudar a cualquier organización, pública o privada. La inteligencia de negocios se basa en la integración de datos históricos y actuales para determinar tendencias futuras y proponer escenarios posibles. Y en este sentido, es lógico que las decisiones deban estar basadas en datos precisos. Como sabemos, los datos por si solos no nos dicen nada. Pero dependiendo del contexto en donde se encuentren y de la correcta integración de los mismos, los datos van a permitir al ejecutivo tomar decisiones más rápidas y eficaces. En el ámbito informático, el procesamiento de datos mediante sistemas basados en computadoras, permite generar grandes volúmenes de información que representan el trabajo acumulado de años de operación. Esta situación ha originado que una enorme cantidad de datos se almacene en centros de información especializados en su alojamiento y administración. Para las organizaciones, esa información representa, además de una gran cantidad de recursos invertidos, el comportamiento financiero de la empresa. Pero el problema de tener esta información acumulada no es su almacenamiento. Actualmente, el problema se ha convertido en cómo utilizar esos datos guardados por años, para aprovecharlos como un recurso estratégico en las organizaciones. En esos datos se encuentran tendencias de mercados, necesidades y motivaciones de los clientes, necesidades de producción, recursos invertidos, situación financiera de la empresa y del país, tendencias de consumo, etc. Pero para descubrir y obtener únicamente la información más importante, es necesario analizar esos datos e interpretarlos. 6 En la actualidad, se habla de un nuevo termino para realizar ese análisis y para obtener la información estratégica que las organizaciones necesitan: “Información basada en herramientas para la Inteligencia de Negocios”. El termino Inteligencia de Negocios (Business Intelligence), es un concepto que “está de moda”. La inteligencia de negocios se refiere a un análisis de alta tecnología de los datos corporativos, con el fin de tomar mejores decisiones estratégicas. También conocida como minería de datos, la inteligencia de negocios implica buscar y analizar datos provenientes de múltiples fuentes ubicadas en toda la empresa, y algunas veces derivados de fuentes externas, a fin de identificar patrones y relaciones que pueden ser importantes.11 En otras palabras, la inteligencia de negocios se refiere a un conjunto de tecnologías que van a permitir al dueño, ejecutivo o administrador de una organización, entender el comportamiento de la empresa. Contar con la información suficiente, permite a una organización además de mejorar las prácticas de trabajo existentes, preservar el conocimiento como una memoria organizacional para capacitar a los futuros empleados o para ayudarlos en la toma de decisiones. La memoria organizacional es el aprendizaje almacenado de la historia de una organización que se puede aprovechar para la toma de decisiones y para otros propósitos.12 En este capítulo, se aborda el tema de los Sistemas de Información Ejecutivos (SIE). Se describe su significado, sus características y beneficios para una organización. También se describen los conceptos de almacén de datos o bodega de datos (data warehouse) y de mercado de datos (data mart). Es importante mencionar que el Sistema de Información Ejecutivo que se va a desarrollar utilizará como base de datos un data mart que almacenará la información relacionada con la construcción y conservación de carreteras del país, actividad que está a cargo de la Subsecretaría de Infraestructura de la Secretaría de Comunicaciones y Transportes (SCT). Cabe mencionar que data mart y data warehouse son dos conceptos que forman parte de una solución basada en tecnología de inteligencia de negocios. 11 Daft, R. (2007). Teoría y diseño organizacional. México: Cengage Learning. p. 290. Laudon, K. (2004). Sistemas de información gerencial: Administración de la empresa digital. México: Prentice Hall. 12 7 1.1 Sistemas de Información ejecutivos Sabemos que un dato es la unidad mínima de información que tratada en forma adecuada, puede utilizarse para su procesamiento e integración con otros datos y con base en ello, ayudar a las personas a tomar decisiones. Para una organización, contar con información oportuna y precisa, puede representar la diferencia entre ganar o perder millones de dólares. Tener información que le permita a la alta gerencia saber en qué momento incursionar a un nuevo mercado, conocer las expectativas y preferencias de los clientes, determinar oportunidades de negocio, medir minuto a minuto el comportamiento financiero de la organización, entre otros aspectos, todos estos son parámetros estratégicos para tomar decisiones. No puede haber decisiones sin información. La toma de decisiones que se lleva a cabo dentro de las organizaciones debe ser rápida, oportuna, fundamentada en datos concretos, que permita tomar decisiones eficientes, efectivas y con un bajo costo para la empresa; pues de ello dependerá el éxito o fracaso de la organización. Por otro lado, no solo es importante consolidar datos y tenerlos almacenados en algún medio. La interpretación que se haga de los datos es también muy importante para cada una de las actividades que se realizan dentro de la empresa. Por medio de esa información, los ejecutivos pueden establecer políticas de operación, se pueden enfocar en la solución de problemas específicos para la empresa, pueden determinar el desempeño que la compañía tiene en el mercado, pueden evaluar la rentabilidad de la compañía, etc. Contando con los datos precisos, el ejecutivo se convierte en un tomador de decisiones sobre aspectos como en dónde obtener recursos, en qué invertir, cuáles son las utilidades y beneficios de la empresa, cómo pagar a las fuentes de financiamiento y cómo reinvertir las utilidades, entro otros aspectos. Un Sistema de Información Ejecutivo (SIE) ayuda a los ejecutivos a contar con información oportuna y precisa para tomar decisiones. Un sistema de información para ejecutivos es un sistema que proporciona al ejecutivo información sobre el desempeño global de la compañía. La información se puede recuperar fácilmente y pude presentarse con distintos niveles de detalle. También se usa el término sistema de apoyo para ejecutivos (ESS, executive support system).13 13 McLeod Jr., Raymond (2000). Sistemas de información gerencial, 7ª ed. Prentice Hall Hispanoamericana, S. A. México. P. 444. 8 Podemos acelerar el arraigo de un SIE en una organización si se demuestra ante los jefes de las áreas funcionales que el nuevo sistema les permitirá conocer mejor cuáles son los factores clave que la dirección tiene en cuenta en su área. La unificación de criterios posibilitará que todas las áreas se centren en los factores que se han considerado críticos para la empresa.14 Y, ¿qué tan importante es para los ejecutivos de una organización, contar con información al día? La respuesta a esta pregunta es que bajo circunstancias óptimas de la información, los datos diarios permiten formar una mejor impresión del comportamiento organizacional. En muchas organizaciones, el manejo financiero es un ingrediente esencial de la gestión, por lo que los informes diarios son de una gran importancia. El conocimiento es poder y en cualquier organización existe una gran cantidad de información que puede ser transformada en conocimiento. La mayoría de los procesos de negocio generan información empresarial que sin duda constituye un activo muy valioso para las empresas, pero si no se utiliza de manera adecuada, esa información simplemente será una carga cada vez más pesada para su almacenamiento y una fuente de gastos continua para comprar y mantener la infraestructura necesaria para realizar esa actividad. Pero es necesario hacer énfasis en que las soluciones para la integración de la información, deben estar basadas en el análisis de procesos del negocio. Es preciso realizar un análisis exhaustivo sobre la operación de la organización y comprender sus procesos internos que le permiten operar. Una vez definidas las reglas de negocio y descritos los procesos, las organizaciones pueden desarrollar, buscar y elegir productos que automaticen dichos procesos y proporcionen valor para la toma de decisiones. En la actualidad, el almacenamiento de datos y su explotación implica el procesamiento de cualquier tipo de información, desde la contenida en bases de datos estructuradas hasta datos no estructurados, pasando por información en documentos o medios electrónicos, vídeo o audio. Un Sistema de Información Ejecutivo (SIE-EIS: Executive Information Systems por sus siglas en ingles) es “un sistema de información informático que se ha concebido con el objetivo de que los directivos de una organización mejoren la calidad de su trabajo. Por este motivo, facilita el acceso a las informaciones de 14 Pastor, J. (2001). Usos de los sistemas de información en la organización. Barcelona: UOC. P. 34. 9 mayor relevancia, mejora la comunicación dentro de la organización y permite una mejor comprensión del entorno de la actividad de la organización”15. Estos sistemas proporcionan medios sumamente fáciles de usar para consulta y análisis de la información. Generalmente se diseñan para el usuario que necesita conseguir los datos rápidamente, pero quiere utilizar el menor tiempo posible para comprender el uso de la herramienta. En términos prácticos, un sistema de información ejecutivo tiene como meta obtener la información correcta para las personas adecuadas en el momento conveniente, de tal forma que tomen decisiones que pueden valer millones de dólares. Hoy en día, las organizaciones buscan obtener información en tiempo real, ofrecer sus productos y servicios en línea, lograr procesos más sofisticados, rápidos y eficientes, e incluso tener un envío y recepción de datos a la velocidad de la luz. Lo cierto es que cada vez nos sorprenden más los alcances y sobre todo las mejoras que la tecnología de la información logra en beneficio de las organizaciones. Un Sistemas de Información Ejecutivo es un sistema de información para directivos que permite automatizar la labor de obtener los datos más importantes de una organización, resumirlos y presentarlos de la forma más comprensible posible, provee al ejecutivo acceso fácil a información interna y externa al negocio con el fin de dar seguimiento a los factores críticos de éxito. Este tipo de sistemas se enfocan primordialmente a proporcionar información de la situación actual de la compañía y dejan en un plano secundario la visualización o proyección de esta información en escenarios futuros. Se construyen generalmente mediante la integración de software diseñado para operar conjuntamente con la infraestructura y las aplicaciones de información existentes en la organización. El Sistema de Información Ejecutivo debe ofrecer informes y análisis de la información en tiempo real a toda la organización, debe incluir cuadros, gráficas e informes fáciles de leer, sobre todo información intuitiva que permita a los administradores realizar el seguimiento de indicadores críticos o métricas. Estos sistemas deben proporcionar acceso a la alta gerencia a categorías claves de datos relevantes, como son los datos internos creados por la organización, datos 15 Pastor, J. (2001). Dirección y gestión de los sistemas de información en la organización. Barcelona: UOC. P. 68. 10 globales de la institución, datos externos (incluida información acerca de la competencia) y datos mundiales (con el uso de fuentes como Internet). 1.1.1 Características de los Sistemas de Información Ejecutivos Un sistema de información ejecutivo que realmente ayude a la organización, debe estar alineado a la operación del negocio de tal forma que ayude a lograr los objetivos fijados. Las características de los SIE son las siguientes16: Están enfocados a cubrir las necesidades de la alta gerencia y administración de la organización. Este tipo de sistemas se desarrollan para que los gerentes y dueños de la organización puedan detectar fácilmente desvíos en el logro de los objetivos y de esta forma establecer los elementos de control necesarios para corregir un posible problema en el futuro. Extraen, filtran y permiten analizar información de diferentes fuentes de datos internas y externas a la organización. De esta forma, se pueden hacer cruces de información y detectar oportunidades de negocio y corregir desviaciones en el logro de los objetivos. Permite a los ejecutivos del negocio, contar con un sistema que tiene información consolidada de la operación de toda la organización, sin necesidad de tener intermediarios o solicitar reportes e informes a las áreas operativas. Es un sistema desarrollado con estándares de calidad en la información con el fin de mostrar al ejecutivo de la organización, información precisa para la toma de decisiones. Este tipo de sistemas también debe contener esquemas de seguridad que impidan el filtrado y consulta de información por personas no autorizadas. Estos sistemas realizan consultas en línea a las bases de datos en producción, con el fin de mostrar segundo a segundo si es preciso, el comportamiento de una determinada variable que puede implicar millones de pesos o dólares para una organización. 16 Gill, H. S. (1996). Data warehousing La integración de la información para la mejor toma de decisiones. México, D. F.: Prentice Hall. 11 En algunas organizaciones, este tipo de sistemas están acompañados por una infraestructura de hardware de costos muy elevados como: monitores de alta resolución, pantallas sensibles al tacto, impresoras de alta velocidad. Estos sistemas integran capacidad de análisis de datos, tales como hoja electrónica de cálculo (o interacción con paquetes ya existentes como Excel) o lenguajes especializados de consulta que utilicen comandos de SQL. En algunos casos, estos sistemas ejecutivos integran herramientas para la organización personal del ejecutivo, como calendario, agenda y tarjetero electrónico. 1.1.2 Factores de éxito de un Sistema de Información Ejecutivo Generalmente, este tipo de sistemas están desarrollados para ser empleados por los altos ejecutivos de una organización. Sin embargo, el éxito de este tipo de proyectos depende de diversos factores que, de acuerdo a mi experiencia, si falta alguno de ellos el sistema no tendrá la aprobación esperada: Apoyo y compromiso de la alta dirección. Para que los usuarios de los sistemas en producción den atención e importancia a un Sistema de Información Ejecutivo, es necesario que la alta dirección de la organización se involucre. Esto dará al Sistema una imagen de importancia para la alta gerencia, con lo cual todos los empleados proporcionarán la información necesaria y darán la suficiente importancia al desarrollo del proyecto. Apoyo operativo. El líder del proyecto debe de tener conocimientos tanto técnicos como operacionales en función del negocio, además de poseer las habilidades de comunicación necesarias para interactuar con los altos ejecutivos. Tecnología apropiada. Es de gran importancia la selección tanto de hardware como de software en la aceptación del sistema. Alinear claramente los objetivos del proyecto del SIE con los objetivos de la empresa. Debe de existir un claro enlace entre los objetivos de la empresa y los beneficios del sistema. 12 Acceso y administración de los datos. Un sistema de este tipo debe estar disponible los 365 días del año y 24 horas al día. Los datos deben ser accesibles desde medios internos como externos a la organización. Uso. Un indicador importante es su frecuencia de uso. Si un sistema no es usado, o simplemente los usuarios potenciales no lo emplean, esto se reflejará en el éxito del sistema. Satisfacción. Si el sistema no proporciona la información necesaria que los usuarios esperan, entonces dejarán de utilizarlo. Impacto positivo. Un sistema es exitoso si tiene un impacto benéfico en los ejecutivos de la organización. Cuando un ejecutivo toma decisiones correctas con base en la información del SIE, entonces el resultado de esas decisiones beneficiarán a la organización. Difusión. Otro punto importante para el éxito del proyecto, es el número de personas que utilizan el sistema. Y este sistema será utilizado por más usuarios en cuanto los primeros reconozcan el valor funcional que tenga para la toma de decisiones. Definir cuidadosamente los requerimientos de información. Algo muy importante en este proceso es la definición de los requerimientos de los usuarios. El éxito aplicará únicamente si estas necesidades son bien entendidas, lo cual no es una tarea fácil. 1.1.3 Beneficios de un Sistema de Información Ejecutivo Los SIE aportan diversos beneficios a la operación de una organización y al cumplimento de las metas y objetivos planeados. Se puede mencionar los siguientes: Información a tiempo. Los ejecutivos de la organización cuentan con información importante, precisa y relevante sobre la operación de la empresa. Con esta información, el ejecutivo y administrador del negocio, pueden tomar decisiones más acertadas y precisas. Sensibilidad al medio. Se obtiene información de mayor calidad, independientemente de cuál sea el origen o el medio, lo que se pretende es obtener información competitiva. 13 Efectividad de ejecutivos. Mejora la comunicación entre los ejecutivos de la organización, aumentando el desempeño y ahorrando tiempo. Cumplimiento de objetivos estratégicos. Con información precisa, se pueden hacer mejores planes para una mejor toma de decisiones. Y cuando se presente un problema, también se pueden obtener alternativas de solución óptimas para el cumplimiento de los objetivos. Economía en el uso de recursos. Se ahorran costos en papeleo y se obtiene una mejor respuesta al cambio en las necesidades de los clientes. 1.1.4 Desarrollo de un Sistema de Información Ejecutivo Es importante tener en cuenta que el proceso de desarrollo para un sistema transaccional, no necesariamente va a funcionar en un 100% para un SIE. Los pasos a considerar para desarrollar un SIE, son17: 1. El establecimiento del equipo de desarrollo: personas con un perfil adecuado, que dispongan de tiempo y que crean en la idea. 2. Determinación de las necesidades de los directivos: existen diferentes estrategias para la determinación de estas necesidades. Los diferentes métodos de planificación de sistemas aportan propuestas propias que se pueden basar en los problemas y las decisiones que hay que afrontar (Business System Planning), las finalidades y los medios existentes (Ends/Means Analysis) o los factores críticos para el éxito de la organización (Critical Success Factors). Para la determinación de estas necesidades tenemos que considerar los siguientes aspectos: a. Análisis de los objetivos de la organización a partir de entrevistas con directivos clave. b. Identificación de los factores críticos para alcanzar los objetivos. c. Identificación de las actividades básicas desarrolladas en la organización. d. Determinación de los indicadores clave de rendimiento para cada actividad básica. 3. Determinación del contenido inicial del prototipo. 17 Pastor, J. (2001). Usos de los sistemas de información en la organización. Barcelona: UOC. 14 4. Estudio de viabilidad. Es necesario tener en cuenta los tres aspectos que se presentan a continuación: a. Información interna: análisis del sistema de información actual y determinación tanto de la información que necesita el SIE y que ya existe como de las nuevas fuentes de información que son precisas. b. Información externa: determinación de las variables del entorno que hay que considerar y la manera de obtenerlas. c. Evaluación de las posibilidades de que las necesidades de los directivos queden cubiertas con el nuevo sistema. d. Establecimiento de un plan de actuación. 5. Elaboración y prueba del prototipo basándose en las necesidades determinadas anteriormente. 6. Adaptación del sistema de información existente para obtener la información interna de la que antes no se disponía. 7. Desarrollo del sistema real a partir del prototipo. Puesta en marcha por fases. 8. Establecimiento de los mecanismos diferenciadas según los usuarios. de actualización y vistas 9. Difusión del uso del sistema: ampliación a otros directivos del mismo nivel organizativo (ampliación horizontal) y de niveles inferiores (ampliación vertical). 10. Adaptación periódica del sistema a los cambios de la organización y al entorno: previsión de recursos para un posterior mantenimiento. Ahora bien, la persona que va a utilizar un SIE, debe tener también ciertas capacidades como: Capacidad de visualizar y declarar problemáticas Capacidad de generar soluciones o abrir nuevas posibilidades Capacidad de decision Un Sistema de Información Ejecutivo fortalece también el proceso de planeación de la organización de la siguiente manera: 15 Automatizando el proceso de planeación de la compañía Creando aplicaciones de planeación estratégica y análisis competitivo, las cuales se perfeccionan a través de comunicaciones adecuadas y acceso a las bases de datos. Logrando que los ejecutivos utilicen el sistema para planeación técnica y, a largo plazo, con aplicaciones que antes fueron concebidas para el control administrativo. Habilidad de realizar análisis específicos utilizando información que está en las bases de datos. Es importante mencionar que los SIE deben diseñarse de tal forma que provean a la alta administración de la información que emerja de las bases de datos. 1.1.5 Como mejoran los SIE el proceso de toma de decisiones En la actualidad, las compañías están haciendo frente a un nuevo fenómeno dentro del almacenamiento empresarial; el explosivo crecimiento de datos que se está produciendo dentro del mercado actual. Un nuevo reto que no se limita a la gestión de una, cada vez mayor, base de datos. Sino que ahora también es preciso gestionar los datos de manera que ayuden a los ejecutivos de la organización a tomar decisiones de manera rápida con base en la información almacenada. De esta forma, el uso de un SIE tiene entre otras ventajas, las siguientes18: Mejora del desempeño. Las empresas participantes de un SIE disponen de mayor cantidad de financiamiento, lo que facilita que puedan diseñar tecnologías que apoyen sistemas de información más personalizados a las necesidades del grupo. Aumento de la flexibilidad. El uso de un mismo sistema de información para compartir datos, permite a las organizaciones lograr una ventaja competitiva, sin alterar el funcionamiento de sus departamentos o sucursales ni su interacción con otras organizaciones. Ampliación de servicios complementarios. Compartir un sistema común puede originar propuestas de servicios adicionales como por ejemplo, servicios de facturación electrónica, promociones, ofertas y descuentos. 18 Pablos Heredero, C. d. (2004). Ilustraciones de la aplicación de las tecnologías de información en la empresa española. Barcelona: ESIC. P. 37-38. 16 Colaboraciones en la elaboración de nuevos productos y servicios. El involucramiento de todas las empresas participantes en diseños de productos y servicios a través de un sistema común, puede propiciar una mayor aproximación a las demandas de los clientes. Reducción y/o eliminación de los costos administrativos. Poseer mayor información de manera electrónica aumenta las posibilidades de reducir el movimiento de papel típico en estas operaciones. Reducción de intermediarios. La conexión a través de una red de comunicaciones entre los productores de la información (personal operativo) con el consumidor final (estratega), podría eliminar la necesidad de representantes e intermediarios, ó en su caso provocar la redefinición de sus funciones. 1.2 Concepto de data warehouse Para algunas organizaciones, es una arquitectura. Para otras, es un depósito semánticamente consistente en datos (separados y que no interfieren con los otros sistemas en producción existentes) que llenan por completo los diferentes requerimientos de acceso y reporte de datos. También se puede entender como un proceso continuo que mezcla los datos de varias fuentes heterogéneas, incluyendo datos históricos y adquiridos para soportar la constante necesidad de consultas estructuradas, reportes analíticos y soporte de decisiones. Pero sin lugar a dudas, es una tecnología esencial en el conjunto de soluciones para el soporte de decisiones en una empresa. Un data warehouse es el lugar donde se recoge toda aquella información que puede ser de interés analizar a la hora de tomar decisiones por los diferentes departamentos de una compañía. Para generar esta información es necesario acceder a datos de distintos sistemas informáticos de la organización y construir los procesos que apliquen la lógica del negocio y trasladen los resultados hasta el data warehouse.19 Con mucha frecuencia la gente de tecnologías de la información de alguna empresa, cree haber construido uno. Pero en muchos casos lo que se ha 19 Barranco, Jesús (2001). Metodología de análisis estructurado de sistemas. Madrid, España. Universidad Pontificia. P. 292. 17 construido es un recurso de acceso de último usuario para navegar, reportar y unirse a un Sistema de Soporte de Decisiones (SSD). En otros casos, se ha transferido información de las bases de datos relacionales a una base de datos multidimensional y generalmente se desarrollan herramientas de análisis para conectarse a las bases de datos multidimensionales. De hecho, trabajar con bases de datos multidimensionales es solo un paso que permitirá la implementación de la solución de data warehouse. Sin embargo, una implementación de este tipo de tecnología, debe complementarse con los siguientes aspectos: Integrar datos de diversas fuentes. Cuidar la calidad de los datos que van a ser consolidados hacia el data warehouse. Crear los mecanismos de sincronización de las fuentes de datos con el data warehouse para asegurar una actualización constante del mismo, conforme se crean nuevos datos dentro de las fuentes. Cuidar los aspectos de desempeño relacionados con la infraestructura tecnológica como servidores y plataformas de sistemas manejadores de bases de datos (RDBMS) y OLAP. Dar mantenimiento a la estructura de las bases de datos multidimensionales y relacionales para implementar nuevos requerimientos de información. La mayoría de las bases de datos e incluso de los data warehouse, no toman en consideración el aumento de la necesidad de extraer información de los datos a mayor velocidad o la de usar datos no estructurados almacenados fuera de éstos sistemas. En la actualidad, el almacenamiento e interpretación de datos no estructurados, se ha convertido en una necesidad para las organizaciones, ya que mucha de la información que reciben proviene de correos electrónicos, páginas de Internet, documentos de procesadores de texto u hojas de cálculo. Los datos usados para el análisis operacional se utilizan con mucha frecuencia antes de ser almacenados. Esta tendencia continuará con el incremento de la demanda, por parte del usuario, de sistemas que le permitan analizar y obtener la información por sí mismo. El propósito de un data warehouse es ayudar a la administración y alta gerencia de una organización a comprender el pasado y planear para el futuro. Pero es importante mencionar que el éxito de una compañía no va a estar garantizado por el solo hecho de contar con esta tecnología. Para obtener valor de 18 una herramienta de este tipo se requiere una combinación de técnicas, habilidades, intuición y experiencia por parte de los usuarios. 1.2.1 Características de un data warehouse Las principales características de un data warehouse son las siguientes: Integra información. Es una herramienta que va a permitir consolidar información de muy diversas fuentes con la ventaja de guardar datos históricos que ya no son útiles en los sistemas operacionales pero que sin embargo sirven para análisis de escenarios, determinación de pronósticos, comparación de comportamientos organizacionales, etc. Está dirigido al usuario. Generalmente, estas aplicaciones están dirigidas al personal que conforma la alta gerencia o dueños del negocio y a todas aquellas personas encargadas de tomar decisiones diariamente. La finalidad de estas herramientas es apoyar en la toma de decisiones para que sea un proceso más rápido y con mayor precisión. Evoluciona con el tiempo. Son herramientas que van a tener que cambiar y ser adaptadas a requerimientos cada vez más precisos por parte de sus usuarios finales, ya que van a demandar información más exacta y estratégica, de acuerdo al contexto de la organización y a las condiciones de mercado. Por lo que el personal de TI tendrá que realizar ajustes, buscar nuevas fuentes de información, cambiar las reglas de extracción, carga y cálculo de la información, etc. Está orientado a la toma de decisiones. Un data warehouse se construye para consolidar información de diversas fuentes en una sola y con ello apoyar en la mejor toma de decisiones y así obtener una ventaja competitiva. Su uso está enfocado a la alta gerencia. Un data warehouse no esta orientado a los procesos operativos de la organización. Sino más bien a los ejecutivos o dueños del negocio que son quienes toman las decisiones y guían el curso de la empresa de acuerdo a la información almacenada en el data warehouse. 19 1.2.2 Implementación de un data warehouse en la organización La implementación de un data warehouse en una organización, implica conocer forzosamente sus procesos de negocio. La idea central para la implementación de este tipo de herramientas es que se almacenen y manejen grandes cantidades de información para su análisis, de tal forma que su resultado satisfaga las necesidades empresariales en el menor tiempo y con la mayor precisión posible. Sin embargo, existen en el mercado una gran cantidad de proveedores y metodologías que se pueden utilizar para su implementación. Elegir una adecuada metodología de desarrollo implica conocer detalladamente los procesos de negocio con el fin de poder determinar las métricas e indicadores que realmente se necesitan por la alta gerencia o por los usuarios finales de la aplicación. También será necesario identificar todas aquellas posibles fuentes de información que nutrirán de los datos necesarios al data warehouse. Como en todo proyecto, el análisis del problema es el primer paso para encontrar la solución. La complejidad para la implementación de un data warehouse se centra en lo complejo que pueda ser el negocio y de la necesidad que se quiera modelar. Las características de cada negocio son diferentes. De ahí que también la profundidad de sus procesos y la organización al interior de la empresa, sean factores que ayudarán a dimensionar la arquitectura necesaria y la configuración para satisfacer los requisitos del desarrollo. Una buena estrategia para el desarrollo de un data warehouse en grandes empresas, es construirlo poco a poco. En algunas organizaciones puede consistir en un proceso a largo plazo que involucre las siguientes actividades: 1. Determinar las fuentes de información existentes como sistemas operacionales, intranets, Internet, hojas de cálculo, etc. Es recomendable que se busquen fuentes estructuradas de información aunque, como se analizará más adelante, es posible también consolidar fuentes no estructuradas como lo son documentos de Word y archivos de Excel. 2. Construir, si no existen, los sistemas operacionales que procesaran la información cotidiana de la empresa, como son: sistemas para la gestión de pagos, sistemas para la administración de ventas o sistemas para la administración del presupuesto, etc. 3. A partir de los sistemas operacionales, desarrollar data marts para cada uno de ellos. Estos mercados de datos tendrán como objetivo consolidar la información más importante para la toma de decisiones dentro de una sola área. Apoyarán en las actividades de reporteo, análisis de información, análisis de escenarios, etc. Más adelante se estudiará con mayor detalle el 20 concepto de data mart, ya que el Sistema de Información Ejecutivo que se va a desarrollar, utilizará uno de ellos como repositorio de información. 4. Consolidar la información de cada uno de los data marts construidos, hacia el data warehouse empresarial. A su vez, estos mercados de datos que son independientes unos de otros, servirán para consolidar la información hacia un data warehouse que contendrá las métricas necesarias para su análisis. Cada vez que se construya un data mart, se podrá enviar su información hacia un data warehouse el cual contendrá toda la información de la organización, pero deberá estar consolidada de tal forma que apoye en el análisis y proceso de toma de decisiones de la alta gerencia. 5. Construir las herramientas de software necesarias para explotar la información del data warehouse. Pueden ser portales o páginas web, algunas herramientas de reporteo o construir un Sistema de Información Ejecutivo que permita la explotación de esta información. Estos cinco pasos son, a grandes rasgos, las actividades que se pueden llevar a cabo para la construcción de un data warehouse. En un esquema de desarrollo, se pueden visualizar 3 niveles o capas de abstracción (ver figura 1.1) y cada una de ellas conlleva una serie de actividades para su construcción. En la figura 1.1, se hace mayor énfasis en el uso de sistemas operacionales para la construcción de los data marts. Esto se debe a que generalmente se puede tener un mayor control y una mayor certidumbre de la información almacenada en el data warehouse, cuando esta proviene de sistemas de información que contienen la regla del negocio específica para las áreas que los usen, así como un conjunto de restricciones y de elementos de seguridad que van a garantizar que la información procesada en la base de datos transaccional, tenga la menor cantidad de errores posible. A diferencia de hojas de calculo y de otras fuentes de información en las que es menos probable que se tengan elementos de seguridad que garanticen la integridad de la información que se almacena en los data marts y en el data warehouse. Sin embargo, es posible ingresar información de estas fuentes alternas de datos (hojas de cálculo, Internet, etc.) e incluir en el data mart y en el data warehouse, las reglas de negocio necesarias, que eviten integrar información errónea. Esta estrategia de construir un data warehouse a partir del desarrollo de data marts, tiene algunas ventajas. En primer lugar, se obtiene un mejor desempeño en la consolidación de la información en el data warehouse a partir de información que ya se encuentra depurada en un data mart. Esto disminuirá los tiempos de consulta y explotación de la información. 21 Y en segundo lugar, se tiene la ventaja de desarrollar un sistema de data warehouse modular que permitirá detectar rápidamente el origen de alguna información incorrecta, ya que no es lo mismo consolidar y buscar información de todas las fuentes de datos organizacionales directamente en un data warehouse, que buscar el origen del dato erróneo en un data mart, el cual es muy particular y específico de una área. Figura 1.1 Integración de aplicaciones para la construcción de un data warehouse (diseño propio) Por otro lado, independientemente de la metodología de desarrollo que se utilice, es indispensable tener una disciplina y organización en el desarrollo e implantación de proyectos de data warehousing. Esto permitirá, además de contar con la documentación técnica necesaria al final del proyecto, reducir los costos de desarrollo, mejorar el trabajo de análisis de la aplicación, integrar de forma más rápida nuevo personal y mejorar y establecer una comunicación común entre todos los participantes. En la implementación también se debe tener en cuenta que en muchos casos se debe recoger datos de fuentes que estén geográficamente dispersas para después integrarlos y finalmente entregarlos a usuarios que también estén separados físicamente en delegaciones, cedes o corporativos. Por lo tanto, la infraestructura de comunicaciones se vuelve crítica en este tipo de soluciones. 22 1.2.3 Personal que participa en la implementación de un data warehouse Existe personal interno y externo a la organización, que invariablemente deberá participar en el diseño y desarrollo de un data warehouse ya que sin su apoyo, sería muy difícil identificar claramente los requerimientos de información. Por parte de la organización, el personal que participe en la implementación de un data warehouse debe ser aquel que esté directamente involucrado con la operación diaria y manejo de la información. Esto permitirá modelar el proceso de negocio e identificar el flujo de la información, facilitando la determinación de los indicadores necesarios para la toma de decisiones. También deben estar involucrados los usuarios de tipo ejecutivo o de la alta gerencia quienes serán finalmente los usuarios de la herramienta y serán quienes utilizarán su información para tomar decisiones. Así que solamente ellos podrán determinar cuáles serán las métricas del negocio de alto nivel que necesitarán visualizar para su control. El otro tipo de personal involucrado es el técnico responsable de implementar la solución de data warehouse. Generalmente es personal contratado por consultoría o por outsourcing. Pero será necesario que en el desarrollo de todas las actividades de construcción, esté involucrado también el personal técnico interno de la organización, con el fin de garantizar que el conocimiento del desarrollo y mantenimiento de la nueva herramienta se quede dentro de la empresa y evitar así, la dependencia hacia el consultor. En resumen, el personal involucrado deberá ser el siguiente20: Los ejecutivos y los administradores (inversionistas) invierten en la tecnología del data warehouse y pagan por el desarrollo de la solución. Son responsables de aprobar el presupuesto y valorar si la retribución del data warehouse conviene a su inversión. Les interesa la permanencia de su inversión y su retribución continua. Los arquitectos de sistemas son responsables de establecer las bases del data warehouse. Son los responsables de interpretar los requerimientos del inversionista y diseñar la arquitectura del data warehouse que los cumpla. 20 Gill, H. S. (1996). Data warehousing La integración de la información para la mejor toma de decisiones. México, D. F.: Prentice Hall. P. 24 23 Les interesa la duración, la modulación, la facilidad de implementación y el grado de compatibilidad con sus tecnologías y sistemas existentes. Los constructores son los profesionales de la tecnología de información que realmente construirán el data warehouse. Son responsables del tiempo, la calidad, el desempeño y la satisfacción de las personas que realmente emplearán la herramienta cada día. Los usuarios son los profesionales de la empresa y su personal de apoyo que accederán y utilizarán el data warehouse como una herramienta de soporte de decisiones en su trabajo cotidiano. Son personas cuyo trabajo se basa en la información, y los datos que adquieren les ayudará a formular recomendaciones empresariales. Son especialistas en analizar la información de diversas maneras para tratar de destacar hechos acerca de clientes, mercado y productos, y utilizarla como una ventaja competitiva. Les interesa “entender lo que está pasando en el negocio” y después analizar los “¿Qué tal si…?” e “¿y ahora que? Para sus empresas. Es importante mencionar que no todas las empresas están preparadas para la implantación de sistemas de data warehouse. Hay varios factores que influyen. Lo fundamental consiste en los siguientes puntos: Tener información. Disponer de sistemas internos que generen información. Los sistemas transaccionales como los ERP (Enterprise Resource Planning) o los sistemas hechos a la medida de una empresa contribuyen a esto. Que la empresa tenga cultura de análisis. Si el equipo directivo no tiene una cultura de análisis que le permita sacar partido a la información, no tiene sentido invertir en este tipo de tecnología. Se podría invertir y lo más que se llegaría a tener son una serie de informes y herramientas de reporteo. Pero no se tendría la capacidad técnica ni el interés por llevar a cabo un análisis exhaustivo de los datos, el cual es el objetivo central de una solución de data warehouse. Es necesario que la organización cuente con procesos y procedimientos organizados, que el trabajo se lleve a cabo de forma ordenada y en general que la empresa siga un cierto aspecto metodológico en el desarrollo de sus actividades. Para poder implantar soluciones de este tipo, es preciso que la empresa tenga un gabinete de dirección, unos presupuestos asignados a la 24 operación diaria de la empresa y una dinámica interna que le permita el aprovechamiento de esta plataforma. Es importante mencionar que los ejecutivos de negocio o alta gerencia, van a demandar cada vez más informes para lograr una visión más profunda sobre alguna métrica o elemento de control en particular. Esto implica que el desarrollo de una solución de data warehouse no termina en el momento en que se finaliza la implementación del mismo. No hay que olvidar que las organizaciones evolucionan y con ello las herramientas de inteligencia de negocios o de data warehousing deben adaptarse, con el fin de que proporcionen información estratégica que mantengan o mejoren la competitividad. Los datos que hoy son importantes para una organización en un determinado contexto, puede ser que ya no lo sean el día de mañana. En la actualidad, las empresas implementan tecnologías de data warehousing, todas basadas en incrementar las ganancias y vencer a la competencia. La información adquirida se encuentra, como regla, disponible para todos. Pero los datos de la propia empresa en su data warehouse son un activo importante. Estos datos son una historia detallada de los negocios de la empresa y su relación con sus clientes. Las empresas que aprenden a aprovechar sus datos están verdaderamente en posición de construir planes, ejecutarlos y afinarlos para obtener una ventaja competitiva. 1.2.4 Arquitectura para la construcción de un data warehouse Esta arquitectura permite mostrar los distintos tipos de información necesaria para construir un data warehouse. La arquitectura se describe primero desde un punto simplificado a alto nivel, del modo siguiente: Un conjunto de datos extraídos de bases de datos operacionales. Un software que prepara los datos para que los accedan los usuarios. Un conjunto de aplicaciones y herramientas que ejecutan un conjunto de consultas y análisis complejos. En la figura 1.2, se puede analizar el esquema de construcción y la infraestructura necesaria para implementar una solución de este tipo. Es importante mencionar que en cada bloque se desarrollan actividades que permitirán cubrir las necesidades de información de la organización. 25 Figura 1.2 Arquitectura de referencia del data warehouse (Gill, H. S.) La arquitectura de referencia mostrada en la figura 1.2, contiene los siguientes elementos: Modelo de datos. Provee una estructura para identificar, nombrar, describir y relacionar los elementos de información de la base de datos. Es necesario desarrollar este modelo de datos porque con base en él, es como se va a estructurar la información almacenada en las soluciones de data warehousing a desarrollar. Es un mapa para la integración de datos que va a permitir integrar fuentes de datos de data marts con el data warehouse. Existen dos modelos que se pueden utilizar para desarrollar una data warehouse o data mart. Modelo de estrella y modelos de copo de nieve (snowflake). Más adelante en este capítulo, se analizarán brevemente estos dos modelos. Fuente de datos. En este bloque se analizan todas las posibles fuentes de información que alimentaran al data warehouse. Puede tratarse de datos de sistemas en producción, datos de herencia, sistemas internos de oficina, sistemas externos. Nuevamente se hace hincapié en que la información proveniente de fuentes no normalizadas, debe estar lo mas estructurada posible, con el fin de facilitar la integración de la información periódica de estas fuentes, hacia el data warehouse. Desarrollo e implementación del data warehouse. Este bloque se refiere al desarrollo de los elementos que permitirán el funcionamiento del data warehouse. Algunas de las actividades que se llevan a cabo en esta fase son la normalización o estandarización de la estructura de datos, el filtrado de datos, la definición y creación de metadatos, la condensación o 26 consolidación de los datos, la aplicación de cálculos, la transformación de los datos y su reubicación. Desarrollo e implementación de data marts o mercados de datos. En este bloque se crean los mercados de datos a partir del contenido de las fuentes de información y visualizando la condensación de la información contenida en el data mart hacia el data warehouse. Las actividades que se desarrollan para la construcción de un data mart, son similares a las del data warehouse. La principal diferencia entre estos dos componentes de data warehousing, es el enfoque del usuario final. Los data marts están enfocados al análisis y consolidación de información para un área en particular. Son herramientas que satisfacen las necesidades de información de un grupo de usuarios con funciones muy específicas como podrían ser el área de ventas, el área de adquisiciones o el área de recursos humanos. Cada área dentro de la organización puede tener su propio data mart del cual se extraerá información para su consolidación hacia el data warehouse empresarial. Tecnologías de análisis y explotación de la información. En este bloque se determinan cuales serán las herramientas que el usuario final utilizará para visualizar la información. En algunas ocasiones puede tratarse del diseño de un portal web, de la construcción de un Sistema de Información Ejecutivo (SIE) o de algo muy sencillo como una hoja de cálculo. Estas herramientas estarán conectadas el data warehouse o a algún data mart y permitirá al usuario extraer información y realizar operaciones de drill down (búsqueda en profundidad) o drill up (búsqueda en ascenso). Es importante mencionar que deben considerarse los elementos de seguridad necesarios para evitar accesos no autorizados a la información y en general, la corrupción o pérdida de los datos almacenados. Por otro lado, dentro de la arquitectura también se tienen una serie de capas o niveles, las cuales son21: Capa de administración de metadatos. La arquitectura del data warehouse se basa en el concepto de definiciones de datos o metadatos. Los metadatos se utilizan en toda la construcción tanto del data warehouse como de data marts. El manejo de metadatos permite conocer información 21 Ibid., p. 38. 27 como la fecha de integración de un dato, la fuente u origen o el dueño responsable de los datos consolidados. Precisamente la actividad de consolidación requerirá de la creación de nuevas columnas para contener la información resumida y deberá estar basada en la utilización de reglas de carga que eviten la integración de datos incorrectos o no estructurados. La capa de administración de metadatos es responsable de la administración de los metadatos que usa el data warehouse, tales como la descripción completa de los datos almacenados. Capa de transporte. La tarea de transportar los datos está contenida en este bloque. Actividades como determinar la velocidad necesaria de transmisión de los datos que permita su consulta en el momento en el que se requiere, donde se requiere y a la hora que se requiera o el análisis del impacto que tendrá la transferencia de información a través de la red al momento de consolidarla desde las fuentes de datos hacia el data warehouse o la tarea de transportar los datos entre los distintos bloques de la arquitectura, se desarrollan en esta capa de transporte. Esta capa utiliza tecnología de actualización y duplicación, red para transferencia y entrega de datos y también aporta elementos de seguridad y de autentificación para la transmisión de información. Infraestructura de operación. En esta capa se analizan los elementos necesarios para el funcionamiento del data warehouse como la determinación del motor de la base de datos, lenguajes de programación y arquitectura de construcción, administración de los componentes de seguridad (tanto de software como de hardware), administración de licencias y elementos de monitoreo del desempeño de la infraestructura. 1.2.5 Diferencia entre un data warehouse y una base de datos relacional Para entender la diferencia de un data warehouse con respecto a una base de datos relacional, deben conocerse muy bien las diferencias entre los sistemas operacionales y los sistemas enfocados a informar (como es el caso de un almacén de datos o data warehouse). Un sistema operacional representa a los sistemas de gestión de la empresa, generalmente basados en transacciones de negocio, que recogen la información puntual y detallada de la gestión de los servicios de la empresa, y que sirven para actualizar las bases de datos contenedoras de la información del negocio. Cada aplicación de gestión utiliza su base de datos, dedicada a las funciones de negocio 28 que abarca. Como sabemos, a este tipo de aplicaciones se les denomina On-Line Transaction Processing (OLTP). 22 Un sistema operacional utiliza bases de datos relacionales como repositorio de información. Una base de datos relacional puede llegar a tener cientos de tablas para soportar la operación óptima de un sistema operacional. Un data warehouse puede llegar a tener algunas decenas de dimensiones o tablas (el término dimensión se utiliza para nombrar a cada una de las vistas que puede tener un cubo de información y se analizará mas adelante en este mismo capítulo) que son utilizadas para consolidar la información de grandes volúmenes de datos. Un sistema de data warehouse (o sistema informativo) es utilizado para realizar consultas, a diferencia de una base de datos transaccional que está enfocada a almacenar y procesar información de ese tipo. Por otra parte, la fase de análisis y el entendimiento de los procesos de negocio son indispensables en ambos modelos. Lo importante en este punto es modelar claramente lo que se quiere obtener de las aplicaciones. Puede utilizarse UML para diseñar los procesos del negocio y entender como funciona. Sin embargo, hay que tener en cuenta siempre, como se mencionó en el párrafo anterior, que el fin de ambos sistemas es distinto y que el proceso de construcción de estas aplicaciones es diferente también. El data warehouse hace lo siguiente23: Administra grandes cantidades de información. La mayoría de los data warehouse contienen información histórica que se retira con frecuencia de los sistemas operativos porque ya no es necesaria para las aplicaciones operacionales y de producción. Por el volumen de información que un data warehouse debe manejar, también debe ofrecer opciones para la adición y la consolidación que clasifican esta inmensa cantidad de datos. Un data warehouse debe administrar información histórica de la organización además de la información actual. Incluso la misma solución de data warehouse puede necesitar de una gran cantidad de espacio para almacenar su propia información. Una sola aplicación puede crecer en megabytes de información al día. 22 Barranco, Jesús (2001). Metodología de análisis estructurado de sistemas. Madrid, España. Universidad Pontificia. P. 290. 23 Gill, H. S. (1996). Data warehousing La integración de la información para la mejor toma de decisiones. México, D. F.: Prentice Hall. P. 5. 29 Almacena información en diversos medios. Debido a las grandes cantidades de información que deben manejarse, un data warehouse debe permitir guardar información en diferentes medios. Incluso debe pensarse en que la información puede estar dispersa geográficamente. Actualmente, las organizaciones contratan servicios de centros de datos que pueden encontrarse a kilómetros de distancia del origen de los datos- y que se van a encargar de almacenar y administrar la infraestructura necesaria para guardar grandes volúmenes de información. Y para llevar a cabo esta tarea, utilizan discos duros, discos compactos, cintas magnéticas, etc. Una solución de data warehouse debe contemplar dos cosas. La minería y extracción de datos en todos esos medios y la consolidación de la información y su almacenamiento en los mismos. Puede administrar versiones diferentes de un esquema de base de datos. Debido a que un data warehouse puede almacenar información histórica, las aplicaciones de minería y extracción de datos deben ajustarse constantemente para poder conectarse a bases de datos que cambien su estructura periódicamente para adaptarse a las nuevas necesidades del negocio. Esto puede ser una ventaja y una desventaja. Si consideramos que un data warehouse opera en parte con la información que se procesa a diario en los sistemas operacionales y que estos últimos evolucionan a través del tiempo, entonces el data warehouse y los data marts construidos también deben evolucionar de acuerdo a nuevas condiciones de la organización. No hay que olvidar que la construcción de un data warehouse es un proceso evolutivo que busca constantemente proporcionar información estratégica dentro de un contexto actual de la organización. Por otro lado, manejar distintas versiones de bases de datos operacionales, obliga a la organización a contar con el personal técnico necesario (interno o externo) para realizar los ajustes correspondientes a las aplicaciones de data warehousing. En la actualidad, las consultarías que se dedican a proporcionar este tipo de servicios pueden cobrar millones de dólares por sus servicios, lo cual hace prácticamente imposible para la pequeña y mediana empresa pensar en este tipo de implementaciones. Sin embargo, existen diferentes metodologías para implementar este tipo de herramientas y que no llegan a ser tan caras. Lo importante es comprender el negocio y las necesidades de información. 30 Consolida y agrega información. Con frecuencia, es muy alto el nivel de detalle de la información guardada por bases de datos operacionales. Un data warehouse consolida y agrega la información para presentarla en forma comprensible a las personas. La consolidación y adición es esencial para entender la imagen global y poder responder a una pregunta del negocio en particular. Una vez consolidada la información pueden ejecutarse scripts de cálculo que van a permitir obtener estadísticas u otro tipo de resultados. Integra y relaciona información de diversas fuentes de información. Debido a que las organizaciones han administrado sus operaciones desde hace mucho tiempo utilizando numerosas aplicaciones de software y múltiples plataformas de bases de datos, es necesario que un data warehouse integre toda esa información y la consolide de tal forma que solamente exista una sola fuente de datos para la toma de decisiones. Esta tarea es muy complicada porque en la actualidad existen numerosas plataformas tecnológicas de bases de datos relacionales, así como una gran diversidad en la semántica y estructuración de la información. Por lo que implica un enorme trabajo de análisis, construcción y mantenimiento de la solución. Está dirigido a la alta gerencia para resolver problemas de información. Organiza y orienta los datos desde la perspectiva del usuario final. Los sistemas de procesamiento de transacciones organizan sus datos desde la perspectiva de la aplicación, de modo que el acceso de la aplicación a los datos tenga la mayor eficiencia posible. Con frecuencia, la información que está organizada para que una aplicación del negocio la recupere y actualice con facilidad, no está organizada necesariamente de modo que un analista con herramientas gráficas inteligentes de consulta pueda formular las preguntas empresariales correctas. 1.2.6 El data warehouse como un sistema de misión crítica Conforme las organizaciones comienzan a utilizar un data warehouse para realizar las actividades diarias y cuando los usuarios se dan cuenta de la importancia que puede llegar a tener una herramienta de este tipo, el sistema de data warehouse se convierte en un sistema de misión crítica. Generalmente este tipo de aplicaciones comienzan a utilizarse con ciertas reservas y dudas sobre su funcionamiento. Incluso en algunas organizaciones se utilizan en paralelo los mismos reportes con los que operaban antes de que el data warehouse arrancara en producción. 31 Sin embargo, cuando los usuarios se dan cuenta de que pueden tener en unos cuantos minutos la misma información que anteriormente recibían después de un largo proceso de integración que hacían los responsables de diferentes áreas, entonces es cuando ya no podrán dejar de utilizar el almacén de datos para tomar decisiones. A partir de ese momento el data warehouse se convertirá en un sistema de misión crítica, ya que los usuarios tendrán la confianza de operarlo e incluso la falla del sistema podría ocasionar un mal funcionamiento del negocio. La aceptación de la nueva herramienta conlleva un proceso de evolución y de madurez tanto del personal como de la misma tecnología. A pesar de las bondades tecnológicas que en la actualidad existen para analizar la información de un data warehouse, no deja de ser algo nuevo para los usuarios que finalmente esperarían contar con una herramienta que tomara las decisiones casi por ellos con solo hacer clic sobre un botón. Pero no es así de sencillo. En la figura 1.324, se puede visualizar el proceso de madurez tecnológico con respecto a la importancia que va cobrando el uso de un sistema dentro de la organización. El personal que utilice el data warehouse debe estar realmente consciente de las necesidades y de la visión del negocio. Debe tener claro hacia donde se dirige la organización y su estrategia para alcanzar sus objetivos. De alguna manera, los usuarios del data warehouse deben tener un cierto perfil metodológico para analizar la información. Finalmente, un almacén de datos contiene grandes volúmenes de información y si no se sabe por dónde comenzar a analizar, es muy fácil perderse entre un océano de datos y más datos. 24 Gill, H. S. (1996). Data warehousing La integración de la información para la mejor toma de decisiones. México, D. F.: Prentice Hall. P. 20. 32 Figura 1.3 Ciclo de madurez de la tecnología (Gill, H. S.) Conforme la compañía comienza a usar cada vez más la información del data warehouse para las actividades diarias, su disponibilidad comienza a ser cada vez más importante. Los requerimientos para un sistema de misión crítica incluyen lo siguiente: Disponibilidad Consistencia y precisión Fuerza Estandarización Actividades basadas en requerimientos Compatibilidad con la tecnología existente y la infraestructura de base de datos Uso diario Uso amigable Alto desempeño Verificable Seguro 33 1.2.7 Relación de un SIE con un data warehouse Un sistema de información ejecutivo puede contribuir de manera importante en la toma de decisiones al permitir redefinir y reorientar algunas de las fases del ciclo administrativo de una organización, principalmente en la planeación y control. Esto permite a la organización optimizar en la asignación de recursos, tanto cuantitativos como cualitativos; además de mejorar sus procesos y como resultado aumentar sus utilidades. En la figura 1.4., se pueden observar los pasos que sigue un sistema de información ejecutivo para llevar la información hasta el usuario final. Es importante notar que un data warehouse provee de información al SIE. Por lo que se debe garantizar que la información almacenada en el data warehouse sea confiable y oportuna para su visualización y consulta por cualquier medio. El concepto de sistema de información ejecutivo es simple: los ejecutivos no tienen mucho tiempo, ni la habilidad en muchos casos, para efectuar el análisis de grandes volúmenes de datos. El SIE presenta vistas de los datos simplificados, altamente consolidados y mayormente estadísticos. Puede observarse en la figura 1.4 que se utilizan data marts para relacionar la información entre el data warehouse y las bases de datos operacionales. Existen dos razones de esta división. Primero, simplificar el trabajo que los especialistas de tecnologías de la información (TI) tendrán que hacer para consolidar la información desde las fuentes de datos hasta el data warehouse. La segunda razón son los altos costos que implica mantener una infraestructura tecnológica de este tipo. Usuarios ejecutivos y de negocios Inf ormación externa a la organización Sistema de Inf ormación Ejecutivo Control de métricas, variables y parámetros Análisis de inf ormación de: Estados del presupuesto, reportes f inancieros, consultas de ingresos y egresos, reportes de nómina y plantilla de personal Análisis multidimensional Datawarehouse – Inf ormación actual e histórica Datamart del sistema de presupuesto Datamart del sistema de almacén Datamart del sistema de ingresos Datamart del sistema de RH Sistema de presupuesto y contabilidad Sistema de almacén Sistema de ingresos Sistema de recursos humanos Figura 1.4 Flujo de información entre un SIE y un data warehouse (diseño propio) 34 El proceso normal de evolución de todo negocio, propicia que la tecnología hacia su interior se vuelva obsoleta y por lo tanto, también tenga que evolucionar. Y el costo de mantenimiento de un SIE y de sus componentes, puede ser tan caro como el desarrollo del proyecto inicial. Por esta razón, los sistemas de información ejecutivos no son una herramienta apropiada para el análisis de información a nivel departamental dentro de la organización. Para apoyar en las tareas de análisis, reporteo y consulta de datos por las áreas operativas de una empresa, se desarrollan data marts y con base en ellos se construye el data warehouse, mismo al que pueden estar conectadas herramientas de análisis multidimensional que permitirán explotar la información de diversas maneras y a costos no tan elevados como la construcción y ajuste del Sistema de Información Ejecutivo empresarial. Los SIE generalmente presentan al ejecutivo dueño del negocio, la información de una manera muy espectacular. ¿Quién no ha visto películas norteamericanas en donde se muestra a los altos ejecutivos de una organización tras sus escritorios, analizando graficas y tablas que se despliegan en pantallas de televisión y en grandes monitores de computadoras? Sin embargo, el desarrollo del concepto de data warehouse ha venido a absorber algunas funciones de los SIE que generalmente eran muy costosas de mantener en ellos. Por ejemplo, todos aquellos reportes que no requieren de una presentación muy sofisticada y que tienen una amplia colección de consultas que se pueden ejecutar sobre ellos, son elementos que pueden ser explotados por herramientas de análisis multidimensional e incluso mediante la ejecución de consultas directamente al data warehouse. Técnicamente, el SIE utiliza la información almacenada en el data warehouse empresarial y la puede combinar con la información externa a la organización, desplegando en pantalla una serie de métricas, variables y parámetros de control que le van a indicar al ejecutivo el comportamiento real de la organización. La información debe fluir a altas velocidades entre los diferentes bloques e incluso se pueden generar alarmas cuando se presentan excepciones al comportamiento normal o esperado de la organización. Las notificaciones pueden enviarse entonces a los responsables por correo electrónico o por mensajes a los teléfonos celulares y radio localizadores. Estos sistemas deben ser lo suficientemente parametrizables para responder a diferentes necesidades de la organización. La programación de estos sistemas debe ser tan modular y flexible, que permita integrar nueva información proveniente del data warehouse y de fuentes externas, con el fin de que los 35 administradores puedan mantener al sistema alineado a las especificaciones y requerimientos de los ejecutivos. En la actualidad, la relación SIE – data warehouse, es muy común en las organizaciones. Ya sea en menor o mayor escala según las posibilidades de inversión de las empresas que implementan soluciones de este tipo, no hay duda de que a todos los dueños de negocios les gustaría contar con una herramienta de software que les permitiera monitorear al instante y con el menor esfuerzo posible, las condiciones organizacionales para tomar decisiones precisas en el momento preciso. 1.2.8 Ventajas y desventajas en el uso de un data warehouse A pesar de los beneficios que un data warehouse podría tener en una organización, existen algunas barreras que pueden limitar su uso. Si bien es cierto que este tipo de herramientas resuelven problemas de análisis de grandes volúmenes de información, también es cierto que son productos de software que no se encuentran al alcance de todas las empresas, principalmente por sus altos costos. Relacionado con esto nos encontramos con que es necesario contar con hardware y software muy potente. Un proyecto de este tipo resulta en todos los aspectos excesivo para algunas organizaciones. Para resolver este tipo de necesidades existe la tecnología de los data marts. Algunas de las ventajas y desventajas del uso de un data warehouse, se pueden analizar en la tabla 1.1. Ventajas Desventajas Revisión del modelo de transacciones, almacenamiento Integrador de sistemas Información consolidada, consistente, histórica, válida datos, objetos, limpia, Diseño complejo y multidisciplinar Enfoque al análisis complejo y eficiente Reestructuración de los sistemas operacionales Automatizable Alto costo Normalizador Sistemas, aplicaciones y almacenamiento específico Visión integral de control y gestión de procesos. Tabla 1.1 Ventajas y desventajas del uso de un data warehouse (diseño propio) 36 1.3 Concepto de data mart Un data mart es una facilidad parecida a un data warehouse, pero con un dominio mucho más pequeño. El data mart se puede restringir a un tipo particular de datos, a determinada función de negocios, a una unidad de negocios específica, o a un área geográfica25. Por el contrario, un data warehouse es un almacén que tiene información histórica generada por diversos departamentos en la organización y que responde a consultas enfocadas al análisis estratégico por parte de la alta gerencia, dueños o administradores de una empresa. Se pretende que con el data warehouse se cuente con un único medio de consulta de información en toda la organización, así como de estandarizar el lenguaje corporativo y que todos conozcan los mismos términos. Un data mart puede ser solamente una copia de un conjunto de datos históricos almacenados en el data warehouse. Aunque considero que sería más complicado iniciar por la construcción del data warehouse que por los data marts, que en diseño son más simples de construir. Tanto el data warehouse como los data marts pueden ser explotados utilizando diferentes herramientas. Una de las más utilizadas son las herramientas OLAP (On Line Analytical Processing). Se construyen procesos batch para cargar datos con una frecuencia conocida y después se pueden utilizar las herramientas OLAP, las cuales ofrecen una visión multidimensional de la información. Como se puede ver en la figura 1.4, tanto los data marts como el data warehouse pueden ser utilizados para la construcción de Sistemas de Información Ejecutivos. 1.3.1 Construcción de un data mart Para construir un data mart, es necesario hacer énfasis en tres aspectos muy importantes: El diseño, la explotación y su mantenimiento. La fase de diseño, contempla realizar un análisis detallado del proceso de negocio del área que se desea modelar y de las posibles fuentes de información disponibles. De un buen diseño, depende que el data mart cumpla con las expectativas del usuario final. Por lo tanto, un modelo de un proceso siempre deberá ir validado y autorizado por el área responsable con el fin de que el constructor esté seguro de que lo que se va a desarrollar, realmente aporte valor a toda la organización. 25 Kroenke, D. (2003). Procesamiento de bases de datos. México: Prentice Hall. P. 541. 37 La explotación de la información implica el uso de herramientas que permitan utilizar la información almacenada en el data mart. Pueden utilizarse herramientas de análisis multidimensional que permitirán realizar consultas desde diferentes enfoques y de acuerdo a las necesidades muy particulares de diferentes usuarios. También pueden utilizarse hojas de cálculo e incluso desarrollar aplicaciones de carácter ejecutivo que permitan consultar la información en tableros de control. Ya existen en el mercado algunos productos de software que proporcionan herramientas de reporteo para generar tableros de control y reportes ejecutivos de una forma rápida y sencilla. El mantenimiento del data mart es una de las fases en la que también deberá ponerse mucho cuidado. La actualización de la información almacenada es un aspecto muy importante para las organizaciones. Por este motivo el data mart debe ser lo suficientemente flexible, de tal forma que se pueda agregar nueva información o quitar información obsoleta. También es importante considerar la automatización de archivos de carga de información, con el fin de que esta tarea se repita de manera periódica obteniendo la información de los sistemas operacionales y consolidando y calculando información. En algunas organizaciones, las tareas de carga y consolidación de la información en data marts se realiza en forma manual, lo cual no es lo más aconsejable debido a que esta tarea puede llevar horas e incluso días. En otras organizaciones, estas tareas se encuentran automatizadas y generalmente la información se consolida por las noches. Esta actividad se configura cuando la conexión entre los data marts y las bases de datos operacionales no pude estar en línea debido a cargas de información en las redes de comunicaciones, lo cual puede originar lentitud debido a la gran cantidad de datos que pueden viajar por la red. Por otro lado, aunque no menos importante se encuentra la capacitación en el uso y explotación de los data marts. Si bien es cierto que este tipo de herramientas ayudan a agilizar los procesos de toma de decisiones de los usuarios, también es cierto que la capacitación es indispensable para un mayor aprovechamiento de la tecnología. Lo importante es que el usuario no sea dependiente de las áreas técnicas para generar consultas. Es necesario dotar a los usuarios de aquellas herramientas de reporteo que les permitan realizar consultas y que el data mart responda en tiempos adecuados. No obstante, el uso exitoso de este tipo de herramientas también dependerá de la capacidad de análisis y habilidades de toma de decisiones que tengan los usuarios. De nada servirá proporcionar la mejor herramienta de consulta o la más rápida o un sistema ejecutivo muy dinámico si los usuarios no tienen la capacidad 38 metódica y analítica para consultar e interpretar la información que un data mart – o que cualquier otra herramienta de reporteo- les puede proporcionar. Desarrollar un data mart para una organización contempla dos pasos. Primero se deberán identificar los requerimientos del negocio y después planear la mejor forma de implementar la solución. En el primer paso, es necesario entender: ¿Cómo está estructurada la información dentro de la organización? ¿Cómo fluye la información en la organización? ¿Cuál será el nivel de detalle o desagregación de la información en el data mart? El segundo paso consistirá en: Localizar las fuentes de datos. Identificar si los datos están disponibles en alguna parte o deberán construirse los sistemas de información necesarios que permitan primero almacenar dichos datos y después consolidarlos en el data mart. Determinar si la estructura de la información almacenada en las fuentes de datos será compatible con la estructura de información del data mart o deberán diseñarse reglas de carga para filtrar, ajustar, integrar y fragmentar los datos a consolidar. Determinar la periodicidad con que la información deberá ser consolidada desde las fuentes de datos hacia el data mart y realizar la automatización de esta tarea. Definir el nivel de detalle que la base de datos del data mart deberá tener, a fin de considerar todos los requerimientos de información de los usuarios. Definir la estructura de metadatos necesaria, así como las reglas de cálculo que se necesitarán para consolidar información en el data mart. Desarrollar las consultas necesarias así como preparar los elementos de explotación de información basados en la arquitectura del data mart. Una herramienta importante para diseñar la estructura del data mart es definir un outline o plantilla que contendrá la estructura de metadatos y los diferentes niveles de agregación de la información que será almacenada. Un data mart tiene componentes similares (ver figura 1.2) a los del data warehouse. La principal diferencia está en el enfoque del usuario final. Como en el caso de un data warehouse, cada componente o bloque contempla el desarrollo de un conjunto de procesos para: 39 Diseñar el modelo de datos con base en el análisis de requerimientos. Definir y crear la estructura de los metadatos que almacenarán la información en el data mart. Filtrar la información de las fuentes de datos. Ajustar la información al formato requerido para el data mart. Integrar la información en un bloque de datos para ser importados al data mart. Consolidar y agregar la información en el data mart. Ejecutar procesos de cálculo una vez consolidada la información en el data mart. Explotar la información almacenada en el data mart. 1.3.2 Requerimientos para la construcción de un data mart Una forma de apreciar los beneficios es analizar las necesidades empresariales con las que deberá cumplir el desarrollo de un data mart. Las necesidades son diferentes para cada tipo de usuario: El inversionista/dueño de la empresa, el arquitecto o constructor de la solución y el usuario final26. El inversionista o dueño de la empresa participa en la definición de la visión de lo que será el data warehouse o del data mart. Participa en la planeación y coordinación de todo el proyecto. Por su capacidad de toma de decisiones y de control sobre todas las actividades de la organización, este usuario tiene la facultad de hacer que las cosas se lleven a cabo. Por lo tanto, él autoriza la construcción de la solución así como los costos del desarrollo. Algunas de sus actividades son: o Participar en la elaboración del plan de implementación de la solución. o Aprobar el costo de la inversión. o Garantizar el soporte organizacional para quitar barreras que impidan completar las tareas de análisis y desarrollo. o Ser una guía en el desarrollo de los trabajos y para la definición del alcance y objetivos del proyecto. El arquitecto o constructor de la solución se encarga de definir el modelo de datos así como de estimar las necesidades tecnológicas para el desarrollo y 26 Gill, H. S. (1996). Data warehousing La integración de la información para la mejor toma de decisiones. México, D. F.: Prentice Hall. P. 22. 40 operación del data warehouse o del data mart. Si es personal interno a la organización, este usuario se responsabiliza también por el mantenimiento de la aplicación, así como de la automatización de los procesos de carga y consolidación de información en la solución de data warehousing. Si es personal externo a la organización, este usuario se responsabiliza por dejar el conocimiento necesario al personal técnico interno que se encargará de mantener y automatizar las tareas a fin de que la solución se ejecute con el menor número de errores y con la mínima intervención humana. Algunas de sus actividades son: o Mantener la calidad de la solución implantada agregando nuevas funcionalidades y manteniendo en óptimas condiciones la operación de la herramienta. o Proporcionar al usuario final las herramientas de explotación de información necesarias y que sean de fácil uso. o Mantener la exactitud de los formatos diseñados y el contenido de la solución de data warehousing desde la perspectiva del usuario final. o Buscar y mantener en óptimas condiciones las velocidades de consulta y respuesta de la herramienta hacia el usuario final. El usuario final es la persona que utilizará diariamente la solución de data warehousing. Su principal interés es que la herramienta le proporcione la información necesaria para conocer el estado del negocio y tomar así mejores decisiones aumentando la productividad y la eficiencia de su trabajo. Estos usuarios necesitan contar con información y visualizarla de diferentes formas, utilizando herramientas de análisis multidimensional y análisis de datos como hojas de cálculo. Algunas de sus actividades son: o Proporcionar el conocimiento necesario sobre los procesos de negocio relacionados con su trabajo. o Ser el enlace con los clientes y proveedores por lo que necesitan contar con información precisa de las operaciones de la organización. o Informar a los dueños del negocio y administradores sobre las actividades desarrolladas en un cierto periodo de tiempo. Por otro lado, el arquitecto o constructor de la solución, puede realizar su análisis de requerimientos con base en las preguntas tradicionales para el diseño de 41 software. Me refiero a las clásicas preguntas de: ¿Quién? ¿Qué? ¿Dónde? ¿Cuándo? ¿Cómo?27 ¿Quién? o ¿Quiénes serán los usuarios finales de la aplicación? El equipo de administración, finanzas, mercadotecnia, etc. o ¿Quién desarrollará y dará soporte a la aplicación? Deberán ser personas con conocimientos de la tecnología y del negocio. o ¿Quién es responsable de analizar y cambiar la estructura de la solución de data warehousing? Debería ser el DBA de la aplicación, ya que debe ser alguien que conozca el contexto general de la aplicación ya que un cambio puede afectar a toda la solución. ¿Qué? o ¿Cuáles son los requerimientos del negocio? El propósito principal de esta herramienta será proveer la información necesaria en el momento adecuado para la mejor toma de decisiones. o ¿Cuáles son las necesidades de reporteo? Análisis de presupuestos, análisis de mercado, etc. o ¿Cuáles serán las perspectivas de análisis? Análisis de escenarios, de tiempos, de productos, de mercados, etc. o ¿Cuál será el nivel de detalle que se consolidará en el data mart? El análisis podrá ser anual, trimestral, diario, por áreas geográficas, por tipo de producto, etc. o ¿Cuáles son los requerimientos de información histórica? Adicionalmente a la información del año actual, cuántos años hacia atrás deberá considerar el data mart. o ¿Cuál será la criticidad de la herramienta? La herramienta debería estar disponible las 24 horas del día, los 365 días del año, los 7 días de la semana, con acceso de lectura – escritura por periodos de tiempo o solo de lectura. o ¿Cuál será el origen de los datos? Los datos serán extraídos de las bases de datos de los sistemas operacionales y se construirán sistemas nuevos que almacenen y procesen aquellos datos no considerados en los sistemas existentes, se extraerá información de hojas de cálculo, documentos de Word o de otros formatos, etc. 27 Hyperion Solutions Corporation. (2000). Hyperion Essbase Fundamentals Training. Sunnyvale, California: Hyperion Solutions Corporation. P. 4-29. 42 ¿Dónde? o ¿Dónde se encontrará físicamente trabajando el personal que será usuario de la herramienta? Podrá ser personal que continuamente viaje, el personal trabaja desde algún lugar diferente a la oficina o se encuentra concentrado en un área geográfica invariable. o ¿Dónde se encontrarán las fuentes de datos disponibles? Son bases de datos concentradas en centros de datos, algunos datos están dispersos en hojas de cálculo por diferentes áreas de la organización, son datos provenientes de sistemas externos, etc. ¿Cuándo? o ¿En qué momento estará disponible la información para su consolidación al data mart? En algunas organizaciones esta tarea se lleva por las noches, ya que el volumen de datos puede representar una carga excesiva para la red de comunicaciones. o ¿En qué momento se publicará y estará disponible la información del data mart hacia los usuarios? Dependerá de las necesidades de información del área usuaria. ¿Cómo? o ¿Cómo será el mecanismo de extracción de información actual e histórica? Se construirán data marts históricos y uno solo que consolide la información de todos o cuál será la arquitectura de diseño para responder a preguntas de este tipo. o ¿Qué tan frecuentes serán los ajustes a la configuración y estructura de la solución de data warehousing? Podría ser cada fin de ejercicio fiscal o cada vez que se necesite agregar nueva información, etc. o ¿Cómo se tendrá que diseñar la estructura del data mart para permitir que sea lo suficientemente flexible? Con la respuesta a esta pregunta, se logrará que el personal técnico modifique lo menos posible la estructura de la base de datos y realizar rápidamente los cambios solicitados. 43 1.3.3 Data mart distribuido Muchas organizaciones, sobre todo los grandes corporativos, están divididas en organizaciones más pequeñas que se especializan en realizar cierta función. Una de las ventajas de utilizar data marts para construir un data warehouse, es que los data marts pueden estar dispersos geográficamente en diversas localidades. Esto permite que áreas o departamentos exploten la información de sus propios data marts, a la vez que la información almacenada en ellos se puede consolidar hacia el data warehouse empresarial (en caso de que exista). Esta capacidad de los data marts permite también compartir información entre los mismos. Algunos beneficios de distribuir data marts en áreas geográficas son (Hyperion Solutions Corporation, 1999): Permiten que las áreas usuarias por departamento, tengan a su disposición un mercado de datos de todas las operaciones consolidadas en su área. Cuando un usuario del data warehouse necesita consultar una información o algún dato con mayor detalle, puede enlazarse desde el data warehouse hacia el data mart directamente. Es más sencillo el mantenimiento de un data mart que el de todo un data warehouse. La consolidación de información hacia un data mart es mucho más rápida que intentar consolidar la información de toda una organización hacia un data warehouse. Los data marts distribuidos son diseñados por el arquitecto o constructor de la solución de data warehousing, en respuesta a las necesidades del negocio. El constructor también diseña la manera en la que se van a comunicar los data marts entre sí y la forma en la que se consolidará la información hacia el data warehouse de la organización. La complejidad del diseño del data mart se encuentra en la construcción de la base de datos del mismo. Como ya se ha mencionado anteriormente, el primer paso es determinar los requerimientos del negocio y después diseñar la estructura que contendrá el data mart para almacenar la información que el área necesite. Múltiples bases de datos de un data mart pueden conformar un modelo. 44 1.3.4 La complejidad de transformar datos en información en una solución de data warehousing Una razón de la complejidad de construir una solución de data warehouse, es el conjunto de técnicas que se requieren para formular, desarrollar, implementar, desplegar y explotarlo. En mi opinión, el diseño del data warehouse - como el de todo sistema de información basado en computadoras -, conforma la parte medular para obtener una buena herramienta de negocios. Es en el diseño donde se invertirán la mayor cantidad de recursos, ya que debe definirse claramente el alcance del proyecto de la solución, el origen de los datos, el tipo de información que podrá ser consultada y la relación entre diferentes almacenes de datos que incluso pueden estar separados físicamente por varios kilómetros de distancia. El conocimiento del negocio es imprescindible para el éxito de un proyecto de este tipo. Con frecuencia, el reto consiste en transformar la regla de negocio y los enunciados estratégicos generales de la organización en indagaciones empresariales precisas y después convertirlos en solicitudes y reportes del data warehouse (ver la figura 1.5). En muchos de los casos, el data warehouse se basa en resúmenes de información provenientes de sistemas de producción. Construir un data warehouse, en algunos casos implica: Comprender la forma como estos sistemas manejan y almacenan datos. Entender cómo construir extractores de información, los cuales transfieren datos de los sistemas de producción al data warehouse Construir y configurar el software de sincronización que conservará actualizado el data warehouse con la información del sistema de producción. Figura 1.5. Proceso de transformación de datos en información en una solución de data warehousing (diseño propio) 45 Y una vez construido el data warehouse, es necesario aplicar técnicas de análisis de datos para entender el comportamiento organizacional que muestra el data warehouse, como por ejemplo: Evaluación de información cuantitativa. Derivar conclusiones basadas en hechos a partir de información histórica. Descubrir patrones y tendencias. Extrapolar las tendencias basadas en los antecedentes a fin de entender e identificar las anomalías o cambios de paradigma. Una parte de estas técnicas se basa en las matemáticas, otra en la estadística, una más en la psicología y la intuición o la experiencia. Antes de que los administradores de una organización puedan tomar decisiones cruciales basadas en un data warehouse, se necesita realizar una transformación de la información almacenada en los sistemas operativos. Muchas compañías usan Sistemas de Procesamiento de Transacciones en Línea (OLTP) para recuperar y analizar la información almacenada. Una vez que la información está concentrada, se aplica un procesamiento de consolidación y cálculo de datos .Cuando este procesamiento finaliza, los datos pueden ser utilizados para su análisis y puede convertirse en información útil para la toma de decisiones. 1.4 Modelo de datos multidimensional Como en todo proyecto de software, la construcción de una solución de data warehousing inicia por el modelado de datos. Los modelos de datos que se usan para representar los datos almacenados en un data warehouse, no son necesariamente los mismos que los usados para representar una base de datos relacional. Sin embargo, el desarrollo del proyecto comienza como en cualquier desarrollo de software, por el análisis de requerimientos y por el modelado de lo que se va a construir. El modelo de datos y los requerimientos de los usuarios pueden ayudar a diseñar la estructura de un data warehouse. En algunas ocasiones, el modelo de datos para la construcción de un data warehouse o de un data mart se puede obtener analizando el modelo de datos de toda la organización. Los data warehouses y las herramientas OLAP están basadas en un modelo multidimensional. Este modelo visualiza los datos en forma de un cubo de datos. 46 Un cubo de datos permite modelar y visualizar datos en múltiples dimensiones.28 Los cubos de información son matrices multidimensionales que sirven para representar el almacenamiento de datos y su consulta desde múltiples puntos de análisis. Este concepto de modelos multidimensionales, convierte el análisis de información visto en dos dimensiones (renglones y columnas) en múltiples dimensiones representadas por un cubo de información (ver la figura 1.7). Las fases o caras del cubo representan las dimensiones. Por ejemplo, supongamos que una empresa necesita crear un data warehouse para almacenar sus registros de ventas con respecto al tiempo, producto y mercado. Las dimensiones le permitirán al usuario poder obtener información semejante a las ventas por mes, clasificándola por tipo de producto y por mercado. Cada dimensión tiene una tabla asociada, a la cual se le llama tabla de dimensión (dimension table). Por ejemplo, una tabla de dimensión para producto puede contener los atributos nombre, marca y tipo. Un modelo multidimensional se organiza con base en un tema central como las ventas de una empresa. El tema central de un cubo es representado en el modelo multidimensional por medio de una tabla de hechos (fact table). Las tablas de hechos contienen métricas o parámetros numéricos. Los hechos representan las cantidades que se obtienen mediante las relaciones entre las dimensiones. Ejemplos de tablas de hechos para un data warehouse de ventas pueden ser unidades_vendidas, ventas_en_dolares y presupuesto_ventas. Aunque usualmente representamos un cubo como una estructura tridimensional, en un modelo multidimensional los cubos de datos pueden tener n dimensiones. Cada dimensión o cara del cubo de información, es identificada por una etiqueta que representa la percepción que el usuario tiene de los datos que esa cara representa. Para comprender mejor los cubos de datos y los modelos multidimensionales, analicemos primero un ejemplo de un cubo de datos de dos dimensiones (representación 2-D), el cual es realmente una tabla de registros estructurada en filas y columnas. Esta tabla de datos contiene información referente al presupuesto ejercido o pagado para la reconstrucción de tramos de carretera o puentes en el Estado de Baja California, clasificada con respecto a la dimensión Tiempo organizada por trimestre (ver tabla 1.2). 28 Han, J. (2006). Data Mining: Concepts and Techniques. San Francisco, CA.: Morgan Kaufmann. 47 Localización = "Baja California" Tipo de trabajo Tiempo (trimestre) Reconstrucción de puentes Reconstrucción de tramos 1mer trimestre 4777 6580 2do trimestre 8000 15000 3er trimestre 2500 0 4to trimestre 3800 2300 Tabla 1.2 Una vista en dos dimensiones del presupuesto ejercido (métrica desplegada) en una empresa pública, con respecto a las dimensiones tiempo y tipo de trabajo en el Estado de Baja California (diseño propio) Ahora supongamos que queremos visualizar el presupuesto ejercido con respecto a una tercera dimensión. Tal vez nos gustaría ver los datos con respecto a las dimensiones tiempo y tipo de trabajo, pero también clasificada para otro Estado de la República como Nayarit. Esta vista en 3-D se puede analizar en la tabla 1.3. La vista en 3-D de la tabla 1.3 se representa como una serie de tablas en 2-D. Conceptualmente podemos representar los mismos datos en forma de un cubo de datos de tres dimensiones (3-D cube), como se puede visualizar en la figura 1.6. Tiempo (trimestre) 1mer trimestre 2do trimestre 3er trimestre 4to trimestre Localización = "Nayarit" Localización = "Baja California" Tipo de trabajo Tipo de trabajo Reconstrucción de puentes Reconstrucción de tramos Reconstrucción de puentes Reconstrucción de tramos 2250 1250 4750 6580 12000 0 8000 15000 23000 1570 2500 0 1800 300 3800 2300 Tabla 1.3 Una vista 3-D del presupuesto ejercido (métrica desplegada) en una empresa pública, con respecto a las dimensiones tiempo, tipo de trabajo y localización (diseño propio) Supongamos ahora que necesitamos visualizar el presupuesto ejercido con una cuarta dimensión adicional llamada centro de trabajo, el cual representa la oficina encargada de ejercer el presupuesto para construir o conservar las carreteras del país. Visualizar información pensando en una cuarta dimensión puede parecer confuso. No obstante, podemos pensar en un cubo de cuatro dimensiones como una serie de cubos de tres dimensiones, como se puede visualizar en la figura 1.7. De hecho, podríamos visualizar un cubo de n-D dimensiones como una serie de (n-1)-D cubos. Un cubo de datos es una forma de representar el almacenamiento de datos multidimensional. Pero el almacenamiento físico de los datos puede diferir de su representación lógica. Lo importante para el presente trabajo y en general para la materia de data warehousing, es tener en mente que los cubos de datos son n-dimensionales y no están limitados a cubos de tres dimensiones. 48 Nayarit 1ro 2250 1250 2do 12000 0 3ero 23000 4to 1800 ió ac liz ca Lo 1570 n Baja California 4750 Baja California 6580 Nayarit 300 Trimestre Trimestre Reconstrucción Reconstrucción de tramos de puentes 1ro 2250 1250 2do 12000 0 3ero 23000 1570 1800 300 0 00 15 0 00 23 Reconstrucción Reconstrucción de tramos de puentes 4to 1ro 4750 6580 Reconstrucción Reconstrucción de tramos de puentes 2do 8000 15000 3ro 2500 0 4to 3800 2300 Trimestre Tipo de trabajo Figura 1.6 Una representación de un cubo de datos de tres dimensiones de la tabla 1.3, respecto a las dimensiones tiempo, tipo de trabajo y localización. La métrica que se despliega es el presupuesto ejercido en una empresa pública (diseño propio). Centro de trabajo = “CT1” n ió ac liz ca Lo Centro de trabajo = “CT3” Baja California Nayarit 1ro Trimestre Centro de trabajo = “CT2” 2250 1250 2do 3ero 4to Reconstrucción Reconstrucción de tramos de puentes Tipo de trabajo Reconstrucción Reconstrucción de puentes de tramos Tipo de trabajo Reconstrucción Reconstrucción de puentes de tramos Tipo de trabajo Figura 1.7 Representación de un cubo de datos de cuatro dimensiones (4-D) para el presupuesto ejercido de una empresa pública, respecto a las dimensiones tiempo, tipo de trabajo, localización y centro de trabajo. Solo son mostrados algunos datos de ejemplo (diseño propio). 49 Las tablas anteriores muestran datos a diferentes niveles de agregación. En la literatura de investigación data warehousing, los cubos de datos como los antes descritos son llamados a menudo cuboides. Dado un conjunto de dimensiones, podemos generar un cuboide para cada uno de los posibles subconjuntos de las dimensiones dadas. Como resultado se podrá obtener una enramada de cuboides, cada uno mostrando datos a diferentes niveles de agregación o agrupación (group by). A la enramada de cuboides es llamada entonces cubo de datos. 29 La figura 1.8 muestra una enramada de cuboides que forma un cubo de datos para las dimensiones tiempo, tipo de trabajo, localización y centro de trabajo. 0-D cuboide Todo Tiempo Tiempo, tipo de trabajo Tiempo, localización Tiempo, tipo de trabajo, localización Tipo de trabajo Tiempo, centro de trabajo Tiempo, tipo de trabajo, centro de trabajo Localización Tipo de trabajo, localización Centro de trabajo Tipo de trabajo, centro de trabajo Tiempo, localización, centro de trabajo 1-D cuboide Localización, centro de trabajo Tipo de trabajo, localización, centro de trabajo Tiempo, tipo de trabajo, localización, centro de trabajo 2-D cuboide 3-D cuboide 4-D cuboide Figura 1.8 Enramada de cuboides que forman un cubo de datos de cuatro dimensiones (4-D) las cuales son tiempo, tipo de trabajo, localización y centro de trabajo. Cada cuboide representa un grado diferente de agregación de la información (diseño propio). El cuboide que recupera el nivel más bajo de agregación de la información se llama cuboide base. Por ejemplo, en la figura 1.8 el cuboide 4-D es el cuboide base para las dimensiones tiempo, tipo de trabajo, localización y centro de trabajo. La figura 1.6 es un cuboide 3-D (no base) para las dimensiones tiempo, localización, tipo de trabajo para todos los centros de trabajo. En la figura 1.8, el 29 Ibid., p. 113. 50 cuboide 0-D recupera el nivel más alto de agregación de la información. En este ejemplo, el cubo desplegaría el total de presupuesto ejercido sumarizado para las cuatro dimensiones. Un dado global que pudiera no tener sentido para los usuarios, hasta el momento en que comenzaran a desagregar la información navegando por la enramada de cuboides para las dimensiones dadas. Pero, ¿Cuántos cuboides hay en un cubo de datos de n dimensiones? Si no hay asociaciones de jerarquía en cada dimensión, entonces el número total de cuboides para un cubo de datos de n dimensiones sería de 2ⁿ. Sin embargo, en la práctica, las dimensiones tienen jerarquías. Por ejemplo, la dimensión tiempo tiene una jerarquía similar a año > trimestre > mes > día. Para un cubo de datos de n dimensiones, el número total de cuboides que se pueden generar (incluyendo los cuboides generados navegando por la jerarquía de niveles de cada dimensión) es30 n Número total de cuboides = ∏ (Lі+1) і =1 (1.1) donde Li es el número de niveles asociados con la dimensión i. Se adiciona uno a Li para incluir el nivel virtual más alto o 0-D. Esta fórmula se basa en el hecho de que al menos un nivel de abstracción de cada dimensión aparecerá en un cuboide. Por ejemplo, la dimensión tiempo especificada arriba tiene 4 niveles, o 5 si incluimos el nivel virtual 0-D. Si el cubo tiene 10 dimensiones y cada dimensión tiene 5 niveles (incluyendo el nivel cero), el número total de cuboides que puede generarse es 510 ≈ 9.8 x 10 6 El tamaño de cada cuboide depende también de la cardinalidad (número de valores distintos) para cada dimensión. Continuando con el ejemplo de la empresa pública, si se desarrollaran todos los tipos de trabajo en todos los Estados del país, habrá |tipo de trabajo| x |localización| tuplas en la agrupación tipo de trabajolocalización. Trabajar con cubos de información para construir un data mart o un data warehouse tiene diferentes ventajas como: a) Permitir que los usuarios generen sus consultas de diferentes formas y vistas ya que no se requieren conocimientos de programación, b) Compartir y ser la única fuente de información en toda la organización y 30 Han, J. (2006). Data Mining: Concepts and Techniques. San Francisco, CA.: Morgan Kaufmann. P. 139. 51 c) Combinar información de múltiples fuentes y con diversas estructuras de datos. Con estos cubos de información, se pueden construir Sistemas de Información para ejecutivos y sistemas de ayuda a la toma de decisiones. La responsabilidad del análisis de la información queda en manos del dueño de los datos con el objeto de que extraiga información útil para realizar predicciones y determinar sus propios indicadores, liberándole así el tiempo necesario para definir qué información desea consultar y no cómo la puede obtener. Un modelo multidimensional está organizado alrededor de un tema central como las ventas de una empresa, por ejemplo. 1.4.1 Modelo de estrella El modelo de estrella es el modelo más simple para desarrollar un data warehouse. Es llamado así porque el diagrama asemeja a una estrella. En el centro de la estrella se tiene una tabla llamada tabla de hechos (fact table) y alrededor se tienen otras tablas a las que se les llama tablas de dimensión (dimension tables). Ver fig 1.9. El modelo de estrella es el modelo más sencillo para diseñar un data warehouse o un data mart. Como se puede observar en la figura 1.9, existe solo una relación entre la tabla de hechos contra cada tabla de dimensión. En este trabajo se construirá un data mart que utilizará como repositorio de datos un cubo de información. En muchos aspectos, un cubo de información es muy parecido a un modelo de estrella. El cubo desempeña el papel de tabla de hechos y una dimensión OLAP desempeña el papel de una tabla de dimensiones. Las dimensiones pueden ser listas simples de miembros, o pueden estar organizadas en niveles y jerarquías. Las dimensiones jerárquicas permiten que los datos se agrupen desde niveles más bajos a niveles más altos de resumen. 31 31 Vlamis, D. (s.f.). Oracle OLAP 11g incorpora características de alto desempeño para el depósito de datos en Oracle Database 11g. Recuperado el 03 de Agosto de 2009, de http://www.oracle.com/technology/global/lad-es/pub/articles/08-jul/o38olap.html 52 Figura 1.9 Modelo de estrella (diseño propio) 1.4.2 Modelado de consultas empresariales Una técnica adicional que puede servir para definir la estructura de un data warehouse o de un data mart, es hacer el modelado de consultas que los usuarios finales van a poder ejecutar. La técnica de modelado para entender, modelar y analizar consultas empresariales consiste en construir moldes de consultas. La figura 1.10 muestra un modelo típico de molde de consulta.32 En esta figura, se aísla de sus dimensiones al área tema de la consulta. Esto permite buscar candidatos potenciales de tablas de hechos y dimensión para el modelo del data warehouse. Figura 1.10. Modelo de molde de consulta (Gill, H. S.) 32 Gill, H. S. (1996). Data warehousing La integración de la información para la mejor toma de decisiones. México, D. F.: Prentice Hall. 53 Una vez identificados los moldes de consulta para cada consulta empresarial, las consultas y sus moldes se consolidan. El diagrama consolidado resultante para cada área tema se denomina modelo Starnet (Red estrella). Esta es la representación combinada de todas las consultas empresariales.33 1.5 Minería de datos (data mining) Los almacenes de datos (data warehouses) y los mercados de datos (data marts) son usados en un amplio rango de aplicaciones. Los ejecutivos de negocios usan los datos almacenados en un data warehouse y en un data mart para realizar análisis de datos y tomar decisiones estratégicas. Los almacenes de datos son muy utilizados en la banca y en las compañías que proporcionan servicios financieros, para detectar necesidades de consumidores y sectores de distribución rentables. Para llegar al momento actual, los almacenes de datos tuvieron que pasar por diferentes fases. Inicialmente, eran muy utilizados para la generación de reportes y para contestar a preguntas predefinidas. Progresivamente, los almacenes de datos fueron usados para analizar información resumida y detallada, donde los resultados eran presentados en forma de reportes y gráficas. Posteriormente, los almacenes de datos fueron usados con propósitos estratégicos, realizando análisis multidimensional y operaciones sofisticadas de análisis de datos. Finalmente, los almacenes de datos fueron empleados para el descubrimiento de conocimiento y toma de decisiones estratégicas usando herramientas de minería de datos. En este contexto, las herramientas para data warehousing pueden ser clasificadas en herramientas de acceso y recuperación de datos, herramientas de reporteo de datos, herramientas de análisis de datos y herramientas de minería de datos. Los usuarios de negocio necesitan conocer el contenido de su data warehouse o data mart, cómo explotarlo por medio de herramientas de análisis y como presentar el resultado de dicho análisis. Existen tres tipos de aplicaciones de data warehouse: procesamiento de información, procesamiento analítico y minería de datos34. El procesamiento de información soporta consultas, análisis estadístico básico y reporteo usando hojas de cálculo, tablas, gráficas. 33 Ibid., p. 122. 34 Han, J. (2006). Data Mining: Concepts and Techniques. San Francisco, CA.: Morgan Kaufmann. P. 146. 54 El procesamiento analítico soporta operaciones OLAP básicas, incluyendo drill-down, roll-up y pivoteo. Estas operaciones generalmente se hacen en datos históricos ya sea sumarizada o a detalle. El mayor esfuerzo en este tipo de procesamiento es el análisis multidimensional. La minería de datos soporta el descubrimiento de conocimiento buscando patrones y asociaciones ocultas, construyendo modelos analíticos, realizando clasificación y predicción y presentando los resultados de la minería usando herramientas de visualización. Y, ¿qué significa entonces el concepto de minería de datos? Se refiere a extraer o “minar” conocimiento de grandes cantidades de datos. 35 Mucha gente se refiere a la minería de datos como un sinónimo de otros términos como Descubrimiento de Conocimiento (KDD por sus siglas en ingles Knowledge Dicovery from Data). Otras personas ven a la minería de datos como un paso esencial en el proceso de descubrimiento de conocimiento. Este proceso lo podemos analizar en la figura 1.11 y consiste en una secuencia iterativa de los pasos siguientes. Figura 1.11. La minería de datos como un paso en el proceso de descubrimiento de conocimiento (Han, Jiawei) 35 Ibid, p. 5. 55 1. Limpieza de datos (remover inconsistencias en los datos). 2. Integración de los datos (múltiples fuentes de datos pueden ser combinadas). 3. Selección de datos (los datos importantes para determinado análisis son recuperados de la base de tados). 4. Transformación de los datos (convertir o consolidar los datos en alguna forma apropiada para minar, realizando operaciones de resumen o agregación, por ejemplo). 5. Minería de datos (es un proceso en donde mediante la aplicación de métodos inteligentes se extrae patrones de datos). 6. Evaluación de patrones (identificar los patrones realmente importantes que representen conocimiento basado en alguna métrica de interés). 7. Presentación de conocimiento (técnicas de visualización y representación de conocimiento son usadas para presentar el conocimiento minado al usuario). Los paso 1 al 4 son diferentes formas de preprocesamiento de datos, en donde los datos son preparados para minar. El paso 5 (minería de datos) puede interactuar con el usuario o con la base de conocimiento. Los patrones de interés son presentados al usuario y pueden ser almacenados como un nuevo conocimiento en la base de conocimiento. Es importante resaltar que de acuerdo a lo anterior, la minería de datos es solo un paso en el proceso completo, aunque es un paso esencial porque permite descubrir patrones escondidos para su evaluación (paso 6). La minería de datos es el proceso de descubrimiento de conocimiento de interés en grandes volúmenes de datos almacenados en bases de datos, almacenes de datos u otros repositorios de información.36 Con base en lo anterior, la arquitectura de un sistema de minería de datos típico puede tener los siguientes componentes (figura 1.12): Una base de datos, un data warehouse, la www (Word Wide Web) u otro repositorio de información: Esto es una o un conjunto de bases de datos, 36 Ibid, p. 7. 56 almacenes de datos, hojas de cálculo u otros tipos de repositorios de información. Pueden llevarse a cabo técnicas de limpieza e integración de datos. Un servidor de base de datos o de data warehouse: El servidor de base de datos o del data warehouse es responsable de buscar datos relevantes, basado en las solicitudes de minería de datos del usuario. Conocimiento base: Es el dominio de conocimiento que es usado para guiar la búsqueda o evaluar la importancia de los patrones resultantes. Tal dominio de conocimiento puede incluir el concepto de jerarquías, usadas para organizar atributos o valores de atributo en diferentes niveles de abstracción. Motor de minería de datos: Este es esencial para el sistema de minería de datos y consiste en un conjunto de módulos funcionales para realizar tareas de caracterización, asociación y análisis de correlación, clasificación, predicción, análisis de valores atípicos y evaluación. Módulo de evaluación de patrones: Este componente normalmente emplea métricas de interés e interactúa con el módulo de minería de datos para enfocar la búsqueda hacia ciertos patrones. Alternativamente, el módulo de evaluación de patrones puede estar integrado con el módulo de minería de datos, dependiendo de la implementación del método de minería utilizado. Interfase de usuario: Este módulo es el medio de comunicación entre el usuario y el sistema de minería de datos, permitiendo al usuario interactuar con el sistema especificando consultas, proveyendo información de ayuda para enfocar la búsqueda y realizando exploración basado en resultados previos. Este componente le permite al usuario navegar en bases de datos y almacenes de datos o estructuras de datos, evaluar patrones de minería y visualizar patrones de diferentes maneras. Desde una perspectiva de data warehouse, la minería de datos puede ser vista como un estado avanzado de procesamiento analítico en línea (OLAP). No obstante, la minería de datos va mucho más allá que el ámbito de aplicación estilo resumen del procesamiento analítico de los sistemas de data warehouse, incorporando técnicas más avanzadas de análisis de datos. La minería de datos integra técnicas de diferentes disciplinas como tecnología de bases de datos y de data warehouse, estadísticas, inteligencia artificial, reconocimiento de patrones, redes neurales, visualización de datos, recuperación 57 de información, procesamiento de imágenes y señales y análisis espacial o temporal. Pero, ¿cómo se relaciona la minería de datos con el procesamiento de información y con el procesamiento analítico en línea? El procesamiento de información, basado en consultas (queries), puede encontrar información útil. Sin embargo, las respuestas a tales consultas reflejan la información almacenada directamente en bases de datos. Las consultas hechas no reflejan patrones o regularidades ocultas en la base de datos. Por lo tanto, el procesamiento analítico en línea no es minería de datos. Figura 1.12. Arquitectura general de un sistema de minería de datos (Han, Jiawei) El procesamiento analítico en línea es muy cercano a la minería de datos, ya que puede desagregar información de un data warehouse agregada en múltiples niveles de granularidad. Sin embargo, las funcionalidades OLAP y de minería de datos no tienen ninguna relación. La tecnología OLAP es una herramienta de resumen/agregación que ayuda a simplificar el análisis de datos, mientras que la minería de datos permite el descubrimiento automático de patrones y el descubrimiento de conocimiento importante oculto en grandes volúmenes de datos. Las herramientas OLAP están dirigidas a simplificar y soportar el análisis interactivo de datos, mientras que el objetivo de las herramientas de minería de datos es automatizar el proceso tanto como sea posible, permitiendo a los 58 usuarios guiar el proceso. En este sentido, la minería de datos va un paso adelante del procesamiento analítico en línea tradicional. La minería de datos cubre un mayor especto de funcionalidades que las operaciones permitidas por las herramientas OLAP, debido a que la minería de datos no solo realiza agregación y comparación de datos sino que también permite la asociación, clasificación, predicción, análisis de series de tiempo y otras tareas de análisis de datos37. Las funcionalidades de minería de datos son usadas para especificar los tipos de patrones que pueden encontrase en minería de datos. En general, las funciones de minería de datos pueden clasificarse en dos categorías: descriptivas y predictivas. Las funciones de minería descriptivas determinan las propiedades generales de los datos en una base de datos. Las tareas predictivas realizan inferencia en los datos para realizar predicciones. En algunos casos los usuarios no tienen idea en cuanto a que tipo de patrones en sus datos pueden ser de interés y por lo tanto deciden buscar diferentes tipos de patrones en paralelo. Esta es una característica que los sistemas de minería de datos deben proporcionar. También deben permitir a los usuarios especificar sugerencias a fin de guiar la búsqueda de patrones. Las funcionalidades de minería de datos y los tipos de patrones que pueden encontrar son los siguientes: Caracterización de datos. Es un resumen de las características generales de una clase objetivo de datos. Un ejemplo puede ser describir las características de los clientes que gastan más de $10,000.00 pesos al año en equipo electrónico. Discriminación de datos. Es una comparación de las características generales de una clase objetivo de datos contra uno o un conjunto de clases en contraste. Por ejemplo, para el usuario puede ser importante comparar las características de algún equipo electrónico cuyas ventas se hayan incrementado en determinado porcentaje en el último año, contra otros equipos cuyas ventas hayan disminuido en el mismo periodo de tiempo. Asociación. Corresponde al descubrimiento de patrones que ocurren frecuentemente de manera simultánea. Como la compra de leche y pan o la 37 Ibid., p. 147. 59 compra de una computadora seguido por la compra de una cámara digital que a su vez le puede seguir la compra de una tarjeta de memoria. Clasificación y predicción. Consiste en buscar un modelo que permita describir y distinguir clases de datos o conceptos, con el propósito de usar el modelo para predecir objetos de clases no conocidas. El modelo obtenido se basa en el análisis de un conjunto de datos de prueba. Por ejemplo, El número de personas que pudieran comprar cierto tipo de auto con base en su edad, ingreso, trabajo y genero. Clustering. A diferencia de la clasificación y predicción (punto anterior), el cual analiza clases etiquetadas de objetos de datos, esta funcionalidad analiza objetos de datos sin tener una clase ya conocida. En general, no existe una clase conocida para cierto tipo de objetos. Los objetos son agrupados según sus similitudes en comparación con objetos que a su vez son muy diferentes con respecto a objetos pertenecientes a otros grupos. Por ejemplo, los clientes en diferentes poblaciones pueden agruparse con base en sus preferencias o diferencias de compra por población, edad, ingreso, región Análisis de datos anormales. Una base de datos puede contener objetos de datos que no cumplan con el mismo comportamiento que los objetos de su misma clase presenten. Estos objetos de datos son anormales. La mayoría de los métodos de minería de datos descartan este tipo de objetos o lo consideran ruido o excepciones. Sin embargo, en algunas aplicaciones como detección de fraudes, los eventos excepcionales pueden ser más interesantes que las demás ocurrencias con comportamientos normales. Ejemplo de este tipo de análisis son los que permiten determinar cargos incorrectos en tarjetas de crédito o cambio de preferencias de los clientes con respecto a cierto tipo de productos. Análisis evolutivo. Este tipo de análisis describe y modela regularidades o tendencias para objetos cuyo comportamiento cambia con el tiempo. Por ejemplo un inversionista que vende o compra acciones de una empresa, con base en el análisis de mercado de ciertos productos. La minería de datos no está limitada al análisis de datos almacenado en un data warehouse. Esta permite analizar datos existentes a niveles de granularidad mayores que los datos agregados en un almacén de datos como: datos transaccionales, textuales y multimedia. En este contexto, la minería de datos abarca un espectro mayor que las herramientas OLAP con respecto a la búsqueda y recuperación de datos. 60 Pero, ¿en qué tipos de repositorios de datos puede aplicarse la minería de datos? En principio, la minería de datos debe ser aplicable a cualquier tipo de repositorio de datos, así como a datos transitorios como flujos de datos. Ejemplos de lo anterior son: Archivos planos. Bases de datos relacionales. Data warehouses. Bases de datos transaccionales. Sistemas avanzados de bases de datos e información y aplicaciones avanzadas. Con el progreso de la tecnología de bases de datos, diversos tipos de sistemas avanzados están en proceso de desarrollo para hacer frente a nuevas aplicaciones. Estos incluyen: o Bases de datos objeto-relacionales. o Bases de datos temporales, bases de datos de secuencia y bases de datos de series de tiempo. o Base de datos espaciales y espacio temporales. o Bases de datos de texto y bases de datos multimedia. o Bases de datos heterogéneas y legadas. o Data streams. o World Wide Web (www). 61 Capitulo 2 La Subsecretaría de Infraestructura de la SCT La Secretaría de Comunicaciones y Transportes es la dependencia del Estado encargada de dotar al país con sistemas de transporte y de comunicaciones. Para lograr su misión, la Secretaría está organizada en Subsecretarias que cuentan con Direcciones Generales encargadas de planear y ejecutar el desarrollo de las obras terrestres y marítimas. Una de sus Subsecretarías es la de Infraestructura, que tiene a su cargo tres Direcciones Generales que, entre otras funciones, dan seguimiento a la ejecución de las obras para la construcción y conservación de la Red Nacional de Carreteras. Estas son la Dirección General de Carreteras, la Dirección General de Conservación de Carreteras y la Dirección General de Servicios Técnicos (ver fig. 2.1). Figura 2.1 Organigrama de la Secretaría de Comunicaciones y Transportes (Manual de organización de la Subsecretaría de Infraestructura de la SCT) 62 En este capítulo se habla brevemente sobre las actividades que desarrolla la Subsecretaría de Infraestructura de la SCT. Qué herramientas se utilizan para tomar decisiones en materia de infraestructura carretera y cuál es la razón de implementar un SIE para su uso por las Direcciones Generales que conforman esa Subsecretaría. 2.1 La Subsecretaría de Infraestructura38 Misión La Subsecretaría de Infraestructura es el área de la SCT encargada de preservar la red carretera federal, así como de propiciar el desarrollo de una infraestructura carretera moderna, segura y de calidad para aumentar la competitividad de la economía, impulsar el desarrollo nacional y regional, extender la comunicación y eliminar el aislamiento de las comunidades rurales a través de la correcta y eficaz aplicación de los recursos presupuestales y de esquemas de asociación público – privada para el financiamiento de esta infraestructura, con objeto de prestar un mejor servicio al usuario de las carreteras del país. Visión Ser una Subsecretaría eficaz que permanentemente asegure la conservación, expansión, modernización, operación y administración de la infraestructura carretera federal, desarrollando nuevas fuentes de recursos, utilizando óptimamente los recursos disponibles, preservando el medio ambiente y ofreciendo en todo momento seguridad, accesibilidad e información al usuario del sistema carretero nacional. Objetivos de la Subsecretaría de Infraestructura Ampliar la cobertura del sistema y la oferta de una infraestructura carretera confiable y de calidad para toda la población. Abatir el costo económico y social del transporte carretero y contribuir a reducir el costo de sus externalidades. Impulsar el papel del sistema carretero como generador de oportunidades y empleos. Modernizar la gestión del sistema carretero con objeto de lograr una operación más eficiente e incrementar la calidad de los servicios que se ofrecen en las carreteras del país. 38 Subsecretaría de Infraestructura. (Febrero de 2009). Manual de Organización. D. F., México. 63 2.2 La Dirección General de Carreteras (DGC)39 Misión Integrar las distintas regiones que conforman nuestra nación, modernizando la red carretera federal, alimentadora y rural, a fin de proporcionar mayor seguridad en el transporte de personas y bienes. Así como abatir costos de operación, para contribuir al bienestar y al crecimiento económico del país, en forma armónica y sustentable preservando el medio ambiente y la riqueza arqueológica heredada de nuestros ancestros. Visión Ser una unidad normativa que se distinga por su eficiencia en el proyecto, programación, administración y ampliación de altas especificaciones, así como la construcción, reconstrucción y conservación de caminos alimentadores y rurales cuya aportación al sistema de transporte carretera garantice el movimiento rápido, económico y seguro que el desarrollo del país demanda. Por otro lado, la Dirección General de Carreteras (DGC) tiene, entre otras atribuciones, participar en la planeación, coordinación y evaluación de los programas carreteros para la construcción y modernización de la red federal de carreteras, así como para la construcción, modernización, reconstrucción y conservación de caminos rurales y alimentadores. Objetivos de la DGC Continuar construyendo la integración territorial del país. Modernizar los corredores carreteros. Mejorar la red básica de la construcción de libramientos y accesos a ciudades. Impulsar los puntos de conexión con los modos de transporte. Transformar los recursos financieros en kilómetros operativos en el menor tiempo posible. Colaborar para la obtención de fuentes de financiamiento al participar en el ámbito de su competencia, en la planeación en materia de caminos alimentadores y rurales, así como el seguimiento, control y evaluación del desarrollo y ejecución de los programas de construcción, reconstrucción y conservación de los mismos. 39 Dirección General de Carrreteras Federales. (Agosto de 2007). Manual de Organización de la Dirección General de Carreteras Federales. D. F., México. 64 2.3 La Dirección General de Conservación de Carreteras (DGCC)40 Misión Unidad administrativa de la Secretaría de Comunicaciones y Transportes, encargada de conservar y mejorar las condiciones físicas de las carreteras federales libres de peaje, a través de obras públicas realizadas en tramos y puentes, para brindar a los usuarios una mayor seguridad, económica y un mejor nivel de servicio. Visión Ser un ente público que proporcione al usuario una red federal de carreteras libres de peaje en buenas condiciones y con altos estándares de servicio y seguridad, que coadyuven a una mejor competitividad del transporte, así como al desarrollo social y económico del país, por medio de trabajos de calidad, eficacia y eficiencia, realizados con ética y responsabilidad. Objetivos de la DGCC Abatir el costo económico, social y ambiental del transporte asociado con el estado físico de la infraestructura carretera, en beneficio de toda la población y la seguridad del tránsito vehicular. 2.4 La Dirección General de Servicios Técnicos (DGST)41 Misión Brindar apoyo técnico integral y multidisciplinario para la planeación, estudio, diseño, proyecto, construcción, conservación y operación de la red nacional de carreteras, mediante la más avanzada tecnología disponible. Visión Ser un grupo de profesionales y técnicos altamente capacitados, equipados con los instrumentos más modernos y organizados territorialmente para atender las solicitudes de las Unidades Administrativas receptoras. 40 Dirección General de Conservación de Carreteras. (Febrero de 2009). Manual de Organización. D. F., México. 41 Dirección General de Servicios Técnicos. (Noviembre de 2008). Manual de Organización. D. F., México. 65 Objetivos de la DGST Revisar y elaborar normas, manuales, reglamentos o cualquier otro medio escrito que indique reglas o metodologías a seguir o a las que deben ajustarse los actos u operaciones para la buena ejecución de las obras viales, en materia de proyectos constructivos y de conservación de la infraestructura del transporte. Contar con instrumentos para la aplicación de los principios básicos de ingeniería, transparentando los procesos de contratación para la ejecución de las obras y sus servicios relacionados, enfocados al desarrollo de la infraestructura para el transporte, a través de normalizar sus etapas con mecanismos confiables que vigilen su implementación y desarrollo. Proporcionar el apoyo administrativo en Capacitación, Recursos Humanos, Materiales, Financieros e Informático, con oportunidad mediante la aplicación de la Normatividad vigente, para coadyuvar en el cumplimiento de las labores sustantivas encomendadas a la Dirección General de Servicios Técnicos. Por otra parte, se encuentra la Dirección General de Programación, Organización y Presupuesto (DGPOP), la cual depende de Oficialía Mayor y tiene entre sus atribuciones la de llevar el análisis, control y seguimiento del ejercicio de presupuesto autorizado, así como informar a las unidades administrativas respecto de su avance42. Por lo que las tres Direcciones Generales mencionadas anteriormente, deben estar coordinadas con la DGPOP para ejercer sus presupuestos a tiempo y en forma. Estas son las áreas en las que se analizarán los requerimientos de información de su personal, a fin de definir un modelo de datos idóneo que satisfaga sus necesidades de información y entonces desarrollar un Sistema de Información Ejecutivo que sea el único medio de consulta a niveles estratégicos de la Secretaría y que sea útil para la toma de decisiones. 2.5 Información a analizar en las áreas involucradas Una parte importante del análisis de requerimientos será determinar si el personal cuenta con información financiera suficiente y precisa que realmente les ayude a tomar una decisión a tiempo. 42 Dirección General de Programación, Organización y Presupuesto. (24 de Mayo de 2007). Manual de Organización de la Dirección General de Programación, Organización y Presupuesto. D. F., México. 66 En toda organización, pública o privada, la administración del presupuesto es una actividad prioritaria para el logro de los objetivos. Y tanto para la Secretaría de Comunicaciones y Transportes como para todas las instituciones públicas, se trata de un aspecto muy importante, debido a la Ley de Transparencia y Acceso a la Información que tiene por objetivo garantizar a la ciudadanía el uso adecuado de los recursos públicos. En los últimos años, el presupuesto asignado a la SCT en gasto de inversión para la construcción y conservación de carreteras federales, se ha incrementando considerablemente. En el 2009 el presupuesto asignado fue de 50 mil millones de pesos. Lo que representa un aumento del 25% con respecto al del año 2008 que fue de 40 mil millones de pesos. Esto ha originado la necesidad de dotar a la Secretaría con herramientas de software que faciliten no solo la operación del presupuesto asignado, también su control y seguimiento por el personal de los niveles estratégicos de la dependencia, como son: la oficina del Secretario, el personal de la Subsecretaría de Infraestructura y sus direcciones generales y la Dirección General de Programación, Organización y Presupuesto (DGPOP). Este tipo de presupuesto (presupuesto de gasto de inversión) es ejercido por las unidades administrativas representativas de la Secretaría en los Estados, conocidas como Centros SCT y que tienen entre otras de sus funciones la construcción, modernización y conservación de infraestructura carretera, aeroportuaria, portuaria y de comunicaciones del país. Por otro lado, la SCT ha operado desde el año de 1992 con sistemas de información basados en tecnología cliente-servidor, utilizando Progress como motor de base de datos. Progress es una base de datos de cuarta generación (4GL), que permite generar de forma muy rápida, acceso a la información almacenada. Sin embargo y a pesar de contar con sistemas de información que automatizan en gran medida la administración de las obras de infraestructura carretera y que permiten a las áreas usuarias ejecutar en forma precisa el presupuesto asignado, el personal de la Subsecretaria de Infraestructura y de sus áreas normativas, no cuentan con las herramientas de software adecuadas que les permitan conocer de manera rápida y oportuna la situación de las obras carreteras a nivel nacional y controlar aspectos como avance físico, avance financiero, gestión de los contratos asignados, proveedores contratados, presupuestos asignados, entre otros. El ciclo de vida de una obra involucra diferentes procesos, Asignación de un presupuesto original a cada programa que sufre modificaciones a lo largo del año. 67 Una vez que la Unidad donante conoce el presupuesto que tiene asignado distribuye estos montos a los diferentes proyectos y obras, que son licitados. Una vez efectuada la licitación, se comprometen los montos mediante contratos. Durante la obra, el contratista entrega reportes periódicos de avance de obra, y se van entregando estos recursos comprometidos conforme al avance reportado, los recursos entregados se denominan recursos ejercidos. El diagrama de la figura 2.2, muestra el proceso antes descrito. En términos generales se desea conocer la situación del flujo de recursos y del avance de obra, a lo largo de todo el ciclo de obra y de la asignación de recursos a la Secretaría, desglosado por Centro SCT, Unidad Donante, operaciones mensuales y en el caso del ejercido a nivel diario, por fuente de financiamiento (Recursos fiscales o Crédito externo), por programa operativo y programa presupuestal y por proyecto de obra. Es importante mencionar que en la actualidad las empresas tanto públicas como privadas, enfrentan el problema del explosivo crecimiento de datos que producen. Un nuevo reto que no se limita a la gestión de una, cada vez mayor, base de datos. Sino que ahora también es preciso gestionar los datos de manera que ayuden a los ejecutivos de una organización a tomar decisiones de manera rápida con base en la información almacenada. Figura 2.2. Proceso de ejercicio del presupuesto en obra pública (diseño propio) Para las empresas, esa información puede llegar a representar la inversión de muchos recursos, tanto financieros como humanos, durante años. Pero el problema ya no es el almacenamiento de esa información. En la actualidad, el problema se ha convertido en buscar la manera de utilizar esos datos, para aprovecharlos como un recurso estratégico de las organizaciones. En esos datos se encuentran contenidas tendencias de costos, información de proveedores, necesidades de inversión, estados financieros de la organización, necesidades de 68 la población, etc. Pero para descubrirla y obtener únicamente la información más importante, es necesario analizar esos datos e interpretarlos. Hoy en día, se habla de un nuevo término que más que un concepto es un conjunto de tecnologías de análisis de datos para obtener la información estratégica que las organizaciones necesitan: “inteligencia de negocios (business intelligence)”. La inteligencia de negocios se refiere a un análisis de alta tecnología de los datos corporativos con el fin de tomar mejores decisiones estratégicas. También conocida como minería de datos, la inteligencia de negocios implica buscar y analizar datos provenientes de múltiples fuentes ubicadas en toda la empresa, y algunas veces derivados de fuentes externas, a fin de identificar patrones y relaciones que pueden ser importantes.43 No se trata de una idea nueva. Ya hace algunos años, se hablaba de los Sistemas de Información Ejecutivos (SIE) o de los Sistemas de Información de Soporte a las Decisiones (SSD). Sistemas cuyo propósito era llevar información a los niveles gerenciales de la organización para tomar decisiones más rápidas y eficaces. Sin embargo, las tecnologías que se han desarrollado en inteligencia de negocios, han propiciado mayores avances y mejores resultados. Lo que se pretende lograr con el presente trabajo es desarrollar un Sistema de Información Ejecutivo (SIE), que le proporcione al personal de las áreas objeto de estudio la información que necesitan día a día. En una empresa pública, contar con información oportuna y precisa puede representar cumplir en tiempo y forma con los objetivos y metas trazados con el mayor aprovechamiento de los recursos disponibles. Tener información que le permita a la alta dirección saber cómo se ejerce el presupuesto a nivel nacional y en qué se están gastando los recursos, puede ser parámetros estratégicos para tomar decisiones. Es precisamente en la administración de datos como la inteligencia de negocios puede ayudar a la Secretaría de Comunicaciones y Transportes. La inteligencia de negocios se basa en la integración de datos históricos y actuales para determinar tendencias y proponer posibles escenarios. Esto es posible cuando se les proporciona a los usuarios que toman decisiones, la información suficiente y oportuna para su análisis. Y en este sentido, es lógico que las decisiones deban estar basadas en datos precisos. Como sabemos, los datos por si mismos no nos 43 Daft, R. (2007). Teoría y diseño organizacional. México: Cengage Learning. p. 290. 69 dicen nada. Pero dependiendo del contexto en donde se encuentren y de la correcta integración de los mismos, los datos van a permitir al ejecutivo tomar decisiones más rápidas y eficaces. Contar con la información suficiente, permite a una organización además de mejorar las prácticas de trabajo existentes, preservar el conocimiento como una memoria organizacional para capacitar a los futuros empleados o para ayudarlos en la toma de decisiones. La memoria organizacional es el aprendizaje almacenado de la historia de una organización que se puede aprovechar para la toma de decisiones y para otros propósitos.44 44 Laudon, K. (2004). Sistemas de información gerencial: Administración de la empresa digital. México: Prentice Hall. p. 316. 70 Capitulo 3 Diseño y desarrollo de la propuesta de solución En los últimos años, el presupuesto asignado a la SCT en gasto de inversión para la construcción y mantenimiento de carreteras, se ha incrementando considerablemente. En el 2009 el presupuesto asignado fue de 50 mil millones de pesos. Lo cual representa un aumento del 25% con respecto al del año 2008 que fue de 40 mil millones de pesos. Esto ha originado la necesidad de dotar a la Secretaría con herramientas de software que faciliten no solo la operación del presupuesto asignado, sino su control y seguimiento por los niveles estratégicos. Sin embargo y a pesar de contar con sistemas de información que automatizan en gran medida la administración de las obras de infraestructura carretera y que permiten a las áreas usuarias ejecutar en forma precisa y oportuna el presupuesto asignado, los Subsecretarios y áreas normativas de la dependencia, necesitan herramientas de software que les permita conocer en forma rápida datos puntuales como avances físicos, avances financieros, gestión de los contratos asignados, proveedores contratados, presupuestos asignados, entre otros. Por lo tanto, proporcionar una herramienta de software a las áreas estratégicas de la Secretaría, que cubra los requerimientos de información necesarios para tomar decisiones, es un proyecto que puede propiciar un mejor aprovechamiento de los recursos disponibles y una mayor transparencia en el uso de los mismos, dos aspectos que por su importancia pueden resultar de gran impacto para los diferentes niveles ejecutivos de la dependencia. En este capítulo se habla sobre el diseño y desarrollo del Sistema de Información Ejecutivo para la SCT, que busca satisfacer la necesidad de información arriba descrita. Se hace una breve descripción del problema a solucionar, se menciona el objetivo general y los objetivos específicos y se describe la metodología de investigación utilizada. También se mencionan cuáles fueron las necesidades de los usuarios que dieron origen al proyecto y se realiza un análisis de los requerimientos de información que se detectaron durante el desarrollo de las entrevistas llevadas a cabo con el personal de mando de la Dirección General de Conservación de Carreteras (DGCC), de la Dirección General de Carreteras (DGC) y de la Dirección General de Servicios Técnicos (DGST). Las cuales son tres Direcciones de la Subsecretaría de Infraestructura encargadas del seguimiento a la construcción y conservación de las carreteras federales del país. 71 Se habla también sobre la descripción funcional del Sistema de Información Ejecutivo y se presenta el diseño de la base de datos o data mart de la aplicación, así como la estructura dimensional con la cual se implementó. Por último, el desarrollo de interfaces de usuario también se describe en este capítulo. Es importante mencionar que algunas de estas interfaces muestran los indicadores de control que los usuarios necesitan visualizar constantemente y que les sirven para detectar problemas en el ejercicio del presupuesto destinado a la inversión en carreteras. 3.1 Planteamiento del problema La enorme cantidad de información que manejan los sistemas transaccionales u operacionales y que se almacena en bases de datos relacionales, no se está aprovechando al máximo en la toma de decisiones a niveles estratégicos de la Secretaría de Comunicaciones y Transportes. La normatividad vigente y los sistemas transaccionales en operación (mismos que están diseñados en apego a la normatividad), establecen los mecanismos de control necesarios para evitar un mal manejo de los recursos disponibles. La información viaja desde los niveles operativos hasta los niveles tácticos y estratégicos de la dependencia a través de los canales de comunicación establecidos. Pero hoy en día, los Directores Generales, requieren de herramientas ágiles que les permita visualizar, en forma clara y oportuna, métricas y parámetros de control con base en los cuales puedan tomar decisiones rápidamente. La preocupación principal se centra en la necesidad de contar con información oportuna disponible sobre la inversión en infraestructura. Por lo tanto, se tiene la necesidad de desarrollar una herramienta de software para los niveles estratégicos de la Secretaría de Comunicaciones y Transportes, que les proporcione información suficiente y oportuna para tomar decisiones con respecto a las obras que se desarrollan en los estados de la República Mexicana, para conocer de manera precisa y en cualquier momento el avance físico y financiero por obra, los recursos presupuestales asignados y ejercidos en cada proyecto, los contratos autorizados y la disponibilidad presupuestal periódica. Particularmente en infraestructura carretera ya que representa más del 70% del presupuesto asignado para este año. Actualmente, los sistemas de información institucionales proporcionan datos útiles y confiables para la operación cotidiana de la dependencia. Esto involucra a los niveles táctico y operativo. Sin embargo, en muchas ocasiones el personal de las áreas estratégicas de la Secretaria, debe solicitar información a diversas áreas y 72 después de ello, un grupo de personas integra toda esa información y la ordena para presentar los informes ejecutivos necesarios para la oficina del Secretario y para la Subsecretaria de Infraestructura. Esto último también suele ser un proceso lento y complicado porque se deben unificar criterios e ideas para tomar la decisión más acertada en materia de obra pública. En resumen, el requerimiento de información que se presenta, responde a la necesidad de conocer en forma rápida y precisa el presupuesto asignado, el compromiso de pago con los proveedores y la manera en la que se ha ejercido el presupuesto en infraestructura carretera en las unidades centrales y estados o Centros SCT, como se les llama a las oficinas representativas de la Secretaría en los estados. 3.2 Objetivos de este proyecto Para definir el objetivo general, es necesario responder primero a la pregunta ¿será posible construir una herramienta de software que consolide la información física y financiera de la construcción y conservación de carreteras nacionales y que sea lo suficientemente flexible para mostrar las métricas y parámetros de control necesarios para la toma de decisiones? Objetivo general. El objetivo general de este trabajo es desarrollar una herramienta de software usando tecnología de inteligencia de negocios, enfocada a la gestión de información en el rubro de gasto de inversión en infraestructura carretera, que cuente con las características de confiabilidad y oportunidad bajo los estándares tecnológicos adoptados por la Secretaría de Comunicaciones y Transportes, para el apoyo a la toma de decisiones en los niveles estratégicos de la Secretaría. El software a desarrollar será el Sistema de Información Ejecutivo de Infraestructura. Objetivos específicos. Los objetivos específicos de este proyecto son los siguientes: Identificar la información y las fuentes de datos que utiliza el personal de las áreas de infraestructura para el monitoreo de las obras carreteras. Desarrollar una base de datos para la consolidación de la información a nivel nacional. 73 Desarrollar interfaces gráficas que muestren los parámetros de control que los usuarios requieran para evaluar el desarrollo de la infraestructura carretera en el país. Desarrollar reportes personalizables que los usuarios utilicen para la elaboración de sus informes ejecutivos. 3.3 Metodología utilizada En esta investigación se utilizó el método analítico para comprender la manera en la que las áreas objeto de estudio, utilizan la información a su alcance para tomar decisiones cotidianas en materia de infraestructura carretera. Con base en este estudio, se determinó cuáles eran los requerimientos de información que podían ser sistematizados utilizando tecnología de inteligencia de negocios y con base en ello, se desarrolló una propuesta de solución cuyo objetivo es proporcionar información en forma rápida y precisa, al personal de las áreas usuarias. Esta metodología permitió conocer también la naturaleza de la información que se produce al interior de las áreas de estudio, la manera en que es transmitida hacia los niveles estratégicos de la Secretaría y cuál es el uso que se le da. Por otro lado, se utilizó también una metodología que en desarrollo de software se conoce como método espiral. Este método hace énfasis en la velocidad y la culminación, tomando en cuenta que los requerimientos no se pueden identificar con claridad o especificar al inicio. Este método se presta principalmente al desarrollo de aplicaciones de base de datos, al desarrollo de un data warehouse y al desarrollo de sistemas orientados a objetos (sistemas OO)45. En el desarrollo de productos de software, el método de desarrollo espiral se utiliza cuando surgen las siguientes situaciones: No se pueden predecir con claridad ni anticipación la dirección de un mercado y sus requerimientos. El tiempo de colocación en el mercado es un ingrediente importante en la implementación de un producto. Es necesaria una mejora iterativa para hacer correcciones de mercado. 45 Gill, H. S. (1996). Data warehousing La integración de la información para la mejor toma de decisiones. México, D. F.: Prentice Hall. p. 83-84. 74 La ventaja competitiva sostenida proviene de una mejora súbita en forma continua. A la organización le toma por lo menos seis meses absorber las versiones sucesivas de software. 3.4 Análisis FODA de la solución En la figura 3.1, se puede ver el análisis FODA realizado para la implementación del SIE en la SCT. Es importante resaltar que a pesar de las amenazas que existen para realizar la implementación, las oportunidades de mejora son más importantes para las áreas usuarias, ya que la herramienta les proporcionará más información para tomar mejores decisiones. Las debilidades existentes serán subsanadas por el desarrollo de esta solución, aprovechando las fortalezas que un software de este tipo puede tener. 3.5 Diseño lógico del Sistema de Información Ejecutivo de Infraestructura El diseño lógico del SIE contempla los aspectos conceptuales de la aplicación. Se realiza un análisis de requerimientos, se plantea la descripción funcional del Sistema y se describen brevemente los procesos sobre los que operará. 3.5.1 Requerimientos de información Derivado de las entrevistas realizadas al personal que labora en las áreas de la Subsecretaría de Infraestructura, se detectaron las siguientes necesidades de información. 1. Contar con una única fuente de información financiera. La integración de datos deberá ser mucho más sencilla y rápida. La integración de la información financiera entre las diferentes áreas se realiza en forma periódica y puede ser mensual, trimestral, semestral y anual. Anualmente, a cada unidad administrativa de la Secretaría se le asigna un presupuesto, el cual ejerce de manera independiente y es responsable de su gasto. Sin embargo, la DGPOP en coordinación con las Direcciones Generales de la SCT, analizan los estados financieros en forma periódica con el fin de encontrar tendencias, determinar áreas de oportunidad, redistribuir gastos y en general, verificar si lo que se planeó al inicio de un ejercicio es congruente contra la ejecución de las actividades financieras de las unidades. 75 Al tener fuentes de información distintas, es complicado determinar una sola verdad de los datos y por lo tanto, el tiempo que tarda la DGPOP en consolidar la información de toda la Secretaría, generalmente es de un par de semanas. 2. Reducir los tiempos de respuesta para que los usuarios de la alta gerencia de la organización, cuenten con reportes confiables de los movimientos del presupuesto cuando ellos los necesiten. La línea de mando en la organización de la Secretaría es jerárquica, por lo que cuando el Director General de una unidad requiere reportes financieros, esta solicitud debe pasar por lo menos por tres niveles hacia abajo (Directores de Área, Subdirectores y Jefes de Departamento) hasta llegar a los niveles operativos donde se encuentran los usuarios de los sistemas transaccionales quienes elaboran o imprimen los estados financieros de los sistemas transaccionales disponibles. Esta solicitud puede tardar desde un par de horas hasta algunos días de acuerdo a las cargas de trabajo y disponibilidad del personal para atender el requerimiento. El inconveniente con esta situación es que cuando los Directores Generales de las diferentes áreas, quienes son los responsables de guiar las actividades de la Secretaría, necesitan información confiable para tomar una decisión y no cuentan con ésta en el momento en el que se necesita, se pueden originar diferentes problemas como atrasos en la ejecución de obras públicas, selección de proveedores de servicios, atención a necesidades de operación de la Secretaría, responder de manera inmediata a necesidades de información de otras dependencias públicas y privadas o simplemente, no contar a tiempo con los datos necesarios para la planeación de actividades en la ejecución de un trabajo, entre otros. Para resolver esta situación, es necesario controlar la información financiera, por medio de herramientas confiables, a los niveles ejecutivos de la Secretaría, con el fin de que dispongan de todos los datos necesarios para la toma de decisiones en el momento en el que los requieran. 76 Tabla 3.1 Análisis FODA para la implementación del SIE (diseño propio) Fortalezas (F) 1. 2. 3. 4. 1. 2. 3. 4. 1. 2. Integración de sistemas institucionales. Alta disponibilidad de la información. Orientado a la toma de decisiones alineado a la estrategia de negocio. Consolidar la información de diversas fuentes. Debilidades (D) 1. 2. 3. 4. Poca integración de sistemas internos y externos. Re-análisis de modelos de datos, objetos, transacciones, almacenamiento. Diseño complejo y multidisciplinar. Se requieren sistemas, aplicaciones y almacenamiento específico. Adquisición de nuevas tecnologías y herramientas. Integración de sistemas departamentales. Renovación tecnológica. Enfoque al análisis para una mejor toma de decisiones. F1-O2. Por políticas tecnológicas de la Unidad de Tecnologías de la Información de la SCT, todo desarrollo de Sistemas de cualquier área deberá tener un data mart para la explotación de la información. F2-O1. Las áreas usuarias requieren consultar su información en cualquier momento y desde cualquier lugar. La adquisición de tecnología de BI incluye componentes que ayudan a satisfacer esta necesidad. F3-O4. El SIE a desarrollar busca satisfacer la necesidad de información que los niveles ejecutivos de la SCT requieren. F4-O2. El uso de la plataforma tecnológica sobre la que se desarrollará el SIE, permite integrar datos de diversas fuentes para proporcionar al usuario una única fuente de información. Esto ayudará a que la información de diferentes áreas se consolide en una única herramienta para su consulta por las áreas estratégicas. D1-O2. Aunque no se genere una integración directa entre las aplicaciones institucionales, la información de todas las áreas se consolida en una sola base de datos. D2-O3. El desarrollo de la solución implicará analizar nuevamente la documentación generada en el construcción de los sistemas actuales. Pero esto permitirá desarrollar nuevas herramientas de explotación de información y con ello renovar la infraestructura tecnológica disponible al interior de la Secretaría, para la toma de decisiones. D3-O4. El diseño de la solución implica coordinar empleados de diferentes áreas de la Secretaría para generar un diseño complejo de Sistema, que satisfaga los requerimientos de información de todos. Sin embargo, una vez terminada la aplicación, se contará con una única fuente de información y una mejor herramienta para la toma de decisiones. D4-O1. La construcción de sistemas basados en tecnología de BI, requiere que existan las fuentes de información transaccionales o que la información esté almacenada en un data warehouse. Pero esto se puede convertir en una oportunidad para automatizar todas las áreas de la organización y hacerlas más eficientes. Costos crecientes. Cambios constantes en los criterios de gestión de la organización. F1-A1. El desarrollo de la solución permitirá integrar la información de diferentes áreas en una única fuente de información. Sin embargo, es probable que se requieran técnicos calificados que conozcan la nueva tecnología sobre la que se hará el desarrollo. También se va a necesitar infraestructura de almacenamiento y procesamiento adecuados para ejecutar la solución. F3-A2. Cambios constantes en los criterios de gestión de la organización, pueden provocar la modificación a la regla de negocio en las fuentes de datos. Y con ello, la modificación de los criterios de consolidación de información en el SIE. F4-A1. La consolidación de la información de diversas fuentes implica que para cualquier nuevo desarrollo de sistemas, también se construya una solución similar. Esto puede provocar desarrollos más caros y con más recursos. D1-A2. Cambios constantes en la manera en la que se gestiona la construcción y conservación de carreteras, puede provocar una mayor desintegración entre los sistemas internos. Afortunadamente, la normatividad aplicable no cambia tan frecuentemente. D2-A1. Analizar los desarrollos de software ya implementados en su momento para implementar una solución sobre una herramienta de BI, implica el uso de recursos y la adquisición de nueva tecnología. Esto provocará mayores costos. Sin embargo, es una inversión que producirá beneficios al reducir tiempos en la supervisión de las obras de infraestructura carretera del país. D3-A2. El desarrollo de una solución sobre herramientas OLAP no es algo sencillo que se pueda modificar en cualquier momento. Se trata de desarrollos de software con herramientas complejas y poco flexibles. Por lo tanto, cambios en la regla de negocio de las fuentes de información o errores en el diseño de la solución, puede provocar el uso de recursos alternos y costos de mantenimiento no contemplados. D4-A1. Es necesario que existan las fuentes de datos si se quiere implementar una solución de BI. Pero si estas no existen, entonces se tendrán que construir, lo cual puede provocar costos no contemplados. 3. Promover la sistematización total del negocio en las áreas financieras con el fin de que las posibles fuentes de datos que no existan, se construyan con el objetivo de que el data mart integre la información necesaria para un mejor aprovechamiento del mismo. Puede ser necesario desarrollar sistemas que ayuden a registrar toda aquella información financiera que actualmente no esté sistematizada pero que se deba integrar al data mart. Por esta razón, al momento de determinar las posibles fuentes de datos de la solución, será necesario analizar detenidamente las fuentes oficiales existentes y su capacidad para procesar y entregar datos correctos y poner a valoración de la alta gerencia, la construcción de los sistemas de información necesarios para el registro de información financiera. 4. Integrar la información del ejercicio del presupuesto de las diferentes áreas en forma rápida y sin depender de la operación de las áreas administrativas de la Secretaría. La información que se entrega a otras dependencias públicas como la Secretaría de Hacienda, son los estados consolidados de toda la operación financiera que se realizó en la Secretaría en un determinado periodo de tiempo. La integración de esos estados financieros debe provenir de una única fuente de información y su generación debe ser casi inmediata sin necesidad de validar con los responsables de las áreas financieras, que la información que se reporte sea la ejecutada realmente. Es decir, la herramienta que se elabore debe garantizar la integridad de la información con el fin de evitar lo más posible la intervención de los responsables que la generaron. De esta manera se pretende liberar a los Directores Generales de tiempo muy valioso que pueden dedicar al desarrollo de las actividades sustantivas de sus áreas, en lugar de dedicar tiempo de revisión de los estados financieros para realizar una validación de datos contra los de la DGPOP. 5. Integrar información financiera para establecer parámetros de control y seguimiento con la información de otras áreas como Recursos Humanos, Recursos Materiales y Contabilidad. Una de las ventajas del uso de aplicaciones para la inteligencia de negocios es precisamente el poder definir parámetros de medición y darles un seguimiento a través del SIE. Por esta razón, es necesario que la solución propuesta permita dar seguimiento a los siguientes parámetros: 78 Presupuesto ejercido contra presupuesto comprometido por contrato. Presupuesto ejercido por unidad administrativa. Disponibilidad presupuestal contra presupuesto ejercido por mes. Ejercicio del presupuesto por proveedor. 6. Integrar información histórica de la operación anual de la Secretaría. La información histórica de la Secretaría permite evaluar cuales fueron los resultados obtenidos por ejercicio fiscal en comparación con el presupuesto asignado. También deberá permitir dar seguimiento a parámetros como: Presupuesto asignado contra presupuesto ejercido en obras multi anuales. Comparación de proveedores participantes en contratos multi anuales. Comparativo del presupuesto asignado, modificado y ejercido entre ejercicios fiscales. 7. Conocer en cualquier momento, la posición actual de la organización con respecto a proveedores de servicios, presupuestos, proyectos nuevos y proyectos concluidos. El seguimiento a los proveedores es otra de las preocupaciones de la alta gerencia de la Secretaría. Identificar en cualquier momento los proveedores y los proyectos en los que participan a nivel nacional tiene como objetivo poder evaluar el avance de las actividades, el presupuesto asignado y el ejercido. 8. Simplificar la consolidación de la información de todas las unidades administrativas de la Secretaría, así como la generación de la amplia variedad de reportes que se necesitan elaborar. 3.5.2 Análisis de requerimientos ¿Qué problema empresarial se resolverá con la construcción del data mart y con la implementación del SIE? De hecho, existen diversos problemas que se resolverán con la implementación de la solución. A grandes rasgos son: 79 No contar con información oportuna para la mejor toma de decisiones. El sistema deberá integrar la información de los movimientos del presupuesto de manera rápida y concisa. Que permita identificar y analizar claramente parámetros de medición que son básicos para determinar el presupuesto para un proyecto, la asignación o movimiento de presupuesto de una unidad a otra o las posibilidades de reducir o ampliar el presupuesto de acuerdo al ejercicio del mismo por unidad administrativa. Tener que buscar la conciliación de las unidades administrativas de la Secretaría para llegar a un reporte único del estado del ejercicio y otros documentos presupuestales. El sistema deberá permitir consolidar la información de todas las fuentes institucionales que contengan datos para la medición del ejercicio del presupuesto sin necesidad de tener que buscar el acuerdo entre todas las áreas. Actualmente, cada unidad administrativa utiliza diversos programas de software con los cuales llevan el control de su presupuesto. Algunos de estos programas son el Sistema Integral de Administración, el Sistema de Contabilidad, el Sistema para el Registro y Seguimiento para la Construcción de Carreteras, el Sistema de Recursos Humanos y el Sistema de Recursos Materiales. Todas estas aplicaciones contienen información oficial sobre los movimientos presupuestales por cada capítulo de gasto (forma en que se controla el presupuesto dentro del gobierno federal). Al contar con fuentes diversas y distribuidas por diferentes áreas administrativas tanto normativas como operativas, se presenta el problema de tener que solicitar que las áreas se pongan de acuerdo en la información que presentan al momento de tener que generar los estados financieros de toda la Secretaría. Actividad que representa un desgaste excesivo en tiempo y recursos, ya que en muchas ocasiones es necesario reunir a los participantes por medio de videoconferencias o en forma presencial en la DGPOP trayendo a los responsables de las operaciones de los estados por varios días, hasta que finalmente se llegue a un acuerdo. No contar con un tablero de control que permita la publicación inmediata de la información que se genera al interior de la Secretaría y que es necesaria para la toma de decisiones a niveles estratégicos de la organización. El sistema deberá servir como base para desplegar un tablero de control que contenga y que actualice la información en línea sobre los diferentes parámetros de medición financiera como la asignación, el ejercicio y la disponibilidad presupuestal por unidad administrativa, entre otros parámetros. 80 ¿Cuáles son los objetivos empresariales que ayudará a alcanzar la solución propuesta? La Secretaría de Comunicaciones y Transportes estableció en su Programa Sectorial de Comunicaciones y Transportes 2007-2012 las estrategias y las líneas de acción que definirán su desempeño, en cumplimiento con los objetivos del Plan Nacional de Desarrollo (PND) del mismo ciclo. En ese sentido, ha planteado la necesidad de llevar a cabo una verdadera modernización administrativa y mejora de su gestión. Por lo que ha establecido como uno de sus objetivos primordiales, el siguiente: “Desarrollar y administrar con políticas de calidad los recursos humanos, financieros, materiales y las tecnologías de la información con el objeto de que la operación de la SCT sea transparente, eficiente y eficaz” Por esta razón, se considera que el proyecto, una vez implementado, ayudará a cumplir con ese objetivo, ya que contará con los elementos tecnológicos necesarios que garanticen la transparencia de la información financiera contenida en él. A su vez, será una herramienta que permita medir la eficiencia y la eficacia con la que trabaja la Secretaría en la búsqueda de lograr sus demás objetivos, proporcionando información que retroalimente a los niveles estratégicos de la organización para tomar las decisiones adecuadas, logrando con ello entrar en un ciclo de mejora continua y de calidad. Es importante mencionar que el data mart que se construya, solamente contendrá la información financiera de la Secretaría en gasto de inversión (capítulo de gasto 6000). Se planea que en etapas de desarrollo posteriores, se construyan los data mart necesarios para consolidar la información de las áreas de recursos humanos y de recursos materiales. En la figura 3.1, se presenta un diagrama de contexto en el que se muestra el diseño de la construcción de los diferentes mercados de datos que finalmente integrarán la información de los sistemas administrativos hacia un data warehouse institucional. La consolidación de la información almacenada en el Sistema para la Construcción y Conservación de Carreteras (SIRASEF) y en el Sistema Integral de Administración (SIA), contemplan el alcance del presente trabajo. 81 El data mart de infraestructura carretera contendrá información financiera de la Secretaría de Comunicaciones y Transportes referente al capítulo 6000 (gasto de inversión). Figura 3.1. Construcción de los diferentes data mart para la SCT (diseño propio) 3.5.3 Descripción funcional del SIE Actualmente, se encuentran en funcionamiento diversos sistemas institucionales que soportan la operación diaria de la Secretaría. Dos de ellos son el Sistema Integral de Administración (SIA) y el Sistema para la Construcción y Conservación de Carreteras (SIRASEF). El SIRASEF es, a grandes rasgos, el sistema mediante el cual se realiza la gestión de todo lo referente al capítulo de gasto 6000. En la base de datos de ese sistema se almacena y procesa la información referente a licitaciones de obra pública, el seguimiento de las obras de construcción y conservación de infraestructura carretera y la gestión de pagos. Los dueños normativos del SIRASEF son la Dirección general de Carreteras Federales (DGCF) y la Dirección General de Conservación de Carreteras (DGCC). El dueño tecnológico es la Unidad de Tecnologías de la Información y Comunicaciones (UTIC). Las Direcciones normativas indican a la UTIC las políticas y procedimientos sobre los que deberá operar el SIRASEF. Por otro lado, el SIA es el sistema encargado de controlar las operaciones concernientes al ejercicio del presupuesto de todos los capítulos del gasto (del 1000 al 6000) del presupuesto asignado a la SCT. 82 Ambos Sistemas se encuentran en operación desde el año de 1990 y sus bases de datos almacenan una gran cantidad de información. Figura 3.2. Modelo de referencia propuesto para el Sistema de Información Ejecutivo de Infraestructura (diseño propio) El modelo de referencia que se muestra en la figura 3.2., es un bosquejo en el cual se ejemplifica el funcionamiento del Sistema de Información Ejecutivo a desarrollar. Como ya se ha comentado en esta y otras secciones, se utilizarán las bases de datos del SIA y SIRASEF para extraer la información necesaria que se depositará en el data mart de obra pública. La extracción de información de estos sistemas se hará por medio de procesos por lotes (archivos bat) que se conectaran a las fuentes de datos (bases de datos relacionales) y que extraerán la información y la dejarán en archivos planos (archivos de texto). La extracción de información se realizará todos los días a la una de la mañana. Adicional a la extracción de datos y previo a la carga de información al data mart, será necesario transformar la información en la estructura dimensional requerida para el almacenamiento de los datos. Para ello, se elaborarán un conjunto de programas denominados reglas de carga, las cuales prepararán al data mart actualizando sus dimensiones. Una vez preparada la estructura dimensional del data mart, se ejecutará un proceso de carga de los datos extraídos hacia los archivos planos. Técnicamente, la carga de datos se realiza en los miembros de dimensión de nivel cero dentro del 83 data mart (nivel inferior dentro de cada dimensión). Por lo que al final de la carga de los datos, se ejecutará un proceso que permitirá consolidar la información a los diferentes niveles del data mart. Después de realizar el proceso de extracción, transformación y consolidación de datos hacia el data mart, el usuario podrá consultar su información por medio de herramientas de reporteo por web y herramientas cliente-servidor. Se proporcionará un conjunto de reportes y tableros con indicadores estratégicos predefinidos por los usuarios que, en la actualidad, integran usando diferentes fuentes de datos. Esto último representa para el usuario un trabajo artesanal, ya que tiene que reunir datos de los sistemas en operación, de sus controles internos, de reportes de otras áreas y de trabajos de campo para preparar informes y otros documentos oficiales. También se le proporcionará al usuario final, una herramienta que le permitirá por medio de Excel, conectarse directamente al data mart para realizar análisis más complejos de información. Con esto se busca combinar el conocimiento que la mayoría de los usuarios tienen sobre el manejo de Excel y el poder que proporciona esta herramienta en el análisis de datos, con las ventajas que tiene contar con un data mart que consolida la información de diversas fuentes de datos. 3.5.4 Descripción de los procesos desarrollados El desarrollo de un data warehouse o de un data mart, parte del diseño del repositorio de datos, el cual puede ser implementado utilizando una base de datos relacional o un motor de base de datos diseñado específicamente para procesamiento dimensional. Para el desarrollo del data mart de este trabajo, se utilizó una motor de base de datos del segundo tipo. A continuación se detallan los procesos desarrollados para la construcción del data mart de infraestructura, el cual será el repositorio de datos del Sistema de Información Ejecutivo. Almacenamiento dimensional y fuentes de datos Se utilizó el motor de base de datos OLAP (online analytical processing) Oracle Essbase System 9, el cual es una herramienta desarrollada para el análisis financiero basado en la integración de información de múltiples sistemas. Sobre esta plataforma se construyó el data mart que contiene la información física y financiera de la infraestructura carretera, y que es el insumo necesario para la determinación de parámetros, tendencias y excepciones que se pueden presentar 84 en la operación cotidiana de la SCT. Información necesaria para la toma de decisiones estratégicas de la organización. Sin embargo, un problema que se presentó para la integración de la información entre el data mart y las fuentes de datos es que esas fuentes están desarrolladas sobre el RDBMS Progress versión 9.1.C. Esta última no tiene una conexión nativa hacia el Oracle Essbase. Por lo cual, se desarrollaron programas de extracción de información para su posterior carga hacia el data mart. Técnicamente es posible establecer una conexión por ODBC entre las dos bases de datos y desarrollar programas en SQL para extraer los datos desde Progress hacia Oracle Essbase. Pero esta actividad se dejó para una segunda etapa con el fin de asegurar primero que el desarrollo del SIE cumpla con las expectativas y con la aceptación del usuario final, antes de invertir mayores recursos y esfuerzo en este proyecto. Extracción de datos Una ventaja que se tuvo en el desarrollo de la tecnología necesaria para conectar las dos bases de datos (Progress y Oracle Essbase), fue que las dos fuentes de datos a utilizar están desarrolladas sobre la misma plataforma de base de datos. Por lo cual, no fue necesario desarrollar diferentes programas de extracción para diferentes ambientes como llega a ocurrir cuando se trata de implementar un data mart. Como se puede apreciar en la figura 3.2., las dos fuentes de datos a utilizar fueron el Sistema Integral de Administración (SIA) y el Sistema para el Seguimiento Físico y Financiero (SIRASEF). Ambas bases de datos desarrolladas sobre Progress. De acuerdo con los requerimientos de información planteados, el tipo de información a extraer de las fuentes de datos se centró en los aspectos siguientes. Información del avance físico al que se comprometió cada proveedor en un contrato. Información del avance físico ejecutado por cada proveedor. Información de las ampliaciones y reducciones a los contratos registrados. Información del presupuesto original, modificado y disponible asignado a la SCT en materia de gasto de inversión. Información de los pagos realizados a los proveedores. Catálogo de programas y proyectos presupuestales. Catálogo de programas operativos. 85 Catálogo de corredores carreteros. Catalogo de tipos de contratos. Los programas de extracción fueron desarrollados en un 4GL de Progress ver. 9. 1. C. Estos programas extraen la información de las fuentes de datos y la guardan temporalmente en archivos planos o archivos de texto como registros con campos delimitados por el símbolo pipe (|), para que posteriormente mediante programas llamados reglas de carga en Oracle Hyperion Essbase, transformen e integren la información en el data mart. En la figura 3.3 se muestra la sección de exportación de datos de uno de los programas de extracción utilizados para obtener información de las fuentes de datos. Cada una de las líneas exporta un dato hacia un archivo de texto. En este ejemplo, cada línea de código representa lo siguiente: 1. El comando EXPORT extrae los datos especificados en las líneas 2 a la 17 y los envía a un archivo de texto. Los campos exportados se describen a continuación. 2. Año al que corresponde la obra. 3. Clave del programa de obra 4. Proyecto de presupuesto con el que se hizo el pago del contrato. 5. Número de la obra exportada. 6. Símbolo utilizado para omitir campo en regla de carga durante la integración de datos posterior. 7. Número del contrato de obra. 8. Fuente de financiamiento utilizada. 9. Unidad administrativa donante del presupuesto. 10. Unidad administrativa responsable del ejercicio del presupuesto. 11. Programa de presupuesto. 12. Etiqueta que representa la métrica a la cual corresponde el dato que se va a importar al data mart. 13. Año en el que se realizó el pago del contrato exportado. 14. Mes en el que se realizó el pago del contrato exportado. 15. Día en el que se realizó el pago del contrato exportado. 16. Importe del pago realizado. 17. Actividad institucional con el que se hizo el pago del contrato. 18. Esta línea indica el fin del proceso de exportación. Una vez que este programa de extracción de información es ejecutado, genera un archivo de texto con los datos indicados arriba. En la figura 3.4 se muestra una parte del archivo generado después de la corrida del programa. 86 Figura 3.3 Sección de exportación de datos de uno de los programas utilizados para extraer datos desde las fuentes de datos para el data mart construido (diseño propio) En la figura 3.4, se podrá observar que no existe una relación aparente entre los datos e incluso puede parecer que no tienen significado alguno respecto a un cubo de información. Sin embargo, en la sección “integración y transformación” que se encuentra más adelante, se le dará sentido a los datos contenidos en este archivo con respecto al data mart que se va a construir, mediante las denominadas reglas de carga. Figura 3.4 Muestra de los datos extraídos por la sección del programa de la figura 3.3, después de la ejecución del mismo (diseño propio) Por otro lado, los programas de extracción de datos se diseñaron de tal forma que solo se obtuvieran tuplas con datos diferentes de nulo, aunque también es posible 87 omitir o transformar estos valores durante el proceso de transformación de los datos. También se trató de eliminar inconsistencias en el formato de los campos de fecha obteniendo el mes, día y año como campos independientes a fin de que posteriormente, en el proceso de transformación y carga, este tipo de datos sean cargados al cubo de información en forma correcta. Integración y transformación de los datos Esta fase consiste en integrar la información obtenida en el paso anterior, hacia un repositorio de datos coherente. En este trabajo se utilizará como repositorio del Sistema de Información Ejecutivo de Infraestructura una base de datos dimensional. Es importante tener en cuenta que antes de iniciar con el proceso de integración de datos, es necesario preparar la estructura dimensional de la base de datos, a fin de que la importación de la información desde las fuentes de datos sea transparente y libre de errores. La construcción de la base de datos se explica más adelante en la sección 3.6 Diseño físico de la base de datos. Para llevar a cabo la integración de datos, se elaboraron programas que en la herramienta de implementación utilizada (Oracle Hyperion Essbase) se denominan reglas de carga, los cuales permiten definir la manera en la que se importará la información. Algunas de estas reglas de carga modifican la estructura de la base de datos. Por medio de reglas de carga, pueden agregarse valores, es decir, números a a la base de datos dimensional desarrollada (desde bases de datos relacionales para el presente trabajo). Pero si los datos no se encuentran en el formato correcto, entonces se necesita desarrollar reglas de carga para esos valores. La estructura de la base de datos, puede también ser actualizada en forma manual o por medio de reglas de carga. De esta forma, se pueden agregar dimensiones y miembros de dimensión dinámicamente. Las reglas de carga son un conjunto de operaciones que se ejecutan sobre los datos para validarlos y transformarlos antes de ser integrados a la base de datos. Generalmente se crea una regla de carga por cada dimensión. Lo que hacen las reglas de carga en Essbase es leer los datos a ser importados, los cambia con base en las reglas establecidas y los integra a la base de datos. Es importante tener en cuenta que las fuentes de datos no se modifican. 88 El proceso de transformación puede consistir en cualquier de las siguientes acciones o un conjunto de ellas: Ignorar campos o cadenas de la fuente de datos. Cambiar el orden de los campos moviendo, uniendo, dividiendo o creando nuevos campos a partir de los existentes en la fuente de datos. Mapeo de los datos desde el origen hacia la base de datos. Cambiar los valores de los datos provenientes de las fuentes de datos escalando o adicionando los valores existentes en la base de datos. Omitir o modificar valores nulos provenientes de la fuente de datos. Omitir registros inválidos para continuar con el proceso de integración de datos. Agregar nuevas dimensiones y miembros a la base de datos. Modificar dimensiones y miembros existentes en la base de datos. Continuando con el ejemplo del archivo de texto de la figura 3.4, describiré el proceso de construcción de la regla de carga que se deberá utilizar para transformar los datos antes de su integración a la base de datos. Cabe mencionar que este archivo contiene datos relacionados con el presupuesto ejercido por los Estados por el pago de los trabajos realizados a los contratistas en la construcción y conservación de carreteras del país. Para integrar la información de la fuente de datos (en este caso el archivo de texto), se debe especificar la relación uno a uno entre los campos que se encuentran en la fuente de datos contra las dimensiones en la base de datos. Esta relación se especifica en las reglas de carga y funciona cada vez que se requiera importar nuevos datos desde la misma fuente de datos, sin tener que modificar la estructura de la fuente ni la de la regla de carga. Esta asociación campodimensión es obligatoria y no se pueden integrar datos si no se especifica la relación de uno a uno entre el origen de los datos y la base de datos dimensional. Pero antes de especificar esta relación, es necesario preparar los datos para su asociación con la base de datos y posteriormente su integración. El primer paso es abrir el archivo de texto (fuente de datos) dentro del editor de reglas de carga (ver figura 3.5). 89 Figura 3.5 Apertura del archivo en el editor de reglas de carga de Essbase con información de ejemplo (definición de una regla de carga en Essbase) Es necesario especificar en la regla de carga que los archivos de texto que se lean con la misma, van a estar delimitados por pipes, ya que como podrá observarse en la figura anterior, los registros los interpreta en principio como un solo campo (Field 1). En la figura 3.6, puede observarse la aplicación de esta operación. Note que después de haber aplicado el delimitador especificado, el archivo se despliega en 16 campos (Field 1 a Field 16). Aunque los campos ya están delimitados, los datos aun no están listos para poder ser integrados a la base de datos. Aquí inicia el proceso de transformación de los datos. Para ajustar la estructura del archivo al formato requerido para la base de datos, se cambiará el orden de algunos campos moviendo, juntando, dividiendo o creando nuevos campos a partir de los existentes. Primera operación: deshabilitar campos que no se utilizarán para integrar datos a la base de datos. La primera operación que se va a realizar es deshabilitar los campos 1 y 5, ya que no se utilizarán para el proceso de integración de datos. La figura 3.7 muestra el resultado de haber deshabilitado estos campos en la regla de carga. Segunda operación: transformar los datos de algunos campos para su asociación con alguna dimensión o miembro de dimensión de la base de datos. Con excepción del campo 15, todos los demás campos estarán asociados con una dimensión de la base de datos y como se comentó anteriormente, deberá haber un campo por cada dimensión a fin de que exista un cruce de todas las 90 dimensiones y en la celda que represente la intersección de las mismas, se cargue el valor contenido en el campo 15. Si no se cumple esta condición de relación campo-dimensión, entonces se presentará un error al momento de validar la regla de carga de datos. Con base en lo anterior, es necesario adicionar prefijos a algunos campos con el fin de poder asociarlos con un miembro de alguna de las dimensiones de la base de datos. A continuación se mencionan estas operaciones: Figura 3.6 Ejemplo de delimitación de campos del archivo de texto en una regla de carga (definición de una regla de carga en Essbase) Se adicionará el prefijo “PO” al campo 2 separado por un punto para su asociación con algún miembro de la dimensión Programa Operativo (ver figura 3.21 Implementación de la dimensión Programa Operativo). Al campo 7 se adicionará el prefijo “F” para asociarlo con alguno de los miembros de la dimensión Financiamiento (ver figura 3.24 Implementación de la dimensión Financiamiento). El prefijo “UD” se adicionará al campo 8 para asociarlo con algún miembro de la dimensión Unidad Donante (ver figura 3.23 Implementación de la dimensión Unidad Donante). Se adicionará el prefijo “CSCT” al campo 9 para su asociación con algún miembro de la dimensión Centro SCT (ver figura 3.17 Implementación de la dimensión Centro SCT). Al campo número 10 se adicionará el prefijo “PP” para asociarlo con uno de los miembros de la dimensión Programa de Presupuesto (ver figura 3.22 Implementación de la dimensión Programa de Presupuesto). 91 Figura 3.7 Resultado de haber deshabilitado los campos 1 y 5 en la regla de carga (definición de una regla de carga en Essbase) Al campo 12 se adicionará el prefijo “A” para poderlo asociar con un miembro de la dimensión Año (ver figura 3.25 Implementación de la dimensión Año). Por último, se unirán los campos 13 y 14 y se les adicionará el prefijo “M” para asociar este campo con la dimensión Total Anual (ver figura 3.16 Implementación de la dimensión Total Anual). También se moverá de posición el campo 15 para unirlo con los campos 3, 4, 5, y 6 y asociar el campo que se obtenga con los miembros de la dimensión Proyecto (ver las figuras 3.18 y 3.19 Implementación de la dimensión Proyecto). Las transformaciones anteriores pueden verse en la imagen de la figura 3.8. En la imagen pueden observarse los campos modificados con los prefijos adicionados. Figura 3.8 Adición de prefijos a algunos campos para su asociación con dimensiones de la base de datos dimensional (definición de una regla de carga en Essbase) Tercera operación: Asociación con las dimensiones de la base de datos. Cada uno de los campos de datos (con excepción del campo 12 en la figura 3.8, ya que este campo contiene los valores que serán integrados a la base de datos en el cruce o 92 celda que se obtenga de la intersección de las dimensiones que le anteceden), deberá ser asociado a un miembro de cada dimensión de la base de datos. En la figura 3.9 se puede observar la asociación hecha de cada campo a una dimensión de la base de datos. Figura 3.9 Asociación de campos en la regla de carga con las dimensiones de la base de datos (definición de una regla de carga en Essbase) Cuarta operación: Especificación del campo de valores que serán integrados a la base de datos dimensional. Esta operación consiste en establecer en la regla de carga que el campo número 12 contiene los valores que deberán ser importados en la base de datos cuando la regla de carga sea ejecutada (ver figura 3.10). Cabe mencionar que los campos que contiene el archivo de datos solo hacen referencia a 9 de las 11 dimensiones de las cuales constará la base de datos. Las reglas de carga en Essbase permiten especificar las dimensiones o los miembros de dimensión a los que deberán asociarse los valores, cuando no está especificado en la fuente de datos. Dado que los valores que se están importando representan los pagos en pesos hechos por cada contrato, se especificará en la regla de carga que con respecto a la dimensión Avance los valores sean asociados al miembro “Avance Financiero” (ver figura 3.20 Implementación de la dimensión Avance). Y para la dimensión Dato, los valores se asociarán al miembro Real (ver figura 3.26 Implementación de la dimensión Dato). Las dos especificaciones anteriores se realizan en la regla de carga en un área de configuración denominada “Configuración de datos de carga” (ver figura 3.11). Los valores serán almacenados en una única celda. Para referirse a un valor específico en la base de datos dimensional, se deberán especificar sus miembros en cada dimensión. Es decir, se deberá hacer un cruce de dimensiones para acceder a un dato en particular. En otras palabras, es necesario generar el cuboide específico que permita acceder a un dato particular de la base de datos (ver computación de cuboides en la base de datos más adelante en este capítulo). 93 La celda en la que está almacenado cierto valor también puede ser expresado utilizando el operador de cruce de dimensiones (->). Una vez almacenados los valores en la base de datos y utilizando este operador, se puede decir que el valor 391000.99 (registro 1 en la regla de carga creada que se muestra en la figura 3.10) se encuentra almacenado en la celda referenciada por: PO.SPO -> “010-K0998 Obra:A010040100 Contrato: 9ACFA503W09” -> F1 -> UD210 -> CSCT621 -> PP0 -> Ejercido -> A2009 -> M-03_02 -> “Avance Financiero” -> Real. Figura 3.10 Especificación del campo que contiene los valores que serán importados a la base de datos (definición de una regla de carga en Essbase) Figura 3.11 Configuración de datos de carga a nivel de definición de encabezado de una fuente de datos (definición de una regla de carga en Essbase) Finalmente, se guarda la regla de carga para su ejecución posterior. El ejemplo de proceso de transformación anterior solamente sirvió para preparar un archivo de datos. Sin embargo, fue necesario elaborar 12 archivos adicionales con sus reglas de carga respectivas para preparar tanto la información como la estructura de la base de datos, ya que algunas dimensiones son actualizadas de manera dinámica mediante reglas de carga. El procedimiento es muy similar a la preparación que se hace de los datos para la importación de valores a la base de 94 datos, solo que la configuración se realiza para actualización de dimensiones en lugar de carga de datos. Computación de cuboides en la base de datos La computación de cuboides es un proceso que consiste en elegir la manera más adecuada de generar los cruces de información o agrupamientos necesarios para la consulta de información. Para ello es necesario importar la información desde la fuente de los datos hacia el data mart (base de datos dimensional) por medio de reglas de carga. Y posteriormente ejecutar un programa que realice los cálculos necesarios para desagregar la información hacia todos los niveles de dimensión o genere los cuboides de datos en forma total o parcial, según se requiera. Se explicará con mayor detalle las dimensiones que se definieron para el data mart de obra pública. Existen tres opciones para generar los agrupamientos de datos o cuboides46: 1. Sin generar agrupamientos. Esto significa no generar ningún cruce de información por anticipado, sino generar los cruces al “vuelo”, lo cual puede ser extremadamente lento a la hora de tratar de hacer una consulta de información. 2. Materialización total de cuboides. El resultado es la obtención de la enramada de cuboides total. Esta opción generalmente requiere enormes cantidades de memoria para almacenar todo los cuboides obtenidos. 3. Materialización parcial de cuboides. Consiste en elegir de manera selectiva el conjunto de cuboides que se desea obtener. Alternativamente se pueden computar el conjunto de cuboides que contienen aquellas celdas que satisfacen un criterio de búsqueda de un usuario. Nos podemos referir al caso anterior como la obtención de un subcubo de datos. La materialización parcial de cuboides representa una opción interesante entre espacio de almacenamiento y tiempo de respuesta. En el presente trabajo se siguen dos estrategias para materializar los posibles cruces de información o cuboides, según los requerimientos de los usuarios. En algunas ocasiones los usuarios requieren consultar la información de todos los Estados de la República. Por lo cual, se realiza un cómputo total de toda la enramada de cuboides y de esta manera los usuarios pueden obtener consultas de métricas como presupuesto ejercido a nivel nacional, compromisos registrados 46 Han, J. (2006). Data Mining: Concepts and Techniques. San Francisco, CA.: Morgan Kaufmann. P. 140. 95 por cada Estado del país o el presupuesto disponible para toda la Secretaria en el rubro de gasto de inversión. Pero por lo regular la consolidación de cuboides se realiza de manera parcial. Se computan los cuboides solo para los Estados del país de los cuales se necesita consultar su información. En el siguiente ejemplo se realiza un cálculo para obtener un subcubo de datos del Estado de Aguascalientes (clave 621), con base en la métrica “Ejercido Total” del año 2009. Para ello se utiliza el comando FIX, el cual es un comando de cálculo de Oracle Hyperion Essbase. Los comandos de cálculo se definen en un script para instruir a Essbase a ejecutar un determinado cálculo diferente al default, el cual hace un cálculo total de las dimensiones y sus niveles 47. FIX(CSCT621,EjercidoTotal,A2009) CALC DIM (UnidadDonante,TotalAnual,Financiamiento,ProgramaPresup,ProgramaOperativo, "Proyecto Obra-Tramo",Avance,Dato); ENDFIX; Por otro lado, la instrucción CALC ALL le indica al sistema computar el total de posibles subconjuntos del conjunto de dimensiones {centro de trabajo, tiempo, avance, dato, año, financiamiento, métricas, programa operativo, programa de presupuesto, centro sct, proyecto}, incluyendo el subconjunto vacío. Análisis y reportes Fue necesario también diseñar y desarrollar una suite de reportes y gráficas estadísticas que muestran los parámetros y las tendencias que el usuario debe analizar. Para desarrollar esta suite de reportes, se utilizó otra herramienta de Oracle llamada Oracle Workspace el cual es un software que permite elaborar de forma rápida y flexible una consulta hacia el data mart de obra pública. Esta suite de reportes puede ser consultada desde la web utilizando cualquier navegador disponible. 47 Hyperion Essbase Technical Reference. Hyperion Solutions Corporation. 1991-2002. 96 Diseño conceptual del SIE En el desarrollo de un sistema de información basado en el modelo relacional, se utilizarían diagramas basados en la notación del modelo entidad-relación para identificar y diseñar la relación entre los datos de la organización. Para diseñar un data mart, se utiliza un modelo dimensional. Pero al igual que en el modelo entidad-relación, se debe partir del análisis de las necesidades de información y requerimientos del usuario. Como sabemos, el diseño lógico de un sistema es conceptual. No se necesita adentrar mucho en aspectos técnicos aún. Solo se requiere definir el tipo de información que se manejará. En este proyecto, se utilizó el modelo de estrella para diseñar el repositorio de datos del Sistema de Información Ejecutivo. El modelo lógico resultante contiene un conjunto de entidades correspondientes a la tabla de hechos (fact table) y a tablas de dimensión (dimension tables). En la figura 3.12, puede observarse el diagrama de estrella obtenido. Contrato Día Obra Estado Mes Proyecto de presupuesto Región Trimestre Grupo de proyecto Tipo de contrato Centro SCT Tiempo Proyecto Año Número de año Dato Periodicidad de los datos Avance Tipo de avance Métricas Financiamiento Programa operativo Tipo de recurso Origen del recurso Centro de trabajo Programa de presupuesto Tipo de centro de trabajo Tipo de programa Tipo de programa Periodo del programa Tipo de trabajo Figura 3.12. Modelo de estrella del SIE (diseño propio) 97 En la siguiente tabla se describe cada una de las entidades que se mencionan en la figura 3.12. Etiqueta de Dimensión Descripción Métricas Diferentes flujos de los recursos (por ej. Asignado, Modificado, Comprometido, etc.). Más adelante se detallan los elementos de esta dimensión. Tiempo Dimensión de tiempo. Contiene el detalle diario de las operaciones y los acumulados trimestral y mensual. Centro de trabajo Direcciones Generales o entidades normativas que asignan el presupuesto. Se contempla la información de tres Direcciones de la Subsecretaría de Infraestructura las cuales son: Dirección General de Conservación de Carreteras (DGCC), Dirección General de Carreteras (DGC) y Dirección General de Servicios Técnicos (DGST). Avance Avance físico y avance financiero de una obra Financiamiento Contiene todas las fuentes de financiamiento (por ej. Recursos fiscales, Recursos externos) Programa operativo Programas operativos al interior de cada unidad donante. Esta dimensión se agregó particularmente para la DGCC, ya que esa Dirección desagrega sus presupuestos en programas operativos. Programa de presupuesto Forma parte de la clave presupuestal, mediante la cual se asigna el presupuesto. Para el año 2009, el programa presupuestal es cero. Región Aguascalientes a Zacatecas organizados por Región (por ej. noroeste, noreste, centro del país, centro occidente y sursureste) Proyecto de Esta dimensión se utiliza para clasificar la información por grupos presupuesto de proyecto. Cada grupo puede contener proyectos presupuestales asociados, los cuales a su vez se pueden subclasificar en obras. Y cada obra puede tener diferentes contratos. Año Permite guardar información histórica por ejercicio fiscal, a fin de hacer comparativos de la administración del presupuesto entre 98 diferentes años Dato Esta dimensión se construyó con la finalidad de hacer acumulados semanales de la información del presupuesto. La dimensión llamada “métricas” (o tabla de hechos), contiene atributos numéricos que representan los diferentes tipos de operación que se pueden aplicar al presupuesto de la Secretaría de Comunicaciones y Transportes. Por medio de los elementos de esta dimensión, se pueden realizar las operaciones necesarias para responder a preguntas como el presupuesto de una obra o el presupuesto comprometido para un contrato, etc. Dada la importancia de los atributos de esta dimensión, a continuación se describe cada uno de ellos. Es importante mencionar que algunos de estos atributos están diseñados para almacenar información, mientras que otros utilizan fórmulas para calcular algún dato a partir de los primeros. Presupuesto original. Almacena la información correspondiente al presupuesto original asignado a la SCT. Ampliaciones al presupuesto. Almacena los movimientos de ampliación al presupuesto ya autorizados por la SHCP y por la DGPOP. Reducciones al presupuesto. Almacena los movimientos de reducción al presupuesto ya autorizados por la SHCP y por la DGPOP. Presupuesto modificado. Es la suma del presupuesto original más las ampliaciones menos las reducciones. En el cubo es una miembro de dimensión que calcula este dato mediante la siguiente fórmula: Original + Ampliaciones – Reducciones Presupuesto comprometido original. Almacena la información correspondiente al compromiso original (sin ampliaciones ni reducciones) de un contrato, registrado por cada obra en el Sistema SIRASEF. Ampliaciones al presupuesto comprometido. Guarda la información de las tarjetas de modificación (ampliaciones) que se registran en el SIRASEF por cada contrato. 99 Reducciones al presupuesto comprometido. Guarda la información de las tarjetas de modificación (reducciones) que se registran en el SIRASEF por cada contrato. Presupuesto comprometido modificado. Es un elemento de dimensión que calcula el compromiso total (la suma del compromiso original de un contrato más las ampliaciones menos las reducciones hechas al mismo), registrado por cada contrato en el SIRASEF. En el SIE, este cálculo se realiza mediante la siguiente fórmula: Comprometido + Ampliaciones por contrato – Reducciones por contrato Presupuesto comprometido real. Es un elemento de dimensión que calcula el compromiso sin ejercer, por cada contrato de obra registrado en el SIRASEF. La fórmula mediante la cual se calcula este dato es: Modificado por contrato – Ejercido en trámite - Ejercido Presupuesto ejercido en trámite. Almacena la información de los pagos que se encuentran en trámite en el Sistema Integral de Administración. Es decir, almacena los pagos que no están asociados a una cuenta por liquidar certificada en el SIA y que por lo mismo, no están registradas en el SIAFF (Sistema Integral de Administración de la Tesorería de la Federación). Presupuesto ejercido real. Guarda la información de los pagos realmente efectuados a los proveedores y que se encuentran asociados a una cuenta por liquidar ya registrada en el SIAFF. Presupuesto ejercido total. Es un elemento de dimensión que calcula el ejercido total por cada proyecto presupuestal o contrato de obra, mediante la siguiente fórmula: Ejercido en trámite + Ejercido Presupuesto disponible. Corresponde al disponible por cada proyecto presupuestal registrado en el Sistema Integral de Administración. En el SIE es un elemento de dimensión calculado que se obtiene de la siguiente forma: Modificado – Compromiso real – Ejercido - Ejercido en trámite 100 Porcentaje de presupuesto comprometido contra presupuesto modificado. Es un elemento de dimensión que calcula el porcentaje de recursos presupuestales o kilómetros comprometidos, contra el presupuesto total asignado o meta en kilómetros total a ejecutar. Porcentaje presupuesto ejercido contra presupuesto modificado. Es un elemento de dimensión que calcula el porcentaje de avance físico ejercido o pagos realizados, contra la meta en kilómetros a ejecutar o el presupuesto total asignado. Porcentaje de presupuesto ejercido contra presupuesto comprometido. Es un elemento de dimensión que calcula el porcentaje de pagos realizados, contra el presupuesto comprometido en un proyecto. Ahora bien, cada uno de los elementos en la dimensión de métricas no tendría ningún sentido si no se realiza un cruce de datos almacenados en esos elementos contra los de las otras dimensiones. A continuación se muestra la relación entre los elementos de la dimensión métricas contra los elementos de las otras dimensiones. También se indica el nivel contra el cual es necesario realizar este cruce de información para obtener el dato que se requiera. Esto último es importante mencionarlo porque el motor OLAP de Oracle Essbase, almacena los datos en los elementos de nivel cero de cada dimensión. Es decir, la estructura de un data mart construido dentro de esta herramienta, es similar a una estructura de datos de tipo árbol para cada dimensión. La información es almacenada en los elementos de más bajo nivel y ésta se acumula conforme se sube en la estructura del árbol respecto a los antecesores de cada elemento de dimensión hasta llegar al tope máximo, el cual es el elemento en la cima de una dimensión y este contiene la información acumulada de todos sus antecesores. Los elementos Original, Ampliaciones, Reducciones y Modificado, tendrán un cruce de información con: Nombre de la dimensión Nivel de detalle requerido Nivel o generación en la dimensión Total anual Mensual Nivel 1 Avance Financiero Nivel 0 101 Proyecto presupuestal Por grupo de proyecto Generación 2 Financiamiento Fuente de financiamiento Nivel 0 Unidad donante Unidad dueña de los recursos (DGC, DGCC o DGST) Nivel 0 Región Estados Nivel 0 Programa presupuestal Información por programa presupuestal. En el 2009 no hay programa presupuestal. Nivel 0 Programa operativo Total en todos los programas operativos Generación 1 Los elementos Comprometido y Disponible, tendrán un cruce de información con: Nombre de la dimensión Nivel de detalle requerido Nivel o generación en la dimensión Total anual Mensual Nivel 1 Avance Financiero y físico Nivel 0 Proyecto presupuestal Por grupo de proyecto, obra y por contrato Niveles 0, 1, 2 Financiamiento Fuente de financiamiento Nivel 0 Unidad donante Unidad dueña de los recursos (DGC, DGCC o DGST) Nivel 0 Región Estados Nivel 0 Programa presupuestal Información por programa presupuestal. En el 2009 no hay programa presupuestal. Nivel 0 Programa Total por programa operativo Nivel 0 102 operativo Los elementos de Ejercido y Ejercido en trámite, tendrán un cruce de información con: Nombre de la dimensión Nivel de detalle requerido Nivel o generación en la dimensión Total anual Diario Nivel 0 Avance Financiero y físico Nivel 0 Proyecto presupuestal Por grupo de proyecto, obra y por contrato Niveles 0, 1, 2 Financiamiento Fuente de financiamiento Nivel 0 Unidad donante Unidad dueña de los recursos (DGC, DGCC o DGST) Nivel 0 Región Estados Nivel 0 Programa presupuestal Información por programa presupuestal. En el 2009 no hay programa presupuestal. Nivel 0 Programa operativo Total por programa operativo Nivel 0 Es importante mencionar que se pueden generar una cantidad mayor de cruces de información entre las dimensiones y entre los diferentes niveles que las conforman. Cada cruce de información que se realice, dará como resultado una consulta diferente. Sin embargo, los cruces de dimensiones arriba mencionados son los mínimos necesarios para cubrir los requerimientos de información que las áreas usuarias esperan obtener del Sistema de Información Ejecutivo. En la figura 3.13, se puede apreciar la implementación de la dimensión Métricas, en la estructura del data mart del SIE. 103 Figura 3.13 Implementación de la dimensión Métricas (diseño propio) Y, ¿cuál es el total de cuboides, o group-by, que pueden ser computados para este cubo de once dimensiones? Para responder a esta pregunta primero vamos a obtener el total de niveles por cada dimensión (incluyendo el nivel más alto o 0-D). En la siguiente tabla se puede observar el total de niveles por dimensión: Número de dimension 1 2 3 4 5 6 7 8 9 10 11 Nombre de la dimensión Centro de trabajo Tiempo Avance Dato Año Financiamiento Metricas Programa operativo Programa de presupuesto Centro SCT Proyecto Niveles de la dimensión 2 4 2 2 2 3 2 4 2 3 5 Aplicando la ecuación (1.1) del capítulo 1, tendremos que el número total de cuboides que se pueden obtener para este cubo de datos es de 46,080 cuboides. 3.5.5 Parámetros de información que los usuarios pueden consultar El data mart permitirá a los usuarios finales consultar una serie de parámetros de información con los cuales podrán evaluar la forma en la que los estados o Centros SCT ejercen el presupuesto asignado. Dichos parámetros se enlistan a continuación. Nombre del parámetro Unidad de medida Presupuesto asignado a Pesos la SCT destinado a la inversión en Descripción Muestra el presupuesto asignado a cada Estado en el Presupuesto de Egresos de la Federación (PEF). 104 infraestructura carretera Presupuesto modificado Pesos Presupuesto Pesos comprometido en construcción Presupuesto ejercido Pesos Presupuesto Pesos comprometido en conservación de carreteras Presupuesto disponible Pesos Número de kilómetros a Kilómetros ejecutar en construcción de carreteras Número de kilómetros a Kilómetros ejecutar en conservación de carreteras Número de kilómetros Kilómetros construidos Número de kilómetros a Kilómetros los cuales se les ha dado mantenimiento Presupuesto en trámite Pesos de pago Presupuesto Pesos comprometido en conservación de carreteras por programa operativo Presupuesto ejercido en Pesos conservación de carreteras por programa operativo Indica el presupuesto disponible por cada Estado, después de ampliaciones y reducciones al presupuesto aplicados por la SHCP. Indica el presupuesto contratado por cada Estado para la construcción de carreteras. Este indicador muestra el presupuesto que ha sido pagado a los contratistas por la ejecución de sus servicios. Indica el presupuesto contratado por cada Estado para la conservación de carreteras. Muestra el presupuesto disponible o sin ejercer por cada Estado. Indica la cantidad de kilómetros de construcción carreteras que cada Estado ejecutará por ejercicio fiscal. Indica la cantidad de kilómetros de conservación de carreteras que cada Estado ejecutará por ejercicio fiscal. Indica la cantidad de kilómetros construidos por cada Estado del país. Indica la cantidad de kilómetros a los cuales se les ha dado mantenimiento por cada Estado del país. Indica el presupuesto que se encuentra en trámite de pago a los contratistas en cada Estado del país. Indica el presupuesto contratado por cada Estado respecto a conservación de carreteras, por el concepto de programa operativo. Indica el presupuesto que ha sido pagado a los contratistas por la conservación de carreteras, por el concepto de programa operativo. 105 Estados con mayor Pesos presupuesto asignado por ejercicio fiscal Presupuesto ejercido Pesos semanal Porcentaje de presupuesto comprometido respecto al presupuesto asignado, en cuanto a construcción y modernización de carreteras Porcentaje de presupuesto ejercido respecto al presupuesto asignado en cuanto a construcción y modernización de carreteras Porcentaje de presupuesto ejercido respecto al presupuesto comprometido en cuanto a construcción y modernización de carreteras Porcentaje de presupuesto comprometido respecto al presupuesto asignado, en cuanto a caminos rurales y carreteras alimentadoras Porcentaje de presupuesto ejercido respecto al presupuesto asignado en cuanto a caminos rurales y carreteras alimentadoras Porcentaje Porcentaje Porcentaje Porcentaje Porcentaje Porcentaje de Porcentaje presupuesto ejercido respecto al presupuesto Muestra los nueve estados con mayor presupuesto para inversión en infraestructura carretera. Muestra el presupuesto que cada estado del país ha pagado a sus contratistas por la ejecución de obra de forma semanal. Este indicador muestra el porcentaje de dinero que cada Estado ha comprometió en comparación a su presupuesto asignado, para la construcción y modernización de carreteras. Este indicador muestra el porcentaje de dinero que cada Estado pagó a sus contratistas en comparación a su presupuesto asignado, después de la ejecución de obra pública para la construcción y modernización de carreteras. Este indicador muestra el porcentaje de dinero que cada Estado pagó a sus contratistas en comparación al dinero que comprometió para la construcción y modernización de carreteras. Este indicador muestra el porcentaje de dinero que cada Estado ha comprometió en comparación a su presupuesto asignado, para la construcción y mantenimiento de caminos rurales y carreteras alimentadoras. Este indicador muestra el porcentaje de dinero que cada Estado pagó a sus contratistas en comparación a su presupuesto asignado, después de la ejecución de obra pública para la construcción y mantenimiento de caminos rurales y carreteras alimentadoras. Este indicador muestra el porcentaje de dinero que cada Estado pagó a sus contratistas en 106 comprometido en cuanto a caminos rurales y carreteras alimentadoras Porcentaje de Porcentaje presupuesto comprometido respecto al presupuesto asignado, en cuanto a conservación y mantenimiento de carreteras federales Porcentaje de Porcentaje presupuesto ejercido respecto al presupuesto asignado en cuanto a conservación y mantenimiento de carreteras federales Porcentaje de Porcentaje presupuesto ejercido respecto al presupuesto comprometido en cuanto a conservación y mantenimiento de carreteras federales comparación al dinero que comprometió para la construcción y mantenimiento de caminos rurales y carreteras alimentadoras. Este indicador muestra el porcentaje de dinero que cada Estado ha comprometió en comparación a su presupuesto asignado, para la conservación y mantenimiento de carreteras federales. Este indicador muestra el porcentaje de dinero que cada Estado pagó a sus contratistas en comparación a su presupuesto asignado, después de la ejecución de obra pública para la conservación y mantenimiento de carreteras federales. Este indicador muestra el porcentaje de dinero que cada Estado pagó a sus contratistas en comparación al dinero que comprometió para la conservación y mantenimiento de carreteras federales. 3.5.6 Diseño de consultas empresariales Adicionalmente al diagrama de estrella de la figura 3.12, los modelos de consulta pueden ayudar a determinar la estructura del data mart que se va a construir. Los modelos de consulta que pueden observarse en las figuras 3.14 y 3.15, representan las consultas de información que los usuarios esperan obtener del SIE. 107 Figura 3.14 Molde de consulta empresarial de Presupuesto (diseño propio) Figura 3.15 Molde de consulta empresarial de Programa Operativo (diseño propio) 108 A continuación se listan ejemplos de consultas empresariales que se puede obtener del molde de la figura 3.14: 1. Presupuesto modificado anual de la DGC por Estado por grupo de proyecto por tipo de avance por tipo de financiamiento. 2. Presupuesto ejercido real anual de la DGC por región por proyecto de presupuesto. 3. Presupuesto modificado trimestral por Estado para la DGC. Para el molde de la figura 3.15, las consultas empresariales que se pueden obtener son: 1. Presupuesto modificado por contrato anual de la DGCC por Estado por programa operativo 2. Presupuesto modificado anual de la DGCC por Estado por programa operativo por tipo de financiamiento. 3.5.7 Herramienta que se utilizó para la implementación Para implementar ésta solución, se utilizó el software Oracle Essbase OLAP Server, la cual es una plataforma para la elaboración de informes, análisis, modelos y presupuestos. Este software permite el acceso de lectura/escritura de múltiples usuarios, capacidad de almacenamiento de datos a gran escala, realización de cálculos analíticos y consultas OLAP sofisticadas (proceso analítico on-line). Proporciona navegación multidimensional, intuitiva y con tiempos de respuesta rápidos y consistentes en entornos cliente-servidor. Soporta los sistemas operativos Windows NT, UNIX y AS/400. Integra datos desde múltiples orígenes tendientes a aplicaciones analíticas dentro de una arquitectura global de Data Warehouse o desde aplicaciones OLTP y orígenes de datos externos. Dentro del Data Warehouse, Essbase servirá como elemento de entrega de la información estratégica proporcionando un acceso compartido y un análisis de datos para las áreas de infraestructura de la Secretaría, mediante la utilización de herramientas estándares de la informática personal tales como hojas de cálculo, herramientas de consulta y los navegadores de Web. Oracle Essbase agrupa la información dentro de categorías denominadas dimensiones, tales como son el tiempo, la geografía, los productos, canales y escenarios. Dentro de cada dimensión, los datos se organizan jerárquicamente 109 (mediante miembros de dimensión), de forma que los usuarios pueden navegar desglosando la información desde datos resumidos a mayores niveles de detalle.48 En el entorno generado con Web Analysis, que es una herramienta del grupo de software de Oracle dirigida al análisis y generación de reportes por la web y que fue básicamente sobre la que se desarrolló el ambiente de operación final (interfaz de usuario), los usuarios pueden rotar las dimensiones desde las filas a las columnas de un informe y segmentar los datos para retirar la información no esencial. Esta herramienta permite también la distribución de particiones por la red con una funcionalidad completa y total transparencia en la posición, lo cual permitirá el desarrollo de diversos cubos de información. Todas las operaciones OLAP incluyendo las de desglose, consultas, cálculos y cargas, pueden abarcar múltiples computadoras. Oracle Essbase es una plataforma tecnológica para dar soporte a varias categorías de aplicaciones analíticas, ya existentes y de nueva creación, dirigidas a la operativa táctica y estratégica de la Secretaría de Comunicaciones y Transportes. Se aprovechó una de las características más importantes de esta tecnología, la cual es que fue concebida para operar en entornos cliente-servidor con bases de datos centralizadas. 3.6 Diseño físico de la base de datos Como sabemos, el diseño lógico de un sistema de información solamente ilustra la manera en la que funcionará y la información que habrá de manejar. El diseño físico es la parte más importante en la construcción de un data mart o de un data warehouse, ya que aquí se determina cómo se estructurará la información y como se consolidará. Una vez definida y creada la estructura de la base de datos del data mart, los datos pueden ser extraídos desde las fuentes de datos y colocados en esa base de datos. Una vez recuperada la información, se pueden ejecutar los cálculos que sean necesarios y posterior a ello, toda la información consolidada y calculada puede ser consultada a través de tableros de control y de otro tipo de reportes. En Oracle Essbase, a la estructura de la base de datos construida se le llama Outline. 48 Hyperion Solutions Corporation. (2000). Hyperion Essbase Fundamentals Training. Sunnyvale, California: Hyperion Solutions Corporation. 110 Es importante mencionar que a diferencia de otras aplicaciones en las que para generar una estructura de base de datos OLAP es necesario utilizar sentencias de SQL para implementar la aplicación, Oracle Essbase facilita esta tarea a través de un generador de Outline en el cual el programador crea la estructura dimensional sin preocuparse por el uso de comandos. 3.6.1 Desarrollo del data mart Después de haber determinado la información que almacenará el data mart y obtener un diseño previo sobre las dimensiones de datos que procesará, su construcción es relativamente sencilla. Se podría decir que el trabajo se reduce a transcribir el modelo estrella presentado en la figura 3.12, utilizando para ello el motor de bases de datos OLAP Oracle Hyperion Essbase. A continuación se describe la implementación de cada dimensión del data mart. Es importante mencionar que no obstante lo simple que pudiera parecer la implementación que se presenta a continuación, es necesario contar con cierto nivel de conocimiento y experiencia en el manejo de este tipo de herramientas, a fin de obtener un buen nivel de desempeño o performance, una vez que la aplicación se libere a producción. Implementación de la dimensión Tiempo Esta dimensión contempla que la información pueda ser consultada por día, mes, trimestre o por el total anual (nivel más alto de la dimensión). Es recomendable utilizar también una dimensión que administre los años, a fin de que se tenga la habilidad de almacenar información histórica anual. De esta manera, se tendrá la posibilidad de realizar comparaciones entre la información de múltiples años. En la figura 3.16, se puede observar la implementación de esta dimensión. Cabe hacer mención que en la implementación de la dimensión se le dio el nombre Total Anual con el fin de hacer más representativo el dato para el usuario. 111 Figura 3.16. Implementación de la dimensión Total Anual (diseño propio) En algunos elementos de la dimensión Total anual (y también en la estructura de otras dimensiones que se analicen más adelante), podrá observar la etiqueta “Dynamic Calc”. Esto significa que ese elemento no almacena la información en la base de datos. Lo que hace realmente es calcular los datos con base en la consolidación de los elementos inferiores de la dimensión. Es decir, los datos se almacenan en el nivel más bajo de la dimensión el cual corresponde a los días del mes. Posteriormente, la información se consolidada hacia los elementos superiores primero por mes, luego por trimestre y por último a nivel anual. Implementación de la dimensión Centro SCT Uno de los requerimientos de las áreas solicitantes es que el SIE proporcione información clasificada por región del país y a su vez subclasificada por estado o Centro SCT. Esto dará la facilidad de poder consultar la situación financiera de cualquier Estado de la República Mexicana en cualquier momento. Así mismo, se podrá conocer la situación de toda una región o de todo el país en un momento dado. La dimensión quedó implementada de la siguiente manera. En la figura 3.17, se puede observar la implementación de la dimensión Centro SCT. 112 Figura 3.17. Implementación de la dimensión Centro SCT (diseño propio) En esta dimensión podrá observar que cuando se carguen datos a esta base de datos dimensional, la información se almacenará en el nivel más bajo de la dimensión, el cual es el nivel cero que corresponde a los estados o Centros SCT. Posteriormente, la información se consolidará a nivel Región y finalmente a nivel nacional. También se agregó el elemento de dimensión que tiene el alias Extranjero. Esto se hizo con la finalidad de tener preparada la estructura para que en el futuro se tenga contemplado este tipo de información, de ser necesario. Implementación de la dimensión Proyecto De acuerdo al modelo de estrella de la figura 3.12, para la construcción del SIE es necesario consolidar información de las obras y de los contratos por un concepto que dentro del presupuesto de la Secretaría (y en general para todo el gobierno federal) se le conoce como proyecto de presupuesto o proyecto de inversión. 113 Uno de los requerimientos de información fue que los contratos de obra se pudieran consultar por grupo de proyecto o por tipo de contrato. Por lo tanto, se generaron dos niveles de agregación en la estructura de esta dimensión, como se puede apreciar en la figura 3.18. Figura 3.18. Implementación de la dimensión Proyecto en los niveles de grupos de presupuesto y de tipo de contrato (diseño propio) Por otro lado, en la figura 3.19 se puede observar la estructura de la misma dimensión, pero a nivel de obra y de contrato de obra. La imagen muestra un proyecto de presupuesto o de inversión identificado como K0315 que pertenece al grupo de presupuesto G003, en el cual se agrupan todas las obras relacionadas a la construcción de carreteras. El proyecto K0315 corresponde a un proyecto de obra llamado Mitla Entronque Tehuantepec, para el Estado de Oaxaca. Y ese proyecto de presupuesto tiene 4 obras asignadas que pueden corresponder a diferentes tramos de construcción. Cada obra puede tener uno o más contratos. En la figura solo se despliega el contenido de la obra F201820138, que tiene un solo contrato asignado con el número 8TCEA503W. Figura 3.19 Implementación de la dimensión Proyecto en los niveles de obra y de contrato (diseño propio) Implementación de la dimensión Avance La dimensión avance sirve para clasificar la información por avance físico o financiero. De esta forma, el usuario podrá analizar alguno de los dos tipos de información a través de un reporte o de un tablero de control, con solo elegir el tipo de avance que requiera consultar. La figura 3.20 muestra la manera en que se implementó esta dimensión dentro del data mart. 114 Figura 3.20 Implementación de la dimensión Avance (diseño propio) Como podrá observarse en la figura anterior, la dimensión avance tiene una marca llamada “Label Only”. Esto significa que esa dimensión solamente se utilizará para clasificar la información pero físicamente no almacenará datos. Implementación de la dimensión Programa Operativo Esta dimensión fue implementada por una necesidad que planteó el personal de la Dirección General de Conservación de Carreteras (DGCC). Esa Dirección subclasifica su información a un nivel de detalle mayor, ya que la conservación de carreteras implica acciones muy particulares que las otras dos Direcciones no manejan. En la figura 3.21 se puede observar la estructura definida para esta dimensión. Figura 3.21 Implementación de la dimensión Programa Operativo (diseño propio) Implementación de la dimensión Programa de presupuesto Para el ejercicio fiscal 2009, el presupuesto de la SCT no contempla el rubro de programa de presupuesto. Sin embargo, se decidió contemplar esta dimensión en la estructura del data mart, con el fin de prever que en próximos años se llegue a manejar, como sucedió en años pasados. La dimensión programa de presupuesto se implementó como se muestra en la figura 3.22. 115 Figura 3.22 Implementación de la dimensión Programa de Presupuesto (diseño propio) Implementación de la dimensión Centro de trabajo Esta dimensión se utiliza para clasificar la información por Dirección General. A esta dimensión se le dio el nombre de Centro de Trabajo para utilizar el mismo concepto que se usa en los reportes del estado del ejercicio de la Secretaría. De esta forma, el usuario se siente más familiarizado con la información que va a visualizar en el SIE. La estructura de esta dimensión se puede apreciar en la figura 3.23. Figura 3.23 Implementación de la dimensión Unidad Donante (diseño propio) Implementación de la dimensión Financiamiento La dimensión Financiamiento se utiliza para almacenar la información por el origen de los recursos financieros que se utilizan para ejecutar la obra pública. Estos recursos pueden tener dos origenes: Recursos fiscales internos y recursos externos a la Secretaría. Se puede apreciar en la figura 3.24 la manera en la que se implementó esta dimensión. Figura 3.24 Implementación de la dimensión Financiamiento (diseño propio) Implementación de la dimensión Año La dimensión Año se utiliza para poder almacenar información clasificada por ejercicio fiscal. La idea de implementar esta dimensión es darle al usuario la funcionalidad de poder hacer comparativos de la operación del presupuesto entre diferentes años. En la figura 3.25 se puede observar su implementación. 116 Figura 3.25 Implementación de la dimensión Año (diseño propio) Implementación de la dimensión Dato Esta dimensión se construyó con la finalidad de hacer acumulados semanales de la información del presupuesto. La estructura con la que se implementó se muestra en la figura 3.26. Figura 3.26 Implementación de la dimensión Dato (diseño propio) 3.7 Interfaces gráficas para el usuario final En esta sección se describe la herramienta de reportes desarrollada para el usuario tomador de decisiones. Como herramienta de reporteo se utilizó una aplicación web que también forma parte de la plataforma de inteligencia de negocios de Oracle. Esta aplicación se llama Oracle Hyperion Web Analysis Studio y es una herramienta de análisis, presentación y reporteo para bases de datos multidimensionales y relacionales49. Figura 3.27 Página de inicio de SIE de Infraestructura (diseño propio) 49 Oracle Corporation. (2007). Hyperion Web Analysis Studio Release 9.3.1 Users Guide. Redwood, CA. p. 19. 117 La página de inicio y todas las páginas web del Sistema de Información Ejecutivo fueron desarrolladas utilizando Oracle Hyperion Web Analysis Studio. Cada una de las opciones que se muestran en la página de inicio de la figura 3.27, son ligas hacia el grupo de reportes de cada área. En las figuras 3.28, 3.29 y 3.30, se puede apreciar los reportes creados para cada grupo. Figura 3.28 Grupo de reportes para la Dir. Gral. de Carreteras Federales (diseño propio) Los reportes fueron diseñados e implementados de acuerdo a las necesidades de información que las áreas usuarias plantearon. Realmente, todos los reportes tienen acceso a la misma información ya que todos se conectan al mismo data mart de infraestructura. Sin embargo, el reporte que para un usuario puede ser visto en forma tabular, para otra área debe ser visto como una gráfica. Por lo que lo único que cambia de un reporte a otro, es la manera en la que se despliegan los datos y el nivel de detalle que cada usuario requería consultar. 118 Figura 3.29 Grupo de reportes para la Subsecretaría de Infraestructura (diseño propio) Figura 3.30 Grupo de reportes para la Dir. General de Conservación de Carreteras (diseño propio) 119 A continuación se muestran algunos de los reportes que pueden ser consultados por cada área. En la figura 3.31 se muestra uno de los tipos de reportes que pueden ser consultados por la Dirección General de Carreteras Federales. Se trata de un reporte tabular, en el que el usuario puede consultar por estado o por región, la información referente a la meta física, así como consultar algunos de los elementos de la dimensión métricas del data mart de Infraestructura Carretera. Figura 3.31 Reporte con información de muestra de obras por Estado de la Dir. Gral. de Carreteras (diseño propio) En la figura 3.32, se muestra otro reporte de la Dirección General de Carreteras. Este reporte muestra el presupuesto ejercido (información de ejemplo), como un porcentaje respecto al presupuesto asignado a cada Centro SCT en cada Estado del país. En color rojo, se muestran los Estados que han ejercido por debajo del 50 % de su presupuesto trimestral (en la gráfica se muestra el tercer trimestre del año) y en color verde, se muestran los Estados que han ejercido por encima del 50 % en el mismo periodo de tiempo. 120 El mapa que se despliega a la derecha, es solo una imagen (con extensión GIF) y los puntos rojos y verdes se actualizan en forma automática de acuerdo al semáforo del reporte tabular. Cabe mencionar que en este ejemplo solo se tomó un punto de referencia para crear un semáforo de la información. Sin embargo, podrían especificarse muchos más puntos de referencia o rangos. Figura 3.32 Reporte con información de muestra del presupuesto ejercido vs asignación presupuestal (presupuesto modificado) de la Dir. Gral. de Carreteras (diseño propio) En la figura 3.33, puede apreciarse otro tipo de reportes que los usuarios pueden consultar por medio del SIE de Infraestructura. En este reporte el usuario puede visualizar la consulta de tres métricas: Presupuesto ejercido, presupuesto ejercido en trámite y presupuesto disponible, por cada Centro SCT. 121 Figura 3.33 Reporte con información de muestra del presupuesto ejercido, ejercido en trámite y disponible de la Subsecretaría de Infraestructura (diseño propio) Finalmente, en la figura 3.34, se puede observar un reporte de la Dirección General de Conservación de Carreteras en el cual pueden consultar las métricas de comprometido original de contratos y presupuesto ejercido de contratos por programa operativo. Es importante mencionar que los reportes antes mencionados son solo ejemplos del tipo de consultas que los usuarios pueden hacer directamente sobre el data mart de Infraestructura Carretera. No son los únicos tipos de reportes que se pueden generar. Los usuarios pueden elaborar reportes según sus necesidades. Lo importante a destacar es que la fuente de información (SIE de Infraestructura) es única para todas las áreas de la Subsecretaría de Infraestructura y lo único diferente es la manera en la que cada usuario requiere visualizar los datos. 122 Figura 3.34 Reporte con información de muestra del presupuesto de inversión y metas de la Dir. Gral. de Conservación de Carreteras (diseño propio) 3.7.1 Herramientas de análisis Adicionalmente al porta web mediante el cual los usuarios de la Subsecretaría de Infraestructura pueden acceder a los reportes prediseñados del SIE y hacer consultas al data marta de Infraestructura, la plataforma de Oracle Hyperion incluye un programa addin (clase), el cual representa un complemento para Microsoft Excel. Mediante este herramienta, los usuarios pueden hacer consultas directamente a la información del data mart y complementar el potencial que ofrece la base de datos dimensional, con las funciones y herramientas que contiene Excel. De esta forma, los usuarios pueden elaborar plantillas o reportes predefinidos en esa aplicación de Microsoft y únicamente actualizar los datos cada vez que requieran generar la misma consulta. 123 En la figura 3.35, puede observarse un ejemplo de esta herramienta de análisis. Por default, cuando se establece la conexión hacia el data mart desde Excel, se despliegan los nombres de las dimensiones al nivel más alto (generación 1) de cada una de ellas. Para crear una consulta, el usuario debe llegar al nivel de profundidad de cada dimensión, según sus necesidades de consulta. Para ello, el usuario debe hacer drill down o roll up a cada dimensión y así lograr el nivel de profundidad deseado. También puede “pivotear” las dimensiones entre renglones y columnas a fin de establecer el formato de una consulta. Figura 3.35 Addin de Excel para realizar consultas al data mart de Infraestructura (diseño propio) En el ejemplo de la figura 3.36, puede apreciarse la manera en la que se puede utilizar la herramienta de análisis de datos de Excel, para generar consultas al data mart de Infraestructura Carretera. En la figura 3.36, se hizo drill down a la dimensión Centro SCT para desplegar la información de la región Centro Occidente del país. También se hizo drill down a la dimensión Proyecto para analizar la información del proyecto de presupuesto K1506 por cada Estado de esa región. Puede observarse también que se están consultando dos métricas: Presupuesto Modificado y Presupuesto Ejercido. Las dimensiones Programa Operativo, Centro de Trabajo, Total Anual, Dato, Año, Financiamiento y Programa, se están consultando a nivel de de dimensión. Es decir, no se están filtrando datos por ninguna de estas dimensiones. 124 En la figura 3.37 se esquematiza por medio de un cubo, la manera en la que se realiza el cruce de información mostrado en la figura 3.36. El cruce se realiza entre las dimensiones tiempo, proyecto de presupuesto y región, para obtener un dato de la métrica presupuesto modificado (mostrado en negritas en la figura 3.37). Figura 3.36 Consulta con el addin de Excel al data mart de Infraestructura con información de muestra (diseño propio) En la figura 3.38, puede observarse otra de las herramientas de análisis que Oracle Hyperion proporciona para el análisis de información. Se trata de otro addin pero para Microsoft Power Point, conocida como Smart View. Con esta herramienta de análisis, los usuarios pueden elaborar plantillas o insertar reportes o consultas elaboradas con Web Analisys Studio, directamente en una diapositiva de Power Point. Esta funcionalidad permite que cuando un usuario requiere tener al día una presentación, simplemente debe abrir el archivo de Power Point, conectarse al data mart de Infraestructura Carretera y actualiza los datos. 125 Febrero Ti em po Mazo Proyecto Enero K1506 289.10 13500 2520 K1507 100.50 2800 1500 K1508 350 589.30 970 Zacatecas SLP Nayarit Región Figura 3.37 Cruce entre las dimensiones tiempo, proyecto de presupuesto y región, para obtener un dato de la métrica presupuesto modificado (diseño propio). Figura 3.38 Addin de Power Point para elaborar plantillas de consulta al data mart de Infraestructura (diseño propio) 126 3.8 Seguridad de la información Como en todo sistema de información computarizado, la seguridad de la información es un aspecto muy importante. En el caso del SIE de Infraestructura, existen dos esquemas de seguridad que deben ser protegidos. 1) Acceso a la base de datos multidimensional. 2) Acceso a los reportes prediseñados que conforman al SIE. El primero se refiere al control de acceso a la base de datos o data mart de Infraestructura. La información puede ser consultada desde la aplicación del Sistema de Información Ejecutivo o desde las herramientas de análisis (addin de Excel y de Poder Point). Por lo que en este rubro se deben controlar los accesos de lectura, escritura, administración del data mart o ejecución de cálculos. El segundo control se refiere a la definición de privilegios para que los usuarios puedan acceder a un determinado conjunto de reportes, de acuerdo a sus necesidades de información. Como se explicó en el punto 3.7 Interfaces gráficas para el usuario final, se generaron grupos de reportes por cada área usuaria del sistema. En este sentido, es necesario definir privilegios de acceso por grupo de reportes. Con respecto al primer punto, la visualización de la información almacenada en el data mart está controlada por un sistema de control de accesos por grupos de usuario, lo cual impide que personas no autorizadas realicen modificaciones o simplemente tengan acceso a la información. El control de accesos por grupos de usuarios se controla desde la consola de administración del motor OLAP. A esta consola de administración se le conoce como Analytic Administration Services (ver figura 3.39). 127 Figura 3.39 Consola de administración de usuarios (diseño propio) En la consola de administración se definen grupos de trabajo y a cada grupo se le asignan los privilegios de lectura o escritura hacia el data mart. Es importante mencionar que cada grupo de usuarios puede tener acceso a más de un data mart con diferente tipo de privilegios de lectura, escritura, administración o cálculo. En la figura 3.40 se presenta la ventana de administración para el grupo de usuarios de la Dirección General de Conservación de Carreteras (DGCC). Se puede observar que los usuarios que tengan acceso al data mart de Infraestructura (nombrado Infra09), tendrán acceso de solo lectura a la información (Read). 128 Figura 3.40 Definición de privilegios de acceso por grupo de usuarios (diseño propio) Por otro lado, el control de acceso a los grupos de reportes por cada área usuaria del sistema, se realiza por medio de otra herramienta de la misma plataforma de inteligencia de negocios de Oracle Hyperion, llamada Workspace (ver figura 3.41). En el Workspace se establecen los privilegios de acceso a los grupos de reportes que cada usuario puede visualizar. Eso se define de acuerdo al área a la que pertenece el usuario o sus necesidades de consulta de información. 129 Figura 3.41 Control de acceso a grupo de reportes por medio de Workspace (diseño propio) En la figura 3.42, puede observarse la definición de acceso que se le dio al grupo de usuarios de la Dirección General de Conservación de Carreteras (DGCC). Puede visualizarse que a este grupo solamente se le dio privilegios de consulta (vista) de cuatro posibles opciones (sin acceso, vista, modificación o control total). Esta es la forma en la que se controla el acceso a la información del Sistema de Información Ejecutivo de Infraestructura. Los privilegios de acceso se asignan a nivel de base de datos y a nivel de aplicación. 130 Figura 3.42 Definición de privilegios de acceso al grupo de reportes de la DGCC (diseño propio) 131 Capitulo 4 Impacto de la propuesta de solución. El propósito de este trabajo fue diseñar una solución de software basada en tecnología de inteligencia de negocios (business intelligence) y su implementación en la Secretaría de Comunicaciones y Transportes, particularmente enfocada a la administración del presupuesto de gasto de inversión que se destina a la construcción y conservación de carreteras federales. Este tipo de presupuesto es ejercido por las unidades administrativas representativas de la Secretaría en los Estados, conocidas como Centros SCT y que tienen entre otras de sus funciones la construcción, modernización y conservación de infraestructura carretera, aeroportuaria, portuaria y de comunicaciones del país. Este trabajo se llevo a cabo analizando las necesidades de información del personal de mando de la Dirección General de Carreteras, de la Dirección General de Conservación de Carreteras y de la Dirección General de Servicios Técnicos. Estas Direcciones Generales están a cargo de la Subsecretaría de Infraestructura de la SCT. La medición del impacto que tuvo la implementación del Sistema de Información Ejecutivo de Infraestructura, es el tema tratado en este capítulo. Se describe también las pruebas de funcionamiento utilizadas antes de implementar el sistema en el ambiente de producción. 4.1 Desempeño de la aplicación desarrollada Esta sección explica aspectos sobre el desempeño de la aplicación desarrollada como espacio en disco y requerimientos de memoria. Para ello necesitamos entender primero las unidades de almacenamiento que Essbase utiliza para determinar el tamaño de la base de datos desarrollada. Esto lo analizaremos a continuación en el punto 4.1.1. 4.1.1 Elementos básicos de la arquitectura (dimensiones dispersas y densas) La mayoría de las aplicaciones multidimensionales tienen dos características: Los datos están uniformemente distribuidos. Los datos no existen en la mayoría de las combinaciones de miembros de dimensión. Por ejemplo, los productos de una compañía no se venden en todas las ciudades de un país. 132 Essbase maximiza el funcionamiento en estos casos dividendo las dimensiones estándar en dos tipos: dimensiones densas y dimensiones dispersas. Esto le permite a Essbase resolver el problema de los datos que no están uniformemente distribuidos. Essbase acelera la recuperación de datos al mismo tiempo que minimiza la memoria utilizada y los requerimientos de espacio en disco. La mayoría de las bases de datos multidimensionales son dispersas: lo que significa que carecen de valores de datos para la mayoría de las combinaciones de los miembros de dimensión. Por ejemplo, en una base de datos de Ventas que cuente con las dimensiones Producto y Mercado, en donde Producto represente los tipos de productos que vende una empresa y Mercado represente la región geográfica en los cuales los productos son vendidos. La combinación de estas dos dimensiones generaría celdas sin valores o valores nulos, debido a que no todos los productos se venden en todos los mercados. Por lo tanto, las dimensiones Mercado y Producto son dimensiones dispersas. La mayoría de las bases de datos multidimensionales también contienen dimensiones densas. Una dimensión densa es una dimensión con una alta probabilidad de que una o más celdas sean ocupadas con valores en cada combinación de dimensiones. Siguiendo nuestro ejemplo de la base de datos de Ventas, supongamos que también tiene la dimensión Año. Esta dimensión puede representar el tiempo en meses. Debido a que la venta de un producto siempre tendrá relacionado el mes en el que se efectuó, entonces también es muy probable que siempre exista al menos un valor al combinar la dimensión Año con las dimensiones Producto y Mercado. Por lo tanto, la dimensión Año sería una dimensión densa. Essbase utiliza dos tipos de estructuras internas para almacenar los datos: bloques de datos y el sistema de indexación.50 Essbase crea un bloque de datos para cada combinación única de dimensiones dispersas (siempre que exista al menos un valor para la combinación generada). El bloque de datos representa a todas las dimensiones densas por su combinación con las dispersas. 50 Hyperion Solutions Corporation. (1991-2000). Analytic Services Database Administrator's Guide. Sunnyvale, CA. 133 Entonces se crea una entrada de índice para cada bloque de datos. El índice representa las combinaciones de las dimensiones dispersas. Contiene una entrada para cada combinación única de dimensiones dispersas para las cuales existe al menos un valor de datos. En la figura 4.1, las dimensiones Producto y Mercado son dimensiones dispersas. Si existe un dato para Producto 1 en Mercado 1, entonces se creará un bloque de datos y una entrada de índice para la combinación de los miembros dispersos Producto 1 -> Mercado 1. Pero si Producto 1 no es vendido en Mercado 2, entonces no se creará un bloque de datos ni una entrada de índice para la combinación de dimensiones dispersas Producto 1 -> Mercado 2. Figura 4.1 Ejemplo de dimensiones dispersas (diseño propio). Puede considerarse que cada valor único de datos existe en una celda dentro de un bloque de datos. Cuando Essbase busca un valor, usa el índice para localizar el bloque de datos apropiado como se muestra en la figura 4.2. Después, ya estando dentro del bloque, localiza la celda que contiene el valor buscado. La entrada de índice provee un apuntador hacia el bloque de datos. El índice recupera datos dispersos de manera eficiente porque solo incluye apuntadores a bloques de datos existentes. Índice 2 5 Bloques de datos Figura 4.2 Representación de bloques de datos y del índice que almacena los apuntadores a cada bloque (diseño propio) Cada bloque representado en la figura 4.2 puede contener uno o más valores, según la combinación de las dimensiones densas que contenga el bloque. Supongamos que adicionalmente a la dimensión densa Año, la base de datos también tenga las dimensiones densas Métricas y Escenario. Como ya se 134 mencionó anteriormente, un bloque de datos se genera para cada combinación única de miembros de las dimensiones dispersas Producto y Mercado (siempre que exista al menos un valor para la combinación generada). Cada uno de esos bloques va a contener las celdas generadas por la combinación de las dimensiones densas Año, Métricas y Escenario, como se puede observar en la figura 4.3. Es importante mencionar que las celdas generadas pueden o no contener valores. Sin embargo, definiendo una configuración de dimensiones dispersas y densas apropiada, es menos probable que se generen celdas con valores nulos, lo cual representa una optimización de la base de datos en cuanto a espacio de almacenamiento y uso de memoria. Figura 4.3 Representación de un bloque de datos (diseño propio) Cada bloque de datos es un arreglo multidimensional que contiene una localización fija para cada posible combinación de dimensiones densas. Essbase ordena las celdas en un bloque de datos, de acuerdo al orden de los miembros de las dimensiones densas en la base de datos. Supongamos que la base de datos se definió de acuerdo al orden en el listado de dimensiones densas y dispersas de la figura 4.4. 135 Figura 4.4 Base de datos con dimensiones dispersas y densas (Analytic Services Database Administrator’s Guide) La figura 4.5 es una representación del árbol de dimensiones de la figura 4.4. El bloque de datos que se muestra es el que se obtiene mediante la combinación de los miembros de dimensión dispersos d22 y e3 (d22 -> e3). Dentro del bloque de datos, se señala con una flecha la celda que contiene el valor referenciado por la combinación de dimensiones densas A, b21 y c3 (A -> b21 -> c3). Figura 4.5 Bloque de datos que representa la combinación de dimensiones densas para d22 -> e3 (Analytic Services Database Administrator’s Guide) Se crea un bloque de datos para cada combinación única de los miembros de las dimensiones dispersas D y E (siempre que exista al menos un valor para la combinación). Los bloques de datos, como el mostrado en la figura 4.5, pueden incluir celdas que no contengan valores. Un bloque de datos es creado si al menos existe un valor en el bloque. Essbase comprime los bloques de datos con valores nulos (missing values) en disco, expandiéndolos totalmente conforme se van trayendo hacia la memoria. La compresión de datos es opcional, pero se habilita por default cuando se construye una base de datos multidimensional. 136 Seleccionando cuidadosamente las dimensiones dispersas y densas, podemos asegurarnos de que los bloques no contengan demasiadas celdas vacías. Con esto se puede minimizar el espacio en disco y maximizar la ejecución de la aplicación. En la tabla 4.1, se muestra la configuración de dimensiones densas y dispersas definida para la base de datos que se desarrollo en este trabajo. Podrá observarse también que se agregó la columna “Atributo de almacenamiento”, la cual contiene los siguientes valores, según la dimensión de que se trate: Almacenar dato. La dimensión almacena sus valores físicamente en la base de datos, utilizando espacio en disco. Cálculo dinámico. No utiliza espacio en disco duro puesto que sus miembros obtienen sus valores en tiempo de ejecución. El valor no se calcula hasta que un usuario lo solicita y después el valor es desechado.51 Sólo etiqueta. No utiliza espacio en disco duro puesto que sus miembros se utilizan como una forma de clasificar los valores almacenados. Número de dimension 1 2 3 4 5 6 7 8 9 10 11 Nombre de la dimensión Centro de trabajo Tiempo Avance Dato Año Financiamiento Métricas Programa operativo Programa de presupuesto Centro SCT Proyecto Configuración Dispersa Densa Dispersa Dispersa Dispersa Dispersa Densa Dispersa Dispersa Dispersa Dispersa Atributo de almacenamiento Almacenar dato Almacenar dato Solo etiqueta Solo etiqueta Almacenar dato Almacenar dato Solo etiqueta Almacenar dato Almacenar dato Almacenar dato Almacenar dato Tabla 4.1 Configuración de las dimensiones de la base de datos desarrollada (diseño propio) 4.1.2 Estimación de espacio en disco. Antes de estimar el espacio requerido en disco para la base de datos construida, debemos conocer cuantas dimensiones incluye la base de datos, qué tan densas 51 Hyperion Solutions Corporation. (1991-2000). Analytic Services Database Administrator's Guide. Sunnyvale, CA. 137 o dispersas son las dimensiones, el número de miembros en cada dimensión y cuántos de los miembros son “miembros almacenados” en disco (ver tabla 4.1). Para determinar el tamaño estimado de la base de datos, es necesario primero calcular algunos factores como: el número potencial de bloques de datos, el número de bloques existentes y el tamaño del bloque de datos expandido. A continuación se mencionan también las características del servidor de la base de datos en la cual se está ejecutando la aplicación. Características del servidor de base de datos. Las características del servidor en el que se está ejecutando la base de datos, son las siguientes: Procesador: 2 procesadores Core 2 Duo 2.80 GHz. Memoria: 8 Gb. Almacenamiento en disco duro: 68 Gb. Sistema operativo: Windows 2003 Cálculo del número potencial de bloques de datos. El número potencial de bloques de datos es el número máximo de posibles bloques que se generarán en la base de datos. Para determinar este valor, se asumirá que existen valores de datos para todas las combinaciones de los miembros de dimensión almacenados. 1. Usando el listado de la tabla 4.1, identificaremos las dimensiones dispersas y el número de miembros de dimensión cuyo atributo de almacenamiento sea “Almacenar dato”. En la tabla 4.2, se muestra el resultado de este análisis. Nombre de la dimensión Centro de trabajo Avance Dato Año Financiamiento Programa operativo Programa de presupuesto Centro SCT Proyecto Número de miembros almacenados 5 2 2 3 5 34 3 44 1795 Tabla 4.2 Dimensiones dispersas cuyo atributo de almacenamiento es “Almacenar dato” (diseño propio) 138 2. Multiplicar el número de miembros almacenados obtenidos en el punto anterior. Número potencial 2,416,788,000 de bloques de datos = 5*2*2*3*5*34*3*44*1,795 = Número de bloques existentes. En comparación con el número de bloques potenciales que se pueden crear, el termino bloques existentes se refiere a aquellos bloques de datos que Essbase realmente crea. Recordemos que para que se genere un bloque, debe existir al menos un valor para una combinación de miembros almacenados de dimensiones dispersas. Debido a que muchas combinaciones pueden resultar en valores nulos, el número de bloques existentes es generalmente mucho menor que el número potencial de bloques de datos. Para estimar el número de bloques de datos existentes, se realiza lo siguiente: 1. Estimar un factor de densidad de la base de datos que represente el porcentaje de combinaciones de dimensiones dispersas con miembros almacenados, que tengan valor. Este factor de densidad lo obtendremos de un parámetro que Essbase proporciona, una vez que se ingresa la estructura de la base de datos y se realiza la configuración de dimensiones densas y dispersas. En este caso, el factor de densidad calculado fue de 1% (porcentaje máximo de bloques existentes). 2. Multiplicar este porcentaje contra el número potencial de bloques de datos. Número de bloques existentes = .01 (densidad estimada) * 2,416,788,000 (número potencial de bloques de datos) = 24,167,880 Tamaño de bloque de datos expandido. El tamaño potencial de los bloques de datos se basa en el número de celdas en el bloque y el número de bytes usados por cada celda. El número de celdas en un bloque se basa en el número de miembros almacenados en las dimensiones densas. Se usan 8 bytes para almacenar cada intersección de datos en un bloque. Para determinar el tamaño de un bloque expandido, se ejecutan las siguientes tareas. 1. Usando el listado de la tabla 4.1, identificaremos las dimensiones densas y el número de miembros de dimensión cuyo atributo de almacenamiento sea “Almacenar dato”. En la tabla 4.3, se muestra el resultado de este análisis. 139 Nombre de la dimensión Tiempo Número de miembros almacenados 379 Tabla 4.3 Dimensiones densas cuyo atributo de almacenamiento es “Almacenar dato” (diseño propio) 2. Multiplicar el número de miembros almacenados obtenidos en el punto anterior. Número total de celdas = 379*8 = 3,032. 3. Multiplicar el resultado anterior por 8 bytes para determinar el tamaño de bloque expandido. Tamaño de bloque expandido = 3,032 * 8 = 24,256 bytes Estimación de espacio en disco. Para estimar el espacio en disco que ocupará la implementación de la base de datos, es necesario calcular el espacio de almacenamiento en disco requerido para los archivos de datos, el tamaño de los archivos de índice y el tamaño de la estructura de la base de datos definida (outline). Tamaño de los archivos de datos. Para calcular el espacio requerido para almacenar archivos de datos, se utilizan los siguientes factores: Número de bloques existentes. 72 bytes por cada bloque generado. Tamaño en bytes del bloque de datos expandido. Con base en estos factores, se aplica la siguiente fórmula: Espacio requerido para los archivos de datos = Número de bloques existentes * (72 bytes por bloque + tamaño en bytes de bloque de datos expandido). Para la base de datos implementada, el cálculo es el siguiente: Espacio requerido para los archivos de datos = 24,167,880 * (72 + 24,256) = 587,956,184,640 bytes = 547 Gb 140 Archivo de índice. El cálculo para el espacio requerido del archivo de índice, utiliza los siguientes factores: Número de bloques existentes. 112 bytes. Tamaño de una entrada en el índice. Para calcular el tamaño del índice de la base de datos, incluyendo todos los archivos de índice, se utiliza la siguiente fórmula: Tamaño de índice de la base de datos = número de bloques existentes * 112 bytes Para la base de datos implementada, el cálculo es el siguiente: Tamaño de índice de la base de datos = 24,167,880 * 112 = 2,706,802,560 bytes = 2.5 Gb Tamaño de la estructura de la base de datos definida (outline). El outline es el área donde se almacena la estructura de la base de datos y es un componente que requiere de almacenamiento en disco y en memoria (el espacio requerido de memoria se calcula más adelante). Se calcular con base en los siguientes factores: El número de miembros en el outline. El tamaño, en caracteres, de los nombres de los miembros y alias. Para estimar el tamaño del archivo del outline, se realiza el siguiente cálculo: Multiplicar el número de miembros almacenados en todas las dimensiones por un factor que indique el tamaño de los nombres de miembro y de sus alias. Este factor puede estar entre 350 y 450 bytes. Para la base de datos implementada se usara un factor de 450 bytes, ya que se utilizaron alias básicamente en los miembros de la dimensión Proyecto para describir los proyectos de obra a ejecutar. Estas descripciones suelen ser grandes. Tamaño de almacenamiento del outline = número de miembros almacenados en todas las dimensiones * factor del tamaño de nombres de miembros y de sus alias. Para la base de datos implementada, el cálculo es el siguiente: Tamaño de almacenamiento del outline = 2,281 * 450 = 1,026,450 bytes = 1 Mb 141 4.1.3 Estimación de espacio en memoria. Para calcular el espacio requerido de memoria para ejecutar la aplicación, se utilizaran otros cálculos realizados en la sección anterior. Tamaño del outline usado en memoria. Para calcular el espacio en memoria utilizado por el outline, se utilizan los siguientes factores: El número de miembros en el outline. El tamaño, en caracteres, de los nombres de los miembros y alias. Para estimar el espacio en memoria requerido por el outline, se realiza el siguiente cálculo: Multiplicar el número de miembros almacenados en todas las dimensiones por un factor que indique el tamaño de los nombres de miembro y de sus alias. Este factor puede estar entre 300 y 400 bytes. Para la base de datos implementada se usara un factor de 400 bytes, ya que se utilizaron alias básicamente en los miembros de la dimensión Proyecto para describir los proyectos de obra a ejecutar. Estas descripciones suelen ser grandes. Tamaño de memoria para el outline = número de miembros almacenados en todas las dimensiones * factor del tamaño de nombres de miembros y de sus alias. Para la base de datos implementada, el cálculo es el siguiente: Tamaño de memoria para el outline = 2,281 * 400 = 912,400 bytes = 891 Kb Número de celdas en un bloque lógico. El término bloque lógico se refiere a un bloque de datos expandido en memoria. Para determinar el número de celdas en un bloque lógico, se multiplica el número de miembros de cada dimensión densa (incluyendo los cálculos dinámicos pero se excluyen las que son “Solo etiqueta”). Revisando la tabla 4.1, se tienen solo dos dimensiones densas, tiempo y métricas. Tiempo es una dimensión densa cuyo atributo de almacenamiento es “Almacenar dato” y tiene 379 miembros (ver tabla 4.3). Sin embargo, métricas es de tipo “Solo etiqueta”. Por lo que el cálculo del número de celdas en un bloque lógico para la base de datos implementada, es el siguiente: Número de celdas en un bloque lógico = 379. 142 Área de memoria para estructuras de datos. Para cada aplicación en tiempo de ejecución, se asigna un espacio de memoria basada en los siguientes factores: Número de miembros en el outline. Número de celdas en un bloque lógico. Número de hilos (threads) en el servidor. Se usa la siguiente fórmula para calcular el tamaño en bytes del área de memoria requerida para procesar la estructura de datos de que consta la base de datos implementada: Número de hilos * ((número de miembros en el outline * 26 bytes) + (número de celdas en un bloque de datos * 36 bytes)) Para la base de datos implementada se utiliza por default 1,024 hilos (para plataformas de 64 bits). 1,024 * ((2,281 * 26 bytes) + (379 celdas * 36 bytes)) = 74,700,800 bytes = 71.24 Mb 4.2 Pruebas de funcionamiento Una vez diseñado e implementado el data mart, fue necesario realizar una serie de pruebas de carga de información hacia el mismo. Como se explicó en el punto 3.5.4 Descripción de los procesos desarrollados, la información se extrae de las fuentes de datos hacia archivos planos y posteriormente se carga al data mart mediante programas llamados “reglas de carga” que sirven para estructurar los datos antes de poder ser importados (ver figura 4.6). Cada dato a importar a la base de datos, deberá tener un cruce de información con cada una de las dimensiones que la conforman. Es decir, una vez importada la información, cada dato almacenado puede ser recuperado solamente si se hace un cruce de información con todas las dimensiones que conforman la estructura de la base de datos. Las reglas de carga sirven para estructurar la información y ajustarla a la base de datos multidimensional. 143 Figura 4.6 Ejemplo de regla de carga de información hacia la base de datos (definición de regla de carga en Essbase) Al inicio de la implementación puede resultar complicado pensar en dimensiones de base de datos, porque generalmente estamos acostumbrados a manejar bases de datos relacionales. Sin embargo, el manejo de una base de datos multidimensional es un concepto muy diferente al diseño de una relacional que solo con la práctica puede lograrse. Para importar información y determinar si el diseño planteado en el punto “Diseño conceptual del SIE” analizado en el capítulo anterior, cumple con las necesidades de información planteadas al inicio del proyecto, fue necesario construir catorce reglas de carga para lograr importar la información de los archivos planos y transformarlos a la estructura que requiere la base de datos multidimensional del data mart. Se generaron reglas de carga para importar información de los siguientes rubros: Avances físicos y financieros, comprometidos y ejercidos. Modificaciones al presupuesto de los proyectos de obra. Presupuesto original, modificado y disponible de proyectos de gasto de inversión (capítulo de gasto 6000). 144 Catalogo de obras, de proyectos presupuestales, de programas operativos y de tipos de contratos. Una vez construidas las reglas de carga, se ejecuta la importación de datos mediante la ejecución de un scrip que contiene instrucciones de un lenguaje de programación nativo de Oracle Hyperion Essbase llamado ESSCMD (essbase command). El scrip utilizado se muestra en la figura 4.7. Figura 4.7 Scrip de importación y ejecución de cálculo de la base de datos multidimensional del data mart (diseño propio) Finalmente, por medio de un archivo log que la misma base de datos genera, se puede detectar si hubo algún problema durante la importación de los datos o si ésta se concluyo sin ningún error. En la figura 4.8, se muestra un ejemplo del archivo log generado para una importación sin errores. El último paso en las pruebas de funcionamiento del data mart, fue desarrollar un conjunto de reportes mediante los cuales los usuarios pudieran verificar la calidad de la información. Parte de esos reportes desarrollados son los que se ejemplifican en el punto 3.7 Interfaces gráficas para el usuario final, analizado en el capítulo anterior. Después de haber hecho las pruebas de rendimiento de la base de datos y una vez que los usuarios verificaron la calidad de la información mediante el conjunto de reportes que conforman el Sistema de Información Ejecutivo de Infraestructura, 145 se procedió a automatizar los procesos de extracción, transformación y carga de datos y el SIE fue liberado a producción para su uso cotidiano. Figura 4.8 Archivo log generado por la base de datos, durante la importación de información al data mart de Infraestructura Carretera (Oracle Hyperion Essbase) Cabe mencionar que además de tener acceso al Sistema de Información Ejecutivo, los usuarios utilizan las herramientas de análisis explicadas en el punto 3.7.1 Herramientas de análisis, tratado al final del capítulo 3. 4.3 Medición de la calidad del software elaborado Después de haber hecho las pruebas de funcionamiento del Sistema de Información Ejecutivo de Infraestructura y una vez que fue implementado, era necesario determinar su impacto en un ambiente de producción. Para ello, se aplicó un cuestionario de evaluación para medir diferentes aspectos sobre la calidad del software desarrollado y la satisfacción de los usuarios en su operación. Se diseño un formato de respuesta (cuestionario) de tipo Likert (ver anexo 1). Cuando se responde a un elemento de un cuestionario elaborado con la técnica 146 de LIkert, se hace especificando el nivel de acuerdo o desacuerdo con la pregunta o reactivo que se esté aplicando. Para la presentación de los resultados obtenidos, utilicé uno de los cuatro usos que se le pueden dar a un cuestionario que tiene por objetivo evaluar la satisfacción de los clientes. Se llama resumen de los datos con estadísticas descriptivas. 52 Un cuestionario confiable tendría muy poco valor práctico si la información obtenida no fuera comprensible. El cuestionario aplicado presenta doce reactivos, pero se diseño para medir seis aspectos de la calidad del software. Los aspectos de la calidad del software que se desea medir y su relación con las preguntas del cuestionario, se mencionan a continuación: 1. Servicio (preguntas 1 y 2) 2. Confiabilidad (preguntas 3 y 4) 3. Valor práctico (preguntas 5 y 6) 4. Facilidad de revisión (preguntas 7 y 8) 5. Flexibilidad (preguntas 9 y 10) 6. Satisfacción global (preguntas 11 y 12) El cuestionario fue aplicado a treinta usuarios del Sistema de Información Ejecutivo de Infraestructura. Esta cantidad de usuarios corresponde al total de usuarios que utilizan el software en Oficinas Centrales de la SCT. Los datos resultantes de la aplicación de este cuestionario se muestran en la figura 4.9. Se puede observar que se han calculado también el promedio aritmético y la desviación estándar de cada pregunta. La media indica la tendencia predominante de los datos, en tanto que la desviación estándar describe la dispersión de los datos. La ecuación que se utilizó para obtener la media, es la siguiente: 52 Hayes, B. E. (2006). Cómo medir la satisfacción del cliente. México: Alfaomega. P. 112. 147 La fórmula que se utilizó para el cálculo de la desviación estándar es: Cliente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Media Desviación estandar Elementos de satisfacción 5 6 7 4 3 4 5 4 2 5 4 3 5 4 2 2 2 3 4 5 5 5 4 4 4 4 4 4 4 4 4 4 2 4 5 3 4 5 4 4 5 3 3 3 4 3 4 4 5 5 4 5 5 5 4 4 5 4 3 5 4 4 3 4 5 4 4 5 5 5 5 4 4 5 4 4 5 4 3 4 3 4 5 4 4 4 4 4 4 4 5 5 4 1 4 5 3 4 2 5 4 5 4 4 4 3 5 3 4 5 4 2 4 4 3 4 4 5 4 4 4 4 5 4 2 4 4 3 4 2 5 4 5 4 5 5 3 5 3 4 4 5 3 4 4 3 4 4 5 5 5 4 4 4 4 3 4 4 3 3 2 4 5 4 4 4 4 4 4 3 3 5 4 3 5 4 4 3 4 5 4 5 5 4 4 4 4 5 4 3 3 2 5 5 4 3 5 4 4 4 3 4 4 5 4 4 4 4 3 4 4 4 5 5 4 5 4 3.97 4.07 3.93 4.03 4.10 4.27 0.80 0.77 0.73 0.75 0.70 0.77 8 4 4 4 4 3 5 5 4 4 4 4 5 5 4 4 4 5 4 4 4 5 3 4 5 4 5 4 4 5 4 9 4 4 2 4 3 5 5 4 4 4 4 3 5 5 4 5 5 4 3 4 5 4 3 5 4 5 5 4 5 5 10 4 4 2 4 2 5 5 4 4 5 4 3 5 4 4 4 5 5 5 4 2 4 5 5 4 5 4 4 5 5 11 4 4 3 5 3 5 4 4 4 4 5 4 4 4 4 4 5 5 4 4 4 5 5 5 5 5 5 4 5 5 12 4 4 4 5 3 5 4 4 4 4 5 5 4 4 4 5 5 5 5 5 4 5 5 5 5 5 5 4 5 5 3.77 4.23 4.20 4.17 4.37 4.53 0.84 0.56 0.79 0.90 0.60 0.56 Figura 4.9 Datos resultantes de la aplicación del cuestionario para evaluar la calidad del software desarrollado (diseño propio) 4.4 Análisis de los resultados obtenidos Se podría decir que los datos que se visualizan en la tabla de la figura 4.2, son datos en bruto que realmente no ayudan a determinar de forma precisa la calidad 148 del software desarrollado. Son un conjunto de datos que dan una idea sobre el aspecto general del desempeño de la aplicación. Sin embargo, es necesario resumir los datos aun más para determinar de manera más clara la calidad del Sistema de Información Ejecutivo de Infraestructura. Una forma de resumir los datos consiste en emplear índices de resumen que describan los aspectos importantes de los datos. Los índices de resumen que describen una muestra de datos se llaman estadísticos. 53 Los estadísticos que resumen los elementos de un conjunto de datos reflejan la tendencia principal de éstos y la dispersión de los datos. A continuación se muestran las puntuaciones resumen de cada uno de los aspectos a medir para determinar la calidad del software desarrollado en los seis rubros indicados en el punto 4.2. Tales puntuaciones representan el promedio de las respuestas a cada pregunta dentro de cada aspecto específico. Por cada aspecto a medir, se muestra una gráfica con la cual se trata de dar una interpretación de la puntuación resumen y una breve descripción del resultado obtenido. 1. Servicio Servicio Media Desviación estandar 4.02 0.79 Lo que se puede apreciar de la gráfica es que los usuarios en promedio consideran que el software les proporciona un buen servicio, ya que les 53 Ibid., p. 114 149 ayuda en su trabajo porque cumple con las especificaciones necesarias para realizarlo. 2. Confiabilidad Confiabilidad Media 3.98 Desviación estandar 0.74 Se puede observar que los usuarios en su mayoría, pueden confiar en la operación y en la información que el software les proporciona, ya que les da la facilidad de ejecutar las funciones del sistema con precisión y exactitud. 3. Valor práctico Valor práctico Media 4.18 Desviación estandar 0.74 Prácticamente la mayoría de los encuestados opinaron que el software es fácil de operar y que sus funciones son fáciles de comprender. 150 4. Facilidad de revisión Media Desviación estandar Facilidad de revisión 4.00 0.75 En promedio, la mayoría de los usuarios opinaron que fue rápido y sencillo verificar la funcionalidad del software. Esto hace pensar que es fácil de usar y de aprender. Sin embargo, será necesario investigar los aspectos que no hacen al software lo suficientemente amigable en su operación. 5. Flexibilidad Flexibilidad Media 4.18 Desviación estandar 0.85 Los resultados para medir la flexibilidad en la operación del software desarrollado, hacen pensar que será sencillo para los usuarios utilizar la el sistema para generar consultas y reportes de sus áreas. Es importante 151 mencionar que, como se explicó en el capítulo anterior, se diseñó un set de reportes por cada área, de acuerdo a sus necesidades de información planteadas al inicio del proyecto. Sin embargo, la herramienta de reporteo que se les proporcionó (Oracle Hyperion Web Analysis), permite a los usuarios generar nuevas consultas o reportes. Lo más importante es que existe una única fuente de información para todas las áreas de la Subsecretaría de Infraestructura Carretera. 6. Satisfacción global Satisfacción global Media 4.45 Desviación estandar 0.59 En promedio, la mayoría de los usuarios opinaron que están muy satisfechos con el software desarrollado, ya que satisface sus expectativas. Considero que este resultado responde prácticamente al objetivo de este capítulo. El impacto que tuvo la implementación de un sistema de información basado en tecnología de inteligencia de negocios, está ayudando en gran medida a satisfacer una necesidad de obtener información de manera rápida y precisa, además de ser una única fuente de información para el capítulo de gasto 6000 (gasto de inversión), para toda la dependencia. 152 Conclusiones Con base en lo expuesto, se concluye que la tecnología de inteligencia de negocios, puede ser aplicable a empresas públicas o privadas. Por lo general, en libros y revistas se habla sobre el éxito que la inteligencia de negocios (o business intelligence por sus siglas en ingles), ha tenido en empresas privadas. Sobre todo en áreas como finanzas, mercadotecnia, compras o ventas. Por ejemplo, en el área de mercadotecnia se dice que esta tecnología puede ayudar a los mercadólogos a encontrar nuevos nichos de mercado. O que en las áreas de ventas, la inteligencia de negocios permite identificar necesidades de los clientes. Sin embargo, no hace poco tiempo que las empresas públicas o de gobierno, comenzaron a almacenar su información en bases de datos por medio de sistemas computarizados. Por lo que no cabe ninguna duda de que la tecnología de inteligencia de negocios disponible actualmente, facilita en gran medida la consolidación y el análisis del gran volumen de datos que llegan a manejar las empresas públicas, como por ejemplo la Secretaría de Comunicaciones y Transportes. Logros alcanzados Se cumplió el objetivo principal de este trabajo, el cual era diseñar y construir una herramienta de software, que ayudara al personal de la Secretaría de Comunicaciones y Transportes a analizar y a conocer en forma precisa y en cualquier momento, la información física y financiera de las obras de construcción y de mantenimiento de carreteras federales, que se llevan a cabo en toda la República Mexicana. Durante el desarrollo del trabajo, se identificaron las principales fuentes de datos que las áreas de la Subsecretaría de Infraestructura, utiliza para recabar información y tomar decisiones. Se trata del Sistema Integral de Administración (SIA) y del Sistema para el Registro, Administración y Seguimiento Físico y Financiero de Carreteras (SIRASEF) los cuales son dos de los sistemas de información institucionales cuyo uso es de carácter oficial y obligatorio para las áreas de la Subsecretaría de Infraestructura. De ahí que se pueda afirmar que la información de la cual se alimenta la data mart o base de datos de infraestructura, sea muy confiable para el personal al cual está dirigido el Sistema de Información Ejecutivo de Infraestructura. 153 Se diseñó y construyó el data mart de infraestructura utilizando como repositorio de datos una base de datos multidimensional. Este tipo de bases de datos están diseñadas para consolidar grandes volúmenes de información y facilitar el análisis de la misma a los usuarios finales que deben tomar decisiones con base en ella. Cabe mencionar que a diferencia de las bases de datos relacionales, el uso y explotación de una base de datos multidimensional está dirigido a la alta gerencia de una organización, ya que solo almacena información consolidada sobre algún tópico en particular y no almacena grandes volúmenes de datos como lo es el detalle de la información que los sistemas de información transaccionales procesan diariamente, derivado de la operación cotidiana de las áreas usuarias. Como última fase del proyecto y con base en el análisis de las necesidades de información planteadas por los usuarios, se diseñaron e implementaron una serie de interfaces gráficas que muestran los parámetros de control que los usuarios necesitan conocer a diario. Adicionalmente, se le entregaron a los usuarios herramientas de análisis que forman parte la infraestructura de la tecnología de inteligencia de negocios que se utilizó para desarrollar el software. Estas herramientas les permiten a los usuarios diseñar en cualquier momento sus propias consultas y reportes ejecutivos sin depender de las áreas técnicas, lo cual representa otra ventaja de utilizar BI para la explotación de la información por los usuarios. Por lo tanto, se puede concluir que en una empresa de características tan grandes y variables como lo es una empresa pública, si se tiene al personal capacitado y con la madurez suficiente para tomar decisiones en base al análisis de la información disponible, entonces la inversión en tecnología será aprovechada en su totalidad. Como sabemos, el proceso de toma de decisiones no solo se lleva a cabo utilizando tecnología. La información puede estar almacenada en medios electrónicos o en papel. Pero si el personal de una organización no está acostumbrado a analizar su información para tomar decisiones, entonces la tecnología será aprovechada solo en parte. Mejoras a futuro El desarrollo del Sistema de Información Ejecutivo de Infraestructura, es sólo una de las muchas aplicaciones que será necesario construir para conformar un Sistema de Información Ejecutivo Financiero a nivel corporativo. Es decir, el SIE de infraestructura que fue desarrollado en el presente trabajo contiene la información del clasificador por objeto del gasto 6000, el cual 154 corresponde a inversión en infraestructura carretera. Es importante recordar que las fuentes de datos para el SIE de Infraestructura fueron el Sistema para el Registro y Seguimiento para la Construcción de Carreteras (SIRASEF) y el Sistema Integral de Administración (SIA). De éste último, solo se extrae la información concerniente al clasificador de gasto 6000. El siguiente paso será construir aplicaciones similares que consoliden la información de otros sistemas institucionales que ya están desarrollados y que fueron diseñados para administrar la información de los demás capítulos de gasto, como son: el clasificador de gasto 1000 correspondiente a servicios personales y del 2000 al 5000 correspondientes a recursos materiales, hasta cubrir la totalidad de los datos contenidos en el Sistema Integral de Administración (SIA), de tal forma que los usuarios de la Dirección General de Programación, Organización y Presupuesto (DGPOP), también cuenten con la totalidad de la información financiera consolidada en un solo Sistema de Información Ejecutivo de toda la Secretaría. 155 Bibliografía Abadal Falgueras, E. (2001). Sistemas y servicios de información digital. Barcelona: Universidad de Barcelona. Arjona Torres, M. (1999). Dirección estratégica. Un enfoque práctico. Madrid: Diaz de Santos. Cardoso Militao, L. I. (2006). Sistemas de Base de Datos II: teoría aplicada para profesores y estudiantes. Caracas: Universidad Católica Andrés Bello. Diccionario de informática e internet: Computer and internet Technology Definitions in Spanish. (2004). Boston, Massachusetts: Thomson. Dirección General de Carreteras Federales. (s.f.). Carreteras Federales. Recuperado el 04 de Agosto de 2009, de http://dgcf.sct.gob.mx/index.php?id=985 Dirección General de Carrreteras Federales. (Agosto de 2007). Manual de Organización de la Dirección General de Carreteras Federales. D. F., México. Dirección General de Conservación de Carreteras. (Febrero de 2009). Manual de Organización. D. F., México. Dirección General de Programación, Organización y Presupuesto. (24 de Mayo de 2007). Manual de Organización de la Dirección General de Programación, Organización y Presupuesto. D. F., México. Dirección General de Servicios Técnicos. (Noviembre de 2008). Manual de Organización. D. F., México. Gill, H. S. (1996). Data warehousing La integración de la información para la mejor toma de decisiones. México, D. F.: Prentice Hall. Han, J. (2006). Data Mining: Concepts and Techniques. San Francisco, CA.: Morgan Kaufmann. Hayes, B. E. (2006). Cómo medir la satisfacción del cliente. México: Alfaomega. Hyperion Solutions Corporation. (1991-2000). Analytic Services Database Administrator's Guide. Sunnyvale, CA. Hyperion Solutions Corporation. (2000). Hyperion Essbase Fundamentals Training. Sunnyvale, CA. Hyperion Solutions Corporation. (1999). Hyperion Essbase: Partitioning Training. Sunnyvale, CA. Joaquim, L. (2004). Tecnologías del texto y del habla. Barcelona: Universidad de Barcelona. Kendall. (1997). Análisis y diseño de sistemas. 3ra ed. México: Prentice Hall. Kroenke, D. (2003). Procesamiento de bases de datos. México: Prentice Hall. 156 Laudon, K. C., & Laudon, J. P. (2004). Sistemas de Información Gerencial.8va. ed. México: Prentice Hall. Laudon, K. (2004). Sistemas de información gerencial: Administración de la empresa digital. México: Prentice Hall. Martínez Coll, J. C. (2003). Las flechas, economía del tiempo y la información. Málaga: Editado por el autor. Martínez Posadas, S. (Abril de 2009). Comunicación Organizacional. Recuperado el 21 de Mayo de 2009, de TURevista Digi.U@T: http://www.turevista.uat.edu.mx/Volumen%203%20Numero%204/refcomunicacion%20organizacional.htm McLeod Jr, R. (2000). Sistemas de información gerencial, 7a ed. México: Prentice Hall Hispanoamericana, S. A. Mosley, D., Megginson, L., & Pietri, P. (2005). La práctica del Empowerent, desarrollo de equipos de trabajo y motivación. Cengage Learning Editores. Oracle Corporation. (2007). Hyperion Web Analysis Studio Release 9.3.1 Users Guide. Redwood, CA. Pablos Heredero, C. d. (2004). Ilustraciones de la aplicación de las tecnologías de información en la empresa española. Barcelona: ESIC. Pastor, J. (2001). Dirección y gestión de los sistemas de información en la organización. Barcelona: UOC. Pastor, J. (2001). Usos de los sistemas de información en la organización. Barcelona: UOC. Peralta, V., & Ruggia, R. (s.f.). Universidad de la República. Recuperado el 14 de 04 de 2009, de Implementación de herramientas CASE que asistan en el Diseño de Data Warehouses: http://www.fing.edu.uy/inco/grupos/csi/esp/Publicaciones/2001/tr0120-vp.pdf SHCP. Subsecretaría de Egresos. Unidad de Política y Control Presupuestal. (13-Octubre-2000). Clasificador por objeto del gasto para la Administración Pública Federal. México, D. F. Subsecretaría de Infraestructura. (Febrero de 2009). Manual de Organización. D. F., México. Vlamis, D. (s.f.). Oracle OLAP 11g incorpora características de alto desempeño para el depósito de datos en Oracle Database 11g. Recuperado el 03 de Agosto de 2009, de http://www.oracle.com/technology/global/lad-es/pub/articles/08-jul/o38olap.html 157 Anexo I Cuestionario de evaluación de la satisfacción de los usuarios del Sistema de Información Ejecutivo de Infraestructura. 158