UNIVERSIDAD VERACRUZANA Facultad de Contaduría y Administración El Data mart en las pequeñas y medianas empresas como auxiliar en el proceso de toma de decisiones MONOGRAFÍA para obtener el título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Marco Antonio González Martínez Asesor: M.C.C. Erasto Alfonso Marín Lozano Xalapa-Enríquez, Veracruz Agosto 2008 INDICE Resumen………………………………………………………………………….… 1 Introducción……………………………………………………………………….. 2 Capítulo I Marco Teórico 1.1. Empresa…………………………………………………………………. 8 1.1.1. Definición de Empresa, según diversos autores……………..8 1.1.2. Análisis estructural de la definición de Empresa……………..9 1.2. Las PyMEs y la toma de decisiones…………..……………………... 10 1.2.1. Motivación de las PyMEs para adoptar tecnología…………..13 1.3. Datawarehouse…………………………………………………………. 14 1.3.1. Introducción al Concepto de Data warehouse………………..14 1.3.2. Arquitectura del Data warehouse………………………………15 1.3.3. OLTP (On-Line Transaction Processing)…………………….. 16 1.3.4. Consolidación…………………………………………………….16 1.3.5. Middleware………………………………………………………. 17 1.3.6. OLAP (On-Line Analytical Process)…………………………... 18 1.3.7. Aplicaciones……………………………………………………... 19 1.3.8. Impactos de implementación del Data warehouse…………. 19 1.3.9. Impacto en la gente…………………………………………….. 19 1.3.10. Impactos en los procesos empresariales y de toma de decisiones……………………………………………... 20 Capítulo II 2. Data Mart………………………………………………………………… 23 2.1. Concepto de Data Mart………………………………………… 24 2.2. Importancia del data warehouse y el Data Mart………..........25 2.3. Generalidades de los Data Marts……………………………... 26 2.4. Desarrollo de los Data Marts vs Data Warehouse…………...28 2.5. Razones para crear un Data Mart…………………………….. 29 2.6. Componentes del Data Mart……………………………………30 I 2.6.1. Escenario y método…………………………………….. 30 2.6.2. Fuentes de Datos……………………………………….. 32 2.6.2.1. Datos…………………………………………...32 2.6.2.2. Concepto de datos multidimensionales…….34 2.6.2.3. OLAP y OLTP………………………………… 35 - Data Mart OLAP - Data Mart OLTP - Diferencias entre OLAP y OLTP 2.7. Diseño de los Data Marts……………………………………….40 2.7.1. Modelos Generales de Desarrollo…………………….. 40 - Modelo Top Down. - Modelo Bottom up. - Modelo Paralelo. 2.7.2. Modelos de Desarrollo con Retroalimentación……… 45 - Modelo Top Down con Retroalimentación. - Modelo Bottom up con Retroalimentación. - Modelo Paralelo con Retroalimentación. 2.8. Extracción y transformación de datos………………………… 48 2.9. Herramientas de acceso……………………………………….. 50 - Acceso predefinido. - Acceso Ad hoc. - Queries básica y reporting. - Queries y reporting avanzado. - Data Mining. 2.10. Repositorio / Metadata…………………………………………. 54 2.11. Beneficios del Data Mart……………………………………….. 59 Capítulo III 3. El Data Mart en las medianas y pequeñas empresas como auxiliar en el proceso de tomas de decisiones………………………. 62 3.1. Beneficios para las organizaciones……………………………...65 II 3.2. Estrategia de Reporting…………………………………………...66 3.3. Tipología de informes…………………………………………….. 66 3.4. Alternativas Tecnológicas………………………………………... 67 3.5. Alternativas de Diseño…………………………………………….69 3.6. Opción aconsejada……………………………………………….. 74 Capítulo IV Ejemplo del Sistema de Información para la Toma de Decisiones (DATA MART) en la Consejería de Economía y Hacienda de Andalucía, comunidad autónoma española………………………………………………. 77 Conclusiones……………………………………………………………………….92 Glosario…………………………………………………………………………...…96 Fuentes de información bibliográficas…….…………………………………..98 Fuentes de información electrónicas…………………………………………..99 Indice de Figuras………………………………………..…………………….…..101 Indice de Tablas………………………………………………………………......103 III RESUMEN La adecuada toma de decisiones en cualquier empresa resulta imprescindible para no permitir pasar una oportunidad de negocio. En un país donde la mayoría de sus empresas están registradas dentro del régimen de medianas y pequeñas empresas, la tarea de la toma de decisiones resulta vital para su existencia. Su condición de medianas y pequeñas, limita el querer invertir en tecnología, y más cuando no cuentan con una guía que los oriente acerca de los beneficios que esto traería. El Data Mart implantado en cada área funcional de la empresa permite la extracción de información exacta y oportuna para una adecuada toma de decisiones, consultas que se realizan a través del uso de las herramientas OLAP. 1 INTRODUCCION Las organizaciones dependen de la comunicación para coordinar las actividades de sus miembros, sobre todo cuando el entorno cambia imprevisiblemente. La trascendencia de la comunicación se hace más patente en la medida en que se asciende por la pirámide empresarial. La transmisión de información relevante y oportuna entre departamentos y niveles jerárquicos resulta vital para lograr el desarrollo óptimo de cualquier organización. Sin embargo, no siempre se cuenta con la información cuando se necesita, pues sólo existe almacenada gran cantidad de ésta. Es necesario considerar que un error en la toma de decisiones es la confusión que existe entre necesidad y deseo, dos elementos con los que los analistas se enfrentan diariamente y deben aprender a distinguir. Un Data Warehouse es una solución que permite centralizar en un solo punto toda la información definida por la compañía como relevante para la gestión de su negocio y la toma de decisiones. La distribución de la información se realiza a través de herramientas que permiten a los usuarios finales construir sus propios informes de forma autónoma. A pesar de las grandes ventajas del Data Warehouse, parecen existir unas importantes barreras para su utilización en empresas de tamaño mediano. Los productos Data Warehouse han nacido para resolver problemas de análisis de grandes masas de información, en empresas donde una pequeña diferencia en el valor de una variable, puede afectar la cuenta de resultado con unas diferencias de millones de dólares. 3 Los productos y proyectos Data Warehouse están dimensionados para este tipo de empresas, contando con hardware muy potente (muchas veces especializado) y la masiva intervención de consultores externos, expertos en la realización de la puesta en marcha. Un proyecto de este tipo resulta en todos los aspectos excesivo para un departamento de ventas que necesita analizar la información de 500.000 3.000.000 de líneas de pedidos, o una cantidad equivalente de información financiera, que es lo normal para una empresa mediana. Para resolver este tipo de necesidades han surgido los Data Mart, productos que utilizan la tecnología Data Warehouse adaptada a las necesidades de las empresas medias. Data Mart se destaca por una definición de requerimientos más fácil y rápida. También se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el coste del proyecto, así como su duración. Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en ocasiones se desarrolla una aplicación que integre todas ellas y proporciona las funciones de un Sistema de Información para Ejecutivos (EIS). Los esfuerzos de los desarrolladores de productos Data Mart, junto con los mejoras del índice precio/rendimiento del hardware, suben constantemente el límite de penetración de Data Mart, permitiendo asumir proyectos más y más importantes. La simplicidad de los proyectos de Data Mart y el menor costo en comparación con Data Warehouse, significan una ventaja competitiva muy grande a favor de Data Mart, donde el mercado de los dos tipos de productos se solapa. Un Data Mart es una solución que, compartiendo tecnología con el Data Warehouse (pero con contenidos específicos, volumen de datos más limitado y un alcance histórico menor), permite dar soporte a una empresa pequeña, o un departamento o área de negocio de una empresa grande. 4 El Data Mart cubre las necesidades de informes porque no es conveniente efectuar consultas sobre el sistema transaccional, y permite integrar datos de varios sistemas transaccionales. Se documentará al Data Mart como repositorio recopilador de información relevante para la organización en cada uno de sus departamentos generando una adecuada comunicación entre sus áreas permitiendo a cada nivel empresarial una adecuada toma de decisiones. Como principio, el Primer Capítulo encuadrará la definición de empresa dada por varios autores, su análisis estructural para determinar los elementos que la componen; la situación actual de las Pequeñas y Medianas Empresas en nuestro país y la manera en que la información afecta la toma de decisiones en un momento determinado, y las principales razones que deben llevar a una PyMe a la adopción de tecnología. De la misma forma, se documenta el Data Warehouse, pues es fundamental entenderlo, conocer su estructura y el impacto que tiene en las grandes empresas para poder hacer una comparación con el empleo de un Data Mart en las medianas y pequeñas empresas. El Segundo Capítulo está destinado al Data Mart. Los aspectos que se abordan son: conceptualización, generalidades, las razones que llevan a su creación, los elementos que lo componen, el origen de sus datos, el diseño y modelos de desarrollo que existen, la transformación de los datos, herramientas de acceso y los beneficios que éste almacén brinda. Se omite el factor de creación, pues esta monografía pretende ser una guía informativa acerca de los beneficios y características principales que ofrece el Data Mart. Como más adelante se menciona, la decisión a cerca de usar Data Marts o Data warehouse como herramienta estructural para el análisis de los requerimientos en la empresa, no 5 depende de una guía específica, sino más bien de las necesidades y características particulares de cada empresa. Dentro del Tercer Capítulo se abarcará el tema de la Monografía “El Data Mart en las medianas y pequeñas empresas como auxiliar en el proceso de tomas de decisiones”. Aquí se mencionan los aspectos principales que llevan a considerar el Data Mart como un auxiliar para aquellas empresas principalmente medianas y pequeñas que buscan el crecimiento de su negocio a través de acertadas tomas de decisiones resultando primordialmente en una mejor atención al cliente. Para tal fin se presenta la estrategia de reporting, la cual muestra diferentes escenarios de creación de Data Marts y data warehouse para resolver las necesidades de información en las empresas y determinar cuál, en determinada situación, le conviene elegir al empresario para tomar una adecuada decisión. Y para finalizar, en el Cuarto Capítulo, se ilustrará un ejemplo del Sistema de Información para la Toma de Decisiones (DATA MART) en la Consejería de Economía y Hacienda de Andalucía, comunidad autónoma española. 6 CAPITULO I. MARCO TEORICO 1.1 Empresa En un sentido general, la empresa es la más común y constante actividad organizada por el ser humano, la cual, involucra un conjunto de trabajo diario, labor común, esfuerzo personal o colectivo e inversiones para lograr un fin determinado. Por ello, resulta muy importante que se conozca cuál es la definición de empresa para que tenga una idea clara acerca de cuáles son sus características básicas, funciones, objetivos y elementos que la componen. 1.1.1.Definición de Empresa, según diversos autores Ricardo Romero, autor del libro "Marketing", define la empresa como "el organismo formado por personas, bienes materiales, aspiraciones y realizaciones comunes para dar satisfacciones a su clientela". Julio García y Cristobal Casanueva, autores del libro "Prácticas de la Gestión Empresarial", definen la empresa como una "entidad que mediante la organización de elementos humanos, materiales, técnicos y financieros proporciona bienes o servicios a cambio de un precio que le permite la reposición de los recursos empleados y la consecución de unos objetivos determinados". Para Simón Andrade, autor del libro "Diccionario de Economía", la empresa es "aquella entidad formada con un capital social, y que aparte del propio trabajo de su promotor puede contratar a un cierto número de trabajadores. Su propósito lucrativo se traduce en actividades industriales y mercantiles, o la prestación de servicios". 8 El Diccionario de la Real Academia Española, en una de sus definiciones menciona que la empresa es una "unidad de organización dedicada a actividades industriales, mercantiles o de prestación de servicios con fines lucrativos". 1.1.2. Análisis estructural de la definición de Empresa Tomando en cuenta las anteriores definiciones, se puede apreciar que la definición de empresa revela los siguientes elementos que componen la estructura básica de lo que es una empresa: Entidad: Es decir, que una empresa es una colectividad considerada como unidad (por ejemplo, una corporación, compañía, institución, etc., tomada como persona jurídica) o un ente individual conformado por una sola persona (por lo general, el propietario). Elementos humanos: Se refiere a que toda empresa está conformada por personas que trabajan y/o realizan inversiones para su desarrollo. Aspiraciones: Son las pretensiones o deseos por lograr algo que tienen las personas que conforman la empresa. Realizaciones: Se entiende como las satisfacciones que sienten los miembros de la empresa cuando logran cumplir aquello que aspiraban. Bienes materiales: Son todas las cosas materiales que posee la empresa, como; instalaciones, oficinas, mobiliario, etc. Capacidad técnica: Es el conjunto de conocimientos y habilidades que poseen los miembros de la empresa para realizar o ejecutar algo. 9 Capacidad financiera: Se refiere a las posibilidades que tiene la empresa para realizar pagos e inversiones a corto, mediano y largo plazo para su desarrollo y crecimiento, además de tener liquidez y margen de utilidad de operaciones (por citar algunas). Producción, transformación y/o prestación de servicios: Se refiere a que la empresa puede realizar una o más de las siguientes actividades: 1) Fabricar, elaborar o crear cosas o servicios con valor económico, 2) transformar o cambiar, por ejemplo, una materia prima en un producto terminado y 3) prestar servicios. Satisfacción de necesidades y deseos: La necesidad humana es el estado en el que se siente la privación de algunos factores básicos (alimento, vestido, abrigo, seguridad, sentido de pertenencia, estimación). En cambio, los deseos consisten en anhelar los satisfactores específicos para éstas necesidades profundas (por ejemplo, una hamburguesa Mc Donalds para satisfacer la necesidad de alimento) La definición de empresa permite "visualizar" a toda empresa como una entidad conformada por elementos tangibles (elementos humanos, bienes materiales, capacidad financiera y de producción, transformación y/o prestación de servicios) e intangibles (aspiraciones, realizaciones y capacidad técnica); cuya finalidad es la satisfacción de las necesidades y deseos de su mercado meta para la obtención de una utilidad o beneficio. 1.2 LAS PYMES Y LA TOMA DE DECISIONES Las Pequeñas y Medianas Empresas (PyMEs), son organizaciones que se caracterizan por tener un número reducido de empleados y una facturación media o baja. En el censo económico del INEGI (Instituto Nacional de Estadística Geografía e Informática) del 2004, se establece que existen en México alrededor 10 de 2,726,568 PyMEs, las cuales representan aproximadamente el 94% del total de las empresas mexicanas (2004). Diario Oficial de la Federación. La Secretaría de Comercio y Fomento Industrial ha clasificado a las PyMEs por sector: manufactura, comercio y servicio, y a su vez por el número de empleados con los que cuentan, como se muestra en la tabla 1.1. Tamaño Clasificación de sectores por número de empleados Industria Comercio Servicio Pequeña empresa 31-100 6-20 21-50 Mediana empresa 101-500 21-100 5-100 Tabla 1.1 Estratificación de PyMEs Fuente: Diario Oficial de la Federación, 2004. El número de empresas que conforman el sector manufacturero es de 344,118 el sector comercial cuenta con 1,443,878 y el sector servicio cuenta con 938,572 empresas. Como se puede observar, el sector comercial es el que abarca el mayor número de organizaciones, 52% del total de las PyME, y sigue en aumento (2004). Diario Oficial de la Federación. Con estos resultados, se puede determinar que las PyME comercializadoras, son las que conforman una parte importante de las empresas productivas de México. Definidos el concepto de PyME y su clasificación en México, en seguida conoceremos el panorama general de la situación empresarial y la importancia de la toma de decisiones de manera oportuna. “El crecimiento de las PyMEs ocurre actualmente entre una fuerte competencia, contracción económica, clientela más inteligente, reducción de márgenes de utilidad y constantes innovaciones tecnológicas.” (González, M., 2006). De ahí la 11 importancia de que las PyMEs tomen decisiones acertadas en el momento que se requieran y antes que su competencia lo haga. La información es un factor crítico en los negocios. Por esto, las empresas requieren de sistemas y soluciones que permitan la exploración de la información, donde sus propios datos sean procesados para apoyar la toma de decisiones estratégicas, justificadas con información esencial para ellas. Los Indicadores Clave de Rendimiento (ICRs), propuestos por Ronald Daniel y Jack F. Rockart, también conocidos como indicadores clave de resultados o de desempeño, son un conjunto de medidas cuantificables utilizadas por las empresas para evaluar su desempeño en términos del conocimiento de sus estrategias y metas operacionales (Baker, R., 2006). El monitoreo y predicción de estos indicadores permite a las organizaciones tomar decisiones con base en información consultada en tiempo real. El mantenerse al tanto de la situación de la empresa, les permite establecer o mejorar estrategias que generen ventajas ante su competencia, con mayor seguridad. Hoy en día las técnicas de inteligencia empresarial no se aplican comúnmente a las PyMEs, porque se piensa que es un proceso muy costoso, no solo para su creación, sino también para su mantenimiento y que se necesita de personal experto y capacitado para poder lograr buenos resultados (Mallach, E., 2000). Así mismo, las PyMEs por considerarse a ellas mismas pequeñas compañías, no creen que tengan la posibilidad y necesidad de beneficiarse de estas técnicas que les pueden ayudar a tomar decisiones para mejorar sus procesos de negocio. Los vendedores de software de inteligencia empresarial, mencionan que la tecnología que ellos tienen puede proveer la mejora de procesos que buscan las 12 organizaciones. Sin embargo, estas herramientas son muy costosas y complejas porque tratan de satisfacer las necesidades de las grandes empresas. Generalmente se venden como módulos separados, lo que complica de manera significativa su uso y compresión, y eleva los costos. 1.2.1.Motivación de las PyMEs para adoptar tecnología Las PyMEs tienen las mismas necesidades de análisis de información que las empresas de gran tamaño, sin embargo tienen muchas más desventajas y limitaciones que estas últimas. Las limitaciones económicas son el principal factor, por el que las pequeñas y medianas empresas no adquieren la tecnología que requieren. Además, los sistemas existentes en el mercado, no ofrecen los resultados que prometen, se concentran más en la venta de los mismos que en resolver los problemas de los usuarios. Otro motivo son los numerosos beneficios que las PyMEs pueden obtener, de los avances de la tecnología que ahora permiten procesar datos a la velocidad del pensamiento (González, M. 2006), por ejemplo: Liberar a ciertos empleados de tiempo operativo para dedicarlo a realizar análisis estratégicos. Tener información suficiente que justifique la toma de decisiones estratégicas en un momento determinado. Aprovechar mejor de sus fuentes de información. Fortalecer de las capacidades analíticas y de planificación. Mejorar el entendimiento de las necesidades de los clientes 13 El conocimiento acerca de un Data Mart que permita obtener información accesible para la PyME contribuirá a que tengan un crecimiento más rápido y estén mejor preparadas para el ambiente competitivo en el que se desempeñan. 1.3 DATA WAREHOUSE 1.3.1.Introducción al concepto de Data warehouse El Data Warehouse es una tecnología para el manejo de la información construido sobre la base de optimizar el uso y análisis de la misma utilizado por las organizaciones para adaptarse a los vertiginosos cambios en los mercados. Su función esencial es ser la base de un sistema de información gerencial, es decir, debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas (Bases Corporativas, Bases propias, de Sistemas Externos, etc.) y brindar una visión integrada de dicha información, especialmente enfocada hacia la toma de decisiones por parte del personal jerárquico de la organización (Méndez, A., Mártire, A., Britos, P. Y Garcia-Martínez, R., 2007). Es un sitio donde se almacena de manera integrada toda la información resultante de la operatoria diaria de la organización. Además, se almacenan datos estratégicos y tácticos con el objetivo de obtener información estratégica y táctica que pueden ser de gran ayuda para aplicar sobre las mismas técnicas de análisis de datos encaminadas a obtener información oculta -Data Mining-. Esta información incluye movimientos que modifican el estado del negocio, cualquier interacción que se tenga con los clientes y proveedores, y cualquier dato adicional que ayude a comprender la evolución del negocio. 14 Esta tecnología ayuda a la organización a responder preguntas esenciales para la toma de decisiones que le permitan obtener ventajas competitivas y mejorar su posición en el mercado en el que operan. Algunas de las preguntas podrían ser: - ¿Cuál es el perfil de mis clientes? - ¿Cómo es su comportamiento? - ¿Cuál es la rentabilidad que me deja? - ¿Cuál es el riesgo que corro con él? - ¿Qué servicios y productos utiliza y cómo - ¿Puedo incrementarlos? - Etc. 1.3.2.Arquitectura del Data Warehouse La arquitectura de esta tecnología está integrada por los siguientes componentes, y se esquematiza en la siguiente figura: Figura 1.1. Arquitectura del Data Warehouse Fuente: Méndez, A., Mártire, A., Britos, P. y Garcia-Martínez, R., 2007. 15 1.3.3.OLTP (On-Line Transaction Processing) Son aplicaciones que definen el comportamiento habitual de un entorno operacional de gestión y ejecutan las operaciones del día a día. Algunas de las características más comunes de este tipo de transacciones podrían ser (Trujillo Mondéjar, J., 2006): - Altas/Bajas/Modificaciones - Consultas rápidas, escuetas y predecibles - Poco volumen de información e información disgregada - Transacciones rápidas - Gran nivel de concurrencia - Modo de actualización on-line - Baja redundancia de datos Algunos ejemplos de este tipo de aplicaciones son: - Compras - Ventas - Inventario - Sueldos 1.3.4.Consolidación Es la parte del proceso de Data Warehouse que se encarga de producir el cambio de los sistemas OLTP a las Bases de Datos OLAP. Consolidan datos de aplicaciones no integradas, sumarizan datos disgregados y los transforman. Este proceso está compuesto por tres pasos (Méndez, A. et al., 2007).: 16 Validación de Consistencia de los datos - Comprueba la validez de los datos en el entorno operacional - Inconsistencia entre distintas aplicaciones dentro del sistema Mecanismos de Consolidación - Refresco de datos: Volcado completo de los datos procedentes del sistema operacional - Actualización de datos: Volcado incremental tomando como criterio la fecha de operación - Propagación de datos Factores técnicos - Mecanismo de transporte - Tiempos de carga - Reformateo de datos 1.3.5.Middleware Es un software que reside físicamente en un Cliente y en un Servidor de Comunicaciones, localizado entre el Cliente y el Servidor. Actúa como traductor entre distintas tecnologías. Permite que dos o más sistemas trabajen juntos aunque no estén preparados para ello. Algunas de sus características más relevantes son (Méndez, A. et al. 2007): - Un mismo middleware puede poseer más de una máquina virtual para soportar diferentes entornos de desarrollo. - Gestiona las comunicaciones con el Data Warehouse. - Controla la concurrencia y controla los procesos Batch - Posee diversos controladores de Bases de Datos para acceder a las distintas fuentes, por ejemplo, Oracle, Sybase, AS400, etc. 17 Ejemplos: - Monitores de procesamiento de transacciones - Convertidores de datos - Replicación de datos - Controladores de comunicación 1.3.6.OLAP (On-Line Analytical Process) Son aplicaciones que se encargan de analizar datos del negocio para generar información táctica y estratégica que sirve de soporte para la toma de decisiones. Mientras que las transacciones OLTP utilizan Bases de Datos Relacionales u otro tipo de archivos, OLAP logra su máxima eficiencia y flexibilidad operando sobre Bases de datos Multidimensionales. Podemos nombrar las siguientes características como las más sobresalientes de estas aplicaciones (Méndez, A. et al.,2007): - Estructura de datos transparente al usuario - Solo Consulta, trabajan sobre la información operacional generada por los sistemas OLTP - Consultas sobre grandes volúmenes de datos no predecibles - Información histórica - Modo de actualización Batch - Alta redundancia de datos para facilitar la generación de consultas y obtener buenos tiempos de respuesta - Trabaja con resúmenes de miles de registros condensados en una sola respuesta 18 1.3.7.Aplicaciones EIS (Executive Information System) Son herramientaspara proveer información estratégica a los ejecutivos mediante informes, comparaciones y cuadros de mando multidimensionales. DSS (Decission Support System) Herramienta de soporte para la toma de decisiones. Incorpora reglas de decisión y análisis de datos no predefinidos en las posibilidades de un EIS. - Sistemas de presentación - Sistemas Interrogativos - Sistemas de Simulación - Sistemas funcionales - Sistemas Expertos 1.3.8.Impactos de implementación del Data Warehouse El éxito del Data Warehouse no está en la construcción sino en utilizarlo para mejorar los procesos empresariales, operacionales y de toma de decisiones, para que esto suceda se deben tener en cuenta los impactos producidos en los siguientes ámbitos: 1.3.9.Impacto en la gente La construcción requiere de la participación activa de quienes utilizarán el Data Warehouse, depende tanto de la realidad de la empresa como de las condiciones que existan en ese momento, las cuales determinarán cual será su contenido. 19 El Data Warehouse provee los datos que posibilitará a los usuarios a acceder a su propia información en el momento que la necesitan. Esta posibilidad para entregar información presenta varias implicaciones: Los usuarios deberán adquirir nuevas destrezas. Se eliminará los largos tiempos de análisis y programación para obtener información. Como la información estará lista para probablemente, aumenten las expectativas. ser Pueden utilizada, existir nuevas oportunidades en la comunidad empresarial para los especialistas de información. Se reducirá hasta casi eliminarse la gran cantidad de reportes en papel. La madurez del Data Warehouse dependerá del uso activo y retroalimentación de sus usuarios. 1.3.10.Impactos en los procesos empresariales y de toma de decisiones Mejora del proceso de toma de decisiones por medio de la disponibilidad de la información. Las decisiones se toman más rápidamente por gente más informada. Los procesos empresariales pueden ser optimizados, se elimina el tiempo de espera de información que, generalmente, es incorrecta o no se encuentra. Se reducen los costos de los procesos y muchas veces se aclaran sus conexiones y dependencias, aumentando así la eficiencia en dichos procesos. El Data Warehouse permite que los datos de los sistemas operaciones sean utilizados y examinados, cuando estos datos se organizan para tener significado para la empresa la gente comienza a aprender de los sistemas y pueden quedar expuestos posibles defectos de las aplicaciones actuales. 20 Aumenta la confianza de las decisiones tomadas en base a la información del Data Warehouse, debido a que tanto los responsables de la toma de decisiones como los afectados conocen que están basadas en información de buena calidad. La información compartida conduce a un lenguaje común, conocimiento común y mejora de la comunicación en la empresa. Teniendo en cuenta las etapas de construcción, soporte del Data Warehouse y soporte de los sistemas operacionales, algunos de los impactos técnicos son los siguientes: En el momento de construcción de un Data Warehouse el impacto más grande sobre la gente técnica está dado por la curva de aprendizaje, algunas de las nuevas destrezas a adquirir son: - Conceptos y estructura del Data Warehouse - Nuevas de demandas de soporte técnico debido a la utilización de nuevas tecnologías, nuevas demandas de recursos. - Es necesario adquirir destrezas de desarrollo incremental evolutivo. - Trabajo en equipo con gente del área de negocios como participantes activos del desarrollo del proyecto. Por último, se puede decir que un Proyecto de Data Warehouse se considera exitoso cuando la gente de la empresa lo utiliza para satisfacer sus necesidades operacionales y de negocio. 21 CAPITULO II. DATA MART 1.DATA MART Para la comprensión del Data Mart es necesario contar con una base teórica en lo referente a que es la inteligencia de negocios y para que se usa un Data Mart. La Inteligencia de Negocios es el conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en una organización o empresa. Este conjunto de herramientas y metodologías tienen en común las siguientes características: Accesibilidad a la información: Los datos son la fuente principal de este concepto. Lo primero que debe garantizar este tipo de herramientas y técnicas será el acceso de los usuarios a los datos con independencia de la procedencia de estos. Apoyo en la toma de decisiones: Se busca ir más allá en la presentación de la información, de manera que los usuarios tengan acceso a herramientas de análisis que les permitan seleccionar y manipular sólo aquellos datos que les interesen. Orientación al usuario final. Se busca independencia entre los conocimientos técnicos de los usuarios y su capacidad para utilizar estas herramientas (Rayner, H., 2007). 23 La Inteligencia de negocios, también llamado Business Intelligence (BI), entonces permite la mejor toma de decisiones con base a información histórica previamente analizada. ”Con la ausencia de BI, existe de hecho un hueco: cuando los usuarios toman decisiones y analizan riesgos y oportunidades basados en información anecdótica, incompleta o desactualizada, lo cual no es mejor que adivinar. La BI correcta no solamente advierte a una empresa de los problemas que surgen, sino también destaca las oportunidades y ahorro en costos, por lo que en muchas empresas se utiliza el concepto de centro de competencia para la inteligencia de negocios (Intelligence & Business Solutions (2007).” La manera de desarrollar e implementar Data Marts (bodegas de datos a nivel departamental) en una empresa, está relacionada con los requerimientos específicos de los distintos análisis que se quiere realizar en cada departamento, así como la estructura general que ésta posea. 2.1. Concepto de Data Mart Aunque para algunos se trata casi de un sinónimo de Data Warehouse, un Data Mart o cubo de datos puede entenderse como un subconjunto del repositorio de datos, que se orienta a un área específica del negocio, como recursos humanos, ventas o marketing, por ejemplo. En otras palabras, un Data Mart es un sistema orientado a la consulta, corresponde a un almacén de datos más restringido que un DW en cuanto al volumen de datos que contiene y al alcance dentro de la organización. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades. 24 Desde ese punto de vista, se trata de un repositorio que requiere menores costos y tiempo para construirse respecto de un DW, teniendo en común el que ambos permiten la realización de consultas, a través del uso de las herramientas OLAP. 2.2. Importancia del data warehouse y el Data Mart El diseño de las bases de datos transaccionales sobre las que corren los aplicativos no está orientado a la extracción de la información. Fernández, M. (2002). Sería posible trabajar con la base de datos transaccional, aunque nada recomendable, el tiempo de respuesta incidiría sobre el rendimiento del sistema puesto que estas bases de datos han sido diseñadas para una escritura y modificación intensiva, no para su lectura. Así el diseño de las bases de datos transaccionales y las desarrolladas para abordar proyectos de Business Intelligence (BI) son totalmente distintos. Las bases de datos de BI (datawarehouses ó Data Marts) están específicamente diseñadas para abordar consultas, por lo que son capaces de recoger datos de diferentes aplicativos y homologarlos en un repositorio central, todo ello con la ayuda de las herramientas de Extracción, Transformación y Carga (ETL). Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el depósito, se refiere a la transformación o a la integración de datos. Las bases de datos operacionales, diseñadas para el soporte de varias aplicaciones de producción, frecuentemente difieren en el formato. Los mismos elementos de datos, si son usados por aplicaciones diferentes o administrados por 25 diferentes software DBMS, pueden definirse al usar nombres de elementos inconsistentes y/o ser codificados de manera diferente. Todas estas inconsistencias deben resolverse antes que los elementos de datos sean almacenados en el Data Mart. Muchos almacenes de datos comienzan siendo Data Marts (para minimizar riesgos) y se va ampliando su ámbito ya que estos están centrados en un tema concreto y están diseñados para una unidad de negocio específica. La implementación incremental reduce riesgos y asegura que el tamaño del proyecto permanezca manejable en cada fase (Lombart, O., 2007). 2.3. Generalidades de los Data Marts Para poder acercarse al tema, se necesita establecer claramente los objetivos y fines que se persiguen con la construcción y la puesta en marcha, no solo de los Data Marts sino de la Data warehouse, de la cual es necesario mencionar que no es un producto construido con estándares que se puede aplicar indistintamente del tipo de empresa que desea adquirirlo a través de una suma de dinero, sino más bien consiste en un proceso que debe ser obligatoriamente construido, evolutivo y duradero en el tiempo para que la empresa pueda obtener los resultados o metas que se propuso con su implementación. Unido al trabajo que se pretende alcanzar con la Data warehouse, debe mencionarse que los Data marst son bodegas de datos con información de interés particular para un determinado sector de la empresa y aunque su enfoque sea para una sola perspectiva departamental, esto no lo exime de tener que seguir los lineamientos generales de implementación que posee la Data warehouse; éstos son: (Kimball R., 1996). 26 Recolección y análisis de requerimientos. Creación del modelo de datos y su diseño físico. Definición de los orígenes de los datos. Selección de la tecnología de base de datos y hardware a utilizar. Extracción de los datos desde sistemas operacionales, su limpieza, transformación y carga a la Data warehouse, en este caso específico al Data Mart. Selección de las formas de acceso, herramientas de análisis, reporte y presentación. Desarrollo de los reportes y aplicaciones necesarias. Actualización del Data Mart. Todos estos lineamientos se derivan de la implementación de las Data warehouse pero debido a la relación estructural que existe con el diseño de los Data Marts, permite que se empleen en ellos también. Pese a esta relación, los Data Mart no se pueden considerar como una Data warehouse en escala inferior, ya que ellos están diseñados para satisfacer las necesidades específicas de los departamentos o divisiones en las empresas esto permite asegurar que sin lugar a duda los Data Marts utilizan un planteamiento de “divide y vencerás”, que a menudo es la solución, cuando la Data warehouse crece desmedidamente, a tal punto que se hace incontrolable su operación (Gartner S., 1998). Ante esta característica los Data Marts tienen ventaja en comparación con las Data warehouse, en puntos como el campo de acción, la perspectiva de los datos, fuentes de los datos, tiempo de implantación, espacio de almacenamiento, cantidad de datos, tiempo de consultas, esto tomándolo desde una perspectiva global. En términos específicos, se puede mencionar entre otras, que los Data Marts requieren de una aplicación específica al estar enfocados a una sola área de la empresa, esto permite que la estructura de su información esté altamente 27 detallada, las consultas se realizan en forma rápida, su proceso al estar orientado a una sola área puede usarse con medidas específicas de la empresa como mercadeo de un producto específico, proyección de ventas o promociones, y por último su tiempo de implantación requiere entre 4 y 12 meses (Gartner S.). Estas ventajas permiten que el trabajo con los Data Marts desde un punto de vista general sea muy provechoso, pero ante este panorama se debe conocer que para disfrutar de estas ventajas el Data Mart por sí solo no se constituyó en la empresa, sino que debió pasar por un proceso de diseño e implementación, en el cual no se puede dejar por fuera como punto de referencia la Data warehouse. Los Data Marts por las consideraciones mencionadas, vienen a ser una excelente herramienta de análisis de datos y soporte para la toma de decisiones para las pequeñas y medianas empresas, por su versatibilidad, corto tiempo de desarrollo y bajo costo económico, así como la obtención de los resultados esperados a un corto plazo. 2.4. Desarrollo de Data Marts vs Data Warehouse Las razones para desarrollar en una empresa Data warehouse antes de Data Mart o viceversa, dependen de factores tales como la naturaleza de la organización, tamaño, requerimientos, estructuración y distribución geográfica de la misma. Por este motivo no existe un planteamiento estandarizado, que permita aplicarlo, indistintamente del tipo de empresa que lo requiera (Inmon, B., 1998). El diseñador de los Data Marts o Data warehouse debe tener presente algunos aspectos que hacen la diferencia entre estos dos planteamientos: Los Data Marts son creados para satisfacer las necesidades específicas de un departamento de acuerdo a los objetivos de los mismos. La Data warehouse se crean para satisfacer las necesidades globales de una corporación, pero no se puede satisfacer las necesidades de ambos. 28 La granularidad entre un planteamiento y otro es muy diferente; los Data Marts están constituidos por datos resumidos o agregados, por otro lado los datos en la Data warehouse mantienen más detalle sobre los datos de la empresa, por esto resulta muy complejo pasar datos de los Data Marts hacia la Data warehouse. Los datos contenidos en los Data Marts son más recientes históricamente que los contenidos en la Data warehouse. Las relaciones en cuanto a temas en los Data Marts no son las mismas que las que se pueden encontrar en la Data warehouse. Los tipos de consultas realizadas en los Data Marts son muy diferentes a las realizadas en la Data warehouse. En los Data Marts los usuarios son recolectores de información, mientras que en la Data warehouse los usuarios son exploradores de información. Dado lo expuesto anteriormente, el tomar una decisión sobre cual planteamiento seleccionar, es necesario evaluar detenidamente las características presentes en la empresa, relacionarlas con las propiedades de cada estructura y a partir de esta relación decidir cual de ellas utilizar. (Consulting Data Team, 1999). 2.5. Razones para crear un Data Mart Fácil acceso a los datos que se necesitan frecuentemente. Pequeños conjuntos de datos y, en consecuencia, menor necesidad de recursos. Crea vista colectiva para grupo de usuarios. Mejora el tiempo de respuesta del usuario final. Facilidad de creación. Son más simples de implementar que un Data Warehouse. Costo inferior al de la aplicación de un completo almacén de datos. Los usuarios potenciales son más claramente identificables que en un almacén de datos completo. 29 Se encuentran más rápidamente las necesidades de las Unidades de Negocio. 2.6. Componentes del Data Mart 2.6.1. Escenario y Método. Para implantar con éxito un Data Mart, se precisa el uso de un escenario contrastado (un anteproyecto). Nadie construiría un edificio sin el correspondiente anteproyecto; el mismo principio se aplica al Data Mart. Se necesita un escenario cuidadosamente seleccionado que incluya tres etapas básicas que se describen a continuación: Planificación: Los servicios de rastreo de la información identifican los problemas de la organización que han de resolverse y facilitan así un proceso estructurado, que es la primera etapa crítica del proyecto. Nótese que se trata de servicios organizados por áreas normalmente independientes y que pueden actuar de forma secuencial o concurrente. Diseño e implantación: La idoneidad de una solución Data Mart representa un punto de entrada y debe asegurarse para cuando los desarrolladores del DM están preparados para realizar el primer proyecto y siempre que se inicien proyectos adicionales como consecuencia del crecimiento. Proporciona un análisis comprensivo del entorno actual de la empresa. Se trata de evaluar la efectividad de la solución en este entorno: investiga los elementos precisos para soportar la implantación con inclusión de la idoneidad de los datos, la idoneidad de la tecnología, la idoneidad funcional, la idoneidad del soporte de las infraestructuras. 30 Esta etapa pretende proteger a la empresa contra el intento de implantar soluciones para las cuales no está preparada o que puedan influir en otras áreas funcionales no incluidas en el plan. Las evaluaciones citadas deberían ser la base de ajustes en los planes de implantación. Soporte y mejora: bajo este epígrafe se incluyen los procesos complementarios, operativos y de valor añadido que soportan el servicio y el mantenimiento del Data Mart. Sirven para varios objetivos: - Soporte del funcionamiento diario del Data Mart, con aseguramiento de la disponibilidad y del servicio continuo. - Asistencia en la difusión del uso de la solución DM. - Expansión del sistema: con nuevas aplicaciones, con nuevos usuarios o con nuevos datos; mediante incrementos en el uso del Data Mart a consecuencia del aprendizaje de los usuarios. - Relanzamiento del proyecto a niveles ejecutivos de la empresa, al resguardo de la aceptación del Data Mart o por efecto de la contratación de necesidades (o de aplicaciones) adicionales. - Ayuda a mantener el sistema al día con soporte mejor a las decisiones de la empresa, todo ello en un entorno planificado y controlado para producir valor añadido. Un método Data Mart debe cubrir las tres etapas mencionadas. La creación de un Data Mart es interactiva, por lo que la multiplicidad de los puntos de entrada soportados por el método resulta crítica. El uso de un método contrastado, junto a la colaboración entre profesionales informáticos y usuarios finales, mejora las perspectivas de construir con éxito el sistema. 31 2.6.2. Fuentes de datos Este componente es el que normalmente se encuentra presente en las organizaciones y desde el que se realiza la captura de datos que se contemplara en el DM. Normalmente las fuentes de datos son las siguientes: 2.6.2.1. Datos Las empresas, actualmente, están inundadas de datos pero tienen poca información. Muchos sistemas almacenan una gran cantidad de datos operativos. Para convertirlos en información de valor, deben disponerse de forma que sean accesibles al mayor nivel de detalle que haya. Sin embargo, las empresas descartan con frecuencia el acceso a los detalles, a causa del volumen de datos que ello implicaría. Un DM, por facilitar esta accesibilidad atómica, permite la respuesta a los problemas reales de la empresa y, asimismo permite encontrar los motivos de tendencias y de correlaciones. El proceso selecciona, valida, combina, reorganiza y manipula los datos atómicos para producir totales y comparaciones con categorías predefinidas. Es un modelo fijo basado en la visión particular que un usuario tiene para una situación concreta, en un momento dado. Se trata de procesos que, al proliferar, incrementan rápidamente los presupuestos de hardware, de software y de personal técnico. Por supuesto, la sumarización con creación de una tabla de sumarizados que incluya las claves de categoría y los valores sumatorios puede mejorar significativamente los tiempos de respuesta cuando se trata de consultas estándar y repetitivas. Sin embargo, y pese a sus ventajas, la sumarización debe aplicarse con mucha cautela ya que, aunque ilustra ciertas condiciones, oculta otras. La sumarización 32 funciona mientras solamente se dé una situación en la que las necesidades del negocio resulten predecibles y constantes para aquella condición. Si hay cambios, no se podrán satisfacer los nuevos requerimientos a menos que se disponga de la información atómica. 2.6.2.2. Concepto de datos multidimensionales En el análisis multidimensional, los datos se representan mediante dimensiones como producto, territorio y cliente (Figura 2.1.). En general, las dimensiones se relacionan en jerarquías, por ejemplo, ciudad, estado, región, país y continente. El tiempo es también una dimensión estándar con sus propias jerarquías tales como: día, semana, mes, trimestre y año (Méndez, A. et al., 2007). No es común que, por ejemplo, alguien dentro de la organización se pregunte: “¿cuánto vendí?”. Figura 2.1. Estructura multidimensional de los datos. Fuente: Méndez, A. et al., 2007. 33 En general, un Gerente de Ventas podría preguntarse: ¿Cuánto vendí del producto “A” en el períodos “X” en la región “Y”? (Figura 2.2.). Figura 2.2. Análisis de los datos desde el punto de viste del gerente de producto Fuente: Méndez, A. et al. En cambio, para un gerente de Finanzas la necesidad es diferente y su pregunta sería: ¿A cuánto ascendieron las ventas de todos los productos en todas las regiones al cierre del mes “M”? y para el caso de un gerente regional: ¿Cuánto fueron las ventas de todos los productos en el período J ó K en mi región? Observe la figura 2.3. (Méndez, A. et al.). Figura 2.3. Visión de los gerentes financiero y regional. Fuente: Méndez, A. et al. 34 2.6.2.3. OLAP y OLTP Un Data Mart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un Data Mart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de información. Por tanto, para crear el Data Mart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos y las características específicas de cada departamento. De esta forma se pueden plantear dos tipos de Data Marts. Data Mart OLAP (On Line Analytical Processing) OLAP o Proceso analítico en línea es el nombre formal para el análisis de cubos multidimensionales - una forma más intuitiva de ver la información empresarial. Se basan en estructuras multidimensionales (cubos OLAP), que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice. El uso de dimensiones es una forma de mostrar y almacenar datos, las dimensiones son ejes de análisis o criterios de clasificación de la información que ofrecen un índice a los datos mediante una lista de valores (tiempo, producto, artículos). 35 OLAP permite ver un conjunto de datos de la empresa de muchas y diversas formas sin mucho esfuerzo. Los archivos OLAP o cubos modelan los datos en dimensiones. Una dimensión es una clasificación de alguna actividad en una organización por la cual se puede medir su éxito. Por ejemplo, puede monitorear las ventas contra los productos o clientes en un periodo de tiempo. Hay dos clases de dimensiones que se pueden utilizar, dimensiones regulares y dimensión de medida. Dimensiones regulares son aquellos datos que se quieren medir, por ejemplo, si se desea seguir el control de sus ventas, se puede utilizar: Clientes: Quiénes son los mejores, dónde se encuentran, qué es lo que compran? Productos: Con respecto a los clientes, quién los compra? Qué productos se están vendiendo? Tiempo: Cómo voy ahora con respecto al ultimo año o último mes? En otro tipo de aplicaciones, por ejemplo cuentas por cobrar, se pueden utilizar dimensiones como el Tiempo para llevar control del vencimiento de sus documentos. En contabilidad, una dimensión podría ser su catálogo de cuentas, etc. Estas dimensiones se conforman de elementos que están dispuestos en niveles jerárquicos o simplemente niveles. Los niveles pueden ser por ejemplo, país, estado, ciudad. Se puede navegar a través de esta jerarquía a través de los niveles o a través de sus elementos. 36 Dimensión de medida son los números que aparecen en el análisis dependiendo de los elementos seleccionados en las dimensiones regulares. Por ejemplo, en un cubo de ventas, podríamos escoger ver las ventas, el número de artículos vendidos, ganancia, costo, etc. Una vez que se tienen estos datos, se pueden poner en una estructura de datos altamente sofisticada que se llama cubo multidimensional. Este cubo permitirá analizar la información de la manera que desee. Se podrá cruzar todas las dimensiones para obtener nueva información que responderá a las preguntas que hace y le permitirá tomar mejores decisiones. Hay dos operaciones básicas que se pueden realizar en un cubo OLAP: Rotar y Rebanar: Se pueden cambiar las dimensiones del cubo que esta viendo y obtener una nueva vista de información. Por ejemplo, 'Ventas por producto' puede cambiarse fácilmente a 'Ventas por vendedor'. Rebanar es cambiar el valor de una dimensión por otro valor, por ejemplo, de las ventas de Enero a las ventas de Febrero. Rotar es aventar el cubo como si fuera un dado para obtener una nueva cara del cubo. Taladrar o Drilling: Los datos de las dimensiones se pueden abrir para obtener más detalle. Una especie de taladro que se hunde más en la información. Si ve información geográfica, puede pasar de un continente a un país y luego a una ciudad en particular. La figura 2.4 esquematiza la técnica Drilling. 37 Drill down: Producto profundizar una dimensión P1 Tiempo U1 Ubicación Figura 2.4. Técnica Drilling en datos multidimensionales. Fuente: Méndez, A. et al. Con esta simple combinación de cosas, se puede abrir la información generada por un negocio o información corporativa para todo el personal tomador de decisiones en formas que antes no era posible realizarlo. Data Mart OLTP (On-Line Transaction Processing) Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque sólo es posible en algunos SGBD avanzados, como Oracle). Los Data Marts que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas: - Poco volumen de datos 38 - Mayor rapidez de consulta - Consultas SQL y/o MDX sencillas - Validación directa de la información - Facilidad para la historización de los datos Diferencias entre OLTP y OLAP Mientras que las aplicaciones OLTP se caracterizan por estar actualizadas constantemente por varios usuarios a través de transacciones operacionales sobre datos individuales, las aplicaciones OLAP son utilizadas por personal de niveles ejecutivos que requieren datos con alto grado de agregación y desde distintas perspectivas (dimensiones), como ser: totales de venta por región, por producto, por período de tiempo, entre otras. OLTP OLAP Automatizado Sumarizado Datos históricos Datos actuales Un registro a la vez Muchos registros a la vez Orientado a la información operativa Orientado a la información estratégica Datos relacionales Datos multidimencionales Consultas simples predefinidas Consultas ad-hoc Volumen de datos acotados Grandes volúmenes de datos Tabla 2.1. Diferencias entre OLTP y OLAP. Fuente: Méndez, A. et al., 2007. 39 2.7. Diseño de los Data Marts En este proceso de diseño y construcción de los Data Marts, existen diversos patrones de desarrollo, entre los cuales podemos mencionar tres: el primero conocido como Top Down el cual tiene como base un sistema de Data warehouse para toda la empresa y a partir de este se desarrollan los Data Marts para las divisiones o departamentos. Un segundo patrón denominado Bottom - up, el cual se fundamenta en la construcción de los Data Marts de cada departamento o división de la empresa, a partir de los cuales se construye la Data warehouse; y un tercer modelo, el cual consiste en llevar una construcción paralela entre ambas estructuras, sin definir como padre la Data warehouse sobre el Data Mart, ni viceversa. Dentro de esta categorización de los modelos, existen tres variaciones, una para cada uno de ellos, dicha variación consiste en incluir en cada patrón de desarrollo el uso de retroalimentación de datos. Para tener un panorama general sobre los Data marst, se especifica de forma clara y detallada cada uno de los tres modelos de patrones de desarrollo así como sus variaciones. 2.7.1. Modelos Generales de Desarrollo En esta categoría de modelos no es tomada en consideración la retroalimentación, la cual permite agregar datos que no estén presentes en la Data warehouse. Los tipos de modelos son los siguientes: el modelo Top Down, el Botton Up y el Paralelo. 40 Modelo Top Down El modelo Top Down está basado en la estructura de la Data warehouse, la cual se construye a partir de los datos que se puedan obtener de los diferentes sistemas operacionales o externos (datos aislados) a través de un proceso de extracción, transformación y transportación (ETT) (Firestone J., 1997). Todos los datos necesarios para el apoyo a la toma de decisiones se encuentran en la Data warehouse después de que la Data warehouse está implementada con la información procesada, solamente es necesario distribuir los datos según las necesidades de información por departamento, generando los Data Marts como subgrupos de datos específicos para los requerimientos particulares de cada departamento. La representación gráfica se muestra en la figura 2.5. Figura 2.5. Modelo de creación de Top Down. Fuente: M. Firestone, 1997. Es importante hacer notar que los Data Marts en este modelo son derivados de la Data warehouse y debido a esta estrecha relación se da una inconsistencia al querer definir una nueva necesidad de información para un departamento, ya que 41 en este caso es necesario modificar primero la Data warehouse para que ocurra el respectivo cambio en el Data Mart. En contraparte al proceso de construcción de este modelo se presenta el modelo de desarrollo Botton Up. Modelo Bottom up En este modelo los Data Marts se construyen a partir de los datos dispersos y la Data warehouse se construye a partir de los Data Marts existentes, esta construcción se realiza a través de dos procesos diferentes de extracción, transformación y transportación. En el primer proceso cada Data Mart se construye con los datos aislados que son necesarios para satisfacer las funciones del departamento por medio de los procesos de extracción, transformación y transportación. Es necesario enfatizar que por la naturaleza de su diseño no existe ninguna relación entre un Data Mart y cualquier otro. Un segundo proceso de tratamiento de datos (ETT) ocurre en el sentido de los Data Marts hacia la Data warehouse, característica representada en la Figura 2.6. Esta Data warehouse que ha sido construida a través de los diversos Data Marts, contendrá toda la información que la empresa requiera de acuerdo a la necesidad o análisis que quiera realizar (Gartner). 42 Figura 2.6. Modelo de creación de Bottom up. Fuente: Joseph M. Firestone. A parte de este modelo existe el modelo Paralelo, cuyo diseño está enfocado en la construcción de los Data Marts y la Data warehouse de forma simultanea. Modelo Paralelo El diseño del modelo paralelo se basa en dos alternativas, en la primera se tratan los Data Marts con entidades independientes de los Data warehouse y en la segunda, esta independencia se trata de forma temporal. En el primer caso se enfoca la construcción de los Data Marts como entidades independientes de la Data warehouse, utilizando el modelo de construcción de esta. Esto consiste en utilizar el mismo modelo de datos que se emplea en la construcción de la Data warehouse propuesto por la empresa. La ventaja de que este modelo funcione de esta forma es que permite detectar y controlar problemas, como la falta y la redundancia de información presentes en el modelo 43 de la Data warehouse. Esto permite el mejoramiento del modelo de construcción en los futuros Data Marts y en la misma Data Warehouse. Por otra parte este modelo puede verse desde otro punto de vista donde los Data Marts se construyen con una independencia temporal de la Data warehouse, lo que indica que una vez que están implementados pasan a ser parte de ella, como un subconjunto de datos que conforma la Data warehouse que existe en la empresa (Firestone, J.). El diseño de este modelo está representado en la figura 2.7. Figura 2.7. Modelo Paralelo. Fuente: Joseph M. Firestone. Es preciso recordar que dentro de la clasificación de los modelos ya descritos, existen tres modelos alternativos, que incluyen la retroalimentación de datos. 44 2.7.2. Modelos de Desarrollo con Retroalimentación. Estos modelos de desarrollo son los mismos expuestos con anterioridad, su diferencia radica en la incorporación de la retroalimentación de datos en cada uno de ellos, a continuación se describe en detalle cada uno de estos modelos: Modelo Top down con Retroalimentación, Modelo Botton up con Retroalimentación y el Modelo Paralelo con Retroalimentación. Modelo Top down con Retroalimentación. Este modelo incluye la posibilidad de agregar datos que no estén presentes en la Data warehouse y que se requieran para cumplir con los requerimientos de un análisis específico. El uso de la retroalimentación consiste en incluir nuevos datos a los Data Marts de la empresa, como una primera fase y consecuentemente estos cambios ocurridos en el Data Mart sean integrados a la Data warehouse como la segunda fase. La figura 2.8 representa el esquema del modelo Top down con retroalimentación del usuario Figura 2.8. Modelo Top down con retroalimentación del usuario. Fuente: Firestone, J. 45 El segundo modelo cuyo rol es diferente se presenta en el modelo Bottom up con retroalimentación. Modelo Bottom up con Retroalimentación El flujo de retroalimentación de datos en el modelo Bottom up, afecta inicialmente a la Data warehouse, ya que la retroalimentación se da en los Data Marts, presentándose el problema entre los requerimientos que tengan los Data Marts y lo que en realidad contiene la Data warehouse. Aunque esta situación puede abrir una puerta para que se lleve a cabo un trabajo parecido al que se realiza en el modelo Top down, no significa que éste deba de emplearse, sino más bien el modelo Bottom up con retroalimentación puede obviar esta característica y permitir que la integración de los datos e información dada en los Data Marts se pueda implementar durante la construcción de la Data warehouse. A continuación la figura 2.9 que detalla el modelo Bottom up con retroalimentación. Figura 2.9. Modelo Bottom up con retroalimentación. Fuente: Firestone, J. 46 Es necesario notar que aunque estos modelos alternativos con retroalimentación presentan un trabajo similar dado a sus características, existe el tercer modelo alternativo paralelo con retroalimentación. Modelo Paralelo con Retroalimentación En este modelo el proceso de implementación es un poco más complicado, debido a las relaciones directas y paralelas que existen entre los Data Marts, la Data warehouse y el modelo de datos de la Data warehouse, ya que este patrón de desarrollo asume que el modelo de datos de la Data warehouse está construido antes de que un Data Mart inicie su implementación. El desarrollo principalmente trabaja con la retroalimentación que tenga el Data Mart, ya que su inicio depende de un período de ajuste entre éste y el modelo de datos de la Data warehouse. Mientras las entradas y salidas se estén dando en los Data Marts, en la Data warehouse estos mismos se están realizando, dado a las características de paralelismo que existe entre ellos. Es importante denotar, que el modelo de datos de la Data warehouse evidentemente se actualiza de los Data Marts, puesto que este modelo de datos es el que contiene todas las perspectivas y funciones que se pretendan realizar con este patrón. La figura número 2.10 ejemplifica el modelo Paralelo con retroalimentación. 47 Figura 2.10. Modelo Paralelo con retroalimentación. Fuente: Firestone, J. Con los distintos patrones de desarrollo expuestos hasta aquí, se debe notar la relación tan estrecha que existe, en cuanto a diseño se refiere, entre la Data Warehouse y los Data Marts, aunque exista esta relación, la decisión de desarrollar una antes que la otra está ligada a diversos factores dependientes de la empresa en donde se quieran implementar (Firestone). 2.8. Extracción y transformación de datos Este componente permitirá que la información pueda transformarse y moverse desde el sistema operacional, u otros sistemas, al datawarehouse. Es importante destacar que la estructura de los datos de gestión no es la misma que la de los sistemas operacionales, por o que este punto puede ser muy complejo y costoso. La herramienta menos sofisticada, para cubrir esta funcionalidad, es la programación pura. El problema de utilizar la programación para la extracción reside en el alto esfuerzo de creación y mantenimiento que exige un Data Mart 48 medianamente significativo, que puede llegar a paralizar, en no muchos meses, el crecimiento del Data Mart. Por ello, la tendencia es la de utilizar herramientas específicas que automaticen, en mayor medida, dichos procesos de extracción, provocando un aumento en la productividad de creación del Data Mart, del orden de tres o cuatro veces superior, y reducir el esfuerzo de mantenimiento en un 80%. La funcionalidad que deben cubrir las herramientas de extracción es la siguiente: Capturar información de datos externos: Esta operación se realiza para refrescar la información del Data Mart, así como permitir la conexión a las estructuras de datos de dichas fuentes, para mayor facilidad. La herramienta debe permitir acceder sin problemas a distintas fuentes de datos con formatos diferentes sin necesidad de utilizar conversores de formatos intermedios. Limpiar y completar los datos capturados: Su misión es reestructurar campos, quitar ciertos datos no significativos, añadir y traducir campos (fundamentalmente de fecha y codificación), comprobar consistencia e integridad de contenidos y detectar errores, calcular campos derivados y resúmenes, mezclar y operar sobre datos de distintas fuentes (ficheros, tablas, bases de datos, etc..). Transporte de los datos: Se trata de transportar los datos desde los sistemas de origen al Data Mart y utilizar las unidades de carga para añadir los datos a la base de datos del Data Mart. 49 2.9. Herramientas de acceso Independientemente de la arquitectura empleada para almacenar los datos, las herramientas de acceso a los datos (también conocidas como herramientas de presentación o herramientas front-end) son esenciales para acceder y analizar los datos en el Data Mart. El valor de un Data Mart es difícil de determinar por la habilidad del usuario para extraer la información más significativa sobre la cual se toman las decisiones del negocio. Un interfaz de usuario efectivo minimiza el número de acciones de usuario requeridas para obtener el resultado deseado por lo que deberá estar navegando intuitivamente a no ser que el usuario memorice los comandos. Las herramientas de acceso a la información pueden soportar acceso, análisis, visualización y data mining de los datos tanto de una forma predefinida como ad hoc. Acceso predefinido La mayoría de los accesos predefinidos son realizados a través de aplicaciones que han sido específicamente escritas para presentar vistas de los datos almacenados en el Data Mart. Los lenguajes de 4ª generación (4GL) se pueden utilizar para desarrollar aplicaciones que realicen análisis complejos de los datos, presenten los resultados para el análisis y conocimiento de los trabajadores, y encuentren las necesidades de los informes operacionales. Estas aplicaciones generalmente están destinadas a necesidades específicas de trabajadores individuales o grupos de trabajo. 50 Normalmente las consultas complejas son desarrolladas por profesionales de IT y son establecidas como rutinas predefinidas que pueden ser ejecutadas bajo de demanda por usuarios del negocio o automáticamente en intervalos programados. Cada vez más, las consultas e informes predefinidos están siendo publicados en la Intranet de la compañía para que los usuarios puedan ejecutarlos más fácilmente. Acceso Ad Hoc Las aplicaciones de acceso Ad hoc permiten a los usuarios el recoger o ver datos de una forma no predeterminada. Hay disponibles varias categorías de herramientas de acceso ad hoc; cada una de ellas se adapta a un tipo distinto de usuario final. Queries básicas y reporting En este tipo de herramientas el usuario accede directamente a la estructura de las bases de datos relacionales para construir consultas e informes, vía SQL (estándar para el acceso a las bases de datos relacionales). El SQL es un lenguaje muy extendido entre los programadores, pero no tanto entre los usuarios finales. Aunque estas herramientas escondan en cierta forma los comandos del SQL, sigue siendo necesario tener claro el modelo relacional en cuanto se quiere hacer algún informe complejo, por lo que su utilización directa no esta recomendada a usuarios finales. Queries y reporting avanzado Estas herramientas aportan una visión temática de las bases de datos relacionales (visión de negocio), mediante la cual el usuario final tiene una visión menos “técnica” del Data Mart. 51 Este tipo de herramientas pone una capa de términos que le son más familiares a los usuarios finales y establece, a priori, las interrelaciones de las tablas del Data Mart, de forma que sea más sencillo. Aún así, sigue siendo la estructura relacional básica la que subyace en estas herramientas. Data Mining Data Mining es el proceso consistente en el descubrimiento previo de la información desconocida de los datos residente en el Data Mart. Descubriendo nuevas correlaciones, patrones y tendencias se pueden acoplar mediante la aplicación de técnicas sacadas de la investigación en inteligencia artificial, estadística y matemáticas, y técnicas de modelado para analizar grandes cantidades de datos almacenados en el Data Mart. Al contrario que las herramientas de acceso ad hoc y predefinidas que realizan un análisis de los datos top-down, el data mining realiza un análisis bottom-up. Las herramientas de acceso ad hoc y predefinidas permiten a los usuarios probar sus teorías o hipótesis explorando los datos y permiten recoger rutinas de datos operacionales del Data Mart. El data mining, sin embargo, identifica nuevos hechos o conclusiones basadas en la criba de los datos para descubrir patrones o anomalías. Las herramientas de data mining requieren más datos granulares que otras herramientas de acceso a la información. Un hardware potente (en particular servidores de multiproceso simétrico (SMP) y procesadores paralelos (MPP)) junto con los avances en inteligencia artificial y la tecnología en redes neuronales hace del data mining una extensión válida para muchas iniciativas del Data Mart. Muchos de los productos software de inteligencia artificial se venden como herramientas de data mining. El aprendizaje de la máquina - esto es, el aprender 52 desde la experimentación y la realización de datos basados en la generalización es en lo que se centra el data mining. Con el término inteligencia artificial nos referimos a la habilidad de un programa para reconocer patrones, tomar decisiones basadas en datos incompletos y modificar esas decisiones según se adquieren nuevos datos. Las herramientas de acceso genéricas suelen adaptarse bien a las redes locales más comunes, fundamentalmente aquellas basadas en el estándar TCP/IP. Estas funcionan en la mayoría de los casos en el PC del usuario final (en entornos Windows, fundamentalmente), en lo que es la presentación de los datos, aunque normalmente los cálculos masivos contra los datos se realizan en el servidor del Data Mart, de forma transparente para los usuarios finales. Este es el esquema más sencillo de utilización que se denomina arquitectura de 2 niveles (2-tiers): presentación en Pc y motor de datos en el servidor Data Mart. El problema que presentan las herramientas de 2 niveles es que cada vez que se realiza un petición al Data Mart, el Pc se queda en espera y sin poder ser utilizado por el usuario mientras se resuelve la pregunta o consulta en el servidor. Además, este tipo de arquitectura dificulta la compartición de análisis entre distintos usuarios y no permite, generalmente, planificar análisis periódicos sin necesidad de lanzarlos cada vez que se necesitan. Para resolver estos problemas, y otros de otra índole, existen herramientas que funcionan bajo una arquitectura de 3 niveles (3-tiers), la cual incorpora un elemento intermedio: un servidor central o departamental. Mediante este servidor intermedio, se cubren las carencias anteriores, permitiendo a los usuarios optimizar la utilización de su estación de trabajo y, por tanto, la “imagen” del funcionamiento del Data Mart. 53 Sin embargo, el data mining todavía no es muy utilizado debido a la especial naturaleza de las herramientas y el grado de sofisticación y conocimientos requeridos por el usuario del data mining. Las herramientas de data mining usan algoritmos automatizados y sofisticados. Algunas herramientas ofrecen uno o dos algoritmos mientras que otras ofrecen una amplia gama de capacidades de data mining. Los algoritmos de data mining ofrecen un mecanismo para estudiar las relaciones entre los conjuntos de datos. Los métodos asociativos intentan formar reglas que describen resultados basados en los datos de entrada. Los métodos de estadística clásicos, como los modelos de regresión, son los más utilizados. 2.10. Repositorio/Metadata Metadatos son datos acerca de los datos. Es el punto central de referencia para el diseño, construcción, recolección y control de los datos del almacén. Definen el contenido del Data Mart y proveen ambas vistas del negocio (para el uso de herramientas de acceso de datos) y las vistas técnicas de los datos (para el uso de las herramientas de generación del almacén). Los metadatos describen como está organizado el almacén - que datos están disponibles, cuál es su fuente, cada cuanto se actualiza, donde está situado y como se accede. Para identificar que es lo que se quiere del Data Mart, los usuarios deben buscar a través de un catálogo de datos del mismo modo que los clientes buscan en un catálogo de un almacén. El Metadata es como el "mapa de carreteras" de los datos del DM. De la misma manera que en una biblioteca se utiliza el catálogo para la localización de loa títulos, el Metadata establece la ubicación y el significado de los diferentes objetos 54 informativos del DM. Pero el ejemplo va más lejos: El DM debe mantener un catálogo de los objetos que contiene. Los usuarios finales asumen el rol de clientes de esta biblioteca y solicitan información basada en consultas al Metadata. Estas consultas se refieren especialmente a la ubicación de los datos en el DM. Uno de los problemas con el que se encuentran los distintos usuarios de un Data Mart es saber qué es lo que hay en él y como acceder a lo que quieren. El clásico ejemplo de la biblioteca es muy claro: cuando voy a buscar un libro o una serie de libros sobre un tema en concreto no recorro sistemáticamente toda la biblioteca hasta que lo encuentro, sino que uso el catálogo, mediante el cual puedo localizar, por distintos criterios, el lugar donde se encuentra lo que busco. Esta necesidad es común con el Data Mart, ya que el usuario final que accede abiertamente al Data Mart puede tener serios problemas a la hora de encontrar lo que quiere, por ejemplo las tablas relacionadas con la información de clientes, o gráficos que reflejen la evolución de una determinada variable. Para eso existen los llamados, metadatos, repositorios o catálogos, que contienen la información sobre los datos contenidos en el Data Mart y ayudan a encontrar lo que se quiere. Un repositorio debería aportar la siguiente funcionalidad: Catalogar y describir la información disponible, especificar el propósito de la información, establecer quién es el propietario de la información, relacionar las estructuras técnicas de datos con la información de negocio, establecer relación con los datos operacionales así como las reglas de transformación, limitar la validez de la información. Todos estos aspectos deberán residir típicamente en una serie de tablas (normalmente relacionales) que, mediante un programa de acceso a las mismas, 55 permitan buscar bajo distintos criterios lo que se desee. Los objetivos que deben cubrir los metadatos, según el colectivo al que va dirigido, serían: a) Soportar al usuario final, ayudándole a acceder al Data Mart con su propio lenguaje de negocio, indicando que información hay y que significado tiene. Ayudar a construir consultas, informes y análisis, mediante herramientas de navegación. b) Soportar a los responsables técnicos del Data Mart en aspectos de auditoría, gestión de la información histórica, administración del Data Mart, elaboración de los programas de extracción, especificación de la entrega de información a otros entornos. Los metadatos técnicos son utilizados por los administradores, desarrolladores y herramientas software, las cuales ofrecen una descripción técnica de los datos y operaciones. Además incluyen lo siguiente: De dónde vienen los datos: Fuentes de datos internas y externas, sistemas de registros. Cómo se han preparado los datos: Mapeo de los datos, procedimientos de consolidación, reglas de transformación, métodos y reglas de agregación. Cómo están organizados los datos: Estructura lógica y contenido del Data Mart, incluyendo los metamodelos. Cómo están almacenados los datos: Estructura física y contenido del Data Mart. 56 Cómo están mapeados los datos: Transformar a un formato de base de datos multidimensional desde un formato de base de datos relacional. Prioridad/Administración de los datos: A quién pertenecen los datos, quién es el responsable de los datos. Seguridad: Quién puede acceder a los datos y cómo se pueden utilizar (solo agregación, a nivel de detalle, etc...). Información del sistema: Fecha de la última actualización, extracción de históricos, criterios de almacenamiento (incluyendo periodos de depuración y conservación) y estadísticas de uso de los datos. Información de organización: Horarios de envío, horarios detallados de la extracción, transformación y carga de los datos. Información de distribución: Reglas de replicación y distribución. A diferencia de los metadatos, los metadatos de negocio proveen descripción del negocio, de lo que contiene el almacén y como son utilizados por los analistas del negocio y usuarios finales. Describen lo siguiente: Que datos están disponibles. Dónde están los datos: Localización y instrucciones de acceso. Qué significan los datos: Descripción del contenido de los datos, cómo interpretar esos valores, definiciones y descripciones para los datos, detalles de cómo se deben derivar o calcular los datos. Cómo acceder a los datos: Modelo de negocio de los datos, índices, claves. 57 Informes y consultas predefinidas. Cómo están actualmente los datos: Cuándo fueron actualizados los datos por última vez y tiempo de validez. Las herramientas de administración de los metadatos asisten en sincronización automática a los metadatos utilizados por varios componentes del Data Mart (generación del almacén, mantenimiento de los datos, y herramientas de acceso a los datos). Desafortunadamente, la administración de los metadatos no está ampliamente apoyada por las herramientas disponibles en el mercado, y el sincronizar los metadatos normalmente se restringe a importar y exportar metadatos (requiere una sincronización manual) entre los componentes. Además de la sincronización del metadato, las herramientas de administración de metadatos apoyan las versiones, el cual es importante para el acceso a los datos históricos que deben diferir en formato de los datos actuales. Los metadatos almacenan los formatos de los datos al mismo tiempo que archivan los datos. Actualmente, los repositorios o metadatos del Data Mart están en plena explosión, si bien es cierto que se ha generado bastante confusión al respecto, debido a que los fabricantes de herramientas de acceso, bases de datos y extracción han utilizado su propio repositorio con funcionalidad parcial. Recientemente, se han creado distintos grupos entre los distintos proveedores para definir los estándares que deben soportar los repositorios y una serie de especificaciones para que se puedan integrar los de las distintas herramientas, de forma que se pueda ir llegando a un catalogo realmente operativo y que cubra las expectativas, puesto que llegará a ser una de las piezas clave del Data Mart. 58 Esta nueva unidad debe permitir que el área de sistemas de respuesta a las necesidades de información de gestión de la empresa, reduciendo los costes y esfuerzos en todas las aplicaciones de apoyo a la toma de decisiones. Esto requiere conseguir que esta información de gestión sea: a) Accesible: Hay que conseguir que la información pueda estar disponible por los usuarios desde sus propios puestos de manera sencilla. b) Correcta: Sistemas ha de asegurarse de que los datos que va a utilizar en el Data Mart sean correctos, o, al menos, quede establecido explícitamente el grado de incorrección que se pueden encontrar los usuarios, ya que muchas veces se va a saber que algunos datos tienen ciertos problemas, lo que supondrá incorporar ciertos procedimientos de calidad. c) Uniforme: La información ha de aparecer uniformemente a los usuarios para evitar equivocaciones o interpretaciones distintas. d) Actualizada: La nueva unidad ha de preocuparse de que, además, la información esté lo más actualizada posible e indicar, cuando sea necesario, el nivel de actualización de los datos que se pueden acceder en cada momento. 2.11. Beneficios del Data Mart A continuación se enlistan algunos beneficios que brinda la creación de Data Marts, y en seguida, se numeran de manera general en beneficios tangibles e intangibles: Convertir los datos operacionales en información relacionada y estructurada llegando a generar el “conocimiento” necesario para la toma de decisiones. 59 Centralizar y homogeneizar la información de gestión, evitando respuestas distintas a la misma pregunta. Permitir la visión global de la información en base a los conceptos de negocio que tratan los usuarios. Reducir costes evitando costosas extracciones manuales, así como múltiples “islas de información”, permitiendo dedicar recursos a otras tareas. Mejorar la calidad de la gestión a partir de información relevante y con un significado homogéneo. Establecer una base única del modelo de información de las empresas y organizaciones. 1. Beneficios tangibles: los que pueden calcularse a partir de las mejoras en el proceso de información y reducción en los procesos de reporting. Es importante analizar los costes que suponen las situaciones basadas en informáticas federadas: desde los costes informáticos (por mala utilización de las redes distribuidas y por el proceso de interfases) hasta el coste que representa a las redes usuarias el esfuerzo de un tratamiento informático por personal propio. 2. Beneficios intangibles: se debe insistir en demostrar los relacionados con la mejora del servicio a los usuarios, que redundará en una mejora en la toma de decisiones, proporcionándoles mejor información más fácilmente accesible, actualizada, correcta, entre otros. 60 CAPITULO III. EL DATA MART COMO AUXILIAR EN EL PROCESO DE TOMAS DE DECISIONES 2.El Data Mart como auxiliar en el proceso de tomas de decisiones Desde que se inició la era de la computadora, las organizaciones han usado los datos desde sus sistemas operacionales para atender sus necesidades de información. Algunas proporcionan acceso directo a la información contenida dentro de las aplicaciones operacionales. Otras, han extraído los datos desde sus bases de datos operacionales para combinarlos de varias formas no estructuradas, en su intento por atender a los usuarios en sus necesidades de información. Ambos métodos han evolucionado a través del tiempo y ahora las organizaciones manejan una data no limpia e inconsistente, sobre las cuales, en la mayoría de las veces, se toman decisiones importantes. La gestión administrativa reconoce que una manera de elevar su eficiencia está en hacer el mejor uso de los recursos de información que ya existen dentro de la organización. Sin embargo, a pesar de que esto se viene intentando desde hace muchos años, no se tiene todavía un uso efectivo de los mismos .La razón principal es la manera en que han evolucionado las computadoras, basadas en las tecnologías de información y sistemas. La mayoría de las organizaciones hacen lo posible por conseguir buena información, pero el logro de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de hardware como de software. Reunir los elementos de datos apropiados desde diversas fuentes de aplicación en un ambiente integral centralizado, simplifica el problema de acceso a la 62 información y en consecuencia, acelera el proceso de análisis, consultas y el menor tiempo de uso de la información. Las aplicaciones para soporte de decisiones basadas en un Data Mart, pueden hacer más práctica y fácil la explotación de datos para una mayor eficacia del negocio, que no se logra cuando se usan sólo los datos que provienen de las aplicaciones operacionales (que ayudan en la operación de la empresa en sus operaciones cotidianas), en los que la información se obtiene realizando procesos independientes y muchas veces complejos. El Data Mart viene a ser una alternativa de tecnología, que permite manejar la información para la toma de decisiones acertadas en todos los niveles y áreas de la organización, desde la extracción, depuración y transformación de datos, hasta la explotación y distribución de la información mediante herramientas de fácil uso para los usuarios. En el ámbito empresarial, las decisiones se toman en alguno de los tres niveles organizacionales: estratégico, táctico u operativo (Figura 3.1.). Las decisiones estratégicas se centran en la dirección del negocio a largo plazo siendo labor de los ejecutivos de alta gerencia. Las decisiones tácticas corresponden a los gerentes de nivel medio y se enfocan en la planeación, análisis y producción de proyectos; a nivel operativo los empleados toman decisiones cotidianas que se requieren para convertir los planes en acción, (Intelligence & Business Solutions, 2007). 63 Figura 3.1. Niveles organizacionales y su respectiva toman decisiones. Fuente: Intelligence & Business Solutions, 2007. Según los requerimientos de información y su funcionalidad, las herramientas de Inteligencia de Negocios, aplican en cada uno de los niveles de la organización. Las soluciones de Inteligencia de Negocios, en este caso el Data Mart, proporcionan un fácil acceso a los datos críticos dentro de la empresa necesarios para el análisis, así como un medio para integrar los datos corporativos con los procesos de toma de decisión a nivel estratégico y táctico; también permite a la empresa afinar la toma de decisiones cotidiana, asegurando que cada grupo operativo tenga acceso a la información necesaria para contestar preguntas específicas y distribuir dicha información a todos los niveles de la organización. Generalmente, dos ideas básicas dirigen la creación de un almacén de los datos: Integración de los datos de bases de datos distribuidas y diferentemente estructuradas, que facilita una descripción global y un análisis comprensivo en el almacén de los datos. 64 Separación de los datos usados en operaciones diarias de los datos usados en el almacén de los datos para los propósitos de la divulgación, de la ayuda en la toma de decisiones, para el análisis y para controlar. 3.1. Beneficios para las organizaciones Información centralizada. BI extrae información de distintas fuentes de datos operacionales, la transforma y consolidad de acuerdo a las necesidades de los usuarios y los depositan en el Data Mart o Data Warehouse. Visión 360º del negocio. Con eficientes reportes y análisis de información, los usuarios pueden ver resultados a través de las diferentes variables del negocio y visualizar oportuna y consistentemente todos los aspectos relevantes de la organización. Un sólo juego de datos. Con definiciones comunes de datos los usuarios gastarán menos tiempo discutiendo sobre los datos, utilizándolo en analizarlos y decidiendo que acciones tomar. Disminución del tiempo para la toma de decisiones. Con soluciones de BI, los usuarios generarán su propia información en menor tiempo con autonomía de accesos a la información. Mejorar la cadena de valor. Transformando los datos en información y compartiéndola con todos los componentes en la cadena de valor, tomadores de decisiones, empleados, clientes, proveedores y asociados tendrán la información que necesitan para trabajar más efectivamente. 65 3.2. Estrategia de Reporting Las necesidades de información empresarial están en constante crecimiento debido a una serie de motivos: Rápida evolución del mercado. Fuerte competencia en todos los sectores. Toma de decisiones tácticas y estratégicas basadas en información corporativa fiable y coherente. Control riguroso de los parámetros de gestión de la empresa con objeto de minimizar costes y maximizar beneficios sin perder la competitividad. Implantación de soluciones integradas (ERP,s, CRM,s, etc.) que establecen un alto grado relacional entre los datos permitiendo la obtención de informes de un alto valor añadido. Ibarzabal, J., 2006. El conocimiento actual de los usuarios, junto con la utilización de las herramientas adecuadas, permiten aprovechar convenientemente el alto volumen de información disponible en las Bases de Datos. 3.3. Tipología de informes Los informes que se necesitan en el mundo empresarial responden, fundamentalmente, a dos tipologías: Informes de gestión, cuya información es necesaria para el día a día. Dependiendo de su periodicidad de uso y utilidad, pueden necesitar el acceso a datos “vivos” registrados en las Bases de Datos de Gestión para conocer el estado actual de la información, o bien acceder a los valores que presentaban los datos congelados a fin de semana, mes, etc. 66 Informes y consultas para la toma de decisiones. Utilizan datos agregados que son analizados conjuntamente con datos históricos y necesitan conocer el estado de los datos de gestión en un momento determinado en el tiempo, lo que supone sacar una “foto” de los mismos transfiriéndolos a otra Base de Datos -Data Warehouse o Data Mart- (Barzabal, J.) De lo anteriormente enunciado se deduce que la mayor parte de los Informes de Gestión requeridos para el correcto funcionamiento de la Empresa serán obtenidos directamente a partir de las Bases de Datos de Gestión, mientras que el resto de Informes de Gestión que pudieran necesitarse, así como los precisados para los Análisis de Información de tipo decisional, serán elaborados a partir de una Base de Datos externa (Data Warehouse/Data Mart) que será alimentada mediante la carga y transformación de los datos extraídos, con la periodicidad que se determine, desde las Bases de Datos de Gestión. 3.4. Alternativas Tecnológicas En referencia a las opciones de diseño existentes para la Base de Datos externa a las de gestión, hay una primera elección en función de la tecnología a utilizar: Tecnología MOLAP (Multidimensional On Line Analytical Processing). Se apoya en MDDBMS,s (Bases de Datos Multidimensionales) que tienen como característica principal que los datos son cargados en cubos conteniendo celdas precalculadas que facilitan la rapidez en la extracción de dichos datos, aunque dificultan la escalabilidad y disminuyen la flexibilidad. La figura 3.2 muestra el proceso de esta tecnología. 67 Figura 3.2. Tecnología MOLAP. Fuente: Ibarzabal, J., 2007. Tecnología ROLAP (Relational On Line Analytical Processing). Se apoya en RDBMS,s (Bases de Datos Relacionales) que almacenan los datos en tablas relacionales indexadas, mejorando la escalabilidad y flexibilidad de la solución en perjuicio de la velocidad de acceso para grandes volúmenes de información. En la figura 3.3, el esquema de la tecnología ROLAP. Figura 3.3. Tecnología ROLAP. Fuente: Ibarzabal, J. 68 Tecnología HOLAP (Hybrid On Line Analytical Processing) que accede a ambos tipos de Bases de Datos. Para acceder a los datos a nivel detalle utiliza las RDB.s y para acceder a datos agregados a las MDDB,s. Hoy en día dicha tecnología consiste en el uso selectivo de Vistas Materializadas que son tablas relacionales precreadas con datos agregados que se utilizan en caso de consultas sobre dichos agregados, lo que mejora la rapidez de la obtención de la información requerida. 3.5. Alternativas de Diseño Una vez elegida la tecnología hay que seleccionar la alternativa de diseño a utilizar en relación con las posibilidades existentes a la hora de agrupar los datos para obtener un buen rendimiento de acceso. Existen une serie de posibles alternativas de diseño: 1. Creación de varios Data Marts independientes, uno por cada dominio o fuente de información, y definición de una Capa Usuario1 por cada uno de estos Data Marts. 2. Creación de un único Datawarehouse que englobe todos los datos, del que se extraigan diferentes Data Marts, uno por cada dominio o fuente de información y definición de una Capa Usuario por cada Data Mart. 3. Creación de un único Datawarehouse con definición de una única Capa Usuario. 4. Creación de un único Datawarehouse con definición de varias Capas Usuario. 1 Capa Usuario. Es una vista usuario de la base de datos que permite su aislamiento respecto de la complejidad física de la misma. No incluye ningún dato físico. Es una agrupación lógica de los datos adaptada a los conocimientos y filosofía del Usuario. 69 A continuación se exponen las ventajas e inconvenientes de las opciones anteriormente expuestas: Data Marts independientes (Figura 3.4.) Figura 3.4. Esquema consistente en el uso de Data Marts independientes. Fuente: Ibarzabal, J. Ventajas: Rapidez del retorno de la inversión realizada. Desarrollo más rápido debido a que se afronta un conjunto de datos de menor entidad y complejidad. Rapidez de acceso a la información soportada. Ventaja que adquiere importancia a partir de volúmenes de datos notables. Inconvenientes: Redundancias indeseadas de datos. Cada Data Mart ha de ser totalmente independiente por lo que habrá tablas y/o datos que deberán estar 70 repetidos, lo que conlleva un incremento de espacio ocupado y graves problemas de coherencia. Lo anteriormente expuesto provoca la existencia de procesos de extracción, manipulación y carga redundantes con el incremento de recursos y complejidad que conlleva. Imposibilidad de asegurar la consistencia de los datos almacenados. Dificultad para la realización de consultas que relacionen datos situados en diferentes Data Marts. Depende de las herramientas de Reporting/Análisis de Información utilizadas ya que algunas permiten la realización de informes multiconsulta accediendo a diferentes bases de datos relacionadas entre sí. Data Warehouse único con varios Data Marts Opción también denominada Data Marts dependientes (Figura 3.5). Figura 3.5. Esquema consistente en la creación de un Data warehouse y a partir de éste se extraigan datamatrs. Fuente: Ibarzabal, J. 71 Ventajas: Se asegura la coherencia y consistencia de la información registrada así como la inexistencia de redundancias indeseadas. Permite un desarrollo en etapas, una vez haber realizado el diseño global del DW, o Modelo Empresarial, abordando la construcción de los Data Mart,s secuencialmente La gestión de los Data Marts es más cómoda ya que las reglas que rigen la extracción, carga y transformación de los datos son comunes. Inconvenientes: Diseño más complejo debido al enfoque global inicial que se aplica. Puede ser difícil resolver los problemas de prioridades que surjan entre las diferentes unidades de negocio involucradas. Datawarehouse único con una Capa Usuario Dicha Capa Usuario englobaría todos los datos considerados (Figura 3.6). Figura 3.6. Esquema consistente en la creación de un Data warehouse con una única capa Usuario. Fuente: Ibarzabal, J. 72 Ventajas: Simplicidad de diseño. Inconvenientes: Esquema relativamente complejo, que supondría un inconveniente a la hora de seleccionar los datos que se deseen visualizar en una consulta determinada, ya que la Capa Usuario contendría un gran número de datos que no estarían involucrados en la búsqueda y/o estudio deseado. Su grado de complejidad puede llevar a la paralización de su desarrollo debido al excesivo volumen de información a considerar. Administración más compleja. Problemas de actualización de los datos al provenir de fuentes diversas cuyas cronologías de actualización no tienen por qué ser coincidentes. Datawarehouse único con varias Capas Usuario Figura 3.7. Esquema consistente en la creación de un Data warehouse con varias capas Usuario. Fuente: Ibarzabal, J. 73 Ventajas: Existencia de capas usuario conteniendo, exclusivamente, los datos y objetos que el usuario desee, lo que conlleva una mayor facilidad de utilización del Sistema por parte de los usuarios finales. Mayor facilidad de administración de las Capas Usuario ya que el número de tablas involucradas es menor. Más simplicidad en la definición de perfiles de usuario para la protección de la confidencialidad de la información Inconvenientes: Complejidad de diseño. Su grado de complejidad puede llevar a la paralización de su desarrollo debido al excesivo volumen de información a considerar. 3.6. Opción aconsejada La Estrategia de Reporting/Análisis de Información debería basarse en los siguientes principios: Utilización de una herramienta de análisis de información y generación de informes de uso sencillo que permita que los usuarios no informáticos sean capaces de elaborar informes de un cierto grado de complejidad, así como visualizar los ya predefinidos. Contemplar dos niveles de utilización de dicha herramienta en función de la tipología de los informes a producir: 1. Accediendo directamente a las Bases de Datos de Gestión. 2. Accediendo a un DW/DM. Como tecnología a utilizar en el DW/DM usar ROLAP/HOLAP que proporciona una mayor flexibilidad a la hora de incorporar datos 74 posteriormente a su primer diseño y que presenta la posibilidad de utilizar vistas materializadas con objeto de mejorar los tiempos de acceso. Contemplar varias etapas hasta alcanzar el total desarrollo de la estrategia de reporting: 1. Elegir un conjunto homogéneo de datos pertenecientes al área empresarial que se considere como prioritaria, diseñando una Capa Usuario que permita el acceso directo a las Bases de Datos de Gestión y otra Capa Usuario que habilite el acceso al Data Mart. 2. Una vez haberse familiarizado los usuarios con el primer Data Mart y haber podido extraer conclusiones a partir de su utilización, realizar, de manera iterativa, las tareas anteriores para los diferentes conjuntos homogéneos de datos contemplados. 3. Plantearse la necesidad de otro tipo de datos (históricos, globalizados, etc.) imprescindibles para ayudar a la toma de decisiones estratégicas. Como alternativa de diseño usar una variante de la alternativa de Data Warehouse único con varios Data Marts, que supone el diseño, a nivel global, no tanto del DW Corporativo como del Modelo de Empresa que contenga todos los datos que vayan a precisarse (a nivel detalle) y que establezca las reglas y estrategias comunes a todos los Data Marts que se creen posteriormente. La variante de la alternativa Data Warehouse único con varios Data Marts, elegida como idónea, nos asegura la consistencia y no redundancia de los datos almacenados resolviendo la elección de las fuentes a utilizar para la extracción de los datos y estableciendo pautas y políticas unificadas de refresco, versiones, granularidad, definición de llaves, etc. 75 En caso de que la aproximación elegida sea desechada por el mayor esfuerzo que conlleva y los mayores plazos de ejecución que comporta, se podría abordar la Estrategia de Reporting mediante la alternativa de creación de Data Marts independientes, aunque siempre teniendo en cuenta que esa aproximación no garantiza la inexistencia de redundancias indeseadas, y por tanto, la coherencia e integridad de los datos almacenados en los diferentes Data Marts, debido a la falta de visión global que conlleva el análisis y construcción de los Data Marts de manera independiente. 76 CAPÍTULO IV. EJEMPLO DEL DATA MART UTILIZADO COMO PLATAFORMA EN EL SISTEMA DE INFORMACIÓN PARA LA TOMA DE DECISIONES DE LA CONSEJERÍA DE ECONOMÍA Y HACIENDA DE ANDALUCÍA, COMUNIDAD AUTÓNOMA ESPAÑOLA. 77 3.Sistema de Información para la Toma de Decisiones teniendo como plataforma un DATA MART Descripción El Data Mart de la CEH está enfocado para la explotación de datos del sistema Júpiter2, en concreto, de los datos de Elaboración de los Presupuestos de la Junta de Andalucía y de la Ejecución de dichos presupuestos. No obstante, está prevista o en desarrollo, su expansión a la explotación de datos de SUR y de otros Subsistemas de Júpiter. La explotación se realiza extrayendo los datos del sistema transaccional y almacenándolos en el Data Mart de forma que puedan ser consultados para responder a las cuestiones planteadas. Durante dichas consultas, el Data Mart permite organizar o agrupar la información de diferentes formas. Por ejemplo, el Data Mart contiene datos pertenecientes a diferentes períodos de tiempo, lo cual permite comparar información relativa a dos momentos concretos. Discoverer User La herramienta de explotación de datos Discoverer User: 2 JÚPITER es el Sistema Integrado de Gestión Presupuestaria, Contable y de Tesorería de la Junta de Andalucía. Su utilización como herramienta de gestión, no sólo por todas las unidades orgánicas de la Consejería de Economía y Hacienda, sino también por todos los órganos de gestión económica del resto de Consejerías y Organismos Autónomos de la Junta de Andalucía, ha posibilitado el buen desarrollo de la actividad económico-financiera de la Junta de Andalucía desde su implantación en 1993, modernizando e incrementado los niveles de control de dicha actividad de forma notable. 78 Hace posible que el usuario final cree sus propios informes y lleve a cabo análisis multidimensionales sin necesidad de comprender SQL o estructuras de bases de datos. Permite buscar la información sin escribir consultas, mediante el uso de técnicas de análisis multidimensional. Permite manipular los resultados de diferentes maneras, brindando un cuadro completo y preciso de los negocios. Permite, a través de Discoverer Viewer o Plus, acceder y/o generar nuevos informes desde estaciones de trabajo remotas, dando la posibilidad de explotar el Data Mart a distancia, siendo necesarios para ello únicamente una conexión a Internet y los permisos necesarios. Brinda un entorno seguro de trabajo, permitiendo discriminar la información a la que cada perfil de usuario puede acceder. Objetivos El objetivo principal del Data Mart es facilitar la explotación de datos del sistema JÚPITER de forma que estos puedan asistir al usuario en el seguimiento de la Elaboración del Presupuesto, a nivel de aplicaciones presupuestarias y de proyectos de inversión, y de la Ejecución del Presupuesto, a nivel de aplicaciones presupuestarias, proyectos de inversión, pagos, fondos europeos y programación y certificación de fondos europeos. Ámbito El Data Mart de la Consejería de Economía y Hacienda puede ser explotado por todo el conjunto de Órganos y Unidades Administrativas de la Junta de Andalucía con competencias en materia de gestión económica. Las Unidades directamente afectadas en la Consejería de Economía y Hacienda son: Intervención General Dirección General de Planificación 79 Dirección General de Tesorería y Política Financiera Dirección General de Presupuestos Dirección General de Patrimonio Dirección General de Fondos Europeos. El resto de las Consejerías y Organismos Autónomos puede hacer uso de los datos almacenados correspondientes a su ámbito. Subsistemas Elaboración del Presupuesto Ejecución del Presupuesto Fondos Europeos Equipo de trabajo Formado por: 1 Jefe de Proyecto 1 Analista Analistas-Programadores 1 Programador Hardware Arquitectura Cliente/Servidor Equipo Mainframe Sun 5500 Tamaño y uso Este proyecto está en explotación y en nuevos desarrollos actualmente con lo que el tamaño y uso es algo que cambia constantemente. Actualmente hay 20 usuarios; no tiene sentido hablar de informes porque con la excepción de 20 predefinidos, el resto es definido por el usuario a su gusto. 80 Figura 4.1.Procesos y Actores del Data Mart. Fuente: Junta de Andalucía Elaboración del Presupuesto Responsable funcional Dirección General de Presupuestos Usuarios Órganos Gestores de Consejerías y Organismos Autónomos, Dirección General de Presupuestos Descripción Este Data Mart tiene como objetivo ser un Sistema de Soporte a la decisión de los Datos para la Elaboración del Presupuesto de la Junta de Andalucía. Por tanto, permite realizar un seguimiento sobre la elaboración del presupuesto a nivel de aplicaciones presupuestarias y proyectos de inversión. En principio, dicho seguimiento se realizará mediante una serie de informes predefinidos que explotan la información recogida en el Data Mart. Ello no impide que dicha información pueda ser explotada de otras formas indicadas por el 81 usuario del Data Mart. Los informes predefinidos son: Liquidación del Presupuesto de Gastos por Programa para cada una de las Políticas de Gastos por ejercicio. Liquidación del Presupuesto de Gastos por Secciones - Organismos Autónomos y por Capítulos. Presupuesto de Gastos por Secciones consolidadas. Muestra la desviación absoluta y relativa entre el Crédito Inicial y el Presupuesto de cada una de las Consejerías en un período determinado. Presupuesto de Gastos por Secciones Presupuestarias. Muestra la desviación absoluta y relativa entre el Crédito Inicial y el Presupuesto de cada una de las Secciones, Organismos Autónomos y Centros en un período determinado. Proyectos de Inversión por Programas y Provincias ejecutoras. Variación del Presupuesto de Gastos por Capítulos. Variación del Presupuesto de la política de Gastos por Capítulos con su agrupación en Subgrupos y grupos de Capítulos. Variación del Presupuesto de Gastos por Programa de la Política de Gastos. Variación del Presupuesto de Gastos por Secciones - Organismos Autónomos y por Capítulos. Variación del Presupuesto de Ingresos por Secciones - Organismos Autónomos y Fuente de Financiación. Ejecución del Presupuesto Responsable funcional Dirección General de Presupuestos 82 Usuarios Órganos Gestores de Consejerías y Organismos Autónomos, Dirección General de Presupuestos, Intervención General, Dirección General de Planificación Descripción Este Data Mart permite realizar, una vez cargado en la Contabilidad el presupuesto elaborado para el ejercicio, un análisis sobre la ejecución de éste a partir de las diferentes fases contables de ingresos y gastos. El análisis se efectúa en base a las dimensiones, que posibilitan el desglose de la información de acuerdo con los criterios que se determinen, y de los datos (variables) objeto del análisis. Dicho análisis se realizará a nivel de aplicaciones presupuestarias, proyectos de inversión, pagos, fondos europeos y programación y certificación de fondos europeos. Las dimensiones utilizadas a nivel de Aplicaciones Presupuestarias son la temporal, Secciones y Organismos Autónomos, Servicios, Provincias, Clasificación Funcional, Clasificación Económica, Medidas, Agrupación Presupuestaria, Unidad Administrativa, Gestor Pagador, Aplicación Vinculante, Aplicación Vinculante v2 y Financiación afectada. Entre las variables que se desean analizar se encuentran el Crédito Inicial Oficial, Incorporaciones de Remanentes, Aumentos o Disminuciones por Transferencias o por Redistribuciones, Créditos Extraordinarios, Ampliaciones o Generaciones de Crédito Retenciones de Crédito, Autorizaciones con Crédito, Disposición de Gasto, Obligaciones Reconocidas, Pago Ordenado o Materializado, Obligaciones o Libramiento Pendientes de Pago a 1 de Enero, Importe a Justificar, Importe Justificado, Crédito Disponible o Definitivo, entre otros. 83 Por tanto, a este nivel se puede hacer seguimiento de: Cuenta de gastos públicos por aplicación: por mes, acumuladas, acumuladas con cambio de unidad, consolidada con cambio de unidad (figura 4.2). Cuenta de gastos públicos por vinculante: acumuladas, acumuladas con cambio de unidad, consolidado con cambio de unidad, por aplicación consolidada con cambio de unidad. Liquidación del presupuesto de gastos vinculante: por programas, por programas acumulado, por programas consolidado acumulado. Resumen de la ejecución de gastos por: sección, servicios, programas, capítulo ya sea sin acumular, acumulado o acumulado con cambio de unidad (Figura 4.3). Figura 4.2. Cuenta de gastos públicos por aplicación Fuente: Junta de Andalucía 84 Figura 4.3. Resumen de la ejecución de gastos Fuente: Junta de Andalucía Fondos Europeos Responsable funcional Dirección General de Fondos Europeos Usuarios Órganos Gestores de Consejerías y Organismos Autónomos, Dirección General de Presupuestos, Intervención General, Dirección General de Fondos Europeos, Dirección General de Planificación. 85 Descripción Este Data Mart permite realizar, una vez cargado en la Contabilidad el presupuesto elaborado para el ejercicio, un análisis sobre la ejecución de éste a partir de las diferentes fases contables de ingresos y gastos. El análisis se efectúa en base a las dimensiones, que posibilitan el desglose de la información de acuerdo con los criterios que se determinen, y de los datos (variables) objeto del análisis. Dicho análisis se realizará a nivel de aplicaciones presupuestarias, proyectos de inversión, pagos, fondos europeos y programación y certificación de fondos europeos. A nivel de fondos europeos, mediante las relaciones existentes entre las medidas (operaciones) y los proyectos de inversión y las aplicaciones, se puede obtener información referente a la ejecución de las actuaciones financiadas con fondos europeos como agregación de la contabilidad existente en el Júpiter a diferentes niveles en las fases de previsión, ejecución y certificación. Las dimensiones utilizadas a este nivel son la temporal, Secciones y Organismos Autónomos, Operaciones, Marco, Unidad Administrativa, Tipo de Presupuesto, Agrupación Presupuestaria y Provincias Ejecutoras. Entre las variables que se desean analizar se encuentran los acumulados de Crédito Inicial Oficial (I0), Autorizaciones con Crédito (A), Disposición de Gasto (D), Obligaciones Reconocidas (O), Propuesta de Pago (P), Pago Materializado, Total Modificaciones de Gastos, Retenciones de Crédito (RC) e Importe Pendiente Justificar, Crédito Definitivo, Previsiones Definitivas, Derechos Reconocidos (R, RI), Derechos Pendientes de Cobro a 1 de Enero, etc. Entre otros, se puede hacer el seguimiento de: 86 Cuenta de gastos por programa operativo, unidad administrativa o sección unidad administrativa (Figura 4.4). Estado de liquidación de ingresos por sección y operación o por sección y aplicación (Figura 4.5). Figura 4.4. Cuenta de gastos por programa operativo. Fuente: Junta de Andalucía Figura 4.5. Estado de liquidación de ingresos. Fuente: Junta de Andalucía 87 Ejecución del Seguimiento de Proyectos de Inversión Responsable funcional Dirección General de Planificación Usuarios Órganos Gestores de Consejerías y Organismos Autónomos, Dirección General de Planificación, Intervención General. Descripción Este subsistema realiza el control y seguimiento de la ejecución del Anexo de Inversiones del Presupuesto de la Comunidad Autónoma de Andalucía de cada ejercicio. El seguimiento presupuestario del Anexo de Inversiones se realiza en base al concepto de Proyecto de Inversión, que constituye la unidad mínima de información. Todo Proyecto de Inversión viene determinado por su clasificación orgánica, funcional y económica a nivel de artículo. Un proyecto puede tener una o más fuentes de financiación, controlándose sus créditos de forma diferenciada. Las fases contables de los Proyectos de Inversión serán idénticas a las del seguimiento del Presupuesto de Gastos. Mediante este Data Mart se pretende realizar un análisis y seguimiento sobre dicha ejecución del Anexo de Inversiones del Presupuesto. El análisis se efectúa en base a las dimensiones, que posibilitan el desglose de la información de acuerdo con los criterios que se determinen, y de los datos (variables) objeto del análisis. 88 Las dimensiones utilizadas a este nivel son las siguientes: Temporal, Secciones y Organismos Autónomos, Servicio, Provincias, Clasificaciones Económicas y Funcionales, Medias, Agrupaciones Presupuestarias, Unidades Administrativas, Fuentes de Financiación, Vinculantes de Proyectos de Inversión y Políticas. Entre las variables que se desean analizar se encuentran los acumulados de Crédito Inicial, Incorporaciones de Remanentes, Aumentos y Disminuciones por Transferencias, Aumentos y Disminuciones por Redistribuciones, Créditos Extraordinarios, Ampliaciones de Crédito, Generaciones de Crédito, Otras Generaciones de Crédito por Ingresos, Aumento Aplicaciones Plurianuales, Retenciones de Crédito, Autorizaciones con Crédito, Disposición de Gasto, Obligaciones Reconocidas, Propuesta de Pago, Pago Ordenado, Pago Materializado, Obligaciones Pendientes de Pago a 1 de Enero, Libramientos Pendientes de Pago a 1 de Enero, Crédito Disponible, Crédito Definitivo; para todas las variables anteriores se tendrá los valores en Oficial y en Previa, y como última variable se tendrá el Importe FCI correspondiente. Entre otros se puede consultar el seguimiento de: Cuenta de Gastos Públicos a Nivel de Seguimientos de Proyectos de Inversión (Figura 4.6). Créditos Iniciales por Vinculantes de Proyectos de Inversión. Ejecución de las Inversiones (Figura 4.7). Informe por Políticas. 89 Figura 4.6. Cuenta de Gastos Públicos. Fuente: Junta de Andalucía Figura 4.7. Ejecución de las Inversiones. Fuente: Junta de Andalucía 90 Visores Web Descripción Se implementó el acceso y explotación del los diferentes Data Marts en tres capas. A través de Discoverer Viewer los usuarios pueden acceder a la información desde su navegador a través de la red corporativa. Esta herramienta permite que el resto de las consejerías puedan acceder a toda la información disponible ejecutando los informes predefinidos de los distintos Data Marts, evitando así la necesidad de descargar, transferir y procesar los datos procedentes del Júpiter. Además de facilitar la información permite disponer de ella en tiempos aceptables y sobre todo, al no tener que ser reprocesada por el usuario, se está en condiciones de garantizar la fiabilidad de la misma. Si bien esta herramienta no permite la elaboración de nuevos informes, sí permite la readaptación de los mismos a través de cambios de ejes, recolocación de variables y navegación por las jerarquías definidas en las dimensiones. Por lo tanto es factible realizar un análisis de datos desde esta herramienta, aunque no con la misma potencia que lo permite la versión para Windows (User Edition). Discoverer Viewer presenta la información en formato html, por lo tanto se puede ejecutar desde cualquier máquina que tenga conexión a la red corporativa y un navegador instalado sin necesitar de ninguna otra cosa. En breve se implementará Discoverer Plus, esta herramienta, también corre en tres capas, presenta la misma funcionalidad que la versión para Windows (User Edition), con lo cual cualquier usuario que se conecte a través de la Web podrá crear, modificar y ejecutar informes, como también realizar análisis de datos completos. 91 CONCLUSIONES 92 Hoy por hoy, las empresas que no se conocen a sí mismas, así como su entorno, quedan rezagadas y posiblemente destinadas al fracaso empresarial. En este punto la información proporcionada de manera oportuna y precisa se convierte en la principal herramienta para evitar estas situaciones. Actualmente, como se dio a conocer en este trabajo, la mayoría de empresas de México son las que se encuentran situadas dentro del régimen de las Pequeñas y Medianas Empresas (PyMEs). El hecho que las Grandes empresas sean una minoría y sean acaparadoras del mercado, ocasionan que el empresario de las PyMEs no confíe en el uso de tecnología para el mejor manejo de su empresa, pues en ocasiones no cuentan con la adecuada información acerca de cómo esa tecnología le traería a su empresa beneficios para lograr una mejor posición en el mercado, asegurarle crecimiento y una mejor atención a sus clientes. El empleo de tecnología y herramientas de extracción de información no es sólo para las Grandes empresas. Sus grandes almacenes de datos (Data warehouses) tuvieron que tener un inicio. En el caso de esta monografía se planteó la creación de Data Marts para cada unidad departamental de la empresa como inicio de lo que puede llegar a ser un data warehouse y como consecuencia el crecimiento de la empresa. El crecimiento de la empresa no depende especialmente del uso del Data Mart. Sin embargo éste les brindará la información exacta y oportuna para el momento de tomar una decisión y no perder una oportunidad de negocio. El propósito de esta monografía es el de ser una guía que oriente al empresario de las PyMEs acerca del uso y beneficios que le brindaría el empleo de un Data Mart dentro de su organización para permitirle una adecuada toma de decisiones. Para 93 tal efecto se mencionaron las razones para crear un Data Mart, los componentes que lo integran y las herramientas que le permitirán extraer la información en un momento determinado. Por comienzo se plantea que por las características del Data Mart, éste viene a ser relativamente más económico que un data warehouse, así como el tiempo de realización es más corto, pues la cantidad de información es limitada al área operacional que abarca, condiciones que estimulan al empresario de las PyMEs para adoptar el empleo del Data Mart. Como se planteó desde el protocolo de investigación, en el archivo de tesis, tesinas y monografías de la facultad de Contaduría y Administración no existe alguna que abarque el tema de Data Mart; sólo una que se enfoca en el Data warehouse, por tal razón esta monografía también dentro de sus propósitos servirá como un apoyo para aquellos estudiantes que se interesen o necesiten documentación acerca de lo que es un Data Mart y su constitución. El empleo de un Data Mart sólo viene a ser una opción que le brinda a las PyMEs y en general a todo tipo de empresa, la Business Intelligence la cual se refiere al uso de tecnología, aplicaciones y prácticas para la colección, integración, análisis y presentación de información de los negocios para una mejor toma de decisiones. La principal forma en que los empresarios de las PyMEs se beneficiarán con el empleo de un Data Mart, es a partir de los reportes que éste les arroje, por tal razón se contempló la estrategia de Reporting, la cual muestra las posibilidades existentes a la hora de agrupar los datos para obtener un buen rendimiento de acceso a la información, y las posibilidades que se tienen entre crear Data Marts y data warehouses. El factor creación de Data Mart quedó excluido, pues desde un principio se especificó que el objetivo de esta monografía sería una guía informativa sobre las 94 características y principales beneficios que ofrece el Data Mart al pequeño y mediano empresario. El aspecto técnico quedaría en manos de especialistas que se encargarían de la puesta en marcha del Data Mart. Al empresario poco le interesa el cómo hacerlo, sino para que le serviría y en que se beneficiaría. Se estudió el caso de aplicación de un Data Mart en la Consejería de Economía y Hacienda de Andalucía, comunidad autónoma española. En este caso se observó que la explotación se realiza extrayendo los datos del sistema transaccional y almacenándolos en el Data Mart de forma que puedan ser consultados para responder a las cuestiones planteadas. El objetivo principal del Data Mart es facilitar la explotación de datos del sistema JÚPITER de forma que estos puedan asistir al usuario en el seguimiento de la Elaboración del Presupuesto, a nivel de aplicaciones presupuestarias y de proyectos de inversión, y de la Ejecución del Presupuesto, a nivel de aplicaciones presupuestarias, proyectos de inversión, pagos, fondos europeos y programación y certificación de fondos europeos. Para finalizar, se espera que la información hasta aquí planteada sea suficiente y exacta y pueda servir de guía a estudiantes interesados en este tema, pero sobre todo a los pequeños y medianos empresarios para que se convenzan de los beneficios que puede obtener si invierte en tecnología y en el empleo de un Data Mart que le permita una adecuada toma de decisiones. 95 GLOSARIO Ad hoc: En sentido amplio puede traducirse como específico o específicamente. CRM: Customer Relationship Management (Administración de la Relación con los Clientes), es un modelo de gestión de toda la organización basada en la orientación al cliente; es parte de una estrategia de negocio basada en el cliente. ERP: Enterprise Resource Planing (Planificación de Recursos Empresariales), son sistemas de información gerenciales que integran y manejan muchos de los negocios asociados con las operaciones de producción y de los aspectos de distribución de una compañía comprometida en la producción de bienes o servicios. ETL: Extract, Transform and Load (Extraer, Transformar y Cargar), es un proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos para analizar. OLAP: On-Line Analytical Processing. Sistema que permite y facilita el análisis de datos almacenados en una base de datos, ofrece a los usuarios la capacidad de consultar y estudiar las diferentes dimensiones de un conjunto de datos multidimensionales. OLTP: On-Line Transaction Processing. Tipo de procesamiento de transacciones en el que el sistema procesa las transacciones responde inmediatamente a cada transacción o solicitud. 97 FUENTES DE INFORMACIÓN BIBLIOGRÁFICAS Andrade, S. Diccionario de Economía, España: Andrade. Baker, R. (2006). Measure What Matters to Customers: Using Key Predictive Indicators (KPIs). USA: John Wiley & Sons. Inc. . Fernández, M. (2002). Inteligencia aplicada al negocio, Datamation. : . García del Junco, J. y Casanueva Rocha. Prácticas de la Gestión Empresarial. Mc Graw Hill. González, M. (2006). Inteligencia de Negocios: Micro empresa Mexicana. México: Mipyme. Editores S. de R.L. Inmon, B. (1998). Data Marts "Data Warehouse" . : DM Review. Kimball R. (1996). The Data Warehouse Toolkit. USA: John Wiley & Sons. Mallach, E. (2000). Decision Support and Data Warehouse Systems. USA: McGraw-Hill. Romero, R. Marketing. Editora Palmir E.I.R.L., Pág. 9. 98 FUENTES DE INFORMACION ELECTRÓNICAS Consulting Data Team (1999). Consultado en Junio,10,2008 en: http://www.datateam.com.mx/datateam/soluciones/data_m/index.html Diario Oficial de la Federación. SECRETARÍA DE COMERCIO Y FOMENTO INDUSTRIAL Acuerdo de estratificación de empresas micro, pequeñas y medianas. Marzo 30, 1999. Recuperado: Junio 29,2007. Disponible en URL: http://www.inegi.gob.mx/prod_serv/contenidos/espanol/bvinegi/productos/ce nsos/eonomicos/1999/industrial/estratifica-.pdf Diccionario de la Lengua Española, de la Real Academia Española, URL de la Página Web = http://www.rae.es/ Firestone J. (1997). Data Warehouses and Data Marts: A Dynamic. Consultado en Junio,10,2008 en: http://www.dkms.com/DWDDV.html. EEUU. Marzo, 1997 Gartner S. (1998). Data Warehouse Vr. Data Marts. Consultado en Mayo,18,2008 en http://www.gartner.com/webletter/ibmbusint/article4/article4.html. Harjinder S. (1996). La integración de información para la mejor toma de decisiones Data Warehousing. Prentice Hall, 1996. Ibarzabal, J. (2006). Estrategia de Reporting. Consultado en Junio,25,2008 en: http://www.cedyc.net/cedychtml/imagenes/EstrategiaReporting.pdf Intelligence & Business Solutions (2007). Business Intelligence. Consultado en Junio 20,2008 en: http://www.ibss.biz/BusinessIntelligence.htm Junta de Andalucía. www.juntadeandalucia.es/economiayhacienda/servicios/sistemas/Data Mart/Data Mart_1.htm Lombart, O. (2007). BI: Inteligencia aplicada al negocio.. Consultado en Junio,18,2008 en: 99 http://www.eldiarioexterior.com/conocimiento/docs/BI_Inteligencia_aplicada _al_negocio.pdf Méndez, A., Mártire, A., Britos, P. Y Garcia-Martínez, R. (2007). Fundamentos de Data Warehouse. Consultado en Mayo,20,2008 en www.itba.edu.ar/capis/rtis/rtis-5-1/fundamentosdedatawarehouse.pdf Rayner, Huamantumba. (2007). Creación de un Data Mart. Paso a Paso. . Consultado en Mayo,15,2008 en http://www.ruedatecnologica.com/wpcontent/uploads/2007/08/rueda-tecnologica-Data Mart.pdf Trujillo Mondéjar, J. (2006). Data Warehousing y Tecnología OLAP. Consultado en 10, Mayo, 2008 en: http://gplsi.dlsi.ua.es/gplsi/areas.htm 100 INDICE DE FIGURAS Figura 1.1. Arquitectura del Data Warehouse. Fuente: Méndez, A., Mártire, A., Britos, P. Y Garcia-Martínez, R., 2007…….. 15 Figura 2.1. Estructura multidimensional de los datos. Fuente: Méndez, A., Mártire, A., et al…………………………………………….. 33 Figura 2.2. Análisis de los datos desde el punto de vista del gerente de producto. Fuente: Méndez, A., et al…………………………….. 34 Figura 2.3. Visión de los gerentes financiero y regional. Fuente: Méndez, A., Mártire, A., et al…………………………………………….. 34 Figura 2.4. Técnica Drilling en datos multidimensionales. Fuente: Méndez, A. et al…………………………………………………………… 38 Figura 2.5. Modelo de creación de Top Down. Fuente: Firestone, J., 1997…. 41 Figura 2.6. Modelo de creación de Bottom up. Fuente: Firestone, J…………..43 Figura 2.7. Modelo Paralelo. Fuente: Firestone, J……………………………….44 Figura 2.8. Modelo Top down con retroalimentación del usuario. Fuente: Firestone, J………………………………………………………………… 45 Figura 2.9. Modelo Bottom up con retroalimentación. Fuente: Firestone, J…. 46 Figura 2.10. Modelo Paralelo con retroalimentación. Fuente: Firestone, J…...48 Figura 3.1. Niveles organizacionales y su respectiva toman decisiones. Fuente: Intelligence & Business Solutions (2007)………………………………. 64 Figura 3.2. Tecnología MOLAP. Fuente: Ibarzabal, J., 2007………………….. 68 Figura 3.3. Tecnología ROLAP. Fuente: Ibarzabal, J…………………………... 68 Figura 3.4. Esquema consistente en el uso de Data Marts independientes. Fuente: Ibarzabal, J……………………………………………...70 Figura 3.5. Esquema consistente en la creación de un Data warehouse y a partir de éste se extraigan datamatrs. Fuente: Ibarzabal, J……………….. 71 Figura 3.6. Esquema consistente en la creación de un Data warehouse con una única capa Usuario. Fuente: Ibarzabal, J……………………………... 72 101 Figura 3.7. Esquema consistente en la creación de un Data warehouse con varias capas Usuario. Fuente: Ibarzabal, J…………………………………. 73 Figura 4.1.Procesos y Actores del Data Mart. Fuente: Junta de Andalucía….81 Figura 4.2. Cuenta de gastos públicos por aplicación Fuente: Junta de Andalucía………………………………………………………. 84 Figura 4.3. Resumen de la ejecución de gastos Fuente: Junta de Andalucía………………………………………………………. 85 Figura 4.4. Cuenta de gastos por programa operativo. Fuente: Junta de Andalucía………………………………………………………. 87 Figura 4.5. Estado de liquidación de ingresos. Fuente: Junta de Andalucía………………………………………………………. 87 Figura 4.6. Cuenta de Gastos Públicos. Fuente: Junta de Andalucía………………………………………………………. 90 Figura 4.7. Ejecución de las Inversiones. Fuente: Junta de Andalucía………………………………………………………. 90 102 INDICE DE TABLAS Tabla 1.1 Estratificación de PyMEs. Fuente: Diario Oficial de la Federación, 2004…………………………………… 11 Tabla 2.1. Diferencias entre OLTP y OLAP. Fuente: Méndez, A., Mártire, A., Britos, P. Y Garcia-Martínez, R……………...39 103