UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS ESCUELA DE COMPUTACIÓN [Data Warehouse] [Administración de Base de Datos] Gledys Sulbarán C.I. 17.313.160 Vanessa Cobis C.I. 16.223.011 Caracas, Abril de 2009 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Tabla de Contenidos 1. INTRODUCCIÓN ............................................................................................................................................. 3 2. CONCEPTOS BÁSICOS .................................................................................................................................... 4 2.1 ¿QUÉ ES DATA WAREHOUSE O ALMACÉN DE DATOS? .....................................................................................................4 2.2 CONCEPTOS RELACIONADOS A DATAWAREHOUSE ...........................................................................................................5 3. CARACTERÍSTICAS DE UN DATA WAREHOUSE ............................................................................................... 8 3.1 ORIENTADO A TEMAS: ...............................................................................................................................................9 3.2 VARIANTE EN EL TIEMPO: .........................................................................................................................................10 3.3 NO VOLÁTIL ...........................................................................................................................................................11 3.4 INTEGRADO ...........................................................................................................................................................12 4. ARQUITECTURA DE UN DW ......................................................................................................................... 14 4.1 COMPONENTES ......................................................................................................................................................14 5. FORMAS DE MODELAR UN ALMACÉN DE DATOS ......................................................................................... 16 6. ¿QUÉ PUEDEN OFRECER LOS ALMACENES DE DATOS? ................................................................................ 17 7. LOS OBJETIVOS FUNDAMENTALES DE UN DATA WAREHOUSE .................................................................... 17 8. BENEFICIOS E INCONVENIENTES ASOCIADOS A UN DW ............................................................................... 19 8.1 BENEFICIOS ...........................................................................................................................................................19 8.2 INCONVENIENTES....................................................................................................................................................20 9. LAS RAZONES PARA QUE UNA ORGANIZACIÓN IMPLEMENTE UN DW ........................................................ 21 10. BASE DE DATOS VS DATAWAREHOUSE ................................................................................................... 22 11. CASO DE ESTUDIO ................................................................................................................................... 23 12. CONCLUSIONES ....................................................................................................................................... 28 13. BIBLIOGRAFÍA ......................................................................................................................................... 31 2 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 1. Introducción Desde que se inició la era de la computadora, las organizaciones han usado los datos desde sus sistemas operacionales para atender sus necesidades de información. Algunas proporcionan acceso directo a la información contenida dentro de las aplicaciones operacionales. Otras, han extraído los datos desde sus bases de datos operacionales para combinarlos de varias formas no estructuradas, en su intento por atender a los usuarios en sus necesidades de información. Ambos métodos han evolucionado a través del tiempo y ahora las organizaciones manejan una data no limpia e inconsistente, sobre las cuales, en la mayoría de las veces, se toman decisiones importantes. El Data Warehouse, es actualmente, el centro de atención de las grandes instituciones, porque provee un ambiente para que las organizaciones hagan un mejor uso de la información que está siendo administrada por diversas aplicaciones operacionales. Un Data Warehouse es una colección de datos en la cual se encuentra integrada la información de la Institución y que se usa como soporte para el proceso de toma de decisiones gerenciales. Las aplicaciones para soporte de decisiones basadas en un data warehousing, pueden hacer más práctica y fácil la explotación de datos para una mayor eficacia del negocio, que no se logra cuando se usan sólo los datos que provienen de las aplicaciones operacionales (que ayudan en la operación de la empresa en sus operaciones cotidianas), en los que la información se obtiene realizando procesos independientes y muchas veces complejos. La innovación de la Tecnología de Información dentro de un ambiente data warehousing, puede permitir a cualquier organización hacer un uso más óptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones más efectivo. Las organizaciones tienen que aprovechar sus recursos de información para crear la información de la operación del negocio, pero deben considerarse las estrategias tecnológicas necesarias para la implementación de una arquitectura completa de data warehouse. 3 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 2. Conceptos Básicos 2.1 ¿Qué es Data Warehouse o Almacén de Datos? “Conjunto de datos integrados orientados a materia que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administración.” Bill Inmon “Colección de información corporativa derivada directamente de los sistemas operacionales y de algunos orígenes de datos externos, con el propósito específico de soportar la toma de decisiones de la organización. Es un repositorio de información, que es utilizado ampliamente para diferentes propósitos dentro de una organización que típicamente debe enfrentarse a la toma de decisiones y el análisis de tendencias”… Abbey&Corey “Consiste en el manejo de las herramientas que permiten a los altos directivos acceder a la información que ellos necesitan para tomar decisiones dentro de su institución. Estos sistemas transforman los datos en información de fácil y accesible formato, y la distribuyen donde es necesaria para la toma de decisiones” Hartman “Un Data Warehouse es un sistema orientado a temas de negocio, diseñado especialmente para el soporte en la toma de decisiones del mismo. El ambiente del Data Warehouse organiza y provee información de forma tal que el usuario final la entienda con facilidad” Collins “Una colección de datos orientados a los asuntos del negocio, íntegros, variables en el tiempo y no volátiles para el soporte del proceso de toma de decisiones de los altos directivos” Collins Se puede caracterizar un data warehouse haciendo un contraste de cómo los datos de un negocio almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de producción. Base de Datos Operacional Data Warehouse Datos Operacionales Datos del negocio para Información Orientado a la aplicación Orientado al sujeto Actual Actual + histórico Detallada Detallada + más resumida Cambia continuamente Estable 4 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 2.2 Conceptos relacionados a Datawarehouse Data Marts: Es un subconjunto del Data Warehouse, usado normalmente para el análisis parcial de los datos. Ej: El Data Mart de los datos del departamento ventas y el Data Mart de Inventarios. El objetivo de subdividir está dado por la complejidad computacional del análisis global de todas las dimensiones del Data Warehouse y por la necesidad de rapidez. Data Mining: Es el descubrimiento de conocimiento oculto en las bases de datos. Relaciones entre estos y tendencias que permiten una toma de decisiones acertada. Incluye Asociación, Caracterización, Clasificación, Análisis de Series Cronológicas, etc. (Chaudhuri & Dayal, 1997). OLTP (Online Transaction Proccesing): Se les llama así a las aplicaciones orientadas principalmente a la inserción, actualización y eliminación de datos, diseñada casi siempre usando el modelo Relacional. Estos sistemas están optimizados para realizar estas operaciones en un tiempo corto. OLAP (Online Analitical Proccesing): Son los sistemas que se usan para analizar los datos que las OLTP introducen en la Base de Datos. A diferencia de los primeros estos casi siempre usan el modelo multidimensional para organizar los datos en la Base de Datos ya que brindan mejores resultados a la hora del análisis de estos. Cubos de información: Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada. El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional. 5 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. A la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" en una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, éste es una colección de datos que está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar. Dimensiones: Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de información complementaria necesaria para la presentación de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información general complementaria a cada uno de los registros de la tabla de hechos. Una dimensión es una característica de un hecho que permite su análisis posterior, en el proceso de toma de decisiones. (Robert Wrembel & Christian Concilia, 2007). Variables: También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la tabla de hechos. Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a la variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podrían ser: “productos”, “localidades” (o zonas), “el tiempo” (medido en días, horas, semanas, etc.). 6 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Ejemplos Ejemplos de variables podrían ser: Beneficios Gastos Ventas etc. Ejemplos de dimensiones podrían ser: producto (diferentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geográficas) tiempo (medido de diferentes maneras, por horas, por días, por meses, por años, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc. Según lo anterior, podríamos construir un cubo de información sobre el indice de ventas (variable a estudiar) en función del producto vendido, la provincia, el mes del año y si el cliente está casado o soltero (dimensiones). Tendríamos un cubo de 4 dimensiones. Hecho: Llamamos evento o Hecho a una operación que se realiza en el negocio en un tiempo determinado. Son objeto de análisis para la toma de decisiones. Se Representan en una caja con su nombre y las medidas que lo caracterizan. (Robert Wrembel & Christian Concilia, 2007) Los Hechos están estrechamente relacionados con el tiempo. Los eventos que son estáticos no tiene objetivo de análisis para este modelo, aunque son muy pocos los hechos que no ocurren con determinada periodicidad en un negocio. Los hechos están caracterizados por medidas numéricas como se muestra en el ejemplo de la figura 1: la cantidad, el precio unitario, el descuento, etc, son las medidas del Hecho (VENTA). Nota: Fíjese que el producto que se vende, su costo y la fecha de la venta no son características de esta como lo podrían ser en cualquier diseño relacional. En este caso, esos serían dimensiones de ese Hecho, por las que, puede ser analizado más adelante. Medida: Una Medida es una propiedad de un Hecho (casi siempre numérica), que es usada para su análisis. (Robert Wrembel & Christian Concilia, 2007) Nota: Un hecho puede no poseer ninguna medida. En ese caso se dice que el Hecho es vacío y solo se usa para contar la aparición de este en el tiempo. Un hecho debe estar relacionado al menos con una dimensión: “El tiempo”. 7 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Figura 1 3. Características de un Data Warehouse Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse (almacén de datos) en términos de las características del Almacén de datos: “Un Data Warehouse o Almacén de Datos es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales”. 8 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 3.1 Orientado a temas: Una primera característica del data warehouse es que la información se clasifica en base a los aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones. En la Figura N° 1 se muestra el contraste entre los dos tipos de orientaciones. Figura 2: El DataWarehouse tiene una fuerte orientación al tema Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí. El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede accesar a 9 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicación. En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal médico, medicamentos, etc. Las diferencias entre la orientación de procesos y funciones de las aplicaciones y la orientación a temas, radican en el contenido de la data a nivel detallado. En el data warehouse se excluye la información que no será usada por el proceso de sistemas de soporte de decisiones, mientras que la información de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones. 3.2 Variante en el tiempo: Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. Los datos son relativos a un periodo de tiempo (semestre, año, etc) y deben ser incrementados periódicamente. Toda la información del data warehouse es requerida en algún momento. Esta característica básica de los datawarehouse, es muy diferente de la información encontrada en el ambiente operacional. En éstos, la información se requiere al momento de accesar. Como la información en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados se llaman de "tiempo variante". Los datos históricos son de poco uso en el procesamiento operacional. La información del depósito por el contraste, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias. (Ver Figura N° 2). 10 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Figura 3 3.3 No volátil La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas. Los datos almacenados no son actualizados, sólo son incrementados. Las actualizaciones de la base de datos operacional no ocurren en el entorno del datawarehouse, no se requieren mecanismos de control de la concurrencia y recuperación. Se requieren dos operaciones nada más: Carga inicial de los datos y acceso a datos. En la Figura N° 3 se muestra que la actualización (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. 11 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Figura 4 3.4 Integrado La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes. Integra datos recogidos de diferentes sistemas operacionales de la organización (y/o fuentes externas). Se construye mediante de fuentes de datos múltiples y heterogéneas. Por ejemplo de Bases de Datos relacionales, ficheros planos, registros de transacciones on-line, etc. Figura 5: DW Integrado 12 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. El aspecto más importante del ambiente data warehousing es que la información encontrada al interior está siempre integrada. La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros. Los puntos de integración afectan casi todos los aspectos de diseño, las características físicas de los datos, la disyuntiva de tener más de una de fuente de datos, el problema de estándares de denominación inconsistentes, formatos de fecha inconsistentes y otros. Cualquiera que sea la forma del diseño, el resultado es el mismo, la información necesita ser almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente. Se aplican técnicas de limpieza e integración Asegurar la consistencia en el nombrado, en las estructuras Codificadas, tipos de datos de los atributos, y demás aspectos entre las múltiples bases de datos. Cuando los datos se mueven al datawarehouse, éstos se tienen que transformar. 13 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 4. Arquitectura de un DW La Arquitectura de un DW viene determinada por su situación central como fuente de información para las herramientas de análisis. Figura 6: Arquitectura de un DataWarehouse 4.1 Componentes o Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del AD, realizando: extracción de los datos. filtrado de los datos: limpieza, consolidación, etc. carga inicial del almacén: ordenación, agregaciones, etc. refrescamiento del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos. o Repositorio Propio de Datos: Información relevante, metadatos. Los metadatos son básicamente datos acerca de los datos contenidos en el DW. Forma de describir propiedades de las bases de datos y sus atributos, incluyendo tablas y nombres de las columnas, atributos de columnas 14 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. (tamaño y tipo de dato) de las tablas de las bases de datos, así como claves primarias y relaciones con claves foráneas. Así, uno de los problemas con el que pueden encontrarse los usuarios de un DW es saber lo que hay en él y cómo pueden acceder a lo que quieren. El repositorio les ayuda a conseguirlo. Base fundamental para establecer la completa integración de los datos de la empresa. Es útil para analizar como los cambios afectarán a la aplicación, sus módulos y otras aplicaciones con las cuales esta interactúa. o Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos). Sin las herramientas adecuadas de acceso y análisis el DW se puede convertir en una amalgama de datos sin ninguna utilidad. Es necesario poseer técnicas que capturen los datos importantes de manera rápida y puedan ser analizados desde diferentes puntos de vista. También deben transformar los datos capturados en información útil para el negocio. Actualmente a este tipo de herramientas se las conocen como business intelligence tool (BIT) y están situadas conceptualmente sobre el DW. Cada usuario final debe seleccionar que herramienta se ajusta mejor a sus necesidades y a su DW. Entre ellas podemos citar las Consultas SQL (Structured Query Language), las Herramientas MDA (Multidimensional Analysis) y OLAP (On-Line Analytical Processing), las Herramientas ROLAP (Relational On Line Analytical Processing) y las herramientas DATA MINIG, de las cuales se trata a continuación. Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad. 15 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 5. Formas de modelar un Almacén de Datos Esquema en estrella: si la jerarquía de dimensiones es lineal Esquema en copo de nieve: si la jerarquía no es lineal. Constelación de estrellas Esquema en estrella: Esquema relacional adaptado a la representación de datos multidimensionales. Se basa en una serie de tablas que representan dimensiones unidas mediante claves ajenas, a una principal que actúa como nexo y almacena datos agregados y precalculados. (Tablas no normalizadas) Ventajas del esquema estrella. Crea una base de datos con tiempos de respuesta rápido. Diseño fácil de modificar. Simula como ven los datos los usuarios finales. Simplifica la navegación. Facilita la interacción con herramientas. Problemas del esquema estrella Es ad hoc (Basado en intuición y no en principios). Difícil cambiar el esquema cuando se agregan nuevos tipos de datos o cambian las dependencias. Los esquemas estrellas son físicos y no lógicos. Las tablas Dimensión no están normalizadas por completo. Esquema en copo de nieve: Variante del esquema de estrella que presenta las tablas de dimensión estructuradas a más de un nivel. (Tablas normalizadas). Constelación de estrellas: Varios esquemas en estrella y/o en copo de nieve que comparten dimensiones. 16 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 6. ¿Qué pueden ofrecer los Almacenes de Datos? La función de un Almacén de datos es centralizar una gran variedad de datos e información, interpretar dicha información y darle un valor agregado para beneficio del negocio todo ello por supuesto, con un fácil acceso y visualización por parte de los usuarios. Algunos procesos que se realizan en estos escenarios son: Transformación de Datos. Se obtienen datos e información de diferentes fuentes o almacenamientos y se aplica una serie de reglas definidas que convierten los datos en información útil para la toma de decisiones. Repositorios y metadatos. Más importante aún que el flujo de datos es entender el origen y la descripción de éstos de una forma que sea común para toda la organización. "No se requiere más datos, se requiere entenderlos". Procesamiento analítico en línea (OLAP). Provee el medio para obtener visualizar y analizar información con alto rendimiento y flexibilidad. OLAP presenta la información a los usuarios de una forma natural e intuitiva. De esta manera los usuarios pueden ser más efectivos en reconocer el valor de dicha información. Visualización. En la mayoría de los casos los datos pueden ser mejor entendidos si los números son combinados de diferentes formas y presentados visualmente en forma de histogramas y varios tipos de gráficas. La visualización puede ser especialmente útil en identificar rápidamente cuales datos pueden tener un análisis especial. 7. Los objetivos fundamentales de un Data Warehouse Hace que la información de la organización sea accesible: los contenidos del DataWarehouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la información sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rápido desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar. 17 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Hacer que la información de la organización sea consistente: la información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Información consistente significa, información de alta calidad. Significa que toda la información es contabilizada y completada. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar. Es información adaptable y elástica: El Data Warehouse está diseñado para cambios continuos. Cuando se le hacen nuevas preguntas al Data Warehouse, los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data Warehouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen. El diseño de Data Marts separados que hacen al Data Warehouse, deben ser distribuidos e incrementados. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar. Protege los valores de la información: El Data Warehouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos, aún después de haber dejado el Data WareHouse. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar. Es la fundación de la toma de decisiones: el Data Warehouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data Warehouse: las decisiones que son hechas después de que el Data Warehouse haya presentado las evidencias. La original etiqueta que preside el Data Warehouse sigue siendo la mejor descripción de lo que queremos construir: un sistema de soporte a las decisiones. 18 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 8. Beneficios e Inconvenientes asociados a un DW 8.1 Beneficios Un DW puede dar lugar a una serie de importantes beneficios para la organización. En cualquier caso, su utilización permitirá que la información de gestión sea: accesible, correcta, uniforme y actualizada. Por ejemplo, una empresa de servicios telefónicos puede utilizar un almacén de datos para determinar cuáles servicios pueden interesarle a cada uno de sus clientes. De esta manera evita gastos en correo masivo e impersonal, con una rata de efectividad muy baja. Una compañía no se debe olvidar que el objetivo de cualquier proyecto para un almacén de datos es reducir los costos operativos y generar ingresos. Esto es una inversión y se debe poder esperar un retorno cuantificable a esta inversión en el tiempo. En conclusión, un almacén de datos bien implementada y mantenida redundará en beneficios para la compañía. Cualquier falla en su implementación, garantizará que el dinero invertido se ha despilfarrado. Estas características asociadas a la información contenida en un DW, junto con otra serie de aspectos inherentes al mismo dan lugar a la obtención de un conjunto de ventajas, que podríamos resumir del siguiente modo: Menor coste en la toma de decisiones: Se suprime el despilfarro de tiempo que se podía producir al intentar ejecutar consultas de datos largas y complejas con bases de datos que estaban diseñadas específicamente para transacciones más cortas y sencillas. Mayor flexibilidad ante el entorno: El DW convierte los datos operacionales en información relacionada y estructurada, que genera el "conocimiento" necesario para la toma de decisiones. Esto permite establecer una base única del modelo de información de la organización, que puede dar lugar a una visión global de la información en base a los conceptos de negocio que tratan los usuarios. Además, aporta una mejor calidad y flexibilidad en el análisis del mercado, y del entorno en general. 19 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Esta visión global puede conllevar también la obtención de otras ventajas competitivas, al identificar determinados costes que con los sistemas anteriores podían permanecer ocultos, por ejemplo: Mejor servicio al cliente: Todo lo que hemos dicho en el punto anterior implica una importante mejora en la calidad de gestión, lo que también repercute en la relación con el cliente, que es, como sabemos, uno de los pilares básicos en los que descansa cualquier organización ajustada. De hecho, el que un DW implique una mayor flexibilidad ante el entorno tiene una consecuencia directa en una mayor capacidad para responder a las necesidades de los clientes. Rediseño de procesos: Ofrecer a los usuarios una capacidad de análisis de la información de su negocio que tiende a ser ilimitada y permite con frecuencia obtener una visión más profunda y clara de los procesos de negocio propiamente dichos, lo que a su vez permite obtener ideas renovadoras para la rediseño de los mismos. 8.2 Inconvenientes Utilizar almacenes de datos también plantea algunos inconvenientes, algunos de ellos son: A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacén de datos no suele ser estático. Los costos de mantenimiento son elevados. Los almacenes de datos se pueden quedar obsoletos relativamente pronto. A veces, ante una petición de información estos devuelven una información subóptima, que también supone una pérdida para la organización. A menudo existe una delgada línea entre los almacenes de datos y sistemas operativos. Hay que determinar qué funcionalidades de estos se pueden aprovechar y cuáles se deben implementar en el data warehouse, resultaría costoso implementar operaciones no necesarias o dejar de implementar alguna que sí vaya a necesitarse. 20 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 9. Las razones para que una organización implemente un DW Para realizar tareas en los servidores y discos, asociados a consultas y reportes en servidores y discos que no son utilizados por sistemas de proceso de transacciones. Muchas de las empresas quieren instalar sistemas de procesos de transacciones para que haya una alta probabilidad de que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean más rápidas en menores tiempos dado a que los queries y reportes consumen mucho más de su límite permitido en los recursos de servidores y discos, por tal motivo las empresas han implementado una arquitectura de Data WareHouse que utiliza sus servidores y discos por separado para algunos de los queries y reportes. Para utilizar modelos de datos o tecnologías de servidores que agilizan las consultas y reportes, y que no son apropiados para los procesos de transacciones. Existen maneras de modelar los datos que usualmente agilizan los queries y reportes (ejemplo: el esquema del modelo estrella) y que no son apropiados para los procesos de transacciones porque la técnica de modelado bajaría el rendimiento y complicaría el proceso de transacciones. También existen tecnologías que aceleran el proceso de queries y reportes pero baja la velocidad en el proceso de transacciones (ejemplo: la indexación de bitmaps) y tecnología de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuyen la velocidad del proceso de queries y reportes (ejemplo: La tecnología de recuperación de transacciones). Todo esto entonces esta en el cómo se hacen los modelos de datos y que tecnología se utiliza, inclusive que productos se adquieren para el impacto de los procesos de queries y reportes. Para proveer un ambiente donde relativamente una muy poca cantidad de conocimiento de los aspectos técnicos de tecnología de bases de datos es requerida para escribir y mantener las consultas y reportes. Frecuentemente un Data WareHouse puede ser instalado de manera que los queries y reportes puedan ser escritos por personal sin tanto conocimiento técnico, lo que hace que su mantenimiento y construcción se haga sin más complejidad. 21 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones. El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los sistemas de proceso de transacciones, sin embargo algunas implementaciones de Data WareHouse provee el significado para capturar las correcciones hechas a los datos del Data WareHouse y alimenta las correcciones hacia el sistema de proceso de transacciones. Muchas veces hace más sentido hacer las correcciones de esta manera que aplicar las correcciones directamente al sistema de proceso de transacciones. Para hacer las consultas y reportes de datos básicamente más fácil de los múltiples procesos de transacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para el propósito de hacer queries y reportes. Desde hace mucho tiempo que las compañías necesitan reportes con información de múltiples sistemas y han hecho extracciones de datos para después correrlos bajo la lógica de búsqueda combinando la información de las extracciones con los reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero cuando se tienen muchos datos y las búsquedas se vuelven muy pesadas y después limpiar la búsqueda, entonces lo apropiado sería un Data WareHouse. 10. Base de datos Vs Datawarehouse Base de Datos DataWarehouse Actualizaciones mayoritariamente Consultas principalmente Muchas transacciones pequeñas Consultas largas y complejas Mb - Gb de información Gb - Tb de información Instantáneas actuales Histórica Miles de usuarios (ej usuarios Cientos de usuarios (ej usuarios administrativos) que toman decisiones) 22 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 11. CASO DE ESTUDIO PENTAHO 23 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. ¿Qué es Pentaho? Pentaho es la solución BI Open Source líder del mercado y la mejor alternativa a los productos comerciales. La plataforma Open Source Pentaho Business Intelligence cubre muy amplias necesidades de Análisis de los Datos y de los Informes empresariales. Las soluciones de Pentaho están escritas en Java y tienen un ambiente de implementación también basado en Java. Eso hace que Pentaho es una solución muy flexible para cubrir una amplia gama de necesidades empresariales – tanto las típicas como las sofisticadas y especificas al negocio. Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una infraestructura de herramientas de análisis e informes integrado con un motor de workflow de procesos de negocio. La plataforma será capaz de ejecutar las reglas de negocio necesarias, expresadas en forma de procesos y actividades y de presentar y entregar la información adecuada en el momento adecuado, mediante analisis OLAP, Cuadros de Mando, etc... 24 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Plataforma BI de Pentaho Elaborada con estándares abiertos y con una arquitectura moderna, la Plataforma de BI de Pentaho fue diseñada para ser escalada y cumplir con las necesidades de organizaciones cualquiera sea su tamaño. Los módulos de la plataforma Pentaho BI son: Reporting - un modulo de los informes ofrece la solución adecuada a las necesidades de los usuarios. Pentaho Reporting es una solución basada en el proyecto JFreeReport y permite generar informes ágil y de gran capacidad. Pentaho Reporting permite la distribución de los resultados del análisis en múltiples formatos - todos los informes incluyen la opción de imprimir o exportar a formato PDF, XLS, HTML y texto. Los reportes Pentaho permiten también 25 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. programación de tareas y ejecución automática de informes con una determinada periodicidad. Análisis - Pentaho Análisis suministra a los usuarios un sistema avanzado de análisis de información. Con uso de las tablas dinámicas (pivot tables, crosstabs), generadas por Mondrian y JPivot, el usuario puede navegar por los datos, ajustando la visión de los datos, los filtros de visualización, añadiendo o quitando los campos de agregación. Los datos pueden ser representados en una forma de SVG o Flash, los dashboards widgets, o también integrados con los sistemas de mineria de datos y los portales web (portlets). Además, con el Microsoft Excel Analysis Services, se puede analizar los datos dinámicos en Microsoft Excel (usando la conexión a OLAP server Mondrian). Dashboards - todos los componentes del modulo Pentaho Reporting y Pentaho Análisis pueden formar parte de un Dashboard. En Pentaho Dashboards es muy fácil incorporar una gran variedad en tipos de gráficos, tablas y velocímetros (dashboard widgets) e integrarlos con los Portlets JSP, en donde podrá visualizar informes, gráficos y análisis OLAP. Data Mining - análisis en Pentaho se realiza con una herramienta WeKa. Integración de Datos - se realiza con una herramienta Kettle ETL (Pentaho Data Integration) que permite implementar los procesos ETL. Últimamente Pentaho lanzó una nueva versión - PDI 3.0 – que marcó un gran paso adelante en OSBI ETL y que hizo Pentaho Data Integration una alternativa interesante para las herramientas comerciales. 26 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 27 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 12. Conclusiones El término Data Warehouse hace alusión a un tipo de herramienta que está teniendo un gran auge en los últimos años. El problema ante el que nos encontramos, se centra en que muchos de los datos de que disponen las empresas sobre sus clientes están 'bloqueados' en cárceles de datos; es decir, bases de datos que han evolucionado como subsistemas independientes. Estas bases de datos son incapaces de ofrecer a la empresa una visión consolidada de quién es el cliente, o incluso de qué productos y servicios están interrelacionados en la base de clientes. Este ejemplo de la información acerca de clientes es también aplicable a otros muchos ámbitos. Cualquier empresa, independientemente de su tamaño, cuenta con un conjunto de aplicaciones de procesamiento transaccional que mecanizan los procesos operativos, muy estructurados y repetitivos, que vienen a constituir las funciones básicas de la entidad, tales como la facturación, contabilidad, nóminas, etc. Este conjunto de aplicaciones constituyen el subsistema de información operativo o transaccional, en él se procesan de manera automática, grandes volúmenes de datos referentes a las actividades rutinarias, que se almacenan en bases de datos operativas. De ellas se puede extraer información, fundamentalmente válida para las transacciones del día a día, es decir, sirven para apoyar y ejecutar las decisiones operativas que conducen las actividades básicas, pero no sirven para realizar análisis más avanzados, incluso de tipo estratégico, ya que no están diseñadas para apoyar este tipo de tareas. A partir de los datos almacenados en estas bases de datos operativas, las cuales suelen ser inconsistentes en la manera en que representan los datos (por ejemplo, distintas bases de datos pueden estar utilizando unidades de medidas diferentes para los mismos atributos), es posible extraer un cúmulo de conocimientos o informaciones que aporten un valor añadido a la gestión adecuada de la empresa, lo que constituirán los Data Warehouse. El fin del Data Warehouse es reunir y consolidar las bases de datos diferentes, que se mantienen en los diferentes departamentos o áreas funcionales de la empresa como subsistemas de información independientes, en una gran base de datos, recogiendo datos muy dispares y, muchas veces infrautilizados, procedentes de fuentes internas repartidas por toda la organización. También recogerá datos o informaciones externas, que rutinariamente se recibe sobre las diferentes entidades u objetos de información, es decir, clientes, proveedores, productos y servicios, canales, estructura organizativa, competencia, mercado, coyuntura económica, etc., en resumen, los derivados de las 28 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. relaciones de la empresa con su entorno. Entre los motivos generales que dan lugar a la necesidad de implantar un Data Warehouse podemos encontrar los siguientes: Mayor necesidad de ayuda a la toma de decisiones. Proliferación de aplicaciones de usuarios finales costosas, desintegradas, etc. Falta de herramientas productivas integradas para el decisor o el usuario final real. Falta de información histórica. Las bases de datos que conforman un DW deben caracterizarse por: Integradas: Han de constituir un conjunto de datos y metadatos perfectamente integrados. Temáticas: Las bases de datos del DW deben conformarse hacia materias o temas (p.e. clientes, productos, campañas…). Históricas: Un factor clave en la toma de decisiones es poder contar con información histórica para comparar datos en distintos períodos y poder identificar tendencias. El tiempo ha de estar presente en los registros del DW, de manera que pueda saberse en qué momento tenía un dato un valor determinado. No volátiles: Este requisito está relacionado con el anterior. Cuando un dato tenga un nuevo valor, generalmente no se actualizará el valor anterior, sino que se introducirá un nuevo registro con el valor actual. Como regla general, una vez incorporada la información al DW debe mantenerse en él invariable. La infraestructura tecnológica que soporte el Data Warehouse ha de estar separada y, por lo general, será diferente de la que soporta los sistemas operacionales. En definitiva, los requerimientos fundamentales que determinan la esencia del DW podrían ser los siguientes: Acceso universal a los datos, que se crean y se tratan de acuerdo con los requerimientos del usuario y dentro del marco de un modelo de datos. Implantación de un sistema abierto, con interfaces a fuentes de datos internas y externas. Selección de los datos de acuerdo con el contenido de información y la relevancia para las decisiones. 29 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. Separación lógica y física de las bases de datos de almacén de datos y de metadatos respecto a las bases de datos operacionales. Creación de herramientas de consulta para el usuario final, con posibilidades de utilización intuitiva y funciones de unión e interrelación. Beneficios Asociados al Data Warehouse Un DW puede dar lugar a una serie de importantes beneficios para la organización. En cualquier caso, su utilización permitirá que la información de gestión sea: accesible, correcta, uniforme y actualizada. Estas características asociadas a la información contenida en un DW, junto con otra serie de aspectos inherentes al mismo dan lugar a la obtención de un conjunto de ventajas, que podríamos resumir del siguiente modo: Menor coste en la toma de decisiones Mayor flexibilidad ante el entorno Mejor servicio al cliente Rediseño de procesos Alineamiento con los objetivos de rightsizing En conclusión, el concepto de DW abarca mucho más que simplemente copiar datos operacionales a una base de datos informacional distinta. El sistema deberá ofrecer una solución completa para gestionar y controlar el flujo de información desde bases de datos corporativas y fuentes externas a sistemas de soporte de decisiones de usuarios finales. Además, debe permitir a los usuarios conocer qué información existe en el almacén de datos, y cómo poder acceder a ella y manipularla. 30 Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación. 13. Bibliografía Ralph Kimball, Margy Ross The Data Warehouse Toolkit “The Complete Guide to Dimensional Modeling” Second Edition. http://es.wikipedia.org/wiki/Almacén_de_datos http://www.ongei.gob.pe/publica/metodologias/Lib5084/INDEX.HTM http://www.fing.edu.uy/inco/grupos/csi/esp/Publicaciones/2001/tr0118-vp.pdf http://cba365.com.ar/cms/index.php?option=com_content&view=article&id=53&It emid=65 http://pentaho.almacen-datos.com/ http://www.pentaho.com/ 31