UNIVERSIDAD VERACRUZANA Facultad De Contaduría y Administración Desarrollo de Cubos como Herramienta de Explotación de Datawarehouse MONOGRAFÍA para obtener el Título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Diana Yazmin Díaz Amaro Asesor: M.C.C. Rafael Barragán Flores Xalapa-Enríquez, Veracruz Agosto 2009 UNIVERSIDAD VERACRUZANA Facultad De Contaduría y Administración Desarrollo de Cubos como Herramienta de Explotación de Datawarehouse MONOGRAFÍA para obtener el Título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Diana Yazmin Díaz Amaro Asesor: M.C.C. Rafael Barragán Flores Xalapa-Enríquez, Veracruz Agosto 2009 DEDICATORIAS Principalmente a Dios… por darme la oportunidad de culminar mis estudios y cumplir así con el sueño de ser una gran profesionista… por darme la oportunidad de ver y disfrutar un día mas lleno de ilusiones y esperanzas y por hacerme una mujer con firmeza y determinación. A mis padres Blanca y Ricardo por ser mi guía, mi base, mis cimientos, por enseñarme lo esencial de la vida y por apoyarme siempre y en todo momento… porque sin ustedes este logro no sería tan satisfactorio. Gracias por permitirme compartir todos y cada uno de los momentos de logro, tristeza, alegría, enojo, decepción, que esta etapa de estudiante han dejado. Gracias por brindarme su confianza e inculcarme los valores y las ganas de superación. A ti mamá, porque tus brazos siempre se abren cuando necesito un abrazo; porque tu corazón sabe comprender cuando necesito una amiga; porque tus ojos sensibles se endurecen cuando necesito una lección; porque tu fuerza y tu amor me han dirigido por la vida y me han dado las alas que necesitaba para volar. A ti papá, porque cuando nací eras el ser que siempre aparecía para aplaudir mis últimos logros; cuando me iba haciendo mayor la figura que me enseñaba la diferencia entre el bien y el mal; quien durante mi adolescencia, era la autoridad que ponía limites a mis deseos, y quien ahora en esta etapa de mi vida desearía que fueras el mejor consejero y amigo que pudiera tener. A mi hermana Marisol, por aguantarme en esos momentos de tensión y estrés; por ser mi mejor amiga, que con su alegría arranca sonrisas aun en los momentos más difíciles; por hacerme ver que la vida hay que disfrutarla y hacer de ella la mejor fiesta. A mi abuelita Tomasita, por su amor incondicional, por apoyarme en todo momento y por depositar su confianza en mí… por darme la motivación necesaria para continuar con la lucha del día a día. A mis tíos Juanita y Gil, por creer en mí; por brindarme siempre su apoyo y por ser un gran ejemplo para mí. Por estar en los momentos buenos y malos y por transmitirme su motivación y sus ganas de que sea una persona de bien. A ti Amor, por estar conmigo en las buenas y en las malas… porque tu amor me da un motivo más para ser mejor y superarme día a día. Al Lic. Barragán, por depositar su confianza en mí, por creer en mí, por brindarme su apoyo y por ser un ejemplo de superación. Gracias a todos por ser parte fundamental de este gran logro, por ser parte de mi crecimiento y por motivarme a ser una mejor persona y permitirme compartir con ustedes esta inmensa alegría. Deseo que sepan que este logro es mío y de ustedes. GRACIAS POR CREER EN MÍ Con Amor y Cariño. INDICE Resumen ............................................................................................................. 1 Introducción ......................................................................................................... 2 Capitulo 1: conceptos Básicos ............................................................................. 7 1. Inteligencia de Negocios ................................................................................ 8 1.1. Antecedentes ........................................................................................... 8 1.1.1. Niveles de uso de los datos ........................................................ 9 1.2. Definición ................................................................................................ 10 1.3. Valor de la Inteligencia de Negocios........................................................ 12 1.4. Beneficios de la Inteligencia de Negocios ............................................... 13 1.5. Cinco Etapas Evolutivas de la Inteligencia de Negocios ......................... 14 1.6. Ciclo de la Inteligencia de Negocios ........................................................ 15 1.7. Inteligencia de Negocios en la Pirámide Organizacional ......................... 17 1.8. Herramientas de Inteligencia de Negocios .............................................. 17 1.9. Soluciones de Inteligencia de Negocios .................................................. 18 1.10. La Inteligencia de Negocios en el Futuro………………………………….19 2. 2.Datawarehouse ............................................................................................... 20 2.1. Procesamiento de Datos ......................................................................... 20 2.1.1. OLTP........................................................................................... 20 2.1.2. OLAP .......................................................................................... 21 2.1.3. Diferencias entre OLTP y OLAP ................................................. 22 2.2. Datawarehousing ..................................................................................... 23 2.2.1. Definición .................................................................................... 23 2.3. Datawarehouse........................................................................................ 24 iii 2.3.1. Definición .................................................................................... 24 2.4. Arquitectura Básica.................................................................................. 25 2.5. Metodologías de Diseño .......................................................................... 26 2.5.1. Enterprise Datawarehouse (EDW) .............................................. 27 2.5.1.1. Componentes ............................................................. 29 2.5.2. Datawarehouse Bus o Dimensional ............................................ 30 2.5.2.1. Componentes ............................................................. 31 2.6. Proceso ETL, Extracción, Transformación y Carga ................................. 34 2.6.1. Extracción ................................................................................... 34 2.6.2. Transformación ........................................................................... 35 2.6.3. Carga .......................................................................................... 36 2.7. Metadatos ................................................................................................ 38 2.7.1. Clasificación ................................................................................ 39 2.8. Modelado Dimensional ............................................................................ 39 2.8.1. Componentes.............................................................................. 40 2.8.1.1. Tabla Hecho ............................................................... 40 2.8.1.2. Tabla Dimensión ........................................................ 40 2.8.2. Esquemas Relacionales.............................................................. 40 2.8.2.1. Esquema Estrella ....................................................... 41 2.8.2.2. Esquema Copo de Nieve ........................................... 43 2.9. Datamart .................................................................................................. 45 2.9.1. Definición .................................................................................... 45 Capitulo 2 Herramientas de Explotación de Datawarehouse ............................... 46 2.1 Generalidades .......................................................................................... 47 2.2 Herramientas de Explotación ................................................................... 48 iv 2.2.1 Query and Reporting .................................................................... 48 2.2.1.1 Soluciones de Query and Reporting en el mercado ...... 50 2.2.2 EIS Executive Information System ............................................... 52 2.2.3 Tableros de Control ...................................................................... 53 2.2.3.1 Semáforos..................................................................... 54 2.2.4 Datamining ................................................................................... 54 2.2.5 Webhousing.................................................................................. 56 2.2.6 Herramientas OLAP...................................................................... 57 Capítulo 3 Cubos OLAP ....................................................................................... 58 3. 3.1. Definición ................................................................................................. 59 3.2. Cubos Virtuales ....................................................................................... 60 3.3. Restricciones ........................................................................................... 60 3.4. Componentes .......................................................................................... 61 3.4.1. Dimensiones ............................................................................... 61 3.4.2. Niveles de Jerarquía ................................................................... 62 3.4.3. Medidas ...................................................................................... 62 3.4.4. Hechos ........................................................................................ 63 3.5. Propiedades de los miembros ................................................................. 65 3.6. Agregaciones ........................................................................................... 65 3.7. Tipos de Almacenamiento ....................................................................... 66 3.7.1. ROLAP ........................................................................................ 66 3.7.2. MOLAP ....................................................................................... 67 3.7.3. HOLAP ........................................................................................ 68 3.7.4. Diferencias .................................................................................. 68 3.8. Operaciones con Cubos .......................................................................... 69 v 3.9. Indicadores .............................................................................................. 70 3.9.1. Definición .................................................................................... 70 3.10. Optimización del Rendimiento ............................................................... 71 3.11. Recomendaciones para el diseño de Cubos ......................................... 72 3.12. Software para la creación de Cubos ...................................................... 74 3.12.1. Pentaho .................................................................................... 75 3.12.2. Microsoft SQL Analysis Services SSAS .................................... 75 3.12.3. OlapX® ..................................................................................... 76 3.12.4. Oracle 10g y 11g....................................................................... 77 3.12.5. SAP Bussiness Object .............................................................. 77 Capítulo 4 Visualización de un ejemplo de Cubo ................................................. 80 4.1Descripcion ............................................................................................... 80 4.2 Visualización de la información del cubo ................................................. 80 4.3 Componentes Básicos ............................................................................. 81 4.3.1Formato ......................................................................................... 81 4.3.2 Reports ......................................................................................... 84 4.3.3 Measures and Dimensiones ......................................................... 85 4.3.4 Visualización de los datos ............................................................ 86 4.4Categorias y series ................................................................................... 86 Conclusiones ........................................................................................................ 88 Fuentes de Información ........................................................................................ 92 Índice de Figuras .................................................................................................. 97 Índice de Tablas ................................................................................................... 98 Anexo I ................................................................................................................. 99 vi RESUMEN El presente trabajo de investigación, trata conceptos, que para la actualidad es necesario conocer, debido a que representan lo que hasta el día de hoy las empresas requieren para ser competitivos y presentar su información del negocio adecuadamente para su correcto análisis y toma de decisiones. Hoy en día la tecnología avanza a pasos agigantados y es necesario reunir herramientas tecnológicas que permitan a las empresas transformar la información del negocio en conocimiento y por ende representar una ventaja contra sus competidores. Debido a lo anterior el contenido se centra en conceptos como Inteligencia de Negocios, Datawarehouse, Herramientas de Explotación de Datawarehouse y el tema central de este trabajo Cubos OLAP. 1 INTRODUCCIÓN Nos encontramos en un mundo Globalizado, razón principal por la cual se busca mejorar las funciones realizadas en la empresa u organización. Hoy en día es fundamental el uso de la Tecnología como herramienta que permita mejorar procesos, ser más eficaz y eficiente, además de ser una ventaja a nivel competitivo ya que se buscan mecanismos que permitan marcar la diferencia entre los competidores y brinden mayores posibilidades de crecimiento. En la actualidad se observa que las empresas u organizaciones cuentan con una gran cantidad de datos que convierten en información para llevar a cabo un proceso fundamental que es la Toma de Decisiones. La información es un concepto relevante que ha tomado gran importancia al grado de considerarla como el principal activo de la sociedad, así como los datos son el núcleo de cualquier Sistema de Información. El tratamiento que se le da a la información es fundamental para la toma de decisiones y actualmente las herramientas utilizadas para la presentación de sus datos se limita al uso de reportes basados en ciertos requerimientos definidos por los usuarios de acuerdo a su percepción y experiencia o de acuerdo a las necesidades que se van presentando en el día a día. Lo cual no les permite ser eficientes ya que puede que no se cumpla con las expectativas deseadas ni con las necesidades reales de los usuarios considerando que muchos de los informes y reportes tienen un formato preestablecido. El presente trabajo de investigación tiene como finalidad, dar a conocer conceptos que hoy en día son relevantes para cualquier organización que desee brindar dinamismo a la presentación de su información y quieran ser más competitivos. Los conceptos sobre los cuales se hace énfasis son: “Inteligencia de Negocios, Datawarehouse, Herramientas de Explotación de Datawarehouse y Cubos OLAP” 3 Es importante mencionar que para el desarrollo del tema principal se parte del concepto fundamental de Inteligencia de Negocios, ya que representa el conjunto de conceptos y métodos, es decir, la integración de la información para llevar a cabo la optimización e los procesos del negocio y ayudar a mejorar el proceso de Toma de Decisiones. Visto desde un enfoque general, la Inteligencia de Negocios está representada como el “todo”, ya que a través de diversas técnicas, métodos, herramientas, permiten convertir los datos en información y la información en conocimiento; para a través de esto generar reportes analíticos que permitan a los usuarios satisfacer las necesidades de los diversos usuarios finales. Se procede a explicar otro concepto fundamental, el cual es Datawarehouse, comúnmente conocido como “Almacén de Datos”. Forma parte de lo que se conoce como Inteligencia de Negocios. El Datawarehouse proporciona a la empresa una visión global de sus datos, de forma qe los integra para posteriormente llevar a cabo su análisis y utilizarlos para obtener respuestas del negocio que las bases de datos transaccionales implementadas en la organización no nos permitirían conocer. La principal ventaja de tener los datos de la organización almacenados en una estructura de Datawarehouse es que permite la consulta y el análisis de la información. Los sistemas transaccionales brindan la información al usuario final de manera estática, además son utilizados para llevar a cabo las operaciones diarias de la organización; en cambio los sistemas analíticos permiten flexibilidad en la representación de la información, además hoy en día existen diversas herramientas basadas en el Procesamiento Analítico en Línea. El contenido de este tema abarca los conceptos de los 2 principales exponentes del Datawarehouse, ya que hasta hoy en día continúan vigentes, Bill Inmon, padre del Datawarehouse y Ralph Kimball. La finalidad es conocer ambas metodologías y 4 empaparse de os conceptos fundamentales para comprender bien a detalle el tema. Posteriormente se habla de Herramientas de Explotación del Datawarehouse, ya que de nada serviría a las empresas implementar un almacén de datos sino se piensa como extraer su información. El Datawarehouse no representa un fin, sino un medio para solucionar necesidades, razón fundamental por lo cual es importante conocer las diversas técnicas de explotación de los datos contenidos en el Datawarehouse. En el contenido de este tema se mencionan y se da una breve explicación de las principales herramientas utilizadas en la actualidad para extraer los datos. Por último se aborda el tema principal y por el cual se realizo este trabajo de investigación, para el cual era necesario conocer los conceptos básicos mencionados anteriormente, que permitieran el correcto entendimiento de este último tema, Cubos OLAP. Los Cubos OLAP representan una herramienta de explotación de Datawarehouse y son una excelente opción para las organizaciones que deseen obtener informes de datos resumidos para llevar a cabo su análisis. Además de que representan un mecanismo para la búsqueda y presentación de datos con rapidez y tiempo de respuesta uniforme, independientemente de la cantidad de datos o la complejidad de la búsqueda. Las empresas u organizaciones aún no cuentan con tecnología sofisticada ni con Datawarehouse como tal, pero es importante adentrarnos en este tema ya que la tecnología avanza a pasos agigantados y es fundamental tener el conocimiento de que existen diferentes herramientas de explotación de Datawarehouse. Por lo anterior se considera que el diseño y construcción de cubos OLAP permitirá a cualquier tipo de empresa poder potenciar la explotación de la información realizando análisis con los cubos OLAP, ya que permitirá obtener datos relevantes. 5 La finalidad es dar a conocer conceptos fundamentales de lo que hoy en día representa la Inteligencia de Negocios y sus diversas aplicaciones en las organizaciones de la actualidad y hacer del conocimiento que los cubos OLAP, representan una excelente opción para la manipulación y presentación de datos de manera dinámica y fácil de usar para los usuarios finales. Y que su implementación dependerá de los requerimientos de cada empresa, pero sin duda, representan una de las mejores opciones para el análisis de la información. 6 Capítulo 1: Conceptos Básicos 1. INTELIGENCIA DE NEGOCIOS 1.1 ANTECEDENTES A finales del siglo XX las empresas se preocuparon en conocer los datos que se manejaban en fuentes no automatizadas. Las empresas carecían de recursos de computación que les permitiera analizar los datos y llevar a cabo la toma de decisiones de manera estructurada basados en datos en información reales y no basadas en la intuición. Las empresas comenzaron a automatizar sus procesos creando sistemas, con esto los datos se hicieron más accesibles, pero su obtención continúo siendo un gran reto debido a que no se contaba con la tecnología necesaria y los sistemas eran incompatibles con la tecnología que se tenía. Las decisiones eran tomadas pero a largo plazo ya que no se contaba con la información al momento que se requería. En base a esas necesidades surge el concepto de Inteligencia de Negocios; hoy en día facilita la toma de decisiones en cualquier nivel sea Estratégico, Táctico u Operativo, debido a que permite desarrollar la posibilidad de extraer datos, analizarlos y generar reportes, así como ejecutar búsquedas de datos rápidamente para permitir un mejor análisis del rendimiento de un producto, departamento, compañía. Esto permite a las empresas realizar reportes, realizar análisis de la información como apoyo a la toma de decisiones. 8 Hoy en día las empresas acometen una gran variedad de iniciativas para alcanzar sus objetivos, bajo la influencia de 5 elementos fundamentales: Velocidad de cambio, innovación de nuevos modelos de negocio, nuevas estructuras de relaciones entre las empresas, sus clientes y asociados, la conectividad de personas, organizaciones y países, y el valor del conocimiento residente en la empresa. (Davis & Meyer 2000) 1.1.1 NIVELES DE USO DE LOS DATOS Nivel operacional: Se utilizan sistemas de información que monitorean las actividades y transacciones elementales. Nivel de administración: Realiza operaciones repetitivas de captura masiva de datos y servicios básicos de tratamiento de datos, con tareas predefinidas. Nivel de conocimientos: Realiza actividades de análisis, de seguimiento, de control y toma de decisiones, realiza consultas sobre información almacenada. Nivel estratégico: Realizar las actividades de planificación a largo plazo, tanto del nivel de administración como de los objetivos que la empresa posee. Es visionario, y ve hacia el futuro. 9 Figura 1.1 Niveles de uso de los datos 1.2 DEFINICIÓN En 1989 Howard Dresner, actual Presidente de Dresner Advisory Services, inventó el acrónimo de BI Business Intelligence o Inteligencia de Negocios, para indicar el conjunto de conceptos y métodos para mejorar la toma de decisiones en los negocios utilizando sistemas de apoyo basados en hechos. Actualmente el concepto de BI implica la integración de la información para una buena planeación que conlleve a la optimización de procesos de negocio. Además incluye una amplia categoría de metodologías, aplicaciones y tecnologías que permiten reunir, acceder, transformar y analizar los datos, transacciones e información no estructurada con el propósito de ayudar a los usuarios de una empresa a tomar decisiones de negocio. Lo anterior se puede lograr, ya sea, mediante la explotación directa mediante consultas, reportes o haciendo uso del análisis y conversión en conocimiento. La Inteligencia de Negocios también puede 10 intervenir en todos y cada uno de los procesos de una empresa, operando en tareas y actividades del personal, mejorando la comunicación e incrementando la reacción de la compañía. Abordando de manera general el concepto de Inteligencia de Negocios simple y sencillamente se puede decir que es la habilidad para transformar los datos en información, y la información en conocimiento en forma que se pueda optimizar el proceso de toma de decisiones. En la siguiente figura se ilustra la definición anterior. Figura 1.2. Inteligencia de Negocios. A continuación se muestran definiciones de Inteligencia de Negocios de acuerdo al enfoque de diversos autores: (Hackney, 2001) nos dice que el Business Intelligence se compone de todas las actividades relacionadas a la organización y entrega de información así como el análisis del negocio. Esto incluye Minería de Datos, Administración del Conocimiento, Aplicaciones Analíticas, Sistemas de Reportes y principalmente Data Warehousing. (Buksard, Mollot y Richards, 2000) comentan en su artículo que la necesidad de nuevas herramientas de acceso y reporte de información, para diversos tipos de usuarios, ha impulsado la creación de nuevas herramientas, colectivamente conocidas como Business Intelligence. Business Intelligence no es una sola tecnología o aplicación. No es una “cosa”, sino que se trata de un “suite” de 11 productos que trabajan de manera conjunta para proveer datos, información y reportes analíticos que satisfagan las necesidades de una gran variedad de usuarios finales. Por otra parte el Datawarehouse Institute, lo define como: la combinación de tecnología, herramientas y procesos que permiten transformar los datos almacenados en información, esta información en conocimiento y este conocimiento dirigido a un plan o una estrategia comercial. La inteligencia de negocios debe ser parte de la estrategia empresarial, esta le permite optimizar la utilización de recursos, monitorear el cumplimiento de los objetivos de la empresa y la capacidad de tomar buenas decisiones para así obtener mejores resultados. Figura 1.3 Conceptos que abarca la Inteligencia de Negocios 1.3 VALOR DE LA INTELIGENCIA DE NEGOCIOS La Inteligencia de Negocios es una rápida estrategia que ha llegado a hacer la diferencia en las organizaciones de hoy en día. De acuerdo con Keith Gile (2002), “La Inteligencia de Negocios ha estado envuelta en los últimos tres años en un nicho, departamentalmente centrado en el valor de la solución de estrategias empresariales.” Hoy en día los mercados son cada vez más competitivos, las empresas necesitan administrar y reducir costos de operación. Un beneficio clave de la Inteligencia de Negocios es que brinda a los ejecutivos, de nivel medio o jerárquico, y empleados la información necesaria para manejar eficientemente las operaciones. La Inteligencia de Negocios también hace más fácil el análisis de los gastos de los múltiples sistemas de información posibles. 12 Inteligencia de Negocios es un factor clave, ya que actualmente es de suma importancia que las organizaciones exploten los datos y la información existente, con la finalidad de convertirla en conocimiento que sirva de apoyo en el proceso de toma de decisiones sobre el negocio. El convertir la información en conocimiento y utilizarla, produce mejoras en los procesos de negocio y llevan a las organizaciones a tener operaciones más efectivas y optimizadas. Se logra debido a que el acceso e interpretación de la información es un elemento diferenciador, productivo y rentable para todas las organizaciones, por lo tanto una correcta gestión del conocimiento garantiza el éxito dentro de un mercado competitivo. 1.4 BENEFICIOS DE LA INTELIGENCIA DE NEGOCIOS El contar con un esquema de Inteligencia de Negocios en una organización, brinda ventajas, las cuales se mencionan a continuación: Disposición de la información correcta en el momento adecuado para la toma de decisiones. Con BI no es necesario solicitar a diferentes departamentos, con los consiguientes plazos de espera, la información que se requiere para tomar decisiones. La información está almacenada en un único lugar, y se puede extraer de manera sencilla y en tiempo real. Brinda la capacidad de poder evaluar distintos escenarios. En los cuales se puedan analizar diferentes situaciones que pueden poner en riesgo el negocio y tomar decisiones estratégicas anticipadas y hacer que una tendencia negativa se convierta en acciones positivas para la organización. La información de calidad va mucho más allá de los reportes operacionales, ya que no solamente se puede consultar la información que genera una compañía en todo momento, sino que además se pueden definir indicadores que me permitan medir el desempeño del negocio. 13 Permite agrupar información de distintas áreas en un solo cuadro, lo cual es muy favorable para el cambio de políticas o reorientaciones de los planes establecidos. Genera capacidad de reacción a situaciones imprevistas con un nivel de riesgo menor, ya que producto del análisis de escenarios, se tienen predefinidas las acciones a tomar en caso de ocurrir, lo cual permite a su vez analizar con anticipación el riesgo que se tendría al tomar dichas decisiones. Capacidad de retroalimentar el conocimiento adquirido. Una de las características más importantes de BI incluye el hecho de mantener disponibles las decisiones tomadas y el impacto que sobre el negocio generó. Esto permite que el conocimiento organizacional se almacene y no sea necesario retransmitirlo directamente a las personas cuando ocupan un cargo diferente. 1.5 CINCO ETAPAS EVOLUTIVAS DEL BI En los últimos años, la inteligencia de negocios ha evolucionado significativamente, con lo que ha dejado de ser simples hojas de reportes de información para convertirse en todo un sistema de gestión de desempeño para la toma de decisiones. IBM ha identificado cinco niveles evolutivos de BI a lo largo del tiempo los cuales son: Primer Nivel.- La Inteligencia de Negocios comenzó con el manejo de hojas de Excel donde se tenía toda la información que se centralizaba en una sola persona. Segundo Nivel.- La información y los tableros de control pasaron a manos de la gente de tecnología, sin que existiera relación entre la información y el negocio, porque se le venía dando el foco total a la información desde el punto de vista de tecnología y no tanto del negocio. 14 Tercer Nivel.- Se comenzó a tomar en cuenta al negocio para habilitar procesos. En esta etapa ya se identificaban áreas funcionales y se habilitaba a la compañía no sólo en la parte de soluciones departamentales sino ya se contemplaba a la empresa como tal. Cuarto Nivel.- Los sistemas de Inteligencia de Negocios ya tenían objetivos de negocio y focos en estrategias. Las empresas traían la parte de la administración del desempeño, tanto financiero como corporativo; donde ya se incorporaban y relacionaban todos los departamentos y todas las entidades de las compañías. En este nivel, ya se tenía planeación y consolidación financiera, planeación operativa, y el sistema estaba dando un valor a la empresa. Quinto Nivel.- Es el nivel actual y en el que IBM ha puesto mucho el énfasis e interés, ya que es la tendencia. En éste, ya que se cuenta con la información empresarial, hoy en día debemos tener una sola verdad de toda la compañía. Hay que tener toda la información en tiempo, forma y con los niveles de confianza que se requieren. 1.6 CICLO DE LA INTELIGENCIA DE NEGOCIOS La Inteligencia de Negocios en una plataforma de administración del desempeño que representa al ciclo en el que las empresas establecen sus objetivos, analizan sus progresos, reflexionan, actúan, miden su éxito y empiezan una nueva fase. Su ciclo se compone de cuatro etapas a saber: Análisis, reflexión, acción y medición. El análisis comienza por determinar los datos a recopilar. La selección se basa en un entendimiento básico y en supuestos de cómo opera la organización, considerando aquello que es relevante a los clientes, proveedores, empleados, los factores que afectan los insumos, la producción, el costo y la calidad. A la colección de todo aquello que se debe conocer acerca de la empresa se conoce 15 como modelo mental. Este concepto aplica a nivel de las personas y de la organización como un todo. Los modelos mentales son esenciales para los ejecutivos para tomar decisiones, puesto que representan las bases para reconocer una buena idea, pero también constituyen los límites para no ver aspectos que se encuentran afuera. La reflexión implica el estudio minucioso de los hechos y de la situación, además de considerar el rumbo que puede tomar el caso de estudio. El escenario que abarca la reflexión depende del nivel jerárquico que la está realizando y la consideración del ambiente externo. La reflexión nace de un análisis libre de preguntas que solo los ejecutivos pueden formular y que se encaminan al descubrimiento de patrones relevantes. Al encontrar algunos hechos que pueden ser contradictorios a los postulados establecidos, implica una labor de convencimiento y de superación de resistencias al cambio, sin embargo para que la iniciativa tenga éxito, es necesario compartirla y allegarse de aliados. La conexión de la acción al ciclo de la Inteligencia de Negocios es a través del proceso de toma de decisiones, en donde las acciones se suceden como resultado de las decisiones. La toma de decisiones al estar basada en la Inteligencia de Negocios ofrece mejores condiciones para identificar oportunidades, orientar las acciones, la experimentación, la prueba y la retroalimentación. La medición procura evaluar los resultados al compararlos contra los estándares cuantitativos y las expectativas planteadas originalmente; con lo cual se da vida a otro ciclo de análisis, reflexión, acción y medida. En la Inteligencia de Negocios se pueden establecer estándares para pruebas de comparación que faciliten monitorear el desempeño y proveer retroalimentación para cada área funcional del negocio. La métricas corresponden a los indicadores clave de desempeño que se generan a partir de explorar grandes cantidades de datos integrados de fuentes heterogéneas que son evaluados por algoritmos para descubrir, inferir, y calcular información relevante, dando como resultado reportes consistentes sobre criterios de actividad que los ejecutivos consideran y usan como argumentos para sus decisiones. 16 1.7 INTELIGENCIA DE NEGOCIOS EN LA PIRÁMIDE ORGANIZACIONAL La Inteligencia de Negocios a Nivel Operativo permite que los empleados que trabajan con información operativa puedan recibir la misma de una manera oportuna, exacta y adecuada y se componen básicamente de herramientas de reportes u hojas de cálculo con un formato fijo cuya información se actualiza frecuentemente. La Inteligencia de Negocios a Nivel Táctico permite que los analistas de datos y la gerencia media de la empresa utilicen herramientas de análisis y consulta con el propósito de tener acceso a la información sin intervención de terceros. La Inteligencia de Negocios a Nivel Estratégico permite que la alta dirección de las empresas pueda analizar y monitorear tendencias, patrones, metas y objetivos estratégicos de la organización. 1.8 HERRAMIENTAS DE INTELIGENCIA DE NEGOCIOS Son un tipo de software de aplicaciones diseñado para colaborar con la inteligencia de negocios (BI) en los procesos de las organizaciones. Específicamente se trata de herramientas que asisten el análisis y la presentación de los datos. Las herramientas de inteligencia de negocios y el perfil de usuarios analíticos han evolucionado a través de estos años. Además, el nivel de conciencia, la necesidad y la evolución del mercado han llevado a las empresas a considerar que la Inteligencia de Negocios sea una prioridad ante la gerencia y las personas que toman decisiones. Un proyecto de inteligencia de negocios debe llevar tanto el compromiso del equipo de IT como el de la gente de negocios, la participación activa de estos usuarios de negocios es fundamental para el éxito del proyecto. Estos usuarios son los que adolecen realmente de una herramienta que se ajuste a la necesidad 17 de la empresa y les provea el nivel de detalle que se requiera. 1.9 SOLUCIONES EN INTELIGENCIA DE NEGOCIOS Planeamiento Estratégico. El planeamiento estratégico es la herramienta indispensable para gestionar adecuadamente todo tipo de Organizaciones públicas o privadas, con o sin fines de lucro, grandes, medianas o pequeñas. Tableros de Control Herramienta que posibilita en una Organización medir el desempeño, productividad o rentabilidad de un área, rubro o unidad de negocios. Cuadros de Mando Integral o Tableros de Comando. Esta herramienta posibilita la medición constante de los objetivos estratégicos de la Organización en forma rápida, simple y eficiente. Vistas dinámicas. Reportes Dinámicos que permiten diferentes formas de análisis de la información sin necesidad de re-estructurarlas. Gestión del Capital Intelectual Esta herramienta posibilita identificar y calcular el valor de los recursos intangibles de su empresa. Datawarehouse. Almacén de datos para la integración de la información de la Organización que sirve como soporte para la toma de decisiones 18 1.10 LA INTELIGENCIA DE NEGOCIOS EN EL FUTURO En una visita a México, Howard Dresner dijo que la tecnología ha evolucionado, madurado y mejorado dramáticamente durante los 20 años que lleva involucrado en ella. Dichos cambios han beneficiado las partes de BI y de la gestión de desempeño de las empresas (EPM, por sus siglas en inglés). “Ahora el reto de las organizaciones es poder apalancar la tecnología a BI para operar de manera más eficiente”. Con BI, la planeación de los negocios se lleva a cabo de una mejor manera gracias a que la información, además de ser capturada y organizada, es analizada para ejecutar planes que estén enfocados a cumplir con los objetivos de las empresas, que al final resultan en mayores ingresos. (Dresner) La importancia de llevar a cabo una planeación es para que las empresas construyan una perspectiva completa de su negocio y de los mercados dentro de los que trabajan, a fin de que puedan saber qué es lo que sucede y ejecuten con precisión sus procesos. La Inteligencia de Negocios ahora radica en la competencia para tomar decisiones, para enfoques dinámicos de los problemas y oportunidades y para desarrollar los recursos y capacidades internas de la organización. Generar cambios estratégicos construidos con los recursos de la organización para desarrollar una organización más flexible y dinámica, con el apoyo de las tecnologías para la toma de decisiones y la intervención de los expertos del negocio. Es importante entender que las herramientas de soporte a la toma de decisiones, son eso, herramientas, y que la selección y uso, simplifican muchas operaciones y procesos en el negocio, pero que los tomadores de decisiones son la piedra angular. 19 2. DATAWAREHOUSE 2.1 PROCESAMIENTO DE DATOS 2.1.1 OLTP (On Line Transaction Processing) Las bases de datos relacionales de procesamiento de transacciones en línea (OLTP) son óptimas para administrar datos que cambian. Suelen tener varios usuarios que realizan transacciones al mismo tiempo que cambian los datos en tiempo real. Aunque las solicitudes de datos realizadas individualmente por los usuarios suelen hacer referencia a pocos registros, muchas de estas solicitudes se producen al mismo tiempo. Las bases de datos OLTP están diseñadas para permitir que las aplicaciones transaccionales escriban sólo los datos necesarios para controlar una sola transacción lo antes posible. Las bases de datos OLTP se caracterizan en general por lo siguiente: Admiten el acceso simultáneo de muchos usuarios que agregan y modifican datos con regularidad. Representan el estado en cambio constante de una organización, pero no guardan su historial. Contienen muchos datos, incluidos todos los datos utilizados para comprobar transacciones. Tienen estructuras complejas. Se ajustan para dar respuesta a la actividad transaccional. Proporcionan la infraestructura tecnológica necesaria para admitir las operaciones diarias de la empresa. Las transacciones individuales se completan rápidamente y se tiene acceso a cantidades de datos relativamente pequeñas. Los sistemas OLTP están diseñados y ajustados para procesar cientos o miles de transacciones que se indican al mismo tiempo. 20 Tienen baja redundancia de datos. Este tipo de procesamiento es el que permite mover los engranes de la organización. Son los productores principales de la información dentro de la Pirámide Organizacional. 2.1.2 OLAP (On Line Analytical Processing) Término acuñado por Codd & Associates. Se refiere a aplicaciones que se encargan de analizar datos del negocio para generar información táctica y estratégica que sirve de soporte para la toma de decisiones. Mientras que las transacciones OLTP utilizan Bases de Datos Relacionales u otro tipo de archivos, OLAP logra su máxima eficiencia y flexibilidad operando sobre Bases de datos Multidimensionales. El procesamiento analítico en línea cuenta con las siguientes características: Estructura de datos transparente al usuario Solo Consulta, trabajan sobre la información operacional generada por los sistemas OLTP Consultas sobre grandes volúmenes de datos no predecibles Información histórica Modo de actualización Batch Alta redundancia de datos para facilitar la generación de consultas y obtener buenos tiempos de respuesta Trabaja con resúmenes de miles de registros condensados en una sola respuesta En este tipo de procesamiento los usuarios únicamente ven como se mueven los engranes de la organización. Solamente se analizan los datos para buscar respuestas y comportamiento a través del tiempo, ayudan en el proceso de la tome de decisiones fundamentadas en los datos históricos. 21 2.1.3 Diferencias entre OLTP y OLAP Mientras que las aplicaciones OLTP se caracterizan por estar actualizadas constantemente por varios usuarios a través de transacciones operacionales sobre datos individuales, las aplicaciones OLAP son utilizadas por personal de niveles ejecutivos que requieren datos con alto grado de agregación y desde distintas perspectivas (dimensiones) A continuación se muestra una tabla en la cual se establecen las principales diferencias que existen entre OLTP y OLAP. OLTP OLAP Utiliza bases de datos transaccionales Hace uso de bases de datos multidimensionales. Están organizados por aplicación Se organiza por dimensiones definidas por las reglas del negocio Los datos que están incluidos son Sus datos son históricos volátiles, ya que son actualizados constantemente Los usuarios son los que giran las Los usuarios observan como giran las ruedas de la organización a través de ruedas de la organización a través de actualizaciones consultas y análisis de los datos Los datos operacionales son altamente Los Datos del DW son altamente volátiles, cambian en medida que opera estables, son insertados en intervalos la empresa. de tiempo definidos. Y no son modificados Cada aplicación del negocio puede Toda la información de un tema, tener información en diferentes alimentado de varios sistemas, reunido Sistemas y base de datos. en una sola Base de Datos Mantienen la Integridad de los datos Soporta el análisis del negocio Se manejan cientos de registros por Se maneja una transacción con cientos día, se realizan operaciones de Insert, de registros por medio de Selects 22 Update, Delete, Select Baja redundancia de datos Alta redundancia de datos para facilitar la generación de consultas y obtener buenos tiempos de respuesta Tabla 2.1 Diferencias entre OLTP y OLAP El rendimiento también se ve afectado en cada tipo de procesamiento. Como se puede observar en la siguiente figura. En la cual se mide el procesamiento en un entorno OLTP y en un entorno OLAP. Figura 2.1. Representación del rendimiento entre transacciones OLTP y OLAP 2.2 DATA WAREHOUSING 2.2.1 DEFINICIÓN Se entiende por Datawarehousing el proceso de extraer y filtrar datos de las operaciones comunes de la organización, procedentes de los distintos sistemas de información operacionales y/o sistemas externos, para transformarlos, integrarlos y almacenarlos en un Datawarehouse, también conocido como depósito o 23 almacén de datos, con el fin de acceder a los datos para dar soporte en el proceso de toma de decisiones de una organización. El objetivo es convertir los datos operacionales en información relacionada y estructurada, homogénea y de mayor calidad, identificada convenientemente y que se mantenga en el tiempo, es decir, los datos más recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel de detalle los datos actuales, y de manera más agregada los datos anteriores. Se pretende crear un círculo virtuoso para la información. 2.3 DATA WAREHOUSE Un Datawarehouse, proporciona una visión global, común e integrada de los datos de la organización, independiente de cómo se vayan a utilizar posteriormente por los consumidores o usuarios, con las propiedades siguientes: estable, coherente, fiable y con información histórica. Al abarcar un ámbito global de la organización y con un amplio alcance histórico, el volumen de datos puede ser muy grande. Las bases de datos relacionales son el soporte técnico más comúnmente usado para almacenar las estructuras de estos datos y sus grandes volúmenes. Normalmente en el almacén de datos habrá que guardar información histórica que cubra un amplio período de tiempo. Pero hay ocasiones en las que no se necesita la historia de los datos, sino sólo sus últimos valores, siendo además admisible generalmente un pequeño desfase o retraso sobre los datos operacionales. Cuando así sucede el Datawarehouse es comúnmente llamado almacén operacional (ODS, Operational Data Store). 2.3.1 DEFINICIÓN Una definición sencilla y fácil de recordar es: Un Datawarehouse es un almacén de datos. Partiendo de esa definición, podemos obtener muchas más y de diversos 24 autores que han formulado su propia definición. Sin embargo se tienen dos personajes vinculados al concepto de Datawarehouse. Bill Inmon es considerado el padre del Datawarehouse, debido a que él acuñó este término, a continuación se muestra su definición: (Inmon, 1996) Datawarehouse es un conjunto de datos integrados, históricos, variantes en el tiempo y unidos alrededor de un tema específico, que es usado por la gerencia para la toma de decisiones. Surgió otro personaje importante en el desarrollo del tema de Datawarehouse, Ralph Kimball quien es considerado el principal promotor del enfoque dimensional para el diseño de almacenes de datos, planteo una nueva metodología muy diferente a lo que planteo Bill Inmon. Por lo cual menciona otra definición para Datawarehouse la cual dice lo siguiente: (Kimball, 2003) Un Datawarehouse es una copia de los datos transaccionales específicamente estructurada para la consulta y el análisis. 2.4 ARQUITECTURA BÁSICA La arquitectura básica de un Datawarehouse tiene los siguientes elementos: 1. Datos Fuente: Se refiere a las bases de datos transaccionales, archivos planos, otros sistemas de donde se obtienen los datos. Sistemas OLTP, Datos del Entorno o Mercado Externo, Datos Distribuidos en Sistemas Heredados o satelitales que alimentan los ERP. 2. Proceso ETL: Extracción, Transformación y Carga de Datos, es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos, limpiarlos y cargarlos en otra base de datos, data mart, o Datawarehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. Aquí se ubica el área de Stage (área de trabajo para realizar la depuración de la información. 25 3. Creación del DW: Se integra la información de la organización de manera estructurada y consolidada para dar soporte a la Inteligencia Empresarial (Inteligencia de Negocios) 4. Explotación de la Información: Se extrae y procesa la información de simples consultas SQL a un enfoque OLAP, a través de diversos métodos, herramientas de toma de decisión, datamining, software hecho a la medida, etc. Proveen la interfaz humana con el Datawarehouse. Figura 2.2 Arquitectura de un Datawarehouse. 2.5 METODOLOGÍAS DE DISEÑO Existen dos metodologías fundamentales para llevar a cabo el diseño de un Datawarehouse las cuales son: Enterprise Datawarehouse: Bill Inmon Arquitectura Bus: Ralph Kimball 26 2.5.1 ENTERPRISE DATAWAREHOUSE (EDW) El almacén de datos empresarial es el centro de la fábrica de la información corporativa. El Datawarehouse Empresarial tiene características diferentes. La primera característica del Datawarehouse empresarial es que contiene alta granularidad de los datos. La información en el Enterprise Datawarehouse está en el nivel más bajo y es el común denominador. En ninguna otra parte que en la organización está el bajo nivel de granularidad. Otras arquitecturas se basan en esta granularidad de los datos, ya que reconfiguran y recombinan los datos encontrados en la empresa de almacenamiento de datos para satisfacer sus necesidades. La segunda característica de los datos encontrados en el Datawarehouse empresarial es que son históricos. En términos históricos es decir que de cinco a diez años se encuentran almacenados los datos de la empresa. Cuando se considera que el almacenamiento de datos de la empresa es a la vez histórico y granular, es inevitable que los grandes volúmenes de datos se encuentran allí. La tercera característica es que los datos residentes dentro del Datawarehouse empresarial están integrados. Como los datos se mueven de la aplicación heredada a través de la integración del medio ambiente y la capa de transformación, los datos se integran. Significa que hay una sola interpretación de los datos corporativos que tiene la empresa, almacenados y por lo tanto hay una única comprensión de lo que es un cliente, lo que es un producto, una transacción, etc. La cuarta característica es, que un Datawarehouse empresarial es corporativo. Esta característica está relacionada con las anteriores. La naturaleza corporativa del Datawarehouse empresarial se deriva del modelo de datos corporativo que sirve de base para el diseño del Datawarehouse empresarial. 27 El diseño del Datawarehouse empresarial esta típicamente normalizado. La estructura clásica entidad-relación de los datos, acompañada por la consiguiente normalización de las estructuras de datos se adapta muy convenientemente con los requisitos de la utilización de la empresa de almacenamiento de datos. Las características del Datawarehouse empresarial que se explicaron anteriormente son las siguientes: Granularidad Integridad Datos Históricos y Corporativos Inmon define al EDW como el corazón de los Sistemas de Toma de Decisión DSS (Decisión Support Systems). El EDW es alimentado por los sistemas operacionales (ODS) y la capa de transformación. A su vez el EDW alimenta el entorno de los DSS. La metodología de Inmon plantea la necesidad de transferencia de datos OLTP de diversos sistemas en un lugar centralizado donde los datos pueden ser utilizados para el análisis. Los datos deben organizarse en materia orientadas, integrado, no volátil y estructuras de tiempo variante. Los datos deben ser accesibles al nivel atómico detallado por medio de la perforación o en el resumen de los niveles de perforación Los datos son tratados como Datamarts, sub conjuntos de la base de datos. Cada uno de los Datamarts se construye para un departamento y está optimizado para el análisis de necesidades de cada departamento para el que se crea. 28 2.5.1.1 COMPONENTES Inmon define la arquitectura de una bodega de datos con cuatro componentes básicos: 1) los sistemas fuente, donde se gestiona la información relevante de la operación de la organización; 2) el área intermedia (o staging area), en la cual se hace la integración, unificación y limpieza de los datos que vienen de los diferentes sistemas fuente; 3) el área de almacenamiento, conformada por dos elementos: el repositorio y los metadatos; y 4) el área de acceso a los datos a través de diferentes herramientas de consulta, tales como publicación en la web, generadores de reportes dinámicos y predefinidos, herramientas de minería de datos y OLAP. Figura 2.3 Enterprise Datawarehouse El EDW es el centro de la información corporativa de la empresa. Los datos que se encuentran en el EDW alimentan a los Datamarts, a la explotación y al datamining, así como a los Sistemas de Tomas de decisión o Analíticos. 29 Los datos encontrados en el EDW en algunas ocasiones es llamado como el “punto de la verdad” (single point of truth) para la empresa. El dato es granular y no redundante y es el punto de reconciliación de las diferencias cuando uno o más personas difieren del resultados obtenido de un análisis de la información corporativa. 2.5.2 DATAWAREHOUSE BUS O DIMENSIONAL Esta arquitectura consiste en iniciar la planeación del Datawarehouse con la fase de arquitectura de datos corta que tenga los objetivos específicos y finitos y después continuar con la implementación paso a paso de los Datamarts separados, donde cada paso de implementación se incorpora cuidadosamente a la arquitectura. La fase de arquitectura de datos produce líneas directivas que los equipos de desarrollo de los Datamarts puedan seguir y puedan trabajar de manera asíncrona e independientemente. De tal forma que como se vayan poniendo en línea los Datamarts vayan ajustándose unos a otros como piezas de un rompecabezas. 30 Figura 2.4 Arquitectura Bus 2.5.2.1 COMPONENTES Los componentes incluidos en la arquitectura de bus de Kimball difieren de los que considera Inmon, a continuación se explican cada uno. Sistemas Fuentes Son aquellos que sus principal función es almacenar las transacciones del negocio, a través de bases de datos operacionales. Sus principales prioridades son mantenerse actualizados y en línea. Un sistema Fuente frecuentemente es llamado Sistemas heredados (legacy system) en un entorno mainframe. 31 Data Staging Area (Área de trabajo, o presentación) Es un área de almacenamiento, en el cual se conjuntan procesos de vital importancia, aquí se preparan los datos fuentes para ser transformados, cargados y distribuirlos en el Datawarehouse. La intersección de estos datos no precisamente proviene de Bases de Datos relacionales, se alimenta de archivos planos, de diversas fuentes. En esta área los datos no proveen consultas ni servicios para gestión, esta área se encuentra entre los sistemas fuentes y el servidor de presentación del Datawarehouse. Servidor de Presentación Es la máquina física (Servidor) en la cual se almacenan los datos del datawarehouse y están disponibles para ser consultados a través de sistemas de domas de decisión, reporteadores u otras aplicaciones que le permitan al usuario final realizar consultas ad-hoc. Modelo Dimensional Representa una alternativa para el modelado Entidad/Relación (E/R). Es más simple, ya que brinda una fácil visualización y entendimiento de los datos en comparación con el modelado E/R. Más adelante se enfatizara acerca de este tema de Modelo multidimensional y de sus elementos. Procesos del Negocio Es el conjunto de actividades que le dan sentido y dirección a una organización, dependiendo del giro y entorno, variarán los procesos de negocio entre una u otra organización. 32 Metadata Es toda la información del medio ambiente del Datawarehouse que no es el dato mismo. Figura 2.5 Representación de los elementos de la arquitectura de Bus 33 2.6 PROCESO ETL, EXTRACCIÓN, TRANSFORMACIÓN Y CARGA ETL son las siglas en inglés Extract, Transform and Load. Es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos, limpiarlos y cargarlos en otra base de datos, Datamart, o Datawarehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. Cada una de las operaciones involucra sus propias consideraciones especiales. 2.6.1 Extracción La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de origen. La mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. Una parte intrínseca del proceso de extracción es la de analizar los datos extraídos, de lo que resulta un chequeo que verifica si los datos cumplen la pauta o estructura que se esperaba. De no ser así los datos son rechazados. Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razón, en sistemas grandes las operaciones de extracción suelen programarse en horarios o días donde este impacto sea nulo o mínimo. 34 En esta fase de extracción se incluye la limpieza de los datos, en esta se debe verificar si existe un control en la calidad de los datos. Frecuentemente los datos requieren limpieza, generalmente esta es por lote, antes de proceder a introducirlos a la base de datos. Las operaciones de limpieza básicas incluyen llenado de valores faltantes, corrección de errores tipográficos y otros errores de captura de datos, se procede a hacer remplazo de sinónimos por identificadores que respeten un estándar, y así se unifiquen criterios de los datos. Existen hoy en día muchas herramientas disponibles para ayudar en esta tarea, incluyendo herramientas proporcionadas por el sistema, programas de extracción personalizados y productos de extracción comerciales. 2.6.2 Transformación Después de extraer y llevar a cabo la limpieza de los datos. Continúa la fase de transformación, esta aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Algunas fuentes de datos requerirán alguna pequeña manipulación de los datos. Se deben codificar datos que se han decodificado en forma inconsistente en diferentes fuentes, se deben hacer varias consideraciones a tomar en cuenta para la forma de almacenar los datos, algunas consideraciones son: si aceptara valores nulos, traducir códigos, codificar valores libres, unir datos de múltiples fuentes, abreviaturas de estados, código de productos, lugares de negocios, entre otros. El software de transformación convierte los datos durante el traslado para asegurar que la información sea compatible con la base de datos que la recibe. Desarrollar, seleccionar e integrar estas piezas de software requiere técnicas de administración de datos y de administración de base de datos. También se requieren técnicas en el área de afinar la ejecución de consultas en la base de datos para obtener un rendimiento aceptable de la solución del Datawarehouse. 35 La aplicación de cualquier forma, simple o compleja, de validación de datos, y la consiguiente aplicación de la acción que en cada caso se requiera: 2.6.3 Carga La fase de carga es el momento en el cual los datos de la fase de transformación, son cargados en el sistema de destino. Dependiendo de la organización que se trate y de sus requerimientos el proceso de carga puede abarcar diversas acciones a realizar. En algunas bases de datos se sobrescribe la información antigua con nuevos datos. Los Datawarehouse mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo. Para desarrollar el proceso de carga existen dos formas básicas las cuales se mencionan a continuación: Acumulación simple: es la más común y sencilla, consiste en realizar un resumen de un periodo de tiempo de todas y cada una de las transacciones realizadas en ese periodo seleccionado y transportar el resultado como una única transacción hacia el Datawarehouse, almacenando un valor calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud considerada. Rolling: este proceso es aplicado cuando se desea mantener diversos niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada. La fase de carga interactúa directamente con la base de datos de destino. Al realizar esta operación se aplicarán todas las restricciones y triggers (disparadores) que se hayan definido en ésta (por ejemplo, valores únicos, 36 integridad referencial, campos obligatorios, rangos de valores). Estas restricciones y triggers (si están bien definidos) contribuyen a que se garantice la calidad de los datos en el proceso ETL, y deben ser tenidos en cuenta. De acuerdo con la metodología de Ralph Kimball, la carga al Datawarehouse toma la forma de replicación de las tablas dimensión y las tablas dato. Después de haber cargado el Datamart destino debe ser indexado para ofrecer un mejor desempeño de consulta sobre los datos recién llegados. Cuando cada Datamart ha sido cargado, indexado y provisto de sus agregados, siguen procesos que forman parte de un completo trabajo, los cuales son: Aseguramiento de calidad Liberación/publicación Actualización Pruebas previas de consultas Retroalimentación de datos/alimentación en reversa Auditoria Seguridad Respaldo y recuperación. Usualmente los Datawarehouse son alimentados de manera asíncrona desde distintas fuentes, que son útiles para diferentes propósitos. El proceso ETL es clave para lograr que los datos extraídos asíncronamente de orígenes heterogéneos se integren finalmente en un entorno homogéneo. Hay dos conceptos fundamentales en el desarrollo del proceso de ETL, estos son: Service Level Agreement (SLA) y Change Data Capture (CDC), tienen que ver con la escalabilidad del proceso de ETL durante su vida útil, el cual debe establecerse en el análisis. SLA se refiere al nivel de servicio en la comprensión del volumen de datos procesado. Debido a que el tiempo en que se dispone para la extracción de datos de los sistemas de origen puede cambiar. 37 Por otro lado el CDC es referido a la captura de datos modificados en tiempo real para una transformación y actualización continua. Ya que algunos sistemas ETL son escalados para procesar gran cantidad de datos al momento de llevar a cabo la actualización de un Datawarehouse, lo cual implicaría que un aumento en el volumen de los datos pueda hacer que en lugar de que los datos se procesen por lotes, se lleve a cabo en micro-lotes. 2.7 METADATOS Este concepto toma gran relevancia al hablar de Datawarehouse. De manera simple y sencilla un metadato puede ser definido como datos sobre los datos. Representa toda la información del medio ambiente del Datawarehouse que no es el dato mismo. En el entorno del DW se aclara este concepto y se habla de: El “back-room metadata” el cual guía a los procesos de carga, limpieza y extracción. El “front-room metadata” que hace que las herramientas de consultas y reporteo funcionen de manera optima. El back-room metadata ayuda al DBA a traer los datos del almacén, así como también ayuda a los usuarios finales cuando preguntan del origen de los datos y como llego ahí. El metadata se debe catalogar, asignarle versiones, documentarlo y respaldarlo. En un Datawarehouse, los metadatos describen los tipos de datos en el Datawarehouse, esto es, las definiciones física y lógica de los datos, consultas y reportes predefinidos, reglas de validación y orientadas al tema, definiciones de fuentes de datos, rutinas de transformación y de proceso, e información del usuario. Los metadatos se refieren a cualquier cosa que define un objeto del 38 Datawarehouse. Además guían los procesos de extracción, transformación (limpieza) y carga. 2.7.1 CLASIFICACIÓN Generalmente, los metadatos son divididos en: Técnicos. En estos se interesan los desarrolladores y administradores. Los desarrolladores los utilizan para conocer las definiciones física y lógica de los datos para poder diseñar y escribir aplicaciones. Por su parte los administradores accesan a los metadatos para ejecutar tareas de administración como gestión de los objetos y usuarios, afinamiento de la base de datos y almacenamiento de datos. Semíticos u orientados al tema. Tienen que ver con los usuarios finales como gerentes o analistas, estos son los que no están familiarizados con los formatos de descripción del Datawarehouse, pero están interesados en entender la semántica orientada al tema y necesitan representaciones ricas en estructura y contenido. 2.8 MODELADO DIMENSIONAL (Wolf, 1999) El modelado dimensional es una técnica para modelar bases de datos simples y entendibles al usuario final. La idea fundamental es que el usuario visualice fácilmente la relación que existe entre los distintos componentes del modelo. Es adecuado para resumir y organizar datos. Enfocado para trabajar sobre datos de tipo numérico. Un modelo dimensional contiene la misma información que un modelo E/R, sin embargo éste, agrupa los datos en un formato simétrico cuyos 39 objetivos de diseño son el entendimiento del usuario, el desempeño de consultas y flexibilidad al cambio. (Harjinder y otros, 1996) El procesamiento analítico o análisis multidimensional se emplea para análisis de históricos complejos, con amplia manipulación (análisis de datos dinámicos), así como para la planeación a futuro y pronósticos, el pasado como prólogo del futuro. 2.8.1 COMPONENTES DEL MODELADO DIMENSIONAL Los principales componentes del modelo dimensional son: 2.8.1.1 TABLA HECHO Es la tabla principal en cada modelo dimensional, la cual denota las dimensiones del negocio. Cada tabla dato representa un relación de muchos a muchos y cada una contiene un conjunto de dos o más llaves foráneas que unen a sus respectivas tablas dimensión. Contiene valores de las medidas del negocio. 2.8.1.2 TABLA DIMENSIÓN Contiene el detalle de los valores que se encuentran asociados a la tabla hecho. Cada dimensión está definida por su llave primaria que sirve como base para la integridad referencial con cualquier tabla hecho a la cual está relacionada. 2.8.2 ESQUEMAS RELACIONALES DEL MODELADO DIMENSIONAL El modelo multidimensional de datos se puede instrumentar por un esquema relacional, donde las dimensiones de un cubo son modeladas como relaciones de 40 dimensiones. El esquema relacional almacena datos en tablas relacionales especializadas, llamadas tablas de hechos y de dimensiones. Lo cual brinda una vista multidimensional de los datos usando un modelo relacional como soporte. Existen dos esquemas principales para llevar a cabo el diseño dimensional de la base de datos de un Datawarehouse, estos esquemas son usados para soportar una operación de datos multidimensional. 2.8.2.1 ESQUEMA ESTRELLA El esquema Estrella (Star schema), se le conoce como el esquema tradicional, del que de este derivan los demás esquemas conocidos, su nombre hace mención a que gráficamente es representado como una estrella. Su diseño consiste en una tabla de hechos en el centro que está relacionada a cada tabla de dimensión. Las tablas de dimensión son enlazadas a la tabla de hechos mediante referencias de una llave foránea. Por su parte la llave primaria de la tabla de hechos se compone de una relación de las llaves primarias de las tablas de dimensiones. En la tabla de hechos se encuentran ls atributos que son destinados a cuantificar, medir el hecho. En tanto que en la tabla de dimensión están destinados a elementos de nivel que representan los distintos niveles de jerarquía de las dimensiones. 41 Figura 2.6. Ejemplo del esquema Estrella La característica que define este esquema es que las tablas de dimensión únicamente pueden estar relacionadas a la tabla de hechos. Además las tablas de dimensión no están normalizadas, esto significa, que toda la información referente a una dimensión se almacena en la misma tabla. El esquema estrella es útil debido a que cada propiedad de una dimensión puede ser recuperada con una unión desde la tabla de datos a la tabla de dimensión relevante. Esto permite mejorar el desempeño de la consulta, pero incrementa el volumen de datos 42 2.8.2.2 ESQUEMA COPO DE NIEVE El esquema copo de nieve (Snowflake schema) representa una variación del esquema estrella tradicional. La diferencia que tiene con el anterior es que en cada dimensión se almacenan jerarquías de atributos, es decir, se separan atributos en otra entidad con la finalidad de obtener un mayor desempeño y utilización del espacio. Para realizar este esquema es necesario llevar a cabo las reglas de normalización a cada una de las tablas de dimensiones, con la finalidad de simplificar las operaciones de selección de datos, lo que da como resultado una mejor presentación de los datos, evitando redundancia. Lo cual se traduce en una eficiente recuperación de la información que manipulan las tablas. A diferencia del esquema estrella, es que la tabla de hechos deja de ser la única que se relaciona con otras tablas. Aquí si está permitido relacionar entre si las tablas de dimensiones, debido a que hay un mayor nivel de detalle en cada una de las tablas de dimensión. Es útil porque elimina la duplicación que podría ocurrir. No obstante, se debe considerar la frecuencia que una consulta utilizará los datos del esquema copo de nieve, ya que este esquema requiere una unión adicional lo que lo hace más lenta la respuesta de la consulta y se presentan problemas de desempeño. 43 Figura 2.7. Ejemplo del esquema Copo de Nieve Como se puede observar en la figura 2.7 existe nivel e detalle en las tablas de dimensión Store, de ella se derivan las tablas de dimensión StoreType y StoreManager. También en la tabla Salesperson se deriva otra tabla dimensión llamada Departament. 44 2.9 DATAMART 2.9.1 Definición El concepto de Datamart al igual que el de Datawarehouse fue dado de diferente manera de acuerdo las filosofías de los autores Bill Inmon y Ralph Kimball. Para Inmon un Datamart es: Es una estructura que es alimentada por el EDW. Es donde el usuario final tiene más interacción con el entorno de la empresa. Los datos más detallados se encuentran en el Datamart de acuerdo al departamento o entidad de la empresa. Por otro parte para Kimball un Datamart es: Es un subconjunto lógico del Datawarehouse completo. Este subconjunto está enfocado hacia un área o departamento de la empresa. Cada Datamart debe ser representado por un modelo dimensional dentro de un Datawarehouse, dichos datamarts deben ser construidos a partir de dimensiones conformadas y datos conformados. (Kimball) El termino Datamart significa evitar la imposibilidad de abordar la planeación completa de un Datawarehouse Empresarial al mismo tiempo. 45 Capítulo 2 Herramientas de Explotación de Datawarehouse 2.1 GENERALIDADES El Datawarehouse está orientado a apoyar el proceso de toma de decisiones, para obtener una ventaja estratégica. Los datos en el Datawarehouse están almacenados en categorías o son estructurados a manera de que favorezcan el análisis de los datos históricos. Un Datawarehouse no representa un fin, sino que representa un medio para solucionar una necesidad, es por eso que está preparado para la explotación de sus datos mediante el uso de herramientas específicas que permitan la extracción de información significativa y patrones de comportamiento que permanecen ocultos en este repositorio de datos. La explotación consiste en llevar a cabo consultas al Datawarehouse, esto es, la manipulación, análisis y visualización de la información que realizan los usuarios sobre los datos almacenados en el Datawarehouse. Algunas de las herramientas de explotación de Datawarehouse más utilizadas se presentaran a continuación, haciendo énfasis en las características más importantes de cada una de ellas. 47 2.2 HERRAMIENTAS DE EXPLOTACIÓN DE DATAWAREHOUSE 2.2.1 QUERY AND REPORTING Permite a los usuarios consultar el modelo de dimensiones directamente y definir un conjunto de resultados, ya que simples herramientas ad hoc sólo entregan los resultados tabulares conjuntos, mientras que las herramientas más avanzadas permiten la creación de la plena realización de informes complejos. En este caso, las herramientas ad hoc también sirven como herramientas de desarrollo estándar para los informes que otros usuarios ejecutan. Las herramientas adecuadas de consulta y presentación de informes proveen a los usuarios acceso directo al modelo dimensional, generalmente a través de la capa de metadatos que provee una columna adicional de subgrupos, descripción de negocios y la unión de las definiciones. Debido a la complejidad de la herramienta y la necesidad de comprender los detalles de los datos, las herramientas ad hoc son en su mayoría utilizados por los usuarios expertos que cuentan con conocimientos tanto técnicos y empresariales. Típicamente, el usuario puede arrastrar y soltar las columnas en el informe del área, establecer limitaciones, y añadir formato. El resultado final en la mayoría de las herramientas de consulta ad hoc es un informe. El analista tiene a menudo el informe resultante de los datos de otro entorno, por lo general Excel cuenta con complementos para la consulta y generación de informes. Debido a que Microsoft ha invertido mucho en desarrollar capacidades de Excel para realizar consultas y generación de informes. 48 Explicando a lo que se refiere a esta herramienta de explotación de los datos contenidos en el Datawarehouse, es importante mencionar que los Query and Reporting trabajan tanto sobre el detalle como sobre las agregaciones de la información. Realizar este tipo de explotación en un Datawarehouse supone una mejor optimización del tradicional entorno de informes (reporting), dado que el Datawarehouse mantiene una estructura y una tecnología mucho más apropiada para este tipo de solicitudes. Lo cual quiere decir que es más sencillo realizar este tipo de consultas e informes debido a su enfoque OLAP. Como se menciona anteriormente en los Datawarehouse es sencillo implementar este tipo de explotación de los datos, sin embargo, es importante mencionar que los sistemas de Query & Reporting, que no se basan en Datawarehouse, se caracterizan por la complejidad de las consultas, los altos tiempos de respuesta y la interferencia con otros procesos informáticos que compartan su entorno. La explotación del Datawarehouse mediante Query & Reporting permite una gradación de la flexibilidad de acceso, proporcional a la experiencia y formación del usuario. A este respecto, se recomienda el mantenimiento de al menos tres niveles de dificultad: Los usuarios poco expertos podrán solicitar la ejecución de informes o consultas predefinidas según unos parámetros predeterminados. Los usuarios con cierta experiencia podrán generar consultas flexibles mediante una aplicación que proporcione una interfaz gráfica de ayuda. Los usuarios altamente experimentados podrán escribir, total o parcialmente, la consulta en un lenguaje de interrogación de datos. 49 2.2.1.1 SOLUCIONES DE QUERY AND REPORTING EN EL MERCADO Actualmente en el mercado podemos encontrar una amplia gama de productos dedicados a ofrecer el servicio de Consulta e Informes, para explotar los datos contenidos en el Datawarehouse. Algunos corresponden a marcas reconocidas como Oracle, IBM Cognos, Microsoft, entre otros. A continuación se mencionaran algunos de ellos con una breve descripción de sus características: Hyperion Interactive Reporting / Oracle : Software para la creación de gráficos, tablas dinámicas e informes a partir de los datos de diversas fuentes operativas y analíticas. Además, permite acceder directamente a las fuentes relacionales sin necesidad de crear ni acceder a la capa semántica de Oracle Business Intelligence Server. Hyperion SQR Production Reporting / Oracle: Herramienta que se conecta a fuentes de datos empresariales diversas y puede programarse para crear informes periódicos de gran tamaño. Permite consultar distintas fuentes de datos, como las principales bases de datos relacionales, multidimensionales y sistemas desarrollados (por ejemplo, IBM DB/2, SAP R/3, SAP BW y SQL Server). Desbloquea los datos y permite utilizarlos para crear informes multifuncionales que permitan a las empresas detectar excepciones y supervisar el rendimiento de los distintos procesos. IBM Cognos 8 Business Intelligence Analysis / IBM Cognos: Software que proporciona completas capacidades de BI en una arquitectura probada. Permite la exploración guiada y el análisis de información relacionado con todas las dimensiones de su negocio, con independencia de dónde se encuentren almacenados los datos. Analice y genere informes a partir de fuentes OLAP y fuentes de datos relacionales basadas en dimensiones. IBM Cognos 8 Business Intelligence Reporting / IBM Cognos: Producto que proporciona completas capacidades de BI en una arquitectura probada. Da acceso a una completa lista de tipos de informes de autoservicio, se adapta a cualquier fuente de datos, y opera desde una única capa de 50 metadatos para ofrecer diversos beneficios como el reporting en múltiples idiomas. Longview / Exact Software: Software que dispone de herramientas propias de análisis y reporting (principalmente multidimensional). Expone por otra parte sus datos por ODBC y web services para poder integrarse como una fuente de información más de los sistemas de reporting de las compañías. Dispone de Web services y herramientas de programación para poder automatizar procesos de alimentación y extracción con los sistemas con los cuales se relaciona. SQL Server Analysis Services / Microsoft: Proporciona funciones de procesamiento analítico en línea (OLAP) y minería de datos para aplicaciones de Business Intelligence. Analysis Services admite OLAP al permitirle diseñar, crear y administrar estructuras multidimensionales que contienen datos agregados desde otros orígenes de datos, por ejemplo bases de datos relacionales. WebFOCUS Visual Discovery / Information Builders: Herramienta de consulta y análisis completamente visual que con satisface las necesidades de una amplia gama de usuarios, incluso aquellos sin un perfil técnico. En cuestión de minutos se pueden crear completos dashboards de análisis muy visuales y gráficos. Las herramientas mencionadas anteriormente atienden a necesidades especificas de cada organización, por lo cual para llevar a cabo la selección de uno de ellos se debe llevar a cabo un análisis para determinar cuál es el que mejor se adapta a las necesidades y requerimientos de la organización en la cual se desea implementar. ´ 51 2.2.2 EIS (EXECUTIVE INFORMATION SYSTEM) Los Sistemas de Información para Ejecutivos también conocidos por sus siglas en ingles como EIS (Executive Information Systems) están dirigidos a altos ejecutivos de una organización como ayuda a la toma de decisiones. Presentan información relevante tanto interna como externa usando recursos visuales y de fácil interpretación, con el objetivo de mantenerlos informados. La información que presentan está enfocada a la situación actual de la organización (Bird, 1992) Un EIS es un software, con un sistema de recuperación amigable que provee información electrónica a los directivos con un acceso rápido a la información que forma parte de las áreas clave de la empresa, ayudando a realizar las actividades de gestión para conseguir los objetivos de la empresa. Los sistemas de información para ejecutivos tienen como objetivo soportar la categoría de decisiones que son descritas como no programables o intuitivas. Para que sea considerado un sistema de información para ejecutivos, debe cumplir con algunas características, sus principales características son: Son utilizados por los altos ejecutivos de una organización. Extraen, filtran, consolidan y visualizan los datos críticos. Permiten acceder en tiempo real a las variables que definen en estado actual de la organización. Cuentan con una interfaz de usuarios amigable. Para la presentación de la información utiliza graficas, tablas, texto, etc. Los Sistemas de Información para Ejecutivos, son considerados como herramienta de explotación del Datawarehouse, debido a que son utilizados como apoyo para la toma de decisiones por los altos ejecutivos, los cuales no cuentan con el tiempo, ni la habilidad para llevar a cabo análisis de los grandes volúmenes de datos, por lo tanto el EIS proporciona medios fáciles de usar para la consulta y análisis de la información confiable presentando los datos simplificados, altamente 52 consolidados, preparados para su presentación. Facilitando a los usuarios la recuperación y análisis de la métricas de performance de la organización. 2.2.3 Tableros de Control Es una herramienta gráfica que le permite a los directivos concentrarse en indicadores fundamentales que tienen relación directa con los objetivos de negocio de la empresa. Este no es un repositorio de datos, es una herramienta que muestra indicadores relacionando los resultados esperados con los reales, es una manera de analizar la evolución del negocio. Business Process Improvement (2009) Menciona que un Tablero de Control, es una poderosa herramienta de administración es utilizada para monitorear y administrar el desempeño de la estrategia en una organización. Convierte la misión y visión en un conjunto integral de objetivos y medidas de desempeño que pueden ser cuantificadas y valuadas. Un Tablero de Control permite visualizar datos trascendentes que esquematizan la naturaleza de la empresa y su destino. Estos indicadores deben mostrar la información en forma oportuna, sencilla e integrada, y ser claros y confiables. No garantizan el éxito de una empresa, debe comprometerse el esfuerzo necesario para su efectiva utilización y generar una transformación en la cultura de trabajo empresarial. Es importante tener en cuenta que un Tablero de Control no administra ni gestiona; los indicadores le muestran los problemas a los directivos, pero el análisis de las causas y la forma de solucionarlos depende de las decisiones que ellos tomen. El Tablero de Control le indica a los directivos si la organización está cumpliendo con los objetivos o no, pero en ningún momento genera una solución automática. 53 Los tableros de Control sirven, fundamentalmente para proporcionar una rápida visualización del estado actual de las variables básicas y la relación con los objetivos de la empresa. Permite saber si existen problemas en la organización y facilitan la visualización de su evolución, esto con la finalidad de tomar acciones oportunas para corregir posibles desvíos en los objetivos y poder corregirlos a tiempo. 2.2.3.1 Semáforos Son frecuentemente utilizados para indicar las variables en los Tableros de Control. Existen una serie de variables que son manejadas por los semáforos, a continuación se explican cada una de esas variables: Modelo del Semáforo: el modelo del semáforo está determinado por el número de niveles que posee y está directamente relacionado con la sensibilidad o capacidad de detalle. Valor Real: representa la variable que se desea monitorear. Valor Destino: representa el valor con el cual se establecerán diferencias, desvíos de los valores reales, durante el monitoreo. Umbrales: son los valores porcentuales que definen el paso de un estado a otro del semáforo. Depende de la cantidad de niveles del semáforo. 2.2.4 DATAMINING La Minería de Datos o Datamining es utilizada cuando se pretende obtener el máximo de la información, es decir, cuando se desea extraer conocimiento de los datos de la organización. 54 (W. Frawley, 1992) Puede definirse como la extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de los datos. Para conseguirlo hace uso de diferentes tecnologías que resuelven problemas típicos de agrupamiento automático, clasificación, asociación de atributos y detección de patrones secuenciales. La minería de datos es, en principio, una fase dentro de un proceso global denominado descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD), aunque finalmente haya adquirido el significado de todo el proceso o en lugar de la fase de extracción de conocimiento. El uso de la minería de datos como herramienta de explotación de un Datawarehouse, contribuye a la toma de decisiones tácticas y estratégicas proporcionando un sentido automatizado para identificar la información clave desde grandes volúmenes de datos. Permite a los usuarios dar prioridad a decisiones y acciones que deben realizarse y que tengan mayor relevancia, en el cumplimiento de los objetivos organizacionales. Proporciona a los usuarios tomar las mejores decisiones de acuerdo al problema presentado, siendo capaces de medir las acciones y los resultados. La minería de datos cuenta con una serie de modelos descriptivos y predictivos. La minería de datos provee principalmente dos capacidades que generan nuevas oportunidades de negocios, las cuales son: Predicción automatizada de tendencias y comportamientos. La Minería de datos automatiza el proceso de encontrar información predecible en grandes bases de datos. Se puede contestar rápidamente a preguntas que antes requerían un intenso análisis de los datos. Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Minería de Datos recorren las bases de datos e identifican modelos previamente escondidos en poco tiempo. 55 Las técnicas de Minería de Datos brindan beneficios de automatización. Ya que cuando esas herramientas son implementadas en sistemas de procesamiento paralelo de alto performance, pueden analizar los datos de una gran cantidad de datos masivos en pocos minutos. El tema de minería de datos es muy complejo e involucra una infinidad de conceptos, en este apartado únicamente se pretende conocer el concepto y los beneficios que brinda como herramienta de explotación de un Datawarehouse. 2.2.5 WEBHOUSING Representa una tendencia tecnológica para el Datawarehouse. Las tecnologías Web y el uso de Internet en las organizaciones ha tomado gran importancia hoy en día, ya que permite a las organizaciones mantenerse informados, sin necesidad de estar físicamente en su lugar de trabajo. Debido a esto surge la necesidad de integrar el internet y el Datawarehouse. El uso de esta tecnología como herramienta de explotación de Datawarehouse representa diversas ventajas como las siguientes: Bajo costo de desarrollo y mantenimiento, ya qe hace uso de internet y no necesita una infraestructura compleja. Únicamente se debe llevar a cabo la creación de interfaces Web. Brinda consistencia en los datos que se presentan. Es accesible, mediante el uso del browser de internet, lo cual hace sencilla la búsqueda de información. Confianza de los datos, debido a que hoy en día la seguridad es un papel fundamental y existen numerosos protocolos desarrollados para proteger los datos de personas ajenas a la organización. 56 La representación de los datos extraídos del Datawarehouse pueden darse mediante: Publicación de datos. Distribución de reportes Aplicaciones dinámicas La aplicación de esta forma de explotación mediante el uso de internet aun tiene aspectos que deben considerarse al querer implementarlo. Ya que se deben considerar los tiempos de respuesta y se debe contar con una arquitectura de red solida y robusta para soportar este tipo de consultas OLAP. 2.2.6 HERRAMIENTAS OLAP Las herramientas OLAP permiten navegar a través de los datos almacenados en el Datawarehouse y analizarlos dinámicamente desde una perspectiva multidimensional, es decir, considerando unas variables en relación con otras y no de forma independiente entre sí y permitiendo enfocar el análisis desde distintos puntos de vista. En el siguiente capítulo se profundiza en el tema de las herramientas OLAP, específicamente Cubos OLAP; el cual es el tema principal de este trabajo de investigación. 57 Capitulo 3 Cubos OLAP 3.1 DEFINICION Como antecedentes tenemos que OLAP (On-Line Analytical Processing) significa, Procesamiento Analítico en Línea y constituye la manera de organizar los datos contenidos en una base de datos para que se ajusten al modo que tienen los usuarios de analizarlos. Los cubos OLAP, representan una herramienta utilizada en los que se conoce como Inteligencia de Negocios, debido a que permite a la organización optimizar sus procesos y generar información útil, rápida y fácil de analizar para los ejecutivos, como apoyo en la Toma de Decisiones, en base a datos históricos que permitan brindar seguridad y soporte. Un cubo OLAP muestra los resultados resumidos de los informes, en vez de una gran cantidad de registros individuales, para que sea posible analizar muchos datos que, por la cantidad de datos los recursos del sistema no podrían manejar, constituye una tecnología que provee rápido acceso a datos en un Datawarehouse. Los cubos proporcionan un mecanismo para buscar datos con rapidez y tiempo de respuesta uniforme independientemente de la cantidad de datos en el cubo o la complejidad del procedimiento de búsqueda. 59 Los cubos son subconjuntos de datos de un almacén de datos, organizado y sumarizado dentro de una estructura multidimensional. Los datos se sumarizan de acuerdo a factores de negocio seleccionados, dando el mecanismo para la rápida y uniforme tiempo de respuesta de las complejas consultas. 3.2 CUBOS VIRTUALES Haciendo una analogía, el realizar cubos virtuales, es similar al proceso de juntar tablas con vistas en las bases de datos relacionales. Un cubo virtual, provee acceso a los datos en los cubos combinados como si estuvieran en un único cubo, sin la necesidad de construir un nuevo cubo, siempre y cuando el diseño de cada cubo individual tenga un buen diseño. La principal ventaja que ofrece los cubos virtuales es que almacena únicamente definiciones, no los datos, por lo tanto, requieren menos espacio de almacenamiento que los cubos normales. Un cubo podrá ser actualizado, procesando solo los datos que han sido añadidos, en vez de hacerlo con el cubo entero, se puede usar la actualización incremental para actualizar un cubo mientras se esté usando. 3.3 RESTRICCIONES El esquema de un Cubo permite manejo de restricciones, estas se pueden clasificar a grandes rasgos como: Restricciones de Llave Restricciones de Integridad Referencial 60 Restricciones No Nulas Así mismo pueden clasificarse también en dos categorías: 1) Restricciones intra-cubo. Define restricciones dentro del cubo, se encarga de explotar la relación que existe dentro de los distintos atributos del cubo. 2) Restricciones inter-cubo. Define las restricciones entre dos a más cubos. 3.4 COMPONENTES Los cubos se constituyen de diversos elementos, de los cuales es necesario conocer y entender el concepto de cada uno de ellos. Los componentes de un cubo son: Dimensiones Niveles de Jerarquía Medidas Hechos A continuación se explican a detalle cada uno. 3.4.1 Dimensiones Son categorías descriptivas por los cuales los datos numéricos (mediciones) en un cubo, son separados para su análisis. Son usadas para seleccionar y agregar datos a un cierto nivel de detalle. Por ejemplo, si una medición de un cubo es el conteo de las ventas y las dimensiones son tiempo, vendedor, producto, los usuarios del cubo, podrán 61 separar el conteo de las ventas realizadas dentro de las categorías que corresponden a las dimensiones antes mencionadas. Una dimensión puede ser creada para usarse en: Cubo individual. Llamada dimensión privada. Múltiples cubos. Llamada dimensión compartida. Es más conveniente utilizar la dimensión compartida debido a que se podrán usar dentro de todo el cubo, mediante esto se optimiza el tiempo y se evita duplicación de dimensiones privadas, además estandarizan las métricas de negocios entre los cubos, es decir, las dimensiones están organizadas similarmente en todos los diferentes cubos y se puedan analizar sin inconvenientes. 3.4.2 Niveles de Jerarquía Representan la jerarquía de los miembros de las dimensiones. Se refiere al nivel de detalle que se da en cada una de las dimensiones. Estos niveles de jerarquía tienen relación con el esquema copo de nieve, ya que de una dimensión se hace el desglose para saber específicamente acerca de un dato. Por ejemplo, se tiene la dimensión País, pero de desea analizar más a detalle acerca de ese país, se jerarquiza en País, Estado, Ciudad. 3.4.3 Medidas Son datos numéricos de interés primario para los usuarios del cubo. Representan el resultado del dato que se requiere conocer y analizar. Algunas medidas comunes son Ventas en unidades, ventas en pesos, costo de ventas, gastos, conteo de la producción, presupuesto, entre otras. Son usadas por el 62 procedimiento de agregación de los servicios de OLAP y almacenadas para su rápida respuesta a las peticiones de los usuarios. 3.4.4 Hechos Son las colecciones de datos que se extraen, es lo que se quiere ubicar. Son mediciones numéricas (valores) que representan un aspecto o actividad de negocio especifica. Figura 3.1 Representación de un cubo OLAP. A continuación se explican cada uno de los componentes de un cubo, con la finalidad de que cada uno de los miembros sean entendidos e identificados, para lo cual se tomara como ejemplo la figura 3.1 El cubo corresponde al número de entregas de paquetes que se realizan de acuerdo a una ruta determinada, país y en que lapso de tiempo. La dimensión 63 Source representa las ubicaciones en las que se producen las importaciones, caso de África o Asia. La dimensión Time representa los trimestres y semestres de un único año. Dimensiones: Route, Source y Time. Niveles de Jerarquía: por ejemplo, en la dimensión Route su nivel de jerarquía es nonground que a su vez se divide en air, sea y ground roal, rail. Route Nonground Air Sea Ground Air Sea Figura 3.2. Representación de Niveles de Jerarquía Hecho. Numero de paquetes entregados por ruta air, en North America en el tercer trimestre del año. Medidas. Del hecho anterior la medida seria 4,360. Figura 3.3. Representación de la medida. 64 3.5 PROPIEDADES DE MIEMBROS Se pueden definir propiedades para los miembros de dimensión y usar datos para estas propiedades dentro de un cubo. Por ejemplo, si los miembros de la dimensión producto son su número de partes, es lo mismo hacer varias propiedades asociadas con este número de parte tales como, el tamaño, color, etc. Se pueden especificar tales propiedades, como una propiedad miembro y utilizarla en las búsquedas analíticas. 3.6 AGREGACIONES Se le llama así, al proceso de precalcular sumas de datos, para ayudar a disminuir los tiempos de respuestas, en los procesos de búsquedas de información. Las agregaciones pueden precalcularse durante el procesamiento de los cubos o al momento en que se realiza la consulta. Lo más recomendable es realizarlo durante el procesamiento para que así devuelva el resultado de la consulta más rápidamente En Analysis Services de Microsoft, se pueden calcular fácilmente otros valores agregados tomando como base otras agregaciones precalculadas. Y brinda un equilibrio entre los requisitos de almacenamiento y el porcentaje de las posibles agregaciones que se precalculan, esto debido a que todas las agregaciones posibles requieren tiempo de procesamiento y espacio de almacenamiento. Si durante la consulta no es necesario precalcular agregaciones, la cantidad de tiempo de procesamiento y de espacio de almacenamiento que se necesita para 65 un cubo se reduce al mínimo, aunque el tiempo de respuesta puede ser lento, ya que es preciso recuperar de las celdas hoja los datos necesarios para responder a cada consulta y luego agregarlos en el tiempo de la consulta para responder a cada una de ellas. 3.7 TIPOS DE ALMACENAMIENTO Existen varios tipos de almacenamiento para los cubos, pero hay 3 principales los cuales son: ROLAP MOLAP HOLAP 3.7.1 ROLAP (Relational On Line Analytical Process) Su forma de almacenamiento es en una base de datos relacional, como bien su nombre lo indica. Este modo de almacenamiento, no guarda una copia de los datos de origen, las consultas son realizadas directamente a las tablas originales de la base de datos. Por lo cual, el resultado de la consulta suele ser más lento en comparación con los otros dos tipos de almacenamiento. Su tiempo de procesamiento también se ve reducido. Sin embargo permite a los usuarios, ver los datos en tiempo real y ahorrar espacio de almacenamiento ya que es recomendable utilizar ROLAP para 66 grandes volúmenes de información que no son frecuentemente buscados tales como datos históricos. Por lo tanto ROLAP, ofrece características de escalabilidad, concurrencia y administración de datos. 3.7.2 MOLAP (Multidimensional On Line Analytical Process) Como su nombre lo indica, utiliza una base de datos multidimensional. En este tipo de almacenamiento se carga la información procedente de los sistemas transaccionales. Las vistas de los datos en este tipo de almacenamiento son dadas por medio de estructuras de arreglos. Después de cargar los datos se generan índices con la finalidad de mejorar los tiempos de respuesta de las consultas. La estructura multidimensional es una copia de los datos de origen, por lo cual los datos fuente son almacenados junto con sus agregaciones en una estructura multidimensional de alto rendimiento. Dichas agregaciones permiten disminuir los tiempos de respuesta de las consultas. MOLAP, proporciona excelente rendimiento y compresión de datos. Este tipo de almacenamiento, es adecuado para volúmenes de información pequeños con número limitado de dimensiones, además para cubos con uso frecuente por su rápida respuesta. 67 3.7.3 HOLAP El almacenamiento en HOLAP combina atributos de MOLAP y ROLAP, para almacenar la agregación de los datos utiliza la estructura multidimensional de MOLAP y la base de datos fuente esta dada en una base de datos relacional. Para devolver los resultados de una consulta lo realiza accediendo a datos sumarizados como en MOLAP Para procedimientos de búsqueda que accesan datos sumarizados, HOLAP es equivalente a MOLAP. Los cubos almacenados en HOLAP, son más pequeños que los MOLAP, ya que no contienen datos de origen y responden más rápido que las consultas realizadas en ROLAP. HOLAP es generalmente usado para cubos que requieren rápida respuesta, para sumarizaciones basadas en una gran cantidad de datos. 3.7.4 DIFERENCIAS Actualmente es importante conocer los requerimientos de la organización para poder llevar a cabo la mejor selección del tipo de almacenamiento de los datos para un cubo. Ya que como se explico anteriormente cada tipo de almacenamiento tiene sus ventajas y desventajas no se podría decir con exactitud cuál es el mejor. Sin embargo también es importante mencionar que HOLAP ofrece las ventajas de los otros dos tipos de almacenamiento por lo cual representa una opción adecuada. A continuación se muestra una tabla en la cual de hace una comparación de las diferencias entre ROLAP y MOLAP en cuatro aspectos fundamentales: 68 DATOS MOLAP ROLAP Detalle y precalculados, Detalle y agregados agregados ESTRUCTURA Matrices comprimidas Tablas relacionales ADMINISTRACIÓN Especialista en Bases de Administrador de Base de Datos Multidimensionales Datos (BDMD) ACCESO Lenguaje especializado SQL Tabla 3.1. Diferencias entre MOLAP y ROLAP 3.8 OPERACIONES CON CUBOS Las operaciones más comunes para realizar con cubos son: Roll up. Se refiere al incremento en el nivel de agregación de los datos. Se refiere a una exploración de los datos de manera ascendente, es decir, desplaza la jerarquía hacia arriba, agrupándola en unidades mayores a través de una dimensión. Un ejemplo de esta operación es cuando se desea conocer el resumen de las ventas realizadas en semanas, trimestres o anuales. Drill down. Es la reducción de la dimensionalidad de los datos mediante selección. Es el proceso de visualización de datos a mayor nivel de detalle. Se refiere a una exploración descendente. Un ejemplo de donde estaría aplicada esta operación, es cuando se desea conocer las ventas a nivel nacional, por región y por subregión. Slice. Esta operación ejecuta una selección sobre la dimensión de un cubo dado, resultando un subcubo. Dice. Esta operación define un subconjunto realizando una selección de dos o más dimensiones. 69 Las operaciones Slice y Dice, agregan, remplazan o eliminan atributos específicos de una dimensión o una parte de esos atributos. Pivotaje o rotación. Reorientación de la visión multidimensional de los datos. Selecciona el orden de visualización de cada una de las dimensiones que conforman el cubo. Drill Across. Se refiere a pasar de una dimensión a otra. Es la acción de desglosar una métrica por una dimensión que pertenece a otro cubo. Drill Through. Consulta sencilla que permite indicar y expresar que existe un nivel de datos detallados. 3.9 INDICADORES KPI La función principal de utilizar herramientas de explotación en un Datawarehouse es con la finalidad de obtener datos resumidos de la gran cantidad de datos que se tiene almacenados. Por lo tanto el concepto de Indicador, toma gran relevancia en los Cubos OLAP. 3.9.1 DEFINICION Un KPI es sencillamente un indicador que está asociado a un objetivo. Indica el estado en que la empresa se encuentra, es decir, si está por encima o por debajo de una meta predeterminada. Comúnmente se muestran como una tasa o porcentaje y están diseñados para permitir que un usuario de negocios pueda 70 saber instantáneamente si están dentro o fuera de su plan sin que tenga que buscar información adicional. Un indicador clave de rendimiento (KPI) es una medida cuantificable para valorar los éxitos de la empresa. En Analysis Services, un KPI es un conjunto de cálculos asociados a un grupo de medida de un cubo, que se usa para evaluar el éxito empresarial. Normalmente, estos cálculos son una combinación de expresiones MDX (Expresiones multidimensionales) o miembros calculados. Los KPI también tienen metadatos adicionales que proporcionan información acerca de cómo deberían las aplicaciones cliente mostrar los resultados de los cálculos de KPI. Un KPI administra información sobre un objetivo establecido, la fórmula real del rendimiento registrada en el cubo y medidas para mostrar la tendencia y el estado del rendimiento. Los Cubos OLAP, son una excelente herramienta que permite generar Indicadores, fácil y sencillamente, además de brindar ventajas en la visualización de los datos, además son de fácil entendimiento y manejo. 3.10 OPTIMIZACIÓN DEL RENDIMIENTO Al preparar los datos para pasarlos a cubos OLAP, es importante tener en cuenta la indexación de cada una de las dimensiones y tablas de hechos, para tener un buen rendimiento en el procesamiento de los cubos. Es fundamental comprobar el rendimiento, ya que si no se tiene el rendimiento previsto se debe comprobar cómo optimizar las consultas o el esquema para mejorar el rendimiento. Si el rendimiento es lento se debe revisar el esquema relacional utilizado y en cómo esta implementado, es decir, revisar sus índices, relaciones, integridad, limpieza de datos. 71 Existe una guía dada por Microsoft que aplica a Servicios OLAP de Microsoft SQL Server. La cual menciona los pasos a seguir antes de procesar un cubo de servicios OLAP. 1. Declare una clave principal en cada tabla de la dimensión. 2. Para las dimensiones de estrella, declare las relaciones de claves externas (FK) entre cada tabla de dimensiones y tabla de hechos correspondiente. Además, para las dimensiones de copo de nieve, declare las relaciones de claves externas entre cada tabla de dimensiones secundaria y la tabla de dimensiones primaria que aumenta. 3. Asegúrese de que hay una clave principal asociada a las tablas de hechos. 4. Declare índices en cada una de las claves principales en las tablas de dimensión y en las tablas de hechos. 5. Declare índices en cada una de las claves externas de las tablas de hechos. 6. Limpie los datos para quitar todos los valores NULL para esos elementos de datos que se pasan a Servicios OLAP. 3.11 RECOMENDACIONES PARA EL DISEÑO DE CUBOS El diseño de los cubos, es sencillo, pero debe atender a requerimientos específicos, se deben tomar en cuanta diversas especificaciones para qué el diseño sea correcto y atienda a las necesidades de la empresa. Además de que brinde resultados correctos que permitan tomar decisiones adecuadamente. Los cubos bien diseñados satisfacen mejor las necesidades de los usuarios finales. A continuación se muestra una serie de prácticas recomendadas por 72 Microsoft TechNet, que pueden ayudar a mejorar la usabilidad y el rendimiento de los cubos. Evitar incluir medidas no vinculadas en el mismo cubo. Tener muchos grupos de medidas en un cubo puede afectar negativamente el rendimiento del las consultas del cubo, incluso para las consultas que solo utiliza un grupo de medidas. Evitar tener muchas dimensiones padre-hijo en un cubo. Se deben utilizar solo cuando sea extremadamente necesario, debido a que las consultas tendrán my poco rendimiento. Evitar tener muchas dimensiones de muchos a muchos. Esto puede tener como consecuencia tener problemas de rendimiento. Evitar crear múltiples grupos de medidas que tengan la misma dimensionalidad y granularidad. El tener muchos grupos de medidas puede afectar negativamente el rendimiento. Además la presencia de muchos grupos de medida similares presenta un modelo complejo para el usuario final. Por lo tanto debe considerarse la creación de un solo grupo de medidas que contenga varias particiones. Poner cada medida dentro de un grupo de medidas. Esto permitirá mejorar el rendimiento. Establecer explícitamente algún miembro predeterminado del juego de rol de las dimensiones directamente en las dimensiones del cubo. Esto implica que una dimensión puede tener diferente nombre de acuerdo a la función que desempeñe, por ejemplo OrdeFecha y FechaEnvio están basados en la dimensión Fecha, sin embargo tienen diferente nombre de acuerdo a su función. Esto representa una ventaja, ya que permite que los diferentes miembros predeterminados desempeñen una función diferente y no exista confusión en las dimensiones y atributos. 73 Reutilizar dimensiones en los cubos, en lugar de crear dimensiones duplicadas. Se debe evitar considerablemente la duplicación de dimensiones, ya que si no se tendrán problemas de almacenamiento y excesivos gastos de mantenimiento. Utilizar el tipo de dato adecuado para cada una de las medidas. El tipo de dato debe ser el adecuado no debe ser más pequeño de lo que se necesita ni mas grande, para no reducir los costos de almacenamiento. Dimensiones materializadas. Esto se debe realizar con la finalidad de mejorar el rendimiento y las dimensiones de referencia deben ser materializadas. Así como las anteriores hay otras recomendaciones que se deben tomar en cuenta, estas únicamente son recomendaciones por parte de Microsoft para generar una buena estructura en la creación de Cubos OLAP. Todas y cada una de las prácticas anteriores pueden ayudar al responsable de la creación y diseño de Cubos a tener una guía de los aspectos que son fundamentales y que se deben tomar en cuenta. 3.12 SOFTWARE PARA LA CREACIÓN DE CUBOS Actualmente existen muchas empresas que se dedican a crear y distribuir soluciones para las empresas que requieren elevar su nivel de competitividad y contar con herramientas OLAP que les permita eficientar sus procesos y tomar decisiones basadas en el negocio y los resultados. Es por eso que a continuación se muestran las principales empresas dedicadas a crear soluciones de Inteligencia de Negocios y que brindan el software necesario para la creación del tema central de este capítulo que son los Cubos OLAP. 74 3.12.1 PENTAHO La corporacion Pentaho es el patrocinador primario y propietario del proyecto Pentaho BI. La PLATAFORMA Pentaho BI es una iniciativa en curso por la comunidad de Open Source que provee organizaciones con mejores soluciones para las necesidades de BI de una empresa, en Arquitectura, Soporte, Funcionalidad e Implantación. En la plataforma Open Source de PENTAHO se incluye la herramienta OLAP Mondrian, que permite crear cubos de información para análisis multidimensional. Dichos cubos se componen de archivos XML y en ellos se definen las Dimensiones y las conexiones de los datos. Los archivos XML por lo general son complejos de realizar manualmente por lo que es común utilizar herramientas graficas para realizar la edición de estos. Como ejemplo de estas herramientas Open Source Pentaho tenemos a Cube Designer para la Creación de cubos y el Workbench para la edición de los mismos. 3.12.2 MICROSOFT: SQL ANALYSIS SERVICES (SSAS) Microsoft SQL Server 2005 Analysis Services (SSAS) ofrece funciones de procesamiento analítico en línea (OLAP) y minería de datos para aplicaciones de Business Intelligence. Analysis Services admite OLAP y permite diseñar, crear y administrar estructuras multidimensionales que contienen datos agregados desde otros orígenes de datos, como bases de datos relacionales. Los cubos son objetos OLAP que se componen de medidas y dimensiones relacionadas que se configuran en una base de datos de Analysis Services. Puede definir y configurar varios cubos en una única base de datos; y cada cubo puede usar algunas de las mismas dimensiones o todas ellas. También puede definir un 75 solo cubo que contenga varios grupos de medida en la misma base de datos en lugar de definir cubos independientes. Al definir un cubo con varios grupos de medida, debe definir cómo se relacionan las dimensiones con cada grupo de medida y personalizar, según corresponda, los objetos de dimensión de cada cubo y grupo de medida. Al definir un cubo, también se definen propiedades avanzadas del mismo: cálculos, KPI, acciones, particiones, agregaciones, perspectivas y traducciones. Así como esta Analysis Services de Microsoft, también es muy utilizado para la creación de Cubos, la herramienta de Office Microsoft, Excel en conjunto con Microsoft Access. Esta forma de creación de cubos ha sido muy utilizada, debido a que todas las empresas cuentan con este Software y existen en la red muchas guías y manuales, que ayudan a la creación de cubos OLAP. Además existen herramientas de Inteligencia de Negocios que permiten la creación de cubos pero utilizando como herramienta para la visualización Microsoft Excel. 3.12.3 OlapX® Es una sofisticada herramienta OLAP que le permite crear o utilizar cubos multidimensionales existentes para el análisis de la información de su empresa. Permite el análisis interactivo, reporteo y presentación de cubos multidimensionales que se encuentren en bases de datos de Microsoft Analysis Services o en archivos locales. Está diseñado para usuarios de cualquier negocio o nivel técnico para que puedan llevar a cabo los análisis de la información por ellos mismos, crear reportes y consultas y compartirlos para mejorar el proceso de toma de decisiones de una compañía. 76 Cuenta con 4 productos fundamentales que atienden requerimientos específicos, los cuales son: OlapX Application: Una aplicación cliente servidor que le permite crear, ver y analizar cubos multidimensionales. OlapX Lite: El compañero de OlapX Application. Este producto será gratuito por un tiempo limitado, le permite a usuarios finales utilizar el trabajo realizado con OlapX Application. OlapX Developer: Si desea desarrollar aplicaciones Olap personalizadas, puede crearlas y distribuirlas con este producto OlapX Web: Para distribuir sus cubos a través de un sitio web, puede utilizar este control e insertarlo en su sitio. 3.12.4 ORACLE 10G Y 11G A partir de la versión de Oracle 10g, se introducen a ella nuevas características en comparación con versiones anteriores, una de ellas es que permite la creación de cubos OLAP incorporando características de alto desempeño para el depósito de datos en Oracle. En la versión 11g se incluyen visualizaciones relacionales de un cubo que son administradas por la base de datos, una fuente de dilas para la exploración de cubos y visualizaciones materializadas. Oracle OLAP utiliza un espacio de trabajo analítico, en el cual almacena los datos en la base de datos como cubos multidimensionales, que son diseñados para consultas y actualizaciones cada vez más rápidas. 3.12.5 SAP BUSINESS OBJECT Es el proveedor líder en lo que a Inteligencia de Negocios se refiere y cuanta con miles de clientes. También ofrece creación y mantenimiento de cubos OLAP para la presentación de la información del negocio. 77 Ofrece un extenso portafolio de Inteligencia de Negocios, en el cual incluye productos como: SAP BO Web Intelligence. SAP BO Desktop Intelligence SAP BO Crystal Reports SAP BO xCelsius SAP Voyager SAP BO Set Analysis, entre otros más. Anteriormente se mencionaron solo algunas de las marcas reconocidas en el mercado y que son ampliamente utilizadas por las empresas para implementar soluciones OLAP, que les permitan realizar análisis de sus datos del negocio. Así como estas existen otras más, por lo cual la selección de la mejor dependerá de los requerimientos de la empresa y de conocer a fondo cuales son las características que ofrece y en base a esto seleccionar la que mejor se adecue a los procesos de la empresa y a sus necesidades. 78 Capítulo 4 Visualización de un ejemplo de Cubo OLAP 4.1 DESCRIPCIÓN A continuación se presenta la descripción de la interfaz utilizada por usuarios finales, de un cubo. Este muestra información relevante acerca del número de PE de Posgrado. Es importante mencionar que este cubo fue diseñado previamente y los valores mostrados no pueden cambiar, lo único que se puede cambiar es la forma de visualización de los datos. 4.2 VISUALIZACIÓN DE LA INFORMACION DEL CUBO A continuación se explicara y se mostrara un ejemplo de un cubo realizado, que ya se encuentra funcionando y que sirve de soporte para tomar decisiones. Se procede a explicar la interfaz utilizada. Como se explicaba anteriormente, el cubo ya fue diseñada previamente, indicando las dimensiones requeridas, por lo tanto únicamente se pueden visualizar los datos y no se pueden realizar cambios. En la figura 4.1 se muestra la pantalla principal, sobre la cual se pueden visualizar y cambiar las vistas de los datos presentados. Como se puede visualizar en la figura 4.1. La interfaz contiene diversos menús a los cuales se puede acceder y realizar cambios en la vista de la información presentada. Más adelante se explicaran a detalle todas y cada una de las principales herramientas y funciones que se pueden realizar. 80 Figura 4.1 Pantalla principal 4.3 COMPONENTES BÁSICOS A continuación se procede a explicar todas las herramientas que incluye la interfaz. 4.3.1 FORMATO En la parte superior de la pantalla se puede observar el menú que nos brinda diversas opciones de formato para realizar al cubo mostrado. 81 Figura 4.2 Menú de formato Para comenzar a describir cada uno de los botones de la figura 4.2 se empezara de izquierda a derecha Save Chart Image. Permite guardar la grafica del cubo mostrado. Mostrara una ventana donde dirá si queremos Abrir, Guardar o Cancelar. Copy Chart. Almacena en el portapaleles la imagen para copiarla en algún documento. Print Chart. Permite imprimir la grafica del cubo mostrado. Print Preview Chart. Permite visualizar antes de imprimir la grafica de los datos del cubo. Select Chart Type. Permite cambiar el tipo de grafica. En la figura 4.3 se muestra los diferentes tipos de graficas. Figura 4.3 Tipos de gráficas. Toggle Chart Legend. Oculta la leyenda de los datos mostrados. 82 Properties. Abre una ventana en la cual se pueden realizar otras configuraciones. Como estilo, tipo de grafica, titulo, colores, leyenda, apariencia entre otras. Como se muestran en la figura 4.4 Figura 4.4 Ventana de Propiedades. Select Color Palette. Permite cambiar la combinación de los colores de la ventana. Pivots Data. Al seleccionar esta opción, muestra en la grafica los datos pivote. En este caso son las regiones. En la figura 4.5 se muestra el resultado al seleccionar esta opción. 83 Figura 4.5 Vista de los datos al seleccionar Pivots Data Switch to simple view. Muestra una vista simple del grafico. 4.3.2 Reports Este menú ofrece diversas opciones para crear reportes de los datos. En la figura 4.6 se muestra el menú. Se procederá a explicar de izquierda a derecha. Figura 4.5. Menú Reports 84 Add Report. Agrega un Nuevo reporte Remove report.Elimina reporte seleccionado Revert to original report. Si se han realizado cambios a algun reporte realizado, deshace los cambios y conserva el original. Rename report. Permite cambiar el nombre al reporte. Save reports. Almacena el reporte generado Load reports. Carga los reports generados. 4.3.3 Measures and Dimensiones En este apartado se muestran las medidas y dimensiones utilizadas para crear diferentes cubos. En la figura 4.6 se pueden observar las definidas para este cubo. Las que están marcadas con negritas son las utilizadas para el cubo mostrado en este ejemplo. Figura 4.6 Medidas y dimensiones utilizadas en el cubo. 85 4.3.4 Visualización de los datos Esta interfaz permite mostrar los datos de dos diferentes maneras: Chart. Los datos son visualizados mediante grafica. Grid. Los datos se visualizan mediante tablas. En la figura 4.7 se muestra la visualización por medio de grid. Figura 4.7 Visualización de datos mediante la opción Grid. 4.4. CATEGORÍAS Y SERIES Mediante estos menús podemos seleccionar los datos que se desean mostrar únicamente en las graficas. En el apartado de Categorías, para cuestiones de este ejemplo, se muestran las dimensiones Región y Área Académica. Al seleccionar la pestaña de alguna de estas mostrara los datos que se tienen para establecer diversas vistas de los datos. En la figura 4.8 se muestran los datos que se tienen configurados para este ejemplo. 86 Figura 4.8 Datos contenidos en las dimensiones Región y área Académica . 87 CONCLUSIONES A lo largo de este trabajo de investigación, se llega a la conclusión de que los conceptos sobre los cuales se centra, son actualmente de vital importancia conocer, ya que aunque en México muy pocas empresas tienen implementados Datawarehouse, si hay muchas que hacen uso de herramientas de Inteligencia de Negocios para eficientar sus procesos y llevar una adecuada toma de decisiones, que permitan alcanzar los objetivos planteados y brindar ventaja competitiva, aun utilizando bases de datos transaccionales. Considero que es de vital importancia evolucionar y optar por herramientas dinámicas que permitan y ayuden a las organizaciones a transformar su información en conocimiento y cambiar las bases de datos operacionales por las bases de datos multidimensionales que le den flexibilidad a los datos y se puedan implementar diversas soluciones para este tipo de datos. Como antecedente, por muchos años se ha utilizado sistemas basados en Procesamiento Transaccional, comúnmente conocido como OLTP, las cuales han funcionado muy bien y hasta el día de hoy permiten realizar las operaciones básicas del negocio, sin embargo no permiten realizar análisis de sus datos debido a que sus estructuras son muy robustas y no permiten flexibilidad de sus datos almacenados. Sin embargo surgió el concepto de de Procesamiento Analítico en Línea OLAP, el cual con el paso de los años se ha vuelto más popular debido a que mejora significativamente el análisis del negocio y aunque en un principio era considerado como difícil y costoso de implementar, no obstante se han desarrollado diversas herramientas que hacen más fácil y menos costo. Es importante que las empresas hagan un análisis de las operaciones y procesos que realizan con la finalidad de evaluar y pensar en implementar soluciones de Inteligencia de Negocios, debido a que no solo se deben implementar para no estar un paso atrás, sino es necesario determinar si son requeridas y cuál es la que mejor se adecua a los requerimientos de la empresa. 89 Para las empresas que llevan muchos años en el mercado representaría una excelente opción pensar en implementar un Datawarehouse, ya que este contiene datos históricos de 5 a 10 años y permitiría llevar a cabo análisis de la información contenida en el almacén de datos. De las diversas herramientas de explotación de Datawarehouse que se presentan en el contenido del trabajo, cabe mencionar que no son las únicas que existen, peo el propósito de esta investigación es brindar una idea general de las que existen y cuáles son las más utilizadas por las empresas. Además de las herramientas mencionadas existen, lo que es el tema principal y por el cual se llevo a cabo dicha investigación. Los cubos OLAP, los cuales desde mi punto de vista proporcionan una excelente visión de los datos, ya que cuenta con diversos componentes que brindan una representación dinámica de la información. Hoy en día las empresas les hace falta realizar un cambio en la representación de la información al usuario final, es necesario implementar herramientas que permitan un fácil y correcto análisis de la información del negocio y brinden una visión general de cómo se llevan a cabo las operaciones con el paso del tiempo y saber si están cumpliendo con sus objetivos. Los cubos permiten mostrar indicadores, este concepto ha tomado gran importancia y los cubos son una excelente herramienta para representarlos. Los indicadores están asociados con objetivos, a las empresas hoy en día les interesa conocer si están cumpliendo con las metas trazadas y medir el éxito o fracaso de acuerdo a determinadas situaciones. Actualmente los indicadores son muy utilizados en el ámbito de la educación y diversas organizaciones educativas forman parte del proyecto de integración del sistema nacional de indicadores en educación superior del país y hasta el día de hoy existe un registro de diversos indicadores desde el año 2006. 90 Es por esto que los cubos OLAP son una herramienta que permite generar indicadores de manera fácil y sencilla, además de brindar ventajas en la visualización de los datos, anexando su fácil entendimiento y manejo para los usuarios finales. Es importante mencionar además que al implementarlos se debe estar muy pendiente del rendimiento y tomar en cuenta las diversas recomendaciones para su diseño, es importante hacer énfasis en este tema ya que se le debe dar la importancia necesaria al llevar a cabo su diseño, ya que aunque represente una buena herramienta, sino son diseñados adecuadamente mostraran información errónea y por ende no se podrán obtener buenos resultados ni indicadores confiables que permitan la correcta toma de decisiones. En la actualidad existen muchas empresas que ofrecen soluciones de inteligencia de Negocios y proporcionan diversas aplicaciones para la creación de cubos, cada vez son más sencillas de utilizar y brindar interfaz grafica que permiten su fácil creación; por lo cual antes de llevar a cabo su selección, se debe llevar a cabo un análisis para determinar cuál es la que mejor se adecua a los requerimientos de la empresa. Para finalizar, como aportación personal, puedo concluir que la tecnología avanza constantemente, por lo cual es importante estar actualizados en los temas que son relevantes. Los cubos OLAP representan una solución reciente que día a día va mejorando, por lo cual no está por demás considerarlo como una buena herramienta de explotación de los datos contenidos en un Datawarehouse. Las organizaciones deben avanzar y no tener miedo al cambio, las herramientas OLAP representaran una ventaja siempre y cuando se tome el tiempo adecuado para analizar los requerimientos de la empresa y así obtener la mejor solución. 91 FUENTES DE INFORMACION BERSON, Alex (1997). DATA WAREHOUSING, DATA MINING & OLAP. New York: Mc Graw Hill. BIRD, J. EXECUTIVE INFORMATION SYSTEMS. MANAGEMENT Handbook. Oxford: Blackwell, 1992. FRAWLEY W. & Piatesky-Shapiro G. & Matheus C. (1992) KNOWLEDGE DISCOVERY IN DATABASES: AN OVERVIEW, (pág. 213-228) GILE, Keith (2002) BUSINESS INTELLIGENCE STRATEGIC PLAN. The Giga Group Developing GINER DE LA FUENTE, Fernando & GIL, Ma. De los Ángeles (2004). LOS SISTEMAS DE INFORMACION EN LA SOCIEDAD DEL CONOCIMIENTO. ESIC Editorial. JIAWER, Han & KRAMBER, Micheline (2006). DATA MINING: CONCEPTS AND TECHNIQUES. Segunda edicion. USA: Morgan Kaufmann. KIMBALL, Ralph (1998). THE DATAWAREHOUSE LIFECYCLE TOOLKIT: EXPERT METHODS FOR DESING, DEVELOPING AND DEPLOYING DATAWAREHOUSE. USA: John Wiley & Sons. 92 KIMBALL, Ralph (2008). THE DATAWAREHOUSE LIFECYCLE TOOLKIT: PRACTICAL TECHNIQUES FOR BUILDING DATA WAREHOUSE AND BUSINESS INTELLIGENCE SYSTEMS. USA: John Wiley & Sons. STANLEY M. Davis & Meyer Christopher (2000). BLUR: THE SPEED OF CHANGE IN THE CONNECTED ECONOMY Addison-Wesley THOMSEN, Erick (2002). OLAP SOLUTIONS: BUILDING MULTIDIMENSIONAL INFORMATION SYSTEM. Segunda edición. USA: John Wiley & Sons. Business Application Research Center (2008) The OLAP Report. Recuperado el 10 de junio de 2009, de http://www.olapreport.com/fasmi.htm Business Process Improvement (2009) Consult. Recuperado el 19 de junio de 2009, de http://www.grupoconsult.com/tablero_de_control.html Cavazos E. (2008) Gravitar Información sin Límites. Recuperado el 20 de abril de 2009, de http://www.gravitar.biz/index.php/bi/el-costo-de-una-solucion-de- business-intelligence-parte-1-de-2/ Carlos. Dataprix. Recuperado el 16 de mayo de 2009, de http://www.dataprix.com/herramientas-para-la-implantaci%C3%B3n-de-unsistema-de-data-warehouse 93 Data.ti. (2008) Herramientas de Query/Reporting y Análisis. Recuperado el 01 de junio de 2009, de http://www.datati.es/herramientas-de-queryreporting-y-analisis/ HAHCIET. (2009). Revista de Telecomunicaciones. Recuperado el 15 de junio de 2009, de http://www.ahciet.net/actualidad/revista/r.aspx?ids=10796&ids2=21861 Implementando Cubos OLAP. Recuperado el 25 de mayo de 2009, de http://download.microsoft.com/download/2/d/8/2d83e4ac-89e4-4319-a5c54185d8d264c9/Academia%20BI%20Unidad%205.doc Jiménez Mariana (2008) Gravitar Información sin Límites. Recuperado el 28 de junio de 2009, de http://www.gravitar.biz/index.php/bi/pentaho-ejemplo-cubomondrian/ Martinez. O. A. Gestiopolis. Recuperado el 05 de junio de 2009, de http://www.gestiopolis.com/canales8/ger/olap-online-analytic-processing.htm Microsoft.(2007) Microsoft Ayuda y Soporte. Recuperado el 8 de junio de 2009, de http://support.microsoft.com/kb/199132/es Microsoft (2009). Microsoft TechNet. Recuperado el 05 de julio de 2009, de http://technet.microsoft.com/es-mx/library/cc966399(en-us).aspx#EDAA 94 Msdn Microsoft Developer Network. Recuperado el 6 de junio de 2009, de http://msdn.microsoft.com/es-es/library/ms174915.aspx Msdn Microsoft Developer Network. Recuperado el 10 de junio de 2009, de http://msdn.microsoft.com/es-es/library/ms174758.aspx OlapX Software (2005) OlapX®. Recuperado el 29 de junio de 2009, de http://www.olapxsoftware.com/es/default.asp Recuperado el 06 de junio de 2009, de http://www.itson.mx/dii/jgaxiola/introduccion/eis.html Pérez S. (2006) Apoyo para la Toma de Decisiones. Recuperado el 15 de abril de 2009, de http://www.edutecne.utn.edu.ar/sistemas-informacion/Data%20MiningDataWarehouse.pdf Portal Corporation Sybven.(2009). Corporation Sybven. Recuperado el 20 de abril de 2009, de http://www.corporacionsybven.com/portal/index.php?option=com_content&view=ar ticle&id=198:etl&catid=124:conceptos-teoricos PriceWaterhouseCoppers. Intelligence). (2008). Recuperado el La 12 Inteligencia de de abril Negocios de (Business 2009, de http://www.pwc.com/ve/spa/pdf/aseger_200810.pdf 95 Punsalan.D. (2007) Information Management. Recuperado el 15 de abril de 2009, de http://informationmanagement.wordpress.com/category/data- warehousing/page/2/ Reall-Tech (2001). SQL MAX Connections. Recuperado el 14 de abril de 2009, de http://www.sqlmax.com/dataw1.asp Sistemas de Información para Ejecutivos, Inteligencia de Negocio y Cuadro de Mando Integral. Recuperado el 18 de junio de 2009, de http://isg.enmollina.com/EIS_BI_BSC.pdf Vlamis Dan. Oracle Technology Network. Recuperado el 04 de julio de 2009, de http://www.oracle.com/technology/global/lad-es/pub/articles/08jul/o38olap.html?_template=/ocom/print Wolf C.G (2002). Modelamiento Multidimensional. Recuperado el 20 de abril de 2009, de http://www.inf.udec.cl/~revista/ediciones/edicion4/modmulti.PDF 96 ÍNDICE DE FIGURAS 1.1 Niveles de uso de los datos ............................................................................ 10 1.2 Inteligencia de Negocios ................................................................................. 11 1.3 Conceptos que abarca la Inteligencia de Negocios ........................................ 12 2 2.1 Representación del Rendimiento entre transacciones OLTP y OLAP ........... 23 2.2 Arquitectura de un Datawarehouse ................................................................. 26 2.3 Enterprise Datawarehouse.............................................................................. 29 2.4 Arquitectura Bus ............................................................................................. 31 2.5 Representación de los elementos de la Arquitectura Bus ............................... 33 2.6 Ejemplo del esquema Estrella......................................................................... 42 2.7 Ejemplo del esquema Copo de Nieve ............................................................. 44 3 Capitulo 3 3.1 Representación de un Cubo OLAP ................................................................. 63 3.2 Representación de Niveles de Jerarquía ........................................................ 69 3.3 Representación de las medida........................................................................ 69 97 ÍNDICE DE TABLAS 2.1 Diferencias entre OLTP y OLAP..................................................................... 22 3.1 Diferencias entre MOLAP y ROLAP ............................................................... 69 98 ANEXO I PRUEBA FASMI Es utilizada para definir las características de las aplicaciones OLAP de manera específica y sencilla de recordar, debido a que las reglas de Codd son numerosas y la prueba “FASMI” representa un resumen de ellas. El concepto fue utilizado por primera vez en 1995 y aun continua vigente. "FASMI" que se refieren a cinco palabras; Fast Analysis of Shared Multidimensional Information (Análisis rápido de información multidimensional compartida), que además, son en sí mismas una definición de lo que es el OLAP. Fast. La primera regla de Codd se refiere a que el sistema debe ser capaz de responder de una forma rápida y ágil a la información que le sea solicitada por el usuario, el cual no deberá esperar más de cinco segundos a la hora de resolver peticiones sencillas y no más de veinte segundos en las peticiones complejas. Las herramientas deberán, pues, proveer una amplia variedad de técnicas para cumplir esta regla, tales como almacenamiento especializado de los datos, precálculos. Analysis. Significa que el sistema debe poder reflejar cualquier lógica del negocio para poder responder a las preguntas específicas y necesidades empresariales. Por ejemplo, deberá permitir generar cálculos 'ad-hoc' sin necesidad de usar una herramienta de programación específica. Esto no implica que forzosamente deba proveer la herramienta un entorno para conseguirlo, sino que puede proveer la integración con productos externos, como una hoja de cálculo. Shared. El sistema deberá proporcionar herramientas que garanticen la confidencialidad de los datos, seguridad de acceso por perfiles de los usuarios, etc. Representa un gran riesgo en los productos OLAP, lo cual constituye una gran debilidad, por lo cual se debe prestar atención en este aspecto. Multidimensional. Este es el punto más importante que podría definir como OLAP en sí mismo. El sistema debe proveer una vista conceptual multidimensional de los 100 datos además de proporcionar soporte a cada una de las múltiples jerarquías que puedan existir dentro de la organización. Information. Se refiere a la totalidad de los datos obtenidos y de la información necesaria para el análisis. La cual nos permitirá la toma de decisiones en nuestra organización. Mide la capacidad de los productos en términos de la cantidad de datos de entrada que soporta. Para eso se toman en cuenta diversas consideraciones como: duplicación de datos, memoria RAM necesaria, espacio en disco, rendimiento e integración de los datos. 101