Diaz amaro - Repositorio Institucional de la Universidad

Anuncio
UNIVERSIDAD VERACRUZANA
Facultad De Contaduría y Administración
Desarrollo de Cubos como Herramienta de
Explotación de Datawarehouse
MONOGRAFÍA
para obtener el Título de:
Licenciado en Sistemas
Computacionales Administrativos
Presenta:
Diana Yazmin Díaz Amaro
Asesor:
M.C.C. Rafael Barragán Flores
Xalapa-Enríquez, Veracruz
Agosto 2009
UNIVERSIDAD VERACRUZANA
Facultad De Contaduría y Administración
Desarrollo de Cubos como Herramienta de
Explotación de Datawarehouse
MONOGRAFÍA
para obtener el Título de:
Licenciado en Sistemas
Computacionales Administrativos
Presenta:
Diana Yazmin Díaz Amaro
Asesor:
M.C.C. Rafael Barragán Flores
Xalapa-Enríquez, Veracruz
Agosto 2009
DEDICATORIAS
Principalmente a Dios… por darme la oportunidad de culminar mis estudios y cumplir así con
el sueño de ser una gran profesionista… por darme la oportunidad de ver y disfrutar un día
mas lleno de ilusiones y esperanzas y por hacerme una mujer con firmeza y determinación.
A mis padres Blanca y Ricardo por ser mi guía, mi base, mis cimientos, por
enseñarme lo esencial de la vida y por apoyarme siempre y en todo momento… porque sin
ustedes este logro no sería tan satisfactorio. Gracias por permitirme compartir todos y cada
uno de los momentos de logro, tristeza, alegría, enojo, decepción, que esta etapa de estudiante
han dejado. Gracias por brindarme su confianza e inculcarme los valores y las ganas de
superación.
A ti mamá, porque tus brazos siempre se abren cuando necesito un abrazo; porque tu
corazón sabe comprender cuando necesito una amiga; porque tus ojos sensibles se endurecen
cuando necesito una lección; porque tu fuerza y tu amor me han dirigido por la vida y me han
dado las alas que necesitaba para volar.
A ti papá, porque cuando nací eras el ser que siempre aparecía para aplaudir mis
últimos logros; cuando me iba haciendo mayor la figura que me enseñaba la diferencia entre el
bien y el mal; quien durante mi adolescencia, era la autoridad que ponía limites a mis deseos, y
quien ahora en esta etapa de mi vida desearía que fueras el mejor consejero y amigo que
pudiera tener.
A mi hermana Marisol, por aguantarme en esos momentos de tensión y estrés; por
ser mi mejor amiga, que con su alegría arranca sonrisas aun en los momentos más difíciles; por
hacerme ver que la vida hay que disfrutarla y hacer de ella la mejor fiesta.
A mi abuelita Tomasita, por su amor incondicional, por apoyarme en todo
momento y por depositar su confianza en mí… por darme la motivación necesaria para
continuar con la lucha del día a día.
A mis tíos Juanita y Gil, por creer en mí; por brindarme siempre su apoyo y por ser
un gran ejemplo para mí. Por estar en los momentos buenos y malos y por transmitirme su
motivación y sus ganas de que sea una persona de bien.
A ti Amor, por estar conmigo en las buenas y en las malas… porque tu amor me da
un motivo más para ser mejor y superarme día a día.
Al Lic. Barragán, por depositar su confianza en mí, por creer en mí, por brindarme
su apoyo y por ser un ejemplo de superación.
Gracias a todos por ser parte fundamental de este gran logro, por ser parte de mi
crecimiento y por motivarme a ser una mejor persona y permitirme compartir con
ustedes esta inmensa alegría.
Deseo que sepan que este logro es mío y de ustedes.
GRACIAS POR CREER EN MÍ
Con Amor y Cariño.
INDICE
Resumen ............................................................................................................. 1
Introducción ......................................................................................................... 2
Capitulo 1: conceptos Básicos ............................................................................. 7
1. Inteligencia de Negocios ................................................................................ 8
1.1. Antecedentes ........................................................................................... 8
1.1.1. Niveles de uso de los datos ........................................................ 9
1.2. Definición ................................................................................................ 10
1.3. Valor de la Inteligencia de Negocios........................................................ 12
1.4. Beneficios de la Inteligencia de Negocios ............................................... 13
1.5. Cinco Etapas Evolutivas de la Inteligencia de Negocios ......................... 14
1.6. Ciclo de la Inteligencia de Negocios ........................................................ 15
1.7. Inteligencia de Negocios en la Pirámide Organizacional ......................... 17
1.8. Herramientas de Inteligencia de Negocios .............................................. 17
1.9. Soluciones de Inteligencia de Negocios .................................................. 18
1.10. La Inteligencia de Negocios en el Futuro………………………………….19
2. 2.Datawarehouse ............................................................................................... 20
2.1. Procesamiento de Datos ......................................................................... 20
2.1.1. OLTP........................................................................................... 20
2.1.2. OLAP .......................................................................................... 21
2.1.3. Diferencias entre OLTP y OLAP ................................................. 22
2.2. Datawarehousing ..................................................................................... 23
2.2.1. Definición .................................................................................... 23
2.3. Datawarehouse........................................................................................ 24
iii
2.3.1. Definición .................................................................................... 24
2.4. Arquitectura Básica.................................................................................. 25
2.5. Metodologías de Diseño .......................................................................... 26
2.5.1. Enterprise Datawarehouse (EDW) .............................................. 27
2.5.1.1. Componentes ............................................................. 29
2.5.2. Datawarehouse Bus o Dimensional ............................................ 30
2.5.2.1. Componentes ............................................................. 31
2.6. Proceso ETL, Extracción, Transformación y Carga ................................. 34
2.6.1. Extracción ................................................................................... 34
2.6.2. Transformación ........................................................................... 35
2.6.3. Carga .......................................................................................... 36
2.7. Metadatos ................................................................................................ 38
2.7.1. Clasificación ................................................................................ 39
2.8. Modelado Dimensional ............................................................................ 39
2.8.1. Componentes.............................................................................. 40
2.8.1.1. Tabla Hecho ............................................................... 40
2.8.1.2. Tabla Dimensión ........................................................ 40
2.8.2. Esquemas Relacionales.............................................................. 40
2.8.2.1. Esquema Estrella ....................................................... 41
2.8.2.2. Esquema Copo de Nieve ........................................... 43
2.9. Datamart .................................................................................................. 45
2.9.1. Definición .................................................................................... 45
Capitulo 2 Herramientas de Explotación de Datawarehouse ............................... 46
2.1 Generalidades .......................................................................................... 47
2.2 Herramientas de Explotación ................................................................... 48
iv
2.2.1 Query and Reporting .................................................................... 48
2.2.1.1 Soluciones de Query and Reporting en el mercado ...... 50
2.2.2 EIS Executive Information System ............................................... 52
2.2.3 Tableros de Control ...................................................................... 53
2.2.3.1 Semáforos..................................................................... 54
2.2.4 Datamining ................................................................................... 54
2.2.5 Webhousing.................................................................................. 56
2.2.6 Herramientas OLAP...................................................................... 57
Capítulo 3 Cubos OLAP ....................................................................................... 58
3.
3.1. Definición ................................................................................................. 59
3.2. Cubos Virtuales ....................................................................................... 60
3.3. Restricciones ........................................................................................... 60
3.4. Componentes .......................................................................................... 61
3.4.1. Dimensiones ............................................................................... 61
3.4.2. Niveles de Jerarquía ................................................................... 62
3.4.3. Medidas ...................................................................................... 62
3.4.4. Hechos ........................................................................................ 63
3.5. Propiedades de los miembros ................................................................. 65
3.6. Agregaciones ........................................................................................... 65
3.7. Tipos de Almacenamiento ....................................................................... 66
3.7.1. ROLAP ........................................................................................ 66
3.7.2. MOLAP ....................................................................................... 67
3.7.3. HOLAP ........................................................................................ 68
3.7.4. Diferencias .................................................................................. 68
3.8. Operaciones con Cubos .......................................................................... 69
v
3.9. Indicadores .............................................................................................. 70
3.9.1. Definición .................................................................................... 70
3.10. Optimización del Rendimiento ............................................................... 71
3.11. Recomendaciones para el diseño de Cubos ......................................... 72
3.12. Software para la creación de Cubos ...................................................... 74
3.12.1. Pentaho .................................................................................... 75
3.12.2. Microsoft SQL Analysis Services SSAS .................................... 75
3.12.3. OlapX® ..................................................................................... 76
3.12.4. Oracle 10g y 11g....................................................................... 77
3.12.5. SAP Bussiness Object .............................................................. 77
Capítulo 4 Visualización de un ejemplo de Cubo ................................................. 80
4.1Descripcion ............................................................................................... 80
4.2 Visualización de la información del cubo ................................................. 80
4.3 Componentes Básicos ............................................................................. 81
4.3.1Formato ......................................................................................... 81
4.3.2 Reports ......................................................................................... 84
4.3.3 Measures and Dimensiones ......................................................... 85
4.3.4 Visualización de los datos ............................................................ 86
4.4Categorias y series ................................................................................... 86
Conclusiones ........................................................................................................ 88
Fuentes de Información ........................................................................................ 92
Índice de Figuras .................................................................................................. 97
Índice de Tablas ................................................................................................... 98
Anexo I ................................................................................................................. 99
vi
RESUMEN
El presente trabajo de investigación, trata conceptos, que para la actualidad es
necesario conocer, debido a que representan lo que hasta el día de hoy las
empresas requieren para ser competitivos y presentar su información del negocio
adecuadamente para su correcto análisis y toma de decisiones.
Hoy en día la tecnología avanza a pasos agigantados y es necesario reunir
herramientas tecnológicas que permitan a las empresas transformar la información
del negocio en conocimiento y por ende representar una ventaja contra sus
competidores.
Debido a lo anterior el contenido se centra en conceptos como Inteligencia de
Negocios, Datawarehouse, Herramientas de Explotación de Datawarehouse y el
tema central de este trabajo Cubos OLAP.
1
INTRODUCCIÓN
Nos encontramos en un mundo Globalizado, razón principal por la cual se busca
mejorar las funciones realizadas en la empresa u organización. Hoy en día es
fundamental el uso de la Tecnología como herramienta que permita mejorar
procesos, ser más eficaz y eficiente, además de ser una ventaja a nivel
competitivo ya que se buscan mecanismos que permitan marcar la diferencia entre
los competidores y brinden mayores posibilidades de crecimiento.
En la actualidad se observa que las empresas u organizaciones cuentan con una
gran cantidad de datos que convierten en información para llevar a cabo un
proceso fundamental que es la Toma de Decisiones.
La información es un concepto relevante que ha tomado gran importancia al grado
de considerarla como el principal activo de la sociedad, así como los datos son el
núcleo de cualquier Sistema de Información.
El tratamiento que se le da a la información es fundamental para la toma de
decisiones y actualmente las herramientas utilizadas para la presentación de sus
datos se limita al uso de reportes basados en ciertos requerimientos definidos por
los usuarios de acuerdo a su percepción y experiencia o de acuerdo a las
necesidades que se van presentando en el día a día. Lo cual no les permite ser
eficientes ya que puede que no se cumpla con las expectativas deseadas ni con
las necesidades reales de los usuarios considerando que muchos de los informes
y reportes tienen un formato preestablecido.
El presente trabajo de investigación tiene como finalidad, dar a conocer conceptos
que hoy en día son relevantes para cualquier organización que desee brindar
dinamismo a la presentación de su información y quieran ser más competitivos.
Los conceptos sobre los cuales se hace énfasis son:
“Inteligencia de Negocios, Datawarehouse, Herramientas de Explotación de
Datawarehouse y Cubos OLAP”
3
Es importante mencionar que para el desarrollo del tema principal se parte del
concepto fundamental de Inteligencia de Negocios, ya que representa el conjunto
de conceptos y métodos, es decir, la integración de la información para llevar a
cabo la optimización e los procesos del negocio y ayudar a mejorar el proceso de
Toma de Decisiones.
Visto desde un enfoque general, la Inteligencia de Negocios está representada
como el “todo”, ya que a través de diversas técnicas, métodos, herramientas,
permiten convertir los datos en información y la información en conocimiento; para
a través de esto generar reportes analíticos que permitan a los usuarios satisfacer
las necesidades de los diversos usuarios finales.
Se procede a explicar otro concepto fundamental, el cual es Datawarehouse,
comúnmente conocido como “Almacén de Datos”. Forma parte de lo que se
conoce como Inteligencia de Negocios. El Datawarehouse proporciona a la
empresa una visión global de sus datos, de forma qe los integra para
posteriormente llevar a cabo su análisis y utilizarlos para obtener respuestas del
negocio que las bases de datos transaccionales implementadas en la organización
no nos permitirían conocer.
La principal ventaja de tener los datos de la organización almacenados en una
estructura de Datawarehouse es que permite la consulta y el análisis de la
información.
Los sistemas transaccionales brindan la información al usuario final de manera
estática, además son utilizados para llevar a cabo las operaciones diarias de la
organización; en cambio los sistemas analíticos permiten flexibilidad en la
representación de la información, además hoy en día existen diversas
herramientas basadas en el Procesamiento Analítico en Línea. El contenido de
este tema abarca los conceptos de los 2 principales exponentes del
Datawarehouse, ya que hasta hoy en día continúan vigentes, Bill Inmon, padre del
Datawarehouse y Ralph Kimball. La finalidad es conocer ambas metodologías y
4
empaparse de os conceptos fundamentales para comprender bien a detalle el
tema.
Posteriormente se habla de Herramientas de Explotación del Datawarehouse, ya
que de nada serviría a las empresas implementar un almacén de datos sino se
piensa como extraer su información. El Datawarehouse no representa un fin, sino
un medio para solucionar necesidades, razón fundamental por lo cual es
importante conocer las diversas técnicas de explotación de los datos contenidos
en el Datawarehouse. En el contenido de este tema se mencionan y se da una
breve explicación de las principales herramientas utilizadas en la actualidad para
extraer los datos.
Por último se aborda el tema principal y por el cual se realizo este trabajo de
investigación, para el cual era necesario conocer los conceptos básicos
mencionados anteriormente, que permitieran el correcto entendimiento de este
último tema, Cubos OLAP.
Los Cubos OLAP representan una herramienta de explotación de Datawarehouse
y son una excelente opción para las organizaciones que deseen obtener informes
de datos resumidos para llevar a cabo su análisis. Además de que representan un
mecanismo para la búsqueda y presentación de datos con rapidez y tiempo de
respuesta uniforme, independientemente de la cantidad de datos o la complejidad
de la búsqueda.
Las empresas u organizaciones aún no cuentan con tecnología sofisticada ni con
Datawarehouse como tal, pero es importante adentrarnos en este tema ya que la
tecnología avanza a pasos agigantados y es fundamental tener el conocimiento de
que existen diferentes herramientas de explotación de Datawarehouse. Por lo
anterior se considera que el diseño y construcción de cubos OLAP permitirá a
cualquier tipo de empresa poder potenciar la explotación de la información
realizando análisis con los cubos OLAP, ya que permitirá obtener datos
relevantes.
5
La finalidad es dar a conocer conceptos fundamentales de lo que hoy en día
representa la Inteligencia de Negocios y sus diversas aplicaciones en las
organizaciones de la actualidad y hacer del conocimiento que los cubos OLAP,
representan una excelente opción para la manipulación y presentación de datos
de manera dinámica y fácil de usar para los usuarios finales. Y que su
implementación dependerá de los requerimientos de cada empresa, pero sin duda,
representan una de las mejores opciones para el análisis de la información.
6
Capítulo 1: Conceptos Básicos
1. INTELIGENCIA DE NEGOCIOS
1.1 ANTECEDENTES
A finales del siglo XX las empresas se preocuparon en conocer los datos que se
manejaban en fuentes no automatizadas. Las empresas carecían de recursos de
computación que les permitiera analizar los datos y llevar a cabo la toma de
decisiones de manera estructurada basados en datos en información reales y no
basadas en la intuición.
Las empresas comenzaron a automatizar sus procesos creando sistemas, con
esto los datos se hicieron más accesibles, pero su obtención continúo siendo un
gran reto debido a que no se contaba con la tecnología necesaria y los sistemas
eran incompatibles con la tecnología que se tenía. Las decisiones eran tomadas
pero a largo plazo ya que no se contaba con la información al momento que se
requería.
En base a esas necesidades surge el concepto de Inteligencia de Negocios; hoy
en día facilita la toma de decisiones en cualquier nivel sea Estratégico, Táctico u
Operativo, debido a que permite desarrollar la posibilidad de extraer datos,
analizarlos y generar reportes, así como ejecutar búsquedas de datos rápidamente
para permitir un mejor análisis del rendimiento de un producto, departamento,
compañía. Esto permite a las empresas realizar reportes, realizar análisis de la
información como apoyo a la toma de decisiones.
8
Hoy en día las empresas acometen una gran variedad de iniciativas para alcanzar
sus objetivos, bajo la influencia de 5 elementos fundamentales: Velocidad de
cambio, innovación de nuevos modelos de negocio, nuevas estructuras de
relaciones entre las empresas, sus clientes y asociados, la conectividad de
personas, organizaciones y países, y el valor del conocimiento residente en la
empresa. (Davis & Meyer 2000)
1.1.1 NIVELES DE USO DE LOS DATOS
Nivel operacional: Se utilizan sistemas de información que monitorean las
actividades y transacciones elementales.
Nivel de administración: Realiza operaciones repetitivas de captura masiva
de datos y servicios básicos de tratamiento de datos, con tareas
predefinidas.
Nivel de conocimientos: Realiza actividades de análisis, de seguimiento, de
control y toma de decisiones, realiza consultas sobre información
almacenada.
Nivel estratégico: Realizar las actividades de planificación a largo plazo,
tanto del nivel de administración como de los objetivos que la empresa
posee. Es visionario, y ve hacia el futuro.
9
Figura 1.1 Niveles de uso de los datos
1.2 DEFINICIÓN
En 1989 Howard Dresner, actual Presidente de Dresner Advisory Services, inventó
el acrónimo de BI Business Intelligence o Inteligencia de Negocios, para indicar el
conjunto de conceptos y métodos para mejorar la toma de decisiones en los
negocios utilizando sistemas de apoyo basados en hechos.
Actualmente el concepto de BI implica la integración de la información para una
buena planeación que conlleve a la optimización de procesos de negocio. Además
incluye una amplia categoría de metodologías, aplicaciones y tecnologías que
permiten reunir, acceder, transformar y analizar los datos, transacciones e
información no estructurada con el propósito de ayudar a los usuarios de una
empresa a tomar decisiones de negocio. Lo anterior se puede lograr, ya sea,
mediante la explotación directa mediante consultas, reportes o haciendo uso del
análisis y conversión en conocimiento. La Inteligencia de Negocios también puede
10
intervenir en todos y cada uno de los procesos de una empresa, operando en
tareas y actividades del personal, mejorando la comunicación e incrementando la
reacción de la compañía.
Abordando de manera general el concepto de Inteligencia de Negocios simple y
sencillamente se puede decir que es la habilidad para transformar los datos en
información, y la información en conocimiento en forma que se pueda optimizar el
proceso de toma de decisiones.
En la siguiente figura se ilustra la definición anterior.
Figura 1.2. Inteligencia de Negocios.
A continuación se muestran definiciones de Inteligencia de Negocios de acuerdo al
enfoque de diversos autores:
(Hackney, 2001) nos dice que el Business Intelligence se compone de todas las
actividades relacionadas a la organización y entrega de información así como el
análisis del negocio. Esto incluye Minería de Datos, Administración del
Conocimiento, Aplicaciones Analíticas, Sistemas de Reportes y principalmente
Data Warehousing.
(Buksard, Mollot y Richards, 2000) comentan en su artículo que la necesidad de
nuevas herramientas de acceso y reporte de información, para diversos tipos de
usuarios, ha impulsado la creación de nuevas herramientas, colectivamente
conocidas como Business Intelligence. Business Intelligence no es una
sola
tecnología o aplicación. No es una “cosa”, sino que se trata de un “suite” de
11
productos que trabajan de manera conjunta para proveer datos, información y
reportes analíticos que satisfagan las necesidades de una gran variedad de
usuarios finales.
Por otra parte el Datawarehouse Institute, lo define como: la combinación de
tecnología, herramientas y procesos que permiten transformar los datos
almacenados en información, esta información en conocimiento y este
conocimiento dirigido a un plan o una estrategia comercial. La inteligencia de
negocios debe ser parte de la estrategia empresarial, esta le permite optimizar la
utilización de recursos, monitorear el cumplimiento de los objetivos de la empresa
y la capacidad de tomar buenas decisiones para así obtener mejores resultados.
Figura 1.3 Conceptos que abarca la Inteligencia de Negocios
1.3 VALOR DE LA INTELIGENCIA DE NEGOCIOS
La Inteligencia de Negocios es una rápida estrategia que ha llegado a hacer la
diferencia en las organizaciones de hoy en día. De acuerdo con Keith Gile (2002),
“La Inteligencia de Negocios ha estado envuelta en los últimos tres años en un
nicho, departamentalmente centrado en el valor de la solución de estrategias
empresariales.”
Hoy en día los mercados son cada vez más competitivos, las empresas necesitan
administrar y reducir costos de operación. Un beneficio clave de la Inteligencia de
Negocios es que brinda a los ejecutivos, de nivel medio o jerárquico, y empleados
la información necesaria para manejar eficientemente las operaciones. La
Inteligencia de Negocios también hace más fácil el análisis de los gastos de los
múltiples sistemas de información posibles.
12
Inteligencia de Negocios es un factor clave, ya que actualmente es de suma
importancia que las organizaciones exploten los datos y la información existente,
con la finalidad de convertirla en conocimiento que sirva de apoyo en el proceso
de toma de decisiones sobre el negocio. El convertir la información en
conocimiento y utilizarla, produce mejoras en los procesos de negocio y llevan a
las organizaciones a tener operaciones más efectivas y optimizadas. Se logra
debido a que el acceso e interpretación de la información es un elemento
diferenciador, productivo y rentable para todas las organizaciones, por lo tanto una
correcta gestión del conocimiento garantiza el éxito dentro de un mercado
competitivo.
1.4 BENEFICIOS DE LA INTELIGENCIA DE NEGOCIOS
El contar con un esquema de Inteligencia de Negocios en una organización, brinda
ventajas, las cuales se mencionan a continuación:
Disposición de la información correcta en el momento adecuado para la
toma de decisiones.
Con BI no es necesario solicitar a diferentes
departamentos, con los consiguientes plazos de espera, la información que
se requiere para tomar decisiones. La información está almacenada en un
único lugar, y se puede extraer de manera sencilla y en tiempo real.
Brinda la capacidad de poder evaluar distintos escenarios. En los cuales se
puedan analizar diferentes situaciones que pueden poner en riesgo el
negocio y tomar decisiones estratégicas anticipadas y hacer que una
tendencia negativa se convierta en acciones positivas para la organización.
La información de calidad va mucho más allá de los reportes operacionales,
ya que no solamente se puede consultar la información que genera una
compañía en todo momento, sino que
además se pueden definir
indicadores que me permitan medir el desempeño del negocio.
13
Permite agrupar información de distintas áreas en un solo cuadro, lo cual es
muy favorable para el cambio de políticas o reorientaciones de los planes
establecidos.
Genera capacidad de reacción a situaciones imprevistas con un nivel de
riesgo menor, ya que producto del análisis de escenarios, se tienen
predefinidas las acciones a tomar en caso de ocurrir, lo cual permite a su
vez analizar con anticipación el riesgo que se tendría al tomar dichas
decisiones.
Capacidad de retroalimentar el conocimiento adquirido. Una de las
características más importantes de BI incluye el hecho de mantener
disponibles las decisiones tomadas y el impacto que sobre el negocio
generó. Esto permite que el conocimiento organizacional se almacene y no
sea necesario retransmitirlo directamente a las personas cuando ocupan un
cargo diferente.
1.5 CINCO ETAPAS EVOLUTIVAS DEL BI
En
los
últimos
años,
la
inteligencia
de
negocios
ha
evolucionado
significativamente, con lo que ha dejado de ser simples hojas de reportes de
información para convertirse en todo un sistema de gestión de desempeño para la
toma de decisiones.
IBM ha identificado cinco niveles evolutivos de BI a lo largo del tiempo los cuales
son:
Primer Nivel.- La Inteligencia de Negocios comenzó con el manejo de hojas de
Excel donde se tenía toda la información que se centralizaba en una sola persona.
Segundo Nivel.- La información y los tableros de control pasaron a manos de la
gente de tecnología, sin que existiera relación entre la información y el negocio,
porque se le venía dando el foco total a la información desde el punto de vista de
tecnología y no tanto del negocio.
14
Tercer Nivel.- Se comenzó a tomar en cuenta al negocio para habilitar procesos.
En esta etapa ya se identificaban áreas funcionales y se habilitaba a la compañía
no sólo en la parte de soluciones departamentales sino ya se contemplaba a la
empresa como tal.
Cuarto Nivel.- Los sistemas de Inteligencia de Negocios ya tenían objetivos de
negocio y focos en estrategias. Las empresas traían la parte de la administración
del desempeño, tanto financiero como corporativo; donde ya se incorporaban y
relacionaban todos los departamentos y todas las entidades de las compañías. En
este nivel, ya se tenía planeación y consolidación financiera, planeación operativa,
y el sistema estaba dando un valor a la empresa.
Quinto Nivel.- Es el nivel actual y en el que IBM ha puesto mucho el énfasis e
interés, ya que es la tendencia. En éste, ya que se cuenta con la información
empresarial, hoy en día debemos tener una sola verdad de toda la compañía. Hay
que tener toda la información en tiempo, forma y con los niveles de confianza que
se requieren.
1.6 CICLO DE LA INTELIGENCIA DE NEGOCIOS
La Inteligencia de Negocios en una plataforma de administración del desempeño
que representa al ciclo en el que las empresas establecen sus objetivos, analizan
sus progresos, reflexionan, actúan, miden su éxito y empiezan una nueva fase. Su
ciclo se compone de cuatro etapas a saber: Análisis, reflexión, acción y medición.
El análisis comienza por determinar los datos a recopilar. La selección se basa en
un entendimiento básico y en supuestos de cómo opera la organización,
considerando aquello que es relevante a los clientes, proveedores, empleados, los
factores que afectan los insumos, la producción, el costo y la calidad. A la
colección de todo aquello que se debe conocer acerca de la empresa se conoce
15
como modelo mental. Este concepto aplica a nivel de las personas y de la
organización como un todo. Los modelos mentales son esenciales para los
ejecutivos para tomar decisiones, puesto que representan las bases para
reconocer una buena idea, pero también constituyen los límites para no ver
aspectos que se encuentran afuera.
La reflexión implica el estudio minucioso de los hechos y de la situación, además
de considerar el rumbo que puede tomar el caso de estudio. El escenario que
abarca la reflexión depende del nivel jerárquico que la está realizando y la
consideración del ambiente externo. La reflexión nace de un análisis libre de
preguntas que solo los ejecutivos pueden formular y que se encaminan al
descubrimiento de patrones relevantes. Al encontrar algunos hechos que pueden
ser contradictorios a los postulados establecidos, implica una labor de
convencimiento y de superación de resistencias al cambio, sin embargo para que
la iniciativa tenga éxito, es necesario compartirla y allegarse de aliados. La
conexión de la acción al ciclo de la Inteligencia de Negocios es a través del
proceso de toma de decisiones, en donde las acciones se suceden como
resultado de las decisiones. La toma de decisiones al estar basada en la
Inteligencia
de
Negocios
ofrece
mejores
condiciones
para
identificar
oportunidades, orientar las acciones, la experimentación, la prueba y la
retroalimentación.
La medición procura evaluar los resultados al compararlos contra los estándares
cuantitativos y las expectativas planteadas originalmente; con lo cual se da vida a
otro ciclo de análisis, reflexión, acción y medida. En la Inteligencia de Negocios se
pueden establecer estándares para pruebas de comparación que faciliten
monitorear el desempeño y proveer retroalimentación para cada área funcional del
negocio. La métricas corresponden a los indicadores clave de desempeño que se
generan a partir de explorar grandes cantidades de datos integrados de fuentes
heterogéneas que son evaluados por algoritmos para descubrir, inferir, y calcular
información relevante, dando como resultado reportes consistentes sobre criterios
de actividad que los ejecutivos consideran y usan como argumentos para sus
decisiones.
16
1.7
INTELIGENCIA
DE
NEGOCIOS
EN
LA
PIRÁMIDE
ORGANIZACIONAL
La Inteligencia de Negocios a Nivel Operativo permite que los empleados que
trabajan con información operativa puedan recibir la misma de una manera
oportuna, exacta y adecuada y se componen básicamente de herramientas de
reportes u hojas de cálculo con un formato fijo cuya información se actualiza
frecuentemente.
La Inteligencia de Negocios a Nivel Táctico permite que los analistas de datos y la
gerencia media de la empresa utilicen herramientas de análisis y consulta con el
propósito de tener acceso a la información sin intervención de terceros.
La Inteligencia de Negocios a Nivel Estratégico permite que la alta dirección de las
empresas pueda analizar y monitorear tendencias, patrones, metas y objetivos
estratégicos de la organización.
1.8 HERRAMIENTAS DE INTELIGENCIA DE NEGOCIOS
Son un tipo de software de aplicaciones diseñado para colaborar con la
inteligencia
de
negocios
(BI)
en
los
procesos
de
las
organizaciones.
Específicamente se trata de herramientas que asisten el análisis y la presentación
de los datos.
Las herramientas de inteligencia de negocios y el perfil de usuarios analíticos han
evolucionado a través de estos años. Además, el nivel de conciencia, la necesidad
y la evolución del mercado han llevado a las empresas a considerar que la
Inteligencia de Negocios sea una prioridad ante la gerencia y las personas que
toman decisiones.
Un proyecto de inteligencia de negocios debe llevar tanto el compromiso del
equipo de IT como el de la gente de negocios, la participación activa de estos
usuarios de negocios es fundamental para el éxito del proyecto. Estos usuarios
son los que adolecen realmente de una herramienta que se ajuste a la necesidad
17
de la empresa y les provea el nivel de detalle que se requiera.
1.9 SOLUCIONES EN INTELIGENCIA DE NEGOCIOS
Planeamiento Estratégico.
El planeamiento estratégico es la herramienta indispensable para gestionar
adecuadamente todo tipo de Organizaciones públicas o privadas, con o sin fines
de lucro, grandes, medianas o pequeñas.
Tableros de Control
Herramienta
que
posibilita
en
una
Organización
medir
el
desempeño,
productividad o rentabilidad de un área, rubro o unidad de negocios.
Cuadros de Mando Integral o Tableros de Comando.
Esta herramienta posibilita la medición constante de los objetivos estratégicos de
la Organización en forma rápida, simple y eficiente.
Vistas dinámicas.
Reportes Dinámicos que permiten diferentes formas de análisis de la información
sin necesidad de re-estructurarlas.
Gestión del Capital Intelectual
Esta herramienta posibilita identificar y calcular el valor de los recursos intangibles
de su empresa.
Datawarehouse.
Almacén de datos para la integración de la información de la Organización que
sirve como soporte para la toma de decisiones
18
1.10 LA INTELIGENCIA DE NEGOCIOS EN EL FUTURO
En una visita a México, Howard Dresner dijo que la tecnología ha evolucionado,
madurado y mejorado dramáticamente durante los 20 años que lleva involucrado
en ella. Dichos cambios han beneficiado las partes de BI y de la gestión de
desempeño de las empresas (EPM, por sus siglas en inglés). “Ahora el reto de las
organizaciones es poder apalancar la tecnología a BI para operar de manera más
eficiente”.
Con BI, la planeación de los negocios se lleva a cabo de una mejor manera
gracias a que la información, además de ser capturada y organizada, es analizada
para ejecutar planes que estén enfocados a cumplir con los objetivos de las
empresas, que al final resultan en mayores ingresos.
(Dresner) La importancia de llevar a cabo una planeación es para que las
empresas construyan una perspectiva completa de su negocio y de los mercados
dentro de los que trabajan, a fin de que puedan saber qué es lo que sucede y
ejecuten con precisión sus procesos.
La Inteligencia de Negocios ahora radica en la competencia para tomar
decisiones, para enfoques dinámicos de los problemas y oportunidades y para
desarrollar los recursos y capacidades internas de la organización. Generar
cambios estratégicos construidos con los recursos de la organización para
desarrollar una organización más flexible y dinámica, con el apoyo de las
tecnologías para la toma de decisiones y la intervención de los expertos del
negocio. Es importante entender que las herramientas de soporte a la toma de
decisiones, son eso, herramientas, y que la selección y uso, simplifican muchas
operaciones y procesos en el negocio, pero que los tomadores de decisiones son
la piedra angular.
19
2. DATAWAREHOUSE
2.1 PROCESAMIENTO DE DATOS
2.1.1 OLTP (On Line Transaction Processing)
Las bases de datos relacionales de procesamiento de transacciones en línea
(OLTP) son óptimas para administrar datos que cambian. Suelen tener varios
usuarios que realizan transacciones al mismo tiempo que cambian los datos en
tiempo real. Aunque las solicitudes de datos realizadas individualmente por los
usuarios suelen hacer referencia a pocos registros, muchas de estas solicitudes se
producen al mismo tiempo.
Las bases de datos OLTP están diseñadas para permitir que las aplicaciones
transaccionales escriban sólo los datos necesarios para controlar una sola
transacción lo antes posible. Las bases de datos OLTP se caracterizan en general
por lo siguiente:
Admiten el acceso simultáneo de muchos usuarios que agregan y modifican
datos con regularidad.
Representan el estado en cambio constante de una organización, pero no
guardan su historial.
Contienen muchos datos, incluidos todos los datos utilizados para
comprobar transacciones.
Tienen estructuras complejas.
Se ajustan para dar respuesta a la actividad transaccional.
Proporcionan la infraestructura tecnológica necesaria para admitir las
operaciones diarias de la empresa.
Las transacciones individuales se completan rápidamente y se tiene acceso
a cantidades de datos relativamente pequeñas. Los sistemas OLTP están
diseñados y ajustados para procesar cientos o miles de transacciones que
se indican al mismo tiempo.
20
Tienen baja redundancia de datos.
Este tipo de procesamiento es el que permite mover los engranes de la
organización. Son los productores principales de la información dentro de la
Pirámide Organizacional.
2.1.2 OLAP (On Line Analytical Processing)
Término acuñado por Codd & Associates. Se refiere a aplicaciones que se
encargan de analizar datos del negocio para generar información táctica y
estratégica que sirve de soporte para la toma de decisiones. Mientras que las
transacciones OLTP utilizan Bases de Datos Relacionales u otro tipo de archivos,
OLAP logra su máxima eficiencia y flexibilidad operando sobre Bases de datos
Multidimensionales. El procesamiento analítico en línea cuenta con las siguientes
características:
Estructura de datos transparente al usuario
Solo Consulta, trabajan sobre la información operacional generada por los
sistemas OLTP
Consultas sobre grandes volúmenes de datos no predecibles
Información histórica
Modo de actualización Batch
Alta redundancia de datos para facilitar la generación de consultas y
obtener buenos tiempos de respuesta
Trabaja con resúmenes de miles de registros condensados en una sola
respuesta
En este tipo de procesamiento los usuarios únicamente ven como se mueven los
engranes de la organización. Solamente se analizan los datos para buscar
respuestas y comportamiento a través del tiempo, ayudan en el proceso de la
tome de decisiones fundamentadas en los datos históricos.
21
2.1.3 Diferencias entre OLTP y OLAP
Mientras que las aplicaciones OLTP se caracterizan por estar actualizadas
constantemente por varios usuarios a través de transacciones operacionales sobre
datos individuales, las aplicaciones OLAP son utilizadas por personal de niveles
ejecutivos que requieren datos con alto grado de agregación y desde distintas
perspectivas (dimensiones)
A continuación se muestra una tabla en la cual se establecen las principales
diferencias que existen entre OLTP y OLAP.
OLTP
OLAP
Utiliza bases de datos transaccionales
Hace
uso
de
bases
de
datos
multidimensionales.
Están organizados por aplicación
Se organiza por dimensiones definidas
por las reglas del negocio
Los datos que están incluidos son Sus datos son históricos
volátiles,
ya
que
son
actualizados
constantemente
Los usuarios son los que giran las Los usuarios observan como giran las
ruedas de la organización a través de ruedas de la organización a través de
actualizaciones
consultas y análisis de los datos
Los datos operacionales son altamente Los Datos del DW son altamente
volátiles, cambian en medida que opera estables, son insertados en intervalos
la empresa.
de
tiempo
definidos.
Y
no
son
modificados
Cada aplicación del negocio puede Toda la información de un tema,
tener
información
en
diferentes alimentado de varios sistemas, reunido
Sistemas y base de datos.
en una sola Base de Datos
Mantienen la Integridad de los datos
Soporta el análisis del negocio
Se manejan cientos de registros por Se maneja una transacción con cientos
día, se realizan operaciones de Insert, de registros por medio de Selects
22
Update, Delete, Select
Baja redundancia de datos
Alta redundancia de datos para facilitar
la generación de consultas y obtener
buenos tiempos de respuesta
Tabla 2.1 Diferencias entre OLTP y OLAP
El rendimiento también se ve afectado en cada tipo de procesamiento. Como se
puede observar en la siguiente figura. En la cual se mide el procesamiento en un
entorno OLTP y en un entorno OLAP.
Figura 2.1. Representación del rendimiento entre transacciones OLTP y OLAP
2.2 DATA WAREHOUSING
2.2.1 DEFINICIÓN
Se entiende por Datawarehousing el proceso de extraer y filtrar datos de las
operaciones comunes de la organización, procedentes de los distintos sistemas de
información operacionales y/o sistemas externos, para transformarlos, integrarlos
y almacenarlos en un Datawarehouse, también conocido como depósito o
23
almacén de datos, con el fin de acceder a los datos para dar soporte en el proceso
de toma de decisiones de una organización. El objetivo es convertir los datos
operacionales en información relacionada y estructurada, homogénea y de mayor
calidad, identificada convenientemente y que se mantenga en el tiempo, es decir,
los datos más recientes no sustituyen a los precedentes, pero tampoco se
acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel
de detalle los datos actuales, y de manera más agregada los datos anteriores. Se
pretende crear un círculo virtuoso para la información.
2.3 DATA WAREHOUSE
Un Datawarehouse, proporciona una visión global, común e integrada de los datos
de la organización, independiente de cómo se vayan a utilizar posteriormente por
los consumidores o usuarios, con las propiedades siguientes: estable, coherente,
fiable y con información histórica. Al abarcar un ámbito global de la organización y
con un amplio alcance histórico, el volumen de datos puede ser muy grande. Las
bases de datos relacionales son el soporte técnico más comúnmente usado para
almacenar las estructuras de estos datos y sus grandes volúmenes. Normalmente
en el almacén de datos habrá que guardar información histórica que cubra un
amplio período de tiempo. Pero hay ocasiones en las que no se necesita la historia
de los datos, sino sólo sus últimos valores, siendo además admisible
generalmente un pequeño desfase o retraso sobre los datos operacionales.
Cuando así sucede el Datawarehouse es comúnmente llamado
almacén
operacional (ODS, Operational Data Store).
2.3.1 DEFINICIÓN
Una definición sencilla y fácil de recordar es: Un Datawarehouse es un almacén de
datos. Partiendo de esa definición, podemos obtener muchas más y de diversos
24
autores que han formulado su propia definición. Sin embargo se tienen dos
personajes vinculados al concepto de Datawarehouse.
Bill Inmon es considerado el padre del Datawarehouse, debido a que él acuñó este
término, a continuación se muestra su definición:
(Inmon, 1996) Datawarehouse es un conjunto de datos integrados, históricos,
variantes en el tiempo y unidos alrededor de un tema específico, que es usado por
la gerencia para la toma de decisiones.
Surgió otro personaje importante en el desarrollo del tema de Datawarehouse,
Ralph Kimball quien es considerado el principal promotor del enfoque dimensional
para el diseño de almacenes de datos, planteo una nueva metodología muy
diferente a lo que planteo Bill Inmon. Por lo cual menciona otra definición para
Datawarehouse la cual dice lo siguiente:
(Kimball, 2003) Un Datawarehouse es una copia de los datos transaccionales
específicamente estructurada para la consulta y el análisis.
2.4 ARQUITECTURA BÁSICA
La arquitectura básica de un Datawarehouse tiene los siguientes elementos:
1. Datos Fuente: Se refiere a las bases de datos transaccionales, archivos
planos, otros sistemas de donde se obtienen los datos. Sistemas OLTP,
Datos del Entorno o Mercado Externo, Datos Distribuidos en Sistemas
Heredados o satelitales que alimentan los ERP.
2. Proceso ETL: Extracción, Transformación y Carga de Datos, es el proceso
que permite a las organizaciones mover datos desde múltiples fuentes,
reformatearlos, limpiarlos y cargarlos en otra base de datos, data mart, o
Datawarehouse para analizar, o en otro sistema operacional para apoyar un
proceso de negocio. Aquí se ubica el área de Stage (área de trabajo para
realizar la depuración de la información.
25
3. Creación del DW: Se integra la información de la organización de manera
estructurada y consolidada para dar soporte a la Inteligencia Empresarial
(Inteligencia de Negocios)
4. Explotación de la Información: Se extrae y procesa la información de
simples consultas SQL a un enfoque OLAP, a través de diversos métodos,
herramientas de toma de decisión, datamining, software hecho a la medida,
etc. Proveen la interfaz humana con el Datawarehouse.
Figura 2.2 Arquitectura de un Datawarehouse.
2.5 METODOLOGÍAS DE DISEÑO
Existen dos metodologías fundamentales para llevar a cabo el diseño de un
Datawarehouse las cuales son:
Enterprise Datawarehouse: Bill Inmon
Arquitectura Bus: Ralph Kimball
26
2.5.1 ENTERPRISE DATAWAREHOUSE (EDW)
El almacén de datos empresarial es el centro de la fábrica de la información
corporativa. El Datawarehouse Empresarial tiene características diferentes.
La primera característica del Datawarehouse empresarial es que contiene alta
granularidad de los datos. La información en el Enterprise Datawarehouse está en
el nivel más bajo y es el común denominador. En ninguna otra parte que en la
organización está el bajo nivel de granularidad. Otras arquitecturas se basan en
esta granularidad de los datos, ya que reconfiguran y recombinan los datos
encontrados en la empresa de almacenamiento de datos para satisfacer sus
necesidades. La segunda característica de los datos encontrados en el
Datawarehouse empresarial es que son históricos. En términos históricos es decir
que de cinco a diez años se encuentran almacenados los datos de la empresa.
Cuando se considera que el almacenamiento de datos de la empresa es a la vez
histórico y granular, es inevitable que los grandes volúmenes de datos se
encuentran allí.
La tercera característica es que los datos residentes dentro del Datawarehouse
empresarial están integrados. Como los datos se mueven de la aplicación
heredada a través de la integración del medio ambiente y la capa de
transformación, los datos se integran. Significa que hay una sola interpretación de
los datos corporativos que tiene la empresa, almacenados y por lo tanto hay una
única comprensión de lo que es un cliente, lo que es un producto, una transacción,
etc.
La cuarta característica es, que un Datawarehouse empresarial es corporativo.
Esta característica está relacionada con las anteriores. La naturaleza corporativa
del Datawarehouse empresarial se deriva del modelo de datos corporativo que
sirve de base para el diseño del Datawarehouse empresarial.
27
El diseño del Datawarehouse empresarial esta típicamente normalizado. La
estructura clásica entidad-relación de los datos, acompañada por la consiguiente
normalización de las estructuras de datos se adapta muy convenientemente con
los requisitos de la utilización de la empresa de almacenamiento de datos.
Las
características
del
Datawarehouse
empresarial
que
se
explicaron
anteriormente son las siguientes:
Granularidad
Integridad
Datos Históricos y
Corporativos
Inmon define al EDW como el corazón de los Sistemas de Toma de Decisión DSS
(Decisión Support Systems). El EDW
es alimentado por los sistemas
operacionales (ODS) y la capa de transformación. A su vez el EDW alimenta el
entorno de los DSS.
La metodología de Inmon plantea la necesidad de transferencia de datos OLTP de
diversos sistemas en un lugar centralizado donde los datos pueden ser utilizados
para el análisis. Los datos deben organizarse en materia orientadas, integrado, no
volátil y estructuras de tiempo variante. Los datos deben ser accesibles al nivel
atómico detallado por medio de la perforación o en el resumen de los niveles de
perforación Los datos son tratados como Datamarts, sub conjuntos de la base de
datos. Cada uno de los Datamarts se construye para un departamento y está
optimizado para el análisis de necesidades de cada departamento para el que se
crea.
28
2.5.1.1 COMPONENTES
Inmon define la arquitectura de una bodega de datos con cuatro componentes
básicos: 1) los sistemas fuente, donde se gestiona la información relevante de la
operación de la organización; 2) el área intermedia (o staging area), en la cual se
hace la integración, unificación y limpieza de los datos que vienen de los
diferentes sistemas fuente; 3) el área de almacenamiento, conformada por dos
elementos: el repositorio y los metadatos; y 4) el área de acceso a los datos a
través de diferentes herramientas de consulta, tales como publicación en la web,
generadores de reportes dinámicos y predefinidos, herramientas de minería de
datos y OLAP.
Figura 2.3 Enterprise Datawarehouse
El EDW es el centro de la información corporativa de la empresa. Los datos que
se encuentran en el EDW alimentan a los Datamarts, a la explotación y al
datamining, así como a los Sistemas de Tomas de decisión o Analíticos.
29
Los datos encontrados en el EDW en algunas ocasiones es llamado como el
“punto de la verdad” (single point of truth) para la empresa.
El dato es granular y no redundante y es el punto de reconciliación de las
diferencias cuando uno o más personas difieren del resultados obtenido de un
análisis de la información corporativa.
2.5.2 DATAWAREHOUSE BUS O DIMENSIONAL
Esta arquitectura consiste en iniciar la planeación del Datawarehouse con la fase
de arquitectura de datos corta que tenga los objetivos específicos y finitos y
después continuar con la implementación paso a paso de los Datamarts
separados, donde cada paso de implementación se incorpora cuidadosamente a
la arquitectura.
La fase de arquitectura de datos produce líneas directivas que los equipos de
desarrollo de los Datamarts puedan seguir y puedan trabajar de manera asíncrona
e independientemente.
De tal forma que como se vayan poniendo en línea los Datamarts vayan
ajustándose unos a otros como piezas de un rompecabezas.
30
Figura 2.4 Arquitectura Bus
2.5.2.1 COMPONENTES
Los componentes incluidos en la arquitectura de bus de Kimball difieren de los que
considera Inmon, a continuación se explican cada uno.
Sistemas Fuentes
Son aquellos que sus principal función es almacenar las transacciones del
negocio, a través de bases de datos operacionales. Sus principales prioridades
son mantenerse actualizados y en línea.
Un sistema Fuente frecuentemente es llamado Sistemas heredados (legacy
system) en un entorno mainframe.
31
Data Staging Area (Área de trabajo, o presentación)
Es un área de almacenamiento, en el cual se conjuntan procesos de vital
importancia, aquí se preparan los datos fuentes para ser transformados, cargados
y distribuirlos en el Datawarehouse. La intersección de estos datos no
precisamente proviene de Bases de Datos relacionales, se alimenta de archivos
planos, de diversas fuentes. En esta área los datos no proveen consultas ni
servicios para gestión, esta área se encuentra entre los sistemas fuentes y el
servidor de presentación del Datawarehouse.
Servidor de Presentación
Es la máquina física (Servidor) en la cual se almacenan los datos del
datawarehouse y están disponibles para ser consultados a través de sistemas de
domas de decisión, reporteadores u otras aplicaciones que le permitan al usuario
final realizar consultas ad-hoc.
Modelo Dimensional
Representa una alternativa para el modelado Entidad/Relación (E/R). Es más
simple, ya que brinda una fácil visualización y entendimiento de los datos en
comparación con el modelado E/R.
Más adelante se enfatizara acerca de este tema de Modelo multidimensional y de
sus elementos.
Procesos del Negocio
Es el conjunto de actividades que le dan sentido y dirección a una organización,
dependiendo del giro y entorno, variarán los procesos de negocio entre una u otra
organización.
32
Metadata
Es toda la información del medio ambiente del Datawarehouse que no es el dato
mismo.
Figura 2.5 Representación de los elementos de la arquitectura de Bus
33
2.6 PROCESO ETL, EXTRACCIÓN, TRANSFORMACIÓN Y CARGA
ETL son las siglas en inglés Extract, Transform and Load. Es el proceso que
permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos,
limpiarlos y cargarlos en otra base de datos, Datamart, o Datawarehouse para
analizar, o en otro sistema operacional para apoyar un proceso de negocio. Cada
una de las operaciones involucra sus propias consideraciones especiales.
2.6.1 Extracción
La primera parte del proceso ETL consiste en extraer los datos desde los sistemas
de origen. La mayoría de los proyectos de almacenamiento de datos fusionan
datos provenientes de diferentes sistemas de origen. Cada sistema separado
puede usar una organización diferente de los datos o formatos distintos. Los
formatos de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales
u otras estructuras diferentes. La extracción convierte los datos a un formato
preparado para iniciar el proceso de transformación.
Una parte intrínseca del proceso de extracción es la de analizar los datos
extraídos, de lo que resulta un chequeo que verifica si los datos cumplen la pauta
o estructura que se esperaba. De no ser así los datos son rechazados.
Un requerimiento importante que se debe exigir a la tarea de extracción es que
ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son
muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando
que éste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razón,
en sistemas grandes las operaciones de extracción suelen programarse en
horarios o días donde este impacto sea nulo o mínimo.
34
En esta fase de extracción se incluye la limpieza de los datos, en esta se debe
verificar si existe un control en la calidad de los datos. Frecuentemente los datos
requieren limpieza, generalmente esta es por lote, antes de proceder a
introducirlos a la base de datos. Las operaciones de limpieza básicas incluyen
llenado de valores faltantes, corrección de errores tipográficos y otros errores de
captura de datos, se procede a hacer remplazo de sinónimos por identificadores
que respeten un estándar, y así se unifiquen criterios de los datos.
Existen hoy en día muchas herramientas disponibles para ayudar en esta tarea,
incluyendo herramientas proporcionadas por el sistema, programas de extracción
personalizados y productos de extracción comerciales.
2.6.2 Transformación
Después de extraer y llevar a cabo la limpieza de los datos. Continúa la fase de
transformación, esta aplica una serie de reglas de negocio o funciones sobre los
datos extraídos para convertirlos en datos que serán cargados. Algunas fuentes
de datos requerirán alguna pequeña manipulación de los datos.
Se deben codificar datos que se han decodificado en forma inconsistente en
diferentes fuentes, se deben hacer varias consideraciones a tomar en cuenta para
la forma de almacenar los datos, algunas consideraciones son: si aceptara valores
nulos, traducir códigos, codificar valores libres, unir datos de múltiples fuentes,
abreviaturas de estados, código de productos, lugares de negocios, entre otros. El
software de transformación convierte los datos durante el traslado para asegurar
que la información sea compatible con la base de datos que la recibe.
Desarrollar, seleccionar e integrar estas piezas de software requiere técnicas de
administración de datos y de administración de base de datos. También se
requieren técnicas en el área de afinar la ejecución de consultas en la base de
datos para obtener un rendimiento aceptable de la solución del Datawarehouse.
35
La aplicación de cualquier forma, simple o compleja, de validación de datos, y la
consiguiente aplicación de la acción que en cada caso se requiera:
2.6.3 Carga
La fase de carga es el momento en el cual los datos de la fase de transformación,
son cargados en el sistema de destino. Dependiendo de la organización que se
trate y de sus requerimientos el proceso de carga puede abarcar diversas
acciones a realizar. En algunas bases de datos se sobrescribe la información
antigua con nuevos datos. Los Datawarehouse mantienen un historial de los
registros de manera que se pueda hacer una auditoría de los mismos y disponer
de un rastro de toda la historia de un valor a lo largo del tiempo.
Para desarrollar el proceso de carga existen dos formas básicas las cuales se
mencionan a continuación:
Acumulación simple: es la más común y sencilla, consiste en realizar un
resumen de un periodo de tiempo de todas y cada una de las transacciones
realizadas en ese periodo seleccionado y transportar el resultado como una
única transacción hacia el Datawarehouse, almacenando un valor calculado
que consistirá típicamente en un sumatorio o un promedio de la magnitud
considerada.
Rolling: este proceso es aplicado cuando se desea mantener diversos
niveles de granularidad. Para ello se almacena información resumida a
distintos niveles, correspondientes a distintas agrupaciones de la unidad de
tiempo o diferentes niveles jerárquicos en alguna o varias de las
dimensiones de la magnitud almacenada.
La fase de carga interactúa directamente con la base de datos de destino. Al
realizar esta
operación
se aplicarán
todas las restricciones y
triggers
(disparadores) que se hayan definido en ésta (por ejemplo, valores únicos,
36
integridad referencial, campos obligatorios, rangos de valores). Estas restricciones
y triggers (si están bien definidos) contribuyen a que se garantice la calidad de los
datos en el proceso ETL, y deben ser tenidos en cuenta.
De acuerdo con la metodología de Ralph Kimball, la carga al Datawarehouse
toma la forma de replicación de las tablas dimensión y las tablas dato. Después de
haber cargado el Datamart destino debe ser indexado para ofrecer un mejor
desempeño de consulta sobre los datos recién llegados. Cuando cada Datamart
ha sido cargado, indexado y provisto de sus agregados, siguen procesos que
forman parte de un completo trabajo, los cuales son:
Aseguramiento de calidad
Liberación/publicación
Actualización
Pruebas previas de consultas
Retroalimentación de datos/alimentación en reversa
Auditoria
Seguridad
Respaldo y recuperación.
Usualmente los Datawarehouse son alimentados de manera asíncrona desde
distintas fuentes, que son útiles para diferentes propósitos. El proceso ETL es
clave para lograr que los datos extraídos asíncronamente de orígenes
heterogéneos se integren finalmente en un entorno homogéneo.
Hay dos conceptos fundamentales en el desarrollo del proceso de ETL, estos son:
Service Level Agreement (SLA) y Change Data Capture (CDC), tienen que ver con
la escalabilidad del proceso de ETL durante su vida útil, el cual debe establecerse
en el análisis. SLA se refiere al nivel de servicio en la comprensión del volumen de
datos procesado. Debido a que el tiempo en que se dispone para la extracción de
datos de los sistemas de origen puede cambiar.
37
Por otro lado el CDC es referido a la captura de datos modificados en tiempo real
para una transformación y actualización continua. Ya que algunos sistemas ETL
son escalados para procesar gran cantidad de datos al momento de llevar a cabo
la actualización de un Datawarehouse, lo cual implicaría que un aumento en el
volumen de los datos pueda hacer que en lugar de que los datos se procesen por
lotes, se lleve a cabo en micro-lotes.
2.7 METADATOS
Este concepto toma gran relevancia al hablar de Datawarehouse. De manera
simple y sencilla un metadato puede ser definido como datos sobre los datos.
Representa toda la información del medio ambiente del Datawarehouse que no es
el dato mismo.
En el entorno del DW se aclara este concepto y se habla de:
El “back-room metadata” el cual guía a los procesos de carga, limpieza y
extracción.
El “front-room metadata” que hace que las herramientas de consultas y
reporteo funcionen de manera optima.
El back-room metadata ayuda al DBA a traer los datos del almacén, así como
también ayuda a los usuarios finales cuando preguntan del origen de los datos y
como llego ahí.
El metadata se debe catalogar, asignarle versiones, documentarlo y respaldarlo.
En un Datawarehouse, los metadatos describen los tipos de datos en el
Datawarehouse, esto es, las definiciones física y lógica de los datos, consultas y
reportes predefinidos, reglas de validación y orientadas al tema, definiciones de
fuentes de datos, rutinas de transformación y de proceso, e información del
usuario. Los metadatos se refieren a cualquier cosa que define un objeto del
38
Datawarehouse. Además guían los procesos de extracción, transformación
(limpieza) y carga.
2.7.1 CLASIFICACIÓN
Generalmente, los metadatos son divididos en:
Técnicos. En estos se interesan los desarrolladores y administradores. Los
desarrolladores los utilizan para conocer las definiciones física y lógica de los
datos para poder diseñar y escribir aplicaciones. Por su parte los administradores
accesan a los metadatos para ejecutar tareas de administración como gestión de
los objetos y usuarios, afinamiento de la base de datos y almacenamiento de
datos.
Semíticos u orientados al tema. Tienen que ver con los usuarios finales como
gerentes o analistas, estos son los que no están familiarizados con los formatos de
descripción del Datawarehouse, pero están interesados en entender la semántica
orientada al tema y necesitan representaciones ricas en estructura y contenido.
2.8 MODELADO DIMENSIONAL
(Wolf, 1999) El modelado dimensional es una técnica para modelar bases de
datos simples y entendibles al usuario final. La idea fundamental es que el usuario
visualice fácilmente la relación que existe entre los distintos componentes del
modelo.
Es adecuado para resumir y organizar datos. Enfocado para trabajar sobre datos
de tipo numérico. Un modelo dimensional contiene la misma información que un
modelo E/R, sin embargo éste, agrupa los datos en un formato simétrico cuyos
39
objetivos de diseño son el entendimiento del usuario, el desempeño de consultas y
flexibilidad al cambio.
(Harjinder y otros, 1996) El procesamiento analítico o análisis multidimensional se
emplea para análisis de históricos complejos, con amplia manipulación (análisis de
datos dinámicos), así como para la planeación a futuro y pronósticos, el pasado
como prólogo del futuro.
2.8.1 COMPONENTES DEL MODELADO DIMENSIONAL
Los principales componentes del modelo dimensional son:
2.8.1.1 TABLA HECHO
Es la tabla principal en cada modelo dimensional, la cual denota las dimensiones
del negocio. Cada tabla dato representa un relación de muchos a muchos y cada
una contiene un conjunto de dos o más llaves foráneas que unen a sus
respectivas tablas dimensión. Contiene valores de las medidas del negocio.
2.8.1.2 TABLA DIMENSIÓN
Contiene el detalle de los valores que se encuentran asociados a la tabla hecho.
Cada dimensión está definida por su llave primaria que sirve como base para la
integridad referencial con cualquier tabla hecho a la cual está relacionada.
2.8.2 ESQUEMAS RELACIONALES DEL MODELADO DIMENSIONAL
El modelo multidimensional de datos se puede instrumentar por un esquema
relacional, donde las dimensiones de un cubo son modeladas como relaciones de
40
dimensiones. El esquema relacional almacena datos en tablas relacionales
especializadas, llamadas tablas de hechos y de dimensiones. Lo cual brinda una
vista multidimensional de los datos usando un modelo relacional como soporte.
Existen dos esquemas principales para llevar a cabo el diseño dimensional de la
base de datos de un Datawarehouse, estos esquemas son usados para soportar
una operación de datos multidimensional.
2.8.2.1 ESQUEMA ESTRELLA
El esquema Estrella (Star schema), se le conoce como el esquema tradicional, del
que de este derivan los demás esquemas conocidos, su nombre hace mención a
que gráficamente es representado como una estrella.
Su diseño consiste en una tabla de hechos en el centro que está relacionada a
cada tabla de dimensión. Las tablas de dimensión son enlazadas a la tabla de
hechos mediante referencias de una llave foránea. Por su parte la llave primaria
de la tabla de hechos se compone de una relación de las llaves primarias de las
tablas de dimensiones. En la tabla de hechos se encuentran ls atributos que son
destinados a cuantificar, medir el hecho. En tanto que en la tabla de dimensión
están destinados a elementos de nivel que representan los distintos niveles de
jerarquía de las dimensiones.
41
Figura 2.6. Ejemplo del esquema Estrella
La característica que define este esquema es que las tablas de dimensión
únicamente pueden estar relacionadas a la tabla de hechos. Además las tablas de
dimensión no están normalizadas, esto significa, que toda la información referente
a una dimensión se almacena en la misma tabla.
El esquema estrella es útil debido a que cada propiedad de una dimensión puede
ser recuperada con una unión desde la tabla de datos a la tabla de dimensión
relevante. Esto permite mejorar el desempeño de la consulta, pero incrementa el
volumen de datos
42
2.8.2.2 ESQUEMA COPO DE NIEVE
El esquema copo de nieve (Snowflake schema) representa una variación del
esquema estrella tradicional. La diferencia que tiene con el anterior es que en
cada dimensión se almacenan jerarquías de atributos, es decir, se separan
atributos en otra entidad con la finalidad de obtener un mayor desempeño y
utilización del espacio. Para realizar este esquema es necesario llevar a cabo las
reglas de normalización a cada una de las tablas de dimensiones, con la finalidad
de simplificar las operaciones de selección de datos, lo que da como resultado una
mejor presentación de los datos, evitando redundancia. Lo cual se traduce en una
eficiente recuperación de la información que manipulan las tablas. A diferencia del
esquema estrella, es que la tabla de hechos deja de ser la única que se relaciona
con otras tablas. Aquí si está permitido relacionar entre si las tablas de
dimensiones, debido a que hay un mayor nivel de detalle en cada una de las
tablas de dimensión.
Es útil porque elimina la duplicación que podría ocurrir. No obstante, se debe
considerar la frecuencia que una consulta utilizará los datos del esquema copo de
nieve, ya que este esquema requiere una unión adicional lo que lo hace más lenta
la respuesta de la consulta y se presentan problemas de desempeño.
43
Figura 2.7. Ejemplo del esquema Copo de Nieve
Como se puede observar en la figura 2.7 existe nivel e detalle en las tablas de
dimensión Store, de ella se derivan las tablas de dimensión StoreType y
StoreManager. También en la tabla Salesperson se deriva otra tabla dimensión
llamada Departament.
44
2.9 DATAMART
2.9.1 Definición
El concepto de Datamart al igual que el de Datawarehouse fue dado de diferente
manera de acuerdo las filosofías de los autores Bill Inmon y Ralph Kimball.
Para Inmon un Datamart es:
Es una estructura que es alimentada por el EDW.
Es donde el usuario final tiene más interacción con el entorno de la
empresa.
Los datos más detallados se encuentran en el Datamart de acuerdo al
departamento o entidad de la empresa.
Por otro parte para Kimball un Datamart es:
Es un subconjunto lógico del Datawarehouse completo. Este subconjunto está
enfocado hacia un área o departamento de la empresa. Cada Datamart debe ser
representado por un modelo dimensional dentro de un Datawarehouse, dichos
datamarts deben ser construidos a partir de dimensiones conformadas y datos
conformados.
(Kimball) El termino Datamart significa evitar la imposibilidad de abordar la
planeación completa de un Datawarehouse Empresarial al mismo tiempo.
45
Capítulo 2 Herramientas de Explotación de
Datawarehouse
2.1 GENERALIDADES
El Datawarehouse está orientado a apoyar el proceso de toma de decisiones, para
obtener una ventaja estratégica. Los datos en el Datawarehouse están
almacenados en categorías o son estructurados a manera de que favorezcan el
análisis de los datos históricos.
Un Datawarehouse no representa un fin, sino que representa un medio para
solucionar una necesidad, es por eso que está preparado para la explotación de
sus datos mediante el uso de herramientas específicas que permitan la extracción
de información significativa y patrones de comportamiento que permanecen
ocultos en este repositorio de datos.
La explotación consiste en llevar a cabo consultas al Datawarehouse, esto es, la
manipulación, análisis y visualización de la información que realizan los usuarios
sobre los datos almacenados en el Datawarehouse.
Algunas de las herramientas de explotación de Datawarehouse más utilizadas se
presentaran a continuación, haciendo énfasis en las características más
importantes de cada una de ellas.
47
2.2 HERRAMIENTAS DE EXPLOTACIÓN DE DATAWAREHOUSE
2.2.1 QUERY AND REPORTING
Permite a los usuarios consultar el modelo de dimensiones directamente y definir
un conjunto de resultados, ya que simples herramientas ad hoc sólo entregan los
resultados tabulares conjuntos, mientras que las herramientas más avanzadas
permiten la creación de la plena realización de informes complejos. En este caso,
las herramientas ad hoc también sirven como herramientas de desarrollo estándar
para los informes que otros usuarios ejecutan.
Las herramientas adecuadas de consulta y presentación de informes proveen a
los usuarios acceso directo al modelo dimensional, generalmente a través de la
capa de metadatos que provee una columna adicional de subgrupos, descripción
de negocios y la unión de las definiciones. Debido a la complejidad de la
herramienta y la necesidad de comprender los detalles de los datos, las
herramientas ad hoc son en su mayoría utilizados por los usuarios expertos que
cuentan con conocimientos tanto técnicos y empresariales. Típicamente, el
usuario puede arrastrar y soltar las columnas en el informe del área, establecer
limitaciones, y añadir formato. El resultado final en la mayoría de las herramientas
de consulta ad hoc es un informe. El analista tiene a menudo el informe resultante
de los datos de otro entorno, por lo general Excel cuenta con complementos para
la consulta y generación de informes. Debido a que Microsoft ha invertido mucho
en desarrollar capacidades de Excel para realizar consultas y generación de
informes.
48
Explicando a lo que se refiere a esta herramienta de explotación de los datos
contenidos en el Datawarehouse, es importante mencionar que los Query and
Reporting trabajan tanto sobre el detalle como sobre las agregaciones de la
información.
Realizar este tipo de explotación en un Datawarehouse supone una mejor
optimización del tradicional entorno de informes (reporting), dado que el
Datawarehouse mantiene una estructura y una tecnología mucho más apropiada
para este tipo de solicitudes. Lo cual quiere decir que es más sencillo realizar este
tipo de consultas e informes debido a su enfoque OLAP.
Como se menciona anteriormente en los Datawarehouse es sencillo implementar
este tipo de explotación de los datos, sin embargo, es importante mencionar que
los sistemas de Query & Reporting, que no se basan en Datawarehouse, se
caracterizan por la complejidad de las consultas, los altos tiempos de respuesta y
la interferencia con otros procesos informáticos que compartan su entorno.
La explotación del Datawarehouse mediante Query & Reporting permite una
gradación de la flexibilidad de acceso, proporcional a la experiencia y formación
del usuario. A este respecto, se recomienda el mantenimiento de al menos tres
niveles de dificultad:
Los usuarios poco expertos podrán solicitar la ejecución de informes o
consultas predefinidas según unos parámetros predeterminados.
Los usuarios con cierta experiencia podrán generar consultas flexibles
mediante una aplicación que proporcione una interfaz gráfica de ayuda.
Los
usuarios
altamente
experimentados
podrán
escribir,
total
o
parcialmente, la consulta en un lenguaje de interrogación de datos.
49
2.2.1.1 SOLUCIONES DE QUERY AND REPORTING EN EL MERCADO
Actualmente en el mercado podemos encontrar una amplia gama de productos
dedicados a ofrecer el servicio de Consulta e Informes, para explotar los datos
contenidos en el Datawarehouse. Algunos corresponden a marcas reconocidas
como Oracle, IBM Cognos, Microsoft, entre otros. A continuación se mencionaran
algunos de ellos con una breve descripción de sus características:
Hyperion Interactive Reporting / Oracle : Software para la creación de
gráficos, tablas dinámicas e informes a partir de los datos de diversas
fuentes operativas y analíticas. Además, permite acceder directamente a
las fuentes relacionales sin necesidad de crear ni acceder a la capa
semántica de Oracle Business Intelligence Server.
Hyperion SQR Production Reporting / Oracle: Herramienta que se
conecta a fuentes de datos empresariales diversas y puede programarse
para crear informes periódicos de gran tamaño. Permite consultar distintas
fuentes de datos, como las principales bases de datos relacionales,
multidimensionales y sistemas desarrollados (por ejemplo, IBM DB/2, SAP
R/3, SAP BW y SQL Server). Desbloquea los datos y permite utilizarlos
para crear informes multifuncionales que permitan a las empresas detectar
excepciones y supervisar el rendimiento de los distintos procesos.
IBM Cognos 8 Business Intelligence Analysis / IBM Cognos: Software
que proporciona completas capacidades de BI en una arquitectura probada.
Permite la exploración guiada y el análisis de información relacionado con
todas las dimensiones de su negocio, con independencia de dónde se
encuentren almacenados los datos. Analice y genere informes a partir de
fuentes OLAP y fuentes de datos relacionales basadas en dimensiones.
IBM Cognos 8 Business Intelligence Reporting / IBM Cognos: Producto
que proporciona completas capacidades de BI en una arquitectura probada.
Da acceso a una completa lista de tipos de informes de autoservicio, se
adapta a cualquier fuente de datos, y opera desde una única capa de
50
metadatos para ofrecer diversos beneficios como el reporting en múltiples
idiomas.
Longview / Exact Software: Software que dispone de herramientas
propias de análisis y reporting (principalmente multidimensional). Expone
por otra parte sus datos por ODBC y web services para poder integrarse
como una fuente de información más de los sistemas de reporting de las
compañías. Dispone de Web services y herramientas de programación para
poder automatizar procesos de alimentación y extracción con los sistemas
con los cuales se relaciona.
SQL Server Analysis Services / Microsoft: Proporciona funciones de
procesamiento analítico en línea (OLAP) y minería de datos para
aplicaciones de Business Intelligence. Analysis Services admite OLAP al
permitirle diseñar, crear y administrar estructuras multidimensionales que
contienen datos agregados desde otros orígenes de datos, por ejemplo
bases de datos relacionales.
WebFOCUS Visual Discovery / Information Builders: Herramienta de
consulta y análisis completamente visual que con satisface las necesidades
de una amplia gama de usuarios, incluso aquellos sin un perfil técnico. En
cuestión de minutos se pueden crear completos dashboards de análisis
muy visuales y gráficos.
Las herramientas mencionadas anteriormente atienden a necesidades especificas
de cada organización, por lo cual para llevar a cabo la selección de uno de ellos se
debe llevar a cabo un análisis para determinar cuál es el que mejor se adapta a las
necesidades y requerimientos de la organización en la cual se desea implementar.
´
51
2.2.2 EIS (EXECUTIVE INFORMATION SYSTEM)
Los Sistemas de Información para Ejecutivos también conocidos por sus siglas en
ingles como EIS (Executive Information Systems) están dirigidos a altos ejecutivos
de una organización como ayuda a la toma de decisiones. Presentan información
relevante tanto interna como externa usando recursos visuales y de fácil
interpretación, con el objetivo de mantenerlos informados. La información que
presentan está enfocada a la situación actual de la organización
(Bird, 1992) Un EIS es un software, con un sistema de recuperación amigable que
provee información electrónica a los directivos con un acceso rápido a la
información que forma parte de las áreas clave de la empresa, ayudando a realizar
las actividades de gestión para conseguir los objetivos de la empresa. Los
sistemas de información para ejecutivos tienen como objetivo soportar la categoría
de decisiones que son descritas como no programables o intuitivas.
Para que sea considerado un sistema de información para ejecutivos, debe
cumplir con algunas características, sus principales características son:
Son utilizados por los altos ejecutivos de una organización.
Extraen, filtran, consolidan y visualizan los datos críticos.
Permiten acceder en tiempo real a las variables que definen en estado
actual de la organización.
Cuentan con una interfaz de usuarios amigable.
Para la presentación de la información utiliza graficas, tablas, texto, etc.
Los Sistemas de Información para Ejecutivos, son considerados como herramienta
de explotación del Datawarehouse, debido a que son utilizados como apoyo para
la toma de decisiones por los altos ejecutivos, los cuales no cuentan con el tiempo,
ni la habilidad para llevar a cabo análisis de los grandes volúmenes de datos, por
lo tanto el EIS proporciona medios fáciles de usar para la consulta y análisis de la
información
confiable
presentando
los
datos
simplificados,
altamente
52
consolidados, preparados para su presentación. Facilitando a los usuarios la
recuperación y análisis de la métricas de performance de la organización.
2.2.3 Tableros de Control
Es una herramienta gráfica que le permite a los directivos concentrarse en
indicadores fundamentales que tienen relación directa con los objetivos de negocio
de la empresa. Este no es un repositorio de datos, es una herramienta que
muestra indicadores relacionando los resultados esperados con los reales, es una
manera de analizar la evolución del negocio.
Business Process Improvement (2009) Menciona que un Tablero de Control, es
una poderosa herramienta de administración es utilizada para monitorear y
administrar el desempeño de la estrategia en una organización. Convierte la
misión y visión en un conjunto integral de objetivos y medidas de desempeño que
pueden ser cuantificadas y valuadas.
Un Tablero de Control permite visualizar datos trascendentes que esquematizan
la naturaleza de la empresa y su destino. Estos indicadores deben mostrar la
información en forma oportuna, sencilla e integrada, y ser claros y confiables.
No garantizan el éxito de una empresa, debe comprometerse el esfuerzo
necesario para su efectiva utilización y generar una transformación en la cultura de
trabajo empresarial.
Es importante tener en cuenta que un Tablero de Control no administra ni
gestiona; los indicadores le muestran los problemas a los directivos, pero el
análisis de las causas y la forma de solucionarlos depende de las decisiones que
ellos tomen. El Tablero de Control le indica a los directivos si la organización está
cumpliendo con los objetivos o no, pero en ningún momento genera una solución
automática.
53
Los tableros de Control sirven, fundamentalmente para proporcionar una rápida
visualización del estado actual de las variables básicas y la relación con los
objetivos de la empresa. Permite saber si existen problemas en la organización y
facilitan la visualización de su evolución, esto con la finalidad de tomar acciones
oportunas para corregir posibles desvíos en los objetivos y poder corregirlos a
tiempo.
2.2.3.1 Semáforos
Son frecuentemente utilizados para indicar las variables en los Tableros de
Control. Existen una serie de variables que son manejadas por los semáforos, a
continuación se explican cada una de esas variables:
Modelo del Semáforo: el modelo del semáforo está determinado por el
número de niveles que posee y está directamente relacionado con la
sensibilidad o capacidad de detalle.
Valor Real: representa la variable que se desea monitorear.
Valor Destino: representa el valor con el cual se establecerán diferencias,
desvíos de los valores reales, durante el monitoreo.
Umbrales: son los valores porcentuales que definen el paso de un estado a
otro del semáforo. Depende de la cantidad de niveles del semáforo.
2.2.4 DATAMINING
La Minería de Datos o Datamining es utilizada cuando se pretende obtener el
máximo de la información, es decir, cuando se desea extraer conocimiento de los
datos de la organización.
54
(W. Frawley, 1992) Puede definirse como la extracción no trivial de información
implícita, previamente desconocida y potencialmente útil, a partir de los datos.
Para conseguirlo hace uso de diferentes tecnologías que resuelven problemas
típicos de agrupamiento automático, clasificación, asociación de atributos y
detección de patrones secuenciales. La minería de datos es, en principio, una fase
dentro de un proceso global denominado descubrimiento de conocimiento en
bases de datos (Knowledge Discovery in Databases o KDD), aunque finalmente
haya adquirido el significado de todo el proceso o en lugar de la fase de extracción
de conocimiento.
El uso de la minería de datos como herramienta de explotación de un
Datawarehouse, contribuye a la toma de decisiones tácticas y estratégicas
proporcionando un sentido automatizado para identificar la información clave
desde grandes volúmenes de datos. Permite a los usuarios dar prioridad a
decisiones y acciones que deben realizarse y que tengan mayor relevancia, en el
cumplimiento de los objetivos organizacionales. Proporciona a los usuarios tomar
las mejores decisiones de acuerdo al problema presentado, siendo capaces de
medir las acciones y los resultados. La minería de datos cuenta con una serie de
modelos descriptivos y predictivos.
La minería de datos provee principalmente dos capacidades que generan nuevas
oportunidades de negocios, las cuales son:
Predicción automatizada de tendencias y comportamientos. La Minería
de datos automatiza el proceso de encontrar información predecible en
grandes bases de datos. Se puede contestar rápidamente a preguntas que
antes requerían un intenso análisis de los datos.
Descubrimiento automatizado de modelos previamente desconocidos.
Las herramientas de Minería de Datos recorren las bases de datos e
identifican modelos previamente escondidos en poco tiempo.
55
Las técnicas de Minería de Datos brindan beneficios de automatización. Ya que
cuando esas herramientas son implementadas en sistemas de procesamiento
paralelo de alto performance, pueden analizar los datos de una gran cantidad de
datos masivos en pocos minutos.
El tema de minería de datos es muy complejo e involucra una infinidad de
conceptos, en este apartado únicamente se pretende conocer el concepto y los
beneficios que brinda como herramienta de explotación de un Datawarehouse.
2.2.5 WEBHOUSING
Representa una tendencia tecnológica para el Datawarehouse. Las tecnologías
Web y el uso de Internet en las organizaciones ha tomado gran importancia hoy en
día, ya que permite a las organizaciones mantenerse informados, sin necesidad de
estar físicamente en su lugar de trabajo. Debido a esto surge la necesidad de
integrar el internet y el Datawarehouse.
El uso de esta tecnología como herramienta de explotación de Datawarehouse
representa diversas ventajas como las siguientes:
Bajo costo de desarrollo y mantenimiento, ya qe hace uso de internet y no
necesita una infraestructura compleja. Únicamente se debe llevar a cabo la
creación de interfaces Web.
Brinda consistencia en los datos que se presentan.
Es accesible, mediante el uso del browser de internet, lo cual hace sencilla
la búsqueda de información.
Confianza de los datos, debido a que hoy en día la seguridad es un papel
fundamental y existen numerosos protocolos desarrollados para proteger
los datos de personas ajenas a la organización.
56
La representación de los datos extraídos del Datawarehouse pueden darse
mediante:
Publicación de datos.
Distribución de reportes
Aplicaciones dinámicas
La aplicación de esta forma de explotación mediante el uso de internet aun tiene
aspectos que deben considerarse al querer implementarlo. Ya que se deben
considerar los tiempos de respuesta y se debe contar con una arquitectura de red
solida y robusta para soportar este tipo de consultas OLAP.
2.2.6 HERRAMIENTAS OLAP
Las herramientas OLAP permiten navegar a través de los datos almacenados en
el
Datawarehouse
y
analizarlos
dinámicamente
desde
una
perspectiva
multidimensional, es decir, considerando unas variables en relación con otras y no
de forma independiente entre sí y permitiendo enfocar el análisis desde distintos
puntos de vista.
En el siguiente capítulo se profundiza en el tema de las herramientas OLAP,
específicamente Cubos OLAP; el cual es el tema principal de este trabajo de
investigación.
57
Capitulo 3 Cubos OLAP
3.1 DEFINICION
Como antecedentes tenemos que OLAP (On-Line Analytical Processing) significa,
Procesamiento Analítico en Línea y constituye la manera de organizar los datos
contenidos en una base de datos para que se ajusten al modo que tienen los
usuarios de analizarlos.
Los cubos OLAP, representan una herramienta utilizada en los que se conoce
como Inteligencia de Negocios, debido a que permite a la organización optimizar
sus procesos y generar información útil, rápida y
fácil de analizar para los
ejecutivos, como apoyo en la Toma de Decisiones, en base a datos históricos que
permitan brindar seguridad y soporte.
Un cubo OLAP muestra los resultados resumidos de los informes, en vez de una
gran cantidad de registros individuales, para que sea posible analizar muchos
datos que, por la cantidad de datos los recursos del sistema no podrían manejar,
constituye
una
tecnología
que
provee
rápido
acceso
a
datos
en
un
Datawarehouse. Los cubos proporcionan un mecanismo para buscar datos con
rapidez y tiempo de respuesta uniforme independientemente de la cantidad de
datos en el cubo o la complejidad del procedimiento de búsqueda.
59
Los cubos son subconjuntos de datos de un almacén de datos, organizado y
sumarizado dentro de una estructura multidimensional. Los datos se sumarizan de
acuerdo a factores de negocio seleccionados, dando el mecanismo para la rápida
y uniforme tiempo de respuesta de las complejas consultas.
3.2 CUBOS VIRTUALES
Haciendo una analogía, el realizar cubos virtuales, es similar al proceso de juntar
tablas con vistas en las bases de datos relacionales. Un cubo virtual, provee
acceso a los datos en los cubos combinados como si estuvieran en un único cubo,
sin la necesidad de construir un nuevo cubo, siempre y cuando el diseño de cada
cubo individual tenga un buen diseño.
La principal ventaja que ofrece los cubos virtuales es que almacena únicamente
definiciones, no los datos, por lo tanto, requieren menos espacio de
almacenamiento que los cubos normales.
Un cubo podrá ser actualizado, procesando solo los datos que han sido añadidos,
en vez de hacerlo con el cubo entero, se puede usar la actualización incremental
para actualizar un cubo mientras se esté usando.
3.3 RESTRICCIONES
El esquema de un Cubo permite manejo de restricciones, estas se pueden
clasificar a grandes rasgos como:
Restricciones de Llave
Restricciones de Integridad Referencial
60
Restricciones No Nulas
Así mismo pueden clasificarse también en dos categorías:
1) Restricciones intra-cubo. Define restricciones dentro del cubo, se encarga
de explotar la relación que existe dentro de los distintos atributos del cubo.
2) Restricciones inter-cubo. Define las restricciones entre dos a más cubos.
3.4 COMPONENTES
Los cubos se constituyen de diversos elementos, de los cuales es necesario
conocer y entender el concepto de cada uno de ellos. Los componentes de un
cubo son:
Dimensiones
Niveles de Jerarquía
Medidas
Hechos
A continuación se explican a detalle cada uno.
3.4.1 Dimensiones
Son categorías descriptivas por los cuales los datos numéricos (mediciones) en un
cubo, son separados para su análisis. Son usadas para seleccionar y agregar
datos a un cierto nivel de detalle.
Por ejemplo, si una medición de un cubo es el conteo de las ventas y las
dimensiones son tiempo, vendedor, producto, los usuarios del cubo, podrán
61
separar el conteo de las ventas realizadas dentro de las categorías que
corresponden a las dimensiones antes mencionadas.
Una dimensión puede ser creada para usarse en:
Cubo individual. Llamada dimensión privada.
Múltiples cubos. Llamada dimensión compartida. Es más conveniente
utilizar la dimensión compartida debido a que se podrán usar dentro de todo
el cubo, mediante esto se optimiza el tiempo y se evita duplicación de
dimensiones privadas, además estandarizan las métricas de negocios entre
los cubos, es decir, las dimensiones están organizadas similarmente en
todos los diferentes cubos y se puedan analizar sin inconvenientes.
3.4.2 Niveles de Jerarquía
Representan la jerarquía de los miembros de las dimensiones. Se refiere al nivel
de detalle que se da en cada una de las dimensiones. Estos niveles de jerarquía
tienen relación con el esquema copo de nieve, ya que de una dimensión se hace
el desglose para saber específicamente acerca de un dato. Por ejemplo, se tiene
la dimensión País, pero de desea analizar más a detalle acerca de ese país, se
jerarquiza en País, Estado, Ciudad.
3.4.3 Medidas
Son datos numéricos de interés primario para los usuarios del cubo. Representan
el resultado del dato que se requiere conocer y analizar. Algunas medidas
comunes son Ventas en unidades, ventas en pesos, costo de ventas, gastos,
conteo de la producción, presupuesto, entre otras. Son usadas por el
62
procedimiento de agregación de los servicios de OLAP y almacenadas para su
rápida respuesta a las peticiones de los usuarios.
3.4.4 Hechos
Son las colecciones de datos que se extraen, es lo que se quiere ubicar. Son
mediciones numéricas (valores) que representan un aspecto o actividad de
negocio especifica.
Figura 3.1 Representación de un cubo OLAP.
A continuación se explican cada uno de los componentes de un cubo, con la
finalidad de que cada uno de los miembros sean entendidos e identificados, para
lo cual se tomara como ejemplo la figura 3.1
El cubo corresponde al número de entregas de paquetes que se realizan de
acuerdo a una ruta determinada, país y en que lapso de tiempo. La dimensión
63
Source representa las ubicaciones en las que se producen las importaciones, caso
de África o Asia. La dimensión Time representa los trimestres y semestres de un
único año.
Dimensiones: Route, Source y Time.
Niveles de Jerarquía: por ejemplo, en la dimensión Route su nivel de jerarquía es
nonground que a su vez se divide en air, sea y ground roal, rail.
Route
Nonground
Air
Sea
Ground
Air
Sea
Figura 3.2. Representación de Niveles de Jerarquía
Hecho. Numero de paquetes entregados por ruta air, en North America en
el tercer trimestre del año.
Medidas. Del hecho anterior la medida seria 4,360.
Figura 3.3. Representación de la medida.
64
3.5 PROPIEDADES DE MIEMBROS
Se pueden definir propiedades para los miembros de dimensión y usar datos para
estas propiedades dentro de un cubo. Por ejemplo, si los miembros de la
dimensión producto son su número de partes, es lo mismo hacer varias
propiedades asociadas con este número de parte tales como, el tamaño, color,
etc. Se pueden especificar tales propiedades, como una propiedad miembro y
utilizarla en las búsquedas analíticas.
3.6 AGREGACIONES
Se le llama así, al proceso de precalcular sumas de datos, para ayudar a disminuir
los tiempos de respuestas, en los procesos de búsquedas de información. Las
agregaciones pueden precalcularse durante el procesamiento de los cubos o al
momento en que se realiza la consulta. Lo más recomendable es realizarlo
durante el procesamiento para que así devuelva el resultado de la consulta más
rápidamente
En Analysis Services de Microsoft, se pueden calcular fácilmente otros valores
agregados tomando como base otras agregaciones precalculadas. Y brinda un
equilibrio entre los requisitos de almacenamiento y el porcentaje de las posibles
agregaciones que se precalculan, esto debido a que todas las agregaciones
posibles requieren tiempo de procesamiento y espacio de almacenamiento.
Si durante la consulta no es necesario precalcular agregaciones, la cantidad de
tiempo de procesamiento y de espacio de almacenamiento que se necesita para
65
un cubo se reduce al mínimo, aunque el tiempo de respuesta puede ser lento, ya
que es preciso recuperar de las celdas hoja los datos necesarios para responder a
cada consulta y luego agregarlos en el tiempo de la consulta para responder a
cada una de ellas.
3.7 TIPOS DE ALMACENAMIENTO
Existen varios tipos de almacenamiento para los cubos, pero hay 3 principales los
cuales son:
ROLAP
MOLAP
HOLAP
3.7.1 ROLAP (Relational On Line Analytical Process)
Su forma de almacenamiento es en una base de datos relacional, como bien su
nombre lo indica.
Este modo de almacenamiento, no guarda una copia de los datos de origen, las
consultas son realizadas directamente a las tablas originales de la base de datos.
Por lo cual, el resultado de la consulta suele ser más lento en comparación con los
otros dos tipos de almacenamiento. Su tiempo de procesamiento también se ve
reducido. Sin embargo permite a los usuarios, ver los datos en tiempo real y
ahorrar espacio de almacenamiento ya que es recomendable utilizar ROLAP para
66
grandes volúmenes de información que no son frecuentemente buscados tales
como datos históricos.
Por lo tanto ROLAP, ofrece características de escalabilidad, concurrencia y
administración de datos.
3.7.2 MOLAP (Multidimensional On Line Analytical Process)
Como su nombre lo indica, utiliza una base de datos multidimensional. En este tipo
de almacenamiento se carga la información procedente de los sistemas
transaccionales. Las vistas de los datos en este tipo de almacenamiento son
dadas por medio de estructuras de arreglos. Después de cargar los datos se
generan índices con la finalidad de mejorar los tiempos de respuesta de las
consultas.
La estructura multidimensional es una copia de los datos de origen, por lo cual los
datos fuente son almacenados junto con sus agregaciones en una estructura
multidimensional de alto rendimiento. Dichas agregaciones permiten disminuir los
tiempos de respuesta de las consultas. MOLAP, proporciona excelente
rendimiento y compresión de datos.
Este tipo de almacenamiento, es adecuado para volúmenes de información
pequeños con número limitado de dimensiones, además para cubos con uso
frecuente por su rápida respuesta.
67
3.7.3 HOLAP
El almacenamiento en HOLAP combina atributos de MOLAP y ROLAP, para
almacenar la agregación de los datos utiliza la estructura multidimensional de
MOLAP y la base de datos fuente esta dada en una base de datos relacional.
Para devolver los resultados de una consulta lo realiza accediendo a datos
sumarizados como en MOLAP
Para procedimientos de búsqueda que accesan datos sumarizados, HOLAP es
equivalente a MOLAP. Los cubos almacenados en HOLAP, son más pequeños
que los MOLAP, ya que no contienen datos de origen y responden más rápido que
las consultas realizadas en ROLAP.
HOLAP es generalmente usado para cubos que requieren rápida respuesta, para
sumarizaciones basadas en una gran cantidad de datos.
3.7.4 DIFERENCIAS
Actualmente es importante conocer los requerimientos de la organización para
poder llevar a cabo la mejor selección del tipo de almacenamiento de los datos
para un cubo. Ya que como se explico anteriormente cada tipo de almacenamiento
tiene sus ventajas y desventajas no se podría decir con exactitud cuál es el mejor.
Sin embargo también es importante mencionar que HOLAP ofrece las ventajas de
los otros dos tipos de almacenamiento por lo cual representa una opción
adecuada.
A continuación se muestra una tabla en la cual de hace una comparación de las
diferencias entre ROLAP y MOLAP en cuatro aspectos fundamentales:
68
DATOS
MOLAP
ROLAP
Detalle y precalculados,
Detalle y agregados
agregados
ESTRUCTURA
Matrices comprimidas
Tablas relacionales
ADMINISTRACIÓN
Especialista en Bases de
Administrador de Base de
Datos Multidimensionales
Datos
(BDMD)
ACCESO
Lenguaje especializado
SQL
Tabla 3.1. Diferencias entre MOLAP y ROLAP
3.8 OPERACIONES CON CUBOS
Las operaciones más comunes para realizar con cubos son:
Roll up. Se refiere al incremento en el nivel de agregación de los datos. Se refiere
a una exploración de los datos de manera ascendente, es decir, desplaza la
jerarquía hacia arriba, agrupándola en unidades mayores a través de una
dimensión. Un ejemplo de esta operación es cuando se desea conocer el resumen
de las ventas realizadas en semanas, trimestres o anuales.
Drill down. Es la reducción de la dimensionalidad de los datos mediante
selección. Es el proceso de visualización de datos a mayor nivel de detalle. Se
refiere a una exploración descendente. Un ejemplo de donde estaría aplicada esta
operación, es cuando se desea conocer las ventas a nivel nacional, por región y
por subregión.
Slice. Esta operación ejecuta una selección sobre la dimensión de un cubo dado,
resultando un subcubo.
Dice. Esta operación define un subconjunto realizando una selección de dos o
más dimensiones.
69
Las operaciones Slice y Dice, agregan, remplazan o eliminan atributos específicos
de una dimensión o una parte de esos atributos.
Pivotaje o rotación. Reorientación de la visión multidimensional de los datos.
Selecciona el orden de visualización de cada una de las dimensiones que
conforman el cubo.
Drill Across. Se refiere a pasar de una dimensión a otra. Es la acción de
desglosar una métrica por una dimensión que pertenece a otro cubo.
Drill Through. Consulta sencilla que permite indicar y expresar que existe un nivel
de datos detallados.
3.9 INDICADORES KPI
La función principal de utilizar herramientas de explotación en un Datawarehouse
es con la finalidad de obtener datos resumidos de la gran cantidad de datos que
se tiene almacenados. Por lo tanto el concepto de Indicador, toma gran relevancia
en los Cubos OLAP.
3.9.1 DEFINICION
Un KPI es sencillamente un indicador que está asociado a un objetivo. Indica el
estado en que la empresa se encuentra, es decir, si está por encima o por debajo
de una meta predeterminada. Comúnmente se muestran como una tasa o
porcentaje y están diseñados para permitir que un usuario de negocios pueda
70
saber instantáneamente si están dentro o fuera de su plan sin que tenga que
buscar información adicional.
Un indicador clave de rendimiento (KPI) es una medida cuantificable para valorar
los éxitos de la empresa.
En Analysis Services, un KPI es un conjunto de cálculos asociados a un grupo de
medida de un cubo, que se usa para evaluar el éxito empresarial. Normalmente,
estos cálculos son una combinación de expresiones MDX (Expresiones
multidimensionales) o miembros calculados. Los KPI también tienen metadatos
adicionales que proporcionan información acerca de cómo deberían las
aplicaciones cliente mostrar los resultados de los cálculos de KPI.
Un KPI administra información sobre un objetivo establecido, la fórmula real del
rendimiento registrada en el cubo y medidas para mostrar la tendencia y el estado
del rendimiento.
Los Cubos OLAP, son una excelente herramienta que permite generar
Indicadores, fácil y sencillamente, además de brindar ventajas en la visualización
de los datos, además son de fácil entendimiento y manejo.
3.10 OPTIMIZACIÓN DEL RENDIMIENTO
Al preparar los datos para pasarlos a cubos OLAP, es importante tener en cuenta
la indexación de cada una de las dimensiones y tablas de hechos, para tener un
buen rendimiento en el procesamiento de los cubos.
Es fundamental comprobar el rendimiento, ya que si no se tiene el rendimiento
previsto se debe comprobar cómo optimizar las consultas o el esquema para
mejorar el rendimiento. Si el rendimiento es lento se debe revisar el esquema
relacional utilizado y en cómo esta implementado, es decir, revisar sus índices,
relaciones, integridad, limpieza de datos.
71
Existe una guía dada por Microsoft que aplica a Servicios OLAP de Microsoft SQL
Server. La cual menciona los pasos a seguir antes de procesar un cubo de
servicios OLAP.
1. Declare una clave principal en cada tabla de la dimensión.
2. Para las dimensiones de estrella, declare las relaciones de claves externas
(FK) entre cada tabla de dimensiones y tabla de hechos correspondiente.
Además, para las dimensiones de copo de nieve, declare las relaciones de
claves externas entre cada tabla de dimensiones secundaria y la tabla de
dimensiones primaria que aumenta.
3. Asegúrese de que hay una clave principal asociada a las tablas de hechos.
4. Declare índices en cada una de las claves principales en las tablas de
dimensión y en las tablas de hechos.
5. Declare índices en cada una de las claves externas de las tablas de
hechos.
6. Limpie los datos para quitar todos los valores NULL para esos elementos
de datos que se pasan a Servicios OLAP.
3.11 RECOMENDACIONES PARA EL DISEÑO DE CUBOS
El diseño de los cubos, es sencillo, pero debe atender a requerimientos
específicos, se deben tomar en cuanta diversas especificaciones para qué el
diseño sea correcto y atienda a las necesidades de la empresa. Además de que
brinde resultados correctos que permitan tomar decisiones adecuadamente.
Los cubos bien diseñados satisfacen mejor las necesidades de los usuarios
finales. A continuación se muestra una serie de prácticas recomendadas por
72
Microsoft TechNet, que pueden ayudar a mejorar la usabilidad y el rendimiento de
los cubos.
Evitar incluir medidas no vinculadas en el mismo cubo. Tener muchos grupos
de medidas en un cubo puede afectar negativamente el rendimiento del las
consultas del cubo, incluso para las consultas que solo utiliza un grupo de
medidas.
Evitar tener muchas dimensiones padre-hijo en un cubo. Se deben utilizar solo
cuando sea extremadamente necesario, debido a que las consultas tendrán my
poco rendimiento.
Evitar tener muchas dimensiones de muchos a muchos. Esto puede tener
como consecuencia tener problemas de rendimiento.
Evitar
crear
múltiples
grupos
de
medidas
que
tengan
la
misma
dimensionalidad y granularidad. El tener muchos grupos de medidas puede
afectar negativamente el rendimiento. Además la presencia de muchos grupos de
medida similares presenta un modelo complejo para el usuario final. Por lo tanto
debe considerarse la creación de un solo grupo de medidas que contenga varias
particiones.
Poner cada medida dentro de un grupo de medidas. Esto permitirá mejorar el
rendimiento.
Establecer explícitamente algún miembro predeterminado del juego de rol de
las dimensiones directamente en las dimensiones del cubo. Esto implica que
una dimensión puede tener diferente nombre de acuerdo a la función que
desempeñe, por ejemplo OrdeFecha y FechaEnvio están basados en la dimensión
Fecha, sin embargo tienen diferente nombre de acuerdo a su función. Esto
representa
una
ventaja,
ya
que
permite
que
los
diferentes
miembros
predeterminados desempeñen una función diferente y no exista confusión en las
dimensiones y atributos.
73
Reutilizar dimensiones en los cubos, en lugar de crear dimensiones
duplicadas. Se debe evitar considerablemente la duplicación de dimensiones, ya
que si no se tendrán problemas de almacenamiento y excesivos gastos de
mantenimiento.
Utilizar el tipo de dato adecuado para cada una de las medidas. El tipo de dato
debe ser el adecuado no debe ser más pequeño de lo que se necesita ni mas
grande, para no reducir los costos de almacenamiento.
Dimensiones materializadas. Esto se debe realizar con la finalidad de mejorar el
rendimiento y las dimensiones de referencia deben ser materializadas.
Así como las anteriores hay otras recomendaciones que se deben tomar en
cuenta, estas únicamente son recomendaciones por parte de Microsoft para
generar una buena estructura en la creación de Cubos OLAP. Todas y cada una
de las prácticas anteriores pueden ayudar al responsable de la creación y diseño
de Cubos a tener una guía de los aspectos que son fundamentales y que se
deben tomar en cuenta.
3.12 SOFTWARE PARA LA CREACIÓN DE CUBOS
Actualmente existen muchas empresas que se dedican a crear y distribuir
soluciones para las empresas que requieren elevar su nivel de competitividad y
contar con herramientas OLAP que les permita eficientar sus procesos y tomar
decisiones basadas en el negocio y los resultados.
Es por eso que a continuación se muestran las principales empresas dedicadas a
crear soluciones de Inteligencia de Negocios y que brindan el software necesario
para la creación del tema central de este capítulo que son los Cubos OLAP.
74
3.12.1 PENTAHO
La corporacion Pentaho es el patrocinador primario y propietario del proyecto
Pentaho BI. La PLATAFORMA Pentaho BI es una iniciativa en curso por la
comunidad de Open Source que provee organizaciones con mejores soluciones
para las necesidades de BI de una empresa, en Arquitectura,
Soporte,
Funcionalidad e Implantación.
En la plataforma Open Source de PENTAHO se incluye la herramienta OLAP
Mondrian, que permite crear cubos de información para análisis multidimensional.
Dichos cubos se componen de archivos XML y en ellos se definen las
Dimensiones y las conexiones de los datos. Los archivos XML por lo general son
complejos de realizar manualmente por lo que es común utilizar herramientas
graficas para realizar la edición de estos. Como ejemplo de estas herramientas
Open Source Pentaho tenemos a Cube Designer para la Creación de cubos y el
Workbench para la edición de los mismos.
3.12.2 MICROSOFT: SQL ANALYSIS SERVICES (SSAS)
Microsoft SQL Server 2005 Analysis Services (SSAS) ofrece funciones de
procesamiento analítico en línea (OLAP) y minería de datos para aplicaciones de
Business Intelligence. Analysis Services admite OLAP y permite diseñar, crear y
administrar estructuras multidimensionales que contienen datos agregados desde
otros orígenes de datos, como bases de datos relacionales.
Los cubos son objetos OLAP que se componen de medidas y dimensiones
relacionadas que se configuran en una base de datos de Analysis Services. Puede
definir y configurar varios cubos en una única base de datos; y cada cubo puede
usar algunas de las mismas dimensiones o todas ellas. También puede definir un
75
solo cubo que contenga varios grupos de medida en la misma base de datos en
lugar de definir cubos independientes. Al definir un cubo con varios grupos de
medida, debe definir cómo se relacionan las dimensiones con cada grupo de
medida y personalizar, según corresponda, los objetos de dimensión de cada cubo
y grupo de medida. Al definir un cubo, también se definen propiedades avanzadas
del mismo: cálculos, KPI, acciones, particiones, agregaciones, perspectivas y
traducciones.
Así como esta Analysis Services de Microsoft, también es muy utilizado para la
creación de Cubos, la herramienta de Office Microsoft, Excel en conjunto con
Microsoft Access. Esta forma de creación de cubos ha sido muy utilizada, debido a
que todas las empresas cuentan con este Software y existen en la red muchas
guías y manuales, que ayudan a la creación de cubos OLAP. Además existen
herramientas de Inteligencia de Negocios que permiten la creación de cubos pero
utilizando como herramienta para la visualización Microsoft Excel.
3.12.3 OlapX®
Es una sofisticada herramienta OLAP que le permite crear o utilizar cubos
multidimensionales existentes para el análisis de la información de su empresa.
Permite
el
análisis
interactivo,
reporteo
y
presentación
de
cubos
multidimensionales que se encuentren en bases de datos de Microsoft Analysis
Services o en archivos locales.
Está diseñado para usuarios de cualquier negocio o nivel técnico para que puedan
llevar a cabo los análisis de la información por ellos mismos, crear reportes y
consultas y compartirlos para mejorar el proceso de toma de decisiones de una
compañía.
76
Cuenta con 4 productos fundamentales que atienden requerimientos específicos,
los cuales son:
OlapX Application: Una aplicación cliente servidor que le permite crear,
ver y analizar cubos multidimensionales.
OlapX Lite: El compañero de OlapX Application. Este producto será
gratuito por un tiempo limitado, le permite a usuarios finales utilizar el
trabajo realizado con OlapX Application.
OlapX Developer: Si desea desarrollar aplicaciones Olap personalizadas,
puede crearlas y distribuirlas con este producto
OlapX Web: Para distribuir sus cubos a través de un sitio web, puede
utilizar este control e insertarlo en su sitio.
3.12.4 ORACLE 10G Y 11G
A partir de la versión de Oracle 10g, se introducen a ella nuevas características en
comparación con versiones anteriores, una de ellas es que permite la creación de
cubos OLAP incorporando características de alto desempeño para el depósito de
datos en Oracle.
En la versión 11g se incluyen visualizaciones relacionales de un cubo que son
administradas por la base de datos, una fuente de dilas para la exploración de
cubos y visualizaciones materializadas. Oracle OLAP utiliza un espacio de trabajo
analítico, en el cual almacena los datos en la base de datos como cubos
multidimensionales, que son diseñados para consultas y actualizaciones cada vez
más rápidas.
3.12.5 SAP BUSINESS OBJECT
Es el proveedor líder en lo que a Inteligencia de Negocios se refiere y cuanta con
miles de clientes. También ofrece creación y mantenimiento de cubos OLAP para
la presentación de la información del negocio.
77
Ofrece un extenso portafolio de Inteligencia de Negocios, en el cual incluye
productos como:
SAP BO Web Intelligence.
SAP BO Desktop Intelligence
SAP BO Crystal Reports
SAP BO xCelsius
SAP Voyager
SAP BO Set Analysis, entre otros más.
Anteriormente se mencionaron solo algunas de las marcas reconocidas en el
mercado y que son ampliamente utilizadas por las empresas para implementar
soluciones OLAP, que les permitan realizar análisis de sus datos del negocio. Así
como estas existen otras más, por lo cual la selección de la mejor dependerá de
los requerimientos de la empresa y de conocer a fondo cuales son las
características que ofrece y en base a esto seleccionar la que mejor se adecue a
los
procesos
de
la
empresa
y
a
sus
necesidades.
78
Capítulo 4 Visualización de un ejemplo de Cubo
OLAP
4.1 DESCRIPCIÓN
A continuación se presenta la descripción de la interfaz utilizada por usuarios
finales, de un cubo. Este muestra información relevante acerca del número de PE
de Posgrado. Es importante mencionar que este cubo fue diseñado previamente y
los valores mostrados no pueden cambiar, lo único que se puede cambiar es la
forma de visualización de los datos.
4.2 VISUALIZACIÓN DE LA INFORMACION DEL CUBO
A continuación se explicara y se mostrara un ejemplo de un cubo realizado, que ya
se encuentra funcionando y que sirve de soporte para tomar decisiones.
Se procede a explicar la interfaz utilizada.
Como se explicaba anteriormente, el cubo ya fue diseñada previamente, indicando
las dimensiones requeridas, por lo tanto únicamente se pueden visualizar los
datos y no se pueden realizar cambios.
En la figura 4.1 se muestra la pantalla principal, sobre la cual se pueden visualizar
y cambiar las vistas de los datos presentados.
Como se puede visualizar en la figura 4.1. La interfaz contiene diversos menús a
los cuales se puede acceder y realizar cambios en la vista de la información
presentada. Más adelante se explicaran a detalle todas y cada una de las
principales herramientas y funciones que se pueden realizar.
80
Figura 4.1 Pantalla principal
4.3 COMPONENTES BÁSICOS
A continuación se procede a explicar todas las herramientas que incluye la
interfaz.
4.3.1 FORMATO
En la parte superior de la pantalla se puede observar el menú que nos brinda
diversas opciones de formato para realizar al cubo mostrado.
81
Figura 4.2 Menú de formato
Para comenzar a describir cada uno de los botones de la figura 4.2 se empezara
de izquierda a derecha
Save Chart Image. Permite guardar la grafica del cubo mostrado. Mostrara una
ventana donde dirá si queremos Abrir, Guardar o Cancelar.
Copy Chart. Almacena en el portapaleles la imagen para copiarla en algún
documento.
Print Chart. Permite imprimir la grafica del cubo mostrado.
Print Preview Chart. Permite visualizar antes de imprimir la grafica de los datos
del cubo.
Select Chart Type. Permite cambiar el tipo de grafica. En la figura 4.3 se muestra
los diferentes tipos de graficas.
Figura 4.3 Tipos de gráficas.
Toggle Chart Legend. Oculta la leyenda de los datos mostrados.
82
Properties. Abre una ventana en la cual se pueden realizar otras configuraciones.
Como estilo, tipo de grafica, titulo, colores, leyenda, apariencia entre otras. Como
se muestran en la figura 4.4
Figura 4.4 Ventana de Propiedades.
Select Color Palette. Permite cambiar la combinación de los colores de la
ventana.
Pivots Data. Al seleccionar esta opción, muestra en la grafica los datos pivote. En
este caso son las regiones. En la figura 4.5 se muestra el resultado al seleccionar
esta opción.
83
Figura 4.5 Vista de los datos al seleccionar Pivots Data
Switch to simple view. Muestra una vista simple del grafico.
4.3.2 Reports
Este menú ofrece diversas opciones para crear reportes de los datos. En la figura
4.6 se muestra el menú. Se procederá a explicar de izquierda a derecha.
Figura 4.5. Menú Reports
84
Add Report. Agrega un Nuevo reporte
Remove report.Elimina reporte seleccionado
Revert to original report. Si se han realizado cambios a algun reporte realizado,
deshace los cambios y conserva el original.
Rename report. Permite cambiar el nombre al reporte.
Save reports. Almacena el reporte generado
Load reports. Carga los reports generados.
4.3.3 Measures and Dimensiones
En este apartado se muestran las medidas y dimensiones utilizadas para crear
diferentes cubos. En la figura 4.6 se pueden observar las definidas para este cubo.
Las que están marcadas con negritas son las utilizadas para el cubo mostrado en
este ejemplo.
Figura 4.6 Medidas y dimensiones utilizadas en el cubo.
85
4.3.4 Visualización de los datos
Esta interfaz permite mostrar los datos de dos diferentes maneras:
Chart. Los datos son visualizados mediante grafica.
Grid. Los datos se visualizan mediante tablas. En la figura 4.7 se muestra la
visualización por medio de grid.
Figura 4.7 Visualización de datos mediante la opción Grid.
4.4. CATEGORÍAS Y SERIES
Mediante estos menús podemos seleccionar los datos que se desean mostrar
únicamente en las graficas. En el apartado de Categorías, para cuestiones de este
ejemplo, se muestran las dimensiones Región y Área Académica. Al seleccionar la
pestaña de alguna de estas mostrara los datos que se tienen para establecer
diversas vistas de los datos. En la figura 4.8 se muestran los datos que se tienen
configurados para este ejemplo.
86
Figura 4.8 Datos contenidos en las dimensiones Región y área Académica .
87
CONCLUSIONES
A lo largo de este trabajo de investigación, se llega a la conclusión de que los
conceptos sobre los cuales se centra, son actualmente de vital importancia
conocer, ya que aunque en México muy pocas empresas tienen implementados
Datawarehouse, si hay muchas que hacen uso de herramientas de Inteligencia de
Negocios para eficientar sus procesos y llevar una adecuada toma de decisiones,
que permitan alcanzar los objetivos planteados y brindar ventaja competitiva, aun
utilizando bases de datos transaccionales.
Considero que es de vital importancia evolucionar y optar por herramientas
dinámicas que permitan y ayuden a las organizaciones a transformar su
información en conocimiento y cambiar las bases de datos operacionales por las
bases de datos multidimensionales que le den flexibilidad a los datos y se puedan
implementar diversas soluciones para este tipo de datos.
Como antecedente, por muchos años se ha utilizado sistemas basados en
Procesamiento Transaccional, comúnmente conocido como OLTP, las cuales han
funcionado muy bien y hasta el día de hoy permiten realizar las operaciones
básicas del negocio, sin embargo no permiten realizar análisis de sus datos debido
a que sus estructuras son muy robustas y no permiten flexibilidad de sus datos
almacenados.
Sin embargo surgió el concepto de de Procesamiento Analítico en Línea OLAP, el
cual con el paso de los años se ha vuelto más popular debido a que mejora
significativamente el análisis del negocio y aunque en un principio era considerado
como difícil y costoso de implementar, no obstante se han desarrollado diversas
herramientas que hacen más fácil y menos costo. Es importante que las empresas
hagan un análisis de las operaciones y procesos que realizan con la finalidad de
evaluar y pensar en implementar soluciones de Inteligencia de Negocios, debido a
que no solo se deben implementar para no estar un paso atrás, sino es necesario
determinar si son requeridas y cuál es la que mejor se adecua a los
requerimientos de la empresa.
89
Para las empresas que llevan muchos años en el mercado representaría una
excelente opción pensar en implementar un Datawarehouse, ya que este contiene
datos históricos de 5 a 10 años y permitiría llevar a cabo análisis de la información
contenida en el almacén de datos.
De las diversas herramientas de explotación de Datawarehouse que se presentan
en el contenido del trabajo, cabe mencionar que no son las únicas que existen,
peo el propósito de esta investigación es brindar una idea general de las que
existen y cuáles son las más utilizadas por las empresas.
Además de las herramientas mencionadas existen, lo que es el tema principal y
por el cual se llevo a cabo dicha investigación. Los cubos OLAP, los cuales desde
mi punto de vista proporcionan una excelente visión de los datos, ya que cuenta
con diversos componentes que brindan una representación dinámica de la
información.
Hoy en día las empresas les hace falta realizar un cambio en la representación de
la información al usuario final, es necesario implementar herramientas que
permitan un fácil y correcto análisis de la información del negocio y brinden una
visión general de cómo se llevan a cabo las operaciones con el paso del tiempo y
saber si están cumpliendo con sus objetivos.
Los cubos permiten mostrar indicadores, este concepto ha tomado gran
importancia y los cubos son una excelente herramienta para representarlos. Los
indicadores están asociados con objetivos, a las empresas hoy en día les interesa
conocer si están cumpliendo con las metas trazadas y medir el éxito o fracaso de
acuerdo a determinadas situaciones.
Actualmente los indicadores son muy utilizados en el ámbito de la educación y
diversas organizaciones educativas forman parte del proyecto de integración del
sistema nacional de indicadores en educación superior del país y hasta el día de
hoy existe un registro de diversos indicadores desde el año 2006.
90
Es por esto que los cubos OLAP son una herramienta que permite generar
indicadores de manera fácil y sencilla, además de brindar ventajas en la
visualización de los datos, anexando su fácil entendimiento y manejo para los
usuarios finales.
Es importante mencionar además que al implementarlos se debe estar muy
pendiente del rendimiento y tomar en cuenta las diversas recomendaciones para
su diseño, es importante hacer énfasis en este tema ya que se le debe dar la
importancia necesaria al llevar a cabo su diseño, ya que aunque represente una
buena herramienta, sino son diseñados adecuadamente mostraran información
errónea y por ende no se podrán obtener buenos resultados ni indicadores
confiables que permitan la correcta toma de decisiones.
En la actualidad existen muchas empresas que ofrecen soluciones de inteligencia
de Negocios y proporcionan diversas aplicaciones para la creación de cubos, cada
vez son más sencillas de utilizar y brindar interfaz grafica que permiten su fácil
creación; por lo cual antes de llevar a cabo su selección, se debe llevar a cabo un
análisis para determinar cuál es la que mejor se adecua a los requerimientos de la
empresa.
Para finalizar, como aportación personal, puedo concluir que la tecnología avanza
constantemente, por lo cual es importante estar actualizados en los temas que son
relevantes. Los cubos OLAP representan una solución reciente que día a día va
mejorando, por lo cual no está por demás considerarlo como una buena
herramienta de explotación de los datos contenidos en un Datawarehouse. Las
organizaciones deben avanzar y no tener miedo al cambio, las herramientas OLAP
representaran una ventaja siempre y cuando se tome el tiempo adecuado para
analizar los requerimientos de la empresa y así obtener la mejor solución.
91
FUENTES DE INFORMACION
BERSON, Alex (1997). DATA WAREHOUSING, DATA MINING & OLAP. New
York: Mc Graw Hill.
BIRD, J. EXECUTIVE INFORMATION SYSTEMS. MANAGEMENT Handbook.
Oxford: Blackwell, 1992.
FRAWLEY W. & Piatesky-Shapiro G. & Matheus C. (1992) KNOWLEDGE
DISCOVERY IN DATABASES: AN OVERVIEW, (pág. 213-228)
GILE, Keith (2002) BUSINESS INTELLIGENCE STRATEGIC PLAN. The Giga
Group Developing
GINER DE LA FUENTE, Fernando & GIL, Ma. De los Ángeles (2004). LOS
SISTEMAS DE INFORMACION EN LA SOCIEDAD DEL CONOCIMIENTO. ESIC
Editorial.
JIAWER, Han & KRAMBER, Micheline (2006). DATA MINING: CONCEPTS AND
TECHNIQUES. Segunda edicion. USA: Morgan Kaufmann.
KIMBALL, Ralph (1998). THE DATAWAREHOUSE LIFECYCLE TOOLKIT:
EXPERT
METHODS
FOR
DESING,
DEVELOPING
AND
DEPLOYING
DATAWAREHOUSE. USA: John Wiley & Sons.
92
KIMBALL, Ralph (2008). THE DATAWAREHOUSE LIFECYCLE TOOLKIT:
PRACTICAL
TECHNIQUES
FOR BUILDING DATA WAREHOUSE
AND
BUSINESS INTELLIGENCE SYSTEMS. USA: John Wiley & Sons.
STANLEY M. Davis & Meyer Christopher (2000). BLUR: THE SPEED OF
CHANGE IN THE CONNECTED ECONOMY Addison-Wesley
THOMSEN, Erick (2002). OLAP SOLUTIONS: BUILDING MULTIDIMENSIONAL
INFORMATION SYSTEM. Segunda edición. USA: John Wiley & Sons.
Business Application Research Center (2008) The OLAP Report. Recuperado el
10 de junio de 2009, de http://www.olapreport.com/fasmi.htm
Business Process Improvement (2009) Consult. Recuperado el 19 de junio de
2009, de http://www.grupoconsult.com/tablero_de_control.html
Cavazos E. (2008) Gravitar Información sin Límites. Recuperado el 20 de abril de
2009,
de
http://www.gravitar.biz/index.php/bi/el-costo-de-una-solucion-de-
business-intelligence-parte-1-de-2/
Carlos.
Dataprix.
Recuperado
el
16
de
mayo
de
2009,
de
http://www.dataprix.com/herramientas-para-la-implantaci%C3%B3n-de-unsistema-de-data-warehouse
93
Data.ti. (2008) Herramientas de Query/Reporting y Análisis. Recuperado el 01 de
junio de 2009, de http://www.datati.es/herramientas-de-queryreporting-y-analisis/
HAHCIET. (2009). Revista de Telecomunicaciones. Recuperado el 15 de junio de
2009, de http://www.ahciet.net/actualidad/revista/r.aspx?ids=10796&ids2=21861
Implementando Cubos OLAP. Recuperado el 25 de mayo de 2009, de
http://download.microsoft.com/download/2/d/8/2d83e4ac-89e4-4319-a5c54185d8d264c9/Academia%20BI%20Unidad%205.doc
Jiménez Mariana (2008) Gravitar Información sin Límites. Recuperado el 28 de
junio de 2009, de http://www.gravitar.biz/index.php/bi/pentaho-ejemplo-cubomondrian/
Martinez. O. A. Gestiopolis. Recuperado el 05 de junio de 2009, de
http://www.gestiopolis.com/canales8/ger/olap-online-analytic-processing.htm
Microsoft.(2007) Microsoft Ayuda y Soporte. Recuperado el 8 de junio de 2009, de
http://support.microsoft.com/kb/199132/es
Microsoft (2009). Microsoft TechNet. Recuperado el 05 de julio de 2009, de
http://technet.microsoft.com/es-mx/library/cc966399(en-us).aspx#EDAA
94
Msdn Microsoft Developer Network. Recuperado el 6 de junio de 2009, de
http://msdn.microsoft.com/es-es/library/ms174915.aspx
Msdn Microsoft Developer Network. Recuperado el 10 de junio de 2009, de
http://msdn.microsoft.com/es-es/library/ms174758.aspx
OlapX Software (2005) OlapX®. Recuperado el 29 de junio de 2009, de
http://www.olapxsoftware.com/es/default.asp
Recuperado
el
06
de
junio
de
2009,
de
http://www.itson.mx/dii/jgaxiola/introduccion/eis.html
Pérez S. (2006) Apoyo para la Toma de Decisiones. Recuperado el 15 de abril de
2009, de http://www.edutecne.utn.edu.ar/sistemas-informacion/Data%20MiningDataWarehouse.pdf
Portal Corporation Sybven.(2009). Corporation Sybven. Recuperado el 20 de abril
de
2009,
de
http://www.corporacionsybven.com/portal/index.php?option=com_content&view=ar
ticle&id=198:etl&catid=124:conceptos-teoricos
PriceWaterhouseCoppers.
Intelligence).
(2008).
Recuperado
el
La
12
Inteligencia
de
de
abril
Negocios
de
(Business
2009,
de
http://www.pwc.com/ve/spa/pdf/aseger_200810.pdf
95
Punsalan.D. (2007) Information Management. Recuperado el 15 de abril de 2009,
de
http://informationmanagement.wordpress.com/category/data-
warehousing/page/2/
Reall-Tech (2001). SQL MAX Connections. Recuperado el 14 de abril de 2009, de
http://www.sqlmax.com/dataw1.asp
Sistemas de Información para Ejecutivos, Inteligencia de Negocio y Cuadro de
Mando
Integral.
Recuperado
el
18
de
junio
de
2009,
de
http://isg.enmollina.com/EIS_BI_BSC.pdf
Vlamis Dan. Oracle Technology Network. Recuperado el 04 de julio de 2009, de
http://www.oracle.com/technology/global/lad-es/pub/articles/08jul/o38olap.html?_template=/ocom/print
Wolf C.G (2002). Modelamiento Multidimensional. Recuperado el 20 de abril de
2009, de http://www.inf.udec.cl/~revista/ediciones/edicion4/modmulti.PDF
96
ÍNDICE DE FIGURAS
1.1 Niveles de uso de los datos ............................................................................ 10
1.2 Inteligencia de Negocios ................................................................................. 11
1.3 Conceptos que abarca la Inteligencia de Negocios ........................................ 12
2
2.1 Representación del Rendimiento entre transacciones OLTP y OLAP ........... 23
2.2 Arquitectura de un Datawarehouse ................................................................. 26
2.3 Enterprise Datawarehouse.............................................................................. 29
2.4 Arquitectura Bus ............................................................................................. 31
2.5 Representación de los elementos de la Arquitectura Bus ............................... 33
2.6 Ejemplo del esquema Estrella......................................................................... 42
2.7 Ejemplo del esquema Copo de Nieve ............................................................. 44
3 Capitulo 3
3.1 Representación de un Cubo OLAP ................................................................. 63
3.2 Representación de Niveles de Jerarquía ........................................................ 69
3.3 Representación de las medida........................................................................ 69
97
ÍNDICE DE TABLAS
2.1 Diferencias entre OLTP y OLAP..................................................................... 22
3.1 Diferencias entre MOLAP y ROLAP ............................................................... 69
98
ANEXO I
PRUEBA FASMI
Es utilizada para definir las características de las aplicaciones OLAP de manera
específica y sencilla de recordar, debido a que las reglas de Codd son numerosas
y la prueba “FASMI” representa un resumen de ellas. El concepto fue utilizado por
primera vez en 1995 y aun continua vigente.
"FASMI"
que
se
refieren
a
cinco
palabras;
Fast
Analysis
of
Shared
Multidimensional Information (Análisis rápido de información multidimensional
compartida), que además, son en sí mismas una definición de lo que es el OLAP.
Fast. La primera regla de Codd se refiere a que el sistema debe ser capaz de
responder de una forma rápida y ágil a la información que le sea solicitada por el
usuario, el cual no deberá esperar más de cinco segundos a la hora de resolver
peticiones sencillas y no más de veinte segundos en las peticiones complejas. Las
herramientas deberán, pues, proveer una amplia variedad de técnicas para
cumplir esta regla, tales como almacenamiento especializado de los datos,
precálculos.
Analysis. Significa que el sistema debe poder reflejar cualquier lógica del negocio
para poder responder a las preguntas específicas y necesidades empresariales.
Por ejemplo, deberá permitir generar cálculos 'ad-hoc' sin necesidad de usar una
herramienta de programación específica. Esto no implica que forzosamente deba
proveer la herramienta un entorno para conseguirlo, sino que puede proveer la
integración con productos externos, como una hoja de cálculo.
Shared. El sistema deberá proporcionar herramientas que garanticen la
confidencialidad de los datos, seguridad de acceso por perfiles de los usuarios,
etc. Representa un gran riesgo en los productos OLAP, lo cual constituye una gran
debilidad, por lo cual se debe prestar atención en este aspecto.
Multidimensional. Este es el punto más importante que podría definir como OLAP
en sí mismo. El sistema debe proveer una vista conceptual multidimensional de los
100
datos además de proporcionar soporte a cada una de las múltiples jerarquías que
puedan existir dentro de la organización.
Information. Se refiere a la totalidad de los datos obtenidos y de la información
necesaria para el análisis. La cual nos permitirá la toma de decisiones en nuestra
organización. Mide la capacidad de los productos en términos de la cantidad de
datos de entrada que soporta. Para eso se toman en cuenta diversas
consideraciones como: duplicación de datos, memoria RAM necesaria, espacio en
disco, rendimiento e integración de los datos.
101
Descargar