Asegurando la Calidad del Dato en mi Proyecto de BI Mary Arcia MCTS SQL Server SQL PASS Venezuela maryarcia@hotmail.com Moderador: David Sanchez Gracias a nuestros auspiciadores Database Security as Easy as A-B-C http://www.greensql.com Hardcore Developer and IT Training SQL Server Performance Try PlanExplorer today! http://www.pluralsight.com http://www.sqlsentry.com Próximos SQL Saturday 6 de Diciembre de 2014 https://www.sqlsaturday.com/351/register.aspx 24 de Enero de 2015 https://www.sqlsaturday.com/346/register.aspx 18 de Abril de 2015 https://www.sqlsaturday.com/368/register.aspx 9 de Mayo de 2015 https://www.sqlsaturday.com/373/register.aspx Capítulo Global PASS en Español Reuniones semanales todos los miércoles a las 12PM UTC-5 (Hora de Colombia) https://www.facebook.com/SpanishPASSVC 4 4 Asistencia Técnica Si requiere asistencia durante la sesión debe usar la sección de preguntas que esta en el menú de la derecha. Use el botón de Zoom para ajustar su pantalla al tamaño deseado 5 Escriba sus preguntas en la sección de preguntas que esta en el menú de la derecha Mary es Especialista de Business Intelligence en Grupo de Desarrollo GD, Caracas, Venezuela Lleva +12 años trabajando en proyectos de Business Intelligence y Administracion de Bases de Datos. Colaborador activo de eventos SQL Server para LATAM (IT Woman PASS LATAM, 24 Horas de PASS en español) Coordinador del Cápítulo de PASS en Venezuela. Agenda o Qué es la Calidad del Dato o Cinco estilos de BI que impactan la calidad del dato o Procesos para asegurar la Calidad del Dato o Qué es Data Quality Services o Proyectos de Data Quality Services 7 7 CALIDAD DE DATOS EN BUSINESS INTELLIGENCE Qué es calidad de datos Se refiere a los procesos, técnicas, algoritmos y operaciones encaminados a mejorar la calidad de los datos existentes en las empresas y organizaciones. Según el TDWI Se define como la medida de correspondencia y exactitud entre los datos de un sistema de información y su valor y significado en el mundo real. 9 9 Etapas de Madurez de los datos Conocimiento • Información Consolidada para la toma de decisiones Información • Datos combinados y agregados para responder preguntas sencillas del negocio • Aplicaciones ERP, CRM y otros sistemas que guardan la transaccionabilidad Datos 10 10 Soporte a Decisiones estratégicas Soporte a Operativa Del negocio Problemas de la mala calidad de los datos Calidad de Dato Problema Ejemplo Formato Tenemos un formateo consistente en los estándares? Nro de teléfono: (xxx)-xxx-xxxx, 58+ xxx.xxx.xx.xx, xxx-xxxx Estandarización Son los elementos de dato definidos y se comprenden sus valores? Código de Género: M, F, U, 0, 1, 2 Consistencia Representan los valores lo mismo? Tienen el mismo significado? Consumos representados en Bs, $, reales o pesos Completitud Se encuentra completa toda la data que necesitamos? 20% de los apellidos de los clientes están en blanco, 50% de las direcciones no tienen código postal 11 11 Problemas de la mala calidad de los datos (cont) Calidad de Dato Problema Ejemplo Exactitud Representa la data la realidad exacta? Son las fuentes verificables? Los clientes no se encuentran en las direcciones registradas. Los proveedores listados como activos no lo están desde hace 6 años Validez Se encuentran los valores entre los rangos aceptables? Los límites de crédito de los clientes no corresponden a su perfil Duplicidad Los datos aparecen varias veces? Los clientes Maria Alejandra Pérez y Marialejandra Pérez son lo mismo 12 12 Características de nuestros sistemas de BI … o Datos extraídos de sistemas y aplicaciones dispares. o Único punto de consulta o reporting en la organización. o Información correcta expresada de otra forma. o Reflejo de la realidad de lo que está pasando en la empresa. 13 13 Implementaciones comunes en BI y sus requisitos de calidad de datos o Cuadros de Mando y Tablas de Resultados o Reporting Empresarial o Análisis de Cubos OLAP o Análisis Avanzado-Predictivo o Notificaciones y Alertas 14 14 Por qué prestar atención a la calidad de los datos? o Los datos necesitan estar accesibles y ser agregados para poder consumirse por el BI. Independientemente del formato donde sea que el usuario los necesite o Las acciones que los usuarios emprenden están influenciadas por la precisión de los datos en los informes. o La confianza en los datos es un aspecto crítico entre los equipos de IT y los usuarios de BI La confianza debe ganarse y los datos no son la excepción 15 15 Por qué prestar atención a la calidad de los datos? (Cont) o Los conocimientos empresariales obtenidos a través del BI se convierten en útiles con mayor rapidez. o Los directivos, responsables y usuarios de negocio pueden actuar inmediatamente ante nuevos patrones y tendencias con una granularidad y precisión mas elevada. o Identificar sobrecostes y oportunidades para ahorrar y reducir gastos. o Se incrementa la auditabilidad y visibilidad del dato para futuras revisiones y monitoreo. o El ROI sobre el BI es directo e inmediato. 16 16 Qué podemos hacer para asegurar la calidad de los datos 1. Descubrir Monitorear la calidad de los datos vs los objetivos Implementar los procesos de mejora de calidad 6. Monitorizar 5. Consolidar 4. Match 17 17 Identificar y medir la calidad de los datos 2. Perfilar Definir reglas y objetivos de la calidad de los datos 3. Limpiar Diseñar los procesos de mejora de la calidad de los datos Matcheo de información y estadísticas DEMO Visualizando Datos de mala calidad DATA QUALITY SERVICES Qué es Data Quality Services Data Quality Services (DQS) es una solución basada en el conocimiento de la calidad de datos que permite a los administradores de datos y profesionales de IT la mejora de la calidad de sus datos fácilmente. 20 20 En qué nos apoya Data Quality Services? Conocimiento Limpieza Consolidación Aporte de Valor 21 21 Arquitectura Básica de DQS SERVIDOR CLIENTE DQS_MAIN Data Quality Services Client DQS_PROJECT Componente Integration Services 22 DQS_STAGING 22 BASES DE CONOCIMIENTO Bases de Conocimiento Referencias Externas Reglas de matching Dominios Dominio Reglas y Relaciones Valores Dominios Compuestos Bases de Conocimiento 24 24 DEMO Construyendo una base de conocimiento PROYECTOS DE DQS Proyectos de Matching Creación de Reglas Política de comportamiento del motor DQS 27 Matching Exportación Lógica Difusa Agrega Metadatos Datos que quedan en el modelo SQL Server, Excel, DQS 27 Proyectos de Cleansing Limpieza de datos Partiendo de la Base de Conocimiento 28 Información Extra Sobre las decisiones que toma 28 Base de Conocimiento en la Nube Consumir datos DEMO Reglas y proyectos de matching Resumen o o o o o Qué es la calidad de los datos Implementaciones de BI y sus requisitos de calidad de datos Qué es Data Quality Services Desarrollo de Bases de Conocmiento Proyectos de Data Quality Services 30 30 Conclusiones o Al adoptar un enfoque de calidad de datos en toda la empresa, los estrategas y arquitectos de la solución de BI pueden diseñar e implementar estilos de BI con mucha mayor confianza. o Data Quality Services es una herramienta que permite velar por la integridad de los datos basada en una base de conocimiento diseñada a partir de valores y reglas de negocio y con el propósito de conseguir datos de mayor calidad de una manera fácil e intuitiva para el trabajo en conjunto entre equipo de IT y usuarios de negocio. o El despliegue exitoso de la calidad de datos ayuda a una organización a maximizar los retornos sobre sus inversiones de BI, mediante la mejora de su capacidad para aprovechar el BI impulsando la ventaja competitiva y el liderazgo de mercado. 31 31 Preguntas? A continuación … Patrones de busquedas aceleradas con Lookup entre periodos con Integration Services Expositor: Ricardo Estrada Gracias por participar