Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE DATOS desde todos los lados 1 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Datos – Datos registrados, que >enen un significado implícito, sobre fenómenos del mundo real – Por lo general representan valores (números, caracteres) variables (cualita>va o cuan>ta>va) – Se u>liza para transmi>r, almacenar y deducir información 2 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • metaDados – Facilitan la comprensión de las relaciones y la u>lidad de la información de datos Qtulo Central do Brasil director Walter Sales Fernanda Montenegro actriz principal 3 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE dato Valor sin un significado explícito información conocimiento 4 Significado asociado o deducido de un conjunto de datos y asociaciones entre elles Información adicional extraída de los datos o de expertos del dominio de aplicación Integración de Datos ABSTRACCIÓN Bernade1e Lóscio/CIn-­‐UFPE 5 conocimiento información dato Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE dato 8.848 La altura del monte Everest es 8.848m información conocimiento Monte Everest es la montaña más alta de la superficie de la Tierra y mide 8.848m 6 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE Proceso de información para generar conocimiento Procesar los datos para generar información conocimiento información dato Es interés común de las organizaciones públicas y privadas 7 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE ¿Cuáles son las fuentes de datos? 8 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Datos – Los datos pueden ser almacenados en • Fuentes de datos privadas -­‐ disponibles en las organizaciones • Fuentes de datos públicas -­‐ disponibles en la Web 9 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Datos – Pueden tener formatos diferentes • Datos estructurados (por ejemplo, bases de datos relacionales) • Datos semi-­‐estructurados (por ejemplo, documentos XML) • Datos no estructurados (por ejemplo, documentos de texto) 10 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Datos estructurados – Los datos de los sistemas transaccionales – Los datos almacenados en bases de datos relacionales – Tienen una estructura fija y bien definida (esquema de base de datos) • Esquema predefinido • Todos los datos de acuerdo con el esquema 11 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE Tabla de Géneros Tabla de Autores cod cod_autor autor_1 ano 1936 cod_género L01 título Mar Muerto L02 El Camino hacia el Mar autor_1 1938 L03 El mundo de la Paz autor_1 1951 género_3 1930 género_1 1977 género_1 L04 El Quince L05 Tieta de Agreste autor_2 autor_1 género_1 género_2 Tabla relacional - Libros 12 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE Dados • Datos semi-­‐estructurados – Ausencia de una estructura regular, o la estructura puede evolucionar impredecible – Los datos pueden estar incompletos – Estructura irregular (datos heterogéneos) – Los >pos son sólo indica>vos – La estructura puede ser implícita – Los datos en la Web 13 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE <?xml version="1.0" encoding="ug-­‐8"?> <livraria> <livro id="L01" ano="1936"> <autor> Jorge Amado </autor> <>tulo>Mar Morto</>tulo> </livro> <livro id="L04" ano="1930"> <autor> <nome>Rachel</nome > <sobrenome>de Queiroz</sobrenome > </autor> <>tulo>O Quinze</>tulo> <genero> Romance </genero> </livro> </livraria> 14 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Datos no-­‐estructurados – Falta de estructura – Los datos que no han sido "tratado" o modelo – Los datos almacenados en archivos o documentos 15 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE … no-­‐estructurados Islas de … estructurados 16 datos … semi-­‐estructurados Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Integración dos Datos – Presentación de una visión uniforme y coherente de los datos – Iden>ficación de los datos complementarios y redundantes – Resolución de inconsistencias 17 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE ¿Cómo integrar? ¿Cómo ofrecer una visión global de datos distribuidos a través de fuentes de datos heterogéneas y autónomas? resumen de los datos Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE Tipos de heterogeneidad Diferentes estructuras SintácGco Estructural Terminología Significados diferentes 19 SemánGca Modelos diferentes Nombres diferentes Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE esquema de integración vision integrada mapeamentos esquema esquema local local mismo modelo de datos esquema local Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Arquitecturas de Integración – Mediadores – Datawarehouse – P2P – Enfoque pay-­‐as-­‐you-­‐go 21 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE aplicación Arquitectura mediadores consultas mediador sub-consultas traductor datos traductor traductor Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE Arquitetura de data warehouse aplicación consultas Data warehouse datos atualizaciones Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE Arquitectura P2P Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE traductor traductor traductor foco pay-­‐as-­‐you-­‐go mediador aplicación mediador mediador traductor traductor traductor traductor traductor traductor Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Arquitecturas de integración – La elección de la arquitectura depende de algunos factores: • La can>dad de fuentes de datos para ser integrado • La frecuencia de actualización fuentes • La infraestructura de comunicación • …s 26 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Arquitecturas de integración – La elección de la arquitectura responde a algunas preguntas: • ¿La integración de datos se materializará o virtual? • ¿Se u>liza un esquema de integración único o múl>ples esquemas? • ¿Puede definir asignaciones entre las fuentes de datos o simplemente entre las fuentes y el esquema de integración? 27 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE DesaPo Proporcionar interoperabilidad entre las fuentes de datos 28 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE • Interoperabilidad – Una solución de integración de datos debe proporcionar: • Interoperabilidad sintác>ca: la adopción de un modelo de datos común • Interoperabilidad estructural: las asignaciones definen • Interoperabilidad semán>ca: el uso de vocabularios La interoperabilidad es la capacidad de un sistema (o no) para comunicar de forma homogénea (o tan cerca de ella) con otro sistema (similar o no) 29 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE Web SemánGca y Linked Data – Proporcionan soluciones y tecnologías apropiadas para resolver el problema de la integración de datos – Modelo de datos flexible para la representación de datos en la Web – Ontologías ayudar a resolver el problema de la heterogeneidad semánGca 30 Integración de Datos Bernade1e Lóscio/CIn-­‐UFPE 31 Conclusiones