información - UPM [Blogs] - Universidad Politécnica de Madrid

Anuncio
Máster en Ciencias y Tecnologías de la Información
Escuela Universitaria de Informática
Universidad Politécnica de Madrid
Asignatura: Gestión de Datos, Información y
Servicios en Innovación
Tema 1:
Estructura y Extracción de Información
Pedro P. Alarcón Cavero
pedrop.alarcon@eui.upm.es
Curso 2014/15
Contenido
Introducción
2.  Datos Estructurados, Semi-Estructurados
3.  Datos No Estructurados
4.  Información/Documentación Científica
1. 
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
2
1
1.1. Introducción:
A. Datos e Información
B. Sistemas de Información
C. Representación del Conocimiento
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
3
A. Datos e Información
—  Planteamiento
Inicial
Sabiduría
Toma de decisiones
CONOCIMIENTO
INFORMACIÓN
DATOS
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
4
2
Datos
—  Datos
◦  Corresponden a hechos o realidades del mundo
real (observables/entendibles por el ser humano)
◦ 
A partir de ellos, intentamos reconstruir la
información del mundo real
◦ 
Son “almacenados” usando un método de
comunicación (por ejemplo: figuras, signos o
lenguajes) en un medio semipermanente de
“registrarlos” (por ejemplo: piedras, papel, soporte
magnético)
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
5
Gestión de Datos, Información y Servicios en Innovación
6
Datos
Base de
datos
2014 © Pedro P. Alarcón
3
Datos
— 
Generalmente, el dato y su interpretación son
recogidos juntos, en los lenguajes naturales. Por
ejemplo:
– 
“Su altura es 175 cm.”
– 
– 
– 
“La altura de Pepe es 175 cm.”
– 
– 
— 
dato: “175”
significado: altura en centímetros (no conocemos el sujeto)
datos: “175”, “Pepe”
significado: altura en centímetros de Pepe (suponemos que Pepe es
una persona pero podría no serlo)
Problema:
– 
– 
Ambigüedades al utilizar el lenguaje natural
Necesario conocer el contexto de los datos/información
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
7
Datos
— 
A veces, los datos son separados de su interpretación
◦ 
Por ejemplo:
– 
– 
◦ 
hora en un reloj
temperatura en un termómetro
Necesario el Conocimiento de la persona e incluso
información extra para analizar los datos y extraer/
interpretar la información correspondiente
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
8
4
Datos
¿Reloj, huevo frito, arte?
Si reloj: requiere
conocimiento en lectura de
la hora y tener visión
espacial
2014 © Pedro P. Alarcón
Reloj: ¿7.30 am o 7.30 pm?
Sin precisión: minuto exacto,
segundos
¿qué día, mes y año?
Requiere conocer como leer
la hora en un reloj analógico
Reloj con tiempo exacto
Precisión: minuto exacto,
segundos
¿qué año?
Requiere conocer cómo
interpretar la hora en el reloj
Gestión de Datos, Información y Servicios en Innovación
9
Datos
—  Los
ordenadores han incrementado más aún la
separación entre datos y su significado:
No se prestan para manipular un lenguaje natural
◦  El coste de almacenamiento puede ser elevado
◦  El coste de computación es elevado
◦ 
dato: valores almacenados en el “ordenador”
información: significado de los datos
—  La
interpretación de los datos es inherente a
los programas/personas que los utilizan
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
10
5
Datos
Matrícula: 0000BBB
Matrícula: 0000AY
Atención al significado semántico de los datos
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
11
Datos
— 
El siguiente dato
Total
150
◦  No nos aporta ninguna información por sí mismo
◦  Si conocemos la consulta asociada:
SELECT SUM(cantidad) total
FROM Pedidos
WHERE nombre=“mesa” AND
fecha > #22/09/11#
–  ¿Podemos afirmar que un total de 150 mesas se han pedido o vendido
en una fecha determinada?
–  Necesitamos información del contexto, en este caso del esquema de
los datos y del dominio de aplicación en los que se basa la consulta
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
12
6
Datos e Información
—  Los
ordenadores han incrementado la separación
entre datos y su significado:
◦ 
◦ 
No se prestan para manipular un lenguaje natural
El coste de almacenamiento es muy elevado
—  Datos:
◦ 
Representación formal de hechos, conceptos o
instrucciones, adecuada para su comunicación,
interpretación y procesamiento por seres humanos o
medios automáticos
—  Información:
◦ 
Significado que los seres humanos damos a los datos
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
13
Datos e Información
—  Si
se almacena o comparte los datos ya
elaborados como información, se proporciona
un conjunto limitado de usos
—  Si se almacena o comparte como raw data y se
proporcionan los metadatos para interpretar y
darles sentido, entonces se permite
◦  Utilizar los datos en múltiples formas, generando
información útil en diferentes configuraciones
◦  Las personas pueden realizar su propio análisis de los
datos, más allá de confiar en una única interpretación
—  Ejemplo
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
14
7
Datos e Información
— 
Recepción no uniforme del mensaje
◦  Por ejemplo, una frase en lenguaje natural puede dar lugar a
diferentes interpretaciones (información) dependiendo:
–  Ambigüedad de la frase o palabras
–  Ruido/interferencias
–  Capacidad cultural/intelectual del emisor para expresar
adecuadamente el mensaje y del receptor para entenderlo (p.e.
conocimiento del idioma o código del mensaje)
–  Estado emocional del emisor y/o el receptor del mensaje
–  Conocimientos sobre el tema o temas (contexto) de la frase
— 
Situación similar al crear programas que generan información.
Además, puede haber errores lógicos de programación a la
hora de recuperar y construir la información.
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
15
Datos, Información y Conocimiento
— 
sabiduría
Planteamiento Inicial
CONOCIMIENTO
INFORMACIÓN
DATOS
— 
Publicaciones relacionadas
◦ 
◦ 
◦ 
◦ 
◦ 
◦ 
Bernstein (2009). The Data-Information-Knowledge-Wisdom Hierarchy and its Antithesis.
Zins (2007). Conceptual Approaches for Defining Data, Information, and Knowledge.
Ahsan (2006). Data, Information, Knowledge, Wisdom: A Doubly Linked Chain?
Boisot (2004). Data Information and Knowledge Have We Got It Rigth?
Bellinger (2004). Data, Information, Knowledge and Wisdom
Parsons (1996). Current Approaches to Handing Imperfect Information in Data and
Knowledge Bases.
◦  Aamodt (1995). Different roles and mutual dependencies of data, information, and knowledgeAn Artificial Intelligence perspective on their integration.
◦  Ackoff (1989). From data to wisdom.
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
16
8
Datos, Información y Conocimiento
—  Definición
2014 © Pedro P. Alarcón
de Dato según la RAE
Gestión de Datos, Información y Servicios en Innovación
17
Datos, Información y Conocimiento
—  Definición
2014 © Pedro P. Alarcón
de Información según la RAE
Gestión de Datos, Información y Servicios en Innovación
18
9
Datos, Información y Conocimiento
—  Definición
2014 © Pedro P. Alarcón
de Conocimiento según la RAE
Gestión de Datos, Información y Servicios en Innovación
19
Datos, Información y Conocimiento
—  Definición
2014 © Pedro P. Alarcón
de Conocer según la RAE
Gestión de Datos, Información y Servicios en Innovación
20
10
Datos, Información y Conocimiento
—  Definición
2014 © Pedro P. Alarcón
de Sabiduría según la RAE
Gestión de Datos, Información y Servicios en Innovación
21
Datos, Información y Conocimiento
—  Definiciones
Grado más alto del conocimiento
Conocimiento profundo en
ciencias, letras o artes
RAE
Sabiduría
Conocimiento
Información
Saber o sabiduría
Entendimiento, inteligencia,
razón natural
Comunicación o adquisición de
conocimientos …
Información sobre algo concreto …
Datos
2014 © Pedro P. Alarcón
Información dispuesta de manera
adecuada para su tratamiento por
ordenador
Gestión de Datos, Información y Servicios en Innovación
22
11
Datos, Información y Conocimiento
—  Datos, Información
y Conocimiento
◦  Conceptos claramente interrelacionados
◦  Su significado y la naturaleza de sus interrelaciones
son objeto de discusión y debate
–  Ejemplos de definiciones en “Conceptual Approaches for
Defining Data, Information, and Knowledge” de Chaim
Zins, 2007 (ver siguiente diapositiva)
–  Cuestiones:
–  2 + 2 = 4
¿es información o conocimiento? ¿o datos?
–  El hombre llegó a la Luna en 1969
¿es información o conocimiento? ¿o datos?
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
23
Datos, Información y Conocimiento
— 
Elsa Barber
◦  Datum: representación de conceptos u otras entidades registradas en algún
medio de una forma adecuada para la comunicación, interpretación o
procesamiento por seres humanos o por sistemas automatizados (Wellisch,
1996)
◦  Información:
–  mensaje utilizado por un emisor para representar uno o más conceptos dentro de un
proceso de comunicación, con la intención de aumentar el conocimiento de los
destinatarios.
–  mensaje contenido en el texto de un documento
◦  Conocimiento: es el saber, adquirido por la experiencia
— 
Shifra Baruchson–Arbib
◦  Datos: estímulos sensoriales que son percibidos a través de los sentidos.
◦  Información: datos que han sido procesados de una forma entendible por el
receptor (Davis & Olson, 1985).
◦  Conocimiento: lo que evalúa y comprende el knower
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
24
12
Datos, Información y Conocimiento
—  De
los datos obtenemos información
—  Con la información generamos conocimiento
—  Datos + información à
◦  Aumenta el conocimiento
—  Datos
+ conocimiento à
◦  Se genera información
—  Información
+ conocimiento à
◦  Incrementa la sabiduría
◦  Ayuda a la toma de decisiones
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
25
Datos, Información y Conocimiento
—  Ejercicio
◦  Dar una definición propia, o basada en otras pero
comentándola, sobre:
–  Dato
–  Datos
–  Información
–  Mensaje
–  Conocimiento
–  Conocimientos
–  Sabiduría
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
26
13
Datos - Formato
— 
Formato de los datos manipulables por ordenador
◦  Texto (diferentes tipos de datos: string, entero, fecha, etc.)
◦  Imagen
◦  Sonido
◦  Vídeo
— 
Los tres últimos tipos dificultan aún más la
interpretación de los datos que llevan implícitos por
parte de los ordenadores
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
27
Datos - Formato
—  Contenedores
de datos
◦  Ficheros (texto, sonido, imagen, video, etc.)
◦  Base de datos (BD)
–  Relacional, jerárquica, objeto-relacional, objetos, NoSql
◦  BD distribuidas
◦  BD federadas (utilización de mediadores)
◦  Páginas web
◦  Web de Datos
◦  Datos Entrelazados
◦  BD Global/Universal
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
28
14
Datos - Tipos
—  Datos
estructurados
–  Los datos se estructuran por medio de tablas, objetos
o ficheros de registros
–  Cada tupla/registro/objeto es conforme con un
esquema
–  El esquema facilita el acceso a los datos
–  El esquema incorpora “cierto” significado semántico
para las personas o programas que utilizan los datos
–  Independencia de los datos? Qué sucede si perdemos
el esquema?
–  Los datos de una BD no son independientes (ejemplo)
–  Dependencia de un software concreto
–  Modelos: relacional, jerárquico, objeto-relacional, OO
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
29
Datos - Tipos
—  Datos semi-estructurados
◦  Algunos datos tienen cierta estructura:
–  Texto; frases, párrafos, secciones, capítulos, etc. (ejemplo: LaTeX)
–  Páginas Web: html
◦  Fuerzan a que los ficheros estén bien formados (cierta
estructura)
◦  Permiten el acceso y manipulación de los datos
◦  Pueden forzar a que los ficheros sean válidos (conformes a
un esquema determinado)
◦  Facilitan la interpretación de los datos, incluyendo etiquetas
◦  Altamente portables, aunque incluyen redundancia (por
ejemplo, un documento xml) (Ejemplo xml)
◦  Se pueden incorporar en bases de datos
◦  Independencia de un software concreto
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
30
15
Datos – Tipos
—  Datos
No Estructurados
◦  No tienen un modelo bien definido para extraer/
acceder a la información que contienen
◦  Consisten en texto, audio, imagen, etc.
◦  Ejemplos: documento msword, email, foto, canción, etc.
◦  Aportan un valor importante al “negocio”
◦  Las empresas disponen de grandes cantidades de datos
no estructurados (volumen creciente)
◦  80-90% de la información en la red y redes
corporativas es no estructurada (Goldman Sachs)
◦  Dificultad para extraer información de ellos
◦  Fundamental disponer de herramientas para extraer la
información que contienen
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
31
B. Sistema de Información
— 
Los edificios se caracterizan por sus partes y sus métodos
de conexión y tienen una estructura bien definida
Imagen tomada de “Component Based Software Engineering” Masato Suzuki
2014 ©Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
32
16
Sistema de Información
— 
De igual forma los sistemas SW se construyen mediante componentes y
conectores, que determinan su estructura (arquitectura)
— 
El sistema de información va más allá del sistema SW, porque incluye personas,
protocolos de actuación, etc.
IGU: Interfaz Gráfico de Usuario
MS: Módulo Supervisor
MC: Módulo Central
IGU
MS
MC
BD
BD: Base de Datos
MS
BD
Componentes
IGU
MC
Arquitectura del sistema
Conectores
2014 ©Pedro P. Alarcón
El componente BD de un SI suele contener datos
estructurados, permitiendo su almacenamiento y acceso
Gestión de Datos, Información y Servicios en Innovación
33
Sistema de Información
—  Sistema
de Información (SI)
◦  Conjunto de procedimientos y datos, herramientas y
equipos, construidos, operados y mantenidos para
recoger, registrar, procesar, almacenar y recuperar
información
◦  Sistema, automatizado o manual, que engloba a
personas, máquinas y/o métodos organizados para
recopilar, procesar, transmitir datos que representan
información
◦  Conjunto de componentes que interaccionan entre sí
para lograr un objetivo común: satisfacer las
necesidades de información de una empresa (Ed. UPC
2006)
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
34
17
Sistema de Información
—  Generación
de Información
Dato
Proceso mental
Información, idea
Fuente: MIS 715 Eaton Fall 2001
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
35
Sistema de Información
—  Características
de la información útil
Fuente: MIS 715 Eaton Fall 2001
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
36
18
Sistema de Información
—  Componentes
de un Sistema de Información
Datos
Entradas que el sistema toma para producir información
Hardware
El ordenador, sus dispositivos periféricos de entrada, salida y
almacenamiento., y equipamientos de comunicación.
Software
Conjunto de instrucciones que dicen al ordenador como tomar los
datos de entrada, cómo procesarlos, cómo generar y mostrar la
información, y cómo almacenar datos e información
Telecomunicaciones
Hardware y Software que facilita la transmisión de texto, imágenes,
sonido y video en forma de datos electrónicos
Personas
Programadores de aplicaciones, administrados de BDs y usuarios,
que se encargan de crear, administrar y gestionar/utilizar el sistema
de información
Procedimientos
Políticas y reglas de funcionamiento de las personas y los programas
para conseguir un procesamiento óptimo y seguro de los datos.
Fuente: MIS 715 Eaton Fall 2001
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
37
Sistema de Información
—  Sistema
de Bases de Datos (SBD)
◦  Sistema cuyo propósito general es registrar y mantener
información coherente
◦  Componentes: datos, hardware, software, usuarios
—  Base
de Datos
◦  Conjunto de datos homogéneo o no, útil para una
organización o persona, almacenado en ordenador/web,
y accesible en tiempo útil, permitiendo realizar
consultas y actualizaciones
— Base de Información
◦  ERP (Enterprise Resource Planning)
◦  Bussines Intelligence
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
38
19
Sistema de Información
—  Modelos
de Bases de Datos
◦  Relacional
◦  Jerárquico
◦  Objeto-Relacional
◦  Orientado a Objetos
◦  NoSql
—  Tipos
de Sistema de Información
◦  De Ayuda a la Toma de Decisiones
◦  Sistemas de Información Gerencial
◦  Sistemas operacionales
◦  Sistemas de Información Geográfica
2014© Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
39
Procesos de carga de datos
ETL: Extract, Transform and Load
Datos/información
origen
Extracción
de datos
manual /
automática
Carga de
datos
Base de
datos
..
.
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
40
20
Procesos de carga de datos
Datos/información
origen
ETL: Extract, Transform and Load
Extracción
de datos
manual /
automática
Carga de
datos
Transformación
de datos
BD / DW
Base de
datos
..
.
2013 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
41
Big Data
—  De
moda
—  Desconocimiento, confusión
—  No hay consenso en la definición
“Volumen masivo de datos, tanto estructurados como
no-estructurados, los cuales son demasiado grandes
y difíciles de procesar con las bases de datos y el
software tradicionales" (ONU, 2012)
2013 ©Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
42
21
Big Data
Advanced Performance Institute
2014 ©Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
43
Big Data
Advanced Performance Institute
2014 ©Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
44
22
Big Data
Today’s Challenge
New Data
What’s Possible
Healthcare
Expensive office visits
Remote patient monitoring
Preventive care, reduced
hospitalization, epidemiological
studies
Manufacturing
In-person support
Product sensors
Automated & Predictive diagnosis,
support
Location-Based Services
Based on home zip code
Real time location data
Geo-advertising, personalized
notifications and search
Retail
One-size-fits-all marketing
Social media
Sentiment analysis segmentation
Utilities
Complex distribution grid
Detailed consumption
statistics
Increased availability, reduces cost,
tiered metering plans
Being a Data Scientist with Oracle Big Data. Tang Tao, Oracle University 2013
2014 ©Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
45
C. Representación del Conocimiento
—  Objetivo
◦  Facilitar la inferencia (deducir conclusiones) a partir
del conocimiento representado en forma de datos,
metadatos y reglas
—  Nos
centraremos en
◦  Ontologías
◦  Web semántica (Linked Data)
◦  Lenguajes
–  RDF (Resource Description Framework)
–  RDF Schema
–  OWL (Web Ontology Language)
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
46
23
Ontologías
— 
Una ontología es una especificación formal y explícita
de una conceptualización compartida o consensuada
[Studer 98]
◦  formal: entendible por la máquina
◦  especificación explícita: se definen explícitamente los
conceptos, propiedades, relaciones, funciones, restricciones
y axiomas
◦  conceptualización: modelo abstracto de algo
— 
Útiles cuando la información de los documentos
requiere ser procesada por aplicaciones, no solo para
ser presentada en la web
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
47
Ontologías
—  Estructura
◦  Clases/conceptos
◦  Instancias/Individuos
◦  Atributos/slots
◦  Relaciones entre los diferentes componentes de la
ontología
◦  Restricciones sobre los atributos como tipo y
cardinalidad
◦  Axiomas: aserciones o reglas
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
48
24
Web Semántica
— 
— 
Web dotada de mayor significado
Infraestructura basada en metadatos (ontologías)
◦  Aporta un camino para razonar en la Web
— 
Información mejor definida
◦  Mayor simplicidad y rapidez en encontrar las respuestas a las
preguntas de los usuarios
— 
— 
Origen de Linked Data
Se apoya en lenguajes definidos por el w3c
◦  RDF
–  Resource Description Framework
–  Información descriptiva (metadatos) sobre los recursos en web
◦  OWL
–  Ontology Web Language
–  Lenguaje para definir ontologías estructuradas
◦  SPARQL
–  Lenguaje de consulta sobre RDF y OWL
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
49
Lenguajes
— 
◦  Provee de más vocabulario para describir
propiedades y clases, como: relaciones entre
clases, cardinalidad, equivalencia, y
características de las propiedades
OWL
SPARQL
RDF Schema
— 
RDF Schema
◦  Vocabulario para describir propiedades y
clases de recursos RDF
◦  Semántica para la generalización de jerarquías
de las propiedades de clases
RDF
— 
XML Schema
— 
XML
— 
RDF
◦  Modelo de datos para objetos (recursos) y
relaciones entre ellos
◦  Capacidad de expresar cierta semántica
XML-Schema
◦  Aporta estructura a XML
◦  Proporciona tipos de datos
XQuery
2014 © Pedro P. Alarcón
OWL
XML
◦  Datos semi-estructurados
◦  Sin información semántica
Gestión de Datos, Información y Servicios en Innovación
50
25
XML
— 
XML: eXtensible Markup Language
◦  Recomendación del w3c
◦  Estándar de facto para definir, crear, validar, compartir y
publicar documentos con información, mediante marcas o
etiquetas con significado
◦  Estructura de árbol
<?xml version="1.0" encoding="UTF-8"?>
<libreta>
<!-- Primera persona de la libreta -->
<contacto>
<nombre>Pedro</nombre>
<tfno>913333333</tfno>
<tfno>915555555</tfno>
</contacto>
<!– Segunda persona de la libreta -->
<contacto>
<nombre>Angel</nombre>
<tfno>913333355</tfno>
</contacto>
</libreta>
2014 © Pedro P. Alarcón
libreta
contacto
contacto
nombre
tfno
tfno
nombre
Pedro
913333333
915555555
Angel
tfno
913333355
Gestión de Datos, Información y Servicios en Innovación
51
XML Schema
— 
Lenguaje XML para definir y restringir el contenido
de documentos XML
libreta.xsd
<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xs:element name="libreta">
<xs:complexType>
<xs:sequence maxOccurs="unbounded">
<xs:element ref="contacto"/>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:element name="contacto">
<xs:complexType>
<xs:sequence>
<xs:element ref="nombre"/>
<xs:element ref="tfno" maxOccurs="unbounded"/>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:element name="nombre" type="xs:string"/>
<xs:element name="tfno" type="xs:string"/>
</xs:schema>
2014 © Pedro P. Alarcón
<?xml version="1.0" encoding="UTF-8"?>
<libreta xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="libreta.xsd">
<!-- Primera persona de la libreta -->
<contacto>
<nombre>Pedro</nombre>
<tfno>913333333</tfno>
<tfno>915555555</tfno>
</contacto>
<!– Segunda persona de la libreta -->
<contacto>
<nombre>Angel</nombre>
<tfno>913333355</tfno>
</contacto>
</libreta>
Gestión de Datos, Información y Servicios en Innovación
52
26
RDF
—  Resource
Description Framework
—  Basado en XML
—  Define ontologías
—  Información descriptiva (metadatos) sobre los
recursos en web
—  Tripletas: sujeto, predicado, valor
—  Documento RDF como grafo
–  Nodos: recursos o valores
–  Arcos: propiedades
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
53
RDF
— 
Ejemplo
◦  Afirmaciones (combinación de sujeto, predicado, objeto)
–  El profesor del recurso www.eui.upm.es/MI/profes/1 tiene por nombre Pedro, email
pedrop.alarcon@eui.upm.es y tiene el título de Doctor
–  El profesor del recurso www.eui.upm.es/MI/profes/2 tiene por nombre Angel, email
aarroyo@eui.upm.es y tiene el título de Doctor
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:profesor="http://eui.upm.es/masterinvestigacion/gdisi/profes/">
<rdf:Description rdf:about="www.eui.upm.es/MI/profes/1">
<profesor:nombre>Pedro</profesor:nombre>
<profesoremail rdf:resource="mailto:pedrop.alarcon@eui.upm.es"/>
<profesor:titulo>Dr.</profesor:titulo>
</rdf:Description>
<rdf:Description rdf:about="www.eui.upm.es/MI/profes/2">
<profesor:nombre>Angel</profesor:nombre>
<profesor:email rdf:resource="mailto:aarroyo@eui.upm.es"/>
<profesor:titulo>Dr.</profesor:titulo>
</rdf:Description>
</rdf:RDF>
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
54
27
RDF
Sujeto
Recurso
Recurso
Predicado
Objeto
propiedad
Valor
propiedad
Recurso
Grafo obtenido con el validador de RDF: http://www.w3.org/RDF/Validator/direct
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
55
RDF Schema
— 
— 
— 
Lenguaje de definición de vocabularios RDF
Extensión semántica de RDF
rdf:subClassOf
Pueden definirse
◦  Clases y propiedades
◦  Jerarquías y herencia entre clases
◦  Jerarquías de propiedades
Asignatura
rdf:subClassOf
GradoIS
MasterCTC
rdf:type
rdf:type
gdisi
6
agi
http://www.asignaturaseui.es/tieneAlumnos
<rdf:RDF xmlns:rdf= “http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:s="http://www.asignaturaseui.es/">
<rdf:Description rdf:ID=“gdisi">
<s:tieneAlumnos>6</s:tieneAlumnos>
<rdf:type resource="#MasterCTC " />
</rdf:Description>
<rdf:Description rdf:ID=“agi"><rdf:type rdf:resource="#GradoIS" /></rdf:Description>
<rdf:Description rdf:ID=“MasterCTC"> <rdf:subClassOf rdf:resource="#Asignatura"/></rdf:Description>
<rdf:Description rdf:ID=“GradoIS"><rdf:subClassOf rdf:resource="# Asignatura" /></rdf:Description>
<rdf:Description rdf:ID=“Asignatura" />
</rdf:RDF>
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
56
28
OWL
—  Ontology Web
Language
—  Lenguaje para publicar y compartir datos
usando ontologías en la Web
—  Extiende RDF
◦  Incluye propiedades que permiten restringir las
instancias de una clase
◦  Permite restringir los valores de una clase
◦  Facilita expresar ciertas propiedades de las clases
◦  Se puede especificar el número de elementos que
participan en una relación
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
57
OWL
—  Ejemplo
<rdf:RDF
xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:rdfs=“http://www.w3.org/2000/01/rdf-schema#”
xmlns:owl=“http://www.w3.org/2002/07/owl#”
xmlns:dc="http://purl.org/dc/elements/1.1/">
<!-- OWL Header Example -->
<owl:Ontology rdf:about="http://www.linkeddatatools.com/plants">
<dc:title>The LinkedDataTools.com Example Plant Ontology</dc:title>
<dc:description>An example ontology</dc:description>
</owl:Ontology>
<!-- OWL Class Definition Example -->
<owl:Class rdf:about="http://www.linkeddatatools.com/plants#planttype">
<rdfs:label>The plant type</rdfs:label>
<rdfs:comment>The class of plant types.</rdfs:comment>
</owl:Class>
</rdf:RDF>
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
58
29
XQuery
Lenguaje de consulta para contenidos XML
—  Mantiene cierta analogía con SQL
—  Ejemplo
— 
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE libros SYSTEM "libros.dtd">
<libros>
<libro id="1">
<titulo>El Secreto</titulo>
<autor>Rhonda Byrne</autor>
<año>2007</año>
<precio>22.50</precio>
</libro>
<libro id="2">
<titulo>Indignaos</titulo>
<autor>Stephane Hessel</autor>
<autor>Jose Luis Sampedro</autor>
<año>2011</año>
<precio>15</precio>
</libro>
</libros>
2014 © Pedro P. Alarcón
Consulta Xquery:
for $x in /libros/libro
let $tit :=$x/titulo
where $x/precio>20
order by $x/autor
Return <tituloLibro>{$tit}</tituloLibro>
Resultado:
<tituloLibro>
<titulo>El Secreto</titulo>
</ tituloLibro >
Gestión de Datos, Información y Servicios en Innovación
59
SPARQL
—  Lenguaje
de consulta de contenidos RDF
—  Sintaxis con cierto parecido a SQL
—  Ejemplo
◦  SELECT ?nom ?ape
WHERE
{ ?x :nombre ?nom.
?x :apellido ?ape.
?x rdf:type :Empleado.
?x :año_nac ?y.
FILTER (?y >= “1980").}
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
60
30
Linked Data
— 
Web de documentos enlazados
◦  Enlaza documentos
◦  Diseñado para humanos
Fuente: Tom Heath, Talis, 2009
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
61
Linked Data
— 
Silos de datos en la Web
◦  Generan documentos independientes
Fuente: Tom Heath, Talis, 2009
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
62
31
Linked Data
— 
Web de datos enlazados
◦  Enlaza “cosas” (o descripciones de cosas), no documentos
◦  Orientado a las máquinas, no a las personas
Fuente: Tom Heath, Talis, 2009
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
63
Linked Data
—  Base
de datos “global”
Datos en la Web
Expuestos como RDF
Enlazados con otros datos
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
64
32
Linked Data
—  Tipo
de información emergente
—  Open Linking Data. Data Sets
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
65
Linked Data
—  Open
Linking Data. Data Sets
2014 © Pedro P. Alarcón
Gestión de Datos, Información y Servicios en Innovación
66
33
Descargar