Introducción Cuando Internet empezó a crecer y la cantidad de información disponible aumentó desmesuradamente, surgió el problema de clasificarla e identificarla de manera eficiente. Partiendo de ese problema, se comenzaron a usar los metadatos, es decir, información relativa a los propios datos que facilitan su catalogación y además proporcionan información semántica asociada. Tipos de Metadatos Existen diversos tipos de metadatos, cada uno con su propio formato para describirlos. Según la información que proporcionen, existen metadatos sobre: el contenido, aspectos formales, derechos de autor y el contexto. Según la función que proporcionan, se pueden clasificar en: Tipo Descriptivos Objetivo Ejemplos Describen e identifican recursos de información. Dublin Core o Permite a los usuarios la búsqueda y recuperación de Etiquetas META la información. de HTML Facilitan la navegación y la presentación de los Estructurales recursos. Proporcionan información sobre la XML y RDF o estructura interna de los documentos, así como la SGML relación entre ellos. Facilitan la gestión de conjuntos de recursos. Incluye Administrativos la gestión de derechos y sobre control de acceso y MOA2 uso. Hay varias iniciativas para tratar de normalizar y estandarizar los metadatos sobre los recursos electrónicos. Quizá el más conocido sea el Dublin Core, creado inicialmente para catalogar y compartir información sobre libros entre bibliotecas estadounidenses, pero que ahora se usa casi en la totalidad de las páginas web existentes en Internet. Existen otros muchos estándares con diferentes niveles de estructuración y de detalle optimizados para el sistema por el fueron creados. Los metadatos pueden almacenarse en una base de datos, normalmente diseñada para tal efecto, o incrustados en la cabecera del propio documento sobre el que añaden información. En el contenido web, por ejemplo, la metainformación sobre una página web suele ir incluida en el propio documento HTML, mientras que otros contenidos como la sindicación de noticias o metadatos sobre archivos multimedia se proporcionan como documentos aparte. Usos de los Metadatos Las aplicaciones son muy amplias. Principalmente se usan para la recuperación de información y para describir y catalogar documentos. Otros usos incluyen la definición de derechos de propiedad intelectual, valoración y evaluación de contenidos, etc. Los principales clientes suelen ser los robots y agentes de los motores de búsqueda. Metainformación en HTML La forma de asignar metainformación a los documentos HTML es mediante las etiquetas <META>. El contenido de estas etiquetas suele ser procesado por robots que operan de forma automática. Los tipos de etiquetas <META> son muy variados, pero se suelen usar principalmente description, que muestra información general sobre la página como su temática o su responsable, y keywords, que contiene las palabras claves significativas, junto con las definidas en el estándar Dublin Core. Especificación de Metadatos Cada elemento <META> especifica una tupla de propiedad junto con su valor. Los principales atributos que tiene son name, content, scheme y http-equiv. El atributo name identifica unívocamente a la propiedad y content le asigna un valor. Se puede de esta forma, por ejemplo, asignar en un mismo documentos metadatos en función del idioma: • <meta name="keywords" lang="en" content="Information Retrieval"> • <meta name="keywords" lang="es" content="Recuperacion Informacion"> El significado de una propiedad y sus valores asignados está asociado a un diccionario llamado perfil. El estándar Dublin Core es un ejemplo de perfil. Algunos autores suelen usar la etiqueta <LINK> en vez de <META> cuando el contenido de la propiedad es una URL a un elemento externo del documento. La etiqueta <LINK> también suele usarse para especificar enlaces a versiones alternativas de un mismo documento (por ejemplo en PDF o en otro idioma) o para enlazar con el índice o los documentos contiguos si semánticamente forma parte de un documento más grande. Por ejemplo, este documento HTML contiene los siguientes metadatos: • <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"/> • <meta name="description" content="Metadatos y documentos XML/RDF para recuperacion"/> • <meta name="keywords" content="recuperación acceso información metadatos rdf xml wiki recuperacion y organizacion de la informacion"/> • <meta name="author" content="Victor Garcia Gonzalez"/> • <meta name="owner" content="Victor Garcia Gonzalez"/> • <meta name="robots" content="index, follow"/> • <meta name="robots" content="ALL,INDEX,FOLLOW,ARCHIVE" /> • <meta name="revisit-after" content="2 days" /> Evolución de los Metadatos Los metadatos en lenguaje HTML usando <META> tiene muchas limitaciones debido principalmente a su ambigüedad y a la cantidad de alternativas existentes. Por ello, en la especificación de HTML 4.01 del W3C, se introdujo el concepto de RDF (Resource Description Framework) para definir metadatos siguiendo una sintaxis similar a XML. Dublín Core: Motivación y Objetivos La iniciativa Dublin Core (DCMI) se creó en 1995 con el propósito de crear estándares que facilitaran la descripción y recuperación de recursos de información. Se creó un conjunto de descriptores que hoy en día es el mas extendido en la Web. Estos metadatos intentan establecer en la red los datos necesarios para describir, identificar y encontrar un documento. Si este estándar se usara mundialmente, se conseguiría que todos las aplicaciones automáticas que intentan indizar la información de Internet, como los buscadores, tendrían toda la información necesaria para manipular los documentos en su propia cabecera, facilitando su indización y provocando una mejora de eficiencia de los motores de búsqueda. La documentación sobre http://es.dublincore.org. Dublin El Core responsable se de encuentra Dublin Core traducida en al España castellano es la en RedIris (http://www.rediris.es/metadata/). Como curiosidad cabe destacar que en septiembre del 2005, se celebró en la Universidad Carlos III de Madrid la Conferencia Internacional sobre el Dublin Core y Aplicaciones de Metadatos (DC-2005). Descripción de Dublin Core El conjunto de elementos de Dublin Core abarca 15 descriptores. Cada elemento es opcional, puede repetirse y aparecer en cualquier orden. Es aconsejable escribir de forma adecuada los nombres de cada metadato, ya que aunque HTML no diferencia mayúsculas o minúsculas, puede provocar conflictos en otros documentos como en SGML o XML. Los elementos de Dublin Core puede clasificarse en 3 categorías según el tipo de información que contengan: • Sobre el contenido del recurso: Etiqueta DC Descripción DC.Title Título. El nombre dado al recurso. DC.Subject Materias y palabras clave. El tema del contenido del recurso. DC.Description Descripción del contenido del recurso. Puede incluir un resumen, una tabla de contenidos, etc. DC.Source Fuente. Referencia al recurso del que deriva el documento actual. DC.Languaje Lengua. El idioma del contenido del recurso. DC.Relation Relación. Una referencia a un recurso relacionado con el contenido. DC.Coverage Cobertura. Ámbito del contenido del recurso. Puede tratarse de un especificación geográfica, temporal o legal. • Sobre la propiedad intelectual del recurso: Etiqueta DC DC.Creator DC.Publisher Descripción Autor. Responsable de la creación del contenido. Puede ser una entidad, una persona o un servicio. Editor. Responsable de que el recurso se encuentre disponible DC.Contributor Colaborador. Responsable de hacer colaboraciones al contenido del recurso. DC.Rights • Derechos. Información sobre los derechos de la propiedad intelectual del recuso, como por ejemplo el copyright. Sobre la instancia del recurso: Etiqueta DC DC.Date DC.Type DC.Format DC.Identifier Descripción Fecha. Fecha asociada a la creación o modificación del recurso. Se suele seguir la notación AAAA-MM-DD. El tipo o categoría del contenido. Palabras clave de un vocabulario que describen la naturaleza del recurso. Formato. Descripción física del recurso, como su tamaño, duración, dimensiones, etc. si son aplicables. Se suelen usar tipos MIME Identificación. Referencia unívoca para el contenido del recurso. Por ejemplo una URL o un ISBN. XML XML surgió como un lenguaje de marcado para sustituir a HTML. Ambos lenguajes son herederos de SGML, el lenguaje de marcas estándar para la descripción formal y de contenido de los documentos, no solamente para la presentación de dichos documentos. HTML era, principalmente, un lenguaje de presentación que definía un conjunto de etiquetas y atributos válidos y que ofrecía un significado visual para cada elemento del lenguaje, por el contrario, XML no define las etiquetas ni cómo se utilizan, sino que ofrece un escaso número de reglas sintácticas para poder crear documentos. Así pues, XML no es un lenguaje, sino un metalenguaje o lenguaje para definir otros lenguajes. XML no sustituye a HTML puesto que sirven para cosas distintas: HTML para presentar la información, y XML para representar e intercambiar datos de forma independiente a su presentación. Los identificadores descriptivos de un documento XML son más homogéneos y tienen una mayor consistencia que, por ejemplo, las etiquetas <META> del lenguaje HTML. XML permite gestionar los datos aunque procedan de diversas fuentes y también permite el intercambio de documentos entre distintas aplicaciones ya estén en un único ordenador o en una red. Como la información en XML está mucho más estructurada, esto facilitará el trabajo a los buscadores y los robots, que accederán a los datos de manera más precisa. RDF RDF o Resource Description Framework, desarrollado por el W3C para la descripción de recursos de la Web, provee un mecanismo para integrar múltiples esquemas de metadatos. En RDF un namespace se define apuntando a un recurso web que describe el esquema de metadatos usado en la descripción. Se pueden definir múltiples espacios de nombre lo que permite que en la descripción de un recurso puedan ser combinados elementos de diferentes esquemas. De esta forma pueden enlazarse a otras múltiples descripciones creadas en diferentes momentos y con propósitos diferentes. Por lo general, RDF utiliza el lenguaje XML. Mientras que XML es un lenguaje para modelar datos, RDF es un lenguaje para especificar metadatos. XML falla en la escalabilidad de los datos puesto que el orden de los elementos es antinatural y su mantenimiento es muy difícil y costoso, por el contrario, RDF permite la interoperabilidad entre aplicaciones que intercambian información comprensible por la página web, para proporcionar una infraestructura que soporte actividades de metadatos. El lenguaje RDF es muy útil en situaciones en las que la información necesita ser procesada por aplicaciones que intercambian información legible por máquina, más que por humanos. RDF también provee una sintaxis basada en XML, llamada RDF/XML, para guardar e intercambiar la información. RSS Una de las aplicaciones más conocidas de RDF y XML es RSS. Se trata de un vocabulario que se usa para describir información de tal manera que puede ser reutilizada. RSS es, actualmente, el acrónimo de Real Simple Syndication, aunque anteriormente lo fue de Rich Site Summary y de RDF Site Summary. Este cambio en la denominación se debe a los distintos estándares existentes: • Rich Site Summary (RSS 0.91, 0.92, 0,94) • RDF Site Summary (RSS 0.9 y 1.0) basado en la especificación RSS 1.0 • Really Simple Syndication (RSS 2.0) que no cumple con la especificación RDF RSS es un formato para distribuir un conjunto de titulares organizados en forma de sumario o índice, llamados canales (channels o feeds), a cuyos contenidos se puede acceder a través de Internet sin necesidad de usar el navegador. Gracias a RSS, el usuario dispone de los titulares actualizados de muchos sitios webs sin que tenga necesidad de conectarse a cada uno de ellos. Muchas webs, sobre todo las que se actualizan constantemente como los blogs y los sitios web de los medios de comunicación, permiten de esta forma el acceso a una enorme cantidad de información de forma automatizada. La versión 2.0 utiliza los elementos obligatorios title (el nombre del canal), link (la URL del sitio correspondiente al canal) y description (frase o sentencia para describir el canal, y añade otros elementos opcionales como: language, copyright, mangingEditor, webMaster, pubDate, lastBuildDate, category, generator, docs, cloud, ttl, image, textinput, skipHours, skipDays, etc. En el pie de esta página hay ejemplos funcionales de RSS 1.0, RSS 2.0, Atom 0.3 y FOAF. Otros En relación con RSS, también hay que destacar una especificación similar llamada Atom que ha sido desarrollada por IBM, Google y otras empresas de hosting y que ha sido muy promocionada por Blogger, empresa que pertenece a Google. El proyecto FOAF (Friend Of A Friend) trata de crear un estándar para documentos que describan a la gente, los enlaces entre ellos y las cosas que hacen. Todo ello usando XML para que sea fácilmente interpretado por software. Técnicamente es vocabulario semántico en RDF/XML. Existe mucha más información y documentos relacionados sobre FOAF en The FOAF Project. SKOS (Simple Knowledge Organization System) es un modelo para sistemas organizados de conocimiento en formato digital. Proporciona las estructuras básicas para representar tesauros, esquemas de clasificación, taxonomías, terminologías, glosarios y otros tipos de vocabularios controlados. El estándar se encuentra en el W3C. Referencias utilizadas Enlaces que han proporcionado la información necesaria para crear el contenido o bien la estructura de esta documentación, para que resulte útil y además salga bien posicionada en los buscadores :) (Espero que Google no me penalice como Link Farm por poner unos cuantos enlaces que de verdad me han resultado útiles). • Hipertexto: El nuevo concepto de documento en la cultura de la imagen. Tesis Doctoral de María Jesús Lamarca Lapuente de la Universidad Complutense de Madrid. • Dublin Core en la RedIris • Tutorial de Posicionamiento de Dirson • Cálculo de PageRank™ • Creador de SiteMaps • Herramientas SEO de OjoBuscador • Google Analytics • Google Sitemaps • Button Maker Enlaces Relacionados • Motores de recuperacion de documentos XML/RDF Y una mención especial en forma de CrossLinking a Erika por su Documentamanía ;)