Metadata: herramienta para la recuperacion de informacion en Internet Informe de participación en el Taller en Tecnología de Redes Internet para América Latina y el Caribe, INET’98, programa "Bibliotecarios en Tecnologías Internet", promovido por la Internet Society, ENRED y Mercosur, realizado entre el 13 y el 18 de julio de 1998 en Rio de Janeiro, Brasil. Metadata: Herramienta para la recuperación de información en Internet Roxana Donoso Universidad de Chile Sistema de información y bibliotecas - SISIB TABLA DE CONTENIDO INTRODUCCIÓN * Qué es metadata * Tipos de metadata * Cómo están organizados los metadatas * Dónde se encuentran los metadatas CREACIÓN DE METADATAS * Formatos * Tipos de formatos DUBLIN CORE * Formato Dublin Core * Características generales * Elementos del formato Dublin Core * Codificación de los elementos del Dublin Core http://www.udea.edu.co/~hlopera/metadata.html (1 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet BÚSQUEDA POR METADATA CONCLUSIÓN DUBLIN CORE Y LA Z39.50 GLOSARIO INTRODUCCIÓN Metadata: Herramienta para la recuperación de información en Internet La enorme cantidad de recursos de información disponibles en Internet, la disparidad en las calidades de los contenidos y la dificultad de encontrar información relevante con cierta rapidez y eficiencia, pusieron de manifiesto la necesidad de establecer una metodología y lenguaje para la descripción de recursos online, con el objetivo principal de hacer más efectiva la recuperación de la información en lnternet. Qué es metadata La literatura especializada define los Metadata o Meta Tags, como "Datos acerca de los datos" o "información acerca de la información" . A través de esta metodología es posible describir el contenido de un recurso de aprendizaje. Otra definición es: información sobre objetos web, comprensible por máquinas. Los metadata proporcionan un buen método para controlar la forma en que los sitios web son indexados por los motores de búsqueda. También mejoran la opción de encontrar páginas con poco texto, como es el caso de sitios construidos con "Frame". Básicamente la descripción por Metadata de recursos de aprendizaje, podría compararse con una lata de conserva, en la cual, a través de la etiqueta exterior de la lata, es posible saber detalles del contenido sin necesidad de abrir la lata. Tipos de metadata Se distinguen principalmente dos tipos de metadatas que pueden ser incorporados en un documento web: · HTTP-EQUIV · META NAME HTTP-EQUIV Indican atributos que poseen un significado especial, para browsers y motores de http://www.udea.edu.co/~hlopera/metadata.html (2 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet búsquedas. A través de los metadatas de¡ tipo Http-Equiv, se pueden especificar instrucciones tales como la fecha de expiración de un sitio, insertar cookies, comandos, actualización periódica de la caché de un browser o comando PICS. Eje: Ejemplos de Meta Tags HTTP-EQUIV: Fecha de Expiración <META http-equiv="Expires" CONTENT="Oct-1998"> Actualización <META http-equiv="refresh" content="0; url=http://www.newurl.com"> Insertar Cookie <META HTTP-EQUIV="Set-Cookie" CONTENT="cookievalue=xxx;expires=Wednesday, 21-Oct-98 16:14:21 GMT; path=/"> Meta Name A través de los Meta Name, es posible describir los contenidos sitio web. Los marcadores de este tipo hacen posible la catalogación de los sitios web. Incluyen un conjunto de pares atributo/valor con los que se especifican diferentes propiedades del documento y donde el atributo corresponde al nombre del campo y el valor al contenido de la misma. Ej.: <META NAME=DC."creator Content Universidad de Chile"> Cómo están organizados los Metadatas Los Metadatas están organizados en categorías o campos. Cada Campo representa una característica del recurso. Cada campo tiene un valor, pero también pueden ser valores múltiples, como por ejemplo colocar las palabras claves en varios idiomas. Campo Autor Título Valor Joe Smith Life Cycle of the Fruit Fly Dónde se encuentran los metadatas Los metadata se codifican en el HEADER de un documento HTML. Para verlo debemos ingresar al código de fuente del sitio, dónde encontrar este código depende del Browser que se está utilizando: El Hyper Text Markup Languaje (HTML) es un lenguaje simple de indicación de formato utilizado para crear documentos en hipertexto que sean portables de una plataforma a otra. Los documentos HTML, son una aplicación de SGML (Standard Generalized Markup Languaje, norma ISO 8879-1986) con semántica genérica que son apropiados para representar información a partir de un amplio espectro de aplicaciones. http://www.udea.edu.co/~hlopera/metadata.html (3 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet HTML es básicamente un fichero de texto ASCII que incluye, además del texto legible en Internet, las instrucciones que definen la presentación del mismo en cuanto a distribución en el espacio de la página y sus atributos estéticos. Los documentos HTML comienzan con una declaración <!DOCTYPE> seguidas por elementos HTML conteniendo un elemento HEAD y luego un elemento BODY: HEAD BODY <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN"> <HTML> <HEAD> <TITLE>Un estudio de la dinámica de poblaciones</TITLE> ... otros elementos del encabezamiento </HEAD> <BODY> ... cuerpo del documento </BODY> </HTML> HEAD: Contiene información sobre el contenido del documento, esta información está dirigida a Browsers y Motores de Búsqueda. BODY: Contiene todo lo que se muestra del documento en la pantalla: texto, imágenes, gráficos, ilustraciones, etc. Todo documento HTML debe comenzar con la declaración <!DOCTYPE> que es necesaria para distinguir la versión del HTML que se está utilizando en la construcción del documento. <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN"> Todo documento debe además incluir el elemento título descriptivo en el HEAD <TITLE>Un estudio de la dinámica de poblaciones</TITLE> Es en este head donde codificaremos los elementos de los metadata CREACIÓN DE METADATA En general, los metadata son creados por sus generadores, existiendo sí la posibilidad de que sean creados en forma automática por motores de búsqueda: Editores (Generación manual) - Autores - Webmaster - Institución Automática (Generación por robot) - UKOLN - SOLF Formatos http://www.udea.edu.co/~hlopera/metadata.html (4 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet La existencia de una ilimitada cantidad de información generada por instituciones académicas disponibles en lnternet, tales como documentos de texto completo, archivos fotográficos y video, bases de datos, etc., han definido diversas necesidades de recuperación. Es así como IMS y otras organizaciones que han generado sus propios formatos, reconocen la necesidad de contar con un equivalente a un registro mínimo de formato MARC. A esto apunta Dublin Core, la inclusión de estos elementos en otros formatos, permitirá que los motores de búsqueda y otras herramientas de recuperación como la Z39.50 puedan ejercer su función indiferentes a los formatos que se hayan utilizado en la descripción del sitio. Tipos de Formatos Muchas instituciones se han dedicado a desarrollar sus formatos de metadata respondiendo a necesidades propias. Entre estos formatos se destaca el uso que están haciendo los centros de investigaciones aeroespaciales y geográficos, pero dentro de los proyectos más conocidos se encuentra: IMS - Instructional Management System - EDUCOM PICS -W3 - W3 Consortium UKOLN El rango de los formatos de Metadata se encuentra en grado de complejidad intermedia entre los sistemas más elementales, como el de los buscadores y formatos más sofisticados como MARC. FORMATO DUBLIN CORE En 1995 OCLC (Online Computer Library Center) y el National Center for Supercomputing Applications (NCSA), convocaron en Dublin, Ohio, a 52 investigadores expertos en el campo de la bibliotecología, ciencias de la computación, codificadores de textos y áreas afines, al Metadata Workshop, con el objetivo hacer un avance en el desarrollo de registros descriptivos de recursos de información on line. Este workshop ha tenido 5 versiones desde 1995, siendo la última en septiembre de 1997 donde se ha formalizado el formato que se describe a continuación. El Dublin Core (Núcleo de Dublin) es un conjunto de 15 elementos propuestos para facilitar la búsqueda de Recursos Electrónicos. Originalmente fue desarrollado para que el autor-generador de un sitio web lo describiera, sin embargo ha atraído la atención de instituciones como museos y bibliotecas, que son por excelencia las autoridades en el tema de la descripción. Características generales Las características que postulan al Dublin Core como un sistema para ser adoptado en la descripción de recursos electrónicos recae en varias categorías: Simpleza El Dublin Core está diseñado para ser utilizado tanto por personas sin conocimientos de catalogación, como por catalogadores con experiencia en el uso de modelos de descripción de recursos tradicionales. ● La mayoría de los 15 elementos que componen Dublin Core, tienen una semántica que puede ser descrita como el equivalente a un registro catalográfico. ● Interoperabilidad Semántica http://www.udea.edu.co/~hlopera/metadata.html (5 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet En el ámbito de Internet, los distintos métodos para describir metadata, interfieren con la capacidad de buscar traspasando los límites de los formatos. Promover el uso de un conjunto de descriptores que ayude a unificar y estandarizar el contenido de los datos, aumenta la posibilidad de interoperabilidad semántica de las disciplinas. Consenso Internacional El consenso internacional sobre la necesidad de mejorar la recuperación de Webs es fundamental para el desarrollo de una infraestructura eficaz para esa recuperación. En la estructuración del Dublin Core han participado activamente países tales como Reino Unido, Australia, Suecia, Dinamarca, Noruega, Finlandia, Alemania, Francia, Tailandia, Japón, Canadá y Estados Unidos. ● Flexibilidad Aunque es motivado inicialmente por la necesidad de la descripción de recursos por los autores-generadores de cada sitio, el Dublin Core tiene suficiente flexibilidad como para codificar adicionalmente, estructuras con semántica más elaboradas que puedan ser aplicadas en la descripción de recursos tradicionales. ● Modularidad de Metadata en el WEB La amplia diversidad de metadata en el Web, requiere de un medioambiente que soporte la coexistencia de muchos desarrollos independientes y la manutención de paquetes de metadata. El Núcleo de Dublin apunta específicamente a la recuperación de recursos, pero se desarrollarán distintos campos para ser utilizados en otros ámbitos, administrativo, judicial, etc. ● Arquitectura de Metadata para el Web El World Wide Web Consortium (W3C) es el foro principal en los estándares para el Web, y ha comenzado recientemente a centrarse en la configuración de una arquitectura de metadata para el Web. El Resource Description Framework o RDF, se está desarrollando para sustentar diversas necesidades de metadata que tienen proveedores y vendedores de información. Los representantes del Núcleo de Dublin están implicados activamente en el desarrollo de esta configuración, aportando la perspectiva de la biblioteca digital, en el desarrollo de esta arquitectura. ● En resumen, podemos decir que Dublin Core es fácil de usar, trabaja sobre cualquier versión de HTML y puede migrar con facilidad a otros formatos de metadata. Elementos del formato Dublin Core Como se mencionó anteriormente los elementos de Dublin Core son 15 y pueden ser agrupados por funcionalidad de la siguiente forma: ● Elementos relacionados principalmente con el contenido del recurso ● Elementos relacionados principalmente con el recurso cuando es visto como una propiedad intelectual ● Elementos relacionados principalmente con la "instantiation" del recurso http://www.udea.edu.co/~hlopera/metadata.html (6 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet Contenido Title Subject Description Source Language Relation Coverage Propiedad intelectual Creator Publisher Contributor Rights Datos fijos Date Type Format Identifier 1. Título. Etiqueta: "Title" El nombre dado a un recurso, en general por el autor o editor. 2. Autor o Creador. Etiqueta: "Creator" Persona u organización responsable de la creación del contenido intelectual del recurso. Por ejemplo: los autores en el caso de documentos escritos, artistas, fotógrafos e ilustradores en el caso de recursos visuales. 3. Materias y Palabras Claves. Etiqueta: "Subject" Los temas del recurso. Generalmente el Subject expresará las palabras claves o frases que describen el tema o contenido del recurso. Se fomenta el uso de vocabularios controlados y de sistemas de clasificación formales. 4. Descripción. Etiqueta: "Description" Descripción textual del contenido de un recurso. Incluye un resumen en el caso de un documento textual o una descripción del contenido en el caso de un documento visual. 5. Editor. Etiqueta: "Publisher" Entidad responsable de que el recurso se encuentre disponible en la red en su formato actual, por ejemplo una empresa editora, un departamento universitario u otro tipo de organización. 6. Otros Colaboradores. Etiqueta: "Contributor" Persona u organización que haya tenido una contribución intelectual significativa en la creación del recurso pero cuyas contribuciones son secundarias en comparación a las de las personas u organizaciones especificadas en la etiqueta "Creator" . Por ejemplo, editor, ilustrador o traductor. 7. Fecha. Etiqueta: "Date" Fecha asociada a la creación o disponibilidad del recurso. Esta fecha no debe confundirse con la etiqueta "Coverage", que sería asociada con el recurso sólo en la medida en que el contenido intelectual está de algún modo relacionado con esa fecha. Recomendamos la utilización de uno de los formatos definidos en el documento "Date and Time Formats", basado en la norma ISO 8601, disponible en el sitio de W3C Technical note, http://www.w3.org/TR/NOTE-datetime. Incluye, entre otras, fechas en el formato YYYY y YYYY-MM-DD. De esta forma la fecha 1994-11-05 correspondería al 5 de Noviembre de 1994. 8. Tipo del Recurso. Etiqueta: "Type" http://www.udea.edu.co/~hlopera/metadata.html (7 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet La categoría del recurso, por ejemplo Home Page, novela, poema, documento de trabajo informe técnico, ensayo, diccionario. Para asegurar la interoperabilidad, "Type" debería ser seleccionado de entre una lista enumerada que actualmente se encuentra en desarrollo en uno de los grupos de trabajo. En http://sunsite.berkeley.edu/Metadata/types.html se puede consultar el estado actual de la discusión en torno a este tema. 9. Formato. Etiqueta: "Format" La etiqueta "format" de un recurso es usado para identificar el software y posiblemente, el hardware que se necesitaría para desplegar u operar el recurso. Para asegurar la interoperabilidad, "format" debería ser seleccionado de entre una lista enumerada que actualmente se encuentra en desarrollo en uno de los grupos de trabajo. 10. Identificador del Recurso. Etiqueta: "Identifier" Secuencia de caracteres usados para identificar unívocamente un recurso. Ejemplos para recursos pueden ser URLs y URNs (cuando estén implementados). Para otros recursos pueden ser usados otros formatos de identificadores, tales como Internacional Standard Book Number - ISBN. 11. Fuente. Etiqueta: "Source" Información sobre un segundo recurso del cual deriva el recurso que está siendo descrito. A pesar de que generalmente se recomienda colocar información del recuso que se está describiendo, este elemento puede contener información de fechas, autor, identificadores, u otros metadatas del segundo recurso si se considera relevante para la recuperación del recurso descrito. Por ejemplo, es posible usar Source con la fecha de 1603 en la descripción de una película filmada en 1996, aunque, en tal caso es preferible usar la etiqueta "relation": "IsBased On" con una referencia a otro recurso cuya descripción contiene el elemento "Date" 1603. 12. Lengua. Etiqueta: "Language" Idioma del contenido intelectual del recurso. Prácticamente el contenido de este campo debería coincidir con los de la RFC 1766, Tags para la identificación de lenguas, http://ds.internic.net/rfc/rfc1766.txt. Ejemplo: en, es, de, fi, ja y zh. 13. Relación. Etiqueta: "Relation" Identificador de un segundo recurso y su relación con el recurso actual. Este elemento permite enlazar los recursos relacionados y las descripciones de los recursos. Por ejemplo: IsVersionOf Incluye la edición de un trabajo IsBasedOn Traducción de un trabajo IsPartOf Capítulo de un libro IsFormatOf Mecanismo de transformación de un conjunto de datos en una imagen Para asegurar la interoperabilidad, "format" debería ser seleccionado de entre una lista enumerada que actualmente se encuentra en desarrollo en uno de los grupos de trabajo. 14. Cobertura. Etiqueta: "Coverage" Características de cobertura espacial y/o temporal del contenido intelectual del recurso. La cobertura http://www.udea.edu.co/~hlopera/metadata.html (8 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet espacial se refiere a una región física (por ejemplo, sector celestial); uso de coordenadas (eje.: longitud y latitud) o nombres de lugares extraídos de una lista controlada. La cobertura temporal se refiere a los períodos que abarca el contenido del recurso, en lugar de a cuando fue creado o puesto disponible en la red. Esto último pertenece a la etiqueta "Date". Se recomienda la utilización del mismo formato de la etiqueta "date" . "Date and Time Formats", basado en la norma ISO 8601, disponible en el sitio de W3C Technical note, http://www.w3.org/TR/NOTE-datetime. 15. Derechos. Etiqueta: "Rights" Mención de los derechos de autor (copyright), un identificador que enlace (URL, por ejemplo) a una nota sobre derechos de autor, a un servicio de gestión de derechos o a un servicio que dará información sobre términos y condiciones de acceso a un recurso. Una especificación formal del elemento Rights se encuentra actualmente en discusión y por lo tanto su uso se considera experimental: http://purl.oclc.org/metadata/dublin_core/workrights.html CODIFICACION DE LOS ELEMENTOS DEL DUBLIN CORE Como habíamos señalado anteriormente, Dublin Core se basa en 15 etiquetas: Title ❍ Creator ❍ Subject ❍ Description ❍ Publisher ❍ Contributor ❍ Date ❍ Type ❍ Format ❍ Identifier ❍ Source ❍ Language ❍ Relation ❍ Coverage ❍ Rights En general antes de comenzar la codificación se debe tener en cuenta lo siguiente: ● Los elementos poseen nombres descriptivos que pretenden transmitir un significado semántico a los mismos, además de una etiqueta formal representada en una palabra, tendiente a hacer más sencilla la especificación sintáctica de los elementos para su codificación. ● Aunque algunos entornos, como HTML, no diferencian entre mayúsculas y minúsculas, es recomendable escribir correctamente cada metadata según su definición para evitar conflictos con ❍ http://www.udea.edu.co/~hlopera/metadata.html (9 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet otros entornos, como XML (Extensible Markup Language): http://www.w3.org/TR/PR-xml Cada elemento es opcional y puede repetirse. Además, los elementos pueden aparecer en cualquier orden. ● Indispensable es en la creación de metadata el uso de esquemas formales y tradicionales en la descripción. Específicamente, Library of Congress Subject Headings (LCSH) para codificación de subjects y otras normas referentes a países, idiomas, etc. A nivel general, una entrada Dublin Core dentro de HTML tiene la siguiente sintaxis: ● <META NAME = "DC.NombreElemento" CONTENT = "VALOR"> donde 'NombreElemento' y 'Valor' se sustituirían respectivamente por uno de los 15 elementos y su valor. Por ejemplo: <META NAME = "DC.Creator" CONTENT = "Universidad de Chile"> La sigla DC, corresponde a la identificación del formato que se está utilizando para la descripción: DC = Dublin Core Luego debemos colocar la etiqueta correspondiente al elemento que deseamos describir: "DC.Creator" El atributo CONTENT se usa para describir el valor del elemento, en el ejemplo, es el autor Universidad de Chile. BÚSQUEDA POR METADATA Existen en la actualidad 100 millones de páginas web disponibles públicamente. Esto ha hecho que se desarrollen diversas estrategias para dar a conocer un web; desde la inscripción en directorios, redes de enlaces y banners. Los Metadata son un buen método para controlar la forma en que un sitio es indexado por los motores de búsqueda. Sin embargo es importante tener en cuenta lo siguiente: Sólo en el 21% de los recursos Internet se está utilizando Metadata para la descripción de los mismos. ● Un total de tres de los motores de búsqueda de uso público utilizan los metadata para construir sus índices: Motor de Búsqueda ¿Soportan Metadata? Altavista SI Excite NO HotBot SI Infoseek SI Lycos NO WebCrawler NO ● http://www.udea.edu.co/~hlopera/metadata.html (10 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet ¿En qué medida mejora la búsqueda el uso de Metadata? La mejora, debido a que elimina la basura y el material irrelevante recuperado a través del análisis del texto completo. Los motores de búsqueda poseen un programa robot llamado spider o crawler, que recorre Internet leyendo los distintos sitios publicados y extrayendo la información necesaria para armar los índice. Los motores como Altavista e Infoseek, utilizan principalmente dos elementos: "Subjects" o "Keywords", para generar los índices de materia y "Description" para elaborar el breve resumen que presenta en la página de resultados. Importante es destacar que aunque los motores recorren permanentemente a través de los enlaces la red para indexar los sitios, es preferible acelerar el proceso, pidiéndole al robot que nos visite, mediante la opción Add URL, que poseen todos los motores. Altavista e Infoseek, darán preferencia a la información suministrada por los Metadata del Header del sitio de no existir esta información, entonces procederán a extraer la descripción de las primeras líneas de la página y los descriptores del análisis del texto completo. Altavista toma el título, luego la descripción con un máximo de dos frases y las "keywords" con un máximo de 1024 caracteres. Por su parte Infoseek indiza el título, la descripción hasta 200 caracteres y las "keywords" con un máximo de 1000 caracteres. CONCLUSIÓN: Metadata es una metodología reciente que requiere la masificación de su uso por parte de los generadores de sitios web y por los motores de búsqueda y directorios. Probablemente se requerirá una instancia nacional que se encargue de estandarizar el uso y los esquemas de recuperación que se utilicen y asegure una catalogación normalizada. La utilización de Metadata es recomendable aunque no asegura posicionamiento alguno en los resultados de la búsqueda. Debemos tener en cuenta el hecho de que no todos lo buscadores los utilizan y que es necesario que importantes directorios de recuperación como Yahoo, deberían incorporarlos en sus formularios de inscripción de sitios. DUBLIN CORE Y LA Z39.50 Se han propuesto mecanismos para el uso del Dublin Core en la búsqueda y recuperación de sitios web en el protocolo Z39.50. En la Versión 3 de Z39.50 existen equivalencias en 9 campos. Para la próxima versión se propone la incorporación de los campos faltantes: Dublin Core Title Creator Subject Description ElementZ39.50 Use Attribute Nombre Valor Title 4 Author 1003 Subject Heading 21 Abstract 662 http://www.udea.edu.co/~hlopera/metadata.html (11 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet Publisher Date Type Identifier Language Contributor Format Source Relation Coverage Rights 1018 Date 30 Material Type 1031 Doc lD 1032 Code Language 54 Other Contributor Nuevo Document format Nuevo Source identifier Nuevo Document relation Nuevo Coverage Nuevo Rights Nuevo La posición final que se adopte, determinará la complejidad de la codificación de los elementos de Dublin Core, pues deberán incorporarse al formato listados de subcampos, compatibles con el formato MARC. Ejemplo: *Creator: - Unqualified - PersonalName -PersonalName-Address -PersonalName-email -PersonalName-Filliation -CorporateName -CorporateName-Address -CorporateName-email Existe a nivel de documento no oficial una propuesta de estructura de calificadores que pueden revisarse en: Dublin Core Qualifers/substructure. GLOSARIO PICS, Plataform Internet Content Selection desarrollado por el W3 Consortium. ● ● ● ● Dirigido en un principio a padres y educadores, con el objeto de ser censurador de contenidos en cuanto a calidad y nivel académico, censura de sitios pornográficos o atentatorios a la moral, privacía y derechos intelectuales. Actúa como un filtro en el motor de búsqueda , separando los contenidos adecuados de los inadecuados Este sistema puede ser aplicado por terceros, como Instituciones que se dediquen a la calificación o por los mismos generadores de sitio. La aplicación de este formato está siendo ampliamente discutido en el Parlamento Europeo, porque para muchos sectores representan un peligro que atentaría contra la libertad que ha fundamentado el espíritu de la Internet. http://www.udea.edu.co/~hlopera/metadata.html (12 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet ● Sistema muy rechazado por los defensores de la llamada "Netiquette" y por los que desean que los casos de sitios inadecuados puedan ser tratados judicialmente y así asentar jurisprudencia. RDF : Resource Description Framework Provee un estándar para la unificación de criterios en los distintos formatos de Metadata, con una convención común entre semántica, sintaxis y estructura. * Semántica. Unifica la definición de la semántica utilizada por los distintos formatos existentes. * Sintaxis. Ordena sistemáticamente los datos para el procesamiento por la máquina, facilitando el intercambio de usos en diferentes aplicaciones. * Estructura: limita formalmente la sintaxis para una representación consistente y unívoca de la semántica. Es una aplicación de XML (Extensible Markup Language) que impone limitaciones estructurales necesarias para proveer métodos de expresión semántica sin ambigüedades, codificación consistente para el intercambio y procesamiento por máquina de Metadata estandarizado, es decir asegurar la interoperabilidad entre aplicaciones de intercambio de información comprensible tanto por humanos como por máquinas en el web. Este estándar permitirá a los usuarios integrar páginas web y archivos locales de forma transparente, y esto facilitará la navegación y la búsqueda de información, independientemente de dónde se encuentre. RDF se aplica en: · Indización de sitios Internet o Intranet · Sistemas de evaluación del contenido, definición de canales de distribución automática de contenidos, firmas digitales, · Recogida de datos de los motores de búsqueda (búsqueda en la Web), catalogación de bibliotecas dígitales y personalización de contenido de otros fabricantes. · RDF también se puede utilizar para describir diferentes tipos de información, como la que se encuentra en sitios Web, en archivos en el escritorio de un usuario, segmentos de correo electrónico o bases de datos ya existentes. XML: Extensible Markup Language. XML es una aplicación de SGML (Standard Generalized Markup Language ISO 8879), desarrollado por W3 Consortium. Es un metalenguaje que permite diseñar un lenguaje de marcación propio para la creación de múltiples clases de documentos. Versión abreviada de SGML, que omite las partes más complejas y menos utilizadas de SGML, con el objetivo de hacer los datos en Internet más fácil de manejar, más descriptivos y más ricos. También tiene el objetivo de desarrollar aplicaciones de Intranet, que son más rápidas e inteligentes al trasladar parte del procesamiento del servidor, al cliente, que la mayoría de las veces no es aprovechado en un 100%. Esto produce que el código de la aplicación en el cliente WWW pueda responder de http://www.udea.edu.co/~hlopera/metadata.html (13 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet manera más rápida en cada teclazo del usuario y que pueda hacer parte del procesamiento de manera local, evitando el viaje de la información de ida y vuelta al servidor. En este lenguaje, los componentes de los documentos son marcados con etiquetas y atributos de la misma manera que en el HTML pero también se pueden inventar etiquetas y atributos propios, que pueden ser compartidos y controlados con un DTD. Además XML contiene funciones que permiten un reciclado de información compartida en múltiples documentos o varias veces en un mismo documento, maneja todos los alfabetos, tomando como base el estándar Unicode. Al contrario de HTML, XML no incluye etiquetas predefinidas, provocando que para poder ver el documento sea necesario escribir una definición de estilo conocida como stylesheet. Las características del diseño de XML son: · Debe ser utilizable en Internet · XML debe soportar una amplia variedad de aplicaciones · XML debe ser compatible con SGML · La escritura de programas que procesen documento XML deben ser de fácil escritura · Las características opcionales en XML deben ser mínimas, idealmente x cero. · Los documentos XML deben ser razonablemente claros y legibles por humanos · El diseño XML debe ser armado rápidamente, además de formal y conciso · Los documentos deben ser fácil de crear · La precisión de las marcas XML es de mínima importancia Para lograr esto, XML redefine algunos valores internos y parámetros de SGML y elimina un largo número de elementos muy complejos y poco utilizados que dificultaban la creación de programas procesadores de los mismos. SGML: Standard Generalized Markup Language SGML es un acrónimo de Standard Generalized Markup Language o Lenguaje Normal Generalizado de Marcación. Es una norma ISO (8879) derivada de una anterior GML desarrollado por IBM. SGML es un meta-lenguaje estándar extremadamente poderoso, diseñado para el procesamiento, archivado e intercambio de documentos electrónicos. Su desarrollo se inició a principios de los 80 y fue publicado por primera vez en 1986. La aplicación más popular del SGML es el HTML, Hyper Text Markup Language, el estándar más utilizado en el Worl Wide Web. El objetivo de SGML es proveer un formato para que cualquier documento escrito en este lenguaje pueda ser visualizado en cualquier equipo de computación, definiendo y estandarizando la estructura del Documento. El SGML también describe una sintaxis con la cual se pueden diseñar otros lenguajes de etiquetado (markup Languages). SGML permite que la estructura de un documento pueda ser definida en base a la relación lógica de sus partes. Esta estructura puede ser validada por una Definición de Tipo de Documento (DTD - Document Type Definition). La norma SGML define la sintaxis del documento y la sintaxis y semántica de DTD. http://www.udea.edu.co/~hlopera/metadata.html (14 de 15) [3/23/2004 8:42:11 AM] Metadata: herramienta para la recuperacion de informacion en Internet W3Consortium Creado para el desarrollo de protocolos comunes que mejoraron la interoperabilidad y promoción en el desarrollo de la World Wide Web. Es un consorcio dirigido conjuntamente por: * Massachusetts Institute of Technology Laboratory for Computer Science (MIT/LCS) en EE.UU., * Institut National de Recherche d'informatique et d'Automatique (INRIA) en Francia * Keio University en Japón. Los servicios que ofrece el consorcio incluyen: una fuente de información sobre la World Wide Web para programadores y usuarios; aplicaciones de códigos de referencia para materializar y promocionar estándares y varias aplicaciones de prototipos y muestras para demostrar la utilidad de la nueva tecnología. Hasta ahora, más de 200 organizaciones son miembros del World Wide Web Consortium. Si desea obtener más información, visite la siguiente dirección: http://www.w3.org/ REGRESAR http://www.udea.edu.co/~hlopera/metadata.html (15 de 15) [3/23/2004 8:42:11 AM]