Metadata: herramienta para la recuperacion de

Anuncio
Metadata: herramienta para la recuperacion de informacion en Internet
Informe de participación en el
Taller en Tecnología de Redes Internet
para América Latina y el Caribe, INET’98,
programa "Bibliotecarios en Tecnologías Internet",
promovido por la Internet Society, ENRED y Mercosur,
realizado entre el 13 y el 18 de julio de 1998
en Rio de Janeiro, Brasil.
Metadata:
Herramienta para la recuperación
de información en Internet
Roxana Donoso
Universidad de Chile
Sistema de información y bibliotecas - SISIB
TABLA DE CONTENIDO
INTRODUCCIÓN
* Qué es metadata
* Tipos de metadata
* Cómo están organizados los metadatas
* Dónde se encuentran los metadatas
CREACIÓN DE METADATAS
* Formatos
* Tipos de formatos
DUBLIN CORE
* Formato Dublin Core
* Características generales
* Elementos del formato Dublin Core
* Codificación de los elementos del Dublin Core
http://www.udea.edu.co/~hlopera/metadata.html (1 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
BÚSQUEDA POR METADATA
CONCLUSIÓN
DUBLIN CORE Y LA Z39.50
GLOSARIO
INTRODUCCIÓN
Metadata: Herramienta para la recuperación de información en Internet
La enorme cantidad de recursos de información disponibles en Internet, la disparidad en las calidades de
los contenidos y la dificultad de encontrar información relevante con cierta rapidez y eficiencia, pusieron
de manifiesto la necesidad de establecer una metodología y lenguaje para la descripción de recursos
online, con el objetivo principal de hacer más efectiva la recuperación de la información en lnternet.
Qué es metadata
La literatura especializada define los Metadata o Meta Tags, como "Datos acerca de los datos" o
"información acerca de la información" . A través de esta metodología es posible describir el contenido
de un recurso de aprendizaje. Otra definición es: información sobre objetos web, comprensible por
máquinas.
Los metadata proporcionan un buen método para controlar la forma en que los sitios web son indexados
por los motores de búsqueda. También mejoran la opción de encontrar páginas con poco texto, como es
el caso de sitios construidos con "Frame".
Básicamente la descripción por Metadata de recursos de aprendizaje, podría compararse con una lata de
conserva, en la cual, a través de la etiqueta exterior de la lata, es posible saber detalles del contenido sin
necesidad de abrir la lata.
Tipos de metadata
Se distinguen principalmente dos tipos de metadatas que pueden ser incorporados en un documento web:
· HTTP-EQUIV
· META NAME
HTTP-EQUIV
Indican atributos que poseen un significado especial, para browsers y motores de
http://www.udea.edu.co/~hlopera/metadata.html (2 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
búsquedas. A través de los metadatas de¡ tipo Http-Equiv, se pueden especificar
instrucciones tales como la fecha de expiración de un sitio, insertar cookies, comandos,
actualización periódica de la caché de un browser o comando PICS. Eje:
Ejemplos de Meta Tags HTTP-EQUIV:
Fecha de Expiración
<META http-equiv="Expires" CONTENT="Oct-1998">
Actualización <META http-equiv="refresh" content="0; url=http://www.newurl.com">
Insertar Cookie
<META HTTP-EQUIV="Set-Cookie"
CONTENT="cookievalue=xxx;expires=Wednesday, 21-Oct-98
16:14:21 GMT; path=/">
Meta Name
A través de los Meta Name, es posible describir los contenidos sitio web. Los marcadores de este tipo
hacen posible la catalogación de los sitios web.
Incluyen un conjunto de pares atributo/valor con los que se especifican diferentes propiedades del
documento y donde el atributo corresponde al nombre del campo y el valor al contenido de la misma.
Ej.:
<META NAME=DC."creator Content Universidad de Chile">
Cómo están organizados los Metadatas
Los Metadatas están organizados en categorías o campos. Cada Campo representa una característica del
recurso. Cada campo tiene un valor, pero también pueden ser valores múltiples, como por ejemplo
colocar las palabras claves en varios idiomas.
Campo
Autor
Título
Valor
Joe Smith
Life Cycle of the Fruit Fly
Dónde se encuentran los metadatas
Los metadata se codifican en el HEADER de un documento HTML. Para verlo debemos ingresar al
código de fuente del sitio, dónde encontrar este código depende del Browser que se está utilizando:
El Hyper Text Markup Languaje (HTML) es un lenguaje simple de indicación de formato utilizado para
crear documentos en hipertexto que sean portables de una plataforma a otra. Los documentos HTML,
son una aplicación de SGML (Standard Generalized Markup Languaje, norma ISO 8879-1986) con
semántica genérica que son apropiados para representar información a partir de un amplio espectro de
aplicaciones.
http://www.udea.edu.co/~hlopera/metadata.html (3 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
HTML es básicamente un fichero de texto ASCII que incluye, además del texto legible en Internet, las
instrucciones que definen la presentación del mismo en cuanto a distribución en el espacio de la página y
sus atributos estéticos.
Los documentos HTML comienzan con una declaración <!DOCTYPE> seguidas por elementos HTML
conteniendo un elemento HEAD y luego un elemento BODY:
HEAD
BODY
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
<HTML>
<HEAD>
<TITLE>Un estudio de la dinámica de poblaciones</TITLE>
... otros elementos del encabezamiento
</HEAD>
<BODY>
... cuerpo del documento
</BODY>
</HTML>
HEAD: Contiene información sobre el contenido del documento, esta información está
dirigida a Browsers y Motores de Búsqueda.
BODY: Contiene todo lo que se muestra del documento en la pantalla: texto, imágenes, gráficos,
ilustraciones, etc.
Todo documento HTML debe comenzar con la declaración <!DOCTYPE> que es necesaria para
distinguir la versión del HTML que se está utilizando en la construcción del documento.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
Todo documento debe además incluir el elemento título descriptivo en el HEAD
<TITLE>Un estudio de la dinámica de poblaciones</TITLE>
Es en este head donde codificaremos los elementos de los metadata
CREACIÓN DE METADATA
En general, los metadata son creados por sus generadores, existiendo sí la posibilidad de que sean
creados en forma automática por motores de búsqueda:
Editores
(Generación manual)
- Autores
- Webmaster
- Institución
Automática
(Generación por robot)
- UKOLN
- SOLF
Formatos
http://www.udea.edu.co/~hlopera/metadata.html (4 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
La existencia de una ilimitada cantidad de información generada por instituciones académicas
disponibles en lnternet, tales como documentos de texto completo, archivos fotográficos y video, bases
de datos, etc., han definido diversas necesidades de recuperación. Es así como IMS y otras
organizaciones que han generado sus propios formatos, reconocen la necesidad de contar con un
equivalente a un registro mínimo de formato MARC. A esto apunta Dublin Core, la inclusión de estos
elementos en otros formatos, permitirá que los motores de búsqueda y otras herramientas de recuperación
como la Z39.50 puedan ejercer su función indiferentes a los formatos que se hayan utilizado en la
descripción del sitio.
Tipos de Formatos
Muchas instituciones se han dedicado a desarrollar sus formatos de metadata respondiendo a necesidades
propias. Entre estos formatos se destaca el uso que están haciendo los centros de investigaciones
aeroespaciales y geográficos, pero dentro de los proyectos más conocidos se encuentra:
IMS - Instructional Management System - EDUCOM
PICS -W3 - W3 Consortium
UKOLN
El rango de los formatos de Metadata se encuentra en grado de complejidad intermedia entre los sistemas
más elementales, como el de los buscadores y formatos más sofisticados como MARC.
FORMATO DUBLIN CORE
En 1995 OCLC (Online Computer Library Center) y el National Center for Supercomputing
Applications (NCSA), convocaron en Dublin, Ohio, a 52 investigadores expertos en el campo de la
bibliotecología, ciencias de la computación, codificadores de textos y áreas afines, al Metadata
Workshop, con el objetivo hacer un avance en el desarrollo de registros descriptivos de recursos de
información on line. Este workshop ha tenido 5 versiones desde 1995, siendo la última en septiembre de
1997 donde se ha formalizado el formato que se describe a continuación.
El Dublin Core (Núcleo de Dublin) es un conjunto de 15 elementos propuestos para facilitar la búsqueda
de Recursos Electrónicos. Originalmente fue desarrollado para que el autor-generador de un sitio web lo
describiera, sin embargo ha atraído la atención de instituciones como museos y bibliotecas, que son por
excelencia las autoridades en el tema de la descripción.
Características generales
Las características que postulan al Dublin Core como un sistema para ser adoptado en la descripción de
recursos electrónicos recae en varias categorías:
Simpleza
El Dublin Core está diseñado para ser utilizado tanto por personas sin conocimientos de catalogación,
como por catalogadores con experiencia en el uso de modelos de descripción de recursos tradicionales.
●
La mayoría de los 15 elementos que componen Dublin Core, tienen una semántica que puede ser descrita
como el equivalente a un registro catalográfico.
●
Interoperabilidad Semántica
http://www.udea.edu.co/~hlopera/metadata.html (5 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
En el ámbito de Internet, los distintos métodos para describir metadata, interfieren con la capacidad de
buscar traspasando los límites de los formatos. Promover el uso de un conjunto de descriptores que
ayude a unificar y estandarizar el contenido de los datos, aumenta la posibilidad de interoperabilidad
semántica de las disciplinas.
Consenso Internacional
El consenso internacional sobre la necesidad de mejorar la recuperación de Webs es fundamental para el
desarrollo de una infraestructura eficaz para esa recuperación. En la estructuración del Dublin Core han
participado activamente países tales como Reino Unido, Australia, Suecia, Dinamarca, Noruega,
Finlandia, Alemania, Francia, Tailandia, Japón, Canadá y Estados Unidos.
●
Flexibilidad
Aunque es motivado inicialmente por la necesidad de la descripción de recursos por los
autores-generadores de cada sitio, el Dublin Core tiene suficiente flexibilidad como para codificar
adicionalmente, estructuras con semántica más elaboradas que puedan ser aplicadas en la descripción de
recursos tradicionales.
●
Modularidad de Metadata en el WEB
La amplia diversidad de metadata en el Web, requiere de un medioambiente que soporte la coexistencia
de muchos desarrollos independientes y la manutención de paquetes de metadata. El Núcleo de Dublin
apunta específicamente a la recuperación de recursos, pero se desarrollarán distintos campos para ser
utilizados en otros ámbitos, administrativo, judicial, etc.
●
Arquitectura de Metadata para el Web
El World Wide Web Consortium (W3C) es el foro principal en los estándares para el Web, y ha
comenzado recientemente a centrarse en la configuración de una arquitectura de metadata para el Web.
El Resource Description Framework o RDF, se está desarrollando para sustentar diversas necesidades de
metadata que tienen proveedores y vendedores de información. Los representantes del Núcleo de Dublin
están implicados activamente en el desarrollo de esta configuración, aportando la perspectiva de la
biblioteca digital, en el desarrollo de esta arquitectura.
●
En resumen, podemos decir que Dublin Core es fácil de usar, trabaja sobre cualquier versión de HTML y
puede migrar con facilidad a otros formatos de metadata.
Elementos del formato Dublin Core
Como se mencionó anteriormente los elementos de Dublin Core son 15 y pueden ser agrupados por
funcionalidad de la siguiente forma:
● Elementos relacionados principalmente con el contenido del recurso
● Elementos relacionados principalmente con el recurso cuando es visto como una propiedad
intelectual
● Elementos relacionados principalmente con la "instantiation" del recurso
http://www.udea.edu.co/~hlopera/metadata.html (6 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
Contenido
Title
Subject
Description
Source
Language
Relation
Coverage
Propiedad intelectual
Creator
Publisher
Contributor
Rights
Datos fijos
Date
Type
Format
Identifier
1. Título. Etiqueta: "Title"
El nombre dado a un recurso, en general por el autor o editor.
2. Autor o Creador. Etiqueta: "Creator"
Persona u organización responsable de la creación del contenido intelectual del
recurso. Por ejemplo: los autores en el caso de documentos escritos, artistas,
fotógrafos e ilustradores en el caso de recursos visuales.
3. Materias y Palabras Claves. Etiqueta: "Subject"
Los temas del recurso. Generalmente el Subject expresará las palabras claves o frases que describen el
tema o contenido del recurso. Se fomenta el uso de vocabularios controlados y de sistemas de
clasificación formales.
4. Descripción. Etiqueta: "Description"
Descripción textual del contenido de un recurso. Incluye un resumen en el caso de un documento textual
o una descripción del contenido en el caso de un documento visual.
5. Editor. Etiqueta: "Publisher"
Entidad responsable de que el recurso se encuentre disponible en la red en su formato actual, por ejemplo
una empresa editora, un departamento universitario u otro tipo de organización.
6. Otros Colaboradores. Etiqueta: "Contributor"
Persona u organización que haya tenido una contribución intelectual significativa en la creación del
recurso pero cuyas contribuciones son secundarias en comparación a las de las personas u organizaciones
especificadas en la etiqueta "Creator" . Por ejemplo, editor, ilustrador o traductor.
7. Fecha. Etiqueta: "Date"
Fecha asociada a la creación o disponibilidad del recurso. Esta fecha no debe confundirse con la etiqueta
"Coverage", que sería asociada con el recurso sólo en la medida en que el contenido intelectual está de
algún modo relacionado con esa fecha.
Recomendamos la utilización de uno de los formatos definidos en el documento "Date and Time
Formats", basado en la norma ISO 8601, disponible en el sitio de W3C Technical note,
http://www.w3.org/TR/NOTE-datetime. Incluye, entre otras, fechas en el formato YYYY y
YYYY-MM-DD. De esta forma la fecha 1994-11-05 correspondería al 5 de Noviembre de 1994.
8. Tipo del Recurso. Etiqueta: "Type"
http://www.udea.edu.co/~hlopera/metadata.html (7 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
La categoría del recurso, por ejemplo Home Page, novela, poema, documento de trabajo informe técnico,
ensayo, diccionario. Para asegurar la interoperabilidad, "Type" debería ser seleccionado de entre una lista
enumerada que actualmente se encuentra en desarrollo en uno de los grupos de trabajo.
En http://sunsite.berkeley.edu/Metadata/types.html se puede consultar el estado actual de la discusión en
torno a este tema.
9. Formato. Etiqueta: "Format"
La etiqueta "format" de un recurso es usado para identificar el software y posiblemente, el hardware que
se necesitaría para desplegar u operar el recurso. Para asegurar la interoperabilidad, "format" debería ser
seleccionado de entre una lista enumerada que actualmente se encuentra en desarrollo en uno de los
grupos de trabajo.
10. Identificador del Recurso. Etiqueta: "Identifier"
Secuencia de caracteres usados para identificar unívocamente un recurso. Ejemplos para recursos
pueden ser URLs y URNs (cuando estén implementados). Para otros recursos pueden ser usados otros
formatos de identificadores, tales como Internacional Standard Book Number - ISBN.
11. Fuente. Etiqueta: "Source"
Información sobre un segundo recurso del cual deriva el recurso que está siendo descrito. A pesar de que
generalmente se recomienda colocar información del recuso que se está describiendo, este elemento
puede contener información de fechas, autor, identificadores, u otros metadatas del segundo recurso si se
considera relevante para la recuperación del recurso descrito.
Por ejemplo, es posible usar Source con la fecha de 1603 en la descripción de una película filmada en
1996, aunque, en tal caso es preferible usar la etiqueta "relation": "IsBased On" con una referencia a otro
recurso cuya descripción contiene el elemento "Date" 1603.
12. Lengua. Etiqueta: "Language"
Idioma del contenido intelectual del recurso. Prácticamente el contenido de este campo debería coincidir
con los de la RFC 1766, Tags para la identificación de lenguas, http://ds.internic.net/rfc/rfc1766.txt.
Ejemplo: en, es, de, fi, ja y zh.
13. Relación. Etiqueta: "Relation"
Identificador de un segundo recurso y su relación con el recurso actual. Este elemento permite enlazar los
recursos relacionados y las descripciones de los recursos. Por ejemplo:
IsVersionOf
Incluye la edición de un trabajo
IsBasedOn
Traducción de un trabajo
IsPartOf
Capítulo de un libro
IsFormatOf
Mecanismo de transformación de un conjunto de datos
en una imagen
Para asegurar la interoperabilidad, "format" debería ser seleccionado de entre una lista enumerada que
actualmente se encuentra en desarrollo en uno de los grupos de trabajo.
14. Cobertura. Etiqueta: "Coverage"
Características de cobertura espacial y/o temporal del contenido intelectual del recurso. La cobertura
http://www.udea.edu.co/~hlopera/metadata.html (8 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
espacial se refiere a una región física (por ejemplo, sector celestial); uso de coordenadas (eje.: longitud y
latitud) o nombres de lugares extraídos de una lista controlada.
La cobertura temporal se refiere a los períodos que abarca el contenido del recurso, en lugar de a cuando
fue creado o puesto disponible en la red. Esto último pertenece a la etiqueta "Date". Se recomienda la
utilización del mismo formato de la etiqueta "date" . "Date and Time Formats", basado en la norma ISO
8601, disponible en el sitio de W3C Technical note, http://www.w3.org/TR/NOTE-datetime.
15. Derechos. Etiqueta: "Rights"
Mención de los derechos de autor (copyright), un identificador que enlace (URL, por ejemplo) a una nota
sobre derechos de autor, a un servicio de gestión de derechos o a un servicio que dará información sobre
términos y condiciones de acceso a un recurso.
Una especificación formal del elemento Rights se encuentra actualmente en discusión y por lo tanto su
uso se considera experimental:
http://purl.oclc.org/metadata/dublin_core/workrights.html
CODIFICACION DE LOS ELEMENTOS DEL DUBLIN CORE
Como habíamos señalado anteriormente, Dublin Core se basa en 15 etiquetas:
Title
❍ Creator
❍ Subject
❍ Description
❍ Publisher
❍ Contributor
❍ Date
❍ Type
❍ Format
❍ Identifier
❍ Source
❍ Language
❍ Relation
❍ Coverage
❍ Rights
En general antes de comenzar la codificación se debe tener en cuenta lo siguiente:
● Los elementos poseen nombres descriptivos que pretenden transmitir un significado semántico a
los mismos, además de una etiqueta formal representada en una palabra, tendiente a hacer más
sencilla la especificación sintáctica de los elementos para su codificación.
● Aunque algunos entornos, como HTML, no diferencian entre mayúsculas y minúsculas, es
recomendable escribir correctamente cada metadata según su definición para evitar conflictos con
❍
http://www.udea.edu.co/~hlopera/metadata.html (9 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
otros entornos, como XML (Extensible Markup Language): http://www.w3.org/TR/PR-xml
Cada elemento es opcional y puede repetirse. Además, los elementos pueden aparecer en
cualquier orden.
● Indispensable es en la creación de metadata el uso de esquemas formales y tradicionales en la
descripción. Específicamente, Library of Congress Subject Headings (LCSH) para codificación de
subjects y otras normas referentes a países, idiomas, etc.
A nivel general, una entrada Dublin Core dentro de HTML tiene la siguiente sintaxis:
●
<META NAME = "DC.NombreElemento" CONTENT = "VALOR">
donde 'NombreElemento' y 'Valor' se sustituirían respectivamente por uno de los 15 elementos y su valor.
Por ejemplo:
<META NAME = "DC.Creator" CONTENT = "Universidad de Chile">
La sigla DC, corresponde a la identificación del formato que se está utilizando para la descripción:
DC = Dublin Core
Luego debemos colocar la etiqueta correspondiente al elemento que deseamos describir:
"DC.Creator"
El atributo CONTENT se usa para describir el valor del elemento, en el ejemplo, es el autor Universidad
de Chile.
BÚSQUEDA POR METADATA
Existen en la actualidad 100 millones de páginas web disponibles públicamente. Esto ha hecho que se
desarrollen diversas estrategias para dar a conocer un web; desde la inscripción en directorios, redes de
enlaces y banners.
Los Metadata son un buen método para controlar la forma en que un sitio es indexado por los motores de
búsqueda. Sin embargo es importante tener en cuenta lo siguiente:
Sólo en el 21% de los recursos Internet se está utilizando Metadata para la descripción de los
mismos.
● Un total de tres de los motores de búsqueda de uso público utilizan los metadata para construir sus
índices:
Motor de Búsqueda
¿Soportan Metadata?
Altavista
SI
Excite
NO
HotBot
SI
Infoseek
SI
Lycos
NO
WebCrawler
NO
●
http://www.udea.edu.co/~hlopera/metadata.html (10 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
¿En qué medida mejora la búsqueda el uso de Metadata?
La mejora, debido a que elimina la basura y el material irrelevante recuperado a través del análisis del
texto completo.
Los motores de búsqueda poseen un programa robot llamado spider o crawler, que recorre Internet
leyendo los distintos sitios publicados y extrayendo la información necesaria para armar los índice. Los
motores como Altavista e Infoseek, utilizan principalmente dos elementos:
"Subjects" o "Keywords", para generar los índices de materia y "Description" para elaborar el breve
resumen que presenta en la página de resultados.
Importante es destacar que aunque los motores recorren permanentemente a través de los enlaces la red
para indexar los sitios, es preferible acelerar el proceso, pidiéndole al robot que nos visite, mediante la
opción Add URL, que poseen todos los motores.
Altavista e Infoseek, darán preferencia a la información suministrada por los Metadata del Header del
sitio de no existir esta información, entonces procederán a extraer la descripción de las primeras líneas de
la página y los descriptores del análisis del texto completo.
Altavista toma el título, luego la descripción con un máximo de dos frases y las "keywords" con un
máximo de 1024 caracteres.
Por su parte Infoseek indiza el título, la descripción hasta 200 caracteres y las "keywords" con un
máximo de 1000 caracteres.
CONCLUSIÓN:
Metadata es una metodología reciente que requiere la masificación de su uso por parte de los generadores
de sitios web y por los motores de búsqueda y directorios. Probablemente se requerirá una instancia
nacional que se encargue de estandarizar el uso y los esquemas de recuperación que se utilicen y asegure
una catalogación normalizada.
La utilización de Metadata es recomendable aunque no asegura posicionamiento alguno en los resultados
de la búsqueda. Debemos tener en cuenta el hecho de que no todos lo buscadores los utilizan y que es
necesario que importantes directorios de recuperación como Yahoo, deberían incorporarlos en sus
formularios de inscripción de sitios.
DUBLIN CORE Y LA Z39.50
Se han propuesto mecanismos para el uso del Dublin Core en la búsqueda y recuperación de sitios web
en el protocolo Z39.50. En la Versión 3 de Z39.50 existen equivalencias en 9 campos. Para la próxima
versión se propone la incorporación de los campos faltantes:
Dublin Core
Title
Creator
Subject
Description
ElementZ39.50 Use Attribute
Nombre
Valor
Title
4
Author
1003
Subject Heading
21
Abstract
662
http://www.udea.edu.co/~hlopera/metadata.html (11 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
Publisher
Date
Type
Identifier
Language
Contributor
Format
Source
Relation
Coverage
Rights
1018
Date
30
Material Type
1031
Doc lD
1032
Code Language
54
Other Contributor Nuevo
Document format Nuevo
Source identifier Nuevo
Document relation Nuevo
Coverage
Nuevo
Rights
Nuevo
La posición final que se adopte, determinará la complejidad de la codificación de los elementos de
Dublin Core, pues deberán incorporarse al formato listados de subcampos, compatibles con el formato
MARC.
Ejemplo:
*Creator: - Unqualified
- PersonalName
-PersonalName-Address
-PersonalName-email
-PersonalName-Filliation
-CorporateName
-CorporateName-Address
-CorporateName-email
Existe a nivel de documento no oficial una propuesta de estructura de calificadores que pueden revisarse
en:
Dublin Core Qualifers/substructure.
GLOSARIO
PICS, Plataform Internet Content Selection desarrollado por el W3 Consortium.
●
●
●
●
Dirigido en un principio a padres y educadores, con el objeto de ser censurador de contenidos en
cuanto a calidad y nivel académico, censura de sitios pornográficos o atentatorios a la moral,
privacía y derechos intelectuales.
Actúa como un filtro en el motor de búsqueda , separando los contenidos adecuados de los
inadecuados
Este sistema puede ser aplicado por terceros, como Instituciones que se dediquen a la calificación
o por los mismos generadores de sitio.
La aplicación de este formato está siendo ampliamente discutido en el Parlamento Europeo,
porque para muchos sectores representan un peligro que atentaría contra la libertad que ha
fundamentado el espíritu de la Internet.
http://www.udea.edu.co/~hlopera/metadata.html (12 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
●
Sistema muy rechazado por los defensores de la llamada "Netiquette" y por los que desean que los
casos de sitios inadecuados puedan ser tratados judicialmente y así asentar jurisprudencia.
RDF : Resource Description Framework
Provee un estándar para la unificación de criterios en los distintos formatos de Metadata, con una
convención común entre semántica, sintaxis y estructura.
* Semántica. Unifica la definición de la semántica utilizada por los distintos formatos existentes.
* Sintaxis. Ordena sistemáticamente los datos para el procesamiento por la máquina, facilitando el
intercambio de usos en diferentes aplicaciones.
* Estructura: limita formalmente la sintaxis para una representación consistente y unívoca de la
semántica.
Es una aplicación de XML (Extensible Markup Language) que impone limitaciones estructurales
necesarias para proveer métodos de expresión semántica sin ambigüedades, codificación consistente para
el intercambio y procesamiento por máquina de Metadata estandarizado, es decir asegurar la
interoperabilidad entre aplicaciones de intercambio de información comprensible tanto por humanos
como por máquinas en el web.
Este estándar permitirá a los usuarios integrar páginas web y archivos locales de forma transparente, y
esto facilitará la navegación y la búsqueda de información, independientemente de dónde se encuentre.
RDF se aplica en:
· Indización de sitios Internet o Intranet
· Sistemas de evaluación del contenido, definición de canales de distribución automática de contenidos,
firmas digitales,
· Recogida de datos de los motores de búsqueda (búsqueda en la Web), catalogación de bibliotecas
dígitales y personalización de contenido de otros fabricantes.
· RDF también se puede utilizar para describir diferentes tipos de información, como la que se encuentra
en sitios Web, en archivos en el escritorio de un usuario, segmentos de correo electrónico o bases de
datos ya existentes.
XML: Extensible Markup Language.
XML es una aplicación de SGML (Standard Generalized Markup Language ISO 8879), desarrollado por
W3 Consortium. Es un metalenguaje que permite diseñar un lenguaje de marcación propio para la
creación de múltiples clases de documentos.
Versión abreviada de SGML, que omite las partes más complejas y menos utilizadas de SGML, con el
objetivo de hacer los datos en Internet más fácil de manejar, más descriptivos y más ricos.
También tiene el objetivo de desarrollar aplicaciones de Intranet, que son más rápidas e inteligentes al
trasladar parte del procesamiento del servidor, al cliente, que la mayoría de las veces no es aprovechado
en un 100%. Esto produce que el código de la aplicación en el cliente WWW pueda responder de
http://www.udea.edu.co/~hlopera/metadata.html (13 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
manera más rápida en cada teclazo del usuario y que pueda hacer parte del procesamiento de manera
local, evitando el viaje de la información de ida y vuelta al servidor.
En este lenguaje, los componentes de los documentos son marcados con etiquetas y atributos de la misma
manera que en el HTML pero también se pueden inventar etiquetas y atributos propios, que pueden ser
compartidos y controlados con un DTD.
Además XML contiene funciones que permiten un reciclado de información compartida en múltiples
documentos o varias veces en un mismo documento, maneja todos los alfabetos, tomando como base el
estándar Unicode. Al contrario de HTML, XML no incluye etiquetas predefinidas, provocando que para
poder ver el documento sea necesario escribir una definición de estilo conocida como stylesheet.
Las características del diseño de XML son:
· Debe ser utilizable en Internet
· XML debe soportar una amplia variedad de aplicaciones
· XML debe ser compatible con SGML
· La escritura de programas que procesen documento XML deben ser de fácil escritura
· Las características opcionales en XML deben ser mínimas, idealmente x cero.
· Los documentos XML deben ser razonablemente claros y legibles por humanos
· El diseño XML debe ser armado rápidamente, además de formal y conciso
· Los documentos deben ser fácil de crear
· La precisión de las marcas XML es de mínima importancia
Para lograr esto, XML redefine algunos valores internos y parámetros de SGML y elimina un largo
número de elementos muy complejos y poco utilizados que dificultaban la creación de programas
procesadores de los mismos.
SGML: Standard Generalized Markup Language
SGML es un acrónimo de Standard Generalized Markup Language o Lenguaje Normal Generalizado de
Marcación. Es una norma ISO (8879) derivada de una anterior GML desarrollado por IBM.
SGML es un meta-lenguaje estándar extremadamente poderoso, diseñado para el procesamiento,
archivado e intercambio de documentos electrónicos. Su desarrollo se inició a principios de los 80 y fue
publicado por primera vez en 1986.
La aplicación más popular del SGML es el HTML, Hyper Text Markup Language, el estándar más
utilizado en el Worl Wide Web. El objetivo de SGML es proveer un formato para que cualquier
documento escrito en este lenguaje pueda ser visualizado en cualquier equipo de computación,
definiendo y estandarizando la estructura del Documento. El SGML también describe una sintaxis con la
cual se pueden diseñar otros lenguajes de etiquetado (markup Languages).
SGML permite que la estructura de un documento pueda ser definida en base a la relación lógica de sus
partes. Esta estructura puede ser validada por una Definición de Tipo de Documento (DTD - Document
Type Definition). La norma SGML define la sintaxis del documento y la sintaxis y semántica de DTD.
http://www.udea.edu.co/~hlopera/metadata.html (14 de 15) [3/23/2004 8:42:11 AM]
Metadata: herramienta para la recuperacion de informacion en Internet
W3Consortium
Creado para el desarrollo de protocolos comunes que mejoraron la interoperabilidad y promoción en el
desarrollo de la World Wide Web.
Es un consorcio dirigido conjuntamente por:
* Massachusetts Institute of Technology Laboratory for Computer Science (MIT/LCS) en EE.UU.,
* Institut National de Recherche d'informatique et d'Automatique (INRIA) en Francia
* Keio University en Japón.
Los servicios que ofrece el consorcio incluyen: una fuente de información sobre la World Wide Web
para programadores y usuarios; aplicaciones de códigos de referencia para materializar y promocionar
estándares y varias aplicaciones de prototipos y muestras para demostrar la utilidad de la nueva
tecnología. Hasta ahora, más de 200 organizaciones son miembros del World Wide Web Consortium. Si
desea obtener más información, visite la siguiente dirección: http://www.w3.org/
REGRESAR
http://www.udea.edu.co/~hlopera/metadata.html (15 de 15) [3/23/2004 8:42:11 AM]
Descargar