EL USO DE LENGUAJES DE ETIQUETADO EN LA DIGITALIZACIÓN DE COLECCIONES Mtra. Clara López Guzmán CPD-DGSCA-UNAM Taller Mesoamericano y del Caribe de Bibliotecas Digitales 16 de mayo de 2002 RESUMEN Nos encontramos en el momento de transición de la era del papel hacia la era digital, en el que muchas instituciones están planeando o llevando a cabo proyectos de digitalización a fin de facilitar su uso en la enseñanza, la investigación y la difusión de la cultura. Los hábitos de los usuarios están cambiando y cada vez son más exigentes en la calidad, facilidad y rapidez con que obtienen la información. Ante este fenómeno, consecuencia de la aplicación de las nuevas tecnologías, se experimentan diferentes formas de transmitir y adquirir el conocimiento. En este momento, los proyectos de digitalización son un nuevo reto para los responsables de bibliotecas y, especialmente, para los que emprenden la desafiante tarea de implementar una biblioteca digital. La digitalización correcta de documentos o archivos es el factor crucial para el éxito del proyecto, con esto, no me refiero a la rapidez o eficiencia del escáner, si no a la mezcla adecuada de los diversos factores y variables que afectan a un proyecto de digitalización que pretenda lograr difusión, permanencia y preservación de la información La gran mayoría de los proyectos de digitalización tiene problemas que pudieron haberse previsto con una buena planeación, antes de comenzar a digitalizar materiales es fundamental hacer una reflexión inicial sobre tres factores claves, que pueden ser determinantes para la viabilidad o censura del proyecto: 1. Definición de objetivos 2. Análisis de la comunidad y/o definición de usuarios 3. Disponibilidad de recursos El punto 3 resulta de especial interés de esta exposición, la disponibilidad de recursos incluye: a) recursos financieros: compromiso institucional, presupuesto, patrocinadores; b) recursos humanos: técnicos especializados, programadores, diseñadores, especialistas en el manejo de información, coordinadores del proyecto; c) recursos técnicos: derecho de autor, infraestructura de red, computadoras, dispositivos de almacenamiento, escáneres, software para el procesamiento y formatos de archivos. Existe una gran controversia en torno al formato en el cual un archivo digital debe ser publicado, se han llevado a cabo proyectos de digitalización en donde los documentos quedan como imágenes, debido a su complejidad para un proceso de reconocimiento de caracteres o por tener un valor gráfico, pueden almacenarse como archivos multi -imagen en formato TIFF. Por otro lado, también se encuentran los archivos PDF, en los que se permite una presentación muy similar al impreso y es posible la restricción de funcionalidades como la modificación o impresión del texto, lo cual da un sentimiento de seguridad al autor quien espera que su obra no sea “ultrajada” con impresiones al por mayor o alteraciones al texto, en el mejor de los casos. También se encuentran los formatos como DOC, HTML o XML que dan una mayor libertad en la creación de textos y permiten desarrollar sistemas de búsqueda más eficientes en un conjunto de documentos. HTML (Hypertext Markup Language) y XML( eXtended Markup Language) pertenecen a la familia de los lenguajes de marca o etiquetado. Estos lenguajes provienen del SGML (Standard General Markup Language) un lenguaje que surgió en 1985 con aplicaciones en diversos ramos. Los lenguajes de etiquetado generalizado tienen las siguientes características principales: • • • • • Separa la estructura de su aspecto. Las propiedades del texto se etiquetan según su función. Facilita la generación de visualizaciones y la presentación de documentos. El indizado se realiza sobre la estructura del documento, en texto completo. Se facilita la independencia de los datos respecto de las aplicaciones. SGML es muy versátil pero es de alta complejidad el nivel de programación que debe hacerse para explotar sus funcionalidades. El auge de Internet, sin duda, se debe al web, en donde se hace a un lado la complejidad de SGML derivando de él, en 1989, al HTML, que hace una fácil relación entre documentos a través de hiperligas y es muy sencillo utilizarlo para elaborar documentos que deberán enlazarse y compartirse con otros sistemas, es el primer acercamiento de los lenguajes de etiquetado para crear publicaciones digitales en Internet. Aunque HTML es una excelente opción para la creación de documentos digitales, tiene un número limitado de etiquetas y es poco flexible para su uso en grandes cantidades de información. En 1996, aparece XML como el lenguaje que va a cubrir las deficiencias que tiene HTML en la publicación de documentos. XML es un estándar internacional desarrollado con el auspicio del W3C1 , basado en el uso de marcas o etiquetas, como lo hace HTML, con la diferencia de que se tiene la libertad de definir las etiquetas que sean necesarias para elaborarse documentos sencillos o extremadamente complejos, característica que lo perfila como el lenguaje más adecuado para la publicación electrónica en Internet. El éxito de XML en una aplicación, depende de la Definición del Tipo de Documento (DTD) utilizado, éste representa la plantilla que define la estructura semántica del documento y sirve para validar si las marcas se han efectuado correctamente. La apariencia de los datos estará dada por una hoja de estilo (XSL), la cual además permite dar dinamismo y funcionalidad al documento. Para explicar más en detalle la utilización de XML como metalenguaje para un proyecto de digitalización, en la ponencia de este Taller se expondrá la experiencia del proyecto Leyes Mexicanas, que se lleva a cabo con la colaboración del Colegio de México y la UNAM. La presentación hecha en Power Point la podrá consultar después del evento en http://biblioweb.dgsca.unam.mx/bd/len/lenguajes.html El proyecto se encuentra en línea http://biblioweb.dgsca.unam.mx/dublanylozano en la dirección Bibliografía Moving theory into practice: digital imaging for libraries and archives Anne R. Kenney, Oya Y. Rieger, editores y autores principales Mountain View CA: Research Libraries Group, 2000 ISBN 0-9700225-0-6 Handbook for digital projects: A management tool for preservation and access Maxine K. Sitts Northeast Document Conservation Center, 2000 ISBN 0-9634685-4-5 XML a través de ejemplos Abraham Gutiérrez, Raúl Martínez Alfaomega Ra-Ma, 2001 ISBN 970-15-0716-9 XML Bible Elliotte Rusty Harold IDG Books Worldwide, Inc. ISBN 0-7645-3236-7 1 World Wide Web Consortium, creado en 1994 para apoyar el desarrollo de tecnologías y estándares para la interoperabilidad del www. http://www.w3.org