Nombre del proyecto: Smart data. Sistema de información del patrimonio cultural de Arganda del Rey Organismo: Ayuntamiento de Arganda del Rey (Madrid) Breve descripción del proyecto: Sistema de gestión basado en el concepto de archivos abiertos utilizando el protocolo OAI-PMH que permite la libre descarga, distribución y enlazado de datos normalizados y estructurados de valor para la gestión de las ciudades. Su mayor potencial es que permite la recolección automatizada de ficheros XML con esquemas normalizados, facilitando por tanto su posterior reutilización, intercambio y explotación sin ninguna barrera financiera, técnica o semántica. Repercusión para el ciudadano y las administraciones: Solución low cost que garantiza la interoperabilidad de datos de valor para las ciudades, siguiendo la filosofía open / linked data, utilizando datasets gestionados en un repositorio OAIPMH desarrollado íntegramente con recursos propios y con software open source, por lo que permite la transferencia tecnológica. Equipo de desarrollo y proveedores: Dirección técnica: Julio Cerdá Díaz Programador: Jesús Arribas Sanz Técnico de Patrimonio: Raquel Novero Plaza Gestores administrativos: María José Huelves Muñoz Victor Santos Gascueña Valoración económica: Proyecto desarrollado con recursos y medios propios. Plazos de cumplimiento: Proyecto realizado. Puesta en marcha: 15/03/2015 1 1 / OPEN ARCHIVES 2 / OPEN DATA 3 / OPEN SOURCE 4 / LINKED DATA Los distintos datasets se gestionan Es un sistema que, además de Todo la plataforma tecnológica se ha Se aplican conceptos y técnicas en un repositorio OAI-PMH cumplir con los desarrollado de garantiza accesibilidad la y que interoperabilidad, descripción reutilización permite de todos los registros y sus metadatos la e estándares de interoperabilidad, libre descarga y disponibilidad de todos los datos soluciones con open diferentes source, y la web semántica, Los con descriptores de personas, lugares recursos y medios propios. No se ha y materias están enlazados a utilizado ningún software propietario. VIAF, Geonames y Dbpedia archivos en abierto Sistema de información del patrimonio cultural de Arganda del Rey El concepto de acceso abierto hace referencia a “la disponibilidad de los recursos para su acceso, descarga, copia, distribución, impresión, enlazado de sus metadatos y, el elemento diferencial respecto a los sistemas convencionales, los metadatos están normalizados y son recolectables a través de procesos automatizados, facilitando por tanto su reutilización sin ninguna barrera financiera, técnica o semántica” “ Un innovador uso de los repositorios OAIPMH para garantizar la interoperabilidad de los recursos digitales. Una decidida apuesta por las soluciones en abierto y con muy bajo coste de implementación ” 2 1. INTRODUCCIÓN El Archivo de la Ciudad de Arganda del Rey conserva los documentos producidos y recibidos por la administración local a lo largo de sus más de ochocientos años de existencia. Es de los archivos con fondos de mayor antigüedad de la Comunidad de Madrid (1306). Conserva además un notable fondo documental, y en muy distintos soportes: bibliográficos, gráficos, audiovisuales, y participa en los procesos de implantación de la administración electrónica. Desde sus inicios ha intentado ser un centro innovador en la aplicación de soluciones tecnológicas. En 1999 fue el primer archivo español en crear un OPAC que diera acceso web tanto a los registros descriptivos como a sus imágenes digitales. La Web fue rediseñada en 2006, incorporando utilidades de las entonces nacientes redes sociales, como un chat en línea para consultas, o una plataforma de acceso a sus fondos audiovisuales a través de youtube, en esos momentos ningún otro centro de archivo lo utilizaba, es un canal que suma en la actualidad más de 350.000 visitas a su colección de vídeos documentales. En 2012 volvió a renovar por completo su web, siempre con recursos y medios propios, apostando como eje rector la filosofía open y utilidades de la Web 3.0. 2. EL PROYECTO: ARCHIVOS ABIERTOS. INTEROPERABILIDAD TÉCNICA Y SEMÁNTICA. WEB 3.0. En el presente año 2015 se ha ultimado un nuevo proyecto para hacer accesibles todos los datos y registros con una única hoja de ruta: cumplir los estándares para la descripción e intercambio de recursos electrónicos y hacer posible la interoperabilidad de todos sus datos, metadatos y recursos de uso público: más de 51.000 registros descriptivos y 100.000 objetos digitales. Una estrategia que podemos encuadrar dentro de los sistemas open access (acceso abierto). 3 Toda la tecnología utilizada es aplicable en cualquier dato de carácter público. La arquitectura del sistema se articula en torno al protocolo de archivos abiertos para la recolección de metadatos (OAI-PMH), un repositorio OAI-PMH que incrementa exponencialmente la disponibilidad, accesibilidad y reutilización de los distintos datasets. Es un complemento a la búsqueda en el portal web convencional, que sigue existiendo, y que se diferencia de la opción de “descarga de ficheros ” fundamentalmente en que la infraestructura técnica del OAI obliga a cumplir unos requisitos de normalización para poder acceder a los datasets de su repositorio, un formato común para los ficheros XML (XML-DC, XML-EAD y XML-ESE), la codificación e identificación de sus metadatos, y por tanto información normalizada que hace que la institución se convierta en proveedora de contenidos de calidad que puedan ser recolectados automáticamente por otros portales y agregadores como Hispana, Europeana y OAIster. Una vez que los datos son “interoperables” y que son reutilizados la visibilidad de los recursos digitales de la entidad se multiplica, consiguiendo una difusión y posicionamiento web inimaginable hace unos años. Se comparten los metadatos, las vías para acceder a la información, pero los recursos digitales siguen estando alojados en los servidores de la institución, es imprescindible acceder a los servidores de la organización para consultar el recurso digital. Además, hemos vinculado los descriptores de nuestras bases de datos a vocabularios controlados como Geonames (nombres geográficos) Dbpedia (materias) y VIAF (personas), enriqueciendo nuestros datos, mejorando la navegación y haciendo posible las búsquedas multilingües. De este modo el proyecto podemos relacionarlo con la Web Semántica, un sistema que permita enlazar a recursos externos y la aplicación de modelos más especializados como Linked Open Data. Se ha recurrido también a una base de datos común que enlaza bases de datos en RDF (Resource Description Framework) además de recursos de contextualización semántica propios de Europeana, como tesauros y vocabularios estructurados. 4 3. ¿CÓMO FUNCIONA EL PROTOCOLO OAI-PMH? OAI-PMH (Open Archives Initiative – Protocol for Metadata Harvesting) es en un protocolo para la comunicación de metadatos, nacido inicialmente para la comunicación y acceso de documentos científicos pero que se ha extendido en los últimos años como un estándar para la comunicación de metadatos. Podríamos señalar tres características fundamentales del protocolo: 1. Simplicidad: Se concibió bajo la premisa de la sencillez. Los creadores buscaron una fórmula simple que estuviera al alcance de cualquier potencial implementador. 2. Normalización: Basado en estándares ampliamente utilizados en Internet como son el protocolo http (HiperText Transfer Protocol) para la transmisión de datos y órdenes y XML (Extended Markup Language) para la codificación de los metadatos. 3. Recolección. Frente a otros sistemas de agregación de contenidos como la los sistemas de sindicación de contenidos vía RSS, OAI-PMH ha optado por la recolección de metadatos. En este caso, existe una entidad, normalmente agregadores de contenidos o empresas infomediarias que recogen periódica y sistemáticamente todos o parte de los metadatos expuestos en los distintos OAI y poder así desarrollar servicios de valor añadido. OAI-PMH sigue el principio de que existen múltiples organizaciones que son potenciales proveedoras de datos (PD) y que desean compartir su información con múltiples proveedores de servicios (PS) a través de un protocolo común. Los primeros son entidades que proporcionan los metadatos de los documentos que gestionan y los segundos son los recolectores o agregadores de contenidos, que toman los datos con el objetivo de incorporarles algún valor añadido y ofrecerlos a los usuarios finales. Pueden ser empresas infomediarias o sistemas públicos de difusión como Hispana (Ministerio de Cultura) o Europeana (Comunidad Europea), o cualquier otra organización pública o privada que cuente con este tipo de repositorios. Es importante reseñar que OAI-PMH gestiona exclusivamente la comunicación de metadatos, no los recursos electrónicos y objetos digitales que se referencian. La comunicación entre el proveedor de datos (PD) y el proveedor de servicios(PS) se realiza utilizando transacciones http para emitir preguntas y obtener repuestas. Mediante estas peticiones se pueden filtrar y seleccionar el envío de determinados metadatos según determinados criterios 5 como por ejemplo la fecha de creación de los registros, o una determinada materia o concepto. En respuesta, el proveedor de datos devuelve un conjunto de registros en formato XML codificado y estructurado. Las peticiones se emiten a través de los métodos GET y POST del protocolo http, existen seis tipos de peticiones que se pueden realizar a un repositorio OAI-PMH: 1. Identify: Recupera información sobre el proveedor de datos: nombre, versión del protocolo que utiliza, dirección del administrador, etc. [Ejemplo: http://archivo.ayto-arganda.es:8080/repox/OAIHandler?verb=Identify ] 2. ListMetadataFormats: Devuelve la relación de los formatos normalizados de metadatos que se han utilizado en los datasets del repositorio [Ejemplo: http://archivo.aytoarganda.es:8080/repox/OAIHandler?verb=ListMetadataFormats 3. ListIdentifiers: Recupera los identificadores o códigos de referencia de los registros. Tiene un argumento obligatorio (metadataprefix) para especificar el formato de metadatos en el que se quiere obtener la respuesta. Además permite introducir otros comandos como el rango de fechas de los datos que queremos recuperar. Ejemplo: [http://archivo.aytoarganda.es:8080/repox/OAIHandler?verb=ListIdentifiers&metadataPrefix=oai_dc 4. ListRecords: Ofrece una información de conjunto de todos los datos y metadatos del repositorio. [Ejemplo: http://archivo.aytoarganda.es:8080/repox/OAIHandler?verb=ListRecords&metadataPrefix=oai_dc ] 5. GetRecord: Recupera un registro concreto. Necesita dos argumentos: identificador del registro solicitado (identifier) y especificación del formato de metadatos (metadataprefix) . Ejemplo: http://archivo.aytoarganda.es:8080/repox/OAIHandler?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai :archivo.aytoarganda.es:1Biblioteca_Digital:e5694e7a-6c12-4bda-b94c-6b662715fa02 6. ListSets: Informa de los dataset que integran el OAI-PMH. Es el más utilizado ya que, además de dar una visión global del repositorio, se pueden seleccionar los identificadores y los registros de cada uno de los conjuntos de datos . Ejemplo: http://archivo.ayto-arganda.es:8080/repox/OAIHandler?verb=ListSets 6 Hemos utilizado el software open source para la creación de repositorios OAI-PMH “Repox”, utilizado también por Europeana. A pesar de ser una solución de código abierto no es el software de este tipo con más instalaciones en España. La práctica totalidad de los OAIPMH en funcionamiento han sido implementados por empresas especializadas. En nuestro caso ha sido puesto en funcionamiento con recursos y medios propios. Al tratarse de una solución de código abierto permite la personalización o agregación de nuevas funcionalidades. Gracias a ello hemos añadido una hoja de estilo XSLT a las respuestas en XML del OAI. De este modo, se ha conseguido que la presentación de los datos sea accesible para los navegadores y por tanto mucho más amigable para los usuarios. 7 XML - RESPUESTA DEL OAI sin hoja de estilo XSLT XML – RESPUESTA DEL OAI con hoja de estilo XSLT <?xml version="1.0" encoding="UTF-8" ?> 1. <oai_dc:dc schemaLocation="http://www.openar chives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xs d"> 1. <dc:title>El Colegio Imperial, fundador de una Cátedra en Arganda</dc:title> 2. <dc:description>El Colegio Imperial, fundador de una Cátedra en Arganda 34. 319-336. Madrid: Consejo Superior de Investigaciones Científicas, 1994</dc:description> 4. EXPLOTACIÓN Y PUBLICACIÓN DE CONTENIDOS Independientemente de la interorabilidad de los datos gracias al uso del protocolo OAI-PMH, y el acceso a los registros desde plataformas como Hispana, Europeana y el Portal de Archivos Europeos, el proyecto tenía también como objetivo transformar por completo el sistema de recuperación del OPAC. Funcionalidades básicas: 1 Se ha mejorado el OPAC WEB con nuevas soluciones que permiten realizar filtros y búsquedas sobre los resultados, búsquedas facetadas, y representación de la información en tablas y galerías, con las librerías open source datatables y fisotope Gestión de imágenes y objetos digitales. 2 Dada la diversidad de tipos de recursos digitales se ha creado un módulo específico que incorpora: Gestión de objetos digitales multimedia. Visor de imágenes multipágina. Visor de imágenes de publicaciones periódicas. [open source: openseadragon] Reproductor de vídeo flv y audio. Generación dinámica de PDFs con datos y metadatos. Posibilidad de incluir el visualizador de un recurso en una web externa. 8 3 Geolocalización de la información sobre mapas interactivos con utilidades de búsqueda y filtrado, realizadas íntegramente con Open Source: Open Geo Suite 4 Multidispositivo. Diseño web adaptable o adaptativo, conocido por las siglas RWD (Responsive Web Design) que permite adaptar la apariencia de las páginas web al dispositivo que se esté utilizando para visualizarla. 5 Generación dinámica de código QR, vinculado a los enlaces persistentes, que han sido situados en todos los bienes culturales, y que dan acceso a los registros descriptivos de cada bien. 6 Geolocalización del usuario y generación de itinerario, distancia, rutas, etc. utilizando la API de Google Maps. 7 Generación dinámica de metadatos. XML-EAD / XMLDC /XML-ESE 9 8 Open Linked data. Incorpora soporte básico para el reconocimiento y la visualización de enlaces a datos Linked Open Data procedentes de fuentes como VIAF, DBpedia, GeoNames y data.bne.es. Se utilizan tecnologías de Web Semántica utilizando RDF (Resource Description Framework), el estándar para la descripción conceptual o modelado de la información vinculada a recursos web. 9 Interacción con los usuarios. Cada uno de los registros incorpora un formulario para que los ciudadanos puedan hacer aportaciones o sugerencias. 10 Bibliografía-Recursos electrónicos. Todos los recursos bibliográficos que aparecen en las descripciones son libros virtuales realizados con una adaptación personalizada del proyecto open source Archive.org, una iniciativa de Internet Archive. Ejemplo: http://archivo.aytoarganda.es/digital/object.aspx?id=03000001#page/1+ /mode/2up 11 Realidad aumentada. Se ha comenzado a desarrollar una APP de realidad aumentada con la herramienta open source ARToolKit NFT 12 Accesibilidad de todos los recursos desde las más importantes plataformas como Hispana, Europeana y el Portal de Archivos Europeos. Por el momento es la única administración no vinculada a la Administración General del Estado que está presente, gracias a la interoperabilidad que proporciona la generación dinámica de metadatos. 10 5. ANEXOS Ver vídeo del proyecto: https://www.youtube.com/watch?v=ECd49BpTd28 . Home: http://archivo.ayto-arganda.es/patrimonio/Index.aspx . Mapa interactivo: http://geoarchivo.ayto-arganda.es/ga/patrimonio.html . Búsquedas documentales. http://archivo.ayto-arganda.es/B%C3%BAsquedas.aspx . Acceso desde Hispana: http://hispana.mcu.es/es/consulta/busqueda.cmd? . Acceso desde Europeana: http://www.europeana.eu/portal/search.html? . Acceso desde el Portal de Archivos Europeos: http://www.archivesportaleurope.net/es/ . OAI-PMH: http://hispana.mcu.es/es/recoleccion/datos.cmd? . Interoperabilidad. Registro tipo con datos enlazados: http://archivo.ayto-arganda.es/digital/person.aspx?id=009700100001&p=Felipe%20III http://archivo.ayto-arganda.es/digital/place.aspx?id=DD0001230397&l=Alicante 11 . Acceso desde Europeana, APP de Europeana e Hispana: 12 13