Descripción de la arquitectura tecnológica datos.gob.es En colaboración con Las opiniones recogidas en este documento no se corresponden, necesariamente, con las de ninguno de los organismos públicos participantes en esta iniciativa. Contenidos 1 Introducción .................................................................................................................. 2 2 Equipo de Gestión de Contenidos ............................................................................... 3 2.1 Descripción ................................................................................................................ 3 2.2 Requisitos Hardware .................................................................................................. 3 2.3 Requisitos Software ................................................................................................... 3 3 Equipo de Servicios Semánticos ................................................................................. 3 3.1 Descripción ................................................................................................................ 3 3.2 Requisitos Hardware .................................................................................................. 4 3.3 Requisitos Software ................................................................................................... 4 1 1 Introducción En este documento se especifica la arquitectura tecnológica (software y hardware) necesaria para implantar la solución propuesta para el desarrollo del Portal OpenData Estatal. A grandes rasgos, podemos separar la arquitectura software en dos grandes bloques: un gestor de contenidos y un servidor semántico. Debido a los requerimientos específicos de cada una de estas piezas software y para optimizar el uso de los recursos de los servidores, se ha decido que cada una de ellas debe instalarse en un servidor independiente. En el siguiente diagrama se recoge la arquitectura de implantación recomendada para este sistema: En los siguientes apartados se describen las necesidades hardware y software de cada una de las máquinas. Las especificaciones se han generado en base a la experiencia adquirida en anteriores proyectos, no obstante existe cierta flexibilidad, de manera que si alguna de las necesidades no pudiera satisfacerse se podría buscar una solución alternativa igualmente válida. Para la especificación de los requisitos hardware concretos de cada uno de los componentes, se han tenido en cuenta las necesidades de rendimiento en la fase inicial del portal y la escalabilidad de la arquitectura para la evolución del sistema en un periodo aproximado de 2 años. 2 2 Equipo de Gestión de Contenidos 2.1 Descripción Éste es el servidor donde se instalará el Gestor de Contenidos utilizado para generar el Portal OpenData Estatal y al que se conectarán los administradores y editores para administrar el catálogo y las páginas asociadas. Esta máquina dará servicio a todas las peticiones web sobre las diferentes secciones del portal. En este mismo servidor se almacenarán también todos los ficheros en diferentes formatos (PDF, Excel, Doc, XML,...) ofertados a los usuarios. Será por tanto necesario disponer de suficiente capacidad de almacenamiento para poder afrontar la carga inicial de datos y garantizar de alguna forma la escalabilidad del sistema para afrontar la carga de futuros conjuntos de datos. 2.2 Requisitos Hardware Procesador: Quad Core 3.07GHz ampliable a Doble Quad Core. Memoria: 16 GB ampliables a 64 GB. Almacenamiento: 3 discos duros SAS (ampliable) de 400GB a 15000 r.p.m. configurados en RAID 5. 2.3 Requisitos Software Sistema Operativo: Debian GNU/Linux 6.0. Gestor de Contenidos: Drupal 7.0 Base de Datos: MySQL 5.1.x 3 Equipo de Servicios Semánticos 3.1 Descripción Este servidor estará dedicado exclusivamente al almacenamiento de datos semánticos (RDF) y a la publicación de los mismos a través de un SPARQL Endpoint. Los datos semánticos almacenados serán, por una parte, la metainformación asociada al catálogo y la descripción de cada uno de los datasets (DCAT, voID...) y, por otra parte, aquellos conjuntos de datos que estén disponibles en formato RDF en lugar de formatos tipo PDF, Excel... Las consultas SPARQL necesarias para obtener los datos realizan abundantes lecturas a disco, por tanto, en este servidor no es tan importante la capacidad de almacenamiento como la 3 velocidad de lectura de los dispositivos de almacenamiento. Por este motivo es altamente recomendable el uso de discos duros sólidos. 3.2 Requisitos Hardware Procesador: Quad Core 3.07GHz ampliable a Doble Quad Core. Memoria: 16 GB ampliables a 64 GB. Almacenamiento: 3 discos duros SSD de 128GB configurados en RAID 5. 3.3 Requisitos Software Sistema Operativo: Debian GNU/Linux 6.0. Servidor Semántico: Open Source Virtuoso 6.2. 4