Descripción de la arquitectura tecnológica datos.gob.es En colaboración con

Anuncio
Descripción de la arquitectura tecnológica
datos.gob.es
En colaboración con
Las opiniones recogidas en este documento no se
corresponden, necesariamente, con las de ninguno
de los organismos públicos participantes en esta
iniciativa.
Contenidos
1
Introducción .................................................................................................................. 2
2
Equipo de Gestión de Contenidos ............................................................................... 3
2.1 Descripción ................................................................................................................ 3
2.2 Requisitos Hardware .................................................................................................. 3
2.3 Requisitos Software ................................................................................................... 3
3 Equipo de Servicios Semánticos ................................................................................. 3
3.1 Descripción ................................................................................................................ 3
3.2 Requisitos Hardware .................................................................................................. 4
3.3 Requisitos Software ................................................................................................... 4
1
1 Introducción
En este documento se especifica la arquitectura tecnológica (software y hardware) necesaria para
implantar la solución propuesta para el desarrollo del Portal OpenData Estatal.
A grandes rasgos, podemos separar la arquitectura software en dos grandes bloques: un gestor
de contenidos y un servidor semántico. Debido a los requerimientos específicos de cada una de
estas piezas software y para optimizar el uso de los recursos de los servidores, se ha decido que
cada una de ellas debe instalarse en un servidor independiente.
En el siguiente diagrama se recoge la arquitectura de implantación recomendada para este
sistema:
En los siguientes apartados se describen las necesidades hardware y software de cada una de
las máquinas. Las especificaciones se han generado en base a la experiencia adquirida en
anteriores proyectos, no obstante existe cierta flexibilidad, de manera que si alguna de las
necesidades no pudiera satisfacerse se podría buscar una solución alternativa igualmente válida.
Para la especificación de los requisitos hardware concretos de cada uno de los componentes, se
han tenido en cuenta las necesidades de rendimiento en la fase inicial del portal y la
escalabilidad de la arquitectura para la evolución del sistema en un periodo aproximado de 2
años.
2
2 Equipo de Gestión de Contenidos
2.1 Descripción
Éste es el servidor donde se instalará el Gestor de Contenidos utilizado para generar el Portal
OpenData Estatal y al que se conectarán los administradores y editores para administrar el
catálogo y las páginas asociadas.
Esta máquina dará servicio a todas las peticiones web sobre las diferentes secciones del portal.
En este mismo servidor se almacenarán también todos los ficheros en diferentes formatos (PDF,
Excel, Doc, XML,...) ofertados a los usuarios. Será por tanto necesario disponer de suficiente
capacidad de almacenamiento para poder afrontar la carga inicial de datos y garantizar de
alguna forma la escalabilidad del sistema para afrontar la carga de futuros conjuntos de datos.
2.2 Requisitos Hardware

Procesador: Quad Core 3.07GHz ampliable a Doble Quad Core.

Memoria: 16 GB ampliables a 64 GB.

Almacenamiento: 3 discos duros SAS (ampliable) de 400GB a 15000 r.p.m. configurados
en RAID 5.
2.3 Requisitos Software

Sistema Operativo: Debian GNU/Linux 6.0.

Gestor de Contenidos: Drupal 7.0

Base de Datos: MySQL 5.1.x
3 Equipo de Servicios Semánticos
3.1 Descripción
Este servidor estará dedicado exclusivamente al almacenamiento de datos semánticos (RDF) y a
la publicación de los mismos a través de un SPARQL Endpoint.
Los datos semánticos almacenados serán, por una parte, la metainformación asociada al catálogo
y la descripción de cada uno de los datasets (DCAT, voID...) y, por otra parte, aquellos conjuntos
de datos que estén disponibles en formato RDF en lugar de formatos tipo PDF, Excel...
Las consultas SPARQL necesarias para obtener los datos realizan abundantes lecturas a disco,
por tanto, en este servidor no es tan importante la capacidad de almacenamiento como la
3
velocidad de lectura de los dispositivos de almacenamiento. Por este motivo es altamente
recomendable el uso de discos duros sólidos.
3.2 Requisitos Hardware

Procesador: Quad Core 3.07GHz ampliable a Doble Quad Core.

Memoria: 16 GB ampliables a 64 GB.

Almacenamiento: 3 discos duros SSD de 128GB configurados en RAID 5.
3.3 Requisitos Software

Sistema Operativo: Debian GNU/Linux 6.0.

Servidor Semántico: Open Source Virtuoso 6.2.
4
Descargar