Plan de gestión de datos de investigación en Horizon 2020

Anuncio
Plan de gestión de datos de investigación en Horizon 2020 Juan Pavón
Director Oficina de Apoyo a la Investigación UCM
jpavon@ucm.es
www.ucm.es/oai
Plan de gestión de datos de investigación en Horizon 2020, by Juan Pavón Mestras is licensed under a Creative Commons Reconocimiento‐CompartirIgual 3.0 Unported License.
¿Qué es el acceso abierto?

Acceso en línea a información científica 

sin cargo para el usuario de forma reutilizable


sujeto a términos y condiciones indicados en el acuerdo de uso
Información científica: 

Artículos de investigación científica publicados en revistas académicas
Datos de investigación: Datos subyacentes a las publicaciones, datos procesados y datos en bruto 





Estadísticas
Resultados de experimentos
Medidas
Observaciones de trabajos de campo
Resultados de encuestas
Grabaciones de entrevistas e imágenes
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
 Estos datos deberán estar disponibles en formato digital
2
Política de acceso abierto en H2020


Obligatoriedad de publicaciones open access
Piloto para datos de investigación abiertos (7 áreas)


De forma experimental se propone el depósito en abierto de datos resultados de investigación producidos en los proyectos
7 áreas








Future and Emerging Technologies (FET)
Research infrastructures – part e‐Infrastructures
LEIT – Information and Communication Technologies
Secure, Clean and Efficient Energy – part Smart cities and communities
retos Climate Action, Environment, Resource Efficiency and Raw materials
sociales
Europe in a changing world – inclusive, innovative and reflective Societies
Science with and for Society
Excepciones:



Protección IPR, datos personales, por razones de seguridad,
Compromete seriamente el resultado final del proyecto
No se generan datos
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
3
Características de los datos de investigación científicos

Según el Anexo 2 de Guidelines on Data Management in Horizon 2020, los datos de la investigación científica deberán ser fácilmente:
1. Descubribles/Encontrables
2. Accesibles
3. Evaluables e inteligibles
4. Utilizables más allá del propósito original para el cual fueron recogidos
5. Interoperables conforme a estándares de calidad específicos
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
4
Otros términos
http://www.winshuttle.es/big‐data‐historia‐cronologica/
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
5
Glosario

Big data



Open data




Datos que se pueden usar, reutilizar y redistribuir
Requisitos de atribución o compartir similarmente
Muchos de instancias gubernamentales
Linked data



Datos masivos
Las 3 Vs: Volumen‐Velocidad‐Variedad
Método de publicación de datos estructurados para que puedan ser interconectados y más útiles
Usando estándares de W3C (HTTP, RDF, URI)
Metadatos


Datos que describen datos
http://en.wikipedia.org/wiki/Metadata_standards
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
6
Glosario

Base de datos


Colección estructurada de datos
Gestor de base de datos (DBMS): software que almacena y da acceso a datos de forma estructurada



Vista o recuperación de datos almacenados
Data analytics


ACID: atomicity, consistency, isolation, and durability
Data access


SQL / noSQL
Uso de algoritmos software para dar un significado a los datos
Data mining

Proceso de derivar patrones o conocimiento de grandes conjuntos de datos
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
7
Plan de gestión de datos (PGD)

Los proyectos que participan en el Piloto de Datos de Investigación Abiertos deberán proporcionar una primera versión del PGD en los seis primeros meses del proyecto



Documento que describe el tratamiento que van a recibir los datos de investigación recopilados o generados en el curso de un proyecto de investigación y después de que se haya terminado
Se evaluará dentro del criterio “Impacto”
Los proyectos financiados por Horizonte 2020 que no participan en el piloto pueden presentar un PGD si lo consideran importante para la investigación pero no es obligatorio

Si se pone se puede valorar positivamente
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
8
Plan de Gestión de Datos (PGD)
Qué datos se van a recoger o generar
 Qué metodología y normas se van a emplear
 Cómo y si se van a compartir y poner en abierto
 Cómo se van a preservar

Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
9
Tipos de datos a incluir en un PGD

El Piloto de datos de Investigación en abierto (H2020) se aplica a dos tipos de datos: 

Datos para validar resultados presentados en publicaciones científicas
Otros datos derivados de los proyectos


Los datos deben estar acompañados de meta‐datos


Deben especificarse en el plan de gestión de datos
Descripción formal de los datos
Se definirá un PGD por cada conjunto de datos (data set)
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
10
Datos que no se incluyen en un PGD

Por razones de ética, privacidad u oportunidad




Análisis preliminares, borradores de artículos científicos, planes para futuras investigaciones
Secretos comerciales, información comercial, materiales confidenciales hasta el momento de su publicación, o información similar que esté protegida por la Ley
Información médica o personal así como información cuya divulgación constituya una clara invasión injustificada de la privacidad personal
Datos que puedan ser utilizados para identificar a una persona en un estudio de investigación
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
11
Ventajas de un PGD para los investigadores


Una correcta gestión de datos es fundamental para el éxito de la investigación
Según el Informe preliminar para la conservación y reutilización de datos científicos en España (FECYT, RECOLECTA) los beneficios son: 




Posibilidad de encontrar y comprender los datos cuando se necesite utilizarlos
Evitar duplicaciones y labores innecesarias Validación de resultados
Los datos en abierto tendrán mayor visibilidad
Los datos utilizados y citados por otros investigadores darán más prestigio a la investigación
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
12
Ventajas de un PGD para los investigadores

Un PGD también permite al investigador:

Cumplir con los requisitos de la agencia de financiación









Proyectos piloto en H2020
Plan nacional I+D+i: obligatoriedad de depositar datos de estudios sociológicos cuantitativos en Banco de Datos Específico de Estudios Sociales, en el Centro de Investigaciones Sociológicas
Garantizar la integridad de la investigación y la reproducibilidad
Aumentar la eficiencia y la calidad de la investigación, tiempo y recursos a largo plazo
Mejorar la protección de datos y minimizar el riesgo de pérdida de datos
Cumplir con los requisitos de la agencia de financiación
Asegurar que los datos de la investigación son precisos, completos, auténticos y fidedignos
Ahorrar tiempo y recursos a largo plazo
Garantizar la conservación y preservación de los datos de la investigación
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
13
Directrices H2020 para gestión de datos





En Horizonte 2020 se realizará una acción piloto para el acceso abierto para la búsqueda de datos
Los proyectos participantes deberán desarrollar un PGD (Data Management Plan, DMP) en el cual se especifique qué datos estarán abiertos
Este documento aporta las líneas a seguir en la gestión de datos en Horizonte 2020
Está dirigido a solicitantes y beneficiarios de proyectos H2020
El objetivo es dar instrucciones sobre cómo cumplir con las responsabilidades relacionadas con la investigación de datos de calidad, colaboración y seguridad
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
14
Directrices H2020 para gestión de datos

Presentación y evaluación de propuestas 


La política de gestión de datos indicará:





Las propuestas tipo Research & Innovation Actions (RIA) e Innovation
Actions (IA), incluirán un apartado sobre gestión de datos
Será evaluado bajo el criterio “Impacto”.
Qué tipo de datos generará el proyecto
Qué estándares se utilizarán
Cómo se utilizarán, compartirán/serán accesibles para su comprobación y reutilización
Cómo se conservarán y protegerán esos datos
El Portal del Participante ofrece una descripción detallada de los requisitos de la Open Research Data Pilot
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
15
Directrices H2020 para gestión de datos

Revisiones en el proyecto



La primera versión del PGD deberá entregarse durante los primeros 6 meses de marcha del proyecto (como un deliverable)


EL PGD describe el ciclo vital de la gestión de datos para todo el conjunto de datos que será recogido, procesado o generado por el proyecto de investigación.
El PGD no es un documento fijo: evolucionará adquiriendo más precisión y entidad durante el período de vigencia del proyecto
Plantilla proporcionada por la Comisión
En fases sucesivas del proyecto se podrán suministrar versiones más elaboradas y completas


EL PGD deberá actualizarse por lo menos una vez hacia la mitad del transcurso del proyecto y otra al final para realizar los ajustes necesarios sobre los datos generados y los usos potenciales por el consorcio
Adaptarse a las necesidades que se vayan observando en su uso
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
16
Cómo elaborar un plan de gestión de datos

Seguir una plantilla Ejemplo: ICPSR Data Management and Curation
http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/dmp/framework.html








Data Description
Access and Sharing
Metadata
Intellectual Property Rights
Ethics and Privacy
Format
Archiving and Preservation
Storage and Backup
Juan Pavón, UCM 2014








Security Responsibility
Existing Data Selection and Retention Periods
Audience
Data Organization
Quality Assurance
Legal requirements
Plan de Gestión de Datos ‐ H2020
17
Guía para elaboración de PGD en H2020
Anexo 1 de Guidelines on Data Management in Horizon 2020

Referencia y nombre del Data set


Descripción del conjunto de datos a generar o recoger





Referencia a estándares en la disciplina (si existen)
Compartición de datos





Origen (si son recogidos), naturaleza y escala
A quién le pueden ser de utilidad
Publicaciones científicas relacionadas
Información sobre la existencia de datos similares o relacionados y cómo integrarlos y reutilizarlos
Estándares y metadatos


Identificación del conjunto de datos a producir
Procedimientos de acceso, mecanismos técnicos para su difusión, herramientas software que faciliten su reutilización
Acceso completamente abierto o restringido a grupos específicos
Identificación del repositorio y tipo (institucional, estándar en la disciplina, etc.)
Si no será compartido, indicar las razones
Para cada data set

Archivo y conservación (incluido el almacenamiento y copias de seguridad)


Cómo y por cuanto tiempo, y volumen estimado
Costes asociados y cómo se cubrirán
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
18
Cómo elaborar un plan de gestión de datos

Usar herramienta de generación de planes de gestión de datos
DMPTool, desarrollada por el DCC (Digital Curation Center, UK)
https://dmponline.dcc.ac.uk/
 Herramienta en línea que ayuda en el proceso de creación de un PGD
 La herramienta permite crear un PGD con una serie de pasos guiados
 Darse de alta en el portal, cumplimentando email y password (en sign up, my organization is not listed)
 Crear un plan: seleccionar “Create plan”



Seleccionar las opciones de los menús desplegables y casillas de verificación para decidir qué preguntas y orientaciones se desean (p.ej. H2020 project)
La interfaz con pestañas permite navegar a través de diferentes funciones al editar el PGD
Opciones para


Compartir un plan con otros usuarios
Exportar el plan en varios formatos
Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
19
Más información

H2020 Participant Portal:
http://ec.europa.eu/research/participants/portal
 Guidelines on Data Management in Horizon 2020
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020‐hi‐oa‐data‐mgt_en.pdf

Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020‐hi‐oa‐pilot‐guide_en.pdf

Guías para creación de planes de gestión de datos

How to Develop a Data Management and Sharing Plan. DCC http://www.dcc.ac.uk/resources/how‐guides/develop‐data‐plan
Herramienta DMPOnline: https://dmponline.dcc.ac.uk/
Creating a data management plan. University of Minnesota


https://www.lib.umn.edu/datamanagement/DMP

Data management plans. Standford University
http://library.stanford.edu/research/data‐management‐services/data‐management‐plans

G. Copeiro et al. Informe preliminar para la conservación y reutilización de los datos científicos en España. Fecyt 2012 Juan Pavón, UCM 2014
Plan de Gestión de Datos ‐ H2020
20
Descargar