Investigadores del CNIO publican un estudio sobre las limitaciones actuales... las publicaciones científicas y de posibles maneras para hacer más...

Anuncio
Investigadores del CNIO publican un estudio sobre las limitaciones actuales de
las publicaciones científicas y de posibles maneras para hacer más accesible la
información biológica
F Leitner, A Chatr-aryamontri, SA Mardis, A Ceol, M Krallinger, L Licata, L Hirschman, G
Cesareni & A Valencia (2010). The FEBS Letters/BioCreative II.5 experiment: making biological
information accessible. Nat Biotechnol 28, 897-899
Madrid, 10 de septiembre, 2010 - Investigadores del Grupo de Biología Estructural
Computacional, junto con bio-curadores profesionales de una base de datos biológica (la base de
datos de interacciones de proteínas MINT) y editores de una destacada colección de revistas (FEBS
Letters y FEBS Journal, editorial Elsevier), han anunciado los resultados de una investigación
conjunta de dos años de duración con el objetivo de hacer la información contenida en
publicaciones científicas más accesible para los investigadores.
Las publicaciones científicas carecen de una representación estructurada de la información que
reportan. La consecuencia es que la identificación de los datos relevantes y la adquisición de
trabajos relacionados se ven severamente complicados. Por ejemplo, identificar la especie exacta
(organismo) usada en un experimento, las interacciones establecidas por el trabajo o los métodos
experimentales utilizados sólo pueden realizarse mediante un estudio cuidadoso del artículo en su
totalidad, o incluso de la cadena de publicaciones anteriores de los autores. Para establecer
relaciones directamente entre hechos con y entre las publicaciones, los datos y sus correspondientes
publicaciones necesitan ser almacenadas en un repositorio estructurado (base de datos). La
aproximación actual al problema de catalogar el contenido de un artículo en estos repositorios está
basada en una curación manual llevada a cabo por los expertos en el dominio empleado por estas
bases de datos. Sin embargo, este proceso de curación manual es lento y las bases de datos no
pueden lidiar con el ingente volumen de literatura científica, con la consecuencia de que mucha de
la información publicada no está cubierta. Para explorar estrategias más eficaces para extraer
"resúmenes digitales" de artículos científicos, los editores de FEBS Letters comenzaron en 2008 a
pedir a los autores que complementaran sus publicaciones con anotaciones, que se añadirían a
repositorios biológicos asociados con los artículos, con la intención de compartir la responsabilidad
entre curadores y autores.
En 2009, estos mismos artículos que fueron anotados por autores y por curadores fueron usados en
una competición orquestada por investigadores del CNIO. Se pidió a los participantes que
extrajeran las anotaciones básicas a partir de los artículos, como lo hicieron los autores y curadores,
pero usando métodos de inteligencia artificial para el procesamiento del lenguaje natural. La
plantilla del CNIO actuaría como juez independiente para evaluar la calidad de los resultados
producidos por estos sistemas automáticos. Adicionalmente, toda la competición se llevó a cabo en
un entorno 'on-line' para simular y explorar la viabilidad de incorporar estos sistemas automáticos
en un protocolo web, donde autores y curadores pudieran derivar sus anotaciones para un artículo a
partir de esta colección automáticamente generada, en lugar de tener que hacerlo desde cero.
El trabajo ahora publicado por los investigadores del CNIO describe la calidad y la viabilidad de
cada una de las estrategias; comparando los resultados de estos sistemas automáticos con las
anotaciones manuales generadas por autores y curadores. La principal métrica de evaluación es la
F1, la media harmónica entre la precisión y la cobertura de un resultado comparándolo con las
anotaciones correctas. Por ejemplo, cuando se mide la calidad de los identificadores de proteínas
para una base de datos asignados a un articulo, los sistemas automáticos obtienen un valor para F1
de 59%, los autores de 71%, los curadores de bases de datos distintas de 86% (concordancia entre
bases de datos) y curadores de la misma base de datos de 92%. Adicionalmente, los investigadores
demostraron que combinando cualquiera de estas fuentes de anotaciones se podía mejorar la calidad
de las anotaciones.
Los investigadores del CNIO esperan que en el futuro este trabajo permita crear un armazón en el
que sistemas automáticos interactúen con autores, curadores e investigadores en biomedicina para
incrementar la cantidad de información catalogada en repositorios estructurados. Estos resultados
demuestran que los sistemas automáticos pueden ayudar significativamente a incrementar la
accesibilidad a la información científica, a la vez que reducen el tiempo de anotación manual,
haciendo así posible cubrir una porción más extensa de las publicaciones biomédicas.
Complementando a la publicación principal, se han publicado dos trabajos que estudian de manera
concreta la preparación y evaluación de los sistemas automáticos y la colección de artículos usados
en esta investigación:
F Leitner, SA Mardis, M Krallinger, G Cesareni, L Hirschman, and A Valencia (2010). An
Overview of BioCreative II.5. IEEE/ACM Trans Comput Biol Bioinform 7, 385-99.
F Leitner, M Krallinger, G Cesareni, and A Valencia (2010). The FEBS Letters SDA corpus: A
collection of protein interaction articles with high quality annotations for the BioCreative II.5 online
challenge and the text mining community. FEBS Letters (in press).
Descargar