Breve lección de bioinformática (4)

Anuncio
Master en Bioinformática
Breve lección de bioinformática (4)
Diversidad, heterogeneidad y dispersión
Dr. Oswaldo Trelles
ots@ac.uma.es
Los “grandes volúmenes de datos” se citan como una de las características mas relevantes de
la bioinformática debido a sus tasas exponenciales de crecimiento. Sin embargo, hoy en día la
característica más saltante quizá sea la dispersión, heterogeneidad y diversidad de las fuentes
de datos y de los servicios para acceder a ellos y procesarlos.
El reto de bioinformática actual está en la integración de esas fuentes de información para dar
una visión más completa de los procesos biológicos.
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Master en Bioinformática
Adquisición masiva de datos
La bioinformática ha sido definida como una ciencia “rica en datos” y ello se debe a que las
técnicas de secuenciación han pasado de descifrar la secuencia de un gen a descifrar
genomas completos.
Pero este efecto no solo se aprecia en las secuencias, sino en rastreo (screening) masivo
de mutaciones (SNPs) y en la capacidad de estudiar el comportamiento de miles de genes
bajo diferentes condiciones experimentales
Las tasas de crecimiento de datos son explosivas, llegándose a duplicar el volumen cada
año. Por ello se requieren de los ordenadores para poderlos procesar.
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Dispersión y heterogeneidad
Master en Bioinformática
Pero no solo es una ciencia rica en datos de secuencias, sino que lo es también en diversos tipos
de datos (estructuras, expresión, masas de proteínas, rutas metabólicas, interacciones, dominios,
etc). Es decir hay gran diversidad de datos.
Desafortunadamente ha sido algo caótico y así encontramos que la misma secuencia puede estar
almacenada en diferente “formato”; y que los “sitios” donde se encuentran están dispersos
alrededor del mundo. Incluso cada laboratorio puede tener su pequeño conjunto de datos.
Hoy en día, la dispersión y heterogeneidad de los datos es posiblemente la característica que
mejor define la bioinformática.
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Master en Bioinformática
Bioinformática: trabajo basado en web
Debido a esta dispersión de los datos, buena parte de la bioinformática que hacemos se
basa en aplicaciones que ejecutan en la web. Cada proveedor de servicios, junto a los datos
que desea hacer visibles, expone unos programas (interfases web) que permiten a los
usuarios incluir sus datos y solicitar un procesamiento
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Master en Bioinformática
Diversidad, dispersión, heterogeneidad de los datos y
servicios en bioinformática
Las iniciativas del tipo Genoma Humano, los
avances en tecnologías de alto rendimiento
como la secuenciación masiva de ADN, los
microarrays de genes, el muestreo masivo de
poblaciones, etc. nos han llevado a la aserción
común de que la biología molecular es una
ciencia rica en datos que crecen a tasas
exponenciales. Sin embargo, desde la
perspectiva computacional la característica clave
de los datos biológicos no es tanto su volumen
sino su diversidad, heterogeneidad y dispersión,
lo que impide o dificulta la explotación integrada
de esta plétora de información.
(ver referencias en la siguiente página)
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Master en Bioinformática
Diversidad, dispersión, heterogeneidad de los datos y
servicios en bioinformática
Referencias (Acceder a ellas)
[1] Collins, F.S., et al. (1998). New goals for the U.S. Human
Genome Project. Science 282, 5389, 682-689.
[2] Houle et al. (2000), “Database mining in the human genome
initiative (white paper)”,
http://www.biodatabases.com/whitepaper01.html
[3] Venter, J.Craig et al. (2001), “The sequence of the human
genome”, Science, vol 291, Issue 5507, 1304-1351
[4] Schena M, Shalon D, Davis RW, Brown PO (1995), “Quantitative
monitoring of gene expression patterns with a complementary DNA
microarray”. Science 1995 Oct 20;270(5235):467-70
[5] Zimdahl, H., et al. (2004) “A SNP Map of the Rat Genome
generated from cDNA sequences”, Science Vol 303, Feb 2004
[6] NCBI, National Center for Biotechnology Information (1999)
Genebank statistics.
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
[7] Expasy server: Swiss-prot protein knowledgeable statistics:
http://ca.expasy.org/sprot/relnotes/relstat.html
[8] EBI; European Bioinformatics Institute, Statistics:
http://www3.ebi.ac.uk/Services/DBStats
[9] Genome databases: http://gdbwww.gdb.org/
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Master en Bioinformática
Diversidad, dispersión, heterogeneidad de los datos y
servicios en bioinformática
Actualmente existen más de 600 bases de datos
biológicas [1] distribuidas, replicadas, en distintos
formatos, de diversa calidad, y relacionadas en
mayor o menor medida.
Esto significa que los mismos conceptos a nivel
de datos pueden estar representados de forma
diferente. Por ejemplo, el objeto quizá más usado
en bioinformática sean las secuencias biológicas,
que –estrictamente- se define como una cadena
ordenada y finita de símbolos del alfabeto de los
aminoácidos o de los nucleótidos.
Sin embargo, para un usuario puede significar “la
ficha completa de la secuencia” (incluyendo
anotaciones), estar en diferentes formatos (fasta,
Genbank, EMBL, o incluso nativo), estar
codificada en una o tres letras por símbolo, etc..
Este caso es tan frecuente que ya existen procesos especializados que son capaces de
transformar diversos tipos de formatos
Revise: [1] Infobiogen: Catalog of Databases: http://www.infobiogen.fr/services/dbcat
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Master en Bioinformática
LOCUS
AL009126 4214814 bp
circular BCT
10-MAY-1999
ID
100K_RAT
STANDARD;
PRT;
889 AA.
DEFINITION Bacillus subtilis complete genome.
AC
Q62671;
DT
01-NOV-1997 (Rel. 35, Created)
ACCESSION
AL009126
DT
15-JUL-1999 (Rel. 38, Last annotation update)
SOURCE
Bacillus subtilis.
DE
100 KD PROTEIN (EC 6.3.2.-).
ORGANISM Bacillus subtilis
OS
Rattus norvegicus (Rat).
Eubacteria; Firmicutes; Low G+C gram-positive
bacteria; Bacillaceae; Bacillus.
OC
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia;
REFERENCE
1 (bases 1 to 4214814)
OC
Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus.
AUTHORS
Kunst,F., Ogasawara,N., Moszer,I., RN
Albertini,A.M.,
Alloni,G.,
[1]
Azevedo,V., Bertero,M.G., Bessieres,P.,
Bolotin,A.,
Borchert,S.,
RP
SEQUENCE
FROM N.A.
STRAIN=WISTAR; TISSUE=TESTIS;
Borriss,R., Boursier,L., Brans,A., RC
Braun,M.,
MEDLINE; 92253337.
TITLE
The complete genome sequence of theRXgram-positive
bacterium Bacillus subtilis
JOURNAL
Nature 390 (6657), 249-256 (1997) RA MUELLER D., REHBEIN M., BAUMEISTER H., RICHTER D.;
RT
"Molecular characterization of a novel rat protein structurally
FEATURES
Location/Qualifiers
RT
related to poly(A) binding proteins and the 70K protein of the U1
source
1..4214814
RT
small nuclear ribonucleoprotein particle (snRNP).";
/organism="Bacillus subtilis"
RL
Nucleic Acids Res. 20:1471-1475(1992).
/db_xref="taxon:1423"
RN
[2]
gene
410..1750
RP
ERRATUM.
/gene="dnaA"
RA
MUELLER D., REHBEIN M., BAUMEISTER H., RICHTER D.;
RL
Nucleic Acids Res. 20:2624-2624(1992).
/db_xref="EMBL:2632267"
CC
-!- FUNCTION: E3 UBIQUITIN-PROTEIN LIGASE WHICH ACCEPTS UBIQUITIN FROM
CDS
410..1750
CC
AN E2 UBIQUITIN-CONJUGATING ENZYME IN THE FORM OF A THIOESTER AND
/gene="dnaA"
CC
THEN replication
DIRECTLY TRANSFERS
UBIQUITIN TO TARGETED SUBSTRATES (BY
/function="initiation of chromosome
(DNATHE
synthesis)"
CC
SIMILARITY). THIS PROTEIN MAY BE INVOLVED IN MATURATION AND/OR
/note="alternate gene name:
dnaH,
dnaJ,
dnaK"
CC
POST-TRANSCRIPTIONAL REGULATION OF MRNA.
/codon_start=1
CC
---------------------------------------------------------------------/transl_table=11
CC
This SWISS-PROT entry is copyright. It is produced through ...
/protein_id="CAB11777.1" CC --------------- ------------------------------------------------------/db_xref="GI:2632268"
DR
EMBL; X64411; CAA45756.1; -.
DR
PFAM; PF00632; HECT; 1.
/translation="MENILDLWNQALAQIEKKLSKPSFETWMKSTKAHSLQGDTLTI
DR
PFAM; PF00658; PABP; 1.
APNEFARDWLESRYLHLIADTIYELTGEELSIKFVIPQNQDVEDFMPKPQVKKAVKED
KW
Ubiquitin conjugation; Ligase.
TSDFPQNMLNPKYTFDTFVIGSGNRFAHAASLAVAEAPAKAYNPLFIYGGVGLGKTHL
FT
DOMAIN
77
88
ASP/GLU-RICH (ACIDIC).
FT
DOMAIN
127
150
PRO-RICH.
MHAIGHYVIDHNPSAKVVYLSSEKFTNEFINSIRDNKAVDFRNRYRNVDVLLIDDIQF
FT
DOMAIN
579
590
ASP/GLU-RICH (ACIDIC).
LAGKEQTQEEFFHTFNTLHEESKQIVISSDRPPKEIPTLEDRLRSRFEWGLITDITPP
FT
BINDING
858
858
UBIQUITIN (BY SIMILARITY).
DLETRIAILRKKAKAEGLDIPNEVMLYIANQIDSNIRELEGALIRVVAYSSLINKDIN
SQ
SEQUENCE
889 AA; 100368 MW; DD7E6C7A CRC32;
MMSARGDFLN YALSLMRSHN DEHSDVLPVL DVCSLKHVAY VFQALIYWIK AMNQQTTLDT
LSREMTDSSLPKIGEEFGGRDHTTVIHAHEKISKLLADDEQLQQHVKEIKEQLK“
PQLERKRTRE LLELGIDNED SEHENDDDTS QSATLNDKDD ESLPAETGQN HPFFRRSDSM
gene
1939..3106
VYEYVRKYAE HRMLVVAEQP LHAMRKGLLD VLPKNSLEDL TAEDFRLLVN GCGEVNVQML
ISFTSFNDES GENAEKLLQF KRWFWSIVER MSMTERQDLV YFWTSSPSLP ASEEGFQPMP
/gene="dnaN“...
SwissProtEMBL
Genbank
SITIRPPDDQ HLPTANTCIS RLYVPLYSSK QILKQKLLLA IKTKNFGFV
Formato de los datos
//
Incluso en los sitios de referencia (u oficiales) como el EMBL, NCBI o el EBI, mantienen para el mismo
tipo de datos (secuencias biológicas en el ejemplo) distinto “formato” (GenBank, EMBL/Swissprot), ; lo
que dificulta tanto la interpretación humana como la automatización.
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Master en Bioinformática
Ontologías
Para podernos referir a los mismos “objetos” biológicos, con independencia del lugar y formato en
que se encuentren almacenados necesitamos un esquema de referencia superior a ellos: una
ontología de datos, en el que se establezca su significado semántico y la cual podamos usar como
referencia general para “integrar” datos provenientes de distintas fuentes.
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Master en Bioinformática
Arquitecturas para la integración de datos,
servicios y capacidad de cálculo
Para poder usar los datos y los servicios de forma uniforme se
necesitan arquitecturas de integración que permitan que, servicios
web –existentes y de nueva creación- que hospeden datos,
herramientas y/o oferten capacidad computacional a la comunidad
científica en el contexto de la bioinformática puedan:
• Disponer de un esquema común de representación de datos que
permita la identificación (i.e. sintaxis compartida) y
mantenimiento de un conjunto disperso y heterogéneo de datos
para facilitar su integración.
• Disponer de un esquema que permita el entendimiento
automático del significado de los datos (i.e.semántica compartida)
• Proporcionar métodos de acceso manuales y automáticos para la
identificación de datos relacionados y servicios apropiados (i.e.
infraestructura de identificación de recursos) que permita la interoperabilidad de los recursos vía la semántica compartida
soportada por una sintaxis común.
Estas arquitecturas deben permitir la ejecución integrada de
servicios, entendiéndose por ello la capacidad de los servicios
para entender los datos provenientes de otros servicios y poder
actuar coherentemente sobre ellos de forma automática.
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Flujos de tareas:
Una nueva forma de hacer bioinformática
Master en Bioinformática
Las arquitecturas de integración nos deben permitir la
definición de flujos de tareas mediante el “cableado” de
distintos servicios que proporcionen una visión más
completa de los procesos biológicos bajo estudio.
La integración de datos incluye las fuentes bibliográficas
en lo que se ha dado en llamar “text mining” así como las
diversas fuentes de datos tradicionales que hemos visto.
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Master en Bioinformática
La versión ampliada de este tema se encuentra en los apuntes del Módulo 1:Breve
lección de bioinformática, accesibles a través de la plataforma Web de
aprendizaje virtual de la UNIA.
Estos temas además forman el núcleo de la formación que ofrece este curso y por
tanto serán desarrollados en detalle en los siguientes módulos.
Consulta estos materiales para completar tus conocimientos
Introducción a la Bioinformática
Dr. Oswaldo Trelles
Descargar