Master en Bioinformática Breve lección de bioinformática (4) Diversidad, heterogeneidad y dispersión Dr. Oswaldo Trelles ots@ac.uma.es Los “grandes volúmenes de datos” se citan como una de las características mas relevantes de la bioinformática debido a sus tasas exponenciales de crecimiento. Sin embargo, hoy en día la característica más saltante quizá sea la dispersión, heterogeneidad y diversidad de las fuentes de datos y de los servicios para acceder a ellos y procesarlos. El reto de bioinformática actual está en la integración de esas fuentes de información para dar una visión más completa de los procesos biológicos. Introducción a la Bioinformática Dr. Oswaldo Trelles Master en Bioinformática Adquisición masiva de datos La bioinformática ha sido definida como una ciencia “rica en datos” y ello se debe a que las técnicas de secuenciación han pasado de descifrar la secuencia de un gen a descifrar genomas completos. Pero este efecto no solo se aprecia en las secuencias, sino en rastreo (screening) masivo de mutaciones (SNPs) y en la capacidad de estudiar el comportamiento de miles de genes bajo diferentes condiciones experimentales Las tasas de crecimiento de datos son explosivas, llegándose a duplicar el volumen cada año. Por ello se requieren de los ordenadores para poderlos procesar. Introducción a la Bioinformática Dr. Oswaldo Trelles Dispersión y heterogeneidad Master en Bioinformática Pero no solo es una ciencia rica en datos de secuencias, sino que lo es también en diversos tipos de datos (estructuras, expresión, masas de proteínas, rutas metabólicas, interacciones, dominios, etc). Es decir hay gran diversidad de datos. Desafortunadamente ha sido algo caótico y así encontramos que la misma secuencia puede estar almacenada en diferente “formato”; y que los “sitios” donde se encuentran están dispersos alrededor del mundo. Incluso cada laboratorio puede tener su pequeño conjunto de datos. Hoy en día, la dispersión y heterogeneidad de los datos es posiblemente la característica que mejor define la bioinformática. Introducción a la Bioinformática Dr. Oswaldo Trelles Master en Bioinformática Bioinformática: trabajo basado en web Debido a esta dispersión de los datos, buena parte de la bioinformática que hacemos se basa en aplicaciones que ejecutan en la web. Cada proveedor de servicios, junto a los datos que desea hacer visibles, expone unos programas (interfases web) que permiten a los usuarios incluir sus datos y solicitar un procesamiento Introducción a la Bioinformática Dr. Oswaldo Trelles Master en Bioinformática Diversidad, dispersión, heterogeneidad de los datos y servicios en bioinformática Las iniciativas del tipo Genoma Humano, los avances en tecnologías de alto rendimiento como la secuenciación masiva de ADN, los microarrays de genes, el muestreo masivo de poblaciones, etc. nos han llevado a la aserción común de que la biología molecular es una ciencia rica en datos que crecen a tasas exponenciales. Sin embargo, desde la perspectiva computacional la característica clave de los datos biológicos no es tanto su volumen sino su diversidad, heterogeneidad y dispersión, lo que impide o dificulta la explotación integrada de esta plétora de información. (ver referencias en la siguiente página) Introducción a la Bioinformática Dr. Oswaldo Trelles Master en Bioinformática Diversidad, dispersión, heterogeneidad de los datos y servicios en bioinformática Referencias (Acceder a ellas) [1] Collins, F.S., et al. (1998). New goals for the U.S. Human Genome Project. Science 282, 5389, 682-689. [2] Houle et al. (2000), “Database mining in the human genome initiative (white paper)”, http://www.biodatabases.com/whitepaper01.html [3] Venter, J.Craig et al. (2001), “The sequence of the human genome”, Science, vol 291, Issue 5507, 1304-1351 [4] Schena M, Shalon D, Davis RW, Brown PO (1995), “Quantitative monitoring of gene expression patterns with a complementary DNA microarray”. Science 1995 Oct 20;270(5235):467-70 [5] Zimdahl, H., et al. (2004) “A SNP Map of the Rat Genome generated from cDNA sequences”, Science Vol 303, Feb 2004 [6] NCBI, National Center for Biotechnology Information (1999) Genebank statistics. http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html [7] Expasy server: Swiss-prot protein knowledgeable statistics: http://ca.expasy.org/sprot/relnotes/relstat.html [8] EBI; European Bioinformatics Institute, Statistics: http://www3.ebi.ac.uk/Services/DBStats [9] Genome databases: http://gdbwww.gdb.org/ Introducción a la Bioinformática Dr. Oswaldo Trelles Master en Bioinformática Diversidad, dispersión, heterogeneidad de los datos y servicios en bioinformática Actualmente existen más de 600 bases de datos biológicas [1] distribuidas, replicadas, en distintos formatos, de diversa calidad, y relacionadas en mayor o menor medida. Esto significa que los mismos conceptos a nivel de datos pueden estar representados de forma diferente. Por ejemplo, el objeto quizá más usado en bioinformática sean las secuencias biológicas, que –estrictamente- se define como una cadena ordenada y finita de símbolos del alfabeto de los aminoácidos o de los nucleótidos. Sin embargo, para un usuario puede significar “la ficha completa de la secuencia” (incluyendo anotaciones), estar en diferentes formatos (fasta, Genbank, EMBL, o incluso nativo), estar codificada en una o tres letras por símbolo, etc.. Este caso es tan frecuente que ya existen procesos especializados que son capaces de transformar diversos tipos de formatos Revise: [1] Infobiogen: Catalog of Databases: http://www.infobiogen.fr/services/dbcat Introducción a la Bioinformática Dr. Oswaldo Trelles Master en Bioinformática LOCUS AL009126 4214814 bp circular BCT 10-MAY-1999 ID 100K_RAT STANDARD; PRT; 889 AA. DEFINITION Bacillus subtilis complete genome. AC Q62671; DT 01-NOV-1997 (Rel. 35, Created) ACCESSION AL009126 DT 15-JUL-1999 (Rel. 38, Last annotation update) SOURCE Bacillus subtilis. DE 100 KD PROTEIN (EC 6.3.2.-). ORGANISM Bacillus subtilis OS Rattus norvegicus (Rat). Eubacteria; Firmicutes; Low G+C gram-positive bacteria; Bacillaceae; Bacillus. OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia; REFERENCE 1 (bases 1 to 4214814) OC Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus. AUTHORS Kunst,F., Ogasawara,N., Moszer,I., RN Albertini,A.M., Alloni,G., [1] Azevedo,V., Bertero,M.G., Bessieres,P., Bolotin,A., Borchert,S., RP SEQUENCE FROM N.A. STRAIN=WISTAR; TISSUE=TESTIS; Borriss,R., Boursier,L., Brans,A., RC Braun,M., MEDLINE; 92253337. TITLE The complete genome sequence of theRXgram-positive bacterium Bacillus subtilis JOURNAL Nature 390 (6657), 249-256 (1997) RA MUELLER D., REHBEIN M., BAUMEISTER H., RICHTER D.; RT "Molecular characterization of a novel rat protein structurally FEATURES Location/Qualifiers RT related to poly(A) binding proteins and the 70K protein of the U1 source 1..4214814 RT small nuclear ribonucleoprotein particle (snRNP)."; /organism="Bacillus subtilis" RL Nucleic Acids Res. 20:1471-1475(1992). /db_xref="taxon:1423" RN [2] gene 410..1750 RP ERRATUM. /gene="dnaA" RA MUELLER D., REHBEIN M., BAUMEISTER H., RICHTER D.; RL Nucleic Acids Res. 20:2624-2624(1992). /db_xref="EMBL:2632267" CC -!- FUNCTION: E3 UBIQUITIN-PROTEIN LIGASE WHICH ACCEPTS UBIQUITIN FROM CDS 410..1750 CC AN E2 UBIQUITIN-CONJUGATING ENZYME IN THE FORM OF A THIOESTER AND /gene="dnaA" CC THEN replication DIRECTLY TRANSFERS UBIQUITIN TO TARGETED SUBSTRATES (BY /function="initiation of chromosome (DNATHE synthesis)" CC SIMILARITY). THIS PROTEIN MAY BE INVOLVED IN MATURATION AND/OR /note="alternate gene name: dnaH, dnaJ, dnaK" CC POST-TRANSCRIPTIONAL REGULATION OF MRNA. /codon_start=1 CC ---------------------------------------------------------------------/transl_table=11 CC This SWISS-PROT entry is copyright. It is produced through ... /protein_id="CAB11777.1" CC --------------- ------------------------------------------------------/db_xref="GI:2632268" DR EMBL; X64411; CAA45756.1; -. DR PFAM; PF00632; HECT; 1. /translation="MENILDLWNQALAQIEKKLSKPSFETWMKSTKAHSLQGDTLTI DR PFAM; PF00658; PABP; 1. APNEFARDWLESRYLHLIADTIYELTGEELSIKFVIPQNQDVEDFMPKPQVKKAVKED KW Ubiquitin conjugation; Ligase. TSDFPQNMLNPKYTFDTFVIGSGNRFAHAASLAVAEAPAKAYNPLFIYGGVGLGKTHL FT DOMAIN 77 88 ASP/GLU-RICH (ACIDIC). FT DOMAIN 127 150 PRO-RICH. MHAIGHYVIDHNPSAKVVYLSSEKFTNEFINSIRDNKAVDFRNRYRNVDVLLIDDIQF FT DOMAIN 579 590 ASP/GLU-RICH (ACIDIC). LAGKEQTQEEFFHTFNTLHEESKQIVISSDRPPKEIPTLEDRLRSRFEWGLITDITPP FT BINDING 858 858 UBIQUITIN (BY SIMILARITY). DLETRIAILRKKAKAEGLDIPNEVMLYIANQIDSNIRELEGALIRVVAYSSLINKDIN SQ SEQUENCE 889 AA; 100368 MW; DD7E6C7A CRC32; MMSARGDFLN YALSLMRSHN DEHSDVLPVL DVCSLKHVAY VFQALIYWIK AMNQQTTLDT LSREMTDSSLPKIGEEFGGRDHTTVIHAHEKISKLLADDEQLQQHVKEIKEQLK“ PQLERKRTRE LLELGIDNED SEHENDDDTS QSATLNDKDD ESLPAETGQN HPFFRRSDSM gene 1939..3106 VYEYVRKYAE HRMLVVAEQP LHAMRKGLLD VLPKNSLEDL TAEDFRLLVN GCGEVNVQML ISFTSFNDES GENAEKLLQF KRWFWSIVER MSMTERQDLV YFWTSSPSLP ASEEGFQPMP /gene="dnaN“... SwissProtEMBL Genbank SITIRPPDDQ HLPTANTCIS RLYVPLYSSK QILKQKLLLA IKTKNFGFV Formato de los datos // Incluso en los sitios de referencia (u oficiales) como el EMBL, NCBI o el EBI, mantienen para el mismo tipo de datos (secuencias biológicas en el ejemplo) distinto “formato” (GenBank, EMBL/Swissprot), ; lo que dificulta tanto la interpretación humana como la automatización. Introducción a la Bioinformática Dr. Oswaldo Trelles Master en Bioinformática Ontologías Para podernos referir a los mismos “objetos” biológicos, con independencia del lugar y formato en que se encuentren almacenados necesitamos un esquema de referencia superior a ellos: una ontología de datos, en el que se establezca su significado semántico y la cual podamos usar como referencia general para “integrar” datos provenientes de distintas fuentes. Introducción a la Bioinformática Dr. Oswaldo Trelles Master en Bioinformática Arquitecturas para la integración de datos, servicios y capacidad de cálculo Para poder usar los datos y los servicios de forma uniforme se necesitan arquitecturas de integración que permitan que, servicios web –existentes y de nueva creación- que hospeden datos, herramientas y/o oferten capacidad computacional a la comunidad científica en el contexto de la bioinformática puedan: • Disponer de un esquema común de representación de datos que permita la identificación (i.e. sintaxis compartida) y mantenimiento de un conjunto disperso y heterogéneo de datos para facilitar su integración. • Disponer de un esquema que permita el entendimiento automático del significado de los datos (i.e.semántica compartida) • Proporcionar métodos de acceso manuales y automáticos para la identificación de datos relacionados y servicios apropiados (i.e. infraestructura de identificación de recursos) que permita la interoperabilidad de los recursos vía la semántica compartida soportada por una sintaxis común. Estas arquitecturas deben permitir la ejecución integrada de servicios, entendiéndose por ello la capacidad de los servicios para entender los datos provenientes de otros servicios y poder actuar coherentemente sobre ellos de forma automática. Introducción a la Bioinformática Dr. Oswaldo Trelles Flujos de tareas: Una nueva forma de hacer bioinformática Master en Bioinformática Las arquitecturas de integración nos deben permitir la definición de flujos de tareas mediante el “cableado” de distintos servicios que proporcionen una visión más completa de los procesos biológicos bajo estudio. La integración de datos incluye las fuentes bibliográficas en lo que se ha dado en llamar “text mining” así como las diversas fuentes de datos tradicionales que hemos visto. Introducción a la Bioinformática Dr. Oswaldo Trelles Master en Bioinformática La versión ampliada de este tema se encuentra en los apuntes del Módulo 1:Breve lección de bioinformática, accesibles a través de la plataforma Web de aprendizaje virtual de la UNIA. Estos temas además forman el núcleo de la formación que ofrece este curso y por tanto serán desarrollados en detalle en los siguientes módulos. Consulta estos materiales para completar tus conocimientos Introducción a la Bioinformática Dr. Oswaldo Trelles