Base de datos biológica Una base de datos biológica es una colección de información sobre ciencias de la vida, recogida de experimentos científicos, literatura publicada, tecnología de experimentación de alto rendimiento, y análisis computacional.1 Contiene información de áreas de investigación incluyendo genómica, proteómica, metabolómica, expresión génica mediante microarrays, y filogenética.2 La información contenida en bases de datos biológicas incluye funciones, estructura y localización (tanto celular como cromosómica) de genes y efectos clínicos de mutaciones, así como similitudes de secuencias y estructuras biológicas. En los últimos años, debido a la rápida evolución de las técnicas experimentales de alto rendimiento (Secuenciación del ADN, Cristalografía de rayos X, Microarreglo de ADN) se generó un crecimiento exponencial en la cantidad de datos biológicos (secuencias genómicas y de proteínas, estructuras de proteínas, expresión génica, mutaciones, etc) que generaron la necesidad de contar con formas eficientes de almacenar la información. Índice Descripción Clasificación de bases de datos biológicas Alcance y cobertura de los datos Según la fuente de los datos Nivel de curación Método de conservación Tipo de datos almacenados Problemas por los formatos de entrada Véase también Referencias Enlaces externos Descripción Las bases de datos biológicas constituyen una herramienta esencial para almacenar, estructurar, organizar, actualizar y manipular datos biológicos. La variedad de éstos datos, así como también su rápido crecimiento, hacen a las bases de datos una herramienta clave. Se han convertido en un instrumento indispensable para los científicos experimentales del campo de la biología, como para aquellos científicos del área de la bioinformática que desarrollan experimentos in silico. Las bases de datos biológicas surgen a partir de los conceptos de bases de datos relacionales de las ciencias de la computación, y los conceptos de recuperación de información de las bibliotecas digitales. El diseño de estas bases de datos, su desarrollo y su gestión a largo plazo, forman un área nuclear dentro de la bioinformática.3 El contenido de los datos incluye secuencias génicas, descripciones textuales, atributos y clasificaciones ontológicas, estructuras de proteínas, anotaciones, entre otras. Estos son descritos a menudo como datos semi-estructurados, y se pueden representar como tablas, registros delimitados por claves y estructuras XML. Son comunes las referencias cruzadas entre las diferentes bases de datos biológicas usando los números de acceso (identificadores únicos de los registros en una base de datos, o también conocidos como Clave primaria). Las bases de datos para ayudan a los científicos a comprender y explicar una serie de fenómenos biológicos desde la estructura biomolecular de una proteína y su interacción, hasta el metabolismo completo de los organismos y a la comprensión de la evolución de las especies. Un recurso importante para la búsqueda de bases de datos biológicos es la edición anual de la revista Nucleic Acids Research (NAR). Una edición de bases de datos en NAR está disponible gratuitamente todos los años, donde se publican nuevas base de datos y algunas actualizaciones de las ya conocidas. Se encuentran clasificadas de acuerdo a su temática y están en línea a disposición de toda la comunidad científica. Clasificación de bases de datos biológicas Las bases de datos biológicas se han desarrollado para diversos propósitos, almacenan varios tipos de datos heterogéneos y son curadas a distintos niveles con diferentes métodos, por lo tanto hay diferentes criterios para su clasificación.4 5 Alcance y cobertura de los datos Según este criterio, las bases de datos pueden clasificarse en exhaustivas o especializadas: Exhaustivas: abarcan diferentes tipos de datos de muchas especies. Ejemplos típicos son GenBank la base de datos moleculares mantenidos por el European Bioinformatics Institute European Molecular Biology Laboratory (EMBL-EBI) y DNA Data Bank of Japan (DDJB). Estas tres bases de datos fueron establecidas como una Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos en 1988, para colectar y compartir secuencias de ADN y ARN Especializadas: contienen información específica o de especies particulares. Por ejemplo WormBase que contiene información biológica y genómica de nemátodos. Según la fuente de los datos De acuerdo a este criterio, las bases de datos pueden clasificarse como primarias, secundarias y combinadas: Primarias: Contienen información solamente de la secuencia o la estructura, es decir que los datos experimentales son directamente subidos a la base de datos. En esta categoría encontramos las bases de datos GenBank, DNA Data Bank of Japan (DDJB)], UniProtKB/TrEMBL y Protein Data Bank (PDB) Secundarias: Contienen información derivada de las bases de datos primarias. Una base de datos secundaria de secuencia contiene información de la conservación de la secuencia, patrones de secuencia y residuos del sitio activo de familias de proteínas derivados de alineamientos múltiples entre secuencias evolutivamente relacionadas. Una base de datos secundaria de estructuras organiza las entradas de PDB clasificándolas, por ejemplo, de acuerdo a su estructura como todas alfa, todas beta, alfa-beta, etc. Algunos ejemplos de éstas bases de datos son: CATH y SCOP Compuestas: combinan una variedad de fuentes primarias de datos, como por ejemplo, el National Center for Biotechnology Information (NCBI) que alberga un conjunto de bases de datos de secuencia, taxonomía, genomas, mutaciones, entre otras y además herramientas como BLAST para búsquedas por similitud de secuencia. Nivel de curación De acuerdo al nivel de curación, pueden clasificarse en bases de datos primarias, secundarias o derivadas: Primarias: contienen datos “crudos” a modo de repositorio de archivos como [[NCBI Sequence Read Archive] (SRA)' Secundarias o derivadas: almacena información que tiene un valor agregado por ser curada, por ejemplo NCBI RefSeq Método de conservación El crecimiento explosivo de la cantidad de datos disponibles requiere de curación, integración y anotación, que se logra mediante la colaboración colectiva. Desde este punto de vista, las bases de datos biológicas pueden clasificarse como: Conservadas por expertos, por ejemplo RefSeq (http://www.ncbi.nlm.nih.gov/refseq/) y [The Arabidopsis Information Resource]] (TAIR) Conservadas por una comunidad de investigadores, de forma colectiva y colaborativa, por ejemplo LncRNA Wiki y GeneWiki Tipo de datos almacenados De acuerdo al tipo de datos almacenados en cada base de datos, las bases de datos biológicas pueden clasificarse de forma genérica en alguna de las siguientes categorías (se listan algunos ejemplos de bases de datos): Secuencias nucleotídicas (ADN y ARN): la colaboración de las tres bases de datos más importantes hace posible acceder a casi toda la información de secuencias de nucleótidos desde cualquiera de sus tres sedes Bases de datos de EMBL en el European Bioinformatics Institute (EMBL-EBI (http://www.ebi.ac.uk/services)). Enlace externo base de datos de nucleótidos de EMBL-EBI (http://www.ebi. ac.uk/services/dna-rna) DNA Data Bank of Japan (DDJB). Enlace externo DDJB (http://www.ddbj.nig.ac.jp/) GenBank en el National Center for Biological Information (NCBI) (http://www.ncbi.nlm.nih.gov/). Enlace externo GenBank (http://www.ncbi.nlm.nih.gov/genbank/) Si bien son mantenidas por distintos organismos en distintos países, existe una coordinación entre las distintas bases. Una secuencia enviada a cualquiera de las bases se verá reflejada en las otras dos en aproximadamente una semana, ya que esa es la frecuencia de actualización entre las distintas bases genéticas. Por este motivo es indistinto que base se use para enviar nuevas secuencias, aunque normalmente los europeos utilizan EMBL y los americanos GenBank. Proteínas: bases de datos de secuencias, estructuras, e información relacionada UniProtKB/Swiss-Prot contiene secuencias anotadas o comentadas, es decir, cada secuencia ha sido revisada, documentada y enlazada a otras bases de datos. Enlaces externos UniProtKB, Swissprot en el EBI UniProtKB/TrEMBL por Translation of EMBL Nucleotide Sequence Database incluye la traducción de todas las secuencias codificantes derivadas del (EMBL) y que todavía no han podido ser anotadas en Swiss-Prot. Enlaces externos TrEMBL (http://www.ebi.ac.uk/trembl/), UniProtKB (http:// www.uniprot.org/) 'PIR por Protein Information Resource está dividida en cuatro sub-bases que tienen un nivel de anotación decreciente. Enlace externo PIR (http://pir.georgetown.edu/) 'ENZYME enlaza la clasificación de actividades enzimáticas completa a las secuencias de Swiss-Prot. Enlace externo ENZYME (http://us.expasy.org/enzyme/) 'PROSITE contiene información sobre la estructura secundaria de proteínas, familias, dominios, etc. Enlace externo PROSITE (http://us.expasy.org/prosite/) 'InterPro integra la información de diversas bases de datos de estructura secundaria como PROSITE, proporcionando enlaces a otras bases de datos e información más extensa. Enlace externo INTERPRO (http:// www.ebi.ac.uk/interpro/index.html) 'Protein Data Bank (PDB) es la base de datos de estructura terciaria 3D de proteínas que han sido cristalizadas. Enlace externo PDB (https://web.archive.org/web/20080828002005/http://www.rcsb.org./pdb) Expresión El portal de EMBL-EBI ofrece una variedad de bases de datos de expresión génica. Enlace externo a bases de datos de expresión de EMBL-EBI (https://www.ebi.ac.uk/services/gene-expression) Interactomas, reactomas y rutas metabólicas Reactome es una base de datos curada y revisada de EMBL-EBI de rutas de interacción y reacción de proteínas y enzimas. Enlace externo a Reactome (http://www.reactome.org/) APID6 es una base de datos de interacciones proteína-proteína que incluye interactomas completos para múltiples especies. Enlace externo a APID (http://apid.dep.usal.es) Variación genética (SNPs) y enfermedad dbSNP de NCBI, ofrece un repositorio central de variaciones genéticas que comprenden sustituciones simples de nucleótidos y polimorfismos de inserciones y deleciones cortas. Enlace a dbSNP (http://www.ncbi.nlm.nih. gov/projects/SNP/get_html.cgi?whichHtml=overview) COSMIC es un catálogo de mutaciones somáticas en cáncer, mantenida por el Wellcome Trust Sanger Institute. Enlace externo a COSMIC (http://cancer.sanger.ac.uk/cosmic) 'OMIM por Online Mendelian Inheritance in Man es un catálogo de genes humanos relacionados con desórdenes genéticos. Enlace externo OMIM (http://www.ncbi.nlm.nih.gov/omim/) Literatura Pubmed da acceso gratuito al índice de publicaciones de la Biblioteca Nacional de Medicina (NLM), con enlaces a artículos completos. Enlace externo PubMed (http://www.ncbi.nlm.nih.gov/PubMed/) Ontología El proyecto de Ontología Génica (GO) es un esfuerzo colaborativo que surgió de la necesidad de tener descriptores consistentes de los productos de genes depositados en distintas bases de datos. Enlace externo a Gene Ontology Consortium (http://geneontology.org/) genomas Ensembl integra genomas eucariotas grandes, por el momento contiene genoma humano, ratón, rata, fugu, zebrafish, mosquito, Drosophila, C. elegans, y C. briggsae. Enlace externo Ensembl (https://web.archive.org/ web/20080102093839/http://www.ebi.ac.uk/ensembl/index.html) Genomes server y TIGR son portales con información o enlaces de todos los genomas secuenciados por el momento, desde virus a humanos. Enlace externo Genome Server (http://www.ebi.ac.uk/genomes/index.html), enlace externo TIGR (http://www.jcvi.org) Wormbase es el portal del genoma de gusano C. elegans. Enlace externo Wormbase (http://www.wormbase.o rg/) Flybase es el portal de la mosca de la fruta Drosophila melanogaster. Enlace externo Flybase (https://web.arc hive.org/web/20090815020557/http://flybase.bio.indiana.edu/) Otras Taxonomy es el portal de clasificación taxonómica de organismos. Enlace externo Taxonomy Browser (http:// www.ncbi.nlm.nih.gov/Taxonomy/) Xenobase es el portal del organismo modelo Xenopus laevis. Enlace externo: Xenbase (http://www.xenbase.o rg/) TAIR (The Arabidopsis Information Resource) es el portal de la planta modelo Arabidopsis thaliana. Enlace externo Arabidopsis (http://www.arabidopsis.org/) GYPSY, base de datos de elementos genéticos móviles. Enlace externo The GYPSY Database of Mobile Genetic Elements (http://gydb.uv.es/index.php/Main_Page) Problemas por los formatos de entrada Un problema fundamental en todas las grandes bases de datos genómicas es que los registros provienen de una gran variedad de fuentes, desde investigadores individuales hasta grandes centros de secuenciación. Como resultado, las secuencias mismas y principalmente las anotaciones biológicas adjuntas a estas secuencias, varían notablemente en calidad. También hay mucha redundancia ya que muchos laboratorios ingresan a menudo secuencias que son idénticas o muy similares a otras en la base de datos. Muchas anotaciones no están basadas en experimentos de laboratorio sino en resultados de búsquedas de secuencias similares de secuencias previamente anotadas. Por supuesto, una vez que una secuencia es anotada basándose en su similitud con otra, puede servir como base para futuras anotaciones. Esto conduce al problema de las anotaciones transitivas, porque puede haber varias de esas secuencias transferidas por similitud de secuencia entre una base de datos de registro real y la información experimental de laboratorio. Por lo tanto, siempre hay observar el sentido biológico de las anotaciones en las principales bases de datos de secuencias con un considerable grado de escepticismo, a menos que pueda ser verificada por referencias a artículos publicados con la descripción de la alta calidad de los datos experimentales, o al menos por referencia a una secuencia de la base de datos arreglada por un humano. Véase también Bioinformática Base de datos NCBI PubMed Referencias 1. Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-Rudloff E. (2011). «Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective» (http://www.intechopen.com/articles/ show/title/concepts-historical-milestones-and-the-central-place-of-bioinformatics-in-modern-biology-a-european-). Bioinformatics - Trends and Methodologies. InTech. Consultado el 8 de enero de 2012. 2. Altman RB (marzo de 2004). «Building successful biological databases» (http://bib.oxfordjournals.org/cgi/pmidloo kup?view=long&pmid=15153301). Brief. Bioinformatics 5 (1): 4-5. PMID 15153301 (https://www.ncbi.nlm.nih.gov/pubmed/ 15153301). 3. Bourne P (agosto de 2005). «Will a biological database be different from a biological journal?». PLoS Comput. Biol. 1 (3): 179-81. PMID 16158097 (https://www.ncbi.nlm.nih.gov/pubmed/16158097). doi:10.1371/journal.pcbi.0010034 (http://dx. doi.org/10.1371%2Fjournal.pcbi.0010034). 4. Zou, Dong; Ma, Lina; Yu, Jun; Zhang, Zhang (1 de febrero de 2015). «Biological databases for human research» (http://www.ncbi.nlm.nih.gov/pubmed/25712261). Genomics, Proteomics & Bioinformatics 13 (1): 55-63. ISSN 2210-3244 (https://www.worldcat.org/issn/2210-3244). PMC 4411498 (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4411498). PMID 25712261 (https://www.ncbi.nlm.nih.gov/pubmed/25712261). doi:10.1016/j.gpb.2015.01.006 (http://dx.doi.org/10.1016%2Fj.gp b.2015.01.006). Consultado el 4 de diciembre de 2015. 5. [1] (http://www.mrc-lmb.cam.ac.uk/genomes/madanm/pdfs/biodbseq.pdf) 6. Alonso-López, Diego; Gutiérrez, Miguel A.; Lopes, Katia P.; Prieto, Carlos; Santamaría, Rodrigo; De Las Rivas, Javier (30 de abril de 2016). «APID interactomes: providing proteome-based interactomes with controlled quality for multiple species and derived networks» (http://nar.oxfordjournals.org/content/early/2016/04/30/nar.gkw363). Nucleic Acids Research (en inglés): gkw363. ISSN 0305-1048 (https://www.worldcat.org/issn/0305-1048). PMID 27131791 (ht tps://www.ncbi.nlm.nih.gov/pubmed/27131791). doi:10.1093/nar/gkw363 (http://dx.doi.org/10.1093%2Fnar%2Fgkw363). Consultado el 25 de mayo de 2016. Enlaces externos Genome Proteome Search Engine (http://www.gpse.org) para buscar a través de las bases de datos biológicas DBD: Database of Biological Databases/Bioinformatics Databases (http://www.biodbs.info) CAMERA (https://web.archive.org/web/20080426010033/http://camera.calit2.net/index.php) Cyberinfrastructure for Metagenomics, repositorio libre de datos y herramientas bioinformáticas para metagenómica European Bioinformatics Institute databases (http://www.ebi.ac.uk/Databases/) genomas completamente secuenciados en NCBI (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome) Base de datos de Standford con el genoma de Saccharomyces (http://www.yeastgenome.org/) Obtenido de «https://es.wikipedia.org/w/index.php?title=Base_de_datos_biológica&oldid=117939856» Esta página se editó por última vez el 2 ago 2019 a las 10:40. El texto está disponible bajo la Licencia Creative Commons Atribución Compartir Igual 3.0; pueden aplicarse cláusulas adicionales. Al usar este sitio, usted acepta nuestros términos de uso y nuestra política de privacidad. Wikipedia® es una marca registrada de la Fundación Wikimedia, Inc., una organización sin ánimo de lucro.