Subido por Carlos Villamizar

Base de datos biológica para la cura de enfermedades

Anuncio
Base de datos biológica
Una base de datos biológica es una colección de información sobre ciencias de la vida, recogida de experimentos científicos,
literatura publicada, tecnología de experimentación de alto rendimiento, y análisis computacional.1 Contiene información de
áreas de investigación incluyendo genómica, proteómica, metabolómica, expresión génica mediante microarrays, y filogenética.2
La información contenida en bases de datos biológicas incluye funciones, estructura y localización (tanto celular como
cromosómica) de genes y efectos clínicos de mutaciones, así como similitudes de secuencias y estructuras biológicas.
En los últimos años, debido a la rápida evolución de las técnicas experimentales de alto rendimiento (Secuenciación del ADN,
Cristalografía de rayos X, Microarreglo de ADN) se generó un crecimiento exponencial en la cantidad de datos biológicos
(secuencias genómicas y de proteínas, estructuras de proteínas, expresión génica, mutaciones, etc) que generaron la necesidad de
contar con formas eficientes de almacenar la información.
Índice
Descripción
Clasificación de bases de datos biológicas
Alcance y cobertura de los datos
Según la fuente de los datos
Nivel de curación
Método de conservación
Tipo de datos almacenados
Problemas por los formatos de entrada
Véase también
Referencias
Enlaces externos
Descripción
Las bases de datos biológicas constituyen una herramienta esencial para almacenar, estructurar, organizar, actualizar y manipular
datos biológicos. La variedad de éstos datos, así como también su rápido crecimiento, hacen a las bases de datos una herramienta
clave. Se han convertido en un instrumento indispensable para los científicos experimentales del campo de la biología, como para
aquellos científicos del área de la bioinformática que desarrollan experimentos in silico.
Las bases de datos biológicas surgen a partir de los conceptos de bases de datos relacionales de las ciencias de la computación, y
los conceptos de recuperación de información de las bibliotecas digitales. El diseño de estas bases de datos, su desarrollo y su
gestión a largo plazo, forman un área nuclear dentro de la bioinformática.3 El contenido de los datos incluye secuencias génicas,
descripciones textuales, atributos y clasificaciones ontológicas, estructuras de proteínas, anotaciones, entre otras. Estos son
descritos a menudo como datos semi-estructurados, y se pueden representar como tablas, registros delimitados por claves y
estructuras XML. Son comunes las referencias cruzadas entre las diferentes bases de datos biológicas usando los números de
acceso (identificadores únicos de los registros en una base de datos, o también conocidos como Clave primaria).
Las bases de datos para ayudan a los científicos a comprender y explicar una serie de fenómenos biológicos desde la estructura
biomolecular de una proteína y su interacción, hasta el metabolismo completo de los organismos y a la comprensión de la
evolución de las especies.
Un recurso importante para la búsqueda de bases de datos biológicos es la edición anual de la revista Nucleic Acids Research
(NAR). Una edición de bases de datos en NAR está disponible gratuitamente todos los años, donde se publican nuevas base de
datos y algunas actualizaciones de las ya conocidas. Se encuentran clasificadas de acuerdo a su temática y están en línea a
disposición de toda la comunidad científica.
Clasificación de bases de datos biológicas
Las bases de datos biológicas se han desarrollado para diversos propósitos, almacenan varios tipos de datos heterogéneos y son
curadas a distintos niveles con diferentes métodos, por lo tanto hay diferentes criterios para su clasificación.4 5
Alcance y cobertura de los datos
Según este criterio, las bases de datos pueden clasificarse en exhaustivas o especializadas:
Exhaustivas: abarcan diferentes tipos de datos de muchas especies. Ejemplos típicos son GenBank la base de
datos moleculares mantenidos por el European Bioinformatics Institute European Molecular Biology
Laboratory (EMBL-EBI) y DNA Data Bank of Japan (DDJB). Estas tres bases de datos fueron establecidas
como una Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos en 1988, para colectar y
compartir secuencias de ADN y ARN
Especializadas: contienen información específica o de especies particulares. Por ejemplo WormBase que
contiene información biológica y genómica de nemátodos.
Según la fuente de los datos
De acuerdo a este criterio, las bases de datos pueden clasificarse como primarias, secundarias y combinadas:
Primarias: Contienen información solamente de la secuencia o la estructura, es decir que los datos
experimentales son directamente subidos a la base de datos. En esta categoría encontramos las bases de datos
GenBank, DNA Data Bank of Japan (DDJB)], UniProtKB/TrEMBL y Protein Data Bank (PDB)
Secundarias: Contienen información derivada de las bases de datos primarias. Una base de datos secundaria
de secuencia contiene información de la conservación de la secuencia, patrones de secuencia y residuos del
sitio activo de familias de proteínas derivados de alineamientos múltiples entre secuencias evolutivamente
relacionadas. Una base de datos secundaria de estructuras organiza las entradas de PDB clasificándolas, por
ejemplo, de acuerdo a su estructura como todas alfa, todas beta, alfa-beta, etc. Algunos ejemplos de éstas
bases de datos son: CATH y SCOP
Compuestas: combinan una variedad de fuentes primarias de datos, como por ejemplo, el National Center for
Biotechnology Information (NCBI) que alberga un conjunto de bases de datos de secuencia, taxonomía,
genomas, mutaciones, entre otras y además herramientas como BLAST para búsquedas por similitud de
secuencia.
Nivel de curación
De acuerdo al nivel de curación, pueden clasificarse en bases de datos primarias, secundarias o derivadas:
Primarias: contienen datos “crudos” a modo de repositorio de archivos como [[NCBI Sequence Read Archive]
(SRA)'
Secundarias o derivadas: almacena información que tiene un valor agregado por ser curada, por ejemplo
NCBI RefSeq
Método de conservación
El crecimiento explosivo de la cantidad de datos disponibles requiere de curación, integración y anotación, que se logra mediante
la colaboración colectiva. Desde este punto de vista, las bases de datos biológicas pueden clasificarse como:
Conservadas por expertos, por ejemplo RefSeq (http://www.ncbi.nlm.nih.gov/refseq/) y [The Arabidopsis
Information Resource]] (TAIR)
Conservadas por una comunidad de investigadores, de forma colectiva y colaborativa, por ejemplo LncRNA
Wiki y GeneWiki
Tipo de datos almacenados
De acuerdo al tipo de datos almacenados en cada base de datos, las bases de datos biológicas pueden clasificarse de forma
genérica en alguna de las siguientes categorías (se listan algunos ejemplos de bases de datos):
Secuencias nucleotídicas (ADN y ARN): la colaboración de las tres bases de datos más importantes hace
posible acceder a casi toda la información de secuencias de nucleótidos desde cualquiera de sus tres sedes
Bases
de
datos
de
EMBL
en
el
European
Bioinformatics
Institute
(EMBL-EBI
(http://www.ebi.ac.uk/services)). Enlace externo base de datos de nucleótidos de EMBL-EBI (http://www.ebi.
ac.uk/services/dna-rna)
DNA Data Bank of Japan (DDJB). Enlace externo DDJB (http://www.ddbj.nig.ac.jp/)
GenBank en el National Center for Biological Information (NCBI) (http://www.ncbi.nlm.nih.gov/). Enlace
externo GenBank (http://www.ncbi.nlm.nih.gov/genbank/)
Si bien son mantenidas por distintos organismos en distintos países, existe una coordinación entre las distintas bases. Una
secuencia enviada a cualquiera de las bases se verá reflejada en las otras dos en aproximadamente una semana, ya que esa es la
frecuencia de actualización entre las distintas bases genéticas. Por este motivo es indistinto que base se use para enviar nuevas
secuencias, aunque normalmente los europeos utilizan EMBL y los americanos GenBank.
Proteínas: bases de datos de secuencias, estructuras, e información relacionada
UniProtKB/Swiss-Prot contiene secuencias anotadas o comentadas, es decir, cada secuencia ha sido revisada, documentada y
enlazada a otras bases de datos. Enlaces externos UniProtKB, Swissprot en el EBI UniProtKB/TrEMBL por Translation of
EMBL Nucleotide Sequence Database incluye la traducción de todas las secuencias codificantes derivadas del (EMBL) y que
todavía no han podido ser anotadas en Swiss-Prot. Enlaces externos TrEMBL (http://www.ebi.ac.uk/trembl/), UniProtKB (http://
www.uniprot.org/) 'PIR por Protein Information Resource está dividida en cuatro sub-bases que tienen un nivel de anotación
decreciente. Enlace externo PIR (http://pir.georgetown.edu/)
'ENZYME enlaza la clasificación de actividades enzimáticas completa a las secuencias de Swiss-Prot. Enlace
externo ENZYME (http://us.expasy.org/enzyme/)
'PROSITE contiene información sobre la estructura secundaria de proteínas, familias, dominios, etc. Enlace
externo PROSITE (http://us.expasy.org/prosite/)
'InterPro integra la información de diversas bases de datos de estructura secundaria como PROSITE,
proporcionando enlaces a otras bases de datos e información más extensa. Enlace externo INTERPRO (http://
www.ebi.ac.uk/interpro/index.html)
'Protein Data Bank (PDB) es la base de datos de estructura terciaria 3D de proteínas que han sido
cristalizadas. Enlace externo PDB (https://web.archive.org/web/20080828002005/http://www.rcsb.org./pdb)
Expresión
El portal de EMBL-EBI ofrece una variedad de bases de datos de expresión génica. Enlace externo a bases de
datos de expresión de EMBL-EBI (https://www.ebi.ac.uk/services/gene-expression)
Interactomas, reactomas y rutas metabólicas
Reactome es una base de datos curada y revisada de EMBL-EBI de rutas de interacción y reacción de
proteínas y enzimas. Enlace externo a Reactome (http://www.reactome.org/)
APID6 es una base de datos de interacciones proteína-proteína que incluye interactomas completos para
múltiples especies. Enlace externo a APID (http://apid.dep.usal.es)
Variación genética (SNPs) y enfermedad
dbSNP de NCBI, ofrece un repositorio central de variaciones genéticas que comprenden sustituciones simples
de nucleótidos y polimorfismos de inserciones y deleciones cortas. Enlace a dbSNP (http://www.ncbi.nlm.nih.
gov/projects/SNP/get_html.cgi?whichHtml=overview)
COSMIC es un catálogo de mutaciones somáticas en cáncer, mantenida por el Wellcome Trust Sanger
Institute. Enlace externo a COSMIC (http://cancer.sanger.ac.uk/cosmic)
'OMIM por Online Mendelian Inheritance in Man es un catálogo de genes humanos relacionados con
desórdenes genéticos. Enlace externo OMIM (http://www.ncbi.nlm.nih.gov/omim/)
Literatura
Pubmed da acceso gratuito al índice de publicaciones de la Biblioteca Nacional de Medicina (NLM), con
enlaces a artículos completos. Enlace externo PubMed (http://www.ncbi.nlm.nih.gov/PubMed/)
Ontología
El proyecto de Ontología Génica (GO) es un esfuerzo colaborativo que surgió de la necesidad de tener
descriptores consistentes de los productos de genes depositados en distintas bases de datos. Enlace externo a
Gene Ontology Consortium (http://geneontology.org/)
genomas
Ensembl integra genomas eucariotas grandes, por el momento contiene genoma humano, ratón, rata, fugu,
zebrafish, mosquito, Drosophila, C. elegans, y C. briggsae. Enlace externo Ensembl (https://web.archive.org/
web/20080102093839/http://www.ebi.ac.uk/ensembl/index.html)
Genomes server y TIGR son portales con información o enlaces de todos los genomas secuenciados por el
momento,
desde
virus
a
humanos.
Enlace
externo
Genome
Server
(http://www.ebi.ac.uk/genomes/index.html), enlace externo TIGR (http://www.jcvi.org)
Wormbase es el portal del genoma de gusano C. elegans. Enlace externo Wormbase (http://www.wormbase.o
rg/)
Flybase es el portal de la mosca de la fruta Drosophila melanogaster. Enlace externo Flybase (https://web.arc
hive.org/web/20090815020557/http://flybase.bio.indiana.edu/)
Otras
Taxonomy es el portal de clasificación taxonómica de organismos. Enlace externo Taxonomy Browser (http://
www.ncbi.nlm.nih.gov/Taxonomy/)
Xenobase es el portal del organismo modelo Xenopus laevis. Enlace externo: Xenbase (http://www.xenbase.o
rg/)
TAIR (The Arabidopsis Information Resource) es el portal de la planta modelo Arabidopsis thaliana.
Enlace externo Arabidopsis (http://www.arabidopsis.org/)
GYPSY, base de datos de elementos genéticos móviles. Enlace externo The GYPSY Database of Mobile
Genetic Elements (http://gydb.uv.es/index.php/Main_Page)
Problemas por los formatos de entrada
Un problema fundamental en todas las grandes bases de datos genómicas es que los registros provienen de una gran variedad de
fuentes, desde investigadores individuales hasta grandes centros de secuenciación. Como resultado, las secuencias mismas y
principalmente las anotaciones biológicas adjuntas a estas secuencias, varían notablemente en calidad. También hay mucha
redundancia ya que muchos laboratorios ingresan a menudo secuencias que son idénticas o muy similares a otras en la base de
datos.
Muchas anotaciones no están basadas en experimentos de laboratorio sino en resultados de búsquedas de secuencias similares de
secuencias previamente anotadas. Por supuesto, una vez que una secuencia es anotada basándose en su similitud con otra, puede
servir como base para futuras anotaciones. Esto conduce al problema de las anotaciones transitivas, porque puede haber varias de
esas secuencias transferidas por similitud de secuencia entre una base de datos de registro real y la información experimental de
laboratorio. Por lo tanto, siempre hay observar el sentido biológico de las anotaciones en las principales bases de datos de
secuencias con un considerable grado de escepticismo, a menos que pueda ser verificada por referencias a artículos publicados
con la descripción de la alta calidad de los datos experimentales, o al menos por referencia a una secuencia de la base de datos
arreglada por un humano.
Véase también
Bioinformática
Base de datos
NCBI
PubMed
Referencias
1. Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-Rudloff E. (2011). «Concepts, Historical Milestones and the
Central Place of Bioinformatics in Modern Biology: A European Perspective» (http://www.intechopen.com/articles/
show/title/concepts-historical-milestones-and-the-central-place-of-bioinformatics-in-modern-biology-a-european-).
Bioinformatics - Trends and Methodologies. InTech. Consultado el 8 de enero de 2012.
2. Altman RB (marzo de 2004). «Building successful biological databases» (http://bib.oxfordjournals.org/cgi/pmidloo
kup?view=long&pmid=15153301). Brief. Bioinformatics 5 (1): 4-5. PMID 15153301 (https://www.ncbi.nlm.nih.gov/pubmed/
15153301).
3. Bourne P (agosto de 2005). «Will a biological database be different from a biological journal?». PLoS Comput.
Biol. 1 (3): 179-81. PMID 16158097 (https://www.ncbi.nlm.nih.gov/pubmed/16158097). doi:10.1371/journal.pcbi.0010034 (http://dx.
doi.org/10.1371%2Fjournal.pcbi.0010034).
4. Zou, Dong; Ma, Lina; Yu, Jun; Zhang, Zhang (1 de febrero de 2015). «Biological databases for human research»
(http://www.ncbi.nlm.nih.gov/pubmed/25712261). Genomics, Proteomics & Bioinformatics 13 (1): 55-63.
ISSN 2210-3244 (https://www.worldcat.org/issn/2210-3244). PMC 4411498 (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4411498).
PMID 25712261 (https://www.ncbi.nlm.nih.gov/pubmed/25712261). doi:10.1016/j.gpb.2015.01.006 (http://dx.doi.org/10.1016%2Fj.gp
b.2015.01.006). Consultado el 4 de diciembre de 2015.
5. [1] (http://www.mrc-lmb.cam.ac.uk/genomes/madanm/pdfs/biodbseq.pdf)
6. Alonso-López, Diego; Gutiérrez, Miguel A.; Lopes, Katia P.; Prieto, Carlos; Santamaría, Rodrigo; De Las Rivas,
Javier (30 de abril de 2016). «APID interactomes: providing proteome-based interactomes with controlled quality
for multiple species and derived networks» (http://nar.oxfordjournals.org/content/early/2016/04/30/nar.gkw363).
Nucleic Acids Research (en inglés): gkw363. ISSN 0305-1048 (https://www.worldcat.org/issn/0305-1048). PMID 27131791 (ht
tps://www.ncbi.nlm.nih.gov/pubmed/27131791). doi:10.1093/nar/gkw363 (http://dx.doi.org/10.1093%2Fnar%2Fgkw363). Consultado
el 25 de mayo de 2016.
Enlaces externos
Genome Proteome Search Engine (http://www.gpse.org) para buscar a través de las bases de datos biológicas
DBD: Database of Biological Databases/Bioinformatics Databases (http://www.biodbs.info)
CAMERA (https://web.archive.org/web/20080426010033/http://camera.calit2.net/index.php) Cyberinfrastructure
for Metagenomics, repositorio libre de datos y herramientas bioinformáticas para metagenómica
European Bioinformatics Institute databases (http://www.ebi.ac.uk/Databases/)
genomas completamente secuenciados en NCBI (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome)
Base de datos de Standford con el genoma de Saccharomyces (http://www.yeastgenome.org/)
Obtenido de «https://es.wikipedia.org/w/index.php?title=Base_de_datos_biológica&oldid=117939856»
Esta página se editó por última vez el 2 ago 2019 a las 10:40.
El texto está disponible bajo la Licencia Creative Commons Atribución Compartir Igual 3.0; pueden aplicarse
cláusulas adicionales. Al usar este sitio, usted acepta nuestros términos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de la Fundación Wikimedia, Inc., una organización sin ánimo de lucro.
Descargar