Bases de datos biologicas.

Anuncio
Bases de datos Biológicas
Andrés Pinzón
Centro de Bioinformática
Instituto de Biotecnología
Universidad Nacional de Colombia
¿Por qué las bases de datos ?
●
●
Crecimiento exponencial de los datos biológicos
Datos (secuencias, 3D estructuras, análisis gel 2D, MS
análisis….) no son publicados en revistas, pero si en
bases de datos
●
Son usadas en investigación biológica, como lo eran la
revistas científicas !
Biólogos dependen de los computadores para
almacenar, organizar, buscar, manipular, y recuperar
los datos
●
Libre Acceso es clave
●
Base de todas las herramientas bioinformáticas
●
¿Qué es una base de datos ?
●
Una colección
●
●
●
●
●
●
estructurada
De fácil búsqueda (indexada) -> tabla de contenido
Actualizada periódicamente (release) -> Nuevas ediciones
Referencias cruzadas (hipervínculos)
-> vínculos con otras DB
Incluye la herramientas (software) para acceso,
actualización, inserción, borrado…. en la DB
Almacena datos: Texto plano (flat files) Tablas vinculadas
(bases de datos relacionales)
DB: Texto plano « flat file »
Base de datos de estudiantes:
(texto plano, 3 entradas)
Código: 183023
Nombre: Julián
Apellido : Pulecio
Cursos: 19003-01, 21001-01
Email: jpul@ibun.unal.edu.co
//
//
Código: 183024
Nombre: Sonia
Apellido : Cuartas
Cursos : 19003-01, 17001-01
Email: soniacol@hotmail.com
//
Código: 183025
Nombre: Jaime
Apellido : Moreno
Cursos : 19003-01
Email: pm186111@ibun.unal.edu.co
//
●
Facil de manejar: todas las entradas de pueden ver al
tiempo !
Bases de datos « relacionales »
Curso
Nom.Curso
19003­01
Bioinformática
17001­01
Bioquímica Avanzada
21001­01
Análisis Molecular
Curso
Código
19003­03
183023
19003­03
183024
19003­03
182425
17001­01
183024
21001­01
183023
Alumno
Código
Gutiérrez
183023
Cuartas
183024
Moreno
182425
Fácil: manejo y selección de la salida
Algunas estadísticas
●
●
●
Más de 1000 bases de datos
Generalmente accesibles a través de WEB
● Biohunt: http://www.expasy.org/BioHunt/
● Amos’ links: www.expasy.ch/alinks.html
Tamaño variable: 100Kb a 10Gb
● DNA: > 10 Gb
●
Proteinas: 1 Gb
● Estructuras 3D : 5 Gb
● Otras: Pequeñas
Históricamente las bases de datos de proteínas
preceden a las de DNA.
Atlas de secuencias y estructuras protéicas (1965).
● PIR (1997).
●
Dr. Margaret Oakley Dayhoff
(1925-1983)
http://www.dayhoff.cc/MODAtlasSummary.ht
ml
GenBank
DDBJ
European Molecular Biology (EMBL)
1982
International Collaboration of DNA sequence Databases
Bases de datos primarias y secundarias
Primarias: resultados experimentales sin curaduria.
Secundarias: derivadas de las primarias, curadas.
■
■
contienen la secuencia, comentarios, referencias de la
literatura, notas sobre experimentos
Derivadas de la integracion de las herramientas de cómputo
y conocimiento biológico
■ por ejemplo, genes conocidos y predichos
• Registros añadidos solo despues de verificar su precision y
las anotaciones
• Ejemplo :
SWISS-PROT, OMIM, RefSeq, LocusLink
EMBL-BANK
Release 86 on 28-FEB2006.
●
●
69,783,593 entries.
126,401,347,060
nucleotides,of which
13,313,896 entries
(65,362,911,476
nucleotides) are WGS
(whole genome shotgun)
data.
●
The release 86 files total
61 GB compressed.
●
EMBL-BANK (Tools)
UNIPROT
Uniprot Knowledge Base
UniprotKB/Swissprot
UniprotKB/TrEMBL
Uniprot reference
Clusters
Clusters a partir de
UniprotKB y Uniparc
(Uniref100, Uniref90,
Uniref50).
Uniprot Archive
Todas las secuencias
protéicas conocidas, no
redundante.
UNIPROT-SWISSPROT
Anotación:
Function(s) of the protein
● Post-translational modification(s). For example carbohydrates,
● phosphorylation, acetylation, GPI-anchor, etc.
● Domains and sites. For example calcium binding regions, ATPbinding sites,
● zinc fingers, homeobox, kringle, etc.
● Secondary structure
● Quaternary structure. For example homodimer, heterotrimer, etc.
● Similarities to other proteins
● Disease(s) associated with deficiencie(s) in the protein
● Sequence conflicts, variants, etc.
●
NCBI
National Center for Biotechnology Information
Establecido en 1988. Es un
recurso nacional (USA) en
información
biológica
molecular, el NCBI crea bases
de datos públicas, lleva a
cabo investigaciones en
biología
computacional,
desarrolla herramientas de
software para el análisis
de información genómica, y
da a conocer la información
biomédica – todo esto con el
propósito de mejorar nuestro
entendimiento acerca de
los procesos moleculares
que afectan la salud y la
enfermedad en los seres
humanos.
NCBI- ENTREZ
NCBI- GENBANK
Base de datos pública de todas las secuencias DNA disponibles
59,750,386,305 bases en
54,584,635
entradas
secuencias
en la división tradicional
GenBank y
63,183,065,091 bases
en 12,465,546 entradas en
división WGS
(Febrero
2006).
de
de
la
de
Protein Data Bank (PDB)
Base de datos de estructuras
tridimensionales de proteínas
●
●
●
Cristalografia de
Rayos X.
41136 estructuras
(Enero 16 de 2007)
Archivo de
coordenadas.
http://www.rcsb.org/pdb/
Sequence Retrieval System
http://srs.ibun.unal.edu.co:8080/srs81/
Más bases de datos I
Más bases de datos II
Más bases de datos III
Bases de datos que no pueden ser
clasificadas.
ReBase (enzimas restricción ),
RepBase (repeticiones)
TRANSFAC (factores de transcripción),
CarbBank, GlycoSuiteDB (Azucares ligados),
Proteína-proteína interacción db (DIR, ProNet, Interact),
Proteasa db (MEROPS), patentes en biotecnología db, etc.;
dbSNP
Base de datos de polimorfismos
genéticos
Consta de:
● SNPs: single nucleotide polymorphism
● DIPs: deletion insertion polymorphisms.
● SSRs: short tandem repeats.
Cada entrada incluye:
● Contexto.
● Frecuencia del polimorfismo.
● Métodos experimentales para su
obtención.
Para tener en cuenta...
●
Cual es la mejor DB para análisis de secuencia?
●
Cual tiene la mejor calidad de datos ?
●
Cual es la más completa ?
●
Cual es la más actualizada ?
●
Cual es la menos redundante ?
●
Cual es la más indexada (permite búsquedas complejas) ?
●
Cual es la que responde más rápido ?
●
●
●
DB: Muchos errores (Anotaciones automáticas)!
No todas las DB estan disponibles en todos los servidores
La frecuencia de actualización es diferente en los distintos servidores;
creación de db_new entre releases (ejemplo: EMBLnew; TrEMBLnew….)
Descargar