Bases de datos en Biologia molecular, un desarrollo vertiginoso

Anuncio
Bancos de datos en Biología Molecular, un desarrollo vertiginoso.
Resumen: la introducción del computador como pieza clave en el trabajo en biologia
molecular trajo consigo tambien un gran cambio en la relacion que el biologo establecia
con la informacion, es asi como se paso de simples sistemas manuales de ficheros para
herpetologos a completos sistemas de informacion geograficos que pretenden brindar una
herramienta para un analisis mas gobal del tema, en biologia molecular se entro de lleno
al uso de completos sistemas d einformacion capaces de personalizar busquedas y analisis,
ademas de encadenar toda clase de informacion entre diferentes bancos de datos.
Keywords: molecular data bases, SRS, Bioinformatics, Biocomputation, Biologycal
information systems.
Yes, Simmias, replied Socrates, that is well said: and I may add that for first principles,
even if they appear certain, should be carefully considered; and when they are
satisfactorily ascertainded, then, with a sort of hesitating confidence in human reason,
you may, I think, follow the course of the argument; and if that be plain andclear, there
will be no need for any further inquiry.
Plato Phaedo, English translation by GK.
Es hoy por hoy completamente obvia la entrada a en el zenith de los distintos proyectos
genoma, la posibilidad de secuenciamientos masivos no solo esta mas que dada. Quizás
entonces descubramos la razón por la cual solo el 3% del genoma posee significado
biológico. Y es sin duda alguna en la posibilidad de acceso a información lo mas confiable
posible lo que abrirá la posibilidad de tener una gran comunidad de científicos tratando de
armar el rompecabezas, darle sentido sistemático a toda la información por años recopilada,
toda disponible en diferentes bases de datos dispersas por todo el mundo.
Las bases de datos en Biología molecular crecen de manera formidable, involucran una
colaboración cercana entre distintos centros de investigación en el mundo entero. Para
mencionar una solamente se calcula que el GenBank se dobla cada 15 meses, el EMB se
dobla cada año.... hoy por hoy el almacenamiento de el EMB para implementación de
consulta local requiere una capacidad de disco duro mínima de 80 gigas...... el área de
mayor crecimiento dentro del GenBank es la base de datos EST (expressed sequence tags)
ya que es allí donde son depositadas la mayoría de nuevas secuencias reportadas. Todas las
bases de datos en Biología molecular son consultables a través de Internet, y muchas de
ellas están disponibles para implementación de sistemas de consultas a nivel local en redes
privadas. El trabajo que se desarrolla para mantenerlas no es en ningún caso despreciable, y
su desarrollo lo muestra así.
En un principio las bases de datos se pensaron como simples repositorios de información
con algunos mecanismos de búsqueda, pro hoy por hoy o que se tiene son sistemas
altamente integrados que permiten llevar a cabo enlaces entre las distintas bases existentes
y que contiene información en algunos casos revisada por los curadores de cada repositorio,
pero como si fuera poco múltiples sistemas de análisis básico de secuencias se han
implementado sobre los mismos sistemas de búsqueda para brindar la mayor flexibilidad de
posible al usuario. Los algoritmos de búsqueda como el Blasta localizan similaridades a
nivel de ácidos nucleicos o aminoácidos, la secuencia blanco (patrón de búsqueda) es dada
por el usuario y el algoritmo efectúa una comparación inmediata contra todas la secuencias
almacenadas en la base de datos. Esta clase de algoritmos están incorporados a la gran
mayoría de bancos de datos en Biología molecular, en al medida en que más y más
secuencias se dilucidan las comparaciones se hacen mas y mas necesarias para determinar
niveles de conservación, o de presencia de ciertas secuencias en organismos.
Como los bancos de datos han crecido de una manera alarmante un sistema que permita
recopilar información de una manera uniforme de diferentes fuentes se hace necesario, y es
precisamente de esa necesidad de donde nace el SRS (sequence retrival system). Este
sistema no es un catalogo central de bases de datos, se trata de una interface única de
consulta y presentación de resultados que facilita el acceso a diferentes recursos, tiene
además un componente que le permite guardar registros automáticos de actualización con el
propósito de ayudar al administrador a estar en contacto permanente con los otros
administradores de sistemas SRS alrededor del mundo aprovechando su conocimiento,
además de permitirle de igual manera el mantener las bases de consulta completamente
actualizadas.
El SRS da al usuario una gran flexibilidad al llevar a cabo sus búsquedas, la información
acerca de los bancos de datos sobre los cuales el SRS lleva acabo sus búsquedas se
encuentra disponible para el usuario, el administrados puede implementar consultas sobre
mas de 350 bancos de datos diferentes.
Posibilidad de selección del
banco o bancos de datos sobre
los cuales se desea llevar a cabo
la búsqueda
Listado de los bancos de
datos sobre los cuales esta
implementación de SRS tiene
posibilidad de búsqueda
Información completa
acerca de la unidad
encontrada y seleccionada
Resultado de la búsqueda "hemoglob" llevada a
cabo sobre EMBL y EMBLNEW
Menú desplegable que
permite seleccionar opciones
de trabajo sobre los
resultados.
Menú de opciones de análisis
sobre los resultados obtenidos
El SRS hace un extenso uso de las facilidades de la tecnología WEB, tanto a nivel de
consulta como a nivel de presentación de resultados.
Algunos sitios de consulta sobre el sistema SRS:
http://expasy.proteome.org.au:80/srs5/
http://wehih.wehi.edu.au:80/srs/srsc/
http://www.at.embnet.org:5000/
http://gene.dbbm.fiocruz.br:80/
http://telomere.base4.com:80/srs5/
http://cypress.csc.fi:8002/
http://www.toulouse.inra.fr:80/srs5/index.html
http://www.pasteur.fr:80/srs5/
http://ash.lsd.ornl.gov:80/srs5/
http://iubio.bio.indiana.edu:80/srs/srsc
http://www.sanger.ac.uk:80/srs5/
http://genomic.sanger.ac.uk:80/db.shtml
http://www.seqnet.dl.ac.uk:80/srs5/
El trabajo desarrollado a nivel de SRS es una pieza clave dentro de los desarrollos llevados
a cabo en cuanto a bases de datos en Biologia Molecular se refiere, constituye mas que una
interface unica de consulta y analisis, integra una comunidad de administradores
minimizando asi no solo las curvas de aprendisaje a nivel de usuario si no que tambien lo
hace a nivel de desarrolladores. Las implemetaciones de SRS con sistemas basicos de
analisis no requieren grandes inversiones en equipos ni en software, dentro de una LAN se
puede implmetar con un PC de ciertas caracteristicas. La complejidad de el equipo estare
determinada por el numero de ususarios accecediendo al sistema de manera simultanea, y
por los algoritmos de analisis que se tengan sobre el sistema.
El SRS brinda al posibiildad de trabajar on un sinmumero importatne de bases de dato, y
admeas establece claramente la manera para apartir de las bases de datos existentes generar
otras propietarias. La generacion de nuevas bases de datos apartir de las ya existentes es
una labor que denota la tarea en que lacominidad de bioinformatica a nivel mundial se
encuentra activamente imbuida, hacerlo teniendo como punto de partida os bancos madre
no es una tarea complicada. En este senido un desarrolllo importante lo constituye
UNIGEN, que pretende establecer un conjunto de datos no reduntadtes en bioloia
molecular. La mayor parte de as secuencias reportadas en genomas se han depositado como
STS (suquence tagged sites) o como HTG (high-through-put genomic sequences), las STS
son pequeños segmentos de genomas que pueden ser amplificados por técnicas de PCR. El
porcentaje del genoma humano que ha sido secuenciado al estar disponible de manera libre
permite la generación de herramientas como Unigen, este es un sistema experimental que
pretende categorizar de manera automática los datos almacenados en el GenBank en
conjuntos no redundantes de genes. Cada conjunto de genes del sistema contiene
secuencias que representan único gen, además de información relacionada tal como tipos de
tejidos en los cuales el gen se expresa, y localización del gen en un mapa de posición
El trabajo del sistema Unigene toma el concepto un gen muchas secuencias, el GenBank es
una fuente valiosa de secuencias, sin embargo no se toma en cuneta el hecho de que una
secuencia puede no ser idéntica a otra o a muchas pero si ser derivada del mismo gen, la
gráfica ilustra las muchas formas que estas secuencias pueden asumir, incluyendo tanto
clones genómicos como RNAs (m). Las unidades de secuencias en genes poseen diferente
cantidades de secuencias intrónicas. Las secuencias de RNA (m) pueden estar incompletas
o contener variaciones generadas durante el procesamiento o "splicing". Finalmente, estos
son fragmentarios y tienen un gran porcentaje de error. Para el sistema Unigene todas estas
secuencias son tomadas como una unidad en un conjunto si se encuentra que
estadísticamente poseen similaridades significativas a nivel de DNA en el marco 3´UTR.
Otro desarrollo de suma importancia es ROSITE; este es un método para identificar función
en secuencias aminoacídicas que son traducidas a partir de secuencias de ácidos nucleicos.
El método PROSITE consiste en una base de datos de patrones y perfiles biológicamente
significativos establecidos de manera tal que con la herramientas computacionales
adecuadas es posible de manera rápida y eficiente determinar a cual familia conocida de
proteínas pertenece la nueva secuencia, o que dominios conocidos contiene.
Algunos recursos relacionados:
http://www.blocks.fhcrc.org/
http://www.infobiogen.fr/~gracy/domo/hom
e.htm
http://www.sanger.ac.uk/Pfam/
http://www.biochem.ucl.ac.uk/bsm/dbbrows
er/PRINTS/PRINTS.html
http://protein.toulouse.inra.fr/prodom.html
El uso de herramientas computacionales en este sentido ha sido desde los inicios de la
bioinformática un asunto tratado y profundamente estudiado, existen casos en los cuales
una secuencia se relaciona de manera muy distante con otra de estructura conocida como
para que esta relación sea establecida mediante el uso de mecanismos de alineamiento y
comparación de secuencias, sin embargo la relación puede ser establecida si lo que se
conservan en ambas secuencias ciertos sitios conocidos como motivos estructurales.
Las comparaciones de patrones son útiles, sin embargo existen casos en los que esta clase
de métodos no ofrecen mayores resultados, por ejemplo cuando se trabaja con dominios
poco conservados como en el caso de las globulinas, las inmunoglobulinas, y los dominios
SH2 y SH3. En tales dominios sólo existen algunas pocas secuencias bien conservadas,
cualquier intento por construir un patrón consenso no será apropiado o no tendrá mayor
significancia. El uso de métodos basados en búsquedas de perfiles permiten la detección de
tales dominios. Un perfil es una tabla dode se detalan matrices de peso para aminoacidos y
penalisaciones por ocurrencia de gaps, estos parametros se usan para establecer un puntaje
de alineamiento entre la secuencia en estudio un perfil, cuando el puntaje de alineamiento
es mayor que el minimo de corte se considera la ocurrencia de un motivo. De muchas
maneras la base de datos PROSITE es similar a lo expuesto por Gribskov et al pero mucho
mas general. El metodo clasico de Gribskov requiere como parametro de entrada un
alineamiento multiple sobre la secuencia, y usa una tabla de comparacion simbolica para
covertir la distribucion de frecuencias de residuos en una matriz de peso, la generacion de
pefiles en PROSITE se hace de esta manera pero aplicando algunas variaciones como por
ejemplo la inclusion de HMM (hidden Markov models).
Algunas direcciones utiles:
Identificación y caracterisción de proteinas:
http://prospector.ucsf.edu/
http://prowl.rockefeller.edu/
http://www.mann.emblheidelberg.de/Services/PeptideSearch/PeptideSearchIntro.html
http://www.seqnet.dl.ac.uk/Bioinformatics/Webapp/mowse/
http://www.matrixscience.com/search_form_select.html
http://cuiwww.unige.ch/~hammerl4/combsearch/
DNAà
à Proteinas
http://www2.ebi.ac.uk/translate/
http://mbshortcuts.com/translator/
http://www.sanger.ac.uk/Software/Wise2/genewiseform.shtml
Una lista bastante util
http://igs-server.cnrs-mrs.fr/igs/banbury/programs.html
Analisis de estructura primaria:
http://psort.nibb.ac.jp/
http://www.cbs.dtu.dk/services/SignalP/
http://nightingale.lcs.mit.edu/cgi-bin/score
http://www.lif.icnet.uk/LRITu/projects/pest
http://www2.ebi.ac.uk/cgi-bin/translate/visprot.pl
http://www.cbs.dtu.dk/services/NetPicoRNA/
http://www-biol.univ-mrs.fr/d_abim/compo-p.html
http://www.isrec.isb-sib.ch/software/SAPS_form.html
Busqueda de similaridades
http://www.ncbi.nlm.nih.gov/BLAST/
http://www.bork.embl-heidelberg.de:8080/Blast2/
http://genome.cs.unc.edu/online.html
http://www2.ebi.ac.uk/fasta3/
http://www2.ebi.ac.uk/scanps/
http://www.irisa.fr/SAMBA/
http://bonsai.lif.icnet.uk/bmm/sawted/intro.html
http://timelogic.com/esdemo.html
Descargar