Bancos de datos en Biología Molecular, un desarrollo vertiginoso. Resumen: la introducción del computador como pieza clave en el trabajo en biologia molecular trajo consigo tambien un gran cambio en la relacion que el biologo establecia con la informacion, es asi como se paso de simples sistemas manuales de ficheros para herpetologos a completos sistemas de informacion geograficos que pretenden brindar una herramienta para un analisis mas gobal del tema, en biologia molecular se entro de lleno al uso de completos sistemas d einformacion capaces de personalizar busquedas y analisis, ademas de encadenar toda clase de informacion entre diferentes bancos de datos. Keywords: molecular data bases, SRS, Bioinformatics, Biocomputation, Biologycal information systems. Yes, Simmias, replied Socrates, that is well said: and I may add that for first principles, even if they appear certain, should be carefully considered; and when they are satisfactorily ascertainded, then, with a sort of hesitating confidence in human reason, you may, I think, follow the course of the argument; and if that be plain andclear, there will be no need for any further inquiry. Plato Phaedo, English translation by GK. Es hoy por hoy completamente obvia la entrada a en el zenith de los distintos proyectos genoma, la posibilidad de secuenciamientos masivos no solo esta mas que dada. Quizás entonces descubramos la razón por la cual solo el 3% del genoma posee significado biológico. Y es sin duda alguna en la posibilidad de acceso a información lo mas confiable posible lo que abrirá la posibilidad de tener una gran comunidad de científicos tratando de armar el rompecabezas, darle sentido sistemático a toda la información por años recopilada, toda disponible en diferentes bases de datos dispersas por todo el mundo. Las bases de datos en Biología molecular crecen de manera formidable, involucran una colaboración cercana entre distintos centros de investigación en el mundo entero. Para mencionar una solamente se calcula que el GenBank se dobla cada 15 meses, el EMB se dobla cada año.... hoy por hoy el almacenamiento de el EMB para implementación de consulta local requiere una capacidad de disco duro mínima de 80 gigas...... el área de mayor crecimiento dentro del GenBank es la base de datos EST (expressed sequence tags) ya que es allí donde son depositadas la mayoría de nuevas secuencias reportadas. Todas las bases de datos en Biología molecular son consultables a través de Internet, y muchas de ellas están disponibles para implementación de sistemas de consultas a nivel local en redes privadas. El trabajo que se desarrolla para mantenerlas no es en ningún caso despreciable, y su desarrollo lo muestra así. En un principio las bases de datos se pensaron como simples repositorios de información con algunos mecanismos de búsqueda, pro hoy por hoy o que se tiene son sistemas altamente integrados que permiten llevar a cabo enlaces entre las distintas bases existentes y que contiene información en algunos casos revisada por los curadores de cada repositorio, pero como si fuera poco múltiples sistemas de análisis básico de secuencias se han implementado sobre los mismos sistemas de búsqueda para brindar la mayor flexibilidad de posible al usuario. Los algoritmos de búsqueda como el Blasta localizan similaridades a nivel de ácidos nucleicos o aminoácidos, la secuencia blanco (patrón de búsqueda) es dada por el usuario y el algoritmo efectúa una comparación inmediata contra todas la secuencias almacenadas en la base de datos. Esta clase de algoritmos están incorporados a la gran mayoría de bancos de datos en Biología molecular, en al medida en que más y más secuencias se dilucidan las comparaciones se hacen mas y mas necesarias para determinar niveles de conservación, o de presencia de ciertas secuencias en organismos. Como los bancos de datos han crecido de una manera alarmante un sistema que permita recopilar información de una manera uniforme de diferentes fuentes se hace necesario, y es precisamente de esa necesidad de donde nace el SRS (sequence retrival system). Este sistema no es un catalogo central de bases de datos, se trata de una interface única de consulta y presentación de resultados que facilita el acceso a diferentes recursos, tiene además un componente que le permite guardar registros automáticos de actualización con el propósito de ayudar al administrador a estar en contacto permanente con los otros administradores de sistemas SRS alrededor del mundo aprovechando su conocimiento, además de permitirle de igual manera el mantener las bases de consulta completamente actualizadas. El SRS da al usuario una gran flexibilidad al llevar a cabo sus búsquedas, la información acerca de los bancos de datos sobre los cuales el SRS lleva acabo sus búsquedas se encuentra disponible para el usuario, el administrados puede implementar consultas sobre mas de 350 bancos de datos diferentes. Posibilidad de selección del banco o bancos de datos sobre los cuales se desea llevar a cabo la búsqueda Listado de los bancos de datos sobre los cuales esta implementación de SRS tiene posibilidad de búsqueda Información completa acerca de la unidad encontrada y seleccionada Resultado de la búsqueda "hemoglob" llevada a cabo sobre EMBL y EMBLNEW Menú desplegable que permite seleccionar opciones de trabajo sobre los resultados. Menú de opciones de análisis sobre los resultados obtenidos El SRS hace un extenso uso de las facilidades de la tecnología WEB, tanto a nivel de consulta como a nivel de presentación de resultados. Algunos sitios de consulta sobre el sistema SRS: http://expasy.proteome.org.au:80/srs5/ http://wehih.wehi.edu.au:80/srs/srsc/ http://www.at.embnet.org:5000/ http://gene.dbbm.fiocruz.br:80/ http://telomere.base4.com:80/srs5/ http://cypress.csc.fi:8002/ http://www.toulouse.inra.fr:80/srs5/index.html http://www.pasteur.fr:80/srs5/ http://ash.lsd.ornl.gov:80/srs5/ http://iubio.bio.indiana.edu:80/srs/srsc http://www.sanger.ac.uk:80/srs5/ http://genomic.sanger.ac.uk:80/db.shtml http://www.seqnet.dl.ac.uk:80/srs5/ El trabajo desarrollado a nivel de SRS es una pieza clave dentro de los desarrollos llevados a cabo en cuanto a bases de datos en Biologia Molecular se refiere, constituye mas que una interface unica de consulta y analisis, integra una comunidad de administradores minimizando asi no solo las curvas de aprendisaje a nivel de usuario si no que tambien lo hace a nivel de desarrolladores. Las implemetaciones de SRS con sistemas basicos de analisis no requieren grandes inversiones en equipos ni en software, dentro de una LAN se puede implmetar con un PC de ciertas caracteristicas. La complejidad de el equipo estare determinada por el numero de ususarios accecediendo al sistema de manera simultanea, y por los algoritmos de analisis que se tengan sobre el sistema. El SRS brinda al posibiildad de trabajar on un sinmumero importatne de bases de dato, y admeas establece claramente la manera para apartir de las bases de datos existentes generar otras propietarias. La generacion de nuevas bases de datos apartir de las ya existentes es una labor que denota la tarea en que lacominidad de bioinformatica a nivel mundial se encuentra activamente imbuida, hacerlo teniendo como punto de partida os bancos madre no es una tarea complicada. En este senido un desarrolllo importante lo constituye UNIGEN, que pretende establecer un conjunto de datos no reduntadtes en bioloia molecular. La mayor parte de as secuencias reportadas en genomas se han depositado como STS (suquence tagged sites) o como HTG (high-through-put genomic sequences), las STS son pequeños segmentos de genomas que pueden ser amplificados por técnicas de PCR. El porcentaje del genoma humano que ha sido secuenciado al estar disponible de manera libre permite la generación de herramientas como Unigen, este es un sistema experimental que pretende categorizar de manera automática los datos almacenados en el GenBank en conjuntos no redundantes de genes. Cada conjunto de genes del sistema contiene secuencias que representan único gen, además de información relacionada tal como tipos de tejidos en los cuales el gen se expresa, y localización del gen en un mapa de posición El trabajo del sistema Unigene toma el concepto un gen muchas secuencias, el GenBank es una fuente valiosa de secuencias, sin embargo no se toma en cuneta el hecho de que una secuencia puede no ser idéntica a otra o a muchas pero si ser derivada del mismo gen, la gráfica ilustra las muchas formas que estas secuencias pueden asumir, incluyendo tanto clones genómicos como RNAs (m). Las unidades de secuencias en genes poseen diferente cantidades de secuencias intrónicas. Las secuencias de RNA (m) pueden estar incompletas o contener variaciones generadas durante el procesamiento o "splicing". Finalmente, estos son fragmentarios y tienen un gran porcentaje de error. Para el sistema Unigene todas estas secuencias son tomadas como una unidad en un conjunto si se encuentra que estadísticamente poseen similaridades significativas a nivel de DNA en el marco 3´UTR. Otro desarrollo de suma importancia es ROSITE; este es un método para identificar función en secuencias aminoacídicas que son traducidas a partir de secuencias de ácidos nucleicos. El método PROSITE consiste en una base de datos de patrones y perfiles biológicamente significativos establecidos de manera tal que con la herramientas computacionales adecuadas es posible de manera rápida y eficiente determinar a cual familia conocida de proteínas pertenece la nueva secuencia, o que dominios conocidos contiene. Algunos recursos relacionados: http://www.blocks.fhcrc.org/ http://www.infobiogen.fr/~gracy/domo/hom e.htm http://www.sanger.ac.uk/Pfam/ http://www.biochem.ucl.ac.uk/bsm/dbbrows er/PRINTS/PRINTS.html http://protein.toulouse.inra.fr/prodom.html El uso de herramientas computacionales en este sentido ha sido desde los inicios de la bioinformática un asunto tratado y profundamente estudiado, existen casos en los cuales una secuencia se relaciona de manera muy distante con otra de estructura conocida como para que esta relación sea establecida mediante el uso de mecanismos de alineamiento y comparación de secuencias, sin embargo la relación puede ser establecida si lo que se conservan en ambas secuencias ciertos sitios conocidos como motivos estructurales. Las comparaciones de patrones son útiles, sin embargo existen casos en los que esta clase de métodos no ofrecen mayores resultados, por ejemplo cuando se trabaja con dominios poco conservados como en el caso de las globulinas, las inmunoglobulinas, y los dominios SH2 y SH3. En tales dominios sólo existen algunas pocas secuencias bien conservadas, cualquier intento por construir un patrón consenso no será apropiado o no tendrá mayor significancia. El uso de métodos basados en búsquedas de perfiles permiten la detección de tales dominios. Un perfil es una tabla dode se detalan matrices de peso para aminoacidos y penalisaciones por ocurrencia de gaps, estos parametros se usan para establecer un puntaje de alineamiento entre la secuencia en estudio un perfil, cuando el puntaje de alineamiento es mayor que el minimo de corte se considera la ocurrencia de un motivo. De muchas maneras la base de datos PROSITE es similar a lo expuesto por Gribskov et al pero mucho mas general. El metodo clasico de Gribskov requiere como parametro de entrada un alineamiento multiple sobre la secuencia, y usa una tabla de comparacion simbolica para covertir la distribucion de frecuencias de residuos en una matriz de peso, la generacion de pefiles en PROSITE se hace de esta manera pero aplicando algunas variaciones como por ejemplo la inclusion de HMM (hidden Markov models). Algunas direcciones utiles: Identificación y caracterisción de proteinas: http://prospector.ucsf.edu/ http://prowl.rockefeller.edu/ http://www.mann.emblheidelberg.de/Services/PeptideSearch/PeptideSearchIntro.html http://www.seqnet.dl.ac.uk/Bioinformatics/Webapp/mowse/ http://www.matrixscience.com/search_form_select.html http://cuiwww.unige.ch/~hammerl4/combsearch/ DNAà à Proteinas http://www2.ebi.ac.uk/translate/ http://mbshortcuts.com/translator/ http://www.sanger.ac.uk/Software/Wise2/genewiseform.shtml Una lista bastante util http://igs-server.cnrs-mrs.fr/igs/banbury/programs.html Analisis de estructura primaria: http://psort.nibb.ac.jp/ http://www.cbs.dtu.dk/services/SignalP/ http://nightingale.lcs.mit.edu/cgi-bin/score http://www.lif.icnet.uk/LRITu/projects/pest http://www2.ebi.ac.uk/cgi-bin/translate/visprot.pl http://www.cbs.dtu.dk/services/NetPicoRNA/ http://www-biol.univ-mrs.fr/d_abim/compo-p.html http://www.isrec.isb-sib.ch/software/SAPS_form.html Busqueda de similaridades http://www.ncbi.nlm.nih.gov/BLAST/ http://www.bork.embl-heidelberg.de:8080/Blast2/ http://genome.cs.unc.edu/online.html http://www2.ebi.ac.uk/fasta3/ http://www2.ebi.ac.uk/scanps/ http://www.irisa.fr/SAMBA/ http://bonsai.lif.icnet.uk/bmm/sawted/intro.html http://timelogic.com/esdemo.html