Búsqueda de secuencias en Bases de Datos. Existe una amplia red de bases de datos en diferentes servidores científicos que permiten acceder a una gran cantidad de información científica. Y entre ella, por supuesto, la que se requiere para la mayor parte del trabajo de Biología Molecular o Ingeniería Genética. Por ejemplo en esta página: http://www.ncbi.nlm.nih.gov/Database/index.html Hay un esquema que da una idea de cómo están organizadas las bases de datos del instituto nacional de salud americano (que se encuentran entre las más utilizadas). Obviamente como aquí sólo se pretende dar una somera visión de cómo funciona este asunto, en principio solo nos vamos a centrar en un aspecto concreto de todo este entramado como es la búsqueda de secuencias de DNA en las bases de datos que es lo que va a ser de mayor relevancia para el trabajo de un “Biólogo Molecular” 1 ¿Donde está un determinado gen el genoma? Puedes realizar la búsqueda por genes en un determinado genoma (como ves hay varios genomas de los que se ha secuenciado una gran parte y a los que se puede acceder desde este link): NCBI Map viewer (http://www.ncbi.nlm.nih.gov/mapview/index.html?) Puedes seleccionar el genoma del organismo donde te interesa buscar Por ejemplo seleccionando el genoma humano ahora se puede introducir el gen que interese buscar y apretando FIND 2 Aparecen señaladas las localizaciones en los cromosomas donde hay genes relacionados con esa entrada Y los códigos de esas localizaciones en los cromosomas correspondientes Pinchando en alguno de esos códigos aparece un mapa del cromosoma completo donde figura la localización del gen elegido: 3 marcado en rosa aparece el gen elegido y su localización dentro del cromosoma. Pinchando en ese código aparece la información relacionada con ese gen: ¿Qué es lo que se sabe de ese gen? Eso nos lleva a la ventana de Entrez Gene donde podemos acceder a toda la información relacionada con el gen que buscamos: asi tanto en el díálogo que aparece al lado del “display” como en diversas partes de la página podemos encontrar los links que conectan con la información relativa a distintos aspectos relacionados con esa entrada 4 Una de las más interesantes nos da acceso: • a la secuencia mRNA, • a la secuencia fuente (source sequence) que contiene la secuencia del fragmento genómico–y que por tanto incluirá regiones 5’ “upstream”, 3’ “downstream” y -en algunos casos- intrones- de la que se ha obtenido la secuencia de proteína (esta secuencia puede ser interesante para diseñar plasmado que permitan clonar la región codificante). • a la secuencia de aminoácidos de la proteína (product) Accediendo a la secuencia de nucleótidos y aminoácidos de ese gen Pinchando en cualquiera de esas entradas se abre el correspondiente archivo de gene bank (entrez nucleotide o entrez protein –si seleccionamos el del producto). Ese archivo contiene información relacionada con la secuencia incluyendo, quien la mandó a la base de datos, donde se publicó y la secuencia completa del DNA y la proteína correspondientes al fragmento clonado, secuenciado e incluido en la base de datos. Los datos de esa secuencia 5 la secuencia de aminoácidos de la proteína correspondiente Así como de la secuencia de nucleótidos del DNA Además, como verás, el menú “display “permite seleccionar distintas manera de presentarnos esa información para que sea más sencillo manejarla, por ejemplo, en una búsqueda de comparaciones de secuencias: Para ello por ejemplo puedes seleccionar la posibilidad de búsqueda formato FASTA que desde esta entrada nos seleccionaría solo la secuencia de nucleótidos: 6 7 ¿Como buscar secuencias similares a la nuestra? Tanto en el caso de la secuencia de proteína como en la de nucleótidos es posible compararlas con las otras entradas que haya en la base de datos que presenten una similitud con ella. Para eso hay que utilizar un algoritmo especial que nos permita compararlo o bien con todo el resto de secuencias o proteínas de la base de datos o bien solo con aquellas que sean de la especie en la que estamos llevando a cabo la búsqueda: Partiendo de la página inicial de NCBI Map viewer y pinchando en la B que está al lado de cada genoma podremos hacer una comparación con las secuencias de ese genoma concreto utilizando el programa BLAST Así, se abre la ventana en la que hay que introducir la secuencia que queremos buscar (“Query”) Aquí hay que seleccionar que tipo de programa hay que utilizar (normalmente Blastn para nucleótidos y Blastp para proteínas) En este cuadro de diálogo hay que pegar la secuencia a rastrear La búsqueda comienza Se abre entonces una ventana de diálogo que implica que la búsqueda ha comenzado. 8 Al cabo de unos segundos se puede pulsar el botón Format para ver los resultados Así obtendremos la página con los distintos alineamientos conseguidos: La pantalla muestra el grado de homología (o de coincidencia en el algoritmo utilizado) con un código de colores Por otra parte las secuencias que ha encontrado que presentan homologías significativas (junto con un link a sus códigos de acceso a sus respectivas entradas en la base de datos) Y finalmente el alineamiento de las distintas secuencias Query (lo que se envía a comparar) y Subject con lo que se ha encontrado la homología al comparar 9 Comparación frente a toda la base de datos También es posible realizar una comparación de la secuencia seleccionada con todas las secuencias de la base de datos. Para es hay que entrar en la entrada general del programa BLAST (a la que hay links prácticamente desde todas las páginas de este servidor) y seleccionar el tipo de búsqueda que queremos hacer. Por ejemplo alineamiento nucleótido-nucleótido. Como verás el procedimiento de búsqueda es análogo abriéndose las mismas ventanas de diálogo. La única diferencia es que la búsqueda comprenderá todas las secuencias de la base de datos. 10 ¿Cómo buscar otro tipo de secuencias? Por supuesto hay un gran número de secuencias que son interesantes o podemos necesitar pero no pertenecen a un gen de un genoma concreto. El caso que más nos puede interesar en este contexto es por ejemplo la secuencia de un plásmido o un vector. Ese tipo de secuencias se pueden buscar también mediante Entrez nucleotide. Aunque a veces lo más fácil es recurrir a la página web de la propia compañía que produjo o vende el plásmido. Sin embargo también hay otros servidores como por ejemplo: http://seq.yeastgenome.org/vectordb/ que permiten buscar específicamente este tipo de vectores. 11 Apéndice: Algunas bases de datos (y sus acrónimos): • • • • • Genbank, operated by NCBI (National Center for Biotechnology Information) Contains all publicly available sequences of DNA, with annotations Same DNA sequence content as EMBL (European Molecular Biology Laboratory) and DDBJ (DNA Data Bank of Japan) Swiss-Prot and TrEMBL, operated by SIB (Swiss Institute of Bioinformatics) and EBI (European Bioinformatics Institute) Contains most of the publicly available sequences of proteins, with annotations Protein Data Bank Contains all publicly availalble experimentally determined structural models of proteins and nucleic acids (determined by x-ray crystallography and NMR) Swiss-Model Repository Contains many theoretical structural models of proteins (determined by automated homology modeling) Online Mendelian Inheritance in Man A catalog of human genes and genetic disorders, linked to gene entries in GenBank Algunas herramientas que se pueden utilizar • • • • • • • • • • NCBI Map Viewer For finding genes and gene products (RNAs and proteins) that interest you BLAST For finding genes or proteins with sequences similar to yours ClustalW For comparing your sequence with others, and lots of sequences with each other Phylip For making phylogenetic trees, which show how sequences are related to each other Treeprint For printing phylogenetic trees PSIPRED For predicting the location of helices, pleated sheets, and transmembrane elements of proteins of unknown structure Swiss-Model For automated building theoretical structural models of your sequence based on known structures (homology modeling) Deep View (also knows as Swiss-PdbViewer) For seeing and exploring macromolecular models in three dimensions, and for manual and semiautomated homology modeling PubMed For searching ALL the literature of the life sciences ExPASy (Expert Protein Analysis System) Not so much a tool as a tool box -- a very complete set of protein analysis tools 12