BÚSQUEDA DE SECUENCIAS NCBI El NCBI (National Center for Biotechnology Information) alberga varias bases de datos biológicas de acceso público. Entre las más conocidas y populares se encuentran las bases de datos de publicaciones científicas (PubMed), de secuencias de proteínas y ADN (GenBank), de estructuras tridimensionales de proteínas; y algunas otras no tan populares como OMIM (Online Mendelian Inheritance in Man). El NCBI desarrolló Entrez como una herramienta para permitir a los usuarios interaccionar con estas bases de datos. Desde el punto de vista informático, Entrez es una 'interfaz de usuario' o UI (por user interface). Es decir, constituye el nexo entre el usuario y las bases de datos subyacentes. Como interfaz, Entrez cumple en permitir al usuario realizar consultas simples y obtener resultados, aun desconociendo la arquitectura de las bases de datos. Sin embargo, para realizar consultas eficientes y poderosas, es necesario conocer la arquitectura de la base de datos, al menos en parte, y saber como restringir búsquedas a ciertas áreas de la base de datos, combinar búsquedas con criterios lógicos, etc. Cuando uno ingresa un término para realizar una búsqueda en PubMed, el servidor que recibe el requerimiento intenta identificar qué tipo de búsqueda uno está intentando hacer: está el usuario intentando buscar un autor?, una revista o journal específico?, un área del conocimiento?, o una frase presente en el título o abstract de la publicación?. El servidor entonces filtra los términos de la búsqueda a través de listas sucesivas para intentar responder esta pregunta y usar los términos en forma eficiente. Este proceso se llama automatic term mapping y puede utilizar las siguientes listas: 1. MeSH (Medical Subject Headings): vocabulario controlado utilizado para indexar artículos en PubMed. 2. Journals: nombre completo del journal, abreviaturas usadas en MEDLINE y números ISSN. 3. Lista de frases: cientos de miles de frases generadas a partir de MeSH y otros vocabularios controlados similares. 4. Índice de autores: apellido e iniciales. Si el término ingresado está presente en alguna de estas listas, la búsqueda se limitará a ese campo de la base de datos. En caso contrario el término será utilizado para buscar sobre todos los campos de la base de datos. Es evidente que si uno sólo está interesado en buscar papers publicados en la revista 'Cell' es ineficiente utilizar el término 'Cell' para realizar la búsqueda, ya que muy probablemente exista algún autor llamado así, y la palabra 'cell' se encuentre presente en varios títulos o abstracts. Operadores lógicos: Entrez permite combinar términos utilizando operadores lógicos (AND, OR, NOT). Los operadores lógicos, también llamados 'boolean operators' deben ser ingresados en mayúsculas para ser reconocidos como tales por Entrez (por ejemplo: vitamin c OR zinc, dna AND Crick AND 1993). Entrez lee los operadores lógicos de izquierda a derecha. Es posible cambiar el orden de evaluación de los operadores usando paréntesis. BUSQUEDAS Las búsquedas de homologías permiten un primer acercamiento a la función biológica de un nuevo gen. En las bases de datos del NCBI, las búsquedas son realizadas principalmente utilizando el programa BLAST (Basic Local AligmentSearch Tool), el cual constituye un algoritmo de búsqueda de similitudes aplicable a cualquier secuencia de DNA o proteína. BLAST fue desarrollado y publicado por Altshul y otros en 1990, y la versión se mejoró en 1997. Es uno de los algoritmos fundamentales en el estudio de la genómica comparativa. El impacto de BLAST en nuestra comprensión de la biología lo demuestra su ubicuidad. BLAST está en la red y es rápida. Se utiliza en todo el mundo para comparar las secuencias de ADN y las secuencias proteínicas buscando similitudes estructurales y funcionales, y para deducir relaciones evolutivas entre secuencias. Como ejemplo del volumen de análisis BLAST que se realiza en todo el mundo, en marzo de 2003, el Centro Nacional de Información Biotecnológico de EEUU (NCBI) estaba recibiendo 100.000 solicitudes de análisis BLAST desde 70.000 direcciones IP distintas a diario, y su uso aumentaba continuamente (comunicación personal, W. Matten, 2003.) BLAST opera cortando las secuencias en “palabras” más pequeñas y buscando para cada una de ellas una secuencia coincidente. Busca en ambas direcciones a lo largo de las secuencias coincidentes para encontrar equivalencias de patrón más largas. BLAST marca coincidencias según el conocimiento experimental de la homología. Esto explica la imperfección de algunas de las coincidencias que genera. BLAST también empareja y alinea secuencias locales. No crea alineaciones globales de secuencias. BLAST alinea las coincidencias resultantes según la probabilidad de que sean homólogas Dado que existen cinco aplicaciones distintas del programa BLAST, el primer paso en la búsqueda de homología consiste en seleccionar el programa BLAST más apropiado, según si la secuencia de interés es nucleotídica o proteica y en el caso de la primera, si ésta es susceptible de contener errores como en caso de los ESTs (en estas secuencias se busca rapidez y cantidad, sacrificando un poco de calidad), y otras secuencias de ADN secuenciadas una sola vez. Los programas BLASTN, BLASTX, TBLAST, son utilizados para analizar secuencias nucleotídicas, especialmente secuencias genómicas y los cDNAsecuenciados una sola vez, mientras que los programas BLASTP TBLASTN son utilizados para analizar secuencias proteicas, es decir que una vez obtenido el marco de lectura del gen de interés. El segundo paso consiste en elegir una base de datos apropiada. En la tabla a continuación se muestra el tipo de base de datos utilizada según el programa BLAST seleccionado y el análisis realizado por éste a la secuencia de interés y a las secuencias presentes en la base de datos. Programas Secuencia de interés Secuencia en base de datos BLASTN nucleotídica, ambas cadenas nucleotídica BLASTX nucleotídica, seis marcos de proteica lectura TBLASTX nucleotídica, seis marcos de nucleotídica, lectura lectura BLASTP Proteica proteica TBLASTN Proteica nucleotídica, lectura seis marcos de seis marcos de El problema con el que se encuentra quien compare datos y obtenga similitud con otra secuencia en la base de datos, es saber si tiene relevancia estadística. En la mayoría de los programas de búsqueda se eliminan o se filtran, en la mayoría de los casos, los segmentos de baja complejidad que llevarían a considerar secuencias como relacionadas, cuando en realidad la similitud la estarían dando regiones de composición simple, muy frecuentes en genomas de organismos muy dispares.(secuencias repetidas, microsatélites, poly A, etc.). Esto reduce ampliamente la posibilidad de asignaciones erróneas y aumenta la fidelidad de los resultados obtenidos en la búsqueda BLAST. En la página de búsqueda del BLAST podemos modificar numerosos parámetros. El más importante de ellos es la secuencia que queremos utilizar en la búsqueda (Enter Query Sequence). Podemos poner una secuencia en formato fasta o un número de acceso de la Genbank. Además podemos limitar la búsqueda a una región concreta de la secuencia (Query subrange). El formulario nos permite también escoger un fichero que contenga la secuencia. La segunda decisión importante es la base de datos con la que vamos a comparar nuestra secuencia (Choose Search Set). Podemos elegir una de las numerosas bases de datos ofrecidas por el NBCI (humano, ratón, nr, refseq, etc.) o podemos escribir una expresión de búsqueda para el entrez. Si elegimos esta última opción la búsqueda se realizará en comparando nuestra secuencia con las secuencias resultantes de esta búsqueda. Por último podemos seleccionar el programa a utilizar: megablast (para encontrar secuencias muy similares), discontiguous megablast (para secuencias algo diferentes) y blast para secuencias algo más distintas. Cuanto más sensible sea el algoritmo más tiempo tardará la búsqueda1. 1 Bioinformatics at comav. [en línea]. Consultado el 2 de agosto de 2012 en: http://bioinf.comav.upv.es/courses/sequence_analysis/blast.html