Recursos bioinformáticos para la genética y la genómica “Con certeza sueles encontrar algo, si lo buscas, pero no siempre es lo que estabas buscando.” — El Hobbit, J. R. R. Tolkien El campo de la bioinformática abarca el uso de herramientas computacionales para destilar conjuntos de datos complejos. Los datos genéticos y genómicos son tan diversos que la identificación del sitio o sitios de confianza para un tipo específico de información se ha convertido en un verdadero reto. Además, el paisaje de software accesible vía Web para analizar esta información cambia constantemente a medida que se desarrollan herramientas nuevas y más potentes. Este apéndice pretende proporcionar algunos puntos de partida valiosos para explorar este universo en rápida expansión de recursos en línea para la genética y la genómica. 1. Sitios Web dedicados a la genética y la genómica Aquí se listan varios recursos centrales que contienen largos listados de sitios Web relevantes: La revista científica Nucleic Acids Research (NAR) publica cada enero un ejemplar especial que cataloga una gran variedad de recursos de bases de datos en línea en http://nar.oupjournals.org/ La Biblioteca Virtual tiene subdivisiones dedicadas a Organismos Modelo y Genética con unas colecciones abundantes en recursos de Internet en http://ceolas.org/VL/mo/ y http://www.ornl.gov/TechResources/Human_Genome/organisms.html El Instituto Nacional de Investigación del Genoma Humano (NHGRI, del inglés “Nacional Human Genome Research Institute”) mantiene un listado de sitios Web de genomas en http://www.nhgri.nih.gov/10000375/ El Departamento de Energía (DOE, del inglés “Department of Energy”) mantiene un sitio dedicado al Proyecto Genoma Humano en el Laboratorio Nacional Oak Ridge en http://public.ornl.gov/hgmis/ SwissProt mantiene una página de enlaces Web (Amos’ WWW links) en http://www.expasy.ch/alinks.html 2. Bases de datos generales Bases de datos de secuencias de ácidos nucleicos y de proteínas Por acuerdo internacional, tres grupos colaboran para alojar las secuencias primarias de DNA y de mRNA de todas las especies: el Centro Nacional de Información Biotecnológica (NCBI, del inglés “National Center for Biotechnology Information”) aloja la base de datos GenBank; el Instituto Europeo de Bioinformática (EBI, del inglés “European Bioinformatics Institute”) aloja la Biblioteca de Datos del Laboratorio Europeo de Biología Molecular (EMBL, del inglés “European Molecular Biology Laboratory”); y el Instituto Nacional de Genética en Japón aloja la Base de Datos de DNA del Japón (DDBJ, del inglés “DNA DataBase of Japan”). Los registros de secuencias primarias de DNA, llamados entradas, son enviados por los grupos de investigación individuales. Además de proporcionar acceso a estos registros de secuencias de DNA, estos sitios proporcionan muchos otros conjuntos de datos. Por ejemplo, el NCBI también aloja RefSeq, una síntesis de la información sobre las secuencias de DNA de los genomas completamente secuenciados y de los productos génicos codificados por estas secuencias. En el NCBI, el EBI y el DDBJ encontrará muchas otras características importantes. Las páginas de inicio y otros sitios Web clave son NCBI http://www.ncbi.nlm.nih.gov/ NCBI-Genomes http://www.ncbi.nlm.nih.gov/Genomes/index.html NCBI-RefSeq http://www.ncbi.nlm.nih.gov/LocusLink/refseq.html El Sitio de Bioinformática Genómica del UCSC http://genome.ucsc.edu/ Este sitio excepcional contiene la secuencia de referencia y ensamblajes borrador de una gran colección de genomas y algunas herramientas para explorarlos. El “Genome Browser” permite ampliar regiones y desplazarse a lo largo de los cromosomas, mostrando el trabajo de los anotadores de todo el mundo. El “Gene Sorter” muestra la expresión, homología y otra información sobre grupos de genes que pueden estar relacionados de diversas formas. El “Blat” localiza rápidamente secuencias en el genoma. El “Table Browser” permite el acceso a la base de datos subyacente. EBI http://www.ebi.ac.uk/ DDBJ http://www.nig.ac.jp/ La dura realidad es que, con tanta información biológica, el propósito de hacer estos recursos en línea “transparentes” al usuario no se consigue completamente. Así, la exploración de estos sitios implicará que deberá familiarizarse con los contenidos de cada uno de ellos y explorar algunas de las formas que le ayudarán a focalizar sus consultas para conseguir la respuesta o respuestas correctas. Como ejemplo del potencial de estos sitios, considere la búsqueda de una secuencia nucleotídica en el NCBI. Las bases de datos típicamente guardan la información en contenedores separados llamados “campos”. Se pueden formular preguntas más dirigidas mediante el uso de consultas que limitan la búsqueda en el campo apropiado. Usando la opción “Limits” podrá usar una frase de búsqueda para identificar o localizar una especie específica, un tipo de secuencia (genómica o mRNA), un símbolo de gen o cualquiera de los muchos otros campos de datos. Los motores de búsqueda permiten juntar múltiples búsquedas. Por ejemplo: recuperar todos los registros de secuencias de DNA que pertenecen a la especie Caenorhabditis elegans Y que fueron publicados después del 1 de enero del 2000. Usando la opción “History”, podrá juntar los resultados de múltiples consultas, de modo que sólo se recuperarán aquellos aciertos que sean comunes a las múltiples consultas. Haciendo un uso adecuado de las opciones de búsqueda disponibles en un sitio, podrá eliminar computacionalmente un gran número de falsos positivos sin descartar ninguno de los aciertos relevantes. Debido a que las predicciones de secuencias proteicas son una parte natural del análisis de secuencias de DNA y de mRNA, los mismos sitios sirven de acceso a varias bases de datos de proteínas. Una base de datos de proteínas importante es el SwissProt/TrEMBL. Las secuencias de TrEMBL son automáticamente predichas a partir de secuencias de DNA y/o mRNA. Las secuencias de SwissProt son secuencias escogidas, lo que significa que un científico experto revisa el output de análisis computacionales y hace decisiones expertas sobre qué resultados acepta o rechaza. Además de los registros de secuencias proteicas primarias, el SwissProt también ofrece bases de datos de dominios proteicos y de signaturas proteicas (cadenas de secuencias de aminoácidos que son características de las proteínas de un tipo particular). La página de inicio del SwissProt es http://www.ebi.ac.uk/swissprot/. Bases de datos de dominios proteicos Las unidades funcionales dentro de las proteínas se cree que son regiones de plegamiento local llamadas dominios. La predicción de dominios dentro de proteínas descubiertas recientemente es una forma de predecir su función. Han emergido un gran número de bases de datos de dominios proteicos que predicen estos dominios usando métodos algo distintos. Algunas de las bases de datos individuales de dominios son Pfam, PROSITE, PRINTS, SMART, ProDom, TIGRFAMs, BLOCKS y CDD. InterPro permite la búsqueda simultánea en múltiples bases de datos de dominios proteicos y presenta los resultados combinados. Los sitios Web para algunas bases de datos de dominios son InterPro http://www.ebi.ac.uk/interpro/ Pfam http://www.sanger.ac.uk/Software/Pfam/index.shtml PROSITE http://www.expasy.ch/prosite/ PRINTS http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/ SMART http://smart.embl-heidelberg.de/ ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html TIGRFAMs http://www.tigr.org/TIGRFAMs/ BLOCKS http://blocks.fhcrc.org/ CDD http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml Bases de datos de estructuras proteicas La representación de estructuras proteicas tridimensionales se ha convertido en un aspecto importante del análisis molecular global. Las bases de datos de estructuras tridimensionales están disponibles en los (pág. 776) (pág. 777) sitios de las principales bases de datos de secuencias de DNA y proteínas y en bases de datos independientes de estructuras proteicas, notablemente el Banco de Datos de Proteínas (PDB, del inglés “Protein DataBank”). El NCBI tiene una aplicación llamada Cn3D que permite la visualización de datos del PDB. PDB http://www.rcsb.org/pdb/ Cn3D http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtml 3. Bases de datos especializadas Bases de datos genéticas específicas de organismo Con la finalidad de agrupar algunos tipos de información genética y genómica, especialmente información fenotípica, es necesario el conocimiento experto de una especie en particular. Así, las MODs (bases de datos de organismos modelo, del inglés “model organism databases”) han emergido para cumplir con este papel para los principales sistemas genéticos. Estas incluyen bases de datos para Saccharomyces cerevisiae (SGD), Caenorhabditis elegans (WormBase), Drosophila melanogaster (FlyBase), el pez cebra Danio rerio (ZFIN), el ratón Mus musculus (MGI), la rata Rattus norvegicus (RGD), Zea mays (MaizeGDB) y Arabidopsis thaliana (TAIR). Las páginas de inicio de estas MODs pueden encontrarse en SGD http://genome-www.stanford.edu/Saccharomyces/ WormBase http://www.wormbase.org/ FlyBase http://flybase.org/ ZFIN http://zfin.org/ MGI http://www.informatics.jax.org/ RGD http://rgd.mcw.edu/ MaizeGDB http://www.maizegdb.org/ TAIR http://www.arabidopsis.org/ Bases de datos de genética y genómica humana Dada la importancia de la genética humana en la investigación clínica además de en la investigación básica, han surgido un conjunto diverso de bases de datos genéticas para humanos. Entre ellas se encuentran una base de datos de enfermedades genéticas en humanos llamada Herencia Mendeliana En línea en el Hombre (OMIM, del inglés “Online Mendelian Inheritance in Man”), una base de datos con descripciones breves de genes humanos llamada GeneCards, una compilación de todas las mutaciones conocidas en genes humanos llamada Base de Datos de Mutaciones de Genes Humanos (HGMD, del inglés “Human Gene Mutation Database”), una base de datos del mapa de la secuencia actual del genoma humano llamada la “Golden Path” y algunos enlaces a bases de datos de enfermedades genéticas humanas: OMIM http://www3.ncbi.nlm.nih.gov/Omim/ GeneCards http://mach1.nci.nih.gov/cards/index.html HGMD http://www.hgmd.org/ Golden Path http://genome.ucsc.edu/goldenPath/hgTracks.html Grupos de apoyo genético en línea http://www.mostgene.org/support/index.html Información de enfermedades genéticas http://www.geneticalliance.org/diseaseinfo/search.html Bases de datos de proyectos genoma Los proyectos de genomas individuales también tienen sitios Web, donde muestran sus resultados, a menudo incluyendo información que no aparece en ningún otro sitio Web del mundo. Entre los centros genómicos más grandes financiados con fondos públicos hay Instituto Whitehead/Centro MIT de Investigación Genómica http://wwwgenome.wi.mit.edu/ Centro de Secuenciación Genómica de la Escuela Universitaria de Medicina de Washington http://genome.wustl.edu/ Centro de Secuenciación del Genoma Humano del Baylor College of Medicine http://www.hgsc.bcm.tmc.edu/ Instituto Sanger http://www.sanger.ac.uk/ Instituto DOE Joint Genomics http://www.jgi.doe.gov/ 4. Relaciones de genes dentro y entre bases de datos Los productos génicos pueden estar relacionados debido a que comparten un origen evolutivo común, realizan una misma función o participan en la misma ruta. BLAST: Identificación de similitudes de secuencia La evidencia de un origen evolutivo común viene de la identificación de similitudes de secuencia entre dos o más secuencias. Una de las herramientas más importantes para identificar estas similitudes es el BLAST (Herramienta Básica de Búsqueda de Alineamientos Locales, del inglés “Basic Local Alignment Search Tool”), desarrollado por el NCBI. El BLAST es en realidad una serie de programas y bases de datos relacionadas con los que se puede identificar y clasificar coincidencias locales entre largos tramos de secuencia. Una búsqueda de secuencias de DNA o proteína similares usando BLAST es una de las primeras cosas que hace un investigador con un gen recientemente secuenciado. Hay varias bases de datos de secuencias a las que se puede acceder y organizar por tipo de secuencia (genomas de referencia, actualizaciones recientes, no redundantes, ESTs, etc.) y se puede especificar una especie o grupo taxonómico particular. Un BLAST rutinario empareja una secuencia de nucleótidos problema traducida en los seis marcos de lectura posibles con una base de datos de secuencias proteicas. Otro empareja una secuencia proteica problema con las traducciones en los seis marcos de lectura posibles de una base de datos de secuencias de nucleótidos. Otros BLASTs rutinarios están pensados para identificar emparejamientos de patrones de secuencia cortos o para hacer alineamientos de secuencias a pares, para rastear segmentos de DNA de tamaño genómico, etc., y se puede acceder a ellos desde la misma página de inicio: NCBI-BLAST http://www.ncbi.nlm.nih.gov/BLAST/ Bases de datos de ontología de funciones Otra aproximación al desarrollo de relaciones entre productos génicos es mediante la asignación de estos productos a papeles funcionales basados en evidencia experimental o predicción. El hecho de tener una forma de describir estos papeles, sin reparar en el sistema experimental, es pues de gran importancia. Un grupo de científicos de distintas bases de datos están trabajando conjuntamente para desarrollar un conjunto común de términos clasificados jerárquicamente (una ontología) para la función (suceso bioquímico), el proceso (el suceso celular en el que la proteína contribuye) y localización subcelular (dónde se localiza el producto en la célula) como una forma de describir las actividades de un producto génico. Esta ontología particular se llama Ontología de Genes (GO, del inglés “Gene Ontology”), y muchas bases de datos distintas de productos génicos incorporan ahora términos GO. Podrá encontrar una descripción completa en http://www.geneontology.org/ Bases de datos de rutas Otra forma más de relacionar productos es mediante su asignación a pasos de rutas bioquímicas o celulares. Los diagramas de rutas pueden usarse como formas organizadas de presentar las relaciones entre estos productos. Algunos de los intentos más avanzados de generar estas bases de datos de rutas incluyen la Enciclopedia de Kyoto de Genes y Genomas (KEGG, del inglés “Kyoto Encyclopedia of Genes and Genomes”), la Base de Datos de Transducción de Señales (TRANSPATH) y la Base de Datos Metabólica Interactiva “What Is There” (WIT): KEGG http://www.genome.ad.jp/kegg/ TRANSPATH http://transpath.gbf.de/ WIT http://wit.mcs.anl.gov/WIT2/