GenBank GenBank es una base de datos (BD) pública que contiene una extensa colección de secuencias de nucleótidos obtenidas a partir de más de 300.000 especies. Además de la secuencia, incluye información bibliográfica, anotaciones funcionales y, si se trata de una secuencia codificante, su traducción conceptual a proteína. De la gestión y distribución de GenBank se encarga el NCBI (National Center for Biotechnology Information) en los Estados Unidos. Junto con el ENA (European Nucleotide Archive) y el DDBJ (DNA Data Bank of Japan) forma el consorcio INSDC (International Nucleotide Sequence Database Collaboration). Cada día, las tres BD ponen al día sus contenidos para que todas ellas dispongan de la misma información. Los contenidos de GenBank son accesibles de forma pública y gratuita a través de Internet (http://www.ncbi.nlm.nih.gov/genbank/). También es posible descargar los ficheros que contienen la BD desde el lugar ftp del NCBI (ftp://ftp.ncbi.nlm.nih.gov/). Cada dos meses sale una nueva versión de la BD. La versión 206 (fechada el 15-2-2015) contiene más de 181 millones de registros. Desde 1982, el número de secuencias almacenadas en GenBank se ha duplicado aproximadamente cada 18 meses. Las secuencias son enviadas directamente por vía telemática, tanto por los investigadores que han obtenido los datos de forma experimental como por los grandes centros de investigación dedicados por completo a proyectos genómicos de secuenciación. Muchas revistas científicas exigen a los autores que depositen los datos de la secuencia en una base de datos como condición previa a la publicación de su trabajo. Se pueden enviar secuencias al GenBank mediante la herramienta BankIt (basada en la www) o mediante el programa Sequin, que funciona sin conexión a Internet. Cada registro de GenBank contiene una secuencia ininterrumpida de una molécula de polinucleótido. Podemos encontrar varios tipos de polinucleótidos: ADN genómico, ARN genómico, ARN precursor, ARNm (ADNc), ARN ribosómico, ARN de transferencia, ARN pequeño nuclear o ARN pequeño citoplasmático. El tamaño mínimo de las secuencias almacenadas en GenBank es de 50 nucleótidos, aunque algunos registros antiguos pueden tener secuencias más cortas. No hay límite máximo, ya que se pueden mandar genomas completos (como el U00089), pero por motivos prácticos, se suele limitar el tamaño de los registros a 350 kb. Además, los registros incluyen anotaciones bibliográficas y biológicas. El personal de GenBank asigna un número de acceso al registro que contiene la secuencia y las anotaciones. El número de acceso es un identificador único que utilizan las tres bases de datos (GenBank, ENA y DDBJ) y que siempre estará asociado a esa secuencia. El número de acceso es una combinación de letras y números como, por ejemplo, U12345 o AF123456. Si se introducen cambios en la secuencia o en las anotaciones del registro, lo que sí cambia es la versión de la secuencia, que se indica después del número de acceso, del que va separada por un punto (por ejemplo: U12345.1). Si se producen cambios en el registro U12345.1, el nuevo registro tendrá un identificador U12345.2. Para diferenciar una versión de otra y para poder tener un historial de los distintos cambios que se hayan producido en el registro, el NCBI asigna a cada versión un identificador único denominado "gi" (GenInfo Identifier). Toda esta información aparece en las dos líneas del registro que empiezan por las palabras ACCESSION y VERSION. Ejemplo: ACCESSION VERSION U12345 U12345.1 GI: 7654321 Las secuencias de GenBank se encuentran distribuidas en 20 divisiones. Doce de ellas son taxonómicas como, por ejemplo, BCT (bacterias), PRI, (primates) o ROD (roedores) mientras que 8 son funcionales, ya que hacen referencia a las diversas estrategias de secuenciación como, por ejemplo, EST (expressed sequence tags), HTG (high-throughput genomic sequences) o GSS (genome survey sequences). Divisiones de GenBank Taxonómicas Funcionales Bacterias Expressed sequence tags BCT EST Muestras ambientales GSS Genome survey sequences ENV Invertebrados High-throughput cDNA INV HTC Otros mamíferos High-throughput genomic MAM HTG Bacteriófagos Sequence tagged sites PHG STS Plantas PLN Primates PRI Roedores Transcriptome shotgun data ROD TSA Sintético SYN WGS Whole-genome shotgun data Sin anotar UNA Virus VRL Otros vertebrados Patented sequences VRT PAT Estructura de un registro de GenBank Cada registro contiene cuatro apartados: 1.- Encabezamiento Es la parte del registro donde más interviene el personal de la BD y donde es posible encontrar ligeras variaciones entre GenBank y las otras BD del consorcio INSDC. Contiene información general sobre el registro, distribuida en varias líneas de información. El nombre de cada línea, así como la información que contiene se resume en la siguiente Tabla: LÍNEA LOCUS DEFINITION ACCESION VERSION KEYWORDS SOURCE ORGANISM INFORMACIÓN QUE CONTIENE Nombre del locus genético donde reside la secuencia, longitud de la secuencia, tipo de molécula, división de GenBank y fecha de la última modificación. Organismo de donde procede, nombre del gen o de la proteína, breve descripción de su función. Es la misma línea que aparece en el formato FASTA tras el símbolo ">". Número de acceso. Está asociado al registro para siempre, aunque sufra modificaciones. Es el que se cita en las publicaciones. El número de versión cambia cada vez que se hace alguna modificación. Cada versión tiene el mismo número de acceso, pero se le asocia un GI (GeneInfo Identifier) distinto para poder tener un historial de los cambios que sufre la secuencia. Palabras clave. Nombre común y nombre científico del organismo de donde procede la secuencia. Taxonomía completa del organismo de donde procede la secuencia. 2.- Referencias bibliográficas Cada registro contiene por lo menos una referencia bibliográfica que incluye el nombre de los autores, el título del artículo, la revista donde se ha publicado y el identificador de PubMed (PMID). Cuando hay más de una aparecen numeradas y se muestran por orden cronológico, comenzando por las más antiguas. La última referencia contiene información sobre los autores que han enviado la secuencia a GenBank y la fecha del envío. LÍNEA REFERENCE COMMENTS INFORMACIÓN QUE CONTIENE Aparecen numeradas y por orden cronológico, comenzando por las más antiguas. Se incluye el nombre de los autores, el título del artículo, la revista que lo ha publicado y el identificador PUBMED (PMID). La última referencia contiene información sobre los autores que han enviado la secuencia a GenBank. Esta línea es opcional. Si el registro ha sido modificado, aquí se pueden incluir enlaces a las versiones anteriores. 3.- Tabla de características (Features Table) En este apartado se incluyen las anotaciones de la secuencia o de su producto proteico. Por regla general, las anotaciones describen las regiones de la secuencia que llevan a cabo una función biológica (promotores, regiones de unión al ribosoma, regiones codificantes, intrones, exones, etc.) o que resultan particularmente interesantes por algún otro motivo (presentan estructura secundaria o terciaria, interaccionan con otras moléculas, han sido revisadas o corregidas, etc.). El formato de la tabla es el siguiente: FEATURES Location/ Qualifiers Features key (Tipo de característica) Location (Ubicación) Qualifiers (Calificadores) La columna de la izquierda tiene el encabezamiento "FEATURES" y contiene los distintos tipos de característica que se han encontrado en la secuencia. La columna de la derecha tiene el encabezamiento "Location/Qualifiers" y en ella se indica la ubicación exacta (location) de esa característica en la secuencia y uno o más calificadores (qualifiers) que aportan detalles adicionales. Además, se incluyen numerosos enlaces a otras BD que contienen información sobre la secuencia o sobre los productos que codifica. 4.- Secuencia En este apartado se incluye la secuencia completa. Cada línea tiene 60 nucleótidos dispuestos en 6 bloques de 10. Las secuencias se escriben con el tipo de letra "Courier" porque cada carácter ocupa exactamente la misma anchura. LÍNEA ORIGIN // INFORMACIÓN QUE CONTIENE Es una línea que suele estar en blanco y por debajo de la cual se describe la secuencia completa. Cada línea contiene 60 nucleótidos dispuestos en 6 bloques de 10. Símbolo que indica el final del registro. Búsquedas en GenBank Se pueden hacer búsquedas en GenBank mediante palabras clave (como en PubMed o en Google). Los términos compuestos se ponen entre comillas (ejemplo: "duchenne muscular dystrophy") y si se introducen varios términos también se pueden utilizar los operadores lógicos (AND, OR, NOT). Sin embargo, este procedimiento no es muy recomendable porque, con frecuencia, las anotaciones no incluyen palabras clave o no están suficientemente actualizadas. Por eso, a veces es imposible acceder a un registro utilizando palabras clave. Lo mejor es introducir el nombre de la proteína o del gen (completo o abreviado). También se puede introducir el nombre del autor o de la persona que ha enviado la secuencia. Para ello, primero se pone el apellido, después se deja un espacio y, a continuación, se pone la inicial o iniciales del nombre (por ejemplo: Smith JR). No se tienen en cuenta las mayúsculas o minúsculas. Los resultados de la búsqueda se pueden filtrar según diversos criterios como, por ejemplo, el tipo de molécula, su longitud, la especie, la base de datos, las fechas de envío o de revisión, etc. Para acceder directamente a un registro se introduce el número de acceso (por ejemplo: NM_002020).