Capítulo 2 The GenBank Sequence Database 1. ¿Cuáles son las transformaciones más comunes que dan lugar a una base de datos secundaria en lo que respecta a secuencias de ADN y proteínas? Las bases de datos secundarias no son sino las primarias revisadas e interpretadas. Contienen información, típicamente, en la forma de expresiones regulares (patrones), fingerprints, bloques, perfiles o Hidden Markov Models. En este sentido las secundarias proveerían mayor información sobre la existencia de secuencias de consenso, codones de inicio, regiones no codante y codantes, etc. 2. ¿Cuáles serían algunos de los riesgos en el uso de una base de datos secundaria sin saber de antemano que se trata de este tipo de base de datos? Puede que siendo que son secuencias revisadas se hayan dado extracciones de ciertas porciones (deleciones) no detectadas. De ser así habría la posibilidad de que secuencias codantes se hallen incompletas, no estén los codones de inicio o fin, etc. Semejantes variaciones serían posibles se darían en el caso inverso, de en vez de delecionar una parte se introdujera otra, o se reemplazara. Las estructuras secundarias y terciarias (caso de secuencias de aminoácidos) también se verían alteradas, en tanto que ciertas secuencias se corresponden con ciertas estructuras. 3. ¿Cuáles son las diferencias entre los EST, STS, GSS y HTG? ¿En qué situaciones se debe usar una u otra de estas divisiones? EST Expressed Sequence Tags (Marcas de Secuencias Expresadas) Introducidas en 1993, es una de las categorías funcionales del NCBI. Son secuencias cortas (300 a 500 bp) en la forma de mRNA, resultado de proyectos de secuenciamiento. Constituyen la mayoría del contenido de los bancos de datos de nucleótidos. Son de formato simple y rápido procesamiento. Constituyen cerca de los 2/3 de los récordes del GenBank. Son secuencias parcialmente de una clona, seleccionados aleatoriamente de una librería de cDNAs (STSs derivados de cDNAs) y utilizado para identificar genes expresados en un tejido en particular. Son utilizados extensivamente en proyectos de mapeo del genoma humano. STS Sequenced Tagged Sites (Sitios de Marcas Secuenciadas) Es uno de los más ampliamente utilizadas categorías funcionales del NCBI. Secuencias cortas (de 200 a 500 bp) de DNA, connuna sola ocurrencia en el genoma humano (secuencias únicas) de ubicatción y secuencia de bases conocidas. Detectables por PCR, son útiles por localizar y orientar el mapeo y secuenciamiento de datos reportados por distintos laboratorios y que sirven de puntos importantes en el desarrollo de mapas físicos del genoma humano. Se puede comparar los STSs con secuencias existentes en otras divisiones diferentes del GenBank con el propósito de correlacionar las posiciones en el mapa de secuencias anónimas con genes conocidos. GSS Genome Survey Sequences (Secuencias de Inspección de Genomas) Es una de las categorías funcionales de datos. Similar a EST pero lleva secuencias genómicas, con secuencias por inspección de genomas a través de la lectura única de cósmidos, librerías de BAC, YAC, secuencias Alu determinadas por PCR, y otras. HTG High Throughput Genome Es una de las categorías funcionales de datos. Provienen de centros especializados en secuenciamiento de segmentos largos de DNA. Requieren de un manejo diferente de las secuencias. Contiene secuencias no finalizadas en una localización separada. No cumplen a cabalidad el alto estándar esperado por los récordes del DDBJ/EMBL/GenBank. Se utilizará EST al trabajar con RNAm (RNA no genómico) para obtener cDNA. En los otros casos, cuando se trabaja con ADN genómico. Capítulo 3 Structure Databases 1. ¿Cuál sería un posible ‘bias’ en los récordes de las bases de datos estructurales mencionado en la página 46 del libro? Muchas veces se cree que lo termodinámicamente favorable es lo que se da en la naturaleza cuando hay otras variables que determinan la configuración de una proteína. En otros casos se asume que una parte (domino) de una proteína ha de tener una estructura semejante a otra de acuerdo a semejanzas en la secuencia, lo que puede no ser así. Otras veces se considera que la molécula estabiliza por interacción con otras sustancias (iones, agua, etc) que son dejados de lado al momento del modelamiento. 2. ¿Por qué es posible prescindir de la información de los enlaces cuando se usa la aproximación de las ‘reglas químicas’ durante la visualización de una estructura molecular tridimensional, y en qué circunstancias se puede hacer uso de estas reglas? Se puede inferir las conexiones químicas de la molécula directamente de la secuencia. Siendo que se aplican reglas físicas, ya establecidas, sobre los enlaces, referidas a distancias promedio entre dos átomos determinados y el tipo de enlaces que son posibles, ya no es necesaria la presencia misma del enlace. La regla química es la base de las estructuras 3-D del formato PDB, del Protein DataBank en Brookhaven, donde no está presente la información sobre los enlaces. 3. ¿Cuál es la desventaja y/o riesgos en el uso de las ‘reglas químicas’. Que cada software reconstruiría los enlaces sobre la base de sus propias reglas, lo que puede dar una alta variación (poner enlaces donde no los hay u omitirlos donde si corresponden), aun más cuando los algoritmos y reglas de tolerancia empleados son muy diferentes. 4. ¿Cuál es la diferencia entre la secuencia explícita y la secuencia implícita? Secuencia Explícita Son archivos PDB, que son provistas en líneas que empiezan con la palabra clave SEQRES. Utilizan codones de aminoácidos de tres letras y se pueden encontrar aminoácidos no estándares con nombres constituidos por tres letras. Algunas secuencias de doble hélice de ácidos nucleicos están especificadas de 3´ a 5´ sobre su complementario dado de 5´ a 3´ Secuencia Implícita Proviene de los registros de átomos en los archivos PDB. Está contenida en la estereoquímica de los datos en las coordenadas x,y,z y en los nombres de cada átomo (ATOM) en el archivo PDB. Es útil por que complementa a la secuencia explícita y porque resuelve las ambigüedades de la explícita, verificando aminoácidos no estándares, etc. Muchos visualizadores de PDB (como es el caso de RasMol) reconstruyen el gráfico químico de una proteína en un registro PDB utilizando la secuencia implícita, sin embargo esta secuencia no es suficiente para la reconstrucción completa. 5. ¿Cuál es la diferencia entre BLAST y VAST? ¿Cómo se puede explicar que un resultado negativo en BLAST pueda corresponder a un resultado positivo en VAST? BLAST Basic Logical Alignment Search Tool Es un algoritmo descrito por Altschul y colaboradores en 1990. Puede trabajar en paralelo con arquitecturas UNIX. Junto con el FastA son métodos de búsqueda de similitudes que se concentran en el hallazgo de identidades cortas, que contribuirían al match total. VAST Vector Analysis Search Tool Ve semejanza entre estructuras 3-D. Utiliza vectores 3-D derivados de la estructura secundaria (sin uso de la información de secuencia. Es capaz de hallar similitud estructural aun cuando no se ha detectado semejanza en la secuencia. Siendo que se enfoca sobre similitudes estadísticamente sorprendentes, ya que busca homología remota, que no es detectada por comparación de secuencias, por ello puede dar resultados positivos allí donde el BLAST no lo hizo. El VAST provee de una visión más amplia de la estructura, función y evolución de una familia de proteínas. 6. ¿De qué manera el programa RASMOL trata los datos de un archivo PDB? (Vean las páginas 68 y 69. Con mucho cuidado, con un recómputo (nuevo análisis) de la información, encargándose de las inconsistencias que se puedan dar en las bases de datos. No trata de validar la gráfica química de las secuencias o estructuras codificadas en los archivos PDBs. No hace validaciones internas de residuos, sobre la base de diccionarios o alineamientos de secuencia explícitos e implícitos. Ignora la información en ensambles de desorden correlacionado y muestra solo un modelo NMR por vez. Otros datos elementales, codificados en los archivos PSB, son recomputados sobre la base de reglas químicas, pero sin ser revalidados. 7. ¿Qué se entiende por ‘correlated disorder’ en una estructura molecular resuelta por rayos X? ¿Cuáles son las consecuencias de un mal uso de esta información? El Correlated Disorder (Desorden de Correlación) refiere a un grupo de átomos con coordenadas variadas o “degeneradas” dentro de los modelos de estructuras obtenidos por rayos X. Muchos de los registros de estructuras por rayos X tienen este Correlated Disorder, los que, junto con los ensambles (conjunto de modelos), son ignorados por los software de gráficos 3-D. El ignorar los ensambles y los desórdenes de correlación trae como consecuencia que enlaces erróneos sean adjudicados, entre posiciones equivocadas o degeneradas, haciendo que la estructura en conjunto no sea nada como la real