Capítulo 2 The GenBank Sequence Database

Anuncio
Capítulo 2
The GenBank Sequence Database
1. ¿Cuáles son las transformaciones más comunes que dan lugar a una base de datos secundaria en lo
que respecta a secuencias de ADN y proteínas?
Las bases de datos secundarias no son sino las primarias revisadas e interpretadas. Contienen
información, típicamente, en la forma de expresiones regulares (patrones), fingerprints, bloques, perfiles o
Hidden Markov Models. En este sentido las secundarias proveerían mayor información sobre la existencia
de secuencias de consenso, codones de inicio, regiones no codante y codantes, etc.
2. ¿Cuáles serían algunos de los riesgos en el uso de una base de datos secundaria sin saber de antemano
que se trata de este tipo de base de datos?
Puede que siendo que son secuencias revisadas se hayan dado extracciones de ciertas porciones
(deleciones) no detectadas. De ser así habría la posibilidad de que secuencias codantes se hallen
incompletas, no estén los codones de inicio o fin, etc. Semejantes variaciones serían posibles se darían en
el caso inverso, de en vez de delecionar una parte se introdujera otra, o se reemplazara. Las estructuras
secundarias y terciarias (caso de secuencias de aminoácidos) también se verían alteradas, en tanto que
ciertas secuencias se corresponden con ciertas estructuras.
3. ¿Cuáles son las diferencias entre los EST, STS, GSS y HTG? ¿En qué situaciones se debe usar una u
otra de estas divisiones?
EST
Expressed Sequence Tags (Marcas de Secuencias Expresadas)
Introducidas en 1993, es una de las categorías funcionales del NCBI. Son secuencias cortas (300 a 500 bp)
en la forma de mRNA, resultado de proyectos de secuenciamiento. Constituyen la mayoría del contenido de
los bancos de datos de nucleótidos. Son de formato simple y rápido procesamiento. Constituyen cerca de
los 2/3 de los récordes del GenBank. Son secuencias parcialmente de una clona, seleccionados
aleatoriamente de una librería de cDNAs (STSs derivados de cDNAs) y utilizado para identificar genes
expresados en un tejido en particular. Son utilizados extensivamente en proyectos de mapeo del genoma
humano.
STS
Sequenced Tagged Sites (Sitios de Marcas Secuenciadas)
Es uno de los más ampliamente utilizadas categorías funcionales del NCBI. Secuencias cortas (de 200 a
500 bp) de DNA, connuna sola ocurrencia en el genoma humano (secuencias únicas) de ubicatción y
secuencia de bases conocidas. Detectables por PCR, son útiles por localizar y orientar el mapeo y
secuenciamiento de datos reportados por distintos laboratorios y que sirven de puntos importantes en el
desarrollo de mapas físicos del genoma humano. Se puede comparar los STSs con secuencias existentes
en otras divisiones diferentes del GenBank con el propósito de correlacionar las posiciones en el mapa de
secuencias anónimas con genes conocidos.
GSS
Genome Survey Sequences (Secuencias de Inspección de Genomas)
Es una de las categorías funcionales de datos. Similar a EST pero lleva secuencias genómicas, con
secuencias por inspección de genomas a través de la lectura única de cósmidos, librerías de BAC, YAC,
secuencias Alu determinadas por PCR, y otras.
HTG
High Throughput Genome
Es una de las categorías funcionales de datos. Provienen de centros especializados en secuenciamiento de
segmentos largos de DNA. Requieren de un manejo diferente de las secuencias. Contiene secuencias no
finalizadas en una localización separada. No cumplen a cabalidad el alto estándar esperado por los
récordes del DDBJ/EMBL/GenBank. Se utilizará EST al trabajar con RNAm (RNA no genómico) para
obtener cDNA. En los otros casos, cuando se trabaja con ADN genómico.
Capítulo 3
Structure Databases
1. ¿Cuál sería un posible ‘bias’ en los récordes de las bases de datos estructurales mencionado en la
página 46 del libro?
Muchas veces se cree que lo termodinámicamente favorable es lo que se da en la naturaleza cuando hay
otras variables que determinan la configuración de una proteína. En otros casos se asume que una parte
(domino) de una proteína ha de tener una estructura semejante a otra de acuerdo a semejanzas en la
secuencia, lo que puede no ser así. Otras veces se considera que la molécula estabiliza por interacción con
otras sustancias (iones, agua, etc) que son dejados de lado al momento del modelamiento.
2. ¿Por qué es posible prescindir de la información de los enlaces cuando se usa la aproximación de las
‘reglas químicas’ durante la visualización de una estructura molecular tridimensional, y en qué
circunstancias se puede hacer uso de estas reglas?
Se puede inferir las conexiones químicas de la molécula directamente de la secuencia. Siendo que se
aplican reglas físicas, ya establecidas, sobre los enlaces, referidas a distancias promedio entre dos átomos
determinados y el tipo de enlaces que son posibles, ya no es necesaria la presencia misma del enlace.
La regla química es la base de las estructuras 3-D del formato PDB, del Protein DataBank en Brookhaven,
donde no está presente la información sobre los enlaces.
3. ¿Cuál es la desventaja y/o riesgos en el uso de las ‘reglas químicas’.
Que cada software reconstruiría los enlaces sobre la base de sus propias reglas, lo que puede dar una alta
variación (poner enlaces donde no los hay u omitirlos donde si corresponden), aun más cuando los
algoritmos y reglas de tolerancia empleados son muy diferentes.
4. ¿Cuál es la diferencia entre la secuencia explícita y la secuencia implícita?
Secuencia Explícita
Son archivos PDB, que son provistas en líneas que empiezan con la palabra clave SEQRES. Utilizan
codones de aminoácidos de tres letras y se pueden encontrar aminoácidos no estándares con nombres
constituidos por tres letras. Algunas secuencias de doble hélice de ácidos nucleicos están especificadas de
3´ a 5´ sobre su complementario dado de 5´ a 3´
Secuencia Implícita
Proviene de los registros de átomos en los archivos PDB. Está contenida en la estereoquímica de los datos
en las coordenadas x,y,z y en los nombres de cada átomo (ATOM) en el archivo PDB. Es útil por que
complementa a la secuencia explícita y porque resuelve las ambigüedades de la explícita, verificando
aminoácidos no estándares, etc.
Muchos visualizadores de PDB (como es el caso de RasMol) reconstruyen el gráfico químico de una
proteína en un registro PDB utilizando la secuencia implícita, sin embargo esta secuencia no es suficiente
para la reconstrucción completa.
5. ¿Cuál es la diferencia entre BLAST y VAST? ¿Cómo se puede explicar que un resultado negativo en
BLAST pueda corresponder a un resultado positivo en VAST?
BLAST
Basic Logical Alignment Search Tool
Es un algoritmo descrito por Altschul y colaboradores en 1990. Puede trabajar en paralelo con arquitecturas
UNIX. Junto con el FastA son métodos de búsqueda de similitudes que se concentran en el hallazgo de
identidades cortas, que contribuirían al match total.
VAST
Vector Analysis Search Tool
Ve semejanza entre estructuras 3-D. Utiliza vectores 3-D derivados de la estructura secundaria (sin uso de
la información de secuencia. Es capaz de hallar similitud estructural aun cuando no se ha detectado
semejanza en la secuencia.
Siendo que se enfoca sobre similitudes estadísticamente sorprendentes, ya que busca homología remota,
que no es detectada por comparación de secuencias, por ello puede dar resultados positivos allí donde el
BLAST no lo hizo. El VAST provee de una visión más amplia de la estructura, función y evolución de una
familia de proteínas.
6. ¿De qué manera el programa RASMOL trata los datos de un archivo PDB? (Vean las páginas 68 y 69.
Con mucho cuidado, con un recómputo (nuevo análisis) de la información, encargándose de las
inconsistencias que se puedan dar en las bases de datos. No trata de validar la gráfica química de las
secuencias o estructuras codificadas en los archivos PDBs. No hace validaciones internas de residuos,
sobre la base de diccionarios o alineamientos de secuencia explícitos e implícitos. Ignora la información en
ensambles de desorden correlacionado y muestra solo un modelo NMR por vez. Otros datos elementales,
codificados en los archivos PSB, son recomputados sobre la base de reglas químicas, pero sin ser
revalidados.
7. ¿Qué se entiende por ‘correlated disorder’ en una estructura molecular resuelta por rayos X? ¿Cuáles
son las consecuencias de un mal uso de esta información?
El Correlated Disorder (Desorden de Correlación) refiere a un grupo de átomos con coordenadas variadas o
“degeneradas” dentro de los modelos de estructuras obtenidos por rayos X. Muchos de los registros de
estructuras por rayos X tienen este Correlated Disorder, los que, junto con los ensambles (conjunto de
modelos), son ignorados por los software de gráficos 3-D.
El ignorar los ensambles y los desórdenes de correlación trae como consecuencia que enlaces erróneos
sean adjudicados, entre posiciones equivocadas o degeneradas, haciendo que la estructura en conjunto no
sea nada como la real
Descargar