La molécula de ADN, vista por un biólogo

Anuncio
La molécula de ADN, vista por un biólogo
Una molécula de ADN consta de dos polidesoxirribonucleótidos que se enrollan en
torno a un eje imaginario común dando lugar a la famosa doble hélice, un modelo
estructural propuesto en 1953 por James Watson y Francis Crick y que resultó ser
correcto. Cada cadena de polidesoxirribonucleótido se denomina también hebra y está
formada por desoxirribonucleótidos unidos entre sí mediante enlaces de tipo
fosfodiéster que se forman entre el grupo fosfato en posición 5' de un
desoxirribonucleótido y el grupo hidroxilo en posición 3' de otro. El orden en que se
disponen cada una de las 4 bases posibles (A, C, T y G) determina su secuencia.
En cada una de las hebras se puede distinguir un extremo 5' que corresponde al
desoxirribonucleótido que tiene un grupo fosfato libre (que no ha reaccionado) en la
posición 5' de la desoxirribosa y un extremo 3' que corresponde al
desoxirribonucleótido que tiene un grupo OH libre (que no ha reaccionado) en posición
3' de la desoxirribosa. Por convención, la secuencia de un ácido nucleico (ADN o ARN)
se escribe siempre en el sentido 5'→3'.
Las secuencias de las dos hebras de una doble hélice de ADN son complementarias y
antiparalelas:
•
Las bases complementarias (una de cada hebra) se unen entre sí mediante
puentes de hidrógeno formando los llamados pares de bases. La A se empareja
siempre con la T (y viceversa) y la C se empareja siempre con la G (y
viceversa). La ruptura de estos débiles enlaces (por ejemplo, mediante
calentamiento) hace que las dos hebras se separen. Se dice entonces que la
molécula de ADN se encuentra desnaturalizada.
•
Las dos hebras son antiparalelas porque una de ellas está orientada en sentido
5'→3' y la otra en sentido 3'→5'.
A la hora de escribir la secuencia de una molécula de ADN basta con escribir la
secuencia de una de sus hebras. El resto de la molécula se puede completar
automáticamente teniendo en cuenta que la otra hebra es complementaria y antiparalela.
Consideremos, por ejemplo, la secuencia TGCGATAC. Esta secuencia corresponde a
una de sus hebras, a la que llamaremos hebra A. Como no se indica lo contrario, se
supone que la secuencia está escrita en sentido 5'→3' y se la denomina hebra directa
(forward strand).
Hebra A (directa): 5'-TGCGATAC-3'
Podemos escribir la hebra A en sentido 3'→5' y obtenemos la hebra inversa (reverse
strand):
Hebra A (inversa): 3'-CATAGCGT-5'
Para representar la molécula completa, habrá que incluir la otra hebra, a la que
denominaremos hebra B:
Hebra A: 5'-TGCGATAC-3'
Hebra B: 3'-ACGCTATG-5'
La hebra B es la hebra complementaria (complementary strand) y se escribe en
sentido 3'→5' para que las bases de cada hebra queden emparejadas. Si escribimos la
secuencia de la hebra B complementaria en sentido 5'→3' se obtiene la
complementaria inversa (reverse-complement): 5'-GTATCGCA-3'.
En una molécula de ADN de doble hebra se suelen utilizar los términos hebra directa y
hebra inversa para distinguir la hebra que se escribe en sentido 5'→3' (directa) de la
hebra que se escribe en sentido 3'→5' (inversa). Se trata, por tanto, de una designación
arbitraria, ya que depende únicamente de cómo se haya escrito la secuencia. Sin
embargo, es especialmente importante tener en cuenta esta distinción a la hora de
encargar la síntesis de cebadores para una reacción de PCR. Uno de los cebadores
está orientado en sentido 5'→3' (forward primer) y el otro en sentido 3'→5' (reverse
primer).
Cuando se van a encargar los cebadores, es importante recordar que las dos secuencias
deben escribirse en sentido 5'→3'. Si no se escribe correctamente la secuencia, nos
llegará un cebador que no sirve para nada.
Durante la expresión génica, cualquiera de las dos hebras de la molécula de ADN
puede servir de molde para la síntesis de una molécula de ARN mensajero (ARNm).
Este proceso se denomina transcripción. La secuencia del ARNm se llama codificante,
porque contiene toda la información necesaria para dirigir la síntesis de una proteína, un
proceso que se denomina traducción.
La hebra del ADN que sirve de molde para la transcripción se llama hebra sin sentido
(antisense), hebra no codificante (noncoding), hebra (-), o hebra de Watson, y su
secuencia es complementaria a la del ARNm. La hebra de ADN complementaria a la
que actúa de molde se llama hebra con sentido (sense), hebra codificante (coding),
hebra (+), o hebra de Crick.
Cuando se va a depositar la secuencia de un gen en una base de datos, se envía
siempre la hebra codificante, que puede ser cualquiera de las dos. Por convención, se
escribe en sentido 5'→3', de modo que a partir de ella se puede deducir inmediatamente
(gracias al código genético) la secuencia de la proteína que codifica.
La región del ADN que codifica una proteína se denomina marco abierto de lectura
(ORF, open reading frame). Se extiende desde el codón ATG de inicio de la traducción
hasta el codón de parada (TAA, TAG, TGA). No incluye las regiones no traducidas de
los extremos 5' y 3' (5'-UTR y 3'-UTR, untranslated region). En el caso de los
eucariotas, los ORF pueden incluir intrones. Cuando se eliminan los intrones, el ARNm
ya está listo para ser traducido a proteínas y la nueva secuencia se denomina secuencia
codificante (CDS, coding sequence). En procariotas, ORF y CDS es lo mismo, ya que
los ORF carecen de intrones. La mayoría de los programas informáticos que se
utilizan para detectar genes en procariotas se limitan a identificar los ORF que
superen una longitud determinada. En el caso de organismos eucariotas la detección de
genes es mucho más compleja porque hay que tener en cuenta la presencia de intrones y
exones, los lugares de corte y empalme (splicing) y el procesamiento alternativo
(alternative splicing).
Los ORF se pueden encontrar tanto en la hebra directa (escrita en sentido 5'→3') como
en la hebra inversa (escrita en sentido 3'→5'), tal y como se aprecia en la figura inferior.
En algunos casos se pueden encontrar regiones del ADN en las que las dos hebras
contienen secuencias codificantes pertenecientes a genes distintos y que se encuentran
solapadas. Estos genes solapados se denominan genes fantasma (shadow genes) y dan
bastantes problemas a la hora de predecir la presencia de genes en una secuencia, ya que
suelen confundir a los programas informáticos de predicción.
Cuando se obtiene una secuencia codificante de ADN se desconoce cuál es la pauta de
lectura (reading frame). Por eso, los programas de traducción de secuencias de ADN
ofrecen las seis posibles opciones: 3 pautas de lectura en la hebra directa (5'→3') y 3
pautas de lectura en la hebra complementaria inversa (también escrita en sentido 5'→3').
En algunos casos, las secuencias de la hebra A y de la hebra B son iguales. Se trata de
una secuencia palindrómica. Los lugares de corte de la mayoría de las endonucleasas
de restricción y muchos de los lugares de unión al ADN de proteínas reguladoras
corresponden a secuencias palindrómicas. Por ejemplo, el lugar de corte de la
endonucleasa EcoR1 es: GAATTC. Escribiendo la secuencia de las dos hebras, el lugar
de corte sería:
Hebra A: 5'-GAATTC-3'
Hebra B: 3'-CTTAAG-5'
Vistas así las secuencias, no parecen palindrómicas. Sin embargo, si escribimos la
secuencia de la hebra B en el sentido 5'→3' podemos comprobar que es igual que la
secuencia de la hebra A:
Hebra B: 5'-GAATTC-3'
Hebra A: 5'-GAATTC-3'
En muchos casos es muy importante especificar la posición relativa de diversas
regiones de una molécula de ADN. Supongamos una molécula de ADN que contenga
un lugar de corte para la EcoR1 que nos sirve como punto de referencia. Cualquier
secuencia que se encuentre antes de la G que marca el extremo 5' del lugar de corte está
"corriente arriba" (upstream) y cualquier secuencia que se encuentre después de la C
que marca el extremo 3' del lugar de corte está "corriente abajo" (downstream).
Tipos de secuencias de ADN
Las secuencias de ADN almacenadas en bases de datos pueden ser de varios tipos:
•
•
•
•
ADN genómico: es el que se extrae directamente del genoma y contiene los
genes en su estado natural, es decir, que además de la secuencia que codifica una
proteína también contiene intrones, elementos reguladores y grandes porciones
de ADN intergénico. Hay bases de datos especializadas como, por ejemplo,
GOLD (Genomes Online Database), que incluyen los genomas completos que se
han secuenciado hasta la fecha (casi 13.000) y los que están en marcha (casi
28.000). Su URL es http://genomesonline.org. La base de datos del NCBI
Genome (http://www.ncbi.nlm.nih.gov/genome) también contiene genomas
completos.
ADN sintético: son secuencias de vectores (plásmidos, virus modificados u
otros elementos genéticos) utilizados en el laboratorio para generar moléculas de
ADN recombinante. Se almacenan en la división SYN del GenBank.
ADN complementario (ADNc): es el que se obtiene a partir de un ARN
mediante la transcriptasa inversa. Tiene la ventaja de que siempre corresponden
a secuencias codificantes (ARN o proteínas).
Fragmentos de secuencias expresadas (EST, expressed sequence tags): Son
moléculas de ADNc sintetizadas a partir de un ARNm mediante la transcriptasa
inversa. Son secuencias incompletas, con una longitud de entre 400 y 600
nucleótidos (el máximo que permiten los métodos de secuenciación actuales) y
pueden presentar hasta un 2% de errores, pero son tremendamente útiles a la
hora de localizar genes (secuencias codificantes) en el ADN genómico y por eso
se almacenan en una base de datos especializada: dbEST, cuya URL es
http://www.ncbi.nlm.nih.gov/nucest.
La molécula de ADN, vista por un informático
Las herramientas bioinformáticas consideran las secuencias como una sucesión finita
de caracteres que pertenecen a un alfabeto definido. Si se trata de una secuencia de
ADN, el alfabeto es N = {A, C, G, T}, si es un ARN el alfabeto es NARN = {A, C, G,
U} y si es una proteína, el alfabeto es A = {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R,
S, T, V, T, Y}. Esta simplificación es muy útil para el desarrollo de algoritmos
matemáticos porque considera las secuencias como objetos unidimensionales, pero no
debemos olvidar que no es del todo correcta, ya que ignora el hecho de que las
propiedades de las moléculas de ácidos nucleicos o de proteínas dependen, en gran
medida, de su estructura tridimensional.
Una secuencia "S" está formada por un número finito de elementos: S = s1,s2 ... sn.
Cada elemento se designa como si, donde i indica la posición que ocupa ese elemento en
la secuencia. Dentro de una secuencia se pueden definir subsecuencias. Consideremos,
por ejemplo, la siguiente secuencia de ADN
S = ACTGGCTAGCAT
En esta secuencia hay 12 elementos. El elemento que ocupa la segunda posición S(2), o
s2, es "C" y el elemento que ocupa la quinta posición S(5), o s5, es "G". La subsecuencia
S(4 : 8) abarca los elementos que van desde la posición 4 hasta la 8, ambas incluidas:
S(4 : 8) = GGCTA.
En muchos casos, los métodos de análisis de secuencias tienen que manejar secuencias
de varios millones (o miles de millones) de bases. Es necesario, por tanto, utilizar
métodos estadísticos que, lo primero que hacen, es ajustar las secuencias a un modelo
probabilístico. Los modelos que más se utilizan son: el modelo multinomial, el modelo
de Markov o alguna variante de estos dos. Ninguno de estos modelos refleja al 100%
las características de una secuencia real de ADN pero lo importante es que retienen las
principales propiedades de la secuencia y, al mismo tiempo, permiten la aplicación de
algoritmos informáticos capaces de extraer información útil a partir del análisis de las
secuencias.
El modelo multinomial es el más sencillo y asume que los nucleótidos son
independientes y están idénticamente distribuidos. Esto quiere decir que la presencia de
un nucleótido en la posición i no depende de la presencia de otros nucleótidos en otros
lugares de la secuencia y viene determinada únicamente por su frecuencia. En este
modelo se cumple que
pA = pC = pG = pT = 0,25
pA + pC + pG + pT = 1
La probabilidad de que aparezca una determinada secuencia S = s1s2...sn viene dada por
la expresión
n
P ( s ) = ∏ p( s (i ))
i =1
Cuando las secuencias son muy largas, al hacer este cálculo el número de decimales se
hace cada vez mayor. Esto supone un problema para el computador porque cada vez
necesita más memoria para almacenar el resultado. Por este motivo, las herramientas
informáticas en vez de trabajar con las probabilidades (odds) suelen utilizar el
logaritmo de las probabilidades (log odds). Para calcular el logaritmo de P(s) basta
con sumar los logaritmos de las probabilidades individuales, con lo que el número de
decimales del resultado se mantiene constante
log(P(s )) = ∑i =1 log( p (si ))
n
El modelo de Markov considera una secuencia de ADN como una cadena de Markov.
En una cadena de Markov, la probabilidad de que aparezca un símbolo depende de los
símbolos que le preceden en la secuencia. De esta forma, el modelo recoge las
correlaciones de corto alcance que puedan existir en una secuencia. Si esta probabilidad
depende únicamente del símbolo que le precede, se dice que es una cadena de Markov
de orden 1. Si depende de los dos anteriores es una cadena de Markov de orden 2, y así
sucesivamente. El modelo multinomial se puede definir como una cadena de Markov de
orden 0, ya que no depende de ningún símbolo.
Una cadena de Markov se define mediante (1) una serie de estados (cada uno de los
posibles símbolos del alfabeto), (2) la probabilidad de que la primera posición esté
ocupada por un símbolo u otro (que depende de su frecuencia) y (3) la probabilidad de
transición de un estado a otro.
La probabilidad del estado inicial (π) viene determinada por la frecuencia con que
aparece cada nucleótido (πA, πC, πG, πT). Lógicamente, se cumple que
πA + πC + πG + πT = 1
Las probabilidades de transición de
matriz de transición T
p AA
p
T = CA
pGA
pTA
un estado a otro se recogen en la denominada
p AC
pCC
pGC
pTC
p AG
pCG
pGG
pTG
p AT
pCT
pGT
pTT
Cada valor pxy de esta matriz corresponde a la probabilidad condicionada de observar
el estado y en la posición i+1 cuando la posición i está ocupada por el estado x
pxy = p (si+1 = y|si = x)
En cada fila de esta matriz la suma de las probabilidades es 1. Lógicamente, si todas las
probabilidades de transición son iguales, tenemos un modelo multinomial.
Con estos parámetros se puede construir el modelo de Markov que define la secuencia:
La probabilidad de que aparezca una determinada secuencia S = s1s2...sn viene dada por
la expresión
P(S) = π(s1) p(s2|s1) p(s3|s2)... p(sn|sn-1)
que equivale a
n
n
i=2
i=2
P ( s ) = π ( s1 )∏ p( si | s i -1 ) = π ( s1 )∏ psi−1 si
y el logaritmo de esta probabilidad es
n
log(P(s )) = log(π (s1 )) + ∑i = 2 log( p(si | si -1 )) = log(π (s1 )) + ∑ log( p(si −1si ))
n
i=2
Descargar