Secuenciación del ARN El ARN es el ácido nucleico más abundante en la célula. Lo sintetiza la enzima ARN polimerasa a partir de una molécula de ADN mediante un proceso denominado transcripción. La ARN polimerasa sintetiza el ARN en dirección 5'→3', de modo que la hebra de ADN que actúa como molde está orientada en sentido 3'→5', por lo que también se la conoce como hebra sin sentido (antisense), hebra no codificante (noncoding), hebra (─) o hebra de Watson. La hebra de ADN complementaria a la que actúa como molde presenta la misma secuencia que el transcrito de ARN (aunque, lógicamente, contiene T en lugar de U) y se la conoce como hebra con sentido (sense), hebra codificante (coding), hebra (+) o hebra de Crick. Los genes pueden estar en cualquiera de las dos hebras del ADN, así que una misma hebra será codificante en algunos casos y no codificante en otros. Cuando se va a depositar la secuencia de un gen en una base de datos, se envía siempre la secuencia de la hebra codificante. 1.- Secuenciación química En 1965 se secuenció el primer RNA: el Ala-RNAt, formado por 77 nucleótidos. Se utilizaron métodos similares a los que se emplearon en el caso de las proteínas: hidrólisis parcial mediante enzimas, fraccionamiento de los productos en una columna de intercambio iónico y análisis químico. Las enzimas utilizadas fueron la ribonucleasa pancreática, que rompe el RNA tras una base pirimidínica (C y U) y la ribonucleasa T1, que escinde la molécula de RNA después de una G o una I (inosina). Poco después, Fred Sanger desarrolló un método basado en la hidrólisis enzimática y la posterior separación y análisis de los oligonucleótidos generados (marcados con 32P) mediante cromatografía bidimensional en papel. De este modo, en 1968, consiguió secuenciar el RNAr de 5S, que tiene una longitud de 120 nucleótidos. Este tipo de secuenciación del ARN puede complicarse debido a la presencia de nucleótidos atípicos o modificados en el ARNt y en el ARNr. Hoy en día, la presencia de nucleótidos modificados se puede detectar con relativa facilidad gracias a la espectrometría de masas. 2.- Secuenciación del ARN a partir del ADNc (EST, RNA-Seq) Si el ARN carece de nucleótidos atípicos o modificados, su secuencia se puede determinar directamente a partir de la secuencia de ADN genómico (ADNg) que lo codifica. En eucariotas, sin embargo, es muy habitual que la secuencia de las moléculas de ARNm que van a ser traducidas no coincida exactamente con la secuencia del ADN genómico, ya que los transcritos primarios de ARN pueden experimentar diversas modificaciones mediante los procesos de maduración del ARN (RNA splicing) o de edición del ARN (RNA editing). Durante la maduración del ARN se eliminan los intrones del transcrito primario y se empalman los exones para generar un ARNm maduro. La edición del ARN es un proceso en el que se pueden añadir, eliminar o sustituir nucleótidos en la secuencia del ARN. En estos casos, la secuencia del ARNm se puede obtener directamente a partir del ADN complementario (ADNc), que es una molécula de ADN sintetizada por la enzima transcriptasa inversa a partir de una molécula de ARNm que actúa como molde. Generación de ADNc a partir de moléculas de ARNm En primer lugar, se extrae todo el ARN celular y se hace pasar a través de una columna de celulosa unida a cadenas de oligo(dT). Las colas de poli(A) de las moléculas de ARNm quedan retenidas en la columna, mientras que el resto del ARN la atraviesa. A continuación se utiliza un tampón de elución que rompe los puentes de hidrógeno entre la cola de poli(A) y las cadenas de oligo(dT) y permite extraer el ARNm de la columna. Este ARNm servirá de molde para que la transcriptasa inversa sintetice una hebra de ADNc utilizando como cebadores oligo(dT), que hibridan con la cola de poli(A). La transcriptasa inversa genera una molécula híbrida ADN/ARN. Esta molécula se trata brevemente con una ribonucleasa que digiere parcialmente la hebra de ARN (algunas transcriptasas inversas tienen actividad ribonucleasa H que, durante el proceso de síntesis de ADN hidrolizan de forma específica el molde de ARN). A continuación, se utiliza una ADN polimerasa para que sintetice la segunda hebra del ADN utilizando los fragmentos cortos de ARN no digeridos como cebadores. Por último, la ADN ligasa se encarga de unir los distintos fragmentos en una única hebra. El resultado de este proceso es la creación de una molécula de ADN de doble hebra con la misma secuencia que el ARNm molde y que se puede secuenciar utilizando cualquiera de las técnicas disponibles. Si se va a secuenciar el ADN mediante el método de Sanger, hay que clonar el ADNc en un vector apropiado para crear genotecas de ADNc que contienen el conjunto de genes transcritos en la muestra original. La secuenciación de estos clones de ADNc genera unas secuencias parciales de cada inserto cuya longitud oscila entre 100 y 800 nucleótidos. Estas secuencias se denominan EST (expressed sequence tags) porque corresponden a regiones del genoma que han sido expresadas. Se pueden obtener EST a partir del extremo 5' o a partir del extremo 3', ya que se pueden diseñar cebadores que hibriden con ambos extremos del vector de clonación. También se puede secuenciar el ADN mediante las técnicas de nueva generación (las plataformas Roche-454, Illumina/Solexa o ABI SOLID). Este método se conoce con el nombre de RNA-seq. En este caso, no es necesario crear una genoteca de ADNc. En vez de ello, se fragmenta el ADNc, se seleccionan los fragmentos con el tamaño deseado y se les añade unos adaptadores especiales que permiten su amplificación por PCR y su posterior secuenciación masiva en paralelo. Los detalles experimentales varían ligeramente, en función de la plataforma de secuenciación que se vaya a utilizar. A partir de cada fragmento de ADNc se obtiene una lectura (read) corta, de entre 30 y 400 nucleótidos. Estas lecturas se pueden comparar directamente con el genoma de referencia o, alternativamente, se pueden ensamblar de novo para crear un mapa transcripcional que nos indica qué genes se han expresado y los niveles de expresión de cada uno. 3.- Secuenciación directa del ARN (Plataforma Helicos) Este método utiliza directamente el ARN como molde, sin necesidad de convertirlo previamente en ADNc. Así se evitan los artefactos relacionados con la actividad de la transcriptasa inversa. Además, se secuencian las moléculas de forma individual (single-molecule technique), con lo que también se evita la etapa de amplificación, bien por clonación in vivo (como en los EST), bien por PCR (como en el caso de la RNASeq). Además, también permite obtener el patrón de expresión génica (el transcriptoma) de manera cuantitativa. Se trata de una secuenciación masiva en paralelo en la que se utiliza una polimerasa especialmente modificada para poder utilizar como sustratos 4 derivados de los nucleótidos naturales denominados "terminadores virtuales" (TV). Los TV están unidos a un fluoróforo y bloqueados en posición 3' por un grupo químico, de modo que en cada ciclo de reacción sólo se puede incorporar un nucleótido. Tanto la unión del fluoróforo como el bloqueo en 3' son reversibles. Terminador virtual fluorescente y bloqueado en su extremo 3' Terminador virtual no fluorescente y desbloqueado en su extremo 3' Las moléculas de ARN que se van a secuenciar tienen que estar poliadeniladas y su extremo 3' debe estar bloqueado. Las moléculas de ARNm ya tienen una cola de poli(A) en su extremo 3'. Al resto de las moléculas de ARN se les puede añadir in vitro la cola de poli(A), utilizando la enzima poli(A)-polimerasa. Tanto las moléculas de ARN poliadeniladas de forma natural (el ARNm) como de forma artificial (los demás ARN) se bloquean en 3' mediante la adición de un residuo de desoxiadenosina (dA) catalizada por la misma poli(A)-polimerasa. Las moléculas de ARN poliadeniladas se introducen en una celda de flujo cuya superficie está recubierta de fragmentos de oligo(dT). La hibridación entre las colas de poli(A) y los oligo(dT) hace que las moléculas de ARN queden fijadas al soporte, con una densidad de 100 millones de moléculas por cm2. La secuenciación se produce durante el proceso de síntesis de la hebra complementaria. Una vez unidas, se lleva a cabo una etapa de "rellenado" (fill) y "sellado" (lock) en la que se añade timidina natural y polimerasa para elongar los oligo(dT) hasta que todos los residuos de adenosina de la cola de poli(A) estén emparejados con una T. Así nos aseguramos de que la secuenciación empezará exactamente en la molécula de ARN y no en su cola de poli(A). Después del "rellenado" se procede al "sellado", que consiste en la adición de 3 TV fluorescentes (A, C y G). No hace falta añadir T porque tras la etapa de rellenado no queda ninguna A sin emparejar. Cada molécula de ARN incorporará el TV adecuado en cada caso. Se excitan los TV fluorescentes y se toma una imagen que permite determinar la posición exacta de cada molécula de oligo(dT) antes de que empiece la síntesis de la hebra complementaria. Después, mediante métodos químicos, se escinde el fluoróforo de cada TV y se desbloquean los extremos 3' para que se puedan incorporar nuevos nucleótidos en el orden que dicta cada molécula de ARN molde. La etapa de síntesis se lleva a cabo mediante ciclos de reacciones. En cada ciclo se añade un TV distinto junto con la polimerasa. Supongamos que se ha añadido C-TV. Este nucleótido se unirá únicamente a aquellas moléculas que presenten una G en el ARN molde. Se lavan los TV no unidos y se ilumina la celda de flujo para excitar los TV. Se toma una imagen que presentará una señal fluorescente en aquellas posiciones donde se haya incorporado el C-TV. Después se escinden químicamente los fluoróforos y se desbloquean los extremos 3' para iniciar un nuevo ciclo de síntesis. Normalmente se completan 120 ciclos de síntesis en los que los nucleótidos se van añadiendo siempre en el mismo orden (por ejemplo C-T-A-G). Examinando la colección de imágenes que se han tomado, en cada posición habrá una sucesión de puntos que indican qué nucleótidos se han incorporado y cuáles no, lo que permite determinar la secuencia de cada molécula de ARN que ha actuado como molde. La longitud media de las lecturas obtenidas es de 33 nucleótidos.