Introducción a la Secuenciación Masiva y a la Bioinformática Dietmar Fernández Orth, PhD 24 de Abril de 2014 1 •El DNA (Ácido desoxirribonucleico) contiene la información genética usada en el desarrollo y funcionamiento de los organismos vivos. Se presenta en forma de una cadena doble de nucleótidos unidos por puentes de hidrógeno. •Tiene la información codificada en forma de GENES. Es como si fuese un libro escrito en un idioma de 4 letras (los nucleótidos A, C, G, T) y cada capítulo (gen) diese la información para una función. • En el genoma humano tiene unos 20,000-25,000 genes y su genoma tiene aproximadamente 3000 Mb. 2 El RNA es un filamento de una sola cadena, no forma doble hélice que resulta de la transcripción del DNA. El RNA mensajero, es el portador de la información genética que será transcrita a partir del DNA del núcleo a los ribosomas que serán los que darán lugar a la producción de proteínas. 3 El RNA es estructuralmente similar al DNA. Los nucleótidos de DNA y RNA tienen estructuras similares 4 5 Las variantes comunes no han sido capaces de explicar por si solas las enfermedades genéticas complejas variantes raras pueden estar afectando Entre estas pueden destacarse variantes de un solo nucleótido (SNV), estructurales, inserciones o deleciones. Al principio se pensaba que la secuenciación de a que la secuenciación de los ácidos nucleicos era mucho más difícil que la de las proteínas por lo que hasta 1960 fue de escaso objeto de estudio. ‡ En cualquier caso, el hecho de existir solo 4 tipos de nucleótidos llevo a pensar que el análisis sería más sencillo. ‡ Actualmente la secuenciación de ácidos nucleicos es más rápida y sencilla que la secuenciación de proteínas. 7 La secuenciación es un conjunto de métodos y técnicas bioquímicas que nos van a permitir determinar el orden de los nucleótidos en un fragmento de ácido nucléico. Secuenciación de Maxam and Gilbert (1977) Secuenciación de Sanger Secuenciación automática Secuenciación Masiva Illumina Applied Roche 8 9 Problemas Elevada complejidad técnica Uso extensivo de productos químicos peligrosos. Los reactivos no se pueden adaptar para utilizarse en un kit biológico 10 Fragmentos de 80 bases aproximadamente 11 La fluorescencia permite la automatización. La detección de fluorescencia se realiza al mismo tiempo que la electroforesis. Lo que permite eliminar los fragmentos ya secuenciados. 12 Ventajas secuenciador automático Al no utilizar radioactividad la contaminación es menor. Comodidad. No hace falta leer una autorradiografía. Más secuencia. 700-800 nucleótidos frente a 300 nucleótidos en cada una. Rapidez. Los secuenciadores capilares pueden llegar a analizar 96 carreras en menos de dos horas. Es más barato. Fuerte inversión inicial. 13 Los procedimientos explicados hasta ahora actuales solo pueden secuenciar directamente fragmentos relativamente cortos (de entre 3001000 nucleótidos de longitud) en una sola reacción. El principal obstáculo para secuenciar fragmentos de DNA de una longitud superior a este límite es la capacidad insuficiente de separación para resolver grandes fragmentos de DNA cuyo tamaño difiere en un sólo nucleótido. 14 15 16 17 Ficheros fastq 18 El DNA se parte en fragmentos de 300-800 pb y se dejan extremos “polished” eliminando bases no pareadas en los extremos. Adición de los adaptadores en extremos. DNA se pasa a hebra sencilla. Un adaptador contiene biotina que se unirá a las esferas de estreptavidina. Un solo DNA por esfera. Se añade aceite y se forma la emulsión. Se hace la PCR para cada esfera tener 106 copias. Se elimina a continuación el aceite y las esferas se introducen una por pocillo en placas Las enzimas de pirosecuenciación están adheridas a otras esferas más pequeñas y se añaden a los pocillos La placa se va lavando en una serie de ciclos con los 4 dNTPs. La placa tiene acoplada una camara que va captando la luminiscencia emitida en cada pocillo. 21 Aplicaciones en Secuenciación Secuenciación de novo Consiste en la secuenciación de un genoma sin tener ningún tipo de referencia sobre la que construir los contigs. Requiere una mayor cobertura para poder garantizar la calidad de cada una de las bases determinadas. Resecuenciación Consiste en la secuenciación de un genoma sobre una referencia. Existen diversas posibilidades: 22 Resecuenciación Genomas completos Resecuenciación dirigida Consiste en el aislamiento, enriquecimiento y secuenciación de regiones específicas del genoma. Permite la detección sistemática tanto de variantes comunes como variantes raras o poco frecuentes. Exoma Permite la captura, el enriquecimiento y la secuenciación de regiones genómicas codificantes en eucariotas. Customizada Permite el estudio de regiones específicas del genoma mediante el diseño de sondas customizadas 23 Transcriptómica RNA - Seq - Transcriptoma completo Información global sobre el contenido de RNA de una muestra, incluyendo mRNAs, rRNAs, tRNAs etc. Análisis cualitativo = diversidad de transcritos Análisis cuantitativo =abundancia de transcritos Permite medir niveles de expresión génica, identificar eventos de splicing alternativo, identificar eventos de fusión génica e identificar SNVs. 24 Transcriptómica SmallRNAs RNAs no codificantes de pequeño tamaño que incluyen un gran número de moléculas con funciones y estructuras muy diversas (miRNAs, snoRNAs, piRNAs, etc). Chip-Seq Combina el método de inmunoprecipitación de la cromatina con la secuenciación masiva permitiendo la identificación de las zonas de interacción entre la proteína y el DNA (cistroma). Metilación Estudia los patrones de metilación del DNA implicados por ejemplo en procesos de diferenciación celular 25 Según el estado de degradación de la muestra secuenciación del DNA mitocondrial Genomas nucleares de especies extinttas: mamut, Neanderthal Problemas: contaminación… 26 Nos permite caracterizar la biodiversidad del planeta El aumento de los genomas secuenciados permite la interpretación parcial del ambiente a partir del muestreo de nichos específicos. Ejemplo: océano, minas acidas, suelos, arrecifes de coral, microbioma que pueda variar en función de la salud del individuo. 27 Control de calidad Tratar de eliminar aquellas posiciones con una baja calidad de secuenciación. Alineamiento Si se parte de un organismo conocido, alineamiento de las secuencias en base a la secuencia de referencia. Si es desconocido, se realiza el ensamblado de las secuencias en contigs. Detección de variantes y anotación. 28 Control de calidad Tratar de eliminar aquellas posiciones con una baja calidad de secuenciación. Alineamiento Si se parte de un organismo conocido, alineamiento de las secuencias en base a la secuencia de referencia. Si es desconocido, se realiza el ensamblado de las secuencias en contigs. Detección de variantes y anotación. 29 Gracias por vuestra atención 30