Acercamiento a la Bioinformá0ca 2-­‐ Secuencia Rodrigo Santamaría Semana de la Biotecnología 2013 Repositorios SECUENCIA Bases de Datos • Na2onal Center for Biotechnology Informa2on – NCBI: www.ncbi.nlm.nih.gov – GenBank • Hay otras BBDD en UE y Japón, coordinadas • Todas las secuencias conocidas ~ 1TB – Es mucha información • En términos de almacenamiento, no supone un reto • Sí supone un desaNo en términos de búsqueda Búsqueda textual • Uso de manuales – Fundamental para cualquier herramienta bioinformá2ca • Operadores booleanos: AND, OR, NOT – horse OR horses • Filtros: corchetes tras el nombre – horse[Organism] – BRCA1[Gene Name] • Comillas: para coincidencia exacta si hay más de una palabra – “Equus caballus” J. Pevsner, Bioinforma6cs and Func6onal Genomics. 2009 Búsqueda gené0ca Guerra y Paz • Busquemos referencias a Anna Pavlovna en todos los libros de nuestra biblioteca – En dis2ntos idiomas Secuencias • Busquemos un gen en todas las secuencias de nuestra BBDD – Con posibles ‘mutaciones’ Anna An-a – En dis2ntos alfabetos Anna Анна Άννα ACGTGTGGACG ACGT--GG-TG – Con relaciones gen-­‐proteína AATTTGCATATCTTATATGGC N L H I L Y G Alineamiento de pares SECUENCIA Alineamiento de pares • Técnicas para ‘encajar’ dos secuencias – Colocación para maximizar su parecido ROJO ROSSO "+2" ROUGE "+2" RED" "+1" ROJ–O ROSSO" ** * "+3 (75%)" RO–JO ROUGE "" ** +2 (50%)" ROJO RED–" * "+1 (25%)" Sistema de puntuación • Los alineamientos usan sistemas de puntuación para determinar la similitud • Por ejemplo: +1 por cada elemento igual (match) -1 por cada elemento desigual (mismatch) -1 por cada hueco introducido (gap) Tipos de alineamiento • Alineamiento global: Needleman-­‐Wunsch (NW) – 1970, PMID: 5420325 • Alineamiento local: Smith-­‐Waterman (SW) – 1981, PMID: 7265238 Needleman-­‐Wunsch: inicio • Creamos una matriz, con una secuencia en horizontal y la otra en ver2cal. • La primera fila y columna con2enen valores de distancia al origen (gap scores) – Asegura el alineamiento hacia atrás y hasta el origen 0 P é -1 é E -2 L -3 é é I -4 C -5 A N é é -6 é -7 C O E L A C A N T H ç ç ç ç ç ç ç ç ç ç -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 NW: llenado o inducción • Para cada celda se calculan tres valores, que son la suma de una celda adyacente más el match/mismatch (MM) de la celda actual – MM + celda superior – MM + celda izquierda – MM + celda superior izquierda • Para cada celda – Se le asigna el máximo de los tres valores – Se le asigna la dirección a la celda que propició ese valor – En caso de que sean valores iguales, se elige un criterio de desempate 0-­‐1=-­‐1 -­‐1-­‐1=-­‐2 -­‐1-­‐1=-­‐2 P≠C à MM=-­‐1 0 P C O E L A C A N T H ç ç ç ç ç ç ç ç ç ç -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 é ë ë ë ë ë ë ë ë ë ë -1 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 E é ë ë ë ç ç ç ç ç ç ç -2 -2 -2 -1 -2 -3 -4 -5 -6 -7 -8 L é ë ë é ë ç ç ç ç ç ç -3 -3 -3 -2 0 -1 -2 -3 -4 -5 -6 I é ë ë é é ë ë ë ë ë ë -4 -4 -4 -3 -1 -1 -2 -3 -4 -5 -6 C é ë ç é é ë ë ç ç ç -5 -3 -4 -4 -2 -2 0 -1 -2 -3 ç A é é ë ë é ë é ë ç ç ç -6 -4 -4 -5 -3 -1 -1 1 0 -1 -2 é é ë ë é é ë é ë ç ç -7 -5 -5 -5 -4 -2 -2 0 2 1 0 N -4 NW: “trace-­‐back” • Seguimos la ruta con mejor puntuación – Comenzando en la esquina inferior derecha – Siguiendo las flechas • ç desplazamiento de la cadena ver2cal respecto a la horizontal • é desplazamiento de la horizontal respecto a la ver2cal • ë no hay desplazamiento 0 P C O E L A C A N T H ç ç ç ç ç ç ç ç ç ç -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 é ë ë ë ë ë ë ë ë ë ë -1 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 E é ë ë ë ç ç ç ç ç ç ç -2 -2 -2 -1 -2 -3 -4 -5 -6 -7 -8 L é ë ë é ë ç ç ç ç ç ç -3 -3 -3 -2 0 -1 -2 -3 -4 -5 -6 I é ë ë é é ë ë ë ë ë ë -4 -4 -4 -3 -1 -1 -2 -3 -4 -5 -6 C é ë ç é é ë ë ç ç ç -5 -3 -4 -4 -2 -2 0 -1 -2 -3 ç é é ë ë é ë é ë ç ç ç -6 -4 -4 -5 -3 -1 -1 1 0 -1 -2 é é ë ë é é ë é ë ç ç -7 -5 -5 -5 -4 -2 -2 0 2 1 0 A N COELACANTH" -PELICAN--" -4 Matrices de puntuación SECUENCIA Matrices de puntuación • Necesitamos métodos de puntuación más sofis2cados, con sen2do biológico: – Gené0co: coste de mutación de un aminoácido en otro – Químico: similitud en las caracterís2cas de los aminoácidos – Evolu0vo: frecuencia evolu2va de cambio en aminoácidos • Lod scores • PAM • BLOSUM Aminoácidos vs Nucleó0dos • ¿Por qué hablamos de aminoácidos? – El alineamiento de proteínas da más información: • Muchos cambios de un nucleó2do en un codón no varían el aminoácido resultante à más estable • Muchos aminoácidos comparten propiedades bioNsicas • Muchas proteínas comparten estructura o regiones estructurales • El ADN sufre dis2ntas modificaciones pos-­‐ translacionales que pueden influir en la proteína que codifica 15 Matrices de puntuación: historia • 1965: Emile Zuckerkandl y Linus Pauling diseñan la primera matriz de puntuaciones para dis2ntas secuencias de globina – Rojo: sus2tuciones que nunca ocurren – Blanco: sus2tuciones que ocurren en con una frecuencia menor al 20% • Con número si >20 y <40% – Gris: sus2tuciones que ocurren con una frecuencia del X% (>=40%) • Con paréntesis si se 2enen pocas evidencias para esa sus2tución Matrices de puntuación: historia • 1978: Dayhoff et al. estudiaron 1572 sus2tuciones en 71 grupos de proteínas muy parecidas – Accepted Point Muta6on (PAM): sus2tución de un aminoácido por otro, aceptada por la selección natural para una det. proteína • 1992: Henikof y Henikof mejoran la matriz de Dayhoff con una base de datos de 500 alineamientos (BLOCKS) entre proteínas poco parecidas Margaret Dayhoff Dayhoff et al. 1978 Matriz con probabilidades de mutación PAM1 1 PAM se define como la unidad de divergencia evolu2va en la que han ocurrido un 1% de mutaciones entre dos secuencias de proteínas PAMn • Podemos mul2plicar la matriz PAM1 por sí misma n veces para obtener las probabilidades de sus2tución si hay un n% de probabilidades de que cada aminoácido de la cadena haya mutado. – Ú2l para comparar proteínas muy dis2ntas PAM10 poca PAM60 PAM80 PAM100 diferencia PAM250 mucha BLAST SECUENCIA BLAST • Basic Local Alignment Search Tool • Quizás el programa más importante en bioinformá2ca – Busca secuencias similares a una dada mediante alineamiento de pares • NCBI BLAST: – blast.ncbi.nlm.nih.gov Familia BLAST Aplicaciones • Búsqueda de secuencias homólogas en un organismo o entre organismos – P.ej. encontrar una bacteria de fácil producción que genere una proteína similar a la que en humanos está relacionada con prevención de cáncer • Estudios de la evolución de los genes – Cuanto más se parezcan los genes entre especies, más importante será para la vida (tasa de mutación baja) • Relaciones filogené0cas – Árboles filogené2cos a nivel de genoma en vez de feno2po Búsqueda de secuencias homólogas • Busquemos la proteína BRCA1 de humano (relacionado con el cáncer de mama) en el ratón (RaFus norvegicus) – NCBI blastn >gi|1698399|gb|AAC37594.1| BRCA1 [Homo sapiens] MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKG… Resultado Bit score Interpretación • Bit score: puntuación obtenida de acuerdo a la matriz u2lizada • e-­‐value: posibilidad de que la similitud entre las secuencias se deba al azar (entre 0 y 1) – Debería ser muy bajo (<10e-­‐6) Buen uso de BLAST • Tratar las búsquedas BLAST como un experimento cien„fico más – Hipótesis (pregunta) – Diseño experimental • secuencia de par2da • BD obje2vo • algoritmo, parámetros – Resultados (salida) – Interpretación Mal uso de BLAST • Realizar búsquedas con una hipótesis o diseño pobre, y analizar los resultados en función de si obtengo lo que quería o no – Luego modifico el diseño, hasta que los resultados que obtenga confirmen lo que quería oír – Esta manipulación de los datos es posible en muchos casos, dada la flexibilidad de BLAST. Alineamiento múl2ple SECUENCIA Alineamiento múl0ple • Obje0vo: comparar varias secuencias a la vez • Algoritmos evolucionados de los algoritmos de alineamiento de pares – Por ejemplo, T-­‐coffee: • European Bioinforma2cs Ins2tute (EBI) – www.ebi.ac.uk/Tools/msa/tcoffee • Globinas de organismos: – vis.usal.es/rodrigo/documentos/bioinfo/filogenia/13globins.fasta • ADN mitocondrial de primates: – vis.usal.es/rodrigo/documentos/bioinfo/filogenia/mitDNAprimates.fasta Predicción filogené0ca • En vez de alinear genes, podemos alinear genomas • Es un modo de realizar una filogenia a par2r de geno2pos en vez de feno2pos Tree of Life • Árbol con todos los organismos – iTOL: itol.embl.de • Con genoma secuenciado Navegadores de genomas • UCSC Genome Browser – genome.ucsc.edu Tecnologías SECUENCIA Secuenciación • Tecnología para determinar los nucleó2dos de una muestra de DNA • El método más u2lizado es la secuenciación Sanger (1977) Secuenciación Sanger ddNTP (dideoxinucleó0do): nucleó2dos sin grupo 3’-­‐ hidroxilo, lo cual evita que con2núe la copia Cada 2po (A,C,G,T) 2ene añadido un marcador fluorescente • www.scq.ubc.ca/genome-­‐projects-­‐uncovering-­‐the-­‐blueprints-­‐of-­‐biology Secuenciación de genomas • Las técnicas de secuenciación sólo permiten secuenciar cadenas cortas de DNA – Como mucho, 100-­‐500kb • Shotgun sequencing: Estrategias de fragmentación aleatoria por sonicación – Se requerirán métodos de ensamblado Fragmentación y ensamblado genoma secuenciado genoma no secuenciado fragmentos secuenciados Ensamblado • De novo: ensamblaje de una secuencia desconocida • Mapeado: ensamblaje de una secuencia conocida – Lo más usual – Estudios de variación geno„pica Alineamiento y mapeo fragmentos sin alinear alineamiento con2g fragmentos [ Generalmente, entenderemos por ensamblado alineamiento+mapeo, si no se especifica lo contrario ] mapeado scaffold (‘andamio’) genoma de referencia Programas de ensamblado • Maq y SOAP: primeros ensambladores • BWA (Burrows-­‐Wheeler Aligner): más rápido • Bow0e: muy rápido (bow2e 2) – h…p://bow2e-­‐bio.sourceforge.net/bow2e2/ Presente y futuro SECUENCIACIÓN High Throughput Sequencing • HTS hace referencia a nuevas técnicas que abaratan sensiblemente la secuenciación – Pirosecuenciación (1996, Roche 454) – Método Solexa (2008, Illumina) – Método SOLiD (2008, Applied Biosystems) – etc. Pirosecuenciación a) b) c) d) e) f) g) Par2mos, como en Sanger, de una secuencia plan2lla y un primer, pero con más enzimas y sustratos, y sin e2quetar los dNTPs La polimerasa une un dNTP, liberando un PPi en el proceso La ATP sulfurilasa convierte el PPi en ATP con ayuda del APS La luciferasa convierte el ATP en luz, con ayuda de la luciferina Medimos un pulso de luz La apirasa se libra de los reac2vos sobrantes para que el sistema esté limpio para el siguiente dNTP El resultado final es, como en Sanger, picos de intensidad Secuenciación de 3ª generación – P. ej. secuenciación por nanoporos • Aún en desarrollo – P. ej. Oxford nanopore dijo que ya tenía lista su tecnología hace 2 años y aún no se ha comercializado DNA h…p://www.ks.uiuc.edu/Research/nanopore/ • Nuevas técnicas que Nanoporo abaratarán más la (sección ver2cal) secuenciación Genome Valence es un proyecto de Ben Fry para visualizar el proceso de alineamiento de pares con BLAST Se representan las dos secuencias a alinear, que se van rompiendo en pedazos y uniéndose si se alinean benfry.com/genomevalence