Análisis de secuencias de DNA (Sesión de bioinformática de Genética) HOJA DE TRABAJO Análisis de una secuencia bacteriana de DNA 1. Abre el archivo bacteria.seq 2. Utilizando la función geometría presenta la secuencia como cadena única y copia aquí los 100 primeros nucleótidos (después vuelve a la presentación original): AGAGATTACGTCTGGTTGCAAGAGATCATAACAGGGGAAATTGATTGAAAATAAATAT ATCGCCAGCAGCACATGAACAAGTTTCGGAATGTGATCAATT 3. Utilizando la función orientación haz el cambio reverse & complement (inversa y complementaria) y copia aquí los 50 primeros pares de nucleótidos de la cadena 5’-3’. Vuelve a la presentación original (reverse & complement), copia los 50 últimos pares de nucleótidos de la cadena complementaria y comprueba que se corresponden (fíjate que el programa reconoce la dirección 5’-3’ de las dos cadenas, y por tanto, siempre que copias y pegas un segmento empieza por el nucleótido en 5’ independientemente que tu lo veas a la derecha o a la izquierda): CGCCAGATACCTGGGATGCGGCATCGCGCGATTAAGCCGACAATCGCAAC CGCCAGATACCTGGGATGCGGCATCGCGCGATTAAGCCGACAATCGCAAC 4. Tabla de aminoácidos. Abre la tabla de aminoácidos y copia el código de una y tres letras correspondiente a los siguientes aminoácido: Alanina Glicina Histidina Leucina Metionina A G H L M 5. Composición. Con esta función calcula la composición nucleotídica del fragmento de 400 pb comprendido entre las bases 601 y 1000. nucleótido Adenina Timina Citosina Guanina A Nº bases Porcentaje 82 20.50% 1 C 105 26.25% G 121 30.25% T 92 23.00% From 601 to 1000, total = 400 6. Análisis de pautas de lectura abiertas. a. Con la herramienta Open Reading Frame Analysis haz que busque en toda la secuencia pautas de lectura abiertas (ORFs) con un mínimo de 40 aminoácidos. ¿Cuántas ha encontrado el programa? 27 Ordénalas por tamaño en formato descendente. Copia y pega aquí las características que tienen las cuatro de mayor tamaño. Indica sus coordenadas (nucleótido inicial y final), longitud de la proteína y la cadena en la que está la pauta (Frame + : directa o Frame –: complementaria): Busca entre todas las ORFs, dos que estén solapadas, una de ellas completamente dentro de la otra (indica sus coordenadas y la cadena) ¿Qué crees que puede significar esto?: b. Busca ahora ORFs de más de 700 aminoàcidos, pero marcando la casilla de la función Nested Reading Frame (pautas de lectura anidadas o solapadas). ¿Cuántas detecta el programa? Escribe los nucleótidos de inicio y final. 3 c. Suponiendo que se trata de un gen codificante ¿en cuál de los codones de inicio comienza? Vamos a buscarlo intentando observar si a corta distancia (7-10 nt) de los potenciales codones de inicio hay una secuencia de unión al ribosoma (secuencia Shine Dalgarno, cuyo consenso es 5’-AGGAGG-3’, aunque dependiendo de lo importantes que son los genes no siempre está muy conservada). Has de usar el comando Go to que te selecciona y muestra resaltada toda la ORF desde el principio. Copia a continuación 20 nucleótidos en cada región (los 17 nucleótidos anteriores al codón de inicio y los 3 de éste). Si la encuentras, resalta la secuencia Shine-Dalgarno (normalmente no están conservados los 6 nucleótidos): 820 aa ATCACGAGGTAACAACCATG 2 771 aa CCAACCATCTGGTGGCGATG 720 aa CGCTTGCACGGTTGAAAATG 7. Mutación. Vamos a ver ahora los efectos que pueden tener sobre un gen del operón de la treonina (thrB) los diversos tipos de mutaciones. Tomaremos el segundo gen del operón de 2801 a 3730: a) sustituciones nucleotídicas sinónimas (cambiar 3307 T por C) b) sustituciones nucleotídicas no sinónimas (cambiar 3303 T por C) c) deleción de un nucleótido (eliminar nt 2904 (T)) d) inserción de 3 nucleótidos (insertar AAA detrás del nucleótido 2903) Pon la traducción a +2. Selecciona la proteína normal codificada entre 2801 y 3727 y pégala a continuación (cambia la letra a Courier New 8). Para hacer cambios en la secuencia te sitúas primero en el lugar del cambio y luego has de desbloquear la secuencia (Unlock en Edit). Haz el cambio que te parezca adecuado y copia la proteína codificada a continuación. Luego has de hacer Undo para volver a la proteína original. Repítelo con la siguiente mutación y copia la proteína codificada. Resalta los cambios de las 4 mutaciones. Normal MVKVYAPASSANMSVGFDVLGAAVTPVDGTLLGDVVSVEAADHFRLHNLGRFADKLPPEPRENIVYQCWERFCQALGKTIPVAMTLEKNMPIGSGLGSSA CSVVAALVAMNEHCGKPLNDTRLLALMGELEGRISGSIHYDNVAPCFLGGMQLMIEENGIISQQVPGFDEWLWVLAYPGIKVSTAEARAILPAQYRRQDC IAHGRHLAGFIHACYSRQPQLAAALMKDVIAEPYRARLLPGFSQARQAVSEIGALASGISGSGPTLFALCDKPETAQRVADWLSKHYLQNQEGFVHICRL DTAGARVVG c) MVKVYAPASSANMSVGFDVLGAAVTPVDGTLLGDGYPLKQRIISVCITWGDLPINCRRSRVKILFISAGNVFARHWGKPSRWR d) MVKVYAPASSANMSVGFDVLGAAVTPVDGTLLGDEMVSVEAADHFRLHNLGRFADKLPPEPRENIVYQCWERFCQALGKTIPVAMTLEKNMPIGSGLGSS ACSVVAALVAMNEHCGKPLNDTRLLALMGELEGRISGSIHYDNVAPCFLGGMQLMIEENGIISQQVPGFDEWLWVLAYPGIKVSTAEARAILPAQYRRQD CIAHGRHLAGFIHACYSRQPQLAAALMKDVIAEPYRARLLPGFSQARQAVSEIGALASGISGSGPTLFALCDKPETAQRVADWLSKHYLQNQEGFVHICR LDTAGARVVG ¿Qué cambios has detectado en las secuencias de las proteínas? ¿Afecta la mutación (c) al siguiente gen del operón? 8. Otros análisis (trabajo adicional para fuera de la sesión presencial). a. Compara las coordenadas y la cadena que has guardado de las 4 ORFs más largas con las del documento del GeneBank que os hemos entregado fotocopiado y que corresponden al operón treonina y al gen yaaA de Salmonella enterica. ¿Ha detectado correctamente los genes la herramienta de Open Reading Frame Analysis? Escribe en la siguiente tabla las coordenadas. Nombre gen (GeneBank) GeneBank (inicio) GeneBank (final) ORF (inicio) ORF (final) 3 b. Como puedes leer en el documento de GeneBank, al inicio del operón existe el sistema de regulación génica por atenuación que incluye varios segmentos de DNA complementario y una pequeña pauta abierta que codifica para el péptido líder: ¿Qué aminoácido está en una proporción inusualmente elevada en el péptido líder? Localiza el péptido líder en la secuencia d y busca el terminador de la transcripción asociado al sistema de regulación por atenuación (permite la formación de una horquilla de nucleótidos complementarios terminada en una tira de uracilos) Copia y pega la secuencia y resalta los nucleótidos complementarios y la tira de Timinas. Lider 190-255 Palindromes: 210 caccattacc |||| ||||| 247 gtggcaatgg 219 225 caccattacc |||| ||||| gtggcaatgg 234 ggtgcgggct |||||||||| ccacgcccga 253 247 244 288 272 310 238 238 279 agaaaaaagcccgcac | |||||||||||||| ttttttttcgggcgtg 287 295 AGAAAAAAGCCCGCACCTGAACAGTGCGGGCTTTTTTTT c. Localiza las secuencias del promotor bacteriano la caja -10 (centrada en -10, consenso TATAAT) y la caja -35 (centrada a -35, consenso TTGACA). Utiliza la herramienta Find para buscar la secuencia consenso de -35 limitando la búsqueda a un segmento entre 1 y 190 en la cadena + y permitiendo 1 diferencia (mismatch). Copia la región de 1 a 200 nt, y resalta las dos cajas y el codón de inicio del péptido líder. AGAGATTACGTCTGGTTGCAAGAGATCATAACAGGGGAAATTGATTGAAAATAAATAT ATCGCCAGCAGCACATGAACAAGTTTCGGAATGTGATCAATTTAAAAATTTATTGACTT AGGCGGGCAGATACTTTAACCAATATAGGAATACAAGACAGACAAATAAAAATGACA GAGTACACAACATCCATGAACCGCAT E. coli Sequence (capitalized letter indicates transcription start base): gccgtgagta aattaaaatt ttattgactt aggtcactaa atactttaac caatataggc Atagcgcaca gacagataaa a 4 SESIÓN EUCARIOTAS Análisis de una secuencia de DNA eucariota 1. Abre la secuencia eucariota.seq que corresponde a un gen de la levadura del pan Saccharomyces cerevisiae. YML056C/IMD4 on chromosome XIII IMP dehydrogenase (Inosina Monofosfato deshidrogenasa) eucariota.seq Cromosoma XIII 1 - 460 164176 - 163717 Exon 461 - 868 163716 - 163309 Intron Exon 869 - 1983 163308 - 162194 2. Localiza las secuencias exónicas e intrónicas y copia aquí la secuencia correspondiente a las dos regiones de cambio de exón-intrón e intrón-exón (10 nt del exón y 10 del intrón de cada una). Resalta los nucleótidos del intrón: exó-intró: CCAGTTACTGGTATGTTATA intró-exó: TTGAACACAGAAGACGGTAA 3. Mutación. Si se produce una mutación en el nucleótido 461 con el cambio de una G por una A y suponemos que el intrón no puede eliminarse del mRNA Copia y pega a continuación la proteína codificada (formato Courier New 8). Después elimina el intrón en el DNA, obtén la proteína normal codificada y pégala a continuación ¿Qué efecto ha producido la mutación? Resalta la diferencia. Cambio últimos nucleotidos y aparicion codón de parada tras una L MSAAPLDYKKALEHLKTYSSKDGLSVQELMDSTTRGGLTYNDFLVLPGLVNFPSSAVSLQTKLTKKITLNTPFVSSPMDTVTEADMAIYMALLGGIGFIH HNCTPKEQASMVKKVKMFENGFINSPIVISPTTTVGEVKVMKRKFGFSGFPVTGML MSAAPLDYKKALEHLKTYSSKDGLSVQELMDSTTRGGLTYNDFLVLPGLVNFPSSAVSLQTKLTKKITLNTPFVSSPMDTVTEADMAIYMALLGGIGFIH HNCTPKEQASMVKKVKMFENGFINSPIVISPTTTVGEVKVMKRKFGFSGFPVTEDGKCPGKLVGLVTSRDIQFLEDDSLVVSEVMTKNPVTGIKGITLKE GNEILKQTKKGKLLIVDDNGNLVSMLSRADLMKNQNYPLASKSATTKQLLCGAAIGTIEADKERLRLLVEAGLDVVILDSSQGNSVFQLNMIKWIKETFP DLEIIAGNVATREQAANLIAAGADGLRIGMGSGSICITQEVMACGRPQGTAVYNVCQFANQFGVPCMADGGVQNIGHITKALALGSSTVMMGGMLAGTTE SPGEYFYKDGKRLKAYRGMGSIDAMQKTGNKGNASTSRYFSESDSVLVAQGVSGAVVDKGSIKKFIPYLYNGLQHSCQDIGCESLTSLKENVQNGEVRFE FRTASAQLEGGVHNLHSYEKRLYN ¿Entre qué posiciones del codón está insertado el intrón? Copia y pega los nucleótidos y aminoácidos de los límites exón-intrón. Entre la 1ª y 2ª posición de los codones E CTGGTA CAGAA 5 Secuencia 2: Gen transformer (tra) de Drosophila melanogaster En Drosophila la determinación del sexo incluye una cascada reguladora. En uno de sus puntos interviene la Proteína Sex-lethal (Sxl), regulando la expresión del gen transformer. En el archivo transformer.txt dispones de 3 secuencias correspondientes a: (1) el mRNA de machos, (2) el de hembras y (3) el segmento de DNA genómico del gen transformer. Compara los dos mRNAs con el genómico y, sabiendo que en hembras la proteína de unión al RNA Sex-lethal (Sxl) se une al mRNA de transformer para ejercer su efecto regulador, describe lo que ha ocurrido. Para ayudarte a representarlo dispones de un pdf con un alineamiento múltiple de las tres secuencias. Puedes copiar y pegar las partes que te interesen y sobre la imagen marcar las señales en el mRNA que son las responsables del efecto regulador Además, has de copiar y pegar las proteínas que se originan en machos y en hembras, las cuales son diferentes (resalta lo común) y permiten la continuación de la cascada reguladora para que se expresen finalmente los genes específicos de macho y los de hembra de forma diferente en cada uno de los sexos. Se observa en rojo el sitio dador del intrón GT…, en azul el sitio receptor del macho precedido por una larga tira de Ts. Finalmente en verde el sitio aceptor que se usa en las hembras con una pequeña tira de Ts. El sistema funciona de forma que en ausencia de la proteína Sxl activa (en machos) se usa el mejor sitio aceptor de splicing (el azul). En presencia de la proteína Sxl (en hembras) se une al mRNA del gen transformer en la zona azul impidiendo el uso del sitio aceptor principal. De esta forma se usa uno ”críptico” no tan bueno como el anterior. El resultado son las dos proteínas siguientes cuya secuencia se puede obtener con GeneRunner Proteína Hembras: 197 aminoácidos MKMDADSSGTQHRDSRGSRSRSRREREYHGRSSERDSRKKEHKIPYFADEVREQDRLRRL RQRAHQSTRRTRSRSRSQSSIRESRHRRHRQRSRSRNRNRSRSSERKRRQHSRSRSSERRRR 6 QRSPHRYNPPPKIINYYVQVPPQDFYGMSGMQQSFGYQRLPRPPPFPPAPYRYRQRPPFIGV PRFGYRNAGRPPY Proteína Transformer de machos: 36 aminoácidos (no funcional) MKMDADSSGTQHRVSYCVKCEMDENERWTTRQRKRS Sugiere una o varias mutaciones del gen transformer que en hembras o en machos pudiera alterar la regulación por parte de Sxl. 1) Por ejemplo una mutación en el sitio aceptor de machos AG a AT produciría que éstos usaran el de las hembras y se produciría la Proteína Transformer en machos, ocasionando probablemente que se desarrollaran como hembras (no he buscado ejemplos reales y puede que hubiera algún tipo de letalidad). 2) Por ejemplo una mutación que elimina el gen o casi todo el gen. Las hembras no pueden producir la proteína Tra y por tanto se desarrollan como machos. Este es el caso de tra1 descrito por Sturtevant 7