Introducción a la bioinformática Alineamiento de proteı́nas Pregunta 1: Obtener secuencias usando BLAST La triosa fosfato isomerasa (TIM) es una enzima que funciona en la glicólisis. Se dice que es una enzima catalı́ticamente perfecta. Para este ejercicio empezará con la secuencia de la TIM de conejo y buscará proteı́nas emparentadas en las bases de datos en lı́nea. Esta es la secuencias de la TIM de músculo de conejo en formato FASTA: >gi|136066|sp|P00939|TPIS_RABIT Triosephosphate isomerase (TIM) (Triosephosphate isomerase) APSRKFFVGGNWKMNGRKKKNLGELITTLNAAKVPADTEV VCAPPTAYIDFARQKLDPKIAVAAQNCYKVTNGAFTGEISPG MIKDCGATWVVLGHSERRHVFGESDELIGQKVAHALSEGLG VIACIGEKLDEREAGITEKVVFEQTKVIADNVKDWSKVVLAYE PVWAIGTGKTATPQQAQEVHEKLRGWLKSNVSDAVAQSTRII YGGSVTGATCKELASQPDVDGFLVGGASLKPEFVDIINAKQ 1. Vaya a http://www.ncbi.nlm.nih.gov/BLAST y siga los vı́nculos al BLAST de proteı́na contra proteı́na (blastp) Ejecute una búsqueda BLAST copiando y pegando la secuencia de la TIM en el campo de captura de texto (“SEARCH”). Encuentre un homólogo humano de la TIM de músculo de conejo. Hay varios registros que se refieren a proteı́nas humanas. Primero hay dos que provienen de bases de datos de estructuras tridimensionales (“Chain A, Human Triosephosphate Isomerase Of New Crystal FormSequence ID: pdb|1WYI|A” y “Chain A, Crystal Structure Of Recombinant Human Triosephosphate Isomerase At 2.8 Angstroms Resolution. Triosephosphate Isomerase Related Human Genetic Disorders And Comparison With The Trypanosomal Enzyme Sequence ID: pdb|1HTI|A”) pero el tercer registro relacionado con humanos es “triosephosphate isomerase isoform 1 [Homo sapiens] Sequence ID: ref NP 000356.1” 1 y es una liga a otra base de datos en donde esta proteı́na se describe con mayor detalle (los registros en NCBI que empiezan con XP llevan a registros de la base de datos “PROTEIN”). Hay una columna que indica el score (497) seguida de otra que indica el valor “e.o valor de expectancia (8e-176). En bioinformática y evolución molecular se dice que dos proteı́nas son homólogas si surgieron de un ancestro común. Una “regla de dedo”(que no siempre es estrictamente cierta) es que, además, dos proteı́nas son ortólogas si surgieron de un ancestro común y llevan a cabo la misma función en dos especies diferentes. ¿La NP 000356.1 es un ortólogo humano de la TIM de músculo de conejo? ¿Cuál es el porcentaje de identidad de ambas enzimas? Encuentre otro homólogo humano de la enzima de músculo de conejo. Pulse la liga que está subrayaada y marcada en azul para ver su ficha en la base de datos Protein. Selecciones FASTA como formato de despliegue y pulse el botón “Display”. Copie el texto FASTA y guárdelo en un archivo de texto (si está usando un procesador de palabras como word o Write de OpenOffice asegúrese de guradar en formato de “sólo texto”). Guarde el archivo para más tarde (se sugiere usar un nombre como TIM-FASTA.txt o algo similar). 2. En lugar de tener que leer toda la salida de BLAST para encontrar los homólogos de la TIM provenientes de, por ejemplo, plantas, bacterias y arqueas, pueden usarse opciones de BLAST para restringir la búsqueda. Regrese a la página de BLAST de proteı́na-proteı́na y pegue la secuencia de conejo en el campo de captura de texto SEARCH. Esta vez busque la opción de seleccionar Archaea como taxón para realizar la búsqueda y lance la búsqueda BLAST. Seleccione una de las secuencias obtenidas y guárdela en formato FASTA. Repita este proceso para obtener una TIM de viridiplantae y una de bacteria. Combina las cinco secuencias en formato FASTA (conejo, humano, arquea, planta y bacteria) en un sólo archivo de sólo texto (por ejemplo, con el nombre TIM5Fasta.txt). Siga las reglas del formato Fasta indicadas en el apéndice. Pregunta 2: Búsqueda iterada de proteı́nas En esta pregunta, usted realizará una búsqueda iterada de BLAST de proteı́nas, usando los resultados de cada iteración para formar la nueva secuencia de búsqueda. 1. Corra la siguiente secuencia utilizando PSI-BLAST: http://www.ncbi.nlm. nih.gov/blast/Blast.cgi?CMD=Web&PAGE_TYPE=BlastHome >WHOAMI 2 STKKKPLTQEQLEDARRLKAIYEKKKNELGLSQESVADKMGMGQSGVG ALFNGINVLQAYNAALLAKILKVSVEEFSPSIAREIYEMYEAVSMQPSLRS EYEYPVFSHVQAGMFSPELRTFTKGDAERWVSTTKKASDSAFWLEVEG NSMTAPTGSKPSFPDGMLILVDPEQAVEPGDFCIARLGGDEFTFKKLIRD SGQVFLQPLNPQYPMIPCNESCSVVGKVIASQWPEETFG 2. ¿Qué tan larga es la secuencia problema? ¿Qué tan larga(s) es(son) las secuencias más parecidas? ¿Cuántas posiciones concuerdan en el alineamiento? 3. Encuentre las posiciones donde la secuencia porblema es diferente del mejor resultado. ¿Qué puede usted decir (en resumen) sobre los aminoácidos que cada secuencia tiene en esas posiciones?. Usted puede encontrar aquı́ una tabla de códigos de aminoácidos: http://www.expasy.ch/sprot/userman. html#Appendix_B. Puede consultar esta guı́a de la estructura quı́mica y las caracterı́sticas de los aminoácidos: http://www.escience.ws/b572/L9/L9.htm. 4. Ahora realice la iteración 2 del PSI-BLAST. 5. Encuentre la primera secuencia que aparece ahora en los resultados de esta iteración y anote su número de referencia. 6. Lleve a cabo más iteraciones de PSI-BLAST, y observe el número de resultados que arroja cada una de ellas y los valores de E. ¿El número de resultados aumenta o disminuye mientras al aumentar el número de iteraciones? ¿Qué pasa con los valores de E? ¿Por qué piensa que sucede esto? 7. ¿Después de cuántas iteraciones ya ni aparecieran más resultados nuevos? 8. Digamos que una base de datos contiene muchas secuencias, incluyendo las secuencias “A” y “B”. Cuando realizamos una búsqueda de BLAST con la secuencia A contra la base de datos, el mejor resultado es la secuencia B, con un puntaje de 500 y un valor de E 2e-100. Ahora realizamos una búsqueda de BLAST con la secuencia B contra la base de datos. ¿Qué podemos predecir sobre el puntaje, el valor de E, y la posición de la secuencia A en los resultados? 9. Digamos una base de datos contiene muchas secuencias. Cuando realizamos una búsqueda de la BLAST con la secuencia X contra la base de datos, el mejor resultado es la secuencia Y, con un puntaje de 300 y un valor E de 2e-60. Un año más tarde, volvemos a la base de datos, que por supuesto ha crecido mientras tanto. Ahora realizamos una búsqueda de BLAST con la misma secuencia X que antes. ¿Qué podemos predecir sobre el puntaje, el valor de E y la posición de la secuencia Y en los resultados? 3 Pregunta 3: Comparaciones entre nucleótidos y proteı́nas En esta pregunta, llevaremos a cabo diversas comparaciones entre las secuencias de proteı́na y secuencias de nucleótido. 1. En dos ventanas del navegador, vaya a la base de datos de SWISS-PROT: http://www.expasy.ch/sprot/ 2. Realice una búsqueda para RL1 SERMA en una ventana y RL1 HALCU en la otra. 3. Basado puramente en la sección de comentarios en las páginas resultantes, ¿qué tipo de semejanzas usted esperarı́a ver entre las proteı́nas? 4. Copie las dos secuencias de proteı́nas en formato FASTA en un procesador de textos. 5. Utilizando las ligas que se encuentran en la sección de referencias cruzadas vaya a la entrada de GenBank para cada proteı́na 6. Copie las secuencias de ambos genes en formato FASTA. 7. Al comparar una secuencia de nucleótidos contra una secuencia de proteı́na, ¿se transforma la secuencia de nucleótidos en aminoácidos alrevés? ¿Por qué? 8. Vaya en a la página de la BLAST pareado: http://blast.ncbi.nlm.nih.gov/ Blast.cgi 9. Ahora vamos a realizar 5 comparaciones pareadas. En cada caso, compararemos una secuencia relacionada con RL1 HALCU y una relacionada con RL1 SERMA. Las cinco búsquedas son: A. La secuencia de nucleótidos de RL1 HALCU contra la secuencia de nucleótidos de RL1 SERMA. B. La secuencia de la proteı́na para RL1 HALCU contra la secuencia de la proteı́na para RL1 SERMA. C. La secuencia de nucleótidos traducida para RL1 HALCU contra la secuencia de la proteı́na para RL1 SERMA. D. La secuencia de la proteı́na para RL1 HALCU contra la secuencia de nucleótido traducida para RL1 SERMA. 4 E. La secuencia de nucleótido traducida para RL1 HALCU contra la secuencia de nucleótido traducida para RL1 SERMA. Imprima los resultados para cada una de estas cinco comparaciones, etiquetándolas A a E como arriba. Usted puede encontrar una descripción de todos los tipos diferentes de la BLAST aquı́: http://www.ncbi.nlm.nih.gov/blast/html/BLASThomehelp. html#BLAST2SEQ 10. ¿Si la comparación B tomó 0.1 segundos y toma 0.01 segundos para traducir una secuencia de nucleótidos a una de sus secuencias posibles de proteı́na, aproximadamente cuanto tiempo esperarı́a que tomara la comparación C? ¿Y la comparación E? 11. ¿Qué comparación, A o B, dio un mejor resultado? ¿por qué? 12. ¿Qué comparación, B o E, tiene un valor más significativo de E? ¿Puede usted sugerir por qué? 13. ¿Qué comparación, C o D, tiene un valor más significativo de E? Sugiera una razón por la que esto es ası́. 14. ¿Qué comparación, B o C, tenı́a un valor más significativo de E? ¿Cómo se comparan sus puntajes? ¿Puede usted explicar esto? 15. ¿Cuándo se alinea una secuencia de proteı́na contra una secuencia de nucleótidos, cuál es la diferencia (si es que la hay) entre usar BLASTX o usar TBLASTN? Pregunta 4: Matrices de Comparación de Proteı́nas En esta pregunta, utilizaremos diferentes matrices de comparación de aminoácidos. 1. En 2 ventanas separadas, vaya a la página del NCBI y realice una búsqueda de Proteı́na para rta rat en una ventana y el lshr rat en la otra. 2. Extraiga las dos secuencias en formato de FASTA. 3. Vaya a la página de comparación pareada : http://www.expasy.ch/tools/ sim-prot.html 5 4. Seleccione “User-entered sequence” en ambos lugares y copie sus secuencias sin la lı́nea de descripción. Fije el número de alineamientos que se realizarán a 1. 5. Realice los alineamientos usando BLOSUM30, BLOSUM62 y BLOSUM100, anote el puntaje de cada uno. 6. Realice los alineamientos usando PAM120, PAM250 y PAM400, anote el puntaje de cada uno. 7. ¿Qué matrices dieron los mejores alineamientos? 8. ¿Usted piensa que estas secuencias de la tienen una relación cercana, distante, o no tienen relación entre sı́? ¿Por qué? Para contestar a esto, usted puede utilizar la liga “PRSS” en algunos de sus resultados. Esto le llevará a otro informe que incluye información que puede ser convertida fácilmente en un valor de E. Traiga por favor su listado y respuestas a la conferencia siguiente. Si hay algunos problemas, envı́e por correo electrónico por favor Gideon en el gdg@ cs.technion.ac.il. 6