Introducción a la bioinformática

Introducción a la bioinformática Alineamiento de proteı́nas Pregunta 1: Obtener secuencias usando BLAST La triosa fosfato isomerasa (TIM) es una enzima que funciona en la glicólisis. Se dice que es una enzima catalı́ticamente perfecta. Para este ejercicio empezará con la secuencia de la TIM de conejo y buscará proteı́nas emparentadas en las bases de datos en lı́nea. Esta es la secuencias de la TIM de músculo de conejo en formato FASTA: >gi|136066|sp|P00939|TPIS_RABIT Triosephosphate isomerase (TIM) (Triosephosphate isomerase) APSRKFFVGGNWKMNGRKKKNLGELITTLNAAKVPADTEV VCAPPTAYIDFARQKLDPKIAVAAQNCYKVTNGAFTGEISPG MIKDCGATWVVLGHSERRHVFGESDELIGQKVAHALSEGLG VIACIGEKLDEREAGITEKVVFEQTKVIADNVKDWSKVVLAYE PVWAIGTGKTATPQQAQEVHEKLRGWLKSNVSDAVAQSTRII YGGSVTGATCKELASQPDVDGFLVGGASLKPEFVDIINAKQ 1. Vaya a http://www.ncbi.nlm.nih.gov/BLAST y siga los vı́nculos al BLAST de proteı́na contra proteı́na (blastp) Ejecute una búsqueda BLAST copiando y pegando la secuencia de la TIM en el campo de captura de texto (“SEARCH”). Encuentre un homólogo humano de la TIM de músculo de conejo. Hay varios registros que se refieren a proteı́nas humanas. Primero hay dos que provienen de bases de datos de estructuras tridimensionales (“Chain A, Human Triosephosphate Isomerase Of New Crystal FormSequence ID: pdb|1WYI|A” y “Chain A, Crystal Structure Of Recombinant Human Triosephosphate Isomerase At 2.8 Angstroms Resolution. Triosephosphate Isomerase Related Human Genetic Disorders And Comparison With The Trypanosomal Enzyme Sequence ID: pdb|1HTI|A”) pero el tercer registro relacionado con humanos es “triosephosphate isomerase isoform 1 [Homo sapiens] Sequence ID: ref NP 000356.1” 1 y es una liga a otra base de datos en donde esta proteı́na se describe con mayor detalle (los registros en NCBI que empiezan con XP llevan a registros de la base de datos “PROTEIN”). Hay una columna que indica el score (497) seguida de otra que indica el valor “e.o valor de expectancia (8e-176). En bioinformática y evolución molecular se dice que dos proteı́nas son homólogas si surgieron de un ancestro común. Una “regla de dedo”(que no siempre es estrictamente cierta) es que, además, dos proteı́nas son ortólogas si surgieron de un ancestro común y llevan a cabo la misma función en dos especies diferentes. ¿La NP 000356.1 es un ortólogo humano de la TIM de músculo de conejo? ¿Cuál es el porcentaje de identidad de ambas enzimas? Encuentre otro homólogo humano de la enzima de músculo de conejo. Pulse la liga que está subrayaada y marcada en azul para ver su ficha en la base de datos Protein. Selecciones FASTA como formato de despliegue y pulse el botón “Display”. Copie el texto FASTA y guárdelo en un archivo de texto (si está usando un procesador de palabras como word o Write de OpenOffice asegúrese de guradar en formato de “sólo texto”). Guarde el archivo para más tarde (se sugiere usar un nombre como TIM-FASTA.txt o algo similar). 2. En lugar de tener que leer toda la salida de BLAST para encontrar los homólogos de la TIM provenientes de, por ejemplo, plantas, bacterias y arqueas, pueden usarse opciones de BLAST para restringir la búsqueda. Regrese a la página de BLAST de proteı́na-proteı́na y pegue la secuencia de conejo en el campo de captura de texto SEARCH. Esta vez busque la opción de seleccionar Archaea como taxón para realizar la búsqueda y lance la búsqueda BLAST. Seleccione una de las secuencias obtenidas y guárdela en formato FASTA. Repita este proceso para obtener una TIM de viridiplantae y una de bacteria. Combina las cinco secuencias en formato FASTA (conejo, humano, arquea, planta y bacteria) en un sólo archivo de sólo texto (por ejemplo, con el nombre TIM5Fasta.txt). Siga las reglas del formato Fasta indicadas en el apéndice. Pregunta 2: Búsqueda iterada de proteı́nas En esta pregunta, usted realizará una búsqueda iterada de BLAST de proteı́nas, usando los resultados de cada iteración para formar la nueva secuencia de búsqueda. 1. Corra la siguiente secuencia utilizando PSI-BLAST: http://www.ncbi.nlm. nih.gov/blast/Blast.cgi?CMD=Web&PAGE_TYPE=BlastHome >WHOAMI 2 STKKKPLTQEQLEDARRLKAIYEKKKNELGLSQESVADKMGMGQSGVG ALFNGINVLQAYNAALLAKILKVSVEEFSPSIAREIYEMYEAVSMQPSLRS EYEYPVFSHVQAGMFSPELRTFTKGDAERWVSTTKKASDSAFWLEVEG NSMTAPTGSKPSFPDGMLILVDPEQAVEPGDFCIARLGGDEFTFKKLIRD SGQVFLQPLNPQYPMIPCNESCSVVGKVIASQWPEETFG 2. ¿Qué tan larga es la secuencia problema? ¿Qué tan larga(s) es(son) las secuencias más parecidas? ¿Cuántas posiciones concuerdan en el alineamiento? 3. Encuentre las posiciones donde la secuencia porblema es diferente del mejor resultado. ¿Qué puede usted decir (en resumen) sobre los aminoácidos que cada secuencia tiene en esas posiciones?. Usted puede encontrar aquı́ una tabla de códigos de aminoácidos: http://www.expasy.ch/sprot/userman. html#Appendix_B. Puede consultar esta guı́a de la estructura quı́mica y las caracterı́sticas de los aminoácidos: http://www.escience.ws/b572/L9/L9.htm. 4. Ahora realice la iteración 2 del PSI-BLAST. 5. Encuentre la primera secuencia que aparece ahora en los resultados de esta iteración y anote su número de referencia. 6. Lleve a cabo más iteraciones de PSI-BLAST, y observe el número de resultados que arroja cada una de ellas y los valores de E. ¿El número de resultados aumenta o disminuye mientras al aumentar el número de iteraciones? ¿Qué pasa con los valores de E? ¿Por qué piensa que sucede esto? 7. ¿Después de cuántas iteraciones ya ni aparecieran más resultados nuevos? 8. Digamos que una base de datos contiene muchas secuencias, incluyendo las secuencias “A” y “B”. Cuando realizamos una búsqueda de BLAST con la secuencia A contra la base de datos, el mejor resultado es la secuencia B, con un puntaje de 500 y un valor de E 2e-100. Ahora realizamos una búsqueda de BLAST con la secuencia B contra la base de datos. ¿Qué podemos predecir sobre el puntaje, el valor de E, y la posición de la secuencia A en los resultados? 9. Digamos una base de datos contiene muchas secuencias. Cuando realizamos una búsqueda de la BLAST con la secuencia X contra la base de datos, el mejor resultado es la secuencia Y, con un puntaje de 300 y un valor E de 2e-60. Un año más tarde, volvemos a la base de datos, que por supuesto ha crecido mientras tanto. Ahora realizamos una búsqueda de BLAST con la misma secuencia X que antes. ¿Qué podemos predecir sobre el puntaje, el valor de E y la posición de la secuencia Y en los resultados? 3 Pregunta 3: Comparaciones entre nucleótidos y proteı́nas En esta pregunta, llevaremos a cabo diversas comparaciones entre las secuencias de proteı́na y secuencias de nucleótido. 1. En dos ventanas del navegador, vaya a la base de datos de SWISS-PROT: http://www.expasy.ch/sprot/ 2. Realice una búsqueda para RL1 SERMA en una ventana y RL1 HALCU en la otra. 3. Basado puramente en la sección de comentarios en las páginas resultantes, ¿qué tipo de semejanzas usted esperarı́a ver entre las proteı́nas? 4. Copie las dos secuencias de proteı́nas en formato FASTA en un procesador de textos. 5. Utilizando las ligas que se encuentran en la sección de referencias cruzadas vaya a la entrada de GenBank para cada proteı́na 6. Copie las secuencias de ambos genes en formato FASTA. 7. Al comparar una secuencia de nucleótidos contra una secuencia de proteı́na, ¿se transforma la secuencia de nucleótidos en aminoácidos alrevés? ¿Por qué? 8. Vaya en a la página de la BLAST pareado: http://blast.ncbi.nlm.nih.gov/ Blast.cgi 9. Ahora vamos a realizar 5 comparaciones pareadas. En cada caso, compararemos una secuencia relacionada con RL1 HALCU y una relacionada con RL1 SERMA. Las cinco búsquedas son: A. La secuencia de nucleótidos de RL1 HALCU contra la secuencia de nucleótidos de RL1 SERMA. B. La secuencia de la proteı́na para RL1 HALCU contra la secuencia de la proteı́na para RL1 SERMA. C. La secuencia de nucleótidos traducida para RL1 HALCU contra la secuencia de la proteı́na para RL1 SERMA. D. La secuencia de la proteı́na para RL1 HALCU contra la secuencia de nucleótido traducida para RL1 SERMA. 4 E. La secuencia de nucleótido traducida para RL1 HALCU contra la secuencia de nucleótido traducida para RL1 SERMA. Imprima los resultados para cada una de estas cinco comparaciones, etiquetándolas A a E como arriba. Usted puede encontrar una descripción de todos los tipos diferentes de la BLAST aquı́: http://www.ncbi.nlm.nih.gov/blast/html/BLASThomehelp. html#BLAST2SEQ 10. ¿Si la comparación B tomó 0.1 segundos y toma 0.01 segundos para traducir una secuencia de nucleótidos a una de sus secuencias posibles de proteı́na, aproximadamente cuanto tiempo esperarı́a que tomara la comparación C? ¿Y la comparación E? 11. ¿Qué comparación, A o B, dio un mejor resultado? ¿por qué? 12. ¿Qué comparación, B o E, tiene un valor más significativo de E? ¿Puede usted sugerir por qué? 13. ¿Qué comparación, C o D, tiene un valor más significativo de E? Sugiera una razón por la que esto es ası́. 14. ¿Qué comparación, B o C, tenı́a un valor más significativo de E? ¿Cómo se comparan sus puntajes? ¿Puede usted explicar esto? 15. ¿Cuándo se alinea una secuencia de proteı́na contra una secuencia de nucleótidos, cuál es la diferencia (si es que la hay) entre usar BLASTX o usar TBLASTN? Pregunta 4: Matrices de Comparación de Proteı́nas En esta pregunta, utilizaremos diferentes matrices de comparación de aminoácidos. 1. En 2 ventanas separadas, vaya a la página del NCBI y realice una búsqueda de Proteı́na para rta rat en una ventana y el lshr rat en la otra. 2. Extraiga las dos secuencias en formato de FASTA. 3. Vaya a la página de comparación pareada : http://www.expasy.ch/tools/ sim-prot.html 5 4. Seleccione “User-entered sequence” en ambos lugares y copie sus secuencias sin la lı́nea de descripción. Fije el número de alineamientos que se realizarán a 1. 5. Realice los alineamientos usando BLOSUM30, BLOSUM62 y BLOSUM100, anote el puntaje de cada uno. 6. Realice los alineamientos usando PAM120, PAM250 y PAM400, anote el puntaje de cada uno. 7. ¿Qué matrices dieron los mejores alineamientos? 8. ¿Usted piensa que estas secuencias de la tienen una relación cercana, distante, o no tienen relación entre sı́? ¿Por qué? Para contestar a esto, usted puede utilizar la liga “PRSS” en algunos de sus resultados. Esto le llevará a otro informe que incluye información que puede ser convertida fácilmente en un valor de E. Traiga por favor su listado y respuestas a la conferencia siguiente. Si hay algunos problemas, envı́e por correo electrónico por favor Gideon en el gdg@ cs.technion.ac.il. 6

Introducción a la bioinformática

Documentos relacionados

Productos

Apoyo

Introducción a la bioinformática

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib