PRACTICA XV: PREDICCION DE ESTRUCTURA SECUNDARIA DE PROTEINAS Y PROPIEDADES 1D Objetivo General: Ø Que el alumno realice la predicción de la estructura secundaria de proteínas utilizando distintas herramientas bioinformáticas y estudie otras propiedades que pueden estimarse a partir de la secuencia de aminoácidos. Objetivos Particulares: Ø Que el alumno conozca los fundamentos básicos de la predicción de estructura secundaria de proteínas. Ø Utilizar diversos programas para la predicción de estructura secundaria para proteínas globulares y transmembranales. Ø Determinar propiedades que dependen de la secuencia de aminoácidos empleando diversas aplicaciones bioinformáticas. Introducción. Las proteínas son macromoléculas fundamentales en virtualmente todas las actividades de la célula. Cada proteína contiene una secuencia única de aminoácidos que le confiere a la molécula sus propiedades únicas y gran parte de ellas se pueden entender al examinar las propiedades químicas de los aminoácidos que las constituyen. Cada aminoácido de una proteína se localiza en un sitio específico dentro de estas moléculas y le confiere a la proteína la estructura y reactividad necesarias para la función que debe desempeñar. La estructura de la proteína se puede describir en diferentes niveles de organización: primaria, secundaria, terciaria y cuaternaria. En esta práctica se dará énfasis al estudio de la estructura primaria y secundaria de las proteínas. La estructura primaria de las proteínas esta determinada por la secuencia de aminoácidos que se unen entre sí a través del enlace peptídico. En este nivel estructural es importante definir que los extremos químicos de un proteína son diferentes entre sí, habiendo un extremo amino (N) y un extremo carboxilo (C), por lo que se debe especificar la dirección en la que se escribe una secuencia. Normalmente las secuencias se escriben en dirección de N a C. En cuanto a la estructura secundaria podríamos definirla como el primer nivel de conformación que adoptan secciones de la cadena polipéptídica. Aunque de forma básica se reconocen dos tipos conformaciones principales que forman parte la estructura secundaria (la denominada hélice alfa y la hoja plegada beta), en realidad existen más conformaciones (rizos, hélices 3-10, hélices π). Incluso frecuentemente estas regiones no adoptan una estructura fácilmente reconocible y se catalogan como conformaciones de hélice al azar o regiones desordenadas1. La estructura terciara se refiere a la estructura tridimensional que adopta la cadena polipeptídica completa en el espacio, mientras que la estructura cuaternaria se refiere a la asociación entre cadenas polipeptídicas para dar lugar a la formación de proteínas oligoméricas. 1 Es importante mencionar que en los últimos años se han reconocido varias funciones importantes para este tipo de regiones, particularmente de tipo regulatorio, llegando a existir inclusive proteínas cuya estructura está en su mayor parte desordenada. Desde que los trabajos pioneros de Anfinsen sugirieron que la función (y por ende la estructura) de las proteínas estaba determinada por la secuencia de aminoácidos, se pensó en la posibilidad de desarrollar métodos que permitieran predecir la estructura y la función de estas biomoléculas a partir del conocimiento previo de la secuencia de aminoácidos. Esto ha sido especialmente importante, ya que aunque es posible determinar la estructura de las proteínas en forma experimental, esto solo se ha logrado para un número relativamente pequeño de proteínas. Por tal motivo, actualmente la predicción de la estructura de proteínas es un área muy activa y prominente de investigación. Se han desarrollado diversos métodos bioinformáticos para predicción de estructura en sus diversos niveles. Estos esfuerzos se han multiplicando y refinado sustancialmente a medida que se ha logrado colectar un mayor número de datos de secuencias y estructuras. Los primeros métodos de predicción se basaron fundamentalmente en la premisa de que un fragmento corto de residuos consecutivos tiene la información necesaria para que la cadena polipeptídica adopte una conformación determinada. A partir de datos de difracción de rayos X de proteínas cristalizadas se construyeron bases de datos de las conformaciones observadas en estas moléculas y se trató de asociar estadísticamente la propensión de cada aminoácido a participar en alguna de estas estructuras. Los métodos de predicción de esta primera generación que fueron desarrollados se basaban principalmente en los datos de propensiones individuales calculadas para cada aminoácido. La segunda generación de métodos de predicción analizaban segmentos cortos de aminoácidos para determinar sus conformaciones. Si bien con esta metodología se pudieron conocer muchos de los aspectos estereoquímicos que influyen en la estructura secundaria de las proteínas la confiabilidad de los métodos más avanzados alcanzaban niveles de solo el 60%. El argumento principal en torno a esta deficiencia inherente a los primeros métodos de predicción es que la conformación de la cadena polipeptídica no está determinada únicamente por la información local de la secuencia, sino que también otras interacciones no locales participan de manera muy importante en el establecimiento de la conformación. El análisis de la evolución de proteínas homólogas permitió demostrar que la estructura de las proteínas se conserva más que su secuencia. De este análisis se puede inferir que solo una fracción de los aminoácidos de una proteínas juegan un papel decisivo en su estructura. Esto dio paso al desarrollo de métodos de predicción que consideraran la conservación de la información evolutiva, a la par que se incorporaron nuevas técnicas computacionales para el reconocimiento de patrones complejos, tales como las redes neuronales, modelos ocultos de Markov o las máquinas de reconocimiento vectorial. Esto tuvo como consecuencia el desarrollo de métodos de predicción cuya confiabilidad ha permitido superar el 70%. De este modo, hoy en día existe una amplia variedad de métodos de predicción de estructura y se argumenta que la confiabilidad en la capacidad de predicción de los mismos varía entre el 80 y el 90%. Además de la estructura secundaria de las proteínas existen una serie de propiedades de la proteínas que pueden conocerse a partir de la secuencia de aminoácidos. A estas propiedades se les conoce comúnmente como propiedades 1D. Entre estas propiedades podemos citar las siguientes: Función: A través del análisis de homología con proteínas de secuencia y función conocida pueden predecirse las funciones de proteínas recientemente descubiertas. Esta análisis será más confiable a medida que el grado de similutd con sus homólogos sea más grande. De esta forma es posible descubrir dominios conservados de funciones conocidas. Por otra parte, la búsqueda de motivos en la secuencia, puede ayudar a descubrir ciertas regiones especializadas: pépitidos de señalización, puentes disulfuro, sitios de glicosilación, sitios de unión a DNA (por ejemplo dedos de Zinc, cierres de Leucina). Por otra parte, los alineamientos múltiples de las proteínas pueden revelar las regiones de la secuencia que se han conservado a través de la evolución así como los sitios variables, que en turno pueden revelar las partes fundamentales para la estructura y función de la proteína y su evolución. Hidrofobicidad y regiones transmembranales: El efecto hidrofóbico es el fenómeno por el cual las substancias no polares tienden a minimizar sus contactos con el agua. Dicho efecto es el determinante principal de la estructura de las proteínas. Se han desarrollado diversos índices que miden la tendencia hidrofóbica o hidrofílica de los aminoácidos. La utilización de los mismos puede ayudar a identificar las regiones de una proteína que tenderán a agregarse en el interior de la molécula al encontrarse en un medio hidrofóbico. También, dada la naturaleza hidrofóbica de las membranas celulares, la presencia de regiones con esta propiedad en la proteínas permite identificar dominios transmembranales de las mismas. Accesibilidad al solvente. La accesibilidad al solvente de un aminoácido es la propiedad de la cadena lateral de está expuesta al solvente. Se expresa en términos de la fracción del área de la superficie de Van der Waals del aminoácido que es accesible. Punto isoléctrico y peso molecular. El punto isoléctrico y el peso molecular de las proteínas son propiedades que pueden evaluarse fácilmente a partir de la secuencia de la proteína y el pH del Medio dado que estas propiedades dependen fundamentalmente de los aminoácidos que las componen. Recursos informáticos utilizados. • • • • • • NCBI_ http://www.ncbi.nlm.nih.gov/ Protein Data Bank www.pdb.org Servidor PSIPRED (http://bioinf.cs.ucl.ac.uk/psipred/) Servidor Predict Protein (http://ppopen.informatik.tu-muenchen.de/) Servidor JPred3 (http://www.compbio.dundee.ac.uk/www-jpred/) Servidor PBIL-NPS@ (http://pbil.ibcp.fr/htm/index.php?page=pbil_index.html) Desarrollo En esta sección se realizar análisis de predicción de estructura y propiedades 1D para proteínas de estructura o función conocidas. Esto permitirá el alumno evaluar que tan confiables son algunas de estas predicciones y como deben interpretarse. Obtención de secuencias Buscar en las base de datos del NCBI las secuencias de las proteínas con claves de acceso P35034, P78588, TF3A_HUMAN y NP_010907. Descargarlas en formato FASTA. Revise la anotación del NCBI para cada uno de los registros e identifique las propiedades más importantes de cada proteína. Análisis de propiedades fisicoquímica con el servidor Pôle Bioinformatique Lyonnnais Gerland (http://pbil.ibcp.fr/html/pbil_index.html). El servidor del Pôle Bioinformatique Lyonnnais Gerland en Francia ofrece el acceso a diversos programas clásicos para la predicción de estructura de proteínas tales como PHD y algunos programas para el análisis de propiedades fisicoquímicas. En particular ofrece algoritmos para la identificación de regiones hidrofóbicas e hidrofílicas mediante diversos métodos Utilice la secuencia de las proteínas P35034 y P78588 para realizar este análisis. 1. Ingresar en la opción Webware del servidor del PBIL. 2. Ingresar al servidor NPS@ (Network Protein Sequence Análisis). 3. En la sección de herramientas misceláneas (Miscellaneous analysis tolos), ingresar a la opción “Physico-chemical profiles”. 4. Pegar la secuencia para el análisis (sin incluir la línea de título). El programa llevará a cabo los análisis de predicción de hidrofilicidad (Hopp y Woods), hidrofobicidad (Kyte y Doolittle), flexibilidad (Karpluz y Schulz), antigenicidad (Parker), accesibilidad al solvente (Janin), hélices transmembranales (Argos) y el de antigenicidad (Welling). Los resultados se presentan en forma gráfica pero también se proporciona un link para descargar los datos en un archivo de texto. 5. Investigue los fundamentos de las predicciones empleadas en este servidor consultando las referencias bibliográficas citadas en el sitio WEB de este programa. Análisis inmunogénico en el servidor de Inmunomediciana de la Universidad Complutense de Madrid. Gran parte de las propiedades inmunogénicas de las proteínas están asociadas con propiedades fisicoquímicas tales como la hidrofilicidad o la accesibilidad del solvente. No obstante algunos otros factores son importantes, como la detección de ciertas epítopos conservados que pueden desatar una respuesta inmune. Varias de estas propiedades pueden descubrirse realizando un análisis de la secuencia de aminoácidos. El servidor de la Universidad Complutense de Madrid ofrece algunas herramientas importantes para este estudio. 1. Realizar los análisis de predicción de regiones antigénicas de Kolaskar and Tongaonkar y el análisis RankPep para la detección de péptidos inmunogénicos en el servidor http://imed.med.ucm.es/Tools/immunology.html con la proteína P35034. 2. Compare los resultados de dichas predicciones con los resultados del análisis con NPS@. En particular identifique que propiedades presentan las regiones con mayor probabilidad de ser inmunogénicas. Predicción de estructura secundaria y otras propiedades con el servidor PredictProtein. El servidor Predict Protein ofrece varios de los métodos más avanzados para la predicción de estructura secundaria y otras propiedades de las proteínas. El servidor ofrece el método PROF (descendiente del programa PHD) uno de los métodos más precisos para la predicción de estructura secundaria. 1. Ingrese al servidor PredictProtein (http://ppopen.informatik.tu-muenchen.de/) y analice la secuencia de las proteínas P35034 y P78588. Para almacenamiento de los datos del análisis es necesario llevar a cabo el registro de sus datos en el sistema. 2. El servidor PredictProtein realiza actualmente los siguientes análisis: a. Predicción de estructura secundaria y accesibilidad al solvente por el método PROF. b. Predicción de regiones transmembranales por el método TMSEG y PHDhtm. c. Identificación de regiones desordenadas mediante Meta-Disorder. d. Identificación de puentes disulfuro con el programa DISULFIND. e. Análsis de anotación funcional entre los que destacan: localización celular (LocTree3), sitios de unión proteína-proteína (ISIS2) y nucleótido-proteína (SomeNA) y análisis de ontología genética. 3. Para cada uno de los análisis anteriores, el programa muestra un link “Export” con el cual se pueden descargar los datos en formato de texto para utilizarlos en otros programas. Predicción de estructura secundaria utilizando Jpred El servidor Jpred3 es una de las técnicas de predicción de estructura secundaria de última generación el cual esta basado en la creación de alineamientos con proteínas homólogas de estructura conocida utilizando el algoritmo de PSI-BLAST.y el empleo de redes neuronales con el programa Jnet. 1. Acceder a la pagina http://www.compbio.dundee.ac.uk/www-jpred/ 2. Realizar el análisis de estructura para las proteínas P35034 y P78588. 3. Por defecto el programa localiza homólogos de estructura conocida mediante el programa PSI-Blast. En este caso como resultado del análisis aparece una lista de secuencias de proteínas homólogas de perteneciente a la base de datos del PDB, que serán útiles para el análisis 2-D de la proteína. 4. Para el propósito de esta búsqueda se debe activar la casilla para evitar la búsqueda de estos homólogos y utilizar el algoritmo de predicción. 5. Al someter la proteína al análisis se muestra una página con un link el cual debe presionarse y actualizarse frecuentemente hasta que la predicción halla sido completada (aproximadamente 10-15 minutos). 6. Los resultados se pueden consultar en diversos formatos. En la presentación HTML se muestra el alineamiento generado por PSI-Blast y los resultados de diferentes tipo de predicciones. Por otra parte la opción “Simple display” de los resultado muestra en resumen de la predicción obtenida con este programa. Se recomienda guardar este resultado para compararlo con los resultados de otras predicciones. Predicción de estructura secundaria con el programa PSIPRED. El servidor Psi-pred (http://bioinf.cs.ucl.ac.uk/psipred/) ofrece uno de los métodos de predicción de estructura secundaria más efectivos a la fecha. El sistema se basa en el uso de redes neuronales y la combinación de los resultados de búsqueda de homólogos remotos con el programa PSI-Blast. Parte de la confiabilidad de la predicción radica en la base de datos la cual ha sido depurada para facilitar la exclusión de proteínas no relacionadas y evitar la inclusión de información redundante excesiva. El uso de este servidor requiere el empleo de una dirección de correo electrónica no comercial. Actualmente el servidor ofrece además diversas herramientas de análisis para la identificación de regiones transmembranales, regiones desordenadas y análisis funcional. En la página de PSIPRED seleccione la opción de análisis que se indica para los siguientes análisis. Deberá proporcionar un título para cada trabajo y proporcionar una dirección de correo electrónico para recibir los resultados (considere que algunos de estos análisis pueden requerir algunas horas para completarse. 1. Realice el análisis de predicción de estructura secundaria con PSIPRED para la proteína P35034. PSIPRED proporciona los resultados de la predicción en formato gráfico y en texto. Compare las predicciones realizadas con este programa con las efectuadas con PROF (PredictProtein) y JPred3. 2. Realice la predicción de regiones transmembranales para la proteína P35034 con el método MEMSAT3 & MEMSAT-SVM del servidor PSIPRED. Compare los resultados obtenidos con los de TMSEG y PHDhtm (PredictProtein) y con los datos anotados de regiones transmembranales para este proteína en su registro del NCBI ¿lograron estos programas identificar correctamente las regiones transmembranales de esta proteína? En las proteínas transmembranales se utiliza frecuentemente la “regla del lado positivo”, para identificar las regiones extramembranales que se encuentran del lado citoplasmático de la célula. ¿cuál es el fundamento biológico de dicha regla? 3. Realice la identificación de regiones desordenadas para las proteínas NP_010907 y TF3A_HUMAN con la opción DISOPRED3 & DISOPRED2. Considerando la función de estas proteínas ¿por qué es posible encontrar en ellas extensas regiones desordenadas? ¿qué composición de las secuencias de las proteínas favorece la presencia de regiones desordenadas? 4. Realice el análisis de predicción de funciones para la proteínas con la opción FFPred v2.0. Tome en cuenta que este análisis es solamente para proteínas de origen eucariótico. Búsqueda de motivos con PROSITE. La base de datos PROSITE es ampliamente utilizada para buscar dominios y motivos conservados para conocer las posibles funciones de las proteínas en estudio. Existen en la actualidad diversos servidores que permiten realizar esta tarea. Para este análisis realice la búsqueda de motivos con todas las proteínas utilizando el servidor ScanProsite del SWISS-PROT (http://ca.expasy.org/tools/scanprosite/). 1. Entrar a la página principal de ScanProsite. 2. Pegar la secuencia de la proteína en la sección correspondiente de la página de ScanProsite. Esta deberá pegarse sin incluir el título del archivo FASTA. 3. Verificar que estén marcadas las opciones “Exclude motifs with a high probability of occurrence” y “Show level score” y presionar el botón “Start scan”. 4. El programa realiza la búsqueda de similitudes con la base de datos PROSITE y muestra los resultados más significativos encontrados. En el listado de resultados se muestra una barra en color gris indicando la clave del patrón de PROSITE encontrado (Una clave que empieza con PS...) y una breve descripción del mismo. La clave del patrón es un hipervínculo a una página con información detallada sobre las características del motivo. Adicionalmente los resultados pueden incluir representaciones gráficas de los motivos encontrados en donde se resaltan los aminoácidos más significativos para este perfil. 5. Repetir la búsqueda pero en esta ocasión sin la opción “Exclude motifs with a high probability of occurrence” y observar los resultados obtenidos. ¿Qué características presentan los nuevos motivos que han sido encontrados? 6. En algunas de las proteínas propuestas en este estudio podrá identificar diversos motivos funcionales: Puentes disulfuro, regiones transmembranales, sitios de unión de cofactores, dedos de Zinc, cremalleras de leucina, sitios de glicosilación. 7. Describa las características de los motivos más importantes encontrados con las búsquedas anteriores. Guía para el reporte de la práctica. 1. Elabore un tabla en la cual se resuman las propiedades más importantes que se encuentran anotadas en los registros del NCBI para cada una de las proteínas analizadas en esta práctica. En particular es deseable que dicha tabla incluya: Clave de acceso, organismo de origen, nombre de la proteína, función, motivos funcionales importantes (sugerencia, revisar la sección “features” del registro). 2. Compare los resultados de predicciones de propiedades fisicoquímicas de la proteína P35034 con los de propiedades antigénicas. Explique las posibles relaciones bioquímicas entre propiedades fisicoquímicas y propiedades antigénicas. 3. Realice una comparación de las predicciones de estructura secundaria para la proteína P35034 con los programas PROF, PSIPRED y JPred3. ¿qué tan similares son dichas predicciones? 4. Analice las predicciones de regiones transmembranales de la proteína P78588. Compárelas con la estructura real la que se encuentra anotada en el archivo de GenBank. Por otro lado lleve a cabo una predicción de estructura secundaria con PSIPRED ¿hay correspondencia entre las predicciones de regiones transmembranales con los de estructura secundaria? 5. Compare la identificación de Motivos con Prosite para cada una de las proteínas estudiadas y compare esta información con la información que recopiló en la tabla solicitada en el punto No. 1 ¿Cómo puede ayudar esta información en el estudio de la función de las proteínas? 6. Analice los resultados de localización y funciones que ofrecen los programas PredictProtein y PSIPRED, para las proteínas que tienen dedos de Zinc o cierres de Leucina. ¿hay correspondencia entre las funciones de estas proteínas y la presencia de estos motivos en las proteínas? ¿Cuál es la función de esta clase de motivos? Preguntas: 1. Elabore un cuadro en la cual se describan brevemente los fundamentos del análisis de cada una de las herramientas bioinformáticas analizadas en este estudio. 2. Si al estudiar una proteína de estructura desconocida, se encuentra que esta tiene homólogos significativos en la base de datos PDB ¿cómo se podría utilizar esta información para hacer una predicción de su estructura? ¿qué tan confiable esperaría que fuese esta predicción con la que podría obtenerse con los diversos programas ensayados para la predicción de la estructura secundaria? 3. ¿En que se basa la regla del lado positivo para el estudio de proteínas transmembranales? ¿qué tipos de análisis pueden emplearse para la localización de motivos transmembranales? 4. ¿Qué aminoácidos pueden provocar la presencia de regiones desordenadas en proteínas? ¿Cuál es la importancia de este tipo de regiones? Investigue algunas proteínas importantes en las cuales puedan identificarse este tipo de regiones. 5. Si la estructura secundaria de una proteínas es determinada por solo una fracción de aminoácidos de la secuencias, indique porque la búsqueda de homólogos es importante para este tipo de estudios (aún cuando con ella no se identifiquen homólogos con estructura conocida). Bibliografía 1. Mount DW. Bioinformatics. Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press. 2. Jones DT. (1999) Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol. 292: 195-202. 3. Karp G. 2005. Biología Celular y Molecular, conceptos y experimentos. Mc Graw-Hill. 4° edición. 4. Claverie J.M., Notredame C. (2003): Bioinformatics for dummies. For Dummies Series, Wiley Publishing New York. USA. 5. Burkhard Rost (2003): Prediction in 1D: Secondary structure, membrane helices and accessibility en Structural bioinformatics. Bourne P. E., Weissig H. (editores). Wiley-Liss. USA. Pp:559-587.