PREDICCION DE ESTRUCTURA SECUNDARIA DE PROTEINAS Y

Anuncio
PRACTICA XV: PREDICCION DE ESTRUCTURA SECUNDARIA DE
PROTEINAS Y PROPIEDADES 1D
Objetivo General:
Ø Que el alumno realice la predicción de la estructura secundaria de proteínas
utilizando distintas herramientas bioinformáticas y estudie otras propiedades que
pueden estimarse a partir de la secuencia de aminoácidos.
Objetivos Particulares:
Ø Que el alumno conozca los fundamentos básicos de la predicción de estructura
secundaria de proteínas.
Ø Utilizar diversos programas para la predicción de estructura secundaria para
proteínas globulares y transmembranales.
Ø Determinar propiedades que dependen de la secuencia de aminoácidos empleando
diversas aplicaciones bioinformáticas.
Introducción.
Las proteínas son macromoléculas fundamentales en virtualmente todas las
actividades de la célula. Cada proteína contiene una secuencia única de aminoácidos
que le confiere a la molécula sus propiedades únicas y gran parte de ellas se pueden
entender al examinar las propiedades químicas de los aminoácidos que las constituyen.
Cada aminoácido de una proteína se localiza en un sitio específico dentro de estas
moléculas y le confiere a la proteína la estructura y reactividad necesarias para la
función que debe desempeñar. La estructura de la proteína se puede describir en
diferentes niveles de organización: primaria, secundaria, terciaria y cuaternaria. En esta
práctica se dará énfasis al estudio de la estructura primaria y secundaria de las proteínas.
La estructura primaria de las proteínas esta determinada por la secuencia de
aminoácidos que se unen entre sí a través del enlace peptídico. En este nivel estructural
es importante definir que los extremos químicos de un proteína son diferentes entre sí,
habiendo un extremo amino (N) y un extremo carboxilo (C), por lo que se debe
especificar la dirección en la que se escribe una secuencia. Normalmente las secuencias
se escriben en dirección de N a C. En cuanto a la estructura secundaria podríamos
definirla como el primer nivel de conformación que adoptan secciones de la cadena
polipéptídica. Aunque de forma básica se reconocen dos tipos conformaciones
principales que forman parte la estructura secundaria (la denominada hélice alfa y la
hoja plegada beta), en realidad existen más conformaciones (rizos, hélices 3-10, hélices
π). Incluso frecuentemente estas regiones no adoptan una estructura fácilmente
reconocible y se catalogan como conformaciones de hélice al azar o regiones
desordenadas1. La estructura terciara se refiere a la estructura tridimensional que adopta
la cadena polipeptídica completa en el espacio, mientras que la estructura cuaternaria se
refiere a la asociación entre cadenas polipeptídicas para dar lugar a la formación de
proteínas oligoméricas.
1
Es importante mencionar que en los últimos años se han reconocido varias funciones importantes para
este tipo de regiones, particularmente de tipo regulatorio, llegando a existir inclusive proteínas cuya
estructura está en su mayor parte desordenada.
Desde que los trabajos pioneros de Anfinsen sugirieron que la función (y por
ende la estructura) de las proteínas estaba determinada por la secuencia de aminoácidos,
se pensó en la posibilidad de desarrollar métodos que permitieran predecir la estructura
y la función de estas biomoléculas a partir del conocimiento previo de la secuencia de
aminoácidos. Esto ha sido especialmente importante, ya que aunque es posible
determinar la estructura de las proteínas en forma experimental, esto solo se ha logrado
para un número relativamente pequeño de proteínas. Por tal motivo, actualmente la
predicción de la estructura de proteínas es un área muy activa y prominente de
investigación. Se han desarrollado diversos métodos bioinformáticos para predicción de
estructura en sus diversos niveles. Estos esfuerzos se han multiplicando y refinado
sustancialmente a medida que se ha logrado colectar un mayor número de datos de
secuencias y estructuras.
Los primeros métodos de predicción se basaron fundamentalmente en la premisa
de que un fragmento corto de residuos consecutivos tiene la información necesaria para
que la cadena polipeptídica adopte una conformación determinada. A partir de datos de
difracción de rayos X de proteínas cristalizadas se construyeron bases de datos de las
conformaciones observadas en estas moléculas y se trató de asociar estadísticamente la
propensión de cada aminoácido a participar en alguna de estas estructuras. Los métodos
de predicción de esta primera generación que fueron desarrollados se basaban
principalmente en los datos de propensiones individuales calculadas para cada
aminoácido. La segunda generación de métodos de predicción analizaban segmentos
cortos de aminoácidos para determinar sus conformaciones. Si bien con esta
metodología se pudieron conocer muchos de los aspectos estereoquímicos que influyen
en la estructura secundaria de las proteínas la confiabilidad de los métodos más
avanzados alcanzaban niveles de solo el 60%. El argumento principal en torno a esta
deficiencia inherente a los primeros métodos de predicción es que la conformación de la
cadena polipeptídica no está determinada únicamente por la información local de la
secuencia, sino que también otras interacciones no locales participan de manera muy
importante en el establecimiento de la conformación.
El análisis de la evolución de proteínas homólogas permitió demostrar que la
estructura de las proteínas se conserva más que su secuencia. De este análisis se puede
inferir que solo una fracción de los aminoácidos de una proteínas juegan un papel
decisivo en su estructura. Esto dio paso al desarrollo de métodos de predicción que
consideraran la conservación de la información evolutiva, a la par que se incorporaron
nuevas técnicas computacionales para el reconocimiento de patrones complejos, tales
como las redes neuronales, modelos ocultos de Markov o las máquinas de
reconocimiento vectorial. Esto tuvo como consecuencia el desarrollo de métodos de
predicción cuya confiabilidad ha permitido superar el 70%. De este modo, hoy en día
existe una amplia variedad de métodos de predicción de estructura y se argumenta que
la confiabilidad en la capacidad de predicción de los mismos varía entre el 80 y el 90%.
Además de la estructura secundaria de las proteínas existen una serie de
propiedades de la proteínas que pueden conocerse a partir de la secuencia de
aminoácidos. A estas propiedades se les conoce comúnmente como propiedades 1D.
Entre estas propiedades podemos citar las siguientes:
Función: A través del análisis de homología con proteínas de secuencia y función
conocida pueden predecirse las funciones de proteínas recientemente descubiertas. Esta
análisis será más confiable a medida que el grado de similutd con sus homólogos sea
más grande. De esta forma es posible descubrir dominios conservados de funciones
conocidas. Por otra parte, la búsqueda de motivos en la secuencia, puede ayudar a
descubrir ciertas regiones especializadas: pépitidos de señalización, puentes disulfuro,
sitios de glicosilación, sitios de unión a DNA (por ejemplo dedos de Zinc, cierres de
Leucina). Por otra parte, los alineamientos múltiples de las proteínas pueden revelar las
regiones de la secuencia que se han conservado a través de la evolución así como los
sitios variables, que en turno pueden revelar las partes fundamentales para la estructura
y función de la proteína y su evolución.
Hidrofobicidad y regiones transmembranales: El efecto hidrofóbico es el fenómeno
por el cual las substancias no polares tienden a minimizar sus contactos con el agua.
Dicho efecto es el determinante principal de la estructura de las proteínas. Se han
desarrollado diversos índices que miden la tendencia hidrofóbica o hidrofílica de los
aminoácidos. La utilización de los mismos puede ayudar a identificar las regiones de
una proteína que tenderán a agregarse en el interior de la molécula al encontrarse en un
medio hidrofóbico. También, dada la naturaleza hidrofóbica de las membranas
celulares, la presencia de regiones con esta propiedad en la proteínas permite identificar
dominios transmembranales de las mismas.
Accesibilidad al solvente. La accesibilidad al solvente de un aminoácido es la
propiedad de la cadena lateral de está expuesta al solvente. Se expresa en términos de la
fracción del área de la superficie de Van der Waals del aminoácido que es accesible.
Punto isoléctrico y peso molecular. El punto isoléctrico y el peso molecular de las
proteínas son propiedades que pueden evaluarse fácilmente a partir de la secuencia de la
proteína y el pH del Medio dado que estas propiedades dependen fundamentalmente de
los aminoácidos que las componen.
Recursos informáticos utilizados.
•
•
•
•
•
•
NCBI_ http://www.ncbi.nlm.nih.gov/
Protein Data Bank www.pdb.org
Servidor PSIPRED (http://bioinf.cs.ucl.ac.uk/psipred/)
Servidor Predict Protein (http://ppopen.informatik.tu-muenchen.de/)
Servidor JPred3 (http://www.compbio.dundee.ac.uk/www-jpred/)
Servidor PBIL-NPS@ (http://pbil.ibcp.fr/htm/index.php?page=pbil_index.html)
Desarrollo
En esta sección se realizar análisis de predicción de estructura y propiedades 1D
para proteínas de estructura o función conocidas. Esto permitirá el alumno evaluar que
tan confiables son algunas de estas predicciones y como deben interpretarse.
Obtención de secuencias
Buscar en las base de datos del NCBI las secuencias de las proteínas con claves de
acceso P35034, P78588, TF3A_HUMAN y NP_010907. Descargarlas en formato
FASTA. Revise la anotación del NCBI para cada uno de los registros e identifique las
propiedades más importantes de cada proteína.
Análisis de propiedades fisicoquímica con el servidor Pôle Bioinformatique
Lyonnnais Gerland (http://pbil.ibcp.fr/html/pbil_index.html).
El servidor del Pôle Bioinformatique Lyonnnais Gerland en Francia ofrece el acceso a
diversos programas clásicos para la predicción de estructura de proteínas tales como
PHD y algunos programas para el análisis de propiedades fisicoquímicas. En particular
ofrece algoritmos para la identificación de regiones hidrofóbicas e hidrofílicas mediante
diversos métodos Utilice la secuencia de las proteínas P35034 y P78588 para realizar
este análisis.
1. Ingresar en la opción Webware del servidor del PBIL.
2. Ingresar al servidor NPS@ (Network Protein Sequence Análisis).
3. En la sección de herramientas misceláneas (Miscellaneous analysis tolos), ingresar a
la opción “Physico-chemical profiles”.
4. Pegar la secuencia para el análisis (sin incluir la línea de título). El programa llevará
a cabo los análisis de predicción de hidrofilicidad (Hopp y Woods), hidrofobicidad
(Kyte y Doolittle), flexibilidad (Karpluz y Schulz), antigenicidad (Parker),
accesibilidad al solvente (Janin), hélices transmembranales (Argos) y el de
antigenicidad (Welling). Los resultados se presentan en forma gráfica pero también
se proporciona un link para descargar los datos en un archivo de texto.
5. Investigue los fundamentos de las predicciones empleadas en este servidor
consultando las referencias bibliográficas citadas en el sitio WEB de este programa.
Análisis inmunogénico en el servidor de Inmunomediciana de la Universidad
Complutense de Madrid.
Gran parte de las propiedades inmunogénicas de las proteínas están asociadas con
propiedades fisicoquímicas tales como la hidrofilicidad o la accesibilidad del solvente.
No obstante algunos otros factores son importantes, como la detección de ciertas
epítopos conservados que pueden desatar una respuesta inmune. Varias de estas
propiedades pueden descubrirse realizando un análisis de la secuencia de aminoácidos.
El servidor de la Universidad Complutense de Madrid ofrece algunas herramientas
importantes para este estudio.
1. Realizar los análisis de predicción de regiones antigénicas de Kolaskar and
Tongaonkar y el análisis RankPep para la detección de péptidos inmunogénicos en
el servidor
http://imed.med.ucm.es/Tools/immunology.html con la proteína
P35034.
2. Compare los resultados de dichas predicciones con los resultados del análisis con
NPS@. En particular identifique que propiedades presentan las regiones con mayor
probabilidad de ser inmunogénicas.
Predicción de estructura secundaria y otras propiedades con el servidor
PredictProtein.
El servidor Predict Protein ofrece varios de los métodos más avanzados para la
predicción de estructura secundaria y otras propiedades de las proteínas. El servidor
ofrece el método PROF (descendiente del programa PHD) uno de los métodos más
precisos para la predicción de estructura secundaria.
1. Ingrese al servidor PredictProtein (http://ppopen.informatik.tu-muenchen.de/) y
analice la secuencia de las proteínas P35034 y P78588. Para almacenamiento de los
datos del análisis es necesario llevar a cabo el registro de sus datos en el sistema.
2. El servidor PredictProtein realiza actualmente los siguientes análisis:
a. Predicción de estructura secundaria y accesibilidad al solvente por el método
PROF.
b. Predicción de regiones transmembranales por el método TMSEG y PHDhtm.
c. Identificación de regiones desordenadas mediante Meta-Disorder.
d. Identificación de puentes disulfuro con el programa DISULFIND.
e. Análsis de anotación funcional entre los que destacan: localización celular
(LocTree3), sitios de unión proteína-proteína (ISIS2) y nucleótido-proteína
(SomeNA) y análisis de ontología genética.
3. Para cada uno de los análisis anteriores, el programa muestra un link “Export” con
el cual se pueden descargar los datos en formato de texto para utilizarlos en otros
programas.
Predicción de estructura secundaria utilizando Jpred
El servidor Jpred3 es una de las técnicas de predicción de estructura secundaria de
última generación el cual esta basado en la creación de alineamientos con proteínas
homólogas de estructura conocida utilizando el algoritmo de PSI-BLAST.y el empleo
de redes neuronales con el programa Jnet.
1. Acceder a la pagina http://www.compbio.dundee.ac.uk/www-jpred/
2. Realizar el análisis de estructura para las proteínas P35034 y P78588.
3. Por defecto el programa localiza homólogos de estructura conocida mediante el
programa PSI-Blast. En este caso como resultado del análisis aparece una lista de
secuencias de proteínas homólogas de perteneciente a la base de datos del PDB, que
serán útiles para el análisis 2-D de la proteína.
4. Para el propósito de esta búsqueda se debe activar la casilla para evitar la búsqueda
de estos homólogos y utilizar el algoritmo de predicción.
5. Al someter la proteína al análisis se muestra una página con un link el cual debe
presionarse y actualizarse frecuentemente hasta que la predicción halla sido
completada (aproximadamente 10-15 minutos).
6. Los resultados se pueden consultar en diversos formatos. En la presentación HTML
se muestra el alineamiento generado por PSI-Blast y los resultados de diferentes tipo
de predicciones. Por otra parte la opción “Simple display” de los resultado muestra
en resumen de la predicción obtenida con este programa. Se recomienda guardar
este resultado para compararlo con los resultados de otras predicciones.
Predicción de estructura secundaria con el programa PSIPRED.
El servidor Psi-pred (http://bioinf.cs.ucl.ac.uk/psipred/) ofrece uno de los métodos de
predicción de estructura secundaria más efectivos a la fecha. El sistema se basa en el
uso de redes neuronales y la combinación de los resultados de búsqueda de homólogos
remotos con el programa PSI-Blast. Parte de la confiabilidad de la predicción radica en
la base de datos la cual ha sido depurada para facilitar la exclusión de proteínas no
relacionadas y evitar la inclusión de información redundante excesiva. El uso de este
servidor requiere el empleo de una dirección de correo electrónica no comercial.
Actualmente el servidor ofrece además diversas herramientas de análisis para la
identificación de regiones transmembranales, regiones desordenadas y análisis
funcional.
En la página de PSIPRED seleccione la opción de análisis que se indica para los
siguientes análisis. Deberá proporcionar un título para cada trabajo y proporcionar una
dirección de correo electrónico para recibir los resultados (considere que algunos de
estos análisis pueden requerir algunas horas para completarse.
1. Realice el análisis de predicción de estructura secundaria con PSIPRED para la
proteína P35034. PSIPRED proporciona los resultados de la predicción en formato
gráfico y en texto. Compare las predicciones realizadas con este programa con las
efectuadas con PROF (PredictProtein) y JPred3.
2. Realice la predicción de regiones transmembranales para la proteína P35034 con el
método MEMSAT3 & MEMSAT-SVM del servidor PSIPRED. Compare los
resultados obtenidos con los de TMSEG y PHDhtm (PredictProtein) y con los datos
anotados de regiones transmembranales para este proteína en su registro del NCBI
¿lograron estos programas identificar correctamente las regiones transmembranales
de esta proteína? En las proteínas transmembranales se utiliza frecuentemente la
“regla del lado positivo”, para identificar las regiones extramembranales que se
encuentran del lado citoplasmático de la célula. ¿cuál es el fundamento biológico de
dicha regla?
3. Realice la identificación de regiones desordenadas para las proteínas NP_010907 y
TF3A_HUMAN con la opción DISOPRED3 & DISOPRED2. Considerando la
función de estas proteínas ¿por qué es posible encontrar en ellas extensas regiones
desordenadas? ¿qué composición de las secuencias de las proteínas favorece la
presencia de regiones desordenadas?
4. Realice el análisis de predicción de funciones para la proteínas con la opción FFPred
v2.0. Tome en cuenta que este análisis es solamente para proteínas de origen
eucariótico.
Búsqueda de motivos con PROSITE.
La base de datos PROSITE es ampliamente utilizada para buscar dominios y motivos
conservados para conocer las posibles funciones de las proteínas en estudio. Existen en
la actualidad diversos servidores que permiten realizar esta tarea. Para este análisis
realice la búsqueda de motivos con todas las proteínas utilizando el servidor ScanProsite
del SWISS-PROT (http://ca.expasy.org/tools/scanprosite/).
1. Entrar a la página principal de ScanProsite.
2. Pegar la secuencia de la proteína en la sección correspondiente de la página de
ScanProsite. Esta deberá pegarse sin incluir el título del archivo FASTA.
3. Verificar que estén marcadas las opciones “Exclude motifs with a high probability
of occurrence” y “Show level score” y presionar el botón “Start scan”.
4. El programa realiza la búsqueda de similitudes con la base de datos PROSITE y
muestra los resultados más significativos encontrados. En el listado de resultados se
muestra una barra en color gris indicando la clave del patrón de PROSITE
encontrado (Una clave que empieza con PS...) y una breve descripción del mismo.
La clave del patrón es un hipervínculo a una página con información detallada sobre
las características del motivo. Adicionalmente los resultados pueden incluir
representaciones gráficas de los motivos encontrados en donde se resaltan los
aminoácidos más significativos para este perfil.
5. Repetir la búsqueda pero en esta ocasión sin la opción “Exclude motifs with a high
probability of occurrence” y observar los resultados obtenidos. ¿Qué características
presentan los nuevos motivos que han sido encontrados?
6. En algunas de las proteínas propuestas en este estudio podrá identificar diversos
motivos funcionales: Puentes disulfuro, regiones transmembranales, sitios de unión
de cofactores, dedos de Zinc, cremalleras de leucina, sitios de glicosilación.
7. Describa las características de los motivos más importantes encontrados con las
búsquedas anteriores.
Guía para el reporte de la práctica.
1. Elabore un tabla en la cual se resuman las propiedades más importantes que se
encuentran anotadas en los registros del NCBI para cada una de las proteínas
analizadas en esta práctica. En particular es deseable que dicha tabla incluya: Clave
de acceso, organismo de origen, nombre de la proteína, función, motivos
funcionales importantes (sugerencia, revisar la sección “features” del registro).
2. Compare los resultados de predicciones de propiedades fisicoquímicas de la
proteína P35034 con los de propiedades antigénicas. Explique las posibles
relaciones bioquímicas entre propiedades fisicoquímicas y propiedades antigénicas.
3. Realice una comparación de las predicciones de estructura secundaria para la
proteína P35034 con los programas PROF, PSIPRED y JPred3. ¿qué tan similares
son dichas predicciones?
4. Analice las predicciones de regiones transmembranales de la proteína P78588.
Compárelas con la estructura real la que se encuentra anotada en el archivo de
GenBank. Por otro lado lleve a cabo una predicción de estructura secundaria con
PSIPRED ¿hay correspondencia entre las predicciones de regiones
transmembranales con los de estructura secundaria?
5. Compare la identificación de Motivos con Prosite para cada una de las proteínas
estudiadas y compare esta información con la información que recopiló en la tabla
solicitada en el punto No. 1 ¿Cómo puede ayudar esta información en el estudio de
la función de las proteínas?
6. Analice los resultados de localización y funciones que ofrecen los programas
PredictProtein y PSIPRED, para las proteínas que tienen dedos de Zinc o cierres de
Leucina. ¿hay correspondencia entre las funciones de estas proteínas y la presencia
de estos motivos en las proteínas? ¿Cuál es la función de esta clase de motivos?
Preguntas:
1. Elabore un cuadro en la cual se describan brevemente los fundamentos del análisis
de cada una de las herramientas bioinformáticas analizadas en este estudio.
2. Si al estudiar una proteína de estructura desconocida, se encuentra que esta tiene
homólogos significativos en la base de datos PDB ¿cómo se podría utilizar esta
información para hacer una predicción de su estructura? ¿qué tan confiable esperaría
que fuese esta predicción con la que podría obtenerse con los diversos programas
ensayados para la predicción de la estructura secundaria?
3. ¿En que se basa la regla del lado positivo para el estudio de proteínas
transmembranales? ¿qué tipos de análisis pueden emplearse para la localización de
motivos transmembranales?
4. ¿Qué aminoácidos pueden provocar la presencia de regiones desordenadas en
proteínas? ¿Cuál es la importancia de este tipo de regiones? Investigue algunas
proteínas importantes en las cuales puedan identificarse este tipo de regiones.
5. Si la estructura secundaria de una proteínas es determinada por solo una fracción de
aminoácidos de la secuencias, indique porque la búsqueda de homólogos es
importante para este tipo de estudios (aún cuando con ella no se identifiquen
homólogos con estructura conocida).
Bibliografía
1. Mount DW. Bioinformatics. Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press.
2. Jones DT. (1999) Protein secondary structure prediction based on position-specific scoring matrices.
J. Mol. Biol. 292: 195-202.
3. Karp G. 2005. Biología Celular y Molecular, conceptos y experimentos. Mc Graw-Hill. 4° edición.
4. Claverie J.M., Notredame C. (2003): Bioinformatics for dummies. For Dummies Series, Wiley
Publishing New York. USA.
5. Burkhard Rost (2003): Prediction in 1D: Secondary structure, membrane helices and accessibility en
Structural bioinformatics. Bourne P. E., Weissig H. (editores). Wiley-Liss. USA. Pp:559-587.
Descargar