Predicción de estructura de proteínas Iakes Ezkurdia Michael Tress Gonzalo López iezkurdia@cnio.es tress@cnio.es glopez@cnio.es C.N.I.O. Grupo de Biología Computacional Estructural El plegamiento de proteínas viene determinado por su secuencia de aminoácidos Cadenas laterales Las propiedades de las cadenas laterales afectan al empaquetamiento y a características locales como la estructura secundaria El plegamiento de una proteína se debe a una red estable de interacciones entre aminoácidos. Por qué es importante predecir estructuras? Por qué es importante predecir estructuras? Obtención de secuencias de proteínas (a partir de DNA secuenciado) es rápido y barato. Con la obtención de estructuras ocurre lo contrario. Resctricciones: X-ray -> obtención de un cristal NMR -> asignación del espectro En general, pequeñas variaciones en la secuencia de una proteína no afectan demasiado a la estructura 3D. Espacio de secuencias Espacio estructural En definitiva, podemos generar modelos de estructuras 3D para proteínas de estructura desconocida Proteínas con secuencias muy distintas pueden tener un plegamiento similar: Divergencia y convergencia evolutivas 20% Genómica estructural Bases de datos de estructuras de proteínas Protein Data Bank y otras PDB – Repositorio de todas las estructuras conocidas SCOP y CATH – Clasificación de estructuras proteicas. Relaciones estructurales entre proteínas. PDBSum – Análisis de las estructuras de PDB Protein Data Bank y otras 1CRN Cadena HEADER TITLE TITLE COMPND COMPND COMPND COMPND COMPND COMPND COMPND COMPND COMPND SOURCE SOURCE SOURCE IMMUNE SYSTEM 10-MAY-01 1IM9 CRYSTAL STRUCTURE OF THE HUMAN NATURAL KILLER CELL 2 INHIBITORY RECEPTOR KIR2DL1 BOUND TO ITS MHC LIGAND HLA-CW4 MOL_ID: 1; 2 MOLECULE: HLA CLASS I HISTOCOMPATIBILITY ANTIGEN, CW-4 3 CW*0401 ALPHA CHAIN; 4 CHAIN: A, E; 5 ENGINEERED: YES; 6 MOL_ID: 2; 15 MOLECULE: KILLER CELL IMMUNOGLOBULIN-LIKE RECEPTOR 2DL1; 16 CHAIN: D; 17 ENGINEERED: YES MOL_ID: 1; 2 ORGANISM_SCIENTIFIC: HOMO SAPIENS; 3 ORGANISM_COMMON: HUMAN; Código PDB Protein name Protein Data Bank y otras ATOM: una linea por cada átomo que incluye las coordenadas cartesianas del átomo en el espacio ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 N CA C O CB OG1 CG2 N CA C O CB OG1 CG2 N CA THR THR THR THR THR THR THR THR THR THR THR THR THR THR CYS CYS 1 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 17.047 16.967 15.685 15.268 18.170 19.334 18.150 15.115 13.856 14.164 14.993 12.732 13.308 12.484 13.488 13.660 14.099 12.784 12.755 13.825 12.703 12.829 11.546 11.555 11.469 10.785 9.862 10.711 9.439 11.442 11.241 10.707 3.625 4.338 5.133 5.594 5.337 4.463 6.304 5.265 6.066 7.379 7.443 5.261 4.926 3.895 8.417 9.787 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 13.79 10.80 9.19 9.85 13.02 15.06 14.23 7.81 8.31 5.80 6.94 10.32 12.81 11.90 5.24 5.39 ... Átomo aminoácido Nº aa X Y Z B-factor 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 Alineamientos estructurales Superposición de 2 (o más) estructuras, minimizando las distancias entre átomos equivalentes A menudo solo se usan los C alpha Un alineamiento estructural se puede convertir en uno de secuencia. Se pueden estudiar las modificaciones estructurales y funcionales debidas a la evolución, entre proteínas homólogas Hay distintos métodos basados en distintos principios: -DALI (contact maps) -Mammoth (secondary structure) -SSAP (dynamic programming) -LGA (longest segment) Similitud estructural Podemos comparar estructuras homologas, modelos, etc RMSD: Root Mean Squared Deviation == distancia media entre átomos equivalentes SCOP (Structural Classification of Proteins) Descripción de relaciones estructurales obtenidas de visu. SUPERFAMILIA: Probable origen evolutivo común. Pueden contener secuencias disimilares pero las características estructurales y funcionales sugieren un origen común FAMILIA: Relación evolutiva obvia. Generalmente secuencias por encima del 30% de identidad de secuencia. FOLD: Alta similitud estructural. Proteínas que comparten la organización de los segmentos de estructura secundaria y las mismas conexiones topológicas The CATH Database Similar a SCOP. Hay 4 niveles de clasificación y se genera de forma semiautomática Class: Estr. Secundaria y empaquetamiento Architecture: Parecido a nivel de dominio Topology (FOLD family): overall shape and connectivities. Homologous superfamily: proteínas con un ancestro común. Busquedas por similitud de secuencia y posteriormente alineamientos estructurales usando el programa: SSAP More Structural Databases/Alignment Programs MSD: Macromolecular Structure Database CE: Combinatorial Extension structure comparison and database DALI: structural alignment program and database of alignments LGA: structural comparison and structural alignments PDBSUM: collection of structural links for each template FireDB: database of functionally important residues in structures CSA: collection of catalytic sites in the PDB Predicción de características 1D Gonzalo López glopez@cnio.es C.N.I.O. Grupo de Biología Computacional Estructural Sumario Introduccion • • • Definición de características 1D. Estructura de proteínas Metodología: Implementación de un predictor. Predicción de características 1D • Estructura secundaria • Desorden estructural • Accesibilidad al solvente • Proteínas transmembrana • Otras características 1D Sumario Introduccion • Definición de características 1D. • Estructura de proteínas • Metodología: Implementación de un predictor. Predicción de características 1D • Estructura secundaria • Desorden estructural • Accesibilidad al solvente • Proteínas transmembrana • Otras características 1D Definición de características 1D • Denominamos características 1D de una secuencia a aquellas que pueden ser representadas por un único valor asociado a cada aminoácido (B. Rost). • Estos valores suelen tomar la forma de etiquetas de estado, como por ejemplo en el caso de la estructura secundaria (H->hélice, E>lámina, T->giro) • En algunos métodos, las asignaciones van acompañadas de un valor de fiabilidad. • Las valores asociados pueden ser relativos (la accesibilidad al solvente puede representarse en porcentages) Definición de características 1D • Algunas características 1D: – – – – – – • Estructura secundaria Accesibilidad al solvente Modificaciones post-traduccionales Péptidos señal Regiones desordenadas Regiones transmembrana El estudio de estas propiedades ayuda a caracterizar funcional y estructuralmente una proteína. – Los métodos de predicción de estructura basados en el reconocimiento del plegamiento, se nutren de estas técnicas – Peptidos señal y regiones transmembrana -> localización celular – Las modificaciones post-transcripcionales -> procesos biológicos como la regulación Sumario Introduccion • Definición de características 1D. • Estructura de proteínas • Metodología: Implementación de un predictor. Predicción de características 1D • Estructura secundaria • Desorden estructural • Accesibilidad al solvente • Proteínas transmembrana • Otras características 1D Aminoácidos esenciales >Estructura Primaria ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY LSTQSALSKDPNEKRDHMVLLEFVTAAGITHGMDELYK Enlace peptídico Diagramas de Ramachandran Pro Gly Estructura secundaria (helice α) α Estructura secundaria (lámina β) • Cadenas β βa βp α Estructura secundaria • Giros ¿Se puede obtener analíticamente la estructura? • • • Ha sido verificado para muchas proteínas, que la estructura 3D de una proteína (es decir su plegamiento) viene determinada esencialmente por la especificidad de la secuencia. Dificultad para obtener valores suficientemente precisos de parámetros físicos fundamentales para la resolución del problema. El cálculo pormenorizado de la influencia sobre cada resíduo del resto de los aminoácidos de la secuencia, así como del solvente resulta computacionalmente intratable. Aproximaciones alternativas +++ Extrapolación de estructura/función por homología de secuencia (secuencia→secuencia). ++ Reconocimiento de plegamiento / Threading (secuencia→estructura conocida). + Predicción de estructura ab initio (secuencia→→nueva estructura, pero sólo aprox.) Sumario Introduccion • Definición de características 1D. • Estructura de proteínas • Metodología: Implementación de un predictor. Predicción de características 1D • Estructura secundaria • Desorden estructural • Accesibilidad al solvente • Proteínas transmembrana • Otras características 1D Construcción de un predictor Preparación (i) 1.- Definición del problema 2.- Extracción de un conjunto de entrenamiento que debe: – – – – representativo de la realidad ser fiable, poco ruido estar limpio de redundancias debe estar equilibrado 3.- Determinar de qué datos disponemos que puedan contener información sobre el problema a resolver. 1.- Predicción de estructura secundaria 2.- Conjunto de entrenamiento: • Conjunto de proteínas que contenga contenga estructuras con distintos plegamientos, con formas alfa, beta, giros, etc 3.- tipo de aminoácido, hidrofobicidad, ventana de residuos, información evolutiva, carga, etc. Construcción de un predictor Preparación (ii) 4.- Decidir qué método vamos a usar para construir el predictor (Redes Neuronales, Algoritmos genéticos, HMMs, Sistemas basados en reglas, SVM, ...). 5.- Elegir una codificación de la información asociada al problema acorde a éste y compatible con el método elegido. 4.- Redes Neuronales, SVM… 5.- Todo se puede representar como un vector numérico. ej: el tipo de aminoácido es un vector de 20 dígitos (0,1) donde cada posición representa un tipo. Construcción de un predictor Preparación (iii) 6.- Entrenar el sistema, es decir introducir la información sobre el problema, hasta que el método establezca una relación (normalmente compleja e imperfecta) entre ella y la solución del problema. 7.- Comprobar el éxito del predictor generado frente a un conjunto de validación independiente del de entrenamiento. 6.- La red neuronal se construye acorde con los datos de entrenamiento. Nos valemos de la teoría de aprendizaje automático para alcanzar el aprendizaje óptimo. 7.- El conjunto de validación es de similares características al de entrenamiento, sin embargo el conjunto de datos es distinto. Sumario Introduccion • Definición de características 1D. • Estructura de proteínas • Metodología: Implementación de un predictor. Predicción de características 1D • Estructura secundaria • Desorden estructural • Accesibilidad al solvente • Proteínas transmembrana • Otras características 1D Por que es importante predecir 1D Muchos métodos de predicción de estructura utilizan predicción de estructura secundaria. Es muy importante para Fold Recognition y esencial para métodos ab-initio. Además se suele usar a posterioi para decidir qué modelo es el más plausible y refinarlo, comparando la estructura secundaria del modelo con la predicha. 1D Prediction Fold Recognition Homology Modelling Por que es importante la prediccion de estructura secundaria? Es el primer paso hacia la predicción de estructura 3D. El siguiente sería colocar los elementos de estr. secundaria en el espacio Se usa en Fold Recognition combinandola con perfiles de secuencia. Tambien puede ayudar a la predicción de funcion de las proteínas por busquedas de motivos de estructura secundaria similares. Estructura secundaria (DSSP) 1 ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT TTGGGGSSEEEEEEEEEEEETTEEEEEEEEEEEETTTTEEEEEEEETT 51 GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF SS SS GGGGHHHHSSS GGG B GGGGGG HHHHTTTT EEEEEEEEE 101 KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV TTS EEEEEEEEEEETTEEEEEEEEEEE TTSTTTTT B S EEE 151 YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY EEEEEGGGTEEEEEEEEEEEETTS EEEEEEEEEEEESSSS SEE 201 LSTQSALSKDPNEKRDHMVLLEFVTAAGIT HGMDELYK EEEEEEEE TT SSEEEEEEEEEEES T = giro estabilizado por P de H H = α-helice, ~4 aa por vuelta G = helice 310, ~3 aa por vuelta I = helice phi, ~5 aa por vuelta B = conformacion β E = conformacion β formando lamina S = giro (sin P de H) Kabsch and Sander (1983) Biopolymers 22, 2577-2637 DSSP estudia la est 2ª en archivos de coordenadas atómicas basándose en patrones que tienen en cuenta: •Geometría •Puentes de Hidrógeno Primera generación de métodos Métodos estadísticos basados simplemente en la tendencia de cada aminoácido a formar cada uno de los elementos de estructura secundaria •Chou y Fasman en 1974, propusieron el primero de estos métodos. Emplearon estadísticas extraídas de las 15 estructuras resueltas por cristalografía de rayos-X en aquella época. Estas probabilidades fueron calculadas para cada resíduo por separado. Más adelante este método mostró una exactitud del 57% sobre 62 proteínas. •Garnier (1978). Estimó las probabilidades para interacciones de pares de resíduos significativas, obteniendo una mayor fiabilidad (~60%). Primera generación de métodos Chou-Fasman Name Alanine Arginine Aspartic Acid Asparagine Cysteine Glutamic Acid Glutamine Glycine Histidine Isoleucine Leucine Lysine Methionine Phenylalanine Proline Serine Threonine Tryptophan Tyrosine Valine P(a) 142 98 101 67 70 151 111 57 100 108 121 114 145 113 57 77 83 108 69 106 P(b) 83 93 54 89 119 037 110 75 87 160 130 74 105 138 55 75 119 137 147 170 P(turn) 66 95 146 156 119 74 98 156 95 47 59 101 60 60 152 143 96 96 114 50 f(i) 0.06 0.070 0.147 0.161 0.149 0.056 0.074 0.102 0.140 0.043 0.061 0.055 0.068 0.059 0.102 0.120 0.086 0.077 0.082 0.062 f(i+1) 0.076 0.106 0.110 0.083 0.050 0.060 0.098 0.085 0.047 0.034 0.025 0.115 0.082 0.041 0.301 0.139 0.108 0.013 0.065 0.048 f(i+2) 0.035 0.099 0.179 0.191 0.117 0.077 0.037 0.190 0.093 0.013 0.036 0.072 0.014 0.065 0.034 0.125 0.065 0.064 0.114 0.028 f(i+3) 0.058 0.085 0.081 0.091 0.128 0.064 0.098 0.152 0.054 0.056 0.070 0.095 0.055 0.065 0.068 0.106 0.079 0.167 0.125 0.053 Glu, Met y Ala : fuertes formadores de hélices. Val, Ile y Tyr: fuertes formadores de láminas. Pro: fuerte tendencia a no formar hélices ni láminas Gly: alto grado de libertad, favorece la formación de giros Segunda generación de métodos • La principal característica de estos métodos es la utilización de ventanas de resíduos adyacentes en secuencia, incluyendo así información de contexto a la predicción. • Un gran número de algoritmos de predicción se usaron en esta generación de métodos: Redes Neuronales Artificiales Teoría de Grafos Métodos basados en reglas Estadística multivariable ... Esta innovación acercó la predicción de estructura secundaria a la barrera del 70% de fiabilidad. Segunda generación de métodos • Limitaciones – Fiabilidad (prediccciones 3-estados < 70%) – Se obtienen bajas fiabilidades para cadenas-β – La hélices y láminas predichas tienden a ser demasiado cortas. • Debido a: – El número de estructuras disponibles sigue siendo demasiado pequeño para extrapolar al espacio de secuencias. Difiriendo a veces entre distintos cristales para la misma secuencia. – NO se tienen en cuenta los efectos provocados por resíduos situados a grandes distancias en secuencia (pero no en el espacio) Tercera generación de métodos Iniciada por Levin en 1993 (~69%) y Rost y Sander en 1994 (PHD 72%) – La principal innovación de esta tercera generación es la inclusión de información evolutiva adicional en forma de alineamientos múltiples (Levin, 1993). – Además, se resuelve el sesgo en las predicciones de cadenas-β β balanceando el conjunto de entrenamiento (dado que las estructuras contienen más hélices que láminas; Rost y Sander, 1994) Tercera generación de métodos Red neuronal PHD Información de secuencia de la familia de la proteína Perfil derivado del alineamiento múltiple para una ventana de resíduos adyacentes Rost et al. (1997) J. Mol. Biol. 270: 471-480 Tercera generación de métodos – Varios métodos han seguido estrategias similares a PHD, mejorando sus resultados a través del prefiltrado de los alineamientos de entrada y la extensión de los perfiles mediante PSIBLAST introducido por David Jones en PSIPRED (1999) con fiabilidades próximas al 77% o mediante HMMs usados por Kevin Karplus et al. en SAMT99sec (1999). – Otros métodos siguen una estrategia diferente, buscando el consenso de diferentes métodos, como es el caso de Jpred2 (Cuff y Barton, 2000). Ejemplos de fiabilidad de predicción de estructura secundaria Métodos de Primera generación: Chou & Fasman, Lim, GORI Métodos de Segunda generación: Schneider, ALB, GORIII Métodos de Tercera generación: LPAG, COMBINE, S83, NSSP, PHD Ejemplos de fiabilidad de predicción de estructura secundaria Sequence based Accuracy Statistics Chow-Fassman (1974)$ GOR1/GOR3 (1978/1987)$ DSC (1996)$ Nearest neighbour methods PREDATOR (1996)$ NNSSP (1995)$ Neural Networks Methods PHD (1993)$ PsiPRED (1999)$ JNET (1999)$ 57% 63%/66% 70% 75% 72% 74% 75.7% 73%?? Structure based Hidden Markov Models SAM-T99/SAM-T02 (1999/2002)$ ~76% La fiabilidad depende de la proteína Fiabilidad de PHD usando un conjunto de proteínas de prueba Problemas no resueltos – NO se tienen en cuenta los efectos provocados por resíduos situados a grandes distancias en secuencia (pero no en el espacio) – Proteínas con características inusuales deben tratarse con cuidado – Las predicciones siguen cosiderando sólo tres estados – Malos alineamientos producen malas predicciones Sumario Introduccion • Definición de características 1D. • Estructura de proteínas • Metodología: Implementación de un predictor. Predicción de características 1D • Estructura secundaria • Desorden estructural • Accesibilidad al solvente • Proteínas transmembrana • Otras características 1D Desorden estructural • Algunas regiones de las secuencias no pueden clasificarse en ninguno de los tipos de estructura secundaria • Estas regiones normalmente no son visibles en los cristales y están desordenadas. • Las regiones desordenadas son rizos, caracterizados normalmente por elevados niveles de aminoácidos polares junto con bajos de aromáticos o regiones de baja complejidad. • Algunas regiones desordenadas cortas, sin importancia funcional aparente, suelen hallarse en los extremos de las cadenas proteicas. Más desorden • Las regiones más largas suelen estar conservadas en posición a lo largo de familias de proteínas. Estas regiones se relacionan con conexión entre dominios, sitios proteolíticos, así como con reconocimiento y unión tanto a ligandos como a otras proteínas. • Suelen encontranse en ciertas enzimas, como en aquellas involucradas en el crecimiento y división celular o en fosforilación proteica. • Entre ellas estas proteínas se hallan factores y reguladores de transcripción y kinasas entre otras. Ejemplo de proteína desordenada el factor de crecimiento nervioso β (PDB: 1bet), que sólo es estable como dímero Una evaluación de los métodos (CASP 6) 193 ISTZORAN (Zoran Obradovic, Temple University) red neuronal. 096 CaspIta (Tosatto et al., Univ. of Padova) support vector machines 003 Jones UCL (David Jones, University College London) support vector machines (DISOPRED) 347 DRIP PRED (sevidor de Bob MacCallum, Stockholm) Kohonen self-organizing maps 472 Softberry. Combinación de red neuronal, función lineal discriminante y un procedimiento suavizado. Sumario Introduccion • Definición de características 1D. • Estructura de proteínas • Metodología: Implementación de un predictor. Predicción de características 1D • Estructura secundaria • Desorden estructural • Accesibilidad al solvente • Proteínas transmembrana • Otras características 1D Utilidad de la accesibilidad al solvente • Al igual que con las predicciones de estructura secundaria, se puede estudiar la plausibilidad de las estructuras predichas por un método dado mediante el uso de la información de accesibilidad al solvente (usando DSSP o NACCESS). • Además esta infomación puede ser de utilidad en otros ámbitos, como la predicción de superficies de interacción entre proteínas o de sitios funcionales. Roßbach et al. BMC Structural Biology 2005 5:7 Definición operativa La mayoría de los métodos reducen el problema a la predicción de dos estados Ls Oculto: acc. relativa <16% Expuesto: acc. relativa >= 16% Información utilizada Aunque la accesibilidad es una función de la hidrofobicidad, los métodos basados en perfiles de esta propiedad producen unas predicciones pobres. La predicción de accesibilidad mejora por el uso de ventanas en secuencia. Al igual que ocurre con la estructura secundaria, la accesibilidad al solvente es una propiedad sujeta a fuertes restricciones evolutivas, por lo que su predicción se beneficia del uso de alineamientos múltipes. En la mayoría de los casos las metodologías usadas son pequeñas variaciones de las usadas en la predicción de estructura secundaria Algunos métodos • PHDacc y PROFacc (B. Rost) emplean redes neuronales e infomación de alineamientos múltiples. Son los únicos métodos que predicen valores reales para accesibilidades relativas (de una matriz con los valores 0, 1, 4, 9, 16, 25, 36, 49, 64, 81). • JPred2 usa perfiles de PSIBLAST como entrada para sus redes neuronales y devuelve predicciones del tipo oculto/expuesto. • Estos métodos tienen una porcentaje de acierto del 70-75% Sumario Introduccion • Definición de características 1D. • Estructura de proteínas • Metodología: Implementación de un predictor. Predicción de características 1D • Estructura secundaria • Desorden estructural • Accesibilidad al solvente • Proteínas transmembrana • Otras características 1D Tipos de proteínas transmembrana Proteínas transmembrana en PDB total Fuente: http://pdbtm.enzim.hu/ nr PDB 50094 30000 TM 854 267 Alpha 726 229 Beta 126 26 El problema • La obtención de estructuras tridimensionales de proteínas transmembrana es un gran problema, ya que raramente producen cristales y su estudio por NMR es muy complicado. • De hecho aún no es posible una predicción de estructuras transmembrana a nivel atómico Hernanz-Falcon P, Rodriguez-Frade JM, Serrano A, Juan D, del Sol A, Soriano SF, Roncal F, Gomez L, Valencia A, Martinez-A C, Mellado M. Nat Immunol. 2004 Feb;5(2):216-23. Predicción de hélices transmembrana Dos reglas básicas (1) Las hélices transmembrana tienden a tener una logitud de 2030 resíduos con una hidrofobidad total alta. (2) Las regiones de conexión entre hélices del interior del citoplasma tienen una carga positiva mayor que las del exterior TRUCO: las hélices transmembrana vistas en un alineamiento muliple de secuencia no suelen incluir gaps (restricción de longitud mínima) Pero siempre hay excepciones Region extracelular Region transmembrana Region citoplasmatica Algunos métodos de predicción de hélices transmembrana MEMSAT - http://bioinf.cs.ucl.ac.uk/psipred/ Algoritmo de programación dinámica que hace predicciones basadas en tablas estadísticas compiladas de los datos de proteínas de membrana. TMAP - http://www.mbb.ki.se/tmap/index.html Usa estadíticas extraídas de perfiles de secuencia. TopPred2 - http://bioweb.pasteur.fr/seqanal/interfaces/toppred.html Promedia los valores de hidropatía con una ventana trapezoidal HMMTOP - http://www.enzim.hu/hmmtop/ Se definen 5 estados estructurales y mediante HMMs para generar fragmentos de secuencia que maximizen la frecuencia de cada estado. PHDhtm - http://www.embl-heidelberg.de/predictprotein/ Combina redes neuronales, alineamientos múltiples y programación dinámica (proporciona un índice de fiabilidad). DAS - http://www.enzim.hu/DAS/DAS.html Utiliza alineamientos múltiples de un conjunto no redundante de proteínas de membrana. TMHMM - http://www.cbs.dtu.dk/services/TMHMM/ Métodos estadísticos y HMMs que ayudan a mejorar la localización y orientación de hélices trans-membrana. Ejemplo de predicción de topología Fiabilidad • Los métodos actuales dicen identificar correctamente >90% de los segmentos trasmembrana y predecir correctamente la topología en >80% de los casos. • Sin embargo, el pequeño tamaño de los conjuntos de entrenamiento (hay 229 estructuras conocidas) hacen estas estimaciones poco fiables (¿~70%?) • Se sabe que todos los métodos tienden a predecir péptidos señal como helices transmembrana, así como a sobrepredecir en proteínas globulares. También hay predictores de barriles beta • Recientemente han aparecido algunos métodos orientados a la predicción de barriles beta en membrana externa de bacterias Gramm negativas. Se basan en HMM. • • • PRED-TMBB PROF-TMB La escasez de estructuras distintas disponibles (sólo 26) hace que resulte muy difícil evaluar la calidad de dichos métodos (75-80%). Sumario Introduccion • Definición de características 1D. • Estructura de proteínas • Metodología: Implementación de un predictor. Predicción de características 1D • Estructura secundaria • Desorden estructural • Accesibilidad al solvente • Proteínas transmembrana • Otras características 1D Predicción de péptidos señal Cadenas peptídicas cortas (3-60 aa) que dirigen el tranporte post-transduccional de una proteína TIPOS: • Señales N-terminal: matriz mitocondrial, retículo endoplasmático, peroxisoma • Señales C-terminal: peroxisoma, RE Transporte al núcleo (NLS) -Pro-Pro-Lys-Lys-Lys-Arg-Lys-Val- Tranporte a RE H2N-Met-Met-Ser-Phe-Val-Ser-Leu- Leu-Leu-Val-Gly-Ile-Leu-Phe- TrpAla-Thr-Glu-Ala-Glu-Gln- Leu-Thr-Lys-Cys-Glu-Val-Phe- Gln- Retención en RE -Lys-Asp-Glu-Leu-COOH Transporte a matriz mitocondrial H2N-Met-Leu-Ser-Leu-Arg-Gln-Ser- Ile-Arg-Phe-Phe-Lys-Pro-Ala- ThrArg-Thr-Leu-Cys-Ser-Ser- Arg-Tyr-Leu-Leu- Transporte a peroxisoma (PTS1) -Ser-Lys-Leu-COOH Transporte a perosisoma (PTS2) H2N-----Arg-Leu-X5-His-Leu- Péptidos señal: algunos recursos disponibles SPdb – http://proline.bic.nus.edu.sg/spdb/ Archaea Bacteria Eukaryotes Viruses Sub-Total Exp. Verificadas 7 553 2114 74 2748 Predichas 99 4701 14190 804 19794 TOTAL 106 5254 16304 878 22542 Servidores de predicción: PSORT – predicción de péptidos señal y sitios de localización TargetP – predicción de localización subcelular SignalP – predicción de péptido señal Algunos predictores de otras características 1D (Modificaciones Post-Transcripcionales). ExPASy Proteomics tools http://www.expasy.ch/tools/ ChloroP – predicción de péptidos de cloroplasto NetOGlyc – predicción de sitios de O-glicosilación en proteínas de mamífero Big-PI – prediccíon de sitios de modificación por glycosil-phosphatidyl inositol(GPI) DGPI – predicciónde sitios de anclaje y rotura para proteínas modificadas por GPI NetPhos – predicción de sitios de fosforilación (Ser, Thr, Tyr) en eucariotas NetPicoRNA - prediction of cleavage sites for proteases in the picornavirus NMT – predicción de N-miristoilacion en N-terminales Sulfinator – predicción de sitios de sulfatación en tirosinas Prácticas de predicción 1D http://ubio.bioinfo.cnio.es/Cursos/doctoradoUAM2008/Estructuras/Practicals1D/