Bioinformática Estructural : Lunes,13 Marzo de 2017 ; 11:00am Ph.D., Edgar Reyes Carlos Esteban Gaitán Caicedo 1 Carlos Esteban Gaitán Caicedo Bioinformática Estructural Evaluación de tres programas de estructura secundaria de proteı́nas La predicción de estructura secundaria es importante ya que es el primer paso para pasar de la secuencia de aminoácidos a una estructura tridimensional y poder conocer como esta organizada la proteı́na. A pesar de que hay muchos programas disponibles y de fácil acceso para determinar la estructura secundaria de la proteı́na, los resultados no son exactos, por lo que existen diversos métodos y se siguen desarrollando nuevas metodologı́as con el fin de mejorar la predicción. Entre esos métodos, encontramos unos de primera generación basados únicamente en información estadı́stica, los de segunda generación incluyendo las interacciones con residuos vecinos generando una matriz de score y los de tercera generación que pueden ser basados en homologı́a o en redes neuronales. En este trabajo se propone evaluar los siguientes programas: i Chou Fasman (1 generación) i GOR III y GOR IV (2 generación) i PHD (3 generación) Con el fin de identificar cuál programa es mejor para predicción de estructura secundaria se utilizó un programa de cada generación, a continuación se aclara la metodologı́a que se utilizó. 1. Identificación de una proteı́na con estructura secundaria reportada PDB reportada en la Protein Data Bank. 2. Descargar archivo en formato .pdb. 3. Generar la estructura secundaria de la proteı́na elegida a partir de la base de datos DSSP (Dictionary of protein secondary structure) a partir del archivo .pdb. 4. Ingresar en los servidores de los programas elegidos y a partir de la secuencia de la proteı́na generar la estructura secundaria de la proteı́na. 5. Calcular ı́ndice Q y el ı́ndice de Calidad y analizar los resultados obtenidos de cada programa. 6. Identificar el programa menos útil para el cálculo de estructura secundaria. Proteı́na Se eligió la proteı́na de ubiquitina libre de lisina con identificación PDB: 2MI8 A. Es una proteı́na de 76 residuos y con una estructura pdb reportada. Page 2 of 5 Carlos Esteban Gaitán Caicedo Bioinformática Estructural Generación estructura secundaria DSSP A través del servidor http://www.cmbi.ru.nl/xssp/ se obtuvo la estructura secundaria de la proteı́na. Chou & Fasman En el siguiente servidor se calculó la estructura secundaria por el método de Chou & Fasman*. *https://www.biogem.org/tool/chou-fasman/ A continuación se observan los resultados que proporcionó el método. GOR III, GOR IV y PHD Los resultados de los tres programas se calcularon con el servidor CONSENSUS*. Este servidor permite obtener resultados con varios programas de predicción de estructura secundaria a la vez. *https://npsa-prabi.ibcp.fr/cgi-bin/npsa automat.pl?page=/NPSA/npsa seccons.html Los resultados obtenidos se observan en el siguiente gráfico: Page 3 of 5 Carlos Esteban Gaitán Caicedo Bioinformática Estructural Análisis de resultados Se estudiaron los resultados obtenidos por cada método y posteriormente se realizó la determinación de los ı́ndices Q y de calidad para todas las metodologı́as. Chou & Fasman Chou & Fasman es un método estadı́stico utilizado para la determinación de estructura secundaria. En este programa se utiliza la propensión de cada aminoácido a generar una estructura α hélice, hoja β , coil y turn. Estas propensiones están determinadas para cada aminoácido además de esto, las regiones de nucleación es una de las reglas claves en el programa y cabe aclarar que no se tiene en cuenta información de residuos vecinales. Este programa a su vez describe Coil y Turns, ya que muchos programas no lo hacen por separado. En la siguiente tabla se observa la estructuras predichas acertadamente por Chou & Fasman y se compara con los resultados obtenidos por DSSP. Estructura C&F Correcto C&F Total DSSP α Hélice 9 18 18 Hoja β 20 41 25 Coil 4 6 19 Turn 5 11 14 Donde C&F correcto especifica la cantidad de aciertos del método Chou & Fasman por estructura, C&F Total la cantidad total de resultados por estructura del método y DSSP, la cantidad de veces por estructura secundaria obtenida a partir del .pdb. Claramente se observa que el método de Chou & Fasman sobreestima la cantidad de hojas beta en la secuencia, esto hace que la cantidad de helices, coil y turn sea baja. Aunque del resto de datos obtenidos por estructura se observa que no la cantidad de aciertos con respecto a la cantidad de predichos es cercana, al tener en cuenta la estructura obtenida por DSSP se observa que el porcentaje de aciertos es bajo como en el caso del Coil. GOR III y IV GOR es un método de segunda generación, una de las caracterı́sticas más importante de estos métodos es que tienen en cuenta la información de los residuos vecinales. GOR trabaja con una ventana, asumiendo que 8 residuos a cada lado de un aminoácido influencian en la estructura secundaria. GOR calcula un score para sus resultados, este score es una matriz donde relaciona un aminoácido con otros dando un puntaje que favorezca un tipo de estructura. Los resultados se observan en la siguiente tabla: Estructura GOR III Correcto GOR III Total GOR IV Correcto GOR IV Total DSSP α Hélice 6 26 12 26 18 Hoja β 14 24 12 17 25 Coil 17 26 21 33 33 Los resultados se expresaron de la misma forma de que los obtenidos por Chou & Fasman. Cabe aclarar que ya que GOR no expresa turn, los resultados de Turn obtenidos en DSSP se expresaron como Coil, esto con el fin de poder hacer una mejor comparación. Entre los métodos GOR observamos, que GOR III sobreestima los valores de α hélice, caso contrario de GOR IV. En general, a pesar de la diferencia de datos entre el obtenido por DSSP como por el método GOR IV, podemos decir que los resultados de este último son más confiables que los de su antecesor, tanto en predicción de Coil como hojas β , aunque presenta una sobre estimación de α hélice. PHD PHD es un método de redes neuronales por homologı́a, esto quiere decir que en una base de datos de proteı́nas el método busca las secuencias similares a la cargada y relaciona la estructura secundaria de estas secuencias con partes de la secuencia de la que se quiere obtener la estructura secundaria. Page 4 of 5 Carlos Esteban Gaitán Caicedo Bioinformática Estructural Estructura PHD Correcto PHD Total DSSP α Hélice 10 15 18 Hoja β 17 26 25 Coil 25 35 33 De los anteriores resultados se observa que PHD es un método más robusto y que asigna con mayor precaución la estructura por aminoácido. Tanto en predicción de hojas como de hélices, la cantidad de aciertos es alta en comparación con la cantidad de predichos. Índices El ı́ndice Q se determino bajo la siguiente ecuación: Qx = N predicho ∗ 100 NObservado (1) Donde x representa {3, α, β o coil }. De otro lado, el ı́ndice de calidad se determino por la siguiente ecuación: 100(N − total incorrecto) (2) N n representa el porcentaje total por la secuencia de aminoácidos y también se puede determinar por el tipo de estructura secundaria. Los ı́ndices calculados se observan en la siguiente tabla: %n = Método QH QS QC Q3 %nH %nS %nC %N Chou & Fasman 50 80 42 55 50 16 89 91 GOR IV 67 48 64 28 22 80 37 64 PHD 56 68 76 70 72 64 47 70 Con relación a los ı́ndices calculados se puede decir que el ı́ndice Q3 es mayor para el método de PHD y menor para el método GOR IV. El ı́ndice de calidad refleja que el mejor método es sorpresivamente Chow & Fasman, sin embargo este valor aumenta debido al porcentaje de coil ya que solo tuvo incorrectos 3 datos pero solamente predijo 14 Coil de los 33 posibles. Por lo tanto, los datos de PHD resultan mas consecuente con los cálculos realizados. Resulta extraño que GOR tenga una baja predicción en estructuras α Hélice, con un ı́ndice de calidad para estas estructuras de solo el 22 %. i Mejor predictor Hélice: PHD i Mejor predictor Hojas: C&F o GOR i Mejor predictor Coil: PHD i Mejor predictor en general: PHD Teniendo en cuenta los resultados obtenidos, se puede inferir que para esta proteı́na estudiada los resultados de PHD son más confiables aunque no son del todo exactos. El método GOR presenta una deficiencia en determinar las hélices para esta proteı́na, entre tanto que el método de Chow & Fasman asigna gran cantidad de hélices y hojas y debido a eso tuvo para esta proteı́na buenos resultados pero esto infiere en los resultados de estructuras coil y turn. Por último, aunque los resultados para GOR en este caso no fueron los mejores, es claor que Chow & Fasman es uno de los métodos más simples a la hora de predecir una estructura secundaria. Este podrı́a mejorar su predicción incluyendo la interacción de los residuos vecinales, además de mejorar la descripción de las regiones de nucleación. Para GOR se podrı́a plantear mejorar la descripción de hélices ya que fue el peor resultados, la forma de mejorarlo podrı́a ser incluir datos de alineamiento de secuencias múltiples, es decir incorporar un programa que busque secuencias similares que GOR ya posea en una base de datos y que pueda ayudar a determinar la estructura de diferentes zonas de la proteı́na fácilmente. Una mejora en el estudio realizado serı́a incluir proteı́nas de diferentes tipos y con mayor tamaño, con el fin de observar si cambios en la hidrofobicidad o en los vecinos afectan le rendimiento de los programas. Page 5 of 5