Subido por ccicgaitan

parcial1

Anuncio
Bioinformática Estructural :
Lunes,13 Marzo de 2017 ; 11:00am
Ph.D., Edgar Reyes
Carlos Esteban Gaitán Caicedo
1
Carlos Esteban Gaitán Caicedo
Bioinformática Estructural
Evaluación de tres programas de estructura secundaria de proteı́nas
La predicción de estructura secundaria es importante ya que es el primer paso para pasar de la secuencia de aminoácidos a una estructura tridimensional y poder conocer como esta organizada la proteı́na. A pesar de que hay muchos
programas disponibles y de fácil acceso para determinar la estructura secundaria de la proteı́na, los resultados no son
exactos, por lo que existen diversos métodos y se siguen desarrollando nuevas metodologı́as con el fin de mejorar la
predicción.
Entre esos métodos, encontramos unos de primera generación basados únicamente en información estadı́stica, los
de segunda generación incluyendo las interacciones con residuos vecinos generando una matriz de score y los de
tercera generación que pueden ser basados en homologı́a o en redes neuronales. En este trabajo se propone evaluar los
siguientes programas:
i Chou Fasman (1 generación)
i GOR III y GOR IV (2 generación)
i PHD (3 generación)
Con el fin de identificar cuál programa es mejor para predicción de estructura secundaria se utilizó un programa de
cada generación, a continuación se aclara la metodologı́a que se utilizó.
1. Identificación de una proteı́na con estructura secundaria reportada PDB reportada en la Protein Data Bank.
2. Descargar archivo en formato .pdb.
3. Generar la estructura secundaria de la proteı́na elegida a partir de la base de datos DSSP (Dictionary of protein
secondary structure) a partir del archivo .pdb.
4. Ingresar en los servidores de los programas elegidos y a partir de la secuencia de la proteı́na generar la estructura
secundaria de la proteı́na.
5. Calcular ı́ndice Q y el ı́ndice de Calidad y analizar los resultados obtenidos de cada programa.
6. Identificar el programa menos útil para el cálculo de estructura secundaria.
Proteı́na
Se eligió la proteı́na de ubiquitina libre de lisina con identificación PDB: 2MI8 A. Es una proteı́na de 76 residuos y
con una estructura pdb reportada.
Page 2 of 5
Carlos Esteban Gaitán Caicedo
Bioinformática Estructural
Generación estructura secundaria
DSSP
A través del servidor http://www.cmbi.ru.nl/xssp/ se obtuvo la estructura secundaria de la proteı́na.
Chou & Fasman
En el siguiente servidor se calculó la estructura secundaria por el método de Chou & Fasman*.
*https://www.biogem.org/tool/chou-fasman/
A continuación se observan los resultados que proporcionó el método.
GOR III, GOR IV y PHD
Los resultados de los tres programas se calcularon con el servidor CONSENSUS*. Este servidor permite obtener resultados con
varios programas de predicción de estructura secundaria a la vez.
*https://npsa-prabi.ibcp.fr/cgi-bin/npsa automat.pl?page=/NPSA/npsa seccons.html
Los resultados obtenidos se observan en el siguiente gráfico:
Page 3 of 5
Carlos Esteban Gaitán Caicedo
Bioinformática Estructural
Análisis de resultados
Se estudiaron los resultados obtenidos por cada método y posteriormente se realizó la determinación de los ı́ndices Q y de calidad
para todas las metodologı́as.
Chou & Fasman
Chou & Fasman es un método estadı́stico utilizado para la determinación de estructura secundaria. En este programa se utiliza la
propensión de cada aminoácido a generar una estructura α hélice, hoja β , coil y turn. Estas propensiones están determinadas para
cada aminoácido además de esto, las regiones de nucleación es una de las reglas claves en el programa y cabe aclarar que no se
tiene en cuenta información de residuos vecinales. Este programa a su vez describe Coil y Turns, ya que muchos programas no lo
hacen por separado. En la siguiente tabla se observa la estructuras predichas acertadamente por Chou & Fasman y se compara con
los resultados obtenidos por DSSP.
Estructura
C&F Correcto
C&F Total
DSSP
α Hélice
9
18
18
Hoja β
20
41
25
Coil
4
6
19
Turn
5
11
14
Donde C&F correcto especifica la cantidad de aciertos del método Chou & Fasman por estructura, C&F Total la cantidad total de
resultados por estructura del método y DSSP, la cantidad de veces por estructura secundaria obtenida a partir del .pdb. Claramente
se observa que el método de Chou & Fasman sobreestima la cantidad de hojas beta en la secuencia, esto hace que la cantidad
de helices, coil y turn sea baja. Aunque del resto de datos obtenidos por estructura se observa que no la cantidad de aciertos con
respecto a la cantidad de predichos es cercana, al tener en cuenta la estructura obtenida por DSSP se observa que el porcentaje de
aciertos es bajo como en el caso del Coil.
GOR III y IV
GOR es un método de segunda generación, una de las caracterı́sticas más importante de estos métodos es que tienen en cuenta
la información de los residuos vecinales. GOR trabaja con una ventana, asumiendo que 8 residuos a cada lado de un aminoácido
influencian en la estructura secundaria. GOR calcula un score para sus resultados, este score es una matriz donde relaciona un
aminoácido con otros dando un puntaje que favorezca un tipo de estructura. Los resultados se observan en la siguiente tabla:
Estructura
GOR III Correcto
GOR III Total
GOR IV Correcto
GOR IV Total
DSSP
α Hélice
6
26
12
26
18
Hoja β
14
24
12
17
25
Coil
17
26
21
33
33
Los resultados se expresaron de la misma forma de que los obtenidos por Chou & Fasman. Cabe aclarar que ya que GOR no expresa
turn, los resultados de Turn obtenidos en DSSP se expresaron como Coil, esto con el fin de poder hacer una mejor comparación.
Entre los métodos GOR observamos, que GOR III sobreestima los valores de α hélice, caso contrario de GOR IV. En general, a
pesar de la diferencia de datos entre el obtenido por DSSP como por el método GOR IV, podemos decir que los resultados de este
último son más confiables que los de su antecesor, tanto en predicción de Coil como hojas β , aunque presenta una sobre estimación
de α hélice.
PHD
PHD es un método de redes neuronales por homologı́a, esto quiere decir que en una base de datos de proteı́nas el método busca
las secuencias similares a la cargada y relaciona la estructura secundaria de estas secuencias con partes de la secuencia de la que se
quiere obtener la estructura secundaria.
Page 4 of 5
Carlos Esteban Gaitán Caicedo
Bioinformática Estructural
Estructura
PHD Correcto
PHD Total
DSSP
α Hélice
10
15
18
Hoja β
17
26
25
Coil
25
35
33
De los anteriores resultados se observa que PHD es un método más robusto y que asigna con mayor precaución la estructura
por aminoácido. Tanto en predicción de hojas como de hélices, la cantidad de aciertos es alta en comparación con la cantidad de
predichos.
Índices
El ı́ndice Q se determino bajo la siguiente ecuación:
Qx =
N predicho
∗ 100
NObservado
(1)
Donde x representa {3, α, β o coil }.
De otro lado, el ı́ndice de calidad se determino por la siguiente ecuación:
100(N − total incorrecto)
(2)
N
n representa el porcentaje total por la secuencia de aminoácidos y también se puede determinar por el tipo de estructura secundaria.
Los ı́ndices calculados se observan en la siguiente tabla:
%n =
Método
QH
QS
QC
Q3
%nH
%nS
%nC
%N
Chou & Fasman
50
80
42
55
50
16
89
91
GOR IV
67
48
64
28
22
80
37
64
PHD
56
68
76
70
72
64
47
70
Con relación a los ı́ndices calculados se puede decir que el ı́ndice Q3 es mayor para el método de PHD y menor para el método
GOR IV. El ı́ndice de calidad refleja que el mejor método es sorpresivamente Chow & Fasman, sin embargo este valor aumenta
debido al porcentaje de coil ya que solo tuvo incorrectos 3 datos pero solamente predijo 14 Coil de los 33 posibles. Por lo tanto,
los datos de PHD resultan mas consecuente con los cálculos realizados. Resulta extraño que GOR tenga una baja predicción en
estructuras α Hélice, con un ı́ndice de calidad para estas estructuras de solo el 22 %.
i Mejor predictor Hélice: PHD
i Mejor predictor Hojas: C&F o GOR
i Mejor predictor Coil: PHD
i Mejor predictor en general: PHD
Teniendo en cuenta los resultados obtenidos, se puede inferir que para esta proteı́na estudiada los resultados de PHD son más
confiables aunque no son del todo exactos. El método GOR presenta una deficiencia en determinar las hélices para esta proteı́na,
entre tanto que el método de Chow & Fasman asigna gran cantidad de hélices y hojas y debido a eso tuvo para esta proteı́na buenos
resultados pero esto infiere en los resultados de estructuras coil y turn.
Por último, aunque los resultados para GOR en este caso no fueron los mejores, es claor que Chow & Fasman es uno de los
métodos más simples a la hora de predecir una estructura secundaria. Este podrı́a mejorar su predicción incluyendo la interacción
de los residuos vecinales, además de mejorar la descripción de las regiones de nucleación.
Para GOR se podrı́a plantear mejorar la descripción de hélices ya que fue el peor resultados, la forma de mejorarlo podrı́a ser incluir
datos de alineamiento de secuencias múltiples, es decir incorporar un programa que busque secuencias similares que GOR ya posea
en una base de datos y que pueda ayudar a determinar la estructura de diferentes zonas de la proteı́na fácilmente.
Una mejora en el estudio realizado serı́a incluir proteı́nas de diferentes tipos y con mayor tamaño, con el fin de observar si cambios
en la hidrofobicidad o en los vecinos afectan le rendimiento de los programas.
Page 5 of 5
Descargar