TÍTULO DEL PROYECTO: Predicción de la estructura secundaria de proteínas mediante autómatas celulares. CLASE DE PROYECTO: Investigación y Desarrollo DIRECTOR: José Santos Reyes (Despacho 403), santos@udc.es BREVE DESCRIPCIÓN: La determinación de la estructura de proteínas a partir de la secuencia primaria de aminoácidos, proveniente de la información genética en el ADN codificador, es de enorme importancia. La estructura secundaria de una proteína determina cómo se pliega la cadena de aminoácidos formando hélices u otras estructuras regulares. Estas estructuras regulares se pliegan finalmente en una estructura final o terciaria. Este proyecto se centra en la predicción de los elementos de la estructura secundaria a partir de la secuencia de aminoácidos de la cadena proteínica. La predicción se realizará con esquemas de autómatas celulares (AC), utilizados en el campo de vida artificial para el estudio del comportamiento emergente [6]. El plegado proteínico en los niveles secundario y terciario es un ejemplo de proceso dinámico y emergente. El AC actuará sobre cada aminoácido de la cadena proteínica, considerando una ventana de aminoácidos vecinos centrada en aquél al que se le aplica el AC. El AC actúa sobre todos los aminoácidos de la cadena de una proteína y se repite el procedimiento varias iteraciones en el tiempo. Los valores de determinados bits/posiciones de la iteración del AC se eligen para determinar las posibles estructuras secundarias. Se considerarán hélices (H), láminas beta (B) y restos (C). Para la obtención automática del AC se recurrirá a algoritmos evolutivos y, en concreto, se usará Evolución Diferencial (ED), como método robusto y con ventajas contrastadas respecto a otros métodos evolutivos [4][3][7]. El AC se evalúa sobre conjuntos de entrenamiento benchmark con cadenas de aminoácidos con estructura secundaria conocida, y esa evaluación determina un fitness que se retorna al método evolutivo de ED. En eses objetivos generales se experimentará en los siguientes aspectos: • Codificaciones binarias adecuadas para cada uno de los 20 aminoácidos. • Codificación genotípica de las reglas de los diferentes autómatas celulares. • Experimentación con diferentes vecindades en los ACs. • Experimentación con secuencias de benchmark: base de proteínas con el conjunto de entrenamiento Rost-Sander de 126 proteínas no homólogas [5] y el conjunto de entrenamiento CB 513 [1]. • Experimentación con los “parámetros Chou-Fasman” [1] que determinan la propensión de cada aminoácido a formar parte de cada posible estructura secundaria [1]. Extensión del modelo para incluir modelos neuronales sencillos que determinen las reglas del AC y, en este caso, la propensión del aminoácido central a formar una determinada estructura secundaria. • Definición de un módulo gráfico que muestre la evolución temporal del AC en las diferentes versiones, junto con un interfaz para determinar los parámetros definitorios del AC y método evolutivo. [1] Chou, P.Y. and Fasman, G.D. (1974), “Prediction of protein conformation”, Biochemistry 13:222-245. [1] Chopra, P. and Bender, A. (2006), “Evolved cellular automata for protein secondary structure prediction imitate the determinants for folding observed in nature”, In Silico Biology 7(1):87-93. [2] Cuff, J.A. and Barton, G.J. (1999), “Evaluation and improvement of multiple sequence methods for protein secondary structure prediction”, Proteins 34:508-519. [3] Novo, J., Santos, J. and Penedo, M.G. (2011), “Optimization of topological active deformable models with differential evolution”, Proc. ICANNGA 2011- International Conference on Adaptive and Natural Computing Algorithms, Ljubljana-Slovenia. [4] Price, K.V., Storn, R.M. and Lampinen, J.A. (2005), Differential evolution - A practical approach to global optimization, Springer-Verlag. [5] Rost, B. and Sander, C. (1993), “Prediction of secondary structure at better than 70% accuracy”, J. Mol. Biol. 232:584-599. [6] Santos, J. (2007), Vida Artificial. Realizaciones Computacionales. Servicio de Publicaciones Universidad de A Coruña. [7] Santos, J. and Diéguez, M. (2011), “Differential evolution for protein structure prediction using the HP model”, IWANN 2011, 4th. International Work-conference on the Interplay between Natural and Artificial Computation. Programación: C.