Aplicación de Redes Neuronales y Algoritmos Genéticos al Análisis y Clasificación de Proteínas en E. Coli y S. Cerevisiae (Resumen) En el ámbito de la biología molecular (BM) uno de los problemas relevantes es el análisis de las características funcionales de las proteínas. Típicamente estos análisis se llevan a cabo utilizando técnicas estadísticas clásicas en las cuales el investigador parte de consideraciones apriorísticas y luego, busca la validación de las mismas. En esta metodología existe la limitante sobre la complejidad de las hipótesis que el investigador es capaz de visualizar. En este sentido, dentro de la BM se ha trabajado en bases de datos (BDs) que atienden a diversas características proteómicas. Estas BDs consideran hipótesis de trabajo fijadas a priori, dependiendo del interés del investigador, y usando estadística clásica se han organizado diversas BDs de proteínas en Escherichia coli y Saccharomyces cerevisiae (entre otras muchas) que atienden a criterios convencionales y establecen ciertas jerarquías taxonómicas útiles para un objetivo determinado. Una alternativa que surge de la aplicación de las herramientas de la inteligencia artificial (IA) moderna es no asumir hipótesis iniciales, delegando su planteamiento a sistemas basados en dichas herramientas. Muy útil ha sido el uso de clasificadores basados en aprendizaje no supervisado (como las redes neuronales (RNs) de Kohonen entre otras). Por otro lado, la búsqueda de patrones complejos en las cadenas de aminoácidos en las proteínas, frecuentemente se ataca con métodos heurísticos. En este sentido, nuestro grupo ha demostrado que el problema de encontrar patrones arbitrariamente distribuidos en una cadena, es un problema de complejidad no polinomial y se han desarrollado algunos algoritmos que nos permiten encontrar dichos patrones con eficiencia para cadenas de longitud media. La importancia básica de este trabajo radica en: a) la aplicación de algunos métodos de inteligencia artificial a la proteómica, b) la automatización de los procesos de búsqueda de clases desconocidas y su análisis, c) La generalización de la metodología propuesta a otras especies y a otros tipos de moléculas. El objetivo de este trabajo es hacer una generalización de las clasificaciones existentes, en las cuales presumimos que las relaciones funcionales protéicas no necesariamente atienden a una jerarquía. En términos generales, creemos que corresponden más adecuadamente a redes semánticas (estructuras que codifican el conocimiento sobre objetos y propiedades de éstos). Se aplicarán dos tipos de RNs: a) Los mapas auto-organizados y b) Las redes de perceptrones. En el primer caso nos interesa su aplicación como clasificadores no supervisados en el sentido más amplio. Es decir, las redes deberán determinar las clases en las que se encuadran familias de proteínas así como el número de clases. Para ello aplicaremos métricas estudiadas en el desarrollo de un proyecto anterior (38153-A). En el segundo caso, su aplicación será como predictores: una vez determinadas las clases, deberemos ser capaces de indicar a qué clase corresponde una proteína desconocida. En ese contexto usaremos técnicas matemáticas de optimización basadas en algoritmos genéticos (AGs) que, en ambos casos han sido aplicadas con éxito. Por otra parte, en el referido proyecto, como se mencionó, se desarrollaron algoritmos de identificación de patrones complejos en cadenas arbitrarias. Aquí haremos una primera aplicación formal de dichos algoritmos en el campo de la BM identificando si existen patrones, atendiendo a la descripción de los aminoácidos que componen a las proteínas. Nuestra hipótesis es que una RN entrenada adecuadamente es capaz de encontrar clases lógicas dentro de un conjunto arbitrario de datos. Este entrenamiento es no supervisado y da origen a grupos de neuronas asociados entre si topológicamente. Estas clases son susceptibles de ser mapeadas a conjuntos de neuronas que representan clases de proteínas y que son estadísticamente independientes. Los miembros de estas clases pueden ser, entonces, analizados a nivel estructural para determinar las características (a nivel de aminoácidos; esta será parte de la investigación) que expliquen su agrupamiento. Una metodología complementaria consiste en analizar las proteínas para caracterizarlas a nivel de patrones constitutivos y solamente entonces buscar la definición de las clases. Ambos enfoques son posibles con nuestras herramientas y deberán ser mutuamente reforzados. Metodología 1) Se obtiene un conjunto significativo de proteínas de interés. Cada elemento del conjunto representa un objeto de interés en el espacio de observaciones. Cada objeto está definido por un vector en el espacio de características. 2) Se entrena una RN la cual genera un mapa que, por simplicidad y sin pérdida de generalidad, asumimos bidimensional. Cada neurona es similar a alguna o varias de sus vecinas en el mapa bidimensional. Un conjunto de neuronas cercanas define una clase en el espacio de características (que típicamente es de una dimensionalidad mucho mayor). En el caso que nos ocupa deberemos de discriminar qué características de las proteínas son relevantes. Dichas características definen la dimensionalidad del espacio de observaciones. 3) Se establece el número óptimo de clases. Esto se logra aplicando una métrica que refleja la pertinencia de la partición y un AG, el cual encuentra la asignación óptima de clases. Este procedimiento implica haber definido, como ya se dijo, una métrica que permita evaluar lo que significa la asignación óptima de clases. La definición de dicha métrica es un resultado importante de nuestra investigación previa. Sin embargo, se buscará establecer una métrica específica para la clasificación proteómica. 4) Se identifican las cadenas de aminoácidos de cada uno de los miembros de cada una de las clases. 5) Se analizan, una a una, las proteínas encontrando los patrones embebidos en las mismas que aparecen más veces. Cada clase se caracterizará por los patrones que aparezcan más frecuentemente en las proteínas. 6) Se buscan las correlaciones de las estructuras encontradas con las características funcionales de las proteínas a nivel de la dinámica celular. Entregables Los resultados de esta investigación son los siguientes: a) Un sistema de análisis de clasificación proteómica automática. b) Una métrica de clasificación de proteínas (véase (3) arriba). c) Un algoritmo genético aplicable a la clasificación. d) Varios AGs aplicados al entrenamiento de RNs. e) Una hipótesis general de clasificación aplicable a proteínas de E. coli y S. cerevisiae. f) 4 artículos en congresos nacionales. g) 4 artículos en congresos internacionales h) 4 artículos en revistas internacionales con arbitraje estricto i) 2 tesis de licenciatura j) 2 tesis de maestría k) 2 reportes doctorales l) 1 tesis de doctorado