Aplicación de Redes Neuronales y Algoritmos Genéticos al Análisis y... Proteínas en E. Coli y S. Cerevisiae (Resumen)

Anuncio
Aplicación de Redes Neuronales y Algoritmos Genéticos al Análisis y Clasificación de
Proteínas en E. Coli y S. Cerevisiae (Resumen)
En el ámbito de la biología molecular (BM) uno de los problemas relevantes es el análisis de las
características funcionales de las proteínas. Típicamente estos análisis se llevan a cabo utilizando
técnicas estadísticas clásicas en las cuales el investigador parte de consideraciones apriorísticas y
luego, busca la validación de las mismas. En esta metodología existe la limitante sobre la
complejidad de las hipótesis que el investigador es capaz de visualizar. En este sentido, dentro de
la BM se ha trabajado en bases de datos (BDs) que atienden a diversas características
proteómicas. Estas BDs consideran hipótesis de trabajo fijadas a priori, dependiendo del interés del
investigador, y usando estadística clásica se han organizado diversas BDs de proteínas en
Escherichia coli y Saccharomyces cerevisiae (entre otras muchas) que atienden a criterios
convencionales y establecen ciertas jerarquías taxonómicas útiles para un objetivo determinado.
Una alternativa que surge de la aplicación de las herramientas de la inteligencia artificial (IA)
moderna es no asumir hipótesis iniciales, delegando su planteamiento a sistemas basados en
dichas herramientas. Muy útil ha sido el uso de clasificadores basados en aprendizaje no
supervisado (como las redes neuronales (RNs) de Kohonen entre otras). Por otro lado, la
búsqueda de patrones complejos en las cadenas de aminoácidos en las proteínas, frecuentemente
se ataca con métodos heurísticos. En este sentido, nuestro grupo ha demostrado que el problema
de encontrar patrones arbitrariamente distribuidos en una cadena, es un problema de complejidad
no polinomial y se han desarrollado algunos algoritmos que nos permiten encontrar dichos
patrones con eficiencia para cadenas de longitud media.
La importancia básica de este trabajo radica en:
a) la aplicación de algunos métodos de inteligencia artificial a la proteómica,
b) la automatización de los procesos de búsqueda de clases desconocidas y su análisis,
c) La generalización de la metodología propuesta a otras especies y a otros tipos de moléculas.
El objetivo de este trabajo es hacer una generalización de las clasificaciones existentes, en las
cuales presumimos que las relaciones funcionales protéicas no necesariamente atienden a una
jerarquía. En términos generales, creemos que corresponden más adecuadamente a redes
semánticas (estructuras que codifican el conocimiento sobre objetos y propiedades de éstos). Se
aplicarán dos tipos de RNs: a) Los mapas auto-organizados y b) Las redes de perceptrones. En el
primer caso nos interesa su aplicación como clasificadores no supervisados en el sentido más
amplio. Es decir, las redes deberán determinar las clases en las que se encuadran familias de
proteínas así como el número de clases. Para ello aplicaremos métricas estudiadas en el desarrollo
de un proyecto anterior (38153-A). En el segundo caso, su aplicación será como predictores: una
vez determinadas las clases, deberemos ser capaces de indicar a qué clase corresponde una
proteína desconocida. En ese contexto usaremos técnicas matemáticas de optimización basadas
en algoritmos genéticos (AGs) que, en ambos casos han sido aplicadas con éxito. Por otra parte,
en el referido proyecto, como se mencionó, se desarrollaron algoritmos de identificación de
patrones complejos en cadenas arbitrarias. Aquí haremos una primera aplicación formal de dichos
algoritmos en el campo de la BM identificando si existen patrones, atendiendo a la descripción de
los aminoácidos que componen a las proteínas.
Nuestra hipótesis es que una RN entrenada adecuadamente es capaz de encontrar clases lógicas
dentro de un conjunto arbitrario de datos. Este entrenamiento es no supervisado y da origen a
grupos de neuronas asociados entre si topológicamente. Estas clases son susceptibles de ser
mapeadas a conjuntos de neuronas que representan clases de proteínas y que son
estadísticamente independientes. Los miembros de estas clases pueden ser, entonces, analizados
a nivel estructural para determinar las características (a nivel de aminoácidos; esta será parte de la
investigación) que expliquen su agrupamiento. Una metodología complementaria consiste en
analizar las proteínas para caracterizarlas a nivel de patrones constitutivos y solamente entonces
buscar la definición de las clases. Ambos enfoques son posibles con nuestras herramientas y
deberán ser mutuamente reforzados.
Metodología
1) Se obtiene un conjunto significativo de proteínas de interés. Cada elemento del conjunto
representa un objeto de interés en el espacio de observaciones. Cada objeto está definido por un
vector en el espacio de características.
2) Se entrena una RN la cual genera un mapa que, por simplicidad y sin pérdida de generalidad,
asumimos bidimensional. Cada neurona es similar a alguna o varias de sus vecinas en el mapa
bidimensional. Un conjunto de neuronas cercanas define una clase en el espacio de características
(que típicamente es de una dimensionalidad mucho mayor). En el caso que nos ocupa deberemos
de discriminar qué características de las proteínas son relevantes. Dichas características definen la
dimensionalidad del espacio de observaciones.
3) Se establece el número óptimo de clases. Esto se logra aplicando una métrica que refleja la
pertinencia de la partición y un AG, el cual encuentra la asignación óptima de clases. Este
procedimiento implica haber definido, como ya se dijo, una métrica que permita evaluar lo que
significa la asignación óptima de clases. La definición de dicha métrica es un resultado importante
de nuestra investigación previa. Sin embargo, se buscará establecer una métrica específica para la
clasificación proteómica.
4) Se identifican las cadenas de aminoácidos de cada uno de los miembros de cada una de las
clases.
5) Se analizan, una a una, las proteínas encontrando los patrones embebidos en las mismas que
aparecen más veces. Cada clase se caracterizará por los patrones que aparezcan más
frecuentemente en las proteínas.
6) Se buscan las correlaciones de las estructuras encontradas con las características funcionales
de las proteínas a nivel de la dinámica celular.
Entregables
Los resultados de esta investigación son los siguientes:
a) Un sistema de análisis de clasificación proteómica automática.
b) Una métrica de clasificación de proteínas (véase (3) arriba).
c) Un algoritmo genético aplicable a la clasificación.
d) Varios AGs aplicados al entrenamiento de RNs.
e) Una hipótesis general de clasificación aplicable a proteínas de E. coli y S. cerevisiae.
f) 4 artículos en congresos nacionales.
g) 4 artículos en congresos internacionales
h) 4 artículos en revistas internacionales con arbitraje estricto
i) 2 tesis de licenciatura
j) 2 tesis de maestría
k) 2 reportes doctorales
l) 1 tesis de doctorado
Descargar