Incorporaci´on de Anotaciones Genéticas en el Algoritmo de

Anuncio
Incorporación de Anotaciones Genéticas en el
Algoritmo de Agrupamiento MST-kNN
Daniel Pavez Sandoval
Egresado de Magı́ster en Ingenerı́a Informática
Egresado de Ingenierı́a Civil Infomática y
Licenciado en Ciencias de la Computación
Universidad de Santiago de Chile
Avenida Libertador Bernardo O’Higgins # 3363
E-mail: daniel.pavez@usach.cl
Resumen—Actualmente los experimentos relacionados a secuenciación genómica generan enormes volúmenes de información, cuyo estudio o análisis sin el apoyo de herramientas
informáticas es impracticable. La bioinformática nace por la
relación natural entre las necesidades de los biólogos y las
soluciones informáticas que facilitan el trabajo con grandes
volúmenes de datos, como por ejemplo el uso de algoritmos de
agrupamiento para establecer relaciones entre genes a partir
de la similitud de sus caracterı́sticas. El algoritmo MST-kNN
[10] permite relacionar genes de acuerdo a la correlación de
sus perfiles de expresión, por lo que surge la pregunta de
investigación relacionada a, de qué manera incorporar a dicho
algoritmo anotaciones biológicas de bases de datos de libre acceso,
para generar grupos de genes considerando tanto la similitud
de sus perfiles de expresión, como la coherencia biológica de
sus perfiles funcionales (descritos a través de los conjuntos de
anotaciones biológicas asociadas a ellos). La solución desarrollada
para responder a esa pregunta, se basa en el establecimiento
de relaciones entre los términos biológicos de Gene Ontology
a partir de la similitud semántica posible de calcular, dada
la estructura lógica de DAG en que el repositorio de datos
mantiene relacionado al conocimiento biológico entre sı́. La
facultad de relacionar un término biológico con otro, implica
poder relacionar a los genes entre sı́ a partir de los conjuntos de
términos que los describen, y por tanto generar una estructura
que represente qué tan similares (o distantes) son dos genes entre
sı́, a partir de sus perfiles funcionales, para dicha estructura
incorporarla a la que representa qué tan similares son en base
a la correlación de sus perfiles de expresión. La estructura que
nace de la incorporación de ambos tipos de datos, es sometida al
algoritmo de agrupamiento MST-kNN, el cual genera grupos de
genes similares tanto en base a su comportamiento, como a sus
funcionalidades, ambas caracterı́sticas posibles de medir con una
variación a los ı́ndices de validación propuestos en [4], lo que da
cuenta de que, comparativamente a los resultados generados sin la
incorporación de información, los grupos generados presentan un
mayor grado tanto de correlación de los perfiles de expresión de
los genes pertenecientes a un grupo, como de coherencia biológica,
lo que se traduce en la generación de grupos de genes que son
buenos candidatos a ser sometidos a análisis posteriores.
I.
I NTRODUCCI ÓN
Dadas las necesidades de los biológicos para el manejo
de grandes volúmenes de datos, nace la bioinformática como
la forma natural que ofrecen herramientas computacionales
de aportar al desarrollo y análisis de datos relacionados a
diferentes campos de la biologı́a. Una de las herramientas
utilizadas son los algoritmos de agrupamiento, los cuales
permiten relacionar datos entre sı́ de acuerdo a la similitud
o distancia existente entre ellos. El algoritmo MST-kNN [10]
es una alternativa basada en grafos de proximidad (y que por
tanto hace uso de su potencial) que permite relacionar datos
de expresión genética para establecer qué tan similares son un
conjunto de genes, a partir de la información relacionada a sus
perfiles de expresión.
Puesto que actualmente la mirada de la comunidad dedicada a la secuenciación genómica está puesta en las anotaciones biológicas, las cuales agregan capas de análisis a
interpretación a dichos estudios, es deseable que un algoritmo
como MST-kNN además de utilizar datos de expresión para
relacionar genes, utilice el conocimiento biológico externo de
bases de datos de libre acceso para que los grupos que se
formen tengan (además de la coherencia relacionada al comportamiento de los genes en condiciones similares) coherencia
biológica.
El estado del arte asociado al problema no es amplio, a
pesar del interés que despiertan las soluciones relacionadas
en el campo de la secuenciación genómica. Actualmente, los
trabajos expuestos en [2], [3] y [4] han planteado diferentes
enfoques de incorporación de anotaciones de GO a variados
algoritmos de agrupamiento, y por ende, con distinta calidad
en los resultados obtenidos, pero todos llegando a la misma
conclusión global: añadir anotaciones biológicas al proceso de
agrupamiento mejora la coherencia biológica de los grupos
que se obtienen, los cuales representan a los genes candidatos
a ser sometidos a análisis posteriores que permitirı́an ampliar
el conocimiento biológico de un área espécifica.
En el presente trabajo se expone una alternativa de incorporación de términos biológicos de la base de datos Gene
Ontology a través del uso distancias semánticas para calcular
la similitud entre dos términos u anotaciones biológicas de la
mencionada base de datos, y con ello establecer una relación
entre genes que considere tanto sus perfiles de expresión como
sus perfiles funcionales (conjunto de términos biológicos que
describen a un gen).
La solución es probada sobre el conjunto de datos de la
especie Yeast Saccharomyce Cerevisiae, y analizada a través
de dos ı́ndices de validación que permiten medir tanto la
correlación de los perfiles de expresión, como la coherencia
biológica de los grupos generados, entregando en ambos casos
resultados satisfactorios dejando de manifiesto, comparati-
vamente al agrupamiento que no hace uso de anotaciones
biológicas, que la incorporación de anotaciones biológicas al
algoritmo de agrupamiento MST-kNN permite la generación
de grupos de genes cuyos comportamientos bajo las mismas
condiciones experimentales estén altamente correlacionados, y
que además posean alta coherencia respecto de sus funciones
biológicas asociadas.
II.
M ARCO TE ÓRICO
Los conceptos teóricos que involucra el trabajo se relacionan con las áreas de la biologı́a, bioinformática e informática.
De la biologı́a, se utiliza el concepto de expresión genética,
lo que puede definirse como un conjunto de caracterı́sticas
cuantitativas que describen el comportamiento de un gen para
un conjunto de experimentos, lo que permite su asociación con
un conjunto de funciones especı́ficas. Cuando se confirma (a
través de experimentos y análisis) que una función biológica
está relacionada a un gen, pasa a ser una anotación o término
biológico asociado a él. Para este trabajo, al conjunto de
anotaciones biológicas de un gen, se le asigna el nombre
de perfil funcional. Experimentos como los de microarray
(que permiten identificar la expresión genética de múltiples
genes) generan grandes volúmenes de datos, los cuales para
ser analizados requieren de herramientas propias de la informática. La unión entre las necesidades de la biologı́a, y
las facultades de la informática para entregar soluciones, hace
natural el nacimiento de la bioinformática. Los conocimientos
informáticos involucrados en este trabajo, se relacionan a los
algoritmos de agrupamiento, los cuales permiten relacionar
datos de acuerdo a, por ejemplo, qué tan similares o distantes
pueden ser entre sı́.
En particular, para calcular la correlación entre perfiles de
expresión genética, se utilizan variaciones de la correlación
de Pearson, los cuales responden a una necesidad especı́fica
de un investigador, es decir, si éste ha de considerar que la
coexpresión entre dos genes está relacionado tanto a la sobreexpresión de los mismos, como a la infra-expresión, o si sólo se
ha de considerar la sobre-expresión como un comportamiento
correlacionado, mientras que la infra-expresión responda a
un comportamiento anti-correlacionado. El ı́ndice que permite
validar la calidad de un grupo de genes a partir de la correlación de sus perfiles de expresión, es también una variación
de la correlación de Pearson extraı́do de [4].
Referente a Gene Ontology, es un proyecto colaborativo
que con la cooperación de variadas entidades se mantiene
constante actualización de información relacionada a avances
en biologı́a. Especı́ficamente, Gene Ontology mantiene a los
términos biológicos (que están asociados a genes de variadas
especies) relacionados lógicamente en una estructura de DAG,
lo que permite su asociación entre sı́ a través de distancias
semánticas, las cuales utilizan el concepto de Ancestro Común
Mı́nimo (A.C.M.). Considerando que los datos a calcular su
similitud residen en una estructura lógica de DAG, el A.C.M.
corresponde al nodo más especı́fico (más alejado de la raı́z) que
es ancestro de ambos nodos en comparación, de manera que un
enfoque basado en las aristas básicamente calcula la cantidad
de aristas que hay entre los nodos en cuestión, y el A.C.M.,
mientras que el enfoque basado en los nodos utiliza el concepto
de Contenido de Información (C.I.), que corresponde al cálculo
del logartimo negativo de la probabilidad de aparición del
A.C.M. de los nodos en cuestión, dentro de la estructura de
DAG (tomando en consideración que un nodo N i está presente
en todos sus descendientes). En el presente trabajo se hizo
uso de variaciones de medidas de distancia tanto del enfoque
basado en los nodos ([7], [8] y [9]), como del enfoque basado
en las aristas ([5] y [6]). El ı́ndice de validación que permite
calcular la coherencia biológica de un grupo de genes, se
basa en el análisis de la cantidad de términos biológicos que
comparten y es una variación del ı́ndice propuesto en [4].
III.
R ESULTADOS
En sı́ntesis, los resultados se materializan en un conjunto de
parametrizaciones o mezcla de funciones y medidas de distancia que, a partir de datos de expresión genética e información
de anotaciones biológicas de un conjunto de genes, permiten la
representación matricial o de estructura de grafo, donde cada
nodo es un gen y cada arista una relación entre dos genes con
un peso igual a la distancia asociada a la correlación existente
entre los perfiles de expresión de dichos genes, incorporando
además el grado de similitud biológica de sus perfiles funcionales. La estructura generada es sometida al algoritmo de
agrupamiento basado en grafos MST-kNN, para de esa generar
grupos o conjuntos disjuntos de genes que estén relacionados
tanto por su comportamiento, como por su funcionalidad. La
solución es probada sobre el conjunto de datos de la especie
Yeast Saccharomyces Cerevisiae, extrayendo los datos de los
perfiles de expresión de [1], y la información de los perfiles
funcionales de Gene Ontology, y comparando el resultado de
la calidad del agrupamiento que no considera el conocimiento
biológico externo. La solución implementada obtuvo valores
de calidad superiores tanto en la correlación de los perfiles
de expresión de los grupos generados, como en la coherencia
biológica de los mismos, con respecto a su análogo que no hace
uso de anotaciones biológicas para generar el agrupamiento
entre genes.
IV.
T RABAJO RELACIONADO Y CONCLUSIONES
La conclusión general se resume en que es posible incorporar el conocimiento biológico externo al análisis de experimentos de secuenciación genómica a través de la relación entre
términos biológicos haciendo uso de las distancias semánticas
que los separan dentro de una representación de DAG, y que
dicha incorporación provee de resultados de mayor calidad
tanto en términos de la relación entre los genes basada en datos
que describen su comportamiento bajo las mismas condiciones
experimentales, como en relación a la información asociada
a sus funcionalidades. Como trabajo futuro, queda pendiente
el sometimiento de datos relacionados a la genómica del ser
humano a la solución generada (validada sobre el conjunto de
datos del Yeast Saccharomyces Cerevisiae), con la correspondiente interpretación a nivel biológico de los resultados. El
trabajo relacionado al desarrollo se encuentra en [10].
R EFERENCIAS
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
EISEN, M. B., SPELLMAN, P. T., BROWN, P. O., & BOTSTEIN,
D. (1998). Cluster analysis and display of genome-wide expression
patterns. En Proceedings of the National Academy of Sciences of the
United States of America, vol. 95, (pág. 14863-14868). Diciembre.
CHERNOMORETZ, A. (2010). Gene Ontology guided clustering of
gene expression profiles. En Comprendio en Conferencia ISCB Latin
America 2010 . Lunes 16 de Marzo. Montevideo, Uruguay.
MARAZIOTIS, A. I., DIMITRAKOPOULOS, G., & BEZERIANOS,
A. (2012). Gene Ontology Semi-supervised Possibilistic Clustering of
Gene Expression Data. En 7th Hellenic Conference on AI, SETN 2012.
Proceedings, vol. 7297, (pág. 262-269). Lamia, Greece: Springer-Verlag
Berlin Heidelberg, 1ra ed. DOI: 10.1007/978-3-642-30448-4 33; Print
ISBN: 978-3-642-30447-7; Online ISBN: 978-3-642-30448-4; Series
ISSN: 0302-9743; 28-31 de Mayo.
VERBANCK, M., LÊ, S., & PAGÈS, J. (2013). A new unsupervised
gene clustering algorithm based on the integration of biological
knowledge into expression data. En BMC Bioinformatics, vol. 14,
cap. 3, (p. 42). ISSN: 1471-2105. DOI:10.1186/1471-2105-14-42. 7 de
Febrero.
LIN, D. (1998). An Information-Theoretic Definition of Similarity.
En ICML ’98 Proceedings of the Fifteenth International Conference on
Machine Learning, (pág. 296-304). San Francisco, CA, USA: Morgan
c
Kaufmann Publishers Inc. 1998.
ISBN: 1-55860-556-8.
JIANG, J. J., & CONRATH, D. W. (1997). Semantic Similarity Based
on Corpus Statistics and Lexical Taxonomy. En Proceedings of
the International Conference on Research in Computational Linguistics
ROCLING X, (pág. 19-33). Taiwan. 20 de Septiembre.
WU, Z., & PALMER, M. (1994). Verb Semantics And Lexical
Selection. En ACL ’94 Proceedings of the 32nd annual meeting on
Association for Computational Linguistics, (pág. 133-138). Stroudsburg, PA, USA: Association for Computational Linguistics. DOI:
10.3115/981732.981751.
SLIMANI, T., YAGHLANEY, B. B., & MELLOULI, K. (2008). A New
Similarity Measure based on Edge Counting. En Proceedings of world
academy of science, engineering and technology, vol. 17.
LEACOCK, C., & CHODOROW, M. (1998). Combining Local Context
and WordNet Similarity for Word Sense Identification. En WordNet:
An Electronic Lexical Database (Language, Speech, and Communication), (pág. 265-283). MIT Press. Cambridge, Massachusetts. London,
c
England: MIT Press. Christiane Fellbaum. 1998
Massachusetts Institute of Technology, 1ra ed. ISBN: 0-262-06197-X; Mayo, 1998.
INOSTROZA-PONTA, M. (2008). An Integrated and Scalable Approach Based on Combinatorial Optimization Techniques for the
Analysis of Microarray Data. School of Electrical Engineering and
Computer Science. Thesis (Ph.D.), University of Newcastle. Australia.
Descargar