Incorporación de Anotaciones Genéticas en el Algoritmo de Agrupamiento MST-kNN Daniel Pavez Sandoval Egresado de Magı́ster en Ingenerı́a Informática Egresado de Ingenierı́a Civil Infomática y Licenciado en Ciencias de la Computación Universidad de Santiago de Chile Avenida Libertador Bernardo O’Higgins # 3363 E-mail: daniel.pavez@usach.cl Resumen—Actualmente los experimentos relacionados a secuenciación genómica generan enormes volúmenes de información, cuyo estudio o análisis sin el apoyo de herramientas informáticas es impracticable. La bioinformática nace por la relación natural entre las necesidades de los biólogos y las soluciones informáticas que facilitan el trabajo con grandes volúmenes de datos, como por ejemplo el uso de algoritmos de agrupamiento para establecer relaciones entre genes a partir de la similitud de sus caracterı́sticas. El algoritmo MST-kNN [10] permite relacionar genes de acuerdo a la correlación de sus perfiles de expresión, por lo que surge la pregunta de investigación relacionada a, de qué manera incorporar a dicho algoritmo anotaciones biológicas de bases de datos de libre acceso, para generar grupos de genes considerando tanto la similitud de sus perfiles de expresión, como la coherencia biológica de sus perfiles funcionales (descritos a través de los conjuntos de anotaciones biológicas asociadas a ellos). La solución desarrollada para responder a esa pregunta, se basa en el establecimiento de relaciones entre los términos biológicos de Gene Ontology a partir de la similitud semántica posible de calcular, dada la estructura lógica de DAG en que el repositorio de datos mantiene relacionado al conocimiento biológico entre sı́. La facultad de relacionar un término biológico con otro, implica poder relacionar a los genes entre sı́ a partir de los conjuntos de términos que los describen, y por tanto generar una estructura que represente qué tan similares (o distantes) son dos genes entre sı́, a partir de sus perfiles funcionales, para dicha estructura incorporarla a la que representa qué tan similares son en base a la correlación de sus perfiles de expresión. La estructura que nace de la incorporación de ambos tipos de datos, es sometida al algoritmo de agrupamiento MST-kNN, el cual genera grupos de genes similares tanto en base a su comportamiento, como a sus funcionalidades, ambas caracterı́sticas posibles de medir con una variación a los ı́ndices de validación propuestos en [4], lo que da cuenta de que, comparativamente a los resultados generados sin la incorporación de información, los grupos generados presentan un mayor grado tanto de correlación de los perfiles de expresión de los genes pertenecientes a un grupo, como de coherencia biológica, lo que se traduce en la generación de grupos de genes que son buenos candidatos a ser sometidos a análisis posteriores. I. I NTRODUCCI ÓN Dadas las necesidades de los biológicos para el manejo de grandes volúmenes de datos, nace la bioinformática como la forma natural que ofrecen herramientas computacionales de aportar al desarrollo y análisis de datos relacionados a diferentes campos de la biologı́a. Una de las herramientas utilizadas son los algoritmos de agrupamiento, los cuales permiten relacionar datos entre sı́ de acuerdo a la similitud o distancia existente entre ellos. El algoritmo MST-kNN [10] es una alternativa basada en grafos de proximidad (y que por tanto hace uso de su potencial) que permite relacionar datos de expresión genética para establecer qué tan similares son un conjunto de genes, a partir de la información relacionada a sus perfiles de expresión. Puesto que actualmente la mirada de la comunidad dedicada a la secuenciación genómica está puesta en las anotaciones biológicas, las cuales agregan capas de análisis a interpretación a dichos estudios, es deseable que un algoritmo como MST-kNN además de utilizar datos de expresión para relacionar genes, utilice el conocimiento biológico externo de bases de datos de libre acceso para que los grupos que se formen tengan (además de la coherencia relacionada al comportamiento de los genes en condiciones similares) coherencia biológica. El estado del arte asociado al problema no es amplio, a pesar del interés que despiertan las soluciones relacionadas en el campo de la secuenciación genómica. Actualmente, los trabajos expuestos en [2], [3] y [4] han planteado diferentes enfoques de incorporación de anotaciones de GO a variados algoritmos de agrupamiento, y por ende, con distinta calidad en los resultados obtenidos, pero todos llegando a la misma conclusión global: añadir anotaciones biológicas al proceso de agrupamiento mejora la coherencia biológica de los grupos que se obtienen, los cuales representan a los genes candidatos a ser sometidos a análisis posteriores que permitirı́an ampliar el conocimiento biológico de un área espécifica. En el presente trabajo se expone una alternativa de incorporación de términos biológicos de la base de datos Gene Ontology a través del uso distancias semánticas para calcular la similitud entre dos términos u anotaciones biológicas de la mencionada base de datos, y con ello establecer una relación entre genes que considere tanto sus perfiles de expresión como sus perfiles funcionales (conjunto de términos biológicos que describen a un gen). La solución es probada sobre el conjunto de datos de la especie Yeast Saccharomyce Cerevisiae, y analizada a través de dos ı́ndices de validación que permiten medir tanto la correlación de los perfiles de expresión, como la coherencia biológica de los grupos generados, entregando en ambos casos resultados satisfactorios dejando de manifiesto, comparati- vamente al agrupamiento que no hace uso de anotaciones biológicas, que la incorporación de anotaciones biológicas al algoritmo de agrupamiento MST-kNN permite la generación de grupos de genes cuyos comportamientos bajo las mismas condiciones experimentales estén altamente correlacionados, y que además posean alta coherencia respecto de sus funciones biológicas asociadas. II. M ARCO TE ÓRICO Los conceptos teóricos que involucra el trabajo se relacionan con las áreas de la biologı́a, bioinformática e informática. De la biologı́a, se utiliza el concepto de expresión genética, lo que puede definirse como un conjunto de caracterı́sticas cuantitativas que describen el comportamiento de un gen para un conjunto de experimentos, lo que permite su asociación con un conjunto de funciones especı́ficas. Cuando se confirma (a través de experimentos y análisis) que una función biológica está relacionada a un gen, pasa a ser una anotación o término biológico asociado a él. Para este trabajo, al conjunto de anotaciones biológicas de un gen, se le asigna el nombre de perfil funcional. Experimentos como los de microarray (que permiten identificar la expresión genética de múltiples genes) generan grandes volúmenes de datos, los cuales para ser analizados requieren de herramientas propias de la informática. La unión entre las necesidades de la biologı́a, y las facultades de la informática para entregar soluciones, hace natural el nacimiento de la bioinformática. Los conocimientos informáticos involucrados en este trabajo, se relacionan a los algoritmos de agrupamiento, los cuales permiten relacionar datos de acuerdo a, por ejemplo, qué tan similares o distantes pueden ser entre sı́. En particular, para calcular la correlación entre perfiles de expresión genética, se utilizan variaciones de la correlación de Pearson, los cuales responden a una necesidad especı́fica de un investigador, es decir, si éste ha de considerar que la coexpresión entre dos genes está relacionado tanto a la sobreexpresión de los mismos, como a la infra-expresión, o si sólo se ha de considerar la sobre-expresión como un comportamiento correlacionado, mientras que la infra-expresión responda a un comportamiento anti-correlacionado. El ı́ndice que permite validar la calidad de un grupo de genes a partir de la correlación de sus perfiles de expresión, es también una variación de la correlación de Pearson extraı́do de [4]. Referente a Gene Ontology, es un proyecto colaborativo que con la cooperación de variadas entidades se mantiene constante actualización de información relacionada a avances en biologı́a. Especı́ficamente, Gene Ontology mantiene a los términos biológicos (que están asociados a genes de variadas especies) relacionados lógicamente en una estructura de DAG, lo que permite su asociación entre sı́ a través de distancias semánticas, las cuales utilizan el concepto de Ancestro Común Mı́nimo (A.C.M.). Considerando que los datos a calcular su similitud residen en una estructura lógica de DAG, el A.C.M. corresponde al nodo más especı́fico (más alejado de la raı́z) que es ancestro de ambos nodos en comparación, de manera que un enfoque basado en las aristas básicamente calcula la cantidad de aristas que hay entre los nodos en cuestión, y el A.C.M., mientras que el enfoque basado en los nodos utiliza el concepto de Contenido de Información (C.I.), que corresponde al cálculo del logartimo negativo de la probabilidad de aparición del A.C.M. de los nodos en cuestión, dentro de la estructura de DAG (tomando en consideración que un nodo N i está presente en todos sus descendientes). En el presente trabajo se hizo uso de variaciones de medidas de distancia tanto del enfoque basado en los nodos ([7], [8] y [9]), como del enfoque basado en las aristas ([5] y [6]). El ı́ndice de validación que permite calcular la coherencia biológica de un grupo de genes, se basa en el análisis de la cantidad de términos biológicos que comparten y es una variación del ı́ndice propuesto en [4]. III. R ESULTADOS En sı́ntesis, los resultados se materializan en un conjunto de parametrizaciones o mezcla de funciones y medidas de distancia que, a partir de datos de expresión genética e información de anotaciones biológicas de un conjunto de genes, permiten la representación matricial o de estructura de grafo, donde cada nodo es un gen y cada arista una relación entre dos genes con un peso igual a la distancia asociada a la correlación existente entre los perfiles de expresión de dichos genes, incorporando además el grado de similitud biológica de sus perfiles funcionales. La estructura generada es sometida al algoritmo de agrupamiento basado en grafos MST-kNN, para de esa generar grupos o conjuntos disjuntos de genes que estén relacionados tanto por su comportamiento, como por su funcionalidad. La solución es probada sobre el conjunto de datos de la especie Yeast Saccharomyces Cerevisiae, extrayendo los datos de los perfiles de expresión de [1], y la información de los perfiles funcionales de Gene Ontology, y comparando el resultado de la calidad del agrupamiento que no considera el conocimiento biológico externo. La solución implementada obtuvo valores de calidad superiores tanto en la correlación de los perfiles de expresión de los grupos generados, como en la coherencia biológica de los mismos, con respecto a su análogo que no hace uso de anotaciones biológicas para generar el agrupamiento entre genes. IV. T RABAJO RELACIONADO Y CONCLUSIONES La conclusión general se resume en que es posible incorporar el conocimiento biológico externo al análisis de experimentos de secuenciación genómica a través de la relación entre términos biológicos haciendo uso de las distancias semánticas que los separan dentro de una representación de DAG, y que dicha incorporación provee de resultados de mayor calidad tanto en términos de la relación entre los genes basada en datos que describen su comportamiento bajo las mismas condiciones experimentales, como en relación a la información asociada a sus funcionalidades. Como trabajo futuro, queda pendiente el sometimiento de datos relacionados a la genómica del ser humano a la solución generada (validada sobre el conjunto de datos del Yeast Saccharomyces Cerevisiae), con la correspondiente interpretación a nivel biológico de los resultados. El trabajo relacionado al desarrollo se encuentra en [10]. R EFERENCIAS [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] EISEN, M. B., SPELLMAN, P. T., BROWN, P. O., & BOTSTEIN, D. (1998). Cluster analysis and display of genome-wide expression patterns. En Proceedings of the National Academy of Sciences of the United States of America, vol. 95, (pág. 14863-14868). Diciembre. CHERNOMORETZ, A. (2010). Gene Ontology guided clustering of gene expression profiles. En Comprendio en Conferencia ISCB Latin America 2010 . Lunes 16 de Marzo. Montevideo, Uruguay. MARAZIOTIS, A. I., DIMITRAKOPOULOS, G., & BEZERIANOS, A. (2012). Gene Ontology Semi-supervised Possibilistic Clustering of Gene Expression Data. En 7th Hellenic Conference on AI, SETN 2012. Proceedings, vol. 7297, (pág. 262-269). Lamia, Greece: Springer-Verlag Berlin Heidelberg, 1ra ed. DOI: 10.1007/978-3-642-30448-4 33; Print ISBN: 978-3-642-30447-7; Online ISBN: 978-3-642-30448-4; Series ISSN: 0302-9743; 28-31 de Mayo. VERBANCK, M., LÊ, S., & PAGÈS, J. (2013). A new unsupervised gene clustering algorithm based on the integration of biological knowledge into expression data. En BMC Bioinformatics, vol. 14, cap. 3, (p. 42). ISSN: 1471-2105. DOI:10.1186/1471-2105-14-42. 7 de Febrero. LIN, D. (1998). An Information-Theoretic Definition of Similarity. En ICML ’98 Proceedings of the Fifteenth International Conference on Machine Learning, (pág. 296-304). San Francisco, CA, USA: Morgan c Kaufmann Publishers Inc. 1998. ISBN: 1-55860-556-8. JIANG, J. J., & CONRATH, D. W. (1997). Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy. En Proceedings of the International Conference on Research in Computational Linguistics ROCLING X, (pág. 19-33). Taiwan. 20 de Septiembre. WU, Z., & PALMER, M. (1994). Verb Semantics And Lexical Selection. En ACL ’94 Proceedings of the 32nd annual meeting on Association for Computational Linguistics, (pág. 133-138). Stroudsburg, PA, USA: Association for Computational Linguistics. DOI: 10.3115/981732.981751. SLIMANI, T., YAGHLANEY, B. B., & MELLOULI, K. (2008). A New Similarity Measure based on Edge Counting. En Proceedings of world academy of science, engineering and technology, vol. 17. LEACOCK, C., & CHODOROW, M. (1998). Combining Local Context and WordNet Similarity for Word Sense Identification. En WordNet: An Electronic Lexical Database (Language, Speech, and Communication), (pág. 265-283). MIT Press. Cambridge, Massachusetts. London, c England: MIT Press. Christiane Fellbaum. 1998 Massachusetts Institute of Technology, 1ra ed. ISBN: 0-262-06197-X; Mayo, 1998. INOSTROZA-PONTA, M. (2008). An Integrated and Scalable Approach Based on Combinatorial Optimization Techniques for the Analysis of Microarray Data. School of Electrical Engineering and Computer Science. Thesis (Ph.D.), University of Newcastle. Australia.