Context Expansion for Domain-Specific Word Sense Disambiguation F. Rojas, I. Lopez, D. Pinto and V. J. Sosa Abstract—1Two novel techniques based on term expansion for domain-specific Word Sense Disambiguation are presented in this paper. A list of terms correlated with the ambiguous word is obtained by means of correlation methods such as Pointwise Mutual Information and Chi-square. The list of correlated terms is used for expanding the context in which an ambiguous word occurs, thus leading to a better number of terms which may be further used for determining the correct sense of the target ambiguous word. The proposed method has been tested in domain-specific corpora (Finance and Sports) and in one balanced corpus, the British National Corpus (BNC). The obtained results for domain-specific corpora are competitive (Finance) and ever better (Sports and BNC) than those reported in previous works. Keywords— Word sense disambiguation, specific domain, synset, WordNet, context expansion I. INTRODUCCIÓN D ESAMBIGUACIÓN del sentido de la palabra (DSP) es una tarea abordada desde hace varias décadas en el área de Lingüística Computacional (LC). DSP consiste en asignar el sentido correcto a una palabra ambigua considerando el contexto en el cual ocurre. De acuerdo con el Semeval [1], DSP se divide en dos tipos: muestra léxica (lexical sample) y todas las palabras (all-words), la primera consiste en seleccionar el sentido correcto para una palabra ambigua en una frase; la segunda trata de desambiguar todas las palabras de un texto. Se han propuesto diferentes enfoques para resolver la tarea genérica de DSP (supervisado, no supervisado, semi-supervisado, entre otros) [2, 3]. Por otro lado, DSP aplicado a dominios diferentes (cuando el dominio fuente y el objetivo son distintos), representa grandes desafíos, por ejemplo 1) resultados experimentales han mostrado una caída en el desempeño cuando el conjunto de texto de entrenamiento y de prueba pertenecen a dominios diferentes [4]; 2) la necesidad de reentrenar el sistema de DSP en cada nuevo dominio. En consecuencia se han propuesto métodos diferentes con el objetivo de resolver tales desafíos, como F. Rojas, Universidad Politécnica Metropolitana de Puebla, México, frojas@tamps.cinvestav.mx I. Lopez, Cinvestav Tamaulipas, Victoria, ilopez@tamps.cinvestav.mx D. Pinto, Benemérita Universidad Autónoma de Puebla, Puebla, dpinto@cs.buap.mx V. J. Sosa, Cinvestav - Tamaulipas, Victoria, vjsosa@tamps.cinvestax.mx Puebla, México, México, México, adquisición del sentido predominante [5, 6, 7]; enfoques semisupervisados [8, 9] y basados en conocimiento [10, 11]. En este artículo presentamos un enfoque de DSP de muestra léxica basado en conocimiento para desambiguar instancias en conjuntos de textos en inglés de diferente dominio. El método recupera un conjunto de términos en una ventana de tamaño específico. Estos términos son usados para expandir el contexto donde se encuentra la palabra ambigua. Se proponen dos técnicas de expansión de términos para formar clases de instancias: 1) Expansión de Términos Supervisada (ETS) y 2) Expansión de Términos No Supervisada (ETNS). Una vez formadas las clases se aplican las técnicas Pointwise Mutual Information (PMI) [12] y Chi-cuadrada ( ) [13] para medir el grado de correlación entre pares de términos. Los términos recuperados son usados para expandir el contexto en cual ocurre una instancia ambigua. El objetivo de las técnicas propuestas es tener mayor evidencia contextual. De esta manera, no sólo consideramos las palabras en el contexto de una instancia ambigua, sino que también, palabras en todo el conjunto de texto de prueba donde se encuentra la palabra a desambiguar. La técnica de expansión de términos ha sido aplicada en el Procesamiento del Lenguaje Natural (PLN) para diversas tareas, por ejemplo, en Recuperación de Información (RI) para expandir la consulta dada por el usuario, en inducción del sentido de la palabra, en DSP, entre otras. Usualmente este proceso es llevado a cabo mediante el uso de un tesauro, una base de datos léxica u ontologías, etc. Por ejemplo, Tuominen et al. [14] usaron un método basado en ontologías para llevar a cabo el proceso de expansión de consultas y mejorar los resultados de un sistema de RI. En la literatura se han reportado varias propuestas de expansión de términos en DSP [15, 16, 17, 18]. El enfoque que se propone en este artículo está relacionado con el trabajo presentado por Pinto et al. [18], quienes propusieron un enfoque no supervisado de expansión de términos para la tarea Word Sense Induction and Discrimination System, presentado en el SemEval 2007 (International Workshop on Semantic Evaluation). En este sentido consideramos que el uso de términos recuperados desde el conjunto de texto de prueba puede ser de alto beneficio para la tarea de DSP en dominios específicos. De esta manera contribuimos con dos técnicas para expandir el contexto de instancias ambiguas. Los experimentos realizados sobre conjuntos de textos de diferente dominio muestran que ETS obtiene mejores resultados en el dominio de Deportes y en el British National Corpus (BNC). En el dominio de Finanzas se obtuvieron resultados competitivos de acuerdo con lo reportado en la literatura. El resto del artículo está estructurado de la siguiente manera: en la Sección II se describe el trabajo relacionado con DSP en dominios específicos. La Sección III muestra los detalles de las técnicas de expansión de términos. La Sección IV describe los conjuntos de textos de prueba usados en los experimentos así como los resultados obtenidos. En la Sección V se discuten los experimentos llevados a cabo. Finalmente las conclusiones y trabajo futuro se describen en la Sección VI. II. TRABAJO RELACIONADO En la literatura se ha reportado un gran número de enfoques de DSP [2, 3], estos enfoques principalmente abordan el problema genérico de desambiguación. Sin embargo, el interés en dominios específicos se ha incrementado, dado que un sistema de desambiguación no garantiza su desempeño cuando se mueve de un dominio a otro. Es decir, cuando el conjunto de texto de evaluación es diferente al conjunto de texto de entrenamiento [4, 19]. En este contexto Chan y Ng [19] abordan el problema usando un algoritmo de aprendizaje supervisado Näive Bayes. Los autores agregaron ejemplos de entrenamiento desde el nuevo dominio como datos adicionales al sistema de DSP. De esta manera mostraron que el uso del sentido predominante del dominio objetivo mejoró el proceso de adaptación al nuevo dominio. Agirre y de Lacalle [20] propusieron un enfoque semi-supervisado de DSP, usaron descomposición de valores singulares y datos no etiquetados para obtener una mejor adaptación desde un conjunto de texto de propósito general (BNC) a un conjunto de texto de dominio específico (Deportes o Finanzas). De manera similar Guo et al. [8] presentaron un enfoque diferente en relación a trabajos previos de adaptación de dominio [19, 20], afirmaban que el mismo modelo era usado para desambiguar todas las palabras, a pesar de la diferencia existente entre ellas. Para mejorar el problema de adaptación de dominio construyeron un conjunto de modelos candidatos para cada palabra ambigua. El modelo a usar era seleccionado automáticamente desde el conjunto de modelos candidatos. Navigli et al. [10] propusieron un algoritmo para ponderar acepciones de la palabra a desambiguar, para ello recuperaron términos relevantes desde texto de dominio específico. Los términos relevantes fueron usados para inicializar un randow walk sobre el grafo de WordNet. De esta manera construyeron un modelo semántico para cada dominio. Los modelos semánticos fueron aplicados en categorización de textos y DSP en dominios específicos. Otro enfoque aplicado a DSP en diferentes dominios fue presentado por Koeling et al. [5]. En dicho enfoque se construye un tesauro desde un conjunto de texto de dominio específico usando el método de Lin [21]. El tesauro fue usado para recuperar los primeros top-k vecinos más cercanos para cada palabra ambigua; posteriormente fue usada una medida de similitud semántica implementada sobre WordNet para comparar cada acepción de la palabra vecina con cada acepción de la palabra a desambiguar. La acepción con el mejor puntaje era seleccionada para desambiguar cada palabra. Es importante indicar que el trabajo mencionado no lleva a cabo una desambiguación contextual. Por otro lado, varios trabajos han sido reportados en la literatura para enfrentar el problema de escasez de datos, es decir, cuando las características contextuales no son suficientes para DSP. Por ejemplo Tsao et al. [15] llevaron a cabo un proceso para expandir el contexto de instancias ambiguas. Las características expandidas fueron extraídas desde el conjunto de texto de prueba y WordNet para mejorar los resultados de un sistema de DSP, usando un algoritmo de aprendizaje supervisado Näive Bayes. Asimismo Tacoa et al. [16] evaluaron una técnica de expansión de términos en un sistema de DSP supervisado. Las características expandidas fueron recuperadas desde un tesauro de acuerdo a su relación de información mutua. Banerje y Pedersen [17] presentaron una modificación del algoritmo de Lesk [22], para ello extendieron las glosas de un sentido dado apoyándose en la jerarquía de WordNet, de esta manera tomaban en cuenta hiperónimos, hipónimos, holónimos, etc., y sus definiciones asociadas para construir un contexto más extenso para el significado de la palabra de interés. Pinto et al. [18] presentaron un enfoque para mejorar la usabilidad de un conjunto de texto de tamaño limitado a través de la expansión de términos. Esta técnica involucraba una lista de palabras de co-ocurrencia de términos basada en PMI. La lista de términos fue usada para expandir palabras en el vector de características. Posteriormente aplicaron un algoritmo de agrupación para inducir los sentidos de una palabra ambigua. La propuesta que se presenta en este artículo es una extensión del artículo presentado por Rojas-Lopez et al. [23], en el cual el enfoque de DSP, a diferencia de lo reportado en la literatura, recupera términos relacionados con la palabra a desambiguar usando el conjunto de texto de prueba. La extensión del trabajo consiste en la integración de las técnicas a la propuesta antes citada, lo cual inicialmente no PMI y se había contemplado. Con dicha integración se mejora la recuperación y ponderación de términos. III. EXPANSIÓN DE TÉRMINOS Es de gran beneficio expandir el contexto de la palabra ambigua con el objetivo de tener mayor evidencia contextual, de tal manera que se mejore la afectividad de la acepción seleccionada para una palabra ambigua. Es de gran beneficio expandir el contexto de la palabra ambigua con el objetivo de tener mayor evidencia contextual, de tal manera que se mejore la afectividad de la acepción seleccionada para una palabra ambigua. En este artículo se implementan dos técnicas para expandir el contexto donde ocurre la palabra a desambiguar. Con las técnicas se agregan términos relacionados a cada instancia de una palabra ambigua mediante expansión de términos supervisada y no supervisada. Tal técnica consiste en medir el grado de correlación entre cada instancia de una palabra ambigua y cada término en el conjunto de texto de prueba. Para lograr este objetivo se implementaron dos técnicas (PMI ), las cuales ya han sido usadas por su efectividad en y diferentes tareas del PLN [18, 13]. A diferencia de PMI, la es usada para la prueba de hipótesis de medida independencia entre dos variables. Sin embargo, no es de nuestro interés discutir los aspectos estadísticos de la , una explicación más extensa puede verse en el libro de Manning y Schütze [13]. En este artículo sólo la usamos para medir el grado de correlación entre dos términos. Las técnicas de expansión de términos se explican a continuación. A. Expansión de términos supervisada Para la Expansión de Términos Supervisada (ETS) cada instancia en el conjunto de texto de prueba fue etiquetada por estudiantes lingüistas usando WordNet 1.7.1 como repositorio de sentidos. El objetivo de esta técnica es agrupar las instancias a desambiguar de acuerdo a la acepción asignada por los etiquetadores, para así formar clases de acuerdo a su acepción. De esta manera los términos encontrados en cada clase estarán fuertemente asociados dado que pertenecen al mismo sentido. A continuación se explica el proceso de agrupar instancias. instancias de una palabra ambigua , , ,…, Sean cada instancia , (1 ≤ ≤ ) fue etiquetada con el sentido correcto. A continuación las instancias etiquetadas con el mismo sentido fueron agrupadas para formar el conjunto de , ,…, | ∈ . De esta clases denotado por = manera cada clase está formada por las sentencias en las ocurre, por lo tanto cada clase contiene un conjunto cuales de términos , , … , | ∈ . A continuación para cada para obtener clase (1 ≤ ≤ ) fueron aplicadas PMI y y cada el grado de asociación entre cada instancia ambigua término ∈ . Como resultado se obtuvo una lista de términos , los cuales fueron ponderados de acuerdo al grado de asociación con . Esta lista de términos fue usada para expandir el contexto de cada instancia ambigua. B. Expansión de términos no supervisada Para la Expansión de Términos No Supervisada (ETNS) fueron agrupadas las instancias que pertenecen a una palabra ambigua para formar clases de palabras ambiguas independientemente de la acepción de cada instancia. Es decir, las instancias de una misma palabra ambigua pertenecen a distintos sentidos de acuerdo a WordNet. Por lo tanto, los términos asociados con cada clase son más heterogéneos respecto a la técnica ETS. En esta técnica todas las ∈ forman una clase , es decir, obtenemos instancias tantas clases como palabras ambiguas existen en el conjunto de texto de prueba. Nuevamente las técnicas PMI y fueron aplicadas para obtener una lista de términos ponderados cuyo valor indica el grado de asociación con la instancia . Al igual que en el enfoque supervisado, la lista de términos ponderados expande el contexto de cada instancia ambigua. IV. SELECCIÓN DE TÉRMINOS A continuación se describen brevemente las técnicas que se emplean para obtener el grado de correlación entre pares de términos. A. Pointwise Mutual Information Pointwise Mutual Information (PMI) [12] es un método usado para medir el grado de asociación entre dos términos. Esto se logra mediante el uso del traslape de información que ambos términos comparten ( , ). Si se considera la ocurrencia de ambos términos como dos variables aleatorias entonces PMI mide dependencia mutua entre la aparición de los términos ( , ). Para estimar el grado de correlación entre ambos términos se emplea la Ecuación 1, donde ( , ) es la frecuencia de observar y juntos, dividido por frecuencia de observar y independientemente. , ( B. ( )= ( , ) ( ) ) (1) Chi-square Otra alternativa para medir la independencia entre dos términos o grado de correlación entre un término y una categoría es la prueba de correlación denominada Chi-square es usada para examinar la ( ) [24]. En este caso independencia entre dos términos y . Se asume que los términos son independientes si ( )= ( , ) ( ) El valor entre dos términos se obtiene empleando la Ecuación 2. = ( ) (2) donde O denota la frecuencia observada y E denota la frecuencia esperada entre los términos y . La frecuencia esperada (E) se obtienen aplicando la Ecuación 3. = ( , ∑ ) (3) donde ( , ) denota las frecuencias observadas cuando los términos y co-ocurren. La probabilidad de ocurrencia de los términos y se obtiene dividiendo su valor de frecuencia por la suma de la frecuencia de todos los pares de términos denotado por , encontrados en un tamaño de y se ventana específico. La frecuencia observada entre obtiene multiplicando los factores =∑ ( ) ( ) , =∑ ( ) ( ) , donde ( ) y ( ) es la frecuencia de la palabra y en la ventana de contexto definida y ∑ ( ) y ∑ ( ) es la suma de las frecuencias en toda la clase. El valor de la frecuencia observada se obtiene multiplicando los factores , . V. EXPERIMENTOS A continuación se describe el trabajo experimental realizado con las técnicas de expansión de términos del enfoque propuesto. Los experimentos fueron llevados a cabo en conjuntos de textos que comprenden instancias ambiguas en diferentes dominios. Las siguientes secciones describen los conjuntos de textos usados en los experimentos así como los resultados obtenidos. A. Conjuntos de textos de prueba Los experimentos fueron llevados a cabo en los conjuntos de textos de prueba presentados por Koeling et al. [5], los cuales se encuentran públicamente disponibles. Los conjuntos de textos de prueba comprenden 41 ejemplos de palabras ambiguas relacionadas a los dominios de Deportes, Finanzas y uno de contenido general, el BNC (British National Corpus). El BNC está formado de 4 categorías básicas: educación, negocios, público/institucional y ocio. Los dominios de Deportes y Finanzas fueron extraídos desde el conjunto de texto Reuters. Las características de las palabras incorporadas en los conjuntos de textos de prueba representan un reto para evaluar la precisión en el proceso de desambiguación dado que el número promedio de sentidos para cada palabra ambigua es de 6.7 sentidos. Esto significa que cada palabra ambigua puede tener en promedio 6.7 posibles sentidos. B. Configuración experimental El contexto en que se encuentra una palabra ambigua contribuye a determinar la acepción de dicha palabra, dada la situación comunicativa de las palabras en el contexto. Para extraer el contexto donde ocurre la palabra ambigua se realizó una fase de pre-procesamiento sobre los conjuntos de textos de prueba. Esta fase consiste en asignar la categoría gramatical a cada término en la sentencia usando la herramienta Stanford POS tagger [25]; a continuación las palabras vacías fueron removidas, tales como artículos, preposiciones, conjunciones etc. Para seleccionar los términos contextuales se definió una ventana de contexto de tamaño 2 1, = 5 , es decir, 5 términos a la derecha e izquierda de la palabra ambigua; en total la ventana tiene 11 términos considerando la palabra ambigua. A continuación se obtuvo el grado de correlación entre cada par de términos como se describe en la Sección IV. En ambas técnicas la frecuencia de co-ocurrencia entre los y debe ser mayor o igual a 2 con el objetivo de términos remover términos que son más probablemente ruidosos. C. Resultados obtenidos Para evaluar la efectividad del enfoque propuesto se aplicaron las medidas de RI, precision (P) y recall (R), como muestra la Tabla I. La tabla está dividida en dos secciones, la primera sección muestra los resultados obtenidos al usar PMI y como técnicas para ponderar la co-ocurrencia de términos en la ventana establecida, como fue indicado en la subsección anterior. La segunda sección muestra los resultados obtenidos por otros trabajos de la literatura que usan el mismo benchmark que nosotros. La tabla también muestra los resultados obtenidos por Koeling et al. [5] al combinar la información de todos los dominios. Cabe mencionar que el trabajo de Koeling et al. no lleva a cabo una desambiguación contextual, por lo tanto es más viable comparar nuestro enfoque con el trabajo presentado por Navigli et al. [10] y Rojas-Lopez et al. [23]. Los mejores resultados son obtenidos al evaluar PMI en ambas técnicas ETS y ETNS; por el obtuvo resultados deficientes en ambas técnicas a contrario excepción del dominio de Finanzas. TABLA I. RESULTADOS DE DSP EN DIFERENTES DOMINIOS DE PRUEBA. Algoritmo ETS ETNS PMI PMI Rojas-Lopez et al. [23] Navigli et al. [10] Koeling et al. [5] Deportes Finanzas BNC P R P R P R 63.7 56.8 56.1 51.0 61.6 51.9 55.2 50.1 60.7 62.5 55.7 57.7 60.0 61.7 55.6 57.0 50.6 44.1 37.2 34.0 48.4 42.7 36.5 32.3 61.9 54.8 63.8 63.2 30.8 27.9 -- 52.7 -- 58.2 -- -- 49.7 -- 43.7 -- 40.7 -- En la Tabla II se muestra el número de clases obtenidas por acepción (ETS) y por palabra ambigua (ETNS). También se muestra el número promedio de palabras obtenidas por clase; estos datos son obtenidos después de una fase de preprocesamiento aplicada a los conjuntos de textos de prueba. Creemos que el número de palabras en las clases afectó el comparada con PMI. En consecuencia, en el desempeño de enfoque propuesto PMI permite discriminar con mayor . Se precisión términos ruidosos en comparación con observa en la Tabla I que la técnica ETS obtuvo mejores resultados en términos de precision y recall. Consideramos que esto se debe a que las sentencias donde ocurre la palabra ambigua fueron agrupadas por acepción, es decir, los contextos pertenecen a la acepción, lo cual garantiza que los términos con mayor frecuencia se encuentran fuertemente relacionados con la palabra a desambiguar, caso contrario a la técnica ETNS. Los espacios vacíos en la Tabla I indican que los autores no reportan los resultados en términos de precision o recall. TABLA II. NÚMERO DE CLASES Y PALABRAS OBTENIDAS POR CONJUNTO DE TEXTO DE PRUEBA. Deportes Finanzas BNC Supervisado Clases Promedio de palabras por clase 154 383.2 165 405.6 218 274.8 VI. No supervisado Clases Promedio de palabras por clase 41 3320.5 41 1881.0 41 1547.1 DISCUSION El objetivo de las técnicas ETS y ETNS es expandir el contexto donde ocurre la palabra ambigua usando el conjunto de texto de prueba. ETS añade términos tomando ventaja de la acepción asignada a cada instancia ambigua. Por otro lado, ETNS agrupa contextos de instancias ambiguas que pertenecen a la misma palabra ambigua . Ambas técnicas obtienen valores de precisión y recall competitivos en relación con lo reportado en la literatura. Sin embargo, PMI mide mejor la correlación entre pares de términos que . La Tabla II muestra cómo se relaciona el número de acepciones (clases) encontradas por dominio en el enfoque ETS, con los resultados de precision y recall obtenidos en los experimentos (Tabla I). Por ejemplo, el dominio de Deportes tiene un menor número de acepciones, seguido por Finanzas y BNC. Los resultados obtenidos en términos de precision y recall siguen este mismo orden. Es decir, la probabilidad de que una palabra sea desambiguada en el dominio de Deportes es más alta comparada con Finanzas y BNC. Es importante mencionar que BNC no es un conjunto de textos de dominio específico. Sin embargo las técnicas de expansión de términos muestran que los términos recuperados desde el conjunto de texto de prueba mejoran la tarea DSP aún cuando el conjunto de texto de prueba no es de dominio específico. De la misma manera los resultados obtenidos por Rojas-lopez et al. [23] y los resultados presentados por Koeling et al. [5] muestran el mismo comportamiento a excepción de los resultados presentados por Navigli et al. [10]. VII. técnicas de Expansión de Términos Supervisada y No Supervisada. La técnica supervisada sugiere que los términos que pertenecen a sentencias cuyas palabras ambiguas pertenecen a la misma acepción contribuyen fuertemente en el proceso de desambiguación del sentido de la palabra. Por lo tanto es de nuestro interés implementar a futuro una técnica de agrupación de textos cortos como la propuesta por Pedersen [26] para agrupar de una manera no supervisada contextos relacionados con las sentencias donde ocurre la palabra ambigua. De acuerdo con los resultados obtenidos, no podemos afirmar que PMI tiene un mejor comportamiento que para medir la correlación entre términos porque el número de palabras presentes en cada clase es pequeño, por lo tanto existe una menor frecuencia. En consecuencia, como trabajo futuro implementaremos también una técnica de agrupación para recuperar contextos relacionados con las instancias en un ambiguas y evaluar el comportamiento de PMI y conjunto de contextos de mayor tamaño. REFERENCIAS [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] CONCLUSIONES En este estudio fueron explorados dos métodos para ponderar el grado de correlación entre pares de términos dentro de la tarea muestra léxica de DSP. Los métodos implementan las [12] [13] S. Pradhan, E. Loper, D. Dligach, and M. Palmer, "Semeval-2007 task-17: English lexical sample, SRL and all words", In Proceedings of the Fourth International Workshop on Semantic Evaluations, pp. 87-92, 2007. R. Navigli, "Word sense disambiguation: A survey", ACM Computing Surveys, 2009. D. McCarthy, "Word Sense Disambiguation: An Overview", Language and Linguistics Compass, pp. 537-558, 2009. E. Gerard, M. Lluís, and R. German, "An Empirical Study of the Domain Dependence of Supervised Word Sense Disambiguation Systems", Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora: held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics, vol. 13, pp. 172-180, 2000. R. Koeling, D. McCarthy, and J. Carroll, "Domain-specific sense distributions and predominant sense acquisition", Association for Computational Linguistics, no. 8, pp. 419-426, 2005. J. Tejeda-Carcamo, H. Calvo, A. Gelbukh, and K. Hara, "Unsupervised WSD by finding the predominant sense using context as a dynamic thesaurus", Journal of Computer Science and Technology, vol. 25, no. 5, p. 10, Sep. 2010. D. McCarthy, R. Koeling, J. Weeds, and J. Carroll, "Unsupervised Acquisition of Predominant Word Senses", Computational Linguistics, vol. 33, no. 4, 2007. Y. Guo, W. Che, T. Liu, and S. Li, "Semi-supervised domain adaptation for WSD: Using a word-by-word model selection approach", Proceedings 9th IEEE International Conference on Cognitive Informatics, p. 680–687, 2010. S. Faralli and R. Navigli, "A New Minimally-Supervised Framework for Domain Word Sense Disambiguation", Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012, July 12-14, 2012, Jeju Island, Korea, pp. 1411-1422, 2012. R. Navigli, S. Faralli, A. Soroa, O. de Lacalle, and E. Agirre "Two birds with one stone: learning semantic models for text categorization and word sense disambiguation", Proceedings of the 20th ACM international conference on Information and knowledge management, pp. 2317-2320, 2011. E. Agirre, O. De lacalle, and A. Soroa, "Knowledge-based WSD on specific domains: performing better than generic supervised WSD", Proceedings of the 21st International Jont Conference on Artifical Intelligence, pp. 1501-1506, 2009. K. Church and Hanks, "Word association norms, mutual information, and lexicography", vol. 16, pp. 22-29, 1990. C. D. Manning and H. Schütze, Foundations of Statistical Natural Language Processing. MIT Press, 1999. [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] J. Tuominen, K. Viljanen, E. Hyvönen, and T. Kauppinen, "OntologyBased Query Expansion Widget for Information Retrieval", Proceedings of the 5th Workshop on Scripting and Development for the Semantic Web, 6th European Semantic Web Conference, 2009. N.-L. Tesao, D. Wible, and C.-H. Kuo, "Feature expansion for word sense disambiguation", Natural Language Processing and Knowledge Engineering, 2003. Proceedings. 2003 International Conference on, pp. 126-131, 2003. F. Tacoa, D. Bollegala, and M. Ishizuka, "A Context Expansion Method for Supervised Word Sense Disambiguation", Sixth IEEE International Conference on Semantic Computing, 2012. S. Banerjee and T. Pedersen, "An Adapted Lesk Algorithm for Word Sense Disambiguation Using WordNet", In CICLing 2002 conference, vol. 2276, pp. 136-145, 2002. D. Pinto, P. Rosso, and H. Jiménez-Salazar, "UPV-SI: word sense induction using self term expansion", Proceedings of the 4th International Workshop on Semantic Evaluations, pp. 430-433, 2007. Y. S. Chan and H. T. Ng, "Domain Adaptation with Active Learning for Word Sense Disambiguation", Association for Computational Linguistics, pp. 49-56, Jun. 2007. E. Agirre and O. de La calle, "On robustness and domain adaptation using SVD for word sense disambiguation", Proceedings of the 22nd International Conference on Computational Linguistics, vol. 1, pp. 1724, 2008. D. Lin, "Automatic retrieval and clustering of similar words", Proceedings of the 17th International Conference on Computational Linguistics, vol. 2, pp. 768-774, 1998. M. Lesk, "Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone", Proceedings of SIGDOC, pp. 24-26, 1986. F. Rojas-Lopez, I. Lopez-Arevalo, and V. J. Sosa-Sosa, "Improving selection of synsets for domain-specific Word Sense Disambiguation", Submitted to Language Resources and Evaluation, Springer, 2013. Y. Yang and J. Pedersen, "A Comparative Study on Feature Selection in Text Categorization", Proceedings of the Fourteenth International Conference on Machine Learning, pp. 412-420, 1997. K. Toutanova, D. Klein, C. D. Manning, and Y. Singer, "Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network", HLTNAACL, 2003. T. Pedersen, "Computational Approaches to Measuring the Similarity of Short Contexts : A Review of Applications and Methods", Computing Research Repository, vol. abs/0806.3787, 2008. Franco Rojas-Lopez received his Master degree in Computer Science from Benemérita Universidad Autónoma de Puebla and his Ph.D. in Computer Science from CinvestavTamaulipas. He is associate professor at Universidad Politécnica Metropolitana de Puebla. His current research interests are Semantic Web, Information Retrieval and Knowledge Representation and Management. Ivan Lopez-Arevalo is a full-time research-professor at the Information Technology Lab at Center for Research and Advanced Studies of the National Polytechnic Institute of Mexico (Cinvestav-Tamaulipas). He received a Ph.D. degree in Computing from Technical University of Catalonia (UPC, Barcelona). His research interests include different topics from data analysis on databases, Web and social networks, such as data mining, text mining, and knowledge representation and management. His work also includes soft computing in engineering. David Pinto is a full-time research-professor in the Faculty of Computer Science at the Benemérita Universidad Autónoma de Puebla (BUAP). He received his Ph.D. degree in Pattern Recognition & Artificial Intelligence from the Universidad Politécnica de Valencia (UPV, Spain). His research interests include different topics from information retrieval, clustering and analysis of short texts, machine reading evaluation, question-answering. He is the founder and the actual chief of the Language & Knowledge Engineering Lab at BUAP. Victor J. Sosa-Sosa is a full-time research-professor at Center for Research and Advanced Studies of the National Polytechnic Institute of Mexico (Cinvestav), campus Tamaulipas. He has a PhD in Computer Science from Technical University of Catalonia (UPC-Barcelona), was a visiting researcher in the Database and Information System group at Max Planck Institute für Informatik in Germany (Sep/12-Jul/13), his research interest and specialization areas are Databases and Distributed Systems. His work is focused on large scale information search (surface and deep Web), information extraction, integration (Web databases) and cloud storage.