Context Expansion for Domain-Specific Word Sense Disambiguation

Anuncio
Context Expansion for Domain-Specific
Word Sense Disambiguation
F. Rojas, I. Lopez, D. Pinto and V. J. Sosa
Abstract—1Two novel techniques based on term expansion for
domain-specific Word Sense Disambiguation are presented in
this paper. A list of terms correlated with the ambiguous word is
obtained by means of correlation methods such as Pointwise
Mutual Information and Chi-square. The list of correlated terms
is used for expanding the context in which an ambiguous word
occurs, thus leading to a better number of terms which may be
further used for determining the correct sense of the target
ambiguous word. The proposed method has been tested in
domain-specific corpora (Finance and Sports) and in one
balanced corpus, the British National Corpus (BNC). The
obtained results for domain-specific corpora are competitive
(Finance) and ever better (Sports and BNC) than those reported
in previous works.
Keywords— Word sense disambiguation, specific domain,
synset, WordNet, context expansion
I.
INTRODUCCIÓN
D
ESAMBIGUACIÓN del sentido de la palabra (DSP) es
una tarea abordada desde hace varias décadas en el área
de Lingüística Computacional (LC). DSP consiste en asignar
el sentido correcto a una palabra ambigua considerando el
contexto en el cual ocurre. De acuerdo con el Semeval [1],
DSP se divide en dos tipos: muestra léxica (lexical sample) y
todas las palabras (all-words), la primera consiste en
seleccionar el sentido correcto para una palabra ambigua en
una frase; la segunda trata de desambiguar todas las palabras
de un texto. Se han propuesto diferentes enfoques para
resolver la tarea genérica de DSP (supervisado, no
supervisado, semi-supervisado, entre otros) [2, 3]. Por otro
lado, DSP aplicado a dominios diferentes (cuando el dominio
fuente y el objetivo son distintos), representa grandes desafíos,
por ejemplo 1) resultados experimentales han mostrado una
caída en el desempeño cuando el conjunto de texto de
entrenamiento y de prueba pertenecen a dominios diferentes
[4]; 2) la necesidad de reentrenar el sistema de DSP en cada
nuevo dominio. En consecuencia se han propuesto métodos
diferentes con el objetivo de resolver tales desafíos, como
F. Rojas, Universidad Politécnica Metropolitana de Puebla,
México, frojas@tamps.cinvestav.mx
I.
Lopez,
Cinvestav
Tamaulipas,
Victoria,
ilopez@tamps.cinvestav.mx
D. Pinto, Benemérita Universidad Autónoma de Puebla, Puebla,
dpinto@cs.buap.mx
V. J. Sosa, Cinvestav - Tamaulipas, Victoria,
vjsosa@tamps.cinvestax.mx
Puebla,
México,
México,
México,
adquisición del sentido predominante [5, 6, 7]; enfoques semisupervisados [8, 9] y basados en conocimiento [10, 11].
En este artículo presentamos un enfoque de DSP de muestra
léxica basado en conocimiento para desambiguar instancias en
conjuntos de textos en inglés de diferente dominio. El método
recupera un conjunto de términos en una ventana de tamaño
específico. Estos términos son usados para expandir el
contexto donde se encuentra la palabra ambigua. Se proponen
dos técnicas de expansión de términos para formar clases de
instancias: 1) Expansión de Términos Supervisada (ETS) y 2)
Expansión de Términos No Supervisada (ETNS). Una vez
formadas las clases se aplican las técnicas Pointwise Mutual
Information (PMI) [12] y Chi-cuadrada ( ) [13] para medir
el grado de correlación entre pares de términos. Los términos
recuperados son usados para expandir el contexto en cual
ocurre una instancia ambigua. El objetivo de las técnicas
propuestas es tener mayor evidencia contextual. De esta
manera, no sólo consideramos las palabras en el contexto de
una instancia ambigua, sino que también, palabras en todo el
conjunto de texto de prueba donde se encuentra la palabra a
desambiguar.
La técnica de expansión de términos ha sido aplicada en el
Procesamiento del Lenguaje Natural (PLN) para diversas
tareas, por ejemplo, en Recuperación de Información (RI) para
expandir la consulta dada por el usuario, en inducción del
sentido de la palabra, en DSP, entre otras. Usualmente este
proceso es llevado a cabo mediante el uso de un tesauro, una
base de datos léxica u ontologías, etc. Por ejemplo, Tuominen
et al. [14] usaron un método basado en ontologías para llevar
a cabo el proceso de expansión de consultas y mejorar los
resultados de un sistema de RI. En la literatura se han
reportado varias propuestas de expansión de términos en DSP
[15, 16, 17, 18]. El enfoque que se propone en este artículo
está relacionado con el trabajo presentado por Pinto et al. [18],
quienes propusieron un enfoque no supervisado de expansión
de términos para la tarea Word Sense Induction and
Discrimination System, presentado en el SemEval 2007
(International Workshop on Semantic Evaluation). En este
sentido consideramos que el uso de términos recuperados
desde el conjunto de texto de prueba puede ser de alto
beneficio para la tarea de DSP en dominios específicos. De
esta manera contribuimos con dos técnicas para expandir el
contexto de instancias ambiguas. Los experimentos realizados
sobre conjuntos de textos de diferente dominio muestran que
ETS obtiene mejores resultados en el dominio de Deportes y
en el British National Corpus (BNC). En el dominio de
Finanzas se obtuvieron resultados competitivos de acuerdo
con lo reportado en la literatura.
El resto del artículo está estructurado de la siguiente manera:
en la Sección II se describe el trabajo relacionado con DSP en
dominios específicos. La Sección III muestra los detalles de
las técnicas de expansión de términos. La Sección IV describe
los conjuntos de textos de prueba usados en los experimentos
así como los resultados obtenidos. En la Sección V se discuten
los experimentos llevados a cabo. Finalmente las conclusiones
y trabajo futuro se describen en la Sección VI.
II.
TRABAJO RELACIONADO
En la literatura se ha reportado un gran número de enfoques de
DSP [2, 3], estos enfoques principalmente abordan el
problema genérico de desambiguación. Sin embargo, el
interés en dominios específicos se ha incrementado, dado que
un sistema de desambiguación no garantiza su desempeño
cuando se mueve de un dominio a otro. Es decir, cuando el
conjunto de texto de evaluación es diferente al conjunto de
texto de entrenamiento [4, 19]. En este contexto Chan y Ng
[19] abordan el problema usando un algoritmo de aprendizaje
supervisado Näive Bayes. Los autores agregaron ejemplos de
entrenamiento desde el nuevo dominio como datos adicionales
al sistema de DSP. De esta manera mostraron que el uso del
sentido predominante del dominio objetivo mejoró el proceso
de adaptación al nuevo dominio. Agirre y de Lacalle [20]
propusieron un enfoque semi-supervisado de DSP, usaron
descomposición de valores singulares y datos no etiquetados
para obtener una mejor adaptación desde un conjunto de texto
de propósito general (BNC) a un conjunto de texto de dominio
específico (Deportes o Finanzas). De manera similar Guo et
al. [8] presentaron un enfoque diferente en relación a trabajos
previos de adaptación de dominio [19, 20], afirmaban que el
mismo modelo era usado para desambiguar todas las palabras,
a pesar de la diferencia existente entre ellas. Para mejorar el
problema de adaptación de dominio construyeron un conjunto
de modelos candidatos para cada palabra ambigua. El modelo
a usar era seleccionado automáticamente desde el conjunto de
modelos candidatos. Navigli et al. [10] propusieron un
algoritmo para ponderar acepciones de la palabra a
desambiguar, para ello recuperaron términos relevantes desde
texto de dominio específico. Los términos relevantes fueron
usados para inicializar un randow walk sobre el grafo de
WordNet. De esta manera construyeron un modelo semántico
para cada dominio. Los modelos semánticos fueron aplicados
en categorización de textos y DSP en dominios específicos.
Otro enfoque aplicado a DSP en diferentes dominios fue
presentado por Koeling et al. [5]. En dicho enfoque se
construye un tesauro desde un conjunto de texto de dominio
específico usando el método de Lin [21]. El tesauro fue usado
para recuperar los primeros top-k vecinos más cercanos para
cada palabra ambigua; posteriormente fue usada una medida
de similitud semántica implementada sobre WordNet para
comparar cada acepción de la palabra vecina con cada
acepción de la palabra a desambiguar. La acepción con el
mejor puntaje era seleccionada para desambiguar cada
palabra. Es importante indicar que el trabajo mencionado no
lleva a cabo una desambiguación contextual.
Por otro lado, varios trabajos han sido reportados en la
literatura para enfrentar el problema de escasez de datos, es
decir, cuando las características contextuales no son
suficientes para DSP. Por ejemplo Tsao et al. [15] llevaron a
cabo un proceso para expandir el contexto de instancias
ambiguas. Las características expandidas fueron extraídas
desde el conjunto de texto de prueba y WordNet para mejorar
los resultados de un sistema de DSP, usando un algoritmo de
aprendizaje supervisado Näive Bayes. Asimismo Tacoa et al.
[16] evaluaron una técnica de expansión de términos en un
sistema de DSP supervisado. Las características expandidas
fueron recuperadas desde un tesauro de acuerdo a su relación
de información mutua. Banerje y Pedersen [17] presentaron
una modificación del algoritmo de Lesk [22], para ello
extendieron las glosas de un sentido dado apoyándose en la
jerarquía de WordNet, de esta manera tomaban en cuenta
hiperónimos, hipónimos, holónimos, etc., y sus definiciones
asociadas para construir un contexto más extenso para el
significado de la palabra de interés. Pinto et al. [18]
presentaron un enfoque para mejorar la usabilidad de un
conjunto de texto de tamaño limitado a través de la expansión
de términos. Esta técnica involucraba una lista de palabras de
co-ocurrencia de términos basada en PMI. La lista de términos
fue usada para expandir palabras en el vector de
características. Posteriormente aplicaron un algoritmo de
agrupación para inducir los sentidos de una palabra ambigua.
La propuesta que se presenta en este artículo es una extensión
del artículo presentado por Rojas-Lopez et al. [23], en el cual
el enfoque de DSP, a diferencia de lo reportado en la
literatura, recupera términos relacionados con la palabra a
desambiguar usando el conjunto de texto de prueba. La
extensión del trabajo consiste en la integración de las técnicas
a la propuesta antes citada, lo cual inicialmente no
PMI y
se había contemplado. Con dicha integración se mejora la
recuperación y ponderación de términos.
III.
EXPANSIÓN DE TÉRMINOS
Es de gran beneficio expandir el contexto de la palabra
ambigua con el objetivo de tener mayor evidencia contextual,
de tal manera que se mejore la afectividad de la acepción
seleccionada para una palabra ambigua.
Es de gran beneficio expandir el contexto de la palabra
ambigua con el objetivo de tener mayor evidencia contextual,
de tal manera que se mejore la afectividad de la acepción
seleccionada para una palabra ambigua.
En este artículo se implementan dos técnicas para expandir el
contexto donde ocurre la palabra a desambiguar. Con las
técnicas se agregan términos relacionados a cada instancia de
una palabra ambigua mediante expansión de términos
supervisada y no supervisada. Tal técnica consiste en medir el
grado de correlación entre cada instancia de una palabra
ambigua y cada término en el conjunto de texto de prueba.
Para lograr este objetivo se implementaron dos técnicas (PMI
), las cuales ya han sido usadas por su efectividad en
y
diferentes tareas del PLN [18, 13]. A diferencia de PMI, la
es usada para la prueba de hipótesis de
medida
independencia entre dos variables. Sin embargo, no es de
nuestro interés discutir los aspectos estadísticos de la , una
explicación más extensa puede verse en el libro de Manning y
Schütze [13]. En este artículo sólo la usamos para medir el
grado de correlación entre dos términos. Las técnicas de
expansión de términos se explican a continuación.
A.
Expansión de términos supervisada
Para la Expansión de Términos Supervisada (ETS) cada
instancia en el conjunto de texto de prueba fue etiquetada por
estudiantes lingüistas usando WordNet 1.7.1 como repositorio
de sentidos. El objetivo de esta técnica es agrupar las
instancias a desambiguar de acuerdo a la acepción asignada
por los etiquetadores, para así formar clases de acuerdo a su
acepción. De esta manera los términos encontrados en cada
clase estarán fuertemente asociados dado que pertenecen al
mismo sentido.
A continuación se explica el proceso de agrupar instancias.
instancias de una palabra ambigua ,
, ,…,
Sean
cada instancia , (1 ≤ ≤ ) fue etiquetada con el sentido
correcto. A continuación las instancias etiquetadas con el
mismo sentido fueron agrupadas para formar el conjunto de
, ,…, | ∈
. De esta
clases denotado por =
manera cada clase está formada por las sentencias en las
ocurre, por lo tanto cada clase contiene un conjunto
cuales
de términos , , … , | ∈ . A continuación para cada
para obtener
clase (1 ≤ ≤ ) fueron aplicadas PMI y
y cada
el grado de asociación entre cada instancia ambigua
término
∈ . Como resultado se obtuvo una lista de
términos , los cuales fueron ponderados de acuerdo al grado
de asociación con . Esta lista de términos fue usada para
expandir el contexto de cada instancia ambigua.
B.
Expansión de términos no supervisada
Para la Expansión de Términos No Supervisada (ETNS)
fueron agrupadas las instancias que pertenecen a una palabra
ambigua
para formar clases de palabras ambiguas
independientemente de la acepción de cada instancia. Es decir,
las instancias de una misma palabra ambigua pertenecen a
distintos sentidos de acuerdo a WordNet. Por lo tanto, los
términos asociados con cada clase son más heterogéneos
respecto a la técnica ETS. En esta técnica todas las
∈
forman una clase , es decir, obtenemos
instancias
tantas clases como palabras ambiguas existen en el conjunto
de texto de prueba. Nuevamente las técnicas PMI y
fueron
aplicadas para obtener una lista de términos ponderados cuyo
valor indica el grado de asociación con la instancia . Al
igual que en el enfoque supervisado, la lista de términos
ponderados expande el contexto de cada instancia ambigua.
IV.
SELECCIÓN DE TÉRMINOS
A continuación se describen brevemente las técnicas que se
emplean para obtener el grado de correlación entre pares de
términos.
A.
Pointwise Mutual Information
Pointwise Mutual Information (PMI) [12] es un método usado
para medir el grado de asociación entre dos términos. Esto se
logra mediante el uso del traslape de información que ambos
términos comparten ( , ). Si se considera la ocurrencia de
ambos términos como dos variables aleatorias entonces PMI
mide dependencia mutua entre la aparición de los términos
( , ). Para estimar el grado de correlación entre ambos
términos se emplea la Ecuación 1, donde ( , ) es la
frecuencia de observar
y juntos, dividido por frecuencia
de observar
y independientemente.
,
(
B.
(
)=
(
,
) (
)
)
(1)
Chi-square
Otra alternativa para medir la independencia entre dos
términos o grado de correlación entre un término y una
categoría es la prueba de correlación denominada Chi-square
es usada para examinar la
( ) [24]. En este caso
independencia entre dos términos
y . Se asume que los
términos son independientes si
(
)= (
,
) ( )
El valor
entre dos términos se obtiene empleando la
Ecuación 2.
=
(
)
(2)
donde O denota la frecuencia observada y E denota la
frecuencia esperada entre los términos
y . La frecuencia
esperada (E) se obtienen aplicando la Ecuación 3.
=
(
,
∑
)
(3)
donde ( , ) denota las frecuencias observadas cuando los
términos
y co-ocurren. La probabilidad de ocurrencia
de los términos
y
se obtiene dividiendo su valor de
frecuencia por la suma de la frecuencia de todos los pares de
términos denotado por , encontrados en un tamaño de
y se
ventana específico. La frecuencia observada entre
obtiene multiplicando los factores
=∑
(
)
(
)
,
=∑
(
)
(
)
,
donde ( ) y ( ) es la frecuencia de la palabra
y en
la ventana de contexto definida y ∑ ( ) y ∑ ( ) es la
suma de las frecuencias en toda la clase. El valor de la
frecuencia observada se obtiene multiplicando los factores ,
.
V.
EXPERIMENTOS
A continuación se describe el trabajo experimental realizado
con las técnicas de expansión de términos del enfoque
propuesto. Los experimentos fueron llevados a cabo en
conjuntos de textos que comprenden instancias ambiguas en
diferentes dominios. Las siguientes secciones describen los
conjuntos de textos usados en los experimentos así como los
resultados obtenidos.
A.
Conjuntos de textos de prueba
Los experimentos fueron llevados a cabo en los conjuntos de
textos de prueba presentados por Koeling et al. [5], los cuales
se encuentran públicamente disponibles. Los conjuntos de
textos de prueba comprenden 41 ejemplos de palabras
ambiguas relacionadas a los dominios de Deportes, Finanzas y
uno de contenido general, el BNC (British National Corpus).
El BNC está formado de 4 categorías básicas: educación,
negocios, público/institucional y ocio. Los dominios de
Deportes y Finanzas fueron extraídos desde el conjunto de
texto Reuters. Las características de las palabras incorporadas
en los conjuntos de textos de prueba representan un reto para
evaluar la precisión en el proceso de desambiguación dado
que el número promedio de sentidos para cada palabra
ambigua es de 6.7 sentidos. Esto significa que cada palabra
ambigua puede tener en promedio 6.7 posibles sentidos.
B.
Configuración experimental
El contexto en que se encuentra una palabra ambigua
contribuye a determinar la acepción de dicha palabra, dada la
situación comunicativa de las palabras en el contexto. Para
extraer el contexto donde ocurre la palabra ambigua se realizó
una fase de pre-procesamiento sobre los conjuntos de textos
de prueba. Esta fase consiste en asignar la categoría gramatical
a cada término en la sentencia usando la herramienta Stanford
POS tagger [25]; a continuación las palabras vacías fueron
removidas, tales como artículos, preposiciones, conjunciones
etc. Para seleccionar los términos contextuales se definió una
ventana de contexto de tamaño 2
1, = 5 , es decir, 5
términos a la derecha e izquierda de la palabra ambigua; en
total la ventana tiene 11 términos considerando la palabra
ambigua. A continuación se obtuvo el grado de correlación
entre cada par de términos como se describe en la Sección IV.
En ambas técnicas la frecuencia de co-ocurrencia entre los
y debe ser mayor o igual a 2 con el objetivo de
términos
remover términos que son más probablemente ruidosos.
C.
Resultados obtenidos
Para evaluar la efectividad del enfoque propuesto se aplicaron
las medidas de RI, precision (P) y recall (R), como muestra la
Tabla I. La tabla está dividida en dos secciones, la primera
sección muestra los resultados obtenidos al usar PMI y
como técnicas para ponderar la co-ocurrencia de términos en
la ventana establecida, como fue indicado en la subsección
anterior. La segunda sección muestra los resultados obtenidos
por otros trabajos de la literatura que usan el mismo
benchmark que nosotros. La tabla también muestra los
resultados obtenidos por Koeling et al. [5] al combinar la
información de todos los dominios. Cabe mencionar que el
trabajo de Koeling et al. no lleva a cabo una desambiguación
contextual, por lo tanto es más viable comparar nuestro
enfoque con el trabajo presentado por Navigli et al. [10] y
Rojas-Lopez et al. [23]. Los mejores resultados son obtenidos
al evaluar PMI en ambas técnicas ETS y ETNS; por el
obtuvo resultados deficientes en ambas técnicas a
contrario
excepción del dominio de Finanzas.
TABLA I. RESULTADOS DE DSP EN DIFERENTES DOMINIOS DE
PRUEBA.
Algoritmo
ETS
ETNS
PMI
PMI
Rojas-Lopez et
al. [23]
Navigli et al. [10]
Koeling et al. [5]
Deportes
Finanzas
BNC
P
R
P
R
P
R
63.7
56.8
56.1
51.0
61.6
51.9
55.2
50.1
60.7
62.5
55.7
57.7
60.0
61.7
55.6
57.0
50.6
44.1
37.2
34.0
48.4
42.7
36.5
32.3
61.9
54.8
63.8
63.2
30.8
27.9
--
52.7
--
58.2
--
--
49.7
--
43.7
--
40.7
--
En la Tabla II se muestra el número de clases obtenidas por
acepción (ETS) y por palabra ambigua (ETNS). También se
muestra el número promedio de palabras obtenidas por clase;
estos datos son obtenidos después de una fase de preprocesamiento aplicada a los conjuntos de textos de prueba.
Creemos que el número de palabras en las clases afectó el
comparada con PMI. En consecuencia, en el
desempeño de
enfoque propuesto PMI permite discriminar con mayor
. Se
precisión términos ruidosos en comparación con
observa en la Tabla I que la técnica ETS obtuvo mejores
resultados en términos de precision y recall. Consideramos
que esto se debe a que las sentencias donde ocurre la palabra
ambigua fueron agrupadas por acepción, es decir, los
contextos pertenecen a la acepción, lo cual garantiza que los
términos con mayor frecuencia se encuentran fuertemente
relacionados con la palabra a desambiguar, caso contrario a la
técnica ETNS. Los espacios vacíos en la Tabla I indican que
los autores no reportan los resultados en términos de precision
o recall.
TABLA II. NÚMERO DE CLASES Y PALABRAS OBTENIDAS POR
CONJUNTO DE TEXTO DE PRUEBA.
Deportes
Finanzas
BNC
Supervisado
Clases
Promedio
de palabras
por clase
154
383.2
165
405.6
218
274.8
VI.
No supervisado
Clases
Promedio
de palabras
por clase
41
3320.5
41
1881.0
41
1547.1
DISCUSION
El objetivo de las técnicas ETS y ETNS es expandir el
contexto donde ocurre la palabra ambigua usando el conjunto
de texto de prueba. ETS añade términos tomando ventaja de la
acepción asignada a cada instancia ambigua. Por otro lado,
ETNS agrupa contextos de instancias ambiguas que
pertenecen a la misma palabra ambigua . Ambas técnicas
obtienen valores de precisión y recall competitivos en relación
con lo reportado en la literatura. Sin embargo, PMI mide
mejor la correlación entre pares de términos que . La Tabla
II muestra cómo se relaciona el número de acepciones (clases)
encontradas por dominio en el enfoque ETS, con los
resultados de precision y recall obtenidos en los experimentos
(Tabla I). Por ejemplo, el dominio de Deportes tiene un menor
número de acepciones, seguido por Finanzas y BNC. Los
resultados obtenidos en términos de precision y recall siguen
este mismo orden. Es decir, la probabilidad de que una palabra
sea desambiguada en el dominio de Deportes es más alta
comparada con Finanzas y BNC.
Es importante mencionar que BNC no es un conjunto de
textos de dominio específico. Sin embargo las técnicas de
expansión de términos muestran que los términos recuperados
desde el conjunto de texto de prueba mejoran la tarea DSP aún
cuando el conjunto de texto de prueba no es de dominio
específico. De la misma manera los resultados obtenidos por
Rojas-lopez et al. [23] y los resultados presentados por
Koeling et al. [5] muestran el mismo comportamiento a
excepción de los resultados presentados por Navigli et al.
[10].
VII.
técnicas de Expansión de Términos Supervisada y No
Supervisada. La técnica supervisada sugiere que los términos
que pertenecen a sentencias cuyas palabras ambiguas
pertenecen a la misma acepción contribuyen fuertemente en el
proceso de desambiguación del sentido de la palabra. Por lo
tanto es de nuestro interés implementar a futuro una técnica de
agrupación de textos cortos como la propuesta por Pedersen
[26] para agrupar de una manera no supervisada contextos
relacionados con las sentencias donde ocurre la palabra
ambigua. De acuerdo con los resultados obtenidos, no
podemos afirmar que PMI tiene un mejor comportamiento que
para medir la correlación entre términos porque el número
de palabras presentes en cada clase es pequeño, por lo tanto
existe una menor frecuencia. En consecuencia, como trabajo
futuro implementaremos también una técnica de agrupación
para recuperar contextos relacionados con las instancias
en un
ambiguas y evaluar el comportamiento de PMI y
conjunto de contextos de mayor tamaño.
REFERENCIAS
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
CONCLUSIONES
En este estudio fueron explorados dos métodos para ponderar
el grado de correlación entre pares de términos dentro de la
tarea muestra léxica de DSP. Los métodos implementan las
[12]
[13]
S. Pradhan, E. Loper, D. Dligach, and M. Palmer, "Semeval-2007
task-17: English lexical sample, SRL and all words", In Proceedings
of the Fourth International Workshop on Semantic Evaluations, pp.
87-92, 2007.
R. Navigli, "Word sense disambiguation: A survey", ACM Computing
Surveys, 2009.
D. McCarthy, "Word Sense Disambiguation: An Overview",
Language and Linguistics Compass, pp. 537-558, 2009.
E. Gerard, M. Lluís, and R. German, "An Empirical Study of the
Domain Dependence of Supervised Word Sense Disambiguation
Systems", Proceedings of the 2000 Joint SIGDAT conference on
Empirical methods in natural language processing and very large
corpora: held in conjunction with the 38th Annual Meeting of the
Association for Computational Linguistics, vol. 13, pp. 172-180, 2000.
R. Koeling, D. McCarthy, and J. Carroll, "Domain-specific sense
distributions and predominant sense acquisition", Association for
Computational Linguistics, no. 8, pp. 419-426, 2005.
J. Tejeda-Carcamo, H. Calvo, A. Gelbukh, and K. Hara,
"Unsupervised WSD by finding the predominant sense using context
as a dynamic thesaurus", Journal of Computer Science and
Technology, vol. 25, no. 5, p. 10, Sep. 2010.
D. McCarthy, R. Koeling, J. Weeds, and J. Carroll, "Unsupervised
Acquisition of Predominant Word Senses", Computational Linguistics,
vol. 33, no. 4, 2007.
Y. Guo, W. Che, T. Liu, and S. Li, "Semi-supervised domain
adaptation for WSD: Using a word-by-word model selection
approach", Proceedings 9th IEEE International Conference on
Cognitive Informatics, p. 680–687, 2010.
S. Faralli and R. Navigli, "A New Minimally-Supervised Framework
for Domain Word Sense Disambiguation", Proceedings of the 2012
Joint Conference on Empirical Methods in Natural Language
Processing and Computational Natural Language Learning, 2012,
July 12-14, 2012, Jeju Island, Korea, pp. 1411-1422, 2012.
R. Navigli, S. Faralli, A. Soroa, O. de Lacalle, and E. Agirre "Two
birds with one stone: learning semantic models for text categorization
and word sense disambiguation", Proceedings of the 20th ACM
international conference on Information and knowledge management,
pp. 2317-2320, 2011.
E. Agirre, O. De lacalle, and A. Soroa, "Knowledge-based WSD on
specific domains: performing better than generic supervised WSD",
Proceedings of the 21st International Jont Conference on Artifical
Intelligence, pp. 1501-1506, 2009.
K. Church and Hanks, "Word association norms, mutual information,
and lexicography", vol. 16, pp. 22-29, 1990.
C. D. Manning and H. Schütze, Foundations of Statistical Natural
Language Processing. MIT Press, 1999.
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
[25]
[26]
J. Tuominen, K. Viljanen, E. Hyvönen, and T. Kauppinen, "OntologyBased Query Expansion Widget for Information Retrieval",
Proceedings of the 5th Workshop on Scripting and Development for
the Semantic Web, 6th European Semantic Web Conference, 2009.
N.-L. Tesao, D. Wible, and C.-H. Kuo, "Feature expansion for word
sense disambiguation", Natural Language Processing and Knowledge
Engineering, 2003. Proceedings. 2003 International Conference on,
pp. 126-131, 2003.
F. Tacoa, D. Bollegala, and M. Ishizuka, "A Context Expansion
Method for Supervised Word Sense Disambiguation", Sixth IEEE
International Conference on Semantic Computing, 2012.
S. Banerjee and T. Pedersen, "An Adapted Lesk Algorithm for Word
Sense Disambiguation Using WordNet", In CICLing 2002 conference,
vol. 2276, pp. 136-145, 2002.
D. Pinto, P. Rosso, and H. Jiménez-Salazar, "UPV-SI: word sense
induction using self term expansion", Proceedings of the 4th
International Workshop on Semantic Evaluations, pp. 430-433, 2007.
Y. S. Chan and H. T. Ng, "Domain Adaptation with Active Learning
for Word Sense Disambiguation", Association for Computational
Linguistics, pp. 49-56, Jun. 2007.
E. Agirre and O. de La calle, "On robustness and domain adaptation
using SVD for word sense disambiguation", Proceedings of the 22nd
International Conference on Computational Linguistics, vol. 1, pp. 1724, 2008.
D. Lin, "Automatic retrieval and clustering of similar words",
Proceedings of the 17th International Conference on Computational
Linguistics, vol. 2, pp. 768-774, 1998.
M. Lesk, "Automatic Sense Disambiguation Using Machine Readable
Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone",
Proceedings of SIGDOC, pp. 24-26, 1986.
F. Rojas-Lopez, I. Lopez-Arevalo, and V. J. Sosa-Sosa, "Improving
selection of synsets for domain-specific Word Sense Disambiguation",
Submitted to Language Resources and Evaluation, Springer, 2013.
Y. Yang and J. Pedersen, "A Comparative Study on Feature Selection
in Text Categorization", Proceedings of the Fourteenth International
Conference on Machine Learning, pp. 412-420, 1997.
K. Toutanova, D. Klein, C. D. Manning, and Y. Singer, "Feature-Rich
Part-of-Speech Tagging with a Cyclic Dependency Network", HLTNAACL, 2003.
T. Pedersen, "Computational Approaches to Measuring the Similarity
of Short Contexts : A Review of Applications and Methods",
Computing Research Repository, vol. abs/0806.3787, 2008.
Franco Rojas-Lopez received his Master degree in Computer
Science from Benemérita Universidad Autónoma de Puebla
and his Ph.D. in Computer Science from CinvestavTamaulipas. He is associate professor at Universidad
Politécnica Metropolitana de Puebla. His current research
interests are Semantic Web, Information Retrieval and Knowledge
Representation and Management.
Ivan Lopez-Arevalo is a full-time research-professor at the
Information Technology Lab at Center for Research and
Advanced Studies of the National Polytechnic Institute of
Mexico (Cinvestav-Tamaulipas). He received a Ph.D. degree in
Computing from Technical University of Catalonia (UPC,
Barcelona). His research interests include different topics from data analysis
on databases, Web and social networks, such as data mining, text mining, and
knowledge representation and management. His work also includes soft
computing in engineering.
David Pinto is a full-time research-professor in the Faculty of
Computer Science at the Benemérita Universidad Autónoma de
Puebla (BUAP). He received his Ph.D. degree in Pattern
Recognition & Artificial Intelligence from the Universidad
Politécnica de Valencia (UPV, Spain). His research interests
include different topics from information retrieval, clustering and analysis of
short texts, machine reading evaluation, question-answering. He is the founder
and the actual chief of the Language & Knowledge Engineering Lab at
BUAP.
Victor J. Sosa-Sosa is a full-time research-professor at Center
for Research and Advanced Studies of the National Polytechnic
Institute of Mexico (Cinvestav), campus Tamaulipas. He has a
PhD in Computer Science from Technical University of
Catalonia (UPC-Barcelona), was a visiting researcher in the Database and
Information System group at Max Planck Institute für Informatik in Germany
(Sep/12-Jul/13), his research interest and specialization areas are Databases
and Distributed Systems. His work is focused on large scale information
search (surface and deep Web), information extraction, integration (Web
databases) and cloud storage.
Descargar