Búsqueda respuestas basada en conocimiento

Anuncio
Búsqueda respuestas basada en conocimiento
Descripción del sistema
En esta contribución se describe el sistema AliQAn (Alicante Question Answering), un
sistema de búsqueda de respuesta (BR) monolingüe de dominio abierto para castellano.
Éste se basa fundamentalmente en el uso de patrones sintácticos para identificar las
posibles respuestas. Además, se aplica una nueva propuesta de desambiguación del
sentido de los nombres con el objetivo de mejorar la precisión global.
Nuestro enfoque se basa en el análisis sintáctico y semántico de las preguntas y
documentos. Se utilizan las siguientes herramientas: MACO (análisis morfosintáctico),
SUPAR (análisis sintáctico parcial), IR-n (sistema de recuperación de información
basado en pasajes) y EuroWordNet (EWN). Como en la mayoría de los sistemas de
BR, AliQAn está compuesto de tres fases principales: análisis de la pregunta, selección
de pasajes relevantes y extracción de la respuesta.
AliQAn ha sido presentado en la competición CLEF 2005, obteniendo una precisión del
33% en la tarea monolingüe para el castellano. En el proceso de entrenamiento se ha
utilizado un conjunto de 400 preguntas correspondientes al CLEF 2003 y 2004,
obteniendo respectivamente una precisión del 42% y 33.5%1.
La propuesta de desambiguación utilizada en AliQAn está basada en el algoritmo de
Agirre y Rigau2. Utilizando este algoritmo hemos observado un decremento del 4.7% en
el MRR del sistema. Debido a ello, hemos propuesto unas variaciones en ese algoritmo:
1) la elección de un conjunto de synsets (el 40% del conjunto inicial), al contrario del
uso tradicional que tan sólo consideraba uno; 2) la desambiguación de los nombres no
contenidos en EWN entre los synsets de Persona, Objeto, LugarTierra y
LugarConstrucción. Considerando estas variantes, la precisión se ve incrementada en
un 6,3% con respecto al algoritmo original sin desambiguación y un 11% con respecto
al propuesto2.
Tomando como baseline el sistema AliQAn, se están desarrollando tres nuevas líneas de
investigación: Búsqueda de respuestas multilingüe, Búsqueda de respuestas basadas en
inferencia de conocimiento y Búsqueda de respuestas en dominios restringidos.
El objetivo de la primera línea de investigación es el desarrollo de un sistema
automático de BR multilingüe (español, inglés, catalán), en donde el efecto negativo de
la traducción perturbe lo menos posible la precisión. Para conseguir este propósito en
lugar de realizar una traducción de la pregunta al idioma en el cual vamos a buscar la
respuesta, como hacen la mayoría de sistemas, se utilizará el Inter Lingual Index (ILI)
module de EWN, apoyándonos en el proceso de desambiguación, para poder referenciar
palabras de idiomas diferentes.
La segunda línea de investigación se centra en el estudio del impacto de las técnicas de
razonamiento en la precisión de los sistemas de BR. Como resultado se pretende
1
Notese que la precisión obtenida para el 2005 no contempla las respuestas inexactas recuperadas por
AliQAn.
2
E. Agirre and G. Rigau. A proposal for word sense disambiguation using conceptual distance. 1st. Intl.
Conf. On recent Advance in NLP. Bulgaria, 1995.
desarrollar un mecanismo de representación del conocimiento independiente del
lenguaje, un método de justificación de la respuesta obtenida por el sistema de BR, un
desarrollo de técnicas para aumentar la exactitud en la clasificación de la pregunta y un
proceso más robusto de obtención de información de la pregunta para ser utilizada en
fases posteriores del sistema, entre otros objetivos.
La última de las líneas de investigación mencionadas, se dibuja sobre la base de
desarrollar los mecanismos que nos permitan mejorar la precisión de un sistema de BR
de dominio abierto cuando éste trabaje sobre un dominio restringido. Es decir, consistirá
en el desarrollo de las técnicas automáticas que nos faciliten el proceso de adaptación de
un sistema de BR (en este caso AliQAn) a un dominio concreto, como podrían ser los
dominios médicos o geográficos. Esto implicará que tras la aplicación de este proceso
automático, se mejore la precisión del sistema de BR de dominio abierto. Es importante
pensar en unos resultados óptimos, es necesario matizar que la precisión tendrá que
estar por encima de un porcentaje mínimo definido a priori, para poder llevar a la
práctica su aplicabilidad en el mundo laboral.
Sandra Roger
Sergio Ferrández
Pilar López
Antonio Ferrández
Descargar