Búsqueda respuestas basada en conocimiento Descripción del sistema En esta contribución se describe el sistema AliQAn (Alicante Question Answering), un sistema de búsqueda de respuesta (BR) monolingüe de dominio abierto para castellano. Éste se basa fundamentalmente en el uso de patrones sintácticos para identificar las posibles respuestas. Además, se aplica una nueva propuesta de desambiguación del sentido de los nombres con el objetivo de mejorar la precisión global. Nuestro enfoque se basa en el análisis sintáctico y semántico de las preguntas y documentos. Se utilizan las siguientes herramientas: MACO (análisis morfosintáctico), SUPAR (análisis sintáctico parcial), IR-n (sistema de recuperación de información basado en pasajes) y EuroWordNet (EWN). Como en la mayoría de los sistemas de BR, AliQAn está compuesto de tres fases principales: análisis de la pregunta, selección de pasajes relevantes y extracción de la respuesta. AliQAn ha sido presentado en la competición CLEF 2005, obteniendo una precisión del 33% en la tarea monolingüe para el castellano. En el proceso de entrenamiento se ha utilizado un conjunto de 400 preguntas correspondientes al CLEF 2003 y 2004, obteniendo respectivamente una precisión del 42% y 33.5%1. La propuesta de desambiguación utilizada en AliQAn está basada en el algoritmo de Agirre y Rigau2. Utilizando este algoritmo hemos observado un decremento del 4.7% en el MRR del sistema. Debido a ello, hemos propuesto unas variaciones en ese algoritmo: 1) la elección de un conjunto de synsets (el 40% del conjunto inicial), al contrario del uso tradicional que tan sólo consideraba uno; 2) la desambiguación de los nombres no contenidos en EWN entre los synsets de Persona, Objeto, LugarTierra y LugarConstrucción. Considerando estas variantes, la precisión se ve incrementada en un 6,3% con respecto al algoritmo original sin desambiguación y un 11% con respecto al propuesto2. Tomando como baseline el sistema AliQAn, se están desarrollando tres nuevas líneas de investigación: Búsqueda de respuestas multilingüe, Búsqueda de respuestas basadas en inferencia de conocimiento y Búsqueda de respuestas en dominios restringidos. El objetivo de la primera línea de investigación es el desarrollo de un sistema automático de BR multilingüe (español, inglés, catalán), en donde el efecto negativo de la traducción perturbe lo menos posible la precisión. Para conseguir este propósito en lugar de realizar una traducción de la pregunta al idioma en el cual vamos a buscar la respuesta, como hacen la mayoría de sistemas, se utilizará el Inter Lingual Index (ILI) module de EWN, apoyándonos en el proceso de desambiguación, para poder referenciar palabras de idiomas diferentes. La segunda línea de investigación se centra en el estudio del impacto de las técnicas de razonamiento en la precisión de los sistemas de BR. Como resultado se pretende 1 Notese que la precisión obtenida para el 2005 no contempla las respuestas inexactas recuperadas por AliQAn. 2 E. Agirre and G. Rigau. A proposal for word sense disambiguation using conceptual distance. 1st. Intl. Conf. On recent Advance in NLP. Bulgaria, 1995. desarrollar un mecanismo de representación del conocimiento independiente del lenguaje, un método de justificación de la respuesta obtenida por el sistema de BR, un desarrollo de técnicas para aumentar la exactitud en la clasificación de la pregunta y un proceso más robusto de obtención de información de la pregunta para ser utilizada en fases posteriores del sistema, entre otros objetivos. La última de las líneas de investigación mencionadas, se dibuja sobre la base de desarrollar los mecanismos que nos permitan mejorar la precisión de un sistema de BR de dominio abierto cuando éste trabaje sobre un dominio restringido. Es decir, consistirá en el desarrollo de las técnicas automáticas que nos faciliten el proceso de adaptación de un sistema de BR (en este caso AliQAn) a un dominio concreto, como podrían ser los dominios médicos o geográficos. Esto implicará que tras la aplicación de este proceso automático, se mejore la precisión del sistema de BR de dominio abierto. Es importante pensar en unos resultados óptimos, es necesario matizar que la precisión tendrá que estar por encima de un porcentaje mínimo definido a priori, para poder llevar a la práctica su aplicabilidad en el mundo laboral. Sandra Roger Sergio Ferrández Pilar López Antonio Ferrández