XXIII Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural Universidad de Sevilla 10, 11 y 12 de septiembre de 2007 EDITORES Víctor J. Díaz Madrigal (Univ. de Sevilla) Fernando Enríquez de Salamanca Ros (Univ. de Sevilla) COMITÉ CIENTÍFICO PRESIDENTE Prof. Víctor Jesús Díaz Madrigal (Universidad de Sevilla) MIEMBROS Prof. José Gabriel Amores Carredano (Universidad de Sevilla) Prof. Toni Badia i Cardús (Universitat Pompeu Fabra) Prof.ª Irene Castellón Masalles (Universitat de Barcelona) Prof. Manuel de Buenaga Rodríguez (Universidad Europea de Madrid) Prof. Ricardo de Córdoba (Universidad Politécnica de Madrid) Prof.ª Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea) Prof. Antonio Ferrández Rodríguez (Universitat d'Alacant) Prof. Mikel Forcada Zubizarreta (Universitat d'Alacant) Prof.ª Ana María García Serrano (Universidad Politécnica de Madrid) Prof. Koldo Gojenola Galletebeitia (Euskal Herriko Unibertsitatea) Prof. Xavier Gómez Guinovart (Universidade de Vigo) Prof. Julio Gonzalo Arroyo (Universidad Nacional de Educación a Distancia) Prof. José Miguel Goñi Menoyo (Universidad Politécnica de Madrid) Prof. Ramón López-Cózar Delgado (Universidad de Granada) Prof. Javier Macías Guarasa (Universidad Politécnica de Madrid) Prof. José B. Mariño Acebal (Universitat Politècnica de Catalunya) Prof.ª M. Antonia Martí Antonín (Universitat de Barcelona) Profª. Raquel Martínez (Universidad Nacional de Educación a Distancia) Prof. Antonio Molina Marco (Universitat Politècnica de Valencia) Prof. Juan Manuel Montero (Universidad Politécnica de Madrid) Prof.ª Lidia Ana Moreno Boronat (Universitat Politècnica de Valencia) Prof. Lluis Padró (Universitat Politècnica de Catalunya) Prof. Manuel Palomar Sanz (Universitat d'Alacant) Prof. Germán Rigau (Euskal Herriko Unibertsitatea) Prof. Horacio Rodríguez Hontoria (Universitat Politècnica de Catalunya) Prof. Emilio Sanchís (Universitat Politécnica de Valencia) Prof. Kepa Sarasola Gabiola (Euskal Herriko Unibertsitatea) Prof. L. Alfonso Ureña López (Universidad de Jaén) Prof. Ferrán Pla (Universitat Politècnica de Valencia) Prof.ª Mª Felisa Verdejo Maillo (Universidad Nacional de Educación a Distancia) Prof. Manuel Vilares Ferro (Universidade de Vigo) Revisores Externos Iñaki Alegria, Laura Alonso Alemany, Kepa Bengoetxea, Zoraida Callejas Carrión, Francisco Carrero, Vicente Carrillo Montero, Fermín Cruz Mata, Víctor Manuel Darriba Bilbao, César de Pablo Sánchez, Fernando Enríquez de Salamanca Ros, Milagros Fernández Gavilanes, Ana Fernández Montraveta, Óscar Ferrández, Sergio Ferrández, Miguel Ángel García Cumbreras, Manuel García Vega, Rubén Izquierdo Beviá, Zornitsa Kozareva, Sara Lana Serrano, Mikel Lersundi, Lluis Márquez, María Teresa Martín Valdivia, José Luis Martínez Fernández, Germán Montoro Manrique, Andrés Montoyo Guijarro, Iulia Nica, Francisco Javier Ortega Rodríguez, Jesús Peral Cortés, Enrique Puertas, Francisco José Ribadas Pena, Estela Saquete Boró, José Antonio Troyano Jiménez, Gloria Vázquez. COMITÉ ORGANIZADOR PRESIDENTE Víctor Jesús Díaz Madrigal MIEMBROS Adolfo Aumaitre del Rey Rafael Borrego Ropero José Miguel Cañete Valdeón Vicente Carrillo Montero Fermín Cruz Mata Fernando Enríquez de Salamanca Ros Francisco José Galán Morillo Carlos García Vallejo Fco. Javier Ortega Rodríguez Luisa María Romero Moreno José Antonio Troyano Jiménez Preámbulo El ejemplar número 39 de la revista de la Sociedad Española para el Procesamiento del Lenguaje Natural contiene los artículos científicos - más los resúmenes de proyectos de investigación y de demostraciones de herramientas - aceptados por el Comité Científico para su presentación en el XXIII Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN'07). Esta edición del congreso ha sido organizada por miembros del departamento de Lenguajes y Sistemas Informáticos de la Universidad de Sevilla en la Escuela Técnica Superior de Ingeniería Informática. El número de artículos de investigación recibido junto con la continuidad en la celebración anual del congreso, ésta es la vigésimo tercera edición ininterrumpida, no hacen más que constatar el interés y la actualidad que disfruta hoy en día la investigación en el campo de las Tecnologías de la Lengua. Estas actas recogen 32 artículos científicos que podemos agrupar de forma no categórica y excluyente en las siguientes áreas temáticas: Análisis Morfosintáctico (4 trabajos), Búsqueda de Respuestas (2 trabajos), Categorización de Textos (3 trabajos), Extracción de Información (5 trabajos), Lexicografía Computacional (4 trabajos), Lingüística de Corpus (4 trabajos), Semántica (4 trabajos), Sistemas de Diálogo (2 trabajos) y Traducción Automática (4 trabajos). Se recibieron un total de 49 trabajos de los cuales tan sólo las 32 contribuciones mencionadas (65 por ciento) obtuvieron la aprobación global del Comité Científico. Cada uno de los trabajos recibidos fue revisado por 3 miembros del Comité Científico. Además, y como viene siendo habitual, en las actas se incluyen dos resúmenes presentando proyectos de investigación y nueve resúmenes presentando demostraciones de herramientas de uso específico para tareas relacionadas con el Procesamiento del Lenguaje Natural. Esta edición del congreso cuenta con 2 conferencias invitadas a cargo del Dr. D. Antal van den Bosch (Universidad de Tilburg) y del Dr. D. Anselmo Peñas (Universidad Nacional de Educación a Distancia). Este año se da la peculiaridad de que durante los días 11 y 12 de septiembre, en paralelo con el congreso, se celebran las Jornadas de la Red Temática para el Tratamiento de la Información Multilingüe y Multimodal. En el seno de dichas jornadas se incluye la conferencia invitada a cargo del Dr. D. Ralf Steinberger (Joint Research Centre). No quiero acabar estas líneas sin dar las gracias a los patrocinadores del congreso ya que sin su apoyo financiero o logístico hubiera sido muy difícil organizarlo. No puedo tampoco dejar de agradecer el esfuerzo y las facilidades de las que he sido objeto por parte de todos los miembros del Comité Científico y del Órgano de Gobierno de la Sociedad. Finalmente, me gustaría acabar recordando a todos mis compañeros del grupo de investigación ITÁLICA por el trabajo adicional que ha supuesto la preparación de este evento. Víctor Jesús Díaz Madrigal Presidente del Comité de Programa de XXIII Congreso de la SEPLN Procesamiento del Lenguaje Natural, nº 39, septiembre 2007 ISSN 1135-5948 Sociedad Española para el Procesamiento del Lenguaje Natural ______________________________________________________________________________________________ ARTÍCULOS Análisis Morfosintáctico Desarrollo de un Analizador Sintáctico Estadístico basado en Dependencias para el Euskera Kepa Bengoetxea y Koldo Gojenola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Técnicas Deductivas para el Análisis Sintáctico con Corrección de Errores Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 A Simple Formalism for Capturing Order and Co-Occurrence in Computational Morphology Mans Hulden y Shannon Bischoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 A Note on the Complexity of the Recognition Problem for the Minimalist Grammars with Unbounded Scrambling and Barriers Alexander Perekrestenko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Búsqueda de Respuestas Paraphrase Extraction from Validated Question Answering Corpora in Spanish Jesús Herrera, Anselmo Peñas y Felisa Verdejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Evaluación de Sistemas de Búsqueda de Respuestas con restricción de tiempo Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Categorización de Textos Medidas Internas y Externas en el Agrupamiento de Resúmenes Científicos de Dominios Reducidos Diego Ingaramo, Marcelo Errecalde y Paolo Rosso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Integración de Conocimiento en un Dominio Epecífico para Categorización Multietiqueta María Teresa Martín, Manuel Carlos Díaz, Arturo Montejo y L. Alfonso Ureña-López . . . . . . . . . . . . . . . . . . . . 63 Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web Xabier Saralegi y Iñaki Alegria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Extracción de Información The Influence of Context during the Categorization and Discrimination of Spanish and Portuguese Person Names. Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Studying CSSR Algorithm Applicability on NLP Tasks Muntsa Padró y Lluis Padró . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aprendizaje Atomático para el Reconocimiento Temporal Multilingüe basado en TiMBL Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Alias Assignment in Information Extraction Emili Sapena, Lluis Padró y Jordi Turmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lexicografía Computacional Inducción de Clases de Comportamiento Verbal a partir del Corpus SENSEM Laura Alonso, Irene Castellón y Nevena Tinkova . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . An Open-Source Lexicon for Spanish Montserrat Marimon, Natalia Seghezzi y Núria Bel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Towards Quantitative Concept Analysis Rogelio Nazar, Jorge Vivaldi y Leo Wanner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Evaluación Atomática de un Sistema Híbrido de Predicción de Palabras y Expansiones Sira Elena Palazuelos, José Luis Martín y Javier Macías . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural 81 89 97 105 113 123 131 139 147 Procesamiento del Lenguaje Natural, nº 39, septiembre 2007 ISSN 1135-5948 Lingüística de Corpus Specification of a General Linguistic Annotation Framework and its Use in a Real Context Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Cor Gloria Corpas y Miriam Seghiri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Generación Semiautomática de Recursos Fernando Enríquez, José Antonio Troyano, Fermín Cruz y F. Javier Ortega . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Building Corpora for the Development of a Dependency Parser for Spanish Using Maltparser Jesús Herrera, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero . . . . . . . . . . . . . . . . . . . . . . . . . . Semántica A Proposal of Automatic Selection of Coarse-grained Semantic Classes for WSD Rubén Izquierdo-Bevia, Armando Suárez y Germán Rigau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cognitive Modules of an NLP Knowledge Base for Language Understanding Carlos Periñán-Pascual y Francisco Arcas-Túnez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Text as Scene: Discourse Deixis and Bridging Relations Marta Recasens, Antonia Martí Antonín y Mariona Taulé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Definición de una Metodología para la Construcción de Sistemas de Organización del Conocimiento a partir de un Corpus Documental en Lenguaje Natural Sonia Sánchez-Cuadrado, Jorge Morato, José Antonio Moreiro y Monica Marrero . . . . . . . . . . . . . . . . . . . . . . . . 157 165 173 181 189 197 205 213 Sistemas de Diálogo Prediction of Dialogue Acts on the Basis of the Previous Act Sergio R. Coria y Luis Alberto Pineda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 Adaptación de un Gestor de Diálogo Estadístico a una Nueva Tarea David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchís . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 Traducción Automática Un Método de Extracción de Equivalentes de Traducción a partir de un Corpus Comparable Castellano-Gallego Pablo Gamallo y José Ramom Pichel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 Flexible Statistical Construction of Bilingual Dictionaries Ismael Pascual y Michael O'Donnell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 Training Part-of-Speech Taggers to build Machine Translation Systems for Less-Resourced Language Pairs Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada . . . . . . . . . . . 257 Parallel Corpora based Translation Resources Extraction Alberto Simões y José João Almeida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 DEMOSTRACIONES Una Herramienta para la Manipulación de Corpora Bilingüe usando Distancia Lexica Rafael Borrego y Víctor J. Díaz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MyVoice goes Spanish. Cross-lingual Adaptation of a Voice Controlled PC Tool for Handicapped People Zoraida Callejas, Jan Nouza, Petr Cerva y Ramón López-Cózar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . HistoCat y DialCat: Extensiones de un Analizador Morfológico para tratar Textos Históricos y Dialectales del Catalán Jordi Duran, Mª Antonia Martí y Pilar Perea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MorphOz: Una Plataforma de Desarrollo de Analizadores Sintáctico-Semánticos Multilingüe Oscar García . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sistema de Diálogo Estadístico y Adquisición de un Nuevo Corpus de Diálogos David Griol, Encarna Segarra, Lluis. F. Hurtado, Francisco Torres, María José Castro, Fernando García y Emilio Sanchís . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . JBeaver: Un Analizador de Dependencias para el Español Jesús Herrera, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero . . . . . . . . . . . . . . . . . . . . . . . . . . NowOnWeb: a NewsIR System Javier Parapar y Álvaro Barreiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . The Coruña Corpus Tool Javier Parapar y Isabel Moskowich-Spiegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . WebJspell, an Online Morphological Analyser and Spell Checker Rui Vilela . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 277 279 281 283 285 287 289 291 PROYECTOS El Proyecto Gari-Coter en el Seno del Proyecto RICOTERM2 Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río y Susana Sotelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 Portal da Lingua Portuguesa Maarten Janssen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural ARTÍCULOS Análisis Morfosintáctico Procesamiento del Lenguaje Natural, nº39 (2007), pp. 5-12 recibido 18-05-2007; aceptado 22-06-2007 Desarrollo de un analizador sintáctico estadístico basado en dependencias para el euskera Kepa Bengoetxea, Koldo Gojenola Universidad del País Vasco UPV/EHU Escuela Universitaria de Ingeniería Técnica Industrial de Bilbao {kepa.bengoetxea, koldo.gojenola}@ehu.es Resumen: Este artículo presenta los primeros pasos dados para la obtención de un analizador sintáctico estadístico para el euskera. El sistema se basa en un treebank anotado sintácticamente mediante dependencias y la adaptación del analizador sintáctico determinista de Nivre et al. (2007), que mediante un análisis por desplazamiento/reducción y un sistema basado en aprendizaje automático para determinar cuál de 4 opciones debe realizar, obtiene un único análisis sintáctico de la oración. Los resultados obtenidos se encuentran cerca de los obtenidos por sistemas similares. Palabras clave: Análisis sintáctico. Análisis basado en dependencias. Treebank. Abstract: This paper presents the first steps towards a statistical syntactic analyzer for Basque. The system is based on a syntactically dependency annotated treebank and an adaptation of the deterministic syntactic analyzer of Nivre et al. (2007), which relies on a shift/reduce deterministic analyzer together with a machine learning module that determines which one of 4 analysis options to take, giving a unique syntactic dependency analysis of an input sentence. The results are near to those obtained by similar systems. Keywords: Syntactic analysis. Dependency-based analysis. Treebank. 1 Introducción Este artículo presenta los primeros pasos dados para la obtención de un analizador sintáctico estadístico para el euskera. El sistema se basa en un treebank anotado sintácticamente mediante dependencias y la adaptación del analizador sintáctico determinista MaltParser (Nivre et al., 2007), que mediante un análisis por desplazamiento/reducción y un sistema basado en aprendizaje automático para determinar, en cada paso de análisis, cuál de 4 opciones debe realizar, obtiene un único análisis sintáctico de la oración. Los resultados obtenidos se encuentran cerca de otros sistemas similares. En el resto del artículo presentaremos en el apartado 2 el treebank utilizado (3LB) que será la base del analizador sintáctico, y las modificaciones realizadas para su procesamiento de manera automática. El ISSN: 1135-5948 apartado 3 contextualiza los sistemas de análisis sintáctico estadístico, presentando el sistema elegido para este trabajo, que es el analizador determinista Maltparser. En la sección 4 se presentan los experimentos realizados junto con los resultados obtenidos. La sección 5 compara el trabajo realizado con sistemas similares que han sido desarrollados. El artículo acaba presentando las principales conclusiones y líneas futuras de trabajo. 2 3LB: un treebank anotado sintácticamente para el euskera El proyecto 3LB desarrolló corpus anotados a nivel morfológico y sintáctico para el catalán, euskera y español (Palomar et al., 2004). La anotación para el catalán y español está basada en constituyentes, mientras que el euskera está anotado mediante dependencias (Carroll, Minnen y Briscoe, 1998). Seguidamente se presentarán primero las © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Kepa Bengoetxea y Koldo Gojenola @@00,06,2,1201,6 Ika-mika baten ostean, funtzionarioak 14:00etan itzultzeko esan zien. (discusión) (de una) (después),(el funcionario) (a las 14) (volver) (decir) (él a ellos/pasado) Después de una discusión, el funcionario les dijo que volvieran a las 14:00. meta ncmod detmod ncsubj ncmod xcomp_obj auxmod (-, (gen_post_ine, (-, (erg, (ine, (konp, (-, root, esan, Ika-mika, esan, itzultzeko, esan, esan, esan) Ika-mika) baten_ostean) funtzionarioak) 14:00etan) itzultzeko) zien) Figura 1: Ejemplo de anotación de una oración. características generales del treebank original (apartado 2.1) y la adaptación que se hizo del treebank para convertirlo a un formato apropiado para el análisis automático (apartado 2.2). 2.1 2.2 La anotación original del treebank para el euskera, válida lingüísticamente, plantea varios problemas a la hora de ser usada en un tratamiento computacional: • Fenómenos como la aparición de palabras repetidas en una misma oración requieren la explicitación del elemento oracional correspondiente a cada aparición de la palabra, no presente en la anotación original • Elementos no explícitos. En la anotación original se permitió la anotación de elementos nulos correspondientes a fenómenos como la elipsis o coordinación. Sin embargo, la gran mayoría de los analizadores basados en dependencias actuales no admite la aparición de elementos que no corresponden a palabras de la oración. • Ambigüedad morfosintáctica. La anotación original se hizo enlazando palabras entre sí. Esta alternativa tiene el inconveniente de que, siendo cada palabra morfológicamente ambigua (cada palabra tiene una media de 2,81 interpretaciones), no se conoce con certeza cuál es la interpretación correcta. Aunque el tipo de dependencia que une dos palabras proporciona información útil para la desambiguación (por ejemplo, la dependencia “ncsubj” generalmente une el núcleo de un sintagma nominal, normalmente de categoría nombre, con un verbo), hay un alto grado de ambigüedad no resoluble automáticamente. La figura 1 muestra que las palabras no contienen ningún tipo de anotación morfosintáctica, a excepción de las dependencias. • Términos multipalabra. Al etiquetar el corpus, los lingüistas no disponían de una guía sistemática para la anotación de El treebank 3LB para el euskera El corpus 3LB (Palomar et al., 2004) contiene 57.000 palabras anotadas sintácticamente. Las características del euskera, como por ejemplo el orden libre de constituyentes de la oración, aconsejaron realizar una anotación mediante dependencias, de manera similar a la realizada para idiomas como el checo (Hajic, 1999), aunque también planteada para idiomas de orden menos libre como el inglés (Jarvinen y Tapanainen, 1998). La figura 1 muestra un ejemplo de anotación de una oración en el corpus 3LB. Básicamente, la anotación indica el tipo de dependencia (meta, ncsubj, …) seguida de tres atributos que representan: • Información morfosintáctica útil como es el caso, o el tipo de oración subordinada (konp1 en el ejemplo). Aunque la figura muestra que la anotación incluye una mínima información morfosintáctica, en general, la anotación está basada en palabras. Este hecho supuso un problema, ya que los analizadores sintácticos estadísticos requieren el uso de rasgos morfosintácticos (categoría, número, caso, …) no presentes en este corpus original. • Núcleo de la dependencia (con el valor especial root para indicar el núcleo de la oración). • Elemento dependiente. 1 Adaptación del treebank Oración subordinada completiva. 6 Desarrollo de un Analizador Sintáctico Estadístico basado en Dependencias para el Euskera P 1 2 3 4 5 6 7 8 9 Forma Ika-mika baten_ostean , funtzionarioak 14:00etan itzultzeko esan zien . Lema Ika-mika bat , funtzionario 14:00 itzuli esan *edun . Cat IZE IZE PUNT IZE DET ADI ADI ADL PUNT Cat+subcat IZE_ARR IZE_ARR PUNT_KOMA IZE_ARR DET_DZH ADI_SIN ADI_SIN ADL PUNT_PUNT Info Núcleo ABS|MG 7 DEK|GEN_oste_INE|NUMS|MUGM|POS 1 _ 2 ERG|NUMS|MUGM 7 NMGP|INE|NUMP|MUGM 6 ADIZE|KONPL|ABS|MG 7 PART|BURU 0 B1|NR_HURA|NK_HARK|NI_HAIEI 7 _ 8 Dependencia ncmod ncmod PUNC ncsubj ncmod xcomp_obj ROOT auxmod PUNC Figura 2: Ejemplo de anotación de una oración. ncmod ncsubj ncmod ncmod Ika-mika baten_ostean, funtzionarioak 14:00etan xcomp_obj itzultzeko esan zien. Figura 3: Representación gráfica del árbol de dependencias. estos elementos, que incluyen elementos como entidades, postposiciones complejas o locuciones. Esto dio lugar a que sea difícil emparejar las palabras del treebank con las de la oración original. Como ejemplo, la figura 1 muestra que la postposición compleja “baten ostean” se ha agrupado en una sola unidad. Por estos motivos se hizo imprescindible reetiquetar el corpus para obtener una versión tratable computacionalmente. Aunque se realizaron programas de ayuda al reetiquetado, este proceso fue muy costoso, al ser en su mayor parte manual, y exigió la revisión completa del treebank. Las figuras 2 y 3 muestran la oración anterior etiquetada en un formato de dependencias utilizable computacionalmente y su representación gráfica. El formato elegido es el de la conferencia CoNLL2 (CoNLL 2007), que tiene las siguientes características: • Componentes explícitos. Todas las relaciones deben ser de palabra a palabra, es decir, no se permite eliminar o añadir elementos a la oración en el análisis. • Es suficientemente versátil para permitir su conversión a otros formatos de manera automática, como el formato 2 Penn (Marcus, Santorini y Marcinkiewiecz, 1993) o el formato aceptado por el parser de (Collins et al. 1999). La figura 2 contiene un ejemplo de la sentencia en el nuevo formato. Este formato contiene ocho campos: posición (P), forma, lema, categoría (coarse postag), categoría + subcategoría, información morfosintáctica, identificador del núcleo y relación de dependencia. 3 Análisis sintáctico estadístico La popularidad de los Treebanks está ayudando al desarrollo de analizadores sintácticos estadísticos que empezó con el Penn Treebank para el inglés (Marcus, Santorini y Marcinkiewiecz, 1993), para el que se han desarrollado parsers de referencia (Collins, 1996; Charniak, 2000), que marcan el estado del arte actual. Aunque las características del inglés llevaron a una anotación inicial basada en constituyentes, diversos factores, fundamentalmente la extensión a idiomas de características muy diferentes al inglés y también la dificultad de evaluación de las estructuras jerárquicas subyacentes, han llevado a desarrollar modelos sintácticos basados en dependencias. El apartado 3.1 examinará brevemente los analizadores sintácticos basados en Computational Natural Language Learning. 7 Kepa Bengoetxea y Koldo Gojenola dependencias. En el punto 3.2 se describirá el analizador sintáctico de Nivre et al. (2007) que ha sido usado en el presente trabajo. paso, se obtiene un único análisis sintáctico de la oración. • Técnicas de aprendizaje automático discriminativas para enlazar historias con acciones. En este momento el sistema permite utilizar dos de las alternativas de aprendizaje automático más exitosas: aprendizaje basado en memoria (Memory Based Learning, Daelemans y Van den Bosch, 2005) y Support Vector Machines (SVM, Chang y Lin, 2001). Este analizador ha sido probado con multitud de idiomas de diversa tipología, obteniendo resultados que se acercan al estado del arte para el inglés, que es tomado generalmente como referencia y punto de comparación. En la competición CoNLL de 2007, una versión de este sistema ha quedado en primera posición, de un total de 20 sistemas presentados. 3.1 Análisis sintáctico basado en dependencias Los analizadores sintácticos basados en dependencias han sido utilizados en diversos trabajos, con propuestas que van desde analizadores que construyen directamente estructuras de dependencias (Jarvinen y Tapanainen 1998, Lin 1998) hasta otras que se basan en las tradicionales estructuras de constituyentes permitiendo adicionalmente la extracción de dependencias (Collins 1999; Briscoe, Carroll y Watson, 2006). Entre los analizadores estadísticos basados en dependencias podemos citar los experimentos realizados por (Eisner, 1996) y los trabajos realizados para el turco (Eryiğit y Oflazer, 2006), que comparte con el euskera la propiedad de ser un idioma aglutinativo. En general, los últimos años este tema ha sido avivado por la competición realizada en la conferencia CoNLL3 sobre analizadores de dependencias (CoNLL, 2006, 2007), en la que se plantea el reto de utilizar diferentes parsers para analizar un conjunto de treebanks de un amplio abanico de idiomas. 4 Experimentos y resultados En este apartado vamos a presentar los experimentos realizados junto con los resultados que se han obtenido. El primer paso consiste en seleccionar los atributos utilizados para el análisis sintáctico. Aunque el uso de una mayor cantidad de información puede en principio ayudar a mejorar los resultados, el tamaño del corpus usado (57.000 palabras) es pequeño, por lo que se pueden presentar problemas de data sparseness. El analizador usado permite especificar distintos tipos de información a utilizar para el entrenamiento, distinguiendo: • Información léxica. Se podrá usar tanto la forma como el lema de cada palabra. • Información categorial. Se puede seleccionar tanto la categoría sintáctica (nombre, adjetivo, verbo, …) como la subcategoría (nombre común, nombre propio, …). • Información morfosintáctica. El euskera presenta una gran variedad de informaciones de este tipo, incluyendo el caso y número para los elementos integrantes del sintagma nominal, o información de concordancia con sujeto, objeto directo e indirecto en verbos, así como distintos tipos de oraciones subordinadas. Entre los idiomas presentados a CoNLL (2007) es el 3.2 Maltparser: un analizador sintáctico estadístico determinista El analizador sintáctico determinista de Nivre et al. (2007) es un sistema independiente del lenguaje que permite inducir un parser o analizador sintáctico a partir de un treebank, usando conjuntos de datos de entrenamiento limitados. El analizador se basa en: • Algoritmos deterministas para análisis de dependencias. Mediante un análisis por desplazamiento/reducción y un sistema basado en el uso de una pila y una cadena de entrada. • Modelos de características basados en historia (History-based feature models) para predecir la acción a realizar. En este algoritmo concreto, el sistema debe elegir entre 4 opciones (enlazar dos palabras con un arco hacia la izquierda, ídem con arco hacia la derecha, reducir o desplazar), y para ello hace uso de los rasgos de la pila y/o de la cadena de entrada. Aplicando sucesivamente este 3 CoNLL (Computational Natural Language Learning) shared task on dependency parsing. 8 Desarrollo de un Analizador Sintáctico Estadístico basado en Dependencias para el Euskera idioma que presenta, de lejos, un mayor número de rasgos morfosintácticos (359). • Etiquetas de dependencia. Se ha definido un conjunto de 35 etiquetas. El analizador usado se basa en la técnica de reducción y desplazamiento utilizando, por tanto, una pila donde va añadiendo elementos de la cadena de entrada. Por ello, se pueden especificar elementos tanto de la pila como de la cadena de entrada para su uso en la fase de aprendizaje automático. Además, como el analizador va construyendo el árbol de dependencias, también se pueden especificar rasgos del antecesor o los descendientes de un elemento de la pila o del primer elemento que queda sin analizar de la cadena de entrada4. Especifica ción 1 p(σ0) 2 d(h(σ0)) 3 4 5 p(τ0) f(τ1) w(l(σ1)) núcleo, descendiente izquierdo y descendiente derecho, respectivamente. Estas etiquetas se pueden combinar para formar especificaciones más complejas, como en los ejemplos 1-5 de la tabla 1. Por ejemplo, la especificación número 5 de la tabla hace referencia a la forma del dependiente más a la izquierda del símbolo que se encuentra debajo del tope de la pila. Los datos del treebank se han separado en una parte para entrenamiento (50.123 palabras) y otra para la prueba final (gold test, 5.318 palabras5). Los experimentos se han analizado aplicando la técnica de 10 fold cross-validation sobre los datos de entrenamiento y finalmente sobre los datos del gold-test. Descripción Categoría del símbolo del tope de la pila Etiqueta de dependencia del símbolo del tope de la pila con su núcleo Categoría de la primera palabra de la cadena de entrada por analizar Rasgos morfosintácticos de la palabra siguiente a la primera de la cadena de entrada Forma de la palabra correspondiente al descendiente más a la izquierda del elemento debajo del tope de la pila. Características Φ1 Φ2 S(σ1) S(σ0) S(τ0) S(τ1) S(τ2) S(τ3) S(Oσ0 S(Oτ0 ZKσ0)) Zσ0) Z(τ0) Z(τ1) /σ0) /(τ0) /(τ1) GOσ0 Gσ0 GUσ0 GOτ0 Iτ0) I(σ0) IKσ0)) Tabla 2. Modelos de características. Tabla 1: Ejemplos de especificación de parámetros para el sistema de aprendizaje. En las pruebas efectuadas se ha querido valorar la importancia del uso de la información morfosintáctica para el entrenamiento, probando si el uso de dicha información mejora significativamente los resultados obtenidos por el parser. A la hora de seleccionar los atributos utilizados por el parser se han especificado los parámetros de la tabla 2 siguiendo las especificaciones de la tabla 1. Se han realizado múltiples pruebas con diferentes clases de parámetros. La tabla 2 muestra dos clases de pruebas que se han realizado. La columna Φ1 presenta la La tabla 1 muestra un ejemplo de especificación de los parámetros de aprendizaje del sistema. Se permite especificar elementos de la pila (σ) o de la cadena de entrada (τ), mediante su posición relativa (empezando desde el cero). Por ejemplo, la especificación 1 hace referencia a la categoría p(art of speech) del símbolo en el tope de la pila. Las etiquetas w(ord), L(ema), d(ependencia), h(ead), l(eft) y r(ight) se refieren a la forma, dependencia, al 4 5 Al ser el análisis de izquierda a derecha, solo el primer símbolo de la entrada puede tener antecesor o descendientes. Debido a errores en la conversión del treebank original, el número de palabras original se ha visto reducido respecto al total de palabras del corpus. 9 Kepa Bengoetxea y Koldo Gojenola combinación de características estándar usada por Nivre et al. (2007) para una gran variedad de lenguas. La columna Φ2 muestra la combinación más exitosa obtenida en el total de los experimentos, donde se han añadido rasgos correspondientes a información morfosintáctica. La tabla 3 muestra cómo el uso de información morfosintáctica presenta una mejora de 8 puntos en Labeled Attachment Score6 (LAS) de Φ1 sobre Φ2. Φ1 Φ2 10 fold cross-validation average 67,64 75,06 Gold-Test 65,08 74,41 Nº de rasgos 10 fold cross- Gold-test validation average (Φ2) 359 75,06 74,41 163 75,13 73,45 Tabla 4. Resultados (LAS) obtenidos al reducir el número de rasgos morfosintácticos. 5 Comparación con otros trabajos Este trabajo se enmarca en el ámbito del análisis sintáctico estadístico basado en dependencias, cuyo máximo exponente actualmente son las competiciones CoNLL 2006 y 2007. En cuanto a los resultados generales, el indicador de asignación de etiqueta correcta (Labeled Attachment Score, LAS) conseguido (74,41%) sitúa a nuestro sistema cerca de los mejores resultados presentados (76,94%). De hecho, este resultado iguala a los obtenidos con un único sistema, ya que el mejor resultado de CoNLL se da al combinar varios analizadores. En otro trabajo, Cowan y Collins (2005) presentan los resultados de aplicar el analizador de Collins al castellano, que presenta como novedad una mayor flexión que el inglés. El trabajo experimenta con el uso de diferentes tipos de información morfológica, concluyendo que esta información ayuda a mejorar los resultados del analizador. Eryiğit, Nivre, y Oflazer (2006) experimentan con el uso de distintos tipos de información morfológica para el análisis del turco, comprobando cómo el aumento de la riqueza de la información inicial aumenta la precisión. En un trabajo relacionado, Eryiğit y Oflazer (2006) comprueban que el uso de los morfemas como unidad de análisis (en vez de palabras) también mejora el analizador. Aranzabe, Arriola, y Díaz de Ilarraza (2004) están desarrollando un analizador sintáctico basado en dependencias para el euskera. Este analizador está basado en conocimiento lingüístico, donde la gramática se ha escrito en el formalismo Constraint Grammar (Tapanainen, 1996). No se tienen en este momento resultados publicados sobre la precisión y cobertura de este analizador, por lo que no es posible establecer comparaciones directas con el sistema aquí presentado. Tabla 3. Resultados obtenidos (LAS). Los experimentos anteriores se han realizado utilizando el corpus en su estado original y cambiando las especificaciones de los parámetros. Teniendo en cuenta que el número de rasgos morfológicos distintos para el euskera es el mayor de todos los idiomas presentados a CoNLL (359) hemos pensado en reducir su número teniendo en cuenta conocimiento específico del euskera, eliminando algunos rasgos que se han considerado poco significativos y unificando rasgos que se considera que tienen un comportamiento común de cara al análisis (por ejemplo, un subconjunto importante de las marcas de caso indican el mismo tipo de dependencia ncmod, modificador no clausal, por lo que decidimos agruparlas). Con esto se espera facilitar la tarea de aprendizaje y reducir el tiempo de aprendizaje y análisis. El resultado no muestra una mejoría (ver tabla 4), al no superar un LAS de 74,41% obtenido con un mayor conjunto de rasgos, aunque sí lo hace en cuanto al tiempo de entrenamiento y de análisis, siendo 3 y 8 veces más rápido, respectivamente. Aunque no se ha mostrado en las tablas, se ha comprobado, en concordancia con los resultados de Nivre et al. (2007), que el uso de SVM mejora los resultados de MBL cerca de un 3%. Por ello, los resultados presentados corresponden al uso de SVM. 6 Porcentaje de palabras en las que el sistema predice correctamente tanto su núcleo como la relación de dependencia existente entre ellos. 10 Desarrollo de un Analizador Sintáctico Estadístico basado en Dependencias para el Euskera 6 Conclusiones Este artículo ha presentado la preparación del treebank 3LB para el euskera para su tratamiento computacional, así como la adaptación del analizador de Nivre et al. (2007) al tratamiento del euskera. Este lenguaje presenta como características principales el orden libre de constituyentes de la oración y el uso de información morfosintáctica rica en comparación con otras lenguas. El trabajo presentado supone la primera aproximación al análisis sintáctico estadístico del euskera, en paralelo con la competición CoNLL 2007, en la que hemos colaborado en la fase de preparación de datos. Se han probado diferentes tipos de parámetros y algoritmos, obteniendo una precisión superior al 74%, que se acerca a los resultados obtenidos por los mejores sistemas de (CoNLL 2007) para la misma tarea. Se ha probado que incorporar distintos tipos de información morfosintáctica mejora notablemente los resultados. Entre las acciones para continuar esta investigación planteamos: • Análisis no proyectivo. Los algoritmos empleados en este trabajo requieren que las dependencias sean proyectivas, es decir, no puede haber arcos que se crucen. El análisis de los datos del euskera muestra que un 2,9% de las dependencias en el treebank son no proyectivas. Para estos casos, Nivre y Nilsson (2005) plantean un algoritmo que convierte arcos no proyectivos en proyectivos. Al ser el algoritmo reversible, permite volver el treebank a la configuración inicial después del análisis sintáctico, para realizar la evaluación final. Esta conversión permite usar algoritmos de análisis que en principio solo son válidos para la construcción de árboles proyectivos. • Hemos comprobado cómo una de las categorías sintácticas que peores resultados presenta es el nombre (LAS de 66%). Al ser el nombre una de las categorías más frecuentes, presenta un gran porcentaje del total de errores realizados (cerca del 50% de todos los errores). Una de las hipótesis que planteamos es que puede deberse al hecho de que el nombre es comúnmente enlazado con el verbo, pero la dependencia se hace en función del caso • • gramatical, que muchas veces pertenece a otra palabra7. Por ello estamos planteando la posibilidad de separar el caso gramatical como un elemento distinto, es decir, tomar morfemas como unidad de análisis. Esta idea aplicada a la alineación de textos en traducción automática ha producido mejoras significativas (Agirre et al., 2006). Estudio del efecto que tiene el tipo de corpus en los resultados. El corpus utilizado dispone de dos clases de textos: literarios y periodísticos. Aunque el tamaño reducido del corpus usado no ha permitido realizar pruebas por separado para cada uno de ellos, hemos comprobado que los resultados mejoran (cerca de un 5%) cuando el corpus de entrenamiento está formado solo por textos de un tipo. La ampliación del treebank, que pasará en breve a tener cerca de 300.000 palabras, permitirá realizar estas pruebas con más precisión. Esto también posibilitará el estudio de la aportación del tamaño del corpus. Estudio del efecto de la fase de desambiguación morfosintáctica. En este momento, el analizador ha sido probado con una sola interpretación por palabra, es decir, la entrada del analizador es perfecta. La fase de desambiguación previa introducirá errores que se acumulan a los del analizador sintáctico. Aunque los errores de la fase de etiquetado morfológico no son tan importantes para otras lenguas, la alta ambigüedad del euskera (2,81 interpretaciones por palabra, Ezeiza et al. 1998) supone un reto añadido. Agradecimientos Este trabajo está subvencionado por el Departamento de Industria y Cultura del Gobierno Vasco (proyecto AnHITZ 2006, IE06-185). Bibliografía Agirre E., A. Díaz de Ilarraza, G. Labaka, y K. Sarasola. 2006. Uso de información 7 Por ejemplo, en el sintagma nominal “etxe handi horrekin” (con esa casa grande), la palabra etxe debe asociarse con el verbo, pero el tipo de dependencia viene dado por el sufijo –ekin, que aparece dos palabras más adelante. 11 Kepa Bengoetxea y Koldo Gojenola morfológica en el alineamiento EspañolEuskara. XXII Congreso de la SEPLN. Association for Computational Linguistics, April 2006, Trento, Italy Aranzabe M., J.M. Arriola, y A. Díaz de Ilarraza. 2004. Towards a Dependency Parser of Basque. Proceedings of the Coling 2004 Workshop on Recent Advances in Dependency Grammar. Geneva. Ezeiza N., I. Aduriz, I. Alegria, J.M. Arriola, y R. Urizar. 1998. Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages, COLING-ACL'98, Montreal (Canada). August 10-14, 1998. Briscoe, E., J. Carroll, y R. Watson. 2006. The Second Release of the RASP System. In Proceedings of the COLING/ACL 2006 Interactive Presentation Sessions, Sydney. Eisner J. 1996. Three new probabilistic models for dependency parsing: an exploration. Proceedings of COLING-1996, Copenhagen. Hajič J. Building a Syntactically Annotated Corpus: The Prague Dependency Treebank. 1998. In: E. Hajičová (ed.): Issues of Valency and Meaning. Studies in Honour of Jarmila Panevová, Karolinum, Charles University Press, Prague, pp. 106-132. Carroll, J., G. Minnen, y E. Briscoe. 1999. Corpus annotation for parser evaluation. In Proceedings of the EACL-99 PostConference Workshop on Linguistically Interpreted Corpora, Bergen. 35-41. Chang, C.-C. y Lin, C.-J. 2001. LIBSVM: A library for support vector machines. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm. Jarvinen T., y P. Tapanainen. 1998. Towards an implementable dependency grammar. CoLing-ACL'98 workshop 'Processing of Dependency-Based Grammars', Kahane and Polguere (eds), p. 1-10, Montreal, Canada. Collins M. 1999. Head-Driven Statistical Models for Natural Language Parsing. PhD Dissertation, University of Pennsylvania. Tapanainen P. 1996. The Constraint Grammar Parser CG-2. Number 27 in Publications of the Department of General Linguistics, University of Helsinki. Collins M., J. Hajic, E. Brill, L. Ramshaw, y Tillmann C. 1999. A Statistical Parser for Czech. In: Proceedings of the 37th Meeting of the ACL, pp. 505-512. University of Maryland, College Park, Maryland. Lin D. 1998. Dependency-based Evaluation of MINIPAR. In Workshop on the Evaluation of Parsing Systems, Granada, Spain, May, 1998. CoNLL 2006 y 2007. Proceedings of the Tenth/Eleventh Conference on Computational Natural Language Learning. Marcus M., B. Santorini y M. Marcinkiewiecz. 1993. Building a large annotated corpus of English: The Penn Treebank. Computational Linguistics, 19 (2), 313--330. Cowan B. y M. Collins. 2005. Morphology and Reranking for the Statistical Parsing of Spanish. Proceedings of the Conference on Empirical Methods in NLP (EMNLP). Nivre, J. y J. Nilsson. 2005. Pseudo-Projective Dependency Parsing. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL), 99-106. Daelemans, W. y A. Van den Bosch. 2005. Memory-Based Language Processing. Cambridge University Press. Nivre, J., J. Hall, J. Nilsson, A. Chanev, G. Eryigit, S. Kübler, S. Marinov, y E. Marsi. 2007. MaltParser: A language-independent system for data-driven dependency parsing. Natural Language Engineering, 13(2). Eryiğit G., J. Nivre, y K. Oflazer. 2006. The incremental use of morphological information and lexicalization in data-driven dependency parsing. In Proceedings of the 21st International Conference on the Computer Processing of Oriental Languages (ICCPOL), Springer LNAI 4285. Palomar M., M. Civit , A. Díaz de Ilarraza , L. Moreno, E. Bisbal, M. Aranzabe, A. Ageno, M.A. Martí, y B. Navarro. 2004. 3LB: Construcción de una base de árboles sintáctico-semánticos para el catalán, euskera y castellano. XX Congreso de la SEPLN. Eryiğit G., y K. Oflazer. 2006. Statistical Dependency Parsing for Turkish. Proceedings of EACL 2006 - The 11th Conference of the European Chapter of the 12 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 13-20 recibido 16-05-2007; aceptado 22-06-2007 Técnicas deductivas para el análisis sintáctico con corrección de errores∗ Carlos Gómez-Rodrı́guez y Miguel A. Alonso Manuel Vilares Departamento de Computación E. S. de Ingenierı́a Informática Universidade da Coruña Universidad de Vigo Campus de Elviña, s/n Campus As Lagoas, s/n 15071 A Coruña, Spain 32004 Ourense, Spain {cgomezr, alonso}@udc.es vilares@uvigo.es Resumen: Se presentan los esquemas de análisis sintáctico con corrección de errores, que permiten definir algoritmos de análisis sintáctico con corrección de errores de una manera abstracta y declarativa. Este formalismo puede utilizarse para describir dichos algoritmos de manera simple y uniforme, y proporciona una base formal para demostrar su corrección y otras propiedades. Además, mostramos cómo se puede utilizar para obtener distintas implementaciones de los algoritmos de análisis sintáctico, incluyendo variantes basadas en corrección regional. Palabras clave: análisis sintáctico robusto, corrección de errores, esquemas de análisis sintáctico Abstract: We introduce error-correcting parsing schemata, which allow us to define error-correcting parsers in a high-level, declarative way. This formalism can be used to describe error-correcting parsers in a simple and uniform manner, and provides a formal basis allowing to prove their correctness and other properties. We also show how these schemata can be used to obtain different implementations of the parsers, including variants based on regional error correction. Keywords: robust parsing, error correction, parsing schemata 1. Introducción Cuando se utilizan técnicas de análisis sintáctico en aplicaciones reales, es habitual encontrarse con frases no cubiertas por la gramática. Esto puede deberse a errores gramaticales, errores en los métodos de entrada, o a la presencia de estructuras sintácticas correctas pero no contempladas en la gramática. Un analizador sintáctico convencional no podrá devolver un árbol de análisis en estos casos. Un analizador sintáctico robusto es aquél que puede proporcionar resultados útiles para estas frases agramaticales. Particularmente, un analizador sintáctico con corrección de errores es un tipo de analizador sintáctico robusto que puede obtener árboles sintácticos completos para frases no cubiertas por la gramática, al suponer que estas frases agramaticales son versiones corruptas de frases válidas. ∗ Parcialmente financiado por Ministerio de Educación y Ciencia (MEC) y FEDER (TIN200407246-C03-01, TIN2004-07246-C03-02), Xunta de Galicia (PGIDIT05PXIC30501PN, PGIDIT05PXIC10501PN, Rede Galega de Procesamento da Linguaxe e Recuperación de Información) y Programa de Becas FPU (MEC). ISSN: 1135-5948 En la actualidad no existe un formalismo que permita describir de manera uniforme los analizadores sintácticos con corrección de errores y probar su corrección, tal y como se hace con los esquemas de análisis sintáctico para los analizadores convencionales. En este artı́culo, se propone un formalismo que cubre esta necesidad al tiempo que se muestra cómo se puede utilizar para obtener implementaciones prácticas. 2. Esquemas de análisis sintáctico convencionales Los esquemas de análisis sintáctico (Sikkel, 1997) proporcionan una manera simple y uniforme de describir, analizar y comparar distintos analizadores sintácticos. La noción de esquema de análisis sintáctico proviene de considerar el análisis como un proceso deductivo que genera resultados intermedios denominados ı́tems. Se parte de un conjunto inicial de ı́tems obtenido directamente de la frase de entrada, y el proceso de análisis sintáctico consiste en la aplicación de reglas de inferencia (pasos deductivos) que producen nuevos ı́tems a partir © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares Ferro de los ya existentes. Cada ı́tem contiene información sobre la estructura de la frase, y en cada análisis sintáctico satisfactorio se obtiene al menos un ı́tem final que garantiza la existencia de un árbol sintáctico completo para la frase. Sea G = (N, Σ, P, S)1 una gramática independiente del contexto2 . El conjunto de árboles válidos para G, denotado T rees(G), se define como el conjunto de árboles finitos donde los hijos de cada nodo están ordenados de izquierda a derecha, los nodos están etiquetados con sı́mbolos de N ∪Σ∪(Σ×N)∪{}, y cada nodo u satisface alguna de las siguientes condiciones: • u es una hoja, • u está etiquetado A, los hijos de u están etiquetados X1 , . . . , Xn y hay una producción A → X1 . . . Xn ∈ P , • u está etiquetado A, u tiene un único hijo etiquetado y existe una producción A → ∈ P, • u está etiquetado a y u tiene un único hijo etiquetado (a, j) para algún j. A los pares (a, j) les llamaremos terminales marcados, y cuando trabajemos con una cadena a1 . . . an , escribiremos aj como notación abreviada para (aj , j). El número natural j se utiliza para indicar la posición del sı́mbolo a en la entrada, de modo que la frase de entrada a1 . . . an pueda verse como un conjunto de árboles de la forma aj (aj ) en lugar de como una cadena de sı́mbolos. A partir de ahora, nos referiremos a los árboles de esta forma como seudoproducciones. Sea T rees(G) el conjunto de árboles para una gramática independiente del contexto G. Un conjunto de ı́tems es un conjunto I tal que I ⊆ Π(T rees(G)) ∪ {∅}, donde Π es una partición de T rees(G). Si el conjunto contiene como elemento a ∅, llamaremos a este elemento el ı́tem vacı́o. Los análisis válidos de una cadena en el lenguaje definido por una gramática G están representados por ı́tems que contienen árboles sintácticos marcados para esa cade- na. Dada una gramática G, un árbol sintáctico marcado para una cadena a1 . . . an es cualquier árbol τ ∈ T rees(G)/root(τ ) = S ∧ yield(τ ) = a1 . . . an . Llamaremos ı́tem final a todo ı́tem que contenga un árbol sintáctico marcado para una cadena cualquiera. Llamaremos ı́tem final correcto para una cadena concreta a1 . . . an a todo ı́tem que contenga un árbol sintáctico marcado para esa cadena. Ejemplo: El conjunto de ı́tems de Earley (Earley, 1970), IEarley , asociado a una gramática G = (N, Σ, P, S) es: IEarley = {[A → α • β, i, j]/A → αβ ∈ P ∧ 0 ≤ i ≤ j} donde la notación [A → α • β, i, j] usada para los ı́tems representa el conjunto de árboles de raı́z A, tales que los hijos directos de A son αβ, los nodos frontera de los subárboles con raı́z en los nodos etiquetados α forman una cadena de terminales marcados de la forma ai+1 . . . aj , y los nodos etiquetados β son hojas. El conjunto de ı́tems finales en este caso es FEarley = {[S → γ•, 0, n]}. Un esquema de análisis sintáctico es una función que, dada una cadena a1 . . . an y una gramática G; permite obtener un conjunto de pasos deductivos. Los pasos deductivos son elementos de (H ∪ I) × I, donde I es un conjunto de ı́tems y H (que llamaremos conjunto de ı́tems iniciales o hipótesis) contiene un conjunto {ai (ai )} por cada seudoproducción asociada a la cadena. Los pasos deductivos establecen una relación de inferencia entre ı́tems, de modo que Y x si (Y , x) ∈ D para algún Y ⊆ Y . Llamaremos ı́tems válidos en un esquema dado a todos aquellos que puedan deducirse de las hipótesis por medio de una cadena de inferencias. Un esquema de análisis sintáctico se dice sólido si verifica, para cualquier gramática y cadena de entrada, que todos los ı́tems finales válidos son correctos. Si verifica que todos los ı́tems finales correctos son válidos (es decir, si existe un árbol sintáctico marcado para una cadena, el sistema puede deducirlo) se dice que es completo. De un esquema que es a la vez sólido y completo se dice que es correcto. Un esquema correcto puede usarse para obtener una implementación ejecutable de un analizador sintáctico mediante el uso de máquinas deductivas como las que se describen en (Shieber, Schabes, y Pereira, 1995; Gómez-Rodrı́guez, Vilares, y Alonso, 2006) para obtener los ı́tems finales válidos. 1 Donde N es el conjunto de sı́mbolos no terminales, Σ el alfabeto de sı́mbolos terminales, P el conjunto de reglas de producción, y S el axioma o sı́mbolo inicial de la gramática. 2 Aunque en este trabajo nos centraremos en gramáticas independientes del contexto, los esquemas de análisis sintáctico (convencionales y con corrección de errores) pueden definirse análogamente para otros formalismos gramaticales. 14 Técnicas Deductivas para el Análisis Sintáctico con Corrección de Errores 3. Esquemas con corrección de errores da una gramática G, una función de distancia d y una cadena a1 . . . an , el problema del reconocimiento aproximado consiste en determinar el mı́nimo e ∈ N tal que exista un árbol aproximado (t, e) ∈ ApT rees(G) donde t es un árbol sintáctico marcado para la cadena. A un árbol aproximado ası́ le llamaremos árbol sintáctico marcado aproximado para a1 . . . an . Análogamente, el problema del análisis sintáctico aproximado consiste en encontrar el mı́nimo e ∈ N tal que exista un árbol sintáctico marcado aproximado (t, e) ∈ ApT rees(G) para la cadena de entrada, y encontrar todos los árboles marcados aproximados de la forma (t, e) para la cadena. Ası́, del mismo modo que el problema del análisis sintáctico se puede ver como un problema de encontrar árboles, el problema del análisis sintáctico aproximado se puede ver como un problema de encontrar árboles aproximados, que puede ser resuelto por un sistema deductivo análogo a los usados para el análisis sintáctico convencional, pero cuyos ı́tems contengan árboles aproximados. El formalismo de esquemas de análisis sintáctico descrito en la sección anterior no basta para definir analizadores sintácticos con corrección de errores que muestren un comportamiento robusto en presencia de entradas agramaticales, ya que los ı́tems finales se definen como aquéllos que contienen árboles sintácticos marcados que pertenecen a T rees(G). Sin embargo, en un análisis sintáctico con corrección de errores, será necesario obtener ı́tems que representen “análisis aproximados” para frases que no tengan un análisis sintáctico exacto. Los análisis aproximados de estas frases agramaticales no pueden pertenecer a T rees(G), pero deberı́an ser similares a algún elemento de T rees(G). En este contexto, si medimos la “similaridad” mediante una función de distancia, podemos dar una nueva definición de ı́tems que permita generar análisis aproximados, y ası́ extender los esquemas de análisis para soportar la corrección de errores. Dada una gramática independiente del contexto G = (N, Σ, P, S), llamaremos T rees (G) al conjunto de árboles finitos en los que los hijos de cada nodo están ordenados de izquierda a derecha y cada nodo está etiquetado con un sı́mbolo de N ∪ Σ ∪(Σ×N)∪{}. Nótese que T rees(G) ⊂ T rees (G). Sea d : T rees (G) × T rees (G) → N ∪ {∞} una función de distancia que verifique los axiomas usuales de positividad estricta, simetrı́a y desigualdad triangular. Llamaremos T reese (G) al conjunto {t ∈ T rees (G)/∃t ∈ T rees(G) : d(t, t ) ≤ e}, es decir, T reese (G) es el conjunto de árboles que tengan distancia e o menos a algún árbol válido de la gramática. Nótese que, por el axioma de positividad estricta, T rees0 (G) = T rees(G). Definición 2. (ı́tems aproximados) Dada una gramática G y una función de distancia d, definimos conjunto de ı́tems aprox imados como ∞ un conjunto I tal que I ⊆ (( i=0 Πi ) ∪ {∅}) donde cada Πi es una partición del conjunto {(t, e) ∈ ApT rees(G)/e = i}. Nótese que el concepto está definido de manera que cada ı́tem aproximado contiene árboles aproximados con un único valor de la distancia e. Definir directamente un conjunto de ı́tems aproximados usando una partición de ApT rees(G) no serı́a práctico, dado que necesitamos que nuestros analizadores tengan en cuenta cuánta discrepancia acumula cada análisis parcial con respecto a la gramática, y esa información se perderı́a si nuestros ı́tems no estuviesen asociados a un único valor de e. Este valor concreto de e es lo que llamaremos distancia de análisis de un ı́tem ι, o dist(ι): Definición 1. (árboles aproximados) Se define el conjunto de árboles aproximados para una gramática G y una función de distancia entre árboles d como ApT rees(G) = {(t, e) ∈ (T rees (G) × N)/t ∈ T reese (G)}. Por lo tanto, un árbol aproximado es el par formado por un árbol y su distancia a algún árbol de T rees(G). Definición 3. (distancia de análisis) Sea I ⊆ (( ∞ i=0 Πi ) ∪ {∅}) un conjunto de ı́tems aproximados tal como se ha definido arriba, y ι ∈ I . La distancia de análisis asociada al ı́tem aproximado no vacı́o ι, dist(ι), se define como el (trivialmente único) valor de i ∈ N/ι ∈ Πi . En el caso del ı́tem aproximado vacı́o ∅, diremos que dist(∅) = ∞. Este concepto de árboles aproximados nos permite definir con precisión los problemas que pretendemos resolver con el análisis sintáctico con corrección de errores. Da15 Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares Ferro 4. Definición 4. (esquema de análisis sintáctico con corrección de errores) Sea d una función de distancia. Llamamos esquema de análisis sintáctico con corrección de errores a una función que asigna a cada gramática independiente del contexto G una terna (I , K, D), donde K es una función tal que (I , K(a1 . . . an ), D) es un sistema de análisis instanciado con corrección de errores para cada a1 . . . an ∈ Σ∗ . Un sistema de análisis instanciado con corrección de errores es una terna (I , H, D) tal que I es un conjunto de ı́tems aproximado con función de distancia d, H es un conjunto de hipótesis tal que {ai (ai )} ∈ H para cada ai , 1 ≤ i ≤ n, y D es un conjunto de pasos deductivos tal que D ⊆ Pf in (H ∪ I ) × I . Una función de distancia basada en la distancia de edición Para especificar un analizador sintáctico mediante un esquema de análisis sintáctico con corrección de errores, es necesario decidir primero qué función de distancia utilizar para definir el conjunto de ı́tems aproximados. Un esquema correcto obtendrá los análisis aproximados cuya distancia a un análisis correcto sea mı́nima. Por lo tanto, la función de distancia debe elegirse dependiendo del tipo de errores que se quiera corregir. Supongamos una situación genérica donde nos gustarı́a corregir errores según la distancia de edición. La distancia de edición o distancia de Levenshtein (Levenshtein, 1966) entre dos cadenas es el número mı́nimo de inserciones, borrados o sustituciones de un único terminal que hacen falta para transformar cualquiera de las cadenas en la otra. Una distancia d adecuada para este caso viene dada por el número de transformaciones sobre árboles que necesitamos para convertir un árbol en otro, si las transformaciones permitidas son insertar, borrar o cambiar la etiqueta de nodos frontera etiquetados con terminales marcados (o con ). Por lo tanto, d(t1 , t2 ) = e si t2 puede obtenerse a partir de t1 mediante e transformaciones sobre nodos correspondientes a terminales marcados en t1, y d(t1 , t2 ) = ∞ en los demás casos. Nótese que, si bien en este trabajo utilizaremos esta distancia para ejemplificar la definición de analizadores con corrección de errores, el formalismo permite usar cualquier otra función de distancia entre árboles. Por ejemplo, en ciertas aplicaciones puede ser útil definir una distancia que compare todo el árbol (en lugar de sólo los nodos frontera) permitiendo la inserción, borrado o modificación de sı́mbolos no terminales. Esto permite detectar errores sintácticos (como por ejemplo el uso de un verbo transitivo de forma intransitiva) independientemente de la longitud de los sintagmas implicados. Definición 5. (ı́tems finales) El conjunto de ı́tems finales para una cadena de longitud n en un conjunto de ı́tems aproximados se define como F(I , n) = {ι ∈ I/∃(t, e) ∈ ι : t es un árbol sintáctico marcado para alguna cadena a1 . . . an ∈ Σ }. El conjunto de ı́tems finales correctos para una cadena a1 . . . an en un conjunto de ı́tems aproximados se define como CF(I , a1 . . . an ) = {ι ∈ I/∃(t, e) ∈ ι : t es un árbol sintáctico marcado para a1 . . . an }. Definición 6. (distancia mı́nima de análisis) La distancia mı́nima de análisis para una cadena a1 . . . an en un conjunto de ı́tems aproximados I se define como M inDist(I , a1 . . . an ) = min{e ∈ N : ∃ι ∈ CF(I , a1 . . . an ) : dist(ι) = e}. Definición 7. (ı́tems finales mı́nimos) El conjunto de ı́tems finales mı́nimos para una cadena a1 . . . an en un conjunto de ı́tems aproximados I se define como MF(I , a1 . . . an ) = {ι ∈ CF(I , a1 . . . an )/dist(ι) = M inDist(I , a1..an)}. Los conceptos de ı́tems válidos, solidez, completitud y corrección son análogos al caso de los esquemas de análisis convencionales. Nótese que los problemas de reconocimiento aproximado y análisis aproximado definidos con anterioridad para cualquier frase y gramática pueden resolverse obteniendo el conjunto de ı́tems finales mı́nimos en un conjunto de ı́tems aproximados. Cualquier esquema con corrección de errores correcto puede deducir estos ı́tems, dado que son un subconjunto de los ı́tems finales correctos. 5. Algoritmo de Lyon Lyon (1974) define un reconocedor con corrección de errores basado en el algoritmo de Earley. Dada una gramática G y una cadena a1 . . . an , el algoritmo de Lyon devuelve la mı́nima distancia de edición a una cadena válida de L(G). 16 Técnicas Deductivas para el Análisis Sintáctico con Corrección de Errores En esta sección, usaremos nuestro formalismo para definir un esquema de análisis sintáctico con corrección de errores para el algoritmo de Lyon. Esto nos servirá como ejemplo de esquema con corrección de errores, y nos permitirá probar la corrección del algoritmo, implementarlo fácilmente y crear una variante con corrección regional de errores, como se verá más tarde. El esquema para el algoritmo de Lyon está definido para la función de distancia d de la sección 4. Dada una gramática independiente del contexto G y una cadena de entrada a1 . . . an , el esquema Lyon es el que nos proporciona un sistema de análisis instanciado (I , H, D) donde I y D se definen como sigue: ILyon = {[A → α • β, i, j, e]/A → αβ ∈ P ∧ i, j, e ∈ N ∧ 0 ≤ i ≤ j} donde usamos [A → α • β, i, j, e] como notación para el conjunto de árboles aproximados (t, e) tales que t es un árbol de análisis parcial con raı́z A donde los hijos directos de A son los sı́mbolos de la cadena αβ, y los nodos frontera de los subárboles con raı́z en los sı́mbolos de α forman una cadena de terminales marcados de la forma ai+1 . . . aj , mientras que los nodos etiquetados β son hojas. Nótese que para definir este conjunto de ı́tems aproximados se utiliza la distancia d definida en la sección anterior, que es la que condiciona los valores de e en esta notación. El conjunto de pasos deductivos, D, para el algoritmo de Lyon se define como la unión de los siguientes: DDistanceIncreaser = {[A → α • β, i, j, e] [A → α • β, i, j, e + 1]} Los pasos Initter, Scanner, Completer y P redictor son similares a los del algoritmo de Earley, con la diferencia de que tenemos que llevar cuenta de la distancia asociada a los árboles aproximados de nuestros ı́tems. Nótese que el Completer suma las distancias en sus antecedentes, dado que su ı́tem consecuente contiene árboles construidos combinando los de los dos ı́tems antecedente, y que por lo tanto contendrán discrepancias provenientes de ambos. Los pasos ScanSubstituted, ScanDeleted y ScanInserted son pasos de corrección de errores, y permiten leer sı́mbolos no esperados de la cadena a la vez que se incrementa la distancia. ScanSubstituted sirve para corregir un error de substitución en la entrada, ScanDeleted corrige un error de borrado, y ScanInserted un error de inserción. El conjunto de ı́tems finales y el subconjunto de ı́tems finales correctos son: F = {[S → γ•, 0, n, e]} CF = {ι = [S → γ•, 0, n, e]/∃(t, e) ∈ ι : t es un árbol sintáctico marcado para a1 . . . an } El paso DistanceIncreaser asegura que todos los ı́tems finales no mı́nimos son generados (cosa que se requiere para la completitud). En implementaciones prácticas del analizador, como la propuesta original de Lyon (1974), normalmente no interesa la completitud estricta sino sólo el obtener los análisis de distancia mı́nima, ası́ que el DistanceIncreaser no es necesario y puede simplemente omitirse. Probar la solidez del esquema Lyon es demostrar que todos los ı́tems finales válidos en sus sistemas de análisis asociados son correctos. Esto se demuestra probando la proposición, más fuerte, de que todos los ı́tems válidos son correctos. Esto se puede demostrar analizando por separado cada paso deductivo y demostrando que si sus antecedentes son correctos, el consecuente también lo es. Para probar la completitud del esquema Lyon (es decir, que todos los ı́tems finales correctos son válidos en el esquema), tenemos en cuenta que dichos ı́tems finales son de la forma [S → α•, 0, n, e], y lo demostramos por inducción en la distancia e. El caso base se prueba partiendo de la completitud del esquema Earley (Sikkel, 1998), y el paso inductivo DInitter = { [S → •γ, 0, 0, 0]} DScanner = {[A → α • xβ, i, j, e], [x, j, j + 1] [A → αx • β, i, j + 1, e]} DCompleter = {[A → α • Bβ, i, j, e1 ], [B → γ•, j, k, e2 ] [A → αB • β, i, k, e1 + e2 ]} DP redictor = {[A → α • Bβ, i, j, e] [B → •γ, j, j, 0]} DScanSubstituted = {[A → α • xβ, i, j, e], [b, j, j + 1] [A → αx • β, i, j + 1, e + 1]} DScanDeleted = {[A → α • xβ, i, j, e] [A → αx • β, i, j, e + 1]} DScanInserted = {[A → α • β, i, j, e], [b, j, j + 1] [A → α • β, i, j + 1, e + 1]} 17 Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares Ferro se demuestra mediante una serie de funciones de transformación de ı́tems que permiten inferir la validez de cualquier ı́tem final correcto con distancia e + 1 a partir de la de un ı́tem con distancia e. 6. Nótese que un esquema finitamente completo es siempre completo, ya que podemos hacer b arbitrariamente grande. El esquema Lyon cumple la propiedad de ser finitamente completo, cosa que se puede demostrar de forma análoga a su completitud. Por otra parte, es fácil ver que, si disponemos de una máquina deductiva que pueda ejecutar esquemas de análisis sintáctico, cualquier esquema con corrección de errores S que sea finitamente completo puede utilizarse para construir un analizador que resuelva el problema del análisis sintáctico aproximado en tiempo finito, devolviendo todos los análisis aproximados válidos de distancia mı́nima sin generar ningún análisis de distancia no mı́nima. La manera más simple de hacerlo es la siguiente: Implementación Un esquema con corrección de errores completo permite deducir todos los análisis aproximados válidos para una cadena dada. Sin embargo, al implementar un analizador con corrección de errores en la práctica, no queremos obtener todos los posibles análisis aproximados (cosa que serı́a imposible en tiempo finito, dado que hay una cantidad infinita de análisis). Lo que buscamos, como mencionamos en la definición del problema del análisis sintáctico aproximado, son los análisis aproximados con distancia mı́nima. Cualquier esquema correcto que verifique una propiedad que llamaremos completitud finita puede adaptarse para resolver el problema del análisis sintáctico aproximado en tiempo finito, generando sólo los análisis de distancia mı́nima, si le añadimos algunas restricciones. Para ello, definiremos algunos conceptos que nos llevarán a la noción de esquema finitamente completo. function AnalizadorRobusto ( str:cadena ) : conjunto de ı́tems b = 0; //máxima distancia permitida while ( true ) { computar validItems = v(Boundb (S(G)),str); finalItems = {i ∈validItems /i es un ı́tem final }; if ( finalItems = ∅ ) return finalItems; b = b+1; } donde la función v(sys,str) computa todos los ı́tems válidos en el sistema de análisis sys para la cadena str , y puede implementarse como en (Shieber, Schabes, y Pereira, 1995; Gómez-Rodrı́guez, Vilares, y Alonso, 2006). Es fácil demostrar que, si el problema del análisis aproximado tiene alguna solución para una cadena dada (cosa que, bajo nuestra definición de distancia, siempre sucede), entonces este algoritmo la encuentra en tiempo finito. En la práctica, podemos hacerle varias optimizaciones para mejorar el tiempo de ejecución, como utilizar los ı́tems generados en cada iteración como hipótesis de la siguiente en lugar de inferirlos de nuevo. Nótese que esta variante de máquina deductiva puede ejecutar cualquier esquema con corrección de errores, no sólo el de Lyon. Definición 8. (esquema acotado) Sea S un esquema de análisis sintáctico con corrección de errores que asigna a cada gramática G una terna (I , K, D). El esquema acotado asociado a S con cota b, denotado Bb (S), es el que asigna a cada gramática G el sistema de análisis Boundb (S(G)) = Boundb (I , K, D) = (I , K, Db ), donde Db = {((a1 , a2 , . . . , ac ), c) ∈ D : dist(c) ≤ b}. En otras palabras, un esquema acotado es una variante de un esquema con corrección de errores que no permite deducir ı́tems con distancia asociada mayor que la cota b. Definición 9. (completitud hasta una cota) Diremos que un esquema de análisis con corrección de errores S es completo hasta una cota b si, para cualquier gramática y cadena de entrada, todos los ı́tems finales correctos cuya distancia asociada no sea mayor que b son válidos. 6.1. Implementación con corrección regional Si un analizador con corrección de errores es capaz de encontrar todos los análisis aproximados de distancia mı́nima para cualquier cadena dada, como el de la sección 6, se le llama analizador con corrección de errores global. En la práctica, los correctores globales pueden volverse muy ineficientes si queremos analizar cadenas largas o utilizar gramáticas Definición 10. (completitud finita) Diremos que un esquema de análisis con corrección de errores S es finitamente completo si, para todo b ∈ N, el esquema acotado Bb (S) es completo hasta la cota b. 18 Técnicas Deductivas para el Análisis Sintáctico con Corrección de Errores con miles de producciones, como es usual en el procesamiento del lenguaje natural. Una alternativa más eficiente es la corrección de errores regional, que se basa en aplicar corrección de errores a una región que rodee al punto en que no se pueda continuar el análisis. Los analizadores regionales garantizan encontrar siempre una solución óptima; pero si existen varias no garantizan encontrarlas todas. Los algoritmos con corrección regional basados en estados, como los que se definen en (Vilares, Darriba, y Ribadas, 2001), suelen estar asociados a una implementación particular. Los esquemas de análisis sintáctico con corrección de errores nos permiten definir analizadores regionales más generales, basados en ı́tems, donde las regiones son conjuntos de ı́tems. Los analizadores regionales pueden obtenerse de los globales de un modo general, tal que el analizador regional siempre devolverá una solución óptima si el analizador global del que proviene es correcto y finitamente completo. Para ello, utilizamos la noción de función de progreso: donde la función v’(ded,str,min,max) computa todos los ı́tems válidos en el sistema deductivo ded para la cadena str con la restricción de que los pasos deductivos de corrección de errores sólo se lanzan si al menos uno de sus antecedentes, ι, verifica que minProgr ≤ fp (ι) ≤ maxProgr. Este analizador regional devuelve siempre una solución óptima bajo la condición de que S sea correcto y finitamente completo. Para que además el analizador regional sea eficiente, debemos definir la función de progreso de modo que sea una buena aproximación de cuán “prometedor” es un ı́tem de cara a alcanzar un ı́tem final3 . Una función simple pero adecuada en el caso del analizador Lyon es fp j ([A → α • β, i, j, e]) = j, que simplemente evalúa un ı́tem de acuerdo con su ı́ndice j. Otra alternativa es fp j−i ([A → α • β, i, j, e]) = j − i. Ambas funciones premian a los ı́tems que han llegado más a la derecha en la cadena de entrada, y toman valores máximos para los ı́tems finales. 7. Definición 11. (función de progreso) Sea I un conjunto de ı́tems aproximados. Una función de progreso para I es una función fp : I → {p ∈ N/0 ≤ p ≤ k}, donde k es un número natural llamado el progreso máximo. Sea S un esquema de análisis sintáctico con corrección de errores correcto y finitamente completo, y fp una función de progreso para su conjunto de ı́tems. Podemos implementar un analizador con corrección regional basado en S de esta manera: function AnalizadorRegional ( str :cadena ) : conjunto de ı́tems b = 0; //distancia máxima permitida maxProgr = 0; //lı́mite superior región minProgr = 0; //lı́mite inferior región while ( true ) { computar validItems = v’(Boundb (S(G)),str, minProgr,maxProgr); finalItems = {i ∈ validItems /i es un ı́tem final }; if ( finalItems = ∅ ) return finalItems; newMax = max{p ∈ N/∃i ∈ validItems /fp (i) = p} if ( newmaxProgr > maxProgr ) { maxProgr = newMax; minProgr = newMax; } else if ( minProgr > 0 ) minProgr = minProgr−1; else b = b+1; } 19 Resultados empı́ricos Para probar nuestros analizadores y estudiar su rendimiento, hemos usado el sistema descrito en (Gómez-Rodrı́guez, Vilares, y Alonso, 2006) para ejecutar el esquema Lyon con corrección global y regional. La función de progreso usada para el caso regional es la función fp j definida más arriba. La gramática y frases utilizadas para las pruebas provienen del sistema DARPA ATIS3. En particular, hemos usado las mismas frases de prueba utilizadas en (Moore, 2000). Este conjunto de pruebas es adecuado para nuestros propósitos, dado que proviene de una aplicación real y contiene frases agramaticales. En particular, 28 de las 98 fras3 Los criterios para determinar una buena función de progreso son similares a los que caracterizan a una buena heurı́stica en un problema de búsqueda informada. Ası́, la función de progreso ideal serı́a una tal que f (ι) = 0 si ι no fuese necesario para deducir un ı́tem final, y f (ι) > f (κ) si ι puede dar lugar a un ı́tem final en menos pasos que κ. Evidentemente esta función no se puede usar, pues hasta completar el proceso deductivo no sabemos si un ı́tem dado puede conducir o no a un ı́tem final; pero las funciones que proporcionen una buena aproximación a esta heurı́stica ideal darán lugar a analizadores eficientes. En el caso degenerado en el que se devuelve f (ι) = 0 para cualquier ı́tem, la función de progreso no proporciona ninguna información y el analizador con corrección regional equivale al global. Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares Ferro para obtener un analizador más rápido, basado en corrección regional, a partir del mismo esquema. Los métodos utilizados para obtener estos resultados son genéricos y se pueden aplicar en otros analizadores. En la actualidad, estamos trabajando en la definición de una función que transforma esquemas convencionales correctos que verifiquen ciertas condiciones en esquemas con corrección de errores correctos. Esta transformación permite obtener automáticamente analizadores sintácticos con corrección de errores regional y global a partir de esquemas convencionales como los correspondientes a los analizadores CYK o Left-Corner. es del conjunto lo son. Al ejecutar nuestros analizadores con corrección de errores, encontramos que la distancia de edición mı́nima a una frase gramatical es 1 para 24 de ellas (es decir, estas 24 frases tienen una posible corrección con un solo error), 2 para dos de ellas, y 3 para las dos restantes. Dist. No de Long. Ítems med. Ítems med. Mejo- Mı́n. Frases Media (Global) (Regional) ra ( %) 70 24 2 2 0 11.04 11.63 18.50 14.50 n/a 37558 194249 739705 1117123 n/a 37558 63751 574534 965137 n/a 0% 65.33 % 22.33 % 13.61 % n/a 0 1 2 3 >3 Cuadro 1: Rendimiento de los analizadores globales y regionales al analizar frases del conjunto de prueba ATIS. Cada fila corresponde a un valor de la distancia mı́nima de análisis (o contador de errores). Bibliografı́a Earley, J. 1970. An efficient context-free parsing algorithm. Communications of the ACM, 13(2):94–102. Gómez-Rodrı́guez, C., J. Vilares, y M. A. Alonso. 2006. Automatic generation of natural language parsers from declarative specifications. En Proc. of STAIRS 2006, Riva del Garda, Italy. Long version available at http://www.grupocole.org/GomVilAlo Como podemos ver, la corrección regional reduce la generación de ı́tems en un factor de tres en frases con un único error. En frases con más de un error, las mejoras son menores: esto es porque, antes de devolver soluciones con distancia d+1, el analizador regional genera todos los ı́tems válidos con distancia d. De todos modos, debe tenerse en cuenta que el tiempo de ejecución crece más rápido que el número de ı́tems generados, ası́ que estas mejoras relativas en los ı́tems se reflejan en mejoras relativas mayores en los tiempos de ejecución. Además, en situaciones prácticas es esperable que las frases con varios errores sean menos frecuentes que las que sólo tienen uno, como en este caso. Por lo tanto, los tiempos más rápidos hacen a los analizadores con corrección regional basados en ı́tems una buena alternativa a los correctores globales. 8. 2006a long.pdf. Levenshtein, V. I. 1966. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady, 10(8):707–710. Lyon, G. 1974. Syntax-directed least-errors analysis for context-free languages: a practical approach. Comm. ACM, 17(1):3–14. Moore, R. C. 2000. Improved left-corner chart parsing for large context-free grammars. En Proc. of the 6th IWPT, pages 171–182, Trento, Italy, páginas 171–182. Shieber, S. M., Y. Schabes, y F. C. N. Pereira. 1995. Principles and implementation of deductive parsing. Journal of Logic Programming, 24(1–2):3–36, July-August. Sikkel, K. 1998. Parsing schemata and correctness of parsing algorithms. Theoretical Computer Science, 199(1-2):87-103. Sikkel, K. 1997. Parsing Schemata — A Framework for Specification and Analysis of Parsing Algorithms. Springer-Verlag, Berlin/Heidelberg/New York. Vilares, M., V. M. Darriba, y F. J. Ribadas. 2001. Regional least-cost error repair. Lecture Notes in Computer Science, 2088:293–301. Conclusiones y trabajo actual Hemos presentado los esquemas de análisis sintáctico con corrección de errores, un formalismo que puede utilizarse para definir, analizar y comparar fácilmente analizadores sintácticos con corrección de errores. Estos esquemas son descripciones sencillas y declarativas de los algoritmos que capturan su semántica y abstraen los detalles de implementación. En este trabajo, los hemos utilizado para describir un analizador con corrección de errores basado en Earley — descrito por primera vez en (Lyon, 1974) —, para probar su corrección, para generar una implementación deductiva del algoritmo original, y 20 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 21-26 recibido 18-05-2007; aceptado 22-06-2007 A simple formalism for capturing order and co-occurrence in computational morphology Mans Hulden University of Arizona Department of Linguistics P.O. BOX 210028 Tucson AZ 85721-0028 USA mhulden@email.arizona.edu Shannon T. Bischoff University of Arizona Department of Linguistics P.O. BOX 210028 Tucson AZ 85721-0028 USA bischoff@email.arizona.edu Resumen: Tradicionalmente, modelos computacionales de morfologı́a y fonologı́a han venido asumiendo, como punto de partida, un modelo morfotáctico donde los morfemas se extraen de subléxicos y se van concatenando de izquierda a derecha. El modelo de ‘clase de continuación’ se ha venido utilizando como el sistema estándar de facto en la creación de diferentes cajas de herramientas de software. Tras estudiar lenguas de tipologı́a diversa, proponemos aquı́ un modelo de rasgos ampliado. Nuestro modelo consta de varias operaciones diseñadas con el fin de que un buen número de restrictiones de co-ocurrencia local y global puedan ser descritas de manera concisa. Aparte también sugerimos ciertas formas de implementar estos operadores en modelos de morfologı́a basados en transductores de estado finito. Palabras clave: morfologı́a computacional; morfotáctica, unificación de rasgos. Palabras clave: morfologı́a computacional, morfotáctica, unificación de rasgos. Abstract: Computational models of morphology and phonology have traditionally assumed as a starting point a morphotactic model where morpehemes are drawn from sublexicons and concatenated left-to-right. In defining the lexicon-morphotactic level of a system, this ‘continuation-class’ model has been the de facto standard implementation in various software toolkits. From surveying of a number of typologically different languages, we propose a more comprehensive feature-driven model of morphotactics that provides the linguist with various operations that are designed to concisely define a variety of local and global co-occurrence restrictions. We also sketch ways to implement these operators in finite-state-transducer-based models of morphology. Keywords: computational morphology, morphotactics, feature unification. 1. Introduction Morphotactics—how morphemes combine together to make for well-formed words in languages—can, and is, often treated as an isolated problem in computational morphological analysis and generation. This has been particularly true of two-level and finite-state morphological models, where grammars describe a mapping from an abstract morphotactic level to a surface level. In such models, the topmost level is often described not only as a mapping to some lower level of representation, but is also separately constrained to reflect only legal combinations of morphemes in a language. Insofar as morphotactics is seen to be a problem of expressing combinatorial constraints, it would be desirable to develop a formalism that would allow for simple desISSN: 1135-5948 criptions of such constraints on combinations of morphemes as frequently occur in various natural languages. Such models have indeed been proposed. By far the most popular model in computational morphology has been the ‘continuation class’ model (Koskenniemi, 1983; Beesley and Karttunen, 2003) and variants thereof. The underlying assumption— and the reason for its popularity—is that a majority of languages exhibit the kind of morphotactics that is easily expressed through such systems: left-to-right concatenative models where the allowability of a morpheme is primarily conditioned by the preceding morpheme. This assumption does not always hold, however, which has led to many proposals and implementations that augment this model with extensions that provide for expressive power to include some phenomenon © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Mans Hulden y Shannon Bischoff 1 O ha otherwise not capturable. While a variety of such extensions to the continuation-class model have been proposed—some quite comprehensive—we depart entirely from the continuation-class model in this proposal, and instead propose a formalism that is based on declarative constraints over both the order and co-occurrence of individual morphemes.1 This approach to restricting morphotactics takes advantage of a fairly restricted set of operations on feature-value combinations in morphemes. The formalism allows us express a variety of non-concatenative phenomena—complex co-occurrence patterns, free morpheme ordering, circumfixation, among others— concisely with a small number of statements. 2. 3 Obj. j 4p 4 In ∅ 5 Fut ∅ 6 S ı́ı́ 4p 7 Cl ∅ ‘out’ 8 Stem geed Imp. ‘dig’ hadajı́ı́geed ‘Those guys dug them up’ In the above example, we have a template consisting of eight slots, where certain classes of morphemes are allowed to appear—slot 1 for ‘outer’ lexical prefixes, slot 2 for marking distributive plurals, etc.3 What is noteworthy is the complex cooccurrence constraints that govern the legal formation of Navajo verbs. To give a few examples with respect to the above templatic derivation: 1) the ‘outer’ prefix ha is allowed with stems that conjugate according to a certain pattern (the so-called yi-perfective), which geed fulfils; 2) the allomorph of the 4th person subject pronoun ı́ı́ is selected on the basis of what slots 1 and 2 contain; 3) the 4th person subject pronoun is discontinous in that a j must also appear in slot 3—without this, the ı́ı́ in slot 6 signals 3rd person; 4) the ‘classifier’ in slot 7 has four possibilities which together with the stem mode and prefixes in slots 1 and 2 determine what the subject allomorph can be. Navajo is an extreme example of longdistance systematic patterns of co-occurrence restrictions. Some languages, such as the American Indian language Koasati, which features around 30 slots for its verbs, allow almost any co-occurrence pattern (Kimball, 1991). Nevertheless, a consise formalism for defining morphotactics needs to include the possibility of capturing easily the type of patterns Navajo and other similar languages have. Nonconcatenative phenomena In the following, we give a few examples of nonconcatenative morphotactic phenomena that are difficult to capture with only a continuation-class model of morphotactics in order to motivate particular features of the notation we propose.2 2.1. 2 P da Pl. Slot-and-filler morphotactics The so-called slot-and-filler morphologies (also called templatic morphologies) tend to differ from concatenative processes or left-toright agglutinative morphologies in that they feature abundant, often long-distance, restrictions on the co-occurrence of morphemes. An example of this type of language is Navajo (and other Athabaskan languages) where a strict template guides the order of morphemes. Some templatic slots may be empty, while others are obligatorily filled: 2.2. Free morpheme ordering Although less documented among the world’s major languages, there also exists languages where certain classes of morphemes can appear in free relative order without affecting the semantics of a word. Recent examples of this include Aymara, an American Indian language spoken in the Andean 1 The Xerox xfst/lexc (Beesley and Karttunen, 2003) toolkit is a particularly versatile toolkit that offers a variety of notational devices to capture the same phenomena we document here. 2 We exclude two common patterns from this discussion: that of templatic root-and-pattern morphology (as seen in Arabic), as well as reduplication phenomena. These have been extensively treated in the literature and the most efficient solutions seem to treat these more as phonological phenomena not specified in the most abstract level of morphotactic description. 3 This simplified model follows Faltz (1998); the majority of analyses for Navajo assume 16 slots or more. See Young (2000) for details. 22 A Simple Formalism for Capturing Order and Co-Occurrence in Computational Morphology region,4 and Chintang, a Tibeto-Burman language, from which the following example is drawn: (1) (2) (3) (4) (5) (6) 3.1. u-kha-ma-cop-yokt-e 3nsA-1nsP-NEG-see-NEG-PST u-ma-kha-cop-yokt-e kha-u-ma-cop-yokt-e ma-u-kha-cop-yokt-e kha-ma-u-cop-yokt-e ma-kha-u-cop-yokt-e ‘They didn’t see us’ (from Bickel et al. (2007)) Here, examples (1) through (6) are interchangeable and equally grammatical. A concatenative model where order must be declared would require extra machinery to capture this phenomenon.5 As will be seen below, we will want to capture this phenomenon by simply leaving certain order constraints undeclared, from which the free order falls out naturally. 3. Constraining morphotactics Given these phenomena, we now propose a simple formalism to capture morphotactics. First, we assume the existence of labeled sublexicons containing various morphemes in a given class. Also, we assume that each morpheme can be associated with featurevalue combinations: Class1 . . . Classn Morpheme1 . . . Morpheme1 {Subclass} . . . {Subclass} OP Feat Value . . . OP Feat Value .. .. .. . . . Morphemei . . . Morphemej OP Feat Value . . . OP Feat Value That is, we assume that a complete lexicon is a collection of sublexicons (or classes) that contain morphemes. These morphemes may carry any number of feature-value pairs, to which an operator is associated, and may be a member of a subclass as well. 4 See Hardman (2001) for examples of the free morpheme ordering in Aymara. Thanks to Ken Beesley and Mike Maxwell for pointing out these resources and the phenomenon. 5 Beesley and Karttunen (2003) hint at a solution that first declares a strict order with contination classes and subsequently ‘shuffle’ the morphemes freely with a regular expression operator that is composed after the output of the strictly ordered morphotactic level. Order In a fashion similar to that of the continuation-class model, we propose that morphemes are drawn out of this finite number of sublexicons (classes) one at a time. However, instead of each sublexicon consisting of a statement guiding the choice of the next sublexicon, the order is to be governed by a number of statements over the sublexicons using two operators: > and . The operator C1 > C2 defines the patterns (languages) where each morpheme drawn out of the sublexicon named C1 must immediately precede each morpheme drawn out of C2 . Likewise C1 C2 illustrates the constraint that morphemes drawn from C1 must precede (not necessarily immediately) those from C2 . For the sake of completeness, we can also assume the existence of the reverse variants < and . In a templatic morphology, order constraints could simply be a single transitive statement C1 . . . Cn , and the majority of the grammar would consist of featurebased constraints regarding the possible cooccurrence of morphemes. Likewise, the examples of free morpheme order are now easy to capture: let us suppose that there exists a number of prefixes that have free internal order (such as in the Chintang example above), C1 to Cn , followed by a number of morphemes with strict internal ordering, Cx . . . Cy . This could now be captured by the statements: C 1 Cx ... Cn Cx Cx . . . C y When modeled in this fashion there need not be any separate statements saying that C1 to Cn occur in free internal order—rather, this falls out of simply not specifying an order constraint for those morpheme classes, other than that they must occur before Cx . 3.2. Co-occurrence For defining the possible co-occurrence of morphemes, we take advantage of the basic idea of features and feature unification. We do not assume elaborate feature structures to 23 Mans Hulden y Shannon Bischoff exist, rather we take unification to be an operator associated with features in the morpheme lexicon, such that conflicting featurevalue pairs may not exist in the same word. As mentioned, every morpheme in every sublexicon can carry OP [Feature Value] combinations, where OP is one of , +, or −. 3.2.1. Unification The ‘unification’ operator has the following semantics: a morpheme associated with [F X] disallows the presence of any other morpheme in the same word carrying a feature F and a value other than X. 3.2.2. Coercion The operator + control for co-ocurrence as follows: an +[F X] combination associated with a morpheme requires that there be another [F X] combination in the word somewhere else for the word to be legal. 3.2.3. Exclusion Similarly, −[F V ] requires that any [F V ] combination be absent from the word in question. For the sake of transparency, it is assumed that a +[F V ] statement can be satisfied by [F V ]. 3.3. {toA} ity {fromA} {toN} Class {NativeSuffix} ness {fromN} {toN} less {fromN} {toA} Constraints LatinateSuffix >> Stems NativeSuffix >> LatinateSuffix | Stems {fromN} > {toN} {fromA} > {toA} In the above notation (reflecting an actual implementation) ic belongs to the head class LatinateSuffix but also to fromN and toA, reflecting that the suffix is latinate and changes a noun into an adjective. The relevant constraints are that latinate suffixes must follow stems, and that nonlatinate suffixes must both follow stems and latinate suffixes. The above snippet suffices to capture the general order constraints with respect to the strata-based derivational view mentioned previously. 3.3.2. Feature constraints: circumfixes Circumfixes are a classical simple case of co-occurrence that can be captured using the feature constraints. To continue with English, an example of a circumfix is the combination em+adjective+en, as in embolden. However, the suffix en can occur on its own, as in redden, while the prefix em cannot.6 This can be modelled as follows: Examples With these tools of defining morphotactics, we can now outline an example from English derivational morphology using order constraints and the feature-related operators. 3.3.1. Order constraints A well-known generalization of English is that derivational suffixes often change parts of speech, and so must attach to the proper part of speech that the preceding morpheme ‘produces.’ Also, prefixes and suffixes are seen to fall into two strata: an inner stratum of (mostly) latinate affixes (such as ic and ity, which attach closest to the stem, and an outer stratum of (mostly native) affixes (such as ness and less) (Mohanan, 1986). Assuming the stem atom, and a vocabulary of suffixes ic, ity, ness and less, we should be able to form atom, atomic, atomicity, atomnessless, among others, but not ∗ atomity, ∗ atomlessity. Class {LatinatePrefix} em +[Circ emen] Class {Stems} bold {toA} Class {Stems} atom {toN} Class {NativeSuffix} Class {LatinateSuffix} ic {fromN} The prefix em is actually modeled to be underlyingly en where the nasal assimilates in place to the following consonant. 6 24 A Simple Formalism for Capturing Order and Co-Occurrence in Computational Morphology en to characterize the regular language where every instance of the language X is immediately preceded by the language Yi and immediately followed by Zi , for some i. The reader is urged to consult Yli-Jyrä and Koskenniemi (2004) for a very efficient method of compiling such statements into automata. {fromA} {toV} U[Circ emen] Here, the prefix em, carries +[Circ emen], requiring the presence of a feature-value pair [Circ emen] somewhere else in the derivation. This can be satisfied by the suffix en. However, this suffix can also surface on its own since it does not carry the coercion + operator on the feature-value pair, but only the unification operator. The interplay between these two operators yields the desired morphotactics. 4. 4.2. With the above, we can build [F V ], for some feature-value combination present in our grammar, as: [F V ] ⇒ #Σ∗ ( ∪ +)[F V ]Σ∗ Σ∗ ( ∪ +)[F V ]Σ∗ # That is, the presence of a [F V ] is allowed only in the environment where both the left and right-hand sides do not contain a string [F Vx ] such that Vx is not V and the operator preceding is either + or . Implementation While we wish to remain somewhat agnostic as to the preferred computational models of morphological analysis and parsing, we shall here outline a possible implementation of the proposed formalism in terms of finite-state automata/transducers, since these are a popular mode of building morphological analyzers and generators.7 We assume the standard regular expression notations where Σ denotes the alphabet, L1 ∪L2 is the union of two languages, L is the complement of language L, # is an auxiliary boundary marker denoting a left or right edge of a string. Also, in our notation, symbol and language concatenation is implied whenever two symbols are placed adjacent to each other. Following this, our earlier notation +[F V ] denotes the language that consists of one string with five elements concatenated (we assume F and V to represent features and values, respectively, and +, −, [, ], {, }, and to be single symbols). 4.1. Unification 4.3. Coercion Similarly, we can build the + operator as follows: +[F V ] ⇒ Σ∗ ( ∪ +)[F V ], ( ∪ +)[F V ] Here, the statement implies that any presence of +[F V ] is allowed only if the string also contains a similar [F V ] somewhere to its left or right, where the operator is either + or . 4.4. Exclusion The exclusion (−) operator is built similarly, as: −[F V ] ⇒ #Σ∗ ( ∪ +)[F V ]Σ∗ Context restriction Σ∗ ( ∪ +)[F V ]Σ∗ # This defines the languages where an instance of some string −[F V ], where F and V are features and values, respectively, is allowed only if surrounded by strings that do not contain [F V ] with the operator either + or . As an auxiliary notation, we shall assume the presence of a regular expressions contextrestriction operator (⇒) in the compilation of automata and transducers as this alleviates the task of defining many morphotactic restrictions. We take: 5. X ⇒ Y1 Z1 , . . . , Yn Zn Order constraints In order to address the compilation of the order constraints (<, > and , ), one would have to make assumptions about the exactly how the morphemes, features, values, and class labels are represented as automata. Supposing every morpheme is followed by 7 A parser for Navajo verbal morphology has been built this way: converting the contents of a grammar into regular expressions, and then building automata that constrain the morphotactic level (Hulden and Bischoff, 2007). 25 Mans Hulden y Shannon Bischoff its bundle of features, so that a word on the morphotactic level is represented as: M1 {Class}op[F1 V1 ] . . . op[Fn Vn ]M2 {Class} . . ., where op is one of , +, −, the presence of a constraint Class 1 Class 2 can be represented as: Σ∗ {Class 2 }Σ∗ {Class 1 Hardman, M. J. 2001. Aymara: LINCOM Studies in Native American Linguistics. LINCOM Europa, München. Hulden, Mans and Shannon T. Bischoff. 2007. An experiment in computational parsing of the Navajo verb. Coyote Papers: special issue dedicated to Navajo language studies, 16. }Σ∗ that is, the language where no instance of the string Class 2 precedes Class 1 . The operator can be defined symmetrically. The immediate precedence Class 1 < Class 2 can be defined as: Kimball, Geoffrey D. 1991. Koasati Grammar. Univ. of Nebraska Press, London. Koskenniemi, Kimmo. 1983. Two-level morphology: A general computational model for word-form recognition and production. Publication 11, University of Helsinki, Department of General Linguistics, Helsinki. Σ∗ {Class1 }Σ∗ {Σ∗ {Class2 }Σ∗ representing the language where no Class n string may intevene between a string Class 1 and Class 2 . Note that the brackets { and } are single symbols in Σ in the above. 6. Faltz, Leonard M. 1998. The Navajo Verb. University of New Mexico Press. Mohanan, Karuvannur P. 1986. The theory of lexical phonology. Reidel, Dordrecht. Conclusion Yli-Jyrä, Anssi and Kimmo Koskenniemi. 2004. Compiling contextual restrictions on strings into finite-state automata. The Eindhoven FASTAR Days Proceedings. We have presented a formalism for specifying morphotactics that allows for separate description of morpheme order and morpheme co-occurrence. These are controlled by a small number of operators on features, or classes of morphemes. The order-related operators have the power to state that a class of morpheme must either precede, or immediately precede some other class of morphemes, while the co-occurrence operators allow for unification of feature-value pairs, exclusion of feature-value pairs, or coercion, i.e. expression of a demand that some featurevalue pair be present. We have also sketched a way to implement the formalism as finite-state automata through first converting the notation into regular expressions, which can then be compiled into automata or transducers using standard methods. Young, Robert W. 2000. The Navajo Verb System: An Overview. University of New Mexico Press, Alburquerque. Bibliografı́a Beesley, Kenneth and Lauri Karttunen. 2003. Finite-State Morphology. CSLI, Stanford. Bickel, Balthasar, Goma Banjade, Martin Gaenszle, Elena Lieven, Netra Paudyal, Ichchha Purna Rai, Manoj Rai, Novel Kishor Rai, and Sabine Stoll. 2007. Free prefix ordering in chintang. Language, 83. 26 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 27-34 recibido 24-05-2007; aceptado 22-06-2007 A note on the complexity of the recognition problem for the Minimalist Grammars with unbounded scrambling and barriers∗ Alexander Perekrestenko Universidad Rovira i Virgili Grupo de Investigación en Lingüı́stica Matemática (Research Group on Mathematical Linguistics) International PhD School in Formal Languages and Applications Pl. Imperial Tarraco 1, 43005 - Tarragona alexander.perekrestenko@estudiants.urv.cat Resumen: Las Gramáticas Minimalistas fueron introducidas recientemente como un modelo para la descripción formal de la sintaxis de los lenguajes naturales. En este artı́culo, se investiga una extensión no local de este formalismo que permitirı́a la descripción del desplazamiento optativo ilimitado de constituyentes sintácticos (scrambling), un fenómeno que existe en muchos idiomas y presenta dificultades para la descripción formal. Se establece que la extensión de las Gramáticas Minimalistas con scrambling sin la llamada condición del movimiento más corto (shortest-move constraint, SMC) y con barreras hace que el problema de reconocimiento para el formalismo resultante pertenezca a la clase NP-hard de la complejidad computacional. Palabras clave: Sintaxis, análisis sintáctico, Gramáticas Minimalistas, orden de palabras, scrambling, complejidad computacional, lenguajes formales Abstract: Minimalist Grammars were proposed recently as a model for the formal description of the natural-language syntax. This paper explores a nonlocal extension to this formalism that would make it possible to describe unbounded scrambling which is a discriptionally problematic syntactic phenomenon attested in many languages. It is shown that extending Minimalist Grammars with scrambling without shortest-move constraint (SMC) and with barriers makes the recognition problem for the resulting formalism NP-hard. Keywords: Syntax, parsing, Minimalist Grammars, word order, scrambling, computational complexity, formal languages 1 Introduction The formalization of the natural language syntax is important both from the theoretical and practical point view. It allows us to check the feasibility of the existing syntactic theories as models of how we process the language and provides a framework for creating practical applications—grammars and parsing systems. In the formalization of naturallanguage syntax, following classes of grammars usually come into consideration. Right-liner (regular) grammars. These ∗ This research work has been partially supported by the Russian Foundation for Humanities as a part of the project “The typology of free word order languages” (grant RGNF 06-04-00203a). The author would also like to express his utmost gratitude to the head of the Research Group on Mathematical Linguistics of the Rovira i Virgili University prof. Carlos Martı́n Vide for his encouragement and advice. ISSN: 1135-5948 grammars can only be used for so-called shallow parsing since their capacity to assign structural descriptions to sentences is too limited. Context-free grammars. While these grammars can describe a big part of the natural language syntax in the weak sense, they fail to assign appropriate structural descriptions to sentences containing discontinuous constituents. Mildly context-sensitive formalisms. Mildly context-sensitive grammars (MCSG) were proposed as a mathematical model of the natural-language syntax that would be only as powerful as necessary for the correct description of the existing syntactic phenomena. The mildly context-sensitive formalisms best explored today are Treeadjoining Grammars (TAGs) and Minimalist Grammars (MGs). © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Alexander Perekrestenko Computationally unrestricted formalisms. Unification-based syntactic theories with unrestricted structure sharing, such as Headdriven Phrase Structure Grammar (HPSG), strictly speaking do not belong to the class of restricted grammars since they are based on unification formalisms which are Turingequivalent. The problem of the computational universality of the formalism itself is here solved with the design of grammars that do not exploit the full power of the formalism. Whatever the grammar or the class of formalisms, it is crucially important for it to allow parsing in deterministic polynomial time basing on the length of the input, for otherwise its hight computational complexity (or incomputability) would disqualify it both as a feasible mathematical model of the human language competence and as a technically applicable framework. 2 . . . dass niemand [den Kühlschrank]i [[dem Kunden] [ti zu reparieren] zu versprechen] versucht hat; . . . dass [den Kühlschrank]i niemand [[dem Kunden] [ti zu reparieren] zu versprechen] versucht hat; . . . dass [dem Kunden]j niemand [tj [[den Kühlschrank] zu reparieren] zu versprechen] versucht hat; . . . dass [den Kühlschrank]i [dem Kunden]j niemand [tj [ti zu reparieren] zu versprechen] versucht hat; . . . dass [dem Kunden]j [den Kühlschrank]i niemand [tj [ti zu reparieren] zu versprechen] versucht hat. The string language of scrambled sentences can be seen as {ni v i | n, v ∈ Σ, i > 0}, it is context-free. But what matters from the linguistic point of view is not so much the generated language as such, but rather the grammar’s capacity to assign linguistically correct structural descriptions to the sentences with scrambling. In (Becker, Rambow, and Niv, 1992) it was proved that unbounded scrambling cannot be derived by linear contextfree rewriting systems (LCFRS) and—as a consequence—it cannot be derived by setlocal multi-component tree-adjoining grammars (slMCTAG) either. An important aspect of the unbounded scrambling is that there are some syntactic categories, called barriers, beyond which no constituents can scramble. For German it is a tensed clause, for example. Nonlocal vector TAGs with dominance links and integrity constrains (VTAG-Δ) introduced in (Rambow, 1994) are the only known TAG-based formalism which allows a generalized description of scrambling and is polynomially parsable if some restrictions external to the formalism itself are imposed on the derivation. In its lexicalized version these restrictions are satisfied as a consequence of the lexicalization. Other nonlocal versions of TAGs do not have acceptable computational properties. For example, the word recognition problem for nonlocal MCTAGs with such linguistically meaningful restrictions as lexicalization, limiting the numbers of trees in each tree set to two and imposing dominance links on the trees belonging to one set is NP-complete (Champollion, 2007). This shows that nonlocality, which seems to be necessary for the adequate description of un- Linguistic data One of the most problematic phenomena for the formalization of the natural-language syntax is so-called scrambling, which is a non-obligatory reordering of syntactic constituents. Originally, the term scrambling was used to denote the argument permutation observed in the so-called middlefield (Mittelfelt) in German. This phenomenon occurs in many other languages as well, for example, in Japanese, Russian, Turkish, etc. The descriptionally most problematic class of this phenomenon is the so-called unbounded scrambling where the permutating arguments belong to different verbal heads. In this kind of scrambling, a linear reordering of the arguments leads to their displacement from the embedded infinitival clauses into the matrix clause. Since in theory there is no limit on the depth of the infinitival clause embedding, we can have any number of verbal heads with the arguments “jumping up” to the embedding clauses from an arbitrarily deeply embedded infinitival clause, as shown in the example below (all the sentences of this example mean ‘. . . that no-one has tried to promise the customer to repair the refrigerator’):1 . . . dass niemand [[dem Kunden] [[den Kühlschrank] zu reparieren] zu versprechen] versucht hat; 1 The sentences are based on the examples from German in (Rambow, 1994). 28 A Note on the Complexity of the Recognition Problem for the Minimalist Grammars with Unbounded Scrambling and Barriers – a set B = { n, v, d, c, t, . . .} of base (syntactic) categories, – a set of abstract features, A = { case, num, pers, . . .}, – a set of merge selectors, M = { = x | x ∈ B }, – a set of move licensees, E = { −f | f ∈ A }, – a set of move licensors, R = { +f | f ∈ A }, – a set of scramble licensees, S = { ∼ x | x ∈ B }, – a set of barrier markers, I = { x | x ∈ B }. bounded scrambling, is generally very dangerous for the computational properties of the formalism. Another mildly context-sensitive formalism widely studied in the last ten years are Minimalist Grammars (MG) introduced in (Stabler, 1997) as a formalization of some central aspects of the structure-building component of the Minimalist Program, an approach to the description of syntax proposed in (Chomsky, 1995). In this formalism, discontinuous constituents are described as a result of the displacement of a part of a constituent into some other position in the tree. MGs are weakly equivalent to setlocal MCTAGs. In MGs the locality is represented as the shortest-move constraint (SMC) forbidding competitive displacement of constituents. Lifting this constraint affects badly the computational properties of the formalism: for example, canceling the SMC, but preserving the specifier island constraint (SPIC) prohibiting movement from within specifiers, produces a Turing-equivalent formalism (Kobele and Michaelis, 2005). In (Frey and Gärtner, 2002), a scrambling operator was introduced for MG, but it was restricted by the SMC which made the generalized scrambling description impossible. In the present paper we show that extending an MG with an unbounded scrambling (i.e., scrambling without SMC) and with barriers—an analogue to the integrity constraints in VTAG-Δ—makes the recognition problem for the resulting formalism NPhard. 3 • c is a distinguished element of B, the completeness category. • ‘|’ is a special symbol (a bar). • Lex is a lexicon—a finite set of simple expressions (see Definition 2) over N onSynt ∪ Syn, each of which is of the form τ = Nτ , ∗ , ≺, <, labelτ , with Nτ = {}. • Ω is the set of the structure-building operations ‘merge’, ‘move’ and ‘scramble’. In what follows, by [< a, b ] we will denote a binary tree consisting of the nodes a and b in this very linear order where the node a is the head of (“projects over”) the structure represented by this tree so that the expression associated with the tree is the same as the one associated with its head node. In the same way, by [> c, b ] we will denote a binary tree consisting of the nodes c and b in this very linear order where the node b is the head of the structure represented by the tree: MGs with unbounded scrambling and barriers > < Below we will give a definition of unrestricted Minimalist Grammars with unbounded scrambling and barriers which is based on the original definition of MG in (Stabler, 1997) and (Michaelis, 2001). a b c b A node represented by a single letter will be called a simple node. All nodes in the above examples are simple ones. If a node represents a subtree, it will be called a complex node, as in the following example, where b in the tree [< a, b ] is a complex node since it represents its subtree [> c, b ]: Definition 1 (MGscr B ) An unrestricted Minimalist Grammar with unbounded scrambling and barriers, MGscr B , is a tuple G = N onSyn, Syn, c, |, Lex, Ω, such that < • N onSyn is a finite set of non-syntactic features partitioned into a set of phonetic (P hon) and semantic (Sem) features. • Syn is a finite set of syntactic featured disjount from N onSynt and partitioned into a > c b The argument position to the right of a head node is called the complement position. Positions to the left of a head node, over which 29 Alexander Perekrestenko this node projects, are referred to as specifier positions. The maximal projection of a node a in a given tree is the maximal subtree headed by this node. τ is a complex node that displays feature = x, τ0 displays category x, τ is like τ except that = x is canceled, τ0 is like τ0 except that x is hidden. Definition 2 (Expression) An expression is a finite, binary, labeled ordered tree τ = (Nτ , ∗ , ≺, <, labelτ ), where Nτ is the set of nodes; is the dominance relation between nodes; ≺ is the precedence relation between nodes; < is the projection relation between nodes; labelτ is the leaf-labeling function mapping the leafs of the tree onto an element from {M ∗ R? B E ? S ? P hon∗ Sem∗ | } ∪ {M ∗ R? B −I E ? S ? P hon∗ Sem∗ | } ∪ {E ? S ? P hon∗ Sem∗ | B} ∪ {E ? S ? P hon∗ Sem∗ | B −I } as introduced in the definition of MGscr B . An expression is called complex if it has more than one node; otherwise it is called simple. As an example of merge we will consider the derivation of the sentence John likes beer. Lexicon: = d. = d.v .likes; d.John; d.beer Derivation: Step 1: ⇒ = d. = d.v.likes + d.beer < = d.v.likes beer|d Step 2: + d.John < = d.v.likes beer|d ⇒ > John|d < v.likes beer|d Definition 5 (move domain) Dom(move) = { τ | τ is a well-labeled expression that displays feature +x and contains exactly one maximal projection τ0 displaying feature −x }.2 An expression τ over Syn ∪ N onSyn is called well-labeled if each leaf of τ is a string from Syn∗ P hon∗ Sem∗ (|(B + B −I ))? . The label of a complex expression is that of its head leaf. The phonetic yield of an expression is the concatenation of the phonetic yields of its subexpressions. We will be saying that the expression e = f1 f2 . . . fn−1 | fn , where f1 , f2 , . . . , fn are features, has or contains these features and displays feature f1 . We will say that a syntactic feature f is canceled from the expression e if it is removed from it. We will also say that a syntactic feature f is hidden in the expression e if it is moved to the right of the bar symbol in this expression. To make notation shorter, we will omit the bar symbol if there are no features behind it. Now we will define the structure-building operations with their domains. Definition 6 (move operator) move(τ ) = [> τ0 , τ ], such that τ displays feature +x, τ0 is a proper subtree of τ displaying feature −x, τ0 is like τ0 except that −x is canceled, and τ is like τ except that +x is canceled and the subtree τ0 is replaced by an empty leaf. The operator move is illustrated below in the derivation of the subordinate clause what John likes from John likes what within the sentence she wonders what John likes. Lexicon: = d. = d.v.likes; d.John; d.−wh.what; = v.+wh.c Derivation: ⇒ < +wh.c > what|d > < c Definition 3 (merge domain) Dom(merge) = { τ0 , τ | τ0 and τ are well-labeled expressions, τ0 displays category x, and τ displays feature = x }. John|d > < John|d v.likes −wh.what|d < v.likes λ We say that a maximal projection τ is a barrier between the maximal projections τ and τ0 , if τ0 is a proper subtree of τ , τ is a proper subtree of τ , τ0 has the basic category b, and τ contains the barrier marker −b. Definition 4 (merge operator) merge(τ ) = [< τ , τ0 ], such that τ is a simple node displaying feature = x, τ0 displays category x, τ is like τ except that = x is canceled, τ0 is like τ0 except that x is hidden; The restriction that τ cannot contain more than one movement candidate is the shortest-move condition, as it is used in MG. 2 and merge(τ ) = [> τ0 , τ ], such that 30 A Note on the Complexity of the Recognition Problem for the Minimalist Grammars with Unbounded Scrambling and Barriers 4.2 Definition 7 (scrambling domain) Dom(scramble) = { τ | τ is a well-labeled expression that displays category x and contains at least one maximal projection τ0 displaying feature ∼ x and there is no barrier between τ and τ0 }. The idea of the proof The NP-hardness of the word recognition problem for MGscr B will be proved by constructing a grammar G ∈ MGscr B that generates a language L = L1 ∪ L2 , L1 ∩ L2 = ∅, where L1 () represents a known NP-complete problem, i.e., it is NP-hard, and the question whether a word w ∈ L belongs to L1 or to L2 can be resolved in deterministic polynomial time. In the proof we will use the 3-Partition Problem which in known to be (strongly) NPcomplete: Definition 8 (scrambling operator) scramble(τ ) = [> τ0 , τ ], such that τ displays category x, τ0 is a proper subtree of τ displaying feature ∼ x and there is no barrier between τ and τ0 , τ0 is like τ0 except that ∼ x is canceled, τ is like τ except that subtree τ0 is replaced with an empty leaf. Given a set of 3k natural numbers {n1 , n2 , . . . , n3k } and a constant m, decide whether this set can be partitioned into k subsets of cardinality 3 each of which sums up to m. The scrambling so defined operates nondeterministically in the sense that it can displace any appropriate constituent. The difference between scrambling and movement consists in the fact that scrambling is optional, it allows a competitive displacement of constituents since it is not restricted by SMC, and it can be blocked by a barrier. This problem can be described as a language L3P = {bm axn1 axn2 . . . axn3k | a, b, x ∈ Σ} such that it consists of all the words for which m, n1 , n2 , . . . , n3k represents an instance of the problem. The word recognition problem for this language is NP-hard.3 In MGscr B , scrambling allows syntactic constituents to move to the left in competitive manner while barriers set boundaries beyond which these constituents cannot move. This fact can be used to derive a language Lscr B containing L3P such that for any word w ∈ Lscr B it can be decided in deterministic polynomial time whether w ∈ L3P or not. Definition 9 (Language of an MGscr B ) The language L generated by an MGscr B G is the set of the phonetic yields of the expressions produced from the lexical entries by applying (some of ) the structure-building operations, such that these expressions display the completeness category c and neither they themselves nor their subexpressions contain move licensees and move licensors (i.e., all movements have been performed). 4 MGscr B is NP-hard 4.1 Some preliminaries 4.3 Proving NP-hardness Let G = N onSyn, Syn, p, |, Lex, Ω be an MGscr B where A problem X is NP-hard if and only if an NP-complete problem N can be transformed (“reduced”) to X in polynomial time in such a way that a (hypothetical) polynomial-time algorithm solving X could also be used to solve N in polynomial time. For a language L, we will denote by L() the word recognition problem for L. Let L, L1 and L2 be languages such that L = L1 ∪ L2 and L1 ∩ L2 = ∅. Let p(w) be a polynomial-time computable function such that for any w ∈ L it returns true if w ∈ L1 and f alse otherwise. (For a w ∈ / L, it can return either true or f alse.) We will need following proposition: • P hon = {a, b, c, d}, Sem = ∅, • A = { f }, and • B = { a1 , a2 , a3 , a1 , a2 , a3 , a1 , a2 , a3 , b, b , b0 , c1 , c2 , c3 , c1 , c2 , c3 , c1 , c2 , c3 , d1 , d2 , d3 , d1 , d2 , d3 , d1 , d2 , d3 , e, g, s, p }. The lexicon of the grammar, Lex, consists of the following entries (organized into groups 3 A language representation of the 3-Partition Problem was also used in (Champollion, 2007) to prove NP-hardness for a restricted version of nonlocal MCTAGs. It should be mentioned, though, that the relationship between nonlocal MCTAGs and MGscr B is not known, so we cannot apply the complexity result for nonlocal MCTAGs to MGscr B . Proposition 1 If L1 () is NP-hard, then L() is also NP-hard. 31 Alexander Perekrestenko according to which part of the structure they generate): 1. (a) = c3 . a3 . ∼ s . a; = c3 . = b . d3 . d; (b) = c2 . a2 . ∼ s . a; = c2 . = b . d2 . d; (c) = c1 . a1 . ∼ s . a; = c1 . = b . d1 . d; 2. (a) = c3 . a3 . ∼ s . a; = c3 . = b . d3 . d; = a1 . = b . d3 . d; (b) = c2 . a2 . ∼ s . a; = c2 . = b . d2 . d; (c) = c1 . a−b 1 . ∼ s . a; = c1 . = b . d1 . d; 3. (a) = c3 . a3 . ∼ s . a; = c3 . = b . d3 . d; (b) = c2 . a2 . ∼ s . a; = c2 . = b . d2 . d; 4. 5. 6. 7. Step 1. The derivation begins with the lexical entries (1a) generating the following (sub)tree: < The yield of this subtree is a3 > +. a(bcbd) Each b0 < b located immec3 > diately between b < a c and a d (the d3 > corresponding base category is b0 < underlined) is c3 > licensed for scramb < bling to a specifier d3 . . . position of a c or > g introduced at a later point in the b0 < derivation, since c3 > every such b has b < the scrambling d3 e licensee ∼ c or ∼ g. The whole a3 -headed subtree is licensed for scrambling to the s node to be introduced at a later point in the derivation, since the a3 node has the scrambling licensee ∼ s. After that, subtrees headed with a2 and a1 are generated by the entries (1b) and (1c) respectively. The generation proceeds in the same way as in the case of the a3 subtree; the b nodes are licensed for scrambling to c or g, and the a2 and a1 subtrees are themselves licensed for scrambling to s: = d3 . = b0 . c3 . c; = e . = b. d3 . d; e; = d2 . = b0 . c2 . c; = a3 . = b . d2 . d; = d1 . = b0 . c1 . c; = a2 . = b . d1 . d; = d3 . c3 . c; = a1 . = b . d3 . d; = d2 . c2 . c; = a3 . = b . d2 . d; = d1 . c1 . c; = a2 . = b . d1 . d; = d3 . c3 . c; = a1 . = b . d3 . d; = d2 . c2 . c; = a3 . = b . d2 . d; (c) = c1 . a−b 1 . ∼ s . a; = d1 . c1 . c; = c1 . = b . d1 . d; = a2 . = b . d1 . d; = a1 . g . −f ; = a1 . g . −f ; = a1 . g . −f ; = g . s; = s . +f . p; b . ∼ c . b; b . ∼ c . b; b . ∼ g . b; b . ∼ g . b; b0 . b Proposition 2 The language L generated by the grammar G is a union of two disjoint languages, L = L3p ∪ L , L3p ∩ L = ∅, such that L3p consists of all the words < bm a(bcd)n1 a(bcd)n2 . . . a(bcd)n3k a1 (b0 c1 bd1 )+ with a, b, c, d ∈ Σ, where m, n1 , n2 , . . . , n3k is an instance of the 3-Partition Problem, as described above, and there exists a polynomial-time computable function p(w) such that for any word w ∈ L it returns true if w ∈ L3p and f alse otherwise; for w ∈ / L it returns either true of f alse. < a2 (b0 c2 bd2 )+ < a3 (b0 c3 bd3 )+ The phonetic yield generated at this point is a(bcbd)+ a(bcbd)+ (bcbd)+ . The derivation continues to step 2 or 4. Step 2. Analogously to the previously performed step, subtrees headed by a3 , a2 and a1 are generated by the entries (2a), (2b) and (2c) respectively. All of them are licensed for scrambling to s. The b nodes inside these subtrees are licensed for scrambling to c or g. Some of the b nodes introduced in the previously performed step (this restriction is provided by barriers) scramble to some of the c nodes introduced at the present step: We will prove the proposition 2 by following the bottom-up derivation of the language L. In the illustrations below, the symbols used in the tree structures are base category symbols.4 The derivation starts at step 1. 4 In the grammar G, the lexical entries are made in such a way that the phonetic (i.e., terminal) symbols can be obtained by stripping the base category symbols of indices and bars (except for the zero-yield entries headed by e, g, s and p). 32 A Note on the Complexity of the Recognition Problem for the Minimalist Grammars with Unbounded Scrambling and Barriers < The derivation continues to step 5. + a−b 1 ( b c1 b d1 ) Step 5. A subtree headed by s is generated by the entry (5). The s head takes g as its complement. Further, some a subtrees generated at previous steps scramble to s: < a2 ( b c2 b d2 )+ < > a3 ( b c3 b d3 )+ < a1 < or a1 ... The derivation continues to step 3 or 4. Step 3. Analogously to the previously performed step, subtrees headed by a3 , a2 and a1 are generated by the entries (3a), (3b) and (3c) respectively. All of them are licensed for scrambling to s. The b nodes inside these subtrees are licensed for scrambling to c or g. Some of the b nodes introduced in the previously performed step (this restriction is provided by barriers) scramble to some of the c nodes introduced at the present step: < > a1 , a1 , a1 , a2 , a2 , a2 , a3 , a3 or a3 ... > < < a1 , a1 , a1 , a2 , a2 , a2 , a3 , a3 or a3 s g The derivation continues to step 6. Step 6. A subtree headed by p is generated by the entry (6). The p head takes s as its complement. Further, the g subtree generated at a previous step is moved to the specifier position of p: < a−b ( b’ c1 bd1 )+ 1 > a1 , a1 , a1 , a2 , a2 , a2 , a3 , a3 or a3 > < < a2 ( b’ c2 bd2 )+ < g a3 ( b’ c3 bd3 )+ < a1 s ... The language generated by this grammar, L, is the union of two languages, L = L1 ∪ L1 , such that L1 consists of all the words produced with all b and b nodes having scrambled and each c and c head having accepted exactly one scrambling b or b node, and L1 contains the rest of the words. The language L1 consists of all the words The derivation continues to step 2 or 4. Step 4. A subtree headed by g is generated by the entries (4). The g head takes as its complement a1 or a1 (1), or a1 (2). It is licensed for movement to p. Some of the b or b nodes introduced in the previously performed step (this restriction is provided by barriers) scramble to g: (1) > (2) > b > b > b’ ... > > < g < b’ g < a1 or a1 ... such that for all positive natural numbers k and m, the multiset {n1 , n2 , . . . , n3k } can be partitioned into k multisets of cardinality 3, each of which sums to m. This will be explained following the generation of the words of the language. On the yield level, each “atripple” a( b cbd)+ a( b cbd)+ a( b cbd)+ generated at the step (2) or (3) receives the scrambling symbols b from the neighbouring > ... b bm a(bcd)n1 a(bcd)n2 . . . a(bcd)n3k > b’ p < a1 ... 33 Alexander Perekrestenko 5 a-tripple on the right (these symbols are depicted in squares) generated during the previous step and later “gives away” through scrambling to the neighbouring left a-tripple the symbols b located between c and d (underlined). Barriers guarantee that these symbols can only scramble to the adjacent tripple. The symbols b scrambling from the leftmost a-tripple are stored as a “counter” at step (4). In case all b and b symbols have scrambled and each c and c head have received through scrambling exactly one b or b , all a-tripples will contain an equal number of bcd subwords, while the number of these subwords in each a(bcd)+ member of one and the same a-tripple may vary. The “counter” will consist of as many symbols b as there are bcd subwords in each a-tripple. At step (5), all the a(bcd)+ members of the a-tripples are permuted arbitrarily, whereafter the “counter subword” is moved to the left at step (6). Each word in L1 contains at least one following subword in positions to the right starting from the leftmost occurrence of a: bb (more than one b have scrambled to the same c head), ac, dc (omission of scrambling to a particular c head), cb (b has not scrambled), while no word in L1 follows this pattern. This means that L1 ∩ L1 = ∅, and there exists a polynomial-time computable function p(w) such that for any w ∈ L, p(w) = true if w ∈ L1 and p(w) = f alse otherwise. For a w∈ / L, it will return true or f alse. The language L1 can be seen as a union of two languages, L1 = L2 ∪ L3 , such that {n1 , n2 , . . . , n3k } is a proper multiset for L2 (i.e., it contains repeated elements) and a set for L3 . This means that L2 ∩ L3 = ∅, and— since the problem whether a given multiset is a proper multiset or a set can be solved in deterministic polynomial time—there exists a polynomial-time computable function q(w) such that for any w ∈ L1 , q(w) = true if w ∈ L3 and q(w) = f alse otherwise. For a w∈ / L1 , it will return true or f alse. The language L3 constitutes the unary encoding of the 3-Partition Problem5 whereby we have proved the proposition 2, which together with the proposition 1 gives us following result: Conclusions Since the recognition problem for MGscr B is NP-hard, the generalized description of scrambling is probably impossible in MG, at least if it is implemented in a straightforward way. On the other hand, MGs can provide a convenient framework for the practical implementation of some important results obtainable within the Minimalist Program. For this reason, a further study of the proposed MG extensions is important, since a solution to the scrambling problem can make out of MGs a powerful formal language tool for the grammar engineering. Additionally, it could provide insights into possible ways to tackle the nonlocality problem in this class of formalisms. References Becker, T., O. Rambow, and M. Niv. 1992. The Derivational Generative Power of Formal Systems or Scrambling is Beyond LCFRS. Technical Report IRCS-92-38, University of Pennsylvania, USA. Champollion, L. 2007. Lexicalized nonlocal MCTAG with dominance links is NP-complete. In Proceedings of Mathematics of Language 10. To appear. Chomsky, N. 1995. The Minimalist Program. The MIT Press, Cambridge, USA. Frey, W. and H.-M. Gärtner. 2002. On the Treatment of Scrambling and Adjunction in Minimalist Grammars. In G. Jäger, P. Monachesi, G. Penn, and S. Wintner, editors, Proceedings of Formal Grammar 2002, pages 41–52, Trento, Italy. Kobele, G. M. and J. Michaelis. 2005. Two Type 0-Variants of Minimalist Grammars. In Proceedings of the 10th conference on Formal Grammar and the 9th Meeting on Mathematics of Language, Edinburgh, Scotland. Michaelis, J. 2001. On Formal Properties of Minimalist Grammars. Ph.D. thesis, Potsdam University, Germany. Rambow, O. 1994. Formal and Computational Aspects of Natural Language Syntax. Ph.D. thesis, University of Pennsylvania, USA. Proposition 3 The word recognition problem for MGscr B is NP-hard. Stabler, E. 1997. Derivational minimalism. In Christian Retore, editor, Logical Aspects of Computational Linguistics. Springer, pages 68–95. 5 Without loss of generality we consider only positive natural numbers and assume k ≥ 1. 34 Búsqueda de Respuestas Procesamiento del Lenguaje Natural, nº39 (2007), pp. 37-44 recibido 17-05-2007; aceptado 22-06-2007 Paraphrase Extraction from Validated Question Answering Corpora in Spanish∗ Jesús Herrera, Anselmo Peñas, Felisa Verdejo Departamento de Lenguajes y Sistemas Informáticos Universidad Nacional de Educación a Distancia C/ Juan del Rosal, 16, E-28040 Madrid {jesus.herrera, anselmo, felisa}@lsi.uned.es Resumen: Partiendo del debate sobre la definición de paráfrasis, este trabajo intenta clarificar lo que las personas consideran como paráfrasis. El experimento realizado parte de una de las distintas campañas que generan cada año grandes cantidades de datos validados, susceptibles de ser reutilizados con diferentes fines. En este artı́culo se describe con detalle un método simple –fundamentado en reconocimiento de patrones y operaciones de inserción y eliminación–, capaz de extraer una importante cantidad de paráfrasis de corpora de Pregunta–Respuesta evaluados. Se muestra además la evaluación realizada por expertos del corpus obtenido. Este trabajo ha sido realizado para el español. Palabras clave: Extracción de paráfrasis, corpus de Pregunta–Respuesta, definición de paráfrasis Abstract: Basing on the debate around the definition of paraphrase, this work aims to empirically clarify what is considered a paraphrase by humans. The experiment accomplished has its starting point in one of the several campaigns that every year generate large amounts of validated textual data, which can be reused for different purposes. This paper describes in detail a simple method –based on pattern–matching and deletion and insertion operations–, able to extract a remarkable amount of paraphrases from Question Answering assessed corpora. An assessment of the corpus obtained was accomplished by experts, and an analysis of this process is shown. This work has been developed for Spanish. Keywords: Paraphrase extraction, Question Answering corpus, paraphrase definition 1 Introduction The main idea of the present work is that, although several definitions of the concept of paraphrase have been already made, it is still important to determine what humans understand when they are said to evaluate if a pair of statements are related by a paraphrase relationship. For this purpose, it was decided to obtain a corpus containing pairs of statements that could be paraphrases; these pairs were be assessed by experts in order to determine if, effectively, there was a paraphrase re∗ We are very grateful to Sadi Amro Rodrı́guez, Mónica Durán Mañas and Rosa Garcı́a–Gasco Villarrubia for their contribution by assessing the paraphrase corpus. We also would like to thank Claudia Toda Castán for revising this text. This work has been partially supported by the Spanish Ministry of Science and Technology within the project R2D2– SyEMBRA (TIC–2003–07158–C04–02), and by the Regional Government of Madrid under the auspices of MAVIR Research Network (S–0505/TIC–0267). ISSN: 1135-5948 lationship between them. In addition, it was considered that some corpora could successfully be reused in order to automatically extract these pairs of candidates for paraphrase. The corpus ed was the corpus of assessed answers –in Spanish– from the Question Answering (QA) exercise proposed in the 2006 edition of the Cross Language Evaluation Forum (CLEF). The experiment accomplished suggests that with such corpus it is viable to obtain a high amount of paraphrases with a fully automated and simple process. Only shallow techniques were applied all along this work for this first approach. This method increases the set of proposals for paraphrase obtention given until now, for example: (Barzilay and McKeown, 2001) and (Pang et al., 2003) used text alignment in different ways to obtain paraphrases; (Lin and Pantel, 2001) used mutual information of word distribution to calculate the similarity of expressions, © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Jesús Herrera de la Cruz, Anselmo Peñas y Felisa Verdejo (Ravichandran and Hovy, 2002) used pairs of questions and answers to obtain varied patterns which give the same answer; and (Shinyama et al., 2002) obtained paraphrases by means of named entities found in different news articles reporting the same event. In section 2 an overview of the experiment is given. Section 3 describes all the steps accomplished in order to transform the multilingual source corpus in a monolingual corpus of paraphrase candidates, ready to be assessed. Section 4 describes the activity developed by the assessors and the results obtained; the problems detected in the process are listed, with suggestions for its improvement; and, finally, some ideas about what humans understand under the concept of paraphrase are outlined. In section 5 some conclusions and proposals for future work are given. 2 tively, paraphrases; their judgements were used as a voting to obtain this final set. The output of this assessment process was used to try to identify what humans understand under “paraphrase”. 3 Building a corpus for the experiment One of the objectives of the experiment was to determine the best way to obtain a paraphrase corpus from a QA assessed corpus using shallow techniques. It was accomplished as described in the following subsections. 3.1 The multilingual source corpus The assessment process of the QA@CLEF produces a multilingual corpus with its results. This QA corpus contains, for every language involved in the exercise, the following data: the questions proposed, all the answers given to every question, and the human assessment given to every answer (right, wrong, unsupported, inexact) (Magnini et al., 2006). Our idea was to use this corpus as a source to obtain a paraphrase corpus in Spanish. The experiment Every year, QA campaigns like the ones of the CLEF (Magnini et al., 2006), the Text REtrieval Conference (TREC) (Voorhees and Dang, 2005) or the NII–NACSIS Test Collection for IR Systems (NTCIR) (Fukumoto et al., 2004) (Kato et al., 2004), generate a large amount of human–assessed textual corpora. These corpora, containing validated information, can be reused in order to obtain data that can be well-spent by a wide range of systems. The idea, given by (Shinyama et al., 2002), that articles derived from different newspapers can contain paraphrases if they report the same event, made us aware of the fact that in the QA campaign of the CLEF the participating systems usually obtain several answers for a certain question; the answers, taken from a news corpus, are related by the common theme stated by this question. Thus, probably a remarkable number of these answers will compose one or more sets of paraphrases. But, is it easy for a computer program to extract that information? This last question motivated a study of the corpora available after the assessments of the Question Answering exercise of the CLEF (QA@CLEF) 2006 campaign. The first action accomplished aimed at determine if, by means of simple techniques, a corpus of candidates for paraphrases could be obtained in a fully automatic way. After it, this corpus was evaluated by three philologists in order to detect the exact set of paraphrases obtained, i.e., the candidates that were, efec- 3.2 The Spanish corpus Since the QA@CLEF is a multiple language campaign and the scope of our experiment covered only the Spanish language, we extracted from the source corpus all the questions and assessed answers in Spanish. Thus, a monolingual Spanish corpus –which is a subcorpus of the source one– was ready to be used. The assessed answers were represented in the format shown in figure 1; for every answer there is a record in the file consisting of the following fields, from left to right and separated by tab blanks: the calification given by a human assessor, the number of the question, the identification of the run and the system, the confidence value, the identification of the document that supports the answer, the answer and the snippet from the indicated document that contains the given answer. This format follows the one established for the QA@CLEF 20061 . 3.3 Extraction of validated data The first action over the Spanish corpus was to select the records containing at least one answer assessed as correct. Thus, only 1 Guidelines of QA@CLEF 2006: http://clefqa.itc.it/guidelines.html 38 Paraphrase Extraction from Validated Question Answering Corpora in Spanish Figure 1: Excerpt of the Spanish corpus. ... R 0065 inao061eses 1.00 EFE19940520−12031 moneda griega ...GRECIA−MONEDA INTERVENCION BANCO CENTRAL PARA SALVAR DRACMA Atenas , 20 may (EFE).− El Banco de Grecia (emisor) tuvo que intervernir hoy , viernes , en el mercado cambiario e inyectar 800 millones de marcos alemanes para mantener el valor del dracma , moneda griega , tras la liberación de los movimientos del capital el pasado lunes .... ... human–validated data were considered for the experiment. From the 200 questions proposed to the systems participating in the QA@CLEF 2006, 153 obtained one or more correct answers by one or more systems. From every selected record, the answer and the snippet containing it were extracted, because all the textual information liable to contain paraphrases is included into them. 3.4 not possible to decide what is the more appropriate without a semantic analysis. The question ¿cuándo murió Stalin? (when did Stalin dead?) serves to illustrate this situation; it could be transformed into different affirmative forms: fecha en la que murió Stalin (date in which Stalin die), momento en el que murió Stalin (moment in which Stalin died), etcetera. Thus, it was decided to apply the following rule: if a question starts with the word cuándo, then delete cuándo; therefore, for the present example, the question ¿cuándo murió Stalin? is transformed into murió Stalin (Stalin died). This was considered the best approach that could be obtained using only surface techniques. Some of the 29 rules identified are shown in table 1. This list of rules raises from a research work over the Spanish corpus described, and more rules could be identified in future related works with other corpora. Once applied the previous rules over the corpus, it was identified a set of monograms and bigrams that must be deleted when appearing at the beginning of the new statements obtained. The monograms are articles (“el”, “la”, “lo”, “los”, “las”), and the bigrams are combinations of the verb “ser” (to be) followed of an article, for example: “era el”, “es la”, “fue el”. Thus, for example, once deleted the punctuation signs, the application of rule number 1 from table 1 to the question ¿qué es el tóner? (what is toner?), we obtained the following statement: el tóner (the toner); then, the article “el” is deleted and the definitive statement is tóner (toner). Since the techniques used for turning the questions into their affirmative form were only at the lexical level, slightly agrammatical statemens were produced. Anyway, most of the errors consist of a missing article or relative pronoun. Nevertheless, a human can perfectly understand this kind of agrammatical statements and, in addition, a lot of sys- Data transformation and selection After it, every answer was turned into its affirmative version by means of very simple techniques, following the initial idea of high simplicity for this work. First of all, punctuation signs were deleted. The most frequent ones were ¿ and ?. Next, a list of frecuencies of interrogative formulations in Spanish was made in order to establish a set of rules for turning them into the affirmative form. Two transformation operations were applied by means of these rules: deletion and insertion. These operations affect only to the initial words of the questions. Thus, for example, if the first words of a question are “quién es”, they must just be deleted for obtaining the affirmative version; but, if the first words of a question are “qué” + substantive + verb, the word “qué” must be deleted and the word “que” must be inserted after the substantive and before the verb. Thus, once deleted the punctuation signs and applied the previous rule to the question ¿qué organización dirige Yaser Arafat? (what organization leads Yasser Arafat?), its affirmative form is as follows: organización que dirige Yaser Arafat (organization leaded by Yasser Arafat). Some rules are very easy to obtain, such as the previous one, but some others are quite difficult; for example, when a question starts with the word cuándo (when), it is not trivial to transform it into an affirmative form, because several options exist and it is 39 Jesús Herrera de la Cruz, Anselmo Peñas y Felisa Verdejo Table 1: Some rules identified for automatic conversion into the affirmative form. # 1 2 If the first words of the question are: qué es qué + substantive + verb 3 a qué + substantive + verb 4 5 quién es cuántos + list of words + verb 6 7 8 cuándo nombre dé Then: delete qué es delete qué insert que after the substantive and before the verb delete a qué insert a que after the substantive and before the verb delete quién es delete cuántos insert número de at the beginning insert que after the list of words and before the verb delete cuándo delete nombre delete dé tems do not consider stopwords (where articles and/or relative pronouns are usually included). These errors can be avoided applying a morphological analysis; but we preserved them, appart from for the sake of simplicity, in order to permit a future study of the importance of their presence in the corpus. For example: can systems using the corpus accomplish their tasks despite the presence of some grammatical errors in it? If so, the morphological analysis could be avoided for building such kind of corpora. At this point an interesting suggestion arises: campaigns such the Answer Validation Exercise (AVE) (Peñas et al., 2006), developed for the first time within the 2006 CLEF, need an important human effort for transforming the answers from the associated QA exercise into their affirmative form. Therefore, the method implemented for this experiment could e a useful tool for tasks such the AVE. After turning the questions into there affirmative form, a normalization and filter action was accomplished over the corpus in order to avoid the frequent phenomenon of having a set of equal –or very similar– answers given by different systems to a determined question. It consisted of the following steps: the answer is the same or is a substring of other string representing the answer and pertaining to the set of answers for a determined question, the former one is eliminated from the set of answers. After the normalization and filtering, a first inspection of the corpus obtained was accomplished in order to determine if more operations should be done for obtaining paraphrases. At the beginning it may seem that little work is to be done with the questions in affirmative form and the answers. But previous works on paraphrase detection suggested that the longest common subsequence of a pair of sentences could be considered for the objectives of this work (Bosma and Callison– Burgh, 2006) (Zhang and Patrick, 2005). A first set of tests using the longest common subsequence showed that some anwers could be exploited to augment the amount of paraphrases; for example, presidente de Brasil (president of Brazil) is a reformulation for presidente brasileño (Brazilian president) and, if the largest common subsequence is deleted from both statements, de Brasil (of Brazil) and brasileño (Brazilian) are the new statements obtained, and they are a paraphrase of each other. The problem is that it is necessary to determine what statements are good candidates for such operation, and it is not easy by using simple techniques. In addition, little examples of this kind were found; thus, no much information could be added. This is because this operation was not considered for the present work. 1. Lowercase the affirmative version of all the questions, and all the answers. 2. Eliminate punctuation signs and particles such as articles or prepositions at the beginning and the end of every statement. 3. For the set of normalized answers associated to every question, eliminate the repeated ones and the ones contained by other. That is, if the string representing 3.5 What does not work? The previous idea about deleting the largest common subsequence from a pair of strings 40 Paraphrase Extraction from Validated Question Answering Corpora in Spanish were produced for evaluation. The assessors were asked to consider the context of the statements and to admit some redundancies between the affirmative form of the question and its answers. For example, for the affirmative form of the question “¿Qué es el Atlantis?” (What is Atlantis?), that is “Atlantis”, four different answers are associated: in order to find paraphrases made arise the following intuition: when two texts contain the same information, if the common words are deleted, the rest of the words conform a pair of strings that could –perhaps– be a pair of paraphrases. The snippets of the corpus were tested to determine if such intuition was correct. The test consisted of grouping all the snippets related to every question and, then, taking every possible pair of snippets among the ones pertaining to the same group, deleting the largest common subsequence of the pair. An examination of the output of this operation revealed that it was improductive to obtain paraphrases. At this point the value for the present work of the previous labour accomplished by the QA systems becomes patently clear, because they filter information from the snippets and virtually there is no need to treat it “again”. Therefore it was decided not to use the snippets for the paraphrase searching, but only the questions into its affirmative form and the different given answers. 3.6 1. “transbordador estadounidense” (american shuttle) 2. “foro marı́timo” (marine forum) 3. “transbordador espacial atlantis” (space shuttle) 4. “transbordador espacial estadounidense” (american space shuttle) As it can be observed, the answer “foro marı́timo” does not pertain to the same context than the other answers, but “Atlantis” and “foro marı́timo” were considered a paraphrase, such as “Atlantis” and “transbordador espacial estadounidense”. But “foro marı́timo” and “transbordador espacial estadounidense” were not, obviously, considered a paraphrase. About redundancies, it can be observed that “transbordador espacial atlantis” contains “Atlantis”, but both statements express the same idea, i.e., they are a semantic paraphrase. In addition, this example illustrates the affirmation given by (Shinyama et al., 2002) that expressions considered as paraphrases are different from domain to domain. The evaluators labeled every single pair with a boolean value: YES if it was considered that a paraphrase was given between both statements, and NO on the contrary. The assessments of the three experts were used as a votation. Then, for every possible pair of statements, it was finally decided that it was a paraphrase if at least two of the labels given by the assessors to the pair were YES. Following this criterion, from the 393 candidate pairs of statements, 291 were considered paraphrases, i.e., 74%. The agreement inter–annotator was of 76%. The three experts labeled simoultaneously with YES 204 pairs, and labeled simoultaneously with NO 48 pairs. Then, a total agreement was given for 252 pairs, i.e., 86.6% of the ones that were considered paraphrases. The final corpus After applying the operations described in subsection 3.4 over the validated data from the Spanish subcorpus, the definitive corpus for this work was ready. It consisted of groups of related statemens; each group contained the affirmative form of a question and all the different answers obtained from the participating systems. Giving some numbers, this corpus shows 87 groups of statemes for which 1 answer was given to the question, 47 groups with 2 different answers for the question, 12 groups with 3 answers, 5 groups with 4 answers, 1 group with 1 answer, no groups with 6 answers and 1 group with 7 answers. None of the considered questions (see subsection 3.3) received more than 7 different answers. 4 Evaluation of the paraphrase corpus The final corpus was assessed by three philologists in order to find real paraphrases among the candidates. From every group of related statements in the corpus, all the possible pairs of statements among those of the group were considered for evaluation. Thus, from a group of m related statements, Cm,2 = m 2 pairs must be evaluated. For the present case, 393 pairs 41 Jesús Herrera de la Cruz, Anselmo Peñas y Felisa Verdejo 4.1 Problems detected and suggestions for improvement others when considering the grammatical accuracy of the statements. QA systems sometimes introduce little grammatical errors in their responses, and this affects the consideration about the existence of paraphrase. This is more frequent in answers given to date–type or location–type questions, because of the format given to them by the QA systems. The following two examples illustrate the case: first, in the pair “3 de abril de 1930” (3rd april 1930) and “3 abril 1930” (3 april 1930), the first statement is correct but in the second the prepositon “de” is missing; despite the fact that it can be perfectly understood, some annotators think that it has no sense; second, in the pair “lillehammer (noruega)” (lillehammer (norway)) and “lillehammer noruega” (lillehammer norway), the lacking parentheses in the latter statement made some annotators consider that it could be interpreted as a compound name instead of a pair of names (the city and its country). The biggest disagreements between annotators were given in “difficult” pairs such as, for example: “paı́ses que forman la OTAN actualmente” (countries that conform the NATO at the moment) and “dieciséis” (sixteen); this is because, for some people, a number can not substitute a set of countries but, for some other people, in a determined context it can be said, indifferently, for example: “... the countries that conform the NATO at the moment held a meeting in Paris last week...” or “... the sixteen held a meeting in Paris last week...”. This situation suggested the analysis of the pairs involved in disagreements. From it, several phenomena were detected. The most frequent ones are shown in the following list: • Some errors are introduced by the annotators, because they do not consider accurately the context in which the statements are. As an example, one of the annotators did not consider the pair “organización que dirige yaser arafat” (organization leaded by yasser arafat) and “autoridad nacional palestina” (palestinian national authority) a paraphrase because nowadays Yasser Arafat does not lead the Palestinian National Authority. • Another source of disagreement is the fact that there is not a bidirectional entailment between the two statements of the pair. The pair “lepra” (leprosy) and “enfermedad infecciosa” (infectious disease) serves as an example. Leprosy is a infectious disease, but not every infectious disease is leprosy. Despite of this fact, some annotators considered that there is a paraphrase, because under determined contexts both statements can be used indifferently. • When one of the statements of the pair comes from a factoid–type question of the QA exercise, and its answers are restricted to a date (see (Magnini et al., 2006) for more information about this kind of questions and answer restrictions), then “difficult” pairs as the following appear: “murió stalin” (stalin died) and “5 de marzo de 1953” (5th March 1953). Some annotators consider that there is a paraphrase but it is because they infer some words that are missing in the affirmative form of the question in order to complete the overall context of the pair. Thus, for this pair some annotators actually understand “fecha en la que murió stalin” (date in which stalin died) instead of “murió stalin”. This example shows that some disagreements can be induced by the transformation into affirmative form. • Sometimes, errors acquired from the QA assessment process cause different opinions among the annotators. For example, the pair “deep blue” and “ordenador de ajedrez” (chess computer) is in the corpus because the assessors of the QA exercise considered “ordenador de ajedrez” (chess computer) as an adequate answer for the question “¿qué es deep blue?” (what is deep blue?). Despite the fact that the annotators were asked to consider all the statements as validated, those of them who knew that, in fact, Deep Blue is not a computer devoted to play chess, did not label the pair as paraphrase. • Some annotators are more strict than These problems suggest that the assess42 Paraphrase Extraction from Validated Question Answering Corpora in Spanish Entailment: whether the meaning of one text can be inferred (entailed) from the other. But these and the other definitions that can be found for paraphrase can be included in the simple concept given by (Shinyama et al., 2002): Expressing one thing in other words. This last enunciation is very useful because it is capable to deal with the variety of human opinions. But it is not restrictive at all. The difficulty when working with paraphrases lies on its own definition. This is because of the relatively poor agreement when different persons have to say if a pair of expressions can be considered paraphrases. Thus, paraphrase corpora could be built or paraphrase recognition systems could be developed, but every single system using such resources should be capable of discriminating the usefulness of the supplied sets of paraphrases. ment process should be improved. Thus, not only a simple labelling action but a more complex process should be accomplished. Two alternative propositions for a better assessment process are outlined here: 1. In a first round, the assessors not only label the pairs but write an explanation for every decission. In a second round, independent assessors take a definitive decision having into account both the votation among the labels given in the previous round and the considerations written. 2. In a first round, the assessors only label the pairs and, in a second round, they discuss the controversial cases, and everyone can reconsider its opinion to relabel the pair; if an agreement is not reached, the pair and the opinions are submitted to independent assessors. In addition, the assessment process should be supervised in order to homogenize criteria about what kind of little errors should be considered by the assessors; for example, the lack of parentheses of prepositions. Of course, some errors can not be avoided when applying a fully automated process. For example, pairs without sense such as “deep blue” and “ordenador de ajedrez” (chess computer), that depend on the QA assessment process, can not be identified with shallow techniques. 4.2 5 Conclusions and future work The annotated corpora from the assessment processes of campaigns like the CLEF, the TREC or the NTCIR, grow year by year. This human work generates a great amount of validated data that could be successfully reused. This paper describes a very simple and little costly way to obtain paraphrases is described, but it is ot the only nor the more complex issue that can be accomplished. Thus, corpora –aimed at different applications– could be increased every year using the newest results of this kind of campaigns. In addition, the rules proposed here for transforming questions into their affirmative form can be used for automatically building the corpora needed in future AVEs. Despite the fact that the concept of paraphrase is human–dependant and, therefore, it is not easy to obtain a high agreement inter– annotator, it has been showed that a high amount of paraphrases can be obtained by means of shallow techniques. Anyway, the assessment process applied to the paraphrase candidates corpus can be improved; several ideas for this have been outlined in this paper. As a result of this improvement, the agreement inter–annotator should increase and the percentage of identified paraphrases should decrease, but hopefully not to the point in which the proposed method should be considered useless. In the near future new models for this assessment process should be What do humans understand under paraphrase? Several methods for recognizing paraphrases or obtaining them from corpora have been proposed until now, but a doubt arises: what is exactly what these methods are recognizing or obtaining? The definition for paraphrase is very fuzzy and context–dependant, as seen here; even more, almost every author gives a definition of his own; for example, the one given by (Fabre and Jacquemin, 2000): Two sequences are said to be a paraphrase of each other if the user of an information system considers that they bring identical or similar information content. Or the one by (Wan et al., 2006): [...] paraphrase pairs as bi–directional entailment, where a definition for entailment can be found in (Dagan et al., 2006): 43 Jesús Herrera de la Cruz, Anselmo Peñas y Felisa Verdejo Bernardo Magnini, Danilo Giampiccolo, Pamela Forner, Christelle Ayache, Petya Osenova, Anselmo Peñas, Valentin Jijkoun, Bogdan Sacaleanu, Paulo Rocha and Richard Sutcliffe. 2006. Overview of the CLEF 2006 Multilingual Question Answering Track. Working Notes of the CLEF 2006 Workshop, 20–22 September, Alicante, Spain. evaluated, in order to determine the most appropriate one. Appart from the accuracy of the assessment process, the results obtained at the present time suggest that it will be interesting to test if paraphrase corpora, as the one presented in this paper, are really useful for different applications; and if it is worthwhile to implement more complex techniques or the little errors produced do not interfere with the performance of these applications. This will determine if such corpora should be obtained every year after evaluation campaings as the one accomplished at CLEF. B. References Pang, K. Knight and D. Marcu. 2003. Syntax–based Alignment of Multiple Translations: Extracting Paraphrases and Generating New Sentences. NAACL– HLT. A. Peñas, Á. Rodrigo, V. Sama and F. Verdejo. 2006. Overview of the Answer Validation Exercise 2006. Working Notes of the CLEF 2006 Workshop, 20–22 September, Alicante, Spain. R. Barzilay and K.R. McKeown. 2001. Extracting Paraphrases from a Parallel Corpus. Proceedings of the ACL/EACL. W. Bosma and C. Callison–Burgh. 2006. Paraphrase Substitution for Recognizing Textual Entailment. Working Notes for the CLEF 2006 Workshop, 20-22 September, Alicante, Spain. D. Ravichandran and E. Hovy. 2002. Learning Surface Text Patterns for a Question Answering System. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL). Ido Dagan, Oren Glickman and Bernardo Magnini. 2006. The PASCAL Recognising Textual Entailment Challenge. MLCW 2005. LNAI. Springer. 3944, Heidelberg, Germany. Y. Shinyama, S. Sekine, K. Sudo and R. Grishman. 2002. Automatic Paraphrase Acquisition from News Articles. Proceedings of HLT, pages 40–46. Cécile Fabre and Christian Jacquemin. 2000. Boosting Variant Recognition with Light Semantics. Proceedings of the 18th conference on Computational linguistics Volume 1, Saarbrucken, Germany. E.M. Voorhees and H.T. Dang. 2005. Overview of the TREC 2005 Question Answering Track. NIST Special Publication 500–266: The Fourteenth Text REtrieval Conference Proceedings (TREC 2005), Gaithersburg, MD, USA. Junichi Fukumoto, Tsuneaki Kato and Fumito Masui. 2004. Question Answering Challenge for Five Ranked Answers and List Answers – Overview of NTCIR4 QAC2 Subtask 1 and 2 –. Working notes of the Fourth NTCIR Workshop Meeting, National Institute of Informatics, 2004, Tokyo, Japan. Stephen Wan, Mark Dras, Robert Dale, and Cecile Paris. 2006. Using Dependency– Based Features to Take the “Para–farce” out of Paraphrase. Proceedings of the Australasian Language Technology Workshop 2006, Sydney, Australia. Yitao Zhang and Jon Patrick. 2005. Paraphrase Identification by Text Canonicalization. Proceedings of the Australasian Language Technology Workshop 2005, Sydney, Australia. Tsuneaki Kato, Junichi Fukumoto and Fumito Masui. 2004. Question Answering Challenge for Information Access Dialogue – Overview of NTCIR4 QAC2 Subtask 3–. Working notes of the Fourth NTCIR Workshop Meeting, National Institute of Informatics, 2004, Tokyo, Japan. D. Lin and P. Pantel. 2001. Discovery of Inference Rules for Question Answering. Natural Language Engineering, 7(4):343– 360. 44 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 45-52 recibido 18-05-2007; aceptado 22-06-2007 Evaluación de Sistemas de Búsqueda de Respuestas con restricción de tiempo Fernando Llopis1 , Elisa Noguera1 , Antonio Ferrández1 y Alberto Escapa2 1 Grupo de Investigación en Procesamiento del Lenguaje Natural y Sistemas de Información Departamento de Sistemas y Lenguajes Informáticos 2 Departamento de Matemática Aplicada Universidad de Alicante {elisa,llopis,antonio}@dlsi.ua.es // alberto.escapa@ua.es Resumen: Las investigaciones sobre la evaluación de los sistemas de Búsqueda de Respuestas (BR) sólo se han centrado en la evaluación de la precisión de los mismos. En este trabajo se desarrolla un procedimiento matemático para explorar nuevas medidas de evaluación en sistemas de BR considerando el tiempo de respuesta. Además, hemos llevado a cabo un ejercicio para la evaluación de sistemas de BR en la campaña CLEF-2006 usando las medidas propuestas. La principal conclusión es que la evaluación del tiempo de respuesta puede ser un nuevo escenario para la evaluación de los sistemas de BR. Palabras clave: Evaluación, Búsqueda de Respuestas Abstract: Previous works on evaluating the performance of Question Answering (QA) systems are focused in the evaluation of the precision. Nevertheless, the importance of the answer time never has been evaluated. In this paper, we developed a mathematic procedure in order to explore new evaluation measures in QA systems considering the answer time. Also, we carried out an exercise for the evaluation of QA systems within a time constraint in the CLEF-2006 campaign, using the proposed measures. The main conclusion is that the evaluation of QA systems in realtime can be a new scenario for the evaluation of QA systems. Keywords: Evaluation, Question Answering 1. Introducción El objetivo de los sistemas de Búsqueda de Respuestas (BR) es localizar, en colecciones de texto, respuestas concretas a preguntas. Estos sistemas son muy útiles para los usuarios porque no necesitan leer todo el documento o fragmento de texto para obtener la información requerida. Preguntas como: ¿Qué edad tiene Nelson Mandela?, o ¿Quién es el presidente de los Estados Unidos?, ¿Cuando ocurrió la Segunda Guerra Mundial? podrı́an ser contestadas por estos sistemas. Los sistemas de BR contrastan con los sistemas de Recuperación de Información (RI), ya que estos últimos tratan de recuperar los documentos relevantes respecto a la pregunta, donde la pregunta puede ser un simple conjunto de palabras clave (ej. edad Nelson Mandela, presidente Estados Unidos, Segunda Guerra Mundial,...). La conferencia anual Text REtrieval Conference (TREC1 ), organizada por el National Institute of Standards and Technology (NIST), tiene como objetivo avanzar en el estudio de la RI y proveer de la infraestructura necesaria para una evaluación robusta de las metodologı́as de la recuperación textual. Este modelo ha sido usado por el CrossLanguage Evaluation Forum (CLEF2 ) en Europa y por el National Institute of Informatics Test Collection for IR Systems (NTCIR3 ) en Asia, los cuales investigan el problema de la recuperación multilingüe. Desde 1999, TREC tiene una tarea especı́fica para la evaluación de sistemas de BR (Voorhees y Dang, 2005). En las competiciones CLEF (Magnini et al., 2006) y NTCIR (F. et al., 2002) se han introducido también la evaluación de los sistemas de BR. Esta evaluación consiste en localizar las respuestas a un conjunto de preguntas en una colección de documentos, analizando los documentos de forma automática. En estas evaluaciones, los sistemas tienen hasta una semana para responder al conjunto de preguntas. Esto es un problema en la evaluación de sistemas de BR porque nor2 1 http://trec.nist.gov ISSN: 1135-5948 3 http://www.clef-campaign.org http://research.nii.ac.jp/ntcir © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa Fueron introducidas 40 preguntas con restricción temporal para los diferentes tipos de preguntas (factoid, definition y list). Concretamente, fueron introducidas tres tipos de restricciones temporales: FECHA, PERÍODO y EVENTO. ¿Quién ganó el Premio Nobel de la Paz en 1992? es un ejemplo de pregunta con restricción de FECHA. Además, hubieron varias preguntas que no tenı́an respuesta dentro de la colección. Estas respuestas son llamadas NIL. La importancia de éstas es porque los sistemas deben detectar si hay respuesta dentro de la colección y sino devolver la respuesta de tipo NIL. Los participantes tuvieron una semana para enviar los resultados. Esto significa que los sistemas pueden ser muy lentos, lo cual no es una caracterı́stica deseable para los sistemas de BR. malmente son muy precisos, pero a la vez muy lentos, y esto hace muy difı́cil la comparación entre sistemas. Por esta razón, el objetivo de este trabajo es aportar un nuevo escenario para la evaluación de sistemas de BR con restricción de tiempo. Este artı́culo está organizado de la siguiente forma: la sección 2 describe la evaluación de los sistemas de BR en el CLEF-2006. La sección 3 presenta una nueva propuesta de medidas de evaluación para sistemas de BR. La sección 4 describe el experimento llevado a cabo en el CLEF-2006 dentro del contexto de la BR. Finalmente, la sección 5 aporta las conclusiones y el trabajo futuro. 2. Evaluación de sistemas de BR en CLEF-2006 El objetivo en la tarea de BR en el CLEF es promover el desarrollo de los sistemas de BR dotando de una infraestructura para la evaluación de estos sistemas. Esta tarea tiene un creciente interés para la comunidad cientı́fica. En esta sección nos hemos centrado en describir los principales elementos de la tarea principal de BR en el CLEF-2006. Para más información consultar (Magnini et al., 2006). 2.1. 2.2. Evaluación de las respuestas Las respuestas devueltas por cada participante fueron manualmente juzgadas por asesores nativos. En particular, cada idioma se coordinó por un grupo de asesores. Cada respuesta fue juzgada como: R (correcta) si la respuesta era correcta y estaba soportada por los fragmentos de texto devueltos, W (incorrecta) si la respuesta no era correcta, X (inexacta) si la respuesta contenı́a menos o más información de la requerida por la pregunta y U (no soportada) si los fragmentos de texto no contenı́an la respuesta, no fueron incluidos en el fichero de respuestas o no provenı́an del documento correcto. Colección de preguntas El conjunto de preguntas estaba formado por 200 preguntas, de las cuales 148 eran preguntas de tipo factoid, 42 de tipo definition y 10 de tipo list. Una pregunta factoid realiza la consulta sobre hechos o eventos. Por ejemplo, ¿Cuál es la capital de Italia?. Se consideraron 6 tipos de respuesta esperada para estas preguntas: PERSONA, TEMPORAL, LOCALIZACIÓN, ORGANIZACIÓN, MEDIDA y OTRAS. 2.3. Medidas de evaluación Las respuestas fueron evaluadas principalmente usando la medida de evaluación: accuracy. También, se consideraron otras medidas: Mean Reciprocal Rank (MRR), K1 y Confident Weighted Score (CWS). Las preguntas de tipo definition requieren infomación sobre definiciones de gente, cosas u organizaciones. Un ejemplo de pregunta de este tipo podrı́a ser: ¿Quién es el presidente de España?. Los tres tipos de respuesta para preguntas de tipo definición están divididos en: PERSONA, ORGANIZACIÓN, OBJECTO y OTROS. r (1) n La medida accuracy se define como la proporción de respuestas correctas sobre el total de preguntas. Solamente se permite una respuesta por pregunta. Esto se obtiene con la fórmula (1), donde r es el número de respuestas correctas devueltas por el sistema y n es el número total de preguntas. Esta medida ha sido usada desde el CLEF-2004. La principal razón del uso de esta medida es porque normalmente sólo se evaluá una respuesta por pregunta. accuracy = Una pregunta de tipo list requiere información de diferentes instancias de gente, objetos o datos, como Lista los paises de Europa de Este. 46 Evaluación de Sistemas de Búsqueda de Respuestas con restricción de tiempo 1 1 M RR = q f ari combinan la precisión y el tiempo de respuesta de los sistemas. Para evaluar el tiempo de respuesta de los sistemas, hemos llevado a cabo un experimento en el CLEF-2006 aportando un nuevo escenario para comparar sistemas de BR. Observando los resultados obtenidos por los sistemas, podemos argumentar que este es un prometedor paso para cambiar la dirección en la evaluación de los sistemas de BR. q (2) i=1 En la conferencia QA@CLEF-2003, se usó la medida MRR, ya que en esa ocasión se permitieron 3 respuestas por pregunta. En cambio, este año se ha usado como medida adicional únicamente para evaluar los sistemas que devuelven más de una respuesta por pregunta. Esta medida asigna el valor inverso de la posición en la que la respuesta correcta fue encontrada, o cero si la respuesta no fue encontrada. El valor final es la media de los valores obtenidos para cada pregunta. MRR asigna un valor alto a las respuestas que están en las posiciones más altas de la clasificación. Esta medida está definida con la fórmula (2), donde q es el número de preguntas y f ari es la primera posición en la cual una respuesta correcta ha sido devuelta. Los sistemas de BR devuelven las respuestas sin un orden establecido (simplemente se usa el mismo orden que en el conjunto de preguntas), aunque es opcional, algunos pueden asignar a cada respuesta un valor de confianza (entre 0 y 1). Este valor se utiliza para calcular dos medidas adicionales: CWS y K1. Estas medidas tienen en cuenta la precision y la confianza. De cualquier forma, la confianza es un valor opcional que sólo algunos sistemas de BR asignan, y solamente estos sistemas podrı́an ser evaluados con estas medidas. Para más información consultar (Magnini et al., 2006). 2.4. 3. Nuevas aproximaciones sobre la evaluación de los sistemas de BR El problema mencionado anteriormente puede ser reformulado de forma matemática. Consideramos que la respuesta de cada sistema Si puede ser caracterizada en este problema como un conjunto de pares de números reales ordenados (xi , ti ). El primer elemento de cada par representa la precisión del sistema y el segundo la eficiencia. De este modo, la tarea de BR puede ser representada geométricamente como un conjunto de puntos localizados en un subconjunto D ⊆ R2 . Nuestro problema puede ser solventado aportando un método que permita ordenar los sistemas Si de acuerdo a un criterio prefijado que valore tanto la precisión como la eficiencia. Este problema es de la misma naturaleza que otros problemas tratados en la Teorı́a de Decisión. Una solución a este problema puede ser obtenido introduciendo un preorden total, a veces referido como quasiorden, en D. Una relación binaria en un conjunto D es un preorden total si es reflexivo, transitivo y si dos elementos (cualesquiera) de D son comparables entre si. En concreto, podemos definir un quasiorden en D con la ayuda de una función con dos variables de tipo real f : D ⊆ R2 → I ⊆ R, de modo que: (a, b) (c, d) ⇔ f (a, b) ≤ f (c, b), ∀ (a, b), (c, d) ∈ D. Nos referiremos a esta función como función de clasificación. Una de las ventajas de este procedimiento es que la función de clasificación contiene toda la información relativa al criterio elegido para clasificar los distintos sistemas Si . Matemáticamente, todos los elementos que están situados en la misma posición en la clasificación pertenecen a una misma curva de nivel en la función de clasificación. Especı́ficamente, las curvas de iso-ranking están caracterizadas por todos los elementos de D que completan la ecuación f (x, t) = L, siendo Limitaciones de las actuales evaluaciones en BR En la actualidad, hay varios aspectos en las evaluaciones de los sistemas de BR que podrı́an ser mejorados: (1) los participantes tienen varios dı́as para responder a las preguntas, (2) el tiempo de respuesta no se evaluá, esto causa que los sistemas tengan un buen rendimiento, pero que sean sistemas demasiado lentos, y (3) la comparación entre sistemas de BR puede ser difı́cil si tienen diferente tiempo de respuesta. En consecuencia, el análisis del rendimiento involucra la evaluación de la eficiencia y de la eficacia de los sistemas de BR. La motivación de este trabajo es estudiar la evaluación de los sistemas de BR con restricción de tiempo. Concretamente, hemos propuesto nuevas medidas de evaluación que 47 Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa última condición implica que el par (1, 0) deberı́a estar en la última posición. L un número real en la inversa de f , I. El procedimiento de clasificación propuesta para evaluar los sistemas en la tarea de BR es de tipo ordinal. Esto significa que no se debe hacer una conclusión sobre la diferencia numérica absoluta sobre la diferencia de los valores numéricos para dos sistemas en la función de clasificación. La única información relevante es la posición relativa en la clasificación de los sistemas en la tarea de evaluación de BR. De hecho, si consideramos una nueva función de clasificación construida componiendo la función de clasificación inicial con un estricto incremento de la función, el valor numérico asignado a cada sistema cambiará, pero la clasificación obtenida será la misma que inicialmente. En la aproximación desarrollada en este artı́culo, la precisión xi del sistema Si es calculada con la medida de evaluación Mean Reciprocal Rank (M RR), de modo que xi ∈ [0, 1]. La eficiencia se mide considerando el tiempo de respuesta de cada sistema, de modo que, tener un tiempo de respuesta pequeño significa tener una buena eficiencia. Para definir una función de clasificación realista, es necesario establecer algunos requirimientos adicionales. Estas propiedades están basadas en el comportamiento intuitivo que debe cumplir la función. Por ejemplo, como aproximación inicial, vamos a establecer las siguientes condiciones: 3.1. Función de clasificación independiente del tiempo (M RR2 ) Como primer ejemplo de función de clasificación, consideramos M RR2 (x, t) = x. El preorden inducido por esta función es semejante al orden lexicográfico, a veces llamado orden alfabético. Para esta función de clasificación tenemos que: 1. La función inversa de M RR2 está en el intervalo [0, 1]. 2. La función M RR2 es continua en D. 3. lı́m M RR2 (1, t) = 1. t→0 4. M RR2 (0, 1) = 0. De modo que, la función cumple las condiciones establecidas previamente. Por otro lado, las curvas de iso-ranking de la función son de la forma x = L, L ∈ [0, 1] cuya representación es una familia de segmentos verticales con una unidad de longitud (veáse la figura 1). El preorden construido por esta función de clasificación sólo valora la precisión de los sistemas. 3.2. 1. La función f debe ser continua en D. Función de clasificación con dependencia temporal inversa (M RRT ) Como el primer ejemplo de función de clasificación no valora la eficiencia de los sistemas, vamos a considerar la función M RRT (x, t). Suponemos que en este caso la función de clasificación es inversamente proporcional a la eficiencia (tiempo de respuesta) y directamente proporcional a la precisión. En particular, esta función verifica las siguientes propiedades: 2. El lı́mite superior de I se obtiene con lı́m f (1, t). En el caso que I no tenga t→0 lı́mite superior, tendremos lı́m f (1, t) = t→0 +∞. 3. El lı́mite inferior de I se obtiene con f (0, 1). La primera condición se ha impuesto por conveniencia matemática, aunque se podrı́a interpretar en términos de simplificación de argumentos. Cabe destacar que este requerimiento excluye la posibilidad que, si suponemos que dos sistemas están en distintas posiciones en la clasificación, una pequeña variación en la precisión o la eficiencia, pueda alterar los valores de la clasificación. La segunda condición está relacionada con el hecho que, si suponemos un sistema definido por el par (1, 0) siempre deberı́a estar en la primera posición en la clasificación. Finalmente, la 1. La función inversa de M RRT está en el intervalo [0, +∞). 2. La función M RRT es continua en D. 3. lı́m M RRT (1, t) = +∞. t→0 4. M RRT (0, 1) = 0. Las curvas de iso-ranking asociadas a la función son de la forma x = L, L ∈ [0, 1]. Geométricamente, estas curvas son una familia de segmentos que pasan por el punto 48 Evaluación de Sistemas de Búsqueda de Respuestas con restricción de tiempo 4. (0, 0) y con una pendiente de 1/L (veáse la figura 2). De este modo, los sistemas con mejor eficiencia, es decir, un tiempo de respuesta pequeño, obtendrán un mejor valor de x y una posición alta en la clasificación. Ası́ mismo, aunque la función de clasificación es de naturaleza ordinal, es deseable que la función inversa este acotada entre 0 y 1, ya que esto facilita su intuitiva representación, condición que no se cumple por esta función. 3.3. Como se ha descrito anteriormente, nosotros consideramos el tiempo como parte fundamental en la evaluación de los sistemas de BR. En acuerdo con la organización del CLEF, llevamos a cabo una tarea experimental en el CLEF-2006, cuyo objetivo era evaluar los sistemas de BR con una restricción de tiempo. Éste fue un experimento innovador para la evaluación de los sistemas de BR y fue una iniciativa para aportar un nuevo escenario en la evaluación de los sistemas de BR. El experimento sigue las mismas directrices que la tarea principal, descrita en la sección 2, pero considerando el tiempo de respuesta. Función de clasificación exponencial inversa con dependencia del tiempo M RRTe Debido a las desventajas presentadas en las funciones anteriores, hemos propuesto una nueva función que también depende de la precisión y de la eficiencia del sistema, aunque la eficiencia tiene un menor peso que la precisión en esta función. A continuación, vamos a introducirla: M RRTe (x, t) = 2x , 1 + et Evaluación en el CLEF-2006 4.1. Participantes En total, 5 grupos participaron en este ejercicio experimental. Los grupos participantes fueron: daedalus (España) (de PabloSánchez et al., 2006), tokyo (Japón) (Whittaker et al., 2006), priberam (Portugal) (Cassan et al., 2006), alicante (España) (Ferrández et al., 2006) y inaoe (Mexico) (Juárez-Gonzalez et al., 2006). Todos estos sistemas participaron también en la tarea principal del CLEF2006 y tienen experiencia en investigación en sistemas de BR. (3) siendo et la función exponencial de la eficiencia. Esta función cumple las siguientes condiciones: 4.2. Evaluación En esta sección se presentan los resultados de la evaluación de los 5 sistemas que participaron en el experimento. Por un lado, se presenta la precisión y la eficiencia obtenida por estos sistemas. Por otro lado, se presentan las puntuaciones obtenidas por cada uno de ellos con las diferentes medidas, las cuales combinan la precisión y la eficiencia (presentada en la sección 2.3). La tabla 1 muestra el resumen de los resultados obtenidos con las diferentes medidas de evaluación (MRR, t, MRRT, M RRTe ). Se muestran todos los resultados en una sola tabla para hacer más fácil la comparación entre las diferentes medidas. También se muestra la posición (pos) obtenida por cada sistema con respecto a cada medida. 4.2.1. Evaluación de la precisión y del tiempo de respuesta La precisión de los sistemas de BR fue evaluada en el experimento con la medida MRR (ver la sección 2.3). Nosotros usamos esta medida porque los sistemas enviaron tres respuestas por pregunta. La evaluación de los sistemas con esta medida se presenta en la 1. La inversa de M RRTe está en el intervalo [0, 1). 2. La función M RRTe es continua en D. 3. lı́m M RRTe (1, t) = 1. t→0 4. M RRTe (0, 1) = 0. Las curvas de iso-ranking son de la forma 2x/(1 + et ) = L, L ∈ [0, 1), estando representadas en la figura 3. Si suponemos un sistema ideal, es decir, que responde instantáneamente (t = 0), entonces el valor de esta función coincidirı́a con el valor de la función de precisión. En cambio, la dependencia funcional del tiempo modula el valor de la función, de modo que, cuando el tiempo incrementa, la función decrece. De cualquier forma, esta dependencia es más suave que en la función anterior. Además, si consideramos un sistema S, únicamente obtendremos la misma clasificación que él si consideramos sistemas cuya precisión y eficiencia varian en un rango particular, no sólo para un valor pequeño de la precisión. 49 Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa Participante daedalus1 tokyo priberam daedalus2 inaoe alicante MRR 0.41 0.38 0.35 0.33 0.3 0.24 pos 1o 2o 3o 4o 5o 6o t 0.10 1.00 0.01 0.03 0.38 0.02 pos 4o 6o 1o 3o 5o 2o MRRT 3.83 0.38 32.13 8.56 0.78 16.23 pos 4o 6o 1o 3o 5o 2o M RRTe 0.38 0.20 0.34 0.32 0.24 0.23 pos 1o 6o 2o 3o 4o 5o Cuadro 1: Evaluación de los resultados obtenidos con las diferentes medidas de evaluación de respuesta. Es decir, el criterio para establecer la clasificación es el mismo que la precisión obtenida para evaluar los sistemas de BR. Las limitaciones de este procedimiento, las cuales han sido argumentadas en este trabajo, son claras si consideramos por ejemplo los sistemas priberam y tokyo en la figura 1. Podemos observar como tokyo está en segunda posición en el ranking y el sistema priberam está el tercero. En cambio, la diferencia en la precisión de los dos sistemas es muy pequeña, 0.38 vs. 0.35, mientras que la eficiencia del sistema priberam es mucho mejor que la eficiencia del sistema tokyo. En consencuencia, serı́a razonable que el sistema priberam precediera al sistema tokyo. Esto es imposible con esta clase de medidas que son independientes del tiempo. tabla 1. Por otra parte, los tiempos de respuesta se midieron en segundos (tsec), aunque en la tabla se presenta el tiempo de respuesta (t) normalizado para cada sistema con respecto a tmax, o tiempo de respuesta del sistema menos rápido. Es decir, t es igual a tsec/tmax. 4.2.2. Evaluación de los resultados con M RR2 La evaluación global de los sistemas de BR, combinando precision y tiempo de respuesta con la medida M RRT2 (ver sección 3) es la misma que usando sólo la medida MRR (ver sección 1), porque esta medida valora primero la precisión, y después valora el tiempo en el caso que la precisión sea la misma entre varios sistemas. En este caso, como la precisión es distinta, los sistemas quedarı́an ordenados por su MRR. 4.2.3. Evaluación de los resultados con MRRT La evaluación de los sistemas con la medida MRRT (ver la sección 3) se presenta en la tabla 1. También, para cada sistema se muestra la posición en la lista que ha obtenido con esta medida. Como podemos observar en la tabla, priberam obtuvo el mejor valor de MRRT (32.13) con un t de 0.01 y un MRR de 0.35. Además, también se puede observar que la primera prueba enviada por daedalus (daedalus1) obtuvo el mejor MRR con 0.41, en cambio esta prueba no fue la más rápida (0.10). En consecuencia, esta prueba obtuvo un bajo MRRT (0.08). La segunda prueba enviada por daedalus (daedalus2) obtuvo un MRR más bajo que el anterior (0.33), en cambio obtuvo un mejor t (0.03), por esta razón esta segunda prueba obtuvo un mejor MRRT que la primera prueba. Gráficamente, podemos ver los diferentes valores obtenidos en la figura 2. Por ejemplo, el sistema alicante, cuya presición es 0.24 y t es 0.02, está en la misma posición en la clasificación que priberam, siendo su precisión Figura 1: Comparativa de los resultados obtenidos para cada sistema con la medida de evaluación M RR2 (Preorden lexicográfico). Gráficamente, una curva de iso-ranking contiene a todos los sistemas con el mismo valor de MRR y cualquier valor de tiempo 50 Evaluación de Sistemas de Búsqueda de Respuestas con restricción de tiempo porque tiene un t más elevado (0.10) que los anteriores. Finalmente, inaoe y tokyo han sido penalizados significativamente por tener unos tiempos de respuesta muy elevados. Figura 2: Comparativa de los resultados obtenidos por cada sistema con la medida de evaluación M RRT en sus curvas de iso-ranking. mejor (0.35). La posición de cualquier sistema en la clasificación, puede ser igualada por un sistema de menor precisión pero con una mayor eficiencia, y en particular esto puede ocurrir aún teniendo un valor pequeño en la precisión. Esto es una desventaja porque se valora mucho la eficiencia de los sistemas y, en nuestra opinión, el factor principal debe de ser la precisión, aunque la eficiencia también sea valorada. Figura 3: Comparativa de los resultados obtenidos por cada sistema con la medida de evaluación M RRTe en sus curvas de iso-ranking. Gráficamente, podemos comparar los distintos valores de M RRTe en la figura 3. También se puede observar en la figura que para obtener la misma posición en el ranking que, p.ej. un sistema con una precisión de 0.4 y un t de 0.2, su precisión oscilará entre (0.36, 0.76) y su t variará entre 0 y 1 dependiendo de su precisión. Estas caracterı́sticas hacen la medida de evaluación M RRTe adecuada para la evaluación de sistemas de BR con restricción de tiempo. 4.2.4. Evaluación de los resultados con M RRTe La medida de evaluación MRRT, presentada en la sección anterior, fue usada en la tarea de BR con restricción de tiempo dentro del CLEF-2006. Consideramos que esta medida valora demasiado el tiempo, por lo tanto, hemos propuesto una medida alternativa más adecuada para la evaluación de sistemas de BR con restricción de tiempo. La nueva medida, descrita en la sección 3, ha sido diseñada para penalizar aquellos sistemas que tienen un elevado tiempo de respuesta. Como muestra la tabla 1, daedalus1 y priberam obtienen los mejores resultados con la medida M RRTe (0.38 y 0.34 respectivamente). La disminución de resultados de priberam (de 0.35 a 0.34), en términos de MRR, no es significativa porque tiene un tiempo de respuesta muy pequeño (0.01), al igual que alicante (de 0.24 a 0.23). En cambio, el valor de M RRTe de daedalus1 reduce su valor de MRR en mayor grado (de 0.41 a 0.38), 5. Conclusiones y trabajos futuros Principalmente, la evaluación de sistemas de BR ha sido estudiado en profundidad en tres foros de investigación: TREC, CLEF y NTCIR. Aunque, en estos foros sólo se han centrado en evaluar la precisión de los sistemas, y no se ha valorado su eficiencia (consideramos el tiempo de respuesta como medida de eficiencia) en ninguna ocasión. En la mayor parte de los casos, los sistemas suelen ser muy eficaces pero muy poco eficientes. Por esta razón, hemos estudiado en este trabajo la evaluación de sistemas de BR valorando también su tiempo de respuesta. Para la evaluación de los sistemas de BR, hemos propuesto tres medidas (M RR2 , 51 Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa do, E.Noguera, y F. Llopis. 2006. AliQAn and BRILI QA Systems at CLEF 2006. En WORKING NOTES CLEF 2006 Workshop. M RRT , M RRTe ) para evaluar los sistemas con restricción de tiempo. Estas medidas están basadas en la medida Mean Reciprocal Rank (MRR) y el tiempo de respuesta. Como resultados preliminares, hemos visto que M RRT2 sólo valora la precisión y M RRT valora demasiado el tiempo. Hemos solventado este inconveniente proponiendo una nueva medida llamada M RRTe . Esta medida combina el MRR y el tiempo de respuesta, penalizando a los sistemas que tienen un tiempo de respuesta elevado. Cabe mencionar, que está basada en una función exponencial. En conclusión, la nueva medida M RRe permite clasificar los sistemas considerando su precisión y su tiempo de respuesta. Además, hemos llevado a cabo una tarea en el CLEF-2006 para evaluar sistemas de BR con restricción de tiempo (siendo la primera vez que se organiza una evaluación de estas caracterı́sticas). Este experimento nos ha permitido establecer los criterios para la evaluación de sistemas de BR en un nuevo escenario. Afortunadamente, este experimento fue recibido con una gran expectación tanto por los participantes, como por los organizadores. Finalmente, las futuras direcciones que vamos a seguir son: valorar otras variables como el hardware de los sistemas, e insertar nuevos parámetros de control para poder dar más importancia a la precisión o a la eficiencia. Juárez-Gonzalez, A., A. Téllez-Valero, C. Denicia-Carral, M. Montes y Gómez, y L. Villase nor Pineda. 2006. INAOE at CLEF 2006: Experiments in Spanish Question Answering. En WORKING NOTES CLEF 2006 Workshop. Magnini, B., D. Giampiccolo, P. Forner, C. Ayache, P. Osenova, A. Pe nas, V. Jijkoun, B. Sacaleanu, P. Rocha, y R. Sutcliffe. 2006. Overview of the CLEF 2006 Multilingual Question Answering Track. En WORKING NOTES CLEF 2006 Workshop. Voorhees, E. y H. Trang Dang. 2005. Overview of the TREC 2005 Question Answering Track. En TREC. Whittaker, E. W. D., J. R. Novak, P. Chatain, P. R. Dixon, M. H. Heie, y S. Furui. 2006. CLEF2006 Question Answering Experiments at Tokyo Institute of Technology. En WORKING NOTES CLEF 2006 Workshop. Bibliografı́a Cassan, A., H. Figueira, A. Martins, A. Mendes, P. Mendes, C. Pinto, y D. Vidal. 2006. Priberam’s Question Answering System in a Cross-Language Environment. En WORKING NOTES CLEF 2006 Workshop. de Pablo-Sánchez, C., A. González-Ledesma, A. Moreno, J. Martı́nez-Fernández, y P. Martı́nez. 2006. MIRACLE at the Spanish CLEF@QA 2006 Track. En WORKING NOTES CLEF 2006 Workshop. F., Junichi, Tsuneaki K., , y Fumito M. 2002. An Evaluation of Question Answering Task. En Third NTCIR Workshop on Research in Information Retrieval, Question Answering and Summarization, October. Ferrández, S., P. López-Moreno, S. Roger, A. Ferrández, J. Peral, X. Alvara52 Categorización de Textos Procesamiento del Lenguaje Natural, nº39 (2007), pp. 55-62 recibido 18-05-2007; aceptado 22-06-2007 Medidas internas y externas en el agrupamiento de resúmenes cientı́ficos de dominios reducidos ∗ Diego A. Ingaramo, Marcelo L. Errecalde Paolo Rosso LIDIC, UNSL, Argentina DSIC, UPV, España Avda Ejército de los Andes 950 Camino de Vera s/n 46022 San Luis (5700) prosso@dsic.upv.es {daingara,merreca}@unsl.edu.ar Resumen: Los algoritmos de agrupamiento suelen evaluarse o utilizan en su funcionamiento distintas medidas internas (u objetivas) como el ı́ndice de Davies-Boulding o el ı́ndice de Dunn, que intentan reflejar propiedades estructurales del resultado del agrupamiento. Sin embargo, la presencia de estas propiedades estructurales no garantiza la usabilidad de los resultados para el usuario, una propiedad subjetiva reflejada por medidas externas como la medida F y que determinan hasta que punto los grupos obtenidos se asemejan a los que se hubieran logrado con una categorización manual real. En trabajos previos, se ha observado una correlación interesante entre la medida de densidad esperada (interna) y la tradicional medida F (externa) en tareas de agrupamiento con documentos del corpus standard RCV1. En este trabajo, analizamos si esta relación también se verifica en tareas de agrupamiento de resúmenes en dominios muy restringidos. Este tipo de tarea ha demostrado tener un alto grado de complejidad y por ello, un análisis de este estilo, puede ser útil para determinar cuales son las propiedades estructurales fundamentales a tener en cuenta a la hora de diseñar algoritmos de agrupamiento para este tipo de dominios. Palabras clave: agrupamiento de resúmenes, dominios muy restringidos, medidas de evaluación Abstract: Clustering algorithms are usually based (and evaluated) taking into account internal (or objective) measures such as the Davies-Boulding index or the Dunn index which attempt to evaluate particular structural properties of the clustering result. However, the presence of such structural properties does not guarantee the interestingness or usability of the results for the user, a subjective property usually captured by external measures like the F -measure that determine up to what extent the resulting groups resemble a real human classification. In previous works, an interesting correspondence have been observed between the (internal) expected density measure and the (external) F -measure in clustering tasks with documents from the standard corpus RCV1. In this work, we investigate if that correspondence also is verified in clustering on narrow-domain abstracts tasks. This is a challenging problem and we think that this kind of study can be useful for detecting which are the most relevant structural properties which should be considered when designing clustering algorithms for these domains. Keywords: clustering of abstracts, narrow domains, evaluation measures 1. Introducción El agrupamiento de textos consiste en la asignación no supervisada de documentos en distintas categorı́as. Si bien es común que este tipo de tareas se estudie utilizando colecciones de documentos standards, en muchos casos sólo están disponibles los resúmenes descriptivos (abstracts), como ocurre con muchas publicaciones cientı́ficas. La tarea de ∗ El trabajo fue financiado parcialmente por los proyectos de investigación TIN2006-15265-C06-04 y ANPCyT-PICT-2005-34015. ISSN: 1135-5948 agrupamiento de resúmenes, presenta un desafı́o considerable debido a la baja frecuencia de ocurrencia de los términos en los documentos. Esta tarea se dificulta aún más, cuando los resúmenes abordan una temática similar, debido a que existe una intersección significativa en el vocabulario de los documentos. Esta tarea, conocida como agrupamiento de resúmenes en dominios muy restringidos (en inglés clustering abstracts on narrow domains) ha comenzado a ser abordada en distintos trabajos recientes que presentan distin- © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Diego Ingaramo, Marcelo Errecalde y Paolo Rosso de resúmenes cientı́ficos en dominios muy especı́ficos y un subconjunto de un corpus tradicional. En todos los casos, se utilizan distintas codificaciones de los documentos y distintos porcentajes del vocabulario. Los métodos de agrupamiento utilizados son k-means, MajorClust y un algoritmo de clustering “artificial”. El artı́culo está organizado de la siguiente manera. En la Sección 2 se resumen brevemente las particularidades que surgen en la tarea de agrupamiento de resúmenes en dominios muy restringidos. En la Sección 3 se describen algunas de las consideraciones realizadas por Stein respecto a las medidas internas y externas del agrupamiento y se detallan las medidas que utilizaremos en este trabajo. En la Sección 4 se describe el trabajo experimental y los resultados obtenidos. Por último se presentan las conclusiones y posibles trabajos futuros. tas propuestas para enfrentar las complejidades propias de este tipo de dominio (Makagonov, Alexandrov, y Gelbukh, 2004), (Alexandrov, Gelbukh, y Rosso, 2005), (Pinto, Jimenez, y Rosso, 2006). Por otra parte, Stein (Stein, Meyer, y Wißbrock, 2003) destaca que las métricas tradicionales de validez de un agrupamiento (ı́ndice de Davies-Boulding, ı́ndice de Dunn, densidad esperada y otras), son medidas internas (u objetivas) que toman en cuenta distintas propiedades estructurales de los grupos obtenidos. Sin embargo, estas medidas no garantizan la calidad del agrupamiento de acuerdo a la clasificación que hubiera realizado un usuario ante la misma tarea. Este tipo de información suele estar expresada en medidas externas (o subjetivas) como la precisión o la medida F, y requieren para su cálculo de información sobre la clasificación real realizada por un humano. Un algoritmo de agrupamiento no tiene en general acceso a este tipo de información. Por ello, se suele tomar como referencia a las medidas internas, y confiar en que permitan predecir adecuadamente las medidas externas. Este es el caso de métodos como MajorClust (Stein y Niggemann, 1999), que aproxima la función de conectividad parcial o el algoritmo AAT (Adaptive AntTree) (Ingaramo, Leguizamón, y Errecalde, 2005b), (Ingaramo, Leguizamón, y Errecalde, 2005a) que utiliza el ı́ndice de Davies-Boulding en una etapa del algoritmo. Respecto a las observaciones de Stein, éste analiza en que medida distintas medidas internas de un agrupamiento sirven para predecir la usabilidad del mismo (medidas subjetivas) usando en su estudio distintas muestras de un corpus etiquetado standard (RCV1). En este caso, se reportan resultados interesantes respecto a la correlación entre la medida de densidad esperada (interna) y la medida F (externa). El objetivo de nuestro trabajo es determinar si esta correspondencia también se verifica en un dominio más dificultoso como lo es el agrupamiento de resúmenes en dominios muy restringidos. Esta información podrá ser utilizada en algoritmos de agrupamiento que explı́citamente recurren a medidas internas (Ingaramo, Leguizamón, y Errecalde, 2005b), (Ingaramo, Leguizamón, y Errecalde, 2005a) para adaptarlos a las caracterı́sticas de este tipo de dominios. En el trabajo experimental se consideran 3 corpora 2. Agrupamiento de resúmenes en dominios reducidos La categorización de textos es el agrupamiento de documentos con temáticas similares, y es una componente clave en la organización, recuperación e inspección de grandes volúmenes de documentos accesibles actualmente en Internet, bibliotecas digitales, etc. Distintos trabajos de investigación han abordado el problema de la categorización automática de textos en situaciones donde se cuenta con un esquema de clasificación predefinido y existe una colección de documentos ya clasificados. En estos casos, las técnicas de aprendizaje automático han demostrado una gran eficacia a la hora de obtener clasificadores con muy buenos desempeños en diversas colecciones de documentos (Sebastiani, 2002), (Montejo y Ureña, 2006). Esta tarea de agrupamiento es más compleja cuando el proceso de formación de categorı́as es no supervisado y no se dispone de una colección de documentos etiquetados como referencia. En estos casos se introducen dificultades adicionales al caso supervisado como, por ejemplo, la correcta determinación del número de clases o la forma de evaluar el resultado del proceso de agrupamiento. Si bien las técnicas de agrupamiento han sido aplicadas en reiteradas oportunidades a documentos completos provenientes de colecciones de acceso público, el acceso a muchas publicaciones cientı́ficas queda en muchos ca56 Medidas Internas y Externas en el Agrupamiento de Resúmenes Científicos de Dominios Reducidos maño de vocabulario, utilizando esta interesante técnica de selección de términos. sos restringido a sus resúmenes (o abstracts). En estos casos, las técnicas de agrupamiento tradicionales suelen arrojar resultados inestables e imprecisos debido a las bajas frecuencias de ocurrencias de las palabras presentes en el resúmen y a la ocurrencia de frases comunes completas que no realizan ningún aporte al significado del documento (ej. “In this paper we present...”). Aqui es importante diferenciar: 3. Medidas de evaluación de agrupamientos El trabajo realizado por Stein en (Stein, Meyer, y Wißbrock, 2003) intentó determinar si las medidas de validez internas para un agrupamiento de textos se correspondian con los criterios utilizados por un usuario final, en relación a la misma tarea. Dentro de este marco se analizaron distintas medidas internas tradicionales como la familia de ı́ndices de Dunn y Davies-Bouldin y medidas basadas en densidad como la medida de conectividad parcial y la medida de densidad esperada. El análisis se realizó considerando que el criterio real del usuario estaba reflejado en la medida F (externa). Para los experimentos se consideraron muestras de la colección Reuters Text Corpus Volume 1 (Rose, Stevenson, y Whitehead, 2002) y distintos algoritmos de agrupamiento como k-Means y MajorClust. Los resultados mostraron que las medidas internas tradicionales se comportan de manera consistente aunque los grupos encontrados no sean buenos en relación a la medida F . La medida de densidad esperada en cambio, tiene un mejor comportamiento que, de acuerdo a Stein, se debe a la independencia que tiene esta medida con respecto a la forma y a la distancia entre grupos y elementos de cada grupo. A continuación, se describen brevemente la medida de densidad esperada y la medida F analizadas en el trabajo de Stein. Resúmenes concernientes a temáticas bien diferenciadas (deportes, polı́tica, economı́a, etc). Resúmenes concernientes a un dominio muy restringido (narrow domain) donde todos los resúmenes abordan una temática similar y la intersección de sus vocabularios es muy significativa. La dificultad del agrupamiento en el último caso ya ha sido observada en distintos trabajos recientes (Alexandrov, Gelbukh, y Rosso, 2005), (Pinto, Jimenez, y Rosso, 2006) que proponen distintos enfoques para su abordaje. En (Makagonov, Alexandrov, y Gelbukh, 2004) por ejemplo, se utilizó una adecuada selección de las palabras claves y una mejor evaluación de la similitud entre documentos, experimentándose con dos colecciones de abstracts de las conferencias CICLing 2002 e IFCS 2000. En (Alexandrov, Gelbukh, y Rosso, 2005) se propone el uso del método MajorClust de Stein para el clustering de palabras claves y documentos, experimentándose con la misma colección CICLing mencionada previamente. Recientemente, en (Jiménez, Pinto, y Rosso, 2005) un nuevo experimento con esta colección ha arrojado mejores resultados a partir del uso del método de punto de transición. Finalmente, en (Pinto, Jimenez, y Rosso, 2006), (Pinto et al., 2006) se muestra que esta técnica de selección de términos, puede producir un mejor desempeño que otras técnicas no supervisadas en colecciones de resúmenes. Estos últimos trabajos comparten la conclusión de que puede haber una influencia significativa del tamaño del vocabulario en la medida F cuando se utiliza la técnica del punto de transición. Por este motivo, en este trabajo decidimos que el análisis de la relación de las medidas internas y externas tomarı́a en cuenta distintos porcentajes del ta- 3.1. Medida de densidad esperada Se dice que un grafo ponderado V, E, w no es denso si |E| = O(|V |), y que es denso si |E| = O(|V |2 ). De esta forma podemos calcular la densidad θ de un grafo mediantela ecuación |E| = |V |θ . Con w(G) = |V | + e∈E w(e), la relación para grafos ponderados es: w(G) = |V |θ ⇔ θ = ln(w(G)) ln(|V |) (1) θ puede usarse para comparar la densidad de cada subgrafo inducido G = V , E , w de G, y se dice que G (no) es denso respecto a G si la relación grande) que 1. 57 w(G ) |V |θ es más chica (más Diego Ingaramo, Marcelo Errecalde y Paolo Rosso 4.1.1. La colección CICLing2002 Este corpus se caracteriza por un reducido número de resúmenes (48) distribuidos manualmente y en forma balanceada en 4 grupos que corresponden a temáticas abordadas en la conferencia CICLing 2002. Es un corpus pequeño (23.971 bytes) con 3382 términos en total y un vocabulario de tamaño 953. La distribución de los resúmenes en los grupos se muestra en la Tabla 1. Definición (Stein, Meyer, y Wißbrock, 2003): Sean C = {C1 , .., Ck } los grupos de un grafo ponderado G = V, E, w y sea Gi = Vi , Ei , wi el subgrafo inducido de G respecto al cluster Ci . La densidad esperada ρ de un agrupamiento C es: ρ(C) = k |Vi | i=1 w(Gi ) |V | |Vi |θ · (2) Categorı́a Lingüı́stica Ambigüedad Léxico Proc. de texto TOTAL Un mayor valor de ρ representa un mejor agrupamiento. 3.2. La medida F La medida F combina las medidas de precisión y recall. Definición: Sea D un conjunto de documentos, C = {C1 , ..., Ck } un agrupamiento de D y C ∗ = {C1∗ , . . . , Cl∗ } la clasificación real de los documentos en D. El recall de un grupo j en relación a la clase i, rec(i, j) se define como |Cj ∩ Ci∗ |/|Ci∗ |. La precisión de un grupo j respecto a la clase i, prec(i, j) se define como |Cj ∩ Ci∗ |/|Cj |. La medida F combina ambas funciones de la siguiente manera: Fi,j = 1 prec(i,j) 2 + 1 rec(i,j) Tabla 1: Distribución de CICLing2002 4.1.2. La colección Hep-Ex Este corpus, basado en la colección de resúmenes de la Universidad de Jaén, España (Montejo, Ureña Lopez y Steinberg, 2005), está compuesto por 2922 resúmenes del área de fı́sica, originalmente guardados en los servidores del Conseil Européen pour la Recherche Nucléaire (CERN). Este corpus de 962.802 bytes de tamaño, con un total de 135.969 términos en total y un vocabulario de tamaño 6150, distribuye los 2922 resúmenes en 9 categorı́as de la manera que se muestra en la Tabla 2. Como se puede observar, tiene una mayor cantidad de grupos que en el caso de CICLing2002 y además es altamente desequilibrado, ya que uno de los grupos concentra casi el 90 % de los documentos. (3) y la medida F global se define: F = l |Ci∗ | i=1 |D| · máx {Fi,j } j=1,..,k (4) En nuestro caso, es importante determinar si la correspondencia observada por Stein entre ambas medidas en la colección RCV1 se mantiene al agrupar resúmenes de dominios muy restringidos. Si ésto ocurre, se podrı́an adaptar para este tipo de dominios, algunos métodos de agrupamiento que explı́citamente utilizan otras medidas internas. En caso contrario, se podrı́a investigar si otras medidas internas se comportan mejor en estos casos. 4. 4.1. Nro de resúmenes 11 15 11 11 48 Categorı́a Resultados Experimentales Detectores y técnicas exp. Aceleradores Fenomenologı́a Astronomı́a Transf. de Información Sistemas No Lineales Otros campos de la fı́sica XX TOTAL Experimentos Conjuntos de Datos Nro de resúmenes 2623 271 18 3 3 1 1 1 1 2922 Tabla 2: Distribución de Hep-Ex En los experimentos se utilizaron las 4 colecciones que se describen a continuación, que difieren fundamentalmente en la cantidad de documentos y el tipo de distribución entre los distintos grupos. 4.1.3. La colección KnCr Esta colección es un subconjunto de la colección de textos cientı́ficos del área de me58 Medidas Internas y Externas en el Agrupamiento de Resúmenes Científicos de Dominios Reducidos dicina de MEDLINE, restringida a aquellos resúmenes sobre temas vinculados al cáncer. Se compone de 900 resúmenes distribuidos en 16 categorı́as como se muestra en la Tabla 3. Este corpus tiene un tamaño de 834.212 bytes, con 113.822 términos en total y un vocabulario de tamaño 11.958. Estudios preliminares (Pinto y Rosso, 2006) demuestran la alta complejidad y el desafı́o que presenta esta colección. Categorı́a Sangre Huesos Cerebro Pecho Colon Estudios Genéticos Genitales Pulmones Hı́gado linfoma renal piel estómago terapia tiroide otros TOTAL o la codificación de los documentos. Por este motivo, se buscó obtener un muestreo representativo de resultados considerando distintos escenarios. Para el caso de la codificación de los documentos, por ejemplo, se obtuvieron resultados considerando la mayorı́a de las 20 codificaciones SMART (Salton, 1971). Para la reducción del vocabulario, por su parte, los términos más relevantes fueron seleccionados mediante la técnica del punto de transición. Esta técnica ha demostrado tener un impacto significativo en la medida F en estudios recientes con este tipo de dominios (Pinto et al., 2006). Para cada uno de los corpus se consideraron los resultados obtenidos con los siguientes porcentajes de vocabulario: 2 %, 5 %, 10 %, 20 %, 40 %, 60 %, 80 % y hasta un 100 % (vocabulario total). Como algoritmos de clustering se utilizaron los métodos k-means y MajorClust. En el primer caso se deben especificar el número de clusters requeridos y en el segundo caso no. También se implementó un algoritmo de clustering artificial del tipo del utilizado por Stein en sus experimentos. La idea en este caso es que, dado que se conoce la categorización de referencia C ∗ , es posible generar agrupamientos artificiales C1 , . . . , Cn que difieren en el grado de ruido introducido en el agrupamiento. Este ruido es generado mediante el intercambio controlado de pares de subconjuntos de documentos entre los grupos que pueden variar desde un documento hasta el 50 % de los documentos de un grupo. Nro de resúmenes 64 8 14 119 51 66 160 29 99 30 6 31 12 169 20 22 900 Tabla 3: Distribución de KnCr 4.1.4. La colección 5-MNG Las 3 colecciones previas corresponden a colecciones de resúmenes cientı́ficos en dominios muy especı́ficos. Para poder comparar los resultados con una colección que no tuviera estas caracterı́sticas, se generó un subconjunto de la colección de textos completos MiniNewsGroups 1 , de manera tal que los grupos seleccionados correspondieran a temáticas bien diferenciadas. Esta colección, que denominamos 5-MNG, está compuesta por 5 grupos de tamaño equilibrado de 100 documentos cada uno (ver Tabla 4). 4.2. 4.3. Resultados En las Figuras 1, 2, 3 y 4 se muestran los resultados del agrupamiento artificial con las colecciones explicadas previamente. En todos los casos, los valores correspondientes al eje x representan las densidades esperadas ρ de los agrupamientos encontrados por este algoritmo, y los valores en el eje y son los valores de la medida F para cada agrupamiento. Debe- Diseño Experimental Categorı́a Gráficas Motocicletas Baseball Space Politica TOTAL En el trabajo experimental se analizó si existe una correspondencia general entre la densidad esperada y la medida F evitando introducir distintos tipos de sesgos en factores como el tamaño del vocabulario utilizado 1 http://kdd.ics.uci.edu/databases/20newsgroups/ 20newsgroups.html. 20 Newsgroups, the original data set. Ken Lang, 1993. Nro de resúmenes 100 100 100 100 100 500 Tabla 4: Distribución de 5-MNG 59 Diego Ingaramo, Marcelo Errecalde y Paolo Rosso obtenidos por Stein con agrupamientos artificiales con RCV1. Sin embargo, en nuestro caso dos situaciones merecen atención. La primera es respecto a CICLing2002 (Figura 1) donde se observan variaciones significativas de F con pequeñas variaciones de la densidad. Esto parece indicar que cuando existen pocos grupos y pocos documentos por grupo la densidad esperada no provee una estimación muy estable de F . Esta inestabilidad no se observa en una colección con pocos grupos con textos completos como es el caso de 5MNG (Figura 2) cuya curva tiene grandes similitudes con la curva ideal para este corpus. En el caso de Hep-ex (Figura 3) se observa que la medida F se mantiene casi inalterable respecto a las variaciones de la densidad esperada. Este comportamiento puede estar motivado por el hecho de que esta colección tiene un grupo que contiene el 90 % de los documentos y el clustering artificial parte del agrupamiento perfecto de los documentos. Es de esperar entonces, que si bien se incorpora paulatinamente ruido intercambiando documentos entre los grupos, el impacto que se mos notar que además de los puntos correspondientes a los resultados del agrupamiento artificial, también se grafica una lı́nea rotulada “Curva ideal de la muestra”. Esta lı́nea corresponde a la función lineal que pasa por los puntos (ρ1 , F1 ) y (ρ2 , F2 ) donde ρ1 y ρ2 son el mı́nimo y máximo valor de densidad esperada encontrado en los experimentos para este corpus y F1 y F2 son el mı́nimo y máximo valor de la medida F obtenidos para este corpus en nuestros experimentos. Esta función corresponde a un resultado idealizado donde la medida F se incrementarı́a linealmente de acuerdo al crecimiento de la densidad esperada. Dado que esta función serı́a un patrón deseable posible para la correlación entre ambas medidas, en todas las figuras subsiguientes, esta lı́nea será tomada como referencia para comparar los resultados obtenidos con los distintos algoritmos de agrupamiento. Resultados CICLing2002 1 0.9 Medida F 0.8 0.7 0.6 Resultados Hep-Ex 1 0.5 0.9 0.4 0.8 0.3 0.8 0.85 Densidad esperada 0.9 0.95 0.7 Medida F 0.75 Algoritmos Clustering Artificial Curva ideal de la muestra 0.6 0.5 Figura 1: CICLing2002 (clustering artificial) 0.4 0.3 0.2 0.74 Resultados 5MNG 0.76 0.78 0.8 1 0.82 0.84 Densidad esperada 0.86 0.88 0.9 Algoritmos Clustering Artificial Curva ideal de la muestra 0.9 0.8 Medida F Figura 3: Hep-ex (clustering artificial) 0.7 0.6 Resultados Cancer 1 0.5 0.9 0.4 0.8 0.7 0.3 0.68 0.7 0.72 0.74 0.76 0.78 Medida F 0.66 Densidad esperada Algoritmos Clustering Artificial Curva ideal de la muestra 0.6 0.5 0.4 Figura 2: 5-MNG (clustering artificial) 0.3 0.2 En todas estas figuras se puede observar una buena correspondencia entre la medida de densidad esperada y la medida F cuando se introduce ruido gradualmente en el agrupamiento. Estos resultados se asemejan a los 0.1 0.47 0.48 0.49 0.5 0.51 0.52 0.53 0.54 Densidad esperada Algoritmos Clustering Artificial Curva ideal de la muestra Figura 4: KnCr (clustering artificial) 60 Medidas Internas y Externas en el Agrupamiento de Resúmenes Científicos de Dominios Reducidos tiene sobre la medida F no alcance a ser significativo. De esta forma, la medida F mantendrá alto sus valores independientemente de los valores de densidad esperada. La colección de resúmenes que muestra una mejor correspondencia entre la densidad esperada y la medida F es KnCr (Figura 4). En este caso, la curva obtenida tiene una semejanza a la curva ideal casi tan cercana como en el caso de 5-MNG. Resultados Cancer 1 0.9 0.8 Medida F 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.47 0.48 0.49 0.5 0.51 0.52 0.53 0.54 Densidad esperada Algoritmos Resultados CICLing2002 K-means Curva ideal de la muestra 1 0.9 Figura 7: KnCr (k-means) Medida F 0.8 0.7 Resultados Hep-Ex 1 0.6 0.9 0.5 0.8 0.4 Medida F 0.7 0.3 0.75 0.8 0.85 Densidad esperada 0.9 0.95 0.6 0.5 Algoritmos K-means Curva ideal de la muestra 0.4 0.3 Figura 5: CICLing2002 (k-means) 0.2 0.74 0.76 0.78 0.8 0.82 0.84 0.86 0.88 0.9 Densidad esperada Algoritmos K-means Curva ideal de la muestra Resultados 5MNG 1 0.9 Figura 8: Hep-ex (k-means) Medida F 0.8 0.7 podemos inferir que si bien en un corpus con documentos completos y temáticas diferenciadas como 5-MNG, los resultados son consistentes con los obtenidos por Stein, en el caso de colecciones de resúmenes de dominios restringidos esta relación entre ambas medidas no parece verificarse. Los resultados obtenidos con las colecciones de resúmenes no mejoraron cuando se utilizó un algoritmo como MajorClust que determina automáticamente el número de grupos que tendrá el resultado, ya que no cuenta con información sobre el número correcto de grupos como en los algoritmos previos. Como ejemplo representativo de estos resultados, en la Figura 9 se muestra el desempeño de MajorClust con la colección CICLing2002. Se puede observar que se tiene un rango más amplio de valores de densidad que con los dos algoritmos previos, debido a que la variación en el número de grupos hacen variar significativamente los valores de densidad. Sin embargo, con estos valores mayores de densidad esperada tampoco se percibe una mejora de la medida F . 0.6 0.5 0.4 0.3 0.66 0.68 0.7 0.72 0.74 0.76 0.78 Densidad esperada Algoritmos K-means Curva ideal de la muestra Figura 6: 5-MNG (k-means) El segundo grupo de resultados se obtuvieron con el algoritmo k-means (con el número correcto de grupos) y se muestran en las Figuras 5, 6, 7 y 8. En los casos de Hep-ex y KnCr no se observa que un incremento en la densidad esperada implique un aumento de la correspondiente medida F . En el caso de 5-MNG en cambio, parece haber una relación más directa entre el crecimiento de la densidad esperada y el crecimiento de F . No obstante ésto, los valores de F comienzan a ser más inestables con valores de densidad superiores a 0.73. Considerando que en el caso de CICLing2002 tampoco se visualiza una relación clara entre la densidad y la medida F , 61 Diego Ingaramo, Marcelo Errecalde y Paolo Rosso Jiménez, H., D. Pinto, y P. Rosso. 2005. Uso del punto de transición en la selección de términos ı́ndice para agrupamiento de textos cortos. En Procesamiento del Lenguaje Natural, páginas 383–390. Resultados CICLing2002 1 0.9 Medida F 0.8 0.7 Makagonov, P., M. Alexandrov, y A. Gelbukh. 2004. Clustering abstracts instead of full texts. En Proc. of the TSD-2004, páginas 129–135. 0.6 0.5 0.4 0.3 0.75 0.8 0.85 0.9 0.95 Montejo, A. y L. A. Ureña. 2006. Binary classifiers versus adaboost for labeling of digital documents. En Procesamiento del Lenguaje Natural, páginas 319–326. Densidad esperada Algoritmos Major Clust Curva ideal de la muestra Figura 9: CICLing2002 (MajorClust) 5. Pinto, D., H. Jimenez, y P. Rosso. 2006. Clustering Abstracts of Scientific Texts Using the Transition Point Technique. En A. Gelbukh, editor, Proceedings of the CICLing 2006, volumen 3878 de LNCS, páginas 536–546. Springer-Verlag. Conclusiones y trabajo futuro Los resultados obtenidos en este trabajo con la colección 5-MNG confirman las observaciones realizadas por Stein respecto a que la densidad esperada puede ser un buen indicador de la medida F cuando se agrupan documentos completos de temáticas disı́miles. Sin embargo, esta relación entre ambas medidas no parece verificarse en tareas de agrupamiento de resúmenes de dominios muy reducidos. Estos resultados se constituyen en nuevos indicadores de la dificultad intrı́nseca de este tipo de dominios. Como trabajo futuro, serı́a interesante analizar el desempeño de otras medidas internas como el ı́ndice de Davies-Boulding o el ı́ndice de Dunn, en este tipo de dominios y su relación con la medida F . En base a estos estudios, serı́a factible incorporar la medida interna más adecuada en los algoritmos que las utilizan en alguna de sus etapas. De esta manera, se podrı́a lograr un algoritmo de agrupamiento aceptable, adaptado a las caracterı́sticas de este dominio tan dificultoso. Pinto, D. y P. Rosso. 2006. Kncr: A shorttext narrow-domain sub-corpus of Medline, TLH 2006. Pinto, D., P. Rosso, J. Alfons, y H. Jiménez. 2006. A comparative study of clustering algorithms on narrow-domain abstracts. En Procesamiento del Lenguaje Natural, páginas 41–49. Rose, T.G., M. Stevenson, y M. Whitehead. 2002. The reuters corpus volume 1: from yesterdays news to tomorrows language resources. En Proceedings of the Third ICLRE, páginas 29–31. Salton, Gerard. 1971. The Smart Retrieval System: Experiments in Automatic Document Processing. Prentice Hall. Sebastiani, F. 2002. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47. Bibliografı́a Alexandrov, M., A. Gelbukh, y P. Rosso. 2005. An Approach to Clustering Abstracts. En Proceedings of the 10th International Conference NLDB-05, LNCS, páginas 275–285. Springer-Verlag. Stein, B., S. Meyer, y F. Wißbrock. 2003. On Cluster Validity and the Information Need of Users. En Proceedings of the 3rd IASTED, páginas 216–221, Anaheim, Calgary, Zurich, Septiembre. ACTA Press. Ingaramo, D., G. Leguizamón, y M. Errecalde. 2005a. Adaptive clustering with artificial ants. Journal of Computer Science and Technology, 5(04):264–271. Stein, B. y O.Ñiggemann. 1999. On the Nature of Structure and its Identification. volumen 1665 LNCS de Lecture Notes in Computer Science, páginas 122–134. Springer, Junio. Ingaramo, D., G. Leguizamón, y M. Errecalde. 2005b. Clustering dinámico con hormigas artificiales. En Proceedings of the CACIC 2005. 62 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 63-70 recibido 22-05-2007; aceptado 22-06-2007 Integración de conocimiento en un dominio específico para categorización multietiqueta María Teresa Martín Valdivia Universidad de Jaén Campus Las Lagunillas, Edif. A3. E-23071 maite@ujaen.es Manuel Carlos Díaz Galiano Universidad de Jaén Campus Las Lagunillas, Edif. A3. E-23071 mcdiaz@ujaen.es Arturo Montejo Ráez Universidad de Jaén Campus Las Lagunillas, Edif. A3. E-23071 amontejo@ujaen.es L. Alfonso Ureña López Universidad de Jaén Campus Las Lagunillas, Edif. A3. E-23071 laurena@ujaen.es Resumen: En este artículo se presenta un estudio sobre el uso e integración de una ontología en un corpus biomédico. Nuestro objetivo es comprobar cómo afectan distintas maneras de enriquecimiento e integración de conocimiento sobre un corpus de dominio específico cuando se aplica sobre un sistema de categorización de textos multietiqueta. Se han realizado varios experimentos con distintos tipos de expansión y con diferentes algoritmos de aprendizaje. Los resultados obtenidos muestran una mejora en los experimentos que realizan expansión sobre todo en los casos en los que se utiliza el algoritmo SVM. Palabras clave: Ontología MeSH, corpus biomédico (CCHMC), categorización multietiqueta, integración de conocimiento, aprendizaje automático Abstract: In this paper, we present a study on the integration of a given ontology in a biomedical corpus. Our aim is to verify the effect of several approaches for textual enrichment and knowledge integration on a domain-specific corpus when dealing with multi-label text categorization. The different reported experiments vary the expansion strategy used and the set of learning algorithms considered. Our results show that for SVM algorithm the expansion performed produces best results in any case. Keywords: MeSH ontology, biomedical corpus (CCHMC), multi-label text categorization, knowledge integration, machine learning. 1 Introducción Las técnicas de procesamiento de lenguaje natural se están aplicando cada vez con mayor eficiencia en el dominio biomédico. Muchas investigaciones recientes exploran el uso de técnicas de procesamiento de lenguaje natural aplicadas al dominio biomédico (Karamanis 2007, Müller et al 2006). La necesidad de etiquetar y categorizar automáticamente textos médicos se hace cada vez más evidente. Es innegable la importancia en la investigación y desarrollo de sistemas de búsqueda y recuperación de información en el ISSN: 1135-5948 dominio de la biomedicina que faciliten la tareas de los especialistas dando soporte y ayuda en su trabajo diario. En este trabajo se presenta un estudio sobre la influencia en un sistema de categorización de una ontología específica del dominio biomédico: la ontología MeSH (MeSH 2007). Concretamente, se ha utilizado dicha ontología para expandir los términos de un documento que se quiere categorizar con el fin de mejorar los resultados sobre un sistema categorizador multi-etiqueta. Pensamos que la incorporación de conocimiento mediante la integración de recursos tales como las ontologías puede © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural María Teresa Martín Valdivia, Manuel Carlos Díaz Galiano, Arturo Montejo Ráez y L. Alfonso Ureña-López mejorar significativamente los resultados obtenidos con los sistemas de información. Por otra parte, para llevar a cabo la experimentación se han utilizado distintas configuraciones tanto de algoritmos de aprendizaje automático utilizados como de parámetros para cada uno de ellos. Concretamente, se ha utilizado el algoritmo SVM (Support Vector Machine), una red neuronal tipo perceptrón denominada PLAUM y el algoritmo de regresión bayesiana BBR. Los experimentos muestran que el uso de SVM mejora los resultados prácticamente en todos los casos. El artículo se organiza de la siguiente manera: en primer lugar, se describe brevemente la tarea de categorización de textos multietiquetados así como el sistema categorizador utilizado TECAT. A continuación, se presentan los dos recursos biomédicos integrados (el corpus CCHMC y la ontología MeSH). En la siguiente sección se muestran los experimentos y resultados obtenidos. Finalmente, se comentan las conclusiones y trabajos futuros. 2 Este sistema puede basarse en el anterior. 3. Clasificación multi-etiquetado. El documento se etiqueta no con una única clase, como en el caso anterior, sino que puede tomar varias de entre las categorías disponibles. Es el problema más complejo, pero puede simplificarse si utilizamos clasificadores binarios cuya repuesta pueda combinarse (por ejemplo, mediante un ranking de clases) o entrenando sobre cada clase un clasificador binario de repuesta SI/NO (como el sistema que se describe en este trabajo). Hemos utilizado el software TECAT1, que implementa un algoritmo para la clasificación multi-etiqueta basado en clasificadores base binarios. El algoritmo usado se muestra a continuación (Algoritmo 1), y consiste en entrenar un clasificador binario para cada clase seleccionando aquel que mejor rendimiento aporta dada una medida de rendimiento sobre el que se evalúa al clasificador. Además, aquellas clases para las que no es posible entrenar un clasificador con un rendimiento mínimo se descarta. Categorización multietiqueta La asignación automática de palabras clave a los documentos abre nuevas posibilidades en la exploración documental (Montejo, 2004), y su interés ha despertado a la comunidad científica en la propuesta de soluciones. La disciplina de recuperación de información, junto con las técnicas de procesamiento del lenguaje natural y los algoritmos de aprendizaje automático son el substrato de donde emergen las áreas de Categorización Automática de Textos (Sebastiani, 2002). En esta última área de investigación es donde se enmarca el presente trabajo y donde vierte sus principales aportaciones. En la clasificación de documentos se distinguen tres casos: 1. Clasificación binaria. El clasificador debe devolver una de entre dos posibles categorías, o bien una respuesta SI/NO. Estos son los sistemas más simples, y al mismo tiempo los sistemas más conocidos en Aprendizaje Automático. 2. Clasificación multi-clase. En este caso el clasificador debe proporcionar una categoría de entre varias propuestas. Entrada: un conjunto Dt de documentos multietiquetados para entrenamiento un conjunto Dv de documentos de validación un umbral Į sobre la una medida de evaluación determinada un conjunto L de posibles etiquetas (clases) un conjunto $C$ de clasificadores binarios candidatos Salida: un conjunto C' = {c1, ..., ck, ..., c|L|} de clasificadores binarios entrenados Pseudo-código: C' ĸ ø Para-cada li en L: T ĸ ø Para-cada cj en C: entrena(cj, li, Dt) T ĸ T {cj} Fin-para-cada $cmejor ĸ mejor(T, Dv) Si evalua(cmejor) > Į C' ĸ C' {cmejor} Fin-si Fin-para-cada Algoritmo 1. Entrenamiento de clasificadores base 1 Disponible en http://sinai.ujaen.es/wiki/index.php/TeCat 64 Integración de Conocimiento en un Dominio Epecífico para Categorización Multietiqueta 3 utilizadas en la colección es 142. Recursos utilizados Nuestro objetivo principal consiste en estudiar la influencia que tiene el uso de una ontología médica sobre un corpus biomédico cuando se desea desarrollar un sistema automático de categorización de textos multi-etiquetados. Para ello, hemos utilizado dos recursos que describimos a continuación. 3.1 Clases 1 2 3 4 5 7 Corpus CCHMC Documentos 389 368 162 46 12 1 Tabla 1. Número de clases asignadas por documento Se trata de un corpus desarrollado por “The Computational Medicine Center”2. Dicho corpus incluye registros médicos anónimos recopilados en el departamento de radiología del Hospital infantil de Cincinnati (the Cincinnati Children’s Hospital Medical Center’s Department of Radiology – CCHMC) (CMC, 2007). La colección está formada por 978 documentos consistentes en informes radiológicos que están etiquetados con códigos del ICD-9-CM3 (Internacional Classification of Diseases 9th Revision Clinical Modification). Se trata de un catálogo de enfermedades codificadas con un número de 3 a 5 dígitos con un punto decimal después del tercer dígito. Los códigos ICD-9-CM están organizados de manera jerárquica en los que se agrupan varios códigos consecutivos en los niveles superiores. El número de códigos asignados a cada documento varía de 1 a 7. La Tabla 1 muestra la distribución del número de etiquetas por documento. El total de etiquetas distintas La Figura 1 muestra un ejemplo de documento. Como se puede observar, la cantidad de información suministrada en cada documento es muy escasa pero muy relevante y bien estructurada. La colección se encuentra anotada manualmente por tres expertos. Por lo tanto, en cada documento existen tres conjuntos de anotaciones, una por cada uno de los expertos. Adicionalmente, se ha añadido un conjunto de etiquetas que unifica la mayoría de los tres expertos. Por otra parte, cada informe contiene dos partes de texto fundamentales: la historia clínica y la impresión o diagnóstico del médico. 3.2 Ontología MeSH La ontología MeSH4 (Medical Subject Headings) está desarrollada y mantenida por la National Library of Medicine y se utiliza como herramienta de indexación y búsqueda en temas <doc id="97636670" type="RADIOLOGY_REPORT"> <codes> <code origin="CMC_MAJORITY" type="ICD-9-CM">786.2</code> <code origin="COMPANY3" type="ICD-9-CM">786.2</code> <code origin="COMPANY1" type="ICD-9-CM">204.0</code> <code origin="COMPANY1" type="ICD-9-CM">786.2</code> <code origin="COMPANY1" type="ICD-9-CM">V42.81</code> <code origin="COMPANY2" type="ICD-9-CM">204.00</code> <code origin="COMPANY2" type="ICD-9-CM">786.2</code> </codes> <texts> <text origin="CCHMC_RADIOLOGY" type="CLINICAL_HISTORY"> Eleven year old with ALL, bone marrow transplant on Jan. 2, now with three day history of cough.</text> <text origin="CCHMC_RADIOLOGY" type="IMPRESSION"> 1. No focal pneumonia. Likely chronic changes at the left lung base. 2. Mild anterior wedging of the thoracic vertebral bodies.</text> </texts> </doc> Figura 1. Ejemplo de documento de la colección CCHMC 2 3 http://www.computationalmedicine.org/ 65 http://www.cdc.gov/nchs/icd9.htm María Teresa Martín Valdivia, Manuel Carlos Díaz Galiano, Arturo Montejo Ráez y L. Alfonso Ureña-López utilizado la ontología MeSH para expandir, con información médica dichos documentos. Se pretende incorporar información de calidad que ayude a mejorar la categorización de documentos. relacionados con la medicina y la salud. Consiste en un conjunto de unos 23.000 términos denominados descriptores que se encuentran distribuidos de manera jerárquica permitiendo la búsqueda a varios niveles de Documento MeSH ul Fever x5 days. Findings consistent with viral or reactive airway disease. sl ll Expansión ul Fever x5 days. Expansión Findings consistent sl with viral or reactive airway disease. Fever x5 days. pathologic_processes Expansión Findings consistent ll with viral body_temperature_changes or reactive airway disease. Fever x5 days. genomic_instability Expansión Findings consistent ul-ll with viral acantholysis or reactive airway disease. hyperplasia Fever x5 days. fever_of_unknown_origin growth disorders Findings consistent with viral syndrome or reactive airway disease. sweating_sickness pathologic_processes fever_of_unknown_origin body_temperature_changes syndrome Figura 2. Estrategias de expansión con MeSH Sin embargo, el uso indiscriminado de todos los términos extraídos de la ontología pueden empeorar los resultados puesto que incorporarían demasiado ruido. Así se pone de manifiesto por ejemplo en (Chevallet, Lim y Radhouani, 2006) donde se demuestra que seleccionar aquellas categorías de MeSH más acordes a la temática de los documentos, mejora la calidad de la expansión. Con el fin de limitar el número de términos expandidos, se ha filtrado el número de categorías utilizadas para realizar la expansión. Así, aunque el primer nivel de MeSH incluye 16 categorías generales, se han seleccionado solo las siguientes tres: especificidad. Un descriptor puede aparecer en varias ramas. Existen varios estudios que demuestran que el uso y la integración de información procedente de ontologías y recursos con un vocabulario controlado, puede mejorar significativamente los sistemas de tratamiento de información (Chevallet, Lim y Radhouani, 2006, Guyot, Radhouani, y Falquet, 2005, Navigli, Velardi y Gangemi, 2003). Concretamente, nosotros haremos uso de la ontología MeSH con el fin de expandir los documentos del corpus CCHMC que se desean categorizar. De esta manera, se pretende incorporar conocimiento a la colección utilizada con el fin de mejorar los resultados en un sistema de categorización multietiqueta. 4 Descripción de los experimentos 4.1 Expansión con MeSH Debido a que la cantidad de información en cada documento de la colección es escasa, se ha 4 x A: Anatomy x C: Diseases x E: Analytical, Diagnostic, and Therapeutic Techniques and Equipment El motivo para elegir precisamente estas tres categorías es que el corpus incluye casos clínicos de niños con enfermedades relacionadas con el aparato respiratorio por lo http://www.nlm.nih.gov/mesh/ 66 Integración de Conocimiento en un Dominio Epecífico para Categorización Multietiqueta que dichas categorías deberían incluir la mayoría de los términos usados en el corpus. Al realizar la expansión se busca el primer nodo de la ontología que coincide con la palabra a expandir. Una vez encontrado el nodo, la selección de términos que formarán parte de la selección se puede realizar de tres maneras distintas (ver Figura 2): x Upper level (ul): se selecciona el término que está en un nivel superior a dicho nodo, es decir, el nodo padre. x Same level (sl): se selecciona los términos que están al mismo nivel que dicho nodo, es decir, los nodos hermanos. x Lower level (ll): se seleccionan los términos inmediatamente inferiores de dicho nodo, es decir, los nodos hijos. x Debido a que TECAT nos permite aplicar varios algoritmos al mismo tiempo, hemos estudiado las configuraciones siguientes: x SVM-multi indica que se han pasado a TECAT varias configuraciones simultáneas del algoritmo SVM (Joachims, T., 1998). Estas configuraciones son aquellas que dan un peso adicional a los ejemplos positivos (normalmente escasos) con los valores 1, 2, 5, 10 y 20, es decir, 5 configuraciones diferentes de SVM que TECAT usará como clasificadores base independientes. x PLAUM-multi indica, también, varias configuraciones para el perceptrón PLAUM (Y. Li et al., 2002) con pesados para ejemplos positivos en {0, 1, 10, 100} y pesados para negativos en {-10, -1, 0, 1}. Esto implica pasar a TECAT 16 configuraciones diferentes de PLAUM simultáneamente. x BBR-multi. De forma similar a los anteriores, aquí el algoritmo BBR (A. Genkin et al., 2006) ha sido parametrizado con valores de umbral {0, 1, 2, 3, 4, 5} y valores de utilidad {0, 1, 2, 3}, si bien no se han analizado las combinaciones de todos ellos, por lo que las configuraciones consideradas han sido 10 para este algoritmo. Las configuraciones en las que intervienen varias algoritmos combinados han sido realizadas, bien usando la simple de cada uno de ellos, bien la combinación de las múltiples parametrizaciones comentadas en cada uno de estos algoritmos. Las palabras existentes dentro de los nodos seleccionados para formar parte de la expansión, han sido consideradas como entidades. Por lo tanto, si un nodo contiene una multipalabra (varias palabras separadas por espacios), dichas palabras se han incluido en la expansión formando un único término. Con el fin de realizar un estudio para comprobar el comportamiento del sistema con varios tipos de expansión, se han diseñado distintas combinaciones con las tres expansiones anteriores. De esta forma, se han generado expansiones del tipo: ul+sl, ul+ll, ul+sl+ll… En la primera columna de la tabla 3 se pueden ver todas las expansiones realizadas. 4.2 Se ha normalizado usando la función coseno. Configuraciones de TECAT Una vez realizada la expansión, cada experimento se ha realizado ajustando los distintos parámetros de TECAT: x Se han eliminado las palabras vacías (stop-words). x Se han obtenido las raíces de las palabras usando el stemmer de Porter (Porter 1980). x Se han filtrado las características así obtenidas mediante ganancia de información (Shannon 1948), limitándonos a considerar 50,000 características. x Se ha usado un pesado según el esquema TD.IDF. 5 Evaluación Para evaluar los resultados se han usado validación cruzada en 10 particiones. Es decir, se ha dividido la colección en 10 particiones diferentes. Se ha ido alternativamente tomando una partición para test y el resto para entrenamiento. Los resultados finales de evaluación se calculan haciendo el promedio de cada ejecución correspondiente a cada participación. De esta forma se reduce el efecto que la selección de un determinado grupo de documentos para entrenamiento o evaluación pudiera tener sobre el resultado final. 67 María Teresa Martín Valdivia, Manuel Carlos Díaz Galiano, Arturo Montejo Ráez y L. Alfonso Ureña-López obtienen términos más generales que pueden considerarse como puntos en común entre documentos. En cuanto a los algoritmos de aprendizaje utilizados, se puede observar que la expansión funciona en todos los casos excepto con la red neuronal PLAUM cuyos resultados son mejores sin ningún tipo de expansión. Con las respuestas de un sistema de clasificación automático, y disponiendo de las predicciones reales que un experto humano asignaría, podemos construir la siguiente tabla de contingencia: El sistema dice SI El sistema dice NO SI es correcto A NO es correcto B C D Tabla 2. Contingencias. Las medidas consideradas son precisión (P), cobertura (R) y F1, siendo ésta última la que nos da una visión más completa del comportamiento del sistema. Estas medidas han sido obtenidas mediante micro-averaging, es decir, calculando los aciertos y fallos en cada clase de forma acumulativa y calculando los valores finales sobre dichos valores acumulados, tal y como se refleja en las ecuaciones siguientes a partir de las medidas correspondientes según la tabla de contingencia anterior: ¦A ¦ A ¦B cC ' c cC ' SVM simple SVM-multi ll ul sl ul-ll ul-sl ul-sl-ll Sin expansión 0,724912 0,739461 0,734283 0,739327 0,726128 0,713533 0,737024 0,7675 0,7957 0,7697 0,7766 0,7669 0,7557 0,7699 Tabla 3. Expansión con SVM c PP Tipo de Expansión c Tipo de Expansión BBR simple BBR multi ll ul sl ul-ll ul-sl ul-sl-ll Sin expansión 0,7290 0,7267 0,7400 0,7314 0,74462 0,7253 0,7250 0,732330 0,734653 0,737367 0,744386 0,735738 0,737014 0,724841 cC ' ¦A ¦ A ¦C Tabla 4. Expansión con BBR c RP cC ' c cC ' F 1P Tipo de Expansión c cC ' ll ul sl ul-ll ul-sl ul-sl-ll Sin expansión 2 PP RP PP RP Los resultados obtenidos se pueden observar en las tablas 3, 4, 5 y 6. Como se puede observar, la integración de la ontología MeSH mejora prácticamente en todos los casos excepto para el caso de PLAUM, si bien con el algoritmo SVM es con el que la mejora es mayor. De hecho, como se muestra en la tabla 3, con la configuración SVM-multi se obtienen los mejores resultados independientemente del tipo de expansión realizada. Si observamos los resultados desde el punto de vista de la expansión de los documentos, el método con unos resultados más homogéneos es el que realiza la expansión con los nodos padre (ul). Con este tipo de expansión se PLAUM simple 0,7284 0,7233 0,7163 0,7230 0,7213 0,7177 0,7323 PLAUM multi 0,7228 0,7372 0,7262 0,7263 0,7210 0,7206 0,7311 Tabla 5. Expansión con PLAUM 68 Integración de Conocimiento en un Dominio Epecífico para Categorización Multietiqueta Tipo de Expansión ll ul sl ul-ll ul-sl ul-sl-ll Sin expansión SVM-BBRPLAUM simple 0,7562 0,7704 0,7642 0,7611 0,7513 0,7569 0,7478 Approach Mixed with Ontology Dimensions for Medical Queries. Lecture Notes in Computer Science. Volume 4022/2006. Pages 642-651 SVM-BBRPLAUM multi 0,7490 0,7814 0,7633 0,7757 0,7719 0,7479 0,7682 CMC. 2007. The Computational Medicine Center’s 2007 Medical Natural Language Processing Challenge. Disponible en http://www.computationalmedicine.org/ challenge/cmcChallengeDetails.pdf Genkin, A., D.D. Lewis and D. Madigan. 2006. Large-Scale Bayesian Logistic Regression for Text Categorization. Technometrics Tabla 6. Expansión combinando los tres algoritmos utilizados 6 Guyot, J., Radhouani, S., y Falquet, G. 2005 Ontology-based multilingual information retrieval. In CLEF Workhop, Working Notes Multilingual Track, Vienna, Austria, 21–23. September 2005. Conclusiones y trabajos futuros. En este trabajo se ha presentado un estudio en categorización multietiqueta enriqueciendo e integrado conocimiento. Para ello, se expande el corpus utilizado (CCHMC) en el proceso de categorización multietiqueta, con la ontología médica MeSH. Para realizar el estudio se ha utilizado un categorizador multi-etiqueta TECAT disponible libremente y que permite la configuración y utilización simultánea de varios algoritmos de aprendizaje. Nuestro trabajo utiliza SVM, PLAUM y BBR además de una combinación de ellos. Los resultados muestran la conveniencia de integrar conocimiento externo proceden de una ontología específica biomédica. Sin embargo, las diferencias entre los distintos tipos de algoritmos utilizados no son excesivamente significativas. En el futuro se pretende estudiar el uso de otros tipos de expansión utilizando dicha ontología, como por ejemplo la selección automática de las categoría que se utilizan para expandir, o el uso de sinónimos y palabras similares en lugar de nodos padres y/o hijos. Además se intentarán aplicar estas técnicas de expansión a otro tipo de tareas textual para comprobar el rendimiento de dicha técnica. 7 Joachims, T. 1998. Text categorization with support vector machines: learning with many relevant features. Proceedings of ECML-98, 10th European Conference on Machine Learning, N. 1398, Springer Verlag, pp. 137-142. Karamanis, N. 2007. Text Mining for Biology and Biomedicine. Computational Linguistics. Volume 33. Pages 135-140. Li, Y., H. Zaragoza, R. Herbrich, J. ShaweTaylor y J. Kandola. 2002. The Perceptron Algorithm with Uneven Margins. Proceedings of the International Conference of Machine Learning (ICML'2002). MeSH. 2007. Medical Subject Headings. Accesible desde la página web: http://www.nlm.nih.gov/mesh/ Montejo-Ráez, A. y R. Steinberger. 2004. Why keywording matters. High Energy Physics Libraries Webzine. Num. 10. Diciembre. Müller, H., T. Deselaers, T. Lehmann, P. Clough y W. Hersh. 2006. Overview of the ImageCLEFmed 2006 medical retrieval and annotation tasks. Evaluation of Multilingual and Multi-modal Information Retrieval – Seventh Workshop of the Cross-Language Evaluation Forum, CLEF 2006. LNCS 2006. Agradecimientos Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia y Tecnología a través del proyecto TIMOM (TIN2006-15265C06-03). Navigli, R. Velardi, P. y Gangemi, A., 2003. Ontology learning and its application to automated terminology translation. Intelligent Systems, volume 18, issue 1, pp 22-31. Bibliografía Chevallet, J. P., J. H. Lim y S. Radhouani. 2006. A Structured Visual Learning 69 María Teresa Martín Valdivia, Manuel Carlos Díaz Galiano, Arturo Montejo Ráez y L. Alfonso Ureña-López Porter, M. 1980. An Algorithm for Suffix Stripping. Program,Vol. 14 (3), pp. 130-137, 1980. Sebastiani, F. 2002. Machine learning in automated text categorization. ACM Computing Survey, Vol. 34, Num. 1, pp. 147. Shannon, C. E. 1948.A mathematical theory of communication. Bell System Technical Journal, vol. 27, pp. 379-423 y 623-656. 70 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 71-78 recibido 18-05-2007; aceptado 22-06-2007 Similitud entre documentos multilingües de carácter científicotécnico en un entorno Web Xabier Saralegi Urizar Elhuyar fundazioa 20170 Usurbil xabiers@elhuyar.org Iñaki Alegria Loinaz IXA taldea. UPV/EHU 649 p.k., 20080 Donostia acpalloi@si.ehu.es Resumen: En este artículo se presenta un sistema para la agrupación multilingüe de documentos que tratan temas similares. Para la representación de los documentos se ha empleado el modelo de espacio vectorial, utilizando criterios lingüísticos para la selección de los palabras clave, la formula tf-idf para el cálculo de sus relevancias, y RSS feedback y wrappers para actualizar el repositorio. Respecto al tratamiento multilingüe se ha seguido una estrategia basada en diccionarios bilingües con desambiguación. Debido al carácter científicotécnico de los textos se han empleado diccionarios técnicos combinados con diccionarios de carácter general. Los resultados obtenidos han sido evaluados manualmente. Palabras clave: CLIR, similitud translingüe, enlazado translingüe, RSS Abstract: In this paper we present a system to identify documents of similar content. To represent the documents we’ve used the vector space model using linguistic knowledge to choose keywords and tf-idf to calculate the relevancy. The documents repository is updated by RSS and HTML wrappers. As for the multilingual treatment we have used a strategy based in bilingual dictionaries. Due to the scientific-technical nature of the texts, the translation of the vector has been carried off by technical dictionaries combined with general dictionaries. The obtained results have been evaluated in order to estimate the precision of the system. Keywords: CLIR, cross-lingual similarity, cross-lingual linking, RSS 1 Introducción La cantidad de información textual publicada en Internet es cada vez mayor, resultando su grado de organización todavía deficiente y caótico en muchos casos. Situándonos por ejemplo en el contexto de los medios de comunicación, observamos que los servicios que se ofrecen actualmente para una navegación integrada de información proveniente de distintas fuentes resultan escasos, y más todavía cuando se trata de información multilingüe. ISSN: 1135-5948 Frente a este problema, proponemos una navegación organizada en base a la semejanza semántica entre contenidos, aplicada como experiencia piloto en un entorno multilingüe de sitios web de noticias científicas. Concretamente, hemos centrado nuestro experimento en el sitio web de divulgación científica en euskera Zientzia.net, combinando los siguientes idiomas: euskera, castellano e inglés. Como resultado, Zientzia.net ofrecerá para cada noticia publicada enlaces a otras noticias relacionadas, pudiendo estar publicadas en diferentes sitios web y distintos idiomas. El © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Xabier Saralegi y Iñaki Alegria una colección previamente procesada por el mismo, y se ha calculado la precisión analizando manualmente los cuatro primeros semejantes detectados automáticamente (cutoff 4). objetivo final de este servicio es ofrecer al lector una navegación más completa y organizada. Una navegación similar a la ofrecida por NewsExplorer (Steinberger, Pouliquen y Ignatet, 2005) pero especializada en contenidos científico-técnicos. Con ese objetivo, se ha diseñado y desarrollado un sistema (Fig.1) que abarca las tareas de recopilación automática de noticias procedentes de distintas fuentes, su representación mediante un modelo algebraico, y el cálculo de las similitudes entre documentos escritos en el mismo o en distintos idiomas. 2 Obtención de documentos Nuestro sistema se especializa en la recolección e interrelación de documentos pertenecientes al dominio científico-técnico dentro del genero periodístico o divulgativo. Se ha confeccionado una lista de sitios web referentes dentro de la divulgación científica que sirvan de fuentes de información. Para la creación y continua actualización de la colección de noticias provenientes de las distintas fuentes, se ha implementado un lector basado en sindicación RSS. Mediante la sindicación RSS obtenemos de manera periódica resúmenes de las noticias que se publican en un determinado sitio-web. Los resúmenes suelen contener adicionalmente el título y la URL de cada noticia. Esto implica que, si deseamos acceder al contenido de la noticia, debemos acudir al documento HTML y extraer su contenido. Sin embargo esta última tarea no es trivial, ya que el texto del contenido suele estar mezclado con otros elementos textuales añadidos -tales como menús de navegación, publicidad, información corporativa...-. 1 Para realizar esta limpieza se proponen generalmente técnicas de carácter automático basadas en aprendizaje supervisado (Lee, Kan y Lai, 2004), pero los resultados no llegan a ser óptimos. Por esa razón, y teniendo además en cuenta que la lista de sitos web a tratar no es muy amplia, hemos decidido implementar los wrappers de manera manual. Concretamente se ha analizado manualmente la estructura HTML de las noticias publicadas en cada sitio web, y se han Fig 1. Esquema del flujo de información La recopilación automática de noticias -tanto locales como remotas- la realiza un robot basado en agregadores RSS y wrappers HTML. La posterior representación de los documentos se hace según el modelo de espacio vectorial. Para la construcción de los vectores se seleccionan las palabras clave siguiendo criterios lingüísticos. Concretamente se escogen nombres comunes, entidades y términos multipalabra, y se calcula su relevancia según la ecuación tf-idf. La traducción de los vectores generados a partir de documentos escritos en distintos idiomas se hace hacia el euskera, y se utilizan tanto diccionarios técnicos como diccionarios de carácter general. Para el tratamiento de las traducciones ambiguas se ha diseñado un sencillo y efectivo método. Finalmente, el grado de similitud se estima mediante el coseno entre los vectores. Con el propósito de evaluar el sistema, se ha escogido un grupo de documentos al azar de 1 Con el objetivo de impulsar trabajos enfocados a la limpieza de documentos web SIGWAC ha programado para Junio del 2007 una tarea (CLEANEVAL) en formato de competición. 72 Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web implementado parsers empleando el modelo XPath en base a los patrones observados en cada sitio web. La obtención de noticias publicadas se lleva a cabo, por tanto, en dos pasos: Primero, mediante el agregador RSS obtenemos los metadatos de las noticias publicadas en unos sitios web determinados y, a continuación, extraemos el contenido textual del documento HTML señalado en los metadatos mediante el wrapper HTML correspondiente al sitio web. Como paso añadido, debido a que algunos sitios web publican noticias en varios idiomas, detectamos el idioma del documento utilizando LangId2. Esta identificación es necesaria para poder determinar posteriormente el sentido en el que será traducido el vector generado. 3 aportaría más que ruido para el caso que nos ocupa: modelar el contenido semántico. Así, se han seleccionado nombres comunes, entidades y términos multipalabra. El caso de los adjetivos y verbos no es claro (Chen y Hsi, 2002), y en nuestro caso su ausencia se debe fundamentalmente a que, al estar poco representados en los diccionarios técnicos bilingües, su traducción resultaba limitada. De todas formas, realizamos una serie de experimentos (no concluyentes) que apuntaban a que la no inclusión de verbos y adjetivos implicaba una casi nula mejora en la detección de documentos similares. Los términos multipalabra en todos los idiomas a tratar (euskera, inglés y castellano) se han identificado a partir de una lista de términos (Euskalterm3, ZT hiztegia4) sobre el texto lematizado. Hemos descartado utilizar técnicas de detección automática de terminología para evitar la generación de ruido y también simplificar la posterior traducción mediante diccionarios. Para el caso de la identificación de entidades hemos utilizado un heurístico sencillo pero a la vez eficiente en cuanto a la precisión u omisión de ruido. Concretamente se han marcado como entidades las series de palabras escritas en mayúscula y que, o son palabras desconocidas, o aparecen en un repertorio de entidades monopalabra previamente elaborado. Para calcular la relevancia de cada palabra clave se ha experimentado con distintas variantes de tf-idf. Según nuestros experimentos aplicando el logaritmo a tf (1) Representación de los documentos multilingües En este trabajo se ha experimentado únicamente con el modelo de espacio vectorial. Pese ha existir modelos más avanzados (Ponte y Croft, 1998), hemos considerado que trabajar con este modelo nos proporcionará un robusto prototipo que podrá ser mejorado en el futuro. Para la construcción de los vectores, hemos partido de los documentos en formato texto que en el sistema son suministrados según el método explicado en el punto 2.1. Como primer paso se ha realizado una selección del léxico representativo según criterios lingüísticos. Para ello, previamente se ha etiquetado automáticamente cada texto. El etiquetado POS y lematizado se ha llevado a cabo con las herramientas Eustagger para el caso del euskera, y Freeling para el caso del castellano e inglés. A partir del texto lematizado se han podido identificar determinadas unidades léxicas que hemos estimado como más representativas del contenido, descartando el léxico que no tf-idf= log(tf) · idf (1) hemos obtenido mejores resultados, ya que se ha observado que la similitud entre 3 Diccionario terminológico que contiene al rededor de 100.000 fichas terminológicas en euskera con equivalencias en español, francés, inglés y latín. 4 Diccionario enciclopédico de ciencia y tecnología que consta aproximadamente de 15.000 entradas en euskera con equivalencias en español, francés, inglés. 2 Un identificador de idioma basado en palabras y frecuencias de trigramas desarrollado por el grupo IXA de la UPV/EHU. 73 Xabier Saralegi y Iñaki Alegria tratar “query expansión” en un entorno monolingüe, ponderan según una estrategia prudente las posibles traducciones de cada palabra penalizando el peso tf-idf de todas si el valor df de alguna de ellas es alto. Un tipo de traducción basada en corpus es la guiada por modelos estadísticos (Hiemstra, 2001). La traducción de los vectores se lleva a cabo mediante el uso de un modelo de traducción -entrenado a partir de un corpus bilingüe en los idiomas a tratar-. De esta forma, se obtiene la traducción del vector más probable según el modelo de traducción y el modelo de lenguaje del idioma objetivo. De todas formas, tanto la cobertura como la precisión de las técnicas mencionadas no son óptimas. Esto hace que en el proceso de traducción se pierda información -o se introduzca ruido-, de forma que la representación siempre vaya a ser inferior al original. Con el objetivo de reforzar la representación se pueden utilizar técnicas de “query expansion”, de manera que se añadan nuevas palabras clave relacionadas semánticamente con el conjunto de términos del vector. Otras técnicas que no necesitan de traducción por ser independientes del lenguaje, y que resultan apropiadas cuando los pares de idiomas a tratar son muy numerosos, son todas aquellas en las que la selección de palabras clave del documento se realice mediante lexicones o tesauros multilingües tales como WordNet o Eurovoc. En (Steinberger, Pouliquen y Hagman, 2002) por ejemplo, se asignan descriptores independientes del idiomas del tesauro Eurovoc a cada vector mediante un modelo estadístico entrenado mediante aprendizaje supervisado. WordNet, por ejemplo, es utilizado en (Stokes y Carthy, 2001) para representar los documentos mediante cadenas léxicas. documentos con muy pocas claves (con valores tf-idf altos) en común obtenía puntuaciones demasiado altas, generando en muchos casos similitudes imprecisas (falsos positivos). 4 4.1 Similitud multilingüe Medidas de similitud Para el cálculo de la similitud entre documentos representados según el modelo espacio vectorial existen distintas métricas. La más extendida es el coseno. Otras métricas también utilizadas son Jackar, Dice... En el modelo OKAPI se toma en consideración el tamaño del documento y la colección proporcionando mejores resultados. (Robertson et al., 1994) Las métricas mencionadas son aplicables directamente a vectores que representan textos de un mismo idioma pero, para el caso de vectores que corresponden a distintos idiomas, es necesario realizar previamente un proceso de traducción. Para llevar a cabo esa tarea dos son las principales estrategias que se proponen en la literatura: traducción del vector mediante un modelo estadístico entrenado a partir de un corpus bilingüe (Hiemstra, 2001) (basada en corpus), o traducción del vector mediante diccionarios bilingües (Pirkola, 1998) (basada en diccionarios). En la traducción mediante diccionarios la traducción obtenida puede resultar muy ruidosa ya que la traducción de una palabra resulta ambigua en muchos casos. En tal caso, si aceptamos todas las traducciones posibles y calculamos su tf-idf según la frecuencia de la palabra original, podemos introducir traducciones erróneas que desdibujan la representación del documento original. Esto resulta realmente peligroso ya que las traducciones extrañas, al tener un alto idf, pueden fácilmente distorsionar la representación del vector, y en consecuencia el cálculo de similitudes. Como posible solución se plantean las “consultas estructuradas” (Pirkola, 1998). Originalmente pensadas para 74 Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web 4.2 léxico especializado. Parece, por tanto, que el uso de diccionarios técnicos es una estrategia apropiada. Más aún si también tenemos en cuenta su menor grado de ambigüedad medio en las traducciones de las palabras clave (tabla 2). Diccionarios Para el caso de vectores en distintos idiomas hemos seguido una traducción mediante diccionarios bilingües. Debido al carácter científico de los documentos -es decir, un dominio amplio pero acotado- hemos estimado apropiado el uso de recursos lingüísticos específicos (Rogati y Yang, 2004). Hemos combinado diccionarios técnicos (Euskalterm, ZT hiztegia) con diccionarios generales (Elhuyar5, Morris6). No hemos hecho una traducción estadística basada en corpus paralelos por falta de recursos. No disponemos ni de corpus bilingües de carácter científico para todos los pares de lenguas, ni de un alineador a nivel de palabra de precisión notable. tf-idf en medio es Dic. técnicos Dic. generales 4.483 4.229 5.036 4.871 # traduc. palabra Dic. técnicos Dic. generales en->eu 1.72 2.827 es->eu 1.805 4.243 Tabla 2: Ambigüedad media en traducciones De todas formas, hemos observado que la cobertura respecto al léxico total podía tener una incidencia negativa en la representación de los textos, ya que algunas palabras generales pueden jugar un papel representativo en los documentos. Adicionalmente, la inclusión exclusiva de palabras técnicas también desfiguraba la dimensión del vector, debido a que las demás palabras del documento no estaban en modo alguno representadas. Decidimos combinar de manera secuencial los diccionarios técnicos con diccionarios de carácter general. En la tabla 3 se puede observar las coberturas para las palabras clave (agrupadas en lemas) de una colección (tabla 4) obtenidas con las distintas combinaciones de diccionarios. Tabla 1: tf-idf medio arit. para palabras clave Mediante el uso de diccionarios técnicos hemos logrado obtener un alto grado de cobertura del léxico especializado. Justamente el léxico que puede ser más representativo del tema del documento. El la tabla 1 se muestra los valores tf-idf de las palabras clave en inglés con traducción en los diccionarios técnicos frente a los tf-idf de las palabras clave con traducciones contenidas en los diccionarios generales. Las palabras clave se han agrupado por lemas y provienen de una colección de documentos reales (tabla 4). Se observa que, según el valor medio aritmético tf-idf, el grado de representatividad es ligeramente mayor en el diccion. técnicos diccion. general diccion. técnico + general en 55,52% 61,65% 74,48% es 77,12% 89,02% 91,57% Tabla 3: Cobertura para las palabras clave 5 Diccionario castellano/vasco que consta de 88.000 entradas, 144.000 acepciones y 19.000 subentradas. 6 Diccionario inglés/vasco que consta de 67.000 entradas y 120.000 acepciones. 75 Xabier Saralegi y Iñaki Alegria 4.3 5 Traducciones ambiguas Como hemos comentado antes, la traducción por medio de diccionarios conlleva una posible ambigüedad que redunda en traducciones incorrectas que desfiguran el vector traducido. El uso de diccionarios técnicos reduce en cierta medida este problema, ya que el nivel de polisemia y ambigüedad en la traducción es menor (tabla 2). Aun así, el ruido generado sigue siendo un problema como hemos comentado antes. Frente a ello, y teniendo como prioridad la precisión de los resultados del sistema final, planteamos una sencilla estrategia de selección de traducción. La selección se aplica cada vez que se calcula la similitud (coseno) entre dos vectores ). Basándonos en de distintos idiomas ( v y w la hipótesis de que la probabilidad de que muchas traducciones ( i , j D ) incorrectas ocurran en el otro vector es baja, resolvemos la desambiguación eligiendo para cada traducción ambigua aquella que esté presente en el otro vector: cos v , tr(w) i , j D v i w j v w Evaluación En la evaluación hemos querido analizar únicamente los resultados obtenidos en el sistema final. Debido a la dificultad de calcular la cobertura y, siendo la precisión el principal requisito del sistema, hemos evaluado únicamente esta última. Concretamente, hemos calculado la precisión analizando por cada documento de la colección sus cuatro primeros semejantes según el sistema (cutoff). La colección base de noticias se ha obtenido y procesado mediante los procesos explicados en los anteriores apartados. Consta de todos los artículos publicados hasta la fecha en Zientzia.net, y de artículos publicados en los otros sitios web durante un periodo de un mes (tabla 4). Aunque la idea del sistema es mostrar los semejantes a partir de la navegación de los documentos en euskera, la evaluación se ha hecho en sentido inverso debido a la superioridad numérica del los artículos de Zientzia.net. De la otra forma, la probabilidad de encontrar semejantes se reduciría notablemente. (2) Así, evitamos el ruido que generaría la inclusión de las traducciones incorrectas. Frente al caso de utilizar técnicas de ponderación equitativa de las traducciones, nuestra técnica también se debe mostrar más efectiva en cuanto a la precisión final, ya que el posible ruido afectará solamente a parejas de documentos con baja semejanza mutua. Como hemos dicho anteriormente, suponemos que la probabilidad de que muchas traducciones incorrectas concurran en el otro vector es baja. En el sistema, el cálculo de similitudes entre documentos se realiza cada vez que el robot recoge una nueva colección de noticias. Se calculan las distancias entre los documentos recientemente recogidos y los documentos de Zientzia.net tanto nuevos como previamente almacenados. # docs # palabras # palab/doc es 108 71.366 661 eu 3146 1.249.255 397 en 550 284.317 517 Tabla 4: Colección de noticias procesada Para la evaluación formamos 3 grupos (uno para cada idioma) de 10 documentos escogidos aleatoriamente de la colección base. Tras procesar toda la colección mediante el sistema analizamos por cada documento los 4 primeros más semejantes (de entre los de Zientzia.net) según el sistema. El método de análisis propuesto consistió en valorar el grado de semejanza del contenido en base a una escala de relevancia dividida en cuatro categorías y 76 Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web basada en el esquema utilizado en (Braschler y Schäuble, 1998). (a) Comparten el tema principal: Los documentos hablan sobre el mismo tema. (b) Tema principal relacionado o comparten temas: Los documentos tratan de temas muy relacionados o mantienen en común temas no principales. (c) Comparten área: Los documentos pertenecen ha una determinada área sin llegar a ser general. (d) Parecido remoto: Las relaciones entre los documentos son remotas o inexistentes. De esta forma, se pretende valorar como más positivas las relaciones de gran parecido. Sabemos que esta escala es discutible, ya que de cara al usuario puede ser más útil una referencia que complemente el artículo en curso que un artículo sobre el mismo tema. Además, asignar a cada documento una categoría de esta escala resulta en muchos casos una tarea de difícil precisión. El análisis fue llevado a cabo por un profesional en el campo de la divulgación científica, y se hizo para dos prototipos distintos: 1) distribuyendo equitativamente el peso entre las traducciones . 2) aplicando la desambiguación propuesta anteriormente. Quisimos comprobar si el método diseñado para resolver casos de traducción ambiguos mejoraba la precisión del sistema. En las tablas 5, 6 y 7 se muestran las distintas precisiones (cutoff 4) acumulando las categorías según la escala de relevancia comentada. Se observa que los resultados varían según el idioma, siendo evidente la perdida de información tras la traducción. Este hecho influye en mayor medida a las relaciones inglés-euskera debido a la menor cobertura de los diccionarios bilingües inglés-euskera. (a) (a+b) (a+b+c) Desam. 10% 37.5% 82.5% No desam. 10% 30% 70% Tabla 5: Cutoff 4 en-es (a) (a+b) (a+b+c) Desam. 30% 37.5% 60% No desam. 25% 32.5% 60% Tabla 6: Cutoff 4 es-eu (a) (a+b) 17.5% 57.5% (a+b+c) 85% Tabla 7: Cutoff 4 eu-eu Se ha observado que, quizás debido al pequeño tamaño de la colección, documentos con pocas palabras clave compartidos han sido aceptados como similares. En cualquier caso, el método diseñado para resolver traducciones ambiguas mejora la precisión en todas las pruebas. Relacionado con el tamaño y la variedad del contenido se ha observado que la precisión del sistema es menor frente a documentos de algún tema muy especial, resultando la comparación léxica insuficiente. Esto puede ser debido al reducido número de documentos, pero no ha podido ser evaluado al no tener constancia de la cobertura. 6 Conclusiones y trabajo futuro Se ha desarrollado un sistema para la agrupación de documentos multilingües de contenido similar con el objetivo de integrarlo en un un sistema CLIR. Esto ha dado lugar a un sistema de navegación de noticias científicotécnicas multilingües, implantado en el sitio Zientzia.net. 77 Xabier Saralegi y Iñaki Alegria Los resultados obtenidos nos deben llevar a realizar una evaluación más exhaustiva. Independientemente de esto, se ha comprobado que la traducción mediante diccionarios resulta positiva, más concretamente con el uso los diccionarios técnicos. El uso del método de desambiguación propuesto también ha sido exitoso, pero una nueva evaluación es necesaria para cuantificar mejor la mejora conseguida. Sería muy interesante evaluar la perdida de precisión usando solamente resúmenes RSS, ya que consiguiendo un buen resultado estas técnicas podrían ser usadas para gran cantidad de fuentes sin necesidad de utilizar wrappers. También se pretende realizar nuevos experimentos con modelos de lenguaje, preguntas estructuradas y distintas medidas de similitud. Adicionalmente queremos mejorar la traducción de entidades mediante detección de cognados, y la traducción general mediante generación de tesauros multilingües a partir de corpus comparables. De cara a algunas de estas tareas pensamos basar el motor de búsqueda en la herramienta Lemur toolkit (Ogilvie y Calla, 2001). Lee, C. H., M. Kan, y S. Lai. 2004. Stylistic and lexical co-training for web block classification. WIDM 2004. 136-143 Ogilvie, P., y J. Callan. 2001. Experiments using the Lemur toolkit. Proceedings of the Tenth Text Retrieval Conference (TREC10). Pirkola, A. 1998. The Effects of Query Structure and Dictionary setups in DictionaryBased Cross-language Information Retrieval. Proce. of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 55-63. Ponte, J., y W. Croft. 1998. A Language Modeling Approach to Information Retrieval. In: Croft et al. (ed.): Proceedings of the 21st Annual Interna- tional ACM SIGIR Conference on Research and Development in Information Retrieval, pages 275{281. ACM, New York. Robertson, S. E., S. Walker, S. Jones, M. Hancock-Beaulieu, M. Gatford. 1994. Okapi at TREC-3. NIST Text Retrieval Conference. Rogati, M., y Y. Yang. 2004. Resource Selection for Domain Specific CrossLingual IR. SIGIR 2004. Agradecimientos Este trabajo está subvencionado por el Departamento de Industria del Gobierno Vasco (proyectos Dokusare SA2005/00272, Dokusare SA-2006/00167). Bibliografía Steinberger, R., B. Pouliquen, y J. Hagman. 2002. Cross-lingual Document Similarity Calculation Using the Multilingual Thesaurus EUROVOC. Third International Conference on Intelligent Text. Braschler, M., y P. Schäuble. 1998. Multilingual Information Retrieval Based on Document Alignment Techniques , ECDL 1998, pp. 183-197. Steinberger, R., B. Pouliquen, y C. Ignat. 2005. NewsExplorer: multilingual news analysis with cross-lingual linking. Information Technology Interfaces. Chen, Y., y H. Hsi. 2002. NLP and IR approaches to monolingual and multilingual link detection. The 19th Int'l Conf. Computational Linguistics. Taipei, Taiwan. Stokes, N., y J. Carthy. 2001. Combining Semantic and Syntactic Document Classifiers to Improve First Story Detection. SIGIR 2001: 424-425. Hiemstra, D. Using language models for information retrieval. Ph.D. Thesis University of Twente. Enschede. 78 Extracción de Información Procesamiento del Lenguaje Natural, nº39 (2007), pp. 81-88 recibido 18-05-2007; aceptado 22-06-2007 The Influence of Context during the Categorization and Discrimination of Spanish and Portuguese Person Names Zornitsa Kozareva, Sonia Vázquez and Andrés Montoyo Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante zkozareva,svazquez,montoyo@dlsi.ua.es Resumen: Este artı́culo presenta un nuevo método para la categorización y la discriminación de nombres propios utilizando como fuente de información la similitud semántica. Para establecer las relaciones semánticas entre las palabras que forman el contexto donde aparece la entidad que queremos categorizar o discriminar, nuestro método utiliza la semántica latente. Se han realizado diferentes experimentos donde se ha estudiado la influencia del contexto y la robustez de nuestra aproximación sobre distintos números de ejemplos. La evaluación se ha realizado sobre textos en español y portugués. Los resultados obteniendos son 90 % para español y 82 % para portugués en categorización y un 80 % para español y un 65 % para portugués en discriminación. Palabras clave: discriminación de nombres, categorización de nombres, información semántica Abstract: This paper presents a method for fine-grained categorization and discrimination of person names on the basis of the semantic similarity information. We employ latent semantic analysis which establishes the semantic relations between the words of the context in which the named entities appear. We carry out several experimental studies in which we observe the influence of the context and the robustness of our approach with different number of examples. Our approach is evaluated with Spanish and Portuguese. The experimental results are encouraging, reaching 90 % for the Spanish and 82 % for the Portuguese person name categorization, and 80 % for the Spanish and 65 % for the Portuguese NE discrimination of six conflated names. Keywords: name discrimination, name categorization, semantic information 1. Introduction and Related Work Named Entity (NE) recognition concerns the detection and classification of names into a set of categories. Presently, most of the successful NE approaches employ machine learning techniques and handle simply the person, organization, location and miscellaneous categories. However, the need of the current Natural Language Applications impedes specialized NE extractors which can help for instance an information retrieval system to determine that a query about “Jim Henriques guitars” is related to the person “Jim Henriques” with the semantic category musician, and not “Jim Henriques” the composer. Such classification can aid the system to rank or return relevant answers in a more accurate and appropriate way. So far, the state-of-art NE recognizers ISSN: 1135-5948 identify that “Jim Henriques” is a person, but do not subcategorize it. There are numerous of drawbacks related to this fine-grained NE issue. First, the systems need hand annotated data which is not available and its creation is time-consuming and requires supervision by experts. Second, for languages other than English there is a significant lack of freely available or developed resources. The World Wide Web is a vast, multilingual source of unstructured information which we consult daily to understand what the weather in our city is, how our favorite soccer team performed. Therefore, the need of multilingual and specialized NE extractors remains and we have to focus toward the development of language independent approaches. Together with the specialized NE catego- © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo but still suffers in coverage. However, none of these approaches studied the text cohesion and semantic similarity between snippets with named entities. Therefore, we employ Latent Semantic Analysis (LSA) which allows us to establish the semantic relations among the words that surround the named entity. Our motivation is based on the words sense discrimination hypothesis of (Miller y Charles, 1991) according to which words with similar meaning are used in similar context. For instance, names that belong to the category sport will be more likely to appear with words such as championship, ball, team, meanwhile names of university students or professors will be more likely to appear with words such as book, library, homework. rization, we face the problem of name ambiguity which is related to queries for different people, locations or companies that share the same name. This problem is known as name discrimination (Ted Pedersen y Kulkarni, 2005). For instance, Cambridge is a city in United Kingdom, but also in the United States of America. ACL refers to “The Association of Computational Linguistics”, “The Association of Christian Librarians”, “Automotive Components Limited” among others. Previously, (Ted Pedersen y Kulkarni, 2005) tackled the name discrimination task by developing a language independent approach based on the context in which the ambiguous name occurred. They construct second order co-occurrence features according to which the entities are clustered and associated to different underlying names. The performance of this method ranges from 51 % to 73 % depending on the pair of named entities that have to be disambiguated. Similar approach was developed by (Bagga y Baldwin, 1998), who created first order context vectors that represent the instance in which the ambiguous name occurs. Their approach is evaluated on 35 different mentions of John Smith, and the f-score is 84 %. For fine-grained person NE categorization, (Fleischman y Hovy, 2002) carried out a supervised learning for which they deduced features from the local context in which the entity resides, as well as semantic information derived from WordNet. According to their results, to improve the 70 % coverage for person name categorization, more sophisticated features are needed, together with a more solid data generation procedure. (Tanev y Magnini, 2006) classified geographic location and person names into several subclasses. They use syntactic information and observed how often a syntactic pattern cooccurs with certain member of a given class. Their method reaches 65 % accuracy. (Pasca, 2004) presented a lightly supervised lexicosyntactic method for named entity categorization which reaches 76 % when evaluated with unstructured text of Web documents. (Mann, 2002) populated a fine-grained proper noun ontology using common noun patters and following the hierarchy of WordNet. They studied the influence of the newly generated person ontology in a Question Answering system. According to the obtained results, the precision of the ontology is high, 2. NE categorization and discrimination with Latent Semantic Analysis LSA has been applied successfully in many areas of Natural Language Processing such as Information Retrieval (Scott Deerwester y Harshman, 1990), Information Filtering (Dumais, 1995) , Word Sense Disambiguation (Shütze, 1998) among others. This is possible because LSA is a fully automatic mathematical/statistical technique for extracting and inferring relations of expected contextual usage of words in discourse. It uses no humanly constructed dictionaries or knowledge bases, semantic networks, syntactic or morphological analyzes, because it takes only as input raw text which is parsed into words and is separated into meaningful passages. On the basis of this information, the NLP applications extract a list of semantically related word pairs or rank documents related to the same topic. LSA represents explicitly terms and documents in a rich, high dimensional space, allowing the underlying “latent”, semantic relationships between terms and documents to be exploited. LSA relies on the constituent terms of a document to suggest the document’s semantic content. However, the LSA model views the terms in a document as somewhat unreliable indicators of the concepts contained in the document. It assumes that the variability of word choice partially obscures the semantic structure of the document. By reducing the dimensionality of the term-document space, the underlying, se82 The Influence of Context during the Categorization and Discrimination of Spanish and Portuguese Person Names 127079110 tokens. The Portuguese corpora are Folha94-95 and Publico94-95, containing 90809250 tokens. These corpora were previously used in the CLEF competitions1 . For the NE categorization and discrimination experiments, we used six different low ambiguous named entities, which we assume a-priory to belong to one of the two finegrained NE categories PERSON SINGER and PERSON PRESIDENT. The president names, both for Spanish and Portuguese are Bill Clinton, George Bush and Fidel Castro. The singers for Spanish are Madonna, Julio Iglesias and Enrique Iglesias, while for Portuguese we have Michael Jackson, Madonna and Pedro Abrunhosa. Although we wanted to use the same singer names for both languages, it was impossible due to the scatteredness in the example distribution. Table 1 shows the original distribution of the extracted examples with different context windows that surround the named entity. The context windows we worked with are 10, 25, 50 and 100. They indicate the number of words2 from the left and from the right of the identified named entity. Note, that the NE data is obtained only from the content between the text tags in the xml documents. During the creation of the context windows, we used words that belong to the document in which the NE is detected. This restriction is imposed, because if we use words from previous or following documents, the domain and the topic in which the NE is seen can change. Therefore, NE examples for which the number of words from the left or from the right did not correspond to the number of context words were directly discarded. To avoid imbalance in the experimental data during the evaluation, we decided to create two samples, one with 100 and another with 200 examples per named entity. Thus, every name will have the same frequency of occurrence and there will be no dominance during the identification of a given name. For the NE categorization data, each occurrence of the president and singer names is replaced with the obfuscated form President Singer, while for the NE discrimination task, the names where replaces with M EI JI BC GB FC. The first label indicates that a given sentence can belong to the president or to the singer category, while the sec- mantic relationships between documents are revealed, and much of the “noise” (differences in word usage, terms that do not help distinguish documents, etc.) is eliminated. LSA statistically analyzes the patterns of word usage across the entire document collection, placing documents with similar word usage patterns near to each other in the termdocument space, and allowing semanticallyrelated documents to be closer even though they may not share terms. Taking into consideration these properties of LSA, we thought that instead of constructing the traditional term-document matrix, we can construct a term-sentence matrix with which we can find a set of sentences that are semantically related and talk about the same person. The rows of the term-sentence matrix correspond to the words of the sentences in which the NE have to be categorized or discriminated, while the columns correspond to sentences with different named entities. The cells of the matrix show the number of times a given word occurs in a given sentence. When two columns of the term-sentence matrix are similar, this means that the two sentences contain similar words and are therefore likely to be semantically related. When two rows are similar, then the corresponding words occur in most of the same sentences and are likely to be semantically related. In this way, we can obtain semantic evidence about the words which characterize given person. For instance, a football player is related to words as ball, match, soccer, goal, and is seen in phrases such as “X scores a goal”, “Y is penalized ”. Meanwhile, a surgeon is related to words as hospital, patient, operation, surgery and is seen in phrases such as “X operates Y ”, “X transplants”. Evidently, the category football player can be distinguished easily from that of the surgeon, because both person name categories co-occur and relate semantically to different words. 3. Named Entity Data Set In order to evaluate our method, we have used two languages: Spanish and Portuguese. We collected large news corpora from the same time period for both languages and identified a predefined set of named entities on the basis of machine-learning based named entity recognizer (Zornitsa Kozareva y Gómez, 2007). The Spanish corpus we worked with is EFE94-95, containing 1 2 83 http://www.clef-campaign.org/ 10, 25, 50 and 100 respectively Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo name lang ES M PT JI ES EI ES MJ PT PA PT ES BC PT ES GB PT ES FC PT c10 280 1008 426 407 592 364 6928 3055 730 307 2865 3050 c25 266 975 405 392 568 347 5970 2951 649 300 2765 2951 c50 245 893 367 360 506 320 5271 2786 641 283 2779 2777 c100 206 758 295 305 418 275 5185 2576 521 242 2357 2460 Accuracy = Fβ=1 = ond label indicates that behind it can stand one of the six named entities. The NE categorization and discrimination experiments are carried out in a completely unsupervised way, meaning that we did not use the correct name and named category until the evaluation stage. Experimental Evaluation To carry out the various experimental evaluations, first we construct the conceptual matrix and establish the semantic similarity relations among the sentences in the data set. For each sentence, LSA produces a list of the similarity between all sentences and the target one e.g. the sentence to be classified. The list is ordered in descending order, where high probability values indicate strong similarity and cohesion between the text of the two sentences and vice versa. Therefore, we consider only the top twenty high-scoring sentences, since their NEs will be very likely to belong to the same fine-grained category or person. In order to evaluate the performance of our approach, we use the standard precision, recall, f-score and accuracy measures which can be derived from Table 2. number of assigned PRES. assigned SING. Correct PRES. Correct SING. a c b d 2 × P recision × Recall P recision + Recall (1) (2) For the assignment of the president and singer categories, we took LSA’s list and grouped together in a cluster all sentences from the 20 most similar ones. In contrast, for the NE discrimination task, we did not use the whole list of returned sentences, since we were interested in concrete NE with identical features and characteristics. For this reason, we decided that the most relevant information is contained in the first sentences at the top of LSA’s list and rejected the rest of the candidates. The information about the named category or class was not revealed and used until evaluation. Our experiments are ordered according to the conducted observations. The first one concerns the effect of the context for the NE categorization. This information is very important and beneficial, when annotated corpus has to be created. In this way we can save time and labor for human annotators, or can ease the supervision process after active learning or bootstrapping (Kozareva, 2006). Then, we observe the NE fine-grained classification and discrimination. Table 1: NE distribution in the Spanish and Portuguese corpora 4. a+d a+b+c+d 4.1. Influence of context Figures 1 and 2 present the performance of our approach with different context windows. The evaluation is carried out with 100 and 200 examples per NE. For both samples and both languages (Spanish and Portuguese), the context windows perform almost the same. This shows that on average with 2-3 sentences the context in which the name resides can be captured together with the particular words that characterize and co-occurring with the name. 4.2. NE categorization In Table 3, we show the results for the Spanish and Portuguese NE fine-grained categorization. The detailed results are only for the window of 50 words with 100 and 200 examples. All runs, outperform a simple baseline system which returns for half of the examples the fine-grained category PRESIDENT and for the rest SINGER. This 50 % baseline Table 2: Contingency table 84 The Influence of Context during the Categorization and Discrimination of Spanish and Portuguese Person Names out that the PERSON PRESIDENT and PERSON SINGER categories are distinguishable and separable because of the well-established semantic similarity relation among the words with which the NE co-occurres. A pair of president sentences has lots of strongly related words such as president:meeting, president:government, which indicates high text cohesion. While the majority of words in a president– singer pair are weakly related, for instance president:famous, president:concert. But still there are ambiguous pairs as president:company, where the president relates to a president of a country, while the company refers to a musical enterprize. Such information confuses LSA’s categorization process. Figure 1: Influence of context for Portuguese and Spanish with 100 examples 4.3. In a continuation, we present in Table 4 the performance of LSA for the NE discrimination task. The results show that this semantic similarity method we employ is very reliable and suitable not only for the NE categorization, but also for the NE discrimination. A baseline which always returns one and the same person name during the NE discrimination task is 17 %. From the table can be seen that all names outperform the baseline. The f-score per individual name ranges from 32 % as the lowest to 90 % as the highest performance. The results are very good, as the conflated names (three presidents and three singers) can be easily obfuscated due to the fact that they share the same domain and co-occur with the same semantically related words. The three best discriminated names for Spanish are Enrique Iglesias, Fidel Castro and Madonna, while for Portuguese we have Fidel Castro, Bill Clinton and Pedro Abrunhosa. For both languages, the name Fidel Castro was easily discriminated due to its characterizing words Cuba, CIA, Cuban president, revolution, tyrant. All sentences having these words or synonyms related to them are associated to Fidel Castro. Bill Clinton co-occurred many times with the words democracy, Boris Yeltsin, Halifax, Chelsea (the daughter of Bill Clinton), White House, while George Bush appeared with republican, Ronald Reigan, Pentagon, war in Vietnam, Barbara Bush (the wife of George Bush). Some of the examples for Enrique Igle- Figure 2: Influence of context for Portuguese and Spanish with 200 examples performance is due to the balanced corpus we have created. The f-scores for the fine-grained NE categorization in Spanish reach around 90 %, while for Portuguese the f-scored varies around 92 % for the 100 examples, and 76 % for the 200 examples. SPANISH cont/ex Cat. PRES. 50/100 SING. PRES. 50/200 SING. P. 90.38 87.94 90.10 94.04 R. 87.67 90.00 94.33 89.50 A. 88.83 88.33 91.92 91.91 F. 89.00 88.96 92.18 91.71 PORTUGUESE cont/ex Cat. PRES. 50/100 SING. PRES. 50/200 SING. P. 93.56 92.07 96.58 69.22 R. 92.00 56.50 56.50 97.83 A. 92.50 77.17 77.17 77.16 F. 92.53 71.29 71.29 81.07 NE discrimination Table 3: NE categorization in Spanish and Portuguese During the error analysis, we found 85 Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo name lang SP Madonna PT Julio Iglesias SP Enrique SP Iglesias Pedro PT Abrunhosa Michael PT Jackson Bill Clinton SP PT George Bush SP PT Fidel Castro SP PT 10 63.63 59.05 58.96 77.27 25 61.61 47.37 56.68 80.17 50 63.16 46.15 66.00 84.36 51.26 61.97 69.63 80.17 32.15 62.64 48.45 62.07 52.72 60.41 49.45 63.83 61.20 60.64 48.81 73.51 41.38 34.07 62.44 79.79 73.91 62.38 67.90 66.67 82.41 68.26 74.74 64.04 60.20 68.16 77.08 71.61 of the data source we work with. As there is no hand-annotated NE categorization and discrimination corpora, we had to develop our own corpus by choosing low ambiguous and well known named entities. Even though, during our experiments we found out that one and the same name refers to three different individuals. From one side this made it difficult for the categorization and discrimination processes, but opens new line for research. In conclusion, the conducted experiments revealed a series of important observations. The first one is that the different context windows perform the same. However, for Spanish better classification is obtained with larger contexts, because this is related to the expressiveness of the Spanish language. Second, we can claim that LSA is a very appropriate approximation for the resolution of the NE categorization and discrimination tasks. Apart it gives logical explanation about the classification decision of the person names giving a set of words characterizing the individual persons or their fine-grained categories. 100 79.45 55.29 79.19 90.54 Table 4: NE discrimination for Spanish and Portuguese sias which during the data compiling were assumed as the Spanish singer, in reality talk about the president of a financial company in Uruguay or political issues. Therefore, this name was confused with Bill Clinton as they share semantically related words such as bank, general secretary, meeting, decision, appointment. The discrimination process was good though Madonna and Julio Iglesias are singers and appear in the context of concerts, famous, artist, magazine, scene, backstage. The characterizing words for Julio Iglesias are Chabeli(the daughter of Julio Iglesias), Spanish, Madrid, Iberoamerican. The name Madonna co-occurred with words related to a picture of Madonna, a statue in a church of Madonna, the movie Evita. Looking at the effect of the context window for the NE discrimination task, it can be seen that for Spanish the best performances of 90 % for Enrique Iglesias, 82 % for Fidel Castro and 79 % for Madonna are achieved with 100 words from the left and from the right of the NE. In comparison for the Portuguese data, the highest coverage of 80 % for Fidel Castro, 73 % for Bill Clinton and 62 % for Michael Jackson are reached with the 25 word window. For the Spanish data, the larger context had better discrimination power, while for Portuguese the more local context was better. The error analysis shows that the performance of our method depends on the quality 5. Conclusions and Work in Progress In this paper, we present an approach for NE categorization and discrimination, which is based on semantic similarity information derived from LSA. The approach is evaluated with six different low ambiguous person names, and around 3600 different examples for the Spanish and Portuguese languages. The obtained results are very good and outperform with 15 % the already developed approximations. For the president and singer NE categorization, LSA obtains 90 %, while for the NE discrimination, the results vary from 46 % to 90 % depending on the person name. The variability in the name discrimination power is related to the degree of the name ambiguity. During the experimental evaluation, we found out that the 100 % name purity (e.g. that one name belongs only to one and the same semantic category) which we accept during the data creation in reality contains from 5 to 9 % noise. In (Zornitsa Kozareva y Montoyo, 2007a), we have evaluated the performance of the same approach but for the Bulgarian language. This proves that the approach is language independent, because it only needs a set of context with ambiguous names. In this experimental study, we have focused not only 86 The Influence of Context during the Categorization and Discrimination of Spanish and Portuguese Person Names Kozareva, Zornitsa. 2006. Bootstrapping spanish named entities with automatically generated gazetteers. En Proceedings of EACL, páginas 17–25. on the multilingual issues but also on the discrimination and classification of names from the location and organization categories. The obtained results demonstrate that the best performance is obtained with the context of 50 words and the easiest category is the location one which includes cities, mountains, rivers and countries. In general, the most difficult classification was for the organization names. In additional experimental study of (Zornitsa Kozareva y Montoyo, 2007b), we have demonstrated that the combination of the name disambiguation and fine-grained categorization processes can improve the quality of the data needed for the evaluation of our approach. In the future, we want to resolve crosslanguage NE discrimination and classification. We are interested in extracting pairs of words that describe and represent the concept of a fine-grained category such as president or a singer and in this way identify new candidates for these categories. We will relate this process with an automatic population of an ontology. Finally, we want to relate this approach with our web people search approximation (Zornitsa Kozareva y Montoyo, 2007c) in order to improve the identification of the name ambiguity detection on the web. Mann, Gideon. 2002. Fine-grained proper noun ontologies for question answering. En COLING-02 on SEMANET, páginas 1–7. Miller, George y Walter Charles. 1991. Contextual correlates of semantic similarity. En Language and Cognitive Processes, páginas 1–28. Pasca, Marius. 2004. Acquisition of categorized named entities for web search. En CIKM ’04: Proceedings of the thirteenth ACM international conference on Information and knowledge management, páginas 137–145. Scott Deerwester, Susan Dumais, George Furnas Thomas Landauer y Richard Harshman. 1990. Indexing by latent semantic analysis. En Journal of the American Society for Information Science, volumen 41, páginas 391–407. Shütze, H. 1998. Automatic word sense discrimination. En Journal of computational linguistics, volumen 24. Acknowledgements Tanev, Hristo y Bernardo Magnini. 2006. Weakly supervised approaches for ontology population. En Proceeding of 11th Conference of the European Chapter of the Association for Computational Linguistics, páginas 17–24. This research has been funded by QALLME number FP6 IST-033860 and TEXT-MESS number TIN2006-15265-C0601. References Ted Pedersen, Amruta Purandare y Anagha Kulkarni. 2005. Name discrimination by clustering similar contexts. En CICLing, páginas 226–237. Bagga, Amit y Breck Baldwin. 1998. Entitybased cross-document coreferencing using the vector space model. En Proceedings of the Thirty-Sixth Annual Meeting of the ACL and Seventeenth International Conference on Computational Linguistics, páginas 79–85. Zornitsa Kozareva, Óscar Ferrández, Andrés Montoyo Rafael Muñoz Armando Suárez y Jaime Gómez. 2007. Combining data-driven systems for improving named entity recognition. Data Knowl. Eng., 61(3):449–466. Dumais, Susan. 1995. Using lsi for information filtering: Trec-3 experiments. En The Third Text Retrieval Conference (TREC3), páginas 219–230. Zornitsa Kozareva, Sonia Vazquez y Andres Montoyo. 2007a. A Language Independent Approach for Name Categorization and Discrimination. En Proceedings of the ACL 2007 Workshop on Balto-Slavonic Natural Language Processing. Fleischman, Michael y Eduard Hovy. 2002. Fine grained classification of named entities. En Proceedings of the 19th international conference on Computational linguistics, páginas 1–7. 87 Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo Zornitsa Kozareva, Sonia Vazquez y Andres Montoyo. 2007b. Discovering the Underlying Meanings and Categories of a Name through Domain and Semantic Information. En Proceedings of Recent Advances in Natural Language Processing. Zornitsa Kozareva, Sonia Vazquez y Andres Montoyo. 2007c. UA-ZSA: Web Page Clustering on the basis of Name Disambiguation. . En Proceedings of the 4th International Workshop on Semantic Evaluations. 88 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 89-96 recibido 17-05-2007; aceptado 22-06-2007 Studying CSSR Algorithm Applicability on NLP Tasks Muntsa Padró and Lluı́s Padró TALP Research Center Universitat Politècnica de Catalunya Barcelona, Spain {mpadro, padro}lsi.upc.edu Resumen: CSSR es un algoritmo de aprendizaje de automatas para representar los patrones de un proceso a partir de datos sequenciales. Este artı́culo estudia la aplicabilidad del CSSR al reconocimiento de sintagmas nominales. Estudiaremos la habilidad del CSSR para capturar los patrones que hay detrás de esta tarea y en que condiciones el algoritmo los aprende mejor. También presentaremos un método para aplicar los modelos obtenidos para realizar tareas de anotación de sintagmas nominales. Dados todos los resultados, discutiremos la aplicabilidad del CSSR a tareas de PLN. Palabras clave: Tareas seqüenciales de PLN, aprendizage de automatas, detección de sintagmas nominales Abstract: CSSR algorithm learns automata representing the patterns of a process from sequential data. This paper studies the applicability of CSSR to some Noun Phrase detection. The ability of the algorithm to capture the patterns behind this tasks and the conditions under which it performs better are studied. Also, an approach to use the acquired models to annotate new sentences is pointed out and, at the sight of all results, the applicability of CSSR to NLP tasks is discussed. Keywords: NLP sequential tasks, automata acquisition, Noun Phrase detection 1 Introduction Causal-State Splitting Reconstruction (CSSR) algorithm (Shalizi and Shalizi, 2004) builds deterministic automata from data sequences. This algorithm is based on Computational Mechanics and is conceived to model stationary processes by learning their causal states. These causal states build a minimum deterministic machine that models the process. Its main benefit is that it does not have a predefined structure (as HMMs do) and that if the pattern to learn is simple enough, the obtained automaton is “intelligible”, providing an explicit model for the training data. CSSR has been applied to different research areas such as solid state physics (Varn and Crutchfield, 2004) and anomaly detection in dynamical systems (Ray, 2004). These applications use CSSR to capture patterns representing obtained data. These patterns are then used for different purposes. This algorithm has been also used in the field of Natural Language Processing (NLP) to learn automata than can be afterwards used to tag new data (Padró and Padró, ISSN: 1135-5948 2005b; Padró and Padró, 2005a). This is a slightly different use, as it is necessary to introduce some hidden information into the automaton. Furthermore, the alphabets involved in NLP tasks tend to be bigger than the other CSSR applications presented. This is a handicap when using CSSR for NLP tasks, as we will discuss in this paper. Despite of that, the results obtained in first experiments show that this technique can provide state-of-the-art results in some NLP tasks. Given these results, the challenge is to improve them, developing systems rivalling best state-of-the-art systems. To do so, more information should be incorporated into the system but, as it will be discussed in this paper, this can lead to other problems given the nature of the algorithm. The aim of this work is to study the ability of CSSR to capture a model for the patterns underlying NLP sequences structure, as well as under which conditions it performs better. We focus on studying the models learned by CSSR in NP detection with different data rather than using CSSR to perform the annotating task, which was done in previous work. © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Muntsa Padró y Lluis Padró 2 Theoretical Foundations of CSSR alphabet symbol (a) at the beginning of each suffix. The future distribution for each son is computed and compared to the distribution of all other existing states. If the new distribution equals (with a certain confidence degree α) to the distribution of an existing state, the suffix son is added to this state. Otherwise, a new state for the suffix son is created. The suffix length l is increased by one at each iteration. This phase goes on until l reaches some fixed maximum value lmax , the maximum length to be considered for a suffix, which represents the longest histories taken into account. The results of the system will be significantly different depending on the chosen lmax value, since the larger this value is, the longer will be the pattern that CSSR will be able to capture, but also the more training data will be necessary to learn a correct automaton with statistical reliability. 3. Recursion: Since CSSR models stationary processes, first of all the transient states are removed. Then the states are splitted until a deterministic machine is reached. To do so, the transitions for each suffix in each state are computed and if two suffixes in one state have different transitions for the same symbol, they are splitted into two different states. The CSSR algorithm (Shalizi and Shalizi, 2004) inferres the causal states of a process from data in the form of Markov Models. Thus, the many desirable features of HMMs are secured, without having to make a priori assumptions about the architecture of the system. 2.1 Causal States Given a discrete alphabet Σ of size k, consider a sequence x− (history) and a random variable Z + for its possible future sequences. Z + can be observed after x− with a probability P (Z + |x− ). Two histories, x− and y − , are equivalent when P (Z + |x− ) = P (Z + |y − ), i.e. when they have the same probability distribution for the future. The different future distributions determine causal states of the process. Each causal state is a set of histories (suffixes of alphabet symbols up to a preestablished maximum length) with the same probability distribution for the future. Causal States machines have many desirable properties that make them the best possible representation of a process.They are minimal and have sufficient statistics to represent a process, this is, from causal states it is possible to determine the future for a given past. For that reason we are interested in using these kind of machines in NLP tasks. For more theoretical foundations about causal states and their properties see (Shalizi and Crutchfield, 2001). 2.2 The main parameter of this algorithm is the maximum length (lmax ) the suffixes can reach. That is, the maximum length of the considered histories. In terms of HMMs, lmax would be the potential maximum order of the model (the learned automaton would be an HMM of lmax order if all the suffixes belonged to different states). When using CSSR, it is necessary to reach a trade off between the amount of data (N ), the vocabulary size (k) and the used maximum length (lmax ). According to (Shalizi and Shalizi, 2004), the maximum length that can be used with statistical reliability is given by the ratio log N/ log k. The Algorithm The algorithm starts by assuming the process is an identically-distributed and independent sequence with a single causal state, and then iteratively adds new states when it is shown by statistical tests that the current states set is not sufficient. The causal state machine is built in three phases briefly described below. For more details on the algorithm, see (Shalizi and Shalizi, 2004). 1. Initialize: Set the machine to one state containing only the null suffix. Set l = 0 (length of the longest suffix so far). 2. Sufficiency: Iteratively build new states depending on the future probability distribution of each possible suffix extension. Suffix sons (ax) for each longest suffix (x) are created adding each 3 Chunking and NP Detection This work focus on studying CSSR behaviour when applied to NP detection. This section presents an overview on this task. 90 Studying CSSR Algorithm Applicability on NLP Tasks ciated to syntactic structure of the sentence, etc. Depending on which patterns need to be captured, different features of the words in the sentence should be highlighted. To use CSSR to learn these patterns, it is necessary to define an alphabet representing the desired features. These features may vary depending on which structures we are really interested in modelling. To learn NP patterns, the used features are the Part of Speech (PoS) tags of words as syntactic structure of sentences depends strongly on them. The data used for NP detection are extracted from the English WSJ corpus (Charniak, 2000). This is a corpus with full parsing information, with eleven different chunk types and a complete analysis of sentences. though in this work just NP chunks information will be used. The alphabet used to train CSSR consists of a symbol for each PoS tag used in the corpus. The total number of different tags is 44, but there are some PoS tags that never appear inside any NP, so these tags can be merged into one special symbol. With this reduction, the alphabet has 38 symbols. This training corpus has about 1.000.000 words which means that lmax < log N/log k = 3.8. To learn an automaton representing NP patterns it is necessary to distinguish the words belonging and not belonging to a NP, even if the PoS tag is the same. To do so each word belonging to a NP is represented by its PoS tag (a symbol of the alphabet) and the words not belonging to NP chunks are mapped into a special symbol. Figure 1 shows an example of how a sentence is translated into a sequence of alphabet symbols. Text Chunking consists of dividing sentences into non-recursive non-overlapping phrases (chunks) and of classifying them into a closed set of grammatical classes (Abney, 1991) such as noun phrase, verb phrase, etc. Each chunk contains a set of correlative words syntactically related. This task is usually seen as a previous step of full parsing, but for many NLP tasks, having the text correctly separated into chunks is preferred than having a full parsing, more likely to contain mistakes. In fact, sometimes the only information needed are the noun phrase (NP) chunks, or, at most, the NP and VP (verb phrase) chunks. For that reason, the first efforts devoted to Chunking were focused on NP-chunking (Church, 1988; Ramshaw and Marcus, 1995), others deal with NP, VP and PP (prepositional phrase) (Veenstra, 1999). In (Buchholz, Veenstra, and Daelemans, 1999) an approach to perform text Chunking for NP, VP, PP, ADJP (adjective phrases) and ADVP (adverbial phrases) using Memory-Based Learning is presented. As most NLP tasks, Chunking can be approached using hand-built grammars and finite state techniques or via statistical models and Machine Learning techniques. Some of these approaches are framed in the CoNLL2000 Shared Task (Tjong Kim Sang and Buchholz, 2000). As the aim of this work is to study the viability of applying CSSR to NLP tasks, specially studying the patterns that CSSR is able to learn, the performed experiments are focused on the task of detecting NPs, ignoring, for the moment, the other kind of chunks. 4 Ability of CSSR to Capture NP Models Word He succeeds Terrence Daniels , formerly a Grace chairman . This section presents the experiments performed using CSSR to capture the patterns that form language subsequences as NPs. The goal of these experiments is to see how able is this method to infer automata that capture phrase patterns, as well as to study the influence of different lmax and amount of training data on the learned automata. The patterns that may be found in a phrase, depend on the studied word features. For example, there are some orthographical patterns associated with punctuation marks (e.g. after a dot a capitalized word is expected), other more complex patterns asso- PoS Tag PRP VBZ NNP NNP , RB DT NNP NN . Chunk Type NP VP NP none ADVP NP none Symbol PRP Out NNP NNP Out Out DT NNP NN Out Figure 1: Example of a training sentence and its translation to the alphabet Sentences encoded in this way are the sequences used to train CSSR. The algorithm 91 Muntsa Padró y Lluis Padró may to learn an automaton representing NP chunks in terms of PoS tags. Different automata with lmax from 1 to 4 were learned, but the obtained automata are not readable, even when minimized 1 . The number of states of the minimized automata varies from 34 for lmax = 1 to 1, 767 for lmax = 4. Given the size of the obtained automata, even after minimization, it is not possible to qualitatively determine if the acquired automata appropriately models NP patterns, so another method to qualitatively evaluate how accurately the generated automaton represents the data was devised, as described in next section. 4.1 distance between two distributions. There are two main differences between the rules generated by the CSSR automaton and the rules acquired from corpus annotations. On the one hand, there are rules generated by CSSR automaton that are not present in the corpus. This is due to the fact that CSSR over-generalizes patterns from data. On the other hand, there are some differences in frequencies of common rules, partially due to the probability mass given to wrong rules. Both differences are captured by Jensen-Shannon divergence. The smaller this divergence is, the more similar to the original corpus grammar can the CSSR acquired automata be considered. The line labelled as “WSJ data” in Figure 2 shows the values of this divergence for different lmax values. It can be seen how Jensen Shannon divergence falls as lmax grows. This is because the number of overgenerated patterns falls, what means that CSSR generalizes better, as it may be expected. The difference in frequencies of common rules is also lower when using longer histories. For lmax = 4 the divergence rises again because there are not enough data to learn an automaton with statistical reliability, so using CSSR with this length introduces incorrect patterns. Comparing Grammars to Determine the Quality of Learned Models In order to obtain a qualitative evaluation of the automaton acquired by CSSR for NPs, we will compare it with the regular grammar directly extracted from the syntactic annotations available in the WSJ training corpus. The grammar obtained from the annotated corpus is regular, since the NP chunks are never recursive and are formed only by terminal symbols in this corpus. So, the grammar consists of the different possible PoS sequences for NPs observed in the corpus, with their relative frequencies. On the other hand, the automaton learned using CSSR can be used to generate the same kind of patterns: using the transitions and probabilities of the automaton, sequences of PoS tags are generated. The subsequences between two “Out” symbols are the NP patterns that CSSR has learned. These patterns, and their occurrence frequencies, are extracted and compared with the grammar acquired from WSJ annotations. The more similar the set of rules produced by CSSR is to the actual WSJ grammar behind the data, the better we can consider the automaton is modelling NP patterns. To perform the comparison between these two sets of patterns and its frequencies, Jensen-Shannon divergence 2 (Lin, 1991) is used. This divergence gives a measure of the 4.2 Generating Data to Study CSSR Performance One of the limitations of the study presented in section 4.1 is that, given the size of the alphabet, there are too few available data to learn automata with large lmax . As discussed above, the larger lmax that can be used with WSJ data is 3, which may be too small to capture long NP patterns. In order to study the influence of the amount of training data when using such a big alphabet, new data was created in the following way: using the WSJ corpus, which has a complete syntactic analysis, a grammar can be extracted capturing the structure of sentences (divided into different kind of chunks and PoS tags) and of chunks (divided into PoS tags). Each rule has a probability depending on how many times it appears in the training corpus. Using this grammar new data can be generated applying rules recursively until a whole sentence is created. The generated sentences, are parse trees with the same chunk distribution than the 1 To minimize the automaton, the probabilistic information of transitions is ignored and a normal minimizing algorithm is applied 2 A symmetric distance derived from KullbackLeibler divergence. 92 Studying CSSR Algorithm Applicability on NLP Tasks Distance between real and CSSR-generated grammar 0.08 WSJ data 1 milion words, no filter 50 milion words, no filter 1 milion words, filter 1% 50 milion words, filter 1% 1 milion words, filter 10% 50 milion words, filter 10% 0.07 Jensen Shannon Divergence 0.06 0.05 0.04 0.03 0.02 0.01 0 1 2 3 l max 4 5 Figure 2: Jensen Shannon divergence between CSSR generated set of rules and real grammar for different values of lmax when using different filter levels of the grammar original corpus. Then, the same method to translate sentences to the NP alphabet described above is performed, and CSSR is used to learn automata. Note that the NP structures present in the generated data will be the same that the ones observed in real corpus, so creating data in this way is quite similar to replicating the real corpus many times. The aim of this is to simulate that large amounts of data are available and to study the algorithm behaviour under these conditions. In fact, replicating the same data many times is equivalent to artificially simulate that the real data is more significant, and we are interested in studying the influence of doing so in CSSR automata. Given the nature of the algorithm, repeating the observations N times changes the decision of splitting or not two histories because the statistical significance of the observation changes. This decision is performed using χ2 statistics and the value of χ2 is multiplied by N when the data is increased by this value. Thus, generating more data in this way, equals to give more weight to the available data, and the results will show that this leads to learning automata that reproduce data patterns more accurately. The same goal could be theoretically obtained by adjusting the confidence level of the χ2 tests, but we found this parameter to be less influent on CSSR behaviour. The reason why in this work we generate data using the grammar rather than replicating the corpus many times is that in this way, experiments can be performed filtering low-frequency rules to get rid of some of the noise from the original corpus. Thus, before generating the data using the learned grammar, the rules that appear less can be filtered and a less noisy corpus can be created. In this way the generated data is expected to be more easily reproduced using CSSR. The experiments were conducted using different corpora generated with three different grammars: one with all rules learned from WSJ (no filter), which is expected to generate data similar to the WSJ corpus, and two grammars with 1% and 10% of the probability mass filtered. This means that just the most likely rules that sum the 99% or 90% of the mass are conserved. Using these grammars three different corpora of 50 milions tokens were created. With this amount of data lmax < log N/log k = 4.9 so the maximum usable length is 5. Also, a subset of each corpus of 1 milion tokens was used to perform more experiments, in order to better study the influence of the amount of training corpus. Figure 2 shows the divergence between the learned automata and the grammar used to generate the corpus, without filtering and with each of the two filters. For each filter level there are two lines: one for the 1 milion words generated corpus and one for the 50 93 Muntsa Padró y Lluis Padró So, the performance of the system is limited by the size of the training corpus. The generated and not filtered data can be considered equivalent to the real corpus. Also, it can be seen that when using a big amount of generated data the performance is better than for the real data as the system can deal with longer lmax . When using small lmax the difference between using 1 milion or 50 milion data is not significant. Furthermore, as it was expected, as the number of filtered rules grows, the divergence falls, being really small when lmax grows. This means that the easier the patterns to learn are, the better they are captured by CSSR. In the case of filtered rules, the system also performs better with large lmax if enough data is available. Furthermore, in (Padró and Padró, 2005b) similar experiments to those presented here were performed for Named Entity Recognition (NER). In this case, the learned automata were readable when minimized, and captured correctly the patterns of sentences given the chosen sets of features. The conclusion was that CSSR was able to learn correctly the patterns of NEs with the chosen alphabet, what combined with the results presented in this work, can lead to the conclusion that CSSR is a good method to capture language structures if enough data is available. milion words. It can be seen that the results obtained with both non-filtered corpora are very similar to those obtained with WSJ corpus, specially the results obtained with the 1 milion corpus, as this is the size of WSJ. That means that the generated corpus reproduces accurately the NP patterns present in WSJ. Also, it can be seen that the more rules are filtered, the more similar is the learned automaton behaviour to the underlying grammar, since less noisy patterns are more easily captured by CSSR. These results also show that using more training data enables CSSR to learn more accurate automata for larger lmax . While for low lmax values increasing the amount of data doesn’t introduce significant differences, if enough data is available CSSR can use larger lmax and infer more informed automata that reproduce better the grammar behind the real corpus. Generating corpus does not really introduce new patterns, but simulates that the patterns present in real data have more statistical significance. 4.3 Discussion At the sight of the results, we can conclude that CSSR is a good method for learning patterns, even quite complicated patterns as those of NPs, but it is highly dependent on amount of available data. For each process, there is a necessary lmax value that captures the patterns, and if this value is big, large corpus will be necessary. Furthermore, as the minimum amount of data necessary to learn an automaton with a determined lmax depends exponentially on the alphabet size (N > k lmax ), to be able to increase lmax in 1, it would be necessary to multiply the data size by the size of the alphabet k. For NP detection, CSSR generated automaton is not readable, but that doesn’t mean that it doesn’t reproduces NP patterns correctly. The automaton can be qualitatively studied comparing the patterns that it generates with the patterns observed in the training corpus. The more similar are the two sets of patterns, the better is CSSR reproducing the patterns of the task. This comparison shows that for real data CSSR can learn better patterns as lmax grows but due to the limited amount of available data, for lmax = 4 the divergence rises again, as there is not enough data to learn an automaton reproducing corpus patterns with this length. 5 Applying CSSR to Annotating Tasks This work has focused on the ability of CSSR to learn phrase patterns in terms of some selected sets of features, and has been seen that CSSR can reproduce correctly the patterns of some NLP structures. Nevertheless, in these NLP tasks it is necessary not only to obtain generative phrase models, but also to develop systems able to annotate new sentences. To perform this tagging task, hidden information about where a NP begins and ends must be taken into account. An usual approach is to encode this information in “B-I-O” tags (Ramshaw and Marcus, 1995): each word has a B, I or O tag, where B stands for words at phrase (chunk or NE) Beggining, I for words Internal to a phrase, and O for words Outside a phrase. When CSSR is to be used to annotate new text, it is necessary to introduce this hidden information into the system. In (Padró and Padró, 2005b; Padró and Padró, 2005a) an 94 Studying CSSR Algorithm Applicability on NLP Tasks experiments (without replicating the corpus) to perform NER with CSSR were presented. In those experiments the best parametrization led to a F1 of 88.96%. The system with this parametrization, combined with the NEC system used by the winner of CoNLL2002 shared task (Carreras, Màrquez, and Padró, 2002), would situate our system in the fifth position of the competition. This is not a bad result, specially taking into account the simplicity of the used features. approach to use CSSR for NER and Chunking was presented, which will be summarized here in order to discuss the applicability of CSSR to NLP tasks. The basic idea of the method is that it is necessary to introduce into the alphabet the hidden information of the tag (B, I or O). To do so, each symbol encoding the features previously selected (e.g. Σ = { DT , N N , N N P , etc. } for NP) is combined with each possible B-I-O tag (Σ = { DTB , DTI , DTO , N NB , N NI , etc} ). Thus, each word in the training corpus is translated to one of these symbols forming the training sequence. When a new sentence has to be tagged, the part of the symbol related to context features is known (e.g. “DT ”, ‘N N ”, etc) but the information about the correct B-I-O tag is not available, so there are three possible alphabet symbols for each word (e.g. DTB , DTI , DTO , if the visible part is a DT ). To find the most likely tag for each word in a sentence –that is, to find the most likely symbol of the alphabet–, (e.g. DTB , DTI , DTO for a DT word) a Viterbi algorithm is applied. For each word in a sentence, the possible states the automaton could reach if the current word had the tag B, I, or O, and the probabilities of these paths are computed. At the end of the sentence, the best probability is chosen and the optimal path is backwards recovered. In this way, the most likely sequence of B-I-O tags is obtained. 5.1 5.2 Discussion The results obtained on NP annotating task, show that the problem with the necessary amount of data becomes worse when trying to use CSSR to tag new sentences. First experiments with these kind of tasks were promising, as the used approach was very simple and the results were comparable to state-of-the-art systems. Nevertheless, if more information is to be included into the system to try to improve obtained results, a limitation will be found due to the amount of necessary data. Furthermore, even if enough data were available, a computational limitation will be found, specially in tasks such as NP detection, where the alphabet is big and lots of data have to be processed. The main problem of this approach is that to introduce the hidden information the alphabet size is multiplied by 3, what means that the amount of data necessary to use CSSR with the same lmax used without B-I-O information is 3lmax times bigger than what was needed before. If CSSR can learn an accurate automaton of length l using a training corpus of N = k l words, N = (3k)l = N ∗ 3l words will be necessary to perform the tagging task under the B-I-O approach. Results on NP Detection For NP detection experiments, CoNLL-00 shared task (Tjong Kim Sang and Buchholz, 2000) data are used. The training corpus has about 200,000 words, and the best obtained F1 is 89.11% with lmax = 2. In fact, in (Padró and Padró, 2005a) chunking with all chunk types was performed, obtaining an overall result of F1 = 88.20 which is comparable to last systems in the competition but is quite far from best systems. Furthermore, following the strategy depicted in section 4.2, we can force the statistical significance of hypothesis test by reproducing the data many times. Doing so leads to a improvement of the results, obtaining F1 = 90.96 also with lmax = 2 when the data is replicated 1000 times. So increasing the significance of data leads to better results when performing also annotating tasks. Also, in (Padró and Padró, 2005b), similar 6 Conclusions and Future Work A study of how CSSR is able to capture patterns in language has been presented. It has been seen that this algorithm can learn automata representing processes if there are enough data available, or if the process is simple enough. One of the main limitations of CSSR is that it is useful to learn patterns, but it is not directly prepared to introduce hidden information and to perform annotating tasks. The approach presented in (Padró and Padró, 2005b) gives reasonably good results for NER but not so good results in NP detec95 Muntsa Padró y Lluis Padró tion. This is because as the alphabet grows, more than the available data would be necessary to learn an accurate automaton, and the available corpus is not big enough. The main conclusion of this work is that CSSR can learn correctly the patterns of sequential data, specially if the data is not very noisy, but that it is highly dependent on the amount of data, the size of the alphabet and lmax . Furthermore, this dependency is exponential, so to increase a little bit the performance of the system, it would be necessary to magnify the amount of data. So, CSSR can be useful when dealing with systems with small alphabets –as in other applications of CSSR such as those presented in (Varn and Crutchfield, 2004; Ray, 2004)– but to use it in systems with lots of features to be taken into account, as NLP annotating tasks, a limitation due to the amount of available data will be probably found. In this line, the main future line devised is to modify CSSR to be able to introduce more information into the system. As the alphabet size has to be small, our proposal is to introduce all the features not encoded in the alphabet via Maximum Entropy (ME) models. Thus, the histories would consist of sets of features, instead of suffixes, and CSSR would build the causal states taking into account the probability of seeing a symbol after a determined history, computing it using ME, instead of taking into account just the simple suffixes and its transition probabilities. unrestricted text. In Proceedings of the 1st Conference on Applied Natural Language Processing, ANLP, pages 136–143. ACL. Lin, J. 1991. Divergence measures based on the shannon entropy. IEEE Transactions on Information Theory, 37(1):145–151. Padró, Muntsa and Lluı́s Padró. 2005a. Approaching sequential nlp tasks with an automata acquisition algorithm. In Proceedings of International Conference on Recent Advances in NLP (RANLP’05), Bulgaria, September. Padró, Muntsa and Lluı́s Padró. 2005b. A named entity recognition system based on a finite automata acquisition algorithm. Procesamiento del Lenguaje Natural, (35):319–326, September. Ramshaw, L. and M. P. Marcus. 1995. Text chunking using transformation-based learning. In Proceedings of the Third ACL Workshop on Very Large Corpora. Ray, Asok. 2004. Symbolic dynamic analysis of complex systems for anomaly detection. Signal Process., 84(7):1115–1130. Shalizi, Cosma R. and James P. Crutchfield. 2001. Computational mechanics: pattern, prediction strucutre and simplicity. Journal of Statistical Physics, 104:817–879. Shalizi, Cosma R. and Kristina L. Shalizi. 2004. Blind construction of optimal nonlinear recursive predictors for discrete sequences. In Uncertainty in Artificial Intelligence: Proceedings of the Twentieth Conference. References Abney, Steven. 1991. Parsing by Chunks. R. Berwick, S. Abney and C. Tenny (eds.) Principle–based Parsing. Kluwer Academic Publishers, Dordrecht. Tjong Kim Sang, Erik F. and Sabine Buchholz. 2000. Introduction to the conll-2000 shared task: Chunking. In Claire Cardie, Walter Daelemans, Claire Nedellec, and Erik Tjong Kim Sang, editors, Proceedings of CoNLL-2000 and LLL-2000, pages 127–132. Lisbon, Portugal. Buchholz, Sabine, Jorn Veenstra, and Walter Daelemans. 1999. Cascaded grammatical relation assignment. In In Proceedings of EMNLP/VLC-99, pages 239–246, University of Maryland, USA. Varn, D. P. and J. P. Crutchfield. 2004. From finite to infinite range order via annealing: The causal architecture of deformation faulting in annealed close-packed crystals. Physics Letters A, 324:299–307. Carreras, Xavier, Lluı́s Màrquez, and Lluı́s Padró. 2002. Named entity extraction using adaboost. In Proceedings of CoNLL Shared Task, pages 167–170, Taipei. Veenstra, J. 1999. Memory-based text chunking. In Nikos Fakotakis (ed), Machine learning in human language technology, workshop at ACAI 99, Chania, Greece. Charniak, Eugene. 2000. Bllip 1987-89 wsj corpus release 1. In Linguistic Data Consortium, Philadelphia. Church, Kenneth W. 1988. A stochastic parts program and noun phrase parser for 96 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 97-104 recibido 18-05-2007; aceptado 22-06-2007 Aprendizaje automático para el reconocimiento temporal multilingüe basado en TiMBL∗ Marcel Puchol-Blasco Estela Saquete Patricio Martı́nez-Barco Dept. de Lenguajes y Sistemas Informáticos (Universidad de Alicante) Carretera San Vicente s/n 03690 Alicante España {marcel,stela,patricio}@dlsi.ua.es Resumen: Este artı́culo presenta un sistema basado en aprendizaje automático para el reconocimiento de expresiones temporales. El sistema utiliza la aplicación TiMBL, la cuál consiste en un sistema de aprendizaje automático basado en memoria. La portabilidad que presenta este sistema hacia otros idiomas nuevos posee un coste muy reducido, ya que prácticamente no requiere de ningún recurso dependiente del lenguaje (únicamente requiere un tokenizador y un desambiguador léxico categorial, aunque la carencia del POS tagger no repercute mucho en los resultados finales del sistema). Este sistema ha sido evaluado para tres idiomas distintos: inglés, español e italiano. La evaluación realizada presenta resultados satisfactorios para corpus que contienen un gran número de ejemplos, mientras que obtiene resultados bastante pobres en aquellos corpus que contienen pocos ejemplos. Palabras clave: información temporal, reconocimiento de expresiones temporales, aprendizaje automático Abstract: This paper presents a Machine Learning-based system for temporal expression recognition. The system uses the TiMBL application, which is a memorybased machine learning system. The portability of the system to other new languages has a very low cost, because it does not need any dependent language resource (only requires a tokenizer and a POS tagger, although the lack in POS tagger does not have enough repercussions on the final system results). This sytems has been evaluated on three different languages: English, Spanish and Italian. The evaluation results are quite successful for corpus having a lot of examples; however it obtains very poor results with corpus that have only a few examples. Keywords: temporal information, temporal expression recognition, machine learning 1. Introducción (AA). El reconocimiento de expresiones temporales cobra cada dı́a más importancia como tarea dentro del campo del Procesamiento del Lenguaje Natural (PLN). La razón de su importancia reside en que se trata de un paso previo a la resolución de expresiones temporales, tarea que puede utilizarse en otros campos del PLN tales como la Búsqueda de Respuestas Temporal, la realización de resúmenes, la ordenación de eventos, etc. Como en casi todos los aspectos del PLN, existen dos aproximaciones para el reconocimiento de expresiones temporales: los sistemas basados en conocimiento o reglas y los sistemas basados en aprendizaje automático ∗ Esta investigación ha sido parcialmente financiada bajo los proyectos QALL-ME (FP6-IST033860), TEXT-MESS (TIN-2006-15265-C06-01) y GV06/028; y bajo la beca de investigación BFPI06/182. ISSN: 1135-5948 Una de las caracterı́sticas más importantes que deben presentar los sistemas actuales de PLN es la facilidad de adaptación del sistema a nuevas lenguas. En este aspecto, los sistemas basados en reglas poseen un gran inconveniente, ya que el conjunto entero de reglas debe reescribirse y adaptarse a la nueva lengua a tratar. Sin embargo, los métodos de AA presentan una gran ventaja en este aspecto, ya que la adaptación a otras lenguas requiere un coste menor que el de sistemas basados en reglas, ya que, en caso de querer adaptar varios sistemas basados en reglas, se deberán de adaptar cada una de las bases de conocimiento de estos sistemas, mientras que si se desean adaptar varios sistemas basados en AA, generando un sólo corpus anotado, suele ser sufiente para adaptarlos todos. No obstante, un inconveniente importante que presentan estos sistemas reside en la necesi- © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco dad de un corpus anotado con las expresiones temporales en la nueva lengua a tratar, el cual no siempre está disponible. En anteriores publicaciones hemos tratado el tema de adaptar un sistema de resolución temporal basado en reglas para el español (TERSEO, mirar Saquete, Muñoz, y Martı́nez-Barco (2005)), partiendo de la base de la traducción de las reglas mediante métodos de traducción automática. En la lı́nea de mejorar los resultados obtenidos anteriormente (89 % de medida F para el inglés y 79 % de media F para el italiano), y teniendo en cuenta los buenos resultados ofrecidos por los sistemas de AA presentados en diferentes competiciones (tales como el Time Expression Recognition and Normalization Workshop - TERN 20041 ), se ha decidido cambiar la metodologı́a empleada en algunos módulos de TERSEO. En este artı́culo presentamos la adaptación del módulo de reconocimiento de expresiones temporales utilizado por TERSEO a métodos de AA. Para tal fin se ha decidido utilizar el sistema de AA TiMBL (Daelemans, Zavrel, y van der Sloot, 2004). El artı́culo se estructura de la siguiente manera: en la sección 2 se describe el sistema de aprendizaje automático utilizado, la sección 3 describe el sistema implementado. La siguiente sección define la evaluación del sistema en tres idiomas distintos y compara los resultados con otros sistemas de AA y con el sistema basado en reglas TERSEO. Finalmente, en la sección 5 se presentan las conclusiones y el trabajo futuro que se pretende desarrollar en esta lı́nea de investigación. 2. sido posible crear algunas de las caracterı́sticas utilizadas para el aprendizaje del sistema), ha sido seleccionado como aplicación de aprendizaje automático para nuestro sistema. Debido a ello, a continuación se presenta un breve resumen de las caracterı́sticas de TiMBL. 2.1. TiMBL TiMBL (Tilburg Memory-based Learning Environment) es una aplicación que implementa algunos algoritmos basados en memoria. Todos estos algoritmos tienen en común que almacenan algún tipo de representación del conjunto de entrenamiento explı́citamente en memoria en la fase de entrenamiento. En la fase de evaluación, los nuevos casos se clasifican mediante la extrapolación del caso almacenado más similar. El aprendizaje basado en memoria (Memory-based learning - MBL, en inglés) se fundamenta en la hipótesis de que el rendimiento en tareas cognitivas se basa en el razonamiento de las bases de interpretación de nuevas situaciones con respecto a situaciones ya almacenadas en experiencias anteriores, más que en la aplicación de reglas mentales abstractas de experiencias anteriores. Un sistema MBL contiene dos componentes principales: Componente de aprendizaje basado en memoria, el cual se encarga de de guardar los ejemplos en memoria. Componente de interpretación basado en similitud, el cual utiliza como base el resultado del componente de aprendizaje para poder clasificar los ejemplos propuestos. La similitud entre un ejemplo propuesto y los ejemplos almacenados en memoria en la fase de aprendizaje se calcula mediante la distancia métrica (X, Y ) (mirar ecuaciones 1 y 2). Finalmente será el algoritmo IB1 el encargado de asignar la categorı́a al ejemplo propuesto, seleccionando el más frecuente dentro del conjunto de ejemplos más similares. Sistema de aprendizaje automático Actualmente los sistemas de aprendizaje automático han tomado mucho auge en el PLN. Debido a eso, muchos sistemas de aprendizaje automático han sido desarrollados, ampliando el abanico de posibilidades a la hora de seleccionar un sistema para un caso en particular. Un sistema que ha obteniendo buenos resultados en aplicaciones destinadas al PLN es TiMBL2 . Gracias a los buenos resultados ofrecidos por este sistema y a la disposición del API que presenta (gracias a esta API ha 1 (X, Y ) = http://timex2.mitre.org/tern.html 2 http://ilk.uvt.nl/timbl/ n i=1 98 δ(xi , yi ) (1) Aprendizaje Atomático para el Reconocimiento Temporal Multilingüe basado en TiMBL Documentos aprendizaje y evaluación 5. Reconocimiento de los posibles tokens que sean disparadores temporales. Segmentador + Tokenizador Adaptación de las ET al formato BIO POS Tagger 6. Composición de las caracterı́sticas de entrenamiento si se trata de un documento. destinado a la fase de entrenamiento o composición de las caracterı́sticas de evaluación si se trata de un documento destinado a la fase de evaluación. Reconocedor de disparadores temporales Composición de características 7. Clasificación de los ejemplos mediante TiMBL. Documentos de evaluación Documentos de aprendizaje Entrenamiento de TiMBL Modelo TiMBL 8. Postprocesamiento de la salida de TiMBL. Evaluación de TiMBL Tomemos como ejemplo la siguiente oración: Postproceso del etiquetado La alarma sonó <TIMEX2> cuatro horas antes de la explosión</TIMEX2>. Documentos de evaluación etiquetados con las ET La oración se tokeniza, se utiliza un PoS-tagger3 para obtener la categorı́a léxica de cada token y se adaptan las expresiones temporales al formato BIO (Begin - inicio de la expresión temporal; Inside - dentro de la expresión temporal; y Outside - fuera de la expresión temporal), generándose una distribución vertical como la que se muestra a continuación: Figura 1: Diagrama del sistema ⎧ ⎨ δ(xi , yi ) = 3. ⎩ xi −yi maxi −mini 0 1 si numérico, si no si xi = yi si xi = yi (2) La alarma sonó cuatro horas antes de la explosión . Descripción del sistema El sistema propuesto en este artı́culo se basa en la utilización del sistema de AA TiMBL (comentado en la sección 2.1) para aprender sobre el conjunto de ejemplos generados para la fase de entrenamiento a partir de las distintas caracterı́sticas seleccionadas y etiquetar, posteriormente, el conjunto de ejemplos generados para la fase de evaluación. Para poder generar los ejemplos de entrenamiento y de evaluación se ha seguido la metodologı́a presentada en la figura 1. Los pasos seguidos para el tratamiento de los documentos son: O O O B I I I I I O DA0FS0 NCFS000 VMIS3S0 Z NCFP000 RG SPS00 DA0FS0 NCFS000 Fp A continuación se realiza el reconocimiento de los disparadores temporales, en el cual se analiza token a token si pertenece o no a la ontologı́a de disparadores temporales siguiente: Dı́a de la semana: lunes, martes, miércoles. . . 1. Segmentación del documento en oraciones. Meses del año: enero (ene.), febrero (feb.), marzo (mar.). . . 2. Tokenización de los elementos de la oración. Estaciones del año: primavera, otoño, invierno o verano. 3. Extracción del POS de cada token. Festividades: Navidad, Epifanı́a, Adviento, Halloween. . . 4. Adaptación de las expresiones temporales al formato BIO. 3 99 Etiquetador léxico categorial Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco Palabras temporales: ayer, anteayer, hoy, mañana, tarde, noche, anteanoche, tiempo, presente, pasado, futuro, hora, minuto, segundo. . . Caracterı́sticas relacionadas con los disparadores (DISP): BIGR(TOK−2 TOK−1 ), BIGR(TOK1 TOK2 ). Caracterı́sticas relacionadas con ejemplos ya etiquetados en la oración BIGR(ETIQ2 ETIQ3 ), (ETIQ1 ): BIGR(ETIQ−2 ETIQ−3 ). Posibles preposiciones temporales: durante, entre, hasta. . . Posibles adverbios temporales: antes, después. . . Caracterı́sticas relacionadas con ejemplos ya etiquetados en la oración (ETIQ2 ): DISPx : ∃DISPx ∀x∈[ETini .,0] . T OKx : otrocaso Números Fechas simples: dd/mm/aaaa El siguiente paso a realizar consiste en generar los ejemplos necesarios para que el sistema de AA aprenda de ellos. Para ello es necesario extraer una serie de caracterı́sticas de las oraciones. Las caracterı́sticas que han sido consideradas en este sistema pueden agruparse en: Caracterı́sticas relacionadas con ejemplos ya etiquetados en la oración / (ETIQ3 ): ∀x∈[ETini .,0] T OKx siT OKx ∈ ST OP W ORDS. Acrónimos utilizados: TOK (token), DISP (disparador), ETIQ (elemento ya etiquetado), BIGR (bigrama). Posiciones utilizadas: 0 (posición actual), -x (x posiciones anteriores), x (x posiciones posteriores), ETini (posición de inicio de la expresión temporal actual). Es importante remarcar que las caracterı́sticas relacionadas con ejemplos ya etiquetados reciben un tratamiento diferente en la fase de entrenamiento y en la fase de evaluación. En la fase de entrenamiento sı́ se posee esta información, mientras que en la fase de evaluación ha sido necesario realizar una serie de cambios al funcionamiento normal de TiMBL para poder tratar este tipo de caracterı́sticas. El siguiente algoritmo explica el funcionamiento seguido para tratar este tipo de caracterı́stica: Caracterı́sticas relacionadas con el token (TOK): TOK0 , BIGR(TOK−1 TOK0 ), BIGR(TOK0 TOK1 ), BIGR(TOK−2 TOK−1 ), BIGR(TOK1 TOK2 ), SUF(TOK)2 , SUF(TOK)3 , PREF(TOK)2 , PREF(TOK)3 . Caracterı́sticas relacionadas con los disparadores (DISP): BIGR(DISP−1 DISP0 ), BIGR(DISP0 DISP1 ). Caracterı́sticas relacionadas con los ejemplos ya etiquetados de la oración BIGR(ETIQ−2 (ETIQ): ETIQ−1 , ETIQ−1 ), ETIQ1 , BIGR(ETIQ1 ETIQ2 )4 . Caracterı́sticas relacionadas con el POS: POS1 . Primera pasada - Descendente Para cada ejemplo descendentemente @num = CLASE[POS-num] CAR[#num] = NADA Clasificar Guardar CA Fin Para NOTAS: TOK (token), DISP (disparador), ETIQ (elemento ya etiquetado), BIGR (bigrama). Sin embargo, éstas no han sido las únicas que inicialmente se consideraron en el sistema. Las siguientes caracterı́sticas fueron consideradas como una posible mejora al sistema, pero al obtener peores resultados, se descartaron del sistema: Segunda pasada - Ascendente Para cada ejemplo descendentemente @num = CLASE[POS-num] #num = CLASE[POS+num] Clasificar Si CA = CAA entonces Tercera pasada - descendente POS3 = POS + 1 Hacer Tomar ejemplo Caracterı́sticas relacionadas con el token (TOK): BIGR(TOK−3 TOK−2 ), BIGR(TOK2 TOK3 ). 4 Posteriormente se verá el tratamiento de este tipo de caracterı́sticas 100 Aprendizaje Atomático para el Reconocimiento Temporal Multilingüe basado en TiMBL @num = CLASE[POS3 -num] #num = CLASE[POS3 +num] Clasificar POS3 ++ Mientras CA = CAA Fin Para de evaluación realizado, los corpus de entrenamiento y evaluación se han unido. El corpus utilizado para el español se basa en una serie de documentos extraı́dos de perı́odicos digitales en castellano utilizados en anteriores evaluaciones del sistema TERSEO. El corpus utilizado para el italiano se denomina I-CAB. Este corpus fue creado como parte del proyecto ONTOTEXT6 . Este corpus está formado por documentos de noticias extraı́dos del perı́odico local L’Adige. La anotación se ha llevado a cabo siguiendo los estándares del programa ACE (Automatic Content Extraction7 ) para la tarea de Reconocimiento y Normalización de Expresiones Temporales (Ferro et al., 2005). Las caracterı́sticas más importantes de estos tres corpus pueden verse en la tabla 1. NOTAS: CA (clase asignada), CAA (clase asignada anteriormente), @ (clase anterior), # (clase posterior), CAR (caracterı́stica). En la figura 2 puede verse un ejemplo de una traza realizada para este algoritmo. Una vez etiquetados todos los ejemplos, se realizará un postproceso muy simple de coherencia de las etiquetas de salida del sistema de AA. Este postproceso se basará en comprobar si existe alguna clasificación con etiqueta I que posea en la posición anterior la etiqueta O y modificará esa etiqueta I por la etiqueta B. Una vez realizado todo este proceso, los documentos de evaluación estarán etiquetados con las expresiones temporales. 4. Idioma Inglés Español Italiano Resultados experimentales 4.2. ET 4.728 431 4.548 Proceso de evaluación Como ha sido comentado anteriormente, se generaron una serie de caracterı́sticas iniciales sobre las que se realizó una selección para obtener las mejores. Esta selección se realizó según el método de Moreda y Palomar (2005), obteniendo aquellas que compondrı́an finalmente el sistema. Para aquellas caracterı́sticas relacionadas con la información léxico-categorial, se utilizó la herramienta FreeLing (Atserias et al., 2006). La evaluación de los resultados de reconocimiento de expresiones temporales para los distintos idiomas, teniendo en cuenta la medida obtenida por el scorer del TERN como TIMEX28 y las caracterı́sticas seleccionadas finalmente en el sistema, se muestra en la tabla 2, mientras que la medida obtenida por el scorer del TERN como TIMEX2:TEXT9 , con las mismas caracterı́sticas, se muestra en la tabla 3. Corpora utilizado El corpus utilizado para el inglés es el proporcionado en el TERN 20045 . Este corpus está formado por documentos de noticias extraı́do de los periódicos, transmisiones de noticias y agencias de noticias. Para el proceso 5 TOK 196.473 39.719 204.185 Cuadro 1: Información sobre los corpora utilizados para evaluar el sistema Ha decidido probarse el sistema en tres idiomas distintos: inglés, español e italiano. Para cada uno de estos idiomas se ha seleccionado un corpus etiquetado mediante etiquetas TIMEX2, los cuales serán detallados a continuación. Debido a que la finalidad de evaluar este sistema no se basa en comparaciones con los sistemas ya existentes, sino que se intentan conseguir los mejores resultados posibles, se ha utilizado el método de evaluación 3-fold cross validation. El sistema de evaluación utilizado para medir las prestaciones del sistema es el proporcionado oficialmente en el TERN, el cual se basa en un script desarrollado por el MITRE para la evaluación de sistemas. Los resultados son mostrados utilizando valores de precisión y cobertura con la métrica Fβ=1 . Finalmente se muestran las conclusiones derivadas de los resultados obtenidos. 4.1. DOCS 511 100 528 6 http://tcc.itc.it/projects/ontotext http://www.nist.gov/speech/tests/ace 8 medida de comprobación de la detección de expresiones temporales 9 medida de la extensión de la ET (comprobación de los lı́mites de las ET) 7 http://timex2.mitre.org/tern.html 101 Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco 1a iteración ascendente PAL X1 X2 X3 X4 X5 X6 X7 X8 CA C1 C2 C3 C4 C5 C6 C7 C8 PAL X1 X2 X3 X4 X5 X6 X7 X8 CA C1 C2 C3B <> C4 = C5 = C6 = C7 = C8 = 2a iteración ascendente (cont.) 3a iteración descendente 2a iteración ascendente CAA C1 C2 C3 C4 C5 C6 C7 C8 PAL CA C3B C4B <> C5B <> C6 = X4 X5 X6 X7 X8 CAA C4 C5 C6 PAL X1 X2 X3 X4 X5 X6 X7 X8 CA C1 = C2 = C3B C4 C5 C6 C7 C8 CAA C1 C2 C3B C4B C5B C6 C7 C8 Figura 2: Ejemplo de traza del algoritmo de caracterı́sticas relacionadas con ejemplos ya etiquetados Caracterı́sticas TOK TOK+DISP TOK+DISP+ETIQ TOK+DISP+ETIQ+POS Inglés P 0.654 0.713 0.861 0.871 R 0.839 0.872 0.823 0.833 Castellano P R 0.503 0.683 0.541 0.795 0.742 0.673 0.744 0.708 F 0.735 0.784 0.841 0.851 F 0.579 0.642 0.705 0.725 Italiano P R 0.630 0.755 0.661 0.792 0.791 0.740 0.784 0.748 F 0.687 0.721 0.765 0.765 Cuadro 2: Resultados del sistema para TIMEX2 Como puede observarse, se ha realizado una evaluación incremental del tipo de caracterı́sticas ejecutadas para demostrar el avance de las mismas. Las medidas mostradas en las tablas corresponden a: P (Precisión), R (Recall - Cobertura), F (medida F). Como puede observarse, los resultados obtenidos en los idiomas en los que los corpora poseen más ejemplos para el aprendizaje del sistema, obtienen mejores resultados. Otro factor importante es la incorporación de las clasificaciones realizadas anteriormente, junto con el algoritmo de múltiples pasadas realizado para conocer, tanto las clasificaciones anteriores, como las posteriores. Como puede observarse, este tipo de caracterı́sticas pueden mejorar los resultados del sistema más de un 10 % de precisión. Sin embargo, la incorporación de información del POS al sistema mejora únicamente en un 1 %. Este efecto plantea si es realmente necesario incorporar un recurso dependiente del lenguaje (el POS tagger10 ) al sistema para obtener una mejora tan ı́nfima. 4.3. mas de aprendizaje automático, ya que otros sistemas utilizan distintos tipos de métodos de evaluación. Sin embargo, comparando este sistema con sistemas como el de Hacioglu, Chen, y Douglas (2005), podemos apreciar que el sistema presentado en este artı́culo ofrece menores resultados de precisión y cobertura. Sin embargo, al analizar el método utilizado para la evaluación se observa que los resultados presentados en este artı́culo son más contundentes, ya que consideramos que el 3-fold cross validation proporciona unos resultados más fiables que los empleados en este artı́culo. Además, también se debe tener en cuenta el tipo de requerimientos que posee un sistema y el otro. Mientras que este sistema sólo necesita de un segmentador, un tokenizador y un POS tagger, el otro sistema necesita, además de lo mismo que este, de un parser11 y un chunker12 . Si comparamos los resultados obtenidos en este artı́culo con los obtenidos anteriormente en TERSEO (Saquete et al., 2006) apreciamos que los resultados para el inglés son bastante parecidos, mientras que para el italiano baja un poco la precisión. Sin embargo, al compararlo con el idioma origen de TERSEO Comparación con otros sistemas Debido al sistema de evaluación utilizado (3-fold cross validation), no puede realizarse una comparación directa con otros siste10 11 Sistema que realiza un análisis sintáctico total de la oración 12 Sistema que realiza un análisis sintáctico parcial de la oración Desambiguador léxico categorial 102 Aprendizaje Atomático para el Reconocimiento Temporal Multilingüe basado en TiMBL Caracterı́sticas TOK TOK+DISP TOK+DISP+ETIQ TOK+DISP+ETIQ+POS Inglés P 0.563 0.596 0.756 0.766 R 0.722 0.731 0.723 0.733 F 0.633 0.657 0.739 0.749 Castellano P R 0.360 0.487 0.387 0.572 0.585 0.531 0.582 0.553 F 0.413 0.462 0.556 0.567 Italiano P R 0.524 0.628 0.546 0.655 0.667 0.625 0.664 0.633 F 0.571 0.596 0.646 0.648 Cuadro 3: Resultados del sistema para TIMEX2:TEXT (mirar (Saquete, Muñoz, y Martı́nez-Barco, 2005)), el español, los resultados se inclinan favorablemente hacia TERSEO, el cual obtiene un 80 % de precisión frente al 72 % obtenido por este sistema. Sin embargo, si tenemos en cuenta los resultados obtenidos por este sistema sin la necesidad de ningún recurso dependiente del lenguaje (70 % de medida F) y que TERSEO requiere de recursos dependientes del lenguaje para su funcionamiento (TERSEO necesita un POS tagger), los resultados ofrecidos por este sistema son bastante satisfactorios en este aspecto. Además, el coste asociado a la adaptación de TERSEO a otros lenguajes distintos del español es mucho más grande que el asociado a este sistema. 5. SEO ofrezca mejores resultados. Es necesario tener en cuenta que TERSEO depende de recursos lingüı́sticos dependientes del lenguaje, muchos de los cuales no existen en determinados idiomas, mientras que en este sistema estos recursos son prescindibles. Como trabajo futuro, quieren realizarse pruebas con otra serie de caracterı́sticas que requieran de una mejor comprensión del texto. En concreto se desea utilizar información sintáctica y semántica. Además, este sistema quiere incorporarse completamente como módulo de reconocimiento de expresiones temporales de TERSEO. Además, siguiendo una estrategia similar, quieren realizarse pruebas de adaptación a la tecnologı́a de aprendizaje automático en otros módulos dependientes del idioma de TERSEO. Finalmente se desea evaluar la combinación completa de TERSEO con los módulos de dependientes del sistema basados en aprendizaje automático y los módulos independientes del sistema, los cuales están basados en reglas, comprobando la precisión final de TERSEO tanto en reconocimiento como en resolución de expresiones temporales. Conclusiones y trabajo futuro Se ha presentado un sistema basado en aprendizaje automático basado en TiMBL que posee un bajo coste de adaptabilidad a otros idiomas, siempre y cuando exista un corpus etiquetado con ETs en la lengua que se desee tratar. Este sistema ha sido probado en tres idiomas distintos: inglés, español e italiano. Los resultados obtenidos para los idiomas que poseen un corpus con muchos ejemplos en los que basarse el sistema de aprendizaje automático ofrecen resultados satisfactorios (en inglés, un 85 % para la evaluación TIMEX2 y un 75 % para la evaluación TIMEX2:TEXT, mientras que en italiano, un 76 % para la evaluación TIMEX2 y un 65 % para la evaluación TIMEX2:TEXT). Sin embargo, se ha comprobado como en corpus con pocos ejemplos de los que aprender, se obtienen unos resultados bastante pobres (en español, un 72 % para la evaluación TIMEX2 y 57 % para la evaluación TIMEX2:TEXT). Como puede comprobarse, estos resultados son favorables y suficientes para la incorporación de este sistema en el módulo de TERSEO de reconocimiento de expresiones temporales, pese a que el módulo de TER- Bibliografı́a Atserias, J., B. Casas, E. Comelles, M. González, L. Padró, y M. Padró. 2006. Freeling 1.3: Syntactic and semantic services in an open-source nlp library. En Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC’06), páginas 48–55. Daelemans, W., J. Zavrel, y K. van der Sloot. 2004. TiMBL: Tilburg Memory Based Learner, version 5.1, Reference Guide. Ilk research group technical report series, Tilburg. 60 pages. Ferro, L., L. Gerber, I. Mani, B. Sundheim, y G. Wilson. 2005. Tides.2005 standard for the annotation of temporal expressions. Informe técnico, MITRE. 103 Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco Hacioglu, Kadri, Ying Chen, y Benjamin Douglas. 2005. Automatic time expression labeling for english and chinese text. En Alexander F. Gelbukh, editor, CICLing, volumen 3406 de Lecture Notes in Computer Science, páginas 548–559. Springer. Moreda, P. y M. Palomar. 2005. Selecting Features for Semantic Roles in QA Systems. En Proceedings of Recent Advances in Natural Language Processing (RANLP), páginas 333–339, Borovets, Bulgaria, Septiembre. Saquete, E., R. Muñoz, y P. Martı́nez-Barco. 2005. Event ordering using terseo system. Data and Knowledge Engineering Journal, página (To be published). Saquete, Estela, Óscar Ferrández, Patricio Martı́nez-Barco, y Rafael Muñoz. 2006. Reconocimiento temporal para el italiano combinando técnicas de aprendizaje automático y adquisicón automática de conocimiento. En Proceedings of the 22nd International Conference of the Spanish Society for the Natural Language Processing (SEPLN). 104 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 105-112 recibido 18-05-2007; aceptado 22-06-2007 Alias Assignment in Information Extraction Emili Sapena, Lluı́s Padró and Jordi Turmo TALP Research Center Universitat Politècnica de Catalunya Barcelona, Spain {esapena, padro, turmo}@lsi.upc.edu Resumen: Este artı́culo presenta un método general para la tarea de asignación de alias en extracción de información. Se comparan dos aproximaciones para encarar el problema y aprender un clasificador. La primera cuantifica una similaridad global entre el alias y todas las posibles entidades asignando pesos a las caracterı́sticas sobre cada pareja alias-entidad. La segunda es el clásico clasificador donde cada instancia es una pareja alias-entidad y sus atributos son las caracterı́sticas de ésta. Ambas aproximaciones usan las mismas funciones de caracterı́sticas sobre la pareja alias-entidad donde cada nivel de abstracción, desde los carácteres hasta el nivel semántico, se tratan de forma homogénea. Además, se proponen unas funciones extendidas de caracterı́sticas que desglosan la información y permiten al algoritmo de aprendizaje automático determinar la contribución final de cada valor. El uso de funciones extendidas mejora los resultados de las funciones simples. Palabras clave: asignación de alias, extracción de información, entity matching Abstract: This paper presents a general method for alias assignment task in information extraction. We compared two approaches to face the problem and learn a classifier. The first one quantifies a global similarity between the alias and all the possible entities weighting some features about each pair alias-entity. The second is a classical classifier where each instance is a pair alias-entity and its attributes are their features. Both approaches use the same feature functions about the pair alias-entity where every level of abstraction, from raw characters up to semantic level, is treated in an homogeneous way. In addition, we propose an extended feature functions that break down the information and let the machine learning algorithm to determine the final contribution of each value. The use of extended features improve the results of the simple ones. Keywords: Alias Assignment, Information Extraction, Entity Matching 1 Introduction Alias assignment is a variation of the entity matching problem. Entity matching decides if two given named entities in the data, such as “George W. Bush” and “Bush”, refer to the same real-world entity. Variations in named entity expressions are due to multiple reasons: use of abbreviations, different naming conventions (for example “Name Surname” and “Surname, N.”), aliases, misspellings or naming variations over time (for example “Leningrad” and “Saint Petersburg”). In order to keep coherence in extracted or processed data for further analysis, to determine when different mentions refer to the same real entity is mandatory. This problem arises in many applications ISSN: 1135-5948 that integrate data from multiple sources. Consequently, it has been explored by a big number of communities including statistics, information systems and artificial intelligence. Concretely, many tasks related to natural language processing have been involved in the problem such as question answering, summarization, information extraction, among others. Depending on the area, variants of the problem are known with some different names such as identity uncertainty (Pasula et al., 2002), tuple matching, record linkage (Winkler, 1999), deduplication (Sarawagi and Bhamidipaty, 2002), merge/purge problem (Hernandez and Stolfo, 1995), data cleaning (Kalashnikov and Mehrotra, 2006), reference reconciliation (Dong, Halevy, and Madhavan, 2005), men- © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Emili Sapena, Lluis Padró y Jordi Turmo tion matching, instance identification and so others. Alias assignment decides if a mention in one source can be referring to one or more entities in the data. The same alias can be shared by some entities or, by the opposite, it can be referring to an unknown entity. For instance, alias “Moore” would be assigned to the entity “Michael Moore” and also to “John Moore” if we have both in the data. However, alias “P. Moore” can not be assigned to any of them. Therefore, while entity matching problem consists of determining when two records are the same real entity, alias assignment focuses on finding out whether references in a text are referring to known real entities in our database or not. After alias assignment, a disambiguation procedure is required to decide which real entity among the possible ones is the alias pointing to in each context. The disambiguation procedure, however, is out of the scope of this paper. There is little previous work that directly addresses the problem of alias assignment as a main focus, but many solutions have been developed for the related problem of entity matching. Early solutions employ manually specified rules (Hernandez and Stolfo, 1995), while subsequent works focus on learning the rules from training data (Tejada, Knoblock, and Minton, 2002; Bilenko and Mooney, 2003). Numerous solutions focus on efficient techniques to match strings, either manually specified (Cohen, Ravikumar, and Fienberg, 2003), or learned from training data (Bilenko and Mooney, 2003). Some others solutions are based in other techniques taking advantage of the database topology like clustering a large number of tuples (McCallum, Nigam, and Ungar, 2000), exploiting links (Bhattacharya and Getoor, 2004) or using a relational probability model to define a generative model (Pasula et al., 2002). In the last years, some works take advantage of some domain knowledge at the semantic level to improve the results. For example, Doan et al. (Doan et al., 2003) shows how semantic rules either automatically learned or specified by a domain expert can improve the results. Shen et al. (Shen, Li, and Doan, 2005) use probabilistic domain constraints in a more general model employing a relaxation labeling algorithm to perform matching. Some of the methods used for entity matching are not applicable to alias assign- ment because the information contribution of the pair alias-entity is poorer than that of an entity-entity pair. An alias is only a small group of words without attributes and, normally, without any useful contextual information. However, using some domain knowledge, some information about the entities and some information about the world, it is possible to improve the results of a system that uses only string similarity measures. This paper presents a general method for alias assignment task in information extraction. We compared two approaches to face the problem and learn a classifier. The first one quantifies a global similarity between the alias and all the possible entities weighting some features about each pair alias-entity. The algorithm employed to find the best weights is Hill Climbing. The second is a classical pairwise classification where each instance is a pair alias-entity and its attributes are their features. The classifier is learned with Support Vector Machines. Both approaches use the same feature functions about the pair alias-entity where every level of abstraction, from raw characters up to semantic level, is treated in an homogeneous way. In addition, we propose a set of extended feature functions that break down the information and let the machine learning algorithm to determine the final contribution of each value. The use of extended features improves the results of the simple ones. The rest of the paper is structured as follows. In section 2, it is formalized the problem of alias assignment and its representation. Section 3 introduces the machine learning algorithms used. Next, section 4 presents the experimental methodology and data used in our evaluation. In section 5 we describe the feature functions employed in our empirical evaluation. Section 6 shows the results obtained and, finally, we expose our conclusions in section 7. 2 Problem definition and representation The alias assignment problem can be formalized as pairwise classification: Find a function f : N × N → {1, −1} which classifies the pair alias-entity as positive (1) if the alias is representing the entity or negative (-1) if not. The alias and the entity are represented as strings in a name space N . We propose a variation of the classifier where we can use 106 Alias Assignment in Information Extraction also some useful attributes we have about the entity. In our case, function to find will be: f : N × M → {1, −1} where M represents a different space including all entity’s attributes. We define a feature function as a function that represents a property of the alias, the entity, or the pair alias-entity. Once a pair alias-entity is represented as a vector of features, one can combine them appropriately using machine learning algorithms to obtain a classifier. In section 3 we explain how we learn classifiers using two different approaches. Most of the feature functions used here are similarity functions which quantify the similarity of the pair alias-entity according to some criteria. In a similarity function the returned value r indicates greater similarity in larger values while shorter values indicates lower similarity (dissimilarity). Feature functions can be divided in four groups by its level of abstraction from raw characters up to semantic level. In the lower level, the functions focus on character-based similarity between strings. These techniques rely on character edit operations, such as deletions, insertions, substitutions and subsequence comparison. Edit similarities find typographical errors like writing mistakes or OCR errors, abbreviations, similar lemmas and some other difference intra-words. The second level of abstraction is centered in vector-space based techniques and it is also known as token-level or word-level. The two strings to compare are considered as a group of words (or tokens) disregarding the order in which the tokens occur in the strings. Tokenbased similarity metrics uses operations over sets such as union or intersection. In a higher level we find some structural features similar to the work in (Li, Morie, and Roth, 2004). Structural features encode information on the relative order of tokens between two strings, by recording the location of the participating tokens in the partition. The highest level includes the functions with added knowledge. This extra knowledge can be obtained from other attributes of the entity, from an ontology or can be knowledge about the world. Some previous works (Shen, Li, and Doan, 2005; Doan et al., 2003) use this extra knowledge as rules to be satisfied. First, rules are specified manually or obtained from the data, and then they need to assign some weight or probability to each rule and also distinguish hard rules from soft ones. In (Shen, Li, and Doan, 2005) weights are established by an expert user or learned from the same data set to classify. In our work, we present another way to use this information. We propose to add more feature functions to increase the number of attributes for our classifier. Each new feature function describes some characteristic of the alias, of the entity, or of the pair alias-entity that needs some extra knowledge. The contribution of each feature will be learned as any other similarity function when some machine learning method is applied. 3 Learning classifiers Two approaches are used and compared in order to obtain a good classifier using feature functions introduced above, Hill Climbing (Skalak, 1994) and Support Vector Machines (Cortes and Vapnik, 1995). Each one has different points of view of the problem. The first one, treats the problem as a nearest neighbor model and tries to determine a global Heterogeneous Euclidean-Overlap Metric (HEOM) from the target alias to all the entities in the database. The alias will be assigned to the entities with a HEOM shorter than some cut-value. Each pair aliasentity has a HEOM composed by all the values of similarity. The second point of view is a classical classifier based on the instance’s attributes projected in a multidimensional space. The classifier consist in an hyperplane that separates samples in two classes. Each pair alias-entity with the values of the feature functions as attributes is an instance for the classifier that can be classified as positive (matching) or negative (not matching). The first point of view determines a HEOM composed by the values returned by the similarity functions. All the similarity functions are normalized and transformed to dissimilarities in order to obtain a small value of HEOM when alias and entity are similar and large value otherwise. HEOM is obtained with all the dissimilarities weighted in a quadratic summatory: HEOM = wi (di )2 i where di is the dissimilarity corresponding to the similarity function i and wi is the weight assigned to this value. Using a 107 Emili Sapena, Lluis Padró y Jordi Turmo training data set, Hill Climbing determines the best weight for each feature and the cutvalue in order to achieve the best possible performance. The algorithm in each step increases and decreases each weight in a small step-value and selects the modification with best results. The process is repeated until no modification is found to improve the result of the current solution. The method is executed several times starting with random weights. Some of the advantages of Hill Climbing is that it is easy to develop and can achieve good results in a short time. The second approach consist in a pair alias-entity classifier using Support Vector Machines (SVM) (Cortes and Vapnik, 1995). SVM have been used widely as a classifier (Osuna, Freund, and Girosi, 1997; Furey et al., 2000). This technique has the appealing feature of having very few tunable parameters and using structural risk minimization which minimizes a bound on the generalization error. Theorically, SVM can achieve more precise values than Hill Climbing (for our task) because they search in a continuous space while hill climbing is searching discrete values. In addition, using kernels more complex than linear one, they might combine attributes in a better way. Moreover, statistical learning avoids one of the problems of local search, that is to fall in local minimums. In the other hand, SVM computational cost is higher than hill climbing. 4 aliases assigned by hand versus a database with 500 football club entities. Some of them are assigned to more than one club while some others are not assigned because the referring club is not in our database. Each algorithm is trained and tested doing a fivefold cross-validation. Some examples of annotated corpus can be seen in table 1. Several aliases found across the Web are referring to organizations not included yet in the database. Furthermore, for each alias-entity matching sample (classified as positive) we have almost 500 samples notmatching (classified as negative). This situation would drive accuracy always near 100% even in a blind classifier deciding always negative. In order to have a reasonable evaluation only the set of positive predictions Mp are used in evaluation and compared with the set Ma of examples annotated as positive. The measures used are Precision (1), Recall (2) and F1 (3). Only F1 values are shown and compared in this paper. P = |Mp ∩ Ma | |Mp | (1) R= |Mp ∩ Ma | |Ma | (2) 2P R . P +R (3) F1 = 5 Experiments We evaluated the task of alias assignment in two experiments. In the first one, we compared the performance of Hill Climbing and SVM using a set of similarity functions. The second is focused on an improvement of feature functions breaking them down in several values representing more specific aspects of their characteristics. Evaluation framework We evaluated both algorithms in the alias assignment task with a corpus of organizations. Developing an IE system in the domain of football (soccer) over the Web, one of the problems we found is that clubs, federations, football players, and many other entities related with football have too long official or real names. Consequently, some nicknames or short names are used widely in either free and structured texts. Almost all texts use this short names to refer to the entities assuming that everyone is able to distinguish which real entity is pointed. For instance, to refer to “Futbol Club Barcelona”, its typical to find “FC Barcelona” or “Barcelona”. We based the results of this paper in our study in the specific domain of football, however, we are presenting a general method for the alias assignment task useful in any other domain. The corpus consist in 900 football club 5.1 Algorithm comparison In the first approach, functions return a value of similarity depending on some criteria. In this case, we are trying to simplify the classification process including only the information we consider important. The larger number of features included, the longer takes an algorithm to train and achieve good results. Based in this principle, we tried to insert as much information as we could in a few values. The feature functions used in this first experiment (example in figure 1) are the following: 108 Alias Assignment in Information Extraction Alias Sydney FC Man Utd Nacional Steaua Bucharest Newcastle United Krylya Sovetov Assigned entities Sydney Football Club Manchester United Football Club Club Universidad Nacional AC UNAM, Club Deportivo El Nacional, Club Nacional, Club Nacional de Football -not assigned Newcastle United Jets Football Club Newcastle United Football Club Professional Football Club Krylya Sovetov Samara Table 1: Example of some pairs alias-entity in the football domain entity name decrement the similarity as is shown bellow: 5.1.1 Character-based • Prefix and Suffix similarities count the words of the alias that are the begin (prefix) or the end (suffix) of a word in the entity name. Sim(A, B) = max(0, • Abbreviations similarity. If a word s in the alias is shorter than a word t in the entity name they start with the same character and each character of s appear in t in the same order, the function concludes that s is an abbreviation of t. For example “Utd” is an abbreviation of “United” and “St” is an abbreviation of “Saint”. where Wa represents the words appearing in A but not in B and max function is used taking care that similarity function never returns a value lower than zero. • Keywords similarity is another lexical similarity but avoiding typical domain related words. These kind of words occur in several names and can cause a good lexical similarity when the important words (keywords) are not matching. For example, “Manchester United Football Club” and “Dundee United Football Club” have a good lexical similarity but bad keyword similarity because “football” and “club” are considered typical domain-related words. It uses the same formula as Lexical similarity but not including typical domain-related words in A and B. Lexical similarity and Keywords similarity could be combined in a lexical similarity weighted with TF-IDF. However, the true contribution of each token to similarity is domain-specific and not always proportional to TF-IDF. Some words have many occurrences but are still important while some others appear few times but are not helpful at all. 5.1.2 Token-based • Lexical similarity compares the words between alias A and entity name B without case sensitivity. A classical lexical similarity is: Sim(A, B) = |A ∩ B| − |Wa | ) |A ∪ B| |A ∩ B| |A ∪ B| where |x ∩ y| correspond to a function that returns the number of coincidences between words in x and y, and |x ∪ y| symbolize the number of different words in the union of x and y. However, in the case of study, we know that some word in the entity name may not occur in the alias but, almost always, if a word occur in the alias, it must be in the entity name. In other words, an alias use to be a reduced number of words of the entity name. Although, it is difficult to find an alias using words that do not occur in the entity name (it is possible, however). In order to take advantage of this asymmetry in our lexical similarity, words of the alias not appearing in the 5.1.3 Structural • Acronyms similarity looks for a correspondence between acronyms in the alias and capitalized words in the entity name. This feature takes care of the words order because the order of 109 Emili Sapena, Lluis Padró y Jordi Turmo Alias Inter Milan milarity function because we have more information about the entity than only the official name. In case we don’t have this information the return value would be zero. Entity Football Club Internazionale Milano s.p.a. www.inter.it Football typical word abbreviation Inter 5.2 Club typical word The second experiment uses extended feature functions. This means that most of the feature functions used previously are modified and now they return more than one value breaking down the information. The feature functions are the same but returning a vector of values instead of one value. The classifier may use this extra information if it is helpful for classification. For instance, lexical similarity now returns: number of words in the alias, number of words in the entity name and number of equal words. Combining these values the classifier can achieve a function like our original lexical similarity or maybe a better one. In this second approach the target is to compare the original feature functions with the extended ones. We choose SVM for this experiment because SVM can use polynomial kernels that may combine attributes in a better way than a linear classifier. Consequently, in this experiment we compare the best classifier obtained in the first experiment with two SVM classifiers using the extended feature functions. One SVM will use a linear kernel while the other will try to take advantage of a quadratic one. Table 2 shows the modifications realized in each feature function. prefix Internazionale city Milan abbreviation prefix Milano city s.p.a. city Extended features web www.inter.it Figure 1: Example of a pair alias-entity and its active features the characters in an acronym defines the order that words must have in the entity name. An example of acronym is “PSV” which match with “Philips Sport Vereniging Eindhoven”. 5.1.4 Semantic • City similarity returns 1 (maximum similarity) only when one word in the alias correspond to a city, one word in the entity name corresponds to a city and both are the same city. In other cases, returns 0 (no similarity). It can be useful when some cities can have different names depending on the language. For instance, “Moscow” and “Moskva” are the same city or “Vienna” and “Wien”. This feature requires a world knowledge about cities. 6 Results In our first experiment described in section 5.1, we tried the two algorithms mentioned above, Hill Climbing and SVM, with the feature functions described previously. Table 3 shows the results comparing it with a baseline consisting of some simple rules using only lexical, keywords, acronyms and abbreviations similarities. The first aspect to emphasize is that the baseline, a simple rule-based classifier, achieves a F1 measure over 80%. This indicates that the alias assignment task has a high percentage of trivial examples. The use of machine learning and new features may help with difficult ones. Actually, the results show how machine learning algorithms significantly outperform the results obtained by • Website similarity function compares the alias with the URL of the organization’s website if we have it. Avoiding the first TLD (.com, .de, .es) and sometimes the second (.co.uk, .com.mx) its usual for an organization to register a domain name with the most typical alias for it. The return value of this function is the ratio of words of alias included in the domain name divided by total number of words in the alias. We can use this si110 Alias Assignment in Information Extraction Feature Prefix Suffix Abbrev. Lexical Keywords Acronym City Website Return Values Pre1: # words in the alias that are prefixes in the entity name Suf1: # words in the alias that are suffixes in the entity name Abr1: # words in the alias that are an abbreviation of a word in the entity name Lex1: # words in the alias Lex2: # words in the entity name Lex3: # equal words Lex4: # equal words case sensitive Key1: # keywords int the alias (words excluding typical domain words (football, club, etc)) Key2: # keywords in the entity name Key3: # of equal keywords Acr1: the alias have an acronym (boolean) Acr2: the alias acronym matches with capitalized words in the entity name (boolean) Acr3: # words in the alias without acronyms Acr4: # words in the entity name without words involved in acronyms Acr5: # equal words without words involved in acronyms Cit1: some word in the alias is a city (boolean) Cit2: some word in the entity name is a city (boolean) Cit3: both are the same city (boolean) Web1: The entity has a value in the website field (boolean) Web2: # words occurring both in the alias and in the URL of the entity F1 Baseline 80.3 Hill Climbing 87.1 SVM 87.9 Table 3: Results of experiment (1) comparing simple rule-based baseline with hill climbing and SVM Features Algorithm Kernel F1 Simple SVM linear 87.9 Extended SVM SVM linear quadratic 93.0 93.0 Table 4: Results of experiment (2) comparing original features with extended features rent kernels using extended features are compared with results obtained in the first experiment. The results indicates that extended features outperform the original ones. In the other hand, we can see that a quadratic kernel does not improve the results of the linear kernel. 7 Conclusions In this paper we have proposed a homogeneous model to deal with the problem of classifying a pair alias-entity into true/false categories. The model consists in using a set of feature functions instead of the state-ofart approach based on distinguishing between a set of lexico-ortographical similarity functions and a set of semantic rules. Some experiments have been performed in order to compare different configurations for the proposed model. The configurations differ in the set of feature functions and in the discretization strategy for feature weights. Also, two learning techniques have been applied, namely, Hill Climbing and SVMs. We have seen that Hill Climbing and SVM perform similar. Both algorithms used has some advantages and disadvantages. On one hand, Hill Climbing is simple and fast but has two drawbakcs. The first one is that it looks for weights by steps and it causes that the weights are always discrete values decreasing sometimes the final accuracy. The other drawback is that local search can fall in local minima. Although, it may be palliated by executing the algorithm several times starting with random values. On the other hand, SVM work in a continuous space and learn statistically which avoids the two drawbacks Table 2: Extended features used in the second experiment the baseline. In the other hand, we find that perform of Hill Climbing and SVM are similar. SVM seems to achieve better results but the difference is not significant since the confidence interval at 95% significance level is 0.8%. In the second approach we wanted to use the power of SVM combining features and we break down the components of feature functions as explained in section 5.2. SVM may use this extra information if it is helpful for classification. In table 4 two SVM with diffe111 Emili Sapena, Lluis Padró y Jordi Turmo of hill climbing. Although, SVM take longer to be tuned correctly. In the second experiment, since SVM can handle richer combinations of features when using polynomial kernels, we tested SVMs using a linear kernel and a quadratic one, obtaining similar results. The feature set used in this experiment was a refinement of the previous one, that is, the features contained the same information, but coded with finer granularity. The results pointed out that although the similarity functions used in the first approach produced accurated results, letting the SVM handle all the parameters results in a significative improvement. the 1995 ACM SIGMOD international conference on Management of data, pages 127–138, New York, NY, USA. ACM Press. Kalashnikov, Dmitri V. and Sharad Mehrotra. 2006. Domain-independent data cleaning via analysis of entity-relationship graph. ACM Trans. Database Syst., 31(2):716–767. Li, Xin, Paul Morie, and Dan Roth. 2004. Identification and tracing of ambiguous names: Discriminative and generative approaches. In PROCEEDINGS OF THE NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE, pages 419–424. Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press; 1999. McCallum, Andrew, Kamal Nigam, and Lyle H. Ungar. 2000. Efficient clustering of highdimensional data sets with application to reference matching. In KDD ’00: Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 169–178, New York, NY, USA. ACM Press. References Bhattacharya, Indrajit and Lise Getoor. 2004. Iterative record linkage for cleaning and integration. In DMKD ’04: Proceedings of the 9th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, pages 11–18, New York, NY, USA. ACM Press. Osuna, Edgar, Robert Freund, and Federico Girosi. 1997. Training support vector machines: an application to face detection. cvpr, 00:130. Bilenko, Mikhail and Raymond J. Mooney. 2003. Adaptive duplicate detection using learnable string similarity measures. In KDD ’03: Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 39–48, New York, NY, USA. ACM Press. Pasula, H., B. Marthi, B. Milch, S. Russell, and I. Shpitser. 2002. Identity uncertainty and citation matching. Sarawagi, Sunita and Anuradha Bhamidipaty. 2002. Interactive deduplication using active learning. In KDD ’02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 269–278, New York, NY, USA. ACM Press. Cohen, W., P. Ravikumar, and S. Fienberg. 2003. A comparison of string distance metrics for name-matching tasks. Cortes, Corinna and Vladimir Vapnik. 1995. Support-vector networks. In Springer, editor, Machine Learning, pages 273–297. Kluwer Academic Publishers, Boston. Shen, W., X. Li, and A. Doan. 2005. Constraintbased entity matching. In Proceedings of AAAI. Doan, AnHai, Ying Lu, Yoonkyong Lee, and Jiawei Han. 2003. Profile-based object matching for information integration. IEEE Intelligent Systems, 18(5):54–59. Skalak, David B. 1994. Prototype and feature selection by sampling and random mutation hill climbing algorithms. In International Conference on Machine Learning, pages 293–301. Dong, Xin, Alon Halevy, and Jayant Madhavan. 2005. Reference reconciliation in complex information spaces. In SIGMOD ’05: Proceedings of the 2005 ACM SIGMOD international conference on Management of data, pages 85– 96, New York, NY, USA. ACM Press. Tejada, Sheila, Craig A. Knoblock, and Steven Minton. 2002. Learning domain-independent string transformation weights for high accuracy object identification. In KDD ’02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 350–359, New York, NY, USA. ACM Press. Furey, T. S., N. Christianini, N. Duffy, D. W. Bednarski, M. Schummer, and D. Hauessler. 2000. Support vector machine classification and validation of cancer tissue samples using microarray expression data. Bioinformatics, 16(10):906–914. Winkler, W. 1999. The state of record linkage and current research problems. Hernandez, Mauricio A. and Salvatore J. Stolfo. 1995. The merge/purge problem for large databases. In SIGMOD ’95: Proceedings of 112 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 113-120 recibido 18-05-2007; aceptado 22-06-2007 Evaluación de un sistema de reconocimiento y normalización de expresiones temporales en español∗ María Teresa César Paloma Vicente-Díez de Pablo-Sánchez Martínez Departamento de Informática. Universidad Carlos III de Madrid Avda. Universidad 30, 28911. Leganés, Madrid {teresa.vicente, cesar.pablo, paloma.martinez}@uc3m.es Resumen: El sistema de reconocimiento y normalización de expresiones temporales en español que se describe en este artículo fue presentado por la Universidad Carlos III de Madrid en la evaluación ACE07 llevada a cabo por el NIST. Dicho sistema se centra en la tarea de TERN para español, piloto en esta edición. Se detalla su arquitectura y módulos así como el enfoque basado en reglas implementado por un autómata finito en las etapas de reconocimiento y normalización. Se exponen también los resultados alcanzados en la evaluación y las conclusiones obtenidas a partir de los mismos. Palabras clave: Reconocimiento de expresiones temporales, normalización temporal, timexes, procesamiento de lenguaje natural, PLN, español. Abstract: The temporal expressions recognition and normalization system for Spanish language described in this paper was presented by the University Carlos III de Madrid to the NIST ACE07 evaluation. The system focuses on the primary TERN task in Spanish, a pilot experience this year. The description of its architecture and modules is detailed, as well as the rule-based approach implemented by a finite state automaton on the recognition and normalization stages. Reached results in the evaluation and conclusions obtained through their analysis are also shown. Keywords: Temporal expressions recognition, time normalization, timexes, natural language processing, NLP, Spanish language. 1 Introducción La extracción automática de información temporal de noticias u otros contenidos electrónicos supone un importante reto lingüístico. Este tipo de documentos suele contar con una escasa cantidad de metadatos de carácter temporal (Llido, Berlanga y Aramburu, 2001), lo que convierte en difícil determinar el momento en que ocurren los eventos que narran. “Las expresiones temporales (también denominadas timexes) son fragmentos del lenguaje natural que aluden directamente a instantes en el tiempo o a intervalos. No sólo aportan información temporal por sí mismas sino que también sirven como puntos de anclaje para ubicar eventos que son referidos en un texto” (Ahn, Fissaha, y Rijke, 2005). En la mayoría de contextos lingüísticos las expresiones temporales son deícticas. Por ejemplo, en las expresiones “la pasada semana”, “en abril”, o “hace tres meses” se ∗ Este trabajo ha sido parcialmente financiado por la Comunidad de Madrid bajo la Red de Investigación MAVIR (S-0505/TIC-0267). ISSN: 1135-5948 © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez debe conocer cuál es el instante narrativo de referencia para poder precisar el intervalo de tiempo comprendido por la expresión (Saquete, 2000). Además, si se pretende facilitar el intercambio de datos, es fundamental que aquellos intervalos identificados sean traducidos de acuerdo a un estándar establecido, es decir, que sean normalizados. Una identificación y normalización de expresiones temporales precisa es esencial para el razonamiento temporal (Allen, 1983) que demandan las aplicaciones avanzadas de PLN, como la Extracción de Información, el Resumen Automático, o la Búsqueda de Respuestas (QA). Por ejemplo, en esta última es primordial resolver referencias que ayuden a responder a cuestiones temporales (“¿En qué año murió Cervantes?”) o con restricciones de tiempo (“¿Quién era el presidente de los EE.UU. en 2005?”) (Saquete, 2004) (de PabloSánchez et al., 2006). Particularmente en QA resulta de especial interés la integración de un sistema de razonamiento sobre el tiempo que dote a la aplicación de una nueva dimensión temporal. (Moldovan, Bowden, y Tatu, 2006). Dada la importancia de la identificación de expresiones temporales en este razonamiento se pretende incorporar el sistema expuesto dentro de un entorno de QA. Se espera que la introducción de reglas de inferencia permita mejorar el análisis de preguntas y la calidad de las respuestas extraídas. Por ejemplo, a la hora de resolver preguntas temporalmente ambiguas, como “¿Quién fue Ministro de Justicia en 2007?”, un razonamiento eficiente permitirá conocer de la existencia de dicha ambigüedad, o bien extraer las múltiples respuestas posibles. Por otra parte, la comunidad científica cuenta con varios recursos para el tratamiento de timexes pero, mayoritariamente, en lengua inglesa. Entre otros, existen diversas guías y métodos de anotación, como por ejemplo el propuesto por Mani y Wilson (2000), lenguajes de especificación como TimeML (Pustejovsky et al., 2005), corpus anotados temporalmente como TimeBank (MITRE, 2007), etc. Sin embargo, algunos de estos recursos no pueden utilizarse directamente en español. Ya que esta lengua es actualmente una de las más habladas en el mundo, parece interesante invertir en la creación de recursos propios. NIST 2007 Automatic Content Extraction Evaluation (ACE07) forma parte de una serie de evaluaciones cuyo propósito es el desarrollo de tecnologías de extracción de información e inferencia semántica del lenguaje. El propósito de la evaluación de la tarea de Reconocimiento y Normalización de Expresiones Temporales (TERN) es avanzar en el estado del arte existente sobre la detección y la normalización automática de este tipo de expresiones. El sistema que se describe en este artículo está enfocado al reconocimiento y normalización de timexes en español. Fue presentado por la Universidad Carlos III de Madrid (UC3M) a la evaluación ACE07, participando en la tarea de TERN para español. Dicha tarea suponía una experiencia piloto para este lenguaje. Esta propuesta constituye una aproximación inicial en la que fueron implementadas técnicas basadas en reglas simples, tanto en reconocimiento como en normalización. En esta versión preliminar, el sistema maneja expresiones temporales simples del lenguaje, posponiendo el tratamiento de aquellas expresiones de aparición menos frecuente en español, aunque identificables según el estándar TIDES (Ferro et al., 2005). El artículo está estructurado como sigue: en la sección 2 se describe la tarea en la que participaba el sistema evaluado. En la sección 3 se muestra la arquitectura de dicho sistema y los módulos que lo componen. En la sección 4, se presentan los resultados de la evaluación. Por último, la sección 5 incluye las conclusiones obtenidas y algunas líneas de trabajo futuro. 2 Descripción de la tarea Los sistemas participantes en la tarea de TERN para español en la evaluación ACE07 han de procesar unos datos de entrada, en este caso noticias (Newswire) en español, e identificar fechas, duraciones, instantes de referencia e intervalos en ellos (reconocimiento). Las expresiones reconocidas, tanto absolutas como deícticas, han de ser tratadas y devueltas en un formato estándar que evite la ambigüedad semántica en su recuperación (normalización). Dichas expresiones son marcadas siguiendo el esquema de anotación TIMEX2, de acuerdo con el estándar TIDES (Ferro et al., 2005), que se compone de un conjunto de atributos, tal y como se muestra en la Tabla 1. En la Tabla 2 se presentan algunos ejemplos de utilización de TIMEX2 para ilustrar su uso en la anotación de expresiones temporales. 114 Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español ATRIBUTO VAL MOD ANCHOR_VAL ANCHOR_DIR SET Formateado de entrada: este submódulo transforma los ficheros de origen a la codificación que precisa el procesador lingüístico, y elimina los caracteres innecesarios (espacios, tabulaciones, etc.). DESCRIPCIÓN Expresión temporal normalizada Modificador de expresión temporal normalizada Punto de referencia temporal normalizado Direccionalidad temporal Indica que el atributo VAL se refiere a un conjunto de expresiones temporales (un intervalo) Procesado lingüístico: genera un fichero para cada entrada donde todo el texto original es dividido y enriquecido con información de posición, etiquetado gramatical, morfosintáctico y semántico. Esta etapa es llevada a cabo por el procesador Stilus, una herramienta comercial desarrollada por (DAEDALUS, 2007). Tabla 1 Atributos de TIMEX2 <TIMEX2 VAL=”1991-10-06”>6 de octubre de 1991</TIMEX2> <TIMEX2 VAL=”1993-08-01T17:00”>5:00 p.m.</TIMEX2> <TIMEX2 VAL=”1992-FA”>el pasado otoño</TIMEX2> <TIMEX2 VAL=”P9M” ANCHOR_VAL=”1993-08” ANCHOR_DIR=”ENDING”>los últimos nueve meses</TIMEX2> <TIMEX2 VAL=”1994-01-20TEV”>el jueves por la tarde</TIMEX2> <TIMEX2 SET=”YES” VAL=”XXXX-XXXX”>diariamente</TIMEX2> <TIMEX2 VAL=”PRESENT_REF” ANCHOR_VAL=”1994-01-21T08:29” ANCHOR_DIR=”AS_OF”>ahora</TIMEX2> <TIMEX2 VAL=”P25Y”>25 años</TIMEX2> <TIMEX2 VAL=”1994”>el pasado año</TIMEX2> Figura 1: Arquitectura general del sistema Tabla 2 Ejemplo de anotación con TIMEX2 3.2 Finalmente, ha de generarse una salida por cada uno de los documentos fuente, en un formato XML específico (conocido como ficheros .apf). Los documentos en español que forman los corpus de ACE07 provienen de 3 fuentes diferentes: Agence France-Presse, Associated Press Worldstream y Xinhua. 3 Detecta las expresiones temporales existentes en el texto de los ficheros de entrada. Se compone de 2 submódulos. Carga de tokens: carga en memoria objetos con la información lingüística obtenida a partir de los ficheros generados por el procesador lingüístico. Timex autómata: en este punto, el sistema busca identificar timexes dentro de cada frase de los ficheros de entrada. La búsqueda se realiza a través de un autómata de estados finitos de acuerdo a la gramática que constituye su definición. Está compuesto de 25 estados, 12 de los cuales son finales. Se han definido 19 predicados para realizar las transiciones entre estados, como puede verse en la Figura 2. La Tabla 3 detalla los predicados del sistema desarrollado. Cuando un estado final es alcanzado y no se producen más transiciones, el fragmento de oración reconocido es enviado al Selector de expresiones temporales, dentro del módulo de normalización. Descripción del sistema La arquitectura general del sistema propuesto se muestra en la Figura 1. El procesamiento de cada entrada incluye 4 etapas secuenciales, desde el preproceso de los documentos de origen hasta la devolución de los resultados en el formato apropiado. 3.1 Reconocedor Preprocesador Este módulo convierte los documentos de entrada en ficheros intermedios enriquecidos, que incluyen información morfológica, sintáctica y semántica. La conversión es llevada a cabo en dos pasos: 115 María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez Figura 2 Descripción del autómata PREDICADO 1. pBasicDate 2. pInvertedBasicDate 3. pArticle 4. pDayAndMonth 5. pDateConnector 6. pYearNumber 7. pDayAndMonthAndYear 8. 9. 10. 11. pDayNumber pMonth pPreposition pDeicticTempex 12. pDemostrative 13. pPartsOfToday 14. 15. 16. 17. pDayOfWeek pYearWord pPastVerb pQuantity 18. pNumericQuantity 19. pDateUnit DESCRIPCIÓN {YYYYMMDD, YYYY-MM-DD, YYYY/MM/DD} YYYY∈{1600-2050}, MM∈{1-12}, DD∈{1-31} {DD-MM-YYYY | DD/MM/ YYYY} YYYY∈{1600-2050}, MM∈{1-12}, DD∈{1-31} {el, la, los, las} DD de MONTH DD∈{1-31}, MONTH = {enero | febrero |…| diciembre} {del,-,/,de} YYYY∈{1600-2050} DD de MONTH de YYYY. DD∈{1-31}, YYYY∈{1600-2050}, MONTH = {enero | febrero |…| diciembre} DD∈{1-31} {enero | febrero | …| diciembre | ene | feb | …| dic | ene.| feb.|…| dic.} en {hoy | ahora | anteayer | ayer | mañana | anoche | anteanoche | pasado_mañana | antes_de_ayer | antes_de_anoche | al_mediodía | por_la_noche | hoy_en_día | hoy_día} {esta | este} {mañana | tarde | noche | mediodía | medianoche | madrugada | momento | período | actualidad | temporada | actualmente} {lunes | martes | miércoles | jueves | viernes | sábado | domingo} {año} {hace | hacía | hará | hacen} {uno | una | dos |…| treinta | cuarenta | cincuenta | sesenta | setenta | ochenta | noventa | cien | ciento | mil | millar | millón} NUMERIC_VALUE∈{0 - 99999999} {día | semana | quincena | mes | bimestre | cuatrimestre | trimestre | semestre | año | bienio | trienio | lustro | quinquenio | sexenio | siglo} Tabla 3 Predicados del autómata 116 EJEMPLOS 20051202 2005-12-02 02-12-2005 02/12/2005 la 5_de_marzo de 2005 5_de_marzo_de _2005 30 diciembre en ayer esta mañana domingo año hace veinte 25 mes Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español 3.3 cabo una clasificación del tipo de expresión reconocida que se busca normalizar. Esta clasificación atiende a la propuesta definida en las Tablas 4 y 5. Por una parte, en la Tabla 4 se muestran los distintos tipos de expresiones absolutas que trata el sistema. En la Tabla 5 se detallan las expresiones deícticas contempladas. En ambos casos las timexes pueden estar completas (constan de día, mes y año) o incompletas (si carecen de alguno de ellos). Finalmente la Tabla 6 recoge los elementos que integran las expresiones reconocibles. Cada tipo de expresión se ha etiquetado con un identificador. Se detalla también el formato de entrada que corresponde a cada clase, así como el valor del atributo TIMEX2 VAL de la expresión una vez normalizada. En el caso de las expresiones deícticas se muestra un campo adicional: la fecha de referencia. Este dato es necesario para calcular el valor normalizado que corresponde a la expresión. En enfoque que toma el sistema establece que la fecha de referencia sea la fecha de creación de los documentos que procesa. Normalizador Responsable de normalizar las expresiones previamente reconocidas. Se compone de 5 submódulos. Selector de expresiones temporales: recibe las diferentes expresiones y las envía al submódulo de normalización adecuado. Al existir diferentes tipos de timexes cada una debe ser manejada de manera concreta. Normalización de expresiones absolutas: trata con expresiones temporales absolutas, es decir, aquéllas que por sí mismas están definidas completamente. Estas expresiones no necesitan de otro punto en el tiempo que actúe como referencia. A su vez, pueden ser completas (“3 de abril de 2005”), e incompletas (“abril de 2005”). Normalización de expresiones deícticas: maneja expresiones temporales deícticas, es decir, aquéllas que hacen referencia a otro momento en el tiempo que es preciso conocer para que puedan ser definidas completamente. La normalización en este caso no es posible inmediatamente, sino que requiere de ciertos cálculos previos. La fecha de referencia es tomada del documento analizado: puede ser obtenida del contexto, o bien puede considerarse la fecha de creación del propio documento. Esta segunda aproximación ha sido la elegida para evaluar las expresiones temporales por el normalizador. Normalización de intervalos: se ocupa de la normalización de períodos de tiempo, también conocidos como intervalos. Esto implica la existencia de dos timexes unidas por un conector. Normalización por traducción directa: el español contiene ciertas expresiones que no son propiamente una referencia temporal, sino un punto en el tiempo, como por ejemplo “Navidad”. Este tipo de expresiones son directamente traducidas a través de diccionarios, que almacenan la relación entre la expresión y la fecha normalizada a la que hacen referencia. 3.4 4 4.1 Resultados Sistema de puntuación en TERN La puntuación de un sistema participante en la tarea de TERN está definida como la suma de los valores de todas las expresiones TIMEX2 de salida de dicho sistema, normalizadas por la suma de los valores de todas las expresiones TIMEX2 de referencia, tal y como muestra la fórmula (1). El máximo valor de puntuación posible es un 100%, mientras que el mínimo no está limitado. (1) ∑ value _ of _ sys _ token TERN _ Value = value _ of _ ref _ token ∑ i sys i j j El valor de cada expresión se basa en sus atributos y cuánto se corresponden con los de referencia (ACE, 2007). 4.2 Post-procesador Resultados obtenidos Una vez procesados los corpus de evaluación, se enviaron para valorar los resultados obtenidos. Éstos se encuentran publicados en (NIST, 2007). En esta etapa se escriben los resultados de la normalización de expresiones en un formato de salida XML, predefinido para ACE07. 3.5 Clasificación de expresiones temporales según su normalización El submódulo Selector de expresiones temporales presentado anteriormente lleva a 117 María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez CATEGORÍA DE LA EXPRESIÓN EXPRESIONES ABSOLUTAS IDENTIFICADOR ABS_COMPLETE_0 ABS_COMPLETE_1 ABS_COMPLETE_2 FORMATO ENTRADA EJEMPLO ENTRADA DD-MM-YYYY DD/MM/YYYY YYYYMMDD [DET]+DD+”de”+MES+ ”de”+YYYY 31-12-2005 31/12/2005 20051231 [el] 31 de diciembre de 2005 ABS_INCOMPLETE_1 MES + “de” + YYYY ABS_INCOMPLETE_2 [DET]+YYYY diciembre de 2005 [el] 2005 ATRIBUTO VAL NORMALIZADO 2005-12-31 2005-12-31 2005-12-31 2005-12-31 2005-12 2005 Tabla 4: Propuesta de clasificación de expresiones temporales absolutas CATEGORÍA DE LA EXPRESIÓN IDENTIFICADOR FORMATO ENTRADA EJEMPLO ENTRADA EXPRESIONES DEÍCTICAS DEIC_COMPLETE_1 REFERENCIA_PRESENTE REFERENCIA_PASADO REFERENCIA_FUTURO hoy ayer mañana DEIC_COMPLETE_2 VERBO “HACER” + CANTIDAD + UNIDAD_TIEMPO hace un mes [DET]+DD+”de”+MES DEIC_INCOMPLETE_1 MES + DD DEIC_INCOMPLETE_2 DEIC_INCOMPLETE_3 DET + “año” DET + DIA_SEMANA [el] 29 de diciembre Diciembre 29 Este año El lunes FECHA DE REFERENCIA ATRIBUTO VAL NORMALIZADO 2005-12-31 2005-12-31 2005-12-31 2005-12-31 2005-12-30 2006-01-01 2005-12-31 2005-11-30 2005-12-31 2005-12-29 2005-12-31 2005-12-29 2005-12-31 2005-12-31 2005 2006-01-02 Tabla 5: Propuesta de clasificación de expresiones temporales deícticas DET = {el | la | los | las | este | esta} MES = {enero | febrero | marzo | … | diciembre} REFERENCIA_PRESENTE = {hoy | ahora | hoy_día | hoy_en_día | esta_mañana | esta_tarde | esta_noche | este_mediodía | esta_madrugada | este_momento | actualidad | actualmente} REFERENCIA_PASADO = {ayer | anoche | anteayer | antes_de_ayer | anteanoche} REFERENCIA_FUTURO = {mañana | pasado_mañana} CANTIDAD = {CANTIDAD_NUMERICA | CANTIDAD_NO_NUMERICA} CANTIDAD_NUMERICA = {1 | 2 | …} CANTIDAD_NO_NUMERICA = {uno | dos | …} UNIDAD_TIEMPO = {día | semana | quincena | mes | bimestre | trimestre | cuatrimestre | semestre | año | bienio | trienio | lustro | quinquenio | sexenio | siglo} DIA_SEMANA = {lunes | martes | miércoles | jueves | viernes | sábado | domingo} Tabla 6: Elementos integrantes de los distintos tipos de expresiones temporales reconocibles 4.2.1 b) el porcentaje de expresiones no detectadas es de un 34% c) el porcentaje de expresiones reconocidas cometiendo algún error es del 13% d) las falsas alarmas, es decir, expresiones identificadas como temporales sin serlo, suponen aproximadamente un 6% e) los valores de presión, recall y F-measure se sitúan en todos los casos por encima del 50%. Resultados generales Los resultados generales en términos cuantitativos se muestran en la Tabla 7, incluyendo también medidas de precisión, recall y F-measure. Del análisis de esta valoración se confieren los siguientes aspectos: a) la cantidad de expresiones total y correctamente reconocidas y normalizadas fue de un 47% 118 Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español Tabla 7 Porcentajes cuantitativos de los resultados generales # % OK 680 0.47 4.2.2 FA 94 0.06 miss 493 0.34 err 190 0.13 P 0.73 R 0.53 4.2.4 En general, puede considerarse que los resultados son bastante prometedores para tratarse de una tarea piloto. Aunque preliminares, arrojan una estimación global de la cantidad de expresiones temporales identificadas, así como de la calidad de esas detecciones. El número de falsas alarmas representa un porcentaje bajo del total de detecciones. Del mismo modo, la cantidad de expresiones no reconocidas o reconocidas erróneamente es aceptable para la mayor parte de los documentos analizados. Los valores de precisión, recall y F-measure de la tarea general son superiores a un 50%, y la puntuación final que obtiene el sistema está en un 47%. A la luz de estos resultados se detectan algunos aspectos destacables: a) la principal causa de pérdida de puntuación está ocasionada por la omisión de algunas expresiones no reconocidas, hecho altamente penalizado por el evaluador b) se producen errores debido a la imposibilidad del sistema para utilizar todos los atributos proporcionados por TIMEX2 F 0.62 Resultados del atributo VAL El sistema desarrollado, aún en una versión preliminar, no usa todos los atributos que la sintaxis de TIMEX2 provee. De hecho, sólo utiliza el atributo VAL para capturar toda la semántica de las expresiones temporales. Los resultados obtenidos concernientes al atributo VAL se reflejan en la Tabla 8. Éstos han sido los siguientes: a) el 62% de los elementos detectados están correctamente marcados b) el 3% de las detecciones corresponden a falsas alarmas c) no hay detecciones sin su correspondiente etiqueta VAL d) un 16% de las expresiones reconocidas no están completamente anotadas, esto es debido a que no se emplea el resto de atributos de TIMEX2 e) el 19% de detecciones fueron erróneas f) la precisión, recall y F-measure alcanzan porcentajes superiores al 95% 5 OK 582 0.62 4.2.3 FA 28 0.03 miss 0 0 sub 149 0.16 err 177 0.19 P 0.97 R 1 Conclusiones y trabajo futuro Por tratarse de la primera vez en que la tarea de TERN para español se celebra se carecen de resultados anteriores con los que realizar una comparación precisa de los obtenidos por el sistema expuesto. No obstante, aunque no exhaustivamente comparables, sí se dispone de sistemas previos que abordan tareas semejantes, para español (Saquete, 2006), italiano o inglés (Negri et al., 2006). Por otra parte, a la vista de las cifras de la evaluación, varios aspectos han de ser mejorados en el futuro: a) el etiquetado de las expresiones reconocidas deberá contemplar todos los atributos proporcionados por TIMEX2, con el fin de capturar tanta semántica como sea posible (duraciones, períodos de tiempo, etc.) b) la cobertura de la gramática del autómata ha de ser ampliada, añadiendo tipos de expresiones actualmente no considerados c) ha de llevarse a cabo la implementación de diccionarios con un mayor alcance de expresiones directamente traducibles, como festividades, vacaciones, etc. d) constituye un aspecto interesante el desarrollo de una guía para la anotación de Tabla 8 Porcentajes cuantitativos para el atributo VAL # % Análisis de los resultados F 1 Resultados por fuente de datos Los resultados obtenidos sobre los corpus de cada fuente, en la Figura 3, han sido muy similares. De hecho, la pérdida de puntuación del corpus de APW es debida a errores de anotación en los ficheros de referencia. Figura 3: Resultados por fuente de datos 119 María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez expresiones temporales en español. Esta útil herramienta mejoraría el rendimiento del sistema (¿se debe etiquetar “marzo” o “en marzo”?). Además, cada lenguaje cuenta con sus peculiaridades que deben ser tenidas en consideración. Existen expresiones en español cuyo tratamiento heredado del inglés carece de sentido. Por ejemplo, atendiendo a (Ferro et al., 2005) en la expresión “del 2 de marzo” se contempla etiquetar sólo “el 2 de marzo”, segmentando el artículo contracto. Del mismo modo, se considera una tarea relevante para llevar a cabo en el futuro el estudio de mecanismos de extracción de información contextual, que faciliten la manipulación de expresiones deícticas. Finalmente, supone una línea de trabajo prioritaria en futuras versiones del sistema la introducción de técnicas de aprendizaje automático en las etapas de reconocimiento y clasificación de expresiones temporales (Ahn, 2005), de manera que complementen los mecanismos actuales, basados en reglas. Moldovan, D. Bowden, M. y Tatu, M. 2006. A Temporally-Enhanced PowerAnswer in TREC 2006. En The Fifteenth Text REtrieval Conference (TREC 2006) Proceedings. Gaithersburg, MD, (USA). National Institute of Standards and Technology. 2007. NIST 2007 Automatic Content Extraction Evaluation Official Results (ACE07) v.2. http://www.nist.gov/speech/tests/ace/ace07/ doc/ace07_eval_official_results_20070402.h tm de Pablo-Sánchez, C., González Ledesma, A., Moreno-Sandoval, A. y Vicente-Díez, M.T. 2006. MIRACLE experiments in QA@CLEF 2006 in Spanish: main task, real-time QA and exploratory QA using Wikipedia (WiQA). En CLEF 2006 Proceedings. To be published. Negri, M., Saquete, E., Martinez-Barco, P., y Munoz, R. 2006. Evaluating Knowledgebased Approaches to the Multilingual Extension of a Temporal Expression Normalizer. En Proceedings of the Workshop on Annotating and Reasoning about Time and Events, Association for Computational Linguistics, páginas 30-37. Bibliografía ACE. 2007. The ACE Evaluation Plan. 2007. 2007 (ACE07) Pustejovsky, P., Castaño, J., Ingria, R., Saurí, R., Gaizauskas, R., Setzer, A., y Katz, G. 2003. TimeML: Robust Specification of Event and Temporal Expressions in Text. En Proceedings of the IWCS-5 Fifth International Workshop on Computational Semantics. Ahn, D., Fissaha, S. y de Rijke, M. 2005. Extracting Temporal Information from Open Domain Text: A Comparative Exploration. J. Digital Information Management, 3(1):14-20. Allen, J.F. 1983. Maintaining knowledge about temporal intervals. Communications of the ACM, 26 (11):832-843. Saquete, E., y Martinez-Barco, P. 2000. Grammar specification for the recognition of temporal expressions. En Proceedings of Machine Translation and multilingual applications in the new millennium, MT2000, páginas 21.1-21.7, Exeter, (UK). DAEDALUS. 2007. Data, Decisions and Language, S. A. http://www.daedalus.es Ferro, L., Gerber, L., Mani, I., Sundheim, B. y Wilson, G. 2005. TIDES 2005 Standard for the Annotation of Temporal Expressions. Saquete, E., Martínez-Barco, P., Muñoz, R., Viñedo, JL. 2004. Splitting Complex Temporal Questions for Question Answering Systems. En Proceedings of the ACL’2004 Conference, Barcelona. Llido, D., Berlanga. R. y Aramburu, M.J. 2001. Extracting temporal references to assign document event-time periods. Lecture Notes in Computer Science, 2113:62-71. Saquete, E., Martinez-Barco, P., Muñoz, R., Negri, M., Speranza, M., y Sprugnoli, R. 2006. Multilingual Extension of a Temporal Expression Normalizer using annotated corpora. En Proceedings of the Workshop Cross-language Knowledge Induction at EACL 2006. Trento. Mani, I. y Wilson, G. 2000. Robust Temporal Processing of News. En Proceedings of the ACL’2000 Conference, Hong Kong. MITRE Corporation. 2007. TimeBank. http://www.cs.brandeis.edu/~jamesp/arda/ti me/timebank.html 120 Lexicografía Computacional Procesamiento del Lenguaje Natural, nº39 (2007), pp. 123-130 recibido 18-05-2007; aceptado 22-06-2007 Inducción de clases de comportamiento verbal a partir del corpus SENSEM Laura Alonso Alemany Universidad de la República, Uruguay Universidad Nacional de Córdoba, Argentina alemany@famaf.unc.edu.ar Irene Castellón Masalles Universidad de Barcelona icastellon@ub.edu Nevena Tinkova Tincheva Universidad de Barcelona nevenatinkova@ub.edu Resumen: En este artículo presentamos la construcción de un clasificador con el objetivo final de asignar automáticamente patrones de subcategorización a piezas verbales no conocidas previamente, partiendo de una generalización de patrones anotados manualmente. A partir del banco de datos SENSEM (Fernández et al 2004) se han adquirido los esquemas de subcategorización de 1161 sentidos verbales. Estos esquemas se han agrupado en clases de equivalencia mediante técnicas de clustering. Cada clase representa una generalización sobre el comportamiento sintáctico-semántico de los verbos que contiene. Nuestro objetivo final es enriquecer un lexicón verbal con esquemas de subcategorización, asignando automáticamente cada pieza verbal a una de estas clases, a partir de ejemplos de corpus anotados automáticamente. Presentamos una evaluación preliminar de un clasificador que lleva a cabo esta tarea. Palabras clave: Adquisición de subcategorización, análisis sintáctico, clases sintácticas, sentidos verbales. Abstract: In this paper we present the construction of a classifier with the final objective of automatically assigning subcategorization frames to previously unseen verb senses of Spanish, starting from a generalization of manually annotated frames. Taking as a departure point the data base SENSEM (Fernández et al 2004), the subcategorization frames of 1161 verbal senses have been acquired. These frames have been grouped in equivalence classes by clustering techniques. Each class represents a generalization over the syntactico-semantic behaviour of the verbs in it. Our final target is to enrich a verbal lexicon with subcategorization frames, automatically assigning each verbal piece to one of these classes based on examples from corpus that have been automatically analyzed. We present a preliminary evaluation of a classifier that carries out this task. Keywords: Acquiring verbal subcategorizations, parsing, syntactic classes, verb senses. 1 Introducción En este artículo presentamos la construcción de un clasificador de sentidos verbales con el último fin de establecer un método para enriquecer un léxico verbal con información de subcategorización de forma semiautomática, extrapolando la información de un corpus anotado manualmente a ejemplos sin anotación. Partimos del corpus anotado a mano SENSEM (Fernández et al 2004), y caracterizamos los verbos que en él aparecen tomando como propiedades los esquemas sintácticos en los que ocurren. Después generalizamos el comportamiento de estos verbos mediante técnicas de clustering. Así obtenemos grupos de verbos con ISSN: 1135-5948 comportamientos sintácticos similares, ya que en un mismo cluster se agrupan verbos que ocurren con esquemas sintácticos parecidos. Analizamos diferentes opciones para obtener estas clases de verbos similares: diferentes subconjuntos de propiedades para describir a los verbos y diferentes técnicas de clustering. Aplicamos métricas cuantitativas y cualitativas para analizar las diferentes soluciones obtenidas, y finalmente optamos por estudiar con más detalle una solución en dos niveles que consta de 5 clases iniciales y 11 clases en un segundo nivel. Se ha evaluado la utilidad de esta solución para asignar una clase de comportamiento sintáctico a piezas verbales desconocidas con diferentes clasificadores aprendidos automáticamente. © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Laura Alonso Alemany, Irene Castellón Masalles y Nevena Tinkova * Los niños desean. (5) Los niños sueñan sueños tranquilos. Los niños sueñan. El resto del artículo está organizado de la siguiente manera. En la próxima sección se argumenta la utilidad de la información de subcategorización para la mejora del análisis sintáctico automático, analizamos algunos trabajos relacionados y exponemos nuestra aproximación. En la sección 3 presentamos la forma como preparamos los datos del corpus SENSEM, los parámetros de los experimentos de clustering y las métricas para evaluarlas. En la sección 4 mostramos cómo analizamos los resultados de los experimentos, con una breve descripción de las soluciones obtenidas y una descripción más extensa de una de las soluciones. En la sección 5 evaluamos la aplicación de las clases seleccionadas a ejemplos no vistos, mediante clasificadores aprendidos automáticamente. Finalmente, en la sección 6 presentamos las conclusiones de este trabajo y el esquema de trabajo futuro. De esta manera, la estructura de subcategorización se puede considerar como la información lingüística básica que posibilita la restricción del número de estructuras obtenidas en el análisis sintáctico. Esta información es crucial para el buen funcionamiento de los analizadores sintácticos automáticos, ya que hay problemas fundamentales para la buena resolución del análisis sintáctico cuyo comportamiento depende de la idiosincrasia de los núcleos léxicos. Entre los casos más complejos de resolución se encuentran determinar de qué núcleo léxico depende un sintagma preposicional (6), la resolución de la coordinación (7) o la determinación de la función de determinados sintagmas nominales (8). A estos problemas se añaden para el español el grado de libertad en el orden de ocurrencia de los constituyentes (9), haciendo que los casos anteriores sean más difícil resolución. Así, conocer la subcategorización del verbo permite evitar la mala identificación de categorías. 2 Motivación: la subcategorización y el análisis sintáctico La descripción del funcionamiento de una pieza verbal tanto a nivel sintáctico como semántico es una tarea necesaria para abordar la 'comprensión' del lenguaje en el área del procesamiento del lenguaje natural. Por un lado, el verbo es el núcleo semántico de la oración, es decir, el que distribuye papeles semánticos y por lo tanto, contribuye a la concreción del sentido de los elementos nominales y a la determinación del sentido global de la escena. Por ejemplo, en la frase (1), el verbo entrar asigna papel semántico de ruta a “la puerta”, por lo que se prima el sentido de “abertura” de la palabra puerta, mientras que en la frase (2) el verbo abrir le asigna el papel de tema, lo cual prima el significado de “armazón” para puerta. (6) Y lo haremos defendiendo las libertades y los derechos ciudadanos en el combate contra sus enemigos. (7) ... armaba sus modelos con pedazos de cartón, tablitas, goma, engrudo, cartulinas y lápices de colores. (8) Macri anuncia esta tarde su postulación a jefe de gobierno. (9) Papel fundamental han desempeñado en esta recuperación los evangelios llamados apócrifos, sobre todo los de carácter gnóstico. 2.1 (1) El viento entró por la puerta. (2) La puerta se abre sobre una explanada. Trabajo Relacionado Los trabajos realizados en el área de la adquisición de subcategorización tienen como objetivo final establecer los patrones de realización para cada unidad verbal. Para ello se trabaja con grandes corpus a partir de los cuales se extrae la información relativa a las realizaciones oracionales. La adquisición automática de dicha información ha sido tratada por diferentes autores en general partiendo de un corpus analizado a nivel sintáctico automáticamente (Korhonen et al 2003, Briscoe et al 1997) o manualmente (Sarkar et al 2000) y aplicando determinados filtros para no contemplar información de adjuntos, uno de los principales Por otro lado, desde una perspectiva puramente sintáctica, el verbo nos informa sobre el tipo de complementos que precisa para que una frase sea gramatical y si este esquema alterna o no con otros complementos, es decir, sobre las diferentes configuraciones sintácticas de los argumentos. En los siguientes ejemplos observamos cómo la misma construcción sintáctica da lugar a una frase agramatical con el verbo dormir o desear, pero no con soñar. (3) * Los niños duermen sueños tranquilos. Los niños duermen. (4) Los niños desean sueños tranquilos. 124 Inducción de Clases de Comportamiento Verbal a partir del Corpus SENSEM problemas en esta tarea. Estos trabajos han tenido un acierto de diferente grado en diferentes lenguas. Para el español encontramos trabajos basados en las diátesis o clases verbales que aplican técnicas simlares a los anteriores (Esteve 2004, Chrupala 2004), con resultados bastante positivos Una de las ambigüedades más difíciles de tratar es la de la adjunción de los sintagmas preposicionales. Algunos autores (Atserias 2006) proponen disponer de dos modelos, uno nominal y otro verbal para que en base a determinadas condiciones disputen por determinados argumentos en una situación ambigua. a los sentidos verbales, no a los lemas. En algunos trabajos sobre adquisición de subcategorizaciones se ha trabajado con el lema como unidad de subcategorización (Manning 1993, Briscoe et al 1997). Así, para aplicar el clasificador sobre corpus será necesario disponer de alguna aplicación de algún tipo de desambiguación de sentidos. Otra de nuestras hipótesis de partida es que en la base de datos SENSEM ya existen la mayoría de los esquemas de subcategorización existentes en español, por lo que resulta muy probable que se pueda caracterizar el comportamiento de un sentido verbal nuevo a partir de extrapolar de alguno de los verbos ya conocidos. 2.2 3 Nuestra Aproximación Metodología El objetivo inicial, como hemos dicho, consiste en inducir clases de comportamiento sintáctico de los verbos a partir de la información de SENSEM y extrapolar estos comportamientos a verbos desconocidos mediante clasificadores automáticos. A continuación describimos las fases del experimento: caracterización de los ejemplos, inducción de clases mediante clustering y clasificación de ejemplos no vistos. A diferencia de estos trabajos, nuestro método parte de una serie de patrones ya adquiridos y evaluados para los sentidos verbales descritos dentro del proyecto SENSEM (ver Figura 1). 3.1 Caracterización de los ejemplos anotados manualmente El procedimiento que seguimos se basa en los resultados de la anotación de SENSEM. Los ejemplos del banco de datos de SENSEM son frases de corpus periodístico anotadas a nivel sintáctico-semántico (Castellón et al. 2006). La anotación ha consistido en etiquetar en forma manual el verbo y los constituyentes directamente relacionados con él, donde cada constituyente se anota mediante: la categoría morfosintáctica (p.ej.: sintagma nominal, oración adverbial), la función sintáctica (p.ej.: sujeto, objeto preposicional), su relación con el verbo (p.ej.: argumento o adjunto), y el papel semántico (p.ej.: iniciador, tema afectado, origen, tiempo). El total de lemas tratados es de 250, seleccionados por su frecuencia en un corpus equilibrado de la lengua (Davies 2005), y el número de sentidos es de 1161. Para caracterizar el comportamiento sintáctico de los sentidos verbales debemos obtener procedemos en los siguientes pasos: 1) esquema de realización sintáctica de cada ejemplo: para cada ejemplo del corpus, se obtiene su esquema sintáctico Figura 1. Esquemas de subcategorización adquiridos para el sentido añadir_1 a partir de la base de datos verbal SENSEM. Nuestro objetivo final consiste en asociar esquemas de subcategorización a sentidos verbales no descritos en SENSEM. Para ello procedemos en dos pasos: 1) descubrimos grandes clases de comportamiento sintáctico distinguible dentro de los verbos de SENSEM, y 2) clasificamos nuevos predicados verbales en una de esas clases. Para llegar a este objetivo final partimos de una serie de hipótesis que creemos necesario exponer. En primer lugar, asumimos que la subcategorización es una información asociada 125 Laura Alonso Alemany, Irene Castellón Masalles y Nevena Tinkova con esquemas semejantes. Para ello caracterizamos a cada sentido como un vector, con los esquemas de realización posibles como dimensiones y el número de ejemplos del sentido que ocurren con cada esquema de realización como valor del sentido para esa dimensión. Esto nos dá una representación de los sentidos en un espacio matemático caracterizado por los esquemas de realización, donde podemos aplicar nociones de distancia (o semejanza). Sobre este espacio aplicamos métodos de clasificación no supervisada (clustering) para encontrar grupos de vectores (sentidos) cercanos en el espacio, es decir, que tienden a ocurrir con los mismos esquemas sintácticos. Utilizamos los algoritmos de clustering proporcionados por Weka (Witten et al 2005). Específicamente, elegimos Simple KMeans (Hartigan et al 1979) y el clustering basado en Expectation-Maximization (EM) (Dempster et al 1977). Además, en muchas soluciones obtuvimos una clase mayoritaria que contenía verbos con muy distintos comportamientos, típicamente, verbos que comparten algún esquema de subcategorización muy frecuente. Si intentamos aumentar el número de clusters que se pedía al método de clustering (ya fuera EM o KMeans), se producía una distribución muy irregular de la población. Esto nos llevó a investigar de forma preliminar una forma de clustering jerárquico partitivo: aplicamos clustering dentro de la población de las clases obtenidas por cada solución, para poder establecer más clases con menor población y más específicas en cuanto a los esquemas de subcategorización. Esta aproximación resultó adecuada para obtener clases con población bien distribuida. En el futuro aplicaremos un algoritmo de clustering jerárquico. 1.1) compactación de categorías que tienen la misma distribución, como por ejemplo los pronombres relativos (de sujeto u objeto directo) o los sujetos elididos con los sintagmas nominales, entre otros. 1.2) selección de argumentos, eliminando los constituyentes opcionales (adjuntos). 1.3) eliminación de orden de constituyentes, ordenando los constituyentes en orden alfabético. 2) comportamiento de cada sentido, caracterizado por el número de ejemplos del sentido que ocurren con cada esquema de realización sintáctica posible. De esta forma obtenemos el equivalente empírico al esquema de subcategorización, a partir de los datos asociados a los sentidos verbales de la base de datos verbal SENSEM (Fernández et al 2004). Hemos caracterizado los ejemplos (y por lo tanto los esquemas de subcategorización de los sentidos verbales) con diferentes subconjuntos de toda la información disponible: - categoría morfosintáctica de argumentos; - categoría y función sintáctica; - categoría, función y papel semántico. Además, observando los resultados se evidenció que los esquemas de realización sintáctica con pocas ocurrencias en corpus introducían mucho ruido en el espacio de búsqueda, causando agrupaciones extrañas. Así decidimos caracterizar los esquemas de subcategorización utilizando como atributos sólo los esquemas de realización con más de 5 o con más de 10 ocurrencias en el corpus, lo cual redujo sensiblemente el número de atributos, como se ve en la Tabla 1. cat func + cat papel + func + cat todos 240 785 2854 > 5 ocs. 98 213 464 > 10 ocs. 69 130 317 4 Selección de un conjunto adecuado de clases de equivalencia de sentidos verbales 4.1 Métodos para evaluar soluciones de clustering Tabla 1: Número de esquemas de realización sintáctica distintos encontrados en el corpus al caracterizar los ejemplos con diferentes aproximaciones. 3.2 La gran cantidad de parámetros descritos en el apartado anterior deja entrever el gran número de experimentos que llevamos a cabo, con soluciones de clustering con diferentes métodos y diferentes subconjuntos de atributos para caracterizar a los sentidos verbales. Por lo tanto se hizo necesario establecer métodos de evaluación sistemáticos, descritos extensamente en (Alonso et al. 2007). Se trata de una Inducción de clases de verbos A partir de los esquemas de subcategorización de los sentidos presentes en el corpus, con los distintos subconjuntos de atributos descritos arriba, tratamos de descubrir clases de sentidos 126 Inducción de Clases de Comportamiento Verbal a partir del Corpus SENSEM combinación de inspección cualitativa de las clases obtenidas y las siguientes métricas sobre las soluciones: x Dada una lista de parejas de verbos muy similares creada a mano, observamos si se agrupan en las mismas clases (bonificado) o no (penalizado). x Índice de solapamiento de los esquemas que caracterizan a las diferentes clases: un bajo índice de solapamiento indica que los sentidos de las distintas clases efectivamente ocurren con distintos esquemas. x Distribución de la población en las clases, penalizando soluciones con clases con poca población (uno o dos sentidos), ya que no generalizan comportamientos. x Índice de distinguibilidad de sentidos, que indica si los distintos sentidos de un lema verbal se distribuyen en distintos clusters (bonificado) o en los mismos (penalizado). Dado que una de las diferencias entre sentidos verbales puede ser su distinto comportamiento sintáctico, éste es un indicador sólo orientativo. En las soluciones con categoría, función y papeles semánticos se distinguen claramente clases con tipos distintos de esquemas de subcategorización, especialmente las soluciones en las que sólo se tienen en cuenta los esquemas de realización que ocurren más de 5 o 10 veces, debido a una notable reducción en la escasez de datos (data sparseness) cuando usamos sólo esquemas frecuentes. En estas soluciones encontramos siempre 4 clases, una mayoritaria donde claramente encontramos los verbos con prácticamente cualquier patrón de argumentos pero con una importante presencia de diátesis intransitivas, que se producirían por la elisión de alguno de los argumentos en los ejemplos de corpus, junto con verbos propiamente intransitivos; una segunda clase bastante grande con verbos fuertemente caracterizados como transitivos, con pocas diátesis intransitivas; y dos clases pequeñas con verbos con algún argumento con papel muy marcado (origen, destino), con pocas diátesis intransitivas. En las soluciones donde los verbos están caracterizados mediante categoría y función, se distingue en todos los casos una clase con más de la mitad de la población, que contiene verbos con comportamientos muy dispares, con el rasgo común de contar con alguna diátesis intransitiva, probablemente causada, como en el caso de las aproximaciones con papeles semánticos, por la elisión de alguno de los argumentos. Se suele distinguir también claramente una o más clases de verbos con algún argumento preposicional o adverbial, y también una clase con verbos ditransitivos y sus diátesis transitivas e intransitivas. Finalmente, las soluciones donde los sentidos se caracterizan únicamente mediante categoría tienen una tendencia a producir muchas clases, pero la población se encuentra bien distribuida en clases de tamaño mediano, excepto en la solución que tiene en cuenta todos los esquemas. En las soluciones con patrones que ocurren más de 5 y más de 10 veces, se encuentra siempre una clase con la mayor parte de la población, dos clases medianas y un número variable de clases más pequeñas. Resulta difícil generalizar el comportamiento de los verbos de estas clases por la gran ambigüedad de los patrones basados únicamente en categorías. 4.2 Descripción general de las diferentes soluciones En esta sección describimos sucintamente las soluciones de clustering obtenidas con diferentes criterios para caracterizar los sentidos verbales, para motivar la elección final de una de ellas. En general, el método KMeans, que necesita un parámetro especificando el número de clases que se quieren establecer, proporcionaba peores resultados que EM, sobretodo respecto a la distribución de la población. En concreto, tendía a proporcionar clases con un solo sentido verbal en las soluciones que proponían más de tres clases. En las soluciones con tres o menos clases el índice de solapamiento de esquemas y el test de parejas resultaban considerablemente peor que para EM. Por esa razón optamos por EM como método para obtener las soluciones de clustering. Una vez decidimos que EM sería nuestro método, inspeccionamos con más detalle las soluciones obtenidas con diferentes tipos de información. 127 Laura Alonso Alemany, Irene Castellón Masalles y Nevena Tinkova Las dos siguientes clases (clase 1, 103 sentidos, y clase 3, 68 sentidos) están caracterizadas por alternancias transtiva – ditransitiva – intransitiva, con omisiones de ciertos constituyentes. Estas clases no presentan subclases. La última clase, (clase 4, 63 sentidos) contiene sentidos caracterizados por esquemas básicamente preposicionales alternantes con intransitivos y con la presencia de atributos. Las tres subclases que contiene están diferenciadas por diversos esquemas. 4.1 se caracteriza por la alternancia preposicional – intransitiva con atributos, la clase 4.2 es totalmente preposicional y en la clase 4.3 se clasifican sentidos con esquemas transitivos alternantes con preposicionales. Como vemos, esta solución presenta clases mixtas y algunas que contienen sentidos con comportamiento comparable a los de otras clases. Parece evidente que habrá que profundizar en el método de inducción de clases, pero los resultados hasta el momento son alentadores. 4.3 Solución seleccionada: 5 clases, función + categoría, esquemas que ocurren > 10 veces A partir de los resultados y comparando las diferentes medidas de evaluación, finalmente se optó por tomar algunas de las clases de las soluciones de clustering que utilizan información de categoría y de función sintáctica. Esta decisión vino parcialmente condicionada por la caracterización de los verbos a los que se pretende asignar una clase de forma automática en última instancia. Los ejemplos de estos verbos podrán ser analizados automáticamente a nivel sintáctico, pero no al nivel de papeles semánticos. Por este motivo en este primer momento prescindimos de las clases obtenidas con información de papeles semánticos Tomamos pues como punto de referencia la solución en 5 clases, obtenida con los esquemas caracterizados con función y categoría con más de 10 ocurrencias en corpus. Dada la gran compacidad de esta solución, aplicamos clustering dentro de todas las clases, con ánimo de observar si era posible obtener clases más granulares dentro de la misma aproximación. El total de clases es de 5 que se subdivide en un total de 11 clases. La clase más grande (clase 5, 477 sentidos) está compuesta por sentidos verbales que alternan entre esquemas transitivos e intransitivos y en algún caso con preposicionales. Las subclases obtenidas a partir de ésta están mucho más caracterizadas, las clases 5.5, 5.3 y 5.2 agrupan los sentidos que alternan entre esquemas transitivos e intransitivos, las clases 5.4, 5.6, 5.7 y 5.8 se caracterizan por la alternancia intransitivo – preposicional, con alguna diferencia por la aparición de predicativos o de esquemas transitivos. A este nivel la asociación de una clase a esquemas como sn v sn o sn v sp parece bastante asumible. En la segunda clase (clase 2, 163 sentidos) predominan realizaciones preposicionales e intransitivas que se justifican por la omisión de los argumentos preposicionales. En algún caso encontramos esquemas ditransitivos alternantes con preposicionales. Las subclases obtenidas son muy similares entre ellas exceptuando la presencia en una de esquemas ditranstivos (2.2) y la ausencia en la otra, que se caracteriza por contener esquemas con circunstanciales (2.1). 5 Evaluación para aplicación final Hemos aprendido diversos clasificadores que, dado un sentido caracterizado como vector por sus esquemas de realización, lo asigna a una de las grandes clases de comportamiento verbal inducidas en el paso anterior. Hemos aprendido dos clasificadores bayesianos (clásico y Naive Bayes), dos basados en decisiones (J48, basado en árboles de decisión, y JRip, basado en reglas de decisión), uno basado en los k vecinos cercanos (IBk, con k=1), y una baseline, equivalente a los resultados obtenidos por casualidad (OneR). Estos clasificadores han sido evaluados mediante ten-fold cross validation en el corpus SENSEM. Recordemos que el objetivo final de la nuestro trabajo es asignar una clase de subcategorización a verbos no descritos previamente, a partir de ejemplos de corpus analizados automáticamente. Para evaluar la utilidad para este objetivo de las clases de equivalencia descritas en el apartado anterior, analizamos el corpus SENSEM automáticamente con Freeling (Carreras et al 2004). La única información que utilizamos del corpus SENSEM es el alcance de los constituyentes dominados por el verbo en cada ejemplo. Hemos comparado el desempeño de los clasificadores en ejemplos caracterizados con análisis 128 Inducción de Clases de Comportamiento Verbal a partir del Corpus SENSEM automático y en ejemplos caracterizados con el análisis manual de SENSEM. También hemos comparado el desempeño de los clasificadores en las grandes clases descritas en el apartado anterior (clases gruesas), y en las clases de granularidad más fina (clases finas). Los resultados pueden verse en la Tabla 2. clases gruesas manual auto los atributos tiene un valor distinto de cero, justamente, el atributo que se corresponde con el esquema de realización con el que ocurre el ejemplo en concreto. Vemos los resultados en la Tabla 3. clases gruesas manual auto clases finas manual auto Naive Bayes IBk Bayes J48 JRip OneR Naive Bayes IBk Bayes J48 JRip OneR 41 25 78 63 53 24 76 64 72 63 56 25 70 52 58 26 69 60 54 31 11 19 11 8 Tabla 2. Porcentaje de sentidos bien clasificados mediante diferentes clasificadores, con los ejemplos anotados manualmente o automáticamente, con clases finas o gruesas (ver apartado 4.3). 40 48 41 41 30 26 30 32 28 31 27 26 clases finas manual auto 33 37 30 34 28 2 22 23 34 24 22 2 Tabla 3. Porcentaje de ejemplos bien clasificados mediante diferentes clasificadores, con los ejemplos anotados manualmente o automáticamente, con clases finas o gruesas (ver apartado 4.3). Respecto a la clasificación de ejemplos (vs. sentidos) podemos ver que, aunque los resultados son significativamente mejores que los obtenidos para la baseline en las clases finas, en las clases gruesas los resultados no difieren significativamente, especialmente si los ejemplos son caracterizados con análisis automático. Los métodos simples, especialmente el basado en distancia, IBk, siguen dando los mejores resultados. En clases finas, los resultados son equiparables en análisis manual o automático, pero los porcentajes de ejemplos bien clasificados son demasiado bajos en ambos casos. Se puede observar que todos los clasificadores superan significativamente la baseline de OneR. En clases gruesas, los clasificadores simples como Naive Bayes o IBk dan los mejores resultados. Se observa un decremento de unos 10-15 puntos en el desempeño de los clasificadores cuando los ejemplos son caracterizados mediante un análisis automático, lo cual supone una importante desmejora en los resultados, que tendrá que ser mejorada en el futuro. En clases finas el desempeño de Naive Bayes cae en picado, mientras que el del resto de clasificadores cae unos 10-15 puntos. Probablemente esta desmejora se dá porque los datos disponibles para esas clases, con menos población, son más escasos y los clasificadores no pueden generalizar adecuadamente. En los ejemplos caracterizados automáticamente, la desmejora es muy importante, y, aunque no llega a los niveles del baseline, la significatividad de la clasificación se acerca peligrosamente a los niveles de la casualidad. Habrá que estudiar detenidamente las causas de error para mejorar estos resultados en el futuro. Por otro lado, hemos realizado otro experimento en el que hemos simulado la ausencia de un algoritmo para desambiguar sentidos. Por ese motivo, la unidad a aprender y clasificar ya no era el sentido verbal, sino que cada uno de los ejemplos era caracterizado como un vector. Estos vectores tienen una caracterización muy pobre, ya que sólo uno de 6 Conclusiones y trabajo futuro Hemos presentado una aproximación al enriquecimiento semiautomático de un léxico verbal con esquemas de subcategorización. La aproximación se basa en dos pasos: 1) inducción de grandes clases de comportamiento verbal a partir de ejemplos anotados manualmente, y 2) aprendizaje de clasificadores que etiquetan nuevos ejemplos con esas clases. Presentamos un método para evaluar sistemáticamente las clases obtenidas con esta aproximación. Mostramos una aplicación preliminar de todo el proceso, con resultados prometedores pero claramente mejorables. A nivel lingüístico, observamos que las clases de comportamiento verbal inducidas se caracterizan por comportamientos diatéticos de las piezas verbales, por lo que nos anima a seguir investigando en esta línea. 129 Laura Alonso Alemany, Irene Castellón Masalles y Nevena Tinkova Carreras, X., I. Chao, L. Padró y M. Padró. 2004. FreeLing: An Open-Source Suite of Language Analyzers. LREC'04, Lisboa, Portugal. Castellón, I., A. Fernández, G. Vázquez, L. Alonso y J. A. Capilla. 2006. The SENSEM Corpus: a Corpus Annotated at the Syntactic and Semantic Level. LREC’06, Génova, Italia, p. 355-359. Chrupala, G. (2003) Acquiring Verb Subcategorization from Spanish Corpora. Research project presented for the Diploma d'Estudis Avançats. Universitat de Barcelona Davies, M. 2005. A Frequency Dictionary of Spanish. New York and London: Routledge. Dempster, A., N. Laird y D. Rubin. 1977. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society, 39. Esteve, E. (2004) “Towards a semantic classification of Spanish verbs based on subcategorisation information” Proceedings of the ACL 2004 workshop on Student research. Barcelona Fernández, A., G. Vázquez e I. Castellón. 2004. SENSEM: base de datos verbal del español. G. de Ita, O. Fuentes, M. Osorio (ed.), IX IberoAmerican Workshop on Artificial Intelligence, IBERAMIA. Puebla de los Ángeles, México, p. 155-163. Hartigan, J. A. y M. A. Wong. 1979. Algorithm as136: a k-means clustering algorithm. Applied Statistics, 28, p.100-108. Korhonen, A. 2002. Subcategorization Acquisition. PhD thesis, Computer Laboratory, University of Cambridge. Korhonen, A. y J. Preiss. 2003. Improving subcategorization acquisition using word sense disambiguation. ACL 2003. Manning, Ch. 1993. Automatic acquisition of a large subcategorization dictionary from corpora. ACL’93, p. 235-242. Sarkar, A. y D. Zeman. 2000. Automatic extraction of subcategorization frames for Czech. COLING’2000. Witten, I. H. y E. Frank. 2005. Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann. Por otro lado, los resultados de la compactación y clasificación de los sentidos ya conocidos en clases, a partir del análisis sintáctico automático son muy prometedores, y aportan datos cruciales sobre la importancia de la desambiguación verbal para asignar marco de subcategorización. El trabajo futuro que se presenta es mucho e interesante. En primer lugar, creemos importante experimentar más con los diferentes métodos y parámetros de clustering para poder inducir las mejores clases desde una perspectiva lingüística. En especial, nos planteamos el uso de técnicas de clustering jerárquico. Además, como hemos expuesto, la aplicación del procedimiento en un entorno real, requiere partir de corpus no anotados y no desambiguados semánticamente. Dada la complejidad del proceso hemos dividido la tarea en dos fases, para poder evaluar cada una de las situaciones independientemente. En una primera fase, la que hemos presentado en este artículo, utilizamos el corpus de SENSEM, donde los sentidos verbales están desambiguados, pero sin la anotación manual sintáctico- semántica. Esta experimentación requiere de un análisis morfosintáctico automático y de la aplicación del clasificador. Una segunda fase consiste en evaluar el clasificador sobre el mismo corpus pero utilizando WSD y análisis automático, para realizar una prueba de adquisición sobre un corpus controlado. Esta fase prevé la aplicación del clasificador sobre corpus de verbos no conocidos. Referencias Alonso, L., I. Castellón y N. Tincheva. 2007. Obtaining coarse-grained classes of subcategorization patterns for Spanish. RANLP 2007, Borovets, Bulgaria. Atserias, J. 2006. Towards Robustness in Natural Language Understanding. Tesis doctoral. Lengoaia eta Sistema Informatikoak Saila, Euskal Herriko Unibertsitatea, Donosti. Atserias, J., B. Casas, E. Comelles, M. González, L. Padró y M. Padró (2006). FreeLing 1.3: Syntactic and semantic services in an opensource NLP library. LREC'06, Génova, Italia. Brent, M. R. 1993. From Grammar to Lexicon: Unsupervised Learning of Lexical Syntax. Computational Linguistics, 19, p. 243-262. Briscoe, T. y J. Carroll. 1997. Automatic extraction of subcategorization from corpora. Proceedings of the 5th conference on Applied Natural Language Processing, p. 356-363. Agradecimientos Esta investigación ha sido posible gracias al proyecto KNOW (TIN2006-1549-C03-02) del Ministerio de Educación y Ciencia, a una beca Postdoctoral Beatriu de Pinós de la Generalitat de Catalunya otorgada a Laura Alonso y a la beca Predoctoral FI-IQUC también de la Generalitat de Catalunya, otorgada a Nevena Tinkova, con número de expediente 2004FI-IQUC1/00084. 130 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 131-137 recibido 16-05-2007; aceptado 22-06-2007 An Open-source Lexicon for Spanish Montserrat Marimon, Natalia Seghezzi, Núria Bel IULA – Universitat Pompeu Fabra Pl. de la Mercè 10-12 08002-Barcelona {montserrat.marimon,natalia.seghezzi,nuria.bel}@upf.edu Resumen: En este artículo presentamos el componente léxico de una gramática para el español. Nuestro objetivo es describir la información lingüística que codificamos en las entradas léxicas mediante una jerarquía de tipos con herencia múltiple de la cual se pueden extraer subconjuntos de datos necesarios para aplicaciones concretas. Palabras clave: gramática, recursos léxicos, español. Abstract: In this paper we describe the lexical component of a grammar for Spanish. Our aim is to depict the linguistic information we encode in the lexical entries by means of a multiple inheritance hierarchy of types from which subsets of data required for concrete applications could be extracted. Keywords: grammar, lexical resources, Spanish. 1 data required for concrete applications could be extracted.2 Introduction The lexical component, the repository of knowledge about the words of a particular language, plays a major role in NLP systems. The level of linguistic information that the lexicon contains –morpho-syntactic, syntactic, semantic– is determined by the application where it is used. The construction of lexical resources, however, is expensive in terms of both money and time; hence, they should be reused by more than one application. In this paper we describe the lexical component of the Spanish Resource Grammar (SRG), a wide-coverage open-source1 unification-based grammar for Spanish. Ours is a large lexicon with fine-grained information encoded by means of a multiple inheritance hierarchy of types. This paper aims to depict the linguistic information we have encoded in the lexical entries from which subsets of linguistic 2 The Spanish Resource Grammar The SRG is grounded in the theoretical framework of HPSG (Head-driven Phrase Structure Grammar; Pollard and Sag, 1994) and uses Minimal Recursion Semantics (MRS) for the semantic representation (Copestake et al., 2006). The SRG is implemented within the Linguistic Knowledge Building (LKB) system (Copestake, 2002), based on the basic components of the grammar Matrix, an open– source starter-kit for the development of HPSG grammars developed as part of the LinGO consortium’s multilingual grammar engineering (Bender et al., 2002). The SRG has a full coverage of close word classes and it contains about 50,000 lexical entries for open classes. The grammar also has 40 lexical rules to perform valence changing operations on lexical items and 150 structure rules to combine words and phrases into larger 2 1 The SRG may be downloaded from: http://www.upf.edu/pdi/iula/montserrat.marimon/. ISSN: 1135-5948 This research was supported by the Spanish Ministerio de Educación y Ciencia Juan de la Cierva and Ramon y Cajal programmes. © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Montserrat Marimon, Natalia Seghezzi y Núria Bel constituents and to compositionally build up the semantic representation. The SRG is part of the DELPH-IN opensource repository of linguistic resources and tools for writing (the LKB system), testing (The [incr tsbd()]; Oepen and Carroll, 2000) and efficiently processing HPSG grammars (the PET system; Callmeier, 2000). Further linguistic resources that are available in the DELPH-IN repository include broad-coverage grammars for English, German and Japanese as well as smaller grammars for French, Korean, Modern Greek, Norwegian and Portuguese.3 3 around 5,500 types), an orthography and a semantic relation. Figure 1 shows an example.4 ejemplo_n1 := n_intr_count_le & [ STEM < "ejemplo" >, SYNSEM.LKEYS.KEYREL.PRED "_ejemplo_n_rel" ]. Figure 1: Example of lexical entry. In the following subsections we focus on the lexical types we have defined for open classes –main verbs, common nouns, adjectives and adverbs– and we describe the linguistic information we have encoded in each type. Due to space limits, we will only present the mostly used types. Note also that even though we will only show the most relevant LOCAL information, open class types are also defined by a set of NONLOCAL amalgamation types. Through the type uninflected-lexeme we show in Figure 2, types for open classes inherit information common to all of them. This type basically identifies the HOOK's features LTOP and INDEX. The lexicon of the SRG The basic notion of the SRG is the sign. Briefly, a sign is a complex feature structure which conveys information about the orthographical realization of the lexical sign in STEM and syntactic and semantic information in SYNSEM. SYNSEM structures information related to the treatment of long distance dependencies in NONLOCAL and LOCAL information which includes head information that percolates up the tree structure via HEAD, subcategorization information in VAL(ENCE), whose attributes are SUBJ, COMPS, SPR and SPEC, for subject, complements, specifier and specified element, and semantic information encoded in CONT. The MRS, encoded in the feature SYNSEM.LOCAL.CONT, is a flat semantic representation which consists of: 1) RELS - a list of semantic relations each with a “handle” (used to express scope relations) and one or more roles. Relations are classified according to the number and type of arguments; lexical relations of the same type are distinguished by the feature PRED; 2) HCONS - a set of handle constraints reflecting syntactic limitations on possible scope relations among the semantic relations; and 3) HOOK - a group of distinguished semantic attributes of a sign. These attributes are: LTOP - the local top handle, INDEX - the salient nominal instance or event variable introduced by the lexical semantic head, and XARG - the semantic index of the sign's external argument. Each entry of the lexicon consists of a unique identifier, a lexical type (one of about 400 leaf types defined by a type hierarchy of uninflected-lexeme := lex-item & [ SYNSEM [ LOCAL.CONT [ HOOK [ LTOP #handle, INDEX #ind ], RELS.LIST < #key & relation & [ LBL #handle, ARG0 #ind, PRED predsort ],... > ], LKEYS.KEYREL #key ] ]. Figure 2: Basic type for open classes. 3.1 Common nouns All common nouns are specified as taking an empty list for the valence features SUBJ and SPEC, and for MOD, since only temporal nouns and nouns in apposition may function as modifiers.5 Common nouns take a non-empty list value for SPR; here agreement between nouns and specifiers is dealt with by identifying the INDEX of the specifier and that of the noun (#ind), which is of type ref(erential)-ind(ex). Finally, common nouns get the semantic relation type basic-noun-relation. This 4 The attribute SYNSEM.LKEYS.KEYREL provides a shortcut to the semantic relation in RELS with highest scope and it is only used in the lexicon (see Figure 2). 5 Modifying nouns are dealt with by a unary structure rule that generates a modifying nominal sign. 3 See http://www.delph-in.net/. 132 An Open-Source Lexicon for Spanish information is encoded in the type basiccommon-noun-lex, as we show in Figure 3. both human (sergeant) and locative (cape), takes hum_loc as value). Nouns taking complements are classified into three types. Then, each type is further subtyped according to such linguistic properties as the number and category of subcategorized for elements or the semantic relation type (i.e. the semantic roles of syntactic arguments). These three super-types distinguish: 1) quantifying nouns, which cover three subtypes: n_pseudo-part_le for pseudo-partitive nouns (e.g. montón (pile)), n_part_le for partitive nouns (e.g. mayoría (majority)) and n_group_le for group nouns (e.g. grupo (group)). 2) de-verbal nouns, which cover: the type n_subj-nom_le for subject nominalizations (e.g. agresor (attacker)). Their syntactic argument is identified with the arg2. Lexical semantic information is given to subject nominalizations in the lexicon itself. nouns derived from unaccusative verbs, which are typed either as n_event-result_intr_le, if they are intransitive (e.g. muerte (death)), or as n_event-result_intr_lcomp_le, if they take a locative complement (e.g. salto a/hacia (jump to/towards)). These types of nouns denote both events/processes and results (and get the lexical semantic type abs(tract)_pro(cess)), and they identify the syntactic argument with the arg2. nouns denoting results derived from unergative verbs (e.g. gruñido (roar)) and intransitive verbs taking marked NPs (e.g. lucha contra (fight against)). These nouns are typed as n_result_intr_le and n_result_intr_ppcomp_le, respectively. Semantically, both classes of nouns are typed as abs(tract), and identify the first argument with arg1 and the second one with arg2. Marking prepositions are specified in the lexical entries. nouns derived from transitive (or ditransitive) verbs denoting events/processes (e.g. construcción (construction), envío (dispatch)). basic-common-noun-lex := uninflected-lexeme & [ SYNSEM.LOCAL [ CAT [ HEAD noun & [ MOD < > ], VAL [ SUBJ < >, SPEC < >, SPR < [ OPT -, LOCAL.CONT.HOOK.INDEX #ind] >]], CONT nom-obj & [ HOOK.INDEX #ind & ref-ind & [ PNG.PN 3per ], RELS.LIST < basic-noun-relation & [ PRED nom_rel ],... > ] ]. Figure 3: Basic type for common nouns. Then, lexical subtypes for nouns are basically distinguished on the basis of valence information and the mass / countable / uncountable distinction. This semantic classification determines the syntactic behavior of nouns w.r.t. the specifiers they may co-occur. Briefly, countable nouns require an specifier when they are in singular (e.g. se sentó en *(la) silla ((s)he sat in (the) chair)), they may cooccur with cardinals (e.g. dos/tres sillas two/three chairs)) and they only occur in plural with quantifying pronouns such as poco (few) (e.g. *poca silla/pocas sillas (few chairs)); uncountable nouns cannot co-occur with partitives (e.g. *un trozo de paz (a piece of peace)), nor with distributional quantifiers such as cada (each) (e.g. *cada paz (each peace)), or with cardinals (e.g. *tres paces (three peaces)); finally, mass nouns cannot co-occur with cardinals (e.g. *tres aburrimientos (three boredoms)), but they may co-occur with partitives (e.g. un poco de aburrimiento (a little of boredom)). Non-argumental common nouns; i.e. nouns taking an empty list as value for COMPS, are classified as n_intr_count_le, n_intr_uncount_le or n_intr_mass_le. Nouns with both a count and a mass reading (e.g. manzana (apple); pastel de manzana (apple pie) vs tres manzanas (three apples)) are assigned the type n_intr_mass-or-count_le. Besides, we have two subtypes: n_intr_coll_le for collective nouns (e.g. ejército (army)) and n_intr_plur_le for plural nouns (e.g. celos (jealousy)). Lexical semantic information is given to nonargumental nouns in the lexicon itself as value of the feature SYNSEM.LKEYS. KEYREL.ARG0.SORT. We have defined a hierarchy of types for dealing with nouns with more than one reading (e.g. cabo, which may be 133 Montserrat Marimon, Natalia Seghezzi y Núria Bel These nouns are typed as n_trans_le. Semantically, they are typed as pro(cess), and identify the first argument with arg1 and the second one with arg2. 3) Non-derived argumental nouns, such as relational nouns (e.g. amigo (friend)), body parts (e.g. pierna (leg))), deadjectival nouns (e.g. belleza (beauty), adicción a (addiction to)) and nouns derived from measure psychological, inchoative and perception verbs (e.g. peso (weight), temor (fear)), are grouped together and distinguished according to the number and the category of the complements and countability features. Table 1 shows the subtypes we have defined for this class of nouns. The columns refer to the type name, the countability features –mass (f1), count (f2), uncount (f3)–, and subcategorized for elements: de(of)marked NPs (f4), NPs marked by other prepositions than de (f5), finite completive clause (f6), infinitive clauses (f7) and interrogative clauses (f8). Lexical entries that belong to these types specify both their lexical semantic type and marking prepositions. type f1 f2 f3 f4 f5 f6 f7 f 8 n_ppde_count_le - + - + - - - - n_ppde_uncount_le - - + + - - - - n_ppde_mass_le + - - + - - - - n_ppde_mass-or-count_le + + - + - - - - n_cp_prop_count_le - + - - - + - - n_cp_ques_count_le - + - - - - - + n_ppde_ppcomp_count_le - + - + + - - - n_ppde_ppcomp_uncount_le - - + + + - - - n_ppde_ppcomp_mass_le + - - + + - - - n_ppde_prop_fin_count_le - + - + - + - - n_ppde_prop_fin_uncount_le - - + + - + - - n_ppde_prop_inf_count_le - + - + - - + - n_ppde_prop_inf_uncount_le - - + + - - + - n_ppde_ques_count_le - + - + - - - + n_ppde_ques_uncount_le - - + + - - - + Table 1: Types for non-derived argumental common nouns. The SRG has 35 types for common nouns and about 28,000 nominal entries. 3.2 Adjectives All adjectival types inherit the information encoded in the type basic-adjective-lex, we show in Figure 4. This type specifies that the value for HEAD is of type adj, the SUBJ-list is empty, and the feature MOD takes a non-empty list whose element is a nominal sign. The semantic index of the element in the MOD list is identified with the external argument of the adjective (#ind). Finally, the basic-adjective-lex type assigns the basic-adj-relation type to adjectives. basic-adjective-lex := uninflected-lexeme & [ SYNSEM.LOCAL [ CAT [ HEAD adj & [ MOD < [ LOCAL [ CAT.HEAD noun, CONT.HOOK.INDEX #xarg ]] > ], VAL.SUBJ < > ], CONT [ HOOK.XARG #xarg, RELS.LIST < basic-adj-relation & [ PRED basic_adj_rel ],... > ] ] ]. Figure 4: Basic type for adjectives. Then, adjectives in the SRG are crossclassified according to: 1) their position within the NP; i.e. whether they are pre and/or post modifiers (e.g. el mero hecho (the simple fact) vs un chico listo (a clever guy)); 2) whether they are predicative or nonpredicative. Predicative adjectives are in turn distinguished on the basis of the copulative verb –ser or estar– they may co-occur (e.g. ser listo (to be clever) vs estar listo para (to be ready for)); 3) whether they are gradable or not. Gradable adjectives may be modified by intensifying adverbs (e.g. muy guapa (very pretty)) and may occur in 134 An Open-Source Lexicon for Spanish comparative and measure constructions (e.g. más alto que Juan (taller than Juan), dos metros de largo (two meters long)); 4) whether they are intersective (the property applies to the noun in its absolute sense (e.g. nieve blanca (white snow)) or scopal (the property only applies to the modified noun (e.g. excelente músico (excellent musician)); 5) whether they are positive (e.g. bien (good)), comparative (e.g. mejor (better)) or superlative (e.g. (el) mejor (best)); 6) subcategorization, where we distinguish intransitive adjectives (e.g. guapa (pretty)), transitive adjectives taking marked NPs (e.g. harto de la situación (fed up with the situation)), adjectives taking finite completive clauses (e.g. contraria a que vengan (opposed to their coming), adjectives taking interrogative clauses (e.g. seguro de si vendrán (sure whether they'll come)), control adjectives (e.g. capaz de hacerlo (capable of doing)) and raising adjectives (e.g. difícil de tocar (difficult to play)). Table 2 shows the types for adjectives in the SRG. The columns show the types and the values they take for: their position in the NP (f1), the copula verb with which they may cooccur (f2), whether they are gradable or not (f3), the type of modifier they are (f4), their degree (f5) and valence (f6); here, values are: 'i' (intranstive), 't' (transitive), 'cc' (completive clause), 'ic' (interrogative clause), 'sc' (subject control), 'oc' (object control), 'sr' (subject raising) and 'or '(object raising), type f1 f2 f3 f4 f5 f6 a_adv_int_le pre none - s p i a_adv_event_le pre/post none - s p i a_rel_prd_le post ser - i p i a_rel_nprd_intr_le post none - i p i a_rel_nprd_trans_le post none - i p t a_rel_nprd_prop_le post none - i p cc a_rel_nprd_ques_le_le post none - i p ic a_qual_intr_scopal_le pre/post ser + s p i a_qual_intr_ser_le pre/post ser + i p i post ser + i p i a_qual_intr_estar_le post estar + i p i a_qual_trans_ser_le pre/post ser + i p t a_qual_intr_ser_pstn_le a_qual_trans_ser_pstn_le a_qual_trans_estar_le post ser + i p t post estar + i p t pre/post ser + i p cc post estar + i p cc pre/post ser + i p ic post estar + i p ic a_sr_le pre/post ser + i p sr a_sctrl_ser_le pre/post ser + i p sc post estar + i p sc pre/post ser + i p or a_octrl_le post estar + i p oc a_compar_le pre ser + i c t pre/post both + i s i a_qual_prop_ser_le a_qual_prop_estar_le a_qual_ques_ser_le a_qual_ques_estar_le a_sctrl_estar_le a_or_le a_super_le Table 2: Some types of adjectives. Optionality is encoded in the types, which means that all types for adjectives that take complements have been doubled. Marking preposition is specified in the lexical entries. The SRG has 44 types for adjectives and about 11,200 adjectival entries. 3.3 Adverbs Leaving apart close classes of adverbs; i.e. deictic adverbs (e.g. aquí (here)), relative adverbs (e.g. donde (where)), interrogative adverbs (e.g. cómo (how),) and degree adverbs (e.g. casi (almost), más (more),...), we distinguish two types of adverbs: scopal adverbs and intersective adverbs. As we show in Figure 5, intersective adverbs identify their arg1 and the INDEX of the modified element, whereas scopal adverbs identify their own INDEX and that of the modified element. Scopal adverbs take the handle of the modified element as their argument, so that the modifier outscopes the head. basic_intersective_adverb_lex := basic-adverb-lex & [ SYNSEM.LOCAL [ CAT.HEAD.MOD <[LOCAL intersective-mod & [CONT.HOOK.INDEX #ind]]>, CONT.LKEYS.KEYREL.ARG1 #ind ] ]. basic_scopal_adverb_lex := basic-adverb-lex & [ SYNSEM.LOCAL [ CAT.HEAD.MOD < [ LOCAL scopal-mod & [ CONT.HOOK [ LTOP #larg, INDEX #index]]]>, CONT [ HOOK.INDEX #index, HCONS <! qeq & [ HARG #harg, LARG #larg ] !> ], LKEYS.KEYREL.ARG1 #harg ] ]. 135 Montserrat Marimon, Natalia Seghezzi y Núria Bel Figure 5: Basic types for intersective and scopal adverbs. The SRG has 14 types for open classes of adverbs and about 4,000 entries of adverbs. Through their super-type basic-adverbsynsem, as we show in Figure 6, both subtypes inherit information common to them, including the HEAD adv value, the empty-list values for both SUBJ and COMPS6 and the identification of the external argument (XARG) of the adverb and that of the element within the MOD list (#xarg). The basic-adverb-synsem type assigns the basic-adv-relation type to adverbs. 3.4 Figure 2 shows basic-main-verb-lex type, the basic type for main verbs. This type specifies that the HEAD value of main verbs is of type verb and takes the negative value for the boolean feature AUX(ILIARY), an empty list for MOD(IFIES) and identifies the HEAD.TAM –tense, aspect and mood– feature with the semantic INDEX.E(VENT) (#tam). Main verbs also take an empty list as value for SPR and introduce an event semantic relation in the RELS-list. basic-adverb-lex := uninflected-lexeme & [ SYNSEM.LOCAL [ CAT [ HEAD adv & [ MOD < [LOCAL.CONT.HOOK.XARG #xarg] >], VAL [ SUBJ < >, COMPS < > ] ], CONT [ HOOK.XARG #xarg ], RELS.LIST < basic-adv-relation,... > ] ] ]. basic-main-verb-lex := uninflected-lexeme & [ SYNSEM.LOCAL [ CAT [ HEAD verb & [ AUX -, MOD < >, TAM #tam ], VAL.SPR < > ], CONT [ HOOK.INDEX event & [ E #tam ] ] , RELS.LIST < event-relation & [ PRED v_event_rel ], ...> ] ] ]. Figure 6: Basic type for adverbs. Scopal and intersective adverbs have subtypes specifying whether they may co-occur with degree adverbs (e.g. muy probablemente (very probably) vs *muy diariamente (very daily)) and the adverb placement (e.g. *no está en casa aparentemente ((he/she) is not at home aparently) vs sinceramente te digo/te digo sinceramente (frankly, I tell you)), giving the four subtypes we show in Table 3. type ModType G Figure 7: Basic type for main verbs. Types for main verbs are first distinguished on the value for the SUBJ-list. Thus, we have subtypes for impersonal verbs taking an empty SUBJ-list, verbs taking a verbal subject and verbs taking a nominal subject. Then, each type is sub-typed according to the value of the COMPS-list; i.e. the number and category of elements in the COMPS-list. Also, we distinguish different types of verbs according to: 1) the lexical semantic relation type in the RELS-list; thus, for instance, intransitive verbs are classified either as unaccusative verbs, whose subject is identified with the arg2 (e.g. morir (to die)), or as unergative verbs, whose subject is identified with the arg1 (e.g. nadar (to swim)); 2) the verb form (finite or infinitive), mood (indicative or subjunctive) and control relation of verbal complements; 3) valence changing processes they may undergo. Optionality is encoded in the types, which means that all types dealing with optional complements have been doubled. We also have types for pronominal verbs. Semantic lexical restrictions on syntactic arguments and marking prepositions are given in the lexicon itself. The SRG has 170 types for main verbs and about 6,600 entries for verbs. Table 4 shows the Position av_s_prhd_le scopal - prehead av_s_prhd_spec_le scopal + prehead av_i_psthd_le intersect - posthead av_i_psthd_spec_le intersect + posthead Main verbs Table 3: Some types of adverbs. In addition, we have: one type for scopal adverbs that only modify sentences (e.g. quizás (maybe)), and two types for focus intersective adverbs which distinguish adverbs that may cooccur with degree adverbs (e.g. muy especialmente (very specially)) from those ones which may not (e.g. *muy solamente (very only)). 6 Adverbs taking complements, such as detrás de (after) or antes de (before), are treated as multi-word constructions and they get the category preposition. 136 An Open-Source Lexicon for Spanish most relevant types of verbs. The columns show the types and valence information: the category of the subject (f1; n(ominal), v(erbal), -(no subject)) and the complements they take – direct object (f2), indirect object (f3), finite completive clause (f4), infinitive (f5), interrogative clause (f6), locative complement (f7), prepositional complement (f8), marked completive clause (f9), marked infinitive (f10) and marked interrogative clause (f11). type f f f f f f f f f f f 1 2 3 4 5 6 7 8 9 10 11 iv_strict_intr_le - - - - - - - - - - - iv_non_pass_np_le - + - - - - - - - - - iv_cp_prop_le - - - + + - - - - - - iv_subj_prop_unacc_le v - - - - - - - - - - v_subj_prop_intr_io_le v - + - - - - - - - - v_subj_prop_intr_mrkd_np v - - - - - - + - - - v_subj_prop_trans_np_le v + - - - - - - - - - v_subj_prop_trans_prop_le v - - + - - - - - - - v_unacc_le n - - - - - - - - - - v_unacc_lcomp_le n - - - - - + - - - - v_intr_le n - - - - - - - - - - v_intr_mrkd_np_le n - - - - - - + - - - v_intr_mrkd_vinf_le n - - - - - - - - + - v_intr_mrkd_prop_fin_le n - - - - - - - + - - v_intr_mrkd_ques_le n - - - - - - - - - + v_intr_io_le n - + - - - - - - - - v_trans_np_le n + - - - - - - - - - v_trans_np_mrkd_np_le n + - - - - - + - - - v_trans_np_mrkd_vinf_le n + - - - - - - - + - v_trans_np_mrkd_prop_fin n + - - - - - - + - - v_trans_np_lcomp_le n + - - - - + - - - - v_ditrans_le n + + - - - - - - - - v_trans_prop_fin_le n + - + - - - - - - - v_sctrl_le n + - - + - - - - - - v_trans_ques_le n + - - - + - - - - - v_ditrans_prop_fin_le n - + + - - - - - - - v_ditrans_vinf_le n - + - + - - - - - - v_ditrans_ques n - + - - + - - - - - v_osr_le n + - - - - - - - - - open-source starter-kit for the rapid development of cress-linguistically consistent broad-coverage precision grammar. In proceedings of the Workshop on Grammar Engineering and Evaluation at the 19th International Conference on Computational Linguistics. Taipei, Taiwan. Ulrich Callmeier. 2000. Pet – a platform for experimentation with efficient HPSG processing. Journal of Natural Language Engineering 6(1): Special Issue on Efficient Processing with HPSG: Methods, System, Evaluation, pages 99-108. Ann Copestake, Dan Flickinger, Carl Pollard and Ivan A. 2006. Minimal Recursion Semantics: An Introduction. Research on Language and Computation 3.4:281-332. Ann Copestake. 2002. Implementing Typed Features Structure Grammars. CSLI Publications. Stephan Oepen and John Carroll. 2000. Performance Profiling for Parser Engineering. Journal of Natural Language Engineering 6(1): Special Issue on Efficient Processing with HPSG: Methods, System, Evaluation, pages 81-97. Carl J. Pollard and Ivan A. Sag. 1994. Headdriven Phrase Structure Grammar. The University of Chicago Press, Chicago. Table 4: Some types of main verbs. References Emily M. Bender, Dan Flickinger and S. Oepen. 2002. The grammar Matrix. An 137 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 139-146 recibido 18-05-2007; aceptado 22-06-2007 Towards Quantitative Concept Analysis Rogelio Nazar rogelio.nazar@upf.edu Jorge Vivaldi jorge.vivaldi@upf.edu Institut Universitari de Lingüística Aplicada Universitat Pompeu Fabra Pl. de la Mercè 10-12 08002 Barcelona Leo Wanner leo.wanner@upf.edu ICREA and Dept. de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra Passeig de Circumval·lació 8 08003 Barcelona Abstract: In this paper, we present an approach to the automatic extraction of conceptual structures from unorganized collections of documents using large scale lexical regularities in text. The technique maps a term to a constellation of other terms that captures the essential meaning of the term in question. The methodology is language independent, it involves an exploration of a document collection in which the initial term occurs (e.g., the collection returned by a search engine when being queried with this term) and the building of a network in which each node is assigned to a term. The weights of the connections between nodes are strengthened each time the terms that these nodes represent appear together in a context of a predefined length. Possible applications are automatic concept map generation, terminology extraction, term retrieval, term translation, term localization, etc. The system is currently under development although preliminary experiments show promising results. Keywords: Corpus Linguistics; Concept Map Generation; Term Retrieval Resumen: En este trabajo presentamos una aproximación a la extracción automática de estructuras conceptuales a partir de colecciones desordenadas de documentos, aprovechando regularidades léxicas a gran escala en los textos. Es una técnica para asociar un término con una constelación de otros términos que refleje lo esencial del significado. La metodología es independiente de la lengua. Se explora una colección de documentos donde el término inicial aparece (como la colección que devuelve un motor de búsqueda con esa interrogación) y se construye una red en la que cada nodo es asignado a un término. La ponderación de las conexiones entre nodos se incrementa cuando los términos que representan aparecen juntos en un contexto de extensión predefinida. Posibles aplicaciones son la generación automática de mapas conceptuales, la extracción de terminología, la recuperación de términos, su traducción, localización, etc. El sistema se encuentra actualmente en desarrollo, sin embargo experimentos preliminares muestran resultados prometedores. Palabras clave: Lingüística de corpus; Generación de mapas conceptuales; Recuperación de términos 1 Introduction In this paper, we describe an technique that, starting from a query term provided by the user and a document collection, generates a network of terms conceptually related to such query term. The resulting network is assumed to reflect the most pertinent information found in the collection in relation to the query term. ISSN: 1135-5948 We call such networks concept maps since, in accordance with the relational paradigm of lexical memory (see, e.g., Miller, 1995), we presuppose that the meaning of a term (i.e., a concept) is given by all relevant relations that hold between this term and other terms – with the totality of these relations resulting in what is commonly known as a map. The generation of the conceptual maps in our algorithm is guided by quantitative means. © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Rogelio Nazar, Jorge Vivaldi y Leo Wanner More precisely, it is based on the most recurrent combination patterns among terms in a given document collection.1 The work presented here differs in both its theoretical assumption and its objective from the ontology generation field (cf. Buitelaar et al., 2005 for an overview). Our work is not ontological because we are not interested in what something IS. Rather, we are interested in what people usually SAY about something. We extract a synthesis of people’s perception in reference to a topic from a whole set of documents rather than information from individual sources. Furthermore, we analyze how concepts evolve in real time as result of massive amounts of statements disseminated via the web. This is knowledge whose evolution is based on the same mechanism as selforganized complex systems. Our intuition is that this is also how common knowledge is being developed. For instance, common knowledge tells us that alchemists wanted to transmute metals into gold. And it turns out that the word alchemist has a strong statistical association with words such as transmute and trigrams such as metals into gold. The present work is therefore less related to Artificial Intelligence (AI) than it is to linguistics. In fact, it is an example of “artificial”-AI, because it relies on social networks and the unconscious collaborative work of a collective of authors. The remainder of the paper is structured as follows. In the next section, we present the hypothesis underlying our work. Section 3 outlines the methodology we adopt, and Section 4 illustrates our proposal by a couple of examples. In Section 5, a short overview of the related work is given, before in Section 6 some conclusions and directions for future work are drawn. regularities in the lexical organization of the discourse. Adopting the relational paradigm of the structure of lexical memory (see above) and assuming that the recurrent context of a term reflects the comprehension of this term by the speakers, we draw upon frequency distribution as the decisive means for the construction of a conceptual map. Further theoretical evidence supports the idea of systematic redundancy in the surrounding context of a term. Following Eco (1981) we assume that textual devices such as appositions, paraphrases or coreferences let the writer mention attributes of a referent without compromising assumptions on the knowledge of the reader. The writer has a model reader, an idea about what the reader may or may not already know. Consider an example: (1) This is an image of Napoleon Bonaparte, Emperor of the French and King of Italy, looking unamused at... (1) shows the use of an apposition that is equivalent to the plain proposition: (2) Napoleon Bonaparte was the Emperor of the French and King of Italy. There are myriads of utterances about Napoleon, all different at the surface, but there is also a space of convergence, which we perceive as patterns of recurrent key terms – including those that appear in (2). Thus, in the list of most frequent terms that occur on May 3rd, 2007 in the web in the context of Napoleon we encounter, among others: emperor, France, Bonaparte, invasion, Russia, king, Italy, … French, … These units roughly follow a Zipfean distribution: only a relative small number of them show a significant cooccurrence and this is why we can apply statistics to grasp them. 2 Hypothesis The question underlying our work is: How is it possible to distinguish relevant information from irrelevant information with respect to a given specific term? In particular, how is it possible to make this distinction by means of a formal prediction instead of subjective or arbitrary judgment? From our point of view, this is possible through the study of large-scale 3 Algorithm In this paper we propose an algorithm that accepts a term as input and uses it as query for an off-the-shelf search engine. From the document list retrieved by the engine, a parameterizable number of documents is downloaded. From these documents, the algorithm builds a conceptual map for that query. A vocabulary selection is performed and only the chosen units are considered during the 1 Henceforth, we use the terms “term” and “lexical unit” as equivalents in this paper. 140 Towards Quantitative Concept Analysis map construction. The overall process consists of five major steps: A. Extraction of the contexts of the occurrence of the query term in the document collection. The contexts consist of a parameterizable number of words (15 by default) to the left and to the right of the term (we are not interested in sentence boundary detection since semantic association transcends it). B. Compilation of an index from the extracted contexts. In addition to single tokens, the index includes a list of bigrams and trigrams, henceforth, n-grams (n = 2, 3). From this index, items that begin or end with a member of a stopword-list are excluded. This stoplist contains punctuation marks, hyphens, brackets, functional (i.e., closed class) words and optionally numbers. It was extracted from the first hundred positions in the list of word frequencies of nine languages obtained from Quasthoff (et al. 2005). C. Merge of different word forms considered to be similar.2 This procedure identifies inflectional variations (as, e.g., animals and animal) and reduces them to the same word (namely, the most frequent form among the variations) computing a Dice similarity coefficient with trigrams of characters as features, only if both variants have the first trigram in common. D. Elimination of irrelevant terms from the index. Further reduction of the vocabulary is executed by removing terms and n-grams of a frequency below a predefined threshold (usually 4 or 5). Also, terms that appear in only one document are eliminated. The rest is filtered using statistical measures such as Mutual Information (MI), t-score, and chisquare. The threshold score for the association is another parameter, but by default it is automatically adjusted to meet the best conditions. The expected probability of the occurrence of words has been extracted from Quasthoff et al. (2005)’s model, but not with data for low frequency words (f<6). As a result, if a term is not listed there, it is treated as if it was, but with the minimum frequency. E. Construction of the conceptual map. The algorithm reads all contexts of the query term and if the terms encountered in these contexts are in the selected vocabulary, each of them is assigned to a unique node in the network. The connections between these nodes are strengthen each time the terms associated with the nodes appear in a context. Every time an edge is stimulated, the rest is weakened. As the learning progresses, the weight of the nodes is weakened if they were assigned a particular term at the beginning but found no significant connections with neighbors afterwards. At the end of the learning process, the most interconnected nodes are key terms related to the meaning(s) of the query term. The nodes also have references to the original documents and contexts where their terms occur. The final number of nodes is determined by an initial parameter, and several prunes may be conducted to reduce nodes until this number is reached. 4 Preliminary Results A few experiments with this algorithm showed that it performs as expected. Currently, we are about to carry out a more extensive and formal evaluation that will allow us to provide exact figures of accuracy. To give the reader an overview of the algorithm’s potential and applicability, we briefly illustrate its performance in a few applications. 4.1 Concept Mapping The most basic application is to obtain a map of terms conceptually related to the given query term. The terms captured in the network of the query term DUCKBILL PLATYPUS (Figure 1) are precisely its salient attributes: ornithorhyncgus anatinus; fur; swimming animal; unique species; mammal; lay eggs; spiny anteaters; etc. 2 Note that we do not use lemmatization and POS-tagging. We were interested in measuring accuracy without this type of resources. Figure 1: Network for DUCKBILL PLATYPUS 141 Rogelio Nazar, Jorge Vivaldi y Leo Wanner be considered as basic vocabulary, e.g., mammal: mamífero, swimming animal:animal acuático, eggs:huevos). A new search with these translations, this time in the Spanish web, gives rise to ornitorrinco as the most significant MI score. Applying the same strategy we found the Spanish equivalent of West Nile Virus. Thus, taking first this term as query term in the English web, we obtain easy translation words such as mosquito, horse, infection, and transmitted. In a second search that uses the Spanish translations of these terms, the term virus del Nilo Occidental emerges. Analogously, with model reader, in the context of semiotics, as translation equivalent of the Spanish lector modelo, and receiver as the equivalent of Sp. destino in the context of the Note that the network contains most of the terms needed for the generation of the lexicographic definition for DUCKBILL PLATYPUS: Duckbill platypus: ornithorhyncgus (3) anatinus, furred swimming animal, unique species of mammals that lay eggs, along with the spiny anteaters. 4.2 Term Disambiguation Given a polysemous term as a query, the network shows clustering effects for each sense. For instance, with the Spanish word HENO (hay), different clusters are visible. Figure 2 shows a fragment of this network. Figure 2: Network for HENO At the left hand side there is one cluster about a pathology, well differentiated from the rest, that are about hay use in farming. A similar clustering effect occurs with respect to VIRUS in its biological sense contrasted to the malicious code interpretation; PASCAL as person and as programming language; NLP as acronym for Natural Language Processing and as acronym for Neuro-Linguistic Programming, and so on. 4.3 communication theory (Figure 3). Term Translation Figure 3: Network for SOURCE to find RECEIVER A quite different application of the proposed technique is to obtain the translation of a given query term to another language. Let us assume that DUCKBILL PLATYPUS was a term not yet available in our bilingual dictionary. The resulting network of our algorithm for such entry includes frequent words which can 4.4 Term Localization The same strategy applies to localization. Let us assume that a Spaniard wants to know the 142 Towards Quantitative Concept Analysis equivalent of aguacate (avocado) in Argentinean Spanish. Searching AGUACATE he/she will obtain the term persea americana as one of the most significant collocates. A second search with persea americana in combination with the words nombre (name) and Argentina suggests palta as the most obvious candidate (we can discard spp as a possible translation). Cf. Table 1 for the frequency rank. Freq. rank 1 2 3 4 5 6 7 8 ... starch into glucose. Taking CATALYST and GLUCOSE as query terms, the user obtains a network that suggests that enzyme is a frequent collocate of both (Table 2). 5 Preliminary Evaluation From all the envisaged tasks mentioned in the previous section, we are particularly interested in bilingual lexicon extraction, because, in spite of its character, it does not require parallel corpora. Given an entry in a source language, the system returns a ranked list of candidates for translation in a target language. Thinking of a tool for translators, we do not worry if the correct translation is not the first candidate, because a user, with his or her knowledge, may choose an appropriate translation from a short list. It is easier to recognize a word than to remember it and, even if it is a word the user did not know before, then he or she may observe morphological similarities as a clue in the case of cognates. We conducted thus a preliminary evaluation, only to estimate overall accuracy, with a multilingual database of names of birds (Scory, 1997). We took a random sample of 25 entries from a total of 700 and entered one by one the names of the birds in English to obtain, with our method, a list of the best candidates for translation in Spanish. The procedure is simple: it takes the best collocate of the query and repeats the search with it in the Spanish corpus. We checked whether the translation provided by the database was among the first three candidates in the list proposed by the system, and depending on it we determined success or failure of the trial. The study showed 72% coincidence with the database. However, if we consider the nonnormative terms as correct (they can be adequate in some contexts), precision raises to 84%. Most often, the failure was due to insufficient data. Some of the species are very rare and it is hard to find documents in Spanish about them. In some of the failed trials the correct candidate was too low in the list returned by the system, or was not present at all. Table 3 shows the results of the experiment. The first and second columns show the English and Spanish names provided by the database, and the third column shows the translation proposed by our method. Term aguacate spp palta nombre méxico lauraceae familia argentina ... Table 1: Collocates of PERSEA AMERICANA NOMBRE - ARGENTINA (4) is a typical sentence encountered in the retrieved document collection: (4) La palta, cuyo nombre científico es persea americana, es de la familia de las Laureáceas, tiene su origen en México, ... 4.5 Term retrieval We also tested the algorithm for term retrieval, which addresses the well-known “tip-of-thetongue” phenomenon: speakers often forget a term but still perfectly recall the purpose of the underlying concept or even the definition of the term in question. MI rank 1 2 3 4 5 ... Term acid catalytic enzyme hydrogen oxide ... Table 2: Collocates of CATALYST and GLUCOSE Let us assume that a speaker searches for the name of the catalyst that helps to break down 143 Rogelio Nazar, Jorge Vivaldi y Leo Wanner Scory's English names: firecrest brent goose curlew sandpiper longtailed duck shorteared owl Scory's Spanish names: reyezuelo listado barnacla carinegra correlimos zarapitín havelda lechuza campestre song thrush pied wagtail chaffinch zorzal común lavandera de yarrell pinzón del hierro stock dove montagu' s harrier oystercat cher whites thrush shorttoed lark kentish plover twite paloma zurita aguilucho cenizo ostrero wood pigeon semicollared flycatcher coot elegant tern blacknecked grebe brown thrasher king eider sombre tit blyth's pipit lanceolat ed warbler zorzal reyezuelo listado barnacla de cara negra; ganso de collar correlimos zarapitín pato havelda lechuza campestre; búho campestre zorzal común lavandera blanca pinzón vulgar; pinzón común paloma zurita aguilucho cenizo ostrero terrera común chorlitejo patinegro pardillo piquigualdo paloma torcaz papamoscas semicollarino focha común focha americana; gallareta americana charrán elegante zampuln cuellinegro sinsonte castaño eider real carbonero lugubre bisbita de blyth buscarla lanceolada 6 Related Work There are many works that represent the meaning of a term as a network of interdependent nodes labeled by terms, related by edges labeled by predicates. This is the idea behind the Concept Maps (Novak and Cañas, 2006); the Topic Maps (Rath, 1999; Park and Hunting, 2003); the Semantic Web (Shadbolt et al., 2006), among others. Other formalisms, such as semantic networks, may be used to represent concepts and their relationships. A lexical database of such as WordNet (Fellbaum, 1998) is a well known example. Given the popularity of a search engine such as Kartoo.com (Baleydier and Baleydier, 2006), of the VisualThesaurus.com (Thinkmap Inc., 2004), of a graphical version of Google (Shapiro, 2001) as well as of a variety of other similar representations (Dodge, 2004; Lima, 2005), the idea of a conceptual structure as a net of interdependent nodes is already in the visual imagery of the society. All these representations have in common the goal to transform knowledge serially encoded in text into a topographic structure. The work related to the automatic generation of conceptual structures involves two fields: term extraction and conceptual relation extraction. For the former, there are several techniques not mentioned in this paper (Vivaldi, 2001, for an overview). For the later, there is also a large body of work. It is possible to extract semantic relations searching for sentential patterns that provide evidence that between the units X and Y the relation Z holds. For example, X being hyponym of Y, common pattern of this type are <X>is a type of <Y>, or <Y> such as <X>; <W>,<X>, and other <Y>, etc. It is also possible to infer taxonomies from patterns of term variation, for example by the inference that artificial intelligence is a kind of zorzal terrera común chorlitejo patinegro pardillo piquigualdo paloma torcaz papamosca s semicollarino charrán elegante zampuln cuellinegro with Dark-eyed Junco, that should be translated as Cingolo pizarroso, but in some variants of Spanish it is called junco ojioscuro. Grey-tailed Tattler is translated as Archibebe gris, but we found playero de siberia (in French it is Chevalier de Sibérie). This term variation is a problem for the measure of precision, because we are then evaluating not only the performance of the algorithm, but also the difference that exists between normative terminology and real use. Our method: sinsonte - Table 3: Evaluation of the results Scory's database is incomplete and we were able to find some missing names, as well as other variants from the different variations of the geographically extended Spanish language. For example, Booted Eagle can be águila calzada or aguililla calzada; the Northern Oriol should be Ictérido anaranjado but the variant turpial norteño is also used, the same 144 Towards Quantitative Concept Analysis our technique by an algorithm that automatically loops through all the records of the birds database and compares them with the translations provided by our system. This will yield better estimations. We also plan to evaluate the concept maps obtained from the queries with expert users of different areas. Another direction of improvement is a 3D interactive and navigable model of the concept maps since the 2D model entails visualization difficulties. Finally, a web-based version of the prototypical implementation of the technique will be made available soon for free consultation. intelligence. Many authors advocate a symbolic approach of this kind; cf., among others, (Hearst, 1992; Godby et al, 1999; Sowa, 2000; Popping, 2000; Ibekwe-SanJuan and SanJuan, 2004). A different strand uses statistical methods for the extraction of association between terms. Studies of syntagmatic cooccurence for collocation extraction are Church and Hanks (1991); Evert (2004); Kilgarriff et. al (2004); Wanner et al. (2006); among others. Studies of paradigmatic similarity based on vector comparison include Grefenstette (1994); Shütze and Pedersen (1997); Curran (2004). These studies are based on the distributional hypothesis that similar words appear in similar contexts. Studies on graphs drawn by cooccurence data include Phillips (1985); Williams (1998); Magnusson and Vanharanta, (2003); Böhm et al. (2004); Widdows, (2004) and Veronis (2004). Use of graphs is an efficient method in tasks like word disambiguation. By detecting hubs in the graphs, word senses can be determined in a text collection without resort to dictionaries. Acknowledgments We would like to thank the anonymous reviewers for their constructive comments. This paper was supported by the ADQUA scholarship granted to the first author by the Government of Catalonia, Spain, according to the resolution UNI/772/2003. 8 References Baleydier, L and N. Baleydier. 2006. Introducing Kartoo. KARTOO SA. http://www.kartoo.net/e/eng/doc/introducing _kartoo.pdf [accessed April 2007]. Böhm, K., L. Maicher, H. Witschel, A. Carradori. 2004. Moving Topic Maps to Mainstream - Integration of Topic Map Generation in the User's Working Environment. In: J.UCS, Proceedings of IKNOW'04.241-251 Buitelaar, P., P. Cimiano, B. Magnini. 2005. Ontology Learning from Text: An Overview. In Buitelaar, Cimiano and Magnini (Eds.), Ontology Learning from Text: Methods, Applications and Evaluation,3-12, IOS Press. Church, K. and P. Hanks. 1991. Word Association Norms, Mutual Information and Lexicography, Computational Linguistics, 16(1):22-29. Curran, J. (2004). From Distributional to Semantic Similarity. PhD thesis, University of Edinburgh. Dodge, M. 2007. An Atlas of Cyberspaces: Topology of Maps of Elements of Cyberspace. http://www.cybergeography.org/atlas/topolo gy.html [accessed April 2007]. 7 Conclusions and future work We have presented a technique for the analysis of concepts and their relations from a purely statistical point of view, without use of direct human judgment or any compiled knowledge from the domain or the language. As a useful metaphor, what we do is to take a picture of the meaning of a term. However, it is also an explicative model as it proposes a reason why it is possible that this technique works, and it is predictive as it has the power to generalize to different contexts and languages. We contribute to the studies on word cooccurrence in several areas. Contrary to cited authors, our approach is language independent. In addition, we use it for concept map generation and a variety of new applications. We also extend it to experimentation with multilingual corpora. The work offers prospective engineering applications, but it is also a study of terminology in itself, of the behavior of terms, and not of the terminology of a specific language nor domain. This is, therefore, still in the scope of the interests of linguistics. Future work will evolve in several directions. Foremost, an extensive evaluation is planned. At the present we are about to evaluate 145 Rogelio Nazar, Jorge Vivaldi y Leo Wanner monolingual corpora. In: Proceedings of the LREC 2006, Genoa, Italy. Rath, H. 1999. Technical Issues on Topic Maps, STEP Electronic Publishing Solutions GmbH. Schütze, H. and J. Pedersen. 1997. A cooccurrence-based thesaurus and two applications to information retrieval. Information Processing and Management. 33(3):307-318. Scory, S. 1997. Bird Names, A Translation Index. Management Unit of the North Sea Mathematical Models and the Scheldt estuary, Royal Belgian Institute of Natural Sciences (RBINS). [http://www.mumm.ac.be/~serge/birds/ accessed June 2007] Shadbolt, N. T. Berners-lee and W. Hall. 2006. The Semantic Web Revisited. IEEE Intelligent Systems 21(3):96-101, May/June Shapiro, A. 2001. TouchGraph AmazonBrowser V1.01. TouchGraph. http://www.touchgraph.com/TGAmazonBro wser.html (accessed April 2007). Sowa, J. 2000. Knowledge representation logical, philosophical, and computational foundations, Pacific Grove Brooks/Cole cop. Thinkmap Inc. 2004. VisualThesaurus.com http://www.visualthesaurus.com (accessed April 2007). Veronis, J. 2004. HyperLex: Lexical Cartography for Information Retrieval. Computer Speech & Language, 18(3):223252. Vivaldi, J. 2001. Extracción de candidatos a término mediante combinación de estrategias heterogéneas. Barcelona: IULA, Universitat Pompeu Fabra, Sèrie Tesis 9. Wanner, L.; Bohnet, B. and Giereth, M. 2006. Making Sense of Collocations. Computer Speech & Language 20(4):609-624. Widdows, D. (2004) Geometry and Meaning, Center for the Study of Language and Information/SRI. Williams, G. 1998. Collocational Networks: Interlocking Patterns of Lexis in a Corpus of Plant Biology Research Articles. International Journal of Corpus Linguistics 3(1):151-71. Eco, U 1981. Lector in fabula la cooperación interpretativa en el texto narrativo, Barcelona, Lumen. Evert, S. (2004); The Statistics of Word Coocurrences; PhD Thesis; IMS; University of Stuttgart. Godby, C.; E. Miller, and R. Reighart. 1999. Automatically Generated Topic Maps of World Wide Web Resources. OCLC Library. Grefenstette, G. (1994) Explorations in Automatic Thesaurus Discovery, Kluwer Academic Publishers, Norwell, MA. Fellbaum, C. 1998. WordNet: An Electronic Lexical Database. MIT Press. Hearst, M. 1992. Automatic acquisition of hyponyms from large text corpora. In Proceedings of the Fourteenth International Conference on Computational Linguistics. Ibekwe-Sanjuan, F. and E. Sanjuan, 2004. Mapping the structure of research topics through term variant clustering: the TermWatch system; JADT 2004: 7es Journées internationales d'Analyse statistique des Données Textuelles. Kilgarriff, A. P. Rychly. P. Smrz. D. Tugwell. 2004. The Sketch Engine. Proceedings EURALEX 2004, Lorient, France. Lima, M. (2005); “Visualcomplexity” [http://www.visualcomplexity.com/vc/ accessed June 2007] Magnusson, C. and H. Vanharanta. 2003. Visualizing Sequences of Texts Using Collocational Networks. In P. Perner and A . Rosenfeld (Eds).276-283. Springer-Verlag, Berlin, Heidelberg. Miller, G.A. Virtual meaning. 1995. In Gothenburg Papers in Theoretical Linguistics 75:3 – 61. Novak, J. and A. J. Cañas. 2006. The Theory Underlying Concept Maps and How To Construct Them. Technical Report IHMC CmapTools 2006-01, Florida Institute for Human and Machine Cognition. Park, J. and S. Hunting. 2003. XML Topic Maps: creating and using topic maps for the Web. Boston, Addison-Wesley cop. Phillips, M. (1985); Aspects of Text Structure: An Investigation of the Lexical Organization of Text. North-Holland, Amsterdam Popping, R. 2000. Computer - assisted Text Analysis, London, Sage. Quasthoff, U., M. Richter, and C. Biemann 2006. Corpus portal for search in 146 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 147-154 recibido 18-05-2007; aceptado 22-06-2007 Evaluación automática de un sistema híbrido de predicción de palabras y expansiones Sira E. Palazuelos Cagigas José L. Martín Sánchez Universidad de Alcalá Escuela Politécnica Superior. Campus Universitario s/n. 28805. Alcalá de Henares. {sira, jlmartin}@depeca.uah.es Javier Macías Guarasa Grupo de Tecnología del Habla Universidad Politécnica de Madrid Ciudad Universitaria s/n. 28040. Madrid. macias@die.upm.es Resumen: La predicción de palabras es uno de los sistemas más utilizados para ayudar a la escritura a personas con problemas físicos y/o lingüísticos. Últimamente la predicción de palabras se complementa con otras estrategias para mejorar su rendimiento como la expansión de abreviaturas o predicción de frases. En este artículo se presenta un sistema híbrido, de predicción de palabras y predicción de expansiones (es decir, se expande la abreviatura incluso antes de acabar de escribirla). En este sistema se permite al usuario abreviar o no cada palabra, y reducir la carga cognitiva requerida para su utilización, ya que no se necesita memorizar abreviaturas fijas para cada palabra. La eficiencia del sistema se evalúa en base al porcentaje de pulsaciones que ahorra con respecto a la escritura del mismo texto sin ayuda, mostrándose resultados de la predicción de palabras y de expansiones por separado y de la combinación de ambos. Palabras clave: Predicción de palabras, expansión de abreviaturas, predicción de expansiones, modelado del lenguaje, ayudas a la escritura y comunicación para personas con discapacidad. Abstract: Word prediction is one of the most commonly used systems to help to write people with physical and/or linguistic disabilities. In the newest systems, word prediction is complemented with other strategies to improve its performance, such as abbreviation expansion or phrase prediction. In this paper, a hybrid system with prediction of words and expansions is presented. Expansion prediction consists in expanding the abbreviation even before the user finishes writing it. This system allows the user to abbreviate or not a word, and reduces the cognitive load required for its use because it is not necessary to remember a fixed abbreviation for each word. The parameter used to evaluate the efficiency of the system is the percentage of keystrokes saved with respect to writing the text without help, and we include results of the word prediction, the expansion prediction and the combination of both. Keywords: Word prediction, abbreviation expansion, expansions prediction, language modeling, technical aids for writing and communication for people with disabilities. 1 Introducción La predicción de palabras consiste en ofrecer al usuario posibles terminaciones al fragmento de palabra que haya escrito, de forma que, si se predice la palabra que busca, seleccione la predicción y no necesite acabar de escribir la palabra. Es una de las técnicas más utilizadas para ayudar a escribir texto y comunicarse a personas con distintas discapacidades. que los usuarios con discapacidad física necesitaban para escribir un texto, pero estudios posteriores han demostrado que: no siempre se produce realmente una aceleración en la escritura (al menos en las etapas de uso iniciales), que los usuarios con problemas físicos valoran más la reducción de esfuerzo físico necesario para producir el texto y que los usuarios con problemas lingüísticos también podían utilizarlo para producir textos más correctos (Magnuson y Hunnicutt, 2002). Inicialmente su objetivo era reducir el número de pulsaciones (y con ello el tiempo) ISSN: 1135-5948 © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Sira Elena Palazuelos Cagigas, José Luis Martín Sánchez y Javier Macías-Guarasa Para generar la lista de palabras predichas se utilizan diferentes técnicas de modelado del lenguaje como las descritas en (Allen, 1994). Numerosos sistemas usan modelos basados en n-gramas para generar las palabras predichas, como, por ejemplo, el descrito en (Lesher, Moulton y Higginbotham, 1999), que muestra unos resultados de 54,7% para trigramas con listas de predicción de 10 palabras para inglés. (Carlberger et al, 1997) presenta un sistema de predicción para sueco, inglés, danés, noruego, francés, ruso y español basado en ngramas y en información de las últimas palabras utilizadas (recency). En versiones previas, como la descrita en (Hunnicutt, 1989) utilizaban también información semántica en el proceso de predicción. En la versión siguiente han incorporado modelos de Markov para palabras y categorías (Hunnicutt y Carlberger, 2001) presentando un ahorro de pulsaciones para sueco de un 46% con una lista de 5 palabras predichas. En (Garay-Vitoria y GonzalezAbascal 1997) se presenta un sistema basado en un chart parser, que más tarde han adaptado a las características particulares del vasco, idioma con un alto grado de flexión en (Garay-Vitoria, Abascal y Gardeazabal, 2002). En este último artículo proponen utilizar gramáticas con reglas que describan la sucesión de categorías que forman una categoría compuesta, y la predicción basada en morfemas con posibilidad de aceptación de palabras completas. El resultado que consiguen para vasco con listas de 5 palabras predichas es aproximadamente del 43%. habla de predicción flexible de expansiones: se proponen expansiones al fragmento escrito de la abreviatura en curso (aunque no se haya acabado de escribir). Otra diferencia es que las palabras, en este trabajo, no tienen asignadas abreviaturas fijas, sino que cada persona puede abreviarlas como desee mientras siga ciertas reglas de compresión. También difiere de los anteriores en que propone un sistema de expansión directamente supervisado por el usuario, es decir, se predicen las expansiones a la vez que se escribe el texto y se muestran al usuario las candidatas para que él elija la deseada y la inserte, obteniendo así un texto final totalmente correcto, sin margen de error. En la actualidad la predicción de palabras está siendo complementada con otras técnicas como la expansión de abreviaturas (Lesher y Moulton, 2005), (Willis et al., 2002) y (Willis, Pain y Trewin, 2005), y la predicción de frases (Väyrynen, Noponen y Seppänen, 2007). Los diccionarios contienen palabras y unidades multipalabra y toda la información (gramatical y probabilística) que necesitan los métodos de predicción. El sistema contiene un diccionario general para castellano de más de 150.000 entradas, y diccionarios temáticos y personales adaptables al usuario y a la temática del texto que se está escribiendo, que aumentan la probabilidad de predicción de las palabras que ya se han escrito en el texto o que han aparecido en textos sobre el mismo tema. Además, también se han entrenado de forma automática diccionarios para otros idiomas, como el inglés o el portugués. La estructura del artículo es la siguiente: en primer lugar se describe brevemente la arquitectura del sistema de predicción de palabras y expansiones. A continuación se muestran los resultados de ambos sistemas de predicción por separado y combinados. Finalmente, se exponen las conclusiones. 2 Descripción del sistema de predicción de palabras y expansiones El algoritmo de predicción (tanto de palabras como de abreviaturas) consta básicamente de tres bloques que son explicados en detalle en (Palazuelos, 2001) y (Palazuelos et al, 2006): x Diccionarios. x Modulo de predicción. x Interfaz de usuario. Los algoritmos de expansión de abreviaturas se pueden dividir en fijos y flexibles. En su gran mayoría desarrollan mecanismos de desabreviación automática y aceptan cierto margen de error como (Willis et al., 2002), (Willis et al., 2005). La diferencia fundamental de los sistemas del mercado y el descrito en (Palazuelos et al., 2006), que es evaluado en este artículo, es que los algoritmos de expansión de abreviaturas revisados anteriormente expanden una abreviatura después de que ésta haya sido escrita completamente, mientras que en este artículo se Los métodos de predicción, a partir del texto escrito por el usuario, proponen restricciones que deben cumplir las palabras siguientes (categoría gramatical y su probabilidad, concordancias, etc.). Los métodos 148 Evaluación Atomática de un Sistema Híbrido de Predicción de Palabras y Expansiones comiencen exactamente por el fragmento escrito de la palabra en curso, y cumplan las restricciones impuestas por los métodos de predicción. de predicción disponibles están basados en secuencias de hasta 6 palabras (n-gramas), hasta 3 categorías (n-POS) y un analizador basado en una gramática independiente del contexto, cuya potencia ha sido aumentada de forma importante para soportar: gestión de probabilidades de reglas, ambigüedad (gramatical) de las palabras, posibilidad de que en la regla haya elementos (terminales o no terminales) opcionales, posibilidad de que los símbolos no terminales sean tanto categorías gramaticales como significantes o lemas (imponiendo las reglas de concordancia de rasgos adecuadas), posibilidad de prohibir un determinado significante o lema en una posición determinada de una regla, y un potente sistema de tratamiento de rasgos, que permite tanto controlar la concordancia entre los distintos símbolos (terminales y no terminales), como imponer o prohibir rasgos en cualquier símbolo de una regla. El algoritmo de predicción de expansiones propuesto tiene un funcionamiento similar al de predicción de palabras, pero, a la hora de comparar el fragmento escrito de la palabra en curso con las palabras del diccionario, aplica una serie de reglas de expansión, tales como: La interfaz de usuario se encarga de recoger el texto que está siendo escrito, recibir las restricciones de los métodos de predicción a partir de ese texto, obtener de los diccionarios el listado de palabras que cumplen dichas restricciones y mostrarle las más probables al usuario como listado de palabras predichas. La Figura 1 muestra un teclado virtual que incluye los algoritmos de predicción de palabras y de expansiones. La predicción, además, está incluida en otros sistemas de ayuda a personas con discapacidad como el sistema de comunicación Comunicador, aplicación de acceso gráfico a mensajes descrita en (Palazuelos 2005), o PredWin, editor de texto con acceso por barrido muy utilizado en España por la comunidad de personas con graves discapacidades físicas (Palazuelos 2001). x Aplicación de los heurísticos más frecuentes, por ejemplo, fonéticos o de sustitución (x=por). x Búsqueda en diccionarios por similitud de cadena teniendo en cuenta que puede haber letras eliminadas. x Expansión fija por medio de tablas de pares abreviatura-expansión. x Se está estudiando la inclusión de aprendizaje automático de abreviaturas, aunque el hecho de que el sistema sea flexible hace que el aprendizaje se reduzca a los heurísticos y las tablas fijas. El algoritmo de expansión es explicado en detalle en (Palazuelos et al., 2006). 3 Evaluación automática del sistema La importancia de la predicción radica, no sólo en su capacidad para acelerar la tasa escritura o la comunicación, sino también en el aumento en la calidad del texto generado por una persona, y la disminución del esfuerzo, tanto físico como cognitivo, necesario para escribirlo. Estos y otros resultados se muestran en (Magnuson y Hunnicutt, 2002) en un estudio a largo plazo, en el que se pudo constatar tanto la reducción en el número de pulsaciones como la aceleración en la escritura a lo largo de los 13 meses de duración del experimento. La disminución en el esfuerzo cognitivo, (especialmente en personas con dislexia, que cometen demasiadas faltas de ortografía o con cualquier otro problema que provoque que generen textos de baja calidad) es muy difícilmente evaluable de forma automática, y se deja la valoración a expertos que puedan comprobar el aumento en la calidad de los textos generados. Este aumento en la calidad suele conllevar un aumento en la cantidad, ya que los usuarios se sienten más capaces de Figura 1: Ventana de edición de la aplicación Comunicador, incluyendo la lista de palabras y expansiones predichas tras escribir “Tel” A partir de la información de los diccionarios y los métodos de predicción, el algoritmo de predicción de palabras mostrará al usuario las palabras más probables que 149 Sira Elena Palazuelos Cagigas, José Luis Martín Sánchez y Javier Macías-Guarasa escribir textos correctos, y se produce una realimentación positiva en el proceso. físicas, normalmente no escriben textos muy grandes en cada sesión. En cuanto a la evaluación de la disminución del esfuerzo físico que se produce por la realización de las pulsaciones necesarias para escribir el texto, la métrica que mejor lo refleja es el porcentaje de ahorro de pulsaciones con respecto a la escritura sin ayuda de predicción. Este parámetro sí puede ser evaluado de forma automática. Como referencia se contabiliza la cantidad de pulsaciones necesaria para escribir el texto sin ningún algoritmo de ayuda cuyos datos se muestran en la Tabla 1. Nombre texto de prueba Número de palabras Num. pulsaciones para escribirlo sin ayuda Hemos de considerar que, además de los muchos factores que influyen en la eficacia de la predicción (tanto el idioma, como la configuración del sistema de predicción o de la propia interfaz donde esté instalado (Palazuelos et al., 1999) como subjetivos por preferencias del usuario), si el sistema de predicción no es capaz de predecir la palabra adecuada y reducir el número de pulsaciones necesarias, los demás factores serán irrelevantes (Trnka et al., 2005). Por eso es tan importante realizar una evaluación automática del porcentaje de pulsaciones ahorrado. “Cuentos variados” 2000 11969 Tabla 1: Datos sobre el texto de prueba 3.1 Evaluación automática del algoritmo de predicción de palabras En el primer experimento se utiliza predicción de palabras, con 5 candidatas en la lista de predicción, sin ningún tipo de ayuda gramatical, solamente la información estadística contenida en el diccionario general (de más de 150.000 entradas) obteniéndose los resultados que se muestran en la Tabla 2. Para realizar una evaluación automática del sistema, se utiliza un modelo de usuario que simula a una persona escribiendo texto y eligiendo siempre las predicciones correctas cuando se muestran (usuario perfecto). Se toma el texto carácter a carácter y se llama al algoritmo de predicción que hace una propuesta de las posibles palabras predichas después de escribir cada letra. Si alguna de estas palabras se corresponde con la que se está intentando escribir, el sistema la elige, contabilizándola como palabra predicha correctamente y acumulando el ahorro de pulsaciones que produce. Nombre texto de prueba Número de palabras Núm. pulsaciones con predicción de palabras sin ayuda gramatical % ahorro de pulsaciones “Cuentos variados” 2000 7937 33,68% Tabla 2: Resultados de la predicción de palabras sin ayuda gramatical Posteriormente se introduce el análisis gramatical basado en secuencias de categorías gramaticales (POS, parts of speech), bipos y tripos (Allen, 1994). La selección de los textos de entrenamiento y prueba constituye uno de los aspectos más importantes a la hora de realizar la evaluación de cualquier técnica de procesamiento del lenguaje natural (PLN) y se realiza teniendo en cuenta aspectos explicados en (Palazuelos, 2001). En esta serie de experimientos se deseaba evaluar la calidad en la escritura de texto (uso habitual de PredWin, editor de texto, y del teclado virtual, dos de las aplicaciones donde está incluida la predicción), no de conversación (como Comunicador). Se utilizó un texto de prueba resultado de la combinación de varios cuentos, con una longitud de 2000 palabras, teniendo en cuenta que los usuarios de estos sistemas, con graves discapacidades Nombre texto de prueba Número de palabras Num. pulsaciones para escribirlo con predicción de palabras utilizando tripos % ahorro de pulsaciones “Cuentos variados” 2000 7701 35,65% Tabla 3: Resultados de la predicción de palabras usando tripos 150 Evaluación Atomática de un Sistema Híbrido de Predicción de Palabras y Expansiones Según puede verse en la Tabla 3, el ahorro de pulsaciones mejora en un 1,97 % con respecto al anterior. Si, además, incorporamos la utilización de los n-gramas y el diccionario del texto en curso, el ahorro es mucho mayor como podemos observar en la Tabla 4. Nombre texto de prueba Número de palabras Num. pulsaciones con predicción de palabras utilizando tripos, n-gramas y diccionario en curso % ahorro de pulsaciones x Se incluye una estrategia de compresión fija con tabla, es decir, si una palabra o secuencia de palabras está en dicha tabla, se sustituye directamente por la abreviatura asociada. x Las palabras menos frecuentes se mantienen sin comprimir, ya que la probabilidad de que el sistema las descomprima es reducida. Debemos considerar que deseamos un texto totalmente libre de error, es decir, que si la abreviatura se acaba de escribir y no se ha descomprimido, el sistema simulará un retroceso, y reescribirá la palabra sin comprimir (sumando las pulsaciones necesarias para realizar todo este proceso). Si al comprimir el texto dejamos sin abreviar las palabras menos frecuentes este proceso se elimina, o al menos se reduce, penalizando menos los resultados. Hemos de tener en cuenta que los usuarios también comprimen poco/nada las palabras poco frecuentes, para evitar que quien lea el mensaje pueda pensar que la abreviatura se corresponde con otra palabra más frecuente. “Cuentos variados” 2000 7243 39,48% Tabla 4: Predicción de palabras con tripos, ngramas y el diccionario de texto en curso Los resultados de la Tabla 4 muestran que al utilizar los n-gramas, además de los bipos, tripos y el diccionario de texto en curso, se produce una mejora de un 3,83% respecto a los resultados obtenidos aplicando solo tripos y de un 5,8% si no se aplica ningún mecanismo de ayuda gramatical durante la predicción. 3.2 Evaluación automática del algoritmo de predicción de expansiones Este archivo comprimido es el utilizado para realizar la evaluación automática. No obstante se realizarán futuras evaluaciones con usuarios reales donde se espera conseguir mejores resultados, teniendo en cuenta que la inteligencia del usuario hará que utilice la estrategia óptima en base al funcionamiento de la expansión. Los parámetros de evaluación son los mismos que para la predicción de palabras. La evaluación automática es realizada con un modelo de usuario más complejo que el de la predicción de palabras, ya que debemos considerar que escribe texto abreviado. Por esto necesitamos utilizar dos ficheros: el texto con el que deseamos realizar la evaluación y su versión abreviada. Además, se ha incluido en la evaluación otra circunstancia que también puede darse en casos reales: si el usuario está utilizando el sistema para comunicarse, necesita velocidad y que el texto sea comprensible, aunque no sea perfecto, y premiará la rapidez a la corrección total. En este caso puede que no corrija las abreviaturas que no se expandan si el texto resultante se puede entender sin dificultad. Se ha introducido esta posibilidad en el sistema, y en los experimentos se proporcionan también resultados considerando que puede haber margen de error (abreviaturas sin descomprimir). En esta serie de experimentos se ha utilizado el mismo texto de prueba que en los experimentos anteriores. A continuación se evalúa el ahorro de pulsaciones aplicando Debido a la dificultad para disponer de corpus paralelos abreviados y sin abreviar, ha sido necesario implementar un proceso para comprimir automáticamente los ficheros de prueba, aplicando las siguientes técnicas de compresión (que intentan imitar en lo posible las estrategias de compresión habituales de los usuarios de teléfono móvil): x Las palabras más frecuentes se comprimen aplicando heurísticos (fonéticos, etc.) x Se eliminan las letras cuyo porcentaje de aparición en el texto supere un 2% 151 Sira Elena Palazuelos Cagigas, José Luis Martín Sánchez y Javier Macías-Guarasa por separado. Se comparan los resultados dando prioridad a cada uno de los algoritmos de predicción. Esto quiere decir que en cada experimento se puede decidir cual de los dos algoritmos será el primero en realizar la propuesta de palabras predichas, y si una vez rellena esta lista de posibles palabras, esta no está completa, se llama al otro algoritmo de predicción para que la complete con su propuesta. Es decir, por cada letra que introduzca el usuario, se mostrará una lista de cinco posibles palabras procedentes del algoritmo prioritario o de los dos. En la Tabla 7 se muestran los resultados obtenidos al darle prioridad al algoritmo de predicción de expansiones frente al de predicción de palabras. Según puede apreciarse, los resultados mejoran un 3% respecto a la aplicación del algoritmo de predicción de expansiones por sí solo, sin tener en cuenta errores. únicamente el algoritmo de predicción de expansiones, haciendo uso de tripos y n-gramas aplicadas a los diccionarios general y personal. Los resultados obtenidos se muestran en la Tabla 5. Nombre texto de prueba Num. pulsaciones con predicción de expansiones sin error Ahorro de pulsaciones “Cuentos variados” 6461 46,01% Tabla 5: Predicción de expansiones sin error Si no se tienen en cuenta los retrocesos, es decir, si se admite un cierto porcentaje de abreviaturas sin descomprimir (margen de error), los resultados obtenidos se muestran en la Tabla 6. Nombre texto de prueba Num. pulsaciones con predicción de expansiones con error Ahorro de pulsaciones “Cuentos variados” Nombre texto de prueba Num. pulsaciones ambos algoritmos prioridad expansión sin error Ahorro de pulsaciones 6415 46,40% “Cuentos variados” 6094 49,08% Tabla 6: Predicción de expansiones con error Tabla 7: Combinación de algoritmos dando prioridad a la predicción de expansiones Estos resultados se obtuvieron con un porcentaje de error de un 0,6%, muy bajo respecto a otros sistemas revisados como el descrito en (Shieber y Baker, 2003) que presenta un 3%. Según puede apreciarse, el sistema de predicción de expansiones sin error obtiene un ahorro de pulsaciones de un 46,01% y con error se ahorra un 46,40%, implicando un incremento del 0,39% en el ahorro de pulsaciones. Además, se puede observar que las mejoras con respecto a la predicción de palabras (Tabla 4) son de 6,53% y 6,92% respectivamente. Por otro lado, si se da prioridad a la predicción de palabras, los resultados obtenidos se muestran en la Tabla 8. Nombre texto de prueba Num. pulsaciones ambos algoritmos prioridad predicción sin error Ahorro de pulsaciones 3.3 Eficacia de la combinación de los algoritmos de predicción de palabras y expansiones “Cuentos variados” 5606 53,16% Tabla 8: Combinación algoritmos dando prioridad a la predicción de palabras Es posible configurar el modelo de usuario para que se pueda introducir texto normal y abreviado, y el programa es capaz de generar una lista de posibles palabras predichas combinando las propuestas de los algoritmos de predicción de palabras y expansiones. En esta sección se evalúa la eficacia de la combinación de estos dos algoritmos con respecto a la utilización de cada uno de ellos En este caso el ahorro de pulsaciones mejora más de un 4% con respecto a los resultados obtenidos dando prioridad a la predicción de expansiones. 4 Conclusiones En este artículo se evalúa la eficacia de los algoritmos de predicción de expansiones y 152 Evaluación Atomática de un Sistema Híbrido de Predicción de Palabras y Expansiones palabras que se utilizan en varios sistemas de ayuda a la escritura y comunicación para personas con discapacidad. Para realizar la evaluación automática de los algoritmos presentados se ha diseñado un modelo de usuario capaz de simular la entrada de texto en cada caso. En primer lugar se exponen los resultados obtenidos aplicando sólo el método de predicción de palabras. La introducción de información gramatical permite que no se presenten al usuario predicciones gramaticalmente incorrectas, y esto produce una mejora en los resultados obtenidos de un 1,97%, además de una mejora subjetiva en la calidad apreciada por el usuario. En el siguiente experimento, además de los tripos, se utilizan los n-gramas y el diccionario personal, logrando un ahorro de pulsaciones de un 39,48% que equivale a una mejora de un 3,83% respecto al método anterior. Posteriormente se evalúan los resultados considerando que el usuario escribe texto abreviado y se aplica el algoritmo de predicción de expansiones. También se considera si se admite un margen de error en el texto o no (el porcentaje de error obtenido no supera el 0,6% en ningún caso). El ahorro de pulsaciones obtenido sin error fue de un 46,01% mejorando los resultados obtenidos con los algoritmos de predicción de palabras en un 6,9%. La combinación de los dos algoritmos de predicción permite que el usuario introduzca texto abreviado o texto normal, y produce los mejores resultados cuando se da prioridad a la predicción de palabras con un ahorro de pulsaciones en el orden de un 53,16% libre de error, lo cual supera en un 4% al algoritmo que da prioridad da la predicción de expansiones, en más de un 7% al mejor de los algoritmos de predicción de expansiones y en casi un 14% al mejor algoritmo de predicción de palabras. Por último, debemos considerar que la introducción de estos algoritmos en el sistema de ayuda a la escritura y/o comunicación no sólo ofrece ventajas cuantitativas en base al ahorro de pulsaciones, sino que también da flexibilidad al usuario a la hora de abreviar, permitiendo que comprima cada vez de una manera diferente y no necesite recordar la abreviatura asignada a cada palabra, por lo tanto, reduce la carga cognitiva que supondría memorizarlas. Bibliografía Allen, J. 1994. “Natural language Understanding”. Benjamin/Cummings Publishing Company Inc 2ª Ed. Carlberger A., Carlberger J., Magnuson T. Hunnicutt S., Palazuelos-Cagigas S., Aguilera Navarro S. 1997. Profet, a new generation of word prediction: An evaluation study. Proceedings,ACL Workshop on Natural language processing for communication aids, 23–28, Madrid. Garay-Vitoria N. and Gonzalez-Abascal. J. 1997. Intelligent word prediction to enhance text input rate (a syntactic analysis-based word prediction aid for people with severe motor and speech disability). In Proceedings of the Annual International Conference on Intelligent User Interfaces, 241–244. Garay-Vitoria N. Abascal J., Gardeazabal L. 2002. “Evaluation of Prediction Methods Applied to an Inflected Language”. Lecture Notes In Computer Science; Vol. 2448. Proceedings of the 5th International Conference on Text, Speech and Dialogue Pages: 389 – 396. ISBN:3-540-44129-8. Hunnicutt, S. 1989. “Using Syntactic and Semantic Information in a Word Prediction Aid”. Proc. Europ. Conf. Speech Commun. Paris, France. September 1989, vol. 1. páginas: 191-193. Hunnicutt S., Carlberger J. 2001. “Improving Word prediction using Markov models and heuristic methods”. Augmentative and Alternative Communication, Volume 17, Issue 4 December, pages 255 – 264. Lesher, G.W., Moulton, B.J., Higginbotham, D.J. (1999). Effects of ngram order and training text size on word prediction. Proceedings of the RESNA'99 Annual Conference, 52-54, Arlington, VA: RESNA Press. Lesher G., Moulton B., 2005. “An introduction to the theoretical limits of abbreviation expansion performance”. 28 Annual RESNA Conference Proceedings. http://www. dynavoxtech.com/files/research/LeMo05.pdf Magnuson T., Hunnicutt S., 2002. “Measuring the effectiveness of Word prediction: The advantage of long-term use”. Speech, Music 153 Sira Elena Palazuelos Cagigas, José Luis Martín Sánchez y Javier Macías-Guarasa and Hearing, KTH, Estocolmo, Suecia. TMH-QPSR. Volumen 43: 57-67. prediction system with multiple prediction methods”. Computer, Speech & Language Volume 21. Issue 3. Páginas 479-491. Julio. Palazuelos S. E., Aguilera S., Rodrigo J. L., Godino. J., Martín J. 1999. Considerations on the Automatic Evaluation of word prediction systems. Augmentative and Alternative Communication: New Directions in Research and Practice. Pags: 92-104. Whurr Publishers. Londres. Willis T., Pain H., Trewin S., Clark S. 2002. “Informing Flexible Abbreviation Expansion for users with motor disabilities”. Lecture Notes In Computer Science; Vol. 2398 Proceedings of the 8th International Conference on Computers Helping People with Special Needs. Páginas: 251 – 258. ISBN: 3-540-43904-8. Palazuelos Cagigas S. 2001. “Aportación a la predicción de palabras en castellano y su integración en sistemas de ayuda a personas con discapacidad física”. Tesis Doctoral. Willis T., Pain H., Trewin S. 2005. “A Probabilistic Flexible Abbreviation Expansion System for Users With Motor Disabilities”. School of Informatics, University of Edinburgh. Palazuelos Cagigas S. E., Martín Sánchez J. L., Arenas García J., Godino Llorente J. I., Aguilera Navarro S. 2001. “Communication strategies using PredWin for people with disabilities”. Conference and Workshop on Assistive Technology for Vision and Hearing Impaired. Castelvecchio Pascoli, Italia. Agosto. Palazuelos Cagigas S. E., Martín Sánchez J. L., Domínguez Olalla L. M. 2005. “Graphic Communicator with Optimum Message Access for Switch Users”. Assistive technology: from virtuality to reality. Pags: 207-211. ISBN: 1-58603-543-6. ISSN: 1383-813X. Ed. IOS Press (A. Pruski y H. Knops). Palazuelos Cagigas S. E., Martín Sánchez J. L., Hierrezuelo Sabatela L., Macías Guarasa J. 2006. “Design and evaluation of a versatile architecture for a multilingual word prediction system”. LNCS (Lecture Notes in Computer Science) 4061. Computers Helping People with Special Needs. Springer-Verlag. Editores: Klaus Miesenberger, Joachim Klaus, Wolfgang Zagler, Arthur Karshmer. ISBN: 3-54036020-4. Páginas 894-901. Trnka, K., Yarrington, D., McCoy, K., Pennington, C., 2005. “The Keystroke Savings Limit in Word Prediction for AAC”. http://hdl.handle.net/123456789/149. Shieber S., Baker E. 2003. “Abreviated Text Unput”, IUI’03, Miami, Florida, USA. ACM 1-58113-586-6/03/0001. 12-15 Enero 2003. http://www.iuiconf.org/03pdf/2003-0010064.pdf Väyrynen P., Noponen K., Seppänen T. 2007. “Analysing performance in a word 154 Lingüística de Corpus Procesamiento del Lenguaje Natural, nº39 (2007), pp. 157-164 recibido 17-05-2007; aceptado 22-06-2007 Specification of a general linguistic annotation framework and its use in a real context Xabier Artola, Arantza Dı́az de Ilarraza, Aitor Sologaistoa, Aitor Soroa IXA Taldea Euskal Herriko Unibertsitatea (UPV/EHU) xabier.artola@ehu.es Resumen: AWA es una arquitectura general para representar información lingüı́stica producida por procesadores lingüı́sticos. Nuestro objetivo es definir un esquema de representación coherente y flexible que sea la base del intercambio de información entre herramientas lingüı́sticas de cualquier tipo. Los análisis linguı́sticos se representan por medio de estructuras de rasgos según las directrices de TEI-P4. Estas estructuras y su relación con los demás elementos que componen el análisis forman parte de un modelo de datos diseñado bajo el paradigma de orientación a objetos. AWA se encarga de la representación de la información dentro de una arquitectura más amplia para gestionar todo el proceso de análisis de un corpus. Como ejemplo de la utilidad del modelo presentado explicaremos cómo se ha aplicado dicho modelo en el procesamiento de dos corpus. Palabras clave: Modelo de anotación, arquitectura para la integración, TEI-P4 Abstract: In this paper we present AWA, a general architecture for representing the linguistic information produced by diverse linguistic processors. Our aim is to establish a coherent and flexible representation scheme that will be the basis for the exchange of information. We use TEI-P4 conformant feature structures as a representation schema for linguistic analyses. A consistent underlying data model, which captures the structure and relations contained in the information to be manipulated, has been identified and implemented by a set of classes following the object-oriented paradigm. As an example of the usefulness of the model, we will show the usage of the framework in a real context: two corpora have been annotated by means of an application which aim is to exploit and manipulate the data created by the linguistic processors developed so far. Keywords: Annotation model, integration architecture, TEI-P4 1 Introduction In this paper we present AWA (Annotation Web Architecture), which forms part of LPAF, a multi-layered Language Processing and Annotation Framework. LPAF is a general framework for the management and the integration of NLP components and resources. AWA defines a data representation schema which aim is to facilitate the communication among linguistic processors in a variety of NLP applications. The key design criteria we have taken into account when designing AWA are oriented to make possible the description of different phenomena in an homogeneous way. The objective of AWA is to establish a coherent and flexible representation scheme that will be the basis for the exchange of information. We use TEI-P4 conformant feaISSN: 1135-5948 ture structures1 to represent linguistic analyses. We also have identified a consistent underlying data model which captures the structure and relations contained in the information to be manipulated. This data model has been represented by classes that are encapsulated in several library modules (LibiXaML), following the object-oriented paradigm(Artola et al., 2005). The modules offer the necessary types and operations to manipulate the linguistic information according to the model. The class library has been implemented in C++ and contains about 100 classes. For the implementation of the different classes and methods we make use of the Libxml22 library. 1 2 http://www.tei-c.org/P4X/DTD/ http://xmlsoft.org/ © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa tions which share the annotated information. In ATLAS (Bird et al., 2000) the authors use XML technology as a format for the interchange of annotated information between linguistic applications (AIF). In a first version, ATLAS was fully based in a particular formalism for annotation, called Annotation Graphs (AGs). However, they extended the architecture in order to adopt an upper level of abstraction and provide an ontology, where the conceptual model can be defined. For this reason MAIA (Meta Annotation Information for Atlas) is defined (Laprun et al., 2002)). Although the ontology model is described in XML documents, no XML technology is used to semantically validate the information. Finally, in the WHAT project (Schäfer, 2003), the authors present an XSLT-based Whiteboard Annotation Transformer, an integration facility for integrating deep and shallow NLP components. They rely on XSLT technology for transforming shallow and deep annotations in an integrated architecture built on top of a standard XSL transformation engine. Linguistic applications communicate with the components through programming interfaces. These APIs are not isomorphic to the XML mark-up they are based on, but they define classes in a hierarchical way. Among other types of formalisms they use typed feature structures for encoding deep annotations, although the correctness of these feature structures is not validated with XML tools. Apart from the annotation infrastructure, several systems go further and define frameworks for rapid prototyping of linguistic applications that share the same data model (annotations) at different levels. GATE (Cunningham, Wilks, and Gaizauskas, 1996; Bontcheva et al., 2004), TALENT (Neff, Byrd, and Bougaraev, 2004), ATLAS and MAIA (Bird et al., 2000; Laprun et al., 2002), and UIMA (Ferrucci and Lally, 2004)) are some of these systems. The annotation architecture presented in this paper follows the stand-off markup approach and it has been inspired on the TEI-P4 guidelines (Sperberg-McQueen and Burnard, 2002) to represent linguistic information obtained by a wide range of linguistic tools. One reason for taking this approach is that our representation requirements, together with the characteristics of the lan- The current release of LibiXaML works on Unix flavours as well as on Windows architectures. As an example of the usefulness of the model we will show the usage of the framework in a real context. Two corpora have been tagged by means of an on-line application, called EULIA, which aim is to exploit and manipulate the data created by the linguistic processors developed so far and integrated in a pipeline architecture. EULIA (Artola et al., 2004) offers help in data browsing, manual disambiguation, and annotation tasks by means of an intuitive and easy-touse graphic user interface. The rest of the paper is organized as follows. In section 2 we present some related work. Section 3 will be dedicated to explain the proposed annotation architecture. In section 4 we describe the use of feature structures for representing linguistic information. Section 5 shows the use of the framework in two real contexts: the annotation of EPEC (Reference Corpus for the Processing of Basque) and ztC (Science and Technology Corpus) (Areta et al., 2006), and EULIA, an application implemented for facilitating the work with the so-called annotation web. Finally, section 6 is dedicated to present some conclusions and future work. 2 Related work There is a general trend for establishing standards for effective language resource management (ISO/TC 37/TC 4 (Ide and Romary, 2004)), the main objective of which is to provide a framework for language resource development and use. Besides, there is much work dealing with the use of XMLbased technologies for annotating linguistic information. ATLAS (Bird et al., 2000), LTTTT (Thompson et al., 1997) and WHAT are some of the projects where stand-off annotation is used in order to deal efficiently with the combination of multiple overlapping hierarchies that appear as a consequence of the multidimensional nature of linguistic information. LT-TTT (Thompson et al., 1997) is a general library developed within an XML processing paradigm whereby tools are combined together in a pipeline allowing to add, modify and remove pieces of annotation. It provides linguistic components that operate over XML documents and permit the development of a broad range of NLP applica158 Specification of a General Linguistic Annotation Framework and its Use in a Real Context guage (Basque) we are dealing with, are not completely fulfilled by the annotation schemes proposed in the systems mentioned before. Basque being an agglutinative and free-order language, the complexity of the morphological information attached to linguistic elements (word-forms, morphemes, multiword expressions, etc.) as well as the need to represent discontinuous linguistic units, obliges us to use a rich representation model. 3 The annotation architecture in a language processing framework Figure 1: The Language Processing and Annotation Framework In this section, the general annotation web architecture (AWA) is described from an abstract point of view, and situated within LPAF. tem 3 are two examples of this type of applications, and will be explained throughout this paper. 3.1 3.2 Language Processing and Annotation Framework Annotation Web Architecture The Annotation Web Architecture has been designed in a way general enough to be used in the annotation tasks of a very broad range of linguistic processing tools. Issues such as the representation of ambiguity or the attachment of linguistic information to units formed by discontinuous constituents have been taken into account in the annotation model. An abstract view of this annotation architecture is represented in Figure 2. When a text unit undergoes a series of language processing steps, a corpus unit is created. Together with the raw text, this corpus unit includes the linguistic annotations resulting from each of these processing steps. So, each one of these annotations (LinguisticAnnotation class) represents, for instance, the set of annotations produced by a lemmatization process or the annotations produced by a dependency-based syntactic parser. Dependencies among different linguistic annotations belonging to the same processing chain are presented by the dependsOn association link in the diagram. The model follows a stand-off annotation strategy: anchors set on the corpus (Anchor class) are attached to the corresponding linguistic information (LingInfo class) by means of “links” (AnnotationItem class). An annotation item always refers to one anchor and has associated a single fea- Figure 1 depicts the main components of LPAF. The framework has been organized in different layers. The bottom layer defines the basic infrastructure shared by any LPAF component. In this layer we can find: • The Annotation Web Architecture (AWA), including a set of class libraries which offer the necessary types and operations to manipulate the objects of the linguistic information model (Artola et al., 2005). • The Linguistic Processing Infrastructure (LPI), which includes the set of classes needed to combine linguistic processes. It is the result of the characterization of the way the linguistic processes interact with each other. The former will be thoroughly explained in this paper. The middle layer is formed by the LPAF public services, which constitute the basic resources for defining new linguistic applications. LPAF services perform concrete and well-defined tasks necessary for defining complex linguistic applications such as Q/A systems, environments for manual annotation of corpora at different levels, etc. On the top layer we can find final user applications. EULIA and the ztC Query Sys- 3 159 http://www.ztcorpusa.net Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa Figure 2: The annotation architecture that, in many cases, physical text elements are not adequate as annotation anchors, and linguistic interpretations issued from previous analysis steps (lemmatization and syntactic function combinations, or phrasal chunks to which only some of the interpretations a word can have belong) have to be used as anchors in subsequent processing steps. Textual anchors are set mainly as a result of tokenization and of the identification of multiword expressions. On the other hand, interpretational anchors are annotation items or else special anchors (anchors specifically created as “elements” to which attach linguistic information); in this case, they are expressed by XML elements which act as a join of several identifiers representing interpretations issued from previous processes. As examples of special anchors we can mention word sequences, chunks, etc. Structural ambiguity is represented by overlapping anchors, i.e., when annotations refer to anchors which overlap. ture structure containing linguistic information. Any annotation item can become an anchor in a subsequent annotation operation. As a result of each processing step (tokenization, morphological segmentation or analysis, lemmatization, syntactic parsing, etc.), what we call a “linguistic annotation” consisting of a web of interlinked XML documents is generated. The model is physically represented by three different types of XML documents: anchor documents, link documents (annotation items) and documents containing linguistic information. Let us show now each one of these in more detail: • Anchors: these elements can go from physical elements found in the input corpus (textual references, represented by the TextRef class), such as typical character offset expressions or XPointer expressions pointing to specific points or ranges within an XML document, up to annotation items resulting from previous annotation processes; in particular, morphemes and single- or multiword tokens, word spans, etc., or even “linguistic interpretations” of this kind of elements can be taken as anchors of linguistic annotations. We have found • Annotation items (links): these constitute the actual annotations resulting from a linguistic analysis process. Each link ties a single linguistic interpretation 160 Specification of a General Linguistic Annotation Framework and its Use in a Real Context The feature structures we use fulfill the TEI guidelines for typed FSs, and they are compatible with ISO/TC 37 TC 4 (Ide and Romary, 2004). Furthermore, we have adopted Relax NG as a definition metalanguage for typed feature structures. Relax NG schemas define the legal building blocks of a feature structure type and semantically describe the represented information. to an anchor. Interpretation ambiguity is represented by several links attached to the same anchor, and so disambiguation consists in simply marking one of these links as correct while discarding the rest. • Linguistic information: typed feature structures are used to represent the different types of linguistic information resulting from the analysis processes. In some cases, such as in morphological segmentation or lemmatization, the linguistic content corresponds to word forms (more specifically, token annotation items), and therefore huge common libraries containing these contents (feature structures) are used, allowing us to save processing time (and storage room) as previously analyzed word forms need not be analyzed again and again when occurring in new texts. <TEI.2> ... <p> <fs id="fs1" type="morphosyntactic"> <f name="Form"><str>esnea</str></f> <f name="Lemma"><str>esne</str></f> <f name="Morphological-Features"> <fs type="Top-Feature-List> <f name="POS"><sym value="NOUN"/></f> <f name="SUBCAT"><sym value="COMMON"/></f> </fs> </f> <f name="Components"> ...</f> </fs> </p> <p> <fs id="fs2" type="lemmatization"> <f name="Form"><str>esnea</str></f> <f name="Lemma"><str>esne</str></f> <f name="POS"><sym value="NOUN"/></f> <f name="SUBCAT"><sym value="COMMON"/></f> </fs> </p> ... </TEI.2> This data model captures the structure and relations contained in the information to be manipulated, and is represented by classes which are encapsulated in several library modules. These classes offer the necessary operations or methods the different tools need to perform their tasks when recognizing the input and producing their output. 4 Figure 3: Typed feature structures The type of the feature structure is encoded in XML by means of the type attribute (see Figure 3). This attribute allows us to understand the meaning of the information described in the feature structure by means of its link with the corresponding Relax NG schema which specifies the content of the feature structure. Relax NG schemas provide us with a formalism to express the syntax and semantics of XML documents but, unfortunately, they are not capable of interpreting the content of the feature structures represented in the document. Therefore, we have implemented some tools which, based on the Relax NG schema, arrange data and create automatically the appropriate FS that encodes the associated linguistic information to be represented. These tools can be used to build GUIs for editing linguistic annotations adapting the interface to the user’s needs in such a way that they only have to specify the type of the information to be treated. Besides, and thanks to these tools, we are able to build general front- and back-end modules for the integration of different linguistic engines in more complex linguistic applications. Specifying the input/output information by Representing linguistic information: feature structures and Relax NG schemas This section is devoted to explain in more detail the use of feature structures in our model, their advantages, features, the representation of meta-information, and the exploitation of schemas in different tasks, such as information retrieval or automatic generation of GUIs. The different types of linguistic information resulting from the analysis processes are represented as typed feature structures. In a multi-dimensional markup environment, typed feature structures are adequate for representing linguistic information because they serve as a general-purpose metalanguage and ensure the extensibility of the model to represent very complex information. Typed feature structures provide us with a formal semantics and a well-known logical operation set over the represented linguistic information. 161 Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa 5.1 means of these Relax NG schema for linguistic engines, the front-end module will provide the adequate data to each engine and the back-end module will produce the suitable output. EULIA is a graphical environment which exploits and manipulates the data created by the linguistic processors. Designed to be used by general users and linguists, its implementation is based on a client-server architecture where the client is a Java Applet running on any Java-enabled web browser and the server is a combination of different modules implemented in Java, C++ and Perl. The linguistic processors integrated so far in the mentioned architecture are: <define name="fs.lemma"> <element name="fs"> <attribute name="id"><data type="id"/></attribute> <attribute name="type"> <value>lemmatization</value> </attribute> <ref name="f.Form"/> <ref name="f.Lemma"/> <ref name="f.Pos-SubCat"/> </element> </define> <define name="f.Form"> <element name="f"> <attribute name="name"><value>Form</value></attribute> <element name="str"><value type="string"/></element> </element> </define> • A tokenizer that identifies tokens and sentences from the input text. <define name="f.Pos-Subcat"> <choice> <ref name="pos.Noun"/> <ref name="pos.Adj"/> ... <choice> <define> • A segmentizer, which splits up a word into its constituent morphemes. • A morphosyntactic analyzer whose goal is to process the morphological information associated with each morpheme obtaining the morphosyntactic information of the word form considered as a unit. <define name="pos.Noun"> <ref name="f.POS"/> <element name="f"> <attribute name="name"> <value>SUBCAT</value> </attribute> <choice> <value>COMMON</value> <value>PERSON NAME</value> <value>PLACE NAME</value> <choice> </element> </define> • A recognizer of multiword lexical units, which performs the morphosyntactic analysis of the multiword expressions present in the text. • A general-purpose tagger/lemmatizer. Figure 4: RELAX NG schema mixing morphosyntax and lemmatization • A chunker or shallow syntactic analyzer based on Constraint Grammar. Figure 3. shows a fragment of an XML document which mixes up feature structures of two different linguistic levels (morphosyntactic and lemmatization) for the same wordform. These FSs are defined by the partial Relax NG schema shown in Figure 4. The relation between FSs and the schema is established through the type attribute (in both figures in bold). Using these relations, our tools can access the corresponding schemas and exploit them. 5 EULIA: an environment for managing annotated corpora • A deep syntax analyzer. EULIA provides different facilities which can be grouped into three main tasks: • Query facility. It visualizes the answers of the user’s requests according to a suitable stylesheet (XSLT). These stylesheets can be changed dynamically depending on both the users’ choice and the type of answer. • Manual disambiguation. Its goal is to help annotators when identifying the correct analysis and discarding the wrong ones. The incorrect analyses are properly tagged but not removed. The use of the annotation architecture in a real context In order to check the validity of the annotation architecture presented here, we have implemented a pipeline workflow which integrates natural language engines going from a tokenizer to a syntactic parser. Two text corpora have been processed through this pipeline with the aid of a tool named EULIA. • Manual annotation. It consists of assigning to each anchor its corresponding linguistic information. Depending on the annotation type different kinds of information are needed. In order to get these data, EULIA’s GUI generates 162 Specification of a General Linguistic Annotation Framework and its Use in a Real Context guist who has to choose the correct one and mark it by means of a facility provided by the application. If the analyzer doesn’t offer any correct analysis, the annotator has to produce it fillingup a form obtained automatically in a scheme-based way, as explained in section 4. Once the whole corpus is manually annotated and disambiguated at the segmentation level, the annotations are propagated to other levels (morphosyntax, lemmatization, syntax) automatically and revised again by means of the application. Currently, eight annotators are satisfactorily working in parallel using EULIA. a suitable form, based on the Relax NG schema, which defines the document’s format for that annotation type. Considering that linguistic information is encoded following the annotation architecture, the treatment at different levels of analysis is similar. 5.2 Annotating ztC and EPEC Let us now explain briefly two real experiences that demonstrate the flexibility and robustness of the model, the architecture, and the environment built. These experiences have been done on two corpora created with different purposes: • ztC Corpus (Science and Technology Corpus) ztC is a 8,000,000 word corpus of standard written Basque about Science and Technology which aim is to be a reference for the use of the language in Science and Technology texts. Part of this corpus (1,600,000) has been automatically annotated and manually disambiguated. The manual disambiguation of the corpus is performed on the output of EUSTAGGER (Aduriz et al., 1996), a general lemmatizer/tagger that obtains for each word-form its lemma, POS, number, declension case, and the associated syntactic functions. In this case, the manual disambiguation and annotation has been restricted to the information about lemma and POS. The flexibility EULIA gets by using Relax NG schemas makes possible to visualize the information needed in each process in such a way that the linguist will only focus on the problem of ambiguity referred to the information given. 6 Conclusions and future work In this paper we have presented AWA, a general architecture for representing the linguistic information produced by linguistic processors. It is integrated into LPAF, a language processing and annotation framework. Based on a common annotation schema, the proposed representation is coherent and flexible, and serves as a basis for exchanging information among a very broad range of linguistic processing tools, going from tokenization to syntactic parsing. We have described our general annotation model, where any annotation can be used as anchors of subsequent processes. The annotations are stand-off, so that we can deal efficiently with the combination of multiple overlapping hierarchies that appear as a consequence of the multidimensional nature of linguistic information. Based on our experience, the markup annotation model we propose can represent a great variety of linguistic information or structure. XML is used as an underlying technology for sharing linguistic information. We have also defined RelaxNG schemas to describe the different types of linguistic information the framework is able to work with. Furthermore, we use these schemas to automatically exploit the information encoded as typed feature structures. • EPEC Corpus (Reference Corpus for the Processing of Basque) EPEC is a 300,000 word corpus of standard written Basque with the aim of being a training corpus for the development and improvement of several NLP tools. The first version of this corpus (50,000 words) has already been used for the construction of some tools such as a morphological analyzer, a lemmatizer, or a shallow syntactic analyzer, but now we are in a process of enhancement by annotating manually 250,000 new words. Although EPEC has been manually annotated at different levels, the manual annotation to which we will refer here has been performed on the output of MORPHEUS (Aduriz et al., 2000), a general analyzer that obtains for each word-form its possible morphosyntactic analyses. EULIA presents this information to the lin163 Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa Laprun, and Mark Liberman. 2000. ATLAS: A flexible and extensible architecture for linguistic annotation. In Proc. of the Second International Conference on Language Resources and Evaluation, pages 1699–1706, Paris (France). We have also presented EULIA, a graphical environment the aim of which is to exploit and manipulate the data created by the linguistic processors. EULIA offers facilities to browse over the annotation architecture, pose queries and perform manual disambiguation/annotation of corpora. Finally, we have briefly explained two real cases that show the flexibility and robustness of our annotation model as well as the benefits of an environment like EULIA in manual annotation and disambiguation processes. Bontcheva, Kalina, Valentin Tablan, Diana Maynard, and Hamish Cunningham. 2004. Evolving GATE to meet new challenges in language engineering. Natural Language Engineering, 10(3-4):349–373. Cunningham, Hamish, Yorick Wilks, and Robert J. Gaizauskas. 1996. GATE: a General Architecture for Text Engineering. In Proceedings of the 16th conference on Computational linguistics, pages 1057– 1060. Association for Computational Linguistics. References Aduriz, Itziar, Eneko Agirre, Izaskun Aldezabal, Iñaki Alegria, Xabier Arregi, Jose Mari Arriola, Xabier Artola, Koldo Gojenola, Aitor Maritxalar, Kepa Sarasola, and Miriam Urkia. 2000. A Word-grammar based morphological analyzer for agglutinative languages. In Proc. of International Conference on Computational Linguistics. COLING’2000, Saarbrücken (Germany). Ferrucci, David and Adam Lally. 2004. UIMA: an architectural approach to unstructured information processing in the corporate research environment. Natural Language Engineering, 10(3-4):327–348. Ide, Nancy and Laurent Romary. 2004. International standard for a linguistic annotation framework. Natural Language Engineering, 10(3-4):211–225. Aduriz, Itziar, Izaskun Aldezabal, Iñaki Alegria, Xabier Artola, Nerea Ezeiza, and Ruben Urizar. 1996. EUSLEM: A Lemmatiser / Tagger for Basque. In EURALEX’96, Part 1, 17-26., Göteborg. Laprun, Cristophe, Jonathan. Fiscus, John. Garofolo, and Silvai. Pajot. 2002. A practical introduction to ATLAS. In Proceedings of the Third International Conference on Language Resources and Evaluation. Areta, Nerea, Antton Gurrutxaga, Igor Leturia, Ziortza Polin, Rafael Saiz, Iñaki Alegria, Xabier Artola, Arantza Dı́az de Ilarraza, Nerea Ezeiza, Aitor Sologaistoa, Aitor Soroa, and Andoni Valverde. 2006. Structure, Annotation and Tools in the Basque ZT Corpus. In LREC 2006, Genoa (Italy). Neff, Mary S., Roy J. Byrd, and Branmir K. Bougaraev. 2004. The Talent system: TEXTRACT architecture and data model. Natural Language Engineering, 10(3-4):307–326. Artola, Xabier, Arantza Dı́az de Ilarraza, Nerea Ezeiza, Koldo Gojenola, Aitor Sologaistoa, and Aitor Soroa. 2004. EULIA: a graphical web interface for creating, browsing and editing linguistically annotated corpora. In LREC 2004. Workshop on XbRAC, Lisbon (Portugal). Schäfer, Ulrich. 2003. WHAT: An XSLTbased infrastructure for the integration of natural language processing components. In Proceedings of the Workshop on the Software Engineering and Architecture of Language Technology Systems (SEALTS), HLT-NAACL03, Edmonton (Canada). Artola, Xabier, Arantza Dı́az de Ilarraza, Nerea Ezeiza, Gorka Labaka, Koldo Gojenola, Aitor Sologaistoa, and Aitor Soroa. 2005. A framework for representing and managing linguistic annotations based on typed feature structures. In RANLP 2005, Borovets (Bulgaria). Sperberg-McQueen, C. M. and L. Burnard, editors. 2002. TEI P4: Guidelines for Electronic Text Encoding and Interchange. Oxford, 4 edition. Thompson, H.S., R. Tobin, D. Mckelvie, and C. Brew. 1997. LT XML Software API and toolkit for XML processing. Bird, Steven, David Day, John Garofolo, Henderson Henderson, Christophe www.ltg.ed.ac.uk/software/xml/index.html. 164 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 165-172 recibido 17-05-2007; aceptado 22-06-2007 Determinación del umbral de representatividad de un corpus mediante el algoritmo N-Cor1 Gloria Corpas Pastor Míriam Seghiri Domínguez Departamento de Traducción e Interpretación Departamento de Traducción e Interpretación Facultad de Filosofía y Letras Facultad de Filosofía y Letras Universidad de Málaga Universidad de Málaga gcorpas@uma.es seghiri@uma.es Resumen: En las páginas que siguen a continuación vamos a describir un método2 para calcular el umbral mínimo de representatividad de un corpus mediante el algoritmo N-Cor de análisis de la densidad léxica en función del aumento incremental del corpus. Se trata de una solución eficaz para determinar a posteriori, por primera vez de forma objetiva y cuantificable, el tamaño mínimo que debe alcanzar un corpus para que sea considerado representativo en términos estadísticos. Este método se ha visto implementado en la aplicación informática ReCor. Con dicha herramienta vamos a comprobar si un corpus de seguros turísticos en español que hemos compilado sería representativo para realizar estudios lingüístico-textuales y poder ser utilizarlo en traducción. Palabras clave: Representatividad, lingüística de corpus, compilación de corpus, corpus especializado. Abstract: In this paper we describe a method3 to determine the representativeness threshold for any given corpus. By using the N-Cor algorithm it is possible to quantify a posteriori the minimum number of documents and words that should be included in a specialised language corpus, in order that it may be considered representative. This method has been implemented by means of a computer program (ReCor). This program will be used here to check whether a corpus of insurance policies in Spanish is representative enough in order to carry out textlinguistic studies and translation tasks. Keywords: Representativeness, corpus linguistics, corpus compilation, specialised corpus. 1 Introducción Hasta la fecha, mucho se ha escrito e investigado en torno la cantidad como criterio representativo así como sobre las posibles fórmulas capaces de estimar un mínimo de palabras y documentos a partir del cual un corpus especializado puede considerarse representativo sin llegar a resultados concluyentes. Los intentos de fijar un tamaño, al menos mínimo, para los corpus especializados han sido varios. Algunos de los más significativos son los expuestos por Heaps (1978), Young-Mi (1995) y Sánchez Pérez y ISSN: 1135-5948 Cantos Gómez (1997). Según Yang et al. (2000: 21), tales propuestas presentan importantes deficiencias porque se basan en la ley de Zipf. La determinación del tamaño mínimo de un corpus sigue siendo uno de los aspectos más controvertidos en la actualidad (cf. Corpas Pastor y Seghiri Domínguez, 2007/en prensa). En este sentido, se han barajado cifras muy dispares. A modo de ilustración, diremos que Biber (1993), en uno de los trabajos más influyentes sobre corpus y representatividad, llega a afirmar que es posible representar la práctica totalidad de los elementos de un registro particular con relativamente pocos ejemplos, mil palabras, y un número reducido de textos pertenecientes a este registro, concretamente diez. © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Gloria Corpas Pastor y Miriam Seghiri Urge, pues, resolver esta cuestión, ya que no podemos olvidar que la mayoría de estudios lingüísticos y traductológicos están utilizando corpus de reducidas dimensiones, adecuados para sus necesidades concretas de investigación, colecciones de textos que descargan directamente de fuentes de información electrónicas. La red de redes es hoy día uno de los principales proveedores de materia prima para esta lingüística de corpus “de andar por casa”. Además, este tipo de corpus ad hoc, compilado virtualmente, ha demostrado ser tremendamente útil tanto para llevar a cabo estudios lingüísticos (cf. Haan, 1989, 1992; Kock, 1997 y 1991; Ghadessy, 2001) como para la enseñanza de segundas lenguas (Bernardini, 2000; Aston et al., 2004) y en traducción (Corpas Pastor, 2001, 2004, Seghiri Domínguez, 2006). primera vez, a posteriori el tamaño mínimo de un corpus o colección textual, independientemente de la lengua o tipo textual de dicha colección, estableciendo, por tanto, el umbral mínimo de representatividad a partir de un algoritmo (N-Cor) de análisis de la densidad léxica en función del aumento incremental del corpus. 2.1. El algoritmo N-Cor El presente método calcula el tamaño mínimo de un corpus mediante el análisis de la densidad léxica (d) en relación a los aumentos incrementales del corpus (C) documento a documento, según muestra la siguiente ecuación: Las cifras tan dispares que se han manejado hasta la fecha, así como la poca fiabilidad que dan las propuestas para su cálculo, nos llevaron a reflexionar sobre una posible solución, que se ha visto materializada en la aplicación informática denominada ReCor, que pasamos a describir a continuación. 2 Cn= d1+ d2+d3+...+dn Figura 1: Ecuación base del algoritmo N-Cor Para ello, se analizan gradualmente todos los archivos que componen el corpus, extrayendo información sobre la frecuencia de las palabras tipo (types) y las ocurrencias o instancias (tokens) de cada archivo del corpus. En esta operación se utilizan dos criterios de selección de archivos, a saber, por orden alfabético y de forma aleatoria, a fin de garantizar que el orden en el que son seleccionados los archivos no afecta al resultado. Cuando se seleccionan los documentos por orden alfabético, el algoritmo analiza el primer archivo y para éste se calculan los tokens y los types, y la densidad léxica correspondiente. Con ello ya se obtiene un punto en la representación gráfica que se pretende extraer. A continuación, siguiendo el mismo criterio de selección que en el primero, se toma el siguiente documento del corpus y se calculan de nuevo los tokens y los types, para éste, pero sumando los resultados a los tokens y los types de la iteración anterior (en este caso a los del primer documento analizado), se calcula la densidad léxica y con esto se obtiene un segundo punto para la representación gráfica. Se sigue este algoritmo hasta que se hayan tratado todos los documentos que componen el corpus que se estudia. La segunda fase del Descripción del programa ReCor Dejando a un lado que la representatividad de un corpus depende, en primer lugar, de haber aplicado los criterios de diseño externos e internos adecuados, en la práctica, la cuantificación del tamaño mínimo que debe tener un corpus especializado aún no se ha abordado de forma objetiva. Y es que no hay consenso, como ha quedado manifiesto, sobre cuál sea el número mínimo de documentos o palabras que debe tener un determinado corpus para que sea considerado válido y representativo de la población que se desea representar. Las cifras varían, además, como hemos visto, de unos autores a otros. Pero todas estas cifras no resuelven el problema de calcular la representatividad de un corpus, dado que son cifras establecidas a priori, carentes de cualquier base empírica y objetivable. Con este método pretendemos plantear una solución eficaz para determinar, por 166 Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Cor análisis es idéntica, pero tomando documentos en orden aleatorio. los imposible alcanzar la incorporación de cero types en el corpus, aunque, por el contrario, sí que irán presentado una tasa muy baja de incorporación, como permite predecir la ley Heaps. Se emplea el mismo algoritmo para el análisis de n-gramas, esto es, la opción de realizar un análisis de la frecuencia de aparición de secuencias de palabras (2-grama, 3-grama…, n-grama). La aplicación ofrece la posibilidad de hacer el cómputo de estas secuencias considerando un rango de longitudes de secuencia (números de palabras) definido por el usuario. Al igual que se realiza con respecto a los (tokens), se muestra un gráfico con la información de representatividad del corpus tanto para un orden aleatorio de los ficheros como para un orden alfabético por el nombre de éstos. En el eje horizontal se mantendrá el número de ficheros consultados, y en el eje vertical el cociente (número de n-gramas distintos)/(número de n-gramas totales). A estos efectos, cada instancia de un n-grama es considerado como un token. Asimismo, los ficheros de salida generados indican los ngramas. 2.1.2. Especificaciones del programa ReCor es una aplicación informática creada con objeto de poder estimar la representatividad de los corpus en función de su tamaño y que se caracteriza, ante todo, por la sencillez de su interfaz de usuario (cf. Figura 2), frente a la carga eminentemente matemática y de formulación que abundan en este tipo de trabajos. Tanto en el análisis por orden alfabético como en el aleatorio de n-gramas llegará un momento en el que un determinado documento no aporte apenas types al corpus, lo cual indicará que se ha llegado a un tamaño adecuado, es decir, que el corpus analizado ya se puede considerar una muestra representativa de la población en términos estadísticos. En una representación gráfica estaríamos en el punto en el que las líneas de types y tokens se estabilizan y se aproximan al cero. Si el corpus es realmente representativo la gráfica tenderá a descender exponencialmente porque los tokens crecerán en cada iteración mucho más que los types, debido a que, en teoría, cada vez irán apareciendo menos palabras nuevas que no estén almacenadas en las estructuras de datos que utiliza el programa. Así pues, podremos afirmar que el corpus es representativo cuando la gráfica sea constante en valores cercanos a cero, pues los documentos siempre van a contener variables del tipo números o nombres propios, por ejemplo, que tenderán a constituir instancias de hapax legomena y, por tanto, aumentarán el grado de variabilidad léxica del corpus. Una posible solución podría ser el empleo de expresiones regulares y técnicas de análisis superficial (shallow parsing) para la detección de nombres propios. En cualquier caso, conviene señalar que, en la práctica, es Figura 2: Interfaz de ReCor (versión 2.1) Hasta el momento se han implementado tres versiones del programa ReCor: 1.0, 2.0 y 2.1. El funcionamiento es básicamente similar y corresponde a la descripción genérica que ofrecemos a continuación. Ahora bien, la versión 2.0 difiere de la versión 1.0 en que permite a) seleccionar automáticamente un directorio completo de documentos (en vez de tener que pulsar la tecla Shift como en la versión anterior) y b) permite seleccionar un número de n-gramas para el cálculo, donde n ≥ 1 y n ≤ 10. Ambas versiones (1.0 y 2.0) generan archivos estadísticos en texto plano (.txt). La versión 2.1. difiere de su predecesora en que presenta los archivos estadísticos simultáneamente en formato .txt y en forma de tablas en Excel. 167 Gloria Corpas Pastor y Miriam Seghiri 3 Funcionamiento del programa 3.1. Representaciones gráficas En este apartado mostraremos el programa ReCor en funcionamiento (versión 2.1.). Para la ilustración del funcionamiento del programa hemos compilado un corpus de seguros turísticos en español. Este corpus, por su diseño4 —es monolingüe5, comparable6, textual7 y especializado8—, responde a los parámetros de creación de corpus, por lo que estaría en condiciones de ser utilizado de forma independiente para la realización de estudios lingüísticos y traductológicos sobre los elementos formales de este tipo contractual. Una vez se han seguido los pasos descritos más arriba, la aplicación está lista para realizar el análisis, cuyo resultado se expresa en forma de representaciones gráficas y ficheros de salida en .txt con datos estadísticos exportables a tablas y tablas en Excel. Para generar las representaciones gráficas A y B, pulsamos «Aceptar». ReCor creará, además de los ficheros de salida, las representaciones gráficas A y B, que serán las que nos permitan determinar si, efectivamente, nuestra colección es representativa. (cf. Figura 3). El tiempo que tarde el programa en generar las representaciones gráficas y los archivos de análisis dependerá del número de n-gramas seleccionados para el cálculo, del tamaño del corpus analizado y de la versión utilizada. Gracias a una sencilla interfaz, ReCor resulta de fácil manejo. Así, procedemos a la selección de los archivos que conforman el subcorpus de seguros turísticos en español mediante el botón «Selección de los ficheros del corpus». Una vez seleccionados los archivos que integran el corpus en español, podremos incorporar, si se desea, un «filtro de palabras». En nuestro caso, hemos incluido un filtro que contiene numeración romana. Además, el programa genera tres ficheros de salida (Análisis estadístico, Palabras ord. alf. y Palabras ord. frec.) que se crearán por defecto en la ubicación que determine la aplicación. Si se desea otra localización de los archivos de salida generados, puede indicarse una nueva ruta. El primero, «Análisis estadístico», recoge los resultados de dos análisis distintos; de un lado, los ficheros ordenados alfabéticamente por nombre; de otro, para los ficheros ordenados en orden aleatorio. El documento aparecerá estructurado en cinco columnas, a saber, muestra de types, tokens, cociente entre palabras distintas y totales (types/tokes), número de palabras con una parición (V1) y número de palabras con dos apariciones (V2). El segundo, «Palabras ord. alfa.», generará dos columnas en la que aparecerán las palabras ordenadas por orden alfabético, de una parte, y sus correspondientes ocurrencias, de otra. En tercer lugar, «Palabras ord. frec.», presenta la misma información que el fichero de salida anterior, pero esta vez las palabras se ordenan en función de su frecuencia, es decir, por rango. Figura 3: Representatividad del corpus de seguros turísticos (1-grama) A partir de los datos arrojados por ReCor, podemos concluir que el corpus español de contratación de seguros turísticos (cf. Figura 3) es representativo a partir de 140 documentos y 1,0 millón de palabras. Si deseamos ver los resultados para dos o más gramas, repetiremos los pasos anteriormente expuestos y especificaremos la cifra en «Grupo de palabras». A continuación, mostramos los resultados arrojados por ReCor para 2-gramas. Por último, procederemos a especificar «Grupo de palabras», esto es, los n-gramas. Escogemos, para una primera ilustración, uno (cf. Figura 3). Asimismo, indicaremos «sí» en la opción «Filtrar números». 168 Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Cor A partir de este análisis estadístico, se puede observar cómo los types (primera columna) no incrementan y se mantienen estables —9265.0— a pesar de que el volumen del corpus —tokens— sigue en aumento tal y como ilustra la segunda columna (de 392012.0 a 540634.0). De este modo, se comprueba, efectivamente que el corpus ya es representativo para este campo de especialidad y que la inclusión de nuevos textos apenas incorporará novedades significativas al corpus. Figura 4: Representatividad del corpus de seguros turísticos (2-gramas) En segundo tipo de archivo, «Palabras ord. alf.», nos muestra las palabras que contiene el corpus ordenadas por orden alfabético (primera columna) acompañadas de su frecuencia de aparición (segunda columna): De este modo, a partir de los datos que nos ofrece el programa para 2-gramas, se desprende que el corpus español de contratación de seguros turísticos (cf. Figura 4) es representativo a partir de 150 documentos y 1,25 millones de palabras. 3.2. Datos estadísticos Además de las representaciones gráficas A y B, el programa también genera de forma simultánea tres tipos de archivos de salida, cuyo formato (.txt y Excel) depende de la versión utilizada. El primero de ellos, presenta un «Análisis estadístico» del corpus, tanto por orden alfabético como aleatorio, estructurado en cinco columnas: types, tokens, cociente entre palabras distintas y totales (types/tokens), número de palabras con una aparición (V1) y número de palabras con dos apariciones (V2): Figura 6: Ficheros de salida (Palabras ord. alf.) de los corpus de seguros turísticos (español) Por último, el tercer fichero de salida «Palabrar ord. frec» presenta las palabras del corpus ordenadas (primera columna) en función de su frecuencia (segunda columna): Figura 5: Fichero de salida (Análisis estadístico)-Español (v. 2.1) 169 Gloria Corpas Pastor y Miriam Seghiri 4 Conclusiones Una de las características principales de los corpus virtuales o ad hoc es que suelen ser eminentemente desequilibrados, puesto que su tamaño y composición finales vienen determinados, normalmente, sobre todo en los lenguajes de especialidad, por la disponibilidad (Giouli y Piperidis, 2002) y, por consiguiente, es imprescindible contar con herramientas que nos aseguren su representatividad. Sin embargo, el problema estriba en que no existe acuerdo sobre el tamaño que debe tener un corpus para que sea considerado «representativo», a pesar de que la «representatividad» sea el concepto clave que diferencia a un corpus de otros tipos de colecciones y repertorios textuales. Sin embargo, las propuestas realizadas hasta la fecha para el cálculo de la representatividad no resultan fiables, como ya hemos señalado. Conscientes de estas deficiencias, Yang et al. (2000) intentaron superarlas con una nueva propuesta, una formulación matemática capaz de predecir la relación entre los types de un corpus y el tamaño de éste (tokens). Sin embargo, los autores, al concluir su trabajo admiten que su enfoque presenta serias limitaciones y entre ellas, destacan la siguiente: «the critical problem is, however, how to determine the value of tolerance error for positive predictions» (Yang et al. 2000: 30). Figura 7: Ficheros de salida (Palabras ord. frec.) de los corpus de seguros turísticos (español) Finalmente, la versión 2.1. genera simultáneamente, además los anteriores resultados en .txt, tablas de Excel. La Fig. 8 ilustra una tabla en Excel de 2-gramas, ordenados por frecuencia, que ha generado la versión 2.1. para el corpus español. Nuestra propuesta supera a las anteriores en tanto no necesita determinar la constante C (=tamaño del corpus) para sobre ello intentar calcular su representatividad (algo, por otra parte, casi tautológico), como es habitual en los enfoques basados en la ley de Zipf. Tampoco necesita determinar el valor del error máximo de tolerancia, que es la principal deficiencia del enfoque de Biber (1993) y del de Yang et al. (2000). El algoritmo N-Cor permite establecer a posteriori, sin tener que establecer valores prefijados, el umbral de representatividad de un corpus bien construido, es decir, compilado conforme a criterios de diseño cualitativos (externos e internos). Concretamente, se parte de la idea de que el cociente entre las palabras reales de un texto y las totales —types/tokens—, que da cuenta de la densidad o riqueza léxica de un texto, no aumenta proporcionalmente a partir de un número de textos determinado. Lo mismo ocurre cuando la representatividad se calcula en Figura 8: Lista de 2-gramas por frecuenciaEspañol (v. 2.1.) 170 Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Cor función de la densidad léxica a partir secuencias de palabras (n-gramas). Bibliografía Aston, G., S. Bernardini y D. Stewart.. 2004. Corpora and Language Learners. Amsterdam y Filadelfia: John Benjamins. Bernardini, S. 2000. Competence, capacity, corpora. Bolonia: Cooperativa Libraria Universitaria Editrice. Biber, D. 1993. «Representativeness in Corpus Design». Literary and Linguistic Computing. 8 (4). 243-257. Corpas Pastor, G. 2001. «Compilación de un corpus ad hoc para la enseñanza de la traducción inversa especializada». TRANS: revista de traductología. 5. 155-184. Corpas Pastor, G. 2004. «Localización de recursos y compilación de corpus vía Internet: Aplicaciones para la didáctica de la traducción médica especializada». En Consuelo Gonzalo García y Valentín García Yebra (eds.). Manual de documentación y terminología para la traducción especializada. Madrid: Arco/Libros. 223-257. Corpas Pastor, G.; Seghiri Domínguez, S. 2007/en prensa. El concepto de representatividad en lingüística de corpus: aproximaciones teóricas y consecuencias para la traducción. Málaga: Servicio de Publicaciones de la Universidad. Ghadessy, M.., A. Henry, R. L. Roseberry (eds.). 2001. Small corpus studies and ELT: theory and practice. Ámsterdam y Filadelfia: John Benjamins. Giouli, V. y S. Piperidis. 2002. Corpora and HLT. Current trends in corpus processing and annotation. Bulagaria: Insitute for Language and Speech Processing. S. pag. <http://www.larflast.bas.bg/balric/eng_f iles/corpora1.php> [Consulta: 18/05/2007]. Haan, P. 1989. Postmodifying clauses in the English noun phrase. A corpus-based study. Amsterdam: Rodopi. Haan, P. 1992. «The optimum corpus sample size?». En Gerhard Leitner (ed.). New dimensions in English language corpora. Methodology, results, software development. Berlín y Nueva York: Mouton de Gruyter. 3-19. Sobre esta base teórica, se ha implementado un programa (ReCor), que permite ilustrar gráficamente el punto a partir del cual un corpus que ha sido compilado según criterios cualitativos comienza a ser representativo en términos cuantitativos. La representación gráfica, a partir de dos líneas —documentos incluidos alfabéticamente y aleatoriamente—, que se estabilizan a medida que se aproximan al valor cero, muestra el tamaño mínimo de la colección para ser considerada representativa. En el caso de los corpus especializados de tamaño reducido de ámbitos concretos, no es posible determinar a priori, exactamente, un número óptimo de palabras o de documentos, puesto que estará en función de las restricciones propias del campo de especialidad, de cada país y lengua. Nuestro método permite realizar dicha estimación a posteriori, esto es, una vez que se ha terminado de compilar el corpus, durante la compilación o durante la fase de análisis y verificación. Hasta el momento esta metodología se ha probado con éxito para corpus especializados de seguros turísticos y condiciones generales de contratos de viaje combinado en inglés, español, alemán e italiano (cf. Corpas Pastor y Seghiri Domínguez, 2007/en prensa). También se ha utilizado para comprobar la representatividad del corpus multilingüe utilizado por la Agencia Catalana de Noticias para alimentar su sistema de traducción automática español-inglés-francés-catalánaranés (occitano). Actualmente estamos trabajando en una nueva versión (ReCor 3.0) que esté optimizada para trabajar con múltiples ficheros o con archivos de gran extensión de forma rápida y, al mismo tiempo, permita extraer unidades fraseológicas a partir del análisis en n-gramas (n ≥ 1 y n ≤ 10) del corpus. 171 Gloria Corpas Pastor y Miriam Seghiri Heaps, H. S. 1978. Information Retrieval: Computational and Theoretical Aspects. Nueva York: Academic Press. Kock, J. 1997. «Gramática y corpus: los pronombres demostrativos». Revista de filología románica. 14 (1): 291-298. <http://www.ucm.es/BUCM/revistas/fll /0212999x/articulos/RFRM9797120291 A.PDF> [Consulta: 18/05/2007]. Kock, J. 2001. «Un corpus informatizado para la enseñanza de la lengua española. Punto de partido y término». Hispanica Polonorum. 3: 60-86. <http://hispanismo.cervantes.es/docume ntos/kock.pdf> [Consulta: 18/05/2007]. Sánchez Pérez, A. y P. Cantos Gómez. 1997. «Predictability of Word Forms (Types) and Lemmas in Linguistic Corpora. A Case Study Based on the Analysis of the CUMBRE Corpus: An 8-MillionWord Corpus of Contemporary Spanish». International Journal of Corpus Linguistics. 2 (2): 259-280. Seghiri Domínguez, M. 2006. Compilación de un corpus trilingüe de seguros turísticos (español-inglés-italiano): aspectos de evaluación, catalogación, diseño y representatividad. Tesis doctoral Málaga: Universidad de Málaga. Yang, D., P. Cantos Gómez y M. Song. 2000. «An Algorithm for Predicting the Relationship between Lemmas and Corpus Size». ETRI Journal. 22 (2) : 20-31. <http://etrij.etri.re.kr/Cyber/servlet/Get File?fileid=SPF-1042453354988> [Consulta: 18/05/2007]. Young-Mi, J. 1995. «Statistical Characteristics of Korean Vocabulary and Its Application». Lexicographic Study. 5 (6): 134-163. 1 El presente trabajo ha sido realizado en el seno del proyecto La contratación turística electrónica multilingüe como mediación intercultural: aspectos legales, traductológicos y terminológicos (Ref. nº HUM-892, 2006-2009. Proyecto de Excelencia, Junta de Andalucía). 2 La metodología descrita en este trabajo ha recibido el Premio de Investigación en Tecnologías de la Traducción (III convocatoria) concedido por el Observatorio de Tecnologías de la Traducción. Para más información, véase <http://www.uem.es/web/ott/>. 3 This method has been awarded the Translation Technologies Research Award (Premio de Investigación en Tecnologías de la Traducción) by the Translation Technologies Watch (Observatorio de Tecnologías de la Traducción). Further information at the URL: <http://www.uem.es/web/ott/>. 4 Para una visión más amplia acerca del protocolo de compilación de corpus especializados, véase Seghiri Domínguez (2006). 5 Aunque es un corpus monolingüe (español), se encuentra delimitado diatópicamente. De este modo, los textos que integran el corpus de seguros turísticos son elementos formales del contrato que hayan sido redactados exclusivamente en España. 6 Se trata de un corpus comparable pues está integrado por textos originales para la contratación turística, concretamente, elementos formales del contrato y legislación. 7 El corpus de seguros turísticos compilado incluye documentos completos ya que este tipo de corpus es el que permite llevar a cabo investigaciones lingüísticas léxicas y de análisis del discurso, a la par que posibilita la creación de un subcorpus, o un componente, a partir de la selección de fragmentos más pequeños (Sinclair, 1991). De hecho, Sinclair (1991) y Alvar Ezquerra et al. (1994) han puesto de manifiesto la necesidad de incluir textos enteros porque, de este modo, se elimina la discusión en torno a la representatividad de las distintas partes de un texto así como a la validez de las técnicas de muestreo. 8 Los textos que integran el corpus de seguros turísticos son, específicamente, elementos formales del contrato, a saber, solicitudes de seguro, propuestas, cartas de garantía y pólizas. 172 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 173-180 recibido 18-05-2007; aceptado 22-06-2007 Generación semiautomática de recursos ∗ Fernando Enrı́quez, José A. Troyano, Fermı́n Cruz y F. Javier Ortega Dep. de Lenguajes y Sistemas Informáticos Universidad de Sevilla Avda. Reina Mercedes s/n 41012 Sevilla fenros@us.es Resumen: Los resultados de muchos algoritmos que se aplican en tareas de procesamiento del lenguaje natural dependen de la disponibilidad de grandes recursos lingüı́sticos, de los que extraen el conocimiento necesario para desempeñar su trabajo. La existencia de estos recursos determina por tanto la calidad de los resultados, el rendimiento general del sistema y en ocasiones, ambas cosas. Vamos a mostrar diversos aspectos que hacen referencia al esfuerzo necesario para la creación de estos recursos, y que por lo tanto justifican los intentos de desarrollar métodos que alivien esta tarea, ası́ como diversas propuestas que se han mostrado para solventar esta cuestión. Estas propuestas pueden considerarse alternativas al problema que queremos solucionar y lo afrontan de muy diferentes maneras, algunas de las cuales quizás podamos adaptar a nuestras propias implementaciones en un futuro próximo. Palabras clave: Generación de recursos, aprendizaje automático, combinación de sistemas Abstract: The results of many algorithms that are applied to natural language processing tasks depend on the availability of large linguistic resources from which they obtain the required knowledge to do their work. The existence of these resources determines the quality of the results, the general performance of the system and frequently both things. We are going to show some aspects that refer to the effort needed in the creation of these resources, and thus justify the attempts to develop methods that lighten this task, and also some proposals that have been made to solve this problem. These proposals can be considered alternatives to the problem we want to solve and they face it in very different manners, some of which could be adapted in our own implementations in a near future. Keywords: Resource generation, machine learning, system combination 1. Introducción Sin duda alguna el mayor problema que surge a la hora de afrontar la creación de recursos lingüı́sticos es el esfuerzo que se requiere para obtener resultados de suficiente envergadura como para que les sean útiles a los algoritmos que los necesitan. General∗ Parcialmente financiado por el Ministerio de Educación y Ciencia (TIN2004-07246-C03-03). ISSN: 1135-5948 mente, un algoritmo de aprendizaje supervisado que hace uso de un corpus etiquetado para una determinada tarea, exige un número muy alto de palabras o frases etiquetadas para ofrecer resultados que puedan ser considerados de calidad aunque esto dependerá del algoritmo en cuestión y de la tarea que se esté afrontando. Si nos centramos en una tarea amplia- © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Fernando Enriquez, Jose Antonio Troyano, Fermin Cruz y F. Javier Ortega de recursos respectivamente. En el capı́tulo 6 veremos las técnicas de bootstrapping para finalizar con un capı́tulo dedicado a las conclusiones. mente conocida dentro del procesamiento del lenguaje natural, como es la desambiguación de significados, podemos hacernos una idea de este esfuerzo que estamos comentando. Se trata de una tarea que afronta el problema de seleccionar el significado de una palabra en un texto de entre todos los significados que posee. La ambigüedad es muy común aunque los humanos estamos tan acostumbrados a ella y tenemos tal capacidad de resolverla basándonos en el contexto de las palabras, que casi pasa desapercibida ante nuestros ojos. Para esta tarea se han desarrollado múltiples algoritmos con muy buenos resultados, aunque la disponibilidad de corpus etiquetados sigue constituyendo un problema. En (Ng, 1997) se realizó un estudio que asegura que para obtener una precisión buena se necesitan al menos 500 ejemplos por cada una de las palabras ambiguas a tratar (esta es una cifra que representa la media ya que hay diferencias considerables de una palabra a otra). A un ritmo de un ejemplo etiquetado por minuto y considerando la existencia de unas 20000 palabras ambiguas en el vocabulario inglés común, esto nos conducirı́a a unas 160000 horas de etiquetado, que resultarı́an en nada más y nada menos que 80 años de dedicación exclusiva para una persona que lleve a cabo esta tarea de etiquetado. Si además le añadimos el hecho de que las tareas de etiquetado suelen ser llevadas a cabo por lingüistas entrenados o expertos, no cabe duda de que se trata de un proceso realmente caro y generalmente prohibitivo en la inmensa mayorı́a de los casos. Todo esto supone una limitación y termina por reducir el número de ejemplos disponibles, afectando a la tarea en general y posiblemente al desarrollo de nuevas vı́as de investigación que puedan aportar mejoras en los resultados. De ahı́ que este sea el punto de partida de una linea de trabajo futuro que deseamos recorrer y de la que intentaremos extraer soluciones satisfactorias a este problema. A lo largo de los sucesivos capı́tulos veremos algunas técnicas empleadas para crear recursos lingüı́sticos, comenzando en el capı́tulo 2 con un algoritmo que emplea consultas en buscadores web. En el capı́tulo 3 comentaremos las técnicas de crowdsourcing, cuyo uso se está extendiendo con rapidez, mientras que en los capı́tulos 4 y 5 comentaremos métodos de combinación e importación 2. Empleando Búsquedas en la Web Una de las vı́as que han surgido para intentar paliar los efectos del enorme esfuerzo requerido para la creación de recursos, es el uso de la Web. El contenido de la Web puede ser considerado un enorme corpus que puede ser explotado para diversas tareas, si bien presenta una estructura y unos contenidos tan heterogéneos que no siempre se sabe muy bien como sacarle partido a toda la información que posee. En (Mihalcea, 2002) podemos apreciar un magnı́fico ejemplo de cómo se puede hacer uso de la Web para obtener recursos lingüı́sticos a través de los sistemas de búsquedas que tenemos a nuestra disposición. La tarea que se afronta en este trabajo es la desambiguación de significados y el sistema propuesto hace uso de diversos recursos disponibles como el corpus SemCor (Miller, 1993) y la base de datos léxica WordNet (Miller, 1995). El algoritmo se resume en la figura 1. Las semillas están formadas por múltiples unidades de palabras que contienen una palabra ambigua, de forma que la expresión por sı́ misma supone una restricción para el posible significado de la palabra en la que recae el interés. En este algoritmo se emplea un método para, utilizando WordNet, construir consultas que contengan sinónimos o definiciones del significado de las palabras de interés y mediante los motores de búsqueda disponibles en Internet, realizar dichas consultas para obtener textos relacionados con esas definiciones. En WordNet se buscan en primer lugar sinónimos que sean monosémicos, y si no existen, se buscan definiciones de la palabra. Al hacer la búsqueda, se seleccionan las oraciones que contengan la definición o el sinónimo y se sustituyen por la palabra original, obteniéndose un ejemplo de uso de dicha palabra con su significado. Una vez tenemos las expresiones encontradas tras explorar la web haciendo uso de las semillas, se aplica un algoritmo iterativo de desambiguación mediante varios procedimientos cuyas claves se resumen en: 174 Generación Semiautomática de Recursos 1. Crear un conjunto de semillas, compuestas por: 1.1 Ejemplos de SemCor. 1.2 Ejemplos de WordNet. 1.3 Ejemplos etiquetados creados mediante búsquedas en la web de sinónimos monosémicos o definiciones de la palabra. 1.4 Ejemplos adicionales etiquetados manualmente (si están disponibles). se buscan conexiones entre palabras estando ambas sin desambiguar. Los experimentos realizados para medir la calidad de los corpus que se obtienen mediante este algoritmo, demuestran que se obtienen resultados comparables a los adquiridos a través del uso de corpus etiquetados manualmente. Concretamente, los autores hicieron experimentos con diversas herramientas de etiquetado semántico, utilizando un corpus etiquetado manualmente y por otro lado, el corpus obtenido automáticamente mediante este algoritmo. La precisión alcanzada cuando se usaba el corpus automático era a veces incluso mejor que la obtenida con las mismas herramientas pero utilizando el corpus manual. 2. Realizar búsquedas en la Web utilizando las expresiones de las semillas. 3. Desambiguar las palabras en un contexto cercano al texto que rodea las expresiones de las semillas. Agregar los ejemplos formados con las palabras desambiguadas al conjunto de las semillas. 3. El Crowdsourcing El crowdsourcing es un término acuñado recientemente y que constituye un paso adelante tras el outsourcing. Este último está basado en la delegación de ciertas tareas en determinadas entidades externas para ahorrar costes y simplificar el proceso de desarrollo en un proyecto (generalmente las empresas han estado fijando las miradas en India o China). Las nuevas posibilidades de ahorro en este entorno es posible que se encuentren en el trabajo disperso y anónimo de multitud de internautas que desarrollan tareas de mayor o menor valor para una organización que sepa llamar su atención de alguna de entre tantas formas posibles. Esta forma de recopilar el esfuerzo y orientarlo hacia la consecución de algún objetivo relacionado con el desarrollo de alguna tarea en concreto se denomina crowdsourcing 1 . El precursor de este término es Jeff Howe, quién en (Howe, 2006) comenta varios ejemplos en los que se ha aplicado esta forma de trabajo. En dicho artı́culo comienza comentando un caso particular referente a un fotógrafo profesional que pierde un cliente al descubrir este que puede comprar fotos a través de iStockPhoto a un precio mucho menor (el cliente solo buscaba fotos de gente enferma para un trabajo que estaba realizando). En este portal se publican un numero muy grande de fotos realizadas por amateurs y que son muy útiles en muchos casos sin necesidad de pagar el alto precio 4. Volver al paso 2. Figura 1: Algoritmo de búsquedas en la web. 1. Localizar las entidades, como nombres de personas, lugares y organizaciones, y marcar su significado. 2. Localizar las palabras monosémicas y marcar su significado. 3. Para cada palabra se forman pares con la palabra dada y la anterior y posterior. Si en el corpus SemCor aparecen dichos pares suficientes veces (superior a un umbral preestablecido) y siempre con el mismo significado, se le asigna dicho significado a la palabra. 4. Para los sustantivos se crea un contexto, conteniendo los sustantivos que suelen aparecer cerca por cada significado posible. Luego se compara con el contexto actual del sustantivo y se escoge el significado más parecido. 5. Se buscan conexiones semánticas entre palabras, por lo que, si una palabra tiene un significado que la convierte en sinónima de otra ya desambiguada, se le asigna dicho significado. También se estudian relaciones de hiperonimia e hiponimia y 1 Del inglés ‘crowd’ que significa multitud y ‘source’ que significa fuente 175 Fernando Enriquez, Jose Antonio Troyano, Fermin Cruz y F. Javier Ortega conocimiento que se puede obtener a partir de los millones de usuarios de Internet con el objetivo de crear aplicaciones más inteligentes. Dentro de esta iniciativa se encuentran diversos proyectos relacionados con el lenguaje natural como Open Mind Word Expert (Mihalcea, 2003), centrado en la desambiguación de significados (generando corpus anotados semánticamente por los usuarios) y Open Mind Common Sense (Singh, 2002) que se centra en la adquisición del sentido común para generar un corpus textual. que cobrarı́a un profesional al que le encargase el trabajo de forma directa. Es un ejemplo más en el que el trabajo de miles de personas puede ser aprovechado cambiando un escenario empresarial que parecı́a en principio inquebrantable. De esta forma cada participante puede publicar todo tipo de fotos cobrando muy poco por cada una pero con la capacidad de ponerlas al alcance de cualquiera que esté conectado a Internet. Esto lleva al autor a decir: Welcome to the age of the crowd. Just as distributed computing projects like UC Berkeley’s SETI@home have tapped the unused processing power of millions of individual computers, so distributed labor networks are using the Internet to exploit the spare processing power of millions of human brains. 4. La Combinación de Recursos Otra estrategia que podemos encontrar en la bibliografı́a para generar corpus es la combinación de recursos ya existentes, de manera que se enriquezcan unos con otros aumentando su valor al ser considerados de forma global. Un ejemplo muy clarificador lo podemos encontrar en (Shi, 2005), donde se combinan FrameNet, VerbNet y WordNet. Vamos a comentar brevemente el contenido de estos recursos para luego comprender cómo se combinan creando un recurso unificado. En la misma lı́nea de este ejemplo que acabamos de comentar, hallamos multitud de proyectos, sistemas y aplicaciones que intentan sacar partido de todo este potencial, por ejemplo, la wikipedia, una enciclopedia que se extiende rápidamente entre las preferencias de los usuarios de Internet, y que está hecha mediante la contribución anónima de todos los que quieran aportar su grano de arena a esta recopilación de conocimiento. También lo vemos en los programas de televisión que se basan estrictamente en mostrar el material creado por los propios telespectadores (emitiendo sus videos caseros, composiciones musicales, etc) y que obtienen en muchos casos cifras de audiencia espectaculares sin apenas suponerle ningún coste a la cadena. Otros ejemplos pueden ser, el proyecto InnoCentive, a través del cuál se publican problemas de cierta dificultad técnica o cientı́fica que le surgen a todo tipo de empresas, de forma que cualquiera puede intentar darle solución (recibiendo grandes recompensas económicas) o el Turco Mecánico de Amazon, a través del cuál todo el mundo puede cobrar una pequeña cantidad de dinero por realizar tareas muy simples sin necesidad de una gran preparación previa. La iniciativa ‘Open Mind’ (Stork, 1999) es el resultado de aplicar esta idea a la generación de recursos lingüı́sticos. La idea básica es utilizar la información y el La primera pieza de este puzzle parte de WordNet. Es una gran base de datos léxica con mucha información sobre palabras y conceptos. Este es el recurso utilizado para identificar caracterı́sticas semánticas superficiales que pueden asociarse a unidades léxicas. En WordNet se cubren la gran mayorı́a de nombres, verbos, adjetivos y adverbios del inglés. Las palabras se organizan en conjuntos de sinónimos (llamados ‘synsets’) que representan conceptos. FrameNet por su parte es un recurso que contiene información sobre diferentes situaciones, llamadas ‘frames’. Cada frase etiquetada en FrameNet representa una posible construcción sintáctica para los roles semánticos asociados con un frame para una determinada palabra. Solemos referirnos al conocimiento que aporta WordNet como conocimiento a nivel de palabra (word-level knowledge), mientras que FrameNet y VerbNet hacen referencia al conocimiento a nivel de frase (sentence-level knowledge). Y finalmente Verbnet es un recurso léxico de verbos basado en las clases de verbos de Levin, y que también aporta restricciones selectivas asociadas a los 176 Generación Semiautomática de Recursos roles semánticos. Identificando la clase de VerbNet que se corresponde con un frame de FrameNet, se pueden analizar sintácticamente frases que incluyen verbos que no están cubiertos aún por FrameNet. Se puede hacer esto gracias a que existe una relación transitiva entre las clases de VerbNet (los verbos que pertenecen a la misma clase en VerbNet tienen una alta probabilidad de compartir el mismo frame en FrameNet, y por lo tanto se pueden analizar semánticamente aunque no aparezcan explı́citamente en FrameNet). También se extiende la cobertura de los verbos de FrameNet haciendo uso de las clases de VerbNet y las relaciones de sinonimia e hiponimia de los verbos de WordNet. Además, se identifican las conexiones explı́citas entre los roles semánticos y las clases semánticas, codificando restricciones de selección para los roles semánticos mediante la jerarquı́a de nombres de WordNet. La construcción de recursos lingüı́sticos requiere un gran esfuerzo humano y cada recurso está pensado para solucionar un determinado tipo de problemas, mostrando virtudes en ciertos aspectos y desventajas en otros. De esta forma, la combinación de estos recursos puede dar lugar a una base de conocimiento más extensa y más rica. En (Shi, 2005) hemos visto como se mejora la cobertura de FrameNet, se mejora VerbNet con la semántica de los marcos y se implementan las restricciones de selección haciendo uso de las clases semánticas existentes en WordNet. Dados estos tres recursos, se pueden combinar de manera que se pueda trabajar con todos ellos a la vez, en lugar de estar obligados a elegir sólo uno renunciando a la información que aportan los otros. Las caracterı́sticas que permiten llevar a cabo esta unión son las siguientes: FrameNet no define explı́citamente restricciones de selección para los roles semánticos. Además, la construcción de FrameNet requirió de un gran esfuerzo humano por lo que la cobertura y escalabilidad se han visto seriamente afectadas. 5. VerbNet sin embargo tiene mucha mejor cobertura y define relaciones sintacticosemánticas de una manera más explı́cita. VerbNet etiqueta roles temáticos y proporciona restricciones de selección para los argumentos de los marcos sintácticos. Importando Recursos Cercanos Cuando queremos afrontar la tarea de crear un recurso lingüı́stico, una posibilidad que tenemos al alcance de nuestra mano en muchos casos, es adaptar otro recurso “cercano” al que deseamos crear. Es la opción elegida por ejemplo en (Carreras, 2003), donde se construye un reconocedor de entidades con nombre para el catalán partiendo de recursos en castellano. Se emplean dos vı́as para lograrlo: en primer lugar creando los modelos para el español para posteriormente traducirlos al catalán, y en segundo lugar crear los modelos de forma bilingüe directamente. La cercanı́a en este caso se presenta ya que se trata de dos lenguas románicas que poseen estructuras sintácticas similares y cuyos entornos sociales y culturales se solapan en gran medida, haciendo que exista un gran número de entidades que aparecen en los corpus de ambas lenguas. Estas caracterı́sticas hacen que los recursos en español sean aprovechables para llevar a cabo tareas sobre el catalán como puede ser el reconocimiento de entidades con nombre. WordNet por su parte cubre casi al completo todos los verbos del inglés y aporta una gran información sobre las relaciones semánticas entre los sentidos de los verbos. De todas formas, la construcción de WordNet está basada en el significado de los verbos y no incluye el comportamiento sintáctico o semántico de los mismos (como pueden ser las estructuras de tipo predicado-argumento). Una vez analizado el contenido de estos tres recursos, la combinación de la información codificada en cada uno de ellos pasa por: Aumentar la semántica de los marcos con las clases de VerbNet etiquetando los marcos y los roles semánticos de FrameNet con las entradas de VerbNet y sus argumentos correspondientes. 177 Fernando Enriquez, Jose Antonio Troyano, Fermin Cruz y F. Javier Ortega corpus del idioma para el que se desea ejecutar el reconocedor, en este caso, el catalán. En este trabajo se hizo empleando el mismo esfuerzo que se realizó para crear el diccionario, es decir, unas 10 horas de trabajo, obteniendo un pequeño corpus etiquetado. Los resultados aportados (Carreras, 2003) demuestran que la tercera opción es la que peor responde ya que es preferible traducir los modelos o crearlos de forma que sean bilingües, antes que aprender de un número tan reducido de ejemplos. En cuanto a las otras dos opciones, la segunda se revela como la más interesante ya que, aunque sobre el español se obtienen mejores resultados con el modelo entrenado únicamente con ejemplos en español, la opción de crear un modelo bilingüe no está muy lejos en cuanto a números en español y supera de forma considerable a los demás en catalán. Estos experimentos demuestran que se pueden aprovechar recursos “cercanos” a los que necesitamos para llevar a cabo tareas obteniendo buenos resultados con un coste bastante reducido (sobre todo en comparación al que habrı́a que afrontar creando nuevos recursos desde cero). Concretamente las conclusiones aportadas por los autores de este trabajo son las siguientes: Para el estudio que se llevó a cabo en este caso, se asumen dos puntos: las entidades aparecen en los mismos contextos para ambas lenguas y las entidades responden a los mismos patrones en ambos casos. Además de esto se construye un diccionario sencillo de palabra a palabra sin tener en cuenta el contexto (10 horas de trabajo para la version catalan-español y un sistema automático para la versión español-catalán). Teniendo en cuenta estas premisas se llevan a cabo varios experimentos sobre el reconocimiento de entidades con nombre en catalán partiendo de corpus etiquetados únicamente en español. La primera opción es traducir el modelo que se genera al entrenar con los textos en español, de manera que se analizan los árboles de decisión generados para su posterior modificación. Si un nodo del árbol analiza la posibilidad de que en la posición -2 aparezca la palabra “calle”, se traduce dicho nodo haciendo lo mismo para la palabra “carrer” (traducción del español al catalán). De esta forma se puede aplicar un modelo creado mediante corpus en español a un texto en catalán. La traducción se hará en todos los nodos que analicen caracterı́sticas léxicas del texto, mientras que los demás permanecerán intactos. Una segunda opción es utilizar caracterı́sticas bilingües (denominadas cross-linguistic features) basadas en una entrada del diccionario “es w ∼ ca w” (suponiendo que existe un parámetro ‘lang’ de valor ‘es’ para el español y ‘ca’ para el catalán). Estas caracterı́sticas binarias se comportan de la siguiente forma: Es mejor traducir un modelo entrenado en español que crear un pequeño corpus anotado con el que entrenar el modelo directamente en catalán. La traducción se puede llevar a cabo de forma automática sin pérdida considerable de efectividad en el proceso. La mejor opción ha resultado ser el uso de caracterı́sticas bilingües ya que permite obtener resultados favorables en ambos idiomas. X-Linges w∼ca w (w) = ⎧ ⎨ 1 if w = es w and lang = es 1 if w = ca w and lang = ca = ⎩ 0 otherwise La expansión de esta idea puede venir en forma de aplicaciones de apoyo más complejas y que ayuden a acercar recursos que no estén tan estrechamente ligados como los que aquı́ se han comentado. De esta forma se puede entrenar el modelo con ejemplos mezclados en ambos idiomas, pudiendo seleccionar el número de ejemplos de cada caso y permitiendo por ejemplo que haya un número muy reducido de ejemplos en catalán para este escenario en concreto. El resultado es un modelo que puede reconocer entidades tanto en español como en catalán. La tercera opción consiste por último en crear el modelo entrenando con un pequeño 6. Técnicas de Bootstrapping En otros trabajos se pone en práctica otra técnica de obtención de recursos muy interesante. Se trata de las técnicas de bootstrapping, que tratan de obtener una gran cantidad de material partiendo de una pequeña 178 Generación Semiautomática de Recursos las etiquetas seleccionadas sirven para aumentar el corpus original y proseguir con la siguiente iteración. “semilla”. En la tarea de la creación de corpus etiquetados, el objetivo será obtener un gran número de frases etiquetadas de forma automática partiendo de un número muy reducido de frases etiquetadas manualmente (por lo que el coste es muy bajo en comparación con el etiquetado manual completo). Existen múltiples técnicas de bootstrapping, que difieren en la forma de aumentar la semilla, el manejo de las frases nuevas etiquetadas o las técnicas de selección en caso de utilizarse alguna. En cualquier caso todas responden a la definición: Figura 3: Esquema de ejecución para el ‘collaborative-train’. “la elevación de un pequeño esfuerzo inicial hacia algo más grande y más significativo”. Co-train: Dos corpus inicialmente iguales sirven para crear dos modelos de diferentes caracterı́sticas y los resultados de aplicar estos modelos a un conjunto de frases nuevas se “cruzan”, es decir, las frases etiquetadas por el primer modelo sirven para aumentar el corpus que sirvió para crear el segundo modelo y viceversa. De esta forma un modelo no se alimenta únicamente de su percepción del corpus sino que recibe información de otro modelo que imprime otro punto de vista diferente a la resolución del mismo problema. Algunos de los esquemas de ejecución más populares dentro de las conocidas como técnicas de bootstrapping son: Self-train: Un corpus es utilizado para crear un modelo que se aplica a un conjunto nuevo de frases que tras ser etiquetadas pasan a formar parte del corpus original para volver a generar un nuevo modelo y avanzar de esta forma iterativamente. Figura 2: Esquema de ejecución para el ‘selftrain’. Esta es la definición de self-training que generalmente se adopta, como en (Clark, 2003), aunque existen otras como la que aporta (Ng, 2003), donde se describe como el entrenamiento de un comité de clasificadores utilizando bagging para finalmente utilizar la votación por mayorı́a para seleccionar las etiquetas finales. Figura 4: Esquema de ejecución para el ‘cotrain’. En (Jones, 1999) se presentan dos casos de estudio para el uso de técnicas de bootstrapping en la creación de recursos. Se trata de un reconocedor de localizaciones y un clasificador de artı́culos de investigación. En ambos casos se obtienen muy buenos resultados, mostrando la utilidad de este tipo de técnicas. Collaborative-train: Se emplea un mismo corpus para obtener diferentes modelos empleando diferentes técnicas de aprendizaje. Posteriormente se introduce una fase de selección entre las diferentes opiniones que surgen de aplicar estos modelos al conjunto de frases nuevas y 179 Fernando Enriquez, Jose Antonio Troyano, Fermin Cruz y F. Javier Ortega J. Otro aspecto importante a tener en cuenta es que se hace prácticamente imposible mejorar el resultado de un clasificador si los resultados que alcanza son demasiado buenos. En estos casos la aplicación de estas técnicas se limitará a introducir ruido y empeorar la calidad del trabajo resultante. Es por lo tanto necesario reservar este tipo de técnicas a trabajos “difı́ciles” como puede ser aumentar un corpus que solo contiene un número limitado de frases inicialmente, teniendo en cuenta que si el tamaño inicial es suficiente para obtener buenos resultados, difı́cilmente podremos mejorarlos aplicando bootstrapping. 7. Howe: The rise of crowdsourcing. Wired - 14.06 http://www.wired.com /wired/archive/14.06/crowds.html. (2006) 17–20 D. Stork: The Open Mind initiative. IEEE Expert Systems and Their Applications, 14(3). (1999) 19–20 R. Mihalcea, T. Chklovski: Open Mind Word Expert: Creating Large Annotated Data Collections with Web Users’ Help. In Proceedings of the EACL 2003 Workshop on Linguistically Annotated Corpora (LINC 2003). (2003) 17–20 P. Singh, T. Lin, E. Mueller, G. Lim, T. Perkins, W. Li Zhu: Open mind common sense: Knowledge acquisition from the general public. In Proceedings of the First International Conference on Ontologies, Databases, and Applications of Semantics for Large Scale Information Systems. (2002) Conclusiones La disponibilidad de recursos es un factor crucial en muchas de las tareas del Procesamiento del Lenguaje Natural que se resuelven fundamentalmente mediante métodos de aprendizaje supervisado. La obtención de estos recursos es una labor muy costosa, de ahı́ que se lleven a cabo esfuerzos para desarrollar métodos que desempeñen esta labor de forma automática o semi-automática. Hemos presentado varias iniciativas ya existentes, mostrando las caracterı́sticas propias de cada una de ellas y reflejando diferentes enfoques que creemos pueden llegar a compaginarse en un entorno que facilite la tarea de la generación de recursos. Este es el punto de partida de una linea de trabajo futuro que deseamos recorrer y de la que intentaremos extraer soluciones satisfactorias a este problema. Lei Shi, Rada Mihalcea: Putting Pieces Together: Combining FrameNet, VerbNet and WordNet for Robust Semantic Parsing. In Proceedings of the Sixth International Conference on Intelligent Text Processing and Computational Linguistics. (2005) Xavier Carreras, Lluı́s Màrquez, Lluı́s Padró: Named Entity Recognition for Catalan Using Spanish Resources. In 10th Conference of the European Chapter of the Association for Computational Linguistics. (2003) Bibliografı́a S. Clark, J. R. Curran, M. Osborne: Bootstrapping POS taggers using Unlabelled Data. In Proceedings of CoNLL-2003. (2003) 49–55 H.T. Ng: Getting serious about word sense disambiguation. In Proceedings of the ACL SIGLEX Workshop on Tagging Text with Lexical Semantics: Why, What, and How?. (1997) 1–7 V. Ng, C. Cardie: Weakly supervised natural language learning without redundant views. In Human Language Technology/Conference of the North American Chapter of the Association for Computational Linguistics. (2003) R. Mihalcea: Bootstrapping Large Sense Tagged Corpora. In Proceedings of the 3rd International Conference on Languages Resources and Evaluations. (2002) Rosie Jones, Andrew McCallum, Kamal Nigam, Ellen Riloff: Bootstrapping for Text Learning Tasks. In IJCAI-99 Workshop on Text Mining: Foundations, Techniques and Applications. (1999) G. Miller, C. Leacock, T. Randee, R. Bunker: A semantic concordance. In Proceedings of the 3rd DARPA Workshop on Human Language Technology. (1993) 303–308 G. Miller: Wordnet: A lexical database. Communication of the ACM,38(11). (1995) 39– 41 180 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 181-186 recibido 18-05-2007; aceptado 22-06-2007 Building Corpora for the Development of a Dependency Parser for Spanish Using Maltparser∗ Jesús Herrera Departamento de Lenguajes y Sistemas Informáticos Universidad Nacional de Educación a Distancia C/ Juan del Rosal, 16, E-28040 Madrid jesus.herrera@lsi.uned.es Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz, Luis Romero Departamento de Ingenierı́a del Software e Inteligencia Artificial Universidad Complutense de Madrid C/ Profesor José Garcı́a Santesmases, s/n, E-28040 Madrid pgervas@sip.ucm.es, {pedrojmoriano, alfonsomm, luis.romero.tejera}@gmail.com Resumen: En el presente artı́culo se detalla el proceso de creación de corpora para el entrenamiento y pruebas de un generador de analizadores de dependencias (Maltparser). Se parte del corpus Cast3LB, que contiene análisis de constituyentes de textos en español. Estos análisis de constituyentes se transforman automáticamente en análisis de dependencias. Además se describe cómo se obtiene, experimentalmente y de manera semiautomática, un conjunto de etiquetas de funcionalidad sintáctica para etiquetar adecuadamente el corpus de entrenamiento. El proceso seguido ha permitido obtener un analizador de dependencias para el español con una precisión del 91 % en la determinación de dependencias. Palabras clave: Análisis de dependencias, corpus de entrenamiento, etiqueta de funcionalidad sintáctica, Maltparser, JBeaver Abstract: The present paper details the process followed for creating training and test corpora for a dependency parser generator (Maltparser). The starting point is the Cast3LB corpus, which contains constituency analyses of Spanish texts. These constituency analyses are automatically transformed into dependency analyses. In addition, the empirically and semiautomatically obtention of a set of syntactic function labels for the training corpus is described. As a result of the process followed, it has been obtained a dependency parser for Spanish showing a 91 % precision when determining dependencies. Keywords: Dependency parsing, training corpus, syntactic function label, Maltparser, JBeaver 1. Introduction The development of JBeaver, a dependency parser for Spanish (Herrera et al., 2007), is based on the use of Maltparser (Nivre et al., 2006), which is a machine learning tool for generating dependency parsers for, virtually, every language. Such development carries inherently associated the labour of generating corpora for its training and its subsequent evaluation. The amount of work needed for develop∗ Partially supported by the Spanish Ministry of Education and Science (TIN2006-14433-C02-01 project). ISSN: 1135-5948 ing from scratch a corpus annotated with dependency analyses, and with a suitable size for training Maltparser, exceeded the possibilities of the JBeaver project. Therefore, it was necessary to find an alternative way for the generation of such corpus. A possible approach was to reuse available resources in order to build from them a corpus annotated with dependency analyses in a semiautomatic way. For this, the Cast3LB (Navarro et al., 2003) treebank was used. It is conformed by 72 Mb of Spanish annotated texts, approximately and itcontains the constituency analysis for every sentence in it. Leaving © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Jesús Herrera de la Cruz, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero aside certain subtleties (Gelbukh and Torres, 2006), constituency analysis and dependency analyses can be converted one into the other in a systematic way. After studying the format and labels used for Cast3LB (Navarro et al., 2003) (Civit, 2002), a system capable of transforming the constituency analyses contained in Cast3LB into dependency analyses was developed by modifying an algorithm proposed by Gelbukh et al. (Gelbukh and Torres, 2006) (Gelbukh et al., 2005). The existence of Cast3LB and the possibility of transforming the analyses contained in it into dependency analyses were important reasons to use Maltparser in the JBeaver project. On the other hand, having decided that the JBeaver parser would be made generally available to the public, lead us to consider additional requirements. For instance, we decided to make as easy as possible the use of JBeaver by tools already adapted to the use of Minipar (Lin, 1998). This is due to the fact that Minipar has become a de facto standard in the last years after being used by a large number of applications. Thus, the notation used for JBeaver is, as far as possible, the same as the one used for Minipar. 2. an example. 3. Building a training corpus Malparser requires for its training a corpus in which, for every word of the analyzed text, the following data must be incorporated: a unique identifier, its part of speech label, the identifier of the head of that word and a label indicating the syntactic function given in the dependency relationship. Maltparser admits both a XML format and a tab format at its input. In figure 2 two mutually equivalent examples are shown (the first one in XML format and the second one in tab format). The numeric identifier 0 and the syntactic function label ROOT are used by convention to designate the dependency tree’s root1 . All the information needed for the creation of the training corpus was contained in the Cast3LB corpus, but it was necessary to extract it and to modify it to suit the conventions followed by Maltparser. For this, the two following actions were accomplished: the obtention of dependency relationships, and the obtention of syntactic function labels. 3.1. The source corpus Obtaining dependency relationships In order to extract the dependency relationships between words contained in the Cast3LB corpus, an automatic process was developed. It was designed from an algorithm proposed by Gelbukh et al. (Gelbukh and Torres, 2006) (Gelbukh et al., 2005), modified as needed. A dependency analysis corpus is needed for training Maltparser. The construction of such a corpus by hand implied a work load well beyond the constraints of the JBeaver project. Thus, it was decided to take advantage of existing resources. Taking into account that, except for some specific cases (such as non-projective constructions), the dependency analysis of a text can be automatically derived from its constituency analysis (Gelbukh and Torres, 2006), and that Cast3LB –which contains constituency analyses of Spanish texts– was available, it became the best option as source corpus for the project. Then, the training corpus was obtained in a semiautomatic way from Cast3LB. Cast3LB contains 100,000 words in, approximately, 3,700 sentences of texts in Spanish. 75,000 words of Cast3LB come from the ClicTALP corpus, which is a set of text from several domains: literary, journalistic, scientific, etcetera, and the other 25,000 words come from the EFE news agency’s corpus from year 2000 (Navarro et al., 2003). In figure 1 an excerpt from Cast3LB is shown as 3.2. Obtaining syntactic functions labels The great popularity reached in the last years by Minipar lead to the decision of using, in the JBeaver project, a set of syntactic function labels that followed, as far as possible, the nomenclature given by Minipar. In this way, it would be easier to adapt systems currently using Minipar to the use of JBeaver. Since the Cast3LB corpus contains specific syntactic function labels, they must be translated into the ones used by Minipar in order to train Maltparser with the appropriate set of labels. For this, the first action to be accomplished was to obtain the set of syntactic function labels from Minipar. Since 1 http://w3.msi.vxu.se/∼nivre/research/ MaltXML.html 182 Building Corpora for the Development of a Dependency Parser for Spanish Using Maltparser <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE FILE SYSTEM "3lb.dtd"> <FILE id="agset" language="es" wn="1.5" ewn="dic2002" parsing_state="process" semantic_state="process" last_modified="13-01-2006" project="3LB" about="3LB project annotation file"> <LOG auto_file="a1-0-auto3.log" anno_file="a1-0-anno4.log" nosense_file="a1-0-nosense4.log" /> <SENTENCE id="agset_1"> <Anchor id="agset_1_ac1" offset="0"/> <Anchor id="agset_1_ac2" offset="15"/> <Anchor id="agset_1_ac3" offset="21"/> <Anchor id="agset_1_ac4" offset="23"/> <Anchor id="agset_1_ac5" offset="26"/> <Anchor id="agset_1_ac6" offset="34"/> <Anchor id="agset_1_ac7" offset="40"/> <Anchor id="agset_1_ac8" offset="42"/> <Anchor id="agset_1_ac9" offset="52"/> <Anchor id="agset_1_ac10" offset="54"/> <Annotation id="agset_1_an3" start="agset_1_ac1" end="agset_1_ac2" type="syn"> <Feature name="roles">SUJ</Feature> <Feature name="label">sn</Feature> <Feature name="parent">agset_1_an2</Feature> </Annotation> <Annotation id="agset_1_an4" start="agset_1_ac1" end="agset_1_ac2" type="syn"> <Feature name="label">grup.nom.ms</Feature> <Feature name="parent">agset_1_an3</Feature> </Annotation> <Annotation id="agset_1_an5" start="agset_1_ac1" end="agset_1_ac2" type="wrd"> <Feature name="label">Medardo_Fraile</Feature> <Feature name="sense">C2S</Feature> <Feature name="parent">agset_1_an6</Feature> </Annotation> <Annotation id="agset_1_an6" start="agset_1_ac1" end="agset_1_ac2" type="pos"> <Feature name="lema">Medardo_Fraile</Feature> <Feature name="label">np00000</Feature> <Feature name="parent">agset_1_an4</Feature> </Annotation> <Annotation id="agset_1_an1" start="agset_1_ac1" end="agset_1_ac10" type="dummy_root"> <Feature name="label"/> <Feature name="parent"/> </Annotation> Figura 1: Excerpt from Cast3LB an exhaustive list of these labels is not publicly available, it was necessary to try to obtain the best possible approach, from a large number of analyses made with Minipar. Following this goal, an empirical work was ac- complished, based on the idea that with a great amount of analyses made with Minipar the set of different labels found would be very close to the real set of labels. The process employed was the following: 183 Jesús Herrera de la Cruz, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero <sentence id="2" user="malt" date=""> <word id="1" form="Genom" postag="pp" head="3" deprel="ADV"/> <word id="2" form="skattereformen" postag="nn.utr.sin.def.nom" head="1" deprel="PR"/> <word id="3" form="infors" postag="vb.prs.sfo" head="0" deprel="ROOT"/> <word id="4" form="individuell" postag="jj.pos.utr.sin.ind.nom" head="5" deprel="ATT"/> <word id="5" form="beskattning" postag="nn.utr.sin.ind.nom" head="3" deprel="SUB"/> <word id="6" form="(" postag="pad" head="5" deprel="IP"/> <word id="7" form="sarbeskattning" postag="nn.utr.sin.ind.nom" head="5" deprel="APP"/> <word id="8" form=")" postag="pad" head="5" deprel="IP"/> <word id="9" form="av" postag="pp" head="5" deprel="ATT"/> <word id="10" form="arbetsinkomster" postag="nn.utr.plu.ind.nom" head="9" deprel="PR"/> <word id="11" form="." postag="mad" head="3" deprel="IP"/> </sentence> Genom skattereformen infors individuell beskattning ( sarbeskattning ) av arbetsinkomster . pp nn.utr.sin.def.nom vb.prs.sfo jj.pos.utr.sin.ind.nom nn.utr.sin.ind.nom pad nn.utr.sin.ind.nom pad pp nn.utr.plu.ind.nom mad 3 1 0 5 3 5 5 5 5 9 3 ADV PR ROOT ATT SUB IP APP IP ATT PR IP Figura 2: Mutually equivalent training files for Maltparser (XML and tab) 1. A set of English texts obtained from the web was parsed with Minipar. It consisted of about 1 Mb of texts from several domains extracted from the Project Gutemberg2 covering the following domains: sport (197.1 Kb containing 1,854 phrases), economy (207.1 Kb containing 1,173 phrases), education (160.5 Kb containing 869 phrases), history (162.2 Kb containing 1,210 phrases), justice (98.2 Kb containing 453 phrases) and health (265.2 Kb containing 2,409 phrases). for each syntactic function label identified do if this function may occur in Spanish then Set one or more rules for suitably transforming the syntactic function label from Cast3LB into the identified label; else Discard the identified label; end if end for 2. The output files given by Minipar were treated in order to extract the set of all different syntactic function labels. The rules mentioned above were implemented in the program that transforms constituency analyses into dependency analyses. A special label was used to identify not yet discovered syntactic functions that might be found in the future. After the establishment of the set of syntactic rules, a significant set of constituen- 3. A set of analyses, in which all the labels found were present, was selected and the following algorithm was applied to it: 2 http://www.gutenberg.org/ 184 Building Corpora for the Development of a Dependency Parser for Spanish Using Maltparser 3.4. cy analyses was transformed into dependency analyses. Having obtained the dependency treebank, all the analyses containing one or more special labels for not yet discovered syntactic functions was manually analyzed. Then, every case was studied in order to determine if a new syntactic function label was incorporated to the set or the considered syntactic function could be assimilated to one of the known labels. In figure 3 the complete list of syntactic function labels is shown, i.e., those from Minipar and those that were defined ad–hoc. Following the process described in this section, 280 XML files (72.9 Mb) containing constituency analyses from the Cast3LB corpus, consisting of 97,002 words, were transformed into dependency analyses apt for their processing by MaltParser (a tab training file of 1.6 Mb), being labeled according to the requirements of the JBeaver project. 4. whn aux num punc amount–value neg nn lex– dep mod amod vrel det pcomp–n gen appo subj guest else neg New ad–hoc syntactic function labels: ROOT descr adj c-descr fecha compdet Figura 3: Syntactic function labels used in the training corpus 5. The set of syntactic function labels finally obtained was not necessarily complete, but it was reasonably valid for its purpose. Thus, it was used by the algorithm that transformed constituency analyses into dependency analyses for labelling the syntactic functions according to Minipar’s nomenclature. 3.3. The test corpus and results obtained For the evaluation of the trained model a fraction of dependencies correctly found and labeled was computed. The gold standard was a fraction of the corpus described in section 3. This corpus was divided in three equal parts; two of them were used as the training corpus and the other one was used both as test corpus and as gold standard. For using it as test corpus, the annotations concerning dependency relationships and syntactic function were eliminated, i.e., it was conformed only by the words and their part of speech tags, which is the format required by MaltParser for using it as parser. Thus, the output given by the trained model was compared with the gold standard, and 91 % of the dependencies found by the trained model were according to the gold standard (Herrera et al., 2007). This result is comparable to the one obtained by Nivre et al. when training MaltParser for Spanish (Nivre et al., 2006). Identified Minipar’s syntactic function labels: sc pnmod poss The definitive corpus Conclusions and future work The process of building corpora for training and testing a specific tool for generating dependency parser (Maltparser) has been shown. This process has proper features because of the requirements of the project in which it has been developed (JBeaver). It was mandatory to use existing resources, and a constituency analyses corpus has been satisfactorily transformed into a equivalent dependency analyses corpus. For this purpose, an algorithm previously proposed by Gelbukh et al. was modified and applied. In addition and in order to fulfill the necessities of the project, the set of syntactic function labels of Minipar was empirically determined. The future work includes the search for more syntactic function labels, from Minipar and new ones not considered yet. Also, some research could be done in order to improve the algorithm that transforms constituency Part of speech tagging One of JBeaver’s features is that is capable to parse texts with no need of a previous annotation. Since the model learned by MaltParser requires, for the parsing step, that every word is labeled with its part of speech, the tagging subtask is implemented in JBeaver by the part of speech tagger Treetagger (Schmid et al., 1994). The use of Treetagger was motivated by the fact that its set of part of speech labels was the one used for MaltParser’s training. 185 Jesús Herrera de la Cruz, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero analyses into dependency analyses. By means of these future improvements, it should be possible to learn better models for dependency parsing in Spanish. In addition, similar development efforts to the one described here could be carried out for other languages. Bibliografı́a M. Civit. 2002. Etiquetación de los Cuantificadores: Varias Propuestas. TALP Research Center–Universidad Politécnica de Cataluña. Technical Report. A. Gelbukh and S. Torres. 2006. Tratamiento de Ciertos Pronombres y Conjunciones en la Transformación de un Corpus de Constituyentes a un Corpus de Dependencias. Avances en la Ciencia de la Computación. VII Encuentro Internacional de Computación ENC’06. A. Gelbukh, S. Torres and H. Calvo. 2005. Transforming a Constituency Treebank into a Dependency Treebank. Procesamiento del Lenguaje Natural, No 35, September 2005. Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN). J. Herrera, P. Gervás, P.J. Moriano, A. Muñoz, L. Romero. 2007. JBeaver: Un Analizador de Dependencias para el Español Basado en Aprendizaje. Under evaluation process for CAEPIA 2007. D. Lin. 1998. Dependency–based Evaluation of MINIPAR. Proceedings of the Workshop on the Evaluation of Parsing Systems, Granada, Spain. B. Navarro, M. Civit, M.A. Martı́, R. Marcos, B. Fernández. 2003. Syntactic, Semantic and Pragmatic Annotation in Cast3LB. Proceedings of the Shallow Processing on Large Corpora (SproLaC), a Workshop on Corpus Linguistics, Lancaster, UK. J. Nivre, J. Hall, J. Nilsson, G. Eryigĭt and S. Marinov. 2006. Labeled Pseudo– Projective Dependency Parsing with Support Vector Machines. Proceedings of the CoNLL-X Shared Task on Multilingual Dependency Parsing, New York, USA. H. Schmid. 1994. Probabilistic Part-ofSpeech Tagging Using Decission Trees. Proceedings of the International Conference on New Methods in Language Processing, pages 44–49, Manchester, UK. 186 Semántica Procesamiento del Lenguaje Natural, nº39 (2007), pp. 189-196 recibido 18-05-2007; aceptado 22-06-2007 A Proposal of Automatic Selection of Coarse-grained Semantic Classes for WSD∗ Rubén Izquierdo & Armando Suárez GPLSI. Departament de LSI. UA. Alacant, Spain. {ruben,armando}@dlsi.ua.es German Rigau IXA NLP Group. EHU. Donostia, Spain. german.rigau@ehu.es Resumen: Presentamos un método muy simple para seleccionar conceptos base (Base Level Concepts) usando algunas propiedades estructurales básicas de WordNet. Demostramos empı́ricamente que el conjunto de Base Level Concepts obtenido agrupa sentidos de palabras en un nivel de abstracción adecuado para la desambiguación del sentido de las palabras basada en clases. De hecho, un sencillo clasificador basado en el sentido más frecuente usando las clases generadas, es capaz de alcanzar un acierto próximo a 75% para la tarea de etiquetado semántico. Palabras clave: WordNet, Sentidos de las palabras, niveles de abstracción, Desambiguación del Sentido de las Palabras Abstract: We present a very simple method for selecting Base Level Concepts using some basic structural properties of WordNet. We also empirically demonstrate that these automatically derived set of Base Level Concepts group senses into an adequate level of abstraction in order to perform class-based Word Sense Disambiguation. In fact, a very naive Most Frequent classifier using the classes selected is able to perform a semantic tagging with accuracy figures over 75%. Keywords: WordNet, word-senses, levels of abstraction, Word Sense Disambiguation 1 Introduction Word Sense Disambiguation (WSD) is an intermediate Natural Language Processing (NLP) task which consists in assigning the correct semantic interpretation to ambiguous words in context. One of the most successful approaches in the last years is the supervised learning from examples, in which statistical or Machine Learning classification models are induced from semantically annotated corpora (Màrquez et al., 2006). Generally, supervised systems have obtained better results than the unsupervised ones, as shown by experimental work and international evaluation exercises such as Senseval1 . These annotated corpora are usually manually tagged by lexicographers with word senses taken from a particular lexical semantic resource –most commonly WordNet (WN) (Fellbaum, 1998). WN has been widely criticised for being a sense repository that often offers too fine–grained sense distinctions for higher level applications like Machine Translation or Question & Answering. In fact, WSD at this level of granularity, has resis∗ This paper has been supported by the European Union under the project QALL-ME (FP6 IST-033860) and the Spanish Government under the project Text-Mess (TIN2006-15265-C06-01) and KNOW (TIN2006-15049C03-01) 1 http://www.senseval.org ISSN: 1135-5948 ted all attempts of infering robust broad-coverage models. It seems that many word–sense distinctions are too subtle to be captured by automatic systems with the current small volumes of word–sense annotated examples. Possibly, building class-based classifiers would allow to avoid the data sparseness problem of the word-based approach. Recently, using WN as a sense repository, the organizers of the English all-words task at SensEval-3 reported an inter-annotation agreement of 72.5% (Snyder and Palmer, 2004). Interestingly, this result is difficult to outperform by state-of-the-art fine-grained WSD systems. Thus, some research has been focused on deriving different sense groupings to overcome the fine–grained distinctions of WN (Hearst and Schütze, 1993) (Peters, Peters, and Vossen, 1998) (Mihalcea and Moldovan, 2001) (Agirre, Aldezabal, and Pociello, 2003) and on using predefined sets of sense-groupings for learning class-based classifiers for WSD (Segond et al., 1997) (Ciaramita and Johnson, 2003) (Villarejo, Màrquez, and Rigau, 2005) (Curran, 2005) (Ciaramita and Altun, 2006). However, most of the later approaches used the original Lexicographical Files of WN (more recently called Supersenses) as very coarse–grained sense distinctions. However, not so much attention has been paid on learning class-based classifiers from other available © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Ruben Izquierdo-Bevia, Armyo Suárez y Germán Rigau sense–groupings such as WordNet Domains (Magnini and Cavaglia, 2000), SUMO labels (Niles and Pease, 2001), EuroWordNet Base Concepts (Vossen et al., 1998) or Top Concept Ontology labels (Atserias et al., 2004). Obviously, these resources relate senses at some level of abstraction using different semantic criteria and properties that could be of interest for WSD. Possibly, their combination could improve the overall results since they offer different semantic perspectives of the data. Furthermore, to our knowledge, to date no comparative evaluation have been performed exploring different sense–groupings. We present a very simple method for selecting Base Level Concepts (Rosch, 1977) using basic structural properties of WN. We also empirically demonstrate that these automatically derived set of Base Level Concepts group senses into an adequate level of abstraction in order to perform class-based WSD. This paper is organized as follows. Section 2 introduce the different levels of abstraction that are relevant for this study, and the available sets of semi-automatically derived Base Concepts. In section 3, we present the method for deriving fully automatically a number of Base Level Concepts from any WN version. Section 4 reports the resulting figures of a direct comparison of the resources studied. Section 5 provides an empirical evaluation of the performance of the different levels of abstraction. In section 6 we provide further insights of the results obtained and finally, in section 7 some concluding remarks are provided. 2 WN. By means of the ILI, synsets and words or different languages are connected, allowing advanced multilingual natural language applications (Vossen et al., 2006). The notion of Base Concepts (hereinafter BC) was introduced in EuroWordNet. The BC are supposed to be the concepts that play the most important role in the various wordnets of different languages. This role was measured in terms of two main criteria: a high position in the semantic hierarchy and having many relations to other concepts. Thus, the BC are the fundamental building blocks for establishing the relations in a wordnet. In that sense, the Lexicografic Files (or Supersenses) of WN could be considered the most basic set of BC. Basic Level Concepts (Rosch, 1977) (hereinafter BLC) should not be confused with Base Concepts. BLC are a compromise between two conflicting principles of characterization: a) to represent as many concepts as possible (abstract concepts), and b) to represent as many distinctive features as possible (concrete concepts). As a result of this, Basic Level Concepts typically occur in the middle of hierarchies and less than the maximum number of relations. BC mostly involve the first principle of the Basic Level Concepts only. BC are generalizations of features or semantic components and thus apply to a maximum number of concepts. Our work focuses on devising simple methods for selecting automatically an accurate set of Basic Level Concepts from WN. Levels of abstraction 2.1 WordNet2 (WN) (Fellbaum, 1998) is an online lexical database of English which contains concepts represented by synsets, sets of synonyms of content words (nouns, verbs, adjectives and adverbs). In WN, different types of lexical and semantic relations interlink different synsets, creating in this way a very large structured lexical and semantic network. The most important relation encoded in WN is the subclass relation (for nouns the hyponymy relation and for verbs the troponymy relation). The last version of WN, WN 3.0, was released on december 2006. It contains 117,097 nouns and 11,488 verbs, organized into 81,426 noun synsets and 13,650 verb synsets. EuroWordNet3 (EWN) (Vossen et al., 1998) is a multilingual database than contains wordnets for several languages (Dutch, Italian, Spanish, German, French, Czech and Estonian). Each of these single wordnets represent a unique language-internal system of lexicalizations, and it is structured following the approach of English wordnet: synsets and relations between them. Different wordnets are linked to the InterLingual-Index (ILI), based on Princeton English WordNet Base Concepts WN synsets are organized in forty five Lexicographer Files, or SuperSenses, based on syntactic categories (nouns, verbs, adjectives and adverbs) and logical groupings, such as person, phenomenon, feeling, location, etc. There are 26 basic categories for nouns, 15 for verbs, 3 for adjectives and 1 for adverbs. For instance, the Supersenses corresponding to the four senses of the noun church in WN1.6 are noun.group for the first Christian Church sense, noun.artifact for the second church building sense and noun.act for the third church service sense. 2.2 EuroWordNet Base Concepts Within EuroWordNet, a set of Base Concepts was selected to reach maximum overlap and compatibility across wordnets in different languages following the two main criteria described above: a high position in the semantic hierarchy and having many relations to other concepts. Initially, a set of 1,024 Common Base Concepts from WN1.5 (concepts acting as BC in at least two languages) was selected, only considering English, Dutch, Spanish and Italian wordnets. 2 http://wordnet.princeton.edu 3 http://www.illc.uva.nl/EuroWordNet/ 190 A Proposal of Automatic Selection of Coarse-grained Semantic Classes for WSD 2.3 Balkanet Base Concepts The Balkanet project4 followed a similar approach to EWN, but using other languages: Greek, Romanian, Serbian, Turkish and Bulgarian. The goal of Balkanet was to develop a multilingual lexical database for the new languages following the guidelines of EWN. Thus, the Balkanet project selected his own list of BC extending the original set of BC of EWN to a final set of 4,698 ILI records from WN2.05 (3,210 nouns, 1,442 verbs and 37 adjectives). 2.4 MEANING Base Concepts The MEANING project6 also followed the architectural model proposed by the EWN to build the Multilingual Central Repository (Mcr) (Atserias et al., 2004). In this case, BC from EWN based on WN1.5 synsets were ported to WN1.6. The number of BC finally selected was 1,535 (793 for nouns and 742 for verbs). 3 synset group 1,grouping 1 social group 1 organisation 2,organization 1 establishment 2,institution 1 faith 3,religion 2 Christianity 2,church 1,Christian church 1 #rel. 14 29 39 63 79 11 19 synset entity 1,something 1 object 1,physical object 1 artifact 1,artefact 1 construction 3,structure 1 building 1,edifice 1 place of worship 1, ... church 2,church building 1 #rel. 20 69 5 11 7 1 synset act 2,human action 1,human activity 1 activity 1 ceremony 3 religious ceremony 1,religious ritual 1 service 3,religious service 1,divine service 1 church 3,church service 1 Table 1: Possible Base Level Concepts for the noun Church in WN1.6 using WN1.6. The table presents the hypernym chain for each synset together with the number of relations encoded in WN for the synset. The local maxima along the hypernym chain of each synset appears in bold. For church 1 the synset with 12 total relations faith 3 will be selected. The second sense of church, church 2 is a local maximum with 19 total relations. This synset will be selected if the number of descending synsets having church 2 as a Base Level Concept is higher than a predefined threshold. Finally, the selected Base Level Concept for church 3 is religious ceremony 1. Obvioulsy, different criteria will select a different set of Base Level Concepts. Instead of highly related concepts, we also considered highly frequent concepts as possible indicator of a large set of features. Following the same basic algorithm, we also used the relative frequency of the synsets in the hypernym chain. That is, we derived two other different sets of BLC depending on the source of relative frequencies considered: a) the frequency counts in SemCor (FreqSC) and b) the frequency counts appearing in WN (FreqWN). The frequency of a synset has been obtained summing up the frequencies of its word senses. In fact, WN word-senses were ranked using SemCor and other sense-annotated corpora. Thus, the frequencies of SemCor and WN are similar, but not equal. Automatic Selection of Base Level Concepts This section describes a simple method for deriving a set of Base Level Concepts (BLC) from WN. The method has been applied to different WN versions for nouns and verbs. Basically, to select the appropriate BLC of a particular synset, the algorithm only considers the relative number of relations of their hypernyms. We derived two different sets of BLC depending on the type of relations considered: a) all types of relations encoded in WN (All) and b) only the hyponymy relations encoded in WN (Hypo). The process follows a bottom-up approach using the chain of hypernym relations. For each synset in WN, the process selects as its Base Level Concept the first local maximum according to the relative number of relations. For synsets having multiple hypernyms, the path having the local maximum with higher number of relations is selected. Usually, this process finishes having a number of “fake” Base Level Concepts. That is, synsets having no descendants (or with a very small number) but being the first local maximum according to the number of relations considered. Thus, the process finishes checking if the number of concepts subsumed by the preliminary list of BLC is higher than a certain threshold. For those BLC not representing enough concepts according to a certain threshold, the process selects the next local maximum following the hypernym hierarchy. Thus, depending on the type of relations considered to be counted and the threshold established, different sets of BLC can be easily obtained for each WN version. An example is provided in table 1. This table shows the possible BLC for the noun “church” 4 Comparing Base Level Concepts Different sets of Base Level Concepts (BLC) have been generated using different WN versions, types of relations (All and Hypo), sense frequencies (FreqSC and FrecWN) and thresholds. Table 2 presents the total number of BLC and its average depth for WN1.67 varying the threshold and the type of relations considered (All or Hypo). As expected, when increasing the threshold, the total number of automatic BLC and its ave- 4 http://www.ceid.upatras.gr/Balkanet 5 http://www.globalwordnet.org/gwa/5000 #rel. 18 19 37 10 12 5 bc.zip 6 http://www.lsi.upc.es/˜nlp/meaning 7 WN1.6 191 have 66,025 nominal and 12,127 verbal synsets. Ruben Izquierdo-Bevia, Armyo Suárez y Germán Rigau Thres. Rel. all 0 hypo all 10 hypo all 20 hypo all 50 hypo PoS Noun Verb Noun Verb Noun Verb Noun Verb Noun Verb Noun Verb Noun Verb Noun Verb #BLC 3,094 1,256 2,490 1,041 971 719 993 718 558 673 558 672 253 633 248 633 Av. depth. 7.09 3.32 7.09 3.31 6.20 1.39 6.23 1.36 5.81 1.25 5.80 1.21 5.21 1.13 5.21 1.10 Thres. Rel. SemCor 0 WN SemCor 10 WN SemCor 20 WN SemCor 50 WN PoS Noun Verb Noun Verb Noun Verb Noun Verb Noun Verb Noun Verb Noun Verb Noun Verb #BLC 34,865 3,070 34,183 2,615 690 731 691 738 339 659 340 667 94 630 99 631 Av. depth. 7.44 3.41 7.44 3.30 5.74 1.38 5.77 1.40 5.43 1.22 5.47 1.23 4.35 1.12 4.41 1.12 Table 2: Automatic Base Level Concepts for WN1.6 using All or Hypo relations Table 3: Automatic Base Level Concepts for WN1.6 using SemCor or WN frequencies rage depth decrease. For instance, using all relations on the nominal part of WN, the total number of BLC ranges from 3,094 (no threshold) to 253 (threshold 50). Using hyponym relations, the total number of BLC ranges from 2,490 (no threshold) to 248. However, although the number of total BLC for nouns decreases dramatically (around 10 times), the average depth of the synsets selected only ranges from 7.09 (no threshold) to 5.21 (threshold 50) using both types of relations (All and Hypo). This fact, possibly indicates the robustness of the approach. Also as expected, the verbal part of WN behave differently. For verbs and using all relations, the total number of BLC ranges from 1,256 (no threshold) to 633 (threshold 50). Using hyponym relations, the total number of BLC ranges from 1,041 (no threshold) to 633 (threshold 50). In this case, since the verbal hierarchies are much shorter, the average depth of the synsets selected ranges from 3.32 (no threshold) to only 1.13 (threshold 50) using all relations, and from 3.31 (no threshold) to 1.10 (threshold 50) using hypo relations. Table 3 presents the total number of BLC and its average depth for WN1.6 varying the threshold and the type of frequency (WN or SemCor). In general, when using the frequency criteria, we can observe a similar behaviour than when using the relation criteria. That is, when increasing the threshold, the total number of automatic BLC and its average depth decrease. However, now the effect of the threshold is more dramatic, specially for nouns. For instance, the total number nominal BLC ranges from around 34,000 with no threshold to less than 100 nominal BLC with threshold equal to 50 descendants. Again, although the number of total BLC for nouns decreases dramatically, the average depth of the synsets selected only ranges from 7.44 (no threshold) to 4.35 (threshold 50) using sense frequencies from SemCor and from 7.44 (no threshold) to 4.41 (threshold 50) using sense frequencies from WN. As expected, verbs behave differently than nouns. The number of BLC (for both SemCor and WN frequencies) reaches a plateau of around 600. In fact, this number is very close to the verbal top beginners. Table 4 summarizes the Balkanet Base Concepts including the total number of synsets and their average depth. PoS Noun Verb #BC 3,210 1,442 Av. depth. 5.08 2.45 Table 4: Balkanet Base Concepts using WN2.0 In a similar way, table 5 presents the Meaning Base Concepts including the total number of synsets and their average depth. PoS Noun Verb #BC 793 742 Av. depth. 4.93 1.36 Table 5: Meaning Base Concepts using WN1.6 For nouns, the set of Balkanet BC is four times larger than the Meaning BC, while the average depth is similar in both sets (5.08 vs. 4.93 respectively). The verbal set of Balkanet BC is twice larger than the Meaning one, while contrary to the nominal subsets, their average depth is quite different (2.45 vs. 1.36). However, when comparing these sets of BC to the automatically selected BLC, it seems clear that for similar volumes, the automatic BLC appear to be deeper in the hierarchies (both for nouns and verbs). In contrast, the BC derived from the Lexicographic Files of WN (or Supersenses), represent a much more coarse-grained set (26 categories for nouns and 15 for verbs). 192 A Proposal of Automatic Selection of Coarse-grained Semantic Classes for WSD 5 Sense–groupings as semantic classes Nouns Verbs N+V In order to study to what extend the different sense–groupings could be of the interest for class– based WSD, we present a comparative evaluation of the different sense–groupings in a controlled framework. We tested the behaviour of the different sets of sense–groupings (WN senses, Balkanet BC, Meaning BC, automatic BLC and SuperSenses) using the English all–words task of SensEval–3. Obviously, different sense–groupings would provide different abstractions of the semantic content of WN, and we expect a different behaviour when disambiguating nouns and verbs. In fact, the most common baseline used to test the performance of a WSD system, is the Most Frequent Sense Classifier. In this study, we will use this simple but robust heuristic to compare the performances of the different sense–groupings. Thus, we will use SemCor8 (Kuĉera and Francis, 1967) to train for Most Frequent Classifiers for each word and sense–grouping. We only used brown1 and brown2 parts of SemCor to train the classifiers. We used standard Precision, Recall and F1 measure (harmonic mean between Precision and Recall) to evaluate the performance of each classifier. For WN senses, Meaning BC, the automatic BLC, and Lexicographic Files, we used WN1.6. For Balkanet BC we used the synset mappings provided by (Daudé, Padró, and Rigau, 2003)9 , translating the BC from WN2.0 to WN1.6. For testing the Most Frequent Classifiers we also used these mappings to translate the sense–groupings from WN1.6 to WN1.7.1. Table 6 presents the polysemy degree for nouns and verbs of the different words when grouping its senses with respect the different semantic classes on SensEval–3. Senses stand for WN senses, BLC-A for automatic BLC derived using a threshold of 20 and all relations, BLC-S for automatic BLC derived using a threshold of 20 and frequencies from SemCor and SS for the SuperSenses. As expected, while increasing the abstraction level (from the sense level to the SuperSense level, passing to intermediate levels) the polysemy degree decreases. For instance in SensEval–3, at the sense level, the polysemy degree for nous is 4.93 (4.93 senses per word), while at the SuperSense level, the polysemy degree for nouns is 3.06 (3.06 classes per word). Notice that the reduction is dramatic for verbs (from 11.0 to only 4.08). Notice also, that when using the Base Level Concept representations a high degree of polysemy is maintained for nouns and verbs. Tables 7 and 8 presents for polysemous words the performance in terms of F1 measure of the different sense-groupings using the relation criteria (All and Hypo) when training the class– 8 Annotated Senses 4.93 11.00 7.66 BLC-A 4.07 8.64 6.13 BLC-S 4.00 8.72 6.13 SS 3.06 4.08 3.52 Table 6: Polysemy degree over SensEval–3 frequencies on SemCor and testing on SensEval– 3. That is, for each polysemous word in SensEval–3 the Most Frequent Class is obtained from SemCor. Best results are marked using bold. Class Senses Balkanet Meaning BLC–0 BLC–10 BLC–20 BLC–30 BLC–40 BLC–50 SuperSenses Nouns 63.69 65.15 65.28 66.36 66.31 67.64 67.03 66.61 67.19 73.05 Verbs 49.78 50.84 53.11 54.30 54.45 54.60 54.60 55.54 55.69 76.41 Table 7: F1 measure for polysemous words using all relations for BLC In table 7, we present the results of using all relations for selecting BLC. As expected, SuperSenses obtain very high F1 results for nouns and verbs with 73.05 and 76.41, respectively. Comparing the BC from Balkanet and Meaning, the best results seems to be achieved by Meaning BC for both nouns and verbs. Notice that the set of BC from Balkanet was larger than the ones selected in Meaning, thus indicating that the BC from Meaning provide a better level of abstraction. Interestingly, all sets of automatic BLC perform better than those BC provided by Balkanet or Meaning. For nouns, the best result is obtained for BLC using a threshold of only 20 with an F1 of 67.64. We should highlight this result since this set of BLC obtain better WSD performance than the rest of automatically derived BLC while maintaining more information of the original synsets. Interestingly, BLC-20 using 558 classes achieves an F1 of 67.64, while SuperSenses using a much smaller set (26 classes) achieves 73.05. For verbs, it seems that the restriction on the minimum number of concepts for a Base Level Concept has a positive impact in the generalization selection. These results suggest that intermediate levels of representation such as the automatically derived Base Concept Levels could be appropriate for learning class-based WSD classifiers. Recall that for nouns SuperSenses use only 26 classes, while BLC–20 uses 558 semantic classes (more than 20 times larger). In table 8, we present the results of using hyponymy relations for selecting the BLC. Again, using WN1.6. 9 http://www.lsi.upc.edu/˜nlp/ 193 Ruben Izquierdo-Bevia, Armyo Suárez y Germán Rigau all sets of automatically derived BLC perform better than those BC provided by Balkanet or Meaning. In this case, the best results for nouns are obtained again for BLC using a threshold of 20 (F1 of 67.28 with 558 classes). We can also observe that in general, using hyponymy relations we obtain slightly lower performances than using all relations. Possibly, this fact indicates that a higher number of hyponymy relations is required for a Base Level Concept to compensate minor (but richer) number of relations. Class Senses Balkanet Meaning BLC–0 BLC–10 BLC–20 BLC–30 BLC–40 BLC–50 SuperSenses Nouns 63.69 65.15 65.28 65.76 65.86 67.28 66.72 66.77 67.19 73.05 quencies from WN for selecting the BLC. Again, not all automatic sets of BLC surpass the BC from Balkanet and Meaning. For nouns, the best result for automatic BLC is obtained when using a threshold of 40 (F1 of 69.16 with 132 classes), while for verbs, the best result is obtained when using a threshold of 50. We can also observe that in general, using SemCor frequencies we obtain slightly lower performances than using WN frequencies. Again, verbal BLC obtain slightly lower results than using the relations criteria (both all and hypo). Verbs 49.78 50.84 53.11 54.30 54.45 54.60 54.60 55.54 55.54 76.41 Class Senses Balkanet Meaning BLC–0 BLC–10 BLC–20 BLC–30 BLC–40 BLC–50 SuperSenses Table 8: F1 measure for polysemous words using hypomym relations for BLC Nouns 63.69 65.15 65.28 64.45 64.98 65.73 66.46 68.46 68.84 73.05 Verbs 49.78 50.84 53.11 51.75 53.29 53.44 53.61 54.22 54.63 76.41 Table 10: F1 measure for polysemous words using frequencies from WN for BLC Tables 9 and 10 presents for polysemous words the performance in terms of F1 measure of the different sense-groupings using the frequency criteria (FreqSC and FreqWN) when training the class–frequencies on SemCor and testing on SensEval–3. That is, for each polysemous word in SensEval–3 the Most Frequent Class is obtained from SemCor. Best results are marked using bold. In table 9, we present the results of using frequencies from SemCor for selecting the BLC. In this case, not all sets of automatic BLC surpass the BC from Balkanet and Meaning. For nouns, the best result for automatic BLC is obtained when using a threshold of 50 (F1 of 68.84 with 94 classes), while for verbs, the best result is obtained when using a threshold of 40. However, in this case, verbal BLC obtain slightly lower results than using the relations criteria (both all and hypo). Class Senses Balkanet Meaning BLC–0 BLC–10 BLC–20 BLC–30 BLC–40 BLC–50 SuperSenses Nouns 63.69 65.15 65.28 64.95 65.59 66.30 66.67 69.16 69.11 73.05 These results for polysemous words reinforce our initial observations. That is, that the method for automatically deriving intermediate levels of representation such the Base Concept Levels seems to be robust enough for learning classbased WSD classifiers. In particular, it seems that BLC could achieve high levels of accuracy while maintaining adequate levels of abstraction (with hundreds of BLC). In particular, the automatic BLC obtained using the relations criteria (All or Hypo) surpass the BC from Balkanet and Meaning. For verbs, it seems that even the unique top beginners require an extra level of abstraction (that is, the SuperSense level) to be affective. 6 Discussion We can put the current results in context, although indirectly, by comparison with the results of the English SensEval–3 all–words task systems. In this case, the best system presented an accuracy of 65.1%, while the “WN first sense” baseline would achieve 62.4%10 . Furthermore, it is also worth mentioning that in this edition there were a few systems above the “WN first sense” baseline (4 out of 26 systems). Usually, this baseline is very competitive in WSD tasks, and it is extremely hard to improve upon even slightly. Tables 11 and 12 presents for monosemous and polysemous nouns and verbs the F1 measures of the different sense-groupings obtained Verbs 49.78 50.84 53.11 52.27 53.21 53.97 54.15 54.63 54.63 76.41 Table 9: F1 measure for polysemous words using frequencies from SemCor for BLC 10 This result could be different depending on the treatment of multiwords and hyphenated words. In table 10, we present the results of using fre194 A Proposal of Automatic Selection of Coarse-grained Semantic Classes for WSD with all relations criteria when training the class– frequencies on SemCor and testing on SensEval– 3. Best results are marked using bold. Table 11 presents the results using all relations criteria and table 12 presents the same results but using the WN frequency criteria. Class Senses Balkanet Meaning BLC–0 BLC–10 BLC–20 BLC–30 BLC–40 BLC–50 SuperSenses Nouns 71.79 73.06 73.40 74.80 74.99 76.12 75.99 75.76 76.22 81.87 Verbs 52.89 53.82 56.40 58.32 58.46 58.60 58.60 59.70 59.83 79.23 based WSD are those reported by (Ciaramita and Altun, 2006). This system performs a sequence tagging using a perceptron–trained HMM, using SuperSenses, training on SemCor and testing on the SensEval–3. The system achieves an F1–score of 70.74, obtaining a significant improvemement from a baseline system which scores only 64.09. In this case, the first sense baseline is the SuperSense of the most frequent synset for a word, according to the WN sense ranking. Possibly, the origin of the discrepancies between our results and those reported by (Ciaramita and Altun, 2006) is twofold. First, because they use a BIO sequence schema for annotation, and second, the use of the brown-v part of SemCor to establish sense–frequencies. In order to measure the real contribution of the automatic BLC on the WSD task, we also performed a final set of experiments. Once trained on SemCor the Most Frequent Class of a word, we tested on SensEval–3 the first sense appearing in WN of the word for that Class. In that way, we developed a very simple sense tagger which uses the frequency counts of more coarse-grained sense–groupings. Table 13 presents the F1 measures for all nouns and verbs of this naive class– based sense tagger when using WN frequencies for building the automatic BLC. Note that these results are different from the rest since are evaluated at a sense level. Nouns+Verbs 63.24 64.37 65.71 67.35 67.52 68.20 68.14 68.51 68.82 80.68 Table 11: F1 measure for nouns and verbs using all relations for BLC Obviously, higher accuracy figures are obtained when incorporating also monosemous words. Note this naive system achieves for Senses an F1 of 63.24, very similar to those reported in SensEval–3, and for SuperSenses a very high a F1 of 80.68. Regarding the automatic BLC, the best results are obtained for BLC–50, but all of them outperform the BC from Balkanet and Meaning. However, for nouns, BLC–20 (with 558 classes) obtain only slightly lower F1 figures than BLC–50 (with 253 classes). Class Senses Balkanet Meaning BLC–0 BLC–10 BLC–20 BLC–30 BLC–40 BLC–50 SuperSenses Nouns 71.79 73.06 73.40 72.99 74.60 75.62 76.10 78.03 78.03 81.87 Verbs 52.89 53.82 56.40 55.33 57.08 57.22 57.63 58.18 58.87 79.23 Class Senses Balkanet Meaning BLC–0 BLC–10 BLC–20 BLC–30 BLC–40 BLC–50 SuperSenses Nouns+Verbs 63.24 64.37 65.71 65.01 66.69 67.31 67.76 69.07 69.38 80.68 Nouns 71.79 72.35 72.01 72.35 72.24 72.47 72.70 72.70 72.58 72.47 Verbs 52.89 52.48 53.17 52.89 53.03 53.03 53.03 53.31 53.31 53.03 Nouns+Verbs 63.24 63.36 63.49 63.55 63.55 63.68 63.80 63.93 63.86 63.68 Table 13: F1 measure for nouns and verbs of the class–based sense tagger. Table 12: F1 measure for nouns and verbs using WN frequencies for BLC Surprisingly, all these oportunistic class–based sense taggers surpass the Most Frequent Sense tagger. Interestingly, the results of all automatic BLC using threshold higher than 10 obtain equal or better performance than SuperSenses. In fact, the best results for nouns are those obtained using BLC–30 while for verbs those obtained by BLC– 40. That is, the sense-groupings seem to stablish more robust sense frequencies. When using frequencies instead of relations, BLC even achieve higher results. Again, the best results are obtained for BLC–50. However, in this case, not all of them outperform the BC from Balkanet and Meaning. Surprisingly, these naive Most frequent WSD systems trained on SemCor are able to achieve very high levels of accuracy. For nouns, using BLC-20 (selected from all relations, 558 semantic labels) the system reaches 75-62, while using BLC-40 (selected from WN frequencies, 132 semantic labels) the system achieves 78.03. Finally, using SuperSenses for verbs (15 semantic labels) this naive system scores 79.23. To our knowledge, the best results for class– 7 Conclusions and further work The WSD task seems to have reached its maximum accuracy figures with the usual framework. Some of its limitations could come from the sense–granularity of WordNet (WN). WN has been often criticised because its fine–grained 195 Ruben Izquierdo-Bevia, Armyo Suárez y Germán Rigau sense distinctions. Nevertheless, other problems arise for supervised systems like data sparseness just because the lack of adequate and enough training examples. Moreover, it is not clear how WSD can contribute with the current result to improve other NLP tasks. Changing the set of classes could be a solution to enrich training corpora with many more examples. In this manner, the classifiers generalize among an heterogeneous set of labeled examples. At the same time these classes are more easily learned because there are more clear semantic distinctions between them. In fact, our most frequent naive systems are able to perform a semantic tagging with accuracy figures over 75%. Base Level Concepts (BLC) are concepts that are representative for a set of other concepts. In the present work, a simple method for automatically selecting BLC from WN based on the hypernym hierarchy and the number of stored frequencies or relationships between synsets have been shown. Although, some sets of Base Concepts are available at this moment (e.g. EuroWordNet, Balkanet, Meaning), a huge manual effort should be invested for its development. Other sets of Base Concepts, like WN Lexicographer Files (or SuperSenses) are clearly insufficient in order to describe and distinguish between the enormous number of concepts that are used in a text. Using a very simple baseline, the Most Frequent Class, our approach empirically shows a clear improvement over such other sets. In addition, our method is capable to get a more or less detailed sets of BLC without losing semantic discrimination power. Obviously, other selection criteria for selecting BLC should be investigated. We are also interested in the direct comparison between automatically and manually selected BLC. An in depth study of their correlations deserves more attention. Once having defined an appropriate level of abstraction using the new sets of BLC, we plan to use them for supervised class–based WSD. We suspect that using this approach higher accuracy figures for WSD could be expected. Curran, J. 2005. Supersense tagging of unknown nouns using semantic similarity. En Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL’05), páginas 26–33. ACL. Daudé, J., Ll. Padró, y G. Rigau. 2003. Validation and tuning of wordnet mapping techniques. En Proceedings of the International Conference on Recent Advances on Natural Language Processing (RANLP’03), Borovets, Bulgaria. Fellbaum, C., editor. 1998. WordNet. An Electronic Lexical Database. The MIT Press. Hearst, M. y H. Schütze. 1993. Customizing a lexicon to better suit a computational task. En Proceedingns of the ACL SIGLEX Workshop on Lexical Acquisition, Stuttgart, Germany. Kuĉera, H. y W. N. Francis. 1967. Computational Analysis of Present-Day American English. Brown University Press, Providence, RI, USA. Magnini, B. y G. Cavaglia. 2000. Integrating subject fields codes into wordnet. En Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00). Màrquez, Ll., G. Escudero, D. Martı́nez, y G. Rigau. 2006. Supervised corpus-based methods for wsd. En E. Agirre and P. Edmonds (Eds.) Word Sense Disambiguation: Algorithms and applications., volumen 33 de Text, Speech and Language Technology. Springer. Mihalcea, R. y D. Moldovan. 2001. Automatic generation of coarse grained wordnet. En Proceding of the NAACL workshop on WordNet and Other Lexical Resources: Applications, Extensions and Customizations, Pittsburg, USA. Niles, I. y A. Pease. 2001. Towards a standard upper ontology. En Proceedings of the 2nd International Conference on Formal Ontology in Information Systems (FOIS-2001), páginas 17–19. Chris Welty and Barry Smith, eds. Peters, W., I. Peters, y P. Vossen. 1998. Automatic sense clustering in eurowordnet. En First International Conference on Language Resources and Evaluation (LREC’98), Granada, Spain. Rosch, E. 1977. Human categorisation. Studies in CrossCultural Psychology, I(1):1–49. Segond, F., A. Schiller, G. Greffenstette, y J. Chanod. 1997. An experiment in semantic tagging using hidden markov model tagging. En ACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications. ACL, New Brunswick, New Jersey, páginas 78–81. Snyder, Benjamin y Martha Palmer. 2004. The english allwords task. En Rada Mihalcea y Phil Edmonds, editores, Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, páginas 41–43, Barcelona, Spain, July. Association for Computational Linguistics. Villarejo, L., L. Màrquez, y G. Rigau. 2005. Exploring the construction of semantic class classifiers for wsd. En Proceedings of the 21th Annual Meeting of Sociedad Espaola para el Procesamiento del Lenguaje Natural SEPLN’05, páginas 195–202, Granada, Spain, September. ISSN 11365948. References Agirre, E., I. Aldezabal, y E. Pociello. 2003. A pilot study of english selectional preferences and their cross-lingual compatibility with basque. En Proceedings of the International Conference on Text Speech and Dialogue (TSD’2003), CeskBudojovice, Czech Republic. Vossen, P., L. Bloksma, H. Rodriguez, S. Climent, N. Calzolari, A. Roventini, F. Bertagna, A. Alonge, y W. Peters. 1998. The eurowordnet base concepts and top ontology. Informe técnico, Paris, France, France. Atserias, J., L. Villarejo, G. Rigau, E. Agirre, J. Carroll, B. Magnini, y P. Vossen. 2004. The meaning multilingual central repository. En Proceedings of Global WordNet Conference (GWC’04), Brno, Czech Republic. Vossen, P., G. Rigau, I. Alegria, E. Agirre, D. Farwell, y M. Fuentes. 2006. Meaningful results for information retrieval in the meaning project. En Proceedings of the 3rd Global Wordnet Conference, Jeju Island, Korea, South Jeju, January. Ciaramita, M. y Y. Altun. 2006. Broad-coverage sense disambiguation and information extraction with a supersense sequence tagger. En Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP’06), páginas 594–602, Sydney, Australia. ACL. Ciaramita, M. y M. Johnson. 2003. Supersense tagging of unknown nouns in wordnet. En Proceedings of the Conference on Empirical methods in natural language processing (EMNLP’03), páginas 168–175. ACL. 196 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 197-204 recibido 30-04-2007; aceptado 22-06-2007 Cognitive Modules of an NLP Knowledge Base for Language Understanding Carlos Periñán-Pascual Universidad Católica San Antonio Campus de los Jerónimos s/n 30107 Guadalupe - Murcia (Spain) jcperinan@pdi.ucam.edu Francisco Arcas-Túnez Universidad Católica San Antonio Campus de los Jerónimos s/n 30107 Guadalupe - Murcia (Spain) farcas@pdi.ucam.edu Resumen: Algunas aplicaciones del procesamiento del lenguaje natural, p.ej. la traducción automática, requieren una base de conocimiento provista de representaciones conceptuales que puedan reflejar la estructura del sistema cognitivo del ser humano. En cambio, tareas como la indización automática o la extracción de información pueden ser realizadas con una semántica superficial. De todos modos, la construcción de una base de conocimiento robusta garantiza su reutilización en la mayoría de las tareas del procesamiento del lenguaje natural. El propósito de este artículo es describir los principales módulos cognitivos de FunGramKB, una base de conocimiento léxico-conceptual multipropósito para su implementación en sistemas del procesamiento del lenguaje natural. Palabras clave: Representación del conocimiento, ontología, razonamiento, postulado de significado. Abstract: Some natural language processing systems, e.g. machine translation, require a knowledge base with conceptual representations reflecting the structure of human beings’ cognitive system. In some other systems, e.g. automatic indexing or information extraction, surface semantics could be sufficient, but the construction of a robust knowledge base guarantees its use in most natural language processing tasks, consolidating thus the concept of resource reuse. The objective of this paper is to describe FunGramKB, a multipurpose lexicoconceptual knowledge base for natural language processing systems. Particular attention will be paid to the two main cognitive modules, i.e. the ontology and the cognicon. Keywords: Knowledge representation, ontology, reasoning, meaning postulate. 1 FunGramKB FunGramKB Suite1 is a user-friendly environment for the semiautomatic construction of a multipurpose lexico-conceptual knowledge base for a natural language processing (NLP) system within the theoretical model of S.C. Dik’s Functional Grammar (1978, 1989, 1997). FunGramKB is not a literal implementation of Dik’s lexical database, but we depart from the functional model in some important aspects with the aim of building a more robust knowledge base. On the one hand, FunGramKB is multipurpose in the sense that it is both multifunctional and multilanguage. In other words, FunGramKB can be reused in various NLP tasks (e.g. information retrieval and extraction, machine translation, dialogue-based systems, etc) and with several natural languages. 2 1 We use the name ‘FunGramKB Suite’ to refer to our knowledge engineering tool and ‘FunGramKB’ to the resulting knowledge base. ISSN: 1135-5948 2 English, Spanish, German, French and Italian are supported in the current version of FunGramKB. © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Carlos Periñan-Pascual y Francisco Arcas-Túnez On the other hand, our knowledge base is lexico-conceptual, because it comprises two general levels of information: a lexical level and a cognitive level. In turn, these levels are made up of several independent but interrelated components: different types (Tulving, 1985): • • Lexical level (i.e. linguistic knowledge): • The lexicon stores morphosyntactic, pragmatic and collocational information of words. • The morphicon helps our system to handle cases of inflectional morphology. • (i.e. non-linguistic Cognitive level knowledge): • The ontology is presented as a hierarchical structure of all the concepts that a person has in mind when talking about everyday situations. • The cognicon stores procedural knowledge by means of cognitive macrostructures, i.e. script-like schemata in which a sequence of stereotypical actions is organised on the basis of temporal continuity, and more particularly on James Allen's temporal model (Allen, 1983, 1991; Allen and Ferguson, 1994). • The onomasticon stores information about instances of entities, such as people, cities, products, etc. Semantic knowledge, which stores cognitive information about words; it is a kind of mental dictionary. Procedural knowledge, which stores information about how events are performed in ordinary situations—e.g. how to ride a bicycle, how to fry an egg...; it is a kind of manual for everyday actions. Episodic knowledge, which stores information about specific biographic events or situations—e.g. our weddingday; it is a kind of personal scrapbook. Therefore, if there are three types of knowledge involved in human reasoning, there must be three different kinds of knowledge schemata. These schemata are successfully mapped in an integrated way into the cognitive component of FunGramKB: • • • Semantic knowledge is represented in the form of meaning postulates in the ontology. Procedural knowledge is represented in the form of cognitive macrostructures in the cognicon. Episodic knowledge can be stored as a case base.3 A key factor for successful reasoning is that all these knowledge schemata (i.e. meaning postulates, cognitive macrostructures and cases) must be represented through the same formal language, so that information sharing could take place effectively among all cognitive modules. Our formal language is partially founded on Dik’s model of semantic representation (1978, 1989, 1997), which was initially devised for machine translation (Connolly and Dik, 1989). Computationally speaking, when storing cognitive knowledge through FunGramKB Suite, a syntactic-semantic checker is triggered, so that consistent well-formed constructs can be stored. Moreover, a parser outputs an XMLformatted feature-value structure used as the input for the reasoning engine, so that The main consequence of this two-level design is that every lexical module is languagedependent, while every cognitive module is shared by all languages. In other words, computational lexicographers must develop one lexicon and one morphicon for English, one lexicon and one morphicon for Spanish and so on, but knowledge engineers build just one ontology, one cognicon and one onomasticon to process any language input cognitively. Section 2 gives a brief account on the psychological foundation of FunGramKB cognitive level, and sections 3 and 4 describe the two main cognitive modules in that level, i.e. the ontology and the cognicon. 2 Cognitive knowledge in natural language understanding 3 FunGramKB can be very useful in case-based reasoning, where problems are solved by remembering previous similar cases and reusing general knowledge. In cognitive psychology, common-sense knowledge is usually divided into three 198 Cognitive Modules of an NLP Knowledge Base for Language Understanding inheritance and inference mechanisms can be applied. Both the syntactic-semantic validator of meaning postulates and the XML parser were written in C#. establishes a high degree of connectivity among conceptual units by taking into account semantic components which are shared by their meaning postulates. In order to incorporate human beings’ commonsense, our ontology must identify the relations which can be established among conceptual units, and hence among lexical units. However, displaying semantic similarities and differences through taxonomic relations turns out to be more chaotic than through meaning postulates linked to conceptual units. 3 FunGramKB ontology Nowadays there is no single right methodology for ontology development. Ontology design tends to be a creative process, so it is probable that two ontologies designed by different people have a different structuring (Noy and McGuinness, 2001). To avoid this problem, the ontology model should be founded on a solid methodology. The remaining of this section describes five methodological criteria applied to FunGramKB ontology, some of which are based on principles implemented in other NLP projects (Bouaud et al., 1995; Mahesh, 1996; Noy and McGuinness, 2001). The definition of these criteria in the analysis and design phases of the ontology model and the strict application of these guidelines in the development phase contributed to avoid some common errors in conceptual modelling. 3.3 Three-layered ontological model FunGramKB ontology distinguishes three different conceptual levels, each one of them with concepts of a different type: metaconcepts, basic concepts and terminals. Figure (1) illustrates these three types of concepts. #ENTITY → #PHYSICAL → #OBJECT → #SELF_CONNECTED_OBJECT 3.1 Symbiosis between universality and linguistic motivation → +ARTIFICIAL_OBJECT → +CORPUSCULAR FunGramKB ontology takes the form of a universal concept taxonomy, where ‘universal’ means that every concept we can imagine has an appropriate place in this ontology. On the other hand, our ontology is linguistically motivated, as a result of its involvement with the semantics of lexical units, although the knowledge stored in our ontology is not specific to any particular language. → +SOLID → +BALL → $FOOTBALL Figure 1: Example of ontological structuring in FunGramKB Metaconcepts, preceded by symbol #, constitute the upper level in the taxonomy. The analysis of the upper level in the main linguistic ontologies—DOLCE (Gangemi et al., 2002; Masolo et al., 2003), Generalized Upper Model (Bateman, 1990; Bateman, Henschel and Rinaldi, 1995), Mikrokosmos (Beale, Nirenburg and Mahesh, 1995; Mahesh and Nirenburg, 1995; Nirenburg et al., 1996), SIMPLE (Lenci, 2000; Lenci et al., 2000; Pedersen and Keson, 1999; SIMPLE Specification Group, 2000; Villegas and Brosa, 1999), SUMO (Niles and Pease, 2001a, 2001b)—led to a metaconceptual model whose design contributes to the integration and exchange of information with other ontologies, providing thus standardization and uniformity. Since metaconcepts reflect 3.2 Subsumption as the only taxonomic relation At first sight, it can seem that the exclusive use of the IS-A relation can impoverish the ontological model. Indeed, a consequence of this restriction on the taxonomic relation is found in the modelling of the upper level, where metaconcepts #ENTITY, #EVENT and #QUALITY arrange nouns, verbs and adjectives respectively in cognitive dimensions. However, the fact that concepts linked to lexical units of different grammatical categories are not explicitly connected in our ontological model doesn’t prevent FunGramKB to relate those lexical units in the cognitive level through their meaning postulates. Indeed, our ontology 199 Carlos Periñan-Pascual y Francisco Arcas-Túnez frames at the lexical level. 4 On the other hand, a meaning postulate is a set of one or more logically connected predications (e1, e2... en), which are cognitive constructs carrying the generic features of the concept.5 Concepts, and not words, are the building blocks for the formal description of meaning postulates, so a meaning postulate becomes a language-independent semantic knowledge representation. To illustrate, some predications in the meaning postulates of an entity, event and quality are presented in examples (4), (5) and (6) respectively:6 cognitive dimensions, they are not assigned meaning postulates. Therefore, our metaconcepts play the role of ‘hidden categories’, i.e. concepts which aren’t linked to any lexical unit so that they can serve as hidden superordinates and avoid circularity. Basic concepts, preceded by symbol +, are used in FunGramKB as defining units which enable the construction of meaning postulates for basic concepts and terminals, as well as taking part as selection preferences in thematic frames. The starting point for the identification of basic concepts was the defining vocabulary in Longman Dictionary of Contemporary English (Procter, 1978), though deep revision was required in order to perform cognitive mapping. Finally, terminals are headed by symbol $. The borderline between basic concepts and terminals is based on their definitory potential to take part in meaning postulates. 3.4 (4) BIRD +(e1: BE (x1: BIRD)Theme (x2:VERTEBRATE)Referent) *(e2: HAVE (x1)Theme (x3: m FEATHER & 2 LEG & 2 WING)Referent) *(e3: FLY (x1)Theme) (5) KISS +(e1: TOUCH (x1: PERSON)Agent (x2)Theme (f1: 2 LIP)Instrument (f2: (e2: LOVE (x1)Agent (x2)Theme) | (e2: GREET (x1)Agent (x2)Theme))Reason) Non-atomicity of conceptual units In FunGramKB, basic and terminal concepts are not stored as atomic symbols but are provided with a rich internal structure consisting of semantic properties such as the thematic frame or the meaning postulate. On the one hand, every event in the ontology is assigned one thematic frame, i.e. a prototypical cognitive construct which states the number and type of participants involved in the cognitive situation portrayed by the event. In turn, predicate frames of verbs in the lexicon are constructed from thematic frames in the ontology. For instance, hundir and zozobrar are Spanish verbs which trigger the same thematic frame, since both of them are linked to the same concept (example 1). (6) HUGE +(e1: BE (x2)Theme (x1: HUGE)Attribute) +(e2: BE (x1)Theme (x3: SIZE)Referent) +(e3: BE (x2)Theme (x4: m BIG)Attribute) For instance, predications in example (1) have the following natural language equivalents: Birds are always vertebrates. A typical bird has many feathers, two legs and two wings. A typical bird flies. Dik (1997) proposes using words from the own language when describing meaning postulates, since meaning definition is an internal issue of the language. However, this strategy contributes to lexical ambiguity due to the polysemic nature of the defining lexical (1) SINK (x1)Agent (x2)Theme (x3: LIQUID ^ MUD)Location (x4)Origin (x5)Goal (f1: SLOW)Speed However, these verbs can differ in their predicate frames, since they show different profiled arguments (examples 2-3). (2) hundir (x1)NP / S / Agent (x2)NP / DO / Theme hundir (x2)NP / S / Theme 4 The difference between thematic frames and predicate frames is partially grounded on the distinction between argument roles and participant roles in Goldberg’s Construction Grammar (1995). 5 Periñán Pascual and Arcas Túnez (2004) describe the formal grammar of well-formed predications for meaning postulates in FunGramKB. 6 For the sake of clarity, the names of conceptual units have been oversimplified. (3) zozobrar (x2)NP / S / Theme In other words, these lexical units are linked to the same thematic frame at the cognitive level, but the instantiation of this thematic frame can make divergences occur in predicate 200 Cognitive Modules of an NLP Knowledge Base for Language Understanding units. In addition, describing the meaning of words in terms of other words leads to some linguistic dependency (Vossen, 1994). Instead, FunGramKB employs concepts for the formal description of meaning postulates, resulting in an interlanguage representation of meaning. An alternative could have been to use second-order predicate logics for the formal representation of lexical meaning. However, the problem lies not only on the little expressive power of predicate logics, but also on the fact that standard logics use monotonic reasoning, which isn’t robust enough for the simulation of human beings’ commonsense reasoning. very difficult to apply any case-based reasoning on them. In FunGramKB, meaning postulates are not sufficient to describe commonsense knowledge, but they contribute actively to build ‘cognitive macrostructures’ in the cognicon. In other words, our knowledge base integrates semantic knowledge from the ontology with procedural knowledge from the cognicon, resulting in a correlation that almost no NLP system has achieved yet. These schemata are described as ‘macrostructures’ because they are more comprehensive constructions than meaning postulates. While meaning postulates are ontology-oriented knowledge representations, cognitive macrostructures organize knowledge in scenes according to temporality and causality parameters. On the other hand, these macrostructures are described as ‘cognitive’ because they are built with conceptual units from the ontology. Unlike most natural language understanding systems, expectations about what is about to happen in a particular situation are not lexical but conceptual, so different lexical realizations with the same meaning in the same or different languages correspond to the same expectation in FunGramKB. In example (7), we present some predications of the cognitive macrostructure Eating_at_restaurants: 3.5 Meaning postulates as ontological organizers Our ontology structuring complies with the similarity, specificity and opposition principles applied to the meaning postulates of concepts. Firstly, all subordinate concepts must share the meaning postulate of their superordinate concept (i.e. similarity principle). Secondly, all subordinate concepts must have a meaning postulate which states a distinctive feature (or differentiae) not present in the meaning postulate of its superordinate concept (i.e. specificity principle). Finally, differentiae in the meaning postulates of sibling concepts must be incompatible one another (i.e. opposition principle). (7) (e1: ENTER (x1: CUSTOMER)Theme (x2: RESTAURANT)Goal (f1: (e2: BE (x1) (x3: HUNGRY)Attrribute))Reason) (e3: ACCOMPANY (x4: WAITER)Theme (x1)Referent (f2: TABLE)Goal) (e4: SIT (x1)Theme (x5: f1)Location) (e5: BRING (x4)Theme (x6: MENU ^ WINE_LIST)Referent (f3: x1)Goal) (e6: REQUEST (x1)Theme (x7: FOOD | BEVERAGE)Referent (x4)Goal) (e7: TELL (x4)Theme (x8: (e8: COOK (x9: COOK)Theme (x10: FOOD)Referent)Referent (x9)Goal) (e9: BRING (x4)Theme (x11: BEVERAGE)Referent (f4: BAR)Source) 4 FunGramKB cognicon Text understanding must not be restricted to the comprehension of individual sentences, but it must involve the integration of all this information into a ‘situation model’ (Zwaan and Radvansky, 1998) with the purpose of reconstructing the textual world underlying to the literal sense of the linguistic realizations which make up the text surface. The task of reconstructing the situation model of an input text requires NLP systems to hold human beings' commonsense knowledge in the form of generic cognitive structures which can facilitate inferences and predictions as well as information selection and management. Since scripts were devised by Schank and Abelson (1977), little effort has been made to build a large-scale database of procedural-knowledge schemata. For example, both expectation packages (Gordon, 1999) and ThoughtTreasure (Mueller, 1999) are systems which contain facts and rules about ordinary situations, but it is The main advantage of this approach is that meaning postulates and cognitive macrostructures are represented through the same formal language, so that knowledge can be shared more effectively between FunGramKB cognitive modules, particularly when reasoning mechanisms are triggered. 201 Carlos Periñan-Pascual y Francisco Arcas-Túnez 5 Reasoning engine in FunGramKB 6 Conclusion An NLP application is actually a knowledgebased system, so it must be provided with a knowledge base and a reasoning engine. Two reasoning processes have been devised to work with FunGramKB cognitive modules: MicroKnowing and MacroKnowing. MicroKnowing (MicroconceptualKnowledge Spreading) is a multi-level process performed by means of two types of reasoning mechanisms: inheritance and inference. Our inheritance mechanism strictly involves the transfer of one or several predications from a superordinate concept to a subordinate one in the ontology. On the other hand, our inference mechanism is based on the structures shared between predications linked to conceptual units which do not take part in the same subsumption relation within the ontology. Cyclical application of the inheritance and inference mechanisms on our meaning postulates allow FunGramKB to minimize redundancy as well as keeping our knowledge base as informative as possible. When the language engineer modifies an existing meaning postulate or builds a new one, just before being stored, FunGramKB Suite automatically performs the MicroKnowing for that meaning postulate in order to check the compatibility of the newlyincorporated predications with other predications involved in the reasoning process. The language engineer is informed about any incompatibility with inferred or inherited predications. In addition, FunGramKB Suite displays the whole MicroKnowing process step by step, enabling us to verify inference and inheritance conditions in a transparent way.7 Currently we are working on the MacroKnowing (Macroconceptual-Knowing Spreading), i.e. the process of integrating meaning postulates from the ontology with the cognitive macrostructures in the cognicon in order to spread the procedural knowledge stored in FunGramKB. This interaction of semantic and procedural knowledge, so distinctive of human reasoning, is hardly found in NLP systems to date. In NLP, knowledge is usually applied to the input text for two main tasks: parsing (e.g. spell checking, syntactic ambiguity resolution, etc) and partial understanding (e.g. lexical ambiguity resolution, document classification, etc). Full natural language understanding is hardly performed. Indeed, deep semantics for NLP is currently very limited, perhaps because most applications exploit WordNet as a source of information. Moreover, researchers do not even agree on how much semantic information is sufficient to achieve the best outcome. However, it is thought that performance is improved if the system is provided with a robust knowledge base and a powerful inference component (Vossen, 2003). In fact, the main problem in the successful development of natural language understanding systems lies on the lack of an extensive commonsense knowledge base. Since commonsense is mainly made up of semantic and procedural knowledge, which FunGramKB stores in the form of meaning postulates and cognitive macrostructures respectively, we can conclude that FunGramKB can help language engineers to design more intelligent NLP applications. Bibliography Allen, J. 1983. Maintaining knowledge about temporal intervals. Communications of the ACM, 26 (11): 832-843. Allen, J. 1991. Time and time again: the many ways to represent time. International Journal of Intelligent Systems, 6 (4): 341355. Allen, J. and G. Ferguson. 1994. Actions and events in interval temporal logic. Journal of Logic and Computation, 4 (5): 531-579. Bateman, J.A. 1990. Upper modeling: a general organization of knowledge for natural language processing. Workshop on Standards for Knowledge Representation Systems. Santa Barbara. Bateman, J.A., R. Henschel, and F. Rinaldi. 1995. The Generalized Upper Model 2.0. Technical report. IPSI/GMD, Darmstadt. Beale, S., S. Nirenburg, and K. Mahesh. 1995. Semantic analysis in the Mikrokosmos machine translation project. Proceedings of 7 Periñán Pascual and Arcas Túnez (2005) give an accurate description of MicroKnowing in FunGramKB. 202 Cognitive Modules of an NLP Knowledge Base for Language Understanding the Symposium on NLP. Bangkok. SIG/CR Classification Research Workshop: An Interdisciplinary Meeting. 79-94, Chicago. Bouaud, J., B. Bachimont, J. Charlet, and P. Zweigenbaum. 1995. Methodological principles for structuring an ontology. Proceedings of IJCAI'95: Workshop on Basic Ontological Issues in Knowledge Sharing. Montreal. Masolo, C., S. Borgo, A. Gangemi, N. Guarino, and A. Oltramari. 2003. WonderWeb deliverable D18: ontology library. Technical report. Laboratory for Applied Ontology, ISTC-CNR. Connolly, J.H. and S.C. Dik. eds. 1989. Functional Grammar and the Computer. Foris, Dordrecht. Mueller, E.T. 1999. A database and lexicon of scripts for ThoughtTreasure. [http://cogprints.ecs.soton.ac.uk/archive/000 00555/] Dik, S.C. 1978. Functional Grammar. Foris, Dordrecht. Niles, I. and A. Pease. 2001a. Origins of the Standard Upper Merged Ontology: a proposal for the IEEE Standard Upper Ontology. Working Notes of the IJCAI-2001 Workshop on the IEEE Standard Upper Ontology. Seattle. Dik, S.C. 1989. The Theory of Functional Grammar. Foris, Dordrecht. Dik, S.C. 1997. The Theory of Functional Grammar. Mouton de Gruyter, Berlin-New York. Gangemi, A., Oltramari, Sweetening Proceedings Sigüenza. N. Guarino, C. Masolo, A. and L. Schneider. 2002. ontologies with DOLCE. of EKAW 2002. 166-181, Niles, I. and A. Pease. 2001b. Towards a standard upper ontology. Proceedings of the 2nd International Conference on Formal Ontology in Information Systems. Ogunquit. Goldberg, A.E. 1995. Constructions: A Construction Grammar Approach to Argument Structure. The University of Chicago Press, Chicago. Nirenburg, S., S. Beale, K. Mahesh, B. Onyshkevych, V. Raskin, E. Viegas, Y. Wilks, and R. Zajac. 1996. Lexicons in the MikroKosmos project. Proceedings of the AISB’96 Workshop on Multilinguality in the Lexicon. Brighton. Gordon, A.S. 1999. The design of knowledgerich browsing interfaces for retrieval in digital libraries. Doctorate thesis. Northwestern University. Noy, N.F. and D.L. McGuinness. 2001. Ontology development 101: a guide to creating your first ontology. Technical report KSL-01-05. Stanford Knowledge Systems Laboratory, Stanford University. Lenci, A. 2000. Building an ontology for the lexicon: semantic types and word meaning. Workshop on Ontology-Based Interpretation of Noun Phrases. Kolding. Pedersen, B.S. and B. Keson. 1999. SIMPLE— semantic information for multifunctional plurilingual lexica: some examples of Danish concrete nouns. Proceedings of the SIGLEX-99 Workshop. Maryland. Lenci, A., N. Bel, F. Busa, N. Calzolari, E. Gola, M. Monachini, A. Ogonowski, I. Peters, W. Peters, N. Ruimy, M. Villegas, and A. Zampolli. 2000. SIMPLE: a general framework for the development of multilingual lexicons. International Journal of Lexicography, 13 (4): 249-263. Periñán Pascual, C. and F. Arcas Túnez. 2004. Meaning postulates in a lexico-conceptual knowledge base. Proceedings of the 15th International Workshop on Databases and Expert Systems Applications. 38-42, IEEE, Los Alamitos. Mahesh, K. 1996. Ontology development for machine translation: ideology and methodology. Technical report MCCS-96292. Computing Research Laboratory, New Mexico State University, Las Cruces. Periñán Pascual, C. and F. Arcas Túnez. 2005. Microconceptual-Knowledge Spreading in FunGramKB. Proceedings on the 9th IASTED International Conference on Artificial Intelligence and Soft Computing. 239-244, ACTA Press, Anaheim-CalgaryZurich. Mahesh, K. and S. Nirenburg. 1995. Semantic classification for practical natural language processing. Proceedings of the 6th ASIS 203 Carlos Periñan-Pascual y Francisco Arcas-Túnez Procter, P. ed. 1978. Longman Dictionary of Contemporary English. Longman, Harlow. Schank, R. and R.P. Abelson. 1977. Scripts, Plans, Goals and Understanding. Lawrence Erlbaum, Hillsdale. SIMPLE Specification Group. 2000. Specification SIMPLE Work Package 2: linguistic specifications deliverable D2.1. Technical report. Tulving, E. 1985. How many memory systems are there? American Psychologist, 40: 385398. Villegas, M. and I. Brosa. 1999. Spanish SIMPLE: lexicon documentation. Technical report. Vossen, P. 1994. The end of the chain: where does decomposition of lexical knowledge lead us eventually? E. Engberg-Pedersen, L. Falster Jakobsen, and L. Schack Rasmussen. eds. Function and Expression in Functional Grammar. 11-39, Mouton de Gruyter, Berlin-New York. Vossen, P. 2003. Ontologies. R. Mitkov. ed. The Oxford Handbook of Computational Linguistics. 464-482, Oxford University Press, Oxford. Zwaan, R.A. and G.A. Radvansky. 1998. Situation models in language comprehension and memory. Psychological Bulletin, 123 (2): 162-185. 204 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 205-212 recibido 02-05-2007; aceptado 22-06-2007 Text as Scene: Discourse Deixis and Bridging Relations Marta Recasens M. Antònia Martí Mariona Taulé Universitat de Barcelona Universitat de Barcelona Universitat de Barcelona Gran Via Corts Catalanes,585 Gran Via Corts Catalanes,585 Gran Via Corts Catalanes,585 08007 Barcelona 08007 Barcelona 08007 Barcelona mrecasens@ub.edu amarti@ub.edu mtaule@ub.edu Abstract: This paper presents a new framework, “text as scene”, which lays the foundations for the annotation of two coreferential links: discourse deixis and bridging relations. The incorporation of what we call textual and contextual scenes provides more flexible annotation guidelines, broad type categories being clearly differentiated. Such a framework that is capable of dealing with discourse deixis and bridging relations from a common perspective aims at improving the poor reliability scores obtained by previous annotation schemes, which fail to capture the vague references inherent in both these links. The guidelines presented here complete the annotation scheme designed to enrich the Spanish CESS-ECE corpus with coreference information, thus building the CESS-Ancora corpus. Keywords: corpus annotation, anaphora resolution, coreference resolution. Resumen: En este artículo se presenta un nuevo marco, “el texto como escena”, que establece las bases para la anotación de dos relaciones de correferencia: la deixis discursiva y las relaciones de bridging. La incorporación de lo que llamamos escenas textuales y contextuales proporciona unas directrices de anotación más flexibles, que diferencian claramente entre tipos de categorías generales. Un marco como éste, capaz de tratar la deixis discursiva y las relaciones de bridging desde una perspectiva común, tiene como objetivo mejorar el bajo grado de acuerdo entre anotadores obtenido por esquemas de anotación anteriores, que son incapaces de captar las referencias vagas inherentes a estos dos tipos de relaciones. Las directrices aquí presentadas completan el esquema de anotación diseñado para enriquecer el corpus español CESS-ECE con información correferencial y así construir el corpus CESS-Ancora. Palabras clave: anotación de corpus, resolución de la anáfora, resolución de la correferencia. 1 Introduction Due to the lack of large annotated corpora with anaphoric information, the field of computational coreference resolution is still highly knowledge-based, especially for languages other than English. With a view to building a corpus-based coreference resolution system for Spanish, our project is to extend the morphologically, syntactically and semantically annotated CESS-ECE corpus (500,000 words) with pronominal and full noun-phrase (NP) coreference information (thus building the CESS-Ancora corpus). The design of the annotation guidelines is presented in (Recasens, Martí & Taulé, 2007), but two types of coreferential links, namely discourse deixis1 and bridging relations2, call for a specific analysis which takes into account their complex peculiarities so as to determine the most appropriate set of attributes and values. We believe that the more consistent the linguistic basis underlying the annotation scheme is, the easier it is to build a state-of-theart coreference resolution system. On the other hand, coreferential –anaphoric in particular– relations are very much specific to each language. Unlike English, for instance, Spanish has three series of demonstratives and pronouns marked for neuter gender. The typology presented in this paper is the completion of a flexible annotation scheme rich enough to cover the cases of coreference in Spanish. 2 1 We define discourse deixis (or abstract anaphora) as reference to a discourse segment, that is, to a non-nominal antecedent. ISSN: 1135-5948 Our approach classifies as bridging (or associative anaphors) those definite or demonstrative NPs that are interpreted on the grounds of a metonymic relationship with a previous NP or VP. © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Marta Recasens, Antonia Martí Antonín y Mariona Taulé Apart from being a useful resource for training and evaluating coreference resolution systems for Spanish, from a linguistic point of view, the annotated corpus will serve as a workbench to test for Spanish the hypotheses suggested by Ariel (1988) and Gundel, Hedberg & Zacharski (1993) about the cognitive factors governing the use of referring expressions. The only way theoretical claims coming from a single person’s intuitions can be proved is on the basis of empirical data that have been annotated in a reliable way. As a follow-up, this paper places the emphasis on the annotation guidelines for discourse deixis and bridging relations. Both are considered from a common perspective: what we call “text as scene”, that is, the text taken as a scene in the sense that it builds up both a textual and a contextual framework as the result of an interaction between the discourse and the global context. The rest of the paper proceeds as follows: Section 2 reviews previous work on abstract and bridging anaphora. A description of the “text as scene” framework is provided in Section 3. Specific guidelines for annotating discourse deixis and bridging relations are given in Section 4. Finally, Section 5 presents our conclusions and discussion of the guidelines. 2 referenced via deictic expressions. Nevertheless, a discourse entity corresponding to a textual segment is not added to the discourse model until the listener finds a subsequent deictic pronoun, in the so-called accommodation process4. Works on parsing texts into discourse segments (Marcu, 1997) have not dealt with the problem of discourse deixis, i.e. delimiting the extent of the antecedent. With respect to corpus annotation, there are not many annotation schemes that annotate antecedents other than NPs. The MUC Task Definition (Hirschman & Chinchor, 1997) explicitly defines demonstratives as nonmarkables. Two notable exceptions are the MATE scheme by Poesio (2000) and the scheme by Tutin et al. (2000), although both point out the difficulty of delimiting the exact part of the text that counts as antecedent as well as the type of object the antecedent is. Tutin et al. (2000) decide to select the largest possible antecedent. Similarly to discourse deixis, authors seem sceptical about the feasibility of the annotation task for bridging relations, especially since the empirical study conducted by Poesio & Vieira (1998), which reported an agreement of 31%. The issue under debate is where the boundary lies between a discourse-new NP and a bridging one, that is, between autonomous and nonautonomous definite NPs. Fraurud’s (1990) starting point for her corpus-based study is a two-way distinction between first-mentions and subsequent mentions (coreferential NPs). On realising that 60% of the definite NPs were first-mention uses, she concludes that in addition to the syntactic (in)definiteness of an NP, the lexico-encyclopaedic knowledge associated with the head noun of the NP interacts with the general knowledge associated with present anchors in order to select one or more anchors in relation to which a firstmention definite NP is interpreted. Anchors may be provided in the discourse itself –either explicitly or implicitly–, by the global context, or by a combination of the two. Although Fraurud does not use the term, the first-mention NPs that are interpreted in relation to an explicit anchor correspond to “bridging relations”. Previous work Given the difficulty of dealing with antecedents other than NPs, most of the work on anaphora resolution has ignored abstract anaphora and has limited to individual anaphora. However, the work of Byron (2002) has emphasized that demonstrative pronouns referring to preceding clauses abound in natural discourse3. In this line, the corpus-based study of the use of demonstrative NPs in Portuguese and French conducted by Vieira et al. (2002) has pointed out that a system limited to the resolution of anaphors with a nominal antecedent is likely to fail on about 30% of the cases. In her seminal study, Webber (1988) coins the term “discourse deixis” for reference to discourse segments and argues that these should be included in the discourse model as discourse entities, since they can be subsequently 3 4 Byron’s anaphora resolution algorithm differentiates Mentioned Entities (those evoked by NPs) from Activated Entities (those evoked by linguistic constituents other than NPs, involving global focus entities). Accommodation results from the use of a singular definite, which is felt to presuppose that there is already a unique entity in the context with the given description that will allow a truth value to be assigned to the utterance (Lewis, 1979). 206 Text as Scene: Discourse Deixis and Bridging Relations In their analysis of the use of pronouns and demonstrative NPs in bridging relations, Gundel, Hedberg & Zacharski (2000) conclude that such cases are best analysed as minor violations to the Giveness Hierarchy, in that the listener gets away with an underspecified referent on the basis of what is predicated in the text. What do then discourse deixis and bridging relations have in common? On the one hand, they are the anaphoric links with poorest reliability scores. On the other hand –and probably a cause of the former–, their antecedents are rather fuzzy, either because their extension cannot be clearly determined or because the semantic relation that links them with their anaphor cannot be easily identified. Taking into account the low inter-annotator agreement together with the idea of vague reference, we propose viewing the text as a scene in order to provide a wider contextual framework that captures those cases in which a discourse entity alludes to something that is not literally mentioned in the discourse. 3 objetivos es evitar que se repitan los errores del pasado, que obligaron al Gobierno a comprar créditos dudosos por un valor de 60.000 millones de coronas –1.500 millones de dólares. Esto permitirá al banco sanear su portafolio...6 (2) “Las previsiones para los próximos diez días no son nada halagueñas”, pronosticó ayer Eduardo Coca, director del Instituto Nacional de Meteorología. Tan sólo un pequeño frente con poca agua debía cruzar el norte de la península entre ayer y hoy. Por lo demás, seguirá la situación anticiclónica. Pero la cosa no acaba ahí.7 (3) El presidente de la Comisión del Mercado de las Telecomunicaciones mostró su preocupación por la falta de competencia en la telefonía local, como consecuencia de que la liberalización de las telecomunicaciones se ha hecho por principios jurídicos y no técnicos y que “hay que abrir este mercado como sea”.8 Text as scene Previous aims at annotating coreference have shown the need for reconsidering the annotation of both discourse deixis and bridging relations, since the reference of NPs such as esto, la cosa, and este mercado in (1), (2) and (3) respectively5 cannot be accounted for from approaches that insist on linking each anaphoric expression to an explicit textual antecedent. (1) El Komercni Banka –Banco Comercial–, uno de los cuatro bancos más grandes de la República Checa, anunció hoy que despedirá a 2.300 empleados más antes de finales del año dentro del proceso de saneamiento de la entidad estatal. El director del banco, Radovan Vrava, señaló que el motivo principal es la reestructuración del banco. El Estado dispone del 60 por ciento de las acciones del Komercni Banka y el Gobierno checo quiere comenzar el proceso de privatización de este banco ya en este año y terminarlo en septiembre del 2001. Otro de los 6 (1) The Komercni Banka –Commercial Bank –, one of the four biggest banks in the Cheque Republic, announced today that it will dismiss 2,300 more workers by the end of the year within the reform process of the state entity. The director of the bank, Radovan Vrava, pointed out that the main reason is the restructuration of the bank. The State possesses the 60 per cent of the shares of the Komercni Banka and the Cheque Government wants to begin the privatisation process of this bank already this year and finish it in September 2001. Another of the goals is to avoid the repetition of past mistakes, which forced the Government to buy doubtful credits for the price of 60,000 million crowns –1,500 million dollars. This will allow the bank to reform its portfolio. 7 (2) “The forecasts for the next ten days are not favourable at all”, forecasted yesterday Eduardo Coca, director of the National Institute of Meteorology. Only a small front with little water should cross the north of the peninsula between yesterday and today. As for the rest, the anticyclonic situation will persist. But the thing does not end there. 8 (3) The president of the Commission of the Market of Telecommunications showed his concern for the lack of competence in local telephony, as a 5 The reader is asked to please forgive the length of most of the examples used in this paper, but the anaphoric expressions we deal with make no sense unless the context is provided. 207 Marta Recasens, Antonia Martí Antonín y Mariona Taulé Our coding scheme is defined from the consideration of the text as a scene in two different senses (see Figure 1), the scene being the cohesive element. On the one hand, discourse deixis captures those anaphoric expressions that refer back to the textual scene, that is, to a discourse segment –either at the sentence level or beyond the sentence– that builds up a scene as a whole. On the other hand, bridging captures those implicit relations (between two discourse entities) that are enabled by the contextual scene activated by the involved entities. A contextual scene is taken to be the knowledge which does not explicitly appear in the text, but that contributes to its comprehension. Bridging is treated within coreference in the sense that the two discourse entities share the reference point on the basis of a contextual scene. Eduardo Coca, director del Instituto Nacional de Meteorología (INM). Tan sólo un pequeño frente con poca agua debía cruzar el norte de la península entre ayer y hoy. Pero la cosa no acaba ahí. La falta de ompetencia en todo el mundo en la telefonía local, como consecuencia de que la liberalización de las comunicaciones se ha hecho por principios jurídicos, este mercado como sea. Discourse deixis Bridging relation consensus as to the typology of referring expressions that can code discourse deixis and bridging relations as well as the subtypes of links that need to be annotated with a view to achieving a level of inter-annotator agreement as high as possible. 4 Corpus annotation The CESS-ECE corpus is the largest annotated corpus of Spanish, which contains 500,000 words mostly coming from newspaper articles. It has been annotated with morphological information (PoS), syntactic constituents and functions, argument structures and thematic roles, tagged with strong and weak named entities, and the 150 most frequent nouns have their WordNet synset. Drawing from the MATE scheme (Poesio, 2000) and taking into account the information already annotated, the enrichment of the corpus with coreference annotation is divided into two steps: a first automatic stage, and a second manual one. The former marks up all NPs of the corpus as <de> (discourse entity) with an ID number, and fills in the TYPE attributes with morphological information (the kind of NP); the latter step adds those <de> unidentified by the automatic annotation – and codes the coreferential relations by incorporating the <link> element. It is at this second stage when antecedents expressed by phrases other than nominal are marked manually as <seg> elements when necessary. The <coref:link> elements serve to show coreferential relations holding between two discourse entities, and the embedded <coref:anchor> element points to the ID of the antecedent. Each <coref:link> has a TYPE attribute that specifies the kind of coreferential relation. We distinguish seven types of links: (i) ident (identity) (ii) dx (discourse deixis) (iii) poss (possessor) (iv) bridg (bridging) (v) pred (predicative) (vi) rank (ranking) (vii) context (contextual) ctx-sc Figure 1: Textual and contextual scenes Back to example (1), the discourse segment picked up by the pronoun esto –that which is going to allow the Cheque Bank to reform its portfolio– results not only from the last discourse segment, but from combining the content of the events that form the entire textual scene: the dismissal of 2,300 workers, the restructuration of the Bank, its privatisation, and the avoidance of past mistakes. Similarly, the definite NP la cosa in (2) makes reference to the textual scene previously described. It becomes a quasi-pronominal form in that it is almost semantically empty. Finally, example (3) shows a case of bridging, where the interpretation of the demonstrative NP este mercado is made possible by the contextual scene activated by a former NP, la telefonía local, namely, the market opened by local telephony. Text as scene provides a common framework within which we are able to reach a Given that the marking of both discourse deixis and bridging relations is very useful for tasks such as question answering (answer fusion), information extraction (template merging) and text summarization, but that the annotation of these two links poses great difficulty, we consequence of the fact that the liberalisation of telecommunications has been done by juridical and not technical principles and that “this market must be opened at all costs”. 208 Text as Scene: Discourse Deixis and Bridging Relations consider it necessary to devote the two following sections to specifying their annotation guidelines, which are based on our conception of the text as scene. 4.1 events (4), “sent-fact” for facts (5), and “sentprop” for propositions (6). (4) a. La ministra Anna Birulés animó a las pymes a [invertir en Investigación y Desarrollo] y *0* mostró a los empresarios presentes la disposición del Gobierno a facilitar este camino.10 Discourse deixis (dx) We consider an anaphoric NP to be in a dx relation when its antecedent is a textual scene expressed by a clause or a sequence of clauses. NPs that have the potential to participate in dx links are demonstrative pronouns, the neuter personal pronoun lo, the relative pronoun que, demonstrative full NPs, and definite descriptions (DD) of the kind la cosa, el fenómeno, la situación, etc. We call these NPs “quasi-pronominal DDs”, as they can be replaced by the pronoun esto and are almost empty of semantic content of their own. Textual scenes are not constituted as such until a corresponding referring expression appears in the discourse. The pronouns lo and que tend to refer to textual scenes within the same discourse segment or introduced in the previous sentence, while demonstratives and quasi-pronominal DDs can refer to scenes that are more than one sentence away. Since it is not a trivial matter to decide the exact part of the text that serves as antecedent, we distinguish between two SUBTYPE attributes for dx: b. La ministra Anna Birulés animó a las pymes a <seg ID=“seg_03”> invertir en Investigación y Desarrollo </seg> y *0* mostró a los empresarios presentes la disposición del Gobierno a facilitar <de type=“dd0ms0” ID=“de_06”> este camino </de>. <coref:link ID=“de_06” type=“dx” subtype=“sent-ev”> <coref:anchor ID=“seg_03”/> </coref:link> (5) Sin embargo, [los virus logran poner a su servicio al organismo vivo más desarrollado que existe: el ser humano.] Es éste un hecho que hace temblar el edificio que la humanidad ha construido.11 (6) [La Coordinadora de Organizaciones de Agricultores y Ganaderos teme que la falta de lluvia afecte también a los regadíos, dado que empieza a reducirse el volumen de agua embalsada.] Este temor es compartido por...12 (i) subtype=“sent” (sentential) This subclass covers the less problematic cases of discourse deixis, i.e. those anaphoric NPs that refer to a textual scene whose extent is no longer than one sentence (any discourse segment from period to period). We mark the non-nominal antecedent as a <seg> element with an ID number, which fills the <coref:anchor>. When in doubt about the exact delimitation of the text segment, the entire sentence is marked-up. For ease of presentation, (4a) shows the extent of the antecedent for the anaphoric demonstrative NP este camino9, whereas (4b) codes the link as it is done in the annotation of the CESS-Ancora corpus. Taking into account that the pronoun alone is not enough to pick up its referent, but that this is made clear from the predicate complement information (Byron, 2000), we further determine the “sent” value with the semantic type of the antecedent: “sent-ev” for (ii) subtype=“text” (textual scene) The textual scene subtype includes those cases discussed in Section 3 ((1) and (2)), where an anaphoric expression refers to the whole scene built up by the preceding text. These are cases that result from global discourse effects, so the precise anchor goes beyond the single sentence level and is usually vague in reference. 10 (4) The minister Anna Birulés stimulated the SMEs [to invest in Research and Development] and showed the present businessmen the Government’s willingness to facilitate this path. 11 (5) Nevertheless, [viruses manage to put at their service the most developed living organism that exists: the human being.] This is a fact that makes the edifice that humanity has built tremble. 12 (6) [The Coordinator of Organisation of Farmers fears that the lack of rain also affects irrigations, given that the volume of dammed water is starting to decrease.] This fear is shared by... 9 In the examples, underlines correspond to anaphoric expressions, while square brackets identify their antecedents. 209 Marta Recasens, Antonia Martí Antonín y Mariona Taulé Therefore, as <coref:anchor> we indicate the ID of the paragraph (<par>) to which the anaphor belongs, thus indicating that the reference is made to the textual scene going from the beginning of the paragraph to the anaphor. As example, (7) shows the annotation for the anaphoric NP in (1). (7) <de type=“pd0ns00” ID=“de_09”> Esto </de> permitirá al banco sanear su portafolio.13 <coref:link ID=“de_09” type=“dx” subtype=“text” > <coref:anchor ID=“par_05”/> </coref:link> Demonstratives which are part of idiomatic phrases, such as the connectors de esta forma or en este sentido, are not considered as markables, since they are mere linking phrases. 4.2 In our annotation scheme, we consider NPs such as that in (8) as generic. They are framed by the textual scene, but do not require any anchor for their interpretation. Therefore, firstmentions of such NPs are considered to be SDs, while subsequent mentions are annotated as identity coreference. We limit the term bridging to NPs (either definite or demonstrative) that are metonymically interpreted –to a greater or lesser extent– on the basis of a former NP or VP. The second discourse entity is anchored on the entity which contributes to activating the necessary scene for its interpretation. Within the “text as scene” approach, all bridging relations are taken to be contextual scene relations. So we only subspecify three very basic distinctions, which tend to be widely agreed upon. The three SUBTYPE attributes are: Bridging relations (bridg) Bridging relations only make sense if we understand them as occurring within the contextual scene triggered by the interaction between two discourse entities. The set of bridging relations is still an open issue (see the classification schemes of Clark, 1977; Vieira, 1998; Poesio, 2000; Muñoz, 2001; Gardent, Manuélian & Kow, 2003), since rather than a binary distinction between first-mention and bridging NPs, there is a scale ranging from those definite NPs which are uniquely interpretable by means of world knowledge (i.e. self-sufficient definite descriptions (SD)14) to those definite NPs which depend on a previous anchor. Inevitably, however, many real examples remain in between, as in (8), where todas las administraciones does not mean “all administrations” (in the world), but just the subset relevant to this scene. (8) La última edición de Barnasants, el ciclo de canción de autor, ha atraído, según su director, Pere Camps, a unas 2.000 personas. Camps destaca el apoyo unánime de todas las administraciones en la edición de este año.15 (i) subtype=“part” (part-of) The antecedent of the anaphoric NP corresponds to the whole of which the anaphor is a part, as in (9). (9) La reestructuración de [los otros bancos checos] se está acompañando por la reducción del personal.16 (ii) subtype=“member” (set-member) As illustrated by (10), the subsequent NP refers to one or more members of the set expressed by the NP anchor. (10) a. [la tropa]...uno de los soldados. b. Ante [unas mil personas], entre ellas la ministra de Ciencia y Tecnología, Anna Birulés, el alcalde de Barcelona, Joan Clos, la Delegada del Gobierno, Julia García Valdecasas, y una representación del gobierno catalán, Pujol dijo...17 director, Pere Camps, about 2,000 people. Camps emphasizes the unanimous support of all the administrations in the edition of this year. 16 (9) The restructuration of [the other Cheque banks] is accompanied by the reduction of the staff. 17 (10) a. [the troop]...one of the soldiers. b. Before about [one thousand people], among them the minister of Science and Technology, Anna Birulés, the mayor of Barcelona, Joan Clos, the Delegate of the Government, Julia García Valdecasas, and a representation of the Catalan government, Pujol said... 13 (7) This will allow the bank to reform its portfolio. 14 We consider as SD those NPs with the definite article that depend on no antecedent, but on world knowledge. Their autonomy can result from their generic reference, their containing an explanatory modifier, or their general uniqueness. 15 (8) The last edition of Barnasants, the singerwriter song cycle, has attracted, according to its 210 Text as Scene: Discourse Deixis and Bridging Relations (iii) subtype =“them” (thematic) The anaphoric NP is related to a VP (the anchor) via a thematic relation. In (11), for instance, estas inversiones is the patient of the previous verb invertir. Like sentential anchors in discourse deixis, antecedents corresponding to VPs are marked by hand with a <seg> tag. (11) *0* podría hacer que la empresa dominante dejara de [invertir en la red] por no considerarla como una inversión atractiva, y el Gobierno debe incentivar estas inversiones.18 pronominal DDs” as discourse deictics together with the inclusion of demonstrative NPs into the range of potential candidates for bridging relations. These guidelines complete the annotation scheme designed to enrich the Spanish CESSECE corpus with coreference information, thus giving birth to the CESS-Ancora corpus. It is a scheme rich enough to cover the different types of coreference in Spanish. Nevertheless, coreference annotation is such a complex task – involving several types of linguistic items and different factors responsible for linking two items as coreferential– that we are currently conducting a reliability study on a subset of the corpus to investigate the feasibility and validity of our annotation scheme. The results obtained might lead us to extend and refine it. One of the issues whose reliability needs to be proved is the extent to which abstract antecedents can be semantically classified into events, facts and propositions. We believe that a 500,000-word corpus annotated from the morphological to the pragmatic level may shed new light on key factors about the nature and working of expressions creating coreference. It has not been determined yet, for instance, the way contextual scenes come into play or their scope (Fraurud, 1990). The CESS-Ancora corpus will provide quantitative data from natural written discourse from which it will be possible to infer more precise and realistic linguistic generalisations about the use of coreferential and anaphoric expressions in Spanish. On the other hand, the rich tagset that distinguishes seven types of coreferential relations and that separates individual from abstract anaphora (each with different attributes) makes the CESS-Ancora corpus a very fruitful language resource. Being publicly released, it shall be used both for training and evaluating coreference resolution systems, as well as in competitions such as ACE or ARE. In brief, the goal of our project is twofold. From a computational perspective, the CESSAncora corpus will be used to construct an automatic corpus-based coreference resolution system for Spanish. From a linguistic point of view, hypotheses on the use of coreferential expressions (Ariel, 1988; Gundel et al., 1993) will be tested on the basis of the annotated data and new linguistic theories might emerge. If no subtype is specified, it means that the anaphoric NP is interpreted on the basis of a contextual scene, but that it is not related to its anchor via a clear part-of, set-member or thematic relation. This includes cases commonly referred to as “discourse topic” or general “inference” bridging. Examples can be found in (3) and (12). (12) El cambio de [17 acciones de Alcan]...los accionistas.19 5 Conclusions and discussion In this paper we have developed the specific framework, “text as scene”, on which we base the annotation guidelines for both discourse deixis and bridging relations. The former is annotated as coreferring with a certain textual scene, while the latter is coded on the basis of a contextual scene activated by the conjunction of two discourse entities. Given the rather vague antecedents that anaphoric expressions interpreted via either of these relations have, the annotation of both discourse deixis and bridging relations has usually obtained considerably low interannotator agreement. Our annotation scheme is unique in that we deal with these two relations from a common framework. In contrast to other annotation schemes, ours assumes two additional sources for the referent to be interpreted –a textual and a contextual scene–, which allow broader categories and thus more flexible annotation guidelines. Other interesting contributions of our scheme are the consideration of what we call “quasi18 (11) S/he could make the dominant company stop [investing in the net] for not considering it as an attractive inversion, and the Government must motivate these inversions. 19 (12) The change of [17 shares] of Alcan...the shareholders. 211 Marta Recasens, Antonia Martí Antonín y Mariona Taulé Semantics from a different point of view. Springer Verlag, Berlin. Acknowledgments We would like to thank Mihai Surdeanu for his helpful advice and suggestions. This paper has been supported by the FPU grant (AP2006-00994) from the Spanish Ministry of Education and Science. It is based on work supported by the CESS-ECE (HUM2004-21127), Lang2World (TIN200615265-C06-06), and Praxem (HUM200627378-E) projects. Marcu, D. 1997. The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts. PhD Thesis, Department of Computer Science, University of Toronto. References Muñoz, R. 2001. Tratamiento y resolución de las descripciones definidas y su aplicación en sistemas de extracción de información. PhD Thesis, Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Ariel, M. 1988. Referring and accessibility. Journal of Linguistics, 24(1):65-87. Poesio, M. 2000. MATE Dialogue Annotation Guidelines – Coreference. Deliverable D2.1. Byron, D. K. 2000. Semantically enhanced pronouns. In Proceedings of the 3rd Discourse Anaphora and Anaphor Resolution Colloquium (DAARC2000), Lancaster. http://www.ims.uni-stuttgart.de/projekte/mate/mdag Poesio, M. and R. Vieira. 1998. A corpus-based investigation of definite description use. Computational Linguistics, 24(2):183-216. Recasens, M., M.A. Martí, and M. Taulé. 2007. Where anaphora and coreference meet. Annotation in the Spanish CESS-ECE corpus. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP2007), Borovets, Bulgaria, forthcoming. Byron, D. K. 2002. Resolving pronominal reference to abstract entities. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL'02), Philadelphia, 80-87. Clark, H. 1977. Bridging. In P.N. JohnsonLaird and P.C.Wason (editors), Thinking: Readings in Cognitive Science, Cambridge University Press. Tutin, A., F. Trouilleux, C. Clouzot, E. Gaussier, A. Zaenen, S. Rayot, and G. Antoniadis. 2000. Annotating a large corpus with anaphoric links. In Proceedings of the 3rd Discourse Anaphora and Anaphor Resolution Colloquium (DAARC2000), Lancaster. Fraurud, K. 1990. Definiteness and the processing of NPs in natural discourse. Journal of Semantics, 7:395-433. Gardent, C., H. Manuélian, and E. Kow. 2003. Which bridges for bridging definite descriptions? In Proceedings of the EACL 2003 Workshop on Linguistically Interpreted Corpora, Budapest, 69-76. Vieira, R. 1998. Definite Description Processing in Unrestricted Texts. Ph.D. Thesis, University of Edinburgh, Centre for Cognitive Science. Vieira, R., S. Salmon-Alt, C. Gasperin, E. Schang, and G. Othero. 2002. Coreference and anaphoric relations of demonstrative noun phrases in a multilingual corpus. In Proceedings of the 4th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC2002), Lisbon. Gundel, J., N. Hedberg, and R. Zacharski. 1993. Cognitive status and the form of referring expressions in discourse. Language, 69(2):274-307. Gundel, J., N. Hedberg, and R. Zacharski. 2000. Statut cognitif et forme des anaphoriques indirects. Verbum, 22:79-102. Webber, B. 1988. Discourse deixis: reference to discourse segments. In Proceedings of the 26th Annual Meeting of the Association for Computational Linguistics (ACL'88), New York, 113-122. Hirschman, L. and N. Chinchor. 1997. MUC-7 coreference task definition. In MUC-7 Proceedings. Science Applications International Corporation. Lewis, D. 1979. Score keeping in a language game. In R. Bäuerle et al. (editors), 212 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 213-220 recibido 18-05-2007; aceptado 22-06-2007 Definición de una metodología para la construcción de Sistemas de Organización del Conocimiento a partir de un corpus documental en Lenguaje Natural Sonia Sánchez-Cuadrado Universidad Carlos III de Madrid Avda. Universidad 30, 28911 Leganés ssanchec@ie.inf.uc3m.es José Antonio Moreiro González Universidad Carlos III de Madrid C/ Madrid 126, 28903 Getafe jamore@bib.uc3m.es Jorge Morato Lara Universidad Carlos III de Madrid Avda. Universidad 30, 28911 Leganés jorge@ie.inf.uc3m.es Mónica Marrero Linares Universidad Carlos III de Madrid Avda. Universidad 30, 28911 Leganés mmarrero@inf.uc3m.es Resumen: Se propone una metodología para la construcción automatizada de KOS adaptable a diferentes entornos a partir de un corpus documental y unas aplicaciones de tratamiento textual que soporten todo el proceso de construcción y mantenimiento automatizado del KOS. Esta metodología se ha aplicado a diferentes entornos reales, comprobando que se trata de una metodología adaptable y obteniendo una reducción significativa de la intervención de expertos del dominio. Palabras clave: metodología, Sistemas de Organización del Conocimiento, KOS, adquisición de conocimiento, sistema PLN, relaciones semánticas. Abstract: A methodology to automatic KOS construction is proposed based on information extraction from natural language documents. Also, a set of NLP tools have been implemented to help in the development and management process. The methodology has been tested in real world projects. Results show that the methodology is highly adaptable and have a low dependence of domain experts. Keywords: Methodology, Knowledge Organization Systems, KOS, Knowledge acquisition, NLP tools, semantic relationships. 1 Introducción El objetivo de esta investigación es proponer una metodología adaptable para la construcción automatizada de Sistemas de Organización del Conocimiento a partir de documentos en lenguaje natural de dominios específicos procedentes de entornos y necesidades reales. Este propósito parte de la premisa de que la mayor parte del conocimiento está explicitado en los documentos de un dominio mediante términos y relaciones y que sólo el conocimiento que no esté expresado en los documentos tendrá que ser aportado por los expertos del dominio. ISSN: 1135-5948 Para diferentes autores como Hodge (2000) o Zeng y Chan (2004) el término Sistemas de Organización de Conocimiento, también conocido como KOS, engloba diferentes tipos de esquemas para organizar la información y promover la gestión del conocimiento, como esquemas de clasificación y categorización, encabezamientos de materias, archivos de autoridades, tesauros, redes semánticas y ontologías. Actualmente, los KOS representan un área de creciente interés por la variedad de disciplinas que han confluido en la necesidad de disponer de estos recursos. Cada una de las áreas de conocimiento ha propuesto unos sistemas de acuerdo a sus necesidades y que por tanto varían en su denominación y en algunas características aunque subyace un modelo © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Sonia Sanchez-Cuadrado, Jorge Morato Lara, José Antonio Moreiro González y Monica Marrero Llinares común (Daconta et al., 2003: 157; Lassila y McGuinness, 2001; Gruninger y Uschold, 2002). Algunas de estas características entre los distintos tipos de KOS son: • Representación simplificada de la realidad • Conceptos y relaciones de un dominio • Estructuras flexibles en riqueza semántica • Proporcionar un vocabulario normalizado y consensuado Los KOS suponen un recurso que beneficia la comunicación entre expertos y que permite compartir conocimiento de un dominio o una lengua (ISO 2788:1986; NISO Z39.19: 2005). Además aplicado a la RI se mejora en la clasificación y descripción de documentos mediante términos no ambiguos, y la posibilidad de proporcionar un sistema de expansión y restricción de consultas (Foskett, 1971; Baeza-Yates y Ribeiro-Neto, 1992; Ingwersen, 1992). También se ha aplicado en la Terminología (Cabré, 1993), la Ingeniería del Software mediante el análisis de dominios para la reutilización del software (Prieto-Díaz, 1991; Lloréns, 1996); la Ingeniería Artificial incorporando ontologías que permitan realizar inferencias (Gómez-Pérez, 2003: 119-132); en la Web Semántica mediante la construcción de vocabularios de metadatos (Berners-Lee et al., 2001; Daconta et al, 2003), o incluso como mapas conceptuales para recursos educativos (Novak, 1994; 1998). Las distintas metodologías relacionadas con la construcción de KOS (Gómez-Pérez et al., 2003) coinciden en que deben cumplir las siguientes características: claridad, coherencia, especificación independiente, extensibilidad, vocabulario mínimo con definiciones y denominaciones normalizadas. Así mismo, a partir de las propuestas, se han detectado unas fases comunes para su construcción como: • Determinar un ámbito o dominio • Adquisición del conocimiento • Comprobación de posibles anomalías e inconsistencias • Evaluación • Aplicación • Mantenimiento Para algunas de las fases existen iniciativas que utilizan herramientas que contribuyen a realizar estas tareas, no obstante la mayor carga de trabajo recae sobre el experto encargado de la construcción del KOS. Las propuestas para la construcción manual de KOS (Aitchison et al., 1972: 141; Lancaster, 1986; Van Slype, 1991; Noy y McGuinness, 2001) presentan problemas significativos. Por una parte, los KOS consumen grandes recursos económicos y humanos durante un largo periodo, y además implican un coste extra cada vez que deben ser actualizados. A esto se debe sumar la dificultad para consensuar los diferentes criterios de los expertos para la organización del conocimiento. Pero sin duda, uno de los problemas más preocupantes es la falta de disponibilidad de expertos del dominio y la desmotivación de estos expertos en las fases de construcción y actualización. Por este motivo, los principales puntos débiles se encuentran relacionados con la intervención de los expertos y con la adquisición del conocimiento (Antoniou y Harmelen, 2004: 211; Gómez-Pérez et al., 2004:107). Por otro lado, la construcción automatizada de KOS presenta las siguientes dificultades: 1. Definir el tipo de KOS y la estructura de conocimiento. Es frecuente que clientes y usuarios no sepan explicar que características y funcionalidad esperan del KOS. 2. Definir y recopilar el material el conocimiento que se representará en el KOS condiciona directamente los resultados, la dificultad en la construcción de la estructura de conocimiento y la calidad del resultado: • Los documentos están en un idioma diferente al que se está procesando • Los documentos están en varios idiomas • Los documentos son multidisciplinares • Los documentos presentan diferentes grados de especificidad • Los documentos no están correctamente escritos (estilo-ortografía) • Los documentos presentan sintaxis no formalmente estructurada • Problemas para extraer texto de algunos formatos (ej. Texto de imágenes) 3. Definir la funcionalidad de las herramientas informáticas para las fases que pueden ser automatizadas. Existen dos funciones fundamentales: extracción de conocimiento e identificación del conocimiento. La primera debe seleccionar aquella información que pueda aportar conocimiento significativo para una estructura organizativa (por lo tanto una indización selectiva). Por otra parte, el proceso de indización tenderá a registrar la 214 Definición de una Metodología para la Construcción de Sistemas de Organización del Conocimiento a partir de un Corpus ... • Identificación del vocabulario de especialidad: extracción, valoración y validación de vocabulario • Identificación de relaciones de especialidad: extracción, valoración y validación de relaciones 3. Evaluación de la calidad del KOS 4. Mantenimiento del KOS Las fases de definición de la estructura de conocimiento mediante la definición de requisitos y la definición del corpus documental se realiza mediante: entrevistas con los expertos y la selección de documentos. 1. Entrevistas con los expertos. • Determinar el dominio • Determinar las preguntas que deberían hacerse a un experto: finalidad, tema, subtemas, preguntas a realizar al sistema RI • Dar pautas a los expertos para la construcción del corpus • El resultado de esta fase debe ser: • Una estructura taxonómica que represente a muy alto nivel los componentes básicos que se desean representar • Un listado de preguntas y respuestas que desean resolver para una consulta • Un informe de directrices y recomendaciones para la construcción de un corpus 2. Selección de documentos: diferenciar los documentos que están orientados a la construcción de la estructura de conocimiento con los que están orientados a ser documentos de indización. • Para la construcción KOS. Es un requisito que estos documentos contengan (aunque sea parcialmente) los términos utilizados en los documentos (cuanto más estructurados los documentos, mejor) o Listados de términos que utilicen o de índices de libros o informes que tengan. o Si tienen tesauros parciales o Glosarios que utilicen (o material de formación de personal) • De la entrevista y de los documentos estructurados debería salir un primer esbozo de estructura de conocimiento. Esta debería ser evaluada por un/unos experto/s y confirmar la orientación correcta para que pueda ser ampliada. mayor cantidad de información (por lo tanto, una indización exhaustiva). 4. Análisis del resultado del KOS. Se requiere un análisis de los resultados de la estructura de conocimiento construida, debido a que los sistemas de adquisición de información tienden a ser genéricos. 2 Definición de la Metodología En primer lugar, se establece una definición de roles para la construcción del KOS (Fraga et al, 2006): ingeniero de dominio (ID), experto de dominio (ED) y responsable de dominio (RD) y después una definición de una metodología. Esta metodología estará compuesta por actividades de la construcción del KOS y actividades de apoyo relacionadas con aspectos informáticos, documentación y con el personal experto. La metodología desarrollada (SánchezCuadrado, 2007) utiliza aplicaciones software como ayuda a las distintas fases, pero también como soporte del KOS ACTIVIDADES DE APOYO INFORMÁTICA Herramientas de desarrollo DOCUMENTACIÓN Cronogramas Documentación de Seguimiento ACTIVIDADES CONSTRUCCIÓN DEL KOS PERSONAL EXPERTO Definición de Requisitos Asignación de Tareas Recopilación Documental Adquisición de Conocimiento Recopilación Documental Extracción Inform.(PLN) Validación y refinamiento Evaluación KOS Preexistentes Validación Integración Conceptualización Codificación RSHP Evaluación KOS Final Mantenimiento Figura 1: Metodología CAKE para construcción de KOS Los fundamentos de la metodología CAKE (Figura1) se basan en una serie de actividades para la construcción del KOS (SánchezCuadrado et al., 2006): 1. Definición de requisitos para la identificación del dominio 2. Adquisición de conocimiento • Recogida de documentación y filtrado: selección del corpus especializado • Propuesta de un conjunto reducido de categorías que sirvan de semilla a la incorporación de otros nodos de la taxonomía inicial 215 Sonia Sanchez-Cuadrado, Jorge Morato Lara, José Antonio Moreiro González y Monica Marrero Llinares Las fases de identificación del vocabulario (3) e identificación de relaciones (4) están basadas en sistemas de PLN (Figura 2) que identifican conceptos (simples y complejos) y relaciones léxico-semánticas a partir de patrones y relaciones sintagmáticas (SánchezCuadrado et al., 2003). por parte de los expertos del dominio. Por tanto, la presentación de los resultados debe ser clara y lo más concreta posible. Una forma de lograr claridad y concreción será mediante conocimiento contextualizado. Los procesos de mantenimiento deberán ser coherentes (no repetir información, no insertar información contradictoria, no información errónea, etc.). Uso fácil, y actualización en cascada y coherente. 3 Aplicación de la metodología a entornos reales Esta propuesta es resultado de la construcción de distintos KOS para entornos reales según la definición de requisitos expresados por la institución. Esta metodología se ha empleado en el entorno petroquímico (REPSOL-YPF) siendo construidos por separado diferentes áreas de conocimiento de la organización. Se construyeron cuatro KOS aplicando la herramienta de PLN para la automatización de la fase de adquisición del conocimiento y herramientas Web para la toma de decisiones de las fases de valoración y validación de términos y relaciones por miembros de la organización. Los KOS obtenidos para el entorno petroquímico tenían la función de indizar de forma automática para poder recuperar los documentos. A continuación se muestran algunos de los resultados obtenidos en la aplicación de los métodos propuestos a los diferentes dominios: REPSOL-YPF, SAGE-SP, Oficina Defensor del Pueblo, prototipo de la Guardia Civil en cuanto a metodología automatizada, también se ha aplicado a la creación manual de dominios en el proyecto del Archivo General de la Nación de la República Dominicana (AGN). En todos estos proyectos se ha utilizado el modelo RSHP. Figura 2: Base de datos de conocimiento y tecnologías lingüísticas aplicadas a la adquisición de conocimiento Las fases de valoración y validación de los términos y relaciones de especialidad se realizan con una herramienta para la toma de decisiones sobre posibles términos o relaciones conflictivos. Las herramientas que se deben utilizar estarán en función de: la finalidad del sistema, las características del corpus, el volumen del corpus, la implicación de los expertos en el proceso, las técnicas de evaluación y mantenimiento. Por lo tanto se analizará: • Finalidad del sistema, • Las características del corpus, • Procesamiento textual-calidad de los resultados • El volumen del corpus, • La implicación de los expertos en el proceso • Las técnicas de evaluación • El mantenimiento del KOS En aquellas tareas que deban ser realizadas por expertos del dominio, las herramientas son sencillas, y el tiempo que los expertos deben dedicar a estas tareas debe ser mínimo. Para lograr esto, la solución pasa por obtener buenos resultados y procesos de filtrado automatizados. En general, el análisis y la valoración de los resultados en las diferentes fases de construcción de estructuras de conocimiento, es Modelo RSHP Categorías Generales Recursos documentales Análisis recursos estructurados Análisis recursos semiestructurados Análisis recursos no estructurados Extracción de Entidades 216 REPSOL- SAGE YPF si si P-GC Defensor AGN del Pueblo si si si no si si Si si si no no No si no no no Si si si no no No no si si si No no no si si No no Definición de una Metodología para la Construcción de Sistemas de Organización del Conocimiento a partir de un Corpus ... Valoración de términos por la organización Validación de términos por la organización Valoración de relaciones por la organización Validación de relaciones por la organización si no no Si si si no no Si si si no no Si si si no no Si si precisaron los términos y se desecharon familias que no eran pertinentes para el dominio (por ejemplo, los gentilicios). En el caso del dominio de REPSOL-YPF, se localizaron glosarios según las diferentes áreas que se querían modelar. Estos glosarios contenían términos propios del dominio y específicos, proporcionando un vocabulario normalizado. Por otra parte, se aportó la documentación propia de la empresa que a juicio de los expertos reflejaban suficientemente los dominios a modelar. Esta información fue entregada por temáticas que representaban cinco dominios diferentes, aunque con cierto grado de solapamiento. En el caso de SAGE, la documentación que representaba el material primario para la construcción del sistema de organización del conocimiento consistía fundamentalmente en los ficheros de ayuda de los programas de sus aplicaciones informáticas. También se aportaban los ficheros de sugerencias y errores que se recogían de los clientes mediante el callcenter. La Guardia Civil aportaba para la construcción del tesauro la documentación que registran los miembros de la unidad para el seguimiento de los casos, donde se encontraba toda la información que se pretendía modelar, aunque en función de la investigación podían aparecer conceptos nuevos. El aumento del dominio era incremental debido fundamentalmente a la incorporación de nuevas instancias. La Oficina del Defensor del Pueblo disponía de un recurso muy concreto y ya estructurado, su tesauro, con la información que se iba a tratar. Por otra parte, tenían a disposición de los expertos los informes que se tenían que indizar, permitiendo un adecuado reconocimiento y extracción conceptual. Para el AGN, el proceso de especificación de los recursos documentales para la recopilación del material primario se determinó como necesario índices de topónimos, organigramas, clasificaciones internas, tipología documental, etc. Desde el inicio de las experiencias con los proyectos se vieron las ventajas del uso de documentos estructurados o semiestructurados, en cuanto a la calidad y cantidad de conceptos y relaciones concentradas en este tipo documental, sin embargo en los entornos aplicados no han podido ser, prácticamente, Tabla 1: Fases de construcción de KOS aplicadas a diferentes entornos En la presente tabla se presentan estos resultados de forma resumida según se haya realizado o no determinada etapa de la metodología en cada uno de los proyectos (Tabla 1). En cuanto al establecimiento a priori de una clasificación general, se aplicó en los dominios de SAGE, en el prototipo de la Guardia Civil y en el dominio del AGN, confirmando que facilita no sólo las primeras fases de distribución de los términos en categorías y la facilidad para entender la formación del dominio, si no la definición de relaciones entre categorías de términos y términos concretos. En concreto, en las ocasiones en la que no se ha utilizado una clasificación genérica, se genera un tipo de estructura de conocimiento diferente. Las diferencias fundamentales residen en que existe un número amplio de categorías generales válidas para ser gestionadas por una máquina, pero no para una persona. Por otra parte, esta clasificación de términos por categorías de palabras ha facilitado que la revisión pueda ser llevada a cabo por los ingenieros del dominio y que sólo en caso de duda o como resultado de esa clasificación un experto del dominio supervise el dominio. Tras diversas pruebas y estudios de clasificaciones similares, el número de categorías iniciales se ha establecido en torno a 15. La propuesta de una definición de una clasificación general para la construcción de sistemas de organización del conocimiento ha sido aplicada a proyectos enfocados a la construcción automatizada y a la construcción manual (p.e. a los distintos subdominios de SAGE-SP). Esta estructura permitía a los ingenieros del dominio incorporar vocabulario que había sido proporcionado por la compañía, en forma de pequeños listados. A medida que se confirmó el tipo de organización de la empresa se 217 Sonia Sanchez-Cuadrado, Jorge Morato Lara, José Antonio Moreiro González y Monica Marrero Llinares Dominio aprovechados como recursos documentales básicos, como se observa en la Tabla 1 La aplicación de un tratamiento especial aplicado a los documentos estructurados comenzó con la importación del tesauro utilizado por la Oficina del Defensor del Pueblo al gestor de tesauros TmCake. Este software permitió la evaluación y el mantenimiento del tesauro. REPSOL-YPF y SAGE-SP disponen y utilizan la versión actualizada de esta herramienta (actualmente denominada Domain Reuser), esta versión se encuentra más próxima a la metodología final propuesta. En el caso del AGN, mediante la funcionalidad de exportación del Domain Reuser se reutilizaron partes de sistemas de organización del conocimiento como un tesauro toponímico de carácter general. La extracción de conocimiento a partir de composición de palabras ha sido aplicada en las primeras fases de extracción de relaciones y organización de términos en el sistema de organización del conocimiento en los proyectos de REPSOL-YPF, SAGE y prototipo de la Guardia Civil. Incluso se puede aplicar cuando lo que se ha obtenido como recurso primario es una lista de términos simples y compuestos como listado de términos de indización. El principal problema que supone este mecanismo es que se pueden establecer relaciones de generalización-especificación que no sean ciertas, porque el término que se considera específico sea un término compuesto lexicalizado que ha perdido la semántica del término que se establece como genérico. En los casos de REPSOL-YPF, SAGE, el prototipo para la Guardia Civil, así como las listas de términos que se utilizaron en el dominio del AGN, se realizó una revisión manual, para identificar posibles casos erróneos. Por otra parte, es habitual que el tratamiento textual de recursos no estructurados produzca gran cantidad de términos que no son fáciles de discriminar como candidatos o no al KOS. La experiencia de los procesos con REPSOL-YPF, SAGE, y el prototipo de la Guardia Civil sugieren que sea un proceso destinado a cerciorarse de relaciones que pueden ser afectadas por el contexto o la finalidad del sistema de organización del conocimiento. Con esto nos referimos por ejemplo a las relaciones de sinonimia o equivalencia, que aunque dos términos no sean sinónimos, podrían ser considerados como tal para un dominio concreto. REPSOLYPF Medioambiente Química Refino EyP Familias Conceptos Media de Relaciones -- 2224 1,08 ---- 3758 4279 2234 1,61 1,07 1,24 SAGE-SP Contabilidad Nóminas Facturación 15 21 15 3894 2410 5584 1,17 2,83 1,08 GC Guardia Civil 12 603 2,63 Tabla 2: Características de los KOS en diferentes entornos En el desarrollo de los diferentes proyectos que se han realizado con las herramientas y las metodologías para la construcción automatizada de sistemas de organización del conocimiento, se observa que la definición y el desarrollo de los nuevos sistemas son más eficientes en cuanto a la extracción de relaciones. Otro dato a destacar es la calidad de las construcciones de los términos compuestos, y la descomposición de esas construcciones complejas. Sin duda, otra de las características que mejora considerablemente la adquisición de conocimiento es la extracción de entidades. Las mejoras afectan a la calidad de los términos específicos y a la especificidad de las relaciones. 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% EyP Refino Química Medio-ambiente Conceptos Relaciones 100% 80% Guardia Civil 60% Facturación Nóminas 40% Contabilidad 20% 0% Familias Conceptos Relaciones 218 Definición de una Metodología para la Construcción de Sistemas de Organización del Conocimiento a partir de un Corpus ... Figura 3: Visualización de las características de los KOS en los diferentes entornos proceso de análisis y valoración tenderá a ser más efectivo y ha desempeñarse con mayor calidad. Asimismo un resultado de calidad favorecerá su uso, su utilidad y la necesidad de utilizar mecanismos de mantenimiento para la estructura de conocimiento. En este caso, las propuestas han estado orientadas a: • diferenciar entre tipos de entidades • corrección ortográfica para posibles deficiencias en los documentos • organizar la extracción de términos y relaciones en distintas fases • evaluación progresiva del conocimiento adquirido • apoyo de una clasificación preexistente para la distribución del conocimiento En resumen se ha propuesto un entorno para el desarrollo de KOS mediante una metodología configurable a diferentes escenarios. Para llevarla a cabo se debe elaborar de forma cuidadosa un corpus que contenga la información necesaria para la construcción del KOS y con unas aplicaciones específicas para la adquisición del conocimiento, y con un modelo de representación y construcción y mantenimiento del KOS. Sin duda una de las ventajas logradas es la disminución de la dependencia de expertos del dominio, reduciendo los costes, las posibles inconsistencias entre expertos y la desmotivación que provocaban las tareas asignadas. En el caso del prototipo para la Guardia Civil, el sistema de extracción de entidades tiene un impacto directo en la identificación de los términos candidatos a formar parte del sistema de organización del conocimiento, así como para la extracción de relaciones entre algunas de esas entidades. Otro impacto positivo que se refleja en los resultados es el aumento significativo de relaciones para el resultado de los sistemas de organización del conocimiento (Figura 3), debido a la fase de adquisición de relaciones mediante las unidades identificadas y a la flexibilidad del sistema de tratamiento textual e indizador del sistema de PLN. 4 Conclusiones Esta propuesta se centra en mejora los resultados con respecto a los aspectos más problemáticos de la construcción de KOS. Por una parte, en cuanto a las tareas asignadas a los expertos y responsables del dominio. Para ello se ha incidido en: • minimizar el número de tareas asignadas • reducir el tiempo de las tareas • valorar y validad el conocimiento con información contextualizada • formar a los expertos y responsables del dominio sobre el producto final • mejorar la especificación de requisitos El otro aspecto, en el que se ha centrado esta propuesta es en mejorar la calidad de los documentos que componen el corpus del dominio para la construcción de KOS mediante unos criterios para su construcción y la reutilización de recursos con vocabularios controlados existentes. Esta definición del corpus documental contribuye a: • determinar los temas y facilitar las tareas del Ingeniero de Dominios para determinar los genéricos, • determinar las expectativas del cliente, • determinar un corpus de indización de mejor calidad y adaptado a sus necesidades Por último, la mejora de las herramientas informáticas necesarias para la obtención de calidad resultados disminuye los errores de indización, extracción de información y construcción de KOS. Por lo tanto, cualquier Bibliografía Aitchison, J.; Gilchrist, A.; Bawden, D. 1972. Thesaurus construction and use: a practical manual. 3rd ed. London: Aslib,.1997. Antoniou, G. y Harmelen, F. van. A Semantic Web Primer. London: The MIT Press, 2004. Baeza-Yates, R. y Ribeiro-Neto, B. Modern Information Retrieval. Massachusetts: Addison-Wesley, 1999. Berners-Lee, T.; Hendler, J.; Lassila, O.. The Semantic Web. Scientific American Magazine; May 2001 Cabré Castellví , Mª. T. La Terminología: Teoría, metodología y aplicaciones. Barcelona: Antartida/Empuréis, 1993 . Daconta, M. C.; obrst, Leo J. y Smith, K. T. The Semantic Web. A guide to the future of XML, Web Services, and Knowledge Management. Indianapolis: Wiley, 2003. 219 Sonia Sanchez-Cuadrado, Jorge Morato Lara, José Antonio Moreiro González y Monica Marrero Llinares Foskett, D. J. Thesaurus. Encyclopaedia of Library and Information Science. En: SparkJones, K. y Willett, P. (eds.). Readings in Information Retrieval. San Francisco: Morgan Kaufmann, 1997. pp 111-134. Mahwah, N. J., Lawrence Erlbaum & Assoc, 1998 Prieto-Díaz, R. Implementing Faceted Classification for Software Reuse. Comm. ACM 1991, 34 (5). pp. 88-97. Fraga, A.; Sánchez-Cuadrado, S. y Lloréns, J. Creación de un Tesauro Manual y Automático para el dominio de Arquitectura de Software. Jornadas Chilenas de Computación, V Workshop Ingeniería del Software (WIS2005) de las Jornadas Chilenas de Computación. Valdivia, Chile. 2005 Sánchez-Cuadrado, S. Definición de una metodología para la construcción automatizada de sistemas de organización del conocimiento. Tesis Doctoral. Universidad Carlos III de Madrid. Dpto. Biblioteconomía y Documentación, 2007. Sánchez-Cuadrado, S.; Lloréns, J, y Morato, J. Desarrollo de una aplicación para la gestión de relaciones en tesauros generados automáticamente. Jotri 2003. II Jornadas de Tratamiento y Recuperación de la Información. Madrid. 2003.pp. 151-156 Gómez-Pérez, A.; Fernando-López, M.; Corcho, O. Ontological Engineering. London: Springer, 2004. Hodge, G. Systems of Knowledge Organization for Digital Libraries: Beyond Traditional Authority Files. The Digital Library Federation Council on Library and Information Resources. 2000 Ingwersen, P. Information Retrieval Interaction. London: Taylor Graham, 1992 P. 245. Sánchez-Cuadrado, S.; Lloréns, J. y Morato, J.; et al. Extracción Automática de Relaciones Semánticas. 2da. Conferencia Iberoamericana en Sistemas, Cibernética e Informática. CISCI 2003. Orlando, Florida. 2003a. pp. 265-268. ISO-2788: 1986. Guidelines for the Establishment and Development of Monolingual Thesauri. International Organization for Standardization, Second edition -11-15 UDC 025.48. Geneva: ISO, 1986. Sánchez-Cuadrado, S.; y J. Morato Lara. Diseño de una herramienta para la Creación Asistida de KOS. VII Jornada de la Asociación Española de Terminología. Lenguas de especialidad y lenguajes documentales. 24 de noviembre de 2006. Lancaster, F. W. Vocabulary control for information retrieval. 2nd ed. Arlington, Virginia: Information Resources Press, 1986. Van Slype, G.. Los lenguajes de indización. Concepción, construcción y utilización en los sistemas documentales. Madrid: Fundación Germán Sánchez Ruipérez. 1991. Lloréns, J.. Definición de una metodología y una estructura de repositorio orientadas a la reutilización: El tesauro de software. Universidad Carlos III de Madrid, Departamento de Ingeniería, 1996 Zeng, M. L y L. Mai Chan. Trends and Issues in Establishing Interoperability Among Knowledge Organization Systems. Journal of the American Society for Information Science and Technology, 2004, 55(5):377395. Morato, J.; Lloréns, J.; Génova, G.; et al. Experiments in Discourse Analysis Impact on Information Classification and Retrieval Systems. Information Processing and Management 2003, 38. pp. 825-851. Novak, J. D. y D. B. Gowin, Learning how to Learn. New York: Cambridge University Press, 1984. Novak, J. D., Learning, Creating , and Using Knowledge: Concept Maps as Facilitative Tools for Schools and Corporations. 220 Sistemas de Diálogo Procesamiento del Lenguaje Natural, nº39 (2007), pp. 223-230 recibido 23-05-2007; aceptado 22-06-2007 Prediction of Dialogue Acts on the Basis of the Previous Act Sergio R. Coria Luis A. Pineda coria@uxmcc2.iimas.unam.mx luis@leibniz.iimas.unam.mx Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS) Universidad Nacional Autónoma de México (UNAM) Ciudad Universitaria, Coyoacán, México, D.F. Resumen: En este trabajo se evalúa empíricamente el reconocimiento automático de actos de diálogo. Se usan datos provenientes de un corpus de diálogos con habla espontánea. En cada diálogo dos hablantes colaboran en el diseño de cocinas usando herramientas C.A.D.; uno de ellos desempeña el rol del Sistema y el otro el del Usuario. Los actos de diálogo se etiquetan con DIME-DAMSL, esquema que considera dos planos de expresión: obligaciones y common ground. La evaluación se realiza probando modelos clasificadores creados con algoritmos de aprendizaje máquina: uno para obligaciones y otro para common ground. El principal dato predictor analizado es el acto de diálogo correspondiente al enunciado inmediato anterior. Se pondera también la contribución de información adicional, como la entonación, etiquetada con INTSINT, la modalidad del enunciado, el rol del hablante y el tipo de acto de diálogo del plano complementario. Una aplicación práctica sería en sistemas de administración de diálogo. Palabras clave: Diálogos prácticos, acto de diálogo, DIME-DAMSL, aprendizaje máquina, entonación, INTSINT, corpus de diálogo, árbol de clasificación y regresión Abstract: In this paper the automatic recognition of dialogue acts is evaluated on an empirical basis. Data from a dialogue corpus with spontaneous speech are used. In each dialogue two speakers collaborate to design a kitchen using a C.A.D. software tool; one of them plays the System’s role and the other plays the User’s role. Dialogue acts are annotated with DIMEDAMSL, a scheme considering two expression planes: obligations and common ground. The evaluation is performed by testing classification models created with Machine Learning algorithms: one model for obligations and other for common ground. The mainly analyzed predictor data is the dialogue act corresponding to the immediately previous utterance. The contribution of other information sources is also evaluated, such as intonation, annotated with INTSINT, utterance mood, speaker role and dialogue act type of the complementary expression plane. A practical application can be the implementation of dialogue management systems. Keywords: Practical dialogues, dialogue act, DIME-DAMSL, machine learning, intonation, INTSINT, dialogue corpus, classification and regression tree Introduction Automatic recognition of dialogue acts has been addressed in previous work, such as (Shriberg et al., 1998) and the VERBMOBIL Project (Wahlster, 1993); it is a relevant issue because it provides speech recognition and dialogue management systems with additional information, which tends to improve their accuracy and efficiency. These two pieces of work have used intonational and lexical information to perform the dialogue act ISSN: 1135-5948 recognition for English and German languages, respectively. Another relevant reference is (Garrido, 1996), where the relation between intonation and utterance mood in Spanish is addressed. In (Coria and Pineda, 2006) dialogue act in Spanish is addressed from an intonational view and also considering some other non-prosodic features; these experimental settings are immediate predecessors of the present work. Machine learning algorithms, such as classification trees and neural networks, in © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Sergio R. Coria y Luis Alberto Pineda The forward looking functions resemble diverse categories defined in the traditional speech acts theory; e.g. action directives, commitments or affirms in DAMSL resemble directives, commisives or representatives, respectively, in Searle’s scheme. The backward-looking functions specify how an utterance is related to the ones preceding it in the dialogue; e.g. to accept a proposal, to confirm understanding of a previous utterance, to answer a question. addition to language models and polygrams are commonly used to analyze the phenomenon and to find out the most contributing features for the implementation of recognition or prediction models. This work uses a classification tree algorithm to evaluate the contribution of the previous dialogue act to the prediction task, assuming as baseline a recognition setting where the previous act is not used as one of the predictors. A key issue in dialogue act recognition is the annotation of dialogue acts. The present work adopts the DIME-DAMSL scheme for this annotation. 1 Dialogue acts DAMSL scheme 1.1 and the 1.3 As DAMSL scheme did not suffice to obtain a high enough inter-annotator agreement, it was not reliable enough to set machine-learning experiments, which require consistent information. A source of low agreement in DAMSL is the lack of a higher level structure to constraint the possible label(s) an utterance can be assigned to; i.e. the scope of DAMSL scheme is restricted to analyze single utterances without considering the context within the dialogue where previous or following utterances occur. This allows a broad space to select and combine labels but, on the other hand, there is a high risk that inter-annotator agreement for dialogue act types is low because of the influence of subjectivity. Evolving from DAMSL, DIME-DAMSL adopts its tag set and its dimensions and extends them by defining three additional notions, as follows. 1) two expression planes: the obligations and the common ground, 2) transaction structure and 3) charge and credit contributions of dialogue acts in balanced transactions. The obligations and the common ground planes are parallel structures along which dialogue acts flow. A dialogue act might contribute to any (or both) of the two planes. In DIME-DAMSL the obligations plane is construed by dialogue acts that generate a responsibility either on the speaker himself or on the listener to perform an action, either verbal or non-verbal; e.g. the obligation to provide some piece of information or to perform a non-verbal action. Dialogue acts that mainly contribute to the obligations plane are: commit, offer (when it is accepted by the interlocutor), action directive and information request. For instance, in utterances from dialogues of the DIME corpus, okay is a DIME- Speech acts and dialogue acts Searle’s theory on speech acts states that the production or emission of an utteranceinstance under certain conditions constitutes a speech act, and speech acts are the basic or minimal units of linguistic communication. The dialogue act is an adaptation of the this notion and involves a speech act in the context of a dialogue (Bunt, 1994) or an act with internal structure specifically related to its dialogue function, as assumed in (Allen and Core, 1997), or a combination of the speech act and the semantic force of an utterance (Bunt, 1995). The present work is based on Allen and Core’s view. 1.2 DIME-DAMSL scheme DAMSL scheme Allen and Core define a tag set and a series of tagging principles in order to produce a computational scheme for the annotation of dialogue acts in a particular class of dialogues: the so-called practical dialogues, where the interlocutors collaborate to achieve a common goal and do not need to use a too complex language because the conversation is simpler than the general conversation. The DAMSL scheme defines four tag sets for utterance annotation, as follows: communicative status, information level, forward-looking and backward-looking functions. One of the main purposes of the communicative status is to specify if an utterance is intelligible or not; the information level describes the general subject of the utterance, e.g. task, task-management, communication management. 224 Prediction of Dialogue Acts on the Basis of the Previous Act presents two phases: intention specification, where an intention is specified by a speaker and interpreted by his addressee, and intention satisfaction, where the addressee performs a verbal or non-verbal action attending the intention and the interlocutor interprets that action. commit (in certain contexts); can you move the stove to the left? is an action directive, and where do you want me to put it? is an information request. The common ground is the set of dialogue acts that add, reinforce and repair the shared knowledge and beliefs of the interlocutors and preserve and repair the communication flow. DIME-DAMSL defines two sub-planes in the common ground: agreement and understanding; agreement is the set of dialogue acts that add knowledge or beliefs to be shared on the grounding of the dialogue participants; understanding is defined by acts that keep, reinforce or recreate the communication channel. Dialogue acts that mainly contribute to the agreement sub-plane are: open option (e.g. these are the cupboards we have), affirm (e.g. because I need a cabinet), hold (e.g. do you want me to move this cabinet to here?), accept (e.g. yes), reject (e.g. no, there is no design problem), accept part, reject part and maybe. Dialogue acts on the understanding sub-plane are acknowledgment (e.g. yeah, yes, okay, etc.), repeat-or-rephrase (e.g. do you want me to put this stove here?), and backchannel (e.g. mhum, okay, yes, etc.). Charges and credits are the basic mechanism underlying the interaction between pairs of dialogue acts along each of the two expression planes. A charge generated by a dialogue act introduces an imbalance requesting for satisfaction, and a credit is the item balancing that charge. Instances of balanced pairs are, on the obligations plane, action directive, a charge, which can be balanced with a graphical action; on the agreement plane a charge introduced by an open option can be balanced with an accept; on the understanding plane an affirm creates a charge that can be satisfied with an acknowledgment, etc. These and other additional pairs guide a charge-credit annotation to identify and annotate the most prominent dialogue acts of the utterance; this annotation of dialogue acts is called Preliminary DIME-DAMSL and supports the completion of the dialogue act tagging in a subsequent stage, the so-called Detailed DIME-DAMSL, where the annotation is added with other labels if necessary. A transaction is defined by a set of consecutive charge-credit pairs intending a sub-goal within a dialogue. A transaction 2 The DIME Corpus The DIME Corpus (Pineda, 2007) is the empirical information source to perform the experiments; it is a collection of 26 human-tohuman dialogues with their corresponding video and audio recordings and their annotations on a series of levels. It was created to analyze phonetic, phonologic and dialogue phenomena in Mexican Spanish. Speakers are approximately 15 individuals, males and females, most of them from Mexico City with ages between 22 and 30 y/o. In each dialogue two speakers collaborate to design a kitchen using a C.A.D. software; one of them plays the System’s role and the other plays the User’s role. The System is always the same speaker in all dialogues. The speakers perform a task that consists in placing pieces of furniture in a virtual kitchen as specified by a drawing on a piece of paper. Every User interacts with the System using the C.A.D. tool. The User commands the System to design the virtual kitchen. There is no written script, so the language spoken in the dialogue is spontaneous. 2.1 Annotation levels The DIME corpus is segmented into utterances and annotated on these levels: orthographic transcription (transliteration), allophones, phonemes, phonetic syllables (considering the possible presence of re-syllabication), words, break indices from Sp-Tobi (Beckman et al., 2002), parts of speech (P.O.S.), discourse markers, speech repairs, intonation and utterance mood. The MexBet phonetic alphabet (Cuétara, 2004) is used to annotate allophones, phonemes, phonetic syllables and words. 2.1.1 Intonational annotation Intonation is annotated with INTSINT (Hirst, Di Cristo and Espesser, 2000), implemented in the M.E.S. tool (Motif Environment for Speech). A stylized contour 225 Sergio R. Coria y Luis Alberto Pineda used in any of the following cases: the end of the utterance is too noisy, the end presents a too long silence whose duration is greater than the one of a pause, the utterance does not contain lexical information but instead a sound such as breathing, laughing, lip-clicks, etc. As one single annotator performs this tagging, annotation agreement is not computed. A machine-learning algorithm is used to create a model for automatic annotation of utterance mood by using the manual tagging as target data. The automatic annotation is later used as one of the inputs for dialogue act recognition because this would be the case in a real-world application. of the fundamental frequency is automatically obtained and its inflection points are detected, saving their respective frequency (Hz) and timestamp. A perceptive verification is performed by a human annotator in order to assure that the stylized contour is perceptively similar to the original speech signal; the inflection points can be relocated on the frequency or time axis by the annotator. Every inflection point is then automatically annotated with the INTSINT tag set according to the relative location of the point regarding its predecessor and its successor. The tag set is construed of 3 absolute tones: T (top, the absolute highest), B (bottom, the absolute lowest), and M (medium, the frequency average); and 5 iterative tones: H (higher, a local maximal), L (lower, a local minimal), U (up-step, a point on an ascending region), D (down-step, a point on a descending region), S (same, a point at the same height than its predecessor). Absolute tones can occur only once along an intonational contour; i.e. T, B and M appear usually one single time in the intonational annotation of an utterance. On the other hand, iterative tones can appear an arbitrary number of times. The original INTSINT tags and timestamps produced with M.E.S. are transformed into tag concatenations without timestamps in order to generate simple strings. This representation without time information provides with a higher level abstraction and allows compare intonational contours from different speakers without requiring a normalization process, as it is required when using a numerical representation. This way, the initial or final regions of a contour can be represented by sequences of the first or the last INTSINT tags of a string. 2.1.2 3 Experimental settings and information features The setting is implemented as a machine learning experiment, selecting a subset of the features as targets and others as predictors. Table 1 presents a data dictionary of the features involved in the prediction models for obligations and common ground dialogue acts. Its right-most column specifies if a feature is used as either predictor (P) or target (T); the T/P value specifies that the feature is used as target in a particular model and as predictor in other. Lexical information is not used in the predictor feature set. The last_2 feature is based on the toneme notion (Navarro-Tomas, 1974). Two recognition models are produced: one for obligations and other for common ground. The previous dialogue act refers to both obligations_minus1 and commgr_minus1 features; i.e. both features are evaluated as predictors for obligations and also for common ground. The machine learning algorithm to generate the models is J48 (Witten and Frank, 2000); it creates classification and regression trees using an approach similar to CART (Breiman et al., 1983). J48 is implemented in WEKA (Witten and Frank, 2000), a free software tool. The dataset for the experiment contains features corresponding to 1,043 utterances in 12 dialogues from the DIME corpus. Baselines to evaluate the results are determined by an experimental setting where the previous dialogue act is not used as one of the predictors. These are: optimal predicted Utterance mood annotation Utterance mood, i.e. interrogative, declarative, imperative, etc. is annotated as specified by a series of formalized conventions; some of which are as follows: The human annotator reads the orthographical transcription and listens to the audio file, focusing on the final region of the utterance. The tag set is: dec (declarative), imp (imperative), int (interrogative) and other. The other label includes any other mood that does not fit into the first three categories. It is also 226 Prediction of Dialogue Acts on the Basis of the Previous Act Feature Description Why it is Used first_1 first_2 The first INTSINT label of an utterance The first two INTSINT labels of an utterance The first three INTSINT labels of an utterance The initial region of the intonational contour contributes to utterance mood recognition; each of the three features is evaluated Preliminary experiments show that it is highly contributive to utterance mood recognition because it contains the utterance toneme first_3 The last 2 INTSINT labels of an utterance last_2 P or T P P optimal_pred_mood Utterance mood (e.g. declarative, interrogative, imperative) is obtained by an automatic recognition task prior to dialogue act recognition. Its predictors are: speaker role, utterance duration and the last 2 and the first 1, 2 and 3 INTSINT tags of the intonational contour. Particular utterance moods are related to dialogue act types. An automatically recognized mood instead of the manually annotated is used because this is more similar to a real-world application T/P utt_duration Utterance duration in milliseconds; it is not normalized Preliminary experiments show that it might contribute to the recognition of dialogue act type P speaker_role Role of the speaker in the dialogue, either System or User obligations Manually annotated tag for dialogue act on the obligations plane of an utterance obligations_minus1 commgr commgr_minus1 Dialogue act tag (manually annotated) of obligations in the utterance n-1, where n is the utterance whose dialogue act is the target Manually annotated tag for dialogue act on the common ground plane of an utterance; agreement and understanding tags are concatenated as one single feature Dialogue act tag (manually annotated) of common ground in the utterance n-1, where n is the utterance whose dialogue act is the target Statistical analyses show that speaker_role is correlated to dialogue act; e.g. System and commit, User and action directive It is used as target data in the obligations recognition model and as one of the predictors for the common ground model Its contribution as one of the predictors for dialogue act is evaluated It is used as target in the common ground recognition model and as one of the predictors in the obligations model Its contribution as one of the predictors for dialogue act is evaluated P T/P P T/P P Table 1. Data dictionary of the features involved in the prediction models mood, utterance duration (in milliseconds) and speaker role; besides, the obligations model uses common ground dialogue act and the common ground model uses the obligation dialogue act. Table 2 presents the baseline values, where accuracy is the percent of correctly classified instances and kappa, introduced by (Siegel and Castellan, 1988) and (Carletta, 1996), is a consistency measurement for manual (or automatic) tagging tasks. Number of labels, instances to be annotated and annotators determine a default agreement value that might artificially increase the actual inter-annotator agreement (or the model accuracy), so the default agreement value is computed and substracted. Kappa in Table 2 and in the other machine-learning models is automatically computed by WEKA. Kappa of manual annotations, except of utterance mood, is computed by using Excel-style worksheets. Utterance mood was first manually annotated by one only human annotator and then automatic recognition models were produced using the manual tagging data as target. 227 Sergio R. Coria y Luis Alberto Pineda Obligations Comm. Ground Acc. (%) 66.2500 68.4564 accuracy (-0.1918) and a improvement in kappa (+0.0409). Kappa 0.58120 0.55510 Obligations Comm. Ground Table 2. Baseline values of recognition without the previous act Two classification trees were produced: one for obligations, containing 155 rules and one for common ground, containing 151 rules. Each tree was generated and tested by the 10fold cross validation method. The complete rule sets are available on demand. Results in Table 3 show that accuracy and kappa of obligations recognition when using the previous dialogue act as one of the predictors are greater than their baselines: the improvement is +5.658 in accuracy and +0.0791 in kappa. Regarding common ground recognition, there is a marginal decreasing in 1 2 3 4 5 Kappa 71.9080 68.2646 0.6603 0.5960 Confidence and support values were computed for every if-then rule in the two trees. Confidence is computed as (a-b)/a, and support as a/n, where a is the number of cases where the rule premise occurs, b is the number of non-satisfactory cases and n is the total number of instances in the data set, i.e. 1,043 utterances. Tables 4 and 5 present the 5 rules with highest supports in each model. In the rules, the no-tag value represents that an utterance does not have a tag associated to a dialogue act feature, e.g. rule 1 in Table 4, where the utterance expresses a dialogue act on the obligations but not on the common ground. Features that do not contribute to the classification task are not present in the rules because they are automatically discarded by J48. In the obligations plane model, the most important feature for dialogue act classification is the complementary dialogue act, i. e. commgr. Results and evaluation Rule ID Acc. (%) Table 3. Accuracies and kappas of recognition models Dialogue act annotation was formatted and processed in order to manage utterances with more than one tag on any expression plane; e.g. if the tagging contains affirm and accept, involving that the utterance simultaneously affirms and accepts, then it is concatenated as affirm_accept. Other instances are: inforequest_graph-action or hold_repeat-rephrase. 4 marginal Rule IF commgr=no-tag AND commgr_minus1=accept AND utt_duration<=5792, THEN info-request IF commgr=graph-action AND obligations_minus1=commit, THEN inforequest_graph-action IF commgr=accept AND speaker_role=system AND obligations_minus1=action-dir, THEN commit IF commgr=hold_repeat-rephr, THEN inforequest IF commgr=accept AND speaker_role=user AND commgr_minus1=graph-action, THEN answer a b Confidence Support 90 52 42.2 8.6 72 1 98.6 6.9 71 19 73.2 6.8 54 1 98.1 5.2 51 0 100.0 4.9 Table 4. The five rules with highest support for obligations prediction 228 Prediction of Dialogue Acts on the Basis of the Previous Act Rule ID 1 2 3 4 5 Rule IF obligations=commit, THEN accept IF obligations=info-request AND speaker_role=system, THEN hold_repeatrephr IF obligations=info-request_graph-action, THEN graph-action IF obligations=answer AND commgr_minus1=graph-action, THEN accept IF obligations=answer AND commgr_minus1=hold_repeat-rephr, THEN accept a 112 b 3 Confidence 97.3 Support 10.7 99 47 52.5 9.5 98 2 98.0 9.4 56 5 91.1 5.4 48 7 85.4 4.6 Table 5. The five rules with highest support for common ground prediction satisfactory F measures are: info-request_graph- Table 6 presents the features ranking according to their presence in the rule set. Features with higher percents are associated to a higher contribution to the classification task because they have a higher discriminative capability. Feature commgr commgr_minus1 obligations_minus1 speaker_role first_3 utt_duration first_2 optimal_pred_mood action, info-request_graph-action_answer, answer, commit and offer. In the common ground model, these are: graph-action and offer_conv-open. Feature obligations commgr_minus1 first_3 speaker_role obligations_minus1 utt_duration first_2 last_2 % of Rules 100.0 51.0 29.0 26.5 17.4 9.0 5.2 2.6 % of Rules 100.0 91.4 27.8 22.5 11.9 9.9 7.9 2.0 Table 7. Presence of features in the common ground model rules Table 6. Presence of features in the obligations model rules 5 In the common ground model, also the complementary dialogue act (i.e. obligations) is the most contributing feature, as can be seen in Table 7. Optimal_pred_mood is not a contributing feature in this model. Recognition rate per class is evaluated by three ratios: recall, precision and F measure. Recall is the number of cases actually belonging to a class divided by the number of cases of that class recognized by the model; precision is the number of cases of a class recognized by the model divided by the number of cases actually belonging to it. F measure is computed as 2x((Precision x Recall)/(Precision + Recall)). F measure is satisfactory if it is greater than or equal to 0.8. In the obligations acts model, classes with Conclusions The dialogue act from the previous utterance as one of the predictors is useful to improve the accuracy (+5.6 percent points) in the obligations recognition. The recognition of common ground dialogue acts is not benefited from this setting. An automatic recognition process might be implemented by taking advantage of a twosteps recognition, where the dialogue act from one of the two expression planes can be recognized by a lexical-based algorithm and then this dialogue act can be used as one of the inputs for the recognition of the dialogue act on the complementary plane by a classification tree; i.e. to use obligations as one of the inputs for common ground or vice versa. 229 Sergio R. Coria y Luis Alberto Pineda Garrido, J.M. 1996. Modelling Spanish Intonation for Text-to-Speech Applications. Doctoral Dissertation. Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, Spain. A model for automatic recognition of dialogue acts is useful to implement dialogue management systems by providing information that complements the speech recognition processes. Hirst, D., A. Di Cristo and R. Espesser. 2000. Levels of representation and levels of analysis for the description of intonation systems. In M. Horne (ed) Prosody: Theory and Experiment (Kluwer, Dordrecht). Acknowledgments The authors thank the anonymous reviewers of this paper. Sergio Coria also thanks Varinia Estrada for annotations and valuable comments, and CONACyT and DGEP-UNAM for support to this work. Navarro-Tomás, T. 1974. Manual de entonación española. New York: Hispanic Institute, 2ª edición corregida, 1948 .México: Colección Málaga, 3ª edición, 1966. - Madrid: Guadarrama (Punto Omega, 175), 4ª edición, 1974. References Allen, J. and M. Core. 1997. Draft of DAMSL: Dialog Act Markup in Several Layers. Informe técnico, The Multiparty Discourse Group. University of Rochester, Rochester, USA, October. Pineda, L. 2007. The DIME Corpus. Department of Computer Science, Institute of Applied Mathematics and Systems. National Autonomous University of Mexico. http://leibniz.iimas.unam.mx/~luis/DIME/C ORPUS-DIME.html Beckman, M.E., M. Diaz-Campos, J. TevisMcGory, and T.A. Morgan. 2002. Intonation across Spanish, in the Tones and Break Indices framework. Probus 14, 9-36. Walter de Gruyter. Pineda, L., V. Estrada and S. Coria. 2006. The Obligations and Common Ground Structure of Task Oriented Conversations. In Proceedings of X Iberoamerican Artificial Intelligence Conference, Iberamia, Ribeirao Preto, Brazil, October. Breiman, L., J.H. Friedman, R.A. Olshen and C.J. Stone. 1983. Classification and Regression Trees. Pacific Grove, CA: Wadsworth & Brooks, USA. Bunt, H. 1994. Context and Dialogue Control. THINK Quarterly. Shriberg, E., R. Bates, A. Stolcke, P. Taylor, D. Jurafsky, K. Ries, N. Coccaro, R. Martin, M. Meteer, and C. Van EssDykema. 1998. Can Prosody Aid the Automatic Classification of Dialog Acts in Conversational Speech? Language and Speech 41(3-4), Special Issue on Prosody and Conversation, 439-487, USA. Bunt, H. 1995. Dynamic interpretation and dialogue theory. The structure of multimodal dialogue, ed. by M. M. Taylor, F. Neel, and D. G. Bouwhuis. Amsterdam. John Benjamins Carletta, Jean. 1996. Assessing agreement on classification tasks: the kappa statistic. Computational Linguistics, 22(2):249-254. Siegel, S. and N.J. Castellan, Jr. Nonparametric Statistics for the Behavioral Sciences. McGraw-Hill, second edition, 1988. Coria, S. and L. Pineda. 2006. Predicting Dialogue Acts from Prosodic Information. In Proceedings of the Seventh International Conference on Intelligent Text Processing and Computational Linguistics, CICLing (Mexico City), February. Wahlster, W. 1993. VERBMOBIL: Translation of Spontaneous Face-to-Face Dialogs. In Proceedings of the 3rd EUROSPEECH, pp. 29-38, Berlin, Germany. Cuétara, J. 2004. Fonética de la ciudad de México. Aportaciones desde las tecnologías del habla. Tesis para obtener el título de Maestro en Lingüística Hispánica. Maestría en Lingüística Hispánica, Posgrado en Lingüística, Universidad Nacional Autónoma de México. Witten, I. and E. Frank. 2000. Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations. Morgan-Kauffman Publishers. San Francisco, CA. USA: 89-97. 230 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 231-238 recibido 18-05-2007; aceptado 22-06-2007 Adaptación de un Gestor de Diálogo Estadı́stico a una Nueva Tarea∗ David Griol, Lluı́s F. Hurtado, Encarna Segarra, Emilio Sanchis Departament de Sistemes Informàtics i Computació Universitat Politècnica de València. E-46022 València, Spain {dgriol,lhurtado,esegarra,esanchis}@dsic.upv.es Resumen: En este artı́culo se presenta una aproximación para adaptar una metodologı́a estadı́stica de gestión de diálogo al contexto de un nuevo dominio. El modelo de diálogo, que se aprende automáticamente a partir de un corpus de datos, se basa en la utilización de un proceso de clasificación para determinar la siguiente respuesta del sistema. Esta metodologı́a se ha aplicado previamente en el desarrollo de un sistema de diálogo hablado que proporciona información sobre trenes. Se resume la aproximación y el trabajo que se está realizando actualmente para utilizarla en el desarrollo de un sistema de diálogo para la reserva de instalaciones deportivas. Palabras clave: Adaptación, Gestión de Diálogo, Modelos Estadı́sticos, Sistemas de Diálogo Abstract: In this paper, we present an approach for adapting a statistical methodology for dialog management within the framework of a new domain. The dialog model, that is automatically learned from a data corpus, is based on the use of a classification process to generate the next system answer. This methodology has been previously applied in a spoken dialog system that provides railway information. We summarize this approach and the work that we are currently carrying out to apply it for developing a dialog system for booking sports facilities. Keywords: Adaptation, Dialog Management, Statistical Models, Dialog Systems 1. Introducción La utilización de técnicas estadı́sticas para el desarrollo de los diferentes módulos que componen un sistema de diálogo tiene un interés creciente durante los últimos años (Young, 2002). Estas aproximaciones suelen basarse en modelar los diferentes procesos de forma probabilı́stica y estimar los parámetros correspondientes a partir de un corpus de diálogos. La motivación para entrenar modelos estadı́sticos a partir de datos reales es clara. Los avances en el campo de los sistemas de diálogo hacen que los procesos de diseño, implementación y evaluación de las estrategias de gestión del diálogo sean cada vez más complejos, lo que ha posibilitado que el foco de interés de la comunidad cientı́fica se desplace de forma creciente de los métodos empı́ricos a las técnicas basadas en modelos aprendidos a partir de datos. Estos modelos pueden en∗ Este trabajo se ha desarrollado en el marco del proyecto EDECÁN subvencionado por el MEC y FEDER número TIN2005-08660-C04-02, la ayuda de la GVA ACOMP07-197 y el Vicerectorat d’Investigació, Desenvolupament i Innovació de la UPV. ISSN: 1135-5948 trenarse a partir de diálogos reales, pudiendo modelar la variabilidad en los comportamientos de los usuarios. Aunque la construcción y parametrización del modelo depende del conocimiento experto del dominio del sistema, el objetivo final es desarrollar sistemas con un comportamiento más robusto, con mayor facilidad de portabilidad, escalables y que presenten un mayor número de ventajas de cara a su adaptación al usuario o a nuevos dominios. Este tipo de metodologı́as se han aplicado tradicionalmente dentro de los campos de reconocimiento automático del habla y comprensión semántica del lenguaje (Segarra et al., 2002), (He y Young, 2003), (Esteve et al., 2003). La aplicación de metodologı́as estadı́sticas para modelar el comportamiento del gestor de diálogo está proporcionando resultados interesantes en años más recientes (Williams y Young, 2007), (Lemon, Georgila, y Henderson, 2006), (Torres, Sanchis, y Segarra, 2003). En este último campo, hemos desarrollado recientemente una aproximación para gestionar el diálogo utilizando un modelo estadı́sti- © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchis explicación detallada del modelo del diálogo puede consultarse en (Hurtado et al., 2006). El objetivo propuesto fue que el gestor de diálogo generase turnos de sistema basándose únicamente en la información suministrada por los turnos de usuario y la información contenida en el modelo. Una descripción formal del modelo estadı́stico propuesto es la siguiente: Representamos el diálogo como una secuencia de pares (turno de sistema, turno de usuario): co aprendido a partir de un corpus de diálogos etiquetado (Hurtado et al., 2006). Este trabajo se ha llevado a cabo en el dominio del proyecto DIHANA (Benedı́ et al., 2006). La tarea que se consideró para este proyecto fue el acceso telefónico a un sistema que proporciona información sobre horarios, precios, tiempos de recorrido, tipos de trenes y servicios en español. Para este proyecto se adquirió un corpus de 900 diálogos utilizando la técnica del Mago de Oz. El corpus se etiquetó en forma de actos de diálogo con la finalidad de entrenar el modelo de diálogo. En este artı́culo se presenta el trabajo que estamos realizando actualmente para adaptar esta metodologı́a con el objetivo de desarrollar un gestor de diálogo en el ámbito de un nuevo proyecto denominado EDECÁN (Lleida et al., 2006). El objetivo definido para este proyecto es incrementar la robustez de un sistema de diálogo hablado mediante el desarrollo de tecnologı́as que posibiliten su adaptación y personalización a diferentes contextos acústicos o de aplicación. La tarea que hemos seleccionado en el marco del proyecto EDECÁN es el desarrollo de un sistema de reservas de instalaciones deportivas para la Universitat Politècnica de València. Los usuarios pueden preguntar por la disponibilidad de instalaciones, realizar la reserva o cancelación de pistas deportivas o conocer las reservas actuales que tienen disponibles. A partir de un corpus de diálogos persona-persona se ha diseñado un gestor de diálogo inicial para esta tarea, cuya evaluación se presenta en este trabajo. El artı́culo se estructura de la siguiente forma. La sección 2 resume la metodologı́a de gestión de diálogo desarrollada para el proyecto DIHANA. La sección 3 describe la adaptación de esta metodologı́a en el marco del proyecto EDECÁN, ası́ como la definición de la semántica de la tarea. La sección 4 presenta los resultados de la evaluación del gestor de diálogo desarrollado. Finalmente, la sección 5 resume brevemente las conclusiones del trabajo presentado y describe el trabajo futuro. 2. (A1 , U1 ), · · · , (Ai , Ui ), · · · , (An , Un ) donde A1 es el turno de bienvenida del sistema, y Un es el turno correspondiente a la última intervención del usuario. Denotamos el par (Ai , Ui ) como Si , el estado de la secuencia del diálogo en el instante i. El objetivo del gestor de diálogo en el instante i es seleccionar la mejor respuesta del sistema. Para realizar esta selección, que es un proceso local, se tiene en cuenta la historia previa del diálogo, es decir, la secuencia de estados de diálogo que precedieron al instante i: Âi = argmax P (Ai |S1 , · · · , Si−1 ) Ai ∈A donde el conjunto A contiene todas las posibles respuestas contempladas para el sistema. Dado que el número de posibles secuencias de estados es muy grande, definimos una estructura de datos con la finalidad de establecer una partición en el espacio de secuencias de estados, es decir, en la historia del diálogo que precede al instante i. Esta estructura de datos, que denominamos Registro de Diálogo (Dialog Register, DR), contiene los conceptos y atributos proporcionados por el usuario a lo largo de la historia previa del diálogo. Mediante la utilización del DR, deja de tenerse en cuenta el orden en el que el usuario ha proporcionado la información, y la selección de la mejor respuesta del sistema se realiza mediante la siguiente maximización: Gestión de diálogo en el proyecto DIHANA Âi = argmax P (Ai |DRi−1 , Si−1 ) En el ámbito del proyecto DIHANA se ha desarrollado un gestor de diálogo basado en la modelización estadı́stica de las secuencias de actos de usuario de sistema y de usuario. Una Ai ∈A El último estado (Si−1 ) se tiene en cuenta para la selección de la respuesta del sistema 232 Adaptación de un Gestor de Diálogo Estadístico a una Nueva Tarea Figura 1: Esquema del gestor de diálogo desarrollado para el proyecto DIHANA Conceptos Hora Precio Tipo-Tren Tiempo-Recorrido Servicios dado que un turno de usuario puede proporcionar información no contenida en el DR, pero que es importante para decidir la próxima respuesta del sistema. Este es el caso de la información independiente de la tarea (actos de diálogo Afirmación, Negación y NoEntendido). La selección de la respuesta del sistema se lleva a cabo a través de un proceso de clasificación, en el cual se utiliza un perceptrón multicapa (MLP). La capa de entrada recibe la codificación del par (DRi−1 , Si−1 ). La salida generada por el perceptrón puede verse como la probabilidad de seleccionar cada una de las 51 respuestas de sistema diferentes que se definieron para la tarea DIHANA. La Figura 1 muestra el funcionamiento práctico del gestor de diálogo desarrollado para DIHANA. Los frames generados por el módulo de comprensión tras cada intervención del usuario y la última respuesta proporcionada por el sistema se utilizan para generar el par (DRi−1 , Si−1 ). La codificación de este par constituye la entrada del perceptrón multicapa que proporciona la probabilidad de seleccionar cada una de las respuestas definidas en DIHANA, dada la situación del diálogo representada por este par. 2.1. Atributos Origen Destino Fecha-salida Fecha-Llegada Hora-Salida Hora-Llegada Clase Tipo-tren Número-Orden Servicios Figura 2: Registro del diálogo (DR) definido para la tarea DIHANA sistema en lenguaje natural. Sin embargo, la única información necesaria para determinar la siguiente acción del sistema es la presencia o no de conceptos y atributos. Por tanto, la información que almacena el DR es una codificación de cada uno de sus campos en términos de tres valores, {0, 1, 2}, de acuerdo con el siguiente criterio: 0: El usuario no ha suministrado el concepto o valor del atributo correspondiente. 1: El concepto o atributo está presente con una medida de confianza superior a un umbral prefijado (un valor entre 0 y 1). Las medidas de confianza se generan durante los procesos de reconocimiento y comprensión (Garcı́a et al., 2003). Representación del Registro del Diálogo Para la tarea DIHANA, el DR se ha definido como una secuencia de 15 campos, cada uno de ellos asociado a un determinado concepto o atributo semántico. La secuencia de campos de conceptos y de atributos se muestra en la Figura 2. Para que el gestor de diálogo determine la siguiente respuesta, asumimos que no son significativos los valores exactos de los atributos. Estos valores son importantes para acceder a la base de datos y construir la respuesta del 2: El concepto o atributo está presente con una medida de confianza inferior al umbral. De este modo, cada DR puede representarse como una cadena de longitud 15 cuyos elementos pueden tomar valores del conjunto {0, 1, 2}. 233 David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchis 3. Gestión de diálogo en el proyecto EDECÁN Como resultado de la consulta a la base de datos se verifica que existe una única pista que cumple los requerimientos del usuario. El sistema debe confirmar que todo es correcto para proceder finalmente con la reserva. Una de las tareas que se han definido en el contexto del proyecto EDECÁN consiste en el diseño de un interfaz oral para informar y realizar reservas de instalaciones deportivas en nuestra universidad. La principal diferencia entre este tarea y la definida para el proyecto DIHANA radica en el tratamiento que se lleva a cabo de la información proporcionada por el usuario. En el dominio del sistema de diálogo desarrollado para DIHANA se proporcionaba únicamente información relativa a las consultas requeridas por el usuario, no modificándose en ningún instante la información almacenada en la base de datos del sistema. En la tarea EDECÁN se incorporan nuevas funcionalidades que suponen la modificación de la información almacenada en las bases de datos de la aplicación, por ejemplo, tras la reserva o cancelación de una pista deportiva. El módulo definido en la arquitectura del sistema EDECÁN para gestionar la información referente a la aplicación, que se ha denominado Gestor de la Aplicación (Application Manager, AM), realiza dos funciones fundamentales. En primer lugar, gestiona las consultas a la base de datos de la aplicación. En segundo lugar, verifica que la consulta requerida por el usuario cumple la normativa definida por la Universidad para la gestión de las pistas deportivas (por ejemplo: un usuario no puede reservar más de una pista deportiva al dı́a, un usuario sancionado no puede realizar reservas, etc.). De este modo, el resultado proporcionado por el AM debe tenerse en cuenta para generar la siguiente respuesta del sistema. Por ejemplo, a la hora de reservar una pista deportiva (ej. una pista de tenis) pueden ocurrir un conjunto de situaciones: Si se comprueba que hay disponibles dos o más pistas que cumplen las exigencias del usuario, el sistema debe verificar cuál de ellas desea reservarse. Para tener en cuenta la información proporcionada por el AM para la selección de la próxima respuesta del sistema, hemos considerado que se requieren dos etapas. En la primera etapa, la información contenida en el DR y el último estado Si−1 se tienen en cuenta para seleccionar la mejor consulta a realizar al AM (Â1i ): Â1i = argmax P (Ai |DRi−1 , Si−1 ) A1i ∈A1 donde A1 es el conjunto de posibles consultas al AM. En la segunda fase, se genera la respuesta final del sistema (Â2i ) teniendo en cuenta Â1i y la información proporcionada por el AM (AMi ): Â2i = argmax P (Ai |AMi , A1i ) A2i ∈A2 donde A2 es el conjunto de posibles respuestas del sistema. La Figura 3 muestra el esquema propuesto para el desarrollo del gestor de diálogo para el proyecto EDECÁN, detallándose las dos etapas descritas para la generación de la respuesta final del sistema. 3.1. Semántica de la tarea La determinación de la semántica de la tarea EDECÁN se ha llevado a cabo teniendo en cuenta las diferentes funcionalidades con las que se desea dotar al sistema de reservas y la información que se requiere para completarlas. Para realizar esta definición se ha utilizado un conjunto de diálogos personapersona proporcionados por el personal del Área de Deportes de la Universidad. De este modo, en estos diálogos han participado usuarios que deseaban realmente realizar las diferentes consultas que proporcionará el sistema automático. Tras la consulta a la base de datos de la aplicación se detecta que el usuario está sancionado. El sistema debe informar al usuario que no podrá reservar pistas deportivas hasta que el periodo de sanción haya finalizado. Tras la consulta a la base de datos se comprueba que no existen pistas que cumplan los requerimientos expuestos por el usuario, informando de ello el sistema. 234 Adaptación de un Gestor de Diálogo Estadístico a una Nueva Tarea Figura 3: Esquema del gestor de diálogo propuesto para el proyecto EDECÁN Rejection y Not-Understood). Este conjunto de diálogos se ha ampliado con nuevos diálogos generados por parte del personal de nuestro grupo de investigación. Para la generación de estos diálogos, se ha llevado a cabo la simulación del comportamiento del sistema por parte de un sistema, de forma similar a la técnica del Mago de Oz. En estos diálogos se han incorporado intervenciones en las que se pide la confirmación de atributos y conceptos mencionados durante el diálogo. En total se dispone de un corpus de 150 diálogos (873 turnos de usuario). La Figura 4 muestra un ejemplo de uno de los diálogos que conforman el corpus descrito. El conjunto de diálogos se ha etiquetado mediante una representación en forma de actos de diálogo, que definen la semántica de la tarea. Se han definido un total de seis atributos, relativos a la información que debe aportar el usuario para completar las diferentes consultas contempladas por el sistema. Los atributos definidos son el deporte que se desea practicar (Sport), el horario para el que se desea la consulta (Hour), la fecha (Date), el tipo de pista polideportiva (Court-Type), el identificador de pista (Court-Number) y el número de orden correspondiente a la pista que se desea reservar (Order-Number). A continuación se muestra un ejemplo de la interpretación semántica de una intervención del usuario: Turno de usuario: Quiero reservar una pista de squash para mañana por la tarde Interpretación semántica: (Booking) Sport: squash Date: mañana Hour: tarde 3.1.1. Etiquetado de los turnos de usuario Para el caso de los turnos de usuario, los actos de diálogo se corresponden con la interpretación semántica de la intervención del usuario mediante frames (atributos y conceptos). Para la tarea EDECÁN se han definido un total de siete conceptos: 3.1.2. Etiquetado de los turnos de sistema El etiquetado de los turnos de sistema se ha realizado de forma similar al de las intervenciones del usuario. Los conceptos definidos pueden clasificarse igualmente en dependientes de la tarea e independientes de la misma. Se han detallado un total de 18 conceptos dependientes de la tarea: Se han contemplado un total de cuatro conceptos dependientes de la tarea, correspondientes a los tipos de consultas que puede solicitar el usuario: conocer la disponibilidad de pistas (Availability), realizar una reserva (Booking), conocer las reservas que tiene vigentes (Booked) o cancelar alguna de ellas (Cancellation). Conceptos utilizados para informar al usuario del resultado de una determinada consulta: sobre disponibilidad de pistas (Availability), sobre la realización de Se han definido tres conceptos independientes de la tarea, análogos a los utilizados en la tarea DIHANA (Acceptance, 235 David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchis S1: Bienvenido al sistema de información del Área de Deportes. ¿En qué puedo ayudarle? U1: Quiero reservar una pista de pádel exterior para el miércoles que viene. S2: ¿A qué hora desea jugar? U2: A las 3 de la tarde. S3: El dı́a 23 de mayo a las 15:00 dispone de la pistas 1 y 4 de pádel. ¿Cuál de ellas desea reservar? U3: La pista 1 por favor. S4: Le reservo la pista 1 de pádel para el miércoles 23 de mayo a las 15:00. ¿Desea algo más? U4: Sı́, querı́a liberar una pista que tenia para mañana. S5: ¿Desea anular la pista de pádel del dı́a 21 de mayo a las siete de la tarde? U5: Sı́. S6: Le anulo la pista solicitada. ¿Desea algo más? U6: No gracias. S7: Gracias por utilizar el sistema de información del Área de Deportes. Adiós. Figura 4: Ejemplo de diálogo para la tarea EDECÁN una reserva (Booking), sobre las reservas actuales del usuario (Booked) o sobre la anulación de una reserva (Cancellation). Date: 25-06-2007 Hour: 20:00-20:30 Court-Type: pabellón Court-Number:1 Conceptos definidos para requerir al usuario los atributos necesarios para una determinada consulta: deporte (Sport), fecha (Date), hora (Hour) y tipo de pista (Court-Type). 3.2. Representación de las fuentes de información La representación definida para el par de entrada (DRi−1 , Si−1 ) es la siguiente: Conceptos utilizados para la confirmación de conceptos (Confirmation-Availability, Confirmation-Booking, Confirmation-Booked, Confirmation-Cancellation) y de atributos (ConfirmationSport, Confirmation-Date, Confirmation-Hour, Confirmation-CourtType). La codificación de los actos de diálogos correspondientes a la última respuesta generada por el sistema (Ai−1 ): Esta información se modela mediante una variable, que posee tantos bits como posibles respuestas del sistema diferentes se han detallado para el sistema (29). Conceptos relativos al AM: infracción de la normativa de reservas (Rule-Info) o indicación de la necesidad de seleccionar alguna de las pistas disponibles (Booking-Choice). x1 = (x11 , x12 , x13 , · · · , x129 ) ∈ {0, 1}29 Registro del diálogo (DR): El DR definido para la tarea EDECÁN almacena un total de diez caracterı́sticas, correspondientes a los cuatro conceptos y seis atributos dependientes de la tarea que se han detallado para realizar el etiquetado de las intervenciones del usuario (Figura 5). Análogamente a la tarea DIHANA, cada una de estas caracterı́sticas pueden tomar los valores {0, 1, 2}. De este modo, cada uno de los conceptos y atributos del DR puede modelarse utilizando una variable con tres bits. Se han definido un total de seis atributos, correspondientes a los cinco detallados para el etiquetado de los turnos de usuario (Sport, Court-Type, Court-Number, Date, Hour) y un atributo relativo al número de pistas que satisfacen los requerimientos del usuario (Availability-Number). Seguidamente se muestra un ejemplo del etiquetado de una respuesta del sistema: Turno de Sistema: ¿Le reservo la pista de squash 1 del pabellón para el 25 de junio de 20:00 a 20:30? Etiquetado: (Confirmation-Booking) Sport: squash xi = (xi1 , xi2 , xi3 ) ∈ {0, 1}3 i = 2, ..., 11 236 Adaptación de un Gestor de Diálogo Estadístico a una Nueva Tarea Conceptos Availability Booking Booked Cancellation Atributos Sport Court-Type Court-Number Date Hour Order-Number De este modo, la respuesta generada por el AM se ha modelado con una variable de cinco bits, que activan cada una de estas cinco situaciones: AM = (x1 , x2 , x3 , x4 , x5 ) ∈ {0, 1}5 4. Figura 5: Registro del diálogo definido para la tarea EDECÁN Evaluación A partir del etiquetado del corpus de diálogos persona-persona, y aplicando la adaptación expuesta en el artı́culo, se ha desarrollado un gestor de diálogo en el contexto del proyecto EDECÁN. Para realizar el entrenamiento de los MLP, se utilizó un software desarrollado en nuestro grupo de investigación. Se extrajo un subconjunto de validación (20 %) de cada uno de los conjuntos de test. Los MLP se entrenaron utilizando el algoritmo de Backpropagation con momentum. La mejor topologı́a fue dos capas ocultas con 100 y 10 neuronas respectivamente. La evaluación se llevó a cabo mediante un proceso de validación cruzada. En cada una de las experimentaciones, el corpus se dividió aleatoriamente en cinco subconjuntos. Cada evaluación, de este modo, consistió en cinco experimentaciones. En cada una de ellas se utilizó un subconjunto diferente de los cinco definidos como muestras de test, y el 80 % del corpus restante se utilizó como partición de entrenamiento. Para evaluar el funcionamiento del gestor desarrollado se han definido tres medidas: Información independiente de la tarea (actos de diálogo Acceptance, Rejection y Not-Understood): Estos tres actos de diálogo se han codificado de forma idéntica a las caracterı́sticas almacenadas en el DR. De esta forma, cada uno de estos tres actos de diálogo puede tomar los valores {0, 1, 2} y modelarse utilizando una variable con tres bits. xi = (xi1 , xi2 , xi3 ) ∈ {0, 1}3 i = 12, ..., 14 De este modo, la variable (DRi−1 , Si−1 ) puede representarse mediante el vector de 14 caracterı́sticas: (DRi−1 , Si−1 ) = (x1 , x2 , x3 , · · · , x14 ) La respuesta generada por el AM se ha codificado teniendo en cuenta el conjunto de posibles respuestas existentes en el corpus tras llevar a cabo una consulta al AM. Este conjunto engloba las diferentes situaciones que puede comportar una consulta al AM desarrollado para EDECÁN y contempladas en el corpus persona-persona: Porcentaje de respuestas que coinciden con la respuesta de referencia anotada en el corpus ( %exacta). Porcentaje de respuestas que son coherentes con el estado actual del diálogo ( %correcta). Caso 1: El AM no ha intervenido en la generación de la respuesta final del sistema, por ejemplo, cuando se selecciona la confirmación de un atributo, la determinación del cierre del diálogo, etc. Porcentaje de respuestas que no son compatibles con el estado actual del diálogo ( %error), provocando el fallo del diálogo. Casos 2-4: Tras una consulta a la base de datos, el AM proporciona como respuesta que no existen pistas que cumplan los requerimientos del usuario (caso 2), existe una única pista (caso 3) o existe más de una pista disponible (caso 4). Estas dos últimas medidas se han obtenido tras una revisión manual de las respuestas proporcionadas por el gestor. La Tabla 1 muestra los resultados obtenidos de la evaluación del gestor. Los resultados obtenidos tras la experimentación muestran que el gestor de diálogo se adapta correctamente a los requerimientos Caso 5: El AM advierte que la consulta del usuario no puede efectuarse por incumplir la normativa establecida en la Universidad. 237 David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchis %exacta %correcta %error 72,9 % 86,7 % 4,5 % pus in Spanish: DIHANA. En Proc. of LREC’06, Genove. Esteve, Y., C. Raymond, F. Bechet, y R. De Mori. 2003. Conceptual Decoding for Spoken Dialog systems. En Proc. of EuroSpeech’03, páginas 617–620. Tabla 1: Resultados de la evaluación del gestor de diálogo desarrollado Garcı́a, F., L.F. Hurtado, E.Sanchis, y E. Segarra. 2003. The incorporation of Confidence Measures to Language Understanding. En Proc. of TSD’03, páginas 165– 172, Ceské Budejovice. de la nueva tarea, proporcionando un 86,7 % de respuestas que son coherentes con el estado actual del diálogo, coincidiendo un 72,9 % con la respuesta de referencia anotada en el corpus. El porcentaje de respuestas proporcionadas por el gestor que puede causar el fallo del diálogo es considerable (4,5 %). Asimismo, el 8,8 % restante de respuestas no incluidas en las tres medidas anteriores suponen que el diálogo pueda continuar, pero no son coherentes con el estado actual del diálogo (como por ejemplo, solicitar información de la que ya se dispone actualmente). Mediante la ampliación del corpus inicial de diálogos se espera poder reducir ambos porcentajes. 5. He, Yulan y S. Young. 2003. A data-driven spoken language understanding system. En Proc. of ASRU’03, páginas 583–588. Hurtado, L.F., D. Griol, E. Segarra, y E. Sanchis. 2006. A Stochastic Approach for Dialog Management based on Neural Networks. En Proc. of InterSpeech’06, Pittsburgh. Lemon, O., K. Georgila, y J. Henderson. 2006. Evaluating Effectiveness and Portability of Reinforcement Learned Dialogue Strategies with real users: the TALK TownInfo Evaluation. En Proc. of SLT’06, Aruba. Conclusiones En este artı́culo se ha presentado el proceso seguido para adaptar una metodologı́a estadı́stica para la gestión de diálogo con el objetivo de interactuar en un sistema con un dominio diferente. Este tipo de metodologı́as permiten una fácil adaptación, siendo su comportamiento dependiente de la calidad y tamaño del corpus disponible para aprender su modelo. A partir de un corpus inicial de diálogos se ha desarrollado un gestor con buenas prestaciones y con la posibilidad de mejorar el modelo inicial mediante la incorporación de nuevos diálogos. Actualmente estamos trabajando en el desarrollo de los diferentes módulos que compondrán el sistema de diálogo EDECÁN con la finalidad de llevar a cabo la adquisición de un corpus de diálogos con usuarios reales. Esta adquisición se va a realizar de manera supervisada, utilizando para ello el gestor de diálogo presentado en este trabajo. Los diálogos adquiridos servirán para realizar la mejora del modelo de diálogo inicial. Lleida, E., E. Segarra, M.I. Torres, y J. Macı́as-Guarasa. 2006. EDECÁN: sistEma de Diálogo multidominio con adaptación al contExto aCústico y de AplicacióN. En Proc. IV Jornadas en Tecnologia del Habla, páginas 291–296, Zaragoza. Segarra, E., E. Sanchis, M. Galiano, F. Garcı́a, y L. Hurtado. 2002. Extracting Semantic Information Through Automatic Learning Techniques. International Journal on Pattern Recognition and Artificial Intelligence, 16(3):301–307. Torres, F., E. Sanchis, y E. Segarra. 2003. Development of a stochastic dialog manager driven by semantics. En Proc. EuroSpeech’03, páginas (1):605–608. Williams, J. y S. Young. 2007. Partially Observable Markov Decision Processes for Spoken Dialog Systems. En Computer Speech and Language 21(2), páginas 393– 422. Bibliografı́a Young, S. 2002. The Statistical Approach to the Design of Spoken Dialogue Systems. Informe técnico. Benedı́, J.M., E. Lleida, A. Varona, M.J. Castro, I. Galiano, R. Justo, I. López, y A. Miguel. 2006. Design and acquisition of a telephone spontaneous speech dialogue cor238 Traducción Automática Procesamiento del Lenguaje Natural, nº39 (2007), pp. 241-248 recibido 03-05-2007; aceptado 22-06-2007 Un método de extracción de equivalentes de traducción a partir de un corpus comparable castellano-gallego ∗ Pablo Gamallo Otero Dept. de Lı́ngua Espanhola Univ. de Santiago de Compostela pablogam@usc.es José Ramom Pichel Campos Dept. de Tecnologia Linguı́stica da Imaxin|Software Santiago de Compostela, Galiza jramompichel@imaxin.com Resumen: Los trabajos sobre extracción de equivalentes de traducción a partir de corpus comparables no-paralelos no han sido muy numerosos hasta ahora. La razón principal radica en los pobres resultados obtenidos si los comparamos con los enfoques que utilizan corpus paralelos y alineados. El método propuesto en este artı́culo, basado en el uso de contextos semilla generados a partir de diccionarios bilingües externos, obtiene tasas de precisión próximas a los métodos con corpus paralelos. Estos resultados apoyan la idea de que la ingente cantidad de corpus comparables disponibles via Web puede llegar a ser una fuente importante de conocimiento lexicográfico. En este artı́culo, se describen los experimentos realizados sobre un corpus comparable castellano-gallego. Palabras clave: extracción de léxico multilingüe, corpus comparables, traducción automática Abstract: So far, research on extraction of word translations from comparable, non-parallel corpora has not been very popular. The main reason was the poor results when compared to those obtained from aligned parallel corpora. The method proposed in this paper, relying on seed contexts generated from external bilingual dictionaries, allows us to achieve results similar to those from parallel corpus. In this way, the huge amount of comparable corpora available via Web can be viewed as a never-ending source of lexicographic information. In this paper, we desbribe the experiments performed on a comparable, Spanish-Galician corpus. Keywords: multilingual lexical extraction, comparable corpora, automatic translation 1. Introducción En las dos últimas décadas, han aparecido numerosos trabajos centrados en la extracción automática de léxicos bilingües a partir de corpus paralelos (Melamed, 1997; Ahrenberg, Andersson, y Merkel, 1998; Tiedemann, 1998; Kwong, Tsou, y Lai, 2004). Estos trabajos comparten una estrategia común: organizan primero los textos en pares de segmentos alineados para luego, en base a este alineamento, calcular las coocurrencias de palabras en cada par de segmentos. En algunos de estos experimentos, la precisión alcanzada al nivel de la palabra es muy alta: alrededor del 90 % para un recall del 90 %. Desgraciadamente, no hay todavı́a disponible una gran cantidad de texto paralelo, especialmente en lo que se refiere a lenguas minorizadas. Pa∗ Este trabajo ha sido subvencionado por el Ministerio de Educación y Ciencia a cargo del proyecto GARI-COTER, ref: HUM2004-05658-D02-02 ISSN: 1135-5948 ra evitar este problema, en los últimos años se han desarrollado técnicas de extracción de léxicos bilingues a partir de corpus comparables no-paralelos. Estas técnicas parten de la idea de que la Web es un enorme recurso de textos multilingües fácilmente organizados en corpus comparables no-paralelos. Un corpus comparable no-paralelo (de aquı́ en adelante “corpus comparable”) está formado por textos en dos lenguas que, sin ser traducciones unos de otros, versan sobre temáticas parecidas. Sin embargo, la tasa de precisión de tales métodos es todavı́a bastante inferior a la de los algoritmos de extracción de corpus paralelos. Los mejores registros hasta ahora apenas alcanzan el 72 % (Rapp, 1999), y ello, sin dar cuenta de la cobertura alcanzada. En este artı́culo, proponemos un nuevo método de extracción de léxicos bilingües a partir de corpus comparables. Este método se basa en el uso de diccionarios bilingües © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Pablo Gamallo y José Ramom Pichel Campos generación automática de relaciones semánticas (Grefenstette, 1994; Lin, 1998) no utilizan contextos definidos en forma de ventanas de palabras sino en forma de dependencias sintácticas. En este artı́culo, presentaremos un método de extracción de léxicos bilingües basado en la previa identificación de contextos léxico-sintácticos bilingües, y no en el uso de ventanas de palabras semilla, habitual en los trabajos más representativos del estado del arte. Existen otros enfoques relacionados con la extracción de léxicos bilingües en corpus comparables que no requieren el uso de diccionarios externos (Fung, 1995; Rapp, 1995; Diab y Finch, 2001). Sin embargo, (Fung, 1995) obtiene resultados muy pobres lo que restringe enormemente sus potenciales aplicaciones, (Rapp, 1995) tiene graves limitaciones computacionales, y (Diab y Finch, 2001) sólo ha sido aplicado a corpus monolingües. Por último, cabe mencionar el enfoque descrito en (Gamallo y Pichel, 2005; Gamallo, 2007), que utiliza pequeños fragmentos de corpus paralelos como base para la extracción de contextos semilla. con el propósito de identificar correspondencias bilingües entre pares de contextos léxicosintácticos. A parte de los diccionarios, se utilizará para el mismo propósito la identificación de cognados en los textos comparables. La extracción del léxico bilingüe se realizará tomando en cuenta las coocurrencias de lemas mono y multi-léxicos en los contextos bilingües previamente identificados. Los resultados obtenidos mejoran el 72 % de precisión para una cobertura del 80 %, lo que supone un avance en el área de la extracción en corpus comparables. Estos resultados apoyan la idea de que la ingente cantidad de corpus comparables disponibles via Web puede llegar a ser una fuente casi inagotable de conocimiento lexicográfico. El artı́culo se organiza como sigue. En la sección 2, situaremos nuestro enfoque con respecto a otros trabajos relacionados. La sección 3 describirá con detalle las diferentes etapas del método propuesto. Seguidamente, en 4, analizaremos los experimentos realizados para un corpus castellano-gallego, y describiremos un protocolo de evaluación de los resultados. Acabaremos con una sección de conclusiones. 3. 2. Trabajo relacionado Descripción de la estrategia Nuestra estrategia se divide en tres etapas secuenciales: (1) procesamiento textual, (2) creación de una lista de contextos semilla por medio de la explotación de diccionarios bilingües y de la identificación de cognados, y (3) extracción de los equivalentes de traducción a partir de textos comparables usando como anclas la lista de contextos semilla. No existen muchos trabajos cuyo enfoque sea la extracción de léxicos bilingües en corpus comparables, en relación a los que usan textos paralelos y alineados. El método más eficiente, y en el que se basan la mayorı́a de los pocos trabajos en el área (Fung y McKeown, 1997; Fung y Yee, 1998; Rapp, 1999; Chiao y Zweigenbaum, 2002), se puede describir como sigue: la palabra o multipalabra w1 es una traducción candidata de w2 si las palabras que coocurren con w1 dentro de una ventana de tamaño N son traducciones de las palabras que coocurren con w2 dentro de la misma ventana. Esta estrategia se fundamenta, por tanto, en una lista de pares de palabras bilingües (llamadas palabras semilla), previamente identificadas en un diccionario bilingüe externo. En resumen, w1 puede ser una traducción candidata de w2 si ambas tienden a coocurrir con las mismas palabras semilla. El principal problema de este método es que, según la hipótesis de Harris (Harris, 1985), las ventanas de tamaño N son semánticamente menos precisas que los contextos locales de naturaleza léxicosintáctica. Las técnicas más eficientes para la 3.1. Procesamiento del corpus comparable En primer lugar, lematizamos, etiquetamos y desambiguamos morfosintácticamente el corpus comparable usando una herramienta de código abierto: Freeling (Carreras et al., 2004). En el proceso de etiquetación, se activa la identificación de nombres propios, que pueden ser mono y pluriléxicos. Una vez realizada esta tarea, se seleccionan potenciales dependencias sintácticas entre lemas con una estrategia básica de reconocimiento de patrones. Los determinantes son eliminados. Cada dependencia sintáctica identificada se descompone en dos contextos léxico-sintácticos complementarios. En el cuadro 1 se muestran algunos ejemplos. Dada una dependencia sintáctica identificada en el corpus, por 242 Un Método de Extracción de Equivalentes de Traducción a partir de un Corpus Comparable Castellano-Gallego Dep. binarias de (venta, azúcar) robj (ratificar, ley) lobj (ratificar, gobierno) iobj contra(luchar, pobreza) modAdj (entrenador, adecuado) Contextos < venta de [NOUN] > < [NOUN] de azúcar > < ratificar [NOUN] > < [VERB] ley > < gobierno [VERB] > < [NOUN] ratificar > < luchar contra [NOUN] > < [VERB] contra pobreza > < [NOUN] adecuado > < entrenador [ADJ] > Cuadro 1: Dependencias binarias y sus contextos léxico-sintácticos asociados. pus comparable, por tanto, obtenemos lemas multi-léxicos en las dos lenguas. Posteriormente, reducimos la lista de candidatos con un filtro estadı́stico elemental que sólo retiene aquellos candidatos con un grado de cohesión elevado (medida SCP ). Seguimos una estrategia parecida a la descrita en (Silva et al., 1999). Una vez constituida la lista de lemas multi-léxicos, extraemos sus contextos léxicosintácticos de forma análoga a la empleada arriba para los lemas mono-léxicos y los nombres propios. ejemplo: de (venta, azúcar) , extraemos dos contextos léxico-sintácticos: < venta de [NOUN] >, donde NOUN representa al conjunto de nombres que pueden aparecer después de “venta de”, es decir, “azúcar”, “producto”, “aceite”, etc., y por otro lado, < [NOUN] de azúcar >, donde NOUN representa el conjunto de nombres que pueden aparecer antes del complemento “de azúcar”: “venta”, “importación”, “transporte”, etc. La caracterización de los contextos se basa en la noción de co-requerimiento descrita en (Gamallo, Agustini, y Lopes, 2005). Además de las dependencias preposicionales entre nombres, también utilizamos la dependencia lobj, que representa la probable relación entre el verbo y el nombre que aparece inmediatamente a su izquierda (left object); robj es la relación entre el verbo y el nombre que aparece a su derecha (right object); iobj prp representa la relación entre el verbo y un nombre precedido de preposición. Por último, modAdj es la relación entre un nombre y el adjetivo que lo modifica. Los léxicos bilingües que nos proponemos extraer no sólo se componen de lemas monoléxicos y nombres propios, sino también de lemas multi-léxicos, es decir, de expresiones con varios lexemas y un cierto grado de cohesión: “accidente de tráfico”, “cadena de televisión”, “dar a conocer”, etc. Para poder extraer este tipo de expresiones, realizamos una segunda fase del procesamiento que consiste en identificar lemas multi-léxicos (que no son nombres propios) y sus contextos. En esta tarea, utilizamos un extractor automático básico, basado en la instanciación de patrones morfo-sintácticos (e.g, NOUN-PRP-NOUN, NOUN-ADJ, VERB-NOUN, etc.) que nos permite identificar un gran número de candidatos. Este extractor se ejecuta en el cor- 3.2. Generación de contextos bilingües La principal estrategia que utilizamos para la generación de contextos léxico-sintácticos bilingües se fundamenta en la explotación de diccionarios bilingües externos. Supongamos que en un diccionario castellanogallego la entrada castellana “venta” se traduce en gallego por “venda”, ambos nombres. La generación léxico-sintáctica a partir de cada uno de estos nombres se lleva a cabo siguiendo reglas básicas como por ejemplo: un nombre puede ir precedido de una preposición que a su vez es precedida de otro nombre o un verbo, puede ir después de un nombre o verbo seguidos de una preposición, o puede ir antes o después de un adjetivo. Hemos centrado la generación en tres categorı́as: nombres, verbos y adjetivos. Para cada categorı́a sintáctica, hemos generado únicamente un subconjunto representativo de todos los contextos generables. El cuadro 2 muestra los contextos generados a partir de la correspondencia bilingüe entre “venta” y “venda” y un conjunto limitado de reglas. La generación se completa con la instanciación de prp. Para ello, empleamos una lista cerrada de preposiciones especı́ficas y sus correspondientes traducciones. De esta ma243 Pablo Gamallo y José Ramom Pichel Campos Castellano <venta prp [NOUN]> <[NOUN] prp venta> <[VERB] venta> <[VERB] prp venta> <venta [VERB]> <venta [ADJ]> <[ADJ] venta> Gallego <venda prp [NOUN]> <[NOUN] prp venda> <[VERB] venda> <[VERB] prp venda> <venda [VERB]> <venda [ADJ]> <[ADJ] venda> alta en el corpus mientras que el otro tiene una frecuencia baja. Los umbrales de dispersión y asimetrı́a se establecen empı́ricamente y pueden variar en función del tipo y tamaño del corpus. Una vez filtrados los pares de contextos dispersos y asimétricos, nos queda una lista reducida que llamamos contextos semilla. Esta lista será utilizada en el siguiente proceso de extracción. Cuadro 2: Contextos bilingües generados a partir de la correlación “venta-venda”. 3.3.2. Algoritmo de extracción Con el objetivo de extraer pares de lemas bilingües, proponemos el siguiente algoritmo. nera, obtenemos pares de contextos bilingües como: <venta de [NOUN]> y <venda de [NOUN]>, <venta en [NOUN]> y <venda en [NOUN]>, etc. Por otro lado, usamos otra estrategia complementaria, basada en la identificación de cognados en los textos comparables. Llamamos aquı́ cognados a 2 palabras en lenguas diferentes que se escriben de la misma manera. Sólo nos interesamos en aquellos que no se encuentran en el diccionario bilingüe, y que son, en su mayorı́a, nombres propios. Generamos los contextos léxico-sintácticos correspondientes y los juntamos a la lista de pares de contextos bilingües. Los pares bilingües generados por medio de estas dos estrategias servirán de anclas o referencias para marcar el corpus comparable en el que se va a realizar la última etapa del proceso de extracción. 3.3. Dada una lista de pares de contextos semilla: (a) para cada lema wi de la lengua fuente, se cuenta el número de veces que éste instancia cada contexto semilla y se construye un vector de contextos con esa información; (b) para cada lema wj de la lengua meta, se cuenta el número de veces que éste instancia cada contexto semilla y se construye un vector de contextos con esa información; (c) Calculamos la similitud DICE entre pares de vectores: DICE(wi , wj ); si wj está entre los N más similares a wi , entonces seleccionamos wj como el candidato a ser la traducción de wi . Identificación de equivalentes de traducción en el corpus comparable Veamos un ejemplo. El cuadro 3 ilustra algunas posiciones del vector de contextos asociado al nombre castellano “Bachillerato”. El valor de cada posición (tercera columna en el cuadro) representa el número de veces que el nombre coocurre con el contexto en el corpus comparable. Cada contexto del vector de la entrada castellana tiene que tener su correlato gallego, pues forma parte de la lista de pares de contextos semilla. La primera columna del cuadro representa el ı́ndice o posición del contexto en el vector. El cuadro 4, por su parte, muestra los valores asociados a las mismas posiciones en el vector del nombre gallego “Bacharelato”. Los contextos de la segunda columna son las traducciones de los castellanos que aparecen en el cuadro 3. Por ejemplo, en la posición 00198 de los dos vectores, aparecen los contextos: <estudio de [NOUN]> y <estudo de La etapa final consiste en la extracción de equivalentes de traducción con ayuda de los pares de contextos bilingües previamente generados. Esta etapa se divide en dos procesos secuenciales: filtrado de contextos y extracción de los equivalentes de traducción. 3.3.1. Filtrado Dada la lista de pares de contextos bilingües generados en la etapa anterior, procedemos a la eliminación de aquellos pares con un grado elevado de dispersión y asimetrı́a en el corpus comparable. Un par bilingüe de contextos se considera disperso si el número de lemas diferentes que aparecen en los dos contextos dividido por el número total de lemas de la categorı́a requerida es superior a un determinado umbral. Por otro lado, un par bilingüe se considera asimétrico si uno de los contextos del par tiene una frecuencia 244 Un Método de Extracción de Equivalentes de Traducción a partir de un Corpus Comparable Castellano-Gallego ı́ndice 00198 00234 00456 01223 02336 07789 08121 contexto <estudio de [NOUN]> <estudiante de [NOUN]> <curso de [NOUN]> <asignatura de [NOUN]> <[NOUN] en Lugo> <estudiar [NOUN]> <cursar [NOUN]> freq. 123 218 69 35 6 98 56 2006. El corpus castellano contiene 13 millones de palabras de artı́culos de La Voz de Galicia y El Correo Gallego. Por su parte, el corpus gallego contiene 10 millones de palabras de artı́culos extraı́dos de Galicia-Hoxe, Vieiros y A Nosa Terra. La mayorı́a de los textos gallegos están escritos respetando la normativa del 2003 de la Real Academia Galega, dejando para otros proyectos corpus con ortografı́as convergentes con el portugués. Los artı́culos recuperados cubren un amplio espectro temático: polı́tica regional, nacional e internacional, cultura, deporte y comunicación. Cuadro 3: Extracto del vector asociado al sustantivo español Bachillerato. ı́ndice 00198 00234 00456 01223 02336 07789 08121 contexto <estudo de [NOUN]> <estudante de [NOUN]> <curso de [NOUN]> <materia de [NOUN]> <[NOUN] en Lugo> <estudar [NOUN]> <cursar [NOUN]> freq. 78 145 45 41 35 23 13 4.2. El diccionario bilingue que hemos utilizado para generar los contextos semilla es el empleado por el sistema de traducción automática de código abierto Opentrad, con el motor de traducción Apertium (ArmentanoOller et al., 2006) para los pares castellanogallego. Nuestros experimentos tienen como objetivo actualizar el diccionario, que contiene actualmente cerca de 30.000 entradas, para mejorar los resultados del traductor castellano-gallego, implantado en La Voz de Galicia, sexto periódico en número de lectores de España. Este proyecto se realizó en colaboración con el área de ingenierı́a lingüı́stica de imaxin|software. El número de contextos bilingües generados a partir de las entradas del diccionario es de 539.561. A este número hay que sumarle aquellos contextos generados usando la estrategia de identificación de cognados en el corpus que no se encuentran en el diccionario. Estos son 754.469. En total, consiguimos 1.294.030 contextos bilingües. Este número se reduce drásticamente cuando pasamos el filtro que elimina los que tienen un comportamiento disperso y asimétrico en el corpus comparable. La lista final de contextos semilla es de: 127.604. Cuadro 4: Extracto del vector asociado a la nombre gallego Bacharelato. [NOUN]>. Como forman un par de contextos semilla, tienen que aparecer en la misma posición vectorial. Tal y como muestran los cuadros 3 y 4, el nombre gallego “Bacharelato” coocurre con numerosos contextos que son traducciones de los contextos con los que también coocurre el nombre castellano “Bachillerato”. Para calcular el grado de similitud entre dos lemas, w1 y w2 , utilizamos una versión del coeficiente Dice: Dice(w1 , w2 ) = 2 i El diccionario bilingue mı́n(f (w1 , ci ), f (w2 , ci )) f (w1 ) + f (w2 ) donde f (w1 , ci ) representa el número de coocurrencias entre el lema w1 y el contexto ci . Como ya se ha dicho anteriormente, los lemas pueden ser mono o multi-léxicos. Para cada lema de la lengua fuente (castellano), seleccionamos los lemas de la lengua meta (gallego) con el valor de similitud Dice más alto, lo que los sitúa como sus posibles traducciones. En nuestros experimentos “Bacharelato” es el lema gallego con el valor de similitud más alto con respecto a “Bachillerato”. 4.3. Evaluación El protocolo de evaluación que elaboramos sigue, en algunos aspectos, el de (Melamed, 1997), que fue definido para evaluar un método de extracción de léxicos a partir de corpus paralelos. La precisión del léxico extraı́do se calcula con respecto a diferentes niveles de cobertura. En nuestro trabajo, la cobertura se define poniendo en relación las entradas del léxico y su presencia en el corpus compa- 4. Experimentos y evaluación 4.1. El corpus comparable El corpus comparable se compone de noticias de diarios y semanarios on line, publicados desde finales de 2005 hasta finales de 245 Pablo Gamallo y José Ramom Pichel Campos corresponden a léxicos compuestos por 9.798, 3.534 y 597 nombres, respectivamente. En la categorı́a “Nombres” se incluyen nombres propios mono y multi-léxicos. La precisión al nivel del 90 % es relativamente baja (entre 50 y 60 por ciento) debido al elevado número de nombres propios incluidos en el léxico y a la dificultad de encontrar la correcta traducción de un nombre propio usando el método propuesto.1 En la figura 1 ilustramos la evolución de la precisión (1 y 10) en función de los tres niveles de cobertura. Con una cobertura del 80 %, la precisión es bastante aceptable: entre el 80 y el 90 por ciento. A este nivel de cobertura, la frecuencia de las entradas evaluadas es ≥ 129. Se trata, por tanto, de un nivel próximo al empleado en la evaluación de otros trabajos relacionados, donde se calculaba la precisión de palabras con frecuencia ≥ 100. Sin embargo, en estos trabajos relacionados, las tasas de precisión son sensiblemente inferiores: alrededor del 72 % en los mejores casos (Rapp, 1999). Conviene precisar aquı́ que el hecho de tener resultados aceptables sólo con palabras o lemas frecuentes no es un problema insalvable ya que, al trabajar con corpus comparables, podemos fácilmente incrementar el tamaño del corpus y, con ello, el número de lemas que sobrepasen el umbral de la frecuencia 100. Por ejemplo, al incrementar nuestro corpus el doble del tamaño inicial, conseguimos obtener 1/3 más de lemas con una frecuencia superior a 100. Con respecto a los adjetivos y verbos, resalta la disparidad en los resultados. Mientras la precisión para los verbos roza el 100 % al rable. En particular, la cobertura se calcula sumando las frecuencias en el corpus de las ocurrencias de los lemas que forman el léxico extraı́do, y dividiendo el resultado por la suma de las frecuencias de todos los lemas en el corpus. El cálculo de la cobertura se hace separadamente para cada una de las categorı́as gramaticales en estudio: nombres, verbos y adjetivos. Y basta con calcularlo usando los lemas y el corpus de la lengua fuente. De esta manera, decimos que el léxico extraı́do alcanza un nivel de cobertura del 90 % para los nombres si, y sólo si, los nombres del léxico castellano (lengua fuente) tienen una frecuencia en el corpus que alcanza el 90 % de la frecuencia de todos los nombres en el mismo corpus. Para calcular la precisión, fijamos una categorı́a gramatical y un nivel de cobertura del léxico, y extraemos aleatoriamente 150 lemas-test de esa categorı́a. Calculamos, en realidad, dos tipos de precisión: precisión-1 se define como el número de veces que la traducción candidata seleccionada en primer lugar es la correcta, dividido por el número de lemas-test. Precisión-10 es el número de candidatos correctos que aparecen en la lista de los 10 más similares de cada lema, dividido por el número de lemas-test. Hasta ahora, en los protocolos de evaluación de otros métodos de extracción de léxicos bilingües a partir de corpus comparables no se habı́a definido ningún tipo de cobertura. La única información sobre las palabras o lemas testados es su frecuencia absoluta. Es decir, se testan palabras o lemas con una frecuencia mayor a N , donde N suele ser ≥ 100. (Chiao y Zweigenbaum, 2002). El problema reside en que las frecuencias absolutas, al ser totalmente dependientes del tamaño del corpus de entrenamiento, no son útiles para comparar las tasas de precisión alcanzadas por diferentes métodos. En nuestro trabajo, sin embargo, la noción de nivel de cobertura intenta subsanar dicha limitación. Buscamos la traducción de todo tipo de nombres propios pues el diccionario bilingüe del traductor necesita esta información. El motor Apertium 1.0 no integra todavı́a un detector de entidades. Precision a 3 niveles de cobertura 100 precision 4.4. 1 Resultados El cuadro 5 muestra los resultados de la evaluación. Para cada una de las categorı́as gramaticales, incluidos los nombres multiléxicos, y para cada nivel de cobertura (90 %, 80 %, y 50 %), calculamos los dos tipos de precisión. Con respecto a los nombres, los tres niveles de cobertura del 90, 80 y 50 por ciento 80 precision-1 60 precision-10 40 90 80 50 cobertura Figura 1: Precisión de los nombres a 3 niveles de cobertura 246 Un Método de Extracción de Equivalentes de Traducción a partir de un Corpus Comparable Castellano-Gallego Categorı́a Nombre Nombre Nombre Adj Adj Adj Verbo Verbo Verbo N multi-lex Cobertura 90 % 80 % 50 % 90 % 80 % 50 % 90 % 80 % 50 % 50 % Precisión-1 55 % 81 % 95 % 61 % 81 % 94 % 92 % 97 % 100 % 59 % Precisión-10 60 % 90 % 99 % 70 % 87 % 98 % 99 % 100 % 100 % 62 % Tamaño del léxico 9798 3534 597 1468 639 124 745 401 86 2013 Cuadro 5: Resultados de la evaluación 80 % de cobertura, los adjetivos se sitúan entre el 81 y el 87 por ciento a ese mismo nivel. Los problemas para tratar los adjetivos radican sobre todo en la dificultad del desambiguador morfosintáctico para distinguir entre adjetivos y participios verbales. Un lema etiquetado como adjetivo por el desambiguador castellano puede tener su traducción en gallego etiquetada como verbo. Con respecto a la cobertura, en el 80 % el léxico de adjetivos consta de 639 lemas y el de verbos de 401. Los léxicos aprendidos para estas categorı́as son, por tanto, relativamente pequeños, pero el número puede y debe crecer con la explotación de más cantidad de corpus comparables. Por último, evaluamos los lemas nominales multi-léxicos que no son nombres propios. La precisión se sitúa en torno al 60 % para una cobertura del 50 % del léxico. El principal problema relacionado con los lemas multiléxicos es su baja frecuencia en el corpus. Los 2.013 lemas evaluados a ese nivel de cobertura parten de frecuencias relativamente bajas, ≥ 40, lo que impide obtener resultados satisfactorios. Aún ası́, los resultados son sensiblemente mejores a los obtenidos por otros trabajos similares con términos multipalabra (Fung y McKeown, 1997), que no superan el 52 % de precisión para pequeños léxicos.2 5. ta unos resultados que, sin llegar a las tasas de precisión de los métodos basados en corpus paralelos, dejan claro que los corpus comparables pueden ser una fuente muy interesante de conocimiento lexicográfico. Y existe todavı́a un amplio margen para mejorar los resultados. Dado que los corpus comparables crecen diariamente con el asombroso crecimiento de la Web, no resultarı́a complicado actualizar e incrementar los léxicos bilingües de forma incremental tomando en cuenta, en cada actualización, sólo aquellos lemas que juntos sumen una frecuencia, en los textos de la lengua fuente, del 80 % de la frecuencia total. Esta tarea de actualización incremental del léxico forma parte de nuestro trabajo en curso. De esta manera, pretendemos aumentar y mejorar el diccionario bilingüe del sistema de traducción Apertium. Bibliografı́a Ahrenberg, Lars, Mikael Andersson, y Magnus Merkel. 1998. A simple hybrid aligner for generating lexical correspondences in parallel texts. En 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (COLING-ACL’98), páginas 29– 35, Montreal. Conclusiones Armentano-Oller, Carme, Rafael C. Carrasco, Antonio M. Corbı́-Bellot, Mikel L. Forcada, Mireia Ginestı́-Rosell, Sergio Ortiz-Rojas, Juan Antonio Pérez-Ortiz, Gema Ramı́rez-Sánchez, Felipe SánchezMartı́nez, y Miriam A. Scalco. 2006. Open-source portuguese-spanish machine translation. En Lecture Notes in Computer Science, 3960, páginas 50–59. Hasta ahora no han sido muy numerosos los trabajos sobre extracción a partir de corpus comparables no-paralelos. La principal razón de esta escasez es, sin duda, la dificultad de conseguir resultados satisfactorios con los que se puedan crear recursos útiles. El método propuesto en este artı́culo presen2 Si bien, el trabajo de (Fung y McKeown, 1997) tiene el mérito de extraer léxicos bilingües de dos lenguas muy dispares: inglés y japonés. Carreras, X., I. Chao, L. Padró, y M. Padró. 2004. An open-source suite of language 247 Pablo Gamallo y José Ramom Pichel Campos bilingual legal terminology from context profiles. Terminology, 10(1):81–99. analyzers. En 4th International Conference on Language Resources and Evaluation (LREC’04), Lisbon, Portugal. Lin, Dekang. 1998. Automatic retrieval and clustering of similar words. En COLINGACL’98, Montreal. Chiao, Y-C. y P. Zweigenbaum. 2002. Looking for candidate translational equivalents in specialized, comparable corpora. En 19th COLING’02. Melamed, Dan. 1997. A portable algorithm for mapping bitext correspondences. En 35th Conference of the Association of Computational Linguistics (ACL’97), páginas 305–312, Madrid, Spain. Diab, Mona y Steve Finch. 2001. A statistical word-level translation model for comparable corpora. En Proceedings of the Conference on Content-Based Multimedia Information Access (RIAO). Rapp, Reinhard. 1995. Identifying word translations in non-parallel texts. En 33rd Conference of the ACL’95, páginas 320– 322. Fung, Pascale. 1995. Compiling bilingual lexicon entries from a non-parallel englishchinese corpus. En 14th Annual Meeting of Very Large Corpora, páginas 173–183, Boston, Massachusettes. Rapp, Reinhard. 1999. Automatic identification of word translations from unrelated english and german corpora. En ACL’99, páginas 519–526. Fung, Pascale y Kathleen McKeown. 1997. Finding terminology translation from nonparallel corpora. En 5th Annual Workshop on Very Large Corpora, páginas 192– 202, Hong Kong. Silva, J. F., G. Dias, S. Guilloré, y G. P. Lopes. 1999. Using localmaxs algorithm for the extraction of contiguous and noncontiguous multiword lexical units. En Progress in Artificial Intelligence. LNAI, Springer-Verlag, páginas 113–132. Fung, Pascale y Lo Yuen Yee. 1998. An ir approach for translating new words from nonparallel, comparable texts. En Coling’98, páginas 414–420, Montreal, Canada. Tiedemann, Jorg. 1998. Extraction of translation equivalents from parallel corpora. En 11th Nordic Conference of Computational Linguistics, Copenhagen, Denmark. Gamallo, Pablo. 2007. Learning bilingual lexicons from comparable english and spanish corpora. En Machine Translation SUMMIT XI, Copenhagen, Denmark. Gamallo, Pablo, Alexandre Agustini, y Gabriel Lopes. 2005. Clustering syntactic positions with similar semantic requirements. Computational Linguistics, 31(1):107–146. Gamallo, Pablo y José Ramom Pichel. 2005. An approach to acquire word translations from non-parallel corpora. En 12th Portuguese Conference on Artificial Intelligence (EPIA’05), Evora, Portugal. Grefenstette, Gregory. 1994. Explorations in Automatic Thesaurus Discovery. Kluwer Academic Publishers, USA. Harris, Z. 1985. Distributional structure. En J.J. Katz, editor, The Philosophy of Linguistics. New York: Oxford University Press, páginas 26–47. Kwong, Oi Yee, Benjamin K. Tsou, y Tom B. Lai. 2004. Alignment and extraction of 248 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 249-255 recibido 18-05-2007; aceptado 22-06-2007 Flexible statistical construction of bilingual dictionaries Ismael Pascual Nieto Universidad Autónoma de Madrid Escuela Politécnica Superior ismael.pascual@uam.es Mick O’Donnell Universidad Autónoma de Madrid Escuela Politécnica Superior michael.odonnell@uam.es Resumen: La mayoría de los sistemas previos para construir un diccionario bilingüe a partir de un corpus paralelo dependen de un algoritmo iterativo, usando probabilidades de traducción de palabras para alinear palabras en el corpus y sus alineamientos para estimar probabilidades de traducción, repitiendo hasta la convergencia. Si bien este enfoque produce resultados razonables, es computacionalmente lento, limitando el tamaño del corpus que se puede analizar y el del diccionario producido. Nosotros proponemos una aproximación no iterativa para producir un diccionario bilingüe unidireccional que, si bien menos precisa que las aproximaciones iterativas, es mucho más rápida, permitiendo procesar córpora mayores en un tiempo razonable. Asimismo, permite una estimación en tiempo real de la probabilidad de traducción de un par de términos, lo que significa que permite obtener un diccionario de traducción con los n términos más frecuentes, y calcular las probabilidades de traducción de términos infrecuentes cuando se encuentren en documentos reales. Palabras clave: diccionarios bilingües, modelos palabra-a-palabra, traducción automática estadística Abstract: Most previous systems for constructing a bilingual dictionary from a parallel corpus have depended on an iterative algorithm, using word translation probabilities to align words in the corpus, and using word alignments to estimate word translation probabilities, and repeating until convergence. While this approach produces reasonable results, it is computationally slow, limiting the size of the corpus that can be analysed and the size of the dictionary produced. We propose a non-iterative approach for producing a uni-directional bilingual dictionary which, while less accurate than iterative approaches, is far quicker, allowing larger corpora to be processed in reasonable time. The approach also allows on-the-fly estimation of translation likelihoods between a pair of terms, meaning that a translation dictionary can be generated with the n most frequent terms in an initial pass, and the translation likelihood of infrequent terms can be calculated as encountered in real documents. Keywords: bilingual dictionaries, word-to-word models, statistical machine translation 1 Introduction Over the last 17 years, statistical models have been used to construct bilingual dictionaries from parallel corpora, with the goal of using the dictionaries for tasks such as Machine Translation or Cross-Lingual Information Retrieval. Most of these works have involved an iterative method to construct the dictionary, which start with an initial estimate of word translation probability, use these probabilities to align the words of the corpus, and then use the word alignments to re-estimate word translation ISSN: 1135-5948 probability. This approach cycles until convergence. Followers of this approach include Brown et al. (1990) Kay and Röscheisen, (1993); Hiemstra, (1996); Melamed, (1997); Renders et al., (2003) and Tufis, (2004). However, the iterative approach is expensive in computing time, requiring extensive calculations on each iteration. Due to memory limitations, these approaches usually restrict consideration to the n most frequent terms in each language. In this paper, we propose a non-iterative approach to building a uni-directional © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Ismael Pascual Nieto y Michael O'Donnell a unidirectional dictionary, Hiemstra aimed to compile a bi-directional dictionary. Hiemstra claimed that the use of bidirectional dictionaries not only reduces the space needed for dictionary storage, but leads to better estimates of translation probabilities2. His results improve on those of IBM. Melamed (1997) proposed an alternative approach, which, while still iterative, required the estimation of fewer parameters. Like the IBM team, he used the HANSARDs corpus, although using 300,000 aligned sentences. He reports 90% precision in real domains. A key concept in these models is the term co-occurrence: two tokens u and v co-occur if u appears in one part of an aligned sentence pair and v appears in the other part. In Melamed’s model, co-occurrence is estimated through likelihood ratios, L(u,v), each of which represents the likelihood that u and v are mutual translations. The process estimating these ratios is as follows: 1) Provide an initial estimate of L(u,v) using their co-occurrence frequencies. 2) Use the estimate of L(u,v) to align the words in the matched sentences of the parallel corpus. 3) Build a new estimate of L(u,v) using the word alignments from step (2). 4) Repeat steps (2) and (3) until convergence occurs (no or little change on each cycle). Melamed aligns the terms in matched sentences using a competitive linking algorithm, which basically orders the L(u,v) values in descending order, and taking these values in turn, links the u and v terms in aligned sentences. Linked terms are then disqualified from linking with other relations. This process also keeps count of the number of links made between each u, v pair, and these counts are used to re-estimate L(u,v). translation dictionary. While our approach initially produces dictionaries with lower precision, this should be seen in relation to the reduced time needed to build the dictionary. Additionally, our approach supports on-the-fly calculation of the translation suitability between a pair of words. When aligning words in two sentences and less frequent words are encountered, an estimate of the translation likelihood can be derived on the spot, avoiding the need to pre-calculate all possible translation likelihoods between the 76,000 unique terms in our English corpus and the 130,000 unique terms in our Spanish corpus. The paper is organized as follows: Section 2 discusses the most representative iterative approaches. Section 3 and 4 describes our corpus, and how it is compiled into a word lookup table. Section 5 describes the derivation of our translation dictionaries. Section 6 evaluates the precision and recall of each of our models. Section 7 presents our conclusions. 2 Iterative Approaches The first published work outlining the construction of bilingual dictionaries using statistical methods was in Brown et al. (1990)1 at IBM. They used 40,000 aligned sentences from the Canadian HANSARDs corpus (parliament transcripts in English and French). In their approach, the translation probability between any pair of words is initially set as equi-probable, as are the probabilities of each relative sentence position of a word and its translation. These probabilities are then used to estimate the probability of each possible alignment of the words in each sentence-pair. These probability-weighted alignments are then used to re-estimate the word-translation probabilities as well as the relative position probabilities. This approach cycles until convergence occurs. They used the Expectation Maximization (EM) algorithm. Subsequent investigators found the IBM approach too computationally complex (requiring iterative re-estimation of 81 million parameters), and the approach did not scale up to larger parallel corpora. Various approaches were tried to improve the performance. Hiemstra (1996) attempted to reduce complexity using a modified version of the EM algorithm. While the goal of the IBM work was 3 Our corpus We used the EUROPARL corpus (Kohen, 2005), consisting of transcripts of sessions of the European Parliament between 1996 and 2003. Each transcript is provided in 11 languages. These transcripts are generally constructed by translators, as each speaker speaks in their native language. We used only the English and Spanish sections of the corpus. 1 The first work of IBM on this was 1988, but it was quite preliminar. 2 250 This reference is not in the reference list. Flexible Statistical Construction of Bilingual Dictionaries is the ratio of the joint probability of u and v and the product of the marginal probabilities of u and v, as can be seen in equation 1. The corpus does not come in sentence aligned form, although each transcript is organised into speaker turns. We wrote software to align the sentences within each speaker turn, based on sequence in the turn, and also on approximate correspondence in number of words, similar to the approach of Gale and Church (1993). Sentences which could not be aligned were discarded. This gave us 730,191 correctly aligned sentences, roughly 20 million words in each language. 4 (1) Basically, if u and v are not related, this ratio should approach 1.0. The stronger the cooccurrence between u and v, the higher the L value. Substituting in estimates for the probabilities, the formula can be re-expressed as equation 2: Compiling a Word Occurrence Index One of our goals was to allow rapid calculation of translation likelihood between any two terms on the fly. This would not be possible if the entire 40 million word corpus had to be processed each time. To alleviate this problem, we re-compiled the corpus into an index such as used by web search engines: a file is created for each unique token, detailing each occurrence of the token: the file-id (2 bytes) and sentence-id (2 bytes) of the hit, the position of the token within the sentence (1 byte), and the number of terms in the sentence. Once the index is compiled, it is possible to derive various statistics rapidly. The frequency of a token can be calculated quickly by dividing the file size by 6 (the record size). The relative co-occurrence of an English and Spanish term can be calculated solely by comparing the index files for those two terms. This allows us to calculate the relative co-occurrence between two terms on the fly, if we need to, rather than having to process the entire corpus to find such a result. Kay and Röscheisen (1993) also build a word lookup index, but only store the sentence id. 5 P(u, v) P(u ) P(v) L(u, v) n(u, v) N n(u ) n(v) L(u, v) (2) where, n(u,v) is the co-occurrence frequency of u,v, N is the total number of co-occurrences and n(u) is the marginal frequency of u, calculated as shown in equation by: n(u ) ¦ n(u, v) (3) v 5.1 Our Basic model The inclusion of n(u) and n(v) in Melamed’s formula basically require all values for all u and v to be calculated at the same time, which means one must decide beforehand which terms will be included in the process. This excludes the calculation of likelihood values for other terms encountered while processing text, which is one of our goals. We thus use a modified formula which can calculate the translation likelihood between a given u and a given v independently of other terms. Rather than asking what percent of all co-occurrences involve u and v, we ask what percent of sentence pairs contain u and v. In our approach, P(u,v) represents the probability that u occurs in a source sentence while v appears in a target sentence. P(u) is the probability that u will appear in a source sentence, and P(v) is the probability that v will appear in the target sentence. The important point here is that we can now estimate L(u,v) solely by looking at occurrences of a given u and v, without needing to consider the whole range of possible u/v co-occurrences. A second change from Melamed’s approach is that we desire a unidirectional dictionary. For this reason, we instead use formula 4: Compiling the Bilingual Dictionary Melamed uses word co-occurrence scores only as an initial estimate of translation suitability. For our purposes, we have found that this initial estimate, if handled properly, provides adequate accuracy for many tasks, without the required expense of the iterative recalculation of translation probabilities through a word alignment process. Our likelihood formula is similar to that of Melamed’s although modified to allow our method to work on the fly. Melamed’s initial estimate of translation likelihood of a source term u as a target term v 251 Ismael Pascual Nieto y Michael O'Donnell L (v | u ) P (v | u ) P (v ) For efficiency reasons, we initially compute the values of L(u,v) for the 5000 most frequent tokens in English and Spanish. Any value less than 2.0 is dropped. We heuristically translate this co-occurrence metric to a translation probability by assuming that the probability of u being translated as v is proportional to the size of the L value. Thus, for each English term u, we collect all the Spanish terms v which were not eliminated, and sum their L values, and divide each by the sum, using this as the translation probability of the term. Table 1 shows the highest 9 alternatives for absolutely (another 16 were included in the list). Several of the Spanish terms (shown in italic) are present due to intra-language collocation between absolutely and essential, indispensable or crucial (the indirect association problem mentioned by Melamed). Removing these entries will be discussed below. (4) where P(v|u) is the probability of encountering v in a target sentence if u is in the source sentence, and P(v) is the probability of encountering v in a target sentence. As with Melamed’s formula, if u and v are unrelated, the L value will approach 1.0, and higher values indicate a relation between them. A value of 2.0 indicates that v is twice as likely to occur if u is in the corresponding sentence. Given this simplification, we can calculate L(u,v) as follows: P (v | u ) P (v ) nS (u, v) nS (v) nS (v) S (5) (6) nS (u, v) L (v | u ) L (v | u ) nS (u ) nS (v) S nS (u , v) S nS (v) nS (u ) English absolutely absolutely absolutely absolutely absolutely absolutely absolutely absolutely absolutely (7) (8) where ns(u,v) is the count of sentence-pairs containing both u and v, ns(u) is the count of sentence-pairs in which the source sentence contains u, ns(v) is the count of sentence-pairs in which the target sentence contains v, and S is the total sentence count. We make one further simplification to allow faster calculation. Because only a small percent of sentences will contain the same word more than once, in the general case, the frequency of a word, nw(u), will be quite close to nS(u). Similarly, nw(v) will approximate nS(v). We thus use nw(u) and nw(v) in place of nS(u) and nS(v). The advantage of this approach is that the frequency of each term is readily available: the size of the index file for the term divided by the record length. We also choose to use n(u,v) to estimate nS(u,v) and thus count the co-occurrences of u and v in sentence pairs. This statistic can be derived by scanning through the hit files for u and v, counting cases where the terms appear in the same sentence pair. Spanish absolutamente absoluta imprescindible absoluto indispensable crucial totalmente esencial increíble L(v|u) 125.50 26.67 19.75 19.18 16.08 10.84 10.77 9.41 9.29 Prob 0.33 0.07 0.05 0.05 0.04 0.03 0.03 0.03 0.03 Table 1: Translation dictionary alternatives 5.2 Adjusted model A problem arises with the above formula when a term v nearly always occurs with term u. If this is the case, P(v|u) will approach P(v), and the L value will approach 1.0. For this reason, we introduced the slightly modified formula 9 for likelihood, which instead contrasts those cases where v occurs with u against those cases where v occurs without u: L (v | u ) P (v | u ) P(v | u ) (9) This basically magnifies the likelihood values, as previously the denominator was diluted by cases where u and v co-occur. However, the same interpretation is still valid: 252 Flexible Statistical Construction of Bilingual Dictionaries if u and v are not related, the ratio will approach 1.0, while the stronger the correlation, the higher the likelihood value. 5.3 6 Using the above methods, we produced four translation dictionaries, using both the basic and adjusted model, both with and without the distance metric. We then evaluated the quality of these dictionaries against a gold-standard, G, a handcrafted dictionary of 50 terms with humanjudged translations. The terms were taken from random positions throughout the word frequency list, and covering a range of syntactic classes. We then used G to evaluate each of the four dictionaries. In terms of precision, for each English term in G, we collected the correct translations included in our dictionary, and summed their probability estimates. We then averaged the precision over the 50 terms in G. Results for the 4 models are shown in Figure 1. Our basic dictionary contains up to 25 translation candidates for each source term, with the higher ones being more probable. This list is good for some applications (e.g., word alignment), but produces poor precision (69.96% in the best case). Where precision is important, e.g., for machine translation, we can restrict the number of translation candidates. We achieve 91.94% precision if we just consider the top two candidates. Using relative distance By looking at translations between European languages, it is easy to see that a source term tends to appear in a similar relative position in its sentence than its translation in the target sentence. The probabilistic model of Brown et al. (1990) takes into account that a term in position i in a source sentence will translate as a term in position j in the target sentence with a given probability, conditioned by the length of the two sentences (l and m). These calculations however depend on an iterative method, which we are avoiding. It also requires large amounts of data to obtain realistic estimates for possible values of i, j, l and m. We thus proposed a simple heuristic to account for the relative position between two terms. We penalise word co-occurrences in relation to the relative distance between the words in their respective sentences. Firstly, given that the source and target sentences may vary in length, we normalise the position of the term in the sentence by dividing its position by the length of the sentence. The relative distance (dR) between the terms can then be calculated as follows: 95 i j l m (10) 85 80 The closer this value is to 0.0 (no relative distance), the more likely that the terms are translations of each other. When calculating the co-occurrence of a source and target term, rather than just counting 1 each time the terms appear in the same sentence-pair, we discount the increment by subtracting the relative distance between terms, e.g. nS (v, u ) ¦ ¦ 1 d 84,49 82,93 R ( pos(u), pos(v)) 91,94 88,67 91,61 89,85 89,44 90 Precision d R (i, j ) Evaluation 87,33 77,12 75 69,68 67,56 70 67,59 78,86 69,96 65 60 55,40 58,14 55 50 45 Basic Basic + Dist Adjusted Adjusted + Dist Model Number o f Wo rds co nsidered Top 2 Top 3 Top 10 Top 25 Figure 1: Precision results for the four models (11) sSp u ,vs where Sp is the set of aligned sentence pairs and pos(u) is the absolute position of the term u in the corresponding part of an aligned sentence pair. Basically, the further the two terms are away from each other, the less it counts as a viable co-occurrence. This heuristic step improves our results, and the calculation is far simpler than that used in the IBM work. We calculate the recall of a dictionary entry as the percentage of all the correct translations of a term which are in our dictionary. The global recall is then taken as the average over all 50 words. Figure 2 shows our results, again with various levels of cut-off. Our best result was 68.44%, which is quite good considering 253 Ismael Pascual Nieto y Michael O'Donnell many of the translations in the golden standard were not used in the corpus. 70 67,17 68,44 68,44 67,17 However, when using our dictionary for other tasks, such as automatic sentence translation, the indirect associations will be a problem. For this reason, we have developed a method to remove indirect associations from our dictionary, a means which does not require the expensive step of word-aligning the entire corpus. We firstly derive collocation values between words of the same language. We then pass through our translation dictionary, and whenever a translation of a term is also the translation of a collocate of the term, the cooccurrence value is recalculated, using only those cases where the collocate is not present. We applied this process as a post-operation on the translation dictionaries produced earlier. Looking only at the adjusted+distance model with 25 translations, removing indirect associations increased precision from 69.96% to 74.85%, a significant increase. Recall also rose from 68.44% to 69.80%. See Figures 3 and 4. 65 60 Recall 55 50 49,99 49,99 50,77 50,77 30,61 30,61 45 40 35 29,92 30 25,56 25 29,92 25,84 25,56 25,84 20 Basic Adjusted Basic + Dist Adj. + Dist. Model Number o f Wo rds co nsidered Top 2 Top 3 Top 10 Top 25 Figure 2: Recall results for the four models It is clear that including more terms in our dictionary increases recall at the expense of precision. The choice of how many terms to include depends on the application, whether precision or recall is more important. In terms of assessing which of our 4 models is best, it is clear that the adjusted formula and the inclusion of distance penalties both improve precision, and the distance metric improves recall. Our best model is thus the adjusted+distance one. 90 93,87 91,94 91,22 88,67 85 Precision 6.1 95 Removing Indirect Associations 81,52 78,86 80 72,73 75 69,96 One of Melamed’s main reasons for taking an iterative approach is to remove false translations due to collocations between source terms. For instance, English absolutely is frequently followed by essential, and for this reason, absolutely has strong co-occurrence with words which translate essential. Melamed only uses co-occurrence values as the basis for aligning words in sentences, and the aligned words are then used to re-estimate word translation probabilities. Since the true translation of a word will generally have a higher co-occurrence value than the false translations, the collocation-induced mappings will be dropped from the data. One of the prime uses of our translation dictionary is to support word alignment. When used for this purpose, the presence of indirect associations in our dictionary is generally not a problem, because the term with a direct association will be the preferred alignment choice. 70 65 Adjusted + Dist Adj.+ Dist Corrected Model Number of Words considered Top 2 Top 3 Top 10 Top 25 Figure 3: Adjusted+distance model with and without collocation correction: Precision 254 Flexible Statistical Construction of Bilingual Dictionaries Gale, W.A. and K.W. Church. 1993. A program for aligning sentences in bilingual corpora. Computational Linguistics, 19(1):75–102. 69,80 68,44 70 65 60 50,77 Recall 55 51,71 Hiemstra, D. 1996. Using statistical methods to create a bilingual dictionary. Master Thesis. University of Twente. 50 45 40 30,61 35 30 25,84 31,25 Kay, M., M. Röscheisen. 1993. TextTranslation Alignment. Computational Linguistics 19(1): 121-142. 25,48 25 20 Adj. + Dist. Adj. + Dist. Corrected Koehn, P. 2005. Europarl: A parallel corpus for Statistical Machine Translation. In: Proceedings of the 10th Machine Translation Summit, Phuket, Thailand, pp. 79–86. Model Number of Wo rds co nsidered Top 2 Top 3 Top 10 Top 25 Figure 4: Adjusted+distance model with and without collocation correction: Recall. 7 Melamed, I.D. 1997. A word-to-word model of translational equivalence. In Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, Madrid, Spain, pp. 490–497 Conclusions and future work In this paper, we proposed an approach to building bilingual dictionaries from a parallel corpus which avoids the computational complexity of the iterative approaches. The approach allows calculation of translation likelihood of pair of words without needing to consider other words at the same time, as in Melamed’s approach. This makes the approach suitable for on-the-fly estimation of translation likelihood of a pair of words encountered during tasks such as aligning words in parallel sentences. To avoid the problem of indirect association, we propose a method to eliminate such effects from the likelihood table without needing to word-align the corpus. While our levels of precision and recall are not as high as the iterative approaches, the speed and flexibility of our approach makes it a viable candidate for cases where computation time is an issue, or where building larger dictionaries in realistic timeframes is required. In terms of the various models we have experimented with, we found that our adjusted model, using P(v|u)/P(v|¬u), gave higher precision than the more pure likelihood measure: P(v|u)/P(v). Also, including distance penalties improved both approaches. Renders, J.-M., H. Déjean and É. Gaussier. 2003. Assessing automatically extracted bilingual lexicons for CLIR in vertical domains. Lecture Notes in Computer Science 2785, C. Peters, M. Braschler, J. Gonzalo and M. Kluck Editors, SpringerVerlag: Berlin, pp. 363–371. Tufis, D. and A.M. Barbu and R. Ion. 2004. Extracting multilingual lexicons from parallel corpora. Computers and the Humanities, 38(2):163–189. References Brown, P.F., J. Cocke, S. A. Della Pietra, V. J. Della Pietra, F. Jelinek, J. D. Lafferty, R. L. Mercer and P. S. Roossin. 1990. A statistical approach to Machine Translation. Computational Linguistics, 16(2):79–85. 255 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 257-264 recibido 15-05-2007; aceptado 22-06-2007 Training Part-of-Speech Taggers to build Machine Translation Systems for Less-Resourced Language Pairs Felipe Sánchez-Martı́nez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz, Mikel L. Forcada Transducens Group Departament de Llenguatges i Sistemes Informàtics Universitat d’Alacant E-03071 Alacant, Spain {fsanchez,carmentano,japerez,mlf}@dlsi.ua.es Resumen: Este articulo revisa el empleo de un método no supervisado para la obtención de desambiguadores léxicos categoriales para su empleo dentro del ingenio de traducción automática (TA) de código abierto Apertium. El método emplea el resto de módulos del sistema de TA y un modelo de la lengua destino de la traducción para la obtención de desambiguadores léxicos categoriales que después se usan dentro de la plataforma de TA Apertium para traducir. Los experimentos realizados con el par de lenguas occitano–catalán (un caso de estudio para pares de lenguas minorizadas con pocos recursos) muestran que la cantidad de corpus necesario para el entrenamiento es reducida comparado con los tamaños de corpus habitualmente usados con otros métodos de entrenamiento no supervisado como el algoritmo de Baum y Welch. Esto hace que el método sea especialmente apropiado para la obtención de desambiguadores léxicos categoriales para su empleo en TA entre pares de lenguas minorizadas. Además, la calidad de traducción del sistema de TA que utiliza el desambiguador léxico categorial resultante es comparativamente mejor. Palabras clave: traducción automática, lenguas minorizadas, desambiguación léxica categorial, modelos ocultos de Markov Abstract: In this paper we review an unsupervised method that can be used to train the hidden-Markov-model-based part-of-speech taggers used within the opensource shallow-transfer machine translation (MT) engine Apertium. This method uses the remaining modules of the MT engine and a target language model to obtain part-of-speech taggers that are then used within the Apertium MT engine in order to produce translations. The experimental results on the Occitan–Catalan language pair (a case study of a less-resourced language pair) show that the amount of corpora needed by this training method is small compared with the usual corpus sizes needed by the standard (unsupervised) Baum-Welch algorithm. This makes the method appropriate to train part-of-speech taggers to be used in MT for lessresourced language pairs. Moreover, the translation performance of the MT system embedding the resulting part-of-speech tagger is comparatively better. Keywords: machine translation, less-resourced languages, part-of-speech tagging, hidden Markov models 1 Introduction The growing availability of machine-readable (monolingual and parallel) corpora has given rise to the development of real applications such as corpus-based machine translation (MT). However, when MT involves lessresourced language pairs, such as Occitan– Catalan (see below), the amount of monoISSN: 1135-5948 lingual or parallel corpora, if available, is not enough to build a general-purpose opendomain MT system (Forcada, 2006). In these cases the only realistic approach to attain high performance in general translation is to follow a rule-based approach, but at the expense of the large costs needed for building the necessary linguistic resources (Arnold, 2003). © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada rithm (Sánchez-Martı́nez, Pérez-Ortiz, and Forcada, 2004b). Moreover, as the experimental results show, the amount of source language text is small compared with corpus sizes needed by the standard Baum-Welch algorithm. Because of this, it may be said that this training method is specially suited to train part-of-speech taggers to be embedded in MT systems involving less-resourced language pairs. Carbonell et al. (2006) proposed a new MT framework in which a large full-form bilingual dictionary and a huge TL corpus is used to carry out the translation; neither parallel corpora nor transfer rules are needed. The idea behind Carbonell’s paper and that of the method we present here share the same principle: if the goal is to get good translations into TL, let TL decides whether a given “construction” in the TL is good or not. In contrast, Carbonell’s method uses TL information at translation time, while ours uses only TL information when training one module that is then used to carry out the translation; therefore, no TL information is used by our method at translation time. The rest of the paper is organized as follows: section 2 overviews the open-source platform for building MT systems Apertium; next, in section 3 the TL-driven training method used to train the Occitan part-ofspeech tagger is introduced; section 4 shows the experiments and the results achieved; finally in section 5 we discuss the method and the results achieved. In this paper we focus on the training of the hidden Markov model (HMM)-based part-of-speech taggers used by a particular open-source Occitan–Catalan MT system (Armentano-Oller and Forcada, 2006), that has been built using Apertium, an opensource platform for building MT systems (see section 2). Occitan–Catalan is an interesting example of a less-resourced language pair. HMMs are a common statistical approach to part-of-speech tagging, but they usually demand large corpora, which are seldom available for less-resourced languages. Catalan is a Romance language spoken by around 6 million people, mainly in Spain (where it is co-official in some regions), but also in Andorra (where it is the official language), in parts of Southern France and in the Sardinian city of l’Alguer (Alghero). Occitan, also known as lenga d’òc or langue d’oc, is also a Romance language, but with a reduced community of native speakers. It is reported to have about one million speakers, mainly in Southern France, but also in some valleys of Italy and in the Val d’Aran, a small valley of the Pyrenees of Catalonia, inside the territory of Spain. This last variety is called Aranese; all of the experiments reported here have been performed with the Aranese variety of Occitan. Although Occitan was one of the main literary languages in Medieval Europe, nowadays it is legally recognized only in the Val d’Aran, where it has a limited status of cooficiality. In addition, Occitan dialects have strong differences, and its standardization as a single language still faces a number of open issues. Furthermore, the lack of general-purpose machine-readable texts restricts the design and construction of naturallanguage processing applications such as part-of-speech taggers. The Apertium-based Occitan–Catalan MT system (ArmentanoOller and Forcada, 2006) mentioned along this paper has been built to translate into the Occitan variety spoken in the Val d’Aran, called Aranese, which is a sub-dialect of Gascon (one of the main dialects of Occitan). When part-of-speech tagging is viewed as an intermediate task for the translation process the use in a unsupervised manner of target-language (TL) information, in addition to the source language (SL), has been shown to give better results than the standard (also unsupervised) Baum-Welch algo- 2 Overview of Apertium Apertium1 (Armentano-Oller et al., 2006; Corbı́-Bellot et al., 2005) is an open-source platform for developing MT systems, initially intended for related language pairs. The Apertium MT engine follows a shallow transfer approach and may be seen as an assembly line consisting of the following modules (see figure 1): • A de-formatter which separates the text to be translated from the format information (RTF and HTML tags, whitespace, etc.). Format information is encapsulated so that the rest of the modules treat it as blanks between words. 1 The MT engine, documentation, and linguistic data for different language pairs can be downloaded from http://apertium.sf.net. 258 Training Part-of-Speech Taggers to build Machine Translation Systems for Less-Resourced Language Pairs SL text and apostrophations (e.g. l’institut=el+institut). de-formatter morphological analyzer postgenerator • A re-formatter which restores the format information encapsulated by the deformatter into the translated text. part-of-speech tagger structural transfer Catalan Modules use text to communicate, which makes it much easier to diagnose or modify the behavior of the system. lexical transfer morphological generator 2.1 Linguistic data and compilers The Apertium MT engine is completely independent from the linguistic data used for translating between a particular pair of languages. Linguistic data is coded using XML-based formats;3 this allows for interoperability, and for easy data transformation and maintenance. In particular, files coding linguistic data can be automatically generated by third-party tools. Apertium provides compilers to convert the linguistic data into the corresponding efficient form used by each module of the engine. Two main compilers are used: one for the four lexical processing modules (morphological analyzer, lexical transfer, morphological generator, and post-generator) and another one for the structural transfer. The first one generates finite-state letter transducers (Garrido-Alenda, Forcada, and Carrasco, 2002) which efficiently code the lexical data; the last one uses finite-state machines to speed up pattern matching. The use of such efficient compiled data formats makes the engine capable of translating tens of thousands of words per second in a current desktop computer. re-formatter TL text Figure 1: Modules of the Apertium shallowtransfer MT platform (see section 2). • A morphological analyzer which tokenizes the SL text in surface forms and delivers, for each surface form, one or more lexical forms consisting of lemma, lexical category and morphological inflection information. • A part-of-speech tagger which chooses, using a first-order hidden Markov model (HMM) (Cutting et al., 1992), one of the lexical forms corresponding to an ambiguous surface form. This is the module whose training is discussed in section 3. • A lexical transfer module which reads each SL lexical form and delivers the corresponding TL lexical form by looking it up in a bilingual dictionary. • A structural shallow transfer module (parallel to the lexical transfer) which uses a finite-state chunker to detect patterns of lexical forms which need to be processed for word reorderings, agreement, etc., and then performs these operations.2 3 Target-language-driven part-of-speech tagger training • A post-generator which performs orthographic operations such as contractions (e.g. Spanish del=de+el ) This section overviews the TL-driven training method that has been used to unsupervisedly train the HMM-based Occitan part-of-speech tagger used within the Apertium-based Occitan–Catalan MT system (Armentano-Oller et al., 2006). For a deeper description we refer the reader to papers by Sánchez-Martı́nez et al. (SánchezMartı́nez, Pérez-Ortiz, and Forcada, 2004b; 2 This describes Apertium Level 1, used for the experiments in this paper; in Apertium Level 2, currently being used for less-related pairs, a three-stage structural transfer is used to perform inter-chunk operations. 3 The XML formats (http://www.w3.org/XML/) for each type of linguistic data are defined through conveniently-designed XML document-type definitions (DTDs) which may be found inside the apertium package. • A morphological generator which delivers a TL surface form for each TL lexical form, by suitably inflecting it. 259 Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada Sánchez-Martı́nez, Pérez-Ortiz, and Forcada, 2004a; Sánchez-Martı́nez, Pérez-Ortiz, and Forcada, 2006). Typically, the training of general purpose HMM-based part-of-speech taggers is done using the maximum-likelihood estimate (MLE) method (Gale and Church, 1990) when tagged corpora4 are available (supervised method), or using the Baum-Welch algorithm (Cutting et al., 1992; Baum, 1972) with untagged corpora5 (unsupervised method). However, if the part-of-speech tagger is to be embedded as a module in a MT system, as is the case, HMM training can be done in an unsupervised manner by using some modules of the MT system and information from both SL and TL. The main idea behind the use of TL information is that the correct disambiguation (tag assignment) of a given SL segment will produce a more likely TL translation than any (or most) of the remaining wrong disambiguations. In order to apply this method these steps are followed: is to use a morphological analyzer to obtain the set of all possible part-of-speech tags for each word. Suppose that the morphological analysis of the previous segment according to the lexicon is: He (pronoun), books (verb or noun), the (article), and room (verb or noun). As there are two ambiguous words (books and room) we have, for the given segment, four disambiguation paths or part-of-speech combinations, that is to say: • g 1 = (pronoun, • g 2 = (pronoun, • g 3 = (pronoun, and • g 4 = (pronoun, verb, article, noun), verb, article, verb), noun, article, noun), noun, article, verb). Let τ be the function representing the translation task. The next step is to translate the SL segment into the TL according to each disambiguation path g i : • τ (g 1 , s) = “Él reserva la habitación”, • τ (g 2 , s) =“Él reserva la aloja”, • first the SL text is split into adequate segments (so that they are small and independently translated by the rest of the MT engine); then, • τ (g 3 , s) =“Él libros la habitación”, and • τ (g 4 , s) =“Él libros la aloja”. It is expected that a Spanish language model will assign a higher likelihood to translation τ (g 1 , s) than to the other ones, which make little sense in Spanish. As a result, the tag sequence g 1 will have a higher probability than the other ones. To estimate the HMM parameters, the calculated probabilities are used as if fractional counts were available to a supervised training method based on the MLE method in conjunction with a smoothing technique (Sánchez-Martı́nez, Pérez-Ortiz, and Forcada, 2004b). As expected, the number of possible disambiguations of a text segment grows exponentially with its length, the translation task being the most time-consuming one. This problem has been successfully addressed (Sánchez-Martı́nez, Pérez-Ortiz, and Forcada, 2006) by using a very simple pruning method that avoids performing more than 80% of the translations without loss in accuracy. An implementation of the method described in this section can be downloaded from the Apertium project web page,6 and • all possible disambiguations for each text segment are generated and translated into the TL; after that, • a statistical TL model is used to compute the likelihood of the translation of each disambiguation; and, • these likelihoods are used to adjust the parameters of the SL HMM: the higher the likelihood, the higher the probability of the original SL tag sequence in the HMM being trained. The way this training method works can be illustrated with the following example. Suppose that we are training an English PoS tagger to be used within a rule-based MT system translating from English to Spanish, and that we have the following segment in English, s =“He books the room”. The first step 4 In a tagged corpus each occurrence of each word (ambiguous or not) has been assigned the correct part-of-speech tag. 5 In an untagged corpus all words are assigned (using, for instance, a morphological analyzer) the set of all possible part-of-speech tags independently of context without choosing one of them. 6 260 http://apertium.sourceforge.net. The Training Part-of-Speech Taggers to build Machine Translation Systems for Less-Resourced Language Pairs may simplify the initial building of Apertiumbased MT systems for new language pairs, yielding better tagging results than the Baum-Welch algorithm (Sánchez-Martı́nez, Pérez-Ortiz, and Forcada, 2004b). 4 of SL text required for the convergence. Figure 2 shows the evolution of the word error rate (WER) when training the Occitan part-of-speech tagger from a 300 000word raw-text Occitan corpus built from texts collected from the Internet. The results achieved when following the standard (unsupervised) Baum-Welch approach to train HMM-based part-of-speech taggers on the same corpus (no larger Occitan corpora was available to us in order to train with the Baum-Welch algorithm), and the results achieved when a TL model is used at translation time (instead of a SL part-of-speech tagger) to select always the most likely translation into TL (TLM-best) are given for comparison. When reestimating the HMM parameters via the Baum-Welch algorithm, the loglikelihood of the training corpus was calculated after each iteration; the iterative reestimation process is finished when the difference between the log-likelihood of the last iteration and the previous one is below a certain threshold. Note that when training the HMM parameters via the Baum-Welch algorithm, the whole 300 000-word corpus is used, therefore the WER reported in figure 2 for the Baum-Welch algorithm is independent of the number of SL words in the horizontal axis. The WER is calculated as the edit distance (Levenshtein, 1965) between the translation of an independent 10 079-word Occitan corpus performed by the MT system when embedding the part-of-speech tagger being evaluated, and its human-corrected MT into Catalan. WERs are calculated at the document level; additions, deletions and substitutions being equally weighted. As can be seen in figure 2 our method does not need a large amount of SL text to converge and the translation performance is better than that achieved by the Baum-Welch algorithm. Moreover, the translation performance achieved by our method is even better than that achieved when translating using the TLM-best setup. Although the TLMbest setup might be though as giving the best result that can be achieved by our method, the results reported in figure 2 suggest that our method has some generalization capability that makes it able to produce better partof-speech taggers for MT than it may be initially expected. It must be mentioned that analogous re- Experiments The method we present is aimed at producing part-of-speech taggers to be used in MT systems. In this section we report the results achieved when training the Occitan part-of-speech tagger of the Apertium-based Occitan–Catalan MT system.7 Note that when training the Occitan part-of-speech tagger the whole MT engine, except for the partof-speech tagger itself, is used to produce texts from which statistics about TL (Catalan) will be collected. Before training, the Occitan corpus is divided into small segments that can be independently translated by the rest of the translation engine. To this end, information about the structural transfer patterns is taken into account. The segmentation is performed at nonambiguous words whose partof-speech tag is not present in any structural transfer pattern, or at nonambiguous words appearing in patterns that cannot be matched in the lexical context in which they appear. Unknown words are also treated as segmentation points, since the lexical transfer has no bilingual information for them and no structural transfer pattern is activated at all. Once the SL (Occitan) corpus has been segmented, for each segment, all possible translations into TL (Catalan) according to every possible combination of disambiguations are obtained. Then, the likelihoods of these translations are computed through a Catalan trigram model trained from a 2million-word raw-text Catalan corpus, and then normalized and used to estimate the HMM parameters as described in section 3. We evaluated the evolution of the performance of the training method by updating the HMM parameters at every 1 000 words and testing the resulting part-of-speech tagger; this also helps in determining the amount method is implemented inside package apertium-tagger-training-tools which is licensed under the GNU GPL license. 7 The linguistic data for this language pair (package apertium-o-ca-1.0.2) can be freely downloaded from http://apertium.sourceforge.net 261 Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada Word error rate (WER, % of words) 9.5 9 8.5 Baum−Welch 8 7.5 TLM−best 7 6.5 0 100000 200000 SL (Occitan) words 300000 Figure 2: Evolution of the word error rate (WER) when training the (SL) Occitan part-of-speech tagger, Catalan being the target language (TL). WERs reported are calculated at the document level. Baum-Welch and TLM-best (see below) results are given for comparison; thus, they are independent of the number of SL words. TLM-best corresponds to the results achieved when a TL model is used at translation time (instead of a SL part-of-speech tagger) to select always the most likely translation into TL. sults on the Spanish–Catalan language pair has revealed that, although the part-ofspeech tagging accuracy is better when the HMM is trained in a supervised way from a tagged corpus, the translation performance of the MT system when embedding the supervisedly trained part-of-speech taggers is quite similar to that of using a part-of-speech tagger trained through the TL-driven training method.8 Concerning how the presented method behaves when the languages involved are less related than Occitan and Catalan, preliminary experiments on the French–Catalan language pair show results in agreement to those provided in this paper. Experiments on more unrelated languages pairs such as English– Catalan will be conducted in the near future. 5 language pair, a case study of a less-resourced language pair. Our training method has been proven to be appropriate to train part-of-speech taggers for MT between less-resourced language pairs because, on the one hand, the amount of SL text needed is very small compared with common corpus sizes (millions of words) used by the Baum-Welch algorithm; and, on the other hand, because no new resources must be built (such as tagged corpora) to get translation performances comparable to those achieved when training from tagged corpora. Finally, it must be pointed out that the resulting part-of-speech tagger is tuned to improve the translation quality and intended to be used as a module in a MT system; for this reason, it may give less accurate results as a general purpose part-of-speech tagger for other natural language processing applications. Discussion In this paper we have reviewed the use of target language (TL) information to train hidden-Markov-model (HMM)-based part-ofspeech taggers to be used in machine translation (MT); furthermore, we have presented experiments done with the Occitan–Catalan Acknowledgements Work funded by the Spanish Ministry of Education and Science through project TIN200615071-C03-01, by the Spanish Ministry of Education and Science and the European Social Fund through research grant BES-20044711, and by the Spanish Ministry of Indus- 8 We plan to publish these results in the near future. 262 Training Part-of-Speech Taggers to build Machine Translation Systems for Less-Resourced Language Pairs translation engine for the Romance languages of Spain. In Proceedings of the 10th European Associtation for Machine Translation Conference, pages 79–86, Budapest, Hungary. (http://www.dlsi.ua.es/ ~mlf/docum/corbibellot05p.pdf). try, Tourism and Commerce through project FIT-350401-2006-5. The development of the Occitan–Catalan linguistic data was supported by the Generalitat de Catalunya. References Armentano-Oller, C., R.C. Carrasco, A.M. Corbı́-Bellot, M.L. Forcada, M. Ginestı́Rosell, S. Ortiz-Rojas, J.A. PérezOrtiz, G. Ramı́rez-Sánchez, F. SánchezMartı́nez, and M.A. Scalco. 2006. Opensource Portuguese-Spanish machine translation. In Computational Processing of the Portuguese Language, Proceedings of the 7th International Workshop on Computational Processing of Written and Spoken Portuguese, PROPOR 2006, volume 3960 of Lecture Notes in Computer Science. Springer-Verlag, pages 50– 59. (http://www.dlsi.ua.es/~japerez/pub/ pdf/propor2006.pdf). Cutting, D., J. Kupiec, J. Pedersen, and P. Sibun. 1992. A practical part-ofspeech tagger. In Third Conference on Applied Natural Language Processing. Association for Computational Linguistics. Proceedings of the Conference., pages 133– 140, Trento, Italy. Forcada, M.L. 2006. Open-source machine translation: an opportunity for minor languages. In Proceedings of Strategies for developing machine translation for minority languages (5th SALTMIL workshop on Minority Languages). (http://www.dlsi. ua.es/~mlf/docum/forcada06p2.pdf). Gale, W.A. and K.W. Church. 1990. Poor estimates of context are worse than none. In Proceedings of a workshop on Speech and natural language, pages 283– 287. Morgan Kaufmann Publishers Inc. Armentano-Oller, C. and M.L. Forcada. 2006. Open-source machine translation between small languages: Catalan and Aranese Occitan. In Strategies for developing machine translation for minority languages (5th SALTMIL workshop on Minority Languages), pages 51–54. (organized in conjunction with LREC 2006, http://www.dlsi.ua.es/~mlf/ docum/armentano06p2.pdf). Garrido-Alenda, A., M. L. Forcada, and R. C. Carrasco. 2002. Incremental construction and maintenance of morphological analysers based on augmented letter transducers. In Proceedings of TMI 2002 (Theoretical and Methodological Issues in Machine Translation), pages 53–62. Arnold, D., 2003. Computers and Translation: A translator’s guide, chapter Why translation is difficult for computers, pages 119–142. Benjamins Translation Library. Edited by H. Somers. Levenshtein, V.I. 1965. Binary codes capable of correcting deletions, insertions, and reversals. Doklady Akademii Nauk SSSR, 163(4):845–848. English translation in Soviet Physics Doklady, 10(8):707-710, 1966. Baum, L.E. 1972. An inequality and associated maximization technique in statistical estimation of probabilistic functions of a Markov process. Inequalities, 3:1–8. Sánchez-Martı́nez, F., J.A. Pérez-Ortiz, and M.L. Forcada. 2004a. Cooperative unsupervised training of the part-ofspeech taggers in a bidirectional machine translation system. In Proceedings of TMI, The Tenth Conference on Theoretical and Methodological Issues in Machine Translation, pages 135–144, October. (http://www.dlsi.ua.es/~fsanchez/pub/ pdf/sanchez04b.pdf). Carbonell, J., S. Klein, D. Miller, M. Steinbaum, T. Grassiany, and J. Frei. 2006. Context-based machine translation. In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, “Visions for the Future of Machine Translation”, pages 19–28, August. Sánchez-Martı́nez, F., J.A. Pérez-Ortiz, and M.L. Forcada. 2004b. Exploring the use of target-language information to train the part-of-speech tagger of machine translation systems. In Advances in Natural Language Processing, Proceedings of Corbı́-Bellot, A.M., M.L. Forcada, S. OrtizRojas, J.A. Pérez-Ortiz, G. Ramı́rezSánchez, F. Sánchez-Martı́nez, I. Alegria, A. Mayor, and K. Sarasola. 2005. An open-source shallow-transfer machine 263 Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada 4th International Conference EsTAL, volume 3230 of Lecture Notes in Computer Science. Springer-Verlag, pages 137– 148. (http://www.dlsi.ua.es/~fsanchez/pub/ pdf/sanchez04a.pdf). Sánchez-Martı́nez, F., J.A. Pérez-Ortiz, and M.L. Forcada. 2006. Speeding up target-language driven part-of-speech tagger training for machine translation. In Advances in Artificial Intelligence, Proceedings of the 5th Mexican International Conference on Artificial Intelligence, volume 4293 of Lecture Notes in Computer Science. Springer-Verlag, pages 844– 854. (http://www.dlsi.ua.es/~fsanchez/pub/ pdf/sanchez06b.pdf). 264 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 265-272 recibido 18-05-2007; aceptado 22-06-2007 Parallel Corpora based Translation Resources Extraction José João Almeida Departamento de Informática Universidade do Minho Braga, Portugal jj@di.uminho.pt Alberto Simões Departamento de Informática Universidade do Minho Braga, Portugal ambs@di.uminho.pt Resumen: Este artı́culo describe NATools, un conjunto de herramientas de procesamiento, análisis y extracción de recursos de traducción de Corpora Paralelo. Entre las distintas herramientas disponibles se destacan herramientas de alineamiento de frases e palabras, un extractor de diccionarios probabilı́sticos de traducción, un servidor de corpus, un conjunto de herramientas de interrogación de corpora y diccionarios y ası́ mismo un conjunto de herramientas de extracción de recursos bilingües. Palabras clave: corpora paralelos, recursos bilingües, traducción automática Abstract: This paper describes NATools, a toolkit to process, analyze and extract translation resources from Parallel Corpora. It includes tools like a sentence-aligner, a probabilistic translation dictionaries extractor, word-aligner, a corpus server, a set of tools to query corpora and dictionaries, as well as a set of tools to extract bilingual resources. Keywords: parallel corpora, bilingual resources, machine translation 1 • A full C and Perl API for quick parallel corpora tools prototyping; Introduction NATools is a package with a set of tools for parallel corpora processing. It includes tools to help parallel corpora preparation, from sentence-alignment and tokenization, to full probabilistic translation dictionary extraction, word-alignment, and translation examples extraction for machine translation. Follows a list with some of the available tools: • a simple parallel corpora sentence aligner based on the algorithm proposed by (Gale and Church, 1991) and in the Vanilla Aligner implementation by (Danielsson and Ridings, 1997); • a probabilistic translation dictionary (Simões and Almeida, 2003; Simões, 2004) extractor based on PTD Extractor based on work by (Hiemstra, August 1996; Hiemstra, 1998); • a parallel corpora word-aligner (Simões and Almeida, 2006a) based on probabilistic translation dictionaries; • NatServer (Simões and Almeida, 2006b), a parallel corpora server for quick concordances and probabilistic translation dictionary querying; • a set of web clients to query parallel corpora using NatServer; • tools for machine translation example extraction (Simões and Almeida, 2006a) based on probabilistic translation dictionaries and alignment pattern rules; ISSN: 1135-5948 • a StarDict generation software; • support for Makefile::Parallel (Simões, Fonseca, and Almeida, 2007), a Domain Specific Language for process parallelization (to take advantage of multi-processor machines and/or cluster systems). This paper consists of three main sections. The first one explains how NATools helps preparing parallel corpora. Follows a section on querying parallel corpora both using a corpora server and using web interfaces. The third section is about using NATools for parallel resources extraction like translations examples. 2 Parallel Corpora Preparation To create and make available a parallel corpora is not a simple task. In fact, this process does not depend just on the compilation of parallel texts. These texts should be processed in some different ways so it can be really useful. Important steps include the text tokenization, sentence boundaries detection and sentence alignment (or translation unit alignment). NATools include (and depends) on tools to perform these tasks. 2.1 Segmentation and Tokenization While NATools does not include directly tools for segmentation and tokenization, it depends on Lingua::PT::PLNbase1 , a Perl module for based 1 http://search.cpan.org/dist/Lingua-PT-PLNbase. © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Alberto Simões y José João Almeida segmentation and tokenization for the Portuguese language. While it was developed with the Portuguese language in mind, through the time more and more support for Spanish, French and English has been incorporated. Thus, after installing NATools you will have access to the Perl module directly or using NATools options for segmentation and tokenization. 2.2 1 2 3 4 5 6 Sentence Alignment 7 The NATools sentence aligner uses the well known algorithm by (Gale and Church, 1991). Work is being done to include some clue-align (Tiedemann, 2003) information into the original algorithm, taking advantage of numbers and other non-textual elements in sentences in addition to the basic sentence length metrics. While Gale and Church algorithm is known for not being robust enough for big corpora with big differences in number of sentences, the truth is that it works for most available corpora. Also, note that NATools do not force the user to use the supplied sentence-aligner (or tokenizer). For instance, we are using easy-align from IMSCWB (Christ et al., 1999) to perform sentence alignment on big corpora. Unfortunately easy-align is not open-source and the used algorithm is not described in any paper, but it uses not only the base length metrics but also uses other knowledge like bilingual dictionaries to perform better alignment. 2.3 8 9 10 11 12 europa: 94.71 % europeus: 3.39 % europeu: 0.81 % europeia: 0.11 % ** stupid (180 occurrences) estúpido: estúpida: estúpidos: avisada: direita: impasse: 17.55 10.99 7.41 5.65 5.58 4.48 % % % % % % Note that although the first three entries for the stupid word have low probabilities, they refer to the same word with different inflections: masculine singular, feminine singular and masculine plural. The algorithm based on Twente-Aligner (Hiemstra, August 1996; Hiemstra, 1998) was fully reviewed and enhanced, and was added support for big corpora (Simões, 2004). The version included in NATools supports arbitrary size corpora (only limited by disk space), and can be run on parallel machines and clusters. NATools probabilistic dictionary extraction is being used for bilingual dictionary bootstrapping as presented by (Guinovart and Fontenla, 2005). Corpora Encoding 3 This is the only required step on using NATools. It performs the corpora encoding and creates auxiliary indexes for quick access. Two lexicon indexes are created (one for each language), mapping an integer identifier for each word. The corpora is codified using these integer values, and indexes for direct access by word and sentence are created. There are other tools to index corpora. Examples are Emdros (Petersen, 2004) and IMS-CWB (Christ et al., 1999). While the first one is freely available, it is intended for monolingual corpora. In the other hand, IMS-CWB is not open software. 2.4 ** europe (42853 occurrences) Querying Parallel Corpora To make parallel corpora available for querying is not easy as well. After the encoding process described on section 2.3, there is the need for a server to help searching and querying the encoded corpora. Thus, NATools includes its own parallel corpora server. 3.1 NatServer: A Parallel Corpora Server NATools includes NatServer, a socket-based program to query efficiently parallel corpora, corpora n-grams (bigrams, trigrams and tetragrams) and probabilistic translation dictionaries. It supports multiple corpora with different language pairs. Given the modular implementation of NatServer, the C library can be used for other software and namely for NATools Perl API (Application Programmer Interface). This makes it easy for any software choose at run-time if it will use the socket server or access locally the encoded corpora. This is specially important for intensive batch tasks where the socket-based communication is a big over-head regarding performance. NatServer is also being prepared to be responsible of the server part of Distributed Translation Memories (Simões, Guinovart, and Almeida, 2004), Probabilistic Translation Dictionaries Extraction This process extracts relationships between words and their probable translations. Some researchers (Hiemstra, August 1996) call this word-alignment. Within NATools, we prefer to call it probabilistic translation dictionaries (PTDs). There are other tools like Giza++ (Och and Ney, 2004) that perform word-alignment directly from parallel corpora, but that is not our approach. Our dictionaries map for each word in a language, a set of probable translations on the other language (together with an translation probability). Follows a simple example of a PTD: 266 Linguistics and translators make heavy use of parallel corpora and bilingual resources. Meanwhile, they use simple applications or web interfaces. There are parallel corpora available for querying in the web like COMPARA (Frankenberg-Garcia and Santos, 2001; Frankenberg-Garcia and Santos, 2003) or Opus (Tiedemann and Nygaard, 2004), and they are quite used. Thus, it is important to provide mechanisms to make our parallel corpora available in the Web as well. NATools include a set of web tools for concordances with translation guessing (see figure 1) and probabilistic translation dictionary browsing (see figure 2). The web interface lets the user swap between concordances and dictionaries in an easy way, as well as to check corpora details (description, languages, sizes and so on). 4 fontes de financiamento alternativas X Δ X X Figure 3: Translation Pattern example. Although these patterns can be inferred from parallel corpora most of them can be defined manually quite faster and with good results. Figure 4 show some extracts from terminology extracted. Each group is preceded by the rule. Numbers before the terminology pairs are the occurrence counter for that pair. Note that the examples are the top five in number of occurrences. Although they are all good translations and they can all be considered terminology, this does not apply to all the extracted examples. Meanwhile, the DSL lets add morphological constrains and Perl predicates to the pattern. With these constrains it is quite easy to remove from the extracted entries those which are not terminology. We did a massive test of terminology extraction using EuroParl (Koehn, 2002) Portuguese:English corpus. Table 1 shows some statistics on number of patterns extracted3 . Parallel Resources Extraction NATools main objective was not to be a final-user software package, but instead, be a toolbox for the researcher that uses parallel corpora. Thus, research is being done using NATools and some of resulting applications are being incorporated in the toolbox. The probabilistic translation dictionaries presented in section 2.4 by themselves are useful parallel resources. They were presented earlier because they are crucial for querying correctly NATools corpora. 4.1 financing Query Tools of 3.2 alternative a WebService to serve translators with external translation memories. sources Parallel Corpora based Translation Resources Extraction Total number of TUs Number of processed TUs Number of patterns found Number of different patterns Number of filtered patterns Terminology Extraction (Och, 1999; Och and Ney, 2004) describes methods to infer translation patterns from parallel corpora. In our work we found out that to describe translation patterns and apply them to parallel corpora gives interesting results: bilingual terminology. Translation patterns describe how words order change when translation occurs. For instance, we can describe a simple pattern to describe how the adjective swaps with the substantive when translating from Portuguese to English as2 : 1 000 700 578 139 103 000 000 103 781 617 Table 1: Terminology extraction statistics. Table 2 shows the occurrence distribution by some patterns. The third column is a simple evaluation of how many patterns are really terminology and are correct. Evaluation was done with three samples: the 20 patterns with more occurrence, the 20 patterns with lower occurrence, and 20 patterns in the middle of the list. T (A · B) = T (B) · T (A) 4.2 A bit complicated pattern: T (P · de · V · N ) = T (N ) · T (P ) · of · T (V ) Word Alignment and Example Extraction While Word Alignment and Example Extraction are different tasks, the base algorithm used in NATools is the same. The word alignment is done for each pair of translation units creating a matrix of is presented on figure 3 visually. NATools includes a Domain Specific Language (DSL) to define these patterns in a easy way. The last example shown can be written as “P "de" V N = N P "of" V”. 3 The number of translations units processes is not equal to the total number of translations units because at the time these statistics were reported the process did not have finished. 2 Note that letters on these patterns do not have any special meaning. They are just variable names. 267 Alberto Simões y José João Almeida Figure 1: Concordances interface. Figure 2: PTDs query interface. Pattern AB=BA A de B = B A ABC=CBA H de D H = H D I ABC=CAB P de V N = N P of V P de T de F = F T P Occur. 77 497 12 694 7 700 3 336 1 466 564 360 Quality 86% 95% 93% 100% 40% 98% 96% real word-alignment between these two translation units. For the example in the figure, it would be extracted the alignments: discussão:discussion, sobre:about, fontes de financiamento alternativas:alternative sources of financing, para:for, a:the, aliança radical europeia:european radical alliance. The truth is that single word translations are already present on the probabilistic translation dictionaries, and thus there is no advantage on extracting the word-to-word relation. The alignment matrix can also be used to extract examples. If we join sequences of words (or terms) and their translations, a set of word sequences can be extracted (examples). Again, for the matrix shown, we can extract more relationships, like discussão sobre:dicussion about, sobre fontes de financiamento alternativas:about alteran- Table 2: Patterns occurrences by type, and respective quality. translation probabilities as shown on figure 5. In this matrix one can see direct translations between word and some marked patterns. As these patterns are hopefully terminology, we are considering them as a term, and as such, aligning it all with another term. From this matrix we can extract the 268 Parallel Corpora based Translation Resources Extraction A B = B A 14949 12487 11645 10055 7705 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 comunidades europeias parlamento europeu comunidade europeia uni~ ao europeia jornal oficial | | | | | european european european european official communities parliament community union journal P "de" V N = N P "of" V 134 comunicaç~ ao de acusaç~ oes alterada 55 comunicaç~ ao de acusaç~ oes inicial 49 tribunal de justiça europeu 45 fontes de energia renováveis 41 perı́odo de tempo limitado | | | | | revised statement initial statement european court of renewable sources limited period of A "de" B = B A 3383 medidas de execuç~ ao 2754 comité de gest~ ao 1163 plano de acç~ ao 1050 certificados de importaç~ ao 1036 sigla de identificaç~ ao | | | | | implementing measures management committee action plan import licences identification marking of objections of objections justice of energy time alternative sources of financing for the european radical alliance . 2 44 0 0 0 0 0 0 0 0 0 0 0 3 sobre 0 11 0 0 0 0 0 0 0 0 0 0 4 fontes 0 0 0 74 0 0 0 0 0 0 0 0 de 0 3 0 0 27 0 6 3 0 0 0 0 financiamento 0 0 0 0 0 56 0 0 0 0 0 0 alternativas 0 0 23 0 0 0 0 0 0 0 0 0 para 0 0 0 0 0 0 28 0 0 0 0 0 a 0 1 0 0 1 0 4 33 0 0 0 0 discussion about Figure 4: Bilingual terminology extracted by Translation Patterns. discussão 1 aliança 0 0 0 0 0 0 0 0 0 0 65 0 radical 0 0 0 0 0 0 0 0 0 80 0 0 europeia 0 0 0 0 0 0 0 0 59 0 0 0 . 0 0 0 0 0 0 0 0 0 0 0 80 5 6 7 8 9 10 11 12 13 Figure 5: Word-alignment matrix. às hour orçamento de year int euros int euros directiva de year orçamento year int de setembro partir de year convenç~ ao de year eleiç~ oes de year perı́odo year-year int dólares relatório de year hour year budget eur int eur int year directive year budget september int year onwards year convention year elections year-year period usd int year report Although these patterns can be useful they are not as interesting as if could create place-holders for words. If we analyze similar entries in the examples listing we can find entries differing just in a few words like the following example. tive sources of financing, fontes de financiamento alternativas para:alternative sources of financing for, para a:for the, a aliança radical europeia:the european radical alliance. This process can be repeated, resulting in bigger examples. This step is important to generate more examples occurrences and thus give more importance for those with bigger occurrence. Figure 6 shows some examples extracted using this methodology. These examples can be consolidated (summed accordingly with their occurrence count) and be used for machine translation or computer assisted translation. 4.3 399 187 136 135 127 51 46 31 29 26 25 25 24 1 2 3 4 5 6 7 8 9 10 2 2 2 2 2 2 2 2 2 2 povo povo povo povo povo povo povo povo povo povo portugu^ es paraguaio nigeriano mexicano marroquino mapuche indı́gena holand^ es húngaro hmong portuguese paraguayan nigerian mexican moroccan mapuche indigenous dutch hungarian hmong people people people people people people people people people people Example Generalization Based on work from (Brown, 2000; Brown, 2001), we are incorporating generalization algorithms into NATools. One simple generalization is the detection of numbers, hours and dates. Follows some examples generalized using this technique. This can be generalized creating automatically a class for the differing words (in this case we used gentilic). Given two different classes with a big number of similar members we can join them expanding the initial number of examples. 269 Alberto Simões y José João Almeida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 raw examples protocolo para prevenir , reprimir e punir o tráfico de pessoas e em particular de mulheres e crianças | | | | | protocol to prevent , suppress and punish trafficking in persons , especially women and children consolidated examples 35736 tendo em conta 11304 tratado que institui 10335 das comunidades europeias 8789 institui a comunidade europeia 8424 e , nomeadamente 8224 , a comiss~ ao 8142 redacç~ ao que lhe foi dada pelo 7352 à comiss~ ao 7072 a comiss~ ao das 6870 pela comiss~ ao 6540 todos os estados-membros 6400 pela comiss~ ao 6379 considerando que , 5409 regulamento é obrigatório 5400 adoptou | | | | | | | | | | | | | | | having regard treaty establishing of the european communities establishing the european community and in particular , the commission amended by to the commission the commission of for the commission all member states by the commission whereas , regulation shall be binding has adopted this Figure 6: Translation examples. 1 2 povo X: gentilic(X) governo X: gentilic(X) T(X) people T(X) govern 1 use NAT::Client; 2 $client = NAT::Client->new( crp => "EuroParl-PT-EN"); 3 4.4 StarDict generation 4 Although we are in the Internet era, there are a few people without Internet access at home, or working offline on a laptop. For these people, to access the online query system is not possible. Specially for non computer-science researchers, there is important to make dictionaries and some concordances available easily. 5 6 7 8 9 10 11 12 13 14 15 16 $client->iterate( { Language => "PT" }, sub { my %param = @_; for $trans (keys %{$param{trans}}) { if ($param{trans}{$trans} > 0.1) { $concs = $client->conc({ concordance => 1}, $param{word}, $trans); $stardict{$param{word}}{$trans} = $concs->[0]; }}}); print StarDict($stardict); Figure 8: Perl code to create a StarDict dictionary. This tool was also an exercise to see how versatile the NATools API was. The basic structure of the dictionary to be translated to StarDict can be created using just some lines of Perl code (see figure 8). Figure 7: StarDict screen-shot. With this in mind we created a tool to generate StarDict (Zheng, Evgeniy, and Murygin, 2007) dictionaries with probabilistic translation dictionary information and for each possible translation a set of three concordances. The process is done iterating over all the entries in the probabilistic translation dictionary. For each entry we grab concordances for each probable translation (with association above 10%). 270 Parallel Corpora based Translation Resources Extraction 5 Conclusions Frankenberg-Garcia, Ana and Diana Santos, 2001. Apresentando o COMPARA, um corpus português-inglês na Web. Cadernos de Tradução, Universidade de São Paulo. While a lot of work needs to be done within NATools, most for efficiency, being open-source makes it easier. Any researcher can contribute with code, submit bugs reports, and get some support freely. The whole NATools framework proved to be robust enough for different sized corpora. It was tested with Le Monde Diplomatique (PT:FR) (Correia, 2006), JRC-Acquis (PT:ES,PT:EN,PT:FR) (Steinberger et al., 2006) and EuroParl (PT:ES,PT:EN:PT:FR) (Koehn, 2002). All these corpora are available for querying in the Internet. NATools include some other small tools not described in this paper. For instance, there is a set of small tools that grew up as experiences and where maintained in the package as tools to compare probabilistic translation dictionaries, tools to rank (or classify) translation memories accordingly with their translation probability, and others. Frankenberg-Garcia, Ana and Diana Santos. 2003. Introducing COMPARA, the portuguese-english parallel translation corpus. In Silvia Bernardini Federico Zanettin and Dominic Stewart, editors, Corpora in Translation Education. Manchester: St. Jerome Publishing, pages 71–87. Gale, William A. and Kenneth Ward Church. 1991. A program for aligning sentences in bilingual corpora. In Meeting of the Association for Computational Linguistics, pages 177–184. Guinovart, Xavier Gómez and Elena Sacau Fontenla. 2005. Técnicas para o desenvolvemento de dicionarios de tradución a partir de córpora aplicadas na xeración do Dicionario CLUVI Inglés-Galego. Viceversa: Revista Galega de Traducción, 11:159–171. Acknowledgment Hiemstra, Djoerd. 1998. Multilingual domain modeling in twenty-one: automatic creation of a bi-directional lexicon from a parallel corpus. Technical report, University of Twente, Parlevink Group. Alberto Simões has a scholarship from Fundação para a Computação Cientı́fica Nacional and the work reported here has been partially funded by Fundação para a Ciência e Tecnologia through project POSI/PLP/43931/2001, co-financed by POSI, and by POSC project POSC/339/1.3/C/NAC. Hiemstra, Djoerd. August 1996. Using statistical methods to create a bilingual dictionary. Master’s thesis, Department of Computer Science, University of Twente. References Koehn, Philipp. 2002. EuroParl: a multilingual corpus for evaluation of machine translation. Draft, Unpublished. Brown, Ralf D. 2000. Automated generalization of translation examples. In Eighteenth International Conference on Computational Linguistics (COLING-2000), pages 125–131. Och, Franz Josef. 1999. An efficient method for determining bilingual word classes. In the 9th Conference of the European Chapter of the Association for Computational Linguistics, pages 71–76. Brown, Ralf D. 2001. Transfer-rule induction for example-based translation. In Michael Carl and Andy Way, editors, Workshop on Example-Based Machine Translation, pages 1– 11, September. Och, Franz Josef and Hermann Ney. 2004. The alignment template approach to statistical machine translation. Computational Linguistics, 30:417–449. Christ, Oliver, Bruno M. Schulze, Anja Hofmann, and Esther König, 1999. The IMS Corpus Workbench: Corpus Query Processor (CQP): User’s Manual. Institute for Natural Language Processing, University of Stutgart, March. Petersen, Ulrik. 2004. Emdros — a text database engine for analyzed or annotated text. In 20th International Conference on Computational Linguistics, volume II, pages 1190–1193, Geneva, August. Correia, Ana Teresa Varajão Moutinho Pereira. 2006. Colaboração na constituição do corpus paralelo Le Monde Diplomatique (FR-PT). Relatório de estágio, Conselho de Cursos de Letras e Ciências Humanas — Universidade do Minho, Braga, Dezembro. Simões, Alberto and J. João Almeida. 2006a. Combinatory examples extraction for machine translation. In Jan Tore Lønning and Stephan Oepen, editors, 11th Annual Conference of the European Association for Machine Translation, pages 27– 32, Oslo, Norway, 19–20, June. Danielsson, Pernilla and Daniel Ridings. 1997. Practical presentation of a “vanilla” aligner. In TELRI Workshop in alignment and exploitation of texts, February. Simões, Alberto and J. João Almeida. 2006b. NatServer: a client-server architecture for building 271 Alberto Simões y José João Almeida parallel corpora applications. Procesamiento del Lenguaje Natural, 37:91–97, September. Simões, Alberto, Rúben Fonseca, and José João Almeida. 2007. Makefile::Parallel dependency specification language. In Euro-Par 2007, Rennes, France, August. Forthcoming. Simões, Alberto, Xavier Gómez Guinovart, and José João Almeida. 2004. Distributed translation memories implementation using webservices. Procesamiento del Lenguaje Natural, 33:89–94, July. Simões, Alberto M. and J. João Almeida. 2003. NATools – a statistical word aligner workbench. Procesamiento del Lenguaje Natural, 31:217– 224, September. Simões, Alberto Manuel Brandão. 2004. Parallel corpora word alignment and applications. Master’s thesis, Escola de Engenharia - Universidade do Minho. Steinberger, Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, and Dániel Varga. 2006. The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. In 5th International Conference on Language Resources and Evaluation (LREC’2006), Genoa, Italy, 24–26 May. Tiedemann, Jörg. 2003. Combining clues for word alignment. In 10th Conference of the European Chapter of the ACL (EACL03), Budapest, Hungary, April 12–17. Tiedemann, Jörg and Lars Nygaard. 2004. The opus corpus - parallel & free. In Fourth International Conference on Language Resources and Evaluation (LREC’04), Lisbon, Portugal, May 26–28. Zheng, Hu, Evgeniy, and Alex Murygin. 2007. Stardict. Software and documentation homepage, StarDict, http://stardict.sourceforge.net/, January. 272 DEMOSTRACIONES Procesamiento del Lenguaje Natural, nº39 (2007), pp. 275-276 recibido 06-06-2007; aceptado 22-06-2007 Una herramienta para la manipulación de corpora bilingue usando distancia léxica∗ Rafael Borrego Ropero y Vı́ctor J. Dı́az Madrigal Departamento de Lenguajes y Sistemas Informáticos E. T. S. Ingenierı́a Informática - Universidad de Sevilla Avda. Reina Mercedes s/n 41012-Sevilla (Spain) {rborrego, vjdiaz}@us.es Resumen: En este artı́culo se presenta una herramienta que permite anotar corpora bilingue y realizar alineamiento entre textos usando heurı́sticas basadas en frecuencia, posición y cercanı́a léxica (con Edit Distance). La anotación de corpora bilingue es una tarea muy laboriosa pero esencial a la hora de desarrollar bases de conocimiento para la realización de traducciones automáticas entre distintos idiomas. Esta herramienta ayuda esta tarea, permitiendo anotar de forma rápida y sencilla. Incluye caracterı́sticas que facilitan la edición de textos planos y de textos anotados. Palabras clave: Alineamiento, Etiquetado de entidades, Edit Distance, Corpora Bilingüe Abstract: In this article is presented a tool for labeling bilingual parallel corpora and aligning texts using heuristics based on word frequency, position and lexicographical similarity (using Edit Distance). Bilingual corpora annotation is a very laborious task but essential at the time of developing knowledge bases for the accomplishment of automatic translations between different languages. This tool helps to this task, allowing to annotate texts in a fast and simple way. It includes characteristics that help editing plain and annotated texts. Keywords: Alignment, Name Entity Recognition, Bilingual corpora, Edit Distance 1. Introducción El sistema que presentamos ha sido desarrollado como apoyo a una de las tareas del proyecto NERO (TIN 2004-07246-C0303) y facilita el alineamiento de entidades con nombre en corpora paralelo basándose en varias heurı́sticas descriyas en (Borrego y Dı́az, 2007). El alineamiento de textos consiste en identificar en un corpus biligüe qué partes (párrafos, frases, palabras) de uno de los corpus se corresponden con las del otro. Dado que la anotación es una tarea muy laboriosa y de gran dificultad, se ha desarrollado una herramienta de visualización y edición de corpus como apoyo a la anotación, que detecta alineamientos entre conjuntos de palabras. A continuación mostraremos los objetivos marcados a la hora de abordar su desarrollo: Realizar una aplicación portable y extensible, que permita anotar corpora paralelo de forma eficiente. ∗ Este trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia (TIN 2004-07246C03-03) ISSN: 1135-5948 Proporcionar una interfaz gráfica que facilite el uso de la aplicación, visualizando los corpus de manera intuitiva (sin que sea necesario tener conocimientos ni sobre las heuristicas usadas ni sobre XML). Permitir anotar corpora paralelo, relacionando un conjunto de palabras en un lenguaje con su equivalente en el otro. Aplicar heurı́sticas y un sistema de votación para obtener alineamientos entre conjuntos de palabras en un idioma con su equivalente en el otro Definición y modificación (crear, editar y eliminar etiquetas) de etiquetarios. Leer y escribir corpus anotados con distintos formatos de etiquetado, realizando la división de textos usando expresiones regulares o de forma automática. Realizar consultas sobre los corpus acerca de sus etiquetados, y ver sus propiedades. © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Rafael Borrego y Víctor J. Díaz cación, y un conjunto de ventanas donde se visualizan los textos y la estructura del corpus. Cada corpus está asociado con un proyecto en el que se incluyen todos los archivos en los que está dividido. La ventana principal se subdivide en dos partes: la parte izquierda contiene la estructura y archivos del proyecto (corpus) actual, y en la derecha se visualizarán aquellos archivos del proyecto que el usuario desee ver su contenido. Las ventanas internas que muestran el contenido de cada fichero se encuentran divididas en dos zonas, una para cada idioma, mostrando con distinto tipo de letra aquellas palabras que se encuentran anotadas. Además, tras seleccionar un conjunto de palabras en una de las zonas, indica en la otra zona la frase equivalente. Los ficheros constituyentes del corpus se pueden visualizar de dos formas. La primera forma es en las ventanas asociadas a los ficheros que nos muestra el contenido de cada fichero, teniendo un color distinto aquellos conjuntos de palabras que han sido anotados. La otra es en una ventana especial que permite ver el conjunto de palabras que contiene, indicando la posición origen y fin, ası́ como el tipo de palabra. En cualquier momento se puede anotar, para lo cual solo hay que seleccionar el texto deseado con el ratón, e indicar que se desea anotar la selección. También se puede hacer el proceso inverso, para eliminar una anotación hecha previamente. Generar automáticamente informes sobre el resultado de las anotaciones realizadas. 2. Aspectos tecnológicos del sistema Caben destacar ciertas decisiones tomadas relativas a aspectos tecnológicos. Ası́, para cubrir el requisito de portabilidad de la aplicación a diversos sistemas operativos, se optó por una implementación en lenguaje Java. En el aspecto relativo a los datos, se eligió una implementación apoyada en el lenguaje de etiquetado XML. La primera razón es la capacidad de aplicación inmediata de este lenguaje de marcas para la etiquetación de textos. Ésto ha permitido definir de una manera sencilla un formato de etiquetado muy flexible, extensible, y sencillo de utilizar, que es fácilmente tratable por aplicaciones externas. Además, es un formato de almacenamiento portable, que no requiere tener instalado ningún programa especı́fico. También se ha optado por XML para almacenar datos relativos a configuraciones de los diversos aspectos de la aplicación, ası́ como datos necesarios para facilitar su uso, como por ejemplo: definición de proyectos, definición de expresiones regulares para dividir el texto por frases o por palabras, palabras huecas que se desea ignorar, etc. Para facilitar al usuario su manejo la aplicación permite convertir de forma automática documentos en texto plano a XML, indicando la ruta de los ficheros y, de forma opcional, información sobre su contenido o autores. Con ello se puede empezar a manejar la aplicación sin tener que conocer XML ni tener que hacer conversiones entre formatos de codificación. Además, permite trabajar con un corpus sin alterar su contenido, ya que en ningún momento se modifica el contenido de los ficheros en texto plano. Con lo comentado anteriormente, la aplicación desarrollada cumple los requisitos expuestos, pudiendo etiquetar textos, mostrar corpus etiquetados en distintos idiomas, etc. 3. 4. Trabajo futuro Respecto al reconocimiento de entidades serı́a interesante incluir más heurı́sticas para realizar el alineamiento. Además, debido a lo laborioso del proceso de anotación, es frecuente la participación de equipos. Esto implica dificultades relacionadas con el mantenimiento de la coherencia en el proceso de etiquetación y la gestión de versiones de corpus. En este aspecto, pretendemos enriquecer la herramienta para incorporar funcionalidades que faciliten este tipo de procesos. Bibliografı́a Descripción básica del sistema Borrego, R. y V. Dı́az. 2007. Alineamiento de Entidades con Nombre usando Distancia Léxica. Procesamiento del Lenguaje Natural, 38(1):61–66. El sistema se basa en un entorno gráfico organizado en torno a dos elementos básicos: un conjunto de menús desplegables donde se pueden seleccionar todas las acciones disponibles actualmente en la apli276 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 277-278 recibido 31-05-2007; aceptado 22-06-2007 MyVoice goes Spanish. Cross-lingual adaptation of a voice controlled PC tool for handicapped people ∗ Zoraida Callejas Univ. Granada Granada Spain zoraida@ugr.es Jan Nouza Tech. Univ. Liberec Liberec Czech jan.nouza@tul.cz Petr Cerva Ramón López-Cózar Tech. Univ. Liberec Univ. Granada Liberec Czech Granada Spain rlopezc@ugr.es petr.cerva@tul.cz Resumen: En este artı́culo presentamos la adaptación del sistema MyVoice del idioma checo al español. MyVoice se desarrolló con la idea de permitir a usuarios con discapacidad motora controlar sus ordenadores y aplicaciones informáticas de forma oral. Nuestro objetivo era adaptarlo de forma rápida al español empleando únicamente los recursos disponibles para el idioma checo. Los resultados experimentales muestran que se puede conseguir hasta un 96.73% de precisión en el reconocimiento del habla española empleando el motor de reconocimiento del habla checo del sistema MyVoice. Palabras clave: cross-linguistic, reconocimiento del habla, aplicaciones para discapacitados Abstract: In this paper, we present the cross-lingual adaptation of the MyVoice system from the Czech to the Spanish language. MyVoice was developed to allow motor-handicapped people to voice control their PCs and applications. Our objective was to cost-efficiently adapt it to the Spanish language using uniquely the resources available for Czech. Experimental results show that up to 96.73% recognition accuracy can be achieved for Spanish using MyVoice’s Czech speech recognition environment. Keywords: cross-linguistic, speech recognition, applications for handicapped 1 The MyVoice system MyVoice is a software tool to control the PC and its programs orally. It recognizes voice commands and interprets them into one or more basic actions which include virtual managing of keyboard, moving mouse, clicking mouse buttons, printing strings and executing programs. MyVoice was developed with the purpose of facilitating Czech motorhandicapped people the access to new technologies, and has been succesfully used by them since 2005 (Nouza, Nouza, and Cerva, 2005). MyVoice is structured in several command groups, each of them dealing with an specific task, this way for example the group that controls the mouse is different from the one that deals with keyboard but they can ∗ Development of the MyVoice software was supported by the Grant Agency of the Czech Academy of Sciences (grant no. 1QS108040569). ISSN: 1135-5948 be accessed easily from each other by a voice command. The grouping of commands makes interaction easier as the user is aware of the valid words he can utter at each time and can easily navigate between groups. Furthermore, as a specific vocabulary was defined for each task, better recognition results are achieved. The system was designed to be user friendly and customizable and it can be easily adapted to user preferences employing its configuration window. From there, phonetics of the words can be changed, commands can be added, edited and deleted, and new command groups can be easily introduced without the need of having any expert knowledge about computers. MyVoice system was carefully designed and implemented and has been warmly welcomed by the Czech handicapped community. Our aim was to make it available also © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Zoraida Callejas, Jan Nouza, Petr Cerva y Ramón López-Cózar Delgado a gender dependent model was used obtaining a 93,92% accuracy rate. We carried out speaker adaptation to try to further improve this result. After adaptation to our female speaker, 96,73% accuracy was obtained. It is important to note that these results are for real interaction with MyVoice, in which vocabulary is restricted at each step to the list of commands in the current group, the size of the group ranges between 5 and 137 commands. To obtain meaningful results for the different speaker models with independence of the groups visited during the interaction, we carried out an offline speech recognition process in which we used the whole MyVoice vocabulary, which is composed of 432 commands. With a gender dependent user model we obtained 91.03% accuracy, which is improved by speaker adaptation reaching a 96.58% accuracy. for the Spanish users withoug building a new system from the scratch, but rather using the already developed resources for the Czech language. In order to reach this objective, we carried out a cross-lingual adaptation of the system so that recognition of Spanish commands could be done over the Czech speech recognition environment (i.e. acoustic, lexical an linguistic models), as explained in the next section. 2 MyVoice cross-lingual adaptation to Spanish MyVoice commands were translated to Spanish and a cross-lingual adaptation procedure of the Czech recognizer was carried out. The Czech recognizer’s decoding module works with a lexicon of alphabetically ordered words, each of them represented by its text and phonetic form. For the crosslanguage application we used Spanish text along with an automatically generated Czech phonetic representation. The phonemes built for the Czech recognizer could be then applied to the new task of recognizing Spanish words, using the Czech phonetic form to construct the acoustic models of the words by concatenating the corresponding phoneme models. To automatically generate the Czech phonetic representation of the Spanish commands, a correspondence between Spanish and Czech phonemes was carried out by one Spanish native speaker and supervised by several Czech native speakers. The accuracy of such correspondences depends on the number of phonemes present in each language and the similarity between them. However, Czech and Spanish languages are very different in their origin, as Czech belongs to the family of Slavic languages like Russian, and Spanish is an Italic language like Italian or French. Thus, one of the challenges of our work was to obtain satisfactory mapping for such different languages; especially when previous researches had obtained poor results in crosslanguage tasks between Slavic and Italic languages, for example in (Žgank et al., 2004) with Slovenian and Spanish. 3 4 Conclusions In this paper we have presented the adaptation of the MyVoice system for orally controling PC, from Czech to Spanish language. We have empirically demonstrated that crosslingual adaptation of the speech recognition environment can done in a short time carrying out an expert-driven correspondence between both languages’ phonetic alphabets. Experimental results using the Spanish version of MyVoice showed that a 96.58% offline and 96.73% online performance can be obtained. Thus, these are very promising results as they show that portability of speech recognizers can be ensured in a straightforward way and that this approach can achieve good results even with very phonetically different languages as Czech (Slavic) and Spanish (Italic). References Žgank, A., Z. Kacic, F. Diehl, K. Vicsi, G. Szaszak, J. Juhar, and S. Lihan. 2004. The cost278 masper initiative - crosslingual speech recognition with large telephone databases. In Proceedings of LREC 2004, Lisbon, Portugal, May. Nouza, J., T. Nouza, and P. Cerva. 2005. A multi-functional voice-control aid for disabled persons. In Proceedings of International Conference on Speech and Computer (SPECOM 2005), pages 715–718, Patras, Greece, October. Experimental results Our first experiments were carried out with a female Spanish native speaker employing the MyVoice software for carrying out her daily activities with the PC. For speech recognition 278 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 279-280 recibido 07-06-2007; aceptado 22-06-2007 HistoCat y DialCat: extensiones de un analizador morfológico para tratar textos históricos y dialectales del catalán Jordi Duran Cals THERA SL Adolf Florensa s/n 08028-Barcelona jordi.duran@thera-clic.com Mª Antònia Martí Antonín Universitat de Barcelona Gran Vía 585 08007-Barcelona amarti@ub.edu M. Pilar Perea Sabater Universitat de Barcelona Gran Vía 585 08007-Barcelona mpilar.perea@ub.edu Resumen: Los textos históricos y dialectales del catalán no se pueden anotar morfosintácticamente de manera automática ya que no existe una variante estándar de referencia que permita un tratamiento homogéneo y sistemático. El objetivo de los proyectos HistoCat y DialCat ha sido desarrollar un entorno de anotación semiautomático aprovechando herramientas existentes para la anotación morfosintáctica de textos en catalán, que minimizara al máximo la anotación manual. Palabras clave: Corpus historicos y dialectales, Anotación Morfosintáctica, Lingüística de Corpus. Abstract: Catalan historical and dialectal texts cannot be morphosintactically annotated in an automatic way, because there is not a reference standard of written language that could allow a sistematic and homogeneus treatement. The main objective of DialCat and HistoCat projects has been to develop an environment for the semiauthomatic annotation of these corpora using already existing morphological analyzers for standard Catalan trying to minimize the manual annotation. Keywords: Morphosintactic Annotation, Corpus Linguistics. 1 representación en los diccionarios de la lengua. Es una realidad que la tradición lexicográfica cuenta con muy poca representación dialectal. Introducción. Motivación Los textos históricos y dialectales del catalán no se pueden anotar morfosintácticamente de manera automática ya que no existe una variante estándar de referencia que permita un tratamiento homogéneo y sistemático. La anotación morfosintáctica de estos corpus se ha realizado, hasta el momento, de manera manual por no existir un sistema de anotación y lematización automático o semiautomático disponible (Albino, 2006) . En la lengua antigua, por no existir una variedad estándar de referencia nos encontramos con una gran multiplicidad de formas ortográficas para una misma palabra. En el caso de las variantes dialectales, tenemos que afrontar el problema de determinar como se transcriben ortográficamente las formas propias de ciertas áreas dialectales, que no tienen ISSN: 1135-5948 El objetivo de los proyectos HistoCat y DialCat ha sido doble. por un lado, se pretendía desarrollar una herramienta para el análisis morfosintáctico automático de textos históricos y dialectales del catalán; por otro, se pretendía recopilar el léxico de la lengua antigua y un léxico dialectal actual, a partir de corpus. El corpus de la lengua antigua (HistoCat) consta de 97.603 palabras y está formado por textos del siglo XIV, XV y XVI. El corpus dialectal (DialCat) está formado por 23 textos orales en versión fonoortogràfica (cf. Viaplana y Perea, 2003) que presentan variedades locales correspondientes a los seis grandes dialectos del catalán y consta de 36.450 palabras. Los proyectos que se presentan han consistido en el desarrollo de un entorno de anotación semiautomático aprovechando © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Jordi Duran, Mª Antonia Martí y Pilar Perea herramientas existentes para la anotación morfosintáctica de textos en catalán, que minimizara al máximo la anotación manual. 2 3.3 Este último módulo cumple una doble función. Por un lado, el usuario valida qué par lema-PoS de cada forma detectada en los dos módulos previos es la correcta en su contexto. Por otro, permite incluir información nueva, en concreto nuevos pares lema-PoS a aquellas palabras que no se han analizado en los módulos anteriores. Tratamiento lingüístico de los corpus Además de la información morfosibtáctica básica que corresponde a la PoS, en el corpus histórico se da información sobre el siglo, la obra y el autor. En los corpus dialectales se indica el dialecto, la variante dialectal y el informante. El anotador puede indicar también si una palabra és un derivado, un péstamo de otra lengua, o bien un barbarismo. 3 Esta información, una vez introducida pasa a formar parte del sistema de anotación del segundo módulo, el que detecta las formas históricas o dialectales. De esta forma el formario histórico y dialectal se van realimentado de manera que está disponible para futuros tratamientos. Características tecnológicas El sistema de análisis semiautomático se basa en una versión extendida del analizador HS-Morfo1. El sistema de análisis se compone de tres módulos: 1) El etiquetador con el sistema de anotación estándar. 2) El etiquetador con el sistema de anotación histórico/dialectal. 3) La interfaz de validación 3.1 4 Extensiones del sistema Este sistema es fácilmente extensible a otras lenguas, si se dispone de un analizador morfológico de la lengua estándar. Actualmente se esta desarrollando una interfaz web de consulta que permitirá recuperar el léxico por los criterios aplicados en el proceso de anotación. Etiquetador estándar Este módulo se compone del etiquetador con el sistema de anotación de la lengua estándar, el analizador HS-Morfo. Es el primer módulo en el procesamiento y recibe como entrada el texto plano para crear un documento con el texto segmentado y anotado: cada forma recibe los distintos lemas y etiquetas PoS que puede tener asociados. Aquellas palabras que no reconoce por pertenecer al léxico histórico o dialectal son tratadas en el módulo siguiente. 3.2 La interfaz de validación 5 Agradecimientos DialCat (HUM2005-24445-E) e HistoCat (HUM2005-24438-E) son dos proyectos financiados por el Ministerio de Educación en el programa de Acciones Complementarias. Etiquetador con el formario histórico /dialectal Bibliografía Albino Pires, Natalia (2006) ‘ULISES: un Integrated Development Environement desarrollado para la anotación de un corpus romancístico’. Procesamiento del Lenguaje Natural, n. 37. Septiembre 2006. En este segundo módulo se completa la anotación de las formas específicas del vocabulario histórico o dialectal, tanto las formas que no han sido reconocidas en el módulo de análisis estándar, como también aquellas formas que sí se han reconocido pero son ambiguas y pueden recibir nuevas interpretaciones.. Viaplana, J. y Perea, M. P. 2003. Corpus oral dialectal. Una selecció. Barcelona. PPU. 1 HS-Morfo es un analizado cedido por la empresa THERA SL para el desarrollo del proyecto. El desarrollo tecnològico ha sido llevado a cabo por dicha empresa. 280 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 281-282 recibido 01-06-2007; aceptado 22-06-2007 MorphOz: Una plataforma de desarrollo de analizadores sintáctico-semánticos multilingüe Oscar García Marchena Departamento de Lingüística. Laboratorio de Lingüística Formal VirtuOz S.A. Universidad Paris VII 47, rue de la Chaussée d’Antin 30, Chateau de rentiers 75013 París 75009París oscar.garciamarchena@linguist.jussieu.fr ogarcia@virtuoz.com léxico, las construcciones sintácticas, semántica, y el orden de palabras. 1. Un analizador sintáctico-semántico MorphOz es una plataforma de desarrollo de conocimientos lingüísticos que permite la confección de analizadores sintácticosemánticos en cualquier lengua. Estos analizadores se diferencian de otros parsers en que sus análisis sintácticos están acompañados de análisis semánticos generados a partir del análisis sintáctico obtenido. Estas representaciones semánticas son independientes de la lengua, y, en principio, idénticos para frases de cualquier lengua con el mismo significado. Las posibilidades de aplicación tecnológica de estos analizadores con capacidad de representación de significado multilingüe son variadas. Sus creadores, la sociedad VirtuOz, lo emplean para la confección de agentes de diálogo o chatbots: el usuario interactúa con una interfaz que transforma las intervenciones humanas en representaciones semánticas a las que puede responder proactivamente a lo largo de una conversación. MorphOz utiliza un modelo de análisis gramatical diferente del de otros analizadores: en lugar de realizar un análisis sobre el orden lineal de la frase, genera una representación arborescente de su sintaxis profunda, abstrayendo así el orden sintagmático del análisis gramatical. Este tipo de representación parte de la gramática de dependencias (Tesnière: 1959), y está basado en un modelo lingüístico, la Teoría Sentido-Texto o TST (Mel’čuk: 1988), implementado gracias a una gramática de unificación que es también un modelo de representación lingüística reciente, la gramática de unificación polarizada o GUP (Kahane: 2004). Este sistema presenta la ventaja de ser un modelo lingüístico modular, permitiendo separar en dimensiones de análisis independientes la información morfológica, el ISSN: 1135-5948 2. su Adaptación multilingüe 2.1. Parámetros gramaticales en tipología lingüística Los modelos recientes en lingüística formal (HPSG, LFG, etc.) proponen una organización gramatical de la lengua al mismo tiempo, y en grados diversos, lexicalista y construccionista. La información gramatical sobre cómo se combinan las unidades de una lengua dada están codificadas en tres áreas: léxico, construcción, y orden de palabras. El léxico, identifica la (sub)categoría, el significado, y la morfología que vincula un token con un lema; las construcciones indican la estructura en la que aparece esa (sub)categoría. Finalmente, el orden de palabras señala las posibles posiciones de los argumentos. Una vez parametradas así las lenguas, podemos formalizar el grado de gramaticalización de cada uno de estos módulos: una gramática del chino contendrá un vocabulario sin información morfológica, varias construcciones gramaticales, y pocas reglas de orden lineal, marcando así un rígido orden de palabras. Para el español, al contrario, se precisará bastante información morfológica en el léxico, y numerosas reglas de orden lineal, para formalizar la variedad de órdenes sintagmáticos posibles. 2. 2. Parámetros gramaticales en MorphOz Siguiendo esta corriente lexico- construccionista de la lingüística formal actual, MorphOz cuenta con un sistema modular que permite separar los diferentes tipos de información lingüística, © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Oscar Garcia Marchena tratarlas independientemente, e incluso transferir los parámetros comunes a otras lenguas con similitudes estructurales. De este modo, construir un motor de análisis para cualquier lengua equivale en MorphOz a distribuir adecuadamente los recursos lingüísticos en tres áreas: léxico (con indicación categorial, semántica y morfológica), construcciones, y orden de palabras. El léxico de cada lengua es tratado como un módulo intraspasable, pero no así el inventario de categorías gramaticales; las construcciones asociadas a las categorías, y el orden de palabras son frecuentemente exportables a lenguas genética o tipológicamente cercanas. Las construcciones gramaticales describen las dependencias sintácticas: identifica núcleos y dependientes, y las funciones gramaticales que identifican la dependencia (sujeto, OD, OI, CC, etc.). Asimismo, las construcciones contienen información semántica: a cada lexema corresponde un semema-definición, que ocupa un lugar en una ontología (basada en Wordnet), y a cada función sintáctica le corresponde un rol semántico regular (agente, tema, paciente, etc.). Si bien esta decisión es extremadamente problemática desde un punto de vista teórico, se adapta bien a los propósitos de representación semántica de la TST (Nasr: 1996). Esta representación semántica última debe ser la misma para todas las lenguas. De este modo, la tarea final del lingüista es controlar que las representaciones semánticas de frases con significado equivalente sean idénticas en lenguas diferentes, a pesar de las diferencias en las representaciones de la sintaxis profunda (sintaxis de dependencias). nominales romances, en las que el verbo copulativo no aporta significado, sino que forma un predicado con su atributo. 2.2.1. Construcciones S. KAHANE, “Grammaires d’unification polarisées”, en 11ième Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN’04), Fès, Maroc, France, 2004. I. MEL’CUK, Dependency Syntax : Theory and Practice. Albany, N.Y., The SUNY Press, 1988. A. NASR, Un modèle de reformulation automatique fondé sur la Théorie Sens Texte: Application aux langues contrôlées. Tesis Doctoral en informática, Universidad Paris 7, 1996. L.TESNIÈRE, “Comment construire une syntaxe” en Bulletin de la Faculté des Lettres de Strasbourg, 1934, 7 - 12, 219– 229. 2.2.2. Orden de palabras El orden de palabras está codificado siguiendo el sistema de la TST, según el cual el orden lineal corresponde a una relación de distancias a izquierda o derecha entre el núcleo y su dependiente. El paso entre la sintaxis profunda y superficial se limita a un mapping o proyección de las dependencias en la linealidad de la lengua. Las lenguas romances difieren sólo en algunas reglas, particularmente respecto al orden de clíticos. Otras aplicaciones conciernen las posibilidades de realización en la periferia oracional, o la pasiva en chino, que se define únicamente en función del orden de palabras. 3. Conclusión La implementación de una teoría lingüística como la TST para la construcción de analizadores sintáctico-semánticos tiene una utilidad doble: plataforma de desarrollo para la investigación en lingüística formal, y aplicaciones industriales variadas: agentes de conversación, sistemas de comprensión multilingüe, etc. El análisis de la sintaxis profunda proporciona además una ventaja sobre otros analizadores: al separar orden de palabras y dependencias, no corremos el riesgo de confundir complementos de adjuntos sea cual sea la posición de éstos. 4. Respecto a las lenguas romances, alrededor del 80% de las construcciones han sido compartidas para la confección de gramáticas de español, italiano y portugués. Un 70% son compartidas entre estas lenguas y el francés. Las estructuras diferentes son sobre todo las (sub)categorías verbales con diferente subcategorización, a causa principalmente de la ausencia de reglas para las alternancias en la realización de valencias. Para evitar calcos de modelos gramaticales de tradiciones lingüísticas diferentes, para otras lenguas, se integra directamente una gramática de construcciones completa, pero siempre inspirada en las soluciones ya adoptadas. Las frases averbales del chino, por ejemplo, siguen así el mismo esquema que las oraciones 282 Referencias Procesamiento del Lenguaje Natural, nº39 (2007), pp. 283-284 recibido 06-06-2007; aceptado 22-06-2007 Sistema de Diálogo Estadı́stico y Adquisición de un Nuevo Corpus de Diálogos∗ D. Griol, E. Segarra, L.F. Hurtado, F. Torres, F. Garcı́a, M. Castro, E. Sanchis Departament de Sistemes Informàtics i Computació Universitat Politècnica de València. E-46022 València, Spain {dgriol,esegarra,lhurtado,ftgoterr,fgarcia,mcastro,esanchis}@dsic.upv.es Resumen: Se presenta un sistema de dialogo cuyos módulos principales se han aprendido utilizando un corpus de diálogos adquirido en el proyecto DIHANA. Se llevará a cabo una demostración del funcionamiento del sistema. Asimismo, se describe la adaptación de la arquitectura utilizada para la adquisición del corpus DIHANA a una nueva tarea en el marco del proyecto EDECÁN. Palabras clave: Sistemas de Diálogo, Adquisición de Corpus, Modelos Estadı́sticos Abstract: We present a dialog system in which the main modules have been modeled using a dialog corpus acquired within the framework of the DIHANA project. A demo of the current operation of the complete system will be carried out. In addition, we describe the adaptation of the architecture used for the acquisition of the DIHANA corpus in the scope of a new task, within the framework of the EDECÁN project. Keywords: Dialog Systems, Corpus Acquisition, Statistical Models 1. Introducción: el sistema de diálogo DIHANA Aunque construir una aplicación informática que pueda mantener una conversación con una persona de manera natural sigue siendo hoy en dı́a un reto, los constantes avances de la investigación en Tecnologı́as del Habla han permitido que sean factibles actualmente sistemas de comunicación personamáquina mediante la voz, capaces de interactuar con iniciativa mixta en el desarrollo del diálogo. Una de las lı́neas de trabajo principales de nuestro grupo de investigación es el desarrollo de metodologı́as estadı́sticas que modelen los procesos de reconocimiento del habla, comprensión automática del lenguaje y gestión de diálogo. En estas aproximaciones, los parámetros del modelo se aprenden automáticamente a partir de un corpus de diálogos etiquetado. El principal objetivo del proyecto DIHANA (Benedı́ et al., 2006) fue el diseño y desarrollo de un sistema de diálogo que posibilitase el acceso vocal, mediante habla espontánea en castellano, a información de horarios, precios y servicios de trayectos de trenes nacio∗ Este trabajo se ha desarrollado en el marco del proyecto EDECÁN subvencionado por el MEC y FEDER número TIN2005-08660-C04-02, la ayuda de la GVA ACOMP07-197 y el Vicerectorat d’Investigació, Desenvolupament i Innovació de la UPV. ISSN: 1135-5948 nales. En el marco de este proyecto se realizó la adquisición de un corpus de 900 diálogos mediante la técnica del Mago de Oz. Para llevar a cabo esta adquisición se diseñó una estrategia para que el Mago gestionase el diálogo y seleccionase la próxima respuesta del sistema, basándose en la información suministrada por el usuario hasta el momento actual del diálogo y las medidas de confianza asociadas a cada uno de los slots de información. Este corpus se etiquetó mediante actos de diálogo. Asimismo, se desarrolló una plataforma para facilitar las labores de gestión del Mago y visualizar los resultados generados por los módulos del sistema que actuaban de forma automática. En (Benedı́ et al., 2006) puede encontrarse información detallada sobre el proceso de adquisición y etiquetado del corpus DIHANA. Como resultado del proyecto, se ha desarrollado un sistema de diálogo de iniciativa mixta capaz de interactuar en el dominio de la tarea. El comportamiento de los módulos principales que componen el sistema se basa en modelos estadı́sticos aprendidos a partir del corpus DIHANA. En el sistema se ha integrado el reconocedor automático del habla Sphinx-II (cmusphinx.sourceforge.net), cuyos modelos acústicos y de lenguaje se han aprendido a partir del corpus adquirido. El módulo de comprensión del habla © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural David Griol, Encarna Segarra, Lluis. F. Hurtado, Francisco Torres, María José Castro Bleda, Fernando García y Emilio Sanchis et al., 2006) (Torres et al., 2005), pudiendo modificar la respuesta propuesta por el gestor en los casos en que considere que pueda resultar problemática. Se ha desarrollado un modulo adicional para la simulación de errores de reconocimiento y comprensión, basado en el análisis de los errores generados por nuestros módulos de reconocimiento y comprensión de lenguaje para la tarea DIHANA (Garcı́a et al., 2007). se ha implementado mediante modelos estadı́sticos aprendidos a partir del corpus. La sı́ntesis de texto a voz se lleva a cabo mediante el uso del sintetizador Festival (www.cstr.ed.ac.uk/projects/festival). La información relativa a la tarea se almacena en una base de datos PostGres, que utiliza información de trenes extraı́da de la web. Para llevar a cabo la gestión de dialogo se ha desarrollado un modelo de diálogo estadı́stico aprendido automáticamente a partir del corpus (Hurtado et al., 2006). La Figura 1 muestra la arquitectura del sistema de diálogo desarrollado para el proyecto DIHANA. Figura 2: Esquema propuesto para la adquisición de un corpus en el proyecto EDECÁN 3. Figura 1: Arquitectura del sistema DIHANA 2. Objetivos de la demostración La demostración mostrará el funcionamiento del sistema de diálogo DIHANA. Se presentarán ejemplos de diálogos que proporcionen una adecuada valoración del sistema DIHANA, ası́ como de la propuesta de adquisición del corpus EDECÁN. El proyecto EDECÁN Uno de los principales objetivos del proyecto EDECÁN (Lleida et al., 2006) es incrementar la robustez de un sistema de diálogo de habla espontánea mediante su adaptación y personalización a diferentes entornos acústicos y de aplicación. En el marco del proyecto, se desarrollará un sistema de diálogo completo para el acceso a un sistema de información mediante el habla espontánea (de igual modo que el sistema DIHANA). El dominio definido para el sistema es la consulta multilingüe (catalán y castellano) a un sistema que proporciona información sobre la disponibilidad y reserva de las instalaciones deportivas en nuestra universidad. Para el desarrollo de este sistema se utilizarán aproximaciones estadı́sticas, tal y como se ha descrito para el sistema DIHANA. Por ello, se necesita un corpus de diálogos para la nueva tarea. Para realizar la adquisición de este corpus con usuarios reales, se propone una arquitectura del sistema de diálogo (véase Figura 2) donde participarán dos Magos de Oz. El primer Mago sustituirá a los módulos de reconocimiento y comprensión del habla. El segundo Mago supervisará el comportamiento de un gestor de diálogo automático con un modelo inicial aprendido a partir de un corpus de diálogos simulados para la tarea (Hurtado Bibliografı́a Benedı́, J.M. et al. 2006. Design and acquisition of a telephone spontaneous speech dialogue corpus in Spanish: DIHANA. En Proc. of LREC’06, Genove. Garcı́a, F. et al. 2007. Recognition and Understanding Simulation for a Spoken Dialog Corpus Acquisition. En Proc. of the 10th International Conference on Text, Speech and Dialogue, TSD’07, Pilsen. Hurtado, L.F. et al. 2006. A Stochastic Approach for Dialog Management based on Neural Networks. En Proc. of InterSpeech’06, Pittsburgh. Lleida, Eduardo et al. 2006. EDECÁN: sistEma de Diálogo multidominio con adaptación al contExto aCústico y de AplicacióN. En Proc. IV Jornadas en Tecnologı́a del Habla, Zaragoza. Torres, F. et al. 2005. Learning of stochastic dialog models through a dialog simulation technique. En Proc. of Eurospeech’05, Lisbon. 284 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 285-286 recibido 06-06-2007; aceptado 22-06-2007 JBeaver : Un Analizador de Dependencias para el Español∗ Jesús Herrera Departamento de Lenguajes y Sistemas Informáticos Universidad Nacional de Educación a Distancia C/ Juan del Rosal, 16, E-28040 Madrid jesus.herrera@lsi.uned.es Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz, Luis Romero Departamento de Ingenierı́a del Software e Inteligencia Artificial Universidad Complutense de Madrid C/ Profesor José Garcı́a Santesmases, s/n, E-28040 Madrid pgervas@sip.ucm.es, {pedrojmoriano, alfonsomm, luis.romero.tejera}@gmail.com Resumen: JBeaver es un analizador de dependencias para el español desarrollado utilizando una herramienta de aprendizaje automático (Maltparser ). Este analizador se caracteriza por ser el único públicamente disponible para el español, ser autónomo, fácil de instalar y de utilizar (mediante interfaz gráfica o por comandos de consola) y de elevada precisión. Además, el sistema desarrollado sirve para entrenar de manera sencilla modelos de Maltparser, por lo que se configura en potencia como un analizador de dependencias para cualquier idioma. Palabras clave: Análisis de dependencias, Maltparser, JBeaver Abstract: JBeaver is a dependency parser built using the Maltparser machinelearning tool. It is publically available , easy to install and to use, and provides high precision. It also allows training Maltparser models for any language, so it can be used to train dependency parsers for any language. Keywords: Dependency parsing, Maltparser, JBeaver 1. JBeaver El objetivo final era un analizador de dependencias para el español, de libre distribución y que fuera fácil de instalar y manejar. Por otra parte, se debı́an acotar los esfuerzos dada la limitación de recursos del proyecto. 1.1. Decisiones de Diseño y Elección de Recursos Bajo los requisitos del proyecto era inviable el desarrollo de la algorı́tmica propia del análisis de dependencias, por lo que se hubieron de buscar recursos que evitasen esta labor. Uno de ellos es Maltparser (Nivre et al., 2006), que finalmente fue el elegido por las caracterı́sticas que ofrecı́a: era autónomo, fácil de integrar como subsistema y proporcionaba unos resultados notables en las lenguas para las que se habı́a probado hasta el momento. Tanto para el entrenamiento de Maltparser como para la ejecución como analizador ∗ Partially supported by the Spanish Ministry of Education and Science (TIN2006-14433-C02-01 project). ISSN: 1135-5948 del modelo aprendido es necesario proporcionar el etiquetado de categorı́as gramaticales de las palabras del texto. Como uno de los objetivos era que JBeaver pudiese recibir textos sin anotar, para facilitar al máximo su uso, la propia herramienta deberı́a etiquetar los textos recibidos a la entrada con su categorı́a gramatical. Igualmente que en el caso del análisis de dependencias, tampoco era factible el desarrollo de algoritmos para el etiquetado de categorı́as gramaticales. Por ello, fue necesario buscar una herramienta disponible, autónoma, fiable y fácil de integrar en JBeaver ; esta fue, finalmente, TreeTagger (Herrera et al., 2007) (Schmid, 1994). Tanto el entrenamiento de Maltparser como la evaluación del producto final obtenido requieren de corpora convenientemente anotados. Este aspecto se vio resuelto con el uso del corpus Cast3LB (Navarro et al., 2003), que contiene textos en español anotados con sus análisis sintácticos de constituyentes. Para obtener los corpora adecuados para el entrenamiento de Maltparser y la evaluación de JBeaver, se desarrolló una herramienta para convertir los análisis de consti- © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Jesús Herrera de la Cruz, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero Figura 1: Interfaz gráfica de JBeaver tuyentes del Cast3LB en análisis de dependencias (Herrera et al., 2007). Otro aspecto definitorio de JBeaver es su interfaz gráfica de usuario (ver Figura 1). En ésta se muestran los análisis obtenidos en forma de grafos, para que los datos resulten visualmente cómodos de interpretar. No obstante, también se proporciona la salida en forma de fichero de texto, para que pueda ser fácilmente manipulado por otros programas. La representación de los grafos quedó delegada a Graphviz, como otro de los subsistemas que forman parte de JBeaver. 1.2. modelo de referencia, comprobándose que se habı́an encontrado correctamente el 91 % de las dependencias. Bibliografı́a J. Herrera, P. Gervás, P.J. Moriano, A. Muñoz, L. Romero. 2007. Building Corpora for the Development of a Dependency Parser for Spanish Using Maltparser. (SEPLN, this volume). B. Navarro, M. Civit, M.A. Martı́, R. Marcos, B. Fernández. 2003. Syntactic, Semantic and Pragmatic Annotation in Cast3LB. Proceedings of the Shallow Processing on Large Corpora (SproLaC), a Workshop on Corpus Linguistics, Lancaster, UK. Pruebas De las diversas pruebas a que fue sometido JBeaver durante la fase de desarrollo, son de destacar las relacionadas con el rendimiento del núcleo analizador, es decir, del modelo entrenado de MaltParser. Para ello se seleccionó una fracción del corpus Cast3LB, de 431 palabras, no usada previamente para el entrenamiento del modelo de Maltparser y se generó a partir de ella un corpus con análisis de dependencias, que se tomó como modelo de referencia. Se extrajeron los textos sin etiquetar de ese corpus y se sometieron al análisis de dependencias efectuado por el modelo aprendido. Posteriormente se comprobó la salida proporcionada por el analizador con el J. Nivre, J. Hall, J. Nilsson, G. Eryigĭt and S. Marinov. 2006. Labeled Pseudo– Projective Dependency Parsing with Support Vector Machines. Proceedings of the CoNLL-X Shared Task on Multilingual Dependency Parsing, New York, USA. H. Schmid. 1994. Probabilistic Part-ofSpeech Tagging Using Decission Trees. Proceedings of the International Conference on New Methods in Language Processing, pages 44–49, Manchester, UK. 286 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 287-288 recibido 05-06-2007; aceptado 22-06-2007 NowOnWeb: a NewsIR System∗ Javier Parapar IRLab, Computer Science Dept. University of A Coruña, Spain Fac. Informática, Campus de Elviña 15071, A Coruña, SPAIN javierparapar@udc.es Álvaro Barreiro IRLab, Computer Science Dept. University of A Coruña, Spain Fac. Informática, Campus de Elviña 15071, A Coruña, SPAIN barreiro@udc.es Resumen: Hoy en dı́a existen miles de sitios web de noticias. Los modos tradicionales para acceder a este inmenso repositorio de información no son adecuados. En este contexto presentamos NowOnWeb, un sistema de recuperación de noticias que obtiene los artı́culos de la red y permite buscar y navegar entre los mismos. Palabras clave: Sistemas de noticias, extracción de información, detección de redundancia, generación de resúmenes. Abstract: Nowadays there are thousands of news sites available on-line. Traditional methods to access this huge news repository are overwhelmed. In this paper we present NowOnWeb, a news retrieval system that crawls the articles from the internet publishers and provides news searching and browsing. Keywords: News system, information extraction, redundancy detection, text summarization. 1. Introduction The huge amount of news information available on-line requires the use of Information Retrieval (IR) techniques to avoid overwhelming the users. The main objectives of these IR methods are: reduce the time spend in reading the articles, avert the redundancy and provide topic search capability. Given this context we present NowOnWeb 1 , a NewsIR system that deals with the on-line news sources to provide an effective and efficient way to show news articles to the user through a comfortable and friendly interface. It is based on our previous research and solutions in the IR field and serves as a research platform to test and asses the new solutions, algorithms and improvements developed in the area. 2. temporal window, a news recognition and extraction module that allows dynamic source adding, a news grouping component that uses a redundancy detection approach, and an article summariser based on relevant sentences extraction. System Overview NowOnWeb was designed as a ModelView-Controller web-application following a component-based architecture. The main system components are: a crawler and an indexer to maintain an incremental index with a ∗ Acknowledgements:This work was cofunded by the “Secretarı́a de Estado de Universidades e Investigación” and FEDER funds (MEC TIN200508521-C02-02) and “Xunta de Galicia”(PGIDIT06 PXIC10501PN). 1 An operative version with international news is available in http://nowonweb.dc.fi.udc.es ISSN: 1135-5948 Figura 1: A snapshot of the application appearance. Our application offers the user: news searching among all the indexed publishers, query suggestion, query spelling correction, redundancy detection and filtering, query biased summary generation, multiple format outputs like PDF or syndication services, and © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Javier Parapar y Álvaro Barreiro 2003) with respect to its relevance with the query. The sentences with higher score are chosen to get a summary of the desired size and they are resorted to maintain the original article relative position. personalisation options such as source selection. All these characteristics aim to facilitate the use of the system, for this reason the results are showed in a friendly and natural way (see Figure 1). In this sense technologies like AJAX were applied in order to improve the user experience and the system possibilities. 3. 4. NowOnWeb resulted in a NewsIR system that satisfies the user needs of information, allowing them to be up-to-date without time waste. We got an original solution different from the existing ones in the academic (Columbia NewsBlaster (McKeown et al., 2002), Michigan NewsInEssence(Radev et al., 2005)) and commercial (Google News, Yahoo News or MSN Newsbot) fields. As further work we will approach architectural system improvements, efficient query logging storage and mining, and evaluation of our news extraction algorithm. Research Issues Three are the main research topics involved in the development of NowOnWeb: news recognition and extraction, redundancy detection and summary generation 3.1. News Recognition and Extraction The problem here is to extract from an heterogenous set of pages, most of them without articles, the news articles present. So first we have to filter the pages without interesting content, and second from those with an article inside, extract the fields (title, body, date and image if present) among many not desired content. We developed a news recognition and extraction technique based on domain specific heuristics over the articles structure that resulted in an efficient and effective algorithm. 3.2. References Allan, James, Courtney Wade, and Alvaro Bolivar. 2003. Retrieval and novelty detection at the sentence level. In SIGIR ’03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, pages 314–321, New York, NY, USA. ACM Press. Redundancy Detection The objective of this point is to filter the redundant articles in order to avoid the overload of the user. To get this we developed and algorithm based on traditional techniques of the information filtering field (Zhang, Callan, and Minka, 2002). Generally speaking our method takes as input a ranking of documents sorted in base of their relevance with the user query. The algorithm dynamically assigns a redundancy score to each document respect to the already created redundancy sets. If that score is over a threshold with one of the sets, the document will be included in that set, other way it will constitute a new redundancy group. 3.3. Conclusions and Future Work McKeown, Kathleen R., Regina Barzilay, David Evans, Vasileios Hatzivassiloglou, Judith L. Klavans, Ani Nenkova, Carl Sable, Barry Schiffman, and Sergey Sigelman. 2002. Tracking and summarizing news on a daily basis with Columbia’s Newsblaster. In Proceedings of the Human Language Technology Conference. Radev, Dragomir, Jahna Otterbacher, Adam Winkel, and Sasha Blair-Goldensohn. 2005. Newsinessence: summarizing online news topics. Commun. ACM, 48(10):95– 98. Zhang, Yi, Jamie Callan, and Thomas Minka. 2002. Novelty and redundancy detection in adaptive filtering. In SIGIR ’02: Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pages 81–88, New York, NY, USA. ACM Press. Summary Generation The system offers the user summaries about the relevant articles respect to the query. These summaries are dynamically generated in retrieval time, they are querybiased. To get this we used a technique based on the extraction of relevant sentences. Each sentence is scored (Allan, Wade, and Bolivar, 288 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 289-290 recibido 05-06-2007; aceptado 22-06-2007 The Coruña Corpus Tool∗ Javier Parapar IRLab, Computer Science Dept. University of A Coruña, Spain Fac. Informática, Campus de Elviña 15071, A Coruña, SPAIN javierparapar@udc.es Isabel Moskowich-Spiegel MUSTE, English Philology Dept. University of A Coruña, Spain Fac. Filologı́a, Campus de Zapateira 15070, A Coruña, SPAIN imoskowich@udc.es Resumen: El Coruña Corpus de documentos cientı́ficos será usado para el estudio diacrónico del discurso cientı́fico en la mayorı́a de los niveles lingüı́sticos, contribuyendo de esta forma al estudio del desarrollo histórico del inglés. El Coruña Corpus Tool es un sistema de recuperación de información que permite compilar conocimiento sobre el corpus. Palabras clave: Lingüı́stica de corpus, inglés cientı́fico-técnico, recuperación de información. Abstract: The Coruña Corpus of scientific writing will be used for the diachronic study of scientific discourse from most linguistic levels and thereby contribute to the study of the historical development of English. The Coruña Corpus Tool is an information retrieval system that allows the extraction of knowledge from the corpus. Keywords: Corpus linguistics, English scientific writing, information retrieval. 1. Introduction 2. The Coruña Corpus: A Collection of Samples for the Historical Study of English Scientific Writing was carried out since 2003 by the Muste Group of the University of A Coruña. The corpus compilation is still in progress, at the moment we have gathered together samples of 10,000 words approximately belonging to the field of eighteenthand nineteenth-century mathematics and astronomy. In order to manage all the information that will be present in the corpus and to facilitate linguists the gathering of data, a corpus management tool, the Coruña Corpus Tool (CCT) has been developed in collaboration with the IRLab of the University of A Coruña. In this demo we would like to present to the natural language processing community the main characteristics of the corpus compilation process and its management tool. ∗ Acknowledgements: The research which is here reported on has been funded by the Xunta de Galicia through its Dirección Xeral de Investigación e Desenvolvemento, grant number PGIDIT03PXIB10402PR (supervised by Isabel Moskowich-Spiegel). This grant is hereby gratefully acknowledged. The first author also has to acknowledge the funds of the “Secretarı́a de Estado de Universidades e Investigación” and FEDER (MEC TIN2005-08521-C02-02) and “Xunta de Galicia”(PGIDIT06 PXIC10501PN). ISSN: 1135-5948 The Coruña Corpus The Coruña Corpus (CC) has been designed as a tool for the study of language change in English scientific writing in general, as well as within the different scientific disciplines. Its purpose is to facilitate investigation at all linguistic levels, though, in principle, phonology is not included among our intended research topics. The CC contains English scientific texts other than medical produced between 1650 and 1900. Medical texts have been disregarded since they are being compiled by Taavitsainen and Pahta and their team in Helsinki (Taavitsainen and Pahta, 1997). Our project proposes to complement other corpora pertaining to the history of what we nowadays call ESP, such as the wellknown Corpus of Early English Correspondence, the Corpus of Early English Medical Writing, and the Lampeter Corpus of Early Modern English Tracts. From the six areas into which UNESCO divides Science and Technology we are compiling samples of texts, at the moment, from: Exact and Natural Sciences: Mathematics, Astronomy, Physics and Natural History; Agricultural Sciences and Humanities: Philosophy and History. We intend to compile the same number of samples for each scientific field in order to facilitate comparative studies. For each discipline we have selected two texts per decade, with each sample con- © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Javier Parapar y Isabel Moskowich-Spiegel Basic term search: it can be launched over the whole set of indexed documents or at individual document level. As the result of a user query all the occurrences of a word are shown. For each one the following information is available: document identifier, word position and concordance. Advanced search: a certain number of custom search characteristics are implemented to facilitate the extraction of research results: taining around 10,000 words, excluding tables, figures, formulas and graphs. 3. The Coruña Corpus Tool In order to retrieve information from the compiled data, we decided to create a corpus management tool. This software application is currently in its testing phase. It is designed to help linguists to extract and condense valuable information for their research. The Coruña Corpus Tool (CCT) is an Information Retrieval (IR) platform (see Figure 1) where the indexed textual repository is the set of compiled documents that constitutes the CC. The texts that conform the CC we- Wild card use: the inclusion of wild card characters are allowed to specify the searching of spelling variations of the same form along time. Regular expression searching: to allow searching using patterns, it is useful for example to search by suffixes or prefixes. Phrase search: combinations of words can be specified as a query indicating the gap between the words. This can be used for instance to look for expressions or verbal forms. Term list generation: generation of lexicon lists of the whole corpus or inside each document (as chosen). An alphabetical sorted list of words with the number of appearances is generated filtered by the user criteria. Figura 1: A snapshot of the application. 4. re coded and stored as XML documents. We chose to tag the information following the recommendations of the TEI (Text Encoding Initiative) (Sperberg-McQueen and Burnard, 2002) standard. Several tagged fields that we desire to index are extracted from the documents. In this sense we have to notice that we build a multi-field index to allow searches using different criteria; we store, for instance, information about authors, date, scientific field, corpus document identifier, etc. It is fair to mention here that we used some existing open-source libraries for the system implementation. Among them we would like to mention Lucene: it is an indexing library (Apache, 2007) widely used in the development of IR applications. 3.1. Conclusions As previously explained, the CC is still a work in progress. We have a lot of text to compile and codify yet. But the CCT is designed to be scalable and adaptable to the new needs of the corpus compilation process. The CCT is currently an option to manage any TEI encoded corpus and offers the features more often demanded by linguists. References Apache, Foundation. 2007. http://lucene.apache.org/. Lucene: Sperberg-McQueen, C. M. and L. Burnard. 2002. TEI P4: Guidelines for electronic text encoding and interchange. In Text Encoding Initiative Consortium. XML Version: Oxford, Providence, Charlottesville, Bergen. Features The system offers among others the next functionalities: Document validation: if the document is not correctly constructed according to the DTD rules, the syntax validator will show the coders the errors present in the document so they can be fixed. Taavitsainen, Irma and Päivi Pahta. 1997. Corpus of early english medical. In ICAME ’97: Proceedings of the International Computer Archive of Modern and Medieval English Conference, pages 71–78. Kluwer Academic Print on Demand. 290 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 291-292 recibido 18-05-2007; aceptado 22-06-2007 WebJspell an online morphological analyser and spell checker Rui Vilela Universidade do Minho, Departamento de Informática Campus de Gualtar 4710-057 Braga, Portugal ruivilela@di.uminho.pt Resumen: Webjspell es una herramienta multiusos para Internet destinada al análisis morfológico y corrección ortográfica de textos escritos en portugués. Además de estas funcionalidades provee: ejemplos de frases, tablas de conjugación verbal, sugerencia de palabras ante eventuales errores ortográficos y corrección ortográfica de páginas de Internet. En esta comunicación se describe las caracterı́sticas de Webjspell y las posibles extensiones de sus técnicas a otras aplicaciones. Palabras clave: corrección ortográfica, analizador morfológico. Abstract: Webjspell is an Internet multipurpose tool for Portuguese morphological analysis and spell checking. It provides examples of phrases, frequencies, verbal conjugation tables, word suggestions, and Internet pages spell checking. This article describes Webjspell features, and results. Keywords: spell checking, morphology analysis. 1 Introduction People have compulsion for auto-evaluate and improve their written production. There is a wide range of available linguistics resources, paper or digital, helping all people to outshine their language knowledge. All people, especially when they study foreign languages, have need for more online resources to leverage their language understanding, due to sparse and more expensive resources. Webjspell was developed as solution for this problem, especially within the Portuguese language domain, making attainable a morphological analyser and a spell checker. 2 Webjspell Webjspell was developed to spread the usage of the morphological analyser Jspell to a wider audience. Available online on http: //linguateca.di.uminho.pt/jspell. It was developed in collaboration of Natura Project1 and Linguateca2 to have a broader and more user-friendly interface. Development was made using Perl language and the available Jspell module. (Simões y Almeida, 2001) Jspell and Portuguese dictionary were developed in 1994 by José João de Almeida 1 2 http://natura.di.uminho.pt http://www.linguateca.pt ISSN: 1135-5948 and Ulisses Pinto (Almeida y Pinto, 1995), based on Ispell spell checker for UNIX environment. Is an interactive command line application for analyzing mainly words in text files. The Portuguese dictionary is currently used along other available open source applications, such as Firefox, Thunderbird, and OpenOffice. Along with diverse usage for different kinds of research projects. Webjspell adds additional features, by using Jspell Perl interface. Beyond a new interactive interface, it uses public domain services and logging. On his foundations, it is divided in four services: morphological analysis, spell checking, Internet web pages spell checking, and word feedback or suggestion. 3 Morphological analyser The morphological analyser, in figure 1, has a bigger notability than other available services. For each of the given words and languages, the program obtains a morphological and semantic classification. Improvements were made over the original Jspell, such as: Verbose morphological classification; Inflected words stem from lemmas; Phrase examples from public corpora, Word frequencies; Suggestions; Feedback; Verb conjugation tables; Further improvements are planned for extending some features, like external online © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Rui Vilela Figure 1: Morphological analysis tained feedback for self-improvement of diverse dictionaries. Since the application was released, it has more than 2400 searches per month, along with an explosion of the number of word suggestions for the dictionaries, positively contributed for increasing the quality and precision of several dictionaries. All words, especially the ones that Jspell is unable to identify are kept for later analysis. This method brings advantages in identifying typical user errors and new words. Assorted problems were mended, as much in features, as in interface, including the Perl interface and Jspell. Webjspell contributes to the dictionary development, on which depend several text processing applications. service usage, such as: language translation, word definition, and thesaurus capability. 3.1 Spell Checker The spell checker aids the user to discover and fix misspelled words, with resource to word suggestion. Colours are used to mark errors, fixes, and also to identify foreign words. Webjspell enhances some of the features of Jspell module, such has missing spaces, hyphens and in conversely way. Further preferment can be implemented, like the use of patterns for common phonetical errors, better exploitation of Jspell morphological capabilities for finding simple grammatical errors, along with filtered suggestions, and duplicated word detection. 3.2 Bibliografı́a Web pages spell checker Almeida, J.J. y Ulisses Pinto. 1995. Jspell – um módulo para análise léxica genérica de linguagem natural. En Actas do X Encontro da Associação Portuguesa de Linguı́stica, páginas 1–15, Évora 1994. It allows for a given Internet address, to search spelling mistakes, the program edits locally the page, and marks with colours the unknown and foreign words in other supported dictionaries. 3.3 Simões, Alberto Manuel y José João Almeida. 2001. jspell.pm – um módulo de análise morfológica para uso em processamento de linguagem natural. En Actas da Associação Portuguesa de Linguı́stica, páginas 485–495. Word suggestions A interface that allows users to submit a wish list of words, that could be or not included in the dictionary. 4 Final considerations The Webjspell results after some months on the wild, becomes worthy to analyze the ob292 PROYECTOS Procesamiento del Lenguaje Natural, nº39 (2007), pp. 295-296 recibido 06-06-2007; aceptado 22-06-2007 El proyecto Gari-Coter∗ en el seno del proyecto RICOTERM2∗∗ Fco. Mario Barcala Rodrı́guez y Eva M.a Domı́nguez Noya Centro Ramón Piñeiro para a Investigación en Humanidades {fbarcala,edomin}@cirp.es Pablo Gamallo Otero y Marisol López Martı́nez y Eduardo Miguel Moscoso Mato y Guillermo Rojo y Marı́a Paula Santalla del Rı́o y Susana Sotelo Docı́o Universidade de Santiago de Compostela {pablogam, fgmarsol, fgmato, guillermo.rojo, fesdocio}@usc.es Resumen: Descripción del proyecto Gari-Coter para la elaboración de los recursos lingüı́sticos en gallego necesarios para un re-elaborador de consultas multilingüe. Palabras clave: expansión de consultas, corpus, base de datos terminológica, extracción automática de términos Abstract: Description of the Gari-Coter project for the development of the necessary linguistic resources in Galician for a multilingual query re-elaborator. Keywords: query expansion, corpus, terminological database, automatic terminology extraction 1. Situación actual 2. Como se ha indicado en la nota de agradecimiento adjunta al acrónimo del proyecto incluido en el tı́tulo, éste se ha venido desarrollando desde 2004, y su cierre está previsto para finales de 2007. Dos años y medio, por tanto, lleva el proyecto en curso, por lo cual lo que incluimos aquı́ es una presentación esquemática de lo que se proponı́a, ası́ como de algunos de sus, ahora ya, resultados de hecho, a falta de un sexto de tiempo de desarrollo del proyecto. Lo que queda del mismo, por otra parte, es previsible que se dedique a la integración de los recursos y herramientas generados en el seno de cada uno de los subproyectos que integran el proyecto coordinado RICOTERM2, el propio Gari-Coter, y el subproyecto, del mismo nombre que el coordinado, RICOTERM21 . ∗ Creación e integración multilingüe de recursos terminológicos en gallego para Recuperación de Información mediante estrategias de control terminológico y discursivo en ámbitos comunicativos especializados. Subproyecto financiado, bajo la dirección de M.a Paula Santalla, por el Ministerio de Educación y Ciencia entre 2004 y 2007 (HUM2004-05658-C02-02/FILO). ∗∗ Control terminológico y discursivo para la recuperación de información en ámbitos comunicativos especializados, mediante recursos lingüı́sticos especı́ficos y un reelaborador de consultas. Proyecto coordinado financiado, bajo la dirección de Mercè Lorente Casafont, por el Ministerio de Educación y Ciencia entre 2004 y 2007 (HUM2004-05658-C02-00/FILO). ISSN: 1135-5948 El subproyecto Gari-Coter en el seno del proyecto coordinado RICOTERM2 El proyecto coordinado RICOTERM2 tiene como objetivo principal el desarrollo de un prototipo para un sistema multilingüe de reformulación de consultas planteadas por usuarios de Internet interesados en la búsqueda de información acerca de un ámbito comunicativo especializado, en nuestro caso, economı́a. El sistema se integrará, como se describe en (Lorente, 2005), en una aplicación que consistirá en una interfaz, ubicada en un portal web especializado en economı́a, para la transformación de consultas simples en consultas multilingües expandidas lingüı́stica y conceptualmente. Actualmente las lenguas de trabajo son el catalán, el castellano, el gallego, el inglés y el vasco. El diseño general del prototipo está también descrito en (Lorente, 2005): baste aquı́, para que puedan ser cabalmente entendidos los objetivos especı́ficos del subproyecto Gari-Coter, indicar que, con el propósito de mejorar los resultados de las aplicaciones implicadas de Recuperación de Información mediante técnicas de expansión de consultas, el proyecto utiliza métodos tanto de expansión únicamente por términos (only-term expansion) como de expansión de texto completo (full-text expansion). Para lo primero, se hará uso de una ontologı́a del dominio. Para lo segundo, de un corpus especı́fico de economı́a, estructural y lingüı́sticamen- © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo et al. pio sistema de etiquetación. Toda la anotación del corpus genérico fue corregida manualmente. te anotado, el cual habrá de servir para, mediante el recurso a herramientas como extractores automáticos de terminologı́a y similares, detectar colocaciones o fraseologı́a propia de los términos introducidos por el propio usuario, u obtenidos tras la consulta a la ontologı́a. Dentro de este planteamiento general, el proyecto Gari-Coter (aparte de objetivos compartidos, relacionados, como puede suponerse, con el diseño y la integración de todo lo producido en una aplicación web) tiene como objetivos propios la constitución de los recursos para el gallego: un corpus de economı́a, adecuadamente codificado y anotado, adaptando para ello herramientas de procesamiento existentes para el gallego, y un banco de datos terminológicos, obtenido a partir de recursos previos y de la explotación del propio corpus constituido. A falta de algo más de seis meses para la finalización del proyecto, estos recursos han podido ser elaborados en la forma y dimensión que someramente describimos a continuación. 2.1. 2.2. El banco de datos terminológico El banco de datos terminológico se ha elaborado a partir, por un lado, de recursos previos que constituı́an fuentes considerablemente heterogéneas3 en cuanto a calidad, dimensión y fiabilidad: dos diccionarios, dos glosarios electrónicos y la sección de economı́a de una base de datos terminológica, ésta última la más rica y rigurosa sin duda. Actualmente, el banco de datos consta de 6046 términos del dominio económico obtenidos por esta vı́a, la mayorı́a de ellos asociados a información exhaustiva acerca del lema, la clase de palabras y la definición, ası́ como, en la mayorı́a de los casos, equivalentes en otras lenguas e información sobre sinónimos e hiperónimos. El conjunto de términos descrito, asi como el corpus, se han utilizado además para, mediante técnicas de extracción automática de términos multipalabra basadas en medidas de similitud contextual, ampliar el banco de datos terminológico. En la última de las experiencias llevadas a cabo 740 términos multipalabra pudieron obtenerse, pero los resultados de precisión asociados, debidos sin duda al reducido tamaño del corpus, aconsejan, cuanto menos, una revisión manual de los mismos. El corpus Como para todas las lenguas implicadas en el proyecto RICOTERM2, no uno sino, en realidad, dos subcorpus de dominio han sido desarrollados para el gallego: un subcorpus genérico y uno especı́fico. El primero integrado por 609 noticias de periódico que suman 206510 palabras distribuidas en 7892 oraciones. El segundo integrado por 14 libros y dos revistas especializadas que entre todos suman 801702 palabras distribuidas en 34588 oraciones. Ambos corpus están codificados utilizando el estándar XML. Cada documento consta de una cabecera con información bibliográfica y de contenido, seguida ésta del documento mismo, estructurado hasta el nivel de la oración. Ambos corpus, asimismo, han sido anotados morfosintácticamente con información acerca de clase de palabras y categorı́as flexivas consideradas relevantes. En lı́nea con los planteamientos generales del proyecto coordinado (búsqueda y aprovechamiento de recursos preexistentes), para la constitución de ambos corpus llegamos a un acuerdo con el Centro Ramón Piñeiro para a Investigación en Humanidades2 , que nos cedió los textos procedentes del corpus CORGA, Corpus de Referencia del Gallego Actual, procesados lingüı́sticamente con su pro- Notas 1 Con el mismo acrónimo y nombre que el proyecto coordinado, financiado por el Ministerio de Educación y Ciencia entre 2004 y 2007, y dirigido por Mercè Lorente (HUM2004-05658-C02-01/FILO). 2 http://www.cirp.es. [Consultado: 6, junio, 2007]. 3 Eiras: Eiras Rey, A.: Dicionario de economı́a, no publicado. Formoso: Formoso Gosende, V. (coord.) (1997): Diccionario de termos económicos e empresariais galego-castelán-inglés. Santiago de Compostela: Confederación de Empresarios de Galicia. Panlatin Electronic Commerce Glossary: http://fon.gs/panlatino. Glossary about commerce from galego.org: http://galego.org/vocabularios/ccomercial.html. SNL: http://www.usc.es/en/servizos/portadas/snl.jsp. Bibliografı́a Lorente, M. 2005. Ontologı́a sobre economı́a y recuperación de información [en lı́nea]. Hipertext.net, (3). http://www.hipertext.net. [Consultado: 30, enero, 2007]. 296 Procesamiento del Lenguaje Natural, nº39 (2007), pp. 297-298 recibido 18-05-2007; aceptado 22-06-2007 Portal da Língua Portuguesa Maarten Janssen Institúto de Linguística Teórica e Computacional (ILTEC) Rua Conde de Redondo 74-5, Lisboa, Portugal maarten@iltec.pt Resumen: El objetivo del proyecto Portal da Língua Portuguesa es construir, con un doble objetivo, un juego de recursos léxicos. En primer lugar, estos recursos sirven como fuente de información para una página web sobre la lengua portuguesa para el público en general. En segundo lugar, son un repositorio de información léxica para la investigación lingüística. El dibujo de la base de datos es modular y relacional, y se hizo de modo que proporcione soluciones estructurales para problemas léxicos, como son los de la homonimia, variación ortográfica, etc. Palabras clave: Base de datos léxica, morfología, fonética. Abstract: The goal of the Portal da Língua Portuguesa project is to construe a set of lexical resources with a double objective. On the one hand, the resources serve as the content source for a web site about the Portuguese language, aimed at the general public. On the other hand, the resources are built to serve as an open source repository of lexical information for linguistic research. The design of the database is modular and relational, and is set-up in such a way that it provides structural solutions for lexical difficulties like homonymy, orthographic variation, etc. Keywords: Lexical database, morphology, phonetics 1 Project Description The Portal da Língua Portuguesa (henceforth Portal) is a free, large scale online resources on the Portuguese language, currently under development at the ILTEC institute in Lisbon, Portugal. It has a primary focus on lexical information, and is designed for the general language user. Although the Portal is the visible outlet of the Portal project, the goal of the project itself is moreover to create a set of lexical resources which, apart from their online availability, will serve as open source data for linguistic research. The project started from lexical database called MorDebe, which primarily concerns inflectional morphology. But the database is currently being transformed into an Open Source Lexical Information Network (OSLIN), which contains a much wider, open-ended range of lexical information. Additional types of lexical information currently under development are inherent inflections, pronunciation, and syllabification. The Portal project itself is internally supported by the ILTEC institute, and has no ISSN: 1135-5948 strict delimitation. Work on the MorDebe database was started mid 2004, and the web site was launched in November 2006. The web site is intended to continue for an undetermined amount of time. The project has two full-time FCT-funded scholars assigned to it for a period of 3 years, starting from September 2006. The project is enforced by satellite projects, which deal with specific parts of the database. A twoyear project on the improvement and exploration of the derivational data in OSLIN will start in October 2007, and run for two years. 2 2.1 OSLIN Design Main database The main database of OSLIN (MorDebe) consists of a simple two-table structure, one table with lemmas, the other with the related word-forms. The lemma list consists of two parts – on the one hand, it contains the lemmas from the two major Portuguese dictionaries, and on the other hand, it contains words with a significant frequency in newspapers. In both © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural Maarten Janssen parts of the database, a strict lexicographic control is kept over the data, with a significant amount of human intervention, using computeraided methods. The total number of lemmas at this moment is around 130k, with constant additions being made, and well over 1,5M word-forms. Although the MorDebe database was set-up for Portuguese, its design is largely language independent. The set of word classes and inflectional forms is determined in a separate database, and can easily be modified to accommodate languages with rich nominal inflection, or with other fundamental word classes. only the lexical information from the MorDebe database, but also information on legislation, a dictionary of linguistic terms, a repository of online resources on Portuguese other than the Portal itself, and a collection of easy texts concerning the Portuguese language. With the current content, the web site already attracts some 1000 visitors each day, mainly language professionals such as translators and writers, and that number is steadily rising. The use of the MorDebe data in an online service for the general public provides an excellent additional motivation for the creation of the lexical resources, and even opens up the possibility of commercial sponsoring. 2.2 2.4 Inherent Inflection In the database, inherent inflection (Janssen, 2005) are modelled in terms of relations between lemmas, using relations similar to those in the Meaning-Text Theory (Mel’cuk, 1993) called inflectional functions. With these inflectional functions, verbs are related to their deverbal nouns (s0v), adjectives to their synthetic superlative (sup), etc. The inherent inflection database is still under construction, and contains currently over 20.000 derivational forms. It is planned to feature the complete set of all dictionarized inherent inflections within the scope of a year. There are two types of relations that are modelled in a way similar to inherent inflections, but are of a different nature. The first is a separate database of gentiles: all nouns and adjectives indicating people or objects from a specific space or region are relationally marked as such. The difference with inherent inflection is that toponyms are not lemmas, and are stored in a separate database of proper names. The complete set of all over 3000 dictionarized gentiles has been modelled in this fashion. The second special type of ‘inflectional function’ is the relation between orthographic variants. Orthographic variation is traditionally seen as an intra-word phenomenon. But the explicit modelling of inflectional paradigms makes it necessary to keep the different variants apart and interrelate them with a relation (Janssen, 2006). 2.3 Modular Design The design of the OSLIN database is fully modular: each additional type of information is modelled in a separate database, linked to one of the existing tables, currently either the wordforms or the lemmas. This design makes it easy to extend the database with additional types of information. The main resource currently under development is a database of IPA transcriptions for all lemmas in the database, but various other types of information are under investigation. At this time, there are no plans to add semantic entities, merely due to lack of resources, not because the framework does not allow it. Ideally, the framework would be extended to other languages besides Portuguese in the near future. Using the same set-up for various language would not only allow reusing the existing tools, but also make it possible create cross-linguistic relations. Bibliografía Janssen, Maarten. 2005. “Between Inflection and Derivation: Paradigmatic Lexical Functions in Morphological Databases”. En East West Encounter: second international conference on Meaning - Text Theory, Moscow, Russia. Janssen, Maarten. 2006. “Orthographic Variation in Lexical Databases”. En Proceedings of EURALEX 2005, Turin, Italy. Mel’cuk, Igor A. 1993. The Future of the Lexicon in Linguistic Description. En IkWan Lee (ed.) Linguistics in the Morning Calm 3: Selected papers from SICOL-1992. Korea: Seoul. Web Site Design The web-site of the Portal provides (or will provide) five different types of information: not 298 Índice de Autores Alegria, Iñaki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Almeida, José João . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Alonso, Laura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Alonso, Miguel A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Arcas-Túnez, Francisco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Armentano-Oller, Carme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 Artola, Xabier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Barcala, Fco. Mario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 Barreiro, Álvaro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 Bel, Núria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Bengoetxea, Kepa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Bischoff, Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Borrego, Rafael . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Callejas, Zoraida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Castellón, Irene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Castro, María José . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 Cerva, Petr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Coria, Sergio R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 Corpas, Gloria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 Cruz, Fermín . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 de Pablo-Sánchez, César . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Díaz de Ilarraza, Arantza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Díaz, Manuel Carlos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Díaz, Víctor J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Domínguez, Eva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 Duran, Jordi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 Enríquez, Fernando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Errecalde, Marcelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Escapa, Alberto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Ferrández, Antonio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Forcada, Mikel L. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 Gamallo, Pablo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241,295 García, Oscar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 García, Fernando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 Gervás, Pablo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181,285 Gojenola, Koldo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Gómez-Rodríguez, Carlos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Griol, David . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231,283 Herrera, Jesús . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37,181,285 Hulden, Mans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Hurtado, Lluis F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231,283 Ingaramo, Diego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Izquierdo-Bevia, Rubén . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Janssen, Maarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 Kozareva, Zornitsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Llopis, Fernando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 López, Marisol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 López-Cózar, Ramón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Macías, Javier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Marimon, Montserrat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Marrero, Mónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 Martí, Antonia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205,279 Martín, José Luis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Martín, María Teresa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Martínez, Paloma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Martínez-Barco, Patricio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Montejo, Arturo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Montoyo, Andrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Morato, Jorge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 Moreiro, J. Antonio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 Moriano, Pedro J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181,285 Moscoso, E. Miguel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 Moskowich-Spiegel, Isabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 Muñoz, Alfonso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181,285 Nazar, Rogelio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Noguera, Elisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Nouza, Jan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 O'Donnell, Michael . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 Ortega, F. Javier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Padró, Lluis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89,105 Padró, Muntsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Palazuelos, Sira E. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Parapar, Javier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287,289 Pascual, Ismael . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 Peñas, Anselmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Perea, Pilar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 Perekrestenko, Alexander . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Pérez-Ortiz, Juan Antonio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 Periñán-Pascual, Carlos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Pichel, José Ramom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 Pineda, Luis Alberto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .