MICE

Anuncio
MICE, un recurso para la resolución de la anáfora
Montserrat Arévalo
CLiC
montse@clic.fil.ub.es
La resolución de la anáfora es uno de los problemas más importantes en PLN. Entre los
distintos tipos de expresiones anafóricas existentes, nosotros nos centraremos en los sintagmas
nominales definidos. Presentaremos el MICE, Módulo de Identificación y Clasificación de
Entidades, una gramática implementada en TACAT, compuesta por una serie de reglas
sintácticas que reconocen sintagmas definidos referidos a entidades con nombre (EN).
Expondremos el formalismo utilizado para la construcción de la gramática, explicando la
metodología llevada a cabo para su creación de las reglas; las líneas de trabajo futuras y las
contribuciones que un módulo como éste puede aportar a la resolución de la anáfora.
MICE forma parte del sistema de tratamiento de información textual de CLiC-TALP1.
Actúa con posterioridad al análisis morfológico y resuelve, de cara al análisis sintáctico
superficial, el tratamiento de sintagmas nominales definidos que hacen referencia a EN. La
gramática identifica y recategoriza EN que han sido detectadas sólo parcialmente en los
procesos anteriores, ampliando el marco de análisis al sintagma nominal completo que hace
referencia a una EN2.
En nuestro sistema tenemos en cuenta información morfológica y semántica. Los
sintagmas que se van a reconocer con MICE se caracterizan por contener un nombre propio, ya
detectado en procesos anteriores, o una palabra disparadora. Las palabras disparadoras son
aquellas que suelen aparecer en el contexto de las entidades con nombre y que indican que a
continuación, probablemente, haya un candidato a EN Hemos asociado estas palabras a una
clasificación tipológica de entidades, organizada de forma jerárquica, por lo que a la vez que
facilitan la detección de EN, también permiten asignarles un tipo semántico.
A partir de esta clasificación de entidades, estamos llevando a cabo un estudio de las
descripciones definidas según la clase a la que pertenecen y sobre los corpus de los que dispone
CLiC3. Básicamente esta tarea consiste en extraer y observar los patrones sintácticos en los que
suelen aparecer las palabras disparadoras. De esta forma detectamos cual es el patrón más
frecuente e inferimos las reglas gramaticales de MICE.
1
El Centre de Llenguatge i Computació (CLiC) colabora con el grupo TALP, grupo de Llenguatges i Sistemes de la
Universitat Politècnica de Catalunya, en distintos proyectos y en el desarrollo de dicho sistema.
2 En el caso de "el presidente de la Cámara de Comercio", un sistema de Extracción de Información típico extraería el
nombre propio "Cámara de Comercio" como nombre de organización, cuando en realidad la entidad implicada en la
acción es una persona. Con MICE reconoceríamos todo el sintagma "el presidente de la Cámara de Comercio" y
habríamos detectado el género, el número y la clase semántica de la entidad.
3 Más concretamente estamos trabajando sobre el corpus de la Agencia EFE, corpus cedido para ser utilizado para la
investigación, que ha sido etiquetado morfológicamente y en el que se han revisado y etiquetado las entidades con
nombre según las etiquetas del MUC.
El formalismo utilizado para la gramática ha sido TACAT (Atserias et al. 1998), una
gramática independiente del contexto, elegida por tratarse de un formalismo ya utilizado en el
sistema CLIC-TALP para el análisis sintáctico superficial. Esta elección ha implicado tratar las
palabras disparadoras como literales. Las reglas son una combinación de las etiquetas
morfosintácticas (EAGLES) que utiliza el analizador morfológico, de las palabras disparadoras
y de las etiquetas de las EN.
De cara a mejorar el sistema, estamos siguiendo diversas líneas de trabajo:

ampliar la cobertura de la gramática (que actualmente reconoce entidades
que hacen referencia a personas y organizaciones), con la incorporación de
nuevas clases;

mejorar la clasificación de aquellos sintagmas en los aparecen palabras
disparadoras ambiguas;

trabajar en la mejora del análisis morfológico de ciertos elementos como
son las abreviaturas que acompañan a organizaciones (S.A., S.L., Hnos, Inc.
etc.) ;

favorecer la transportabilidad a otras lenguas (por ejemplo, catalán e
inglés). Esta tarea será relativamente sencilla puesto que CLiC está
adaptando los tres analizadores para que tengan las mismas etiquetas
morfosintácticas. Para llevarlo a cabo, hemos asociado las palabras
disparadoras del castellano a WordNet de forma que ya tenemos las
palabras disparadoras para los otros dos idiomas con los que trabaja
CLiC4.
Uno de los mecanismos anafóricos más frecuentes es la utilización de expresiones
sinónimas (por ejemplo, presidente, director o responsable). Es aquí donde incidiría la
aportación básica de MICE: la detección y clasificación semántica de posibles expresiones
correferentes. Esta es otra de las razones por las que hemos asociado las palabras disparadoras
con WordNet, ya que nos permitirá encontrar sinónimos/hiperónimos correferentes de una
misma palabra. El siguiente paso será crear un sistema que aprovechara el conocimiento
lingüístico aportado por MICE, por ejemplo, mediante la creación de restricciones o
preferencias5.
4
De hecho ya se ha hecho una primera prueba traduciendo al catalán tan sólo un par de palabras disparadoras (sin
modificar ninguna regla) y los resultados parecen demostrar que la transportabilidad es del todo viable. La estructura
sintáctica de los sintagmas nominales definidos en catalán es casi idéntica al castellano.
5 Un ejemplo de preferencia sería tener en cuenta que si en un mismo documento coinciden varios elementos que
podrían ser correferentes puesto que pertenecen al mismo tipo semántico, dar prioridad a aquellos elementos que
también coincidan en género y número.
Descargar