An Event-driven Approach

Anuncio
356
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 1, JAN. 2016
Learning Discourse Relations from News
Reports: An Event-driven Approach
J. A. Reyes and A. Montes
1
Abstract— Nowadays, technologies allows us to store large
volumes of information in different formats. It represents a
challenge due to the lack of semantic in retrieval and extraction
process of information efficiently. A possible strategy is to
transform unstructured information into structured data. In
recent years, ontologies have been widely used as an alternative
to represent structured data from texts. This paper presents a
new approach based on linguistic markers for ontology learning
and population by considering cognitive aspects in order identify
discourse relations between events from news reports. The main
idea is to find concepts (event type), discourse relations
(ontological relations) between events and class instances (real
events). Our approach shows promising results for learning
discourse relations in terms of F-measure.
Keywords— discourse relations, ontology learning, eventdriven learning, linguistics markers.
E
I. INTRODUCCIÓN
N los últimos años, la tecnología ha permitido almacenar
grandes volúmenes de información estructurada y no
estructurada. Actualmente, las herramientas para buscar y
acceder a la información utilizan métodos de Inteligencia
Artificial. Para la información no estructurada, como el texto,
las áreas de Procesamiento de Lenguaje Natural, Extracción y
Recuperación de Información tienen el reto de considerar
aspectos semánticos para ofrecer información más pertinente.
Algunos métodos recurren a modelos de representación de
conocimiento para convertir información no estructurada en
datos estructurados, como las ontologías. Según [1], las
ontologías poseen características significativas que las
posicionan en una de las formas de representación más
utilizada primero en la Web, ahora en cualquier medio
electrónico. Sus componentes básicos son: conceptos,
relaciones, funciones, instancias y axiomas. El objetivo
principal del aprendizaje automático de ontologías a partir de
texto es encontrar, de manera automática o semiautomática,
dichos componentes [2]. Los enfoques más utilizados en el
aprendizaje de ontologías a partir de texto se basan en:
patrones ([3], [4] y [5]), métodos estadísticos ([6] y [7]),
heurísticas o reglas ([8] y [9]) o una combinación de varios
enfoques ([10] y [11]).
El presente trabajo está enmarcado en un enfoque basado en
patrones lingüísticos y además, considera un aspecto cognitivo
1
J. A. Reyes, Departamento de Sistemas de la División de Ciencias Básicas
e Ingeniería, Universidad Autónoma Metropolitana Azcapotzalco (UAM),
Distrito Federal, México, jaro@correo.azc.uam.mx
A. Montes, Grupo de Ingeniería Lingüística, Instituto de Ingeniería de la
Universidad Nacional Autónoma de México (UNAM), Distrito Federal,
México, AMontesR@iingen.unam.mx
para modelar el concepto de evento. Este modelado considera
sus características principales para garantizar un aprendizaje
ontológico de conceptos y relaciones en el dominio de noticias
[12]. El análisis automático de textos de noticias exige, más
allá de la descripción de eventos, encontrar relaciones entre
ellos. Las relaciones discursivas [13] ayudan a enlazar
segmentos de texto y mantener la coherencia en el discurso,
además, otorgan semántica y un orden lógico entre las
oraciones de un texto. El presente trabajo considera las
relaciones discursivas como las relaciones que asocian
eventos.
La identificación automática de las relaciones discursivas se
ha abordado desde un enfoque de aprendizaje automático,
como en [14] y [15] o utilizando marcadores epistémicos
([16]) para el inglés. En textos en español, esta identificación
ha sido una tarea poco estudiada, sin embargo, ya se ha
considerado la segmentación de relaciones retóricas en el
marco de la RST en el trabajo presentado en [17].
Por lo tanto, en este artículo nos centramos en doce
relaciones discursivas, con la finalidad de identificarlas, de
manera automática, a partir de reportes de noticias en español,
utilizando marcadores lingüísticos. El descubrimiento de estas
relaciones conecta el discurso de los eventos, otorgando
semántica y orden lógico, el cual queda representado en un
modelo ontológico dirigido por eventos. A este proceso
completo se le denomina aprendizaje de relaciones
discursivas.
El resto del artículo se organiza de la siguiente manera. En
la Sección II, se presenta la cognición de eventos, la
descripción de las relaciones discursivas y ejemplos de estas
relaciones presentes en noticias en español. La Sección III
describe un estado del arte con los trabajos relacionados a los
temas de marcadores lingüísticos, descubrimiento de
relaciones discursivas y la representación de conocimiento. La
Sección IV describe el proceso de descubrimiento de las
relaciones discursivas entre eventos en reportes de noticias en
español mediante sus marcadores lingüísticos asociados. En la
Sección V, se expone la representación del conocimiento
extraído sobre las relaciones discursivas entre eventos con el
apoyo de un modelo ontológico. La experimentación y los
resultados de la identificación de relaciones discursivas entre
eventos en términos de precisión y exhaustividad se exponen
en la Sección VI. Finalmente, se pueden encontrar las
conclusiones y el trabajo futuro en la Sección VII.
II. EVENTOS Y RELACIONES DISCURSIVAS
Un evento se define como un suceso que involucra un
cambio de estado donde intervienen aspectos locativos,
temporales y causales [18]. En [19] se expone que el mundo
REYES AND MONTES : LEARNING DISCOURSE RELATIONS FROM NEWS
contiene eventos que son el camino por el cual, los agentes
clasifican ciertos patrones de cambio que tienen propiedades
esenciales como el tiempo, los efectos y las causas. En [20],
los autores afirman que todos los eventos están dados de
acuerdo a intervalos e instantes de tiempo y que involucran
una causalidad. Por su parte, en [21] el autor afirma que un
evento es una entidad que puede involucrarse en la causalidad
y que puede ser identificado por su ubicación en una región
espacio-temporal.
Este artículo considera el concepto de evento como un
suceso, hecho o acción que se caracteriza por el espacio, el
tiempo y los actores que intervienen en él. En los textos en
español, según [22] y [23], los eventos están representados por
una frase verbal (EV) o por una nominalización (EN). En el
ejemplo (1) el evento encontraron está descrito por un verbo
conjugado (EV), mientras que en el ejemplo (2) el sustantivo
erupción describe un evento mediante la nominalización (EN).
(1) Los bomberos encontraron a una señora en la provincia
de Fukushima (Excélsior, 15/03/2011).
(2) La erupción del volcán en Hawái (Milenio, 15/03/2011).
Los eventos nominalizados son representados por
sustantivos derivados de verbos; también conocidos como
nombres de acción [24]. La nominalización consiste en la
creación de derivados nominales por sufijación, puede ser
denominal, deadjetival y deverbal [25]. Este trabajo considera
dos tipos de eventos, a saber: el núcleo verbal o la
nominalización deverbal.
La relaciones entre segmentos de discurso que mantienen
una coherencia textual, ampliamente aceptada como
relaciones discursivas [26] o relaciones de coherencia, están
presentes en el campo de los eventos como una conexión
semántica entre ellos, las cuales son conocidas como
relaciones gramaticalizadas entre eventos [27].
En la Rhetorical Structure Theory (RST) de Mann y
Thompson [13] se expone un conjunto de relaciones que
ayudan a mantener la coherencia del discurso. Esta coherencia
crea una jerarquía estructural en la que todas las partes de un
texto desempeñan y cumplen una función con respecto a otras
partes del texto.
El conjunto de relaciones que organizan un discurso no es
definitivo o exclusivo, sin embargo, las relaciones expuestas
en [13] han sido ampliamente aceptadas y estudiadas por la
comunidad científica. Este trabajo toma el conjunto de doce
relaciones discursivas y temporales debido a su presencia en la
descripción y coherencia entre los eventos. Los eventos
relacionados se consideran como evento núcleo (principal) y
evento satélite (dependiente). A continuación se presentan
estas doce relaciones discursivas.
En la relación Causa el evento satélite representa el motivo
que existe detrás del evento núcleo. El ejemplo (3) es un
extracto de una noticia que expresa esta relación, el evento
satélite es intentan recuperarse y expresa la razón por la cual
se ha llevado a cabo el evento núcleo: podría interrumpir.
(3) La empresa automotriz Honda Motor podría interrumpir
su producción en sus plantas de Norteamérica después
del 1 de abril, debido a que los proveedores japoneses
intentan recuperarse de los daños por el sismo
(Excélsior, 2011).
La relación de Resultado expresa los efectos producidos por
el evento núcleo. En el ejemplo (4) se muestra que el evento
incrementará es la consecuencia de que se lleve a cabo el
evento ha experimentado.
(4) El Cometa Holmes ha experimentado una expansión de
gas y polvo. Esto provocó que el cometa incrementara su
brillo 500 mil veces […] (El Universal, 2011).
La relación de Propósito representa la intención que existe
al realizarse el evento núcleo. En el ejemplo (5) se presenta la
relación discursiva Propósito entre el evento núcleo han
desarrollado y el evento satélite explicar, el cual indica la
intención del núcleo.
(5) También se han desarrollado modelos teóricos muy
avanzados para explicar el comportamiento de nuestra
estrella (Revista Digital Universitaria, 2009).
La relación Condición constituye la acción necesaria
(evento satélite) para que el evento núcleo pueda ocurrir. El
ejemplo (6) es un extracto de una notica médica, la cual
presenta la relación discursiva de Condición entre el evento
satélite parecían que expresa la acción necesaria para que
ocurra el evento núcleo iniciaron.
(6) […] iniciaron terapia para salvar vidas si los pacientes
parecían inestables (IntraMed, 2011).
La relación discursiva Concesión organiza los eventos con
base en una acción de inconsistencia (evento satélite) con
respecto a evento núcleo.
(7) La empresa Essa no ha frenado su producción ni ha
despedido a ninguno de los mil trabajadores, a pesar de
que las exportaciones de sal a Japón están paradas
temporalmente […] (La jornada, 2011).
El ejemplo (7) muestra una relación de Concesión, en la
cual el evento están paradas representa una acción de
inconsistencia para los eventos no ha frenado y no ha
despedido.
La relación discursiva Reformulación expresa que un
evento núcleo puede ser expresado en una acción diferente
(evento satélite), con otras palabras o de una manera diferente
sin perder el significado.
En el ejemplo (8) se muestra una relación de
Reformulación, en la cual el evento evitar en un futuro
expresa la misma idea que el evento núcleo evitar ser
irresponsables.
357
358
(8) […] evitar en un futuro posibles crisis por el
abastecimiento de agua en el estado de Jalisco; es decir,
evitar ser irresponsables con las futuras generaciones
(El Occidental, 2011).
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 1, JAN. 2016
(13) Los insurgentes afganos luchan contra el gobierno de
Kabul desde que una coalición internacional expulsó del
poder a los talibanes (La Jornada, 2011).
La relación discursiva Antítesis manifiesta un evento
satélite con significado contrastante del evento núcleo. En el
ejemplo (9) se muestra un significado de contraste del evento
ha recorrido, el cual está dado por el evento no ha
encontrado.
La relación discursiva temporal Finalización representa una
organiza temporal de los eventos desde el punto de vista que
el evento núcleo es truncado por la ocurrencia del evento
satélite. En el ejemplo (14) se muestra un extracto de una
noticia, en la cual el evento declararon ha sido finalizado por
la ocurrencia del evento aceptó.
(9) Un estudiante ha recorrido toda la ciudad de Hangzhou en
busca de sal, pero no ha encontrado en ninguna tienda
(Milenio, 2011).
(14) Los sindicatos bolivianos declararon una huelga general
hasta que el Gobierno aceptó conceder un aumento
salarial (El occidental, 2011).
La relación discursiva temporal llamada Simultaneidad
expresa que dos eventos (núcleo y satélite) ocurren al mismo
tiempo. Esta relación se muestra en el ejemplo (10) donde el
evento atacaron y apuntaban acaecen en el mismo lapso de
tiempo.
Estas doce relaciones discursivas se encuentran expresadas
en los textos con el apoyo de unidades lingüísticas que guían
el discurso, otorgan coherencia a los reportes de noticias en
español y relacionan eventos.
III. TRABAJOS RELACIONADOS
(10) Cohetes palestinos atacaron blancos en el centro de
Israel este jueves, mientras que aviones israelíes
apuntaban a objetivos en Gaza (La jornada, 2011).
La relación discursiva temporal llamada Posterioridad
organiza los eventos (núcleo y satélite) con orden temporal
secuencial, es decir que el evento núcleo sucede después del
evento satélite. Esta relación se muestra en el ejemplo (11)
donde el evento quedaron expuestas ocurre después del evento
perdió.
(11) Las barras de combustible en otro reactor en la planta
quedaron expuestas después de que la unidad perdió su
capacidad de enfriamiento (El Occidental, 2011).
La relación discursiva temporal Anterioridad organiza los
eventos (núcleo y satélite) con orden temporal secuencial
inversa, es decir que el evento núcleo sucede antes del evento
satélite. Esta relación se muestra en el ejemplo (12) donde el
evento analizará ocurre antes del evento apruebe.
(12) Nicolás Sarkozy analizará la situación de los mercados
de deuda soberana y las reformas comprometidas
antes de que el Gobierno apruebe el anteproyecto de
ley de reforma de las pensiones (El Universal, 2011).
La relación discursiva temporal Iniciación representa una
organización temporal de los eventos (núcleo y satélite),
donde se indica que el evento núcleo es iniciado a partir del
evento satélite. En el ejemplo (13) se muestra un extracto de
una noticia de un periódico mexicano, en la cual el evento
luchan se ha iniciado a partir de la ocurrencia del evento
expulsó.
Los marcadores son unidades lingüísticas invariables y no
ejercen una función sintáctica en el marco de la predicación
oracional. Estos tienen dos cometidos: guiar el discurso de
acuerdo con sus distintas propiedades morfosintácticas,
semánticas y pragmáticas; y realizar las inferencias en la
comunicación [28]. Estos marcadores son conjunciones,
adverbios, sustantivos o preposiciones que conectan dos
sentencias o cláusulas [29]. Los marcadores no sólo unen
sentencias contiguas, también vinculan las sentencias actuales
con oraciones de su contexto inmediato [30]. En [31] se
considera a los conectores como mecanismos de cohesión que
hacen referencia a relaciones de coherencia a nivel local o
global en la conversación o discurso.
El estudio de marcadores lingüísticos constituye un área de
interés creciente en la lingüística computacional debido a su
vínculo con las relaciones discursivas. Este vínculo ha sido
analizado en diversos trabajos [32], [33] y [34], en los cuales
se presenta una gran variedad de relaciones discursivas y sus
marcadores lingüísticos para textos en inglés.
Los marcadores también han sido considerados para el
diseño de sistemas de generación automática de textos [35],
[36] y [16]. Estos enfoques proponen el uso de marcadores
lingüísticos para la generación automática de textos en
diferentes lenguas. Una aportación en la investigación sobre
análisis discursivo automático en español se muestra en el
trabajo presentado en [17], donde se describe un segmentador
automático para las relaciones del marco de la Rhetorical
Structure Theory. Además, [26] ha presentado un conjunto de
variables de conectividad que describen las relaciones
discursivas del marco teórico de la RST.
Los verbos, como marcadores, juegan un papel importante
en la anotación de relaciones y propiedades de los eventos con
intervalos de tiempo, como en el trabajo expuesto en [37] que
presenta el vínculo de los verbos con las propiedades de los
eventos en términos de intervalos de tiempo.
REYES AND MONTES : LEARNING DISCOURSE RELATIONS FROM NEWS
La representación del conocimiento extraído de manera
automática a partir de textos, se ha planteado como la tarea
por medio de la cual el conocimiento queda almacenado para
su gestión en un futuro. El trabajo que se presenta en [38]
utiliza una base de conocimiento sobre objetos adaptativos,
con la finalidad de apoyar el aprendizaje a través de la
televisión digital, considerando las características de los
usuarios. Por otro lado, en [39] se presentan técnicas de
minería de datos, como algoritmos de clasificación, para
construir una base de conocimiento capaz de apoyar en el
diagnóstico de enfermedades causadas por el virus
linfotrópico.
A pesar de estos esfuerzos de representación del
conocimiento, existe una necesidad de gestionar,
eficientemente, el conocimiento mediante un modelo
ontológico para mejorar la descripción de la información y
resolver el problema de carencia de semántica que afecta la
recuperación e inferencia de la información. En este aspecto,
[40] presenta un conocimiento médico extraído de los
registros electrónicos de salud personal, representado en
ontologías, para el monitoreo y cuidados de pacientes
crónicos; [41] presenta la captura de conocimiento en un
modelo ontológico de procesos general capaz de representar
cualquier sistema de proceso de software tanto de la
organización como de modelos o estándares de calidad;
adicionalmente, en [42] se construye una ontología de
dominio para la norma ISO/IEC 24744 mediante la definición
de conceptos relacionados a la norma y usando el proceso de
la Arquitectura Dirigía por Modelos (MDA) y en [43] se
aplica una técnica de aprendizaje de ontologías con la
finalidad de procesar y representar datos, semánticamente, a
partir de los conceptos de una consulta sobre documentos no
estructurados en la Web. Por último, en [44] se realiza la
instanciación de una ontología espacial a partir de
descripciones textuales de imágenes utilizando aprendizaje
automático con características lingüísticas, tales como
etiquetado morfológico de las oraciones, roles semánticos y
relaciones de dependencias.
El reconocimiento y extracción de relaciones discursivas de
la RST, se ha abordado con enfoques para el idioma inglés.
Bajo este contexto, los trabajos presentados en [45], [46] y
[47] han propuesto enfoques automáticos y semi-automáticos,
donde utilizan diversas características sintácticas y
lingüísticas, como n-gramas de palabras, palabras contextuales
y los arboles sintácticos de las oraciones, con el propósito de
reconocer, extraer e identificar relaciones discursivas en los
textos. Estos trabajos son utilizados para comparar nuestro
enfoque debido a la utilización de las métricas de precisión,
exhaustividad y medida F en la etapa de evaluación de la
tareas de extracción de relaciones discursivas.
En este artículo, confiamos en las ontologías como medio
de representación debido a su capacidad para agregar
semántica a la información. Por ello, se identifican los
marcadores lingüísticos que caracterizan las doce relaciones
discursivas con la finalidad de descubrir los eventos
conectados en el discurso de un reporte periodístico en
359
español y representar dichas relaciones en un modelo
ontológico general de eventos.
IV. DESCUBRIMIENTO DE RELACIONES
DISCURSIVAS
Los eventos, con sus propiedades (tiempo, espacio y
actores) presentes en los textos de reportes de noticias en
español, fueron anotados mediante un método de aprendizaje
automático, utilizando características sintácticas, semánticas y
contextuales, el cual se describe en [12]. A partir de estos
eventos, se lleva a cabo el descubrimiento de relaciones
discursivas entre ellos. Para ello, se identifican los marcadores
lingüísticos que caracterizan las doce relaciones discursivas.
La caracterización de las relaciones ha sido realizada sobre
el conjunto de sus marcadores lingüísticos mediante un
aprendizaje supervisado a partir de dos corpus para el español.
El primer corpus, llamado RST Spanish Treebank [48], consta
de 351 documentos especializados en español, el cual está
anotado por expertos con relaciones discursivas entre eventos.
El segundo corpus es una colección de textos de reportes
periodísticos, los cuales provienen de cinco periódicos
mexicanos electrónicos: El universal, Excélsior, La jornada,
Milenio, El occidental e IntraMed. Este corpus consta de 1580
reportes de noticias acaecidas entre el 01 de marzo de 2011 y
el 15 de noviembre de 2011, el cual fue anotado con
relaciones discursivas entre los eventos.
A partir de estos conjuntos de documentos, un total de 1151
son utilizadas para la etapa de aprendizaje de los marcadores
lingüísticos en cada relación discursiva. El resto de los textos
junto con sus 573 relaciones discursivas son utilizados para la
evaluación.
Diversos conjuntos de marcadores lingüísticos fueron
identificados para cada relación discursiva: para la relación
causa se encontraron 18 marcadores lingüísticos; 22
marcadores lingüísticos para la relación resultado; 14
marcadores lingüísticos para la relación propósito; un total de
12 marcadores para la relación concesión; 10 marcadores para
la relación condicional; 12 marcadores lingüísticos para la
relación reformulación; un total de 13 marcadores para la
relación antítesis; 17 marcadores lingüísticos para la relación
simultaneidad;
22
marcadores
lingüísticos
fueron
identificados para la relación posterioridad; y para las
relaciones de anterioridad, iniciación y finalización fueron
identificados 15, 16 y 7 marcadores respectivamente. En la
Tabla I se muestran los tres marcadores lingüísticos más
frecuentes para cada relación discursiva.
Los marcadores lingüísticos más frecuentes se consideran
como las características relevantes para cada relación. Sin
embargo, no se puede descartar el resto de marcadores sin
afectar la precisión y exhaustividad de la tarea de aprendizaje
(extracción y representación) de relaciones discursivas entre
eventos.
Los marcadores lingüísticos señalan la presencia de una
relación discursiva entre dos eventos, sin embargo, existen
problemas del lenguaje como la polisemia que afecta esta
señalización y por consecuencia la tarea de descubrimiento de
relaciones. El efecto de este fenómeno se observa en los
360
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 1, JAN. 2016
resultados de la evaluación, específicamente en las relaciones
Causa y Resultado.
TABLA I. LOS MARCADORES LINGÜÍSTICOS MÁS FRECUENTES
PARA LAS RELACIONES DISCURSIVAS.
RELACIÓN
MARCADORES LINGÜÍSTICOS
DISCURSIVA
CAUSA
(EV|EN)(debido a | porque | causado
por)(EV|EN)
RESULTADO
(EV|EN)(lo que | causar |
provocar)(EV|EN)
PROPÓSITO
(EV|EN) (para + verbo infinitivo, con la
finalidad de, con el fin de)(EV|EN)
CONCESIÓN
(EV|EN) (si bien | a pesar de | aun
cuando)(EV|EN)
CONDICIONAL
(EV|EN) (si | siempre que | una vez
que)(EV|EN)
REFORMULACIÓN
(EV|EN) (esto es | es decir | en el sentido
de)(EV|EN)
ANTÍTESIS
(EV|EN)( pero | sin embargo | mientras
que)(EV|EN)
SIMULTANEIDAD
(EV|EN)(cuando | durante | mientras que )
(EV|EN)
POSTERIORIDAD
(EV|EN)(después de que | luego de que |
posteriormente)(EV|EN)
ANTERIORIDAD
(EV|EN)(antes de que | anterior a |
anteriormente)(EV|EN)
INICIACIÓN
(EV|EN)(a partir de que | en cuanto | desde
que ) (EV|EN)
FINALIZACIÓN
(EV|EN)( hasta | hasta que | hasta que se )
(EV|EN)
El conocimiento extraído sobre las relaciones discursivas
entre eventos se representa en el modelo ontológico que se
describe en la Sección V.
V. REPRESENTACIÓN DE RELACIONES DISCURSIVAS
El modelo ontológico general fue diseñado para representar
los eventos con sus características de espacio, tiempo y actores
[12]. Este modelo está constituido por las siguientes clases:
Evento, la cual representa la descripción de un evento, acción
o suceso; Existen dos tipos de eventos que se expresan con las
subclases EventoNominalizado y EventoVerbalizado, las
cuales establecen una relación es_un con la clase Evento; la
clase UnidadTemporal está relacionada con la clase Evento,
mediante la relación semántica sucede, y específica el tiempo
de ocurrencia del evento; la clase Espacio se relaciona con la
clase Evento, mediante la relación sucede_en, con la finalidad
de asignarle el lugar físico de ocurrencia al evento; la clase
Agente indica el actor que ejecuta o realiza el evento y se
encuentra dependiente de la clase Evento mediante la relación
semántica realizado_por; la clase Objeto complementa el
significado de la clase Evento, mediante la relación semántica
tiene_objeto, e indica el actor u objeto que recibe directamente
la acción del evento; y la clase Beneficiario específica el actor
u objeto que recibe la acción del evento de manera indirecta y
su relación con la clase Evento se llama beneficia_a. Este
modelo general se presenta en la Fig. 1.
Figura 1. Modelo ontológico general para la representación de eventos.
El modelo general se utiliza para la representación de las
doce relaciones discursivas identificadas, con las cuales se
enriquece el significado de los eventos. Cada relación
discursiva es representada mediante una relación ontológica
en el modelo genérico con la finalidad de dejar evidencia del
conocimiento descubierto. Estas relaciones ontológicas toman
como dominio y rango a la clase Evento, de esta manera
tenemos que la relación discursiva Causa es representada
mediante la relación ontológica llamada causado_por,
Resultado por provoca, Propósito mediante la relación
ontológica
con_propósito_de,
Condicional
mediante
condicionado_por, Concesión se expresa con la relación
ontológica llamada a_pesar_de, la Reformulación se
transforma
en
la
relación
ontológica
llamada
es_reformulado_como, la Antítesis de los eventos se
representa con la relación llamada contrastado_por, las
relaciones discursivas de Simultaneidad, Posterioridad
Anterioridad, Iniciación y Finalización se expresan mediante
las relaciones ontológicas llamadas sucede_simultaneo_a,
sucede_después_de, sucede_antes_de, es_iniciado_por y
es_finalizado_por respectivamente. Un conjunto de estas
relaciones discursivas transformadas en relaciones ontológicas
se muestran en la Fig. 2, donde se aprecia que las relaciones
tiene como dominio y rango a la clase Evento.
Figura 2. Conjunto de relaciones ontológicas sobre la clase Evento.
VI. EXPERIMENTACIÓN Y RESULTADOS
La evaluación del aprendizaje de relaciones discursivas a
partir de textos, transformadas en relaciones ontológicas entre
REYES AND MONTES : LEARNING DISCOURSE RELATIONS FROM NEWS
eventos, se realiza mediante el enfoque basado en un gold
standard, el cual consiste en comparar el conocimiento
extraído de manera automática con el conocimiento
identificado y validado por expertos. El conocimiento
extraído, de manera automática, se representa en el modelo
ontológico de eventos con la instanciación de relaciones
discursivas entre individuos de la clase Evento. La Fig. 3
muestra
como
el
evento
nominalizado
HUELGA_DE_HAMBRE, el cual tiene una relación
semántica realizado_por con el agente CÉSAR_BARCO y se
realiza con_propósito_de el evento verbalizado EXIGIR que
tiene_objeto a UN_CONVENIO. La comparación consiste en
medir la eficiencia de los marcadores lingüísticos para la tarea
de extracción automática de relaciones discursivas y su
representación en el modelo ontológico general.
Figura 3. Relación semántica con_propósito_de entre dos eventos.
Los conjuntos de prueba corresponden al corpus RST
Spanish Treebank y los reportes periodísticos descritos en la
Sección IV. La experimentación fue realizada con el 33 % de
relaciones discursivas entre eventos que no fueron utilizada
para el aprendizaje de los marcadores. Un total de 573
relaciones discursivas entre eventos fueron identificadas y
representadas por expertos lingüistas a partir del conjunto de
textos de prueba. Estas relaciones se consideran nuestro
conjunto gold standard para la evaluación de la tarea de
descubrimiento y representación de relaciones discursivas.
La evaluación se presenta en términos de las métricas de
precisión, exhaustividad y la medida F, con la finalidad de
cuantificar las relaciones identificadas correctamente por los
marcadores contra las relaciones identificadas por los
expertos. Se utilizan las medidas que, según [49] ha definido
para la evaluación de la tarea de recuperación de información,
las cuales nosotros adaptamos en el contexto del
descubrimiento (recuperación) de relaciones discursivas entre
eventos.
La precisión (P), mostrada en la ecuación (1), es el
coeficiente entre el número de relaciones discursivas extraídas
y representadas en el modelo general que son relevantes
(contenidas en el conjunto gold standard), y el total de
relaciones discursivas extraídas.
=
|
∩
|
í
í
|
|
(1)
La exhaustividad (E) es el coeficiente entre el número de
relaciones discursivas relevantes (contenidas en el conjunto
gold standard) extraídas y representadas en el modelo general
y el número de relaciones discursivas relevantes (que deben
ser extraídas), ver ecuación (2).
361
=
|
∩
í
|
|
(2)
|
La media armónica que combina los valores de precisión y
exhaustividad de la ecuación (3) es llamada medida F (F1).
1=
∗ ∗
(3)
La Tabla II muestra los resultados de precisión,
exhaustividad y medida F de la tarea de descubrimiento y
representación de las 573 relaciones discursivas.
Los resultados de la evaluación muestran que los
marcadores lingüísticos para las relaciones ontológicas de
finalizado_por y con_propósito_de se consideran eficientes en
un 91.7% y 90.4% respectivamente. Mientras que las
relaciones ontológicas llamadas causado_por y provoca
logran apenas un 75.3% y un 70.5% en la medida F
respectivamente. Es importante hacer notar que las relaciones
discursivas llamadas Causa y Resultado tienen una alta
presencia del fenómeno de polisemia en los verbos causar y
provocar, los cuales forman parte de los marcadores
lingüísticos de estas relaciones. En el caso de la relación
Causa se elimina la polisemia debido al uso de la preposición
por, es por ello que esta relación ontológica incrementa su
valor de la medida F en un 4.83 % con respecto a la relación
de Resultado.
TABLA II. RESULTADOS DE LA TAREA DE DESCUBRIMIENTO Y
REPRESENTACIÓN DE RELACIONES.
RELACIÓN
DISCURSIVA
P
E
F1
CAUSA
RESULTADO
PROPÓSITO
CONDICIONAL
CONCESIÓN
REFORMULACIÓN
ANTÍTESIS
SIMULTANEIDAD
POSTERIORIDAD
ANTERIORIDAD
INICIACIÓN
FINALIZACIÓN
Promedio
0.817
0.744
0.936
0.911
0.951
0.944
0.912
0.889
0.966
0.930
0.805
0.941
0.895
0.699
0.670
0.875
0.832
0.791
0.672
0.860
0.779
0.820
0.818
0.794
0.895
0.792
0.753
0.705
0.904
0.869
0.863
0.785
0.885
0.830
0.887
0.870
0.799
0.917
0.838
Los resultados mostrados en la Tabla II hacen notar que se
obtiene un desempeño promedio de las doce relaciones
discursivas, en términos de medida F, de 0.838. Esto significa
que nuestra propuesta está cerca del 84 % de porcentaje de
extracción de relaciones discursivas correctas.
El conjunto de relaciones discursivas de la RST, utilizadas
en nuestra experimentación, son un punto de referencia para
diversos trabajos que proponen el reconocimiento, extracción
o identificación de estas relaciones. Por lo tanto, se toma como
referencia este conjunto de relaciones para presentar un
análisis comparativo entre los enfoques presentados por Balint
and Trausan-Matu [45], Maziero et al. [46], Zhao et al. [47] y
nuestro enfoque para la tarea de descubrimiento de relaciones
362
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 1, JAN. 2016
discursivas. En la tabla III se presenta el desempeño promedio
de los enfoques en términos de la medida F (F1).
TABLA III. DESCUBRIMIENTO DE RELACIONES DISCURSIVAS
USANDO LA COLECCIÓN DE RELACIONES DE LA RST.
ENFOQUE
Balint and Trausan-Matu
Maziero et al.
Zhao et al.
Nuestra propuesta
F1
0.521
0.790
0.812
0.838
Los resultados de la experimentación demuestran la
efectividad de nuestro enfoque para el descubrimiento y
representación de relaciones discursivas a partir de textos. A
pesar de que los resultados no son alentadores para la relación
discursiva “RESULTADO”, el promedio global supera el 0.83
de medida F. Por lo tanto, el enfoque puede ayudar a los
expertos de dominios en el descubrimiento y representación de
conocimiento sobre eventos y relaciones entre ellos a partir de
textos. Además, los resultados de descubrimiento de
relaciones discursivas mostrados en la tabla III son
prometedores y mejores que otros enfoques que utilizan el
mismo conjunto de relaciones discursivas.
VII. CONCLUSIONES
En este artículo se ha presentado el aprendizaje automático
de doce relaciones discursivas entre eventos y su
representación en un modelo ontológico a partir de textos de
reportes periodísticos en español. El descubrimiento de
relaciones discursivas está basado en marcadores lingüísticos,
los cuales determinan el discurso, otorgan semántica y asocian
los eventos. El conocimiento descubierto se representa en un
modelo ontológico dirigido por eventos con su información
complementaria sobre agentes, objetos, beneficiario, espacio y
tiempo.
Este artículo aporta un total de 178 marcadores para las
doce relaciones discursivas. Además, se ha presentado un
análisis de señalización de los tres marcadores lingüísticos
relevantes para cada relación discursiva, con la finalidad de
obtener la carga de la señalización de cada marcador, esto no
significa que se puede prescindir del resto sin afectar la
precisión de la tarea de descubrimiento y representación de
relaciones discursivas.
El descubrimiento y representación de relaciones
discursivas basada en marcadores lingüísticos ha sido
evaluada en dos corpus, uno de textos especializados en
español y otro de reportes periodísticos de noticias mexicanas.
Esta evaluación se basa en determinar si un conjunto de
marcadores lingüísticos está realmente caracterizando una
relación discursiva. Por lo tanto, para medir la eficiencia de la
identificación, hemos utilizado un conjunto gold standard de
573 relaciones discursivas entre eventos, en términos de
precisión, exhaustividad y medida F. Los resultados expresan
una medida F promedio de 0.838. Es importante resaltar que
los fenómenos lingüísticos, como la polisemia, afectan la tarea
de descubrimiento correcto de relaciones discursivas, como el
caso de la relación de Causa y Resultado. Esto debido a la
presencia de verbos altamente polisémicos en los marcadores.
Es importante hacer notar que nuestro enfoque obtiene
resultados prometedores en la tarea de extracción y
representación de relaciones discursivas entre eventos.
Además de obtener mejores resultados que otros enfoques que
utilizan en mismo conjunto de relaciones discursivas.
Este artículo ha significado una aportación en el campo de
la lingüística computacional, área que apoya la ingeniería
ontológica, debido a la reducción de tiempo y costo en la tarea
de creación de ontologías a partir de textos. Además, el
conjunto de relaciones discursivas que forman parte de nuestro
gold standard significa una contribución en el campo del
análisis del discurso, el cual puede ser utilizado para trabajos
futuros en esta línea de investigación.
Adicionalmente, como trabajo futuro, los marcadores
lingüísticos se deben complementar con métodos para la
desambiguación de sentidos de las palabras, es decir, la
habilidad para identificar el significado adecuado en un
contexto. Este tratamiento resulta adecuado en los casos de las
relaciones ontológicas causado_por y provoca. Además,
resulta interesante trasladar estos marcadores a otros
dominios, como la medicina, para evaluar su comportamiento
en el descubrimiento y representación de relaciones
discursivas entre eventos.
REFERENCIAS
[1]
T. Gruber, “Toward Principles for the Design of Ontologies Used for
Knowledge Sharing”, International journal of human-computer studies,
vol. 43, no. 5, pp. 907-928, 1995.
[2] P. Cimiano, "Ontology Learning and Population from Text: Algorithms,
Evaluation and Applications", Springer-Verlag, New York, 2006.
[3] A. Kawtrakul, M. Suktarachan and A. Imsombut, “Automatic Thai
Ontology Construction and Maintenance System”, en Proceedings of
OntoLex Workshop on LREC, Lisbon, Portugal, pp. 68-74, 2004.
[4] A. Almuhareb and M. Poesio, “Finding Attributes in the Web Using a
Parser”, en Proceedings of Corpus Linguistics, Birmingham, United
Kingdom, 2005.
[5] F. Ren, “Learning time-sensitive domain ontology from scientific papers
with a hybrid learning method”, Journal of Information Science, vol. 40,
no. 3, pp. 329-345, 2014.
[6] N. J. Koenderink, M. van Assem, J. L. Hulzebos, J. Broekstra and J. L.
Top, “ROC: a method for proto-ontology construction by domain
experts”, The Semantic Web, Springer Berlin, Heidelberg, pp. 152-166,
2008.
[7] P. Buitelaar and T. Eigner, “Topic extraction from scientific literature
for competency management”, en The 7th International Semantic Web
Conference, Karlsruhe, Germany, 2008.
[8] R. Mulkar-Mehta, J. R. Hobbs, C. C. Liu and X. J. Zhou, “Discovering
Causal and Temporal Relations in Biomedical Texts” en AAAI Spring
Symposium: Learning by Reading and Learning to Read, California,
USA, pp. 74-80, 2009.
[9] R. Morante, V. Van-Asch and W. Daelemans, “A memory-based
learning approach to event extraction in biomedical texts”, en
Proceedings of the BioNLP 2009 Workshop Companion Volume for
Shared Task, Colorado, USA, pp. 59-67, 2009.
[10] F. Cerbah, “Mining the content of relational databases to learn
ontologies with deeper taxonomies”, en Web Intelligence and Intelligent
Agent Technology, Sydney, Australia, pp. 553-557, 2008.
[11] S. Bethard and J. H. Martin, “Learning semantic links from a corpus of
parallel temporal and causal relations”, en Proceedings of the 46th
Annual Meeting of the Association for Computational Linguistics on
Human Language Technologies, Ohio, USA, pp. 177-180, 2008
[12] J. A. Reyes, A. Montes, J. G. González and D. E. Pinto, “Clasificación
de roles semánticos usando características sintácticas, semánticas y
contextuales”, Computación y sistemas, vol. 17, no. 2, pp. 263-272,
2013.
REYES AND MONTES : LEARNING DISCOURSE RELATIONS FROM NEWS
[13] W. C. Mann and S. A. Thompson, “Rhetorical Structure Theory: toward
a functional theory of text organization”, Text, vol. 8, no. 3, pp. 243–
281, 1988.
[14] C. Sporleder and A. Lascarides, “Exploiting Linguistic Cues to Classify
Rhetorical Relations”, en Proceedings of Recent Advances in Natural
Language Processing, Borovets, Bulgaria, pp. 532-539, 2005.
[15] C. Sporleder and A. Lascarides, “Using Automatically Labelled
Examples to Classify Rhetorical Relations: An Assessment”, Natural
Language Engineering, vol. 14, no. 3, pp. 369-416, 2008.
[16] T. Groza, S. Handschuh and G. Bordea, “Towards automatic extraction
of epistemic items from scientific publications”, en Proceedings of the
25th ACM Symposium on Applied Computing, Sierre, Switzerland, pp.
1341-1348, 2010.
[17] I. da Cunha, E. San Juan, J. Torres, M. Lloberes and I. Castellón,
“DiSeg: Un segmentador discursivo automático para el español”,
Procesamiento del Lenguaje Natural, vol. 45, pp. 145-152, 2010.
[18] G. Miller and P. Johnson-Laird, “Language and Perception”, Ed.
Belknap Press, Cambridge, 1976.
[19] J. Allen and G. Ferguson, “Actions and Events in Interval Temporal
Logic”, Journal of Logic and Computation, vol. 4, no. 5, pp. 531-579,
1994.
[20] A. Galton and J. C. Augusto, “Two approaches to event definition”, en
Proceedings of 13th International Conference on Database and Expert
Systems Applications, Aix-en-Provence, France, pp. 547-556, 2002.
[21] J. F. Sowa, “Knowledge representation: logical, philosophical, and
computational foundations”, Ed. Brooks Cole Publishing, California,
1999.
[22] L. Tesnière, “Éléments de syntaxe structurelle”, Ed. Klincksieck, Paris,
1976.
[23] M. A. K. Halliday, “An Introduction to Functional Grammar”, Ed.
Edward Arnold, London, 1994.
[24] B. Comrie, “The syntax of action nominals: a cross-language study”,
Lingua, vol. 40, pp. 177-201, 1976.
[25] L. Hernando, “Sobre la formación de palabras en español”, en Acta del
VII Congreso Internacional de ASELE, Santiago de Compostela, Spain,
pp. 257-264, 1998.
[26] J. Renkema, “Relaciones discursivas y variables de conectividad”,
Revista Signos, vol. 41, no. 66, pp. 65-80, 2008.
[27] L. París, “Relaciones gramaticalizadas entre eventos: MedioE”, Revista
Signos, vol. 39, no. 61, pp. 259-283, 2006.
[28] J. Portolés, “Marcadores del Discurso”, Ed. Ariel, Barcelona, 2001.
[29] B. Fraser, “What are discourse markers?”, Journal of Pragmatics, vol.
31, pp. 931-952, 1999.
[30] G. Redeker, “Review article: linguistic markers of linguistic structure”,
Linguistics, vol. 29, no. 6, pp. 1139-1172, 1991.
[31] M. M. Louwerse and H. H. Mitchell, “Toward a taxonomy of a set of
discourse markers in dialogue: a theoretical and computational linguistic
account”, Discourse Processes, vol. 35, no. 3, pp. 243-281, 2003.
[32] A. Knott and R. Dale, “Using linguistic phenomena to motivate a set of
coherence relations”, Discourse Processes, vol. 18, no.1, pp. 35-62,
1994.
[33] M. Pit, “How to Express Yourself with a Causal Connective:
Subjectivity and Causal Connectives in Dutch, German and French”, Ed.
Rodopi, Amsterdam, 2003.
[34] T. Sanders, W. Spooren and L. Noordman, “Coherence Relations in a
Cognitive Theory of Discourse Representation”, Cognitive Linguistics,
vol. 4, no. 2, pp. 93–133, 1993.
[35] B. Grote, N. Lenke and M. Stede, “Ma(r)king concessions in English
and German, Discourse Processes, vol. 24, pp. 87-117, 1997.
[36] L. Alonso, “Representing discourse for automatic text summarization
via shallow NLP techniques”, PhD thesis, Universitat de Barcelona,
España, 2005.
[37] L. París, “Eventos e intervalos en la semántica del pretérito, del
imperfecto y del progresivo”, Revista Signos, vol. 40, no. 65, pp. 609632, 2008.
[38] M. Rey-López, R. P. Díaz-Redondo, A. Fernández-Vilas, J. J. PazosArias and M. López-Nores, “Objetos adaptativos de aprendizaje para tlearning”, IEEE Latin America Transactions, vol. 5, no. 6, pp. 401-408,
2007.
[39] F. de Souza Farias, L. Vilar de Souza, R. C. Medeiros Sousa, C. A.
Muñiz Caldas, L. Figueiredo Gomes and J. C. Weyl Albuquerque Costa,
“Data Mining Applied to Diagnose Diseases Caused by Lymphotropic
Virus: a Performance Analysis”, IEEE Latin America Transactions, vol.
10, no. 1, pp. 1319-1323, 2012.
[40] R. Perez Carreiro, J. Javier Samper Zapater, R. P. Chagas do
Nascimento and F. Milton Mendes Neto, “Personal Health Records,
Agents Technology and Ontologies for Homecare Monitoring of
Chronic Patients” IEEE Latin America Transactions, vol. 12, no. 8, pp.
1581-1589, 2014.
[41] E. Muñoz Mata, M. Muñoz Mata, E. Capon and J. Mejia Miranda,
“Knowledge Management in Process Improvement and Best Practices
Sharing”, IEEE Latin America Transactions, vol. 12, no. 3, pp. 469-474,
2014.
[42] M. M. Hamri, and S. M. Benslimane, “Building an Ontology for the
Metamodel ISO/IEC24744 using MDA Process” International Journal of
Modern Education and Computer Science, vol. 7, no. 8, pp. 48-70, 2015.
[43] E. Amer, “Enhancing Efficiency of Web Search Engines through
Ontology Learning from Unstructured Information Sources” en IEEE
International Conference on Information Reuse and Integration,
California, USA, pp. 542-549, 2015.
[44] P. Kordjamshidi, and M. F. Moens, “Global machine learning for spatial
ontology population” Web Semantics: Science, Services and Agents on
the World Wide Web, vol. 30, pp. 3-21, 2015.
[45] M. Balint, and S. Trausan-Matu, “A Model for the Recognition of
Discourse Relations”, en IEEE 20th International Conference on Control
Systems and Computer Science, Bucharest, Rumania, pp. 365-369,
2015.
[46] E. Maziero, G. Hirst, and T. Pardo, “Semi-supervised never-ending
learning in rhetorical relation identification” en Proceeding of Recent
Advances in Natural Language Processing, Hissar, Bulgaria, pp. 436–
442, 2015.
[47] S. Zhao, T. Liu, S. Zhao, Y. Chen and J. Y. Nie, “Event causality
extraction based on connectives analysis”, Neurocomputing, vol. 173,
no. 3, pp. 1943-1950, 2015.
[48] I. da Cunha, J. M. Torres and G. Sierra G, “On the Development of the
RST Spanish Treebank” en Proceedings of the 5th Linguistic Annotation
Workshop, 49th Annual Meeting of the Association for Computational
Linguistics, Oregon, USA, pp. 1-10, 2011.
[49] R. Baeza-Yates and B. Ribeiro-Neto, “Modern information retrieval”,
Ed. ACM press, New York, 1999.
José Alejandro Reyes recibió el grado de Maestro en
Ciencias de la Computación en 2008 por el Centro Nacional
de Investigación y Desarrollo Tecnológico, Morelos, México,
y el grado de Doctor en Ciencias de la Computación por el
Centro Nacional de Investigación y Desarrollo Tecnológico,
Morelos, México, en 2013. Actualmente, trabaja como
Profesor-Investigador de tiempo completo en la Universidad
Autónoma Metropolitana, Azcapotzalco, México y sus áreas de investigación
actuales incluyen la lingüística computacional, la extracción de información y
la creación automática de ontologías a partir de textos.
Azucena Montes recibió el grado de Doctor en Ciencias por
la Université Paris Sorbonne, Francia en 2002. Trabajó como
Profesora-Investigadora de tiempo completo en el Centro
Nacional Investigación y Desarrollo Tecnológico de 2002 a
2012. Actualmente, se encuentra en la Universidad Nacional
Autónoma de México en el grupo de Ingeniería Lingüística
como investigadora de tiempo completo y sus áreas de
interés en la investigación incluyen la semántica cognitiva, representación del
conocimiento, lingüística computacional, extracción de información y
procesamiento de lenguaje natural.
363
Descargar