Impacto de la ironía en la minería de opiniones - CEUR

Anuncio
Actas V Jornadas TIMM, pp 41-44
Impacto de la ironı́a en la minerı́a de opiniones basada
en un Léxico Afectivo
Yolanda Raquel Baca-Gómez,
Noé Alejandro Castro-Sánchez,
Alicia Martı́nez
CENIDET, Cuernavaca, México
{yolandabaca, ncastro,
amartinez}@cenidet.edu.mx
Delia Irazú Hernández Farı́as,
Paolo Rosso
NLE Lab, PRHLT research center
Universitat Politècnica de València, España
{dhernandez1, prosso}@dsic.upv.es
Resumen
En este artı́culo se describe un método sistemático que identifica la
polaridad de textos en Español, ası́ como el impacto de la ironı́a en
la minerı́a de opiniones. Se propone una aproximación basada en un
aprendizaje automático y en la extracción de caracterı́sticas a partir de
un Léxico Afectivo en Español. Fue necesaria la creación de un corpus
para el entrenamiento y evaluación del método propuesto. Los resultados experimentales muestran que la ironı́a tiene un impacto negativo
en la evaluación realizada.
1.
Introducción
La Minerı́a de Opiniones se encarga de clasificar las opiniones de acuerdo a su polaridad, es decir, si una
opinión es positiva, negativa o neutral con respecto a la entidad a la que se esté refiriendo[Liu12]. La ironı́a es
esencialmente un acto comunicativo que expresa un significado opuesto de lo que se dijo literalmente. El análisis
de la ironı́a se encarga de determinar cómo el uso de la ironı́a puede afectar a la interpretación de la carga
emotiva del texto. Por lo tanto, es una tarea muy compleja dentro del Análisis de Sentimientos1 , debido a que
es difı́cil identificar automáticamente el efecto que produce[Rey12]. El presente trabajo tiene como objetivo la
creación de un método para la detección de polaridad en comentarios de Facebook en español y el análisis del
impacto de los comentarios irónicos en la detección de polaridad.
2.
Método para la detección de polaridad
El método propuesto consta de 4 fases, las cuales se muestran en la Fig. 1. Se consideraron 5 categorı́as de
polaridad: muy positiva, positiva, neutral, negativa, muy negativa y además se realizó una comparación con la
clasificación en 3 categorı́as: positiva, neutral y negativa.
2.1.
Fase 1: Extracción de comentarios
Se desarrolló una App de Facebook, mediante la cual se extrajeron automáticamente comentarios de Facebook
y se generaron dos corpus. El primero fue utilizado para complementar la creación del Léxico Afectivo en Español
y el segundo para el entrenamiento y evaluación del método de detección de polaridad.
1 Se
organizará una tarea sobre Sentiment Polarity Classification (en italiano) en sentipolc@evalita2014
(http://www.di.unito.it/ tutreeb/sentipolc-evalita14/index.html); otra (en inglés) con datos de Twitter en SemEval-2015
(http://alt.qcri.org/semeval2015/task11/).
41
Yolanda Raquel Baca-Gómez, Noe Alejandro Castro-Sánchez, Alicia Martínez, Delia Irazú Hernández Farías y Paolo Rosso
2.2.
Fase 2: Creación del Léxico Afectivo en Español
La creación del Léxico Afectivo en Español se inició a partir de la traducción al español de los siguientes
recursos psicológicos y léxicos en inglés, respectivamente: 1) Palabras clasificadas como positivas y negativas en
las teorı́as de Klaus R. Scherer, Rick L. Morgan, David Heise, James A. Russell y Paul Ekman y 2) Los léxicos
afectivos General Inquirer, WordNetAffect y Opinion Finder.
Se etiquetó el primer corpus de comentarios en 5 categorı́as de polaridad, el cual consta de 1,500 comentarios.
A partir del etiquetado de este corpus, se extrajeron manualmente palabras, frases y emoticonos utilizados
frecuentemente en comentarios de Facebook, que posteriormente fueron agregados al Léxico Afectivo en Español.
Figura 1: Diagrama de las 4 fases que componen el método para la detección de polaridad
2.3.
Fase 3: Creación del corpus de prueba
El corpus de prueba consta de 1,400 comentarios y fue anotado por tres personas. Cada etiquetador anotó los
comentarios con alguna de las 5 categorı́as de polaridad, y además, como irónicos o no irónicos. La asignación
de la categorı́a definitiva de cada comentario se hizo a partir de las anotaciones que generaron los etiquetadores.
En 5 categorı́as el corpus quedó distribuido de la siguiente forma: 109 comentarios muy positivos, 420 positivos,
213 neutrales, 539 negativos y 119 muy negativos. En 3 categorı́as: 529 positivos, 213 neutrales y 625 negativos.
Con el objetivo de evaluar los resultados obtenidos en el proceso de anotación del corpus, se utilizó la métrica
Kappa de Fleiss[Dia13], la cual es una medida estadı́stica que calcula el grado de acuerdo entre los etiquetadores
en la clasificación, en este caso, de las categorı́as de los comentarios.
En la evaluación para la anotación de polaridad se obtuvo un valor de 0.417 y en la anotación de ironı́a un
valor de 0.458. Con base en la interpretación de esta métrica, el grado de acuerdo obtenido es “moderado”. En
ambos casos se puede ver que la subjetividad involucrada en la interpretación y clasificación de los comentarios
tiene un alto grado de impacto.
2.4.
Fase 4: Detección de polaridad
La detección de polaridad se lleva a cabo en dos procesos. El primero consiste en el pre-procesamiento:
corrección ortográfica, lematización y eliminación de StopWords. En el segundo, se lleva a cabo la obtención de
caracterı́sticas utilizando el Léxico Afectivo en Español y el Spanish Emotion Lexicon. Las caracterı́sticas que se
consideraron para ser usadas en la fase de entrenamiento son las siguientes:
42
Impacto de la ironía en la minería de opiniones basada en un Léxico Afectivo
a) Emoticonos positivos y negativos
b) Palabras muy positivas, positivas, negativas y muy negativas
c) Modificadores (palabras que aumentan o disminuyen la polaridad)
d) Palabras asociadas a emociones positivas y negativas
Con las caracterı́sticas obtenidas se generan vectores que son procesados con el algoritmo SMO (Sequential
Minimal Optimization) de Weka, utilizando Ten Fold Cross-Validation, para evaluar el método propuesto.
3.
Experimentos y resultados
La experimentación se llevó a cabo considerando las caracterı́sticas mencionadas anteriormente. En la evaluación se tomó en cuenta la Medida F1, la cual representa la media armónica de la precisión y la cobertura.
En los resultados se observa que sobre 3 categorı́as se consigue una Medida F1 más alta. En la Tabla 1 se listan
los experimentos realizados sobre el corpus de prueba, donde: SP significa sin ningún tipo de procesamiento, P
significa pre-procesamiento y los incisos hacen referencia a las caracterı́sticas descritas en la sección anterior.
Tabla 1: Evaluación con la medida F1 para 5 y 3 categorı́as
Experimentos
SP
P
P(a)
P(a)(b)
P(a)(b)(c)
P(a)(d)
Medida F1 5 categorı́as
38.3 %
42.5 %
44.8 %
45.2 %
45.4 %
44.8 %
Medida F1 3 categorı́as
53.3 %
56.4 %
59.1 %
60.2 %
60.8 %
59.2 %
Además, se realizaron experimentos para visualizar la diferencia a nivel de clasificación de polaridad en los
casos irónicos y no irónicos. En general, los porcentajes con 5 categorı́as son bajos, por lo tanto, este experimento
únicamente se realizó con 3 categorı́as.
En los resultados obtenidos se puede apreciar un porcentaje más alto en el conjunto de comentarios no irónicos,
es cuando se observa el impacto que tiene la ironı́a, debido a que en el conjunto de comentarios irónicos se tiene
una caı́da en la Medida F1, en promedio del 10 %. En la Tabla 2 se muestran los resultados obtenidos sobre el
conjunto de 322 comentarios irónicos y el conjunto de 1,078 comentarios no irónicos con 3 categorı́as.
Tabla 2: Evaluación con la medida F1 para 3 categorı́as
Experimentos
SP
P
P(a)
P(a)(b)
P(a)(b)(c)
P(a)(d)
4.
Medida F1 3 categorı́as
No irónicos
Irónicos
58.1 %
45.8 %
57.7 %
49.5 %
61.8 %
55.0 %
63.4 %
53.2 %
64.3 %
54.4 %
62.1 %
53.7 %
Conclusiones
En este artı́culo se ha estudiado el impacto que puede tener la ironı́a, en la detección de polaridad con
caracterı́sticas basadas en un Léxico Afectivo y se ha comprobado que se obtienen mejores resultados en los
comentarios no irónicos. La ironı́a tiene un impacto negativo del 10 % sobre el mejor porcentaje de Medida F1
obtenido por el método de detección de polaridad.
43
Yolanda Raquel Baca-Gómez, Noe Alejandro Castro-Sánchez, Alicia Martínez, Delia Irazú Hernández Farías y Paolo Rosso
Agradecimientos
Esta investigación ha sido financiada por el proyecto DGEST con Núm. Ref.: 5049-13-P, Programa CONACYT
(290842), (218109/313683) y los proyectos DIANA- APPLICATIONS (TIN2012-38603-C02-01) y WIQEI IRSES
(Grant No. 269180; FP 7 Marie Curie People).
Referencias
[Liu12] B. Liu. Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies.
Morgan Clypool Publishers (2012).
[Rey12] A. Reyes, P. Rosso. Making Objective Decisions from Subjective Data: Detecting Irony in Costumer
Reviews. Journal on Decision Support Systems, vol. 53, issue 4, pp. 754-760 (2012).
[Dia13] I. Dı́az Rangel. Detección de afectividad en texto en español basada en el contexto lingüı́stico para
sı́ntesis de voz. Tesis Doctoral, Instituto Politécnico Nacional, México (2013).
44
Descargar