Actas V Jornadas TIMM, pp 41-44 Impacto de la ironı́a en la minerı́a de opiniones basada en un Léxico Afectivo Yolanda Raquel Baca-Gómez, Noé Alejandro Castro-Sánchez, Alicia Martı́nez CENIDET, Cuernavaca, México {yolandabaca, ncastro, amartinez}@cenidet.edu.mx Delia Irazú Hernández Farı́as, Paolo Rosso NLE Lab, PRHLT research center Universitat Politècnica de València, España {dhernandez1, prosso}@dsic.upv.es Resumen En este artı́culo se describe un método sistemático que identifica la polaridad de textos en Español, ası́ como el impacto de la ironı́a en la minerı́a de opiniones. Se propone una aproximación basada en un aprendizaje automático y en la extracción de caracterı́sticas a partir de un Léxico Afectivo en Español. Fue necesaria la creación de un corpus para el entrenamiento y evaluación del método propuesto. Los resultados experimentales muestran que la ironı́a tiene un impacto negativo en la evaluación realizada. 1. Introducción La Minerı́a de Opiniones se encarga de clasificar las opiniones de acuerdo a su polaridad, es decir, si una opinión es positiva, negativa o neutral con respecto a la entidad a la que se esté refiriendo[Liu12]. La ironı́a es esencialmente un acto comunicativo que expresa un significado opuesto de lo que se dijo literalmente. El análisis de la ironı́a se encarga de determinar cómo el uso de la ironı́a puede afectar a la interpretación de la carga emotiva del texto. Por lo tanto, es una tarea muy compleja dentro del Análisis de Sentimientos1 , debido a que es difı́cil identificar automáticamente el efecto que produce[Rey12]. El presente trabajo tiene como objetivo la creación de un método para la detección de polaridad en comentarios de Facebook en español y el análisis del impacto de los comentarios irónicos en la detección de polaridad. 2. Método para la detección de polaridad El método propuesto consta de 4 fases, las cuales se muestran en la Fig. 1. Se consideraron 5 categorı́as de polaridad: muy positiva, positiva, neutral, negativa, muy negativa y además se realizó una comparación con la clasificación en 3 categorı́as: positiva, neutral y negativa. 2.1. Fase 1: Extracción de comentarios Se desarrolló una App de Facebook, mediante la cual se extrajeron automáticamente comentarios de Facebook y se generaron dos corpus. El primero fue utilizado para complementar la creación del Léxico Afectivo en Español y el segundo para el entrenamiento y evaluación del método de detección de polaridad. 1 Se organizará una tarea sobre Sentiment Polarity Classification (en italiano) en sentipolc@evalita2014 (http://www.di.unito.it/ tutreeb/sentipolc-evalita14/index.html); otra (en inglés) con datos de Twitter en SemEval-2015 (http://alt.qcri.org/semeval2015/task11/). 41 Yolanda Raquel Baca-Gómez, Noe Alejandro Castro-Sánchez, Alicia Martínez, Delia Irazú Hernández Farías y Paolo Rosso 2.2. Fase 2: Creación del Léxico Afectivo en Español La creación del Léxico Afectivo en Español se inició a partir de la traducción al español de los siguientes recursos psicológicos y léxicos en inglés, respectivamente: 1) Palabras clasificadas como positivas y negativas en las teorı́as de Klaus R. Scherer, Rick L. Morgan, David Heise, James A. Russell y Paul Ekman y 2) Los léxicos afectivos General Inquirer, WordNetAffect y Opinion Finder. Se etiquetó el primer corpus de comentarios en 5 categorı́as de polaridad, el cual consta de 1,500 comentarios. A partir del etiquetado de este corpus, se extrajeron manualmente palabras, frases y emoticonos utilizados frecuentemente en comentarios de Facebook, que posteriormente fueron agregados al Léxico Afectivo en Español. Figura 1: Diagrama de las 4 fases que componen el método para la detección de polaridad 2.3. Fase 3: Creación del corpus de prueba El corpus de prueba consta de 1,400 comentarios y fue anotado por tres personas. Cada etiquetador anotó los comentarios con alguna de las 5 categorı́as de polaridad, y además, como irónicos o no irónicos. La asignación de la categorı́a definitiva de cada comentario se hizo a partir de las anotaciones que generaron los etiquetadores. En 5 categorı́as el corpus quedó distribuido de la siguiente forma: 109 comentarios muy positivos, 420 positivos, 213 neutrales, 539 negativos y 119 muy negativos. En 3 categorı́as: 529 positivos, 213 neutrales y 625 negativos. Con el objetivo de evaluar los resultados obtenidos en el proceso de anotación del corpus, se utilizó la métrica Kappa de Fleiss[Dia13], la cual es una medida estadı́stica que calcula el grado de acuerdo entre los etiquetadores en la clasificación, en este caso, de las categorı́as de los comentarios. En la evaluación para la anotación de polaridad se obtuvo un valor de 0.417 y en la anotación de ironı́a un valor de 0.458. Con base en la interpretación de esta métrica, el grado de acuerdo obtenido es “moderado”. En ambos casos se puede ver que la subjetividad involucrada en la interpretación y clasificación de los comentarios tiene un alto grado de impacto. 2.4. Fase 4: Detección de polaridad La detección de polaridad se lleva a cabo en dos procesos. El primero consiste en el pre-procesamiento: corrección ortográfica, lematización y eliminación de StopWords. En el segundo, se lleva a cabo la obtención de caracterı́sticas utilizando el Léxico Afectivo en Español y el Spanish Emotion Lexicon. Las caracterı́sticas que se consideraron para ser usadas en la fase de entrenamiento son las siguientes: 42 Impacto de la ironía en la minería de opiniones basada en un Léxico Afectivo a) Emoticonos positivos y negativos b) Palabras muy positivas, positivas, negativas y muy negativas c) Modificadores (palabras que aumentan o disminuyen la polaridad) d) Palabras asociadas a emociones positivas y negativas Con las caracterı́sticas obtenidas se generan vectores que son procesados con el algoritmo SMO (Sequential Minimal Optimization) de Weka, utilizando Ten Fold Cross-Validation, para evaluar el método propuesto. 3. Experimentos y resultados La experimentación se llevó a cabo considerando las caracterı́sticas mencionadas anteriormente. En la evaluación se tomó en cuenta la Medida F1, la cual representa la media armónica de la precisión y la cobertura. En los resultados se observa que sobre 3 categorı́as se consigue una Medida F1 más alta. En la Tabla 1 se listan los experimentos realizados sobre el corpus de prueba, donde: SP significa sin ningún tipo de procesamiento, P significa pre-procesamiento y los incisos hacen referencia a las caracterı́sticas descritas en la sección anterior. Tabla 1: Evaluación con la medida F1 para 5 y 3 categorı́as Experimentos SP P P(a) P(a)(b) P(a)(b)(c) P(a)(d) Medida F1 5 categorı́as 38.3 % 42.5 % 44.8 % 45.2 % 45.4 % 44.8 % Medida F1 3 categorı́as 53.3 % 56.4 % 59.1 % 60.2 % 60.8 % 59.2 % Además, se realizaron experimentos para visualizar la diferencia a nivel de clasificación de polaridad en los casos irónicos y no irónicos. En general, los porcentajes con 5 categorı́as son bajos, por lo tanto, este experimento únicamente se realizó con 3 categorı́as. En los resultados obtenidos se puede apreciar un porcentaje más alto en el conjunto de comentarios no irónicos, es cuando se observa el impacto que tiene la ironı́a, debido a que en el conjunto de comentarios irónicos se tiene una caı́da en la Medida F1, en promedio del 10 %. En la Tabla 2 se muestran los resultados obtenidos sobre el conjunto de 322 comentarios irónicos y el conjunto de 1,078 comentarios no irónicos con 3 categorı́as. Tabla 2: Evaluación con la medida F1 para 3 categorı́as Experimentos SP P P(a) P(a)(b) P(a)(b)(c) P(a)(d) 4. Medida F1 3 categorı́as No irónicos Irónicos 58.1 % 45.8 % 57.7 % 49.5 % 61.8 % 55.0 % 63.4 % 53.2 % 64.3 % 54.4 % 62.1 % 53.7 % Conclusiones En este artı́culo se ha estudiado el impacto que puede tener la ironı́a, en la detección de polaridad con caracterı́sticas basadas en un Léxico Afectivo y se ha comprobado que se obtienen mejores resultados en los comentarios no irónicos. La ironı́a tiene un impacto negativo del 10 % sobre el mejor porcentaje de Medida F1 obtenido por el método de detección de polaridad. 43 Yolanda Raquel Baca-Gómez, Noe Alejandro Castro-Sánchez, Alicia Martínez, Delia Irazú Hernández Farías y Paolo Rosso Agradecimientos Esta investigación ha sido financiada por el proyecto DGEST con Núm. Ref.: 5049-13-P, Programa CONACYT (290842), (218109/313683) y los proyectos DIANA- APPLICATIONS (TIN2012-38603-C02-01) y WIQEI IRSES (Grant No. 269180; FP 7 Marie Curie People). Referencias [Liu12] B. Liu. Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies. Morgan Clypool Publishers (2012). [Rey12] A. Reyes, P. Rosso. Making Objective Decisions from Subjective Data: Detecting Irony in Costumer Reviews. Journal on Decision Support Systems, vol. 53, issue 4, pp. 754-760 (2012). [Dia13] I. Dı́az Rangel. Detección de afectividad en texto en español basada en el contexto lingüı́stico para sı́ntesis de voz. Tesis Doctoral, Instituto Politécnico Nacional, México (2013). 44