Combinación de Información Descriptiva y Discriminativa para Detección de Perfiles de Autores 1 Introduccción 2 Propuesta 3 Experimentos Corpus Resultados con validación cruzada Resultados en el PAN 2015 4 Conclusiones Seminario de Lingüı́stica Forense, UNAM 2015 Miguel A. Álvarez-Carmona, A. Pastor López-Monroy, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda, Hugo Jair Escalante Instituto Nacional de Astrofı́sica, Óptica y Electrónica 27 de agosto de 2015 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 1 / 22 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 2 / 22 Introducción 1 Definición Introduccción La detección de perfiles de autores consiste en determinar la mayor cantidad de información posible de un autor desconocido 2 Propuesta 3 Experimentos Corpus Resultados con validación cruzada Resultados en el PAN 2015 4 Conclusiones Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 3 / 22 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 4 / 22 Introducción Detección de perfiles de autores en redes sociales Definición El auge de las redes sociales ha causado que los principales esfuerzos para la detección de perfiles de autores se lleven a cabo a partir de la información que los mismos usuarios suben a sus diferentes cuentas. La detección de perfiles de autores consiste en determinar la mayor cantidad de información posible de un autor desconocido Figura : Author Profiling PAN-AP-2013 - CLEF 2013 Valencia, 24th September 2013 Francisco Rangel Autoritas Universitat Politècnica de València, Paolo Rosso-Universitat Politècnica de València, Moshe Koppel- Bar-Illan University, Efstathios Stamatatos - University of the Aegean, Giacomo Inches - University of Lugano Figura : Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 4 / 22 Visto 24 de agosto: http://blog.qmee.com/qmee-online-in-60-seconds/ Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 5 / 22 Propuesta 1 Introduccción 2 Propuesta 3 Experimentos Corpus Resultados con validación cruzada Resultados en el PAN 2015 4 Conclusiones Miguel A. Álvarez-Carmona (INAOE) Tı́picamente, el problema de detección de perfiles de autores se ha atacado desde el punto de vista de clasificación. Detección de Perfiles de Autores 27 de agosto de 2015 6 / 22 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 7 / 22 Propuesta Propuesta Tı́picamente, el problema de detección de perfiles de autores se ha atacado desde el punto de vista de clasificación. Generalmente, existen tres pasos principales en un proceso de clasificación de textos: Tı́picamente, el problema de detección de perfiles de autores se ha atacado desde el punto de vista de clasificación. Generalmente, existen tres pasos principales en un proceso de clasificación de textos: Extracción de caracterı́sticas textuales Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 7 / 22 Propuesta Detección de Perfiles de Autores 27 de agosto de 2015 7 / 22 Propuesta Tı́picamente, el problema de detección de perfiles de autores se ha atacado desde el punto de vista de clasificación. Generalmente, existen tres pasos principales en un proceso de clasificación de textos: Tı́picamente, el problema de detección de perfiles de autores se ha atacado desde el punto de vista de clasificación. Generalmente, existen tres pasos principales en un proceso de clasificación de textos: Extracción de caracterı́sticas textuales Representación de documentos Miguel A. Álvarez-Carmona (INAOE) Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores Extracción de caracterı́sticas textuales Representación de documentos Algoritmo de clasificación 27 de agosto de 2015 7 / 22 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 7 / 22 Propuesta Propuesta El principal objetivo de nuestro enfoque es calcular atributos discriminativos y descriptivos construidos a partir de las caracterı́sticas textuales con mejores resultados reportados en el estado del arte. Tı́picamente, el problema de detección de perfiles de autores se ha atacado desde el punto de vista de clasificación. Generalmente, existen tres pasos principales en un proceso de clasificación de textos: Extracción de caracterı́sticas textuales Representación de documentos Algoritmo de clasificación En este trabajo nos centraremos en la representación de documentos Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 7 / 22 Propuesta Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 8 / 22 Propuesta El principal objetivo de nuestro enfoque es calcular atributos discriminativos y descriptivos construidos a partir de las caracterı́sticas textuales con mejores resultados reportados en el estado del arte. De acuerdo con la literatura, el estilo de los textos otorga información discriminativa entre los tipos de perfiles de autores. El principal objetivo de nuestro enfoque es calcular atributos discriminativos y descriptivos construidos a partir de las caracterı́sticas textuales con mejores resultados reportados en el estado del arte. De acuerdo con la literatura, el estilo de los textos otorga información discriminativa entre los tipos de perfiles de autores. Para capturar esta información proponemos utilizar SOA (Second Order Attributes) Para capturar esta información proponemos utilizar SOA (Second Order Attributes) Por otro lado, la información temática permite describir una clase. Para capturar esta información proponemos utilizar LSA (Latent Semantic Analysis) Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 8 / 22 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 8 / 22 Second Order Attributes Latent Semantic Analysis Esta representación consta de dos pasos: i Construir vectores de palabras en el espacio de las diferentes clases para todos los perfiles. ii Construir vectores de documentos en el espacio de los diferentes perfiles Formalmente, para cada termino en el vocabulario se calcula tj donde, tj = htp1j , ..., tpmj i. Donde cada tpmj es un valor basado en frecuencia que representa la relación entre el termino tj y el perfil pm . Finalemnte dk = X tj ∈Dk LSA es un método que extrae y representa la semántica latente de las palabras y de los documentos. Esta representación se construye a partir de una matriz M donde mij es el valor de frecuencia de la palabra i en el documento j. Este algoritmo utiliza una técnica llamada Descomposición en valores singulares (SVD) para descomponer M de la siguiente manera: M = UΣVT tfkj tj lenght(dk ) Donde Dk es el conjunto de términos que pertenecen al documento dk . Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 9 / 22 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 10 / 22 27 de agosto de 2015 12 / 22 Combinación de la información discriminativa y descriptiva Dado un vector xj que representa al documento j bajo la representación LSA con K dimensiones y yj es el el vector resultante de la representación SOA del documento j con m dimensiones, la representación final de cada documento se define como: zj = hxj1 , . . . , xjk , yj1 , . . . , yjm i 1 Introduccción 2 Propuesta 3 Experimentos Corpus Resultados con validación cruzada Resultados en el PAN 2015 4 Conclusiones El corpus finalmente es representado como: Z= [ hzj , cj i dj ∈D Donde cj es la clase del documento j. Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 11 / 22 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores Corpus Diferentes clases en el corpus Género (Disponible en todos los idiomas) El corpus del PAN 2015 esta compuesto por cuatro idiomas: Español, Inglés, Italiano y Holandés. Femenino Masculino Edad (Solo disponible en Español e Inglés) 18-24 25-34 35-49 50-xx Cuadro : Descripción del conjunto de datos Idioma Inglés Español Italiano Holandés Miguel A. Álvarez-Carmona (INAOE) Perfiles de autores 152 100 38 34 Detección de Perfiles de Autores Big 5 (Disponible en todos los idiomas y con rangos entre -0.5 y 0.5) Extroversión Estabilidad Agradable Consiente Apertura 27 de agosto de 2015 13 / 22 Resultados con validación cruzada Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 14 / 22 Resultados con validación cruzada Con K = 100 para LSA y el algoritmo LibLINEAR Cuadro : Resultados de la precisión obtenida para género Idioma Inglés Español Italiano Holandés BOW 74.00 84.00 76.31 82.35 Miguel A. Álvarez-Carmona (INAOE) SOA 70.86 74.00 73.68 91.07 Detección de Perfiles de Autores LSA 74.34 91.00 86.84 91.17 Cuadro : Resultados de la precisión obtenida para edad LSA+SOA 78.28 91.00 86.84 91.17 27 de agosto de 2015 15 / 22 Idioma Inglés Español BOW 74.83 80.00 Miguel A. Álvarez-Carmona (INAOE) SOA 68.21 74.00 Detección de Perfiles de Autores LSA 78.94 81.00 LSA+SOA 79.60 82.00 27 de agosto de 2015 16 / 22 Resultados con validación cruzada Resultados con validación cruzada Cuadro : Resultados de la precisión obtenida para personalidad Rasgo Extrovertido Estable Agradable Consciente Apertura Miguel A. Álvarez-Carmona (INAOE) Inglés BOW 64 56 60 61 65 LSA+SOA 87 85 80 78 86 Español BOW 62 69 62 62 62 Detección de Perfiles de Autores Cuadro : Resultados de la precisión obtenida para personalidad LSA+SOA 87 91 84 86 74 27 de agosto de 2015 Rasgo Extrovertido Estable Agradable Consciente Apertura 17 / 22 Italiano BOW 65 52 71 57 55 Miguel A. Álvarez-Carmona (INAOE) LSA+SOA 94 94 92 94 84 Holandés BOW 64 61 61 67 64 Detección de Perfiles de Autores LSA+SOA 91 94 88 91 97 27 de agosto de 2015 18 / 22 27 de agosto de 2015 20 / 22 Resultados en el PAN 2015 1 Introduccción 2 Propuesta 3 Experimentos Corpus Resultados con validación cruzada Resultados en el PAN 2015 4 Conclusiones Figura : Rangel, F., Rosso, P., Potthast, M., Stein, B., & Daelemans, W. (2015). Overview of the 3rd author profiling task at pan 2015. In CLEF. Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 19 / 22 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores Conclusiones El principal objetivo de este trabajo fue experimentar con caracterı́sticas descriptivas y discriminativas extraı́das de los algoritmos LSA y SOA respectivamente. Se descubrió que la información descriptiva ayuda mucho para la clasificación de perfiles de autores. La información discriminativa se ve afectada en su rendimiento cuando tratamos con colecciones de datos pequeñas. La información discriminativa es complementaria a la información descriptiva. Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 21 / 22 Miguel A. Álvarez-Carmona (INAOE) Detección de Perfiles de Autores 27 de agosto de 2015 22 / 22