Presentación

Anuncio
Combinación de Información Descriptiva y
Discriminativa para Detección de Perfiles de Autores
1
Introduccción
2
Propuesta
3
Experimentos
Corpus
Resultados con validación cruzada
Resultados en el PAN 2015
4
Conclusiones
Seminario de Lingüı́stica Forense, UNAM 2015
Miguel A. Álvarez-Carmona, A. Pastor López-Monroy, Manuel
Montes-y-Gómez, Luis Villaseñor-Pineda, Hugo Jair Escalante
Instituto Nacional de Astrofı́sica, Óptica y Electrónica
27 de agosto de 2015
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
1 / 22
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
2 / 22
Introducción
1
Definición
Introduccción
La detección de perfiles de autores consiste en determinar la mayor
cantidad de información posible de un autor desconocido
2
Propuesta
3
Experimentos
Corpus
Resultados con validación cruzada
Resultados en el PAN 2015
4
Conclusiones
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
3 / 22
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
4 / 22
Introducción
Detección de perfiles de autores en redes sociales
Definición
El auge de las redes sociales ha causado que los principales esfuerzos para
la detección de perfiles de autores se lleven a cabo a partir de la
información que los mismos usuarios suben a sus diferentes cuentas.
La detección de perfiles de autores consiste en determinar la mayor
cantidad de información posible de un autor desconocido
Figura :
Author Profiling PAN-AP-2013 - CLEF 2013 Valencia, 24th September 2013 Francisco Rangel Autoritas Universitat Politècnica de València, Paolo Rosso-Universitat Politècnica de València, Moshe Koppel- Bar-Illan University,
Efstathios Stamatatos - University of the Aegean, Giacomo Inches - University of Lugano
Figura :
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
4 / 22
Visto 24 de agosto: http://blog.qmee.com/qmee-online-in-60-seconds/
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
5 / 22
Propuesta
1
Introduccción
2
Propuesta
3
Experimentos
Corpus
Resultados con validación cruzada
Resultados en el PAN 2015
4
Conclusiones
Miguel A. Álvarez-Carmona (INAOE)
Tı́picamente, el problema de detección de perfiles de autores se ha
atacado desde el punto de vista de clasificación.
Detección de Perfiles de Autores
27 de agosto de 2015
6 / 22
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
7 / 22
Propuesta
Propuesta
Tı́picamente, el problema de detección de perfiles de autores se ha
atacado desde el punto de vista de clasificación.
Generalmente, existen tres pasos principales en un proceso de
clasificación de textos:
Tı́picamente, el problema de detección de perfiles de autores se ha
atacado desde el punto de vista de clasificación.
Generalmente, existen tres pasos principales en un proceso de
clasificación de textos:
Extracción de caracterı́sticas textuales
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
7 / 22
Propuesta
Detección de Perfiles de Autores
27 de agosto de 2015
7 / 22
Propuesta
Tı́picamente, el problema de detección de perfiles de autores se ha
atacado desde el punto de vista de clasificación.
Generalmente, existen tres pasos principales en un proceso de
clasificación de textos:
Tı́picamente, el problema de detección de perfiles de autores se ha
atacado desde el punto de vista de clasificación.
Generalmente, existen tres pasos principales en un proceso de
clasificación de textos:
Extracción de caracterı́sticas textuales
Representación de documentos
Miguel A. Álvarez-Carmona (INAOE)
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
Extracción de caracterı́sticas textuales
Representación de documentos
Algoritmo de clasificación
27 de agosto de 2015
7 / 22
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
7 / 22
Propuesta
Propuesta
El principal objetivo de nuestro enfoque es calcular atributos
discriminativos y descriptivos construidos a partir de las
caracterı́sticas textuales con mejores resultados reportados en el
estado del arte.
Tı́picamente, el problema de detección de perfiles de autores se ha
atacado desde el punto de vista de clasificación.
Generalmente, existen tres pasos principales en un proceso de
clasificación de textos:
Extracción de caracterı́sticas textuales
Representación de documentos
Algoritmo de clasificación
En este trabajo nos centraremos en la representación de documentos
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
7 / 22
Propuesta
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
8 / 22
Propuesta
El principal objetivo de nuestro enfoque es calcular atributos
discriminativos y descriptivos construidos a partir de las
caracterı́sticas textuales con mejores resultados reportados en el
estado del arte.
De acuerdo con la literatura, el estilo de los textos otorga información
discriminativa entre los tipos de perfiles de autores.
El principal objetivo de nuestro enfoque es calcular atributos
discriminativos y descriptivos construidos a partir de las
caracterı́sticas textuales con mejores resultados reportados en el
estado del arte.
De acuerdo con la literatura, el estilo de los textos otorga información
discriminativa entre los tipos de perfiles de autores.
Para capturar esta información proponemos utilizar SOA (Second
Order Attributes)
Para capturar esta información proponemos utilizar SOA (Second
Order Attributes)
Por otro lado, la información temática permite describir una clase.
Para capturar esta información proponemos utilizar LSA (Latent
Semantic Analysis)
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
8 / 22
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
8 / 22
Second Order Attributes
Latent Semantic Analysis
Esta representación consta de dos pasos:
i Construir vectores de palabras en el espacio de las diferentes clases
para todos los perfiles.
ii Construir vectores de documentos en el espacio de los diferentes perfiles
Formalmente, para cada termino en el vocabulario se calcula tj donde,
tj = htp1j , ..., tpmj i. Donde cada tpmj es un valor basado en frecuencia que
representa la relación entre el termino tj y el perfil pm . Finalemnte
dk =
X
tj ∈Dk
LSA es un método que extrae y representa la semántica latente de las
palabras y de los documentos. Esta representación se construye a partir de
una matriz M donde mij es el valor de frecuencia de la palabra i en el
documento j. Este algoritmo utiliza una técnica llamada Descomposición
en valores singulares (SVD) para descomponer M de la siguiente manera:
M = UΣVT
tfkj
tj
lenght(dk )
Donde Dk es el conjunto de términos que pertenecen al documento dk .
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
9 / 22
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
10 / 22
27 de agosto de 2015
12 / 22
Combinación de la información discriminativa y descriptiva
Dado un vector xj que representa al documento j bajo la representación
LSA con K dimensiones y yj es el el vector resultante de la representación
SOA del documento j con m dimensiones, la representación final de cada
documento se define como:
zj = hxj1 , . . . , xjk , yj1 , . . . , yjm i
1
Introduccción
2
Propuesta
3
Experimentos
Corpus
Resultados con validación cruzada
Resultados en el PAN 2015
4
Conclusiones
El corpus finalmente es representado como:
Z=
[
hzj , cj i
dj ∈D
Donde cj es la clase del documento j.
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
11 / 22
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
Corpus
Diferentes clases en el corpus
Género (Disponible en todos los idiomas)
El corpus del PAN 2015 esta compuesto por cuatro idiomas: Español,
Inglés, Italiano y Holandés.
Femenino
Masculino
Edad (Solo disponible en Español e Inglés)
18-24
25-34
35-49
50-xx
Cuadro : Descripción del conjunto de datos
Idioma
Inglés
Español
Italiano
Holandés
Miguel A. Álvarez-Carmona (INAOE)
Perfiles de autores
152
100
38
34
Detección de Perfiles de Autores
Big 5 (Disponible en todos los idiomas y con rangos entre -0.5 y 0.5)
Extroversión
Estabilidad
Agradable
Consiente
Apertura
27 de agosto de 2015
13 / 22
Resultados con validación cruzada
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
14 / 22
Resultados con validación cruzada
Con K = 100 para LSA y el algoritmo LibLINEAR
Cuadro : Resultados de la precisión obtenida para género
Idioma
Inglés
Español
Italiano
Holandés
BOW
74.00
84.00
76.31
82.35
Miguel A. Álvarez-Carmona (INAOE)
SOA
70.86
74.00
73.68
91.07
Detección de Perfiles de Autores
LSA
74.34
91.00
86.84
91.17
Cuadro : Resultados de la precisión obtenida para edad
LSA+SOA
78.28
91.00
86.84
91.17
27 de agosto de 2015
15 / 22
Idioma
Inglés
Español
BOW
74.83
80.00
Miguel A. Álvarez-Carmona (INAOE)
SOA
68.21
74.00
Detección de Perfiles de Autores
LSA
78.94
81.00
LSA+SOA
79.60
82.00
27 de agosto de 2015
16 / 22
Resultados con validación cruzada
Resultados con validación cruzada
Cuadro : Resultados de la precisión obtenida para personalidad
Rasgo
Extrovertido
Estable
Agradable
Consciente
Apertura
Miguel A. Álvarez-Carmona (INAOE)
Inglés
BOW
64
56
60
61
65
LSA+SOA
87
85
80
78
86
Español
BOW
62
69
62
62
62
Detección de Perfiles de Autores
Cuadro : Resultados de la precisión obtenida para personalidad
LSA+SOA
87
91
84
86
74
27 de agosto de 2015
Rasgo
Extrovertido
Estable
Agradable
Consciente
Apertura
17 / 22
Italiano
BOW
65
52
71
57
55
Miguel A. Álvarez-Carmona (INAOE)
LSA+SOA
94
94
92
94
84
Holandés
BOW
64
61
61
67
64
Detección de Perfiles de Autores
LSA+SOA
91
94
88
91
97
27 de agosto de 2015
18 / 22
27 de agosto de 2015
20 / 22
Resultados en el PAN 2015
1
Introduccción
2
Propuesta
3
Experimentos
Corpus
Resultados con validación cruzada
Resultados en el PAN 2015
4
Conclusiones
Figura :
Rangel, F., Rosso, P., Potthast, M., Stein, B., & Daelemans, W. (2015). Overview of the 3rd author profiling task
at pan 2015. In CLEF.
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
19 / 22
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
Conclusiones
El principal objetivo de este trabajo fue experimentar con
caracterı́sticas descriptivas y discriminativas extraı́das de los
algoritmos LSA y SOA respectivamente.
Se descubrió que la información descriptiva ayuda mucho para la
clasificación de perfiles de autores.
La información discriminativa se ve afectada en su rendimiento
cuando tratamos con colecciones de datos pequeñas.
La información discriminativa es complementaria a la información
descriptiva.
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
21 / 22
Miguel A. Álvarez-Carmona (INAOE)
Detección de Perfiles de Autores
27 de agosto de 2015
22 / 22
Descargar