Éléments de lexicologie avec R Une application à un texte ancien en espagnol Guillaume Desagulier MoDyCo — Université Paris 8, CNRS, Université Paris Ouest Nanterre La Défense gdesagulier@univ-paris8.fr Anciens textes, nouveaux outils La philologie à l’ère numérique 17 octobre 2015 Table des matières 1 Introduction 1.1 La linguistique de corpus et la philologie . . . . . . . . . . . . . . . . . . . . . . . 1.2 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 2 Le texte 2 3 Les outils 3 4 Microanalyse 4.1 Distribution zipfienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Distribution des personnages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Dispersion des personnages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 4 5 5 Méso-analyse 5.1 Richesse lexicale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Courbes de croissance du vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 6 Macroanalyse 10 7 Prolongements 10 8 Mise en garde 10 1 1 Introduction 1.1 La linguistique de corpus et la philologie A l’instar des biologistes, qui appréhendent la vie de manière indirecte, à travers l’étude de la structure, la fonction, la croissance, l’évolution, la distribution et la taxonomie des organismes vivants, les linguistes appréhendent le langage et la langue à travers des manifestations. Certaines théories cherchent ces traces langagières dans leur intuition. D’autres rejettent le recours à la seule intuition et se reportent sur des corpus. En linguistique de corpus, un corpus est un échantillon de productions linguistiques authentiques par des locuteurs natifs. Ces productions sont à présent le plus souvent numérisées de manière à pouvoir être « lues » par des machines. En dehors de la linguistique, d’autres disciplines des humanités ont recours à des collections de textes (histoire, littérature, stylistique, etc.) qu’elles exploitent le plus souvent à l’aide de techniques de fouille de textes. La linguistique de corpus exploite également ces techniques. Toutefois, le but de la linguistique diverge de celui des disciplines mentionnées plus haut. En littérature, on cherche à obtenir une meilleure connaissance d’un auteur, d’un courant ou d’une époque à partir du texte. En linguistique, la fouille de textes a pour but d’en savoir plus sur les locuteurs et sur la faculté de langage. Dans cette présentation, je propose d’appliquer des techniques couramment utilisées en linguistique de corpus à un texte ancien en espagnol. En ma qualité de linguiste spécialiste de sémantique en anglais, je ne prétends aucunement apporter de connaissances nouvelles sur le texte. Je ne prétends pas non plus apprendre à des philologues comment travailler. J’entends juste jeter un pont entre une discipline que je connais (la linguistique de corpus) et une discipline que je découvre avec humilité (la philologie). 1.2 Objectif Appliquer 3 niveaux d’analyse à une oeuvre (Jockers 2014) 1. micro 2. méso 3. macro 2 Le texte El Ingenioso Hidalgo Don Quijote de la Mancha, Miguel de Cervantes Saavedra 2 parties (1605, 1615) Version texte brut créée en décembre 1999 (Figure 1) Source : The Project Gutenberg http://www.gutenberg.org/cache/epub/2000/pg2000.txt Caractéristiques de la version en texte brut : - pas de numérotation des pages (mais chapitres) - pas de markup - pas de tokenisation - pas de lemmatisation - pas d’annotation - graphie modernisée En somme, tout reste à faire. Mais beaucoup de choses sont possibles, incomparablement plus qu’avec un manuscrit scanné (Figure 2), certes très beau, mais difficilement exploitable. 2 Figure 2 – Version scannée Figure 1 – Version texte brut 3 Les outils - R (R Core Team 2015) - extensions spécialisées dans — la linguistique de corpus — la fouille de textes — la textométrie 3 4 Microanalyse 4.1 Distribution zipfienne Zipf (1949) 4 3 2 1 Proportion du texte entier (pourcents) 5 Figure 3 – Un exemple de distribution pseudo-zipfienne que y de la a en el no los se con por las lo le su don del Vingt mots les plus fréquents Distribution des personnages 0.4 0.3 0.2 0.1 Proportion du texte entier (pourcents) 0.5 Figure 4 – Distribution des personnages principaux 0.0 4.2 quijote sancho dulcinea rocinante Personnages 4 rucio gigantes me como Dispersion des personnages Figure 5 – Dispersion (Don Quijote–Sancho Panza) don Quijote Spectre de dispersion de don Quijote dans Don Quijote de Cervantes 0e+00 1e+05 2e+05 3e+05 déroulement linéaire du roman Spectre de dispersion de Sancho Panza dans Don Quijote de Cervantes Sancho Panza 0e+00 1e+05 2e+05 3e+05 déroulement linéaire du roman 0.0 0.5 1.0 1.5 Figure 6 – Dispersion par chapitres (Don Quijote–Sancho Panza) 0.5 1.0 1.5 don Quijote 0.0 4.3 Sancho Panza 5 0.0 0.5 1.0 0.0 0.5 1.0 1.5 1.5 Figure 7 – Dispersion par chapitres (six personnages) Sancho Panza 0.0 0.0 0.2 0.2 0.4 0.4 don Quijote Rocinante 0.0 0.00 0.10 0.2 0.20 0.4 Dulcinea el rucio Richesse lexicale 0.05 0.10 0.15 0.20 0.25 0.30 0.35 Figure 8 – Richesse lexicale (pourcentage d’hapax par chapitre) 0.00 5.1 Méso-analyse pourcentage d'hapax legomena dans le chapitre 5 los gigantes 1 5 9 13 18 23 28 33 38 43 48 53 58 63 68 chapitres 6 73 78 83 88 93 98 104 110 116 122 5.2 Courbes de croissance du vocabulaire Élaboration : Baayen (2001). Exemples d’utilisation critique : Desagulier (2015) et Zeldes (2012) Figure 9 – Croissance empirique V 30000 courbe de croissance empirique 10000 20000 V1 Don Quijote : env. 381 000 mots 0 fréquences des types (V) et des hapax (V1) 40000 Courbe de croissance du vocabulaire dans Don Quijote 0 50000 100000 150000 200000 250000 taille du texte en mots (tokens) 7 300000 350000 Figure 10 – Croissance empirique + interpolation V 30000 courbe de croissance interpolée courbe de croissance empirique 20000 V1 10000 fréquences des types (V) et des hapax (V1) 40000 Courbes de croissance du vocabulaire dans Don Quijote (empirique + interpolation) 0 Don Quijote : env. 381 000 mots 0 50000 100000 150000 200000 250000 300000 350000 taille du texte en mots (tokens) Figure 11 – Croissance empirique + interpolation + extrapolation V 30000 40000 50000 courbe de croissance interpolée courbe de croissance extrapolée courbe de croissance empirique 10000 20000 V1 Don Quijote : env. 381 000 mots 0 fréquences des types (V) et des hapax (V1) 60000 Courbes de croissance du vocabulaire dans Don Quijote (empirique + interpolation + extrapolation) 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 taille du texte en mots (tokens) 8 6e+05 7e+05 Figure 12 – Croissance empirique + interpolation + extrapolation (Viaje del Parnaso) 50000 40000 30000 20000 10000 0 fréquences des types (V) et des hapax (V1) 60000 Courbe de croissance du vocabulaire (Viaje del Parnaso) 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05 7e+05 taille du texte en mots (tokens) Figure 13 – Comparaison Don Quijote–Viaje al Parnaso 50000 V (quijote) Don Quijote = env. 381 000 mots Viaje = env. 56 000 mots 30000 40000 V (viaje) quijote (int) quijote (ext) quijote (emp) viaje (int) viaje (ext) viaje (emp) V1 (quijote) 10000 20000 V1 (viaje) 0 fréquences des types (V) et des hapax (V1) 60000 Courbes de croissance du vocabulaire dans 2 oeuvres de Cervantes (empirique + interpolation + extrapolation) 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 taille du texte en mots (tokens) 9 6e+05 7e+05 6 Macroanalyse hambre Figure 14 – Nuage de mots fin libros traía parecer aquellos mismo duda señores andantes ventero orden autor caballería años quería suerte trabajo pensamientos pedro venían parecía llama éste barbero poner boca temor principal discreto cuenta silla ninguna poder sabía vestido buenos valeroso virtud quisiere mujer cuya figura hoy diese algún podía hacía pie corazón dónde juicio grandeza edad culpa llaman hacer caso quiere hora puesto mejor alguna comer pueblo lágrimas podría famoso pueda locura buenas tomó lengua reino sol sabe cosas diez vuesa todas caballo entró paz ciudad agua pudiera principio verdad menester dineros provecho espaldas criados viendo según después quién valiente aquel puso dos mucha creer comenzó leído dado amigo mal mesma buscar paso alma días diciendo pies desta voluntad entonces ésta grande aquello sansón doncella llegar hallado mala loco mirasazón preguntó amor contento digo muchas vino decía replicó camila cómo puesmano mancha mas haber manos capítulo ninguno venía rey brazos debajopienso palabra carta hidalgo antonio aposento amo vos luz tras parte sólo tres señoranombre veo solo ojos caballero cura buen caballeros creo parece veces casi respondió fernando anselmo rocinante ahora leer sancho ello vista dijo hijo modo don pareció cuatro obra rucio quisiera lotario cada gobernador renegado andar tomar aventura cristiano deseos junto gobierno tantas pensamiento presto quizá oro pobremuerto altisidora doña obras mañana mozo entrar sucesos hicieron fuere oyendo pensaba entendimiento caballerías maese llegaron sola enemigo labrador quedaron querría esperar dolor enamorado sobrina haciendo haré pudo encantadores hizo así tal allí quijote panza tiempo bueno tan dél gran razón licencia grandes jumento falta dije bien cuerpo aquellas pensar cardenio par debe ser cielo ver allá pasó nunca salió consejo 7 aquí sino merced casa entender carrasco seis señal hermosura gracias quedó compañía viene haga voces volver llamaba conmigo iba día dio oír toda señordar decir salir adelante visto presente mil fama cuales camino daba barbaspodrá ama vio libro voz mayores finalmente padre puedo natural oído punto unas primera fortuna marido cierto dueña dorotea primero armas siempre ventura rostro historia hecho hacen ínsula llevar tanta gente halló priesa dieron aventuras nuevo hombres gusto llegó mesmo ahí cuyo dicen noticia hazañas palabras queda dormir ánimo lugar aquella deseo menos daño saber puede dios vida resolución cristianos discurso peligro mercedes adonde hago bachiller espada mar diablo suelo amigos dellos vea fuerza suelen manera luego mundo buena dicho cosa aunque cuanto hablar mayor valor posible mandó madre muestras sangre españa zoraida consigo sucedió querer desgracia rico doncellas hijos batalla campo semejantes misma medio dejó condición ocasión intención apenas cerca cuentohonra demás memoria cuán ansí volvió hermosa hermano remedio verde partes ningún suceso luscinda castillo brazo nadie muerte triste cabocuantos tales andante quisojamás dejar nuevas pasar causa asno silencio agora suele razones lanza mitad pan duque escudero quiero della hace delantepueden bosque venta azotes tener noche hija persona libertad deste pecho puerta alguno hombre tierra duquesa padres dando dice toboso aún venir gana aun libre escuderos tantos pena cabeza vez espacio pasado teresa debía criado dulcinea Prolongements - classification - attribution d’auteur sur la base d’un apprentissage L’idéal est de disposer de textes électroniques avec marquage XML et annotations. A ma grande surprise, très peu de textes se conformant à ces exigences sont disponibles. 8 Mise en garde L’exploitation textométrique de textes électroniques ne se passe pas : - d’une connaissance approfondie des oeuvres, - d’une question de recherche solide, - d’une annotation manuelle ciblée (ex. personnages, lieux, dates, etc.). De plus, elle ne remplace pas l’intuition du chercheur. Elle ne sert qu’à l’étayer. 10 Références Baayen, Rolf Harald (2001). Word Frequency Distributions. Dordrecht : Kluwer Academic Publishers. Desagulier, Guillaume (2015). “A lesson from associative learning : asymmetry and productivity in multiple-slot constructions”. In : Corpus Linguistics and Linguistic Theory. Jockers, Matthew (2014). Text Analysis with R for Students of Literature. New York : Springer. R Core Team (2015). R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. Vienna, Austria. url : http://www.R-project.org/. Zeldes, Amir (2012). Productivity in Argument Selection : From Morphology to Syntax. Berlin & New York : Mouton de Gruyter. Zipf, George K. (1949). Human Behavior and the Principle of Least Effort. Cambridge : AddisonWesley. 11