Diseño y compilación de corpus Tema 3

Anuncio
Tema 3
Diseño y compilación
de corpus
Recursos informáticos para la investigación literaria
Máster en Estudios Literarios
Universidad de Alicante
Curso 2014-2015
Borja Navarro Colorado
borja@dlsi.ua.es
@bncolorado
Contenidos
+ Definición de corpus.
+ Diseño del corpus.
+ Compilación del corpus.
+ Almacenamientos y limpieza del corpus.
+ Introducción a los metadatos.
Corpus, corpora
“A corpus is a collection of pieces of language text in
electronic form, selected according to external
criteria to represent, as far as possible, a language or
language variety as a source of data for linguistic
research”
John Sinclair 2004
Corpus, corpora
●
Para que los datos del corpus sean fiables, el
corpus debe:
–
–
–
–
Ser representativo de aquello que se quiere estudiar.
Selección de textos de acuerdo a unos criterios
claros, bien definidos y justificados.
Formato digital.
Tamaño máximo necesario.
Codificación
●
●
●
Representación digital del texto.
Un carácter = un número binario de 7 u 8
dígitos.
Problema: distintos modos de representación.
–
–
–
ASCII
Latin1
UTF-8 y UNICODE
Diseño del corpus
●
Definir y justificar los criterios de selección de
textos.
–
–
Determinados por las necesidades y objetivos del
estudio.
Máxima representatividad del hecho literario.
Criterios de selección
●
¿Cuántos textos?, ¿cuántos autores?
●
¿Qué tipo de texto (narrativa, lírica, etc)?
●
¿Qué tamaño es el apropiado?, ¿textos completos o
fragmentos?
●
¿Todos los textos del autor o sólo obras seleccionadas?
●
¿Textos de qué periodo?, ¿qué temas?, etc.
Demostrad
Demostradque
queel
elcorpus
corpuses
esuna
una
representación
representaciónfiable
fiableyyobjetiva
objetivadel
del
hecho
hecho literario
literario aa estudiar.
estudiar.
Actividad para pensar
1. Corpus de novela española del siglo XIX
(época realista):
Benito Pérez Galdós: 80 novelas aprox.
Leopoldo Alas “Clarín”: 2 novelas.
¿Es
¿Es representativo
representativo
de
de la
la novelística
novelística
del
del XIX?
XIX?
¿Queda
¿Queda Clarín
Clarín
infrainfrarepresentado?
representado?
Actividad para pensar
2. Corpus de sonetos del Siglo de Oro (XVI-XVII):
Garcilaso de la Vega: 38 sonetos máximo.
Lope de Vega: más de 1000 sonetos (1382).
¿Es
¿Es representativo
representativo
de
de la
la sonetística
sonetística
áurea?
áurea?
¿Queda
¿Queda Lope
Lope de
de
Vega
Vega suprasuprarepresentado?
representado?
Compilación
Búsqueda y descarga de los textos.
Fuentes fiables:
–
Bibliotecas virtuales y repositorios textuales.
Bibliotecas virtuales
●
Biblioteca Virtual Miguel de Cervantes.
●
Internet Archive.
●
Gutenberg Project.
●
Oxford Text Archive
●
Archivo Digital de Manuscritos y Textos Españoles
●
Europeana
●
Biblioteca Digital Hispánica (BNE).
Bibliotecas virtuales
●
Más:
http://www.todoereaders.com/lista-de-sitios-para-descargar-ebooks-gratis-de-forma-l
egal.html
http://www.bne.es/es/Servicios/FuentesInformacion/BibliotecasDigitales/
http://www.hathitrust.org/
...
¿Qué
¿Qué bibliotecas
bibliotecas
virtuales
virtuales conoces?
conoces?
¡Compártelas!
¡Compártelas! #riilua
#riilua
Compilación
●
●
Cómo descargar...
Problemas:
–
–
Aspectos legales
Calidad del texto:
●
●
Digitalización
Edición crítica.
Almacenamiento
●
Directorio propio
●
Un fichero por texto (más o menos): modularidad.
●
Formato simple. Extensión “.txt”
●
●
Nombres de fichero descriptivos. Evitad tildes y eñes.
Numerar desde 00 si es necesario.
Ejemplo...
Almacenamiento
Editores de texto simple
●
●
●
●
NotePad++ (Windows)
TextWrangler (Mac)
TextEdit (Mac)
Gedit (Linux)
Cualquier editor para lenguajes de programación.
Limpieza
Dejad el texto literario puro.
● Errores productor de la digitalización o la
descarga.
● Borrar caracteres erróneos y palabras no
propias del texto
● Buscar y reemplazar...
Ejemplo
ArribaAbajoCapítulo I
Que trata de la condición y ejercicio del famoso hidalgo don Quijote de la Mancha
En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo
que vivía un hidalgo de los de lanza en astillero, adarga antigua, rocín flaco y galgo
corredor. Una olla de algo más vaca que carnero, salpicón las más noches, duelos y
quebrantos los sábados, lantejas los viernes, algún palomino de añadidura los
domingos, consumían las tres partes de su hacienda. El resto della concluían sayo de
velarte, calzas de velludo para las fiestas, con sus pantuflos de lo mesmo, y los días de
entresemana se honraba con su vellorí de lo más fino. Tenía en su casa una ama que
pasaba de los cuarenta, y una sobrina que no llegaba a los veinte, y un mozo de campo y
plaza, que así ensillaba el rocín como tomaba la podadera. Frisaba la edad de nuestro
hidalgo con los cincuenta años; era de complexión recia, seco de carnes, enjuto de
rostro, gran madrugador y amigo de la caza. Quieren decir que tenía el sobrenombre de
Quijada, o Quesada, que en esto hay alguna diferencia en los autores que deste caso
escriben; aunque por conjeturas verosímiles se deja entender que se llamaba Quijana.
Pero esto importa poco a nuestro cuento: basta que en la narración dél no se salga un
punto de la verdad....
ArribaAbajoCapítulo II
Que trata de la primera salida que de su tierra hizo el ingenioso don Quijote
Hechas, pues, estas prevenciones, (...)
Metadatos
Información sobre el texto: autor, título,año,
editorial, url, fuente, etc.
●
Guarda en fichero aparte.
●
Índice de textos, autor, url, fuente, etc.
●
¿Hoja de cálculo?, ¿archivo “leeme.txt” /
“readme.txt”?
Más información en próximos temas...
Para el trabajo final...
●
Tomad nota de todo el proceso (diario):
–
–
–
–
Url de donde se ha obtenido el texto
Fecha de descarga
Problemas en el proceso de limpieza y solución
adoptada.
etc.
Actividad
Compartir con la clase direcciones de Bibliotecas
Virtuales y otros recursos interesantes de la web.
–
–
–
Twitter.
Enviar tweets con la etiqueta #riilua
Buscar tweets con esta etiqueta.
Bibliografía citada
●
Sinclair, John (2004) “Developing Linguistic Corpora: a Guide to
Good Practice” AHDS.
http://users.ox.ac.uk/~martinw/dlc/chapter1.htm
Descargar