Anotación de corpus Tema 5

Anuncio
Tema 5
Anotación de corpus
Recursos informáticos para la investigación literaria
Máster en Estudios Literarios
Universidad de Alicante
Curso 2014-2015
Borja Navarro Colorado
borja@dlsi.ua.es
@bncolorado
Contenidos
+ Análisis en profundidad con métodos
computacionales.
+ Representación de información mediante
lenguajes de marcado: XML.
+ Estándares: TEI.
+ Procesos de anotación.
Creative Commons Attribution-Share Alike 3.0 Unported
http://commons.wikimedia.org/wiki/File:Iceberg.jpg
Análisis computacional
●
Superficial:
–
–
–
●
Frecuencias, n-gramas, concordancias.
Lematización.
Expresiones regulares.
Profundo:
–
Anotación de corpus.
●
–
Manual o automática.
Data/Text Mining.
Anotación del corpus
Representación de la información
implícita de un corpus textual.
–
–
–
–
–
–
Tipográfica
Bibliográfica.
Estructural.
Lingüística.
Ecdótica
Otros (personajes, lugares, fechas, métrica...)
Anotación de corpus
Qué anotar/representar
Lenguaje de representación.
Método de anotación.
Lenguajes de marcado
●
●
Lenguajes formales para representar
información de un texto.
Basado en etiquetas:
<b>casa</b> = casa
<i>casa</i> = casa
<u>casa</u> = casa
HTML y XML
Derivados de SGML.
Etiquetas representadas por <...>.
HTML: optimizado para internet.
XML: propósito general.
Ejemplo HTML
<HTML>
<HEAD>
<TITLE>Mi página web</TITLE>
</HEAD>
<BODY>
<h1>El título</h1>
Texto, <b>texto</b> y más texto.
</BODY>
</HTML>
XML
En XML el significado de las etiquetas no está
predefinido.
Qué significa cada etiqueta se especifica en un
documento aparte (DTD).
Ejemplo XML
<?xml version="1.0" encoding="ISO-8859-1"?>
<libro>
<titulo></titulo>
<capitulo>
<titulo></titulo>
<seccion>
<titulo></titulo>
</seccion>
</capitulo>
</libro>
My mistress' eyes are nothing like the sun,
Coral is far more red than her lips red.
If snow be white, why then her breasts are dun,
If hairs be wires, black wires grow on her head.
I have seen roses damasked, red and white,
But no such roses see I in her cheeks.
And in some perfumes is there more delight
Than in the breath that from my mistress reeks.
I love to hear her speak, yet well I know
That music hath a far more pleasing sound.
I grant I never saw a goddess go,
My mistress when she walks, treads on the ground.
And yet, by Heaven, I think my love as rare
As any she belied with false compare.
Componentes documento XML
●
●
●
●
Elementos y atributos: etiquetas.
Parsed Character Data (PCDATA): texto.
Instrucciones de proceso.
Referencias de caracteres y entidades.
Elementos y atributos
●
●
Etiquetas: <...>
Simples:
<title>La Celestina</title>
●
Complejas (atributo=valor):
<verso type=“endecasilabo”>
Un soneto me manda hacer Violante
</verso>
Referencia a caracteres
Para referirse a caracteres especiales (&...;)
–
–
–
–
–
“<” representa a /</
“&” representa a /&/
“á” representa /á/
“é” representa /é/
etc.
Estándares
Si cada uno creara sus propias etiquetas...
Necesidad de desarrollar estándares
TEI
TEI
●
●
●
●
Text Encoding Initiative
http://www.tei-c.org/index.xml
Recomendaciones para codificar cualquier tipo
de texto.
Representar cualquier información textual
necesaria para los estudios humanísticos.
–
Más de 500 etiquetas.
Aprender TEI
●
La guía resulta compleja:
http://www.tei-c.org/Guidelines/P5/
●
Para aprender y anotar un corpus con TEI:
http://www.teibyexample.org/
http://www.teibyexample.org/xquery/TBEvalidator.xq
Estructura general TEI
<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
…
<teiHeader>
<text>
...
<text>
<TEI>
Encabezado (teiHeader)
●
●
●
Obligatorio.
Información metatextual y bibliográfica.
Elemento básico: fileDesc
–
–
–
●
titleStmt: título, autor, etc.
publicationStmt: datos de publicación electrónica
sourceDesc: datos bibliográficos fuente impresa.
Otros datos (opcionales): codificación, contexto
de digitalización, historial de revisiones, etc.
Ejemplo
<teiHeader>
<fileDesc>
<titleStmt>
<title>Poemas de Garcilaso anotados por
Francisco Sánchez El Brocense</title>
</titleStmt>
<publicationStmt>
<p>Edición electrónica de ejemplo</p>
</publicationStmt>
<sourceDesc>
<p>Garcilaso de la Vega, Francisco
Sánchez de las Brozas (1612) Obras del
excelente poeta Garcilasso de la Vega con
anotaciones y emiendas del maestro Francisco
Sanchez. Madrid. Iuan de la Cuesta </p>
</sourceDesc>
</fileDesc>
</teiHeader>
Prosa
●
●
<p>: párrafo.
<div>: unidades textuales.
–
●
●
@type para indicar el tipo de unidad
<Head>: encabezados
Ejemplos:
–
http://www.teibyexample.org/examples/TBED03v00.htm
<text>
Ejemplo
<body>
<div1 type=“capitulo” n=”1”>
<head>
<title>Que trata de la condición y ejercicio del famoso hidalgo don
Quijote de la Mancha</title>
</head>
<p>En un lugar de la Mancha, de cuyo nombre no quiero acordarme,
no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero,
adarga antigua, rocín flaco y galgo corredor....no se salga un punto de la
verdad.</p>
<p>Es, pues, de saber que este sobredicho hidalgo,... hacen
merecedora del merecimiento que merece la vuestra grandeza».</p>
</div1>
</body>
</text>
Verso
●
<lg>: estrofa.
–
●
<l>: verso.
–
●
●
@type para indicar tipo
@n para numeración
<rhyme>: rima
Ejemplos:
http://www.teibyexample.org/examples/TBED04v00.ht
m
Ejemplo
<text>
<body>
<head>
<title>-I-</title>
</head>
<lg type="cuarteto">
<l n="1" met="---+---+-+-">Cuando me paro a contemplar mi estado,</l>
<l n="2" met="-+-+---+-+-">y a ver los pasos por do me ha traído,</l>
<l n="3" met="+--+--+--+-">hallo, según por do anduve perdido,</l>
<l n="4" met="--++-+-+-+-">que a mayor mal pudiera haber llegado;</l>
</lg> (...)
<lg type="terceto">
<l n="9" met="+--+---+-+-">Yo acabaré, que me entregué sin arte</l>
<l n="10" met="---+-+---+-">a quien sabrá perderme y acabarme</l>
<l n="11" met="+--+---+-+-">si ella quisiere, y aun sabrá querello;</l>
</lg>
</body>
</text>
Teatro
●
Acto, escena y demás unidades textuales: <div>
–
●
●
●
●
●
@type para indicar el tipo.
<head> título (“Acto 1”)
<speaker>: personaje
<sp>: habla de personaje
<stage>: acotaciones
Ejemplos:
http://www.teibyexample.org/examples/TBED05v00.htm
Otras propuestas
●
NarrativeML (Mani 2013).
–
–
Basado en teoría narratológica.
Elementos:
●
●
●
●
Narrador y audiencia
Personajes
Eventos, tiempo y espacio
Objetivos y argumento: cadena/secuencia de eventos.
Procesos de anotación
●
Manual: lenta y compleja.
–
●
Consistencia.
Automática:
–
–
Herramientas de Lingüística Computacional.
Ejemplos:
●
●
●
●
●
http://nlp.lsi.upc.edu/freeling/demo/demo.php
https://www.textrazor.com/demo
http://gplsi.dlsi.ua.es/demos/socialrankings/
etc.
Semi-automática.
Conclusiones
●
●
●
Necesidad de representar la información
implícita del corpus literario.
Representación formal: XML, TEI, etc.
Procesos semi-automáticos de anotación:
–
–
Adaptar herramientas de LC al texto literario.
Revisar y corregir corpus literarios anotados.
Para el trabajo final...
●
Proponer la anotación de un texto literario
siguiendo las recomendaciones TEI.
–
–
Definir una propuesta (tipo de información a
anotar, recomendaciones TEI a seguir, etc.)
Anotar y validar un pequeño fragmento.
Actividad
●
Analizar y validar un poema anotado.
–
http://www.teibyexample.org/
–
http://www.teibyexample.org/xquery/TBEvalidator.xq
Bibliografía citada
●
Mani (2013) Computational Modeling of Narrative. Morgan & Claypool
Pub.
●
http://www.teibyexample.org
●
http://www.tei-c.org/index.xml
●
...
Descargar