indicaciones sobre la preparación formal de los corpus textuales

Anuncio
Centro de Análisis Informático de Textos
_____________________________________________________________________________________
INDICACIONES SOBRE LA PREPARACIÓN FORMAL DE LOS
CORPUS TEXTUALES
El objetivo de este documento es indicar al investigador cuales son los requisitos que ha
de tener un texto o corpus textual para que el CAIT pueda ejecutar un análisis de
calidad.
Qué es un corpus textual y cómo se construye
Se entiende por corpus textual un conjunto de textos seleccionados a través de uno o
más criterios de homogeneidad. Dicho de otra manera, textos seleccionados que tienen
algo en común.
Los criterios de selección de textos son múltiples y variados y dependen directamente
de la pregunta de investigación y objeto de estudio del investigador.
En determinados casos y circunstancias el personal del CAIT puede asesorar sobre la
constitución de un corpus.
Sobre el tamaño del corpus textual
El CAIT cuenta con recursos que permiten analizar textos o corpus textuales con un
volumen comprendido entre unas 20 páginas y varios miles.
Las lenguas
El CAIT está orientado al análisis de textos en castellano.
En caso de contar con un texto o corpus en otra lengua o con textos en diversas lenguas
conviene consultar con el CAIT.
El texto o corpus ha de estar “limpio”
El CAIT ofrece un servicio de análisis de textos, por lo que todo elemento en el corpus
que no sea texto está de más e imposibilita el análisis.
La limpieza del corpus consiste en la supresión de elementos tales como fotografías,
marcos, gráficas, dibujos, líneas, iconos,…etc.
En resumidas cuentas, un corpus textual sólo ha de contener texto.
En caso de que el texto contenga caracteres no alfanuméricos conviene consultar con el
CAIT sobre la supresión o sustitución de los mismos.
Sobre la forma de los elementos del texto
Los programas utilizados normalizan el texto, por lo que quedan suprimidas todas las
partes que aparezcan en negrita, cursiva, subrayadas, resaltadas o en distinto color.
En caso de que el investigador tenga interés en mantener la diferenciación entre las
partes ha de consultar con el CAIT sobre las posibilidades existentes.
Está altamente recomendado que el investigador indique qué palabras desea conservar
con mayúscula y cuales con minúscula.
La diferenciación es útil, entre otras cosas, para desambiguar y diferencias palabras. Por
ejemplo, no es lo mismo “el estado de las cosas” que de “las cosas del Estado”.
También es útil diferenciar entre allende y Allende.
Lo más práctico es que el texto esté por completo en minúscula y que las palabras cuya
mayúscula se quiera conservar vengan precedidas por un carácter no alfanumérico. (En
el ejemplo: se ha usado * para identificar las palabras que empiezan por mayúscula)
cait@cps.ucm.es
http://www.ucm.es/info/cait
Tlf: 91 3942625
1
Despacho 3517
Facultad de Ciencias Políticas y Sociología
Centro de Análisis Informático de Textos
_____________________________________________________________________________________
En numerosas ocasiones resulta útil transformar un conjunto de palabras en una sola por
su propiedad de unidad semántica. Lo común es unir las palabras por medio de un guión
bajo. (En el ejemplo: Corea del Norte pasa a *corea_del_*norte)
El investigador, en función de sus intereses, puede incluir delimitadores que dividen el
texto en segmentos, lo cual tiene interés para distintos tipos de análisis.
El delimitador universal es el punto, al cual se suman la coma, los signos de
interrogación, de exclamación, los paréntesis,…etc.
Así, podemos incluir un carácter no alfanumérico para considerar como segmento, por
ejemplo, un párrafo. (En el ejemplo: se ha usado el carácter $ para delimitar párrafos)
Ténganse en cuenta estas cuestiones al manejar siglas de organizaciones. (Ver ejemplo)
Particiones
Una partición es una división en función de una propiedad dada. El particionar un texto
o corpus tiene interés para la aplicación de distintos tipos de análisis.
Ejemplos de particiones son: dividir un texto por páginas, por capítulos, por autor, por
personajes o actores, por fecha,…etc.
Una forma usual de indicar una partición es: <propiedad=valor>
(En el ejemplo: Se ha considerado la propiedad “Actor”, la cual tiene dos valores:
“Entrevistador” y “Ana”)
En todo caso se recomienda contar con el asesoramiento del CAIT para la partición de
un corpus.
Ejemplo
A continuación se muestra un texto sin preparar y una propuesta de formalización para
análisis:
Entrevistador: ¿Qué opina de la intervención de EE.UU. en esta cumbre?
Ana: Creo que no ha sido demasiado acertado criticar aquí las posiciones de Corea
del Norte y de Arabia Saudí.
Por otro lado, creo que sus propuestas en materia económica han sorprendido a los
asistentes.
Entrevistador: ¿A qué se refiere?
<Actor=Entrevistador> $ ¿qué opina de la intervención de *eeuu en esta cumbre?
<Actor=Ana> $ creo que no ha sido demasiado acertado criticar aquí las posiciones
de *corea_del_*norte y de *arabia_*saudí.
$ por otro lado, creo que sus propuestas en materia económica han sorprendido a
los asistentes. sobretodo a los representantes de los países asiáticos.
<Actor=Entrevistador> $ ¿a qué se refiere?
NOTA: Para la formalización textual se recomienda el uso de las herramientas
Reemplazar, Sustituir o Formato. Estas herramientas son comunes en la mayoría de los
procesadores de texto.
cait@cps.ucm.es
http://www.ucm.es/info/cait
Tlf: 91 3942625
2
Despacho 3517
Facultad de Ciencias Políticas y Sociología
Descargar