Unidades Semánticas y Prosódicas para Estructurar un Corpus de

Unidades Semánticas y Prosódicas para Estructurar un Corpus de Habla Espontánea en Español Manuel Alcántara Plá DFKI GmbH 1. Introducción La búsqueda de una estructura para el lenguaje es uno de los objetivos de la lingüística desde sus orígenes y su importancia se ha visto reforzada en los últimos tiempos con el interés de la lingüística computacional en proporcionar una formalización del funcionamiento de las lenguas. La mayoría de las aproximaciones tradicionales han estado basadas en fundamentos sintácticos, pero estos análisis han resultado insuficientes para poder interpretar los contenidos de las emisiones lingüísticas, lo que es el objetivo de muchos de los trabajos y proyectos actuales, como los que se ocupan de extracción de información o de la traducción automática. Esta circunstancia ha provocado un giro hacia la semántica especialmente acusado en las aproximaciones más empiristas. Quizá el problema más grave de los análisis sintácticos sea que estén pensados para un tipo concreto de lenguaje, algo que parecen haber heredado las aproximaciones semánticas. En los casos más restrictivos, nos encontramos con sistemas diseñados ad hoc para un objetivo determinado, como por ejemplo las anotaciones semánticas de los sistemas de pregunta-respuesta (QA). Entre los menos restrictivos, podemos incluir las gramáticas tradicionales que no explicitan ninguna limitación, pero que están claramente basadas en la lengua escrita. Este artículo presenta un propuesta para estructurar el tipo de lenguaje más amplio y usado a la vez que menos estudiado: la lengua oral. Este objetivo nos ha llevado a tomar tres decisiones atípicas en este tipo de trabajos. En primer lugar, tomaremos los datos de un corpus de habla espontánea. La escasez de estudios basados en este tipo de corpus es escandalosa incluso en disciplinas típicamente orales como son la fonética y la pragmática. Cuando se basan en lengua oral, suelen hacerlo en lecturas (p.ej. los citados en Botinis 2000), lo que se podría considerar a medio camino entre la lengua oral y la escrita puesto que los signos de puntuación siguen reglas gramaticales y no prosódicas, pero hay claras evidencias de que los hablantes los utilizan en las lecturas para guiar la entonación (así como es frecuente el uso incorrecto de la puntuación por estar contaminada por la prosodia (Croft, Turtle y Lewis 1991)). Nuestra segunda elección atípica es la de optar por un corpus de español. La mayoría de la bibliografía existente coincide en analizar corpus en inglés, lo que nos ha dado no sólo una gran cantidad de información sobre esta lengua, sino también una inercia que insiste en marginar el resto. Esta situación es negativa incluso para el inglés ya que no tenemos base para realizar estudios comparativos que seguramente enriquecerían nuestras conclusiones lingüísticas. La última elección es la de centrar nuestro trabajo en las relaciones existentes entre la semántica y la prosodia. Ambos aspectos son considerados en este estudio como la base de la lengua hablada, pero han sido poco estudiados hasta el momento a causa del sintacticentrismo imperante en la lingüística del siglo pasado. No han faltado los autores que, como Alan Cruttenden, han advertido que estas relaciones constituyen una de las áreas donde deberían concentrarse los mayores esfuerzos, pero también que “todavía no está claro qué tipos de significados habría que tratar” (Cruttenden 1997). En las próximas páginas, propondremos anotaciones sencillas que permitan estudiar las estructuras semánticas y prosódicas en el habla espontánea. Se trata en ambos casos de etiquetados básicos en cuyo diseño se tuvo en cuenta tanto su valor informativo como el coste de sus análisis. Como mencionábamos, necesitamos anotaciones eficaces, pero también que no requieran de grandes inversiones de modo que se puedan aplicar a corpus de lenguas “desfavorecidas” económicamente. Aquí facilitaremos datos de un corpus real de español para demostrar las relaciones entre ambos niveles y analizar en detalle cuáles son sus características. 2. El Corpus: UAM C-Oral-Rom He utilizado para este trabajo 50.000 palabras tomadas del corpus UAM C-Oral-Rom. Este corpus está formado por grabaciones de habla espontánea en español y cubre una gran variedad de contextos, dominios, hablantes e incluso canales. Las grabaciones están clasificadas según se correspondan con habla formal o informal (50% de cada), con habla en contexto natural, telefónico o en medios de comunicación, y según el número de hablantes. El subcorpus que hemos utilizado fue elegido con la premisa de que las diferentes clases estuvieran representadas. Más adelante utilizaremos estas distinciones en nuestro estudio. Cada grabación aparece en el corpus con la siguiente información: datos externos (sobre los hablantes, el contexto comunicativo, el tema, la fecha, etc.), la transcripción ortográfica, la transcripción fonética, el etiquetado prosódico (unidades tonales y proferencias), el alineamiento de las proferencias con el sonido, y el etiquetado morfológico. El subcorpus elegido por nosotros incluye también el etiquetado semántico según el formato SESCO que describiremos más abajo. Tanto las transcripciones como las anotaciones son de gran calidad puesto que fueron realizadas manualmente por expertos y validadas posteriormente siguiendo los exigentes estándares del proyecto europeo C-Oral-Rom que originó este corpus. Contar con estas garantías y, en especial, con el sonido alineado fue esencial al trabajar con una colección de textos de estas características puesto que garantizó que lo que se analizaba era fiel a lo que los hablantes habían producido. Todos los datos y ejemplos de este artículo han sido tomados de este corpus. 3. Las Estructuras y la Oralidad La gramática por la que se rige la lengua hablada es distinta a la de la escrita. Las diferencias han sido bien resumidas por Emanuela Cresti (Cresti and Moneglia 2005) para las lenguas romances (español, francés, italiano y portugués) con datos bastante coincidentes entre ellos. Para destacar un ejemplo con graves repercusiones, la mayoría de las gramáticas publicadas parten de la idea de que el verbo es el núcleo de la oración; sin embargo, encontramos que aproximadamente el 37% de las oraciones de estos corpus orales carecen de verbo. No todas las particularidades del lenguaje hablado afectan del mismo modo a las estructuras lingüísticas. González et. al (2004) proponen una útil distinción entre los rasgos de producción y los rasgos de interacción. Entre los primeros se incluyen las palabras fragmentadas, los apoyos vocálicos, los reinicios, etc. que son los más relevantes para el análisis semántico que propondremos en este artículo ya que añaden elementos extraños a la producción lingüística. Además, es interesante remarcar que algunos de estos fenómenos pueden indicar por sí mismos límites prosódicos (Croft et al. 1991). Entre los rasgos de interacción se incluyen el número de turnos, la velocidad, los solapamientos, etc. que afectan principalmente a la prosodia, pero también –aunque indirectamente- a las estructuras lingüísticas en casos como las interrupciones que provocan oraciones inacabadas. El fragmento (1) es un ejemplo de la complejidad que le añaden estos rasgos al análisis lingüístico. Los rasgos de producción aparecen anotados con “[/]” (reinicios) y cursivas (palabras pronunciadas de modo distinto al estándar). Dentro de los rasgos de interacción, cada turno comienza con un hablante numerado y precedido por un asterisco, las partes solapadas aparecen entre “< >” mientras que “+” indica una interrupción. Las barras “/” y “//” marcan los límites prosódicos de unidades tonales y proferencias respectivamente (como se explicará en la sección 5). En relación con los contenidos semánticos, es interesante señalar que los cuatro hablantes participan en la misma conversación, pero no discuten sobre los mismos temas: la calidad de los hospitales (tema que viene de los turnos precedentes), cómo volverá a casa el hablante 2, qué desesperantes son los interlocutores y cuánto trabajo tiene que hacer aún el hablante 2. (1) *HABLANTE 1: pero que sí que [/] que los hospitales / hija mía / tamién dependen de los sitios // y cómo <los / cuiden> // *HABLANTE 2: [<] <o qué ? o me bajas tú> ? *HABLANTE 3: a mí me da lo mismo // *HABLANTE 4: pero que te esperes un poco / tía petarda // *HABLANTE 1: <y> + *HABLANTE 2: <ay!> // qué pesaos sois // y luego tengo que bañar yo a la niña / y to // La complejidad señalada hace que sea difícil estructurar lingüísticamente el discurso espontáneo, especialmente en el nivel pragmático y sintáctico y a partir de las propuestas tradicionales. Sin embargo, esta estructuración cuenta con dos puntos de referencia claros como veremos en las siguientes secciones. El primero es el de los significados. Las lenguas se utilizan fundamentalmente para transmitir eventos y este contenido debe tener una estructura de modo que pueda expresarse a través de la sintaxis. Si obviamos el significado sustantivo de una oración, lo que nos queda es su estructura semántica. El segundo es el de la prosodia puesto que todas las lenguas tienen sus propios patrones entonativos y estos son utilizados intuitivamente por los hablantes para distinguir unos mensajes de otros (Cresti 2000). 4. Las Estructuras Semánticas El sistema utilizado para anotar las estructuras semánticas del corpus se denomina SESCO y se compone de un conjunto de etiquetas basadas en estructuras eventivas de tipo montagueano (Alcántara 2007). El significado es definido como una relación formal que permite relacionar la estructura sintáctica y el evento expresado por ésta. Remitimos a la obra citada para una descripción en detalle de la anotación y su motivación teórica, pero dedicaremos esta sección a exponer sus aspectos más básicos y controvertidos. El número ideal de tipos eventivos es una discusión que podríamos casi catalogar de crónica dentro de la semántica (Dik 1997, Dowty 1977, Chafe 1976). SESCO propone una clasificación con sólo tres tipos: estados, procesos y acciones, que pueden subdividirse en seis subclases dependiendo del tipo de argumentos que conlleven. Esta clasificación implica una clara reducción con respecto a la más popular propuesta por Vendler en el año 1967 y, por lo tanto, simplifica la tarea del etiquetado. La reducción se debe a que las actividades, los logros y las realizaciones de Vendler son analizadas composicionalmente como procesos y acciones. Esta composicionalidad y el uso de referencias que vinculan distintas partes de un mismo evento o de diferentes dentro de un mismo discurso han demostrado dotarle al sistema de un importante poder de cara al análisis lingüístico. Esta composicionalidad conlleva la siguiente jerarquía (que es considerada universal para todas las lenguas (Moreno Cabrera 1997)): estado (entidad + propiedad/localización) > proceso (estado + estado) > acción (agente + proceso). Todas las lenguas conocidas tienen predicados y argumentos como núcleo de sus estructuras semánticas (Jurafsky and Martin 2000). El estudio de los argumentos tiene una larga tradición especialmente centrada en el concepto de caso. Como ocurría con los tipos eventivos, prácticamente cada teoría a propuesto un número diferente de casos (Fillmore 1968, Samlowsky 1976), algunos pensados para un dominio concreto (p.ej. Thayse 1991) y otros para lenguas completas (p.ej. Hjemslev 1935). SESCO cuenta con únicamente cuatro tipos de argumentos: los agentes (que realizan las acciones), las entidades (que se relacionan en los estados con propiedades o localizaciones), las propiedades y las localizaciones. Las entidades de los estados que forman parte de acciones (en realidad, del proceso acometido por una acción) suelen denominarse en otras teorías pacientes, pero carecen de una etiqueta propia en SESCO. Las relaciones indirectas (IR) son esas partes del evento que no son ni predicados ni argumentos, pero que concretan el contenido de estos (a menudo denominadas adjuntos). De nuevo, su clasificación es motivo de discusión en la literatura, incluyendo tipologías muy exaustivas (p.ej. Croft, Turtle y Lewis 1991) y muy reducidas (p.ej. Moreno Cabrera 1997). SESCO cuenta con una clasificación intermedia con sólo tres grandes clases que pueden ser subdivididas en otras más específicas. Las clases se distinguen utilizando definiciones temporales: B-IR son las que ocurren antes del evento, D-IR ocurren a la vez –relativamenteque el evento y A-IR ocurren con posterioridad a este. Estos conceptos termporales son entendidos con flexibilidad de modo que B-IR incluye, entre otras, condiciones, causas y origen geográfico. D-IR incluye el caso instrumental, localización y concomitancia. Por último, A-IR incluye relaciones como las de finalidad y destino. Otro aspecto controvertido en la semántica actual es el del análisis del tiempo (Steedman 2003) y probablemente sea TimeML el proyecto más ambicioso sobre este tema en la lingüística de corpus (Pustejovsky et al. 2003). SESCO simplifica la problemática tomando el tiempo de la enunciación como punto de referencia: el tiempo será pasado, presente o futuro con relación al enunciado. Aún siendo un etiquetado evidentemente simplista, permite una anotación rápida y suficiente como base del habla espontánea, donde los hablantes cambian de tema y de referencias constantemente (como pudimos observar en el ejemplo (1) ). Los predicados (y el tiempo en que ocurren), los argumentos y las relaciones indirectas son componentes de los tres tipos eventivos. Las acciones y los procesos contienen además estructuras subeventivas. Estas estructuras no son consideradas en SESCO eventos, sino relaciones abstractas porque su predicado no aparece en el discurso, sino que es parte únicamente de la estructura de un evento superior. El ejemplo (2) muestra la estructura eventiva de “nosotros vamos allí”, donde los subeventos Σ (estados) son típicas relaciones abstractas. Sus predicados son denominados bases y son universales. El proceso “ir” aparece estructurado en (2) como una transición de un estado locativo a otro. (2) Ρ: Ir [ Σ: ¬B2 (nosotros, allí) Σ: B2 (nosotros, allí) ] Sólo existen cuatro bases diferentes, las cuales se corresponden con los predicados más básicos, es decir, los más probables en caso de que no haya ningún predicado explícito ni anafórico (Alcántara y Bertomeu 2005). Se definen del siguiente modo: B1 es la base de las relaciones abstractas que son estados atributivos en procesos que crean nuevas entidades; B2 es la base de los estados que son parte de movimientos (como en el ejemplo (2)); B3 es la base de los estados que son parte de mutaciones; y B4 es la base de estados en procesos y acciones en los que la entidad adquiere o pierde una posesión. Con el 64% de los casos, B1 y B3 son las bases más frecuentes en nuestro corpus. SESCO anota, como hemos visto, eventos y estos siempre ocurren en un sitio y tiempo concretos. Esto implica que la mayoría de los núcleos eventivos (predicados) son verbos, pero no todos. El caso más frecuente de eventos no verbales en el habla espontánea es el de las denominadas oraciones de veracidad, como la del hablante 2 en el ejemplo (3). La pregunta del primer hablante es un estado atributivo verbal en el que el otro hablante es relacionado con la propiedad de estar “malísimo”; la respuesta es también un estado atributivo, pero esta vez no es un verbo el que relaciona la proposición del primer hablante con la propiedad de no ser verdadero (en ese momento), sino un adverbio. (3) *Hablante 1: que estás malísimo? *Hablante 2: no 5. Las Unidades Prosódicas El corpus UAM C-Oral-Rom fue anotado con información prosódica según la teoría expuesta en Cresti (2000) y Cresti & Moneglia (2005). Los textos están divididos en unidades tonales y proferencias, ambas definidas como “variaciones prosódicas en el continuum del habla perceptiblemente relevantes”. Como hicimos en la anterior sección, remitimos a las obras citadas para los interesados en los detalles de la anotación, de la que describiremos aquí sólo sus aspectos clave. Los límites de las unidades tonales (LUT) están marcados por cambios prosódicos perceptibles que dividen el discurso en unidades informativas. Por su parte, las proferencias pueden estar formadas por una o más unidades tonales y componen un patrón entonativo completo. Al igual que los LUT, los límites de las proferencias (LP) están marcados por cambios prosódicos perceptibles. Los LP aparecen etiquetados con “//” mientras que los LUT lo son mediante “/”. En el corpus, los LP se etiquetan también con “?” (como en (5)), “!” y “...” si tienen entonación interrogativa, exclamativa o en suspensión respectivamente. (4) y / luego / creo que en verano / lo hacemos en el teatro al aire libre de Pinto / porque yo / no es por nada / voy a hablar otra vez de mi pueblo // (5) qué tareas desempeñas / aquí en el centro ? Como podemos ver en estos ejemplos, el etiquetado prosódico nos ofrece una estructuración del discurso en dos niveles y nos permite dividirlo en unidades. El patrón entonativo de una proferencia especifica su fuerza ilocutiva de modo que cada LP implica también el final de un acto de habla. De esta forma, la entonación guía la interpretación del significado básico de una proposición y le añade así significado a la estructura eventiva que definíamos en la sección previa. Emanuela Cresti define la proferencia como “la unidad lingüística mínima que permite una interpretación lingüística en el mundo”, lo que fundamenta el puente entre la semántica y la prosodia que queremos demostrar en las próximas páginas. 6. Límites Prosódicos y Estructuras Eventivas El subcorpus anotado con información semántica y prosódica confirma la relación existente entre ambos niveles, pero con algunos importantes matices que se expondrán a continuación. El dato más destacado es el que nos dice que el 90% de los finales de las estructuras eventivas coinciden con cambios prosódicos. Los cambios son en el 68,3% de los casos LP. A pesar de que el final de los eventos no debería coincidir con LUT según las definiciones dadas en la sección anterior, coinciden en el 21,7% restante. El ejemplo (6) contiene muestras de los dos tipos de límites prosódicos con los límites eventivos marcados entre corchetes. En este caso, sólo uno de los eventos coincide con un LP (etiquetado con puntos suspensivos). El fragmento nos sirve para ejemplificar la diversidad de usos de los LUT. Aquí aparecen limitando partes del evento (“en total fueron diez o doce días / porque”), distintos sintagmas dentro de una misma parte eventiva (“la ciudad / el arte / la Cartuja”) y distinguiendo eventos diferentes (“conocían / yo soy de Burgos / y de esta forma”). (6) [en total fueron diez o doce días / porque comenzamos / por Burgos / que no lo conocían] / [yo soy de Burgos] / [y de esta forma / les enseñé / la ciudad / el arte / la catedral / la Cartuja] ... Más adelante intentaremos explicar por qué en unos casos se prefiere LP y en otros LUT, pero primero señalaremos que la relación entre la semántica y la prosodia no es tan evidente como nos pueden hacer suponer los porcentajes mencionados si nos centramos en el etiquetado prosódico. Por ejemplo, sólo el 8.2% de los LUT coinciden con un límite eventivo. Muchos LUT delimitan partes del evento en lugar de eventos completos (como, por ejemplo, en (7), aunque el uso de LUT aquí tampoco es consistente y deja sin dividir “yo” y “en el pueblo”) y son muy frecuentes los casos que, como en (8), no tienen ninguna relación con las estructuras semánticas. (7) yo en el pueblo / también / como tú // (8) entonces ahora vamos a seguir en el / apasionante mundo de / la oración compleja // La relación de los LP con los eventos es más clara: el 75,3% de los LP se utilizan para marcar un final eventivo. Además, su segundo uso más frecuente está también relacionado con estos límites puesto que funcionan como delimitadores de marcadores discursivos o fragmentos que no forman parte de los eventos, sino que suelen utilizarse para guiar la interacción. Por ejemplo, el fragmento en (9) contiene el marcador “bueno”, fórmula típica en español para mostrar que se va a introducir un tema nuevo. En estos casos, los LP no limitan tanto el final de un evento como su inicio. (9) bueno // tu hermana qué tal ? 7. Unidades Lingüísticas y Clases de Textos La elección del hablante entre LP y LUT para delimitar eventos parece estar determinada por factores extralingüísticos. Los más relevantes según los datos del corpus que detallaremos a continuación son el contexto comunicativo y el número de hablantes que participan en la interacción. La información etiquetada en C-Oral-Rom nos permite estudiar ambos por separado. En cuanto al contexto comunicativo, el corpus diferencia entre interacciones informales privadas, informales públicas, en medios de comunicación, formales y telefónicas (informales). La siguiente gráfica muestra los porcentajes de límites eventivos en cada clase de texto coincidentes con LP, LUT o sin cambio prosódico. 72,40% Telefónico Formal 56,20% 33,20% Media 69,10% I. Público 68,90% I. Privado 0% 16,40% 11,10% 22,10% 20% 74,80% 20% 40% 10,60% 8,80% 11% LP LUT Sin marca 14,60% 10,50% 60% 80% 100% Los LP son los límites más frecuentes en todas las clases de textos, pero predominan especialmente en los más informales (privados y telefónicos, siendo ambas clases similares con la excepción del canal). En contraste, la proporción apenas supera el 56% en los formales mientras que aquellas clases que comparten rasgos tanto con los textos informales como con los formales –es decir, media e informal público- tienen porcentajes intermedios. Si nos centramos en los otros límites, observamos que los textos informales tienen los porcentajes más bajos de LUT, lo que provoca que las cantidades de casos sin cambios prosódicos sean similares a las de las otras clases. Las interacciones formales son las que presentan un mayor número de LUT (33,2%), circunstancia que, como veremos más adelante, puede relacionarse con el hecho de que son monólogos o semimonólogos tales como conferencias, presentaciones públicas, etc. Los datos de los medios de comunicación y de los textos informales públicos vuelven a ser similares (22,1% y 20% respectivamente) reflejando el hecho de que ambos utilizan un lenguaje informal matizado por circunstancias relativamente formales (p.ej. clases de instituto, entrevistas profesionales, programas de entrevistas, etc.). Los siguientes dos ejemplos muestran estas tendencias. (10) es un fragmento tomado de una conferencia sobre sicología del lenguaje dada en una universidad. El interlocutor está sentado frente a su auditorio y cuenta con una hora para exponer sus ideas. Su entonación es parsimoniosa y, como podemos ver en el etiquetado, con frecuentes cambios prosódicos. El fragmento incluye nueve unidades tonales de las que dos coinciden con finales de eventos (el último evento termina junto con un LP). (10) *Hablante 1: [pero hace años / no había teléfonos móviles] / [y sin embargo / aunque con menos frecuencia / se veía alguien que avanzaba por la calle / y que estaba también gesticulando] / [y decíamos / este buen señor / habla solo] // El ejemplo (11) está tomado de una conversación entre tres amigos en el salón de la casa de uno de ellos. El tema que guía la conversación es el de los problemas amorosos que ellos y otros amigos padecen. El ambiente es, por lo tanto, completamente diferente al de (10) y observamos que el tipo de entonación y su relación con la estructura eventiva también lo son. La proporción de LUT y LP es la contraria, con nueve LP y sólo tres LUT. Además, todos los eventos terminan con un límite de proferencia y sólo uno de ellos incluye más de una unidad tonal. Es interesante señalar que tres proferencias no incluyen información eventiva, sino interjecciones típicas del habla informal. (11) *Hablante 1: [es que es muy triste] // [y no quiero que os echéis a llorar] // *Hablante 2: [seguro que no es tan triste / como vivir / con Miguel Ángel] // *Hablante 1: jóder // *Hablante 3: vaya hombre // *Hablante 1: jóder / macho // *Hablante 2: [no] // [como dormir con él] // [que es diferente] // 8. Unidades Lingüísticas y Número de Hablantes El número de hablantes que participan en la interacción afecta a la relación entre las estructuras eventivas y la prosodia especialmente en los textos informales ya que en estos las normas son más relajadas y abundan las interrupciones y los solapamientos. La siguiente gráfica muestra los porcentajes de aparición de los diferentes cambios prosódicos en los límites eventivos en interacciones con un hablante, con dos o con más de dos -siempre en textos informales. Conversación 77,60% Diálogo 8,5% 13,9% 72,90% 17,5% 9,7% LP LUT Sin marca 60,15% Monólogo 0% 20% 40% 30,9% 60% 80% 9,0% 100% Lo primero que llama la atención en estos datos es la semejanza existente entre los porcentajes de los monólogos y aquellos que encontrábamos en los textos formales en la anterior sección. Para encontrar una explicación, debemos tener en cuenta las cualidades de percepción de ambos límites, rasgo en que hace especial hincapié la teoría de Emanuela Cresti en la que se basa la anotación prosódica. Por su perfil terminal, los LP muestran más claramente el final de un evento. Esta claridad tiene una contrapartida consistente en que puede ser confundido con un final de turno. Por este motivo, el hablante de un monólogo hace mayor uso de los LUT para mostrar que su turno no ha terminado y que debe ser respetado. Los diálogos, sin embargo, tienen aproximadamente la mitad de LUT que los monólogos, y las conversaciones con tres o más hablantes –donde los turnos son irremediablemente breves- no llegan a la mitad de LUT que aparecen en los diálogos. Cuanto mayor es el interés (o la esperanza) por mantener el turno, mayor es el uso de LUT. Es interesante observar que la frecuencia de finales eventivos sin cambio prosódico es sorprendentemente elevado en las conversaciones con varios hablantes. En ellas, los eventos aparecen marcados como proferencias o aparecen sin marca alguna. 9. Estructuras sintácticas El nivel sintáctico no forma parte en sí mismo de los análisis de este artículo. Sin embargo, no quisiéramos dejar de mencionar algunos trabajos que han mostrado que el etiquetado semántico puede ser utilizado como base para una estructuración sintáctica de la lengua hablada. Como vimos en la descripción de C-Oral-Rom, este corpus incluye información morfológica, en concreto sobre el lema y la categoría gramatical de cada palabra. Esta anotación morfológica es completamente plana, sin sintagmas ni estructuras oracionales. Para lograr estas, realizamos algunos experimentos partiendo de la base de que las estructuras semánticas debían tener consecuencias en el plano sintáctico. Los resultados fueron claros: cada tipo de argumento eventivo tenía una posición preferente con respecto al verbo y una combinación de categorías gramaticales diferentes. Incluso un mismo argumento, p. ej. el de las entidades, resultó tener combinaciones sintácticas distintas si el estado al que pertenecía era atributivo o locativo (Alcántara 2007). Un dato interesante y en fuerte contraste con las gramáticas tradicionales es el de los elementos implícitos, es decir, aquellos que son interpretados anafóricamente o gracias a la flexión verbal (que en español nos dice la persona y el número del sujeto oracional). En los argumentos que suelen aparecer en posición de sujeto (los agentes y las entidades), los porcentajes de casos implícitos son muy elevados: del 69,8% para los agentes y del 58,3% para las entidades. En el otro extremo se encuentran las relaciones indirectas, que no son parte del núcleo eventivo y que, por lo tanto, son más difíciles de recuperar si no aparecen; de hecho, sólo el 3,3% de estas relaciones son implícitas. Una estructuración tan sencilla y viable como la proporcionada por SESCO es suficiente para permitir un acercamiento seguro al análisis sintáctico del habla espontánea, algo que no se podría hacer sin contar con una base tan general. De momento los resultados se centran en las combinaciones encontradas dentro de las distintas partes de la estructura eventiva, obviando las posibles relaciones que pueda haber entre ellos, pero también han servido para profundizar en aspectos más concretos como es el estudio de los elementos elípticos y anafóricos (Alcántara y Bertomeu 2005). Al igual que con la prosodia, la conjunción de la semántica con la sintaxis nos de pistas valiosas sobre la estructuración de ambos y es un camino en el que queremos profundizar en el futuro. 10. Conclusiones En este artículo queríamos mostrar cómo es posible resolver un problema complejo en el análisis de corpus por medio del uso de dos anotaciones sencillas. La estructura lingüística de la lengua hablada es una cuestión central en los actuales estudios de lingüística teórica y de lingüística computacional, y su resolución es fundamental para el análisis de corpus como el que hemos utilizado en nuestro trabajo. Los datos mostrados en las secciones anteriores prueban que la semántica y la prosodia están relacionadas en la construcción de sus estructuras, pero también que no lo están siempre del mismo modo. Los cambios prosódicos que marcan un final de evento pueden ser límites de proferencias (LP) o límites de unidades tonales (LUT), y nuestro trabajo muestra que la preferencia por uno u otro tipo no es en absoluto arbitraria. Diversos factores extralingüísticos afectan a esta elección, en especial el contexto comunicativo y el número de hablantes que participan en la interacción. La prosodia parece guiada por las circunstancias que rodean su producción tanto como por la estructura de lo que transmite. De este modo, se ve parcialmente confirmada la tendencia general dentro de la literatura más reciente que apuesta por una prosodia independiente de la sintaxis. Otro aspecto relevante destacado por los datos del corpus es que la aproximación al análisis de las estructuras debe realizarse desde la semántica y apoyarse en la prosodia, y no al revés. Esto es así porque los eventos tienen una relación más estricta con los cambios prosódicos que estos con los semánticos: un evento casi siempre coincide con un límite prosódico, pero hay muchos límites prosódicos que no coinciden con eventos. Por último, se puede obtener una conclusión que va más allá de los fenómenos propiamente tratados en este artículo. Las anotaciones utilizadas han sido diseñadas con pretensión de universalidad y ya han sido probadas en corpus de habla espontánea. El coste de la transcripción y la anotación de un corpus de estas características es siempre elevado, pero esperamos que trabajos como el aquí presentado ayuden a que sean cada vez más frecuentes. Nuestros datos dan una visión interesante a este respecto. La anotación automática con SESCO no había sido posible hasta ahora por la imposibilidad de determinar automáticamente dónde empezaban y terminaban sus unidades dentro del continuum que es el habla no etiquetada. El uso de esta anotación junto con la información prosódica no nos ha servido sólo para comprender mejor cómo se interrelacionan ambos niveles, sino que también no es de gran ayuda para mejorar la anotación y, en especial, para estar más cerca de su automatización. Al igual que la prosodia puede ser la clave aquí para la división del texto en unidades semánticas, es lógico pensar que el uso de corpus etiquetados lo puede ser para resolver problemas centrales de los demás niveles lingüísticos. A este respecto, el apunte sobre las estructuras sintácticas nos ha mostrado cómo una estructuración sencilla en el nivel semántico puede ser de gran ayuda para resolver las complejidades de la sintaxis del habla espontánea. Bibliografía Alcántara Plá, M. 2007 (en prensa). Introducción al análisis de estructuras lingüísticas en corpus. Aproximación semántica. Madrid: UAM Editorial. Alcántara Plá, M. y N. Bertomeu. 2005. “Ellipsis in Spontaneous Spoken Language”. Proceedings of the Workshop on Cross-modular Approaches to Ellipsis. Edinburgh. Biber, D., Johansson, S., Leech, G., Conrad, S., and Finegan, E. 1999. The Longman Grammar of Spoken and Written English. London y Nueva York: Longman. Botinis, A. (ed.) Intonation. 2000. Analysis, Modelling and Technology. Dordrecht: Kluwer. Brants, Sabine, Dipper, Stefanie, Hansen, Silvia, Lezius, Wolfgang y Smith, George. 2002. “The TIGER Treebank”. Proceedings of the Workshop on Treebanks and Linguistic Theories Sozopol. Carlson, R., Granstrom, B., Heldner, M., House, D., Megyesi, B., Strangert, E., y M. Swerts. “M. Boundaries and groupings - the structuring of speech in diferent communicative situations: a description of the GROG project”. THM-QPSR, 44, 65-68. Chafe, W. 1976. Givenness, contrastiveness, de_niteness, subjects, and topics. En Li (ed.): Subject and Topic. Nueva York: Academic Press. Cresti, E. 2000. Corpus di italiano parlato. Florencia: Accademia della Crusca. Cresti, Emanuela y Massimo Moneglia (eds.). 2005. C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages. Amsterdam: Benjamins. Croft, W.B., H. R. Turtle y D. D. Lewis. 1991. “The use of phrases ans structured queries in information retrieval”. Proceedings of the 14th Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval. Chicago. Cruttenden, A. 1997. Intonation. Cambridge: Cambridge University Press. Dik, Simon. 1997. The Theory of Functional Grammar. Berlin: Walter de Gruyter. Dowty, David R. 1977. “Towards a Semantic Analysis of Verb Aspect and the English `Imperfective` Progressive”. Linguistics and Philosophy, 1, 3-44. Fillmore, Charles. 1968. “The Case for Case”. En Emmon Bach y R.T.Harms (eds.). Universals in Linguistic Theory. Chicago: Holt, Rinehart & Winston. González , A., de la Madrid, G., Alcántara, M., de la Torre, R., y A. Moreno. 2004. “Orality and Difficulties in the Transcription of Spoken Corpora”. Proceedings of the IV International Conference on Language Resources and Evaluation (LREC2004). t'Hart, J., Collier, R., y Cohen, A. 1990. A Perceptual Study of Intonation. Cambridge: Cambridge University Press. Hjemslev, L. 1935. La Catégorie des Cas: Étude de Grammaire Générale. Copenague: Munksgaard. Jurafsky, Daniel y James H. Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. NJ: Prentice-Hall. Moreno Cabrera, Juan Carlos. 1997. Introducción a la lingüística. Enfoque tipológico y universalista. Madrid: Síntesis. Pustejovsky, James, José Castaño, Robert Ingria, Roser Saurí, Robert Gaizauskas, Andrea Setzer y Graham Katz. 2003. “TimeML: Robust Specification of Event and Temporal Expressions in Tex”. Proceedings of IWCS-5, Fifth International Workshop on Computational Semantics, Tilburg. Samlowsky, W. “Case grammar.” In Charniak, E. y Y. Wilks. 1976. Computational Semantics. Amsterdam: North-Holland. Steedman, M. 2003. “Information-Structural Semantics for English Intonation”. LSA Summer Institute Workshop on Topic and Focus. Thayse, A. (ed.). 1991. From Natural Language Processing to Logic for Expert Systems: A Logic Based Approach To Artificial Intelligence. Chichester: John Wiley and Sons.

Unidades Semánticas y Prosódicas para Estructurar un Corpus de

Documentos relacionados

Productos

Apoyo

Unidades Semánticas y Prosódicas para Estructurar un Corpus de

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib