Transcripción y traducción automática de contenidos audiovisuales José A. R. Fonollosa, José B. Mariño, Climent Nadeu, Asunción Moreno, Javier Hernando, Antonio Bonafonte Centro TALP. Universidad Politécnica de Cataluña c/ Jordi Girona 1-3. Edificio D5. Barcelona 08034 En este comunicación se presentan las tecnologías desarrolladas por el Centro de Tecnologías y Aplicaciones del Lenguaje y del Habla (TALP) de la Universidad Politécnica de Cataluña para facilitar la accesibilidad a los contenidos audiovisuales. Estas tecnologías se han desarrollado en el marco de diversos proyectos nacionales e internacionales [1,2,3,4] e incluyen sistemas especialmente adaptados para la transcripción automática de discursos parlamentarios, noticias y programas de debate. Se ha desarrollado así mismo tecnología para permitir la traducción de esta transcripción y poder escuchar mediante un conversor texto a voz el resultado de este procesado o cualquier otro texto. Se ha trabajado principalmente en los idiomas español, catalán e inglés. A continuación se describen las contribuciones de mayor interés y los resultados más importantes obtenidos en cada una de las tecnologías desarrolladas: Sistemas de reconocimiento del habla aplicados a la transcripción automática de contenidos audiovisuales Se han desarrollado sistemas de reconocimiento del habla específicos para la transcripción de determinados programas de televisión en castellano y catalán. Además se han incorporado módulos de detección de la lengua, de clasificación del audio (voz, música, ruidos, habla simultánea) y de detección de locutores. La detección de la lengua permite seleccionar el sistema de reconocimiento apropiado, mientras que los módulos de detección de eventos acústicos y de diarización de locutor permiten estimar los momentos en los que se escucha voz así como agrupar los diferentes segmentos correspondientes a un mismo locutor. Además de proporcionar información directa al televidente, la segmentación en locutores facilita la aplicación de técnicas de reconocimiento del habla con adaptación al locutor. Esta tarea se ha realizado con la colaboración de Televisió de Catalunya, que nos ha proporcionado copias del programa Àgora, y la empresa Verbio Technologies S.L. Sistemas de traducción automática Se han desarrollado sistemas híbridos de traducción automática entre los idiomas catalán, español e inglés. Para ello se ha utilizado de partida el sistema de traducción estadística basada en n-gramas desarrollado en el centro TALP durante los últimos cinco años, y se le ha incorporado información lingüística proporcionada por el programa Freeling. Para el adquisición de los modelos estadísticos de traducción entre castellano y catalán se ha utilizado la edición bilingüe de El Periódico de Cataluña. El sistema está disponible on-line en www.n-ii.org También se ha estudiado la traducción de las transcripciones proporcionadas automáticamente por el sistema de reconocimiento del habla, desarrollando las técnicas que permiten incluir signos de puntuación a estas transcripciones. Esto es necesario para obtener la segmentación adecuada de la entrada al traductor y obtener una calidad mejor en la transcripción traducida. Sistemas de conversión texto a voz Los sistemas de conversión texto a voz actuales ya permiten obtener una calidad similar a la de una grabación humana en frases aisladas. Sin embargo se siguen estudiando nuevas técnicas para obtener mejoras tanto en calidad (voces basadas en modelos ocultos de Markov) como en otros aspectos como son: la adaptación de la voz, la pronunciación de nombres propios y palabras extranjeras y la creación de voces bilingües o trilingües. En adaptación de la voz se han desarrollado técnicas para generar de forma rápida y sencilla voces sintéticas con las características de un nuevo locutor específico. En aplicación de traducción de voz a voz esto permite generar la nueva voz traducida con unas características similares a las del locutor en el idioma original. Recursos lingüísticos En el marco de diversos proyecto el TALP ha desarrollado diversas bases de datos orales y textuales en castellano y catalán. Esta bases están disponibles para otros centro de investigación y empresas. En particular, durante los dos últimos tres años se ha trabajado en un proyecto subvencionado por la Generalitat de Catalunya para obtener un conjunto completo de corpus orales en catalán para el entrenamiento de sistemas de reconocimiento. Estos corpus son distribuidos por el TALP de forma gratuita [4]. Bibliografía más relevante [1] TC-STAR: Technology and Corpora for Speech to Speech Translation. www.tcstar.org [2] ALIADO: Tecnologías del habla y el lenguaje para un asistente personal. http://gpstsc.upc.es/veu/aliado/ [3] AVIVAVOZ: Tecnologías para la traducción de voz: reconocimiento, traducción estadística basada en corpus y síntesis. www.avivavoz.es/ [4] TECNOPARLA: Tecnologías del habla en catalán. www.talp.cat/tecnoparla/