Capítulo 1: Introducción. CAPITULO 1: INTRODUCCIÓN 1.1. LAS TECNOLOGÍAS DEL HABLA Hoy en día, los ordenadores desempeñan un papel fundamental en la sociedad. El incremento en el número de usuarios, la cada vez mayor potencia del hardware, las mayores necesidades que se pretenden cubrir, son factores, entre otros, que están impulsando el desarrollo de métodos alternativos a los tradicionales de intercambiar información con los ordenadores. Es lógico pues, que uno de estos métodos sea precisamente el que resulta más natural para el ser humano: la voz. Las tecnologías del habla, se enmarcan en este ámbito, y pretenden desarrollar la comunicación hombre–máquina por medio de la voz. Dentro de ellos, podemos distinguir dos grandes áreas de trabajo: Reconocimiento automático del habla (RAH). Conversión texto a voz (CTV o TTS en inglés). Este proyecto se encuadra dentro del área de conversión texto-voz, y en particular, dentro de la síntesis de información prosódica (duración de fonemas y frecuencias fundamentales), una parte muy importante de los sintetizadores, y que puede determinar en gran medida la calidad de los mismos. 1.2. SISTEMAS DE CONVERSIÓN TEXTO-VOZ. PROSODIA Un sistema de conversión automática de texto a voz puede aplicarse en muy diferentes contextos y con indudables ventajas: ofreciendo lectura a invidentes, como sintetizador de voz para mudos, la asistencia telefónica, acceso a bases de datos, etc... GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. Evidentemente, el requisito fundamental que se exige a un sistema de estas características, es la inteligibilidad del habla sintética. Una vez superado este primer nivel, los usuarios exigen cada vez una mayor calidad, en el sentido de similitud entre el habla sintética y el natural. En la conversión de texto a voz, se suele distinguir entre parámetros segmentales y suprasegmentales. El ámbito de los primeros son las unidades mínimas consideradas para caracterizar el habla, como por ejemplo el fonema. Así se utilizan las frecuencias, anchos de banda, amplitud de los formantes de los diferentes sonidos, la frecuencia del cero nasal, etc... Por su parte, los parámetros suprasegmentales afectan a unidades de orden superior al segmento (sílabas, palabras, grupos fónicos, ...), y es la prosodia la que se encarga de su estudio. Los parámetros segmentales son los responsables de la inteligibilidad de una voz. Pero una alta inteligibilidad no implica alta naturalidad. De hecho la calidad de lo sintetizado se consigue en su mayor parte actuando sobre la prosodia. Históricamente se consideran los tres parámetros suprasegmentales siguientes: la frecuencia fundamental, las duraciones e intensidades. La intensidad siempre se ha valorado como de segundo orden u no suele utilizarse en los sistemas actuales de conversión de texto a voz, ya que algunos estudios realizados sobre el tema no han dado resultados positivos. La duración es un parámetro que puede considerarse como híbrido, ya que tiene gran influencia tanto en la naturalidad de la voz como en la elocución y marcar el ritmo de la misma. La frecuencia fundamental por su parte, es la curva que representa la frecuencia de vibración de las cuerdas vocales. Se trata probablemente del parámetro que ejerce una mayor influencia sobre la naturalidad de la voz sintetizada. Suele conocerse también como F0. GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. El presente proyecto se centra en la síntesis de duraciones y de frecuencias fundamentales. En el primer caso, se estimar la duración de cada fonema, mientras que para el caso de la F0, se trabajará a nivel de sílaba. 1.2.1. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ Una vez delimitado a grandes rasgos el marco del proyecto, puede resultar útil revisar globalmente la estructura básica de un conversor texto-voz, [Quazza,97]. Desde el punto de vista funcional, la característica común a cualquier sistema TTS, es la necesidad de convertir mensajes expresados en algún formato simbólico en voz. Dependiendo de las características que se deseen para la aplicación, se imponen diferentes restricciones en la complejidad de la conversión. Bajo la perspectiva de los mensajes, no es lo mismo convertir una serie fija y muy limitada de mensajes, que un texto libre sin ninguna restricción impuesta. En función del tipo de mensajes, se utilizan diferentes formas de representación simbólica de los mismos: Tipo de Mensajes Representación Simbólica a Mensajes prefijados b Combinaciones limitadas de frases Una clave para cada frase c Palabras en estructura fijada Texto con características de entonación d Estructura libre Texto escrito GRUPO DE TECNOLOGÍA DEL HABLA Una clave para cada mensaje Capítulo 1: Introducción. Atendiendo a los cuatro tipos de mensajes definidos, la naturaleza del habla generada, y los criterios de decisión acerca de qué vamos a sintetizar varían: Naturaleza Decisión sobre qué se va a decir a Mensajes pregrabados Tabla de correspondencia b Concatenación de frases grabadas Tablas de correspondencia c Reproducción de sonidos simples Representación de sonidos Reproducción de sonidos simples y Símbolos de sonidos y características d máxima flexibilidad prosódica prosódicas Existe una clara diferenciación entre a y b, basados en síntesis de habla pregrabada, y la verdadera síntesis, c y d. Actualmente, la evolución de las aplicaciones y los avances en la tecnología de la síntesis de voz proponen combinaciones de todas las anteriores técnicas. Así aparecen técnicas de procesado de señal que modifican la prosodia de frases pregrabadas, o sistemas que mezclan el uso de frases pregrabadas y técnica de síntesis real. 1.2.2. DESCRIPCIÓN DE UN CONVERSOR TEXTO-VOZ Ya se puede definir en base a lo anterior un sistema TTS como un sistema capaz de analizar un texto de entrada, conseguir una representación simbólica del habla a generar, y finalmente reproducir dicha simbología físicamente generando sonidos. Es posible por tanto, tratar las dos frases fundamentales en el proceso de conversión como procesos totalmente independientes: Análisis de textos y síntesis. GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. Antes de describir brevemente ambas frases, conviene analizar ligeramente la naturaleza de la señal del habla, indicando alguna de sus características más significativas: Naturaleza combinatoria. El habla es continua. Los transiciones entre sonidos son suaves. Es mucho más variada que la representación textual. Existe una correspondencia entre algunas características acústicas y su percepción: Acústica Percepción Espectro Calidad de voz Espectro Tipo de sonido (fonema) Amplitud Volumen Frecuencia fundamental Pitch (altura tonal, entonación) Alineación temporal (duración) Ritmo La principal conclusión que se puede extraer de todo lo anterior, es el hecho de que un mismo sonido puede aparecer con diferente duración y frecuencia fundamental en función de la prosodia de la frase. 1.2.2.1. Técnicas de Síntesis Para conseguir un algoritmo de síntesis flexible, se necesitan un conjunto de técnicas capaces de almacenar segmentos de voz, tratar las transiciones entre segmentos, y modificar la señal de voz para imponer diferente prosodia. Los GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. segmentos pueden adoptar diferentes formas de representación, en forma de onda o mediante representación paramétrica. En la primera, la voz se almacena mediante muestreo digital de la señal de voz, mientras que en la segunda se utiliza un modelado de la producción de voz humana y su ajuste mediante parámetros característicos. En el caso concreto del sintetizador en el que se van a integrar los resultados de este proyecto, se trabaja un segmento de voz (difonemas) almacenados mediante muestreo digital para su posterior concatenación. Las técnicas de síntesis, se clasifican tradicionalmente en función de la manera en que manejan las transiciones entre sonidos y modificar su prosodia: síntesis concatenativa y síntesis por reglas. La primera utiliza técnicas de tratamiento digital de la señal, mientras que la segunda utiliza reglas que describen la evolución de parámetros y su prosodia. Se pueden resumir por tanto las tareas principales que cumplen los algoritmos de síntesis: Obtención de unidades del habla y almacenamiento en un diccionario acústico (una base de datos) en el que se guardan: la forma de onda o parámetros LPC y los valores de los parámetros del modelo. Concatenación: mediante técnicas digitales o reglas. Modificación de la prosodia: mediante algoritmos de procesado de señal o reglas. 1.2.2.2. Análisis de Textos Como se ha visto en el apartado anterior, el cometido del módulo de síntesis de voz es obtener las unidades, concatenarlas y asignarles nueva prosodia. Se hace necesario por ello, la representación de sus entradas mediante la identidad de las unidades, GRUPO DE TECNOLOGÍA DEL HABLA su secuencia y los valores prosódicos Capítulo 1: Introducción. almacenados, que para sistemas no restringidos será la duración y la frecuencia fundamental. Las tareas básicas del análisis de textos se puede representar esquemáticamente como se hace a continuación: Texto Transcripción grafema-fonema Análisis de estructura de frase Secuencia de fonema Características prosódicas Cálculo de valores de prosodia Fonema + duración y frecuencia fundamental Las tareas fundamentales a realizar en un analizador de textos son pues: Detección de palabras. Asignación de acentos. GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. Transcripción fonética Cálculo de valores prosódicos para cada fonema Clasificación gramatical de palabras. 1.3. LAS REDES NEURONALES La herramienta fundamental sobre la que se desarrolla el proyecto son las redes neuronales. Es decir, se obtendrán las características prosódicas (duración y F0) del texto a sintetizar utilizando redes previamente entrenadas. Las redes neuronales, también conocidas como “redes de neuronas artificiales” son modelos bastante simplificados de las redes de neuronas que forman el cerebro. Y, al igual que éste, intentan “aprender” a partir de los datos que se les suministran. Las redes neuronales están formadas por un conjunto de neuronas artificiales interconectadas y distribuidas en diferentes capas. Las neuronas de una capa están conectadas con las neuronas de la siguiente. En general habrá una primera capa de entrada (los parámetros), una o dos capas ocultas y una capa de salida, que en nuestro caso será una única neurona (la F0 o duración en cada caso). Para que la red funcione correctamente, se utiliza el aprendizaje supervisado, es decir, se de entregan a la red los valores de los parámetros de entrada y la salida correcta que se pretende “aprender”. Si hay diferencias con lo que estima la red, ésta se ajusta en consecuencia. Tras el entrenamiento, las conexiones entre neuronas tendrán un determinado peso (“peso sinóptico”). Es evidente que las bases de datos utilizadas para entrenar una red son la clave del buen funcionamiento del sistema. En el presente proyecto, se van a utilizar redes perceptrón multicapa. Éstas y las redes recurrentes simples o de Elman son las que han venido utilizándose normalmente para problemas similares al que se pretende modelar. GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. Experimentalmente se puede demostrar que la única diferencia entre la utilización de una u otra red reside en la velocidad de entrenamiento. Frente a otros modelos de síntesis prosódica utilizadas en el grupo como puede ser el multiplicativo, las redes neuronales ofrecen una serie de características de gran interés que redundan en mejores resultados: Su capacidad (entrenamiento). de aprendizaje Permiten ser a partir entrenados de para la experiencia realizar una determinada tarea sin necesidad de estudiarla a fondo y en general con muy buenos resultados. Su velocidad de respuesta una vez concluido el entrenamiento. No requieren una gran capacidad de computación cuando se utilizan en tiempo real. Su robustez, en el sentido de que el comportamiento adquirido se encuentra repartido por toda la red, de forma que si se lesiona una parte se continúan generando cierto número de respuestas correctas. La extracción de características que relacionan los patrones de entrada con la estimación del parámetro deseado (ya sea la duración o la frecuencia fundamental) en mucho más sencilla. 1.4. OBJETIVOS Y FASES DEL PROYECTO Actualmente, el Grupo de Tecnología del Habla dispone de un sintetizador de voz masculina conocido como Boris. Paralelamente, se ha desarrollado una herramienta para el marcado y segmentación de ficheros de voz, denominada PCV. Haciendo uso de este programa se genera toda la información básica para crear las bases de datos en que se apoyan los diferentes módulos del sintetizador. GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. 1.4.1. OBJETIVOS DEL PROYECTO El siguiente paso que se ha planteado en el grupo, es disponer de un sintetizador que genere voz femenina. En general a un interlocutor de una aplicación TTS le suele resultar más agradable una voz de mujer. De hecho se pretende emplear el sistema resultante en aplicaciones de asistencia telefónica en un corto espacio de tiempo. Es por ello que la calidad resultante será un parámetro básico. Conviene destacar igualmente, que el sistema trabajará en dominios restringidos. Es decir, no se pretende estimar la prosodia del habla genérica sin restricciones, sino sólo partes muy concretas de frases ya especificadas (localidades, nombres y apellidos, entidades bancarias, ...) Estas partes se concatenarán a posteriori con frases pregrabadas, y el resultado se presentará por la línea telefónica. Este enfoque exige que el habla sintetizada sea de calidad, pues de lo contrario, el contraste con lo grabado sería muy grande. Por otro lado el restringir lo que se sintetiza, permite especializar mejor a la red neuronal, y por ello obtener un resultado final mejor. El presente proyecto abarca todo el proceso de creación y adaptación del modelo de estimación de prosodia mediante redes neuronales, desde el procesado de las grabaciones iniciales de una locutora, cuya voz se pretende modelar, hasta la integración final en el sintetizador de los resultados obtenidos. El objetivo fundamental del proyecto será que el sintetizador “suene” lo mejor posible, haciendo uso de la prosodia femenina. Para ello la estimación de las características prosódicas del texto a sintetizar que entreguen las dos redes neuronales desarrolladas debe reproducir lo más fielmente posible la voz grabada originalmente. Derivados de este primer gran objetivo existirán otros como la definición, creación y gestión de bases de datos que permita en el futuro entrenar redes GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. neuronales de características diferentes a las actuales, o el desarrollo de software que facilite el manejo de exxxxxx parametrización, ... 1.4.2 FASES DEL PROYECTO. El presente proyecto abarca numerosas y muy diversas tareas. Además se han utilizado muchas herramientas diferentes en función de las necesidades puntuales de cada caso. Es por ello que la documentación y el aprendizaje de estos diferentes entornos, lenguajes de programación,.. ha supuesto un esfuerzo importante. Básicamente ha habido dos puntos de apoyo fundamentales basados en trabajos previos del Grupo de Tecnología del Habla. Para el caso de la frecuencia fundamental, las directrices de actuación principales se han obtenido de la tesis doctoral de J.A.Vallejo [JAV-98]. En especial todo lo referente a parámetros a utilizar, forma de codificarlos,... En cuanto a las duraciones, el proyecto fin de carrera de Miguel Angel López Carmona [MLC-99] ha sido de gran ayuda, y en especial el entorno desarrollado en Matlab. Aunque al final se ha empleado casi exclusivamente para la evaluación por razones que se comentan posteriormente, la filosofía de todo el trabajo ha tratado de adaptarse a dicho entorno. A continuación se enumeran las tareas más importantes que ha habido que afrontar. Téngase en cuenta que algunas podían realizarse en paralelo mientras que otras eran requisito previo para poder realizar las siguientes. Elaboración de un programa basado en un algoritmo Greedy. Lo que se pretende con este algoritmo es resumir una base de datos muy amplia y genérica en otra más reducida, pero de modo que el resumen conserve las propiedades básicas del conjunto inicial. Es este algoritmo el que determina las frases que debe grabar la locutora de entre todas las posibles. GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. Marcado y segmentación de la información de interés de los ficheros grabados. Debido al enorme numero de archivos y a que el proceso es casi enteramente manual, se contó con la ayuda de dos personas. Para ello se utilizó el programa pcv. Procesado de la información producida durante la etapa anterior. Se generan igualmente las bases de datos parametrizadas iniciales, tanto para las duraciones como para la frecuencia fundamental. Para este propósito se han creado numerosas funciones principalmente en perl para manejo de ficheros de texto. Adaptación del entorno de duraciones para Matlab ya mencionado anteriormente, a las características propias del problema que se pretende afrontar. Ello exige un estudio previo muy exhaustivo del mismo. Entrenamiento de las redes neuronales y obtención de los pesos que las configuran. Se ha utilizado para este fin el programa Mume, ejecutado bajo entorno Linux. Este programa requiere unos datos de entrada en un formato específico cuya creación se ha tratado de automatizar. Evaluación e interpretación de los diferentes experimentos ejecutados. Téngase en cuenta que las posibilidades son enormes. Se pueden combinar parámetros, ir modificando la codificación de los mismos, probar con estructuras diferentes en las capas de las redes neuronales,.. Seleccionar en función de las conclusiones obtenidas en el apartado anterior, aquellas dos redes que mejor resuelvan la problemática estudiada, e integrarlas en el sintetizador de voz del Grupo. GRUPO DE TECNOLOGÍA DEL HABLA Capítulo 1: Introducción. Por último, y para el caso de la frecuencia fundamental se ha realizado una evaluación subjetiva de los resultados obtenidos frente al modelo anterior de picos y valles. GRUPO DE TECNOLOGÍA DEL HABLA