CAPÍTULO 1 GENERALIDADES 1.1.- INTRODUCCIÓN Los sistemas de síntesis de voz, son aquellos que convierten una entrada escrita en palabras, a una salida pronunciada, simulando el proceso humano de leer en voz alta. Estos sistemas son también conocidos como sistemas de texto a voz (TTS, siglas de las palabras en inglés Text – To - Speech) [WEB 1]. Los sistemas TTS, que se han construido, tienen dos módulos [WEB 2] que actúan entre sí, para realizar la síntesis de voz y que son ilustrados en la figura 1.1. El primer módulo es un convertidor de texto a segmento, es decir, recibe el texto de entrada y lo separa en partes más pequeñas llamadas segmentos. En el segundo módulo, llamado sintetizador de segmentos a voz, se convierten dichos segmentos a sonidos, generando una voz artificial, que interpreta el texto de entrada. Figura 1.1 Sistema de texto a voz Capítulo 1.- Preliminares 1.1.1.- TIPOS DE SEGMENTOS Los diferentes tipos de segmentos mostrados en la tabla 1.1 han sido tomados como base para desarrollar el módulo convertidor de texto a segmentos de un sistema TTS [WEB 3]. Tipo de Segmento Palabra Descripción Conj. de sonidos articulados que expresan una idea [varios autores, 1985] Sílaba CVC VCV Difonema Pseudofonema Demisílaba Subfonema * Menor unidad de impulso respiratorio [varios autores, 1985] * Uno o más símbolos fonéticos que representan una unidad básica de una palabra fonológica[WEB 9] Consonante – Vocal – Consonante Vocal – Consonante – Vocal Sucesión transitoria de sonidos [WEB 8] No definida por los autores [WEB 7] No definida por los autores [WEB 7] No definida por los autores [WEB 7] Tabla 1.1 .- Tipos de segmentos No se encontraron referencias donde se abordará el segmento de tipo fonema es por eso que no se menciona en la tabla anterior, sin embargo, solo como mención a este segmento, se puede decir que es la unidad básica de la sílaba[WEB 9]. 1.1.2.- CLASIFICACIÓN: SISTEMAS DE VOCABULARIO LIMITADO E ILIMITADO Existen dos tipos de sistemas TTS [WEB 4], de vocabulario limitado y de vocabulario ilimitado. Su clasificación depende del tamaño del vocabulario que utilizan. Los sistemas limitados usan los segmentos de tipo palabra o sílaba; siendo limitados porque cuentan con un número finito o limitado de palabras o sílabas en su vocabulario. 2 Capítulo 1.- Preliminares Los sistemas TTS de vocabulario ilimitado se caracterizan por poder sintetizar un número ilimitado de palabras y generalmente emplean segmentos más pequeños que la sílaba para lograr este objetivo. Para ilustrar lo mencionado anteriormente, véase la figura 1.2. Figura 1.2 Clasificación de sistemas TTS 1.2.- ANTECEDENTES Los sistemas TTS que se han desarrollado hasta el momento para el idioma español, han tenido un avance muy pobre comparado con el idioma inglés. En la tabla 1.2 se presentan los institutos de investigación que han trabajado en sistemas TTS y el idioma para el que desarrollaron sus sistemas [WEB 6]. Instituto YORK TALK University of Birmingham Dec Talk Ipox Eurovocs Idioma (s) Inglés Inglés europeo y americano Inglés Alemán Japonés, Inglés, Alemán, Español y Francés Tabla 1.2 Desarrollos en sistemas TTS 3 Capítulo 1.- Preliminares Obsérvese que sólo el instituto Eurovocs, ha desarrollado sistemas TTS para el idioma español. Algunas implementaciones realizadas con los diferentes tipos de segmentos hasta la fecha experimentados, se muestran en la tabla 1.3 [WEB 5]. Tipo de segmento Experimentos Palabra Buron 1986, chapman 1971 Sílaba Ouh-Young 1986 CVC Hayashi y Murakami 1992 VCV Sato 1978 Difonema Lefevre 1986 Pseudofonema Mikuni y Ohta 1986 Demisílaba Lovis y Fujimora 1976 Subfonema El-Iman 1989, Dan y Dutta 1991 Tabla 1.3 Implementaciones de sistemas TTS 1.3.- DESCRIPCIÓN DEL PROBLEMA Y JUSTIFICACIÓN El interés original que motivo esta investigación, es el de darle la capacidad de producir voz artificial a las computadoras, es decir, que la computadora sea capaz de leer cualquier texto en el idioma español. Esta capacidad proporcionaría otra forma de comunicación entre la computadora y el hombre. Podría ser útil para ayudar a minusválidos, invidentes o personas con problemas de comunicación. 4 Capítulo 1.- Preliminares Otra utilidad que se le puede dar a este sistema, es en ambientes de trabajo donde los que laboran ahí tengan su vista ocupada y al mismo tiempo tengan que recibir información del proceso que realizan. Analizando la estructura de las palabras en el idioma español, se observa que cada palabra es divisible en una o más sílabas, es por eso que, en este trabajo se eligió la sílaba como segmento, para dividir las palabras. Otra razón para escoger este tipo de segmento, es por ser un conjunto de sonidos que pueden ser pronunciados en una sola emisión de voz[varios autores, 1972]. Otro segmento con la misma justificación que el segmento de tipo sílaba, es el segmento de tipo fonema, sin embargo se tiene la gran desventaja comparada con el segmento de tipo sílaba, que al unir dos fonemas es muy importante la coarticulación entre ellos. El principal problema al que se enfrentan los sistemas TTS es la producción de voz “natural”, esto es, que deben contener sonidos naturales como inflección vocal, ritmo, acentuación, coarticulación pronunciación de las sílabas de una palabra entre sílabas, [Keller, 1992], la velocidad de la no uniformidad en tono y volumen de cada sílaba, y las pausas entre una sílaba y otra. Como un ejemplo de todos los problemas mencionados anteriormente se sugiere al lector que lea un texto en voz alta, en sílabas, haciendo caso omiso de los signos ortográficos, así como de la acentuación de las sílabas, con la finalidad de que se pueda percibir la importancia de cada uno de estos problemas. 1.4.- OBJETIVO DE LA TESIS El objetivo de esta tesis, es desarrollar un sistema de síntesis de voz de vocabulario limitado para el idioma español. El sistema usa un tipo de segmento 5 Capítulo 1.- Preliminares silábico y debe ejecutarse en una computadora personal bajo el sistema operativo MS-Windows. La computadora utilizará una tarjeta de sonido para la entrada y salida de voz. 1.5.- DESCRIPCIÓN DE LOS CAPÍTULOS Este capítulo presenta una breve introducción a los sistemas de síntesis de voz, su clasificación, los antecedentes que se tienen sobre investigaciones pasadas, así como también se plantean los problemas a los que se enfrentan estos sistemas y finalmente se presenta la justificación de esta tesis. Este capítulo es necesario que se lea, para comprender el capítulo 3. Como el segmento escogido para esta tesis es la sílaba, en el capítulo 2 se describen las reglas del idioma español para su formación, así como su estructura y clasificación. En este capítulo se justifica el algoritmo planteado en esta tesis para realizar la segmentación de una palabra en sílabas. El capítulo 3 presenta la arquitectura del sistema elaborado, describiendo cada una de las fases de este sistema, las cuales son: grabación de los archivos de sonido, generador de voz y la interfaz de usuario. Los resultados de la experimentación realizada con este sistema, se detallan en el capítulo 4, así como también se describen los principales problemas abordados en el desarrollo de este. En este capítulo se presenta una aplicación de este sistema a un tutorial hablado. Para finalizar los capítulos de esta tesis, se presentan las conclusiones de este trabajo y las propuestas planteadas para trabajos futuros, de un sistema como este, en el capítulo 5. 6 Capítulo 1.- Preliminares En la sección de apéndices se puede encontrar información acerca de los archivos de sonido con formato WAV usados en esta tesis, el listado de los programas desarrollados para este sistema, junto con un manual de usuario de cada uno de esto programas. 7