capítulo 1 introducción - Grupo de Tecnología del Habla

Anuncio
Capítulo 1. Introducción
CAPÍTULO 1
INTRODUCCIÓN
1.1 SISTEMAS DE CONVERSIÓN TEXTO-VOZ
Bajo la denominación de Tecnologías del Habla se engloban conocimientos que
pertenecen a un conjunto variado de campos del saber, entre ellos la Psicología, la
Fisiología, la Lingüística, la Acústica, el Procesado de Señal y la Inteligencia Artificial.
De todos estos campos, será el de la conversión texto a voz el centro de nuestros
estudios. Debido al carácter interdisciplinar de los sistemas de conversión de texto a voz
es necesario el progreso conjunto de todas las áreas involucradas para conseguir mejoras
significativas en el sistema global.
La finalidad de estos sistemas es realizar la conversión automática de un texto a
voz sintetizada. El progreso en este campo ha sido posible gracias a importantes avances
en la teoría lingüística, en el modelado acústico-fonético de los sonidos, en la
generación de voz artificial y en el diseño de los ordenadores, tanto a nivel software
como hardware.
Se puede definir la síntesis de texto a voz como un proceso compuesto de dos
pasos: primero, analizar el texto de entrada para determinar la estructura de la sentencia
y la composición fonética de cada palabra (procesado lingüístico-prosódico) y segundo,
transformar esta representación lingüística abstracta en voz (procesado acústico).
1
Capítulo 1. Introducción
símbolos
PROCESADO
LINGÜÍSTICO
PROSÓDICO
representación
PROCESADO
ACÚSTICO
voz
fonético-prosódica
Figura 1.1 Diagrama de bloques general de un sistema de conversión texto-voz
Los sistemas de síntesis de voz se suelen clasificar en función del método
seguido para la reconstrucción de la voz. Se distinguen cuatro sistemas:
•
SINTETIZADORES ARTICULATORIOS
Establecen una analogía entre parámetros relacionados con los órganos
articulatorios y sus movimientos y parámetros circuitales. Proporcionan voz sintética de
alta calidad pero tienen en inconveniente de que los parámetros son muy difíciles de
obtener y controlar automáticamente.
•
SINTETIZADORES POR FORMANTES
Modelan el tracto vocal a través de un conjunto de filtros, excitados por fuentes que
simulan las cuerdas vocales. Este tipo de sintetizadores tiene una amplia difusión pero
la calidad de la voz sintetizada es menor.
•
SINTETIZADORES DERIVADOS DE LAS TÉCNICAS DE PREDICCIÓN LINEAL
(LPC)
Son sintetizadores de análisis-síntesis que trabajan con parámetros LPC para controlar
la función de transferencia del filtro que simula el tracto vocal.
•
SINTETIZADORES POR CONCATENACIÓN DE FORMA DE ONDA
Concatenan unidades pregrabadas para generar frases. Pretenden mejorar la calidad
de la voz sintetizada minimizando el ruido de codificación. Tienen una complejidad
variable pero la voz generada es de alta calidad.
2
Capítulo 1. Introducción
Los más utilizados en la actualidad son el sintetizador de formantes y el de
concatenación, por ello realizaremos a continuación un análisis más detallado de ambos.
1.1.1
SINTETIZADORES POR FORMANTES
Estos sintetizadores están basados en la teoría acústica de producción de voz,
según la cual, una o más fuentes sonoras excitan un filtro lineal, el tracto vocal, dando
como resultado la señal de voz. La excitación del tracto vocal es debida a la vibración
de las cuerdas vocales, las cuales producen un obstáculo al paso del aire originando los
sonidos.
EXCITACIÓN
FILTRO LINEAL
SEÑAL DE VOZ
(TRACTO VOCAL)
Figura 1.2 Modelo simplificado de producción de voz
La fuente de voz usada en los sintetizadores ha ido variando a lo largo del
tiempo. Los modelos más antiguos utilizaban trenes de impulsos o dientes de sierra.
Más tarde se pasó a modelos matemáticos cada vez más complejos que permiten
controlar los parámetros principales de la señal glotal: frecuencia fundamental,
amplitud, tiempo de apertura de la glotis en un período, etc.
•
CLASIFICACIÓN DE LOS SINTETIZADORES POR FORMANTES
Se pueden establecer dos clasificaciones distintas:
1. Atendiendo a la función de transferencia del tracto vocal.
-
Sintetizadores por formantes en paralelo. En este modelo se suman las salidas
de un conjunto de resonadores y la ganancia de cada formante se controla con un
parámetro independiente.
3
Capítulo 1. Introducción
-
Sintetizadores híbridos. En los cuales se combinan formantes en serie para la
síntesis de los fonemas sonoros y formantes en paralelo para la síntesis de las
oclusivas.
2. Según el control de los parámetros fundamentales.
-
Sintetizadores por regla. Los parámetros se calculan siguiendo un conjunto de
reglas dependientes del contexto.
-
Sintetizadores por análisis-síntesis. Los parámetros se obtienen por análisis o
parametrización de segmentos de voz natural.
1.1.2
SINTETIZADORES POR CONCATENACIÓN
Estos sintetizadores se basan en tener un conjunto de pequeños segmentos de
voz tomados de un hablante, que se van concatenando para formar el discurso deseado.
La unidad elegida para la concatenación es el parámetro clave de estos sintetizadores.
Para decidir el tamaño y número de estas unidades hay un compromiso entre la calidad
de la voz que se quiere sintetizar, y limitaciones de memoria de datos.
Los trozos grabados no pueden ser palabras por dos razones fundamentales. La
primera es que la manera de pronunciar una frase es muy distinta a la de una secuencia
de palabras aisladas, ya que en una frase la duración de las palabras es más corta.
Además la concatenación de palabras grabadas aisladamente produce una voz sintética
de baja calidad, poco natural. La segunda razón es el elevado número de palabras
existentes en un idioma concreto, lo que implicaría una gran cantidad de memoria para
almacenar las unidades pregrabadas.
La sílaba es una unidad lingüísticamente interesante pero tiene el inconveniente
del número de sílabas diferentes que hay; por ejemplo, en inglés existen unas 10.000
sílabas distintas. El fonema es otra unidad a considerar, en inglés hay unos 40 fonemas,
en español 24. Sin embargo todos los esfuerzos por concatenar formantes habían
fracasado debido al fenómeno de la coarticulación entre fonemas adyacentes. Los
efectos coarticulatorios tienden a minimizarse en el centro acústico de un fonema, lo
cual llevó a Peterson a proponer como unidad de concatenación el difonema, es decir, el
trozo de voz que va desde la mitad de un fonema a la mitad del siguiente, o dicho de
otra manera, la transición entre sonidos. Ejemplos de difonemas podían ser: [a-b], [r-a],
[o-l]. En un principio se estimó la existencia de unos 1600 difonemas diferentes, aunque
4
Capítulo 1. Introducción
no todos ocurren (Peterson y otros, 1958; Sivertsen, 1961). Además es necesario incluir
alófonos diferentes para hacer la distinción entre vocales tónicas y átonas. Por ejemplo,
las oclusivas [b], [d] y [g] tienen sus correspondientes alófonos fricativos. Por otra
parte, hay que contemplar la posibilidad de cambiar la duración y el contorno de la
frecuencia fundamental de un difonema, o quizás almacenar variantes de cada
difonemas con diferente prosodia. Wang y Peterson (1958) estimaron que se
necesitarían al menos 8000 difonemas, pero los sistemas actuales tienen un inventario
de unas 1000 unidades [Klatt 87]. Nuestro conversor texto-voz tiene un inventario de
455. El diseño de una colección de unidades no es una tarea inmediata, sino que
requiere sucesivas revisiones y ajustes para mejorar la calidad de la voz sintética,
muchas veces de una forma más artesanal que teórica.
Cuando los efectos de la coarticulación son muy grandes se emplean trifonemas
(agrupaciones de tres fonemas) en lugar de difonemas. Ejemplos: [r-a-b], [k-o-m].
Para terminar debemos decir que los trabajos para concatenar formates continúan
en la actualidad y recientemente se han obtenido éxitos, por lo que se abren nuevas
expectativas en este campo.
1.1.3
COMPARACIÓN
DE
LOS
SISTEMAS
DE
SÍNTESIS
MÁS
UTILIZADOS
Los sintetizadores de formantes permiten manipular las características de la
fuente de voz. Por el contrario, en los sintetizadores por concatenación la fuente de voz
es única y corresponde a la grabación de los difonemas, lo que debe realizarse por un
locutor capaz de controlar y mantener constante la calidad de la voz para evitar cambios
repentinos en el espectro de la fuente en el medio de las sílabas.
En cuanto a la calidad de la voz sintética, con el método de concatenación se
consiguen mejores resultados. Además la síntesis por concatenación permite alcanzar un
alto grado de naturalidad.
5
Capítulo 1. Introducción
SISTEMA
MITalk-79
93
Prose-2000 3.0
94
DECtalk 1.8
97
LPC-10, no quantization
86
Síntesis de difonemas
66
Digitalizado Natural,
5 KHz, 12 bits
93
FORMANTES
PREDICCIÓN LINEAL
ACIERTOS (%)
CONCATENACIÓN
Tabla 1.1. Comparación de sintetizadores respecto a la inteligibilidad de palabras aisladas
1.2
APLICACIONES DE LOS CONVERSORES
El objetivo principal de los sistemas de conversión texto a voz es la generación
automática de mensajes orales a partir de su representación escrita.
Hoy día es cada vez más frecuente la comunicación con máquinas que hablan,
anuncios electrónicos en las estaciones de tren, servicios telefónicos sin operadores
humanos, juegos interactivos. Estos son
sólo algunos ejemplos de las múltiples
posibilidades que ofrece la conversión automática de texto a voz.
Entre las aplicaciones más comunes de los conversores texto-voz podemos citar:
-
anuncios
-
ayuda mediante guía telefónica
-
servicios bancarios
-
sistemas interactivos de voz (acceso a bases de datos)
-
lectura de información variable: pronósticos meteorológicos, estado del tráfico,
noticias
-
lectura de correo electrónico, fax
-
lectura de textos para ciegos
En cualquiera de las aplicaciones el mensaje a reproducir se especifica de forma
simbólica y después se convierte en voz. Las diferentes características de las
aplicaciones imponen diferentes restricciones en la complejidad de dicha conversión.
6
Capítulo 1. Introducción
1.2.1 CLASIFICACIÓN DE LAS APLICACIONES DESDE EL PUNTO DE
VISTA DE LOS MENSAJES
MENSAJES A GENERAR
REPRESENTACIÓN SIMBÓLICA
Unos pocos mensajes prefijados
Un código para cada mensaje
Combinación de un número limitado de Un código para cada frase
frases
Palabras aisladas con estructura fija
Texto enriquecido con información de la
entonación
Palabras aisladas con estructura arbitraria Texto claro, sencillo
Habla continua
Texto sin limitaciones
Tabla 1.2. Clasificación de las aplicaciones desde el punto de vista de los mensajes
Esta clasificación intenta ilustrar los requisitos necesarios para traducir la
representación simbólica de entrada en la correcta secuencia de segmentos de voz
(decidir qué decir) y generar la correspondiente señal acústica (generar voz)
[Quazza 97].
GENERAR VOZ
Reproducción
de
mensajes
grabados
por
un
locutor,
almacenados digitalmente
y
comprimidos con alguna técnica
de codificación (si hay problemas
Síntesis de
de memoria)
voz pregrabada Concatenación de frases o
palabras grabadas, técnicas de
procesado
de
señal
para
concatenatión suave
Concatenación
de
sonidos
Síntesis
sencillos, técnicas para modificar
concepto-voz
su duración y entonación
(prosodia)
Sonidos grabados y modificados
Síntesis texto-voz prosódicamente antes de su
sin restricciones
concatenación
DECIDIR QUE DECIR
Tablas de correspondencia
entre códigos de mensaje y
voz grabada (ficheros de voz)
Tabla de correspondencia
frases–>ficheros de voz,
reglas de combinación de
frases para generar mensajes
Conversión del texto escrito
en una secuencia de símbolos
que representan sonidos
Conversión en símbolos
sonoros, elección de modelos
prosódicos
adecuados
(entonación
y
ritmo)
dependientes del texto
Tabla 1.3. Distintos tipos de síntesis
7
Capítulo 1. Introducción
Tradicionalmente se distinguía entre síntesis de voz pregrabada y la verdadera
síntesis. Más adelante se amplió la clasificación con la distinción entre concepto a voz
y texto a voz sin restricciones. Pero la evolución de las aplicaciones junto a los
recientes avances de la tecnología para la síntesis de voz han rellenado los vacíos
existentes entre las distintas clases, por ejemplo proponiendo combinaciones de frases
grabadas y elementos sintácticos, o técnicas de procesado de señal para modificar la
prosodia de las palabras pregrabadas [DePijper 97], unidades acústicas contextuales con
el fin de minimizar modificaciones de la señal en la síntesis por reglas [Portele 97].
1.2.2 APLICACIONES DE LOS CONVERSORES TEXTO-VOZ
Los sistemas de conversión texto-voz se están introduciendo en un amplio rango
de aplicaciones. Estos aparatos no han alcanzado la madurez suficiente para sustituir a
las personas, pero, probablemente, son bien recibidos por el público general si forman
parte de una aplicación que ofrece un nuevo servicio, o proporciona acceso directo a la
información almacenada en un ordenador, o permite acceder de forma sencilla y barata
a un servicio concreto.
En estos momentos es muy importante evitar aplicaciones que puedan llevar a la
frustración del usuario y generar actitudes negativas hacia todos los sistemas que
empleen voz sintética. Por ejemplo, la inteligibilidad al otro lado del teléfono de los
actuales conversores texto-voz resultaría inadecuada para aplicaciones que empleen
nombres poco comunes. La limitación actual de los sistemas que utilizan el teléfono es
que los ordenadores no pueden escuchar tan bien como pueden hablar. La tecnología
para el reconocimiento de voz está más retrasada que la de síntesis.
La Tabla 1.4 presenta las principales aplicaciones comerciales que utilizan
sistemas de conversión de texto a voz [Klatt 87].
8
Capítulo 1. Introducción
APLICACIONES COMERCIALES DE LOS CONVERSORES TEXTO-VOZ
•
Información telefónica: resultados de deportes, meteorología, estado de las
estaciones de esquí, horario de museos, Páginas Amarillas hablantes, ...
(información que cambia constantemente, y que está disponible en forma
de texto electrónico).
•
Acceso remoto (en carretera) a correo electrónico.
•
Compras por catálogo, servicios bancarios por teléfono (requieren claves
por teclado o reconocimiento de voz para su acceso).
•
Peticiones de información a bases de datos, especialmente para usuarios no
especializados: por ejemplo, representantes de ventas pueden determinar
instantáneamente el estado de las órdenes de compra.
•
Generación de cassettes con instrucciones para el montaje de maquinaria,
circuitos telefónicos, etc. [Flanagan 72].
•
Acceso telefónico a “expertos” en reparaciones: por ejemplo, ordenadores,
circuitos telefónicos.
•
Coordinación del tráfico en ciudades, autopistas,... Información de rutas
alternativas.
•
Sistemas de advertencia y alarma de equipos.
•
Terminales que hablan y entrenamiento de equipos.
•
Corrección de pruebas/errores típicos difíciles de detectar visualmente.
Tabla 1.4. Aplicaciones comerciales de los conversores texto-voz
1.3
PROBLEMÁTICA DE LA CONVERSIÓN TEXTO-VOZ
El éxito comercial de los sistemas de conversión de texto a voz dependerá
principalmente de la calidad conseguida en la voz sintética. En la actualidad esta calidad
comprende tres términos: inteligibilidad, naturalidad y adaptabilidad a aplicaciones
concretas. De los tres el principal problema para la síntesis artificial de voz es la
9
Capítulo 1. Introducción
naturalidad, conseguir dar al mensaje textual toda la riqueza de información que
introduce un lector humano.
La problemática de la conversión texto a voz se puede estudiar desde dos puntos
de vista: Lingüística y Acústica.
Desde el punto de vista de la Lingüística tenemos el paso de código escrito a
código oral. El código oral está formado por rasgos segmentales (fonemas) y rasgos
suprasegmentales (relacionados con la prosodia). La información suprasegmental refleja
tanto elementos lingüísticos (carácter de la frase, pausas, acentos, agrupación en
elementos de significado, ...), como elementos no lingüísticos (características personales
del locutor, estados de ánimo, ...). En cuanto al segundo código, el escrito, está
compuesto por letras y signos ortográficos.
Si existiera una relación biunívoca entre ambos códigos, el problema de la
conversión de texto a voz consistiría en traducir cada letra por su sonido asociado, de
manera que a cada signo escrito le correspondería un signo oral y viceversa. Sin
embargo en la práctica no existe tal relación, sino que a un signo escrito le pueden
corresponder varios orales, de forma que una letra tiene diferentes pronunciaciones
dependientes de los siguientes factores: el contexto en que se encuentre, su posición en
la palabra, la posición de dicha palabra dentro del grupo acentual, la función del grupo
acentual dentro del grupo fónico, y así iríamos subiendo de nivel hasta llegar a la frase o
incluso al párrafo. Análogamente, las pausas varían según la naturaleza de las palabras
entre las que van intercaladas.
Por otra parte, hay signos orales que no pueden ser representados por ninguno
escrito. Se trata de signos especiales (entonación, pausas, énfasis, estados de ánimo...)
que introduce una persona cuando lee un texto. Dichos signos son muy difíciles de
controlar ya que dependen de factores subjetivos (estado de ánimo del lector, intención
con la que se emite el mensaje, conocimiento del mundo real, etc.) relacionados con la
persona que lee el texto y que, por tanto, varían de un lector a otro y de otros factores
como por ejemplo, la longitud de los grupos fónicos.
En definitiva, el paso de código escrito a código oral no es un proceso sencillo
sino que conlleva un margen de error que todo sistema de conversión debe asumir. Más
aún, para reducir dicha tasa de error sería necesario un profundo conocimiento del
pensamiento humano, ya que así se lograría un mejor control de los factores subjetivos
que intervienen en todo proceso de lectura.
10
Capítulo 1. Introducción
En cuanto al segundo punto de vista, el de la Acústica, el problema que se nos
plantea es conseguir voz sintética lo más parecida posible a la de un lector humano. Este
objetivo puede dividirse en dos:
-
Conseguir que la voz sintética sea inteligible
-
Conseguir que la voz sintética sea natural
La inteligibilidad hace referencia a la capacidad de la voz sintética de ser entendida,
mientras que la naturalidad se refiere al grado de parecido entre la voz sintetizada y la
voz humana.
1.3.1 TÉCNICAS PARA EVALUAR LOS CONVERSORES TEXTO-VOZ
Hasta la fecha se han realizado pocos estudios para tratar de evaluar los sistemas
de conversión texto-voz de forma cuantitativa, por lo que la evaluación ha de ser
principalmente subjetiva. Para ello se han ideado varios métodos [Villacorta 99].
Uno de los procedimientos más utilizados es el MOS (Mean Opinion Score). Se
presenta la voz sintética a distintos oyentes, los cuales en función de su criterio evalúan
la calidad dando una puntuación entre 1 y 5. Este método permite evaluar tanto
naturalidad como inteligibilidad, siendo muy utilizado para evaluar voz codificada.
El método MRT (Modified Rhyme Test) trata de evaluar únicamente la
inteligibilidad de la voz sintética eliminando la gran redundancia existente en los
lenguajes naturales. Se presentan a los oyentes 6 construcciones del tipo consonantevocal-consonante, de las cuales deben elegir una. Este método tiene el inconveniente de
que no sirve para evaluar un conversor texto-voz de forma global, ya que representa
situaciones que no se corresponden con la realidad.
Para resolver este problema surgió el método SUS (Semantically Unpredictable
Sentences). En este caso se emplean frases completas y sintácticamente correctas pero
carentes de significado. El oyente se encuentra en un entorno de utilización real de un
sintetizador texto-voz y además no puede apoyarse en la redundancia del lenguaje
natural para reconocer las frases.
A continuación se presentan las principales técnicas utilizadas para la evaluación
de los conversores texto-voz [Klatt 87]. La mayoría de los datos existentes proceden de
11
Capítulo 1. Introducción
los trabajos llevados a cabo en la Universidad de Indiana por David Pisoni y sus
colaboradores.
INTELIGIBILIDAD: Diagnostic Rhyme Test (Fairbanks, 1958; Voiers, 1983)
MRT (House y otros, 1965)1
MRT con respuesta abierta (Pisoni y otros, 1985)
MRT con ruido (Nixon y otros, 1985)
Lista de palabras CNC (Lehiste y Peterson, 1959)
Palabras sin significado CVC
(Dubno and Levitt, 1981; Pols y Olive, 1983)
Lista de palabras CID W-22 (Hirsh y otros, 1952)
Goodness rating for words
(Wright, Altom y Olive, 1986)
Frases CID 2 (Erber, 1979)
Frases Harvard 3 (Egan, 1948)
Test SPIN 4 (Nakatan y Duker, 1973;
Kalikan y otros, 1977)
Frases anómalas Haskins 5 (Nye y Gaitenby, 1974)
COMPRENSIÓN: Comprensión oral/escrita (Pisoni y Hunnicutt, 1980)
Frases de verificación (Manous y otros, 1985)
NATURALIDAD: Comparaciones por parejas (IEEE, 1969;
Logan y Pison, 1986)
Valoraciones subjetivas (Nusbaum y otros, 1984)
Tabla 1.5. Técnicas para evaluar conversores texto-voz
1
CVC (consonante-vocal-consonante).
2
Oraciones sencillas, cortas y predecibles utilizadas para evaluar oídos perjudicados.
3
Lista de frases para medir la inteligibilidad de la voz con ruido. Esta lista se emplea a menudo
hoy día, a pesar de su escasa variación sintáctica y del mínimo uso de palabras con más de dos
sílabas, simplemente porque no se han propuesto listas mejores.
SPIN (Speech In Noise)
4
Grupos de palabras sin significado, sintácticamente correctas, de la forma El (adjetivo)
(sustantivo) (verbo) el (sustantivo), por ejemplo, La vieja granja costó la sangre.
12
Capítulo 1. Introducción
1.3.2 INTELIGIBILIDAD
La inteligibilidad puede medirse en términos de fonemas o de palabras aisladas,
de palabras en el contexto de una frase o de párrafos del texto.
Para el caso de palabras aisladas los sistemas actuales alcanzan un porcentaje de
aciertos superior al 90%, pero por debajo del 99% conseguido con voz natural. Los
resultados obtenidos para las palabras en contexto son ligeramente inferiores. En
comparación con las palabras aisladas, dentro de una frase las palabras se ven afectadas
por distintos fenómenos como la coarticulación, simplificaciones fonéticas, reducción
de sílabas átonas y modificaciones prosódicas que, entre otras cosas, acortan las sílabas
intermedias y modifican el contorno de la frecuencia fundamental.
En cuanto a la comprensión global del párrafo o texto leído, ¿los oyentes pierden
información importante cuando tratan de comprender párrafos largos? ¿Están tan
preocupados por entender las palabras individuales que olvidan rápidamente el
mensaje? Para intentar responder a estas preguntas Pisoni y Hunnicutt (1980) [Klatt 87]
incluyeron pruebas estándar de comprensión de lectura en sus evaluaciones y
comprobaron que sólo la mitad de los encuestados escuchaba al conversor texto-voz,
mientras que la otra mitad leía el texto, que se les proporcionaba antes de comenzar la
prueba con objeto de que al final de la misma pudieran comprobar si lo que habían
entendido se correspondía con el texto original) con los ojos en lugar de escuchar al
sistema. Además se dieron cuenta de que los resultados obtenidos dependían más de la
capacidad de memoria de los oyentes que de la dificultad de comprender la voz
sintética.
El siguiente cuadro pretende ilustrar lo expuesto anteriormente mostrando los
resultados obtenidos para tres sintetizadores de formantes y para voz natural.
ACIERTOS ( % )
Sistema
Palabras aisladas
Palabras en contexto
Párrafos completos
MITalk-79
93
93
70
Prose-2000
94
84
65
DECtalk
97
95
-
Voz natural
99
99
68
Tabla 1.6. Resultados de inteligibilidad obtenidos para distintos sintetizadores de formantes
13
Capítulo 1. Introducción
Como conclusión podemos decir que la inteligibilidad no representa un
problema importante para los sistemas actuales de conversión de texto a voz. Así, la voz
sintética resulta un método viable para presentar información a un auditorio, si bien es
cierto que la voz sintética producida por estos conversores es menos inteligible que la
voz natural.
1.3.3 NATURALIDAD
La naturalidad es una cualidad subjetiva y multidimensional difícil de
cuantificar, por lo que su evaluación ha de ser subjetiva. Gran parte de los métodos
utilizados se basan en comparaciones entre distintos conversores texto-voz.
Un procedimiento estándar consiste en presentar frases sintetizadas por cada uno
de los sistemas a comparar y obtener juicios de preferencia. Como la longitud de las
frases comparadas es la misma y se presentan sin largas esperas entre una y otra, se
consiguen resultados válidos. Es más difícil comparar sistemas escuchados en días
diferentes o con distintos material sintetizado, ya que se puede añadir una cantidad
imprevisible de ruido que influiría en las preferencias de los oyentes.
14
Capítulo 1. Introducción
CAPÍTULO 1...............................................................................................................1
INTRODUCCIÓN.......................................................................................................1
1.1 SISTEMAS DE CONVERSIÓN TEXTO-VOZ .................................................1
1.1.1 SINTETIZADORES POR FORMANTES.....................................................3
1.1.2 SINTETIZADORES POR CONCATENACIÓN ...........................................4
1.1.3 COMPARACIÓN DE LOS SISTEMAS DE SÍNTESIS MÁS UTILIZADOS ..5
1.2 APLICACIONES DE LOS CONVERSORES ...................................................6
1.2.1 CLASIFICACIÓN DE LAS APLICACIONES DESDE EL PUNTO DE
VISTA DE LOS MENSAJES...................................................................................7
1.2.2 APLICACIONES DE LOS CONVERSORES TEXTO-VOZ..........................8
1.3 PROBLEMÁTICA DE LA CONVERSIÓN TEXTO-VOZ................................9
1.3.1 TÉCNICAS PARA EVALUAR LOS CONVERSORES TEXTO-VOZ ..........11
1.3.2 INTELIGIBILIDAD..................................................................................13
1.3.3 NATURALIDAD.......................................................................................14
15
Descargar