Conversión de texto en habla Tecnologías de la Información y Comunicaciones en Redes Móviles 2005/2006 Eduardo Lleida lleida@unizar.es Eva Navas eva.navas@ehu.es Tecnologías del habla Índice Introducción Estructura de un sistema CTH Modelado prosódico. Habla emocional Técnicas de síntesis de voz Bases de datos para CTH Evaluación Aplicaciones Perspectiva histórica Lenguajes de marcado para CTH Tecnologías del habla Bases de datos para CTH Introducción Bases de datos orales para CTH Elementos Herramientas Bases de datos para modelado prosódico Duración Entonación Pausas Emociones Bases de datos para síntesis Síntesis por formantes Técnicas de concatenación Técnicas basadas en corpus Tecnologías del habla Bases de datos orales Base de datos oral: Conjunto de grabaciones estructurado y etiquetado Representativa del fenómeno que se desea estudiar Consideraciones a realizar: Corpus textual Locutor Calidad de la grabación Datos a añadir Tecnologías del habla Bases de datos para CTH Introducción Bases de datos orales para CTH Elementos Herramientas Bases de datos para modelado prosódico Duración Entonación Pausas Emociones Bases de datos para síntesis Síntesis por formantes Técnicas de concatenación Técnicas basadas en corpus Tecnologías del habla Elementos de las bases de datos Señal de voz Espectrograma Curva de pitch Marcas de fonema Marcas de palabra Marcas de grupo acentual . . . Etc. Tecnologías del habla Herramientas: etiquetado lingüístico Identificar fenómenos lingüísticos de interés División en sílabas Localización de acentos Categorización de las palabras… Generalmente se realiza con los módulos de procesado lingüístico del CTH Tecnologías del habla Herramientas: transcriptor fonético Transcriptor fonético: produce la transcripción fonética de una palabra o texto Uso del alfabeto IPA o SAMPA Produce diferentes transcripciones Transcripción estándar Transcripciones alternativas Transcripciones dialectales Tecnologías del habla Herramientas: segmentador Tecnologías del habla Herramientas: segmentador DTW Dynamic Time Warping Proyección dinámica de la señal sintética sobre la natural Tecnologías del habla Herramientas: segmentador Base de datos sin segmentar Base de datos segmentada a+B+a+D+e Entrenamiento de modelos Modelos Segmentación Basado en HMM (Modelos Ocultos de Markov Un modelo para cada fonema Modelos entrenados con la base de datos que se debe segmentar Grabaciones (wav) + transcripciones (sin alinear) Tecnologías del habla Herramientas: laringógrafo Grabar el pulso glotal Proporciona tres señales: Señal de voz (Sp) Tren de pulsos (Tx) Pulso glotal (Lx) Tecnologías del habla Herramientas: laringógrafo Fase abierta Fase cerrada Tecnologías del habla Herramientas: laringógrafo Tecnologías del habla Bases de datos para CTH Introducción Bases de datos orales para CTH Elementos Herramientas Bases de datos para modelado prosódico Duración Entonación Pausas Emociones Bases de datos para síntesis Síntesis por formantes Técnicas de concatenación Técnicas basadas en corpus Tecnologías del habla Bases de datos para modelado prosódico Bases de datos necesarias en la metodología general de obtención de un modelo prosódico: Inicio Obtención de la base de datos - Diseño del corpus - Grabaciones no Etiquetado de la base de datos sí Estudio estadístico de los parámetros - Segmentación - Etiquetado lingüístico Evaluación del modelo obtenido calidad aceptable no sí Modelo Tecnologías del habla base datos válida Bases de datos para modelado de la duración Importancia factores intrínsecos y extrínsecos Muchas combinaciones de factores Enormes bases de datos para su estudio estadístico Corpus: Equilibrado fonéticamente Locutor: Válido un solo locutor Datos: Segmentada a nivel de fonema largo Transcripción fonética fiel Tecnologías del habla proceso Bases de datos para modelado de la entonación Corpus: Bases de datos con frases de distintas estructuras sintácticas Frases de diferente complejidad y longitud con pausas internas Desequilibrado fonéticamente Locutor: Elegir el locutor con cuidado Datos: Calcular las curvas de entonación con gran precisión: uso de laringógrafo Etiquetado de la curva de entonación, según el modelo de entonación elegido Parámetros de Fujisaki o TILT, etiquetas ToBI… Tecnologías del habla Bases de datos para modelado de las pausas Corpus: La base de datos debe contener textos largos, para analizar pausas entre frases Locutor: Las bases de datos para el modelado de la ubicación de las pausas pueden ser textuales Para modelar las características de las pausas son necesarias bases de datos orales Datos: Etiquetada morfológica y sintácticamente Tecnologías del habla Bases de datos para modelado de las emociones Voz natural: Emociones verdaderas 9 No se puede controlar el contenido 8 Señales cortas 8 Incluyen disfluencias 8 8 Necesidad de etiquetar la emoción Problemas éticos 8 Tecnologías del habla Bases de datos para modelado de las emociones Voz provocada Más fácil de grabar 9 Difícil determinar la emoción expresada 8 Problemas éticos 8 Voz actuada Emociones no naturales 8 Contenido controlado 9 Fácil grabación 9 Fácil etiquetado de la emoción 9 Tecnologías del habla Bases de datos para modelado de las emociones Emociones a considerar No hay acuerdo The Big Six: Alegría Asco Enfado Miedo Sorpresa Tristeza Estilo neutro Hartuko al zenuke kafetxo bat nirekin Iruña kafetegian? Textos de la base de datos Relacionados con la emoción No relacionados con la emoción Tecnologías del habla Bases de datos para modelado de las emociones Cuidadosa selección del locutor Uso de laringógrafo El grado de reconocimiento de las emociones en la base de datos ha de ser evaluado Tecnologías del habla Bases de datos para CTH Introducción Bases de datos orales para CTH Elementos Herramientas Bases de datos para modelado prosódico Duración Entonación Pausas Emociones Bases de datos para síntesis Síntesis por formantes Técnicas de concatenación Técnicas basadas en corpus Tecnologías del habla Bases de datos para síntesis de formantes Son necesarias para crear las reglas del modelo Las trayectorias de los formantes se deben analizar sistemáticamente Grupos VC, CV, VCV Repeticiones de los grupos Un único locutor Parametrización de los datos Tecnologías del habla Bases de datos para síntesis por concatenación Selección de la unidad: Párrafos Frases Palabras Sílabas Difonemas Fonemas Número de unidades necesarias Tecnologías del habla Número de concatenaciones Bases de datos para síntesis por concatenación Uso de laringógrafo facilitar marcado síncrono con pitch Pruebas con varios locutores antes de grabar la base de datos completa Opciones para grabar las unidades: Extraerlas de voz natural: Al diseñar el corpus asegurarse de que están todas las unidades Repetición de muchas unidades que permite elegir la mejor Proceso de selección tedioso Utilizar logotomas El contexto articulatorio en torno a la unidad debe ser lo más neutro posible Posición de la unidad en el logotoma controlada Tecnologías del habla Bases de datos para síntesis por concatenación Los difonemas deben extraerse de la mitad de las palabras asegurar articulación Pronunciados consistentemente Pitch constante, energía, duración Buscar la lista de los fonemas del idioma: Añadir alófonos interesantes Considerar acento, posición… Fonemas extranjeros Verificar el corpus: Listar todos los difonemas y justificar los que falten Tecnologías del habla Bases de datos para síntesis por selección de unidades Podado de unidades: Para mejorar la calidad Unidades con parámetros muy alejados de la media: En la práctica no resultan seleccionadas Eliminarlas mejora la calidad de la síntesis Para reducir el tamaño Unidades con parámetros muy similares: No contribuyen a la diversidad de la base de datos Eliminarlas no disminuye la calidad de la síntesis Tecnologías del habla Consideraciones prácticas Elegir bien el texto de entrada Si se conoce la aplicación se consigue mejor cobertura de palabras Buena cobertura de fonemas, considerando el contexto Poca ambigüedad Fácil de leer Buen locutor Los locutores profesionales son mejores: estilo y articulación consistente Grabación Situación ideal: Cámara anecoica Calidad de grabación de estudio profesional Señal del laringógrafo Buenas condiciones de grabación Tecnologías del habla