Las etapas en la conversión de texto en habla 1/23 La conversión de texto en habla Del texto… …al habla GTP-UPC La conversión de texto en habla text-to-speech, TTS • Un sistema de conversión de texto en habla (CTH) transforma cualquier texto escrito en su realización sonora • La estructura de un conversor suele ser modular • Cada módulo se ocupa de un aspecto de la transformación de la cadena de caracteres inicial hasta llegar a la señal sonora Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Esquema general de un conversor de texto en habla Pre-procesado y normalización Análisis lingüístico Asignación de prosodia Transcripción fonética Selección de unidades Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla Procesamiento previo del texto Transcripción fonética automática Análisis lingüístico Asignación de elementos prosódicos Conversión en parámetros acústicos Conversión en parámetros acústicos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 2/23 Las etapas en la conversión de texto en habla Procesamiento previo del texto Procesamiento previo del texto Transcripción fonética automática Análisis lingüístico Asignación de elementos prosódicos Conversión en parámetros acústicos • El módulo de procesamiento previo del texto realiza las mismas operaciones que un hablante leyendo en voz alta • El objetivo es preparar el texto para la transcripción fonética automática Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Procesamiento previo del texto • Elementos que se convierten en texto 'deletreado' • • • • • • • • • Abreviaturas (Sr. D., Exmo., pts...) Siglas (UE, ONU...) Cifras y ordinales (3, 1º, 2ª...) Fechas (13.06.1959) Horas (15.30h...) Medidas (m., cm., Km....) Números romanos (Pedro IV...) Letras aisladas Símbolos especiales ($...) Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Procesamiento previo del texto Problemas en el preprocesado del texto • Siglas y acrónimos OTAN [otan] *[oteaene] PP [pepe] *[pp] PSOE [pesoe] *[peeseoe] *?[psoe] Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 3/23 Procesamiento previo del texto Problemas en el preprocesado del texto • Abreviaturas VO *[bo] versión original CV “caballos” - “curriculum vitae” Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Procesamiento previo del texto Problemas en el preprocesado del texto • Números de teléfono 93581686: * Noventa y tres millones quinientos ochenta y uno mil seis cientos ochenta y seis • Horas 4.15: *cuatro punto quince Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Procesamiento previo del texto Problemas en el preprocesado del texto • Concordancia en expresiones numéricas * trescientos sesenta y cinco líneas * quinientos pesetas • Formas apocopadas 100 casos: cien casos 10%: diez por ciento Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Procesamiento previo del texto Problemas en el preprocesado del texto • Códigos postales 28002 Madrid: *veintiocho mil dos Madrid • Fechas 13-11-98: *trece once noventa y ocho Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 4/23 Procesamiento previo del texto Problemas en el preprocesado del texto • Lectura del correo electrónico • Errores mecanográficos • Errores ortográficos • Falta de signos de puntuación • Lectura de SMS • “Abreviaturas” nuevas stoy n ksa 2# y slgo xa MAD tq Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Módulo de preprocesamiento del texto CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 • Módulo normalizador • Selecciona la frase como unidad de trabajo • Normaliza la forma de escritura sin perder información relevante Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Módulo normalizador Módulo de preprocesamiento del texto CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 Texto: El Sr. José Luis López tiene 201 viñas. NORMALIZADOR Frase normalizada: el Sr. josé luis lópez tiene 201 viñas. Formato: mm abr Mm Mm Mm mm mm mm sig Códigos: mm: palabra en minúscula, Mm: palabra con inicial mayúscula, abr: abreviatura, sig: signo ortográfico Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola • Módulo de preproceso • Expande abreviaturas, números, etc. • Incluye la silabificación y la acentuación Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 5/23 Módulo de preproceso CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 Frase normalizada: el Sr. josé luis lópez tiene 201 viñas. Formato: mm abr Mm Mm Mm mm mm mm sig PREPROCESO Palabras: el se#or jos’ jos’e luis l’ l’opez tiene doscientas una vi#as. Palab_silab: el se. #or jo. s’ s’e luis l’ l’o. pez ti’ ti’e.ne dos. ci’ ci’en. tas ‘u. na v’ v’i. #as. Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Transcripción fonética automática Objetivos • Creación de una cadena de unidades fonéticas fonemas o alófonos- a partir del texto escrito preprocesado • “Un sistema de transcripción fonética automática es un algoritmo que transforma un texto de entrada representado en caracteres grafemáticos en una representación expresada mediante símbolos fonéticos” Ríos (1993:381) Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla Procesamiento previo del texto Transcripción fonética automática Análisis lingüístico Asignación de elementos prosódicos Conversión en parámetros acústicos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Transcripción fonética automática • Implica una decisión sobre el inventario de alófonos que condiciona el inventario de unidades de síntesis • Decisiones ortológicas • Decisión sobre el “estándar” • Decisión sobre variedad geográfica • Decisión sobre registro Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 6/23 La transcripción fonética automática • Estrategias para la transcripción • Diccionario ayudado por un analizador en lenguas con una correspondencia muy irregular entre grafía y sonido • Reglas complementadas por un diccionario de excepciones en lenguas con una correspondencia regular entre sonido y grafía Tipos de reglas de transcripción RÍOS, A. (1993) "La información lingüística en la transcripción fonética automática del español", Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387. http://www.sepln.org/revistaSEPLN/revista/13/13-Pag381.pdf • • • • Reglas de fonemización Reglas de transcripción grafía-fonema Reglas de silabificación Reglas de ajuste silábico aplicadas a extranjerismos para adaptar su estructura silábica a la fonotaxis del español • Reglas de acentuación • Reglas de fonetización Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Características de las reglas de transcripción RÍOS, A. (1993) "La información lingüística en la transcripción fonética automática del español", Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387. http://www.sepln.org/revistaSEPLN/revista/13/13-Pag381.pdf • Reglas dependientes del contexto • Reglas de substitución de un signo en otro • p.ej.: regla de transcripción del grafema <g> como [x] ante <e,i> • Reglas de elisión de un elemento • p.ej.: elisión de <u> en el dígrafo <gu> ante las vocales <e,i> • Reglas de inserción de un elemento • p. ej.: regla de inserción de [k] después del grafema <x> Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Problemas de la transcripción fonética automática • Nombres propios y palabras extranjeras <#g> <#j> [dZ] [Z] [j] (George, jeans, Jordi, Jaume) <#w> [w] [gw] (whisky) <ph> [f] (Humphrey) <sh> [S] [tS] (show, squash) <sch> [S] (Schiller) <tg> [dZ] (Sitges) <#sC> [#esC] (stop, squash) Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 7/23 Problemas de la transcripción fonética automática • Nombres propios de persona en español Esther <th>: [t] Lourdes <ou>: [u] Feijoo <oo>: [o] Desacentuación del primer elemento de los nombres compuestos (implica detectar el nombre compuesto) Forma de las reglas de conversión de grafía a representación fonética dependientes del contexto SUBIRATS, C. - LLISTERRI, J. - POCH, D. (1988) "El diccionario electrónico del español con un conversor de texto a voz", in MARTÍN VIDE, C. (Ed.) Lenguajes naturales y Lenguajes Formales III.1. Actas del III Congreso de Lenguajes Naturales y Lenguajes Formales. Sitges, Barcelona, 28 de septiembre 2 de octubre 1987. Barcelona: Promociones y Publicaciones Universitarias. pp. 341-356. http://liceu.uab.es/~joaquim/publicacions/Subirats_Llisterri_Poch_88_Diccionario_Conversor.pdf <c> --> [k] / #_ [a], [o], [u] casa, cosa, cuna <c> --> [T] / # _ [e], [i] cena, cine <c> --> [k] / V _ [a], [o], [u] oca, acoso, acuna <c> --> [T] / V _ [e], [i] hace, fácil Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Forma de las reglas de conversión de grafía a representación fonética dependientes del contexto SUBIRATS, C. - LLISTERRI, J. - POCH, D. (1988) "El diccionario electrónico del español con un conversor de texto a voz", in MARTÍN VIDE, C. (Ed.) Lenguajes naturales y Lenguajes Formales III.1. Actas del III Congreso de Lenguajes Naturales y Lenguajes Formales. Sitges, Barcelona, 28 de septiembre 2 de octubre 1987. Barcelona: Promociones y Publicaciones Universitarias. pp. 341-356. http://liceu.uab.es/~joaquim/publicacions/Subirats_Llisterri_Poch_88_Diccionario_Conversor.pdf Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Módulo conversor grafema-alófono CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 • Transforma una secuencia de grafías en una secuencia de alófonos <c> --> [k] / # (c) V_# C acción, actor <c> --> [k] / # _ [l], [r]V tecla, crío <c> --> [k] / _ # coñac, vivac <c> --> [tS] / _h techo Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 8/23 Módulo conversor grafema-alófono CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 Palab_silab: el se. #or jo. s’e luis l’o. pez ti’e.ne dos. ci’en. tas ‘u. na v’i. #as. CONVERSOR GRAFEMA-ALÓFONO Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos. Tj’en. tas ‘u. na B’i. N~as [sil] Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Asignación de acento • Determina las sílabas tónicas y las sílabas átonas de la cadena de alófonos • Requiere información sobre palabras que son siempre átonas y reglas de acentuación para las palabras que no llevan acento gráfico • Puede realizarse como parte del preprocesado de texto una vez se ha llevado a cabo la división silábica Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola División silábica o silabificación • Divide la cadena de alófonos en sílabas • Puede realizarse como parte del preprocesado del texto, partiendo de la representación ortográfica Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla Procesamiento previo del texto Transcripción fonética automática Análisis lingüístico Asignación de elementos prosódicos Conversión en parámetros acústicos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 9/23 Análisis lingüístico Análisis lingüístico • Necesidad del análisis lingüístico en la conversión de texto a habla • Transcripción fonética • Predicción de la representación fonética a partir de reglas morfológicas / morfofonológicas que implican el reconocimiento de morfemas en lenguas con una correspondencia irregular entre grafías y alófonos • Necesidad del análisis lingüístico en la conversión de texto a habla • Asignación de elementos prosódicos • La localización de las pausas no marcadas ortográficamente, la asignación de acento y la determinación de las unidades melódicas requieren un análisis sintáctico Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Análisis morfológico • Objetivos • Segmentación del texto en morfemas • Asignación de etiquetas correspondientes a las partes de la oración a las palabras (POS tagging) Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Conversión de texto en habla para el inglés en el sistema MITalk ALLEN, J. - HUNNICUTT, M. S. - KLATT, D. H. (with R. C. ARMSTRONG and D. PISONI) (1987) From Text to Speech: The MITalk System. Cambridge: Cambridge University Press • Módulo DECOMP para la segmentación del texto de entrada en morfemas • Diccionario de morfemas • Gramática que predice las combinaciones posibles e imposibles de morfemas Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 10/23 Módulo categorizador Módulo categorizador CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 • Asigna categorías gramaticales a las palabras Palabras: el se#or jos’e luis l’opez tiene doscientas una vi#as. Palab_silab: el se. #or jo. s’e luis l’o. pez ti’e.ne dos. ci’en. tas ‘u. na v’i. #as. CATEGORIZADOR Categorías: ART N NP NP NP V NUM NUM N SIG Códigos: ART: artículo, N: nombre, NP: nombre propio, V: verbo, NUM: número, SIG: signo ortográfico Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Análisis sintáctico • Para una asignación de elementos prosódicos que tenga como resultado una síntesis con un alto grado de naturalidad es necesario un análisis sintáctico, semántico y pragmático del texto • Segmentación del texto en unidades sintácticas • Asignación de una estructura de constituyentes (parsing) Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Módulo de análisis sintáctico CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 Palabras: el se#or jos’e luis l’opez tiene doscientas una vi#as. Categorías: ART N NP NP NP V NUM NUM N SIG ESTRUCTURADOR Árbol sintáctico Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 11/23 Las etapas en la conversión de texto en habla Procesamiento previo del texto Transcripción fonética automática Análisis lingüístico Asignación de elementos prosódicos Conversión en parámetros acústicos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla Asignación de duración Asignación de intensidad Asignación de pausas Asignación de curva melódica Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Asignación de elementos prosódicos Objetivos Conjunto de reglas que especifican • Duración de los segmentos • Intensidad de los segmentos / del enunciado • Contorno melódico del enunciado • Colocación y duración de las pausas Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla Asignación de duración Asignación de intensidad Asignación de pausas Asignación de curva melódica Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 12/23 Factores que determinan la duración segmental Asignación de duración segmental • Requiere un modelo de duración segmental que considere • Duración intrínseca de cada segmento • Modificaciones contextuales Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola • • • • • • Acento Consonante que sigue al segmento Vocal que sigue al segmento Pausa después del segmento Posición del segmento en el enunciado Longitud de la palabra en la que se encuentra el segmento • Velocidad de elocución Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Modelo de duración segmental para el inglés Modelo de duración segmental para el inglés KLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication Research. New York: Academic Press. pp. 287-300 KLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication Research. New York: Academic Press. pp. 287-300 DUR = [(INDUR-MINDUR)*PRCNT]/100+MINDUR • Elementos que determinan el porcentaje de reducción de los segmentos • Inserción de pausas • Alargamiento al final de una frase • Acortamiento de sílabas que no se encuentran al final de una palabra • Alargamiento debido al énfasis • Modificación de la duración en función del contexto postvocálico de las consonantes • INDUR: duración intrínseca del segmento (en ms.) calculada a partir de un corpus en el que los segmentos se analizan en frases marco • MINDUR: duración mínima del segmento si está acentuado • PRCNT: porcentaje de reducción de la duración del segmento, determinado por regla Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 13/23 Modelo de duración segmental para el inglés Modelo de duración segmental para el inglés KLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication Research. New York: Academic Press. pp. 287-300 KLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication Research. New York: Academic Press. pp. 287-300 • Acortamiento de sílabas pertenecientes a palabras polisilábicas • Acortamiento de consonantes en posición no inicial de palabra • Acortamiento de segmentos no acentuados • Acortamiento de los segmentos pertenecientes a grupos consonánticos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla Asignación de duración Asignación de intensidad Asignación de pausas Asignación de curva melódica Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola • Alargamiento de vocales debido a la presencia de una oclusiva sorda • Acortamiento de sílabas que no se encuentran al final de una frase Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Asignación de intensidad segmental • Determina la intensidad de cada segmento en función de las variables que afectan a este parámetro Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 14/23 Modelo de intensidad vocálica para el español y el catalán BLECUA FALGUERAS, B. - ACÍN, V. (1995) "Propuesta de un modelo de intensidad vocálica del castellano y el catalán aplicable a un sistema de conversión de texto a habla", Procesamiento del Lenguaje Natural, Revista nº 17: 257-271. http://www.sepln.org/revistaSEPLN/revista/17/17-Pag257.pdf • Basado en el análisis de intensidad vocálica en un corpus de frases leídas • Modelo en árbol que introduce una serie de factores que modifican la intensidad vocálica • Posición prepausal o no prepausal • Aparición de la vocal en sílaba tónica o átona • Posición inicial, medial o final de la vocal en el enunciado • Aparición de la vocal en un enunciado corto o largo Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Objetivos de la asignación de pausas • Inserción de las pausas marcadas ortográficamente en el texto • Inserción las pausas no marcadas ortográficamente en el texto • Determinación de la duración de la pausa Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla Asignación de duración Asignación de intensidad Asignación de pausas Asignación de curva melódica Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola La contribución de las pausas • Texto sintetizado con pausas (Telefónica I+D, Amigo v. 2.6) • Texto sintetizado sin pausas Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 15/23 Marcado ortográfico de pausas en un corpus real • 1629 pausas en total • 1260 pausas marcadas ortográficamente • 578 con punto; 527 con coma; coma 17 con punto y coma; 51 con dos puntos; 63 con signo de interrogación; 22 con signo de admiración; 2 con puntos suspensivos • 369 pausas no marcadas ortográficamente Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Modelo de duración y asignación de pausas para el español PUIGVÍ, D. - JIMÉNEZ, D. - FERNÁNDEZ, J. M. (1994) "Parametrización de las pausas ortográficas en castellano. Aplicación a un conversor de texto a habla", Actas del X Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural, Córdoba, 20-22 de julio de 1994. http://liceu.uab.es/publicacions/Puigvi_Jimenez_Fernandez_94_Pausas_Sintesis_Castellano.pdf • Basado en al análisis de un corpus de lectura • Determinación de la duración de las pausas marcadas mediante signos de puntuación • Factores fonéticos y sintácticos que determinan la aparición de pausas no marcadas por signos de puntuación • Determinación de la duración de las pausas no marcadas por signos de puntuación Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Módulo pausador Módulo pausador CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 • Transforma en pausas las palabras ortográficas • Añade pausas no marcadas ortográficamente Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Palabras: el se#or jos’e luis l’opez tiene doscientas una vi#as. Categorías: ART N NP NP NP V NUM NUM N SIG PAUSADOR Palabras: el se#or jos’ jos’e luis l’ l’opez [pau_v] tiene doscientas una vi#as. Palab_silab: el se. #or jo. s’ s’e luis l’ l’o. pez [pau_v] ti’ ti’e.ne dos. ci’ ci’en. tas ‘u. na v’ v’i. #as. Códigos: [pau_v]: pausa insertada ante el verbo Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 16/23 Las etapas en la conversión de texto en habla Asignación de duración Asignación de intensidad Asignación de pausas Asignación de curva melódica La contribución de la curva melódica • Texto sintetizado con variaciones de F0 (Telefónica I+D, Amigo v. 2.6) • Texto sintetizado sin variación de F0 Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Asignación de curva melódica • En algunos sistemas la asignación de la curva melódica puede utilizar un análisis previo de la estructura entonativa de los enunciados (prosodic parsing) Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Modelo de generación de patrones melódicos para el español GARRIDO, J. M. (1996) Modelling Spanish Intonation for Text-to-Speech Applications. Ph.D. Thesis. Departament de Filologia Espanyola, Facultat de Lletres, Universitat Autònoma de Barcelona. 2 vols. http://liceu.uab.es/juanma/tesis.html • Desarrollado a partir del análisis de un corpus de textos leídos • Modelo fonético por niveles Nivel global I: asignación de un patrón melódico al párrafo, situación de los puntos de reset y delimitación de grupos melódicos Nivel global II: asignación de patrones a cada grupo melódico y superposición de los movimientos locales de F0 que marcan límites sintácticos o modalidad oracional Nivel local: superposición de los movimientos de F0 asociados con el acento léxico Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 17/23 La estilización (Garrido 2001) La declinación GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español: propuesta de modelización", Lingüística Española Actual 23, 2: 173-209 200 180 160 F0 (Hz) Reducción de la curva melódica del enunciado ‘Ramón llegó en avión’, pronunciado por un locutor masculino, a una serie de puntos de inflexión relevantes Línea superior Contorno melódico correspondiente a la oración ‘La reina del baile bailaba la rumba de moda.’ (locutor masculino), representado por medio de líneas de referencia. Ejemplo extraído de Garrido et al. (1995) 140 120 100 80 60 Línea inferior Tiempo Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Estructura jerárquica Árbol prosódico inicial GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español: propuesta de modelización", Lingüística Española Actual 23, 2: 173-209 GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español: propuesta de modelización", Lingüística Española Actual 23, 2: 173-209 + Descomposición en patrones melódicos superpuestos de la curva melódica del enunciado ‘Ramón llegó en avión’, pronunciada por un locutor masculino Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 18/23 Nivel global Nivel local GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español: propuesta de modelización", Lingüística Española Actual 23, 2: 173-209 GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español: propuesta de modelización", Lingüística Española Actual 23, 2: 173-209 Líneas de referencia: líneas continuas de trazo grueso correspondientes a los tres grupos fónicos de la oración. Líneas de supradeclinación: líneas discontinuas de distinto grosor Curva estilizada real: puntos unidos mediante líneas rectas Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Líneas de referencia: líneas continuas Puntos de inflexión de la curva estilizada real: puntos de color claro Puntos de inflexión de la curva estilizada generada por el modelo: puntos de color oscuro Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Modelo entonativo del conversor de texto en habla Actor (Loquendo) en español Modelo entonativo del conversor de texto en habla Actor (Loquendo) en español GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf • Las unidades de síntesis son fragmentos largos de señal extraída del contexto prosódico apropiado • La F0 de la señal original se mantiene inalterada • Adecuado para “prosodia enunciativa neutra” representada en la base de datos acústica • Necesidad de un módulo de cálculo de F0 para los enunciados interrogativos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola • Estilización de la curva melódica • Cuatro niveles tonales • P (pico) • V (valle) • M (medio) • P+ (nivel por encima de un pico) Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 19/23 Modelo entonativo del conversor de texto en habla Actor (Loquendo) en español Modelo entonativo del conversor de texto en habla Actor (Loquendo) en español GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf • Estructura jerárquica de los patrones melódicos • Patrones locales • En el ámbito del grupo acentual • Patrones globales • En el ámbito del grupo entonativo • En el ámbito de la oración • Segmentación prosódica en • Grupo acentual • Sílaba tónica + sílabas átonas • Grupo tónico • Palabra tónica + átonas que la preceden • Marcado con etiquetas categoriales para la asignación de pausas • Grupo entonativo • Suele coincidir con el grupo fónico o con límites sintácticos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Estilización de la curva melódica Asignación de niveles tonales GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf Curva melódica del enunciado ‘¿Conoces el contenido del artículo de la Constitución?’ en la que aparecen los puntos de inflexión considerados durante el análisis Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola P+ M P V Curva melódica del segmento ‘Sabes cuando pasan…’ perteneciente al enunciado '¿Sabes cuándo pasan a recoger los muebles viejos este mes?' en la que aparecen representados los puntos M, P+, V y P Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 20/23 Patrones locales Patrones globales GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf 1 2 3 4 Curva melódica del enunciado ‘El acto de la firma transcurrió tal y como habían pactado ambas delegaciones la víspera’, pronunciada por un locutor masculino. Las líneas rectas representan las ‘líneas de referencia’ correspondientes a los puntos P (superior) y V (inferior) de la curva melódica Curva melódica del enunciado ‘¿Conoces el contenido del artículo de la Constitución?’ en el que aparecen estilizados el patrón inicial (1), dos intermedios (2,3) y el patrón final (4) Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Grupos entonativos Evaluación del modelo GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf Curva melódica correspondiente al enunciado ‘El acto de la firma transcurrió tal y como habían pactado ambas delegaciones la víspera’ pronunciado por un locutor femenino. Sobre cada grupo entonativo se han dibujado las líneas de referencia correspondientes Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola • 24 pares formados por estímulo natural estímulo sintetizado • 10 jueces expertos y 20 no expertos • Evaluación del grado de semejanza entre la curva melódica natural y la sintetizada en una escala del 1 al 4 Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 21/23 Evaluación del modelo GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®", Procesamiento del Lenguaje Natural 26: 183-190. http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf Módulo de generación de parámetros prosódicos CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos. Tj’en. tas ‘u. na B’i. N~as [sil] Categorías: ART N NP NP NP V NUM NUM N SIG Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos. Tj’en. tas PROSO Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60 Entonación (Hz): Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla Procesamiento previo del texto Transcripción fonética automática Análisis lingüístico Asignación de elementos prosódicos Conversión en parámetros acústicos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Conversión en parámetros acústicos • Conjunto de reglas que tiene como objetivo: • Asignar valores de parámetros acústicos a cada segmento o a cada unidad de síntesis • Especificar las transiciones entre segmentos • Los valores de los parámetros acústicos controlan un sintetizador que produce la onda sonora correspondiente al mensaje Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 22/23 Concatenación de unidades almacenadas mediante síntesis paramétrica • Creación de un diccionario de unidades de síntesis • Parametrización de las unidades • Modelo del tracto vocal para la síntesis a partir de los parámetros utilizados Síntesis por LPC (Linear Predictive Coding) Síntesis por formantes Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Módulos de conversión en parámetros acústicos para la conversión de texto a habla CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 Módulo de conversión en parámetros acústicos CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131 • Módulo de síntesis • Transforma la información de la secuencia de unidades de síntesis y de los parámetros prosódicos en una onda sonora Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Módulos de un conversor de texto en habla Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos. Tj’en. tas ‘u. na B’i. N~as [sil] Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60 Entonación (Hz): PARLA Selección de unidades de síntesis en el inventario Generación de tramas de síntesis SÍNTESIS Conversión en una onda sonora mediante el sintetizador Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Las etapas en la conversión de texto en habla 23/23 Las etapas en la conversión de texto en habla Procesamiento previo del texto Transcripción fonética automática Análisis lingüístico Asignación de elementos prosódicos Conversión en parámetros acústicos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola