Entrenamiento Automático de Vocales Sostenidas Mediante la

Anuncio
Entrenamiento Automático de Vocales Sostenidas
Mediante la Aproximación a la Mejor Producción
M. Calderón 1, M.A.G. Izquierdo 1, R.Calvo1, A. Sánchez 2, E. Martínez 3
1
Departamento de Señales, Sistemas y Radiocomunicaciones
E.T.S.I de Telecomunicación. Universidad Politécnica de Madrid.
Ciudad Universitaria s/n C.P. 28040 Madrid
2
Departamento de Educación. Área de Psicología Evolutiva y de la Educación.
Universidad de Córdoba.
3
Departamento de Psicología. Colegio de Educación Especial “Niño Jesús”.
Fundación Termens. Cabra (Córdoba)
E-mail: manuelcg@gtsc.ssr.upm.es
Resumen. En este trabajo se presenta una estrategia automática para la enseñanza de vocales
sostenidas a personas con deficiencias auditivas. En ella se utiliza la mejor producción del sujeto
entrenado como modelo a imitar. Además se presentan los ejercicios de entrenamiento automático de
vocales aisladas integrados dentro del sistema Marius (Puertas 2000) (Sánchez Raya 2001), que
llevan a la práctica esta aproximación como método de entrenamiento automático.
1. Introducción
Un alumno sordo o hipoacúsico utiliza el ordenador tan fluidamente o con la misma
dificultad que cualquier otra persona, no necesita de ninguna adaptación especial ya que su
discapacidad sensorial no afecta a su acceso al mismo (Sánchez Montoya 1997). Por lo
tanto, el ordenador como instrumento de ayuda al logopeda cada vez esta siendo más
utilizado al aportar un factor motivacional muy potente.
La 1ª fase del Sistema Marius fue presentado anteriormente como un instrumento que
facilita la enseñanza del lenguaje oral en personas con discapacidad auditiva, comenzando
desde las unidades mas básicas del lenguaje (aspectos suprasegmentales, articulación de
vocales) hasta las más complejas (palabras y frases sencillas). En este articulo vamos a
hacer referencias a la problemática que se nos ha planteado en algunos de los ejercicios y
como ha sido resuelto.
La dificultad que se nos ha planteado en esta 1ª fase, lo constituye la articulación de las
vocales. Cuando un niño articula una vocal, el sistema compara esa producción con una
base de datos de voces de niños oyentes de su misma edad articulando esa misma vocal. En
un número elevado de niños con sorderas profundas esas vocales no pueden ser perfectas,
sin embargo se sitúan dentro de lo que nuestro oído interpretaría como adecuadas, aunque
no lo son al ser comparadas con la población de referencia, por lo que el sistema las
calificaría como mal pronunciadas.
Evidentemente, el sistema es un simulador que no se corresponde con los múltiples
procesos que se realizan durante la percepción del habla, puesto que normalmente
percibimos distintas variables acústicas de un mismo fonema (por ejemplo, vocal) como si
fueran idénticas (MacKay, 1987), esto es debido a que la clave relevante para la
identificación de las vocales lo constituye la posición relativa de los formantes y no sus
valores absolutos, ya que los valores absolutos de los formantes no están ligados
unívocamente a las distintas categorías fonológicas. Los valores concretos de los formantes
dependen del hablante, dado que distintos hablantes poseen tractos vocales diferentes. No
existe una formula sencilla que permita normalizar los valores de las frecuencias de los
formantes (Munar 1999).
Después de cuestionar diferentes métodos de solucionar este problema, establecimos como
lo más adecuado (observando la respuesta de los niños con deficiencias auditivas), que el
sistema tuviera la posibilidad de hacer un registro de las propias vocales del niño cuando
su emisión fuera la más correcta al oído del logopeda, de tal manera que aquel tendrá que
ir aproximándose primero a su mejor vocal pronunciada, estableciéndose la posibilidad,
posteriormente, de ir comparándola con la norma.
2. Entrenamiento de vocales aisladas sostenidas con el sistema Marius
En español es posible discriminar las cinco vocales a partir de los dos primeros formantes.
A partir de esta idea el sistema Marius realiza el entrenamiento de la pronunciación de las
vocales utilizando los dos primeros formantes obtenidos del análisis de la señal de voz.
En este sistema, el calculo de los formantes utilizando técnicas de predicción lineal (Deller
2000) para la estimación de los máximos espectrales. La gran variabilidad existente entre
voces graves y agudas se compensa mediante la estimación previa del pitch.
Una vez estimados los formantes es posible representarlos en un plano bidimensional
donde el eje de abcisas corresponde al primer formante y el de ordenadas al segundo
formante. De esta forma es posible obtener zonas del plano que corresponden a cada una
de las cinco vocales. El inconveniente que presenta este método es que para una población
de locutores estas zonas se solapan debido a la gran variabilidad de la voz. Sin embargo es
posible obtener zonas no solapadas cuando únicamente se tiene en cuenta un locutor.
La solución que se presenta en este sistema consiste en plantear inicialmente unos valores
de los formantes que se corresponden con los promedios de la población de locutores para
después modificarlos dependiendo de la pronunciación del locutor.
Siguiendo esta idea el sistema Marius propone el aprendizaje de las vocales sostenidas
mediante dos ejercicios: en el primero de ellos, se ajustan los valores de los formantes a la
pronunciación del locutor; y en el segundo, una vez ajustados se entrena la pronunciación
mediante un juego. A continuación se describen con más detalle cada uno de estos
ejercicios.
2.1. Ejercicio 1: Visualización y personalización de los formantes
En este ejercicio mostrado en la figura 1, se pueden ver los elementos comunes
encontrados en todas las lecciones del sistema Estos elementos visuales situados en la
parte derecha de la pantalla permiten ofrecer una realimentación directa de la señal de voz
que el usuario pronuncia; entre ellas podemos encontrar el espectrograma, la amplitud de
la señal en tiempo y su energía tanto en tiempo como en espectro.
Además de estos elementos comunes encontramos elementos particulares que nos van a
permitir el entrenamiento de las vocales sostenidas, como son:
Un elemento móvil que se desplaza sobre el mapa de formantes en respuesta a lo que está
pronunciando el usuario.
•
Valores de las frecuencias de los formantes F1 y F2.
•
Consejos a nivel articulatorio: posición de la lengua, los labios y apertura de la
boca.
•
Conjunto de botones que permiten personalizar cada una de las vocales
Inicialmente el sistema plantea los valores
promedio de los formantes, que en general no se
ajustarán exactamente a los del usuario. Por esta
razón este ejercicio además incluye la posibilidad
de personalizar los valores de los formantes. El
interfaz posee unos controles de grabación que
mediante una simple pulsación permiten almacenar
los formantes de cada vocal para cada usuario. La
variabilidad entre locutores se evita de este modo.
Esto va a reconfigurar el mapa automáticamente
reubicando las áreas correspondientes a cada vocal.
Fig. 1: Visualización de Formantes
Este ejercicio necesita la supervisión de una persona con la capacidad de decidir cuando se
está pronunciando correctamente cada vocal. De esta forma la mejor producción de cada
vocal pasará a ser el modelo respecto al cual se entrena el usuario.
La variabilidad de la voz del propio locutor se ve paliada permitiendo un área de tolerancia
en torno a los valores de los formantes.
Además de ser la herramienta de personalización de los formantes este ejercicio va a
permitir al usuario ejercitarse libremente en la pronunciación de vocales y diptongos. Este
ejercicio o se propone ningún objetivo concreto ni se impone un tiempo límite.
En resumen, este primer ejercicio está diseñado para que el entrenamiento de cada vocal en
el siguiente ejercicio resulte efectivo y refuerce la correcta pronunciación.
2.2. Ejercicio 2: Entrenamiento de la pronunciación de las vocales
En este caso se busca que el usuario practique la pronunciación correcta y sostenida de una
vocal.
Siguiendo con el esquema en todas las
lecciones del sistema, la realimentación
visual se basará en el desplazamiento de un
objeto al pronunciar correctamente la vocal
de forma continuada, de este modo
podemos fijar un objetivo; en este caso
llevar una burbuja “hechizada” con la vocal
correspondiente hasta la rana que espera
para comérsela. Cuando la burbuja llega
hasta la meta se recompensa la consecución
del objetivo con una animación de la rana
devorando la burbuja, cómo se ve en la
figura 2.
Fig. 2: Entrenamiento de Vocales
Además de la realimentación visual en forma de juego que refuerza el entrenamiento
individual de cada vocal, también se puede ver simultáneamente el mapa de formantes
personalizado donde puede obtenerse información adicional sobre todas las vocales. Esto
es muy útil ya que en caso de una pronunciación errónea podemos ver qué es lo que se está
pronunciando realmente.
3. Conclusiones
En este trabajo se presenta la implementación de la estrategia descrita dentro del sistema
de entrenamiento del habla Marius.
Los ejercicios propuestos se han desarrollado siguiendo los criterios de diseño que llevaron
a crear el sistema como un juego. De este modo el acabado gráfico de los interfaces y
ejercicios se integra dentro del estilo general que en anteriores versiones se mostró eficaz,
con el fin de atraer y mantener la atención, resultando tan atractivo como útil.
Los resultados en experiencias llevadas a cabo con el sistema, demuestran que el camino
que está recorriendo el sistema Marius es el adecuado.
4. Referencias
DELLER Jr, J.R. & HANSEN, J.H.L. & PROAKIS, J.G. (2000). “Discrete-Time Processing of Speech
Signals”. IEEE PRESS.
McKAY, R. (1987). “TEN. La Teoría de la Estructura Nodal”. T. A. L. P.
MUNAR, E. & ROSELLÓ, J. & SÁNCHEZ-CABACO, A. (1999). “Atención y Percepción” Capítulo 15
ALIANZA EDITORIAL.
PUERTAS, J.I. & BARQUILLA, R.L. & SEGADOR, S.S. & CALDERÓN, M. & IZQUIERDO, M.A.G. &
GARCÍA GÓMEZ, R. & ALONSO TRUJILLO, F. (2000). ”Sistema de Aprendizaje y Perfeccionamiento
del Habla para Personas con Deficiencias Auditivas”. Congreso Iberdiscap 2000, Madrid.
SÁNCHEZ MONTOYA, R. (1997). “Ordenador y Discapacidad”. C. E. P.
SÁNCHEZ RAYA, A. & MARTÍNEZ, E. & GARCÍA, M.A. & CALDERÓN, M. & PUJOL, J.C. (2001).
“Aprendizaje del lenguaje oral en personas con discapacidad auditiva a través de la retroalimentación
asistida por ordenador”. Conferencia presentada en el I Congreso Nacional de Nuevas Tecnologías y
Necesidades Educativas Especiales.
Descargar