Entrenamiento Automático de Vocales Sostenidas Mediante la Aproximación a la Mejor Producción M. Calderón 1, M.A.G. Izquierdo 1, R.Calvo1, A. Sánchez 2, E. Martínez 3 1 Departamento de Señales, Sistemas y Radiocomunicaciones E.T.S.I de Telecomunicación. Universidad Politécnica de Madrid. Ciudad Universitaria s/n C.P. 28040 Madrid 2 Departamento de Educación. Área de Psicología Evolutiva y de la Educación. Universidad de Córdoba. 3 Departamento de Psicología. Colegio de Educación Especial “Niño Jesús”. Fundación Termens. Cabra (Córdoba) E-mail: manuelcg@gtsc.ssr.upm.es Resumen. En este trabajo se presenta una estrategia automática para la enseñanza de vocales sostenidas a personas con deficiencias auditivas. En ella se utiliza la mejor producción del sujeto entrenado como modelo a imitar. Además se presentan los ejercicios de entrenamiento automático de vocales aisladas integrados dentro del sistema Marius (Puertas 2000) (Sánchez Raya 2001), que llevan a la práctica esta aproximación como método de entrenamiento automático. 1. Introducción Un alumno sordo o hipoacúsico utiliza el ordenador tan fluidamente o con la misma dificultad que cualquier otra persona, no necesita de ninguna adaptación especial ya que su discapacidad sensorial no afecta a su acceso al mismo (Sánchez Montoya 1997). Por lo tanto, el ordenador como instrumento de ayuda al logopeda cada vez esta siendo más utilizado al aportar un factor motivacional muy potente. La 1ª fase del Sistema Marius fue presentado anteriormente como un instrumento que facilita la enseñanza del lenguaje oral en personas con discapacidad auditiva, comenzando desde las unidades mas básicas del lenguaje (aspectos suprasegmentales, articulación de vocales) hasta las más complejas (palabras y frases sencillas). En este articulo vamos a hacer referencias a la problemática que se nos ha planteado en algunos de los ejercicios y como ha sido resuelto. La dificultad que se nos ha planteado en esta 1ª fase, lo constituye la articulación de las vocales. Cuando un niño articula una vocal, el sistema compara esa producción con una base de datos de voces de niños oyentes de su misma edad articulando esa misma vocal. En un número elevado de niños con sorderas profundas esas vocales no pueden ser perfectas, sin embargo se sitúan dentro de lo que nuestro oído interpretaría como adecuadas, aunque no lo son al ser comparadas con la población de referencia, por lo que el sistema las calificaría como mal pronunciadas. Evidentemente, el sistema es un simulador que no se corresponde con los múltiples procesos que se realizan durante la percepción del habla, puesto que normalmente percibimos distintas variables acústicas de un mismo fonema (por ejemplo, vocal) como si fueran idénticas (MacKay, 1987), esto es debido a que la clave relevante para la identificación de las vocales lo constituye la posición relativa de los formantes y no sus valores absolutos, ya que los valores absolutos de los formantes no están ligados unívocamente a las distintas categorías fonológicas. Los valores concretos de los formantes dependen del hablante, dado que distintos hablantes poseen tractos vocales diferentes. No existe una formula sencilla que permita normalizar los valores de las frecuencias de los formantes (Munar 1999). Después de cuestionar diferentes métodos de solucionar este problema, establecimos como lo más adecuado (observando la respuesta de los niños con deficiencias auditivas), que el sistema tuviera la posibilidad de hacer un registro de las propias vocales del niño cuando su emisión fuera la más correcta al oído del logopeda, de tal manera que aquel tendrá que ir aproximándose primero a su mejor vocal pronunciada, estableciéndose la posibilidad, posteriormente, de ir comparándola con la norma. 2. Entrenamiento de vocales aisladas sostenidas con el sistema Marius En español es posible discriminar las cinco vocales a partir de los dos primeros formantes. A partir de esta idea el sistema Marius realiza el entrenamiento de la pronunciación de las vocales utilizando los dos primeros formantes obtenidos del análisis de la señal de voz. En este sistema, el calculo de los formantes utilizando técnicas de predicción lineal (Deller 2000) para la estimación de los máximos espectrales. La gran variabilidad existente entre voces graves y agudas se compensa mediante la estimación previa del pitch. Una vez estimados los formantes es posible representarlos en un plano bidimensional donde el eje de abcisas corresponde al primer formante y el de ordenadas al segundo formante. De esta forma es posible obtener zonas del plano que corresponden a cada una de las cinco vocales. El inconveniente que presenta este método es que para una población de locutores estas zonas se solapan debido a la gran variabilidad de la voz. Sin embargo es posible obtener zonas no solapadas cuando únicamente se tiene en cuenta un locutor. La solución que se presenta en este sistema consiste en plantear inicialmente unos valores de los formantes que se corresponden con los promedios de la población de locutores para después modificarlos dependiendo de la pronunciación del locutor. Siguiendo esta idea el sistema Marius propone el aprendizaje de las vocales sostenidas mediante dos ejercicios: en el primero de ellos, se ajustan los valores de los formantes a la pronunciación del locutor; y en el segundo, una vez ajustados se entrena la pronunciación mediante un juego. A continuación se describen con más detalle cada uno de estos ejercicios. 2.1. Ejercicio 1: Visualización y personalización de los formantes En este ejercicio mostrado en la figura 1, se pueden ver los elementos comunes encontrados en todas las lecciones del sistema Estos elementos visuales situados en la parte derecha de la pantalla permiten ofrecer una realimentación directa de la señal de voz que el usuario pronuncia; entre ellas podemos encontrar el espectrograma, la amplitud de la señal en tiempo y su energía tanto en tiempo como en espectro. Además de estos elementos comunes encontramos elementos particulares que nos van a permitir el entrenamiento de las vocales sostenidas, como son: Un elemento móvil que se desplaza sobre el mapa de formantes en respuesta a lo que está pronunciando el usuario. • Valores de las frecuencias de los formantes F1 y F2. • Consejos a nivel articulatorio: posición de la lengua, los labios y apertura de la boca. • Conjunto de botones que permiten personalizar cada una de las vocales Inicialmente el sistema plantea los valores promedio de los formantes, que en general no se ajustarán exactamente a los del usuario. Por esta razón este ejercicio además incluye la posibilidad de personalizar los valores de los formantes. El interfaz posee unos controles de grabación que mediante una simple pulsación permiten almacenar los formantes de cada vocal para cada usuario. La variabilidad entre locutores se evita de este modo. Esto va a reconfigurar el mapa automáticamente reubicando las áreas correspondientes a cada vocal. Fig. 1: Visualización de Formantes Este ejercicio necesita la supervisión de una persona con la capacidad de decidir cuando se está pronunciando correctamente cada vocal. De esta forma la mejor producción de cada vocal pasará a ser el modelo respecto al cual se entrena el usuario. La variabilidad de la voz del propio locutor se ve paliada permitiendo un área de tolerancia en torno a los valores de los formantes. Además de ser la herramienta de personalización de los formantes este ejercicio va a permitir al usuario ejercitarse libremente en la pronunciación de vocales y diptongos. Este ejercicio o se propone ningún objetivo concreto ni se impone un tiempo límite. En resumen, este primer ejercicio está diseñado para que el entrenamiento de cada vocal en el siguiente ejercicio resulte efectivo y refuerce la correcta pronunciación. 2.2. Ejercicio 2: Entrenamiento de la pronunciación de las vocales En este caso se busca que el usuario practique la pronunciación correcta y sostenida de una vocal. Siguiendo con el esquema en todas las lecciones del sistema, la realimentación visual se basará en el desplazamiento de un objeto al pronunciar correctamente la vocal de forma continuada, de este modo podemos fijar un objetivo; en este caso llevar una burbuja “hechizada” con la vocal correspondiente hasta la rana que espera para comérsela. Cuando la burbuja llega hasta la meta se recompensa la consecución del objetivo con una animación de la rana devorando la burbuja, cómo se ve en la figura 2. Fig. 2: Entrenamiento de Vocales Además de la realimentación visual en forma de juego que refuerza el entrenamiento individual de cada vocal, también se puede ver simultáneamente el mapa de formantes personalizado donde puede obtenerse información adicional sobre todas las vocales. Esto es muy útil ya que en caso de una pronunciación errónea podemos ver qué es lo que se está pronunciando realmente. 3. Conclusiones En este trabajo se presenta la implementación de la estrategia descrita dentro del sistema de entrenamiento del habla Marius. Los ejercicios propuestos se han desarrollado siguiendo los criterios de diseño que llevaron a crear el sistema como un juego. De este modo el acabado gráfico de los interfaces y ejercicios se integra dentro del estilo general que en anteriores versiones se mostró eficaz, con el fin de atraer y mantener la atención, resultando tan atractivo como útil. Los resultados en experiencias llevadas a cabo con el sistema, demuestran que el camino que está recorriendo el sistema Marius es el adecuado. 4. Referencias DELLER Jr, J.R. & HANSEN, J.H.L. & PROAKIS, J.G. (2000). “Discrete-Time Processing of Speech Signals”. IEEE PRESS. McKAY, R. (1987). “TEN. La Teoría de la Estructura Nodal”. T. A. L. P. MUNAR, E. & ROSELLÓ, J. & SÁNCHEZ-CABACO, A. (1999). “Atención y Percepción” Capítulo 15 ALIANZA EDITORIAL. PUERTAS, J.I. & BARQUILLA, R.L. & SEGADOR, S.S. & CALDERÓN, M. & IZQUIERDO, M.A.G. & GARCÍA GÓMEZ, R. & ALONSO TRUJILLO, F. (2000). ”Sistema de Aprendizaje y Perfeccionamiento del Habla para Personas con Deficiencias Auditivas”. Congreso Iberdiscap 2000, Madrid. SÁNCHEZ MONTOYA, R. (1997). “Ordenador y Discapacidad”. C. E. P. SÁNCHEZ RAYA, A. & MARTÍNEZ, E. & GARCÍA, M.A. & CALDERÓN, M. & PUJOL, J.C. (2001). “Aprendizaje del lenguaje oral en personas con discapacidad auditiva a través de la retroalimentación asistida por ordenador”. Conferencia presentada en el I Congreso Nacional de Nuevas Tecnologías y Necesidades Educativas Especiales.