SIGMA 27 LA VOZ Y SU ESPECTRO Belén Ruiz Mezcua (*) INTRODUCCIÓN En este artículo se incide sobre la importancia de las matemáticas en el mundo real, específicamente en el entorno de el procesamiento del lenguaje natural. Cada vez es más importante tener una interacción con las máquinas más cercana a la comunicación oral, a la que los humanos accedemos desde edades muy tempranas. Los primeros sentidos que se desarrollan plenamente en los humanos son los que nos permiten la comunicación oral, así un bebé cuando llega al mundo lo primero que hace es llorar para permitir la entrada del aire en su aparato fonador que incluye los pulmones. Tras ello la comunicación con el exterior se produce a través del tacto, la succión y el llanto, siendo la visión uno de los sentidos más tardíos en la interacción con el exterior. Es por esto y por la posibilidad de acercar las máquinas al mundo de discapacitados, tanto físicos como motrices, que la comunicación oral con las máquinas ha cobrado una importancia vital en los últimos tiempos. No obstante si bien la voz es el medio de comunicación más usual, los humanos producimos y percibimos la misma con gran redundancia y de ella extraemos la información más relevante. Es muy importante determinar cómo se produce y percibe la voz a la hora de realizar su tratamiento automático para incluirlo en nuestras máquinas. Veremos a lo largo de estas páginas el método de producción de voz y su modelado matemáticos. También se repasará la importancia de su tratamiento espectral que consigue reducir de una manera importantísima la cantidad de material acústico sin perder la información que permanece en ella. MECANISMOS DE PRODUCCIÓN DEL HABLA Para determinar las operaciones de un sistema automático de reconocimiento de voz y hablante, es fundamental conocer y determinar los mecanismos que han producido un mensaje hablado, para, a continuación poder reproducirlos automáticamente. Es por ello que se van a repasar algunos conceptos fundamentales y básicos en el mecanismo de producción del habla, tanto en el órgano físico que soporta dicho mecanismos, como la producción propia del mensaje. El aparato vocal consta esencialmente de los siguientes órganos que se ilustran a continuación (figura 1) : pulmones, tráquea, laringe y los tractos vocal y nasal. (*) Departamento de Informática. Universidad Carlos III de Madrid Noviembre 2005 • 2005eko Azaroa 179 Belén Ruiz Mezcua Figura 1. Estructura del aparato fonador La laringe alberga las cuerdas vocales, que son pequeñas membranas de piel que vibran al pasar el aire entre ellas. El hueco que existe entre ambas se llama glotis. El tracto vocal, de unos 17 cm en un adulto, es un tubo que se extiende desde los labios hasta la laringe. El tracto nasal es también un tubo de unos 12 cm que va desde los orificios nasales hasta el velo del paladar. El velo del paladar controla el acoplo entre los dos tractos de la siguiente manera: en sonidos no nasales éste se cierra y el aire pasa por el tracto vocal. En los sonidos nasales el velo permite pasar el aire hacia el tracto nasal, cerrándose el vocal en los labios. En los sonidos nasalizados el aire pasa por ambos tractos. La función de los pulmones en la producción de habla es de gran importancia. Éstos son los encargados de impulsar el aire hacia el resto de los órganos con la ayuda muscular del diafragma. Los sonidos de que consta el habla se pueden clasificar básicamente en tres tipos: • Sonoros. Son aquellos sonidos que hacen vibrar las cuerdas vocales. Esta vibración es cuasi periódica y su espectro es muy rico en armónicos que son múltiplos de la frecuencia de vibración de las cuerdas. A esta frecuencia de vibración de las cuerdas se le llama frecuencia fundamental. La frecuencia fundamental depende de la presión ejercida al pasar el aire por las cuerdas, y de la tensión de éstas. En un hombre la frecuencia fundamental se encuentra en el rango 50-250 Hz, mientras en la mujer el rango es más amplio, encontrándose entre 100 y 500 Hz. • Sordos. En estos sonidos, que se caracterizan por no provocar la vibración de las cuerdas vocales, se distinguen dos variedades diferentes: fricativos y aspirados. En los sonidos fricativos se produce un estrechamiento del tracto vocal por el que se hace pasar el aire, lo que proporciona como resultado una excitación de ruido aleatorio. En los sonidos aspirados la "turbulencia" en el paso de aire se produce en la glotis. 180 SIGMA Nº 27 • SIGMA 27 zk. La voz y su espectro • Plosivos. Estos sonidos se producen por la existencia de una obstrucción temporal al paso del aire. Podrías poner algunos ejemplos de cada sonido en el castellano. No? Falta un epígrafe que indique algo así como construcción del mensaje donde englobas los fonemas y esas cosas que ya están definidas para el idioma en particular. Algo así que indique que los mensajes están estructurados en frases, las frases en palabra y las palabras están constituidas por unidades básica concatenadas y en la gramática ... FONEMAS El habla se puede ver como una secuencia de unidades básicas de sonido o fonemas. Los fonemas son unidades lingüísticas abstractas y no pueden observarse directamente en la señal de voz. Un mismo fonema se aplica a muchos sonidos ligeramente diferentes llamados realizaciones del fonema o alófonos. Podemos clasificar los fonemas atendiendo a dos criterios: modo de articulación y punto de articulación. En el castellano se definen 24 fonemas que se clasifican en la siguiente tabla de dos entradas (tabla 1) atendiendo a los dos criterios enunciados. Así mismo se indica el carácter sonoro (SN) o sordo (SR) del fonema. Tabla 1. Clasificación de los fonemas del castellano Punto de articulación Modo de Articulación Labiales Abierto Dentales Alveolares Palatales SN SN SR SN d t SR Plosivas b p Nasales m SN SR SN SR Laterales Fricativas SR SR n ñ l ll f s Vibr simple r V. Comp. r SN SR g k y x SN SR h c Africadas Semivocales Glotales Bilabiales Labiodentales SN Vocales Velares a e,i w o,u j Las vocales en castellano no se suelen clasificar de la manera anterior sino que responden a una clasificación más sencilla atendiendo a la posición de la lengua (anterior, media o posterior) y a la abertura de la boca (cerradas, medio cerradas o abiertas), como se ilustra en la tabla siguiente (tabla 2). Noviembre 2005 • 2005eko Azaroa 181 Belén Ruiz Mezcua Tabla 2. Clasificación de los fonemas vocálicos Posición de la lengua Abertura de la boca ANTERIORES CENTRALES POSTERIORES CERRADAS i u MEDIO CERRADAS e o ABIERTAS a COARTICULACIÓN Y PROSODIA El habla es mucho más que la simple secuencia de fonemas. La articulación de un fonema en realidad no es la ideal, sino que viene modificada por la articulación de los sonidos de alrededor. Este fenómeno se conoce por coarticulación, y da lugar a un gran número de variedades alofónicas. La coarticulación es el mecanismo que hace que una secuencia de sonidos tenga al oírla una apariencia natural, y es una de las principales dificultades en la síntesis de voz. Una secuencia de fonemas coarticulados tampoco hace habla, el habla además de presentar efectos coarticulatorios, presenta variaciones de su frecuencia fundamental, la intensidad y el ritmo a lo largo del tiempo. Entonación, intensidad y ritmo constituyen la prosodia. Entre los ejemplos de la información que proporciona la prosodia se incluye el carácter enunciativo o interrogativo de una frase por la variación de la frecuencia fundamental al final de ésta; la acentuación (incremento de la intensidad y variación del ritmo) a menudo distingue dos palabras que constan de los mismos sonidos,... ANÁLISIS DE LA SEÑAL DE VOZ El análisis de la señal de voz se puede abordar desde dos puntos de vista: estudiando las características temporales de la voz, o analizando las características espectrales de la voz. Al primero se le llama análisis en el dominio del tiempo, e incluye medidas de parámetros como la tasa de cruces por cero, la autocorrelación,... El segundo, llamado análisis en el dominio de la frecuencia, pretende localizar parámetros de la señal de voz atendiendo a la información que provee su espectro. Este último es el que cobra mayor importancia debido a su utilización en los sistemas automáticos del habla. Aunque la voz cambia a lo largo del tiempo, y por tanto no se puede hablar de estacionareidad, la voz está producida por unos órganos físicos que tienen una cierta inercia mecánica o lo que es lo mismo, no pueden cambiar demasiado rápido. La voz generada mientras los órganos permanecen en una cierta posición, sí se puede considerar estacionaria, y en su estudio se pueden emplear numerosas técnicas. Persiguiendo la adquisición de segmentos de voz estacionarios se ha desarrollado el análisis a corto plazo de la voz, que consiste en tomar muestras de voz cada 10 a 30 msec. de manera que la voz se pueda considerar estacionaria en este intervalo. La mayoría de los sistemas de análisis usan este método y realizan el análisis de tramas de voz de 10 a 30 msec. Es importante conseguir tramas estacionarias de voz para poder realizar su análisis espectral. 182 SIGMA Nº 27 • SIGMA 27 zk. La voz y su espectro PRE-ÉNFASIS En el espectro de los segmentos de voz sonoros, la amplitud decae con la frecuencia debido fundamentalmente a la característica espectral de emisión de las cuerdas vocales. Aunque este efecto se ve compensado por las características de emisión de la boca, la disminución aún es significativa por lo que es necesario compensarla. Se ha comprobado experimentalmente que esta disminución es de 6dB/octaba, lo que hace que cada vez que se dobla la frecuencia, la amplitud se reduzca a 1/16 de la original. El mecanismo usado para compensar este efecto se denomina pre-énfasis, y consiste en la implementación de un filtro paso alto de pendiente 6db/octaba. En tecnologías digitales el filtrado paso alto más sencillo se realiza mediante la operación y[n] = x[n] – ax[n] Donde y[n] es la muestra de salida del filtro de pre-énfasis, y x[n] y x[n-1] las muestras actuales y anterior respectivamente. La transformada z de la anterior expresión proporciona una función de transferencia de la forma H(z) = Y(z)/X(z) = 1- az-1 Aunque en el caso de segmentos de voz sordos el pre-énfasis no es necesario, por simplicidad, y dado que no afecta negativamente al sistema, se mantiene su uso. ENVENTANADO HAMMING Una trama de voz de 10 a 30 msec contiene las muestras correspondientes a ese segmento de voz, podríamos decir que la voz se ha multiplicado por una ventana rectangular de amplitud 1 y duración la de la trama. Al realizar una transformación de Fourier sobre esta trama, la transformada resultante será la convolución de las dos transformadas, esto lleva a que aparezcan términos de altas frecuencias en lo que se supone que es el espectro de mi señal de voz. Estas frecuencias altas son indeseables y representan el escalón o discontinuidad de mi ventana rectangular. Con el fin de evitar esta aparición de componentes en altas frecuencias, se suaviza el enventanado de manera que responda a una curva continua. Una de las ventanas más usadas es la ventana de Hamming cuya expresión general es: W[nT] = {0.54 – 0.46 cos(2πn/N)}, 0<N = 0 , en el resto de los casos Donde N es el número de muestras de mi ventana. Esta ventana presenta un filtrado de las frecuencias altas con un rechazo de unos 40 dB. FFT El medio más utilizado para extraer el espectro de mi señal de voz es la Transformada discreta de Fourier (DFT) y el algoritmo más utilizado la FFT. Noviembre 2005 • 2005eko Azaroa 183 Belén Ruiz Mezcua Las expresiones para la Transformadas discretas de Fourier directas e inversas se derivan de las expresiones análogas para señales continuas. El proceso de paso de estas expresiones para trabajar con señales discretas nos lleva a Expresiones respectivamente de la transformada directa y la inversa, donde T es el periodo de muestreo y N el número de muestras en nuestra trama. De los sumatorios se puede ver que el orden de operaciones necesario para realizar la transformación es de N2. Este número de operaciones puede ser inaceptable en términos de tiempo, lo que ha motivado que se buscasen algoritmos de cálculo de la DFT que redujesen esta complejidad. La FFT es el algoritmo más usado y logra reducir el número de operaciones a Nlog2N mediante la realización de la transformada por un método recursivo. Descripciones de este algoritmo se pueden encontrar en múltiples referencias, baste citar [RABINER L. & JUANG B.H. 93]. BINS El aparato auditivo humano, entre sus muchas partes alberga la membrana basilar, que básicamente transforma las ondas sonoras incidentes sobre ella en impulsos eléctricos que llevan al cerebro información acerca del sonido que hemos recibido. A lo largo de esta membrana se encuentran numerosos órganos llamados células pilares que son las que efectivamente realizan la conversión sonido-impulso nervioso. Se ha demostrado que este conjunto de células pilares y membrana basilar presenta una respuesta proporcional al logaritmo de la frecuencia. De manera que un incremento lineal en la membrana basilar lleva a incrementos logarítmicos en la frecuencia. Con el objetivo de tener en cuenta esta mayor sensibilidad del oído humano a las bajas frecuencias se realizan sucesivos filtrados del espectro de mi señal de voz. Estos filtrados se pueden ver como un banco de filtros triangulares más estrechos a frecuencias bajas, y más anchos en las altas, de modo que reduzco la información del espectro a unos cuantos parámetros que representan grosso-modo la envolvente de mi espectro. CEPSTRUM Y CEPSTRUM Para extraer la información del tracto vocal, es necesario separar esta información de la correspondiente a la frecuencia de vibración de las cuerdas vocales. Si X() es el espectro de un tramo sonoro de voz, P() el espectro de la componente debida a la frecuencia fundamental, y H() el espectro del tracto vocal, la relación entre las tres se puede ver como |X()| = |P()| · |H()| Tomando logaritmos en la anterior expresión, las componentes del tracto vocal y de la frecuencia fundamental se relacionan por una suma, la correspondiente a la frecuencia fundamental tendrá mayor frecuencia que la de la envolvente espectral, por lo que la primera puede ser eliminada por un filtrado paso bajo. 184 SIGMA Nº 27 • SIGMA 27 zk. La voz y su espectro Una posterior transformación inversa de Fourier de la señal me conduce al dominio cepstrum que es un dominio análogo al de tiempo pero en el que he eliminado las componentes relativas a mi frecuencia fundamental. En nuestro sistema este esquema no es exactamente así ya que el filtrado del que hablamos en esta sección no ha sido homogéneo, lo que hace que nuestra escala de "tiempos" incluya información sobre la percepción que de los sonidos hace el aparato auditivo humano. A esta escala se la llama habitualmente mel-cepstrum. Los ∆cepstrum no son más que la resta de un cepstrum menos el mismo de la trama anterior, estos ∆cepstrum proporcionan información de cómo varía la voz trama a trama, esto es de la velocidad de variación de la voz, y es útil en el reconocimiento de palabras aisladas. La señal de voz es el resultado de la convolución de la respuesta impulsional de filtro resonante que representa al tracto vocal h(n) y de la excitación e(n) (pulsos periódicos/ruido) (1). Considerando que Se() –espectro de la excitación– es constante (2), H(z) se puede considerar un filtro todo polo, dando lugar a la codificación LPC clásica que realiza la deconvolución entre la señal de voz y la señal de excitación obteniendo las características del filtro del tracto vocal, que es inherente a cada persona. En ambientes ruidosos el modelo todo polos no es válido y por lo tanto, tampoco la codificación LPC. Sabemos que la autocorrelación es más robusta al ruido que la propia señal de voz, ya que si consideramos un ruido blanco y gaussiano, la secuencia de autocorrelación sólo se ve afectada en su primer término R(0) (3), donde Rc es en ausencia de ruido. Es por ello, que se prevé que una codificación (por ejemplo, LPC) que parta del dominio de la autocorrelación será más robusta al ruido que si partimos de la señal de voz. Al ser la señal de voz real su autocorrelación tendrá simetría par, por lo que estudiando su parte causal obtendremos la información de toda ella. Si definimos R+(n) como la parte causal de la autocorrelación (4) [RABINER Y SCHAFER, 78], su transformada de Fourier se corresponde con el espectro complejo (5), donde S() es el espectro (FFT) de R(n) y SH() es la transformada de Hilbert de S().Debido a la analogía entre S+() y la señal analítica usada en modulación de amplitud, se puede definir una "envolvente" espectral como E() (6). Esta característica de envolvente, junto con el gran margen dinámico del espectro de la señal de voz, origina que E() enfatice las frecuencias de mayor potencia, que son precisamente las más robustas a un ruido de banda ancha. Como conclusión podemos decir que el cuadrado de la envolvente espectral E2(), que es además el espectro de R+(n), será más robusto al ruido que el propio espectro. Estas propiedades sugieren que es más factible obtener una representación espectral robusta al ruido aplicando un modelo de predicción lineal a R+(n), que directamente de la señal de voz. Al igual que la técnica LPC estándar asume un modelo todo polo para S(), la técnica consistente en aplicar LPC a la parte causal de la autocorrelación ,llamada OSALPC[HERNANDO, NADEU, LLEIDA, 92], equivale a suponer un modelo, todo polo para E2() (8). Se demuestra [HERNANDO, NADEU, LLEIDA, 92] que B() depende de Se() y A(), y por lo tanto, no puede ser considerada constante. Esto implica que E2() no puede considerarse como un filtro únicamente con polos, sino que también tendrá ceros. Por lo tanto la parametrización OSALPC no realiza una deconvolución entre el filtro y la señal de voz, como la LPC clásica, en cambio, realiza una deconvolución parcial de la señal de voz, que si bien no se corresponde con un modelo todo polos, si que proporciona mejores resultados en presencia de ruido que la LPC clásica. El proceso de cálculo de los coeficientes OSALPC [Hernando, Nadeu, Villagrasa, Monte, 94] es el siguiente: El término R(0) se coloca a 0 ya que es el más susceptible al ruido. Noviembre 2005 • 2005eko Azaroa 185 Belén Ruiz Mezcua Figura 2. Espectro LPC, en ausencia de ruido (línea continua) y con 10dB (línea discontinua 186 SIGMA Nº 27 • SIGMA 27 zk. La voz y su espectro Para comprobar los excelentes resultados de la parametrización OSALPC compararemos los espectros de un segmento de la vocal "a" (8bits / 11KHz) codificado mediante LPC y OSALPC en ausencia y en presencia de ruido con una relación de 10 dB: En las gráficas podemos observar dos hechos: 1) Sin ruido la parametrización LPC es mejor que OSALPC, ya que esta última sólo representa las frecuencias de mayor potencia (debido a la deconvolución parcial) 2) LPC se ve gravemente degradada en presencia de ruido mientras que OSALPC es mucho más robusta y mantiene sus características. Es de uso común el realizar un procesado homomórfico a los coeficientes LPC o OSALPC obteniendo como resultado los coeficientes cepstrales o CEPSTRUM, los cuales representan la respuesta aproximadamente logarítmica del oído. Método de Reconocimiento El resultado de la parametrización es una sucesión de M vectores cepstrales de orden p:{Xt} (un vector por cada ventana estudiada). Para obtener un único elemento que represente la identidad del locutor se hallará la matriz de covarianza (9)[BIMBOT Y MATHAN, 96]. La matriz de covarianza, cuyos elementos de la diagonal son la covarianza de las componentes de los vectores cepstrales, nos informa de las capacidades articulatorias del locutor (como por ejemplo, la velocidad media de variación de los parámetros espectrales,...). Una vez definida la matriz como unidad que identificará a cada locutor, debemos plantearnos como medir la distancia entre la matriz de un locutor de test y las de referencias (que se habrán creado en el proceso de entrenamiento). Figura 3. Matriz de covarianza y distancia aritméticoarmónica de esfericidad Codificación robusta de la señal de voz en ambientes ruidosos Sea Y la matriz de test y X la de referencia. Existe una gran familia de medidas que se pueden expresar como una función de los valores propios de Y·X-1, cuanto más cercanos estén a la unidad más parecidas son las matrices X e Y. Si llamamos A a la media aritmética de los valores propios y H a la media armónica, podemos definir la distancia aritmético-armónica de esfericidad (10). Si las matrices son iguales la distancia será cero. Para evitar calcular de forma explícita los valores propios, se puede expresar a partir de las trazas (11) siendo más rápido de calcular. Noviembre 2005 • 2005eko Azaroa 187 Belén Ruiz Mezcua Fase de Entrenamiento y de Test Fase de entrenamiento Cualquier sistema de reconocimiento para poder ser operativo debe tener un grupo de locutores que deseen ser identificados o verificados, ellos configurarán la base de locutores de referencia. Para crear dicha base deberán pronunciar cada locutor un texto de 15’’ de duración (aprox), y de él se extraerá la matriz de covarianza que representará a cada locutor. Como para calcular las distancias hará falta su matriz inversa también se realizará en esta fase, guardando para cada locutor la matriz y su inversa. Fase de identificación Cuando un locutor quiera ser identificado (por lo tanto debe pertenecer a la base de referencia) deberá pronunciar una frase (de 3’’ aprox), a partir de ella se extraerá su matriz de covarianza y su inversa. Luego se calculará la distancia entre el locutor test y todas y cada una de las referencias. Aquella que de distancia mínima será la identidad del locutor. Fase de verificación Al ser independiente de texto, las distancias suelen ser muy variables en función de su duración, por lo que es muy difícil elegir un umbral. Para evitarlo se deben normalizar las distancias calculando su verosimilitud [MONTACIÉ Y LE FLOCH] según (12), donde d(X,Y) es la distancia entre el test y la referencia correspondiente a la identidad pretendida y el sumatorio se corresponde a las k (13) referencias más cercanas, siendo N el no total de locutores. Si definimos la tasa de falsa aceptación (FA) como la posibilidad de que un locutor que no perteneciendo al conjunto de locutores referencia, pretenda acceder y sea aceptado; y la tasa de falso rechazo (FR) a que un locutor perteneciente sea rechazado, el umbral deberá elegirse tal que iguale ambas tasas. En el proceso de test se calculará la verosimilitud y si es menor que el umbral se aceptará, si no se rechazará. Resultados Identificación Se ha denominado proyecto LOCUS [GARCÍA LÓPEZ,96] a la implementación de un sistema automático de identificación y verificación de locutor basado en un PC y adquirido mediante una tarjeta de sonido estándar. Todo el software de reconocimiento así como el control de la tarjeta ha sido realizado en C++. Para probar el sistema se ha creado una base de 50 locutores grabados a 16KHz y 16 bits (base LOCUS-16, la grabación se realizó en una única sesión por lo que no se pudo observar el problema de la variabilidad temporal de la voz. Cada locutor grabó 15’’ para la fase de entrenamiento y 5 frases de 3’’ para realizar los test. Se usó un filtro de preénfasis 1-0.95·z-1. Se implementaron las parametrizaciones LPC-Cepstrum y OSALPCCepstrum. El proceso de test se dividió en: 188 SIGMA Nº 27 • SIGMA 27 zk. La voz y su espectro • Sin ruido: Se usaron las 5 frases para cada locutor. (250 test en total). • Con ruido: Se formaron 2 frases de test de 6’’ cada una. (100 test en total), se añadió ruido gaussiano (generado a partir de una distribución uniforme y aplicándole la distribución de Rayleigh[GARCÍA LÓPEZ,96]) con las relaciones señal/ruido tabuladas a continuación. Los resultados obtenidos son: S/N → 30dB 20 dB 10dB 0dB LPCC 100% 94% 41% 8% 2% OSALPCC 100% 97% 69% 27% 6% Sobre un subconjunto de 20 locutores, los resultados fueron: S/N → 30dB 20 dB 10dB 0dB LPCC 100% 100% 92,5% 40% 10% OSALPCC 100% 100% 100% 62,5% 15% Para comprobar el efecto del proceso de adquisición de la señal de voz, se hicieron los mismos experimentos sobre 20 locutores grabados a 11KHz y codificados a 8 bits (base LOCUS-8): S/N → 30dB 20 dB 10dB 0dB LPCC 100% 100% 82,5% 35% 5% OSALPCC 100% 100% 100% 57,5% 12,5% Verificación De las 5 frases de test se usaron 3 de ellas para determinar un umbral por verosimilitudes. Luego se simuló un proceso de verificación con las 5 frases de test, cada locutor probó con todas las identidades de los 50 locutores, los resultados fueron: • Cálculo del umbral: Umbral = 0.55 (FA = FR = 0%) • Proceso de test: Acierto: 98% (FA = 0.8%, FR = 1.2%). Conclusiones El proceso de reconocimiento de locutor parte de la extracción de las características que definen la identidad del locutor a partir de su voz, para ello se obtienen las parametrizaciones LPC o OSALPC, ambas hallan las características del tracto vocal (que es inherente a cada persona). Hemos estudiado como afecta la presencia de ruido en el proceso de identificación, observando que: • El proceso de reconocimiento de locutor es muy sensible al ruido. • En su ausencia hay un 100% de acierto, siendo LPC un mejor estimador de la envolvente espectral que OSALPC. Noviembre 2005 • 2005eko Azaroa 189 Belén Ruiz Mezcua • En presencia de ruido LPC se degrada rápidamente mientras OSALPC es más robusta para relaciones señal/ruido moderadas. Aumentando la probabilidad de error de forma considerable al aumentar el no de locutores. • La adquisición afecta sensiblemente a los resultados, observando que con 16KHz y 16bits se obtiene una mejor representación de la señal de voz ( y de la identidad del locutor) que con 11KHz y 8 bits. En todas estas pruebas no se ha podido observar el fenómeno de la variabilidad temporal, hecho muy importante y que obliga a actualizar las bases de locutores en períodos cortos de tiempo. El problema de la verificación en sistemas independientes de texto es la gran variación de las distancias, lo que obliga a normalizarlas calculando la verosimilitud. De esta forma se puede elegir un umbral sin demasiados problemas. BIBLIOGRAFÍA [DODDINGTON, 85] G.R. Doddington: "Speaker Recognition-Identifying People by their voices", Proceedings of the IEEE, vol 73, Nº 11. November 1985 pp. 1651-1663. [RABINER Y SCHAFER, 78] L. Rabiner y R. Schafer, 1978: Digital Processing of Speech Signals. Prentice-Hall. [HERNANDO, NADEU, LLEIDA, 92] J. Hernando, C. Nadeu, E. Lleida: "On the AR modelling of the one-sided autocorrelation sequence for noisy speech recognition", ICSLP’92. Banff (canadá), pp 1593-1596. [HERNANDO, NADEU, VILLAGRASA, MONTE, 94] J. Hernando, C. Nadeu, C. Villagrasa, E. Monte: "Speaker Identification in noisy conditions using linear prediction of the onesided autocorrelation sequence". ICSLP 94. Yokohama, pp 1847-1850. [BIMBOT Y MATHAN, 93] F. Bimbot y L. Mathan: "Text-Free Speaker Recognition using an Arithmetic-Harmonic sphericity measure". Proc. Eurospeech sept’93. Berlin (Germany). [MONTACIÉ Y LE FLOCH] C. Montacié y J. Le Floch: "Discriminant AR-vector models for free-text speaker verification". [GARCÍA LÓPEZ, 96] F. García López: "Reconocimiento de locutor en ambientes ruidosos". Trabajo final de carrera Mayo’96. EUP Mataró. [YOUNG 95] Steve Young, Joop Jansen, Julian Odell, Dave Ollason, Phil Woodland: "The HTK Book. For HTK v2.0". Cambridge University Technical Services Ltd. [GRAVIER 99] Guillaume Gravier: "Spro 3.2 User Manual". Ultima actualización Diciembre 99. [GAUVAIN J. & LEE C. 94]: "Maximum a posteriori estimation for multivariate gaussian mixture observations of markov chains, Transactions on Speech and Audio Processing. vol 2, pp. 291-298. [MCLAUGHLIN J, REYNOLDS D.A. & GLEASON T. 99]: "A Study of Computation SpeedUps of the GMMUBM Speaker Recognition System". EuroSpeech, vol 3, pp. 1215-1218. [MUTHUSAMY Y. K., BARNARD E. & COLE R. A. 94]: "Reviewing automatic language identification". ieee signal processing magazine, vol 11, no 4, pp. 33-41. 190 SIGMA Nº 27 • SIGMA 27 zk. La voz y su espectro NIST, (2000): Spoken Natural Language Processing Group. Web page: http://www.nist.gov/speech/. [PELECANOS J., MYERS S., SRIDHARAN S. & CHANDRAN V. 2000]: "Vector Quantization based Gaussian Modelling for Speaker Verification". International Conference on Pattern Recognition, paper number 1219. [RABINER L. & JUANG B.H. 93]: Fundamentals of Speech Recognition. Prentice-Hall. New Jersey. [REYNOLDS, D. A. & ROSE R. C. 95]: "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models". IEEE Transactions on Speech and Audio Processing, vol. 3, no. 1, pp. 72-83. [REYNOLDS, D. A. 97]: "Comparison of Background Normalization Methods for TextIndependent Speaker Verification". EuroSpeech, vol. 2, pp. 963-966. [SCHALKOFF R. 89]: Pattern Recognition. New York: John Wiley & Sons. [ZISSMAN M. A. 96]: "Comparison of Four Approaches to Automatic Language Identification of Telephone Speech". IEEE Transactions on Speech and Audio Processing, vol. 4, no. 1, pp. 31-44. Noviembre 2005 • 2005eko Azaroa 191 art digital r, e h c s Café E a i Kitaok h s o y i k A