Memorias II Congreso Latinoamericano de Ingeniería Biomédica, Habana 2001, Mayo 23 al 25, 2001, La Habana, Cuba RELACIÓN ENTRE LA FRECUENCIA FUNDAMENTAL Y LA PERCEPCIÓN SUBJETIVA DEL PITCH C. Ferrer, M.E. Hernández-Diaz CEETI, Facultad de Ingeniería Eléctrica, UCLV Carretera a Camajuaní, Km 5½, cferrer@uclv.etecsa.cu RESUMEN En el presente trabajo se explora la correspondencia entre la percepción subjetiva de la frecuencia fundamental (F0) de la voz de pacientes con trastornos del habla y el valor real de dicha frecuencia determinado mediante técnicas de procesamiento digital de señales. Se desarrolla un índice para cuantificar el nivel del período teniendo en cuenta los valores e intervalos reportados en la literatura por edades para niños, mujeres y hombres. Se emplean 48 grabaciones de la fonación de una vocal ‘a’ sostenida por pacientes disártricos. Los valores obtenidos del índice se comparan con la valoración subjetiva, en una escala de 0 a 6, del nivel del período fundamental por parte de un especialista. Los resultados obtenidos indican que las valoraciones subjetivas no son un indicador confiable del valor de la frecuencia fundamental de la voz. Este último no parece ser siquiera un factor muy influyente en dicha percepción. Si resulta de utilidad conocer la frecuencia a la que oscilan las cuerdas vocales, los métodos subjetivos no deben ser empleados a este fin. Estas diferencias auditivas pueden ser apreciadas por el personal entrenado y por lo tanto al oírse un trastorno del lenguaje se puede, siguiendo la metodología desarrollada en las Clínicas Mayo, realizar un diagnóstico diferencial e inferir la topología de la lesión en el sistema nervioso. Uno de los rasgos auditivos empleados en la mencionada metodología es el nivel del período. La percepción de período bajo en el estudio de las clínicas Mayo está dada en relación con el tono considerado normal para el sexo y la edad del locutor. Con ‘período bajo’ en realidad se hace referencia a frecuencia fundamental baja, y ese es el significado que tiene de aquí en adelante. La percepción subjetiva del período no depende sólo del valor de la frecuencia fundamental. En ella también inciden factores como la intensidad y las posiciones espectrales de las resonancias ( formantes ) del tracto vocal. La interacción de estos elementos es muy compleja y la evaluación subjetiva nunca llega a ser confiable ([2], pág. 125). Es por ello que en este trabajo se explora la posibilidad de confeccionar un índice objetivo que represente confiablemente el nivel del período fundamental. 2. METODOLOGÍA Palabras clave: Procesamiento de voz, pitch, disartria, período fundamental. 1. INTRODUCCIÓN Bajo el término de Trastornos Motores del Lenguaje (TML) se agrupan las diferentes afecciones que producen una alteración en el control sobre los movimientos musculares del lenguaje, como consecuencia de una lesión del sistema nervioso central o periférico [7]. Se reconocen dos clases de TML que son la disartria y la apraxia del lenguaje. Mientras en la apraxia el control muscular está intacto, la disartria es causada por disturbios en el control muscular (como debilidad, lentitud, descoordinación o alteración del tono muscular) de los procesos básicos del habla (respiración, fonación, articulación, resonancia y prosodia) debidos al daño del sistema nervioso central o periférico que provoca el trastorno. En una serie de estudios llevados a cabo en las Clínicas Mayo en los finales de la década de los 60’s y principios de los 70, Darley, Aronson y Brown ([3], [4], [5], [6], [7], [8], [9]) examinaron las características perceptuales del habla de grupos de disártricos. Los resultados de estos estudios y de trabajos relacionados estrechamente con ellos, se consideran aún hoy( [14], cap 3 ) las bases del diagnóstico diferencial clínico de las disartrias. Dichos trabajos demuestran que cada tipo de disartria presenta características acústicas distintivas, debido a que se originan en una zona motora diferente del sistema nervioso y por tanto, afectan de forma distinta el proceso del habla. La percepción subjetiva de F0 no aumenta en relación lineal con el aumento real en de frecuencia en Hz. Un cambio de la misma magnitud es más notable en bajas frecuencias que en las altas. Una escala que da una mejor idea de la percepción de F0 es la expresada en semitonos en lugar de Hertz. Esta escala parte de una relación exponencial entre las frecuencias: f 2 = 12 2 ST f1 (1) Donde ST es el valor de f2 en semitonos sobre f1. Expresada de esta forma, la escala de semitonos es relativa, en función de la frecuencia de referencia f1, sin embargo, desde 1934 Fletcher [12] propuso ubicar f1 en 16.35 Hz, representativa del límite humano inferior de frecuencia audible. Una fórmula para expresar la frecuencia en semitonos con respecto a la frecuencia de referencia fr=16.35 Hz puede ser: ST = 12 log 10 log 10 f ) fr = 39 . 86 log 2 ( f ) 10 ( fr (2) La medida de la anormalidad del período debe obtenerse con relación a valores considerados normales para la clase de sujeto a la que pertenece el locutor. Esto introduce el problema de la selección de qué características usar para efectuar la separación y cuántas clases tener en cuenta. Las diferencias interraciales, a pesar de existir, no constituyen 950-7132-57-5 (c) 2001, Sociedad Cubana de Bioingeniería, artículo 00420 al parecer un factor significativo ([2] pág. 153 ), no así las diferencias de edad y sexo. Baken [2] (1996) resume en varias tablas (pág. 154-159) los resultados de más de una docena de trabajos en la obtención de valores normales de F0 y su desviación estándar para distintos grupos de personas, separados por sexo y edad, en el habla fluida. A partir del análisis de estas tablas y agrupando los grupos con valores similares se decidió considerar tres clases: Hombres (sexo masculino, edad mayor que 17 años), Mujeres ( sexo femenino, edad mayor que 17 años ) y Niños ( edad menor que 12 años ). Entre los 12 y los 17 años no se puede establecer el punto exacto de la transición de niño a adulto, y los valores de F0 promedio no brindan una medida de normalidad. Los valores normales de promedio y desviación estándar también se seleccionaron de estas tablas, y se muestran a continuación: Tabla I Valor medio, desviación estandar e intervalo total de F0 para cada grupo. (entre paréntesis el valor en semitonos). ‘a’ sostenida. Las valoraciones subjetivas se emitieron en una escala de 0 a 6, con cero representando normalidad y 6 período extremadamente bajo. La confrontación entre los resultados del índice objetivo y las valoraciones subjetivas se efectuó a partir de la obtención del coeficiente de correlación. En el presente trabajo se decidió efectuar además un análisis de regresión lineal entre el índice objetivo y las valoraciones subjetivas, así como del histograma del coeficiente de correlación entre ambos. Estas pruebas brindan información adicional sobre la interrelación entre ambas variables. Todos los algoritmos fueron programados en el paquete de software MatLab 5.2, incluyendo los de detección de período fundamental y el análisis estadístico. La regresión lineal se efectuó entre el PB y el promedio de las valoraciones subjetivas (VS) de los dos especialistas. Se empleó la función regress del MatLab, que halla los valores b1 y b2 de la recta dada por: Valor medio (µ) Desv. estándar Intervalo Total (R) Hombres 116.65 Hz ( 34 ST ) ( 3.4 ST ) ( 18 ST ) Mujeres 207.63 Hz ( 44 ST ) ( 4 ST ) ( 20 ST ) además de brindar algunos datos estadísticos de interés, que se tratan con mayor detalle en las secciones 3 y 4 de este trabajo. Niños 247.3 Hz ( 47 ST ) ( 2.3 ST ) ( 12 ST ) 3. RESULTADOS Los valores de la Tabla I se emplean para la obtención de un índice, denominado PB, que brinda una medida de bajo nivel de F0, dado por la expresión (3): F0 < µ − R 1 µ − F 0 µ - R < F0 < µ PB = (3) R F0 > µ 0 Una mejor comprensión de esta fórmula se puede lograr observando la Figura 1. La ecuación ( 3 ) se ha ajustado de tal forma que para el límite inferior de F0 de las personas normales ( ubicado en F0=µ -R/2 , los valores de µ y R según la Tabla I ) se alcanza un valor de PB de 0.5, mientras que cualquier valor por encima de la media produce un PB igual a cero. 1 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30 35 40 45 50 Fig. 1. Gráfico de PB vs F0 en semitonos. De izquierda a derecha: Hombres, Mujeres y Niños. Para la determinación de F0 en el presente trabajo se emplea el método de AMDF, trabajando por segmentos de 30 milisegundos, ya que sólo se requiere un estimado grueso del período. Se dispuso de 48 grabaciones [1] de pacientes disártricos efectuando la fonación de una vocal PB = b2*VS + b1 (4) En la Tabla II se muestran los valores del coeficiente de correlación obtenido entre distintas combinaciones delíndice PB y las valoraciones subjetivas de ambos especialistas (V1 y V2 respectivamente). Tabla II Coeficientes de correlación obtenidos. ρ V1 y V2 0.3 PB y V1 -0.3541 PB y V2 0.0729 PB y (V1+V2)/2 -0.1347 Para tener una mejor idea de las dependencias manifestadas por los coeficientes de correlación se obtuvieron histogramas de los mismos para el caso V1 vs V2 y PB vs (V1+V2)/2. Los histogramas fueron hallados mediante el cálculo del coeficiente de correlación entre mil parejas de vectores (aleatoriamente conformados a partir del remuestreo de los originales) de PB y las valoraciones subjetivas. Los histogramas de las correlaciones entre los especialistas y de las correlaciones entre el PB y el promedio de los especialistas se muestran en la Figura 2.Los resultados de la regresión lineal se muestran en la Tabla III. La columna b muestra los valores de b1 y b2, mientras la denominada bint muestra los intervalos del 95% de confianza de b1 y b2. En stats se muestran (de izquierda a derecha) el cuadrado del coeficiente de correlación y la probabilidad de haber obtenido la pareja de vectores PB y VS dado que ambos no 180 estrecha. Se inspeccionaron los casos donde la falta de correspondencia resultó extrema: muy alto valor del PB y baja valoración subjetiva o muy alta valoración subjetiva y bajo valor del PB. A continuación se muestra un análisis detallado de tres grabaciones (A,B y C) 160 Tabla III Grabaciones revisadas y valor de VS y PB. 140 120 Grabación FD20F2A EL72F2A FL49F1A 100 80 60 40 20 0 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 estuvieran correlacionados. Fig. 2: Histogramas de las correlaciones entre los especialistas (-*-) y entre JF y el promedio de las valoraciones de los especialistas (-o-) Tabla III Resultados de la regresión lineal PB(VS) b bint Stats 1 0.2 0.0492 0.3522 2 -0.03 -0.098 0.03 0.0181 0.3615 Subjetivo (VS) 5 2 2 Objetivo (PB) 0 0.79 0.83 Específicamente se chequearon las grabaciones FD20F2A, con la más alta percepción subjetiva presente en la muestra (5), y EL72F2A y FL49F1A, con los más altos valores del índice PB: 0.79 y 0.83 respectivamente (ver ). En la Figura 3 se observa el espectrograma de banda estrecha (EBA) de la grabación A, perteneciente a un paciente de sexo femenino y 20 años de edad. El valor de F0 que se aprecia por el espectrograma es de alrededor de 240 Hz, que es perfectamente normal para una persona de estas características, de ahí que el índice PB obtenido (cero) sea correcto. Por otra parte, en el espectrograma también se puede apreciar que prácticamente toda la energía se concentra en las bajas frecuencias (f < 1KHz), estando la principal resonancia alrededor de F0 (240 Hz), por lo que se puede suponer que esta conformación espectral influye en la percepción del pitch, de ahí el alto valor subjetivo de percepción de período bajo. 4. DISCUSIÓN El valor de correlación entre los especialistas (0.3) es bajo, denotando que no existe una alta coincidencia en cuanto a la determinación subjetiva del valor del pitch. Más interesante aún resulta que el índice objetivo diseñado muestra una correlación nula o ligeramente negativa con las valoraciones subjetivas. Esto se ratifica en los histogramas del coeficiente de correlación mostrados en la Figura 2. En la regresión lineal puede apreciarse que el intervalo de confianza del término b2, indicativo de la proporcionalidad entre PB y VS, va de valores negativos a positivos, por lo que no queda definida una relación entre ellos. Incluso, la probabilidad de que no estén correlacionados es muy alta (36%). Como ya se mencionó, la percepción del pitch de la voz no depende sólo de la frecuencia fundamental, sino también de otros factores (posiciones espectrales de los formantes e intensidad de la voz) y la percepción subjetiva nunca llega a ser confiable. Este fenómeno conocido explicaría perfectamente el que existiera una correlación baja, incluso cercana a cero, entre el índice PB y la percepción subjetiva de Período Bajo. En este caso, sin embargo, el coeficiente de correlación es ligeramente negativo, por lo que pudiera cuestionarse la confiabilidad de las variables a correlacionar. A fin de despejar esta posibilidad se procedió a verificar la correspondencia de las valoraciones objetivas y subjetivas con la realidad, tomando como criterio la posición del armónico fundamental en un espectrograma de banda Fig. 3: Espectrograma de Banda Estrecha de la grabación FD20F2A. En la Figura 4 se muestra el EBA de la grabación B, de un paciente con Disartria Múltiple (ELA) de sexo femenino de 72 años de edad. El valor de F0 oscila entre los 100 y los 120 Hz, que es realmente bajo para una mujer y ratifica el valor alto del PB. En cuanto a sus características espectrales, a diferencia del caso anterior aquí puede apreciarse que hay una mayor distribución de energía en el espectro por encima de 1 KHz y que la principal resonancia se halla alrededor de los 750 Hz. Esto puede ser la causa de que a pesar de tener la frecuencia fundamental más baja que el paciente anterior (puede considerarse incluso de extremadamente baja), produzca una percepción de período bajo menos marcada. En la figura 4 aparece el EBA de la grabación C, correspondiente a un paciente con Disfonía Flácida de sexo femenino y 49 años de edad. En esta paciente se observa un fenómeno poco común llamado Diplofonía, que según Aronson [1] consiste en la emisión simultánea de dos frecuencias fundamentales, debido a que ambas cuerdas vocales vibran a frecuencias diferentes. En el espectrograma puede apreciarse (con más claridad a partir de los 8 segundos) cómo aparecen dos patrones de periodicidad en la frecuencia. Por una parte se observan armónicos con poca separación entre ellos ( alrededor de 70 Hz) y por otra se aprecia cómo estos mismos resultan reforzados cada 350 Hz. En la zona de 3 a 4 segundos se produce incluso la desaparición de la estructura de armónicos de 70 Hz, observándose sólo la de más alta frecuencia. El detector de F0 que se emplea en el cálculo del índice PB determina que la frecuencia fundamental es de 70 Hz en la mayor parte del tiempo, lo cual no es incorrecto, de ahí el valor bajo obtenido en el índice. También se justifica que la percepción subjetiva de período bajo no resulte muy alta pues el espectro presenta energía por encima de 1 KHz y además está el hecho de que existe otra estructura de armónicos que puede ser percibida por el oído como una F0 de más de 300 Hz. influyen otros factores, como la distribución espectral de energía, que enmascaran el valor real. De hecho la existencia de un coeficiente de correlación negativo entre el valor objetivo y la percepción subjetiva del período parece apuntar a que el valor real no es el factor principal en la percepción. Si el valor de la frecuencia fundamental porta información útil para el diagnóstico médico, como es de suponer por las causas fisiológicas que la provocan, la valoración subjetiva resulta ampliamente superada para estos fines por medidas objetivas como el índice PB propuesto. REFERENCIAS [1] [2] [3] [4] [5] [6] [7] [8] [9] Fig. 3: Espectrograma de Banda Estrecha de la grabación EL72F2A. [10] [11] [12] [13] [14] Fig. 4: Espectrograma de Banda Estrecha de la grabación FL49F1A 5. CONCLUSIONES Con el análisis efectuado se puede concluir que los resultados contradictorios obtenidos en este parámetro se deben al hecho, conocido en la literatura, de que la percepción subjetiva del pitch no es un indicador confiable del valor real del período fundamental. En la percepción Aronson, A.E. “Dysarthria: Differential Diagnosis”. Mentor Seminars. Rochester. Michigan. ( 4 cassettes ). 1993. Baken, R.J. “Clinical Measurement of Speech and Voice”. Singular Publishing Group, Inc. San Diego. 1996. Berry, W.R.; Aronson, A.E.; Darley, F.L. & Goldstein, N.P. “Effects of penicillamine therapy and low-copper diet on dysarthria in Wilson’s disease (hepatolenticular degenerative)”. Mayo Clinic Proceedings. 49, pp 405-408. 1974. Berry, W.R.; Darley, F.L.; Aronson, A.E. & Goldstein, N.P. “Dysarthria in Wilson’s disease”. Journal of Speech & Hearing Research. 17, pp 169-183. 1974. Darley, F.L.; Aronson, A.E. & Brown, J.R. “Clusters of deviant speech dimensions in the dysarthria”. Journal of Speech & Hearing Research. 12, pp 462-496, 1969. Darley, F.L.; Aronson, A.E. & Brown, J.R. “Differential diagnostic patterns of dysarthria”. Journal of Speech & Hearing Research. 12, pp 246-269, 1969. Darley, F.L.; Aronson, A.E. & Brown, J.R. “Motor Speech Disorders”. Philadelphia. Saunders. 1975. Darley, F.L.; Aronson, A.E. & Brown, J.R. “Motor Speech Signs in Neurologic Disease”. Medical Clinics of North America, 52, 835844. 1968. Darley, F.L.; Brown, J.R. & Goldstein, N. “Dysarthria in multiple sclerosis”. Journal of Speech & Hearing Research. 15, pp 229-245, 1972. Enderby, P. “Frenchay Dysarthria Assessment”. California. College Hill. 1983. Ferrer, C., “Cuantificación de parámetros subjetivos de la voz para el diagnostico de Disartrias” . Tesis de Master, UCLV, 2000. Fletcher, H. “Loudness, pitch and the timbre of musical tones and their relation to the intensity, the frequency and the overtone structure”. Journal of the Acoustical Society of America. Vol. 6. pp 58-69. 1934. Hernández-Díaz M.E., “Algoritmos para la extracción del período fundamental de la voz. Desarrollo y evaluación”. Tesis doctoral. UCLV. Cuba 1996. Yorkston, K.M.; Beukelman, D.R. & Bell, K. “Clinical Management of Dysarthric Speakers”. PRO-ED. Austin. Texas. 1987. RELATIONSHIP BETWEEN FUNDAMENTAL FREQUENCY AND SUBJECTIVE PERCEPTION OF PITCH ABSTRACT In this paper the correspondence between perceptual ratings of pitch and the fundamental frequency value is explored. An objective index (called PB) is developed to quantify pitch level, taking into account mean values and normal ranges reported by age and sex. Recordings of 48 utterances of the sustained vowel ‘a’, produced by dysarthric patients, are used. The values of PB are compared to the perceptual ratings of to judges, in a scale from 0 to 6 in ascending order of abnormality. The results show that perceptual ratings are a non-reliable index of fundamental frequency. The fundamental frequency didn’t seem to have any influence in the perceptual ratings.