RELACIÓN ENTRE LA FRECUENCIA FUNDAMENTAL Y LA

Anuncio
Memorias II Congreso Latinoamericano de Ingeniería Biomédica, Habana 2001, Mayo 23 al 25, 2001, La Habana, Cuba
RELACIÓN ENTRE LA FRECUENCIA FUNDAMENTAL Y LA
PERCEPCIÓN SUBJETIVA DEL PITCH
C. Ferrer, M.E. Hernández-Diaz
CEETI, Facultad de Ingeniería Eléctrica, UCLV
Carretera a Camajuaní, Km 5½, cferrer@uclv.etecsa.cu
RESUMEN
En el presente trabajo se explora la correspondencia entre
la percepción subjetiva de la frecuencia fundamental (F0)
de la voz de pacientes con trastornos del habla y el valor
real de dicha frecuencia determinado mediante técnicas de
procesamiento digital de señales. Se desarrolla un índice
para cuantificar el nivel del período teniendo en cuenta los
valores e intervalos reportados en la literatura por edades
para niños, mujeres y hombres. Se emplean 48 grabaciones
de la fonación de una vocal ‘a’ sostenida por pacientes
disártricos. Los valores obtenidos del índice se comparan
con la valoración subjetiva, en una escala de 0 a 6, del
nivel del período fundamental por parte de un especialista.
Los resultados obtenidos indican que las valoraciones
subjetivas no son un indicador confiable del valor de la
frecuencia fundamental de la voz. Este último no parece ser
siquiera un factor muy influyente en dicha percepción. Si
resulta de utilidad conocer la frecuencia a la que oscilan las
cuerdas vocales, los métodos subjetivos no deben ser
empleados a este fin.
Estas diferencias auditivas pueden ser apreciadas por el
personal entrenado y por lo tanto al oírse un trastorno del
lenguaje se puede, siguiendo la metodología desarrollada
en las Clínicas Mayo, realizar un diagnóstico diferencial e
inferir la topología de la lesión en el sistema nervioso.
Uno de los rasgos auditivos empleados en la mencionada
metodología es el nivel del período. La percepción de
período bajo en el estudio de las clínicas Mayo está dada en
relación con el tono considerado normal para el sexo y la
edad del locutor. Con ‘período bajo’ en realidad se hace
referencia a frecuencia fundamental baja, y ese es el
significado que tiene de aquí en adelante.
La percepción subjetiva del período no depende sólo del
valor de la frecuencia fundamental. En ella también inciden
factores como la intensidad y las posiciones espectrales de
las resonancias ( formantes ) del tracto vocal. La
interacción de estos elementos es muy compleja y la
evaluación subjetiva nunca llega a ser confiable ([2], pág.
125). Es por ello que en este trabajo se explora la
posibilidad de confeccionar un índice objetivo que
represente confiablemente el nivel del período fundamental.
2. METODOLOGÍA
Palabras clave: Procesamiento de voz, pitch,
disartria, período fundamental.
1. INTRODUCCIÓN
Bajo el término de Trastornos Motores del Lenguaje (TML)
se agrupan las diferentes afecciones que producen una
alteración en el control sobre los movimientos musculares
del lenguaje, como consecuencia de una lesión del sistema
nervioso central o periférico [7]. Se reconocen dos clases
de TML que son la disartria y la apraxia del lenguaje.
Mientras en la apraxia el control muscular está intacto, la
disartria es causada por disturbios en el control muscular
(como debilidad, lentitud, descoordinación o alteración del
tono muscular) de los procesos básicos del habla
(respiración, fonación, articulación, resonancia y prosodia)
debidos al daño del sistema nervioso central o periférico
que provoca el trastorno.
En una serie de estudios llevados a cabo en las Clínicas
Mayo en los finales de la década de los 60’s y principios de
los 70, Darley, Aronson y Brown ([3], [4], [5], [6], [7], [8],
[9]) examinaron las características perceptuales del habla
de grupos de disártricos. Los resultados de estos estudios y
de trabajos relacionados estrechamente con ellos, se
consideran aún hoy( [14], cap 3 ) las bases del diagnóstico
diferencial clínico de las disartrias. Dichos trabajos
demuestran que cada tipo de disartria presenta
características acústicas distintivas, debido a que se
originan en una zona motora diferente del sistema nervioso
y por tanto, afectan de forma distinta el proceso del habla.
La percepción subjetiva de F0 no aumenta en relación
lineal con el aumento real en de frecuencia en Hz. Un
cambio de la misma magnitud es más notable en bajas
frecuencias que en las altas. Una escala que da una mejor
idea de la percepción de F0 es la expresada en semitonos en
lugar de Hertz. Esta escala parte de una relación
exponencial entre las frecuencias:
f 2 = 12 2
ST
f1
(1)
Donde ST es el valor de f2 en semitonos sobre f1. Expresada
de esta forma, la escala de semitonos es relativa, en función
de la frecuencia de referencia f1, sin embargo, desde 1934
Fletcher [12] propuso ubicar f1 en 16.35 Hz, representativa
del límite humano inferior de frecuencia audible. Una
fórmula para expresar la frecuencia en semitonos con
respecto a la frecuencia de referencia fr=16.35 Hz puede
ser:
ST =
12 log
10
log
10
f
)
fr
= 39 . 86 log
2
(
f
)
10 (
fr
(2)
La medida de la anormalidad del período debe obtenerse
con relación a valores considerados normales para la clase
de sujeto a la que pertenece el locutor. Esto introduce el
problema de la selección de qué características usar para
efectuar la separación y cuántas clases tener en cuenta. Las
diferencias interraciales, a pesar de existir, no constituyen
950-7132-57-5 (c) 2001, Sociedad Cubana de Bioingeniería, artículo 00420
al parecer un factor significativo ([2] pág. 153 ), no así las
diferencias de edad y sexo. Baken [2] (1996) resume en
varias tablas (pág. 154-159) los resultados de más de una
docena de trabajos en la obtención de valores normales de
F0 y su desviación estándar para distintos grupos de
personas, separados por sexo y edad, en el habla fluida. A
partir del análisis de estas tablas y agrupando los grupos
con valores similares se decidió considerar tres clases:
Hombres (sexo masculino, edad mayor que 17 años),
Mujeres ( sexo femenino, edad mayor que 17 años ) y
Niños ( edad menor que 12 años ). Entre los 12 y los 17
años no se puede establecer el punto exacto de la transición
de niño a adulto, y los valores de F0 promedio no brindan
una medida de normalidad. Los valores normales de
promedio y desviación estándar también se seleccionaron
de estas tablas, y se muestran a continuación:
Tabla I
Valor medio, desviación estandar e intervalo total de F0
para cada grupo. (entre paréntesis el valor en semitonos).
‘a’ sostenida. Las valoraciones subjetivas se emitieron en
una escala de 0 a 6, con cero representando normalidad y 6
período extremadamente bajo.
La confrontación entre los resultados del índice objetivo y
las valoraciones subjetivas se efectuó a partir de la
obtención del coeficiente de correlación. En el presente
trabajo se decidió efectuar además un análisis de regresión
lineal entre el índice objetivo y las valoraciones subjetivas,
así como del histograma del coeficiente de correlación entre
ambos. Estas pruebas brindan información adicional sobre
la interrelación entre ambas variables.
Todos los algoritmos fueron programados en el paquete de
software MatLab 5.2, incluyendo los de detección de
período fundamental y el análisis estadístico.
La regresión lineal se efectuó entre el PB y el promedio de
las valoraciones subjetivas (VS) de los dos especialistas. Se
empleó la función regress del MatLab, que halla los valores
b1 y b2 de la recta dada por:
Valor
medio (µ)
Desv.
estándar
Intervalo
Total (R)
Hombres
116.65 Hz
( 34 ST )
( 3.4 ST )
( 18 ST )
Mujeres
207.63 Hz
( 44 ST )
( 4 ST )
( 20 ST )
además de brindar algunos datos estadísticos de interés, que
se tratan con mayor detalle en las secciones 3 y 4 de este
trabajo.
Niños
247.3 Hz (
47 ST )
( 2.3 ST )
( 12 ST )
3. RESULTADOS
Los valores de la Tabla I se emplean para la obtención de
un índice, denominado PB, que brinda una medida de bajo
nivel de F0, dado por la expresión (3):
F0 < µ − R
1
µ − F

0
µ - R < F0 < µ
PB = 
(3)
R

F0 > µ
 0
Una mejor comprensión de esta fórmula se puede lograr
observando la Figura 1. La ecuación ( 3 ) se ha ajustado de
tal forma que para el límite inferior de F0 de las personas
normales ( ubicado en F0=µ -R/2 , los valores de µ y R
según la Tabla I ) se alcanza un valor de PB de 0.5,
mientras que cualquier valor por encima de la media
produce un PB igual a cero.
1
0.8
0.6
0.4
0.2
0
0
5
10
15
20
25
30
35
40
45
50
Fig. 1. Gráfico de PB vs F0 en semitonos. De izquierda a derecha:
Hombres, Mujeres y Niños.
Para la determinación de F0 en el presente trabajo se
emplea el método de AMDF, trabajando por segmentos de
30 milisegundos, ya que sólo se requiere un estimado
grueso del período. Se dispuso de 48 grabaciones [1] de
pacientes disártricos efectuando la fonación de una vocal
PB = b2*VS + b1
(4)
En la Tabla II se muestran los valores del coeficiente de
correlación obtenido entre distintas combinaciones
delíndice PB y las valoraciones subjetivas de ambos
especialistas (V1 y V2 respectivamente).
Tabla II
Coeficientes de correlación obtenidos.
ρ
V1 y V2
0.3
PB y V1
-0.3541
PB y V2
0.0729
PB y (V1+V2)/2
-0.1347
Para tener una mejor idea de las dependencias
manifestadas por los coeficientes de correlación se
obtuvieron histogramas de los mismos para el caso V1
vs V2 y PB vs (V1+V2)/2. Los histogramas fueron
hallados mediante el cálculo del coeficiente de
correlación entre mil parejas de vectores
(aleatoriamente conformados a partir del remuestreo
de los originales) de PB y las valoraciones subjetivas.
Los histogramas de las correlaciones entre los
especialistas y de las correlaciones entre el PB y el
promedio de los especialistas se muestran en la Figura
2.Los resultados de la regresión lineal se muestran en
la Tabla III.
La columna b muestra los valores de b1 y b2, mientras
la denominada bint muestra los intervalos del 95% de
confianza de b1 y b2. En stats se muestran (de
izquierda a derecha) el cuadrado del coeficiente de
correlación y la probabilidad de haber obtenido la
pareja de vectores PB y VS dado que ambos no
180
estrecha. Se inspeccionaron los casos donde la falta de
correspondencia resultó extrema: muy alto valor del PB y
baja valoración subjetiva o muy alta valoración subjetiva y
bajo valor del PB. A continuación se muestra un análisis
detallado de tres grabaciones (A,B y C)
160
Tabla III
Grabaciones revisadas y valor de VS y PB.
140
120
Grabación
FD20F2A
EL72F2A
FL49F1A
100
80
60
40
20
0
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
estuvieran correlacionados.
Fig. 2: Histogramas de las correlaciones entre los especialistas (-*-) y entre
JF y el promedio de las valoraciones de los especialistas (-o-)
Tabla III
Resultados de la regresión lineal PB(VS)
b
bint
Stats
1
0.2
0.0492
0.3522
2
-0.03
-0.098
0.03
0.0181
0.3615
Subjetivo (VS)
5
2
2
Objetivo (PB)
0
0.79
0.83
Específicamente se chequearon las grabaciones FD20F2A,
con la más alta percepción subjetiva presente en la muestra
(5), y EL72F2A y FL49F1A, con los más altos valores del
índice PB: 0.79 y 0.83 respectivamente (ver ).
En la Figura 3 se observa el espectrograma de banda
estrecha (EBA) de la grabación A, perteneciente a un
paciente de sexo femenino y 20 años de edad. El valor de
F0 que se aprecia por el espectrograma es de alrededor de
240 Hz, que es perfectamente normal para una persona de
estas características, de ahí que el índice PB obtenido (cero)
sea correcto. Por otra parte, en el espectrograma también se
puede apreciar que prácticamente toda la energía se
concentra en las bajas frecuencias (f < 1KHz), estando la
principal resonancia alrededor de F0 (240 Hz), por lo que
se puede suponer que esta conformación espectral influye
en la percepción del pitch, de ahí el alto valor subjetivo de
percepción de período bajo.
4. DISCUSIÓN
El valor de correlación entre los especialistas (0.3) es
bajo, denotando que no existe una alta coincidencia en
cuanto a la determinación subjetiva del valor del pitch. Más
interesante aún resulta que el índice objetivo diseñado
muestra una correlación nula o ligeramente negativa con las
valoraciones subjetivas. Esto se ratifica en los histogramas
del coeficiente de correlación mostrados en la Figura 2. En
la regresión lineal puede apreciarse que el intervalo de
confianza del término b2, indicativo de la proporcionalidad
entre PB y VS, va de valores negativos a positivos, por lo
que no queda definida una relación entre ellos. Incluso, la
probabilidad de que no estén correlacionados es muy alta
(36%).
Como ya se mencionó, la percepción del pitch de la voz
no depende sólo de la frecuencia fundamental, sino también
de otros factores (posiciones espectrales de los formantes e
intensidad de la voz) y la percepción subjetiva nunca llega a
ser confiable. Este fenómeno conocido explicaría
perfectamente el que existiera una correlación baja, incluso
cercana a cero, entre el índice PB y la percepción subjetiva
de Período Bajo. En este caso, sin embargo, el coeficiente
de correlación es ligeramente negativo, por lo que pudiera
cuestionarse la confiabilidad de las variables a
correlacionar.
A fin de despejar esta posibilidad se procedió a verificar la
correspondencia de las valoraciones objetivas y subjetivas
con la realidad, tomando como criterio la posición del
armónico fundamental en un espectrograma de banda
Fig. 3: Espectrograma de Banda Estrecha de la grabación FD20F2A.
En la Figura 4 se muestra el EBA de la grabación B, de un
paciente con Disartria Múltiple (ELA) de sexo femenino de
72 años de edad. El valor de F0 oscila entre los 100 y los
120 Hz, que es realmente bajo para una mujer y ratifica el
valor alto del PB. En cuanto a sus características
espectrales, a diferencia del caso anterior aquí puede
apreciarse que hay una mayor distribución de energía en el
espectro por encima de 1 KHz y que la principal resonancia
se halla alrededor de los 750 Hz. Esto puede ser la causa de
que a pesar de tener la frecuencia fundamental más baja que
el paciente anterior (puede considerarse incluso de
extremadamente baja), produzca una percepción de período
bajo menos marcada.
En la figura 4 aparece el EBA de la grabación C,
correspondiente a un paciente con Disfonía Flácida de sexo
femenino y 49 años de edad. En esta paciente se observa un
fenómeno poco común llamado Diplofonía, que según
Aronson [1] consiste en la emisión simultánea de dos
frecuencias fundamentales, debido a que ambas cuerdas
vocales vibran a frecuencias diferentes. En el espectrograma
puede apreciarse (con más claridad a partir de los 8
segundos) cómo aparecen dos patrones de periodicidad en
la frecuencia. Por una parte se observan armónicos con
poca separación entre ellos ( alrededor de 70 Hz) y por otra
se aprecia cómo estos mismos resultan reforzados cada 350
Hz. En la zona de 3 a 4 segundos se produce incluso la
desaparición de la estructura de armónicos de 70 Hz,
observándose sólo la de más alta frecuencia. El detector de
F0 que se emplea en el cálculo del índice PB determina que
la frecuencia fundamental es de 70 Hz en la mayor parte del
tiempo, lo cual no es incorrecto, de ahí el valor bajo
obtenido en el índice. También se justifica que la
percepción subjetiva de período bajo no resulte muy alta
pues el espectro presenta energía por encima de 1 KHz y
además está el hecho de que existe otra estructura de
armónicos que puede ser percibida por el oído como una F0
de más de 300 Hz.
influyen otros factores, como la distribución espectral de
energía, que enmascaran el valor real. De hecho la
existencia de un coeficiente de correlación negativo entre el
valor objetivo y la percepción subjetiva del período parece
apuntar a que el valor real no es el factor principal en la
percepción.
Si el valor de la frecuencia fundamental porta información
útil para el diagnóstico médico, como es de suponer por las
causas fisiológicas que la provocan, la valoración subjetiva
resulta ampliamente superada para estos fines por medidas
objetivas como el índice PB propuesto.
REFERENCIAS
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
Fig. 3: Espectrograma de Banda Estrecha de la grabación EL72F2A.
[10]
[11]
[12]
[13]
[14]
Fig. 4: Espectrograma de Banda Estrecha de la grabación FL49F1A
5. CONCLUSIONES
Con el análisis efectuado se puede concluir que los
resultados contradictorios obtenidos en este parámetro se
deben al hecho, conocido en la literatura, de que la
percepción subjetiva del pitch no es un indicador confiable
del valor real del período fundamental. En la percepción
Aronson, A.E. “Dysarthria: Differential Diagnosis”. Mentor
Seminars. Rochester. Michigan. ( 4 cassettes ). 1993.
Baken, R.J. “Clinical Measurement of Speech and Voice”. Singular
Publishing Group, Inc. San Diego. 1996.
Berry, W.R.; Aronson, A.E.; Darley, F.L. & Goldstein, N.P. “Effects
of penicillamine therapy and low-copper diet on dysarthria in
Wilson’s disease (hepatolenticular degenerative)”. Mayo Clinic
Proceedings. 49, pp 405-408. 1974.
Berry, W.R.; Darley, F.L.; Aronson, A.E. & Goldstein, N.P.
“Dysarthria in Wilson’s disease”. Journal of Speech & Hearing
Research. 17, pp 169-183. 1974.
Darley, F.L.; Aronson, A.E. & Brown, J.R. “Clusters of deviant
speech dimensions in the dysarthria”. Journal of Speech & Hearing
Research. 12, pp 462-496, 1969.
Darley, F.L.; Aronson, A.E. & Brown, J.R. “Differential diagnostic
patterns of dysarthria”. Journal of Speech & Hearing Research. 12,
pp 246-269, 1969.
Darley, F.L.; Aronson, A.E. & Brown, J.R. “Motor Speech
Disorders”. Philadelphia. Saunders. 1975.
Darley, F.L.; Aronson, A.E. & Brown, J.R. “Motor Speech Signs in
Neurologic Disease”. Medical Clinics of North America, 52, 835844. 1968.
Darley, F.L.; Brown, J.R. & Goldstein, N. “Dysarthria in multiple
sclerosis”. Journal of Speech & Hearing Research. 15, pp 229-245,
1972.
Enderby, P. “Frenchay Dysarthria Assessment”. California. College
Hill. 1983.
Ferrer, C., “Cuantificación de parámetros subjetivos de la voz para el
diagnostico de Disartrias” . Tesis de Master, UCLV, 2000.
Fletcher, H. “Loudness, pitch and the timbre of musical tones and
their relation to the intensity, the frequency and the overtone
structure”. Journal of the Acoustical Society of America. Vol. 6. pp
58-69. 1934.
Hernández-Díaz M.E., “Algoritmos para la extracción del período
fundamental de la voz. Desarrollo y evaluación”. Tesis doctoral.
UCLV. Cuba 1996.
Yorkston, K.M.; Beukelman, D.R. & Bell, K. “Clinical Management
of Dysarthric Speakers”. PRO-ED. Austin. Texas. 1987.
RELATIONSHIP BETWEEN FUNDAMENTAL FREQUENCY AND
SUBJECTIVE PERCEPTION OF PITCH
ABSTRACT
In this paper the correspondence between perceptual ratings of pitch and the fundamental frequency value is explored. An
objective index (called PB) is developed to quantify pitch level, taking into account mean values and normal ranges
reported by age and sex. Recordings of 48 utterances of the sustained vowel ‘a’, produced by dysarthric patients, are used.
The values of PB are compared to the perceptual ratings of to judges, in a scale from 0 to 6 in ascending order of
abnormality. The results show that perceptual ratings are a non-reliable index of fundamental frequency. The fundamental
frequency didn’t seem to have any influence in the perceptual ratings.
Descargar