Tesis Electrónicas UACh - Universidad Austral de Chile

Anuncio
Universidad Austral de Chile
Facultad de Ciencias de la Ingeniería
Escuela de Ingeniería Civil Acústica
Profesor Patrocinante:
PhD. Jorge Arenas Bermúdez
Instituto de Acústica
Universidad Austral de Chile
Profesora Co-Patrocinante:
Dra. Claudia Rosas Aguilar
Instituto de Lingüística y Literatura
Universidad Austral de Chile
Profesor Informante:
Ing. Rodrigo Torres Alarcón
Instituto de Acústica
Universidad Austral de Chile
“ESTUDIO SOBRE EL EFECTO DE LA INFORMACIÓN
VISUAL ARTICULATORIA EN LA PERCEPCIÓN AUDITIVA”
Tesis para optar al grado de:
Licenciado en Acústica
Y al Título Profesional de:
Ingeniero Civil Acústica.
REINA ANGELINA CANTO CRUZ
VALDIVIA – CHILE
2012
AGRADECIMIENTOS
A Dios por todo lo que me ha regalado, por ayudarme y permitir que llegara al final
de este largo camino que muchas veces, y aún en el final, por duros golpes de la vida, me
pareció imposible terminar.
A mi familia; mi padre Juan, mi madre Dorila, mi hermana Carolina, mis tías
Patricia y Carmen, mis primas Marcela y Magdalena, por su apoyo y amor incondicional en
este proyecto y a través de toda mi vida.
A mi novio Ibon por su amor incondicional, comprensión, respeto, paciencia y
apoyo, cosas que me ayudaron a finalizar esta etapa.
A los Profesores Jorge Arenas, Claudia Rosas, Rodrigo Torres y Jorge Sommerhoff,
por su enorme disposición, paciencia, responsabilidad, gran desempeño como docentes y
guías académicos, gran dedicación y profesionalismo, cosas que me ayudaron de gran
manera para poder realizar esta Tesis.
A Víctor Cumián, Carolina Pontigo e Hilda Negrón, por su amabilidad, disposición
y cariño entregado en la Escuela e Instituto de Acústica de la Universidad Austral de Chile,
durante el tiempo de estudios y principalemente en el desarrollo de este trabajo.
A mis amigas, Carola, Yarela y Pamela, por ser mis pilares fundamentales, durante
el tiempo dedicado a estudiar y realizar mi Tesis, fuera de mi hogar; por quererme,
acompañarme, ayudarme y apoyarme tanto. También a Viviana Saldivia, por su compañía y
gran ayuda en la búsqueda de información para realizar esta Tesis.
Al Locutor, a los Informantes de este trabajo, a mis compañeros de carrera, en
especial a Nicolás Ll., Matías D. Juan H. y Roger A., por su gran disposición, cooperación,
paciencia, responsabilidad, apoyo, buen desempeño, y cariño entregado en esta
investigación. Agradezco además a Alexcy Cárdenas, por su valiosa confianza, buena
volutad y ayuda prestada, en una de las etapas más importantes del desarrollo de esta tesis.
A los Pastores Enós Mardones y su esposa Maritza Sotomayor, Héctor Lazo y
Esposa. Por sus valiosos consejos, su preocupación y apoyo espiritual entregados durante
este período.
Por último, agradezco a todas las personas que de una u otra forma han ayudado,
colaborado y aportado positivamente en mi formación profesional, en especial a Nelson
Ribbeck, Tía Anita, Tía Rosalía, Tía Olga y Tío Carlitos.
Dedico este trabajo de titulación a mi padre Juan, a mi hermana Carolina, a mi novio
Ibon, y a la memoria de mi madre Dorila.
ii ÍNDICE
1. Resumen………………………………………………………………….……………. v
2. Abstract……………………………………………………….……….……………….. vi
3. Abstrato.………………………………………………………………...…..………..... vii
4. Introducción………………………………………………….…………………...……. 1
5. Objetivos……….........……………………………………….………………...………. 3
5.1 Hipótesis………………………………………………………………........…....... 3
5.2 Objetivo General………………………………………….……………...……....... 3
5.3 Objetivos Específicos……………………………………………...…………........ 3
6. Base Teórica ………………………………………………….……………………...... 4
6.1 El Sonido…………………………………………………………………...……... 4
6.2 La Comunicación Verbal………………………………………………………..… 6
6.3 Inteligibilidad de la palabra……………………………………………………..… 8
6.4 Aparato Auditivo y Visual……………………………………………………........ 9
6.4.1 Aparato Auditivo……………………………………………………..…...... 9
6.4.1.1 Oído Externo…………………………….………………………... 10
6.4.1.2 Oído Medio………...……………………………………...……… 11
6.4.1.3 Oído Interno………………………………………………...…….. 11
6.4.2 Aparato Visual…………………………………………………………........ 13
6.5 Cerebro Humano………………………………………………………………...... 14
6.6 Efecto McGurk…………………………………………………………………… 17
6.7 Aspectos Lingüísticos…………………………………………………………...… 19
6.7.1 Fonética………………………...……………….…………………………... 19
6.7.2 Fonología……………………………………………………………...……. 19
iii 7. Materiales y Métodos…………………………………………………………………. 21
7.1 Plan de Trabajo…………………………………………………………………..... 21
7.1.1 Selección Justificada y Fundamentada de Logatomos………………...…… 21
7.1.2 Elección de la Sala………………………………………………………..… 22
7.1.3 Elección y entrenamiento del Locutor……….………………………......…. 23
7.1.4 Selección de Informantes………………………………………….....…...… 24
7.1.5 Proceso de Grabación y Edición…………………………………………..... 25
7.1.6 Indicaciones dadas a Informantes…………………………………………... 29
7.1.7 Aplicación del test……………………………………………………......… 30
8. Análisis de Resultados……………………………………………………………......... 33
9. Conclusiones………………………………………………………………..……….… 37
10. Referencias y Bibliografía……………………………………………………………. 39
11. Anexos..............................……………………………………………………………. 41
iv 1.
RESUMEN
En la percepción de los sonidos confluyen una serie de procesos de diferente
naturaleza que, gracias a la propiedad de integración del ser humano, pueden ser percibidos
como una unidad, ello por la relación interactiva que existe entre oído y visión, que integra
y sintetiza la información disponible en ambos canales. El resultado de dicha integración
es una unidad de creencia formada por la combinación de ambos canales que no obedece a
una información fragmentada o parcial de sus componentes, sino a una actuación en
conjunto. Por esta razón, su estudio requiere considerar aspectos de carácter variado, que
responden a la complejidad del fenómeno: articulatorio, acústico, auditivo, comunicacional,
y visual. No obstante la importancia del fenómeno descrito, sólo se tiene conocimiento de
una experiencia que demuestra el efecto, aunque sin detalles de alcance científico. Con base
en lo anterior, en este estudio se pretende demostrar, cómo, en qué grado y forma, la
percepción visual de los gestos articulatorios puede determinar lo que se percibe
auditivamente y puede aumentar o disminuir dicha percepción en una determinada sala o
recinto. Para ello se ha elaborado un test audiovisual que se aplica a 15 estudiantes
universitarios quienes transcriben lo que escuchan, o creen escuchar. La aplicación del test
se divide en dos partes: convergente y divergente. En la primera, convergente, se presenta
un video donde un locutor articula una serie de logatomos en donde el sonido se
corresponde con la imagen (gesto articulatorio) que lo produce, en la segunda parte,
divergente, se presenta un video donde un locutor articula una serie de logatomos en los
cuales el sonido no coincide con el gesto articulatorio. La selección de los logatomos que
integran el test se extrajo a partir del ‘Corpus para un test de articulación en español’ de
Sommerhoff y Rosas de acuerdo a los fonemas con los cuales se ha demostrado el Efecto
McGurk con el fin de obtener resultados comparables. La aplicación del test arrojó como
resultado que, en general, el porcentaje de error de la percepción auditiva de logatomos,
disminuyó en un 4% al ser acompañada la señal auditiva con una señal visual articulatoria
convergente y aumentó en un 17% al ser acompañada por una señal visual articulatoria
divergente. Los resultados obtenidos permiten corroborar la hipótesis planteada en esta
investigación: ‘existe una relación entre la percepción auditiva y visual” refrendando la
experiencia que motivó la investigación de manera inicial; también dicho conocimiento
permitirá una aplicación práctica a la hora de diferenciar o incrementar la confianza sobre
algún mensaje recibido auditivamente, contribuyendo al mejoramiento de la comunicación
en los diferentes ámbitos donde ésta se manifiesta.
Palabras Claves: percepción auditiva, percepción visual, fonética articulatoria,
logatomos, efecto McGurk.
v 2.
ABSTRACT
A series of processes of different nature converge in sound perception, which thanks
to the human being integration property, can be perceived as a unit, that is for the
interactive relationship that exists between hearing and vision, which integrates and
synthesizes the available information in both channels. The result of such integration is a
unit of belief formed by the combination of both channels that does not obey to fragmented
or partial information of its components, but to acting in group. For this reason, its study
requires to consider different aspects that respond to the complexity of the phenomenon:
articulatory, acoustic, auditory, communication, and visual. In spite the importance of the
described phenomenon, one has only has knowledge of one experience which demonstrates
the effect, although without any details of the scientific reach. Based on the previous
statement, this study aims to demonstrate how, in which grade and manner the visual
perception of articulatory gestures can determine which it is perceived in an auditory way
and can increase or diminish such perception in a determined room or place. In order to do
that, an audiovisual test has been elaborated that is applied to 15 college students who
transcribe what they hear, or believe to hear. The test application is divided into two parts:
convergent and divergent. In the first one, convergent, a video in which the speaker
articulates a series of logatomes in which the sound match the articulatory gesture is
presented; and in the second one, divergent, a video in which the speaker articulates a series
of logatomes in which the sound does not match the articulatory gesture is presented. The
logatomes selection that integrates the test was extracted from the ‘Corpus para un test de
articulación en español’, written by Sommerhoff and Rosas according to the phonemes in
which the McGurk effect has been demonstrated, in order to obtain comparable results. The
application of this test showed that in general, the error rate in the auditory perception of
logatomes, decreased by 4% to be accompanied the auditory signal with a signal visual
articulatory convergent and increased by 17% to be accompanied by a signal visual
articulatory divergent. The results obtained allow to corroborate the hypothesis stated in
this research: “it exists a relationship between auditory and visual perception which
motivated the research in its beginnings; besides, such knowledge will allow a practical
application when differentiating or increasing the confidence of some received auditory
message, contributing to communication improvement in different aspects in which it
manifests itself.
Key Words: auditory perception, visual perception, articulatory phonetics,
logatomes, McGurk effect.
vi 3.
ABSTRATO
Na percepção dos sons, confluem uma serie de processos de diferentes natureza, e
graças ao domínio de integração do ser humano, podem ser percebidos como uma unidade,
e pela relação interativa que existe entre o ouvido e visão, que integram e sintetiza a
informação disponível em ambos canais. O resultado desta integração é uma unidade de
crença formada pela combinação de aqueles canais que não obedece a uma informação
fragmentada ou parcial de seus componentes, e sim, a uma atuação em conjunto. Por esta
razão, seu estudo requer considerar aspectos de caráter variado, que respondem a
complexidade do fenômeno: articulatório, acústico, auditivo, comunicativo e visual. Apesar
da importância do fenômeno, só se tem conhecimento de uma experiência que demonstre o
efeito, embora sem detalhes de âmbito científico. Com base no estudo anterior, este estudo
pretende demonstrar, como, e em que grau e forma, a percepção visual dos gestos
articulados podem determinar a percepção auditiva podendo aumentar ou diminuir em uma
determinada sala ou recinto. Para isso, um teste foi utilizado com 15 estudantes
universitários, que transcrevem o que escuta ou crêem escutar. A aplicação do teste se
divide em duas partes: convergentes e divergentes. Na primeira, convergente, se apresenta
um video onde um locutor articula uma serie de logatomos onde o som se corresponde com
a imagem (gestos articulados). Na segunda parte, divergente, se apresenta um video donde
um locutor articula uma serie de logatomos em quais o som não coincide com o gesto. A
seleção dos logatomos que integram o teste se extraiu do “Corpus para un test de
articulación en español ” de Sommerhoff y Rosas de acordo com os fonemas com os quais
se a demonstrado em Efeito McGurk com o fim de obter resultados comparáveis. Na
aplicação do teste, o resultados dos ensaios mostraram que, em geral, a taxa de erro de
percepção auditiva de logatomos, teve uma redução de 4% ao ser acompanhado pelo sinal
auditivo e visual articulatório convergente, e a um aumento de 17% ao ser acompanhado
por uma sinal visual articulatória divergente. Os resultados obtidos permitem colaborar com
as hipóteses estabelecidas nesta investigação: “existe uma relação entre a percepção
auditiva e visual” endossando a experiência que motivou a investigação de maneira inicial;
com este conhecimento permitira uma aplicação pratica na hora de diferenciar ou
incrementar a confiança sobre alguma mensagem auditiva recebida, contribuindo para a
melhor comunicação nos diferentes âmbitos onde esta se manifesta.
Palavras Chaves: percepção auditiva, percepção visual, fonética articulatória,
logatomes, Efeito McGurk.
vii 4.
INTRODUCCIÓN
Existe una rama de la física que se preocupa del estudio de todos los fenómenos
asociados a la emisión, transmisión y recepción del sonido; ésta ciencia se llama Acústica.
Dentro de esta disciplina se encuentra la Psicoacústica, que estudia la relación que existe
entre las propiedades físicas del sonido y la interpretación que hace de ellas el cerebro;
aquí se inscribe un gran fenómeno que se investiga hace aproximadamente cincuenta años,
y trata sobre ciertas confusiones perceptivas, como por ejemplo cuando una imagen puede
influir en lo que se escucha, debido a que nuestro cerebro genera ilusiones en la visión y
audición, por la rápida combinación de estas sensaciones, que no son procesadas en el
cerebro por separado, sino que se procesan simultáneamente [1]. Una de las primeras cosas
que se comprobó fue que al poder mirar a una persona que nos esté hablando mejora la
intensidad de lo que se escucha hasta en unos 15 dB aproximadamente [2]. Teniendo en
cuenta estos antecedentes, en esta investigación se trabajará en base a la siguiente hipótesis:
’Existe una relación entre la percepción auditiva y visual’
En la percepción de los sonidos confluyen una serie de procesos de diferente
naturaleza que, gracias a la propiedad de integración del ser humano, es posible percibirlos
como una unidad, ya que existe una relación interactiva entre oído y visión, por la que se
integra y sintetiza la información disponible en ambos canales. El efecto de esta integración
visual-auditiva, es una unidad de creencia formada por la combinación de dichos canales
que no obedece a la información fragmentada o parcial de sus componentes, sino que
actúan en conjunto [3]. De ahí que su estudio requiera considerar esos aspectos que hacen
posible que este fenómeno se lleve a cabo: los aspectos articulatorios, que son la emisión o
producción del sonido, los aspectos acústicos, que incluyen la transmisión del sonido, los
auditivos, que son la percepción del sonido, los que hacen posible el acto del habla y su
decodificación en el cerebro y, finalmente, los aspectos visuales que tienen, en este caso,
una tarea complementaria, como por ejemplo aportar inteligibilidad en situación de
degradación sonora.
El proceso de las percepciones visual-auditiva, se inicia cuando un sonido se
transmite, debido a las variaciones de presión que llegan al oído, donde el tímpano las
convierte en impulsos nerviosos que se transmiten al cerebro [4]. Cabe destacar que en lo
concerniente a percepción auditiva de palabras o letras, la percepción de las consonantes es
más difícil que la de las vocales; esto es debido a las características acústicas de una y de
otra; las consonantes tienen menos componentes armónicos, menor intensidad, menor
duración y finalmente la utilización de diferentes tipos de clave para identificarlas entre
ellas. Por último, con respecto a la visión, ésta comienza con la entrada de rayos de luz en
el ojo, a través de la córnea, pasando por la pupila y su focalización en la retina y el nervio
óptico hasta llegar al cerebro, donde es interpretada toda la información de lo que vemos.
En este estudio se pretende demostrar, de acuerdo a los antecedentes que se han
logrado recabar sobre la evolución conjunta del sistema visual y auditivo en el
procesamiento del habla, cómo, en qué grado y forma, la percepción visual de los gestos
1 articulatorios puede determinar lo que se percibe auditivamente, mediante el diseño y
aplicación de un test audiovisual ad-hoc que considera las dos perspectivas del fenómeno
perceptivo visual y auditivo. Este conocimiento permitirá una aplicación práctica a la hora
de diferenciar o incrementar la confianza sobre algún mensaje recibido auditivamente,
contribuyendo al mejoramiento de la comunicación en los diferentes ámbitos donde ésta se
manifiesta.
2 5.
OBJETIVOS
5.1
HIPÓTESIS
• Existe una relación entre la percepción auditiva y visual.
5.2
OBJETIVO GENERAL
• Evaluar la relación entre la percepción visual-articulatoria y la percepción
auditiva.
5.3
OBJETIVOS ESPECÍFICOS
•
•
Diseñar un test visual-auditivo para evaluar la variación de la percepción
auditiva correcta con y sin apoyos visuales.
Comparar el comportamiento auditivo en emisiones visual-auditivas
convergentes y divergentes.
3 6.
BASE TEÓRICA
Es indispensable tener conocimientos sobre los términos fundamentales y ciertos
tópicos con los que se trabajará, explícita e implícitamente, durante toda la investigación.
Es por esto que a continuación se presenta un marco teórico, donde se abordan los
conceptos necesarios para comprender este estudio y sus propósitos.
6.1
El Sonido
El sonido es una propagación de cambios de densidad que transfiere energía a través
de un medio elástico; para producirlo es necesario un objeto vibrando y un medio de
transmisión que debe poseer masa y elasticidad. El medio elástico en el que se transmite el
sonido generado por el habla es el aire. Cuando un objeto vibra, lo hace como un todo, en
mitades, tercios, cuartos, quintos, etc.; es así como se producen los armónicos, que son
múltiplos de la frecuencia fundamental, siendo ésta la tasa a la cual una onda sonora se
repite a sí misma. Todos los objetos que vibran tienen una frecuencia natural a la cual
vibran más intensamente y se denomina la frecuencia de resonancia.
Desde el punto de vista acústico, el sonido posee las siguientes propiedades:
Longitud de onda: es la distancia espacial que ocupa un ciclo vibratorio. Frecuencia: es el
número de vibraciones que suceden en un segundo, y es medida en ciclos por segundo o
Hertz. Intensidad: corresponde a la fuerza con la cual el objeto es puesto a vibrar, además
se relaciona con la amplitud de las vibraciones y la cantidad de energía que pasa por una
superficie en un tiempo determinado. En el aparato fonador la amplitud de desplazamiento
de las cuerdas vocales es mayor que cuando se encuentran en reposo, siendo entonces
proporcional a la energía que se emplea en la producción del sonido. Tono: es una
propiedad subjetiva, que varía con respecto a la frecuencia, pareciendo más agudo o más
grave si la frecuencia es más alta o más baja, respectivamente. Timbre: es una cualidad
sonora que depende del patrón de armónicos, el ataque y el decaimiento del sonido. Es el
matiz que distingue dos sonidos de igual tonalidad e intensidad. En el tracto vocal, el
timbre se caracteriza por las resonancias mismas de éste (denominadas formantes) o las
resonancias compuestas de ruidos producidos en la boca, generados por el aire que pasa por
la laringe sin hacer vibrar las cuerdas vocales. Duración: tiempo en el cual se manifiesta
un sonido. En el ser humano, específicamente en el ámbito del habla, esta propiedad es
directamente proporcional con el trabajo muscular y la tensión.
4 Existe un área de estudio del sonido, que va ligada al ser humano, y tiene relación
en cómo una persona produce y articula determinados sonidos para comunicarse, a través
de su voz. El sistema vocal del ser humano se puede dividir en tres partes: Aparato
respiratorio, que es donde se almacena y circula el aire y en el cual están involucrados la
nariz, la tráquea, los pulmones y el diafragma. Aparato de fonación, que es donde el aire se
convierte en sonido involucrando la laringe y las cuerdas vocales. Aparato resonador, es
donde el sonido adquiere sus propiedades y en el cual están involucrados la cavidad bucal,
la faringe, el paladar óseo, los senos maxilares y frontales.
La corriente de aire que proviene de los pulmones sufre una serie de
transformaciones cuando pasa por el aparato fonador y se convierte en sonido. La voz
humana se produce en la laringe. El aire que proviene de los pulmones es forzado en la
espiración mediante la glotis, lo cual hace vibrar las cuerdas vocales. El sonido producido
por la vibración de las cuerdas vocales es débil, por lo que es necesaria una amplificación.
La amplificación tiene lugar en los resonadores nasal, bucal y faríngeo. La vibración de las
cuerdas vocales determina el tono y la intensidad del sonido, pero su espectro es
determinado por las resonancias del tracto vocal. Las vocales son producidas como sonidos
más bien puros, mientras que las consonantes son consideradas como ruidos.
Después que la voz sale de los resonadores, es forjada y moldeada por los órganos
articulatorios (labio, lengua, paladar, dientes, alvéolo), y es transformada en los sonidos del
habla, fonemas, sílabas y palabras. Entonces cada sonido emitido por la voz está
determinado por la posición particular que adopten los órganos articulatorios.
Figura 1. Esquema ilustrativo del Aparato Fonador Humano y Órganos Articulatorios.
!
(!
La producción física de los sonidos emitidos por un orador, es estudiada por una
disciplina llamada Fonética Articulatoria (también llamada Fonética Fisiológica); ésta se
preocupa de los órganos articulatorios involucrados en la producción del sonido oral y la
disposición particular que adoptan para producir diferentes segmentos fónicos.
Un lenguaje determinado usa segmentos fónicos reconocibles que componen los
sonidos del habla. Las personas conocedoras de una determinada lengua, aprenden a
clasificar los diferentes segmentos sónicos y a utilizarlos según la idea o información que
quieran o necesiten expresar.
El sonido también puede tener un enfoque desde la percepción de éste, siendo la
percepción sonora el resultado final de un conjunto de procesos psicológicos que se
desarrollan en el sistema auditivo central, los que interpretan cada sonido recibido. Primero
el sonido es detectado, luego discriminado e identificado, posteriormente es reconocido y
finalmente es comprendido e interpretado.
La ciencia que estudia la percepción del sonido, desde el punto de vista psicológico,
se llama Psicoacústica, y tiene relación con la forma en que son percibidas las
características y propiedades del sonido en el cerebro.
También existe una disciplina del área Lingüística, específicamente de la fonética,
que se ocupa de la percepción de los sonidos por parte del oyente; ésta es la fonética
acústica.
6.2
La Comunicación Verbal
Es el intercambio verbal entre un sujeto hablante, que produce un enunciado
destinado a otro sujeto oyente. Desde el punto de vista psicolingüístico, es el proceso en el
cual la significación que un locutor asocia a los sonidos es la misma que la que el oyente
asocia a estos mismos sonidos. Al transmitir el enunciado (una determinada información),
de un lugar a otro verbalmente, se desarrolla el sistema de comunicación oral que está
formado por los siguientes elementos: Emisor, que es el origen de lo que se va a
comunicar; es decir, el hombre; Canal de transmisión, que es el medio físico utilizado para
que viaje la información; en este tipo de comunicación, el canal es el aire portador de las
ondas acústicas; Transmisor, es lo que hace pasar la información desde el emisor hasta el
canal, o sea, el aparato vocal (fonador) del ser humano, que transforma la información en
ondas sonoras. El emisor y el destino están unidos por medio de un Receptor, que realiza la
decodificación del mensaje. En este caso, es el oído que transforma las ondas sonoras en
actividad nerviosa en su punto de destino; Destino, es donde se recibe el mensaje o el
último destinatario que también es el hombre [5].
6 Figura 2. Esquema ilustrativo del Proceso de la Comunicación Verbal.
El proceso que se lleva a cabo en el sistema anteriormente descrito, comienza en el
cerebro del hablante o emisor cuando se produce la codificación: la información se
estructura lingüísticamente con respecto a los códigos de la lengua utilizada; este mensaje
es transmitido en forma de impulsos nerviosos a los órganos fonadores, quienes originan
una onda acústica. Esta onda llega al oído del oyente en forma de señales acústicas que se
transmiten al cerebro, donde se produce la decodificación del mensaje y, finalmente, la
interpretación del mismo.
La base de la comunicación oral es la voz, que tiene una frecuencia fundamental en
el rango de 100 a 400 Hz. El promedio está cerca de los 100 Hz para los hombres y 200 Hz
para las mujeres; ésta articula sonidos que tienen significados específicos, los que
constituyen el mensaje. En el habla, la voz tiene un rol fundamental y para producirla el
cuerpo humano debe realizar acciones en las que interactúan diversos elementos. Los más
importantes son los siguientes: la fuente energética, que produce el aire a presión impulsado
desde los pulmones durante la espiración; el órgano vibratorio, donde el aire produce la
vibración tonal al atravesar la abertura (glotis), entre las cuerdas vocales; las cajas de
resonancias, donde el aire que proviene de la laringe puede ser modificado mediante
resonancias producidas por las fosas nasales, la cavidad bucal y la faringe; el sistema de
articulación del sonido, donde el sonido adquiere una pronunciación definitiva por la acción
de la lengua, labios, dientes y úvula [6].
!
*!
6.3
Inteligibilidad de la palabra
Es una medida de la capacidad de comprensión del material lingüístico articulado, o
sea, la efectividad de comprensión de la voz hablada [7]. Es el parámetro acústico más
importante para definir la calidad acústica de un lugar diseñado para la comunicación
hablada.
Ciertamente, existen factores que disminuyen la inteligibilidad de la palabra, es
decir, que producen una pérdida de información. Entre los elementos que influyen en esta
degradación, se encuentran el ruido, la duración, el enmascaramiento (intrusión de sonidos
indeseados que interfieren en la señal del habla) y la reverberación (fenómeno acústico que
se da en recintos, donde se refleja el frente de onda incidente sobre las paredes, suelo y
techo de éste). Una situación muy común es que los ruidos de fondo enmascaren el habla.
Cuando la reverberación es causada por el habla, imita al espectro de la voz, pero con
mayor energía en frecuencias bajas. Es por esto que la reverberación y el eco suelen
funcionar como múltiples voces perturbadoras y como llegan desde todos los ángulos, hace
difícil una separación entre ella y la señal real del habla. A pesar de todos estos factores
adversos a una buena percepción del habla, se ha comprobado que en situaciones de
degradación sonora, un apoyo visual articulatorio puede aportar positivamente en la
inteligibilidad de la palabra. En este contexto, es de suma importancia destacar un elemento
que afecta directamente a la inteligibilidad de la palabra; este factor corresponde a la
quinésica, definida como el estudio de los fenómenos que forman la expresión somática
(corporal) del hombre, quien ofrece información adicional a lo que se está diciendo. Esto
ocurre ya que las posiciones corporales, los gestos manuales, las expresiones faciales y la
expresividad de la mirada, complementan la información entregada verbalmente por un
orador, puesto que también, en conjunto con las ideas que va entregando éste, transmite
significados [8]. Esto influye directamente en la inteligibilidad de la palabra, pues en
situaciones de degradación sonora, los oyentes pueden poner una mayor atención a la
expresión somática del orador, con lo que le sería posible entender lo que se está
informando. Además, la quinésica puede, en algunas ocasiones, anticipar el mensaje verbal
que sigue, y suplir las deficiencias verbales del orador o acústicas de un recinto.
La evaluación de la inteligibilidad de la palabra se hace por medio de
procedimientos objetivos y subjetivos. Los métodos objetivos utilizan máquinas cuyos
resultados se relacionan con los entregados por métodos subjetivos. El método objetivo más
importante es el STI (del Inglés “Speech Transmission Index”, índice de transmisión del
habla), que es un algoritmo cuyos valores varían desde el valor 0 (completamente
inentendible) a 1 (perfectamente entendible). Al medir con este método, el sonido de la
palabra es modelado por una señal de prueba especial con características representativas de
la voz humana y emplea un complejo esquema de modulación de amplitud que genera
señales de prueba. En la unidad de recepción del sistema de comunicación, la profundidad
8 de modulación de la señal recibida es comparada con la profundidad de modulación de la
señal de prueba para un número específico de bandas de frecuencias. Las reducciones en la
profundidad de modulación son asociadas a la pérdida de inteligibilidad. Para evaluar la
inteligibilidad mediante procedimientos subjetivos se hacen pruebas de articulación a
oyentes, que cuantifican la cantidad de sílabas, palabras o frases que ellos escriben
correctamente luego de oírlas [6]. Una vez aplicadas las pruebas, hay diversas formas de
analizar los resultados; este análisis depende de las características exclusivas de las listas de
las palabras utilizadas y de las variables evaluadas. Generalmente, se establecen valores
porcentuales que indican las veces en las cuales el oyente identifica correctamente la sílaba,
palabra o frase que está siendo evaluada. Las pruebas de articulación para el español
utilizan listas de estructuras silábicas. En esta investigación se analizará y cuantificará con
porcentajes, la percepción auditiva correcta, por medio de listados de estructuras silábicas
sin significado, llamadas logatomos que poseen una estructura de consonante-vocalconsonante (CVC). Se trabajará en base a la lista de logatomos publicada en el estudio
‘Corpus para un test de articulación en español’, desarrollado por Rosas y Sommerhoff
[9], ya que se trata de la lista más completa encontrada hasta el momento [10].
6.4
Aparato Auditivo y Visual
6.4.1 Aparato Auditivo
El aparato auditivo cumple principalmente la función de equilibrio y audición; es un
sistema enormemente discriminante, sensible, complejo y delicado, que recibe, decodifica y
procesa los mensajes de la comunicación lingüística además de percibir e interpretar el
sonido. El sistema auditivo periférico es el oído, y está dividido básicamente en tres partes:
oído externo, medio e interno. El oído externo y medio se ocupan de trasmitir el sonido al
oído interno, y el oído interno se encarga de procesar el sonido. Además, al contener el
órgano del equilibrio, se encarga también de mantener un balance homogéneo. A
continuación se detallan las tres porciones en las que está dividido el oído humano:
9 Figura 3. Esquema ilustrativo del Oído Humano.
6.4.1.1 Oído Externo
Esta parte del oído humano está formado por el pabellón (oreja), canal auditivo y
finalmente el tímpano.
El pabellón tiene una forma diseñada para recoger y transmitir las ondas sonoras
hacia el canal auditivo por medio de reflexiones y difracciones, las que posteriormente
excitan el tímpano. El canal auditivo mide aproximadamente 25 milímetros y conduce el
sonido al tímpano; éste posee también una función higiénica, además de proteger al oído de
los ruidos intensos, debido a las glándulas sebáceas y la vellosidad. El tímpano, por su
parte, es una membrana elástica que vibra cuando es excitada por las ondas sonoras. Con
esto se inicia el proceso que convierte dichas ondas en impulsos nerviosos, los que
posteriormente viajan al cerebro. Esta estructura separa al oído externo del oído medio y
funciona como una barrera protectora de elementos externos, como por ejemplo bacterias.
!
$-!
6.4.1.2 Oído Medio
Es una cámara de aire ubicada en la caja o cavidad timpánica, entre el oído externo
y el oído interno, separada del oído externo por medio de la membrana timpánica.
Está compuesto por los huesecillos u osículos y la trompa de Eustaquio; actúa como
un amplificador sonoro, ya que aumenta las vibraciones del tímpano a través del enlace por
ligamentos de éste con tres pequeños huesos: martillo, yunque y estribo. Este último está
ligado a una membrana (en la cóclea), llamada ventana oval. La cóclea tiene forma de
espiral cónica (o caracol) y recibe todos estos movimientos. Los huesecillos transmiten las
vibraciones provenientes del tímpano hacia el oído interno, disminuyendo la amplitud y
aumentando la presión de las ondas sonoras, produciéndose un efecto de palanca entre los
tres huesos. Esta variación de presiones es altamente importante y necesaria, ya que la
impedancia acústica del tímpano es mucho menor a la del oído medio, el cual contiene
líquido. El amortiguamiento y revestimiento de los movimientos de los osículos está a
cargo de dos músculos: músculo del estribo y músculo tensor del tímpano; ambos
músculos, protegen el oído interno de los ruidos intensos y súbitos que pueden causar
lesiones y lo hacen aumentando su rigidez, disminuyendo la eficiencia mecánica y
disipando gran parte de la energía antes de que llegue al oído medio. Cabe destacar que
cuando una persona habla, envía señales colaterales a los músculos del oído para disminuir
su sensibilidad auditiva, de manera que su propia palabra no estimule en exceso los
mecanismos de audición.
El oído medio contiene importantes elementos para proteger el sistema de audición,
como por ejemplo la trompa de Eustaquio, que está unida a la cavidad nasofaríngea, para
equilibrar la presión del aire; esto lo hace igualando la presión del oído medio con la
presión atmosférica, abriendo y cerrándose en forma refleja. Ante cambios bruscos de
presión (disminución o aumento), se produce una deformación del tímpano, reduciendo
considerablemente la respuesta auditiva, sobre todo en frecuencias altas.
6.4.1.3 Oído Interno
En el oído interno se realiza la transformación de la energía mecánica producida por
las ondas sonoras en energía nerviosa, a través del Órgano de Corti (órgano receptor del
oído). Los movimientos de vibración del tímpano y de los huesos del oído medio son
transmitidos por nervios hasta el cerebro donde, posteriormente, estas vibraciones son
analizadas por la cóclea, que contiene tres conductos comprimidos de lado a lado. Los
conductos de arriba y abajo están rellenos de un líquido llamado perilinfa, y el del medio,
llamado también conducto coclear, está lleno de un fluido llamado endolinfa. Este líquido
produce un movimiento relativo con respecto a los canales si la cabeza rota en alguna
dirección, ya que estos poseen ejes en cuadratura (perpendiculares entre sí) y mediante las
11 terminaciones nerviosas se comunica al cerebro la activación de los mecanismos de control
de estabilidad.
El oído interno está compuesto por un hueco óseo llamado laberinto, el que
comprende las siguientes estructuras: Los canales semicirculares, que son tres conductos,
con forma de semicírculo, sensores del sistema de equilibro, y están recubiertos
interiormente por células nerviosas y de líquido endolinfático; se disponen de manera
perpendicular ocupando los tres planos del espacio. El vestíbulo, que es una pequeña
cámara ovalada que comunica los canales semicirculares con el caracol y con la caja
timpánica mediante dos orificios, llamados ventana oval y ventana redonda. El caracol,
que es el que contiene a la cóclea, que es el órgano más importante de la audición. Este
órgano tiene la forma de un tubo enrollado en espiral, que rodea un eje central llamado
columela; se divide en tres secciones llamadas rampas (timpánica, vestibular y coclear),
separadas por dos membranas (basilar y de Reissner). Dentro de la rampa coclear se
encuentra el órgano de Corti.
Las ondas sonoras también pueden llegar al oído interno, directamente a través de la
vibración de los huesos del cráneo, debido a que el oído interno se encuentra dentro de un
espacio del hueso temporal. Este tipo de transmisión explica porqué las personas escuchan
su propia voz con un timbre distinto al que lo escuchan las demás personas.
Con respecto a la percepción de la dirección del sonido, es importante mencionar
que ocurre a través del proceso de correlación cruzada entre los dos oídos. La diferencia de
tiempo entre la llegada de un sonido de un oído a otro entrega la información sobre la
dirección de la fuente sonora [11].
Finalmente, el sistema auditivo central, está conformado por los nervios acústicos y
todas las áreas del cerebro que actúan en el proceso de la audición; aquí se procesa toda la
información que se recibe, y le es asignado un significado a cada sonido percibido. El
nervio auditivo contiene aproximadamente treinta mil neuronas, y su trabajo consiste en
transmitir impulsos eléctricos al cerebro para ser, posteriormente, procesados; el cerebro
recibe la información que caracteriza a cada sonido recibido y la compara con la
información almacenada en la memoria, con el fin de identificarla. De no ser así, es
agregada a la biblioteca de sonidos de la memoria.
12 6.4.2 Aparato Visual
La visión es el resultado de un proceso que comienza con la percepción sensible,
producida en el ojo, seguida de una sucesión de fenómenos neurológicos que se inician en
el ojo y que se dirigen después hacia las neuronas visuales cerebrales, las que identifican la
imagen en su base de datos, para finalmente realizar una comprensión de lo se está viendo.
Figura 4. Esquema ilustrativo del Ojo Humano.
Los órganos más importantes en el sistema visual son los ojos, quienes se encargan
de captar la luz, intensidad, volumen, color, líneas y contornos de los objetos; también son
capaces de reproducir la imagen de lo que ven y transportarla al cerebro para ser
interpretada. Los ojos perciben imágenes en forma de haces luminosos que después son
transformados en estímulos nerviosos y viajan a los centros decodificadores del cerebro.
Allí, estos estímulos nerviosos son procesados y traducidos al lenguaje de las formas, los
colores, el movimiento y los conceptos.
Físicamente, el ojo tiene forma esférica, salvo una pequeña zona en su parte central,
llamada globo ocular y está rodeado por una fuerte membrana (esclerótica), que lo protege;
ésta sobresale en la parte frontal del globo formando la córnea. El globo a su vez está
rodeado por una pared formada de una membrana llamada coroides, donde se encuentra el
cristalino, que actúa de forma similar a un lente, ajustándose según la distancia; ambos
órganos están unidos por unas fibrillas y por un músculo circular, que tiene como misión
contraer o dilatar el cristalino. El ojo posee además un diafragma llamado pupila cuyo
diámetro está regulado por el iris. La luz penetra a través de la pupila, atraviesa el cristalino
y se proyecta sobre la retina donde se transforma, gracias a unas células llamadas fotoreceptoras, en impulsos nerviosos que son trasladados por medio del nervio óptico hacia el
cerebro. Este proceso es comparable a la acción que realiza el diafragma en una cámara
!
$&!
fotográfica, mientras los párpados funcionan de forma análoga a un obturador, permitiendo
o impidiendo la entrada de los rayos luminosos.
Internamente, el globo ocular está recubierto por una pared interna llamada retina y
lleno de un fluido gelatinoso llamado humor vítreo. Las fibrillas nerviosas que constituyen
la retina se reúnen en la parte posterior del ojo, formando el nervio óptico (ambos nervios
ópticos se cruzan y se dirigen al cerebro). Se extienden en todas las direcciones sobre la
superficie anterior de la retina, terminando en los bastoncillos y conos, distribuidos
aleatoriamente en la superficie de la retina. Los bastones son muy sensibles a la luz e
insensibles al color, poseen poca definición, y son los primeros en enviar la imagen en
situación de poca luz. Los conos están concentrados en una parte de la retina llamada Fóvea
o Mácula Lútea. En número y en sensibilidad son menores que los bastones, pero poseen
una mayor discriminación del detalle, color, forma y posición. La percepción debida a los
bastones se llama visión escotópica y la de los conos fotópica [12].
6.5
Cerebro Humano
Está encargado de los sentidos, los pensamientos, la memoria, el control del cuerpo
y controla todos los movimientos conscientes; además, recibe la información de los
receptores externos (ojos, oídos, nariz, nervios del tacto), para efectuar una reacción,
haciendo previamente un análisis de la información recibida. Todo esto es hecho por el
cerebro con el único fin de hacer que todo el cuerpo funcione de una manera adecuada.
El cerebro tiene una estructura pequeña, y está envuelto por el cráneo, quien le da
protección física; al mirarlo desde arriba, es similar a la forma de una nuez: está dividido en
dos mitades redondeadas conectadas en el centro, llamadas hemisferio izquierdo y
hemisferio derecho; ambos hemisferios tienen la misión de controlar el cuerpo, mediante la
conexión del cerebro con el sistema nervioso, y lo hacen de forma cruzada, es decir, el
hemisferio derecho controla el lado izquierdo del cuerpo y viceversa.
Se encuentran también en el cerebro áreas en donde terminan las fibras sensitivas
que transmiten los impulsos nerviosos visuales, auditivos, olfativos y sensaciones que
provienen de la superficie del cuerpo y/o de tejidos más profundos. Éstas son las
denominadas áreas sensoriales. Dentro de estas áreas se encuentran la visual y la auditiva.
Área Visual está ubicada en el lóbulo occipital. En el lóbulo occipital izquierdo se
registran los impulsos que se originan en la parte derecha, y en el lóbulo occipital derecho
se registran todos los impulsos que se producen en la parte izquierda de cada globo ocular.
14 Área Auditiva se encuentra en los lóbulos temporales, bajo la cisura de Silvio. Cada
lóbulo temporal recibe impulsos auditivos procedentes de cada oído. Las encargadas de este
proceso son las neuronas, quienes transmiten los impulsos auditivos dirigiéndose al lóbulo
temporal del mismo lado.
Luego de recibir los impulsos visual-auditivos y procesarlos en el cerebro, las áreas
receptivas cerebrales de la audición y la visión, hacen posible entender las palabras
habladas: las ondas sonoras y las luminosas llegan, respectivamente al oído interno y a la
retina, y se transforman en energía bioeléctrica, que es transportada por los nervios a las
áreas correspondientes del cerebro, donde son finalmente decodificadas. El lenguaje
receptivo es sólo eficaz cuando se implican otras zonas cerebrales relacionadas con la
atención, lo que se traduce, por ejemplo, a una contracción de los músculos faciales de los
ojos para llevar la concentración al interlocutor.
Las capas celulares de la superficie externa de los hemisferios cerebrales forman la
sustancia gris que es conocida como la Corteza Cerebral, que está formada por cuerpos de
neuronas y que se divide en tres áreas desde el punto de vista de sus características
funcionales: corteza primaria, secundaria y terciaria, respectivamente. Esta división fue
una conclusión arrojada de los trabajos e investigación del Doctor Paul Flechsig, quien
tenía una hipótesis acerca de las funciones sicológicas de estas áreas, mostrando que la
corteza primaria realizaba análisis sensoriales simples, y que la corteza secundaria y
terciaria, que eran áreas de asociación, contenían las funciones mentales superiores.
En la corteza secundaria se encontraría un área de asociación unimodal y estaría
encargada de realizar el análisis de la estimulación proveniente de un sistema sensorial
específico. El área de asociación polimodal estaría en la corteza terciaria y allí se realizaría
una integración del análisis de la información, por distintas áreas de asociación unimodal,
como por ejemplo la vista y el oído.
15 Figura 5. Esquema ilustrativo del Cerebro Humano, que indica los sectores y
áreas de la Corteza Cerebral.
Las áreas funcionales de la corteza cerebral son de tres tipos: Sensitivas, que
reciben las sensaciones y se hacen conscientes; Motoras, que envían órdenes motoras
voluntarias; De asociación, que son áreas que reciben la información enviada desde otras
áreas de asociación o sensitivas. Estas la integran y la almacenan para elaborar una
respuesta que será enviada finalmente a las áreas motoras.
Las áreas de asociación son regiones del cerebro donde confluyen axones de
neuronas que transmiten información de diferente modalidad sensorial y es aquí donde se
procesan de forma conjunta, pudiendo dar lugar a ilusiones o errores [13]. Están
distribuidas a lo largo de toda la corteza cerebral; las áreas que se ubican en el lóbulo
parietal, están involucradas en la integración de la información sensitiva proveniente de las
áreas somestésica, auditiva, visual y gustativa. Las áreas situadas en la porción anterior del
lóbulo temporal, están relacionadas con las experiencias audiovisuales.
6.6
Efecto McGurk
En todo momento, el ser humano está recibiendo información sensorial. El cerebro
hace un gran trabajo en darle sentido a todo, ya que es el encargado de crear percepciones
con respecto a la información que llega a los sentidos. Sin embargo, hay veces que no lo
hace correctamente y comete errores, es decir, lo percibido no corresponde a la realidad. A
!
$)!
pesar de que parece muy fácil separar los sonidos escuchados de las cosas que se ven,
existe un fenómeno psicoacústico que revela que éste no es siempre el caso.
Es una ilusión conocida como el Efecto McGurk y ocurre porque lo que se ve no
concuerda con lo que se está escuchando. Lo que sucede es que la información visual, se
sobrepone a la auditiva, porque los movimientos articulatorios que realiza la boca en el
rostro, influyen en lo que se cree estar escuchando. Este efecto prueba que lo que se oye,
puede no siempre ser la realidad, pero también ayuda a comprender lo que sucede cuando
los sentidos entran en conflicto. Cuando el cerebro tiene una información complementaria
trata de hacer que dicho conflicto tenga sentido, dependiendo de qué modalidad provea
mejor información, y esa información se sobrepondrá o combinará con la otra.
Este fenómeno fue descubierto por Harry McGurk, un psicólogo de la Universidad
de Surrey (Inglaterra), quien dejó sus evidencias y resultados estampados en un paper en
1976, titulado ‘’Escuchando labios y viendo voces’’ (en inglés “Hearing Lips and Seeing
Voices”). McGurk descubrió accidentalmente el efecto cuando se encontraba estudiando
los patrones de imitación de los niños al aprender a hablar, mostrándoles videos de
personas pronunciando diferentes sílabas. Al llegar a la combinación “ga-ba’’, los niños del
experimento, oían la sílaba “da”. Inmediatamente, McGurk despidió a la persona que había
preparado los videos porque pensó que había editado el material de forma incorrecta, pero
rápidamente se dio cuenta de que todo estaba perfectamente montado y editado, y lo que
ocurría en realidad era una ilusión auditiva. Posteriormente, McGurk observó que este
efecto no sólo se daba en niños sino también en adultos; esto quedó demostrado
experimentalmente de la siguiente forma: se elaboró un video donde un hablante
gesticulaba la sílaba ‘ga’, acompañado por una señal de audio, donde se estaba pronunciado
constantemente ‘ba’. Esta mezcla de señales dio como resultado la percepción de la sílaba
‘da’. Con esta demostración se asignó por primera vez a la visión un rol fundamental en la
percepción del habla. Más adelante, otros estudios permitieron observar que aún cuando el
sujeto experimental había sido advertido de sólo identificar la señal sonora, la percepción
visual articulatoria modificó su respuesta considerablemente. Se comprobó además, que
este efecto se puede producir con la combinación ‘ka’ (visual) + ‘pa’ (auditiva), y arroja
como resultado la percepción de ‘ta’, y que las personas con una audición normal, integran
la información visual-auditiva del habla de la misma manera en situaciones acústicas
favorables y adversas, a pesar de que en el procesamiento del habla, la señal auditiva es
más influyente que la visual.
Según los estudios realizados, se concluye hipotéticamente la siguiente explicación:
los fonemas /b/, /d/ y /g/ solamente se diferencian entre ellos por el lugar de articulación, ya
que /b/ es bilabial, /d/ interdental y /g/ es velar. En /b/, la abertura de la boca es mínima,
mientras que en /d/ es media, y en /g/ es máxima. Entonces, si el oído escucha /b/, con su
abertura mínima, pero los ojos ven /g/, pareciera que el cerebro opta por un término medio,
17 haciendo ‘oír’ el fonema /d/. Con esta explicación se podría pensar que la percepción del
habla no se basa solamente en el oído, sino también en la vista.
Es muy probable que esta ilusión auditiva esté relacionada con la probabilidad del
acierto perceptivo en situaciones de comunicación no idóneas, en las que el cerebro intenta
buscar y encontrar una solución intermedia, aunque no sea la adecuada en casos
particulares, pero que en muchos casos puede funcionar.
Desde esa investigación en adelante, se ha seguido estudiando este efecto,
descubriéndose detalles muy interesantes. En el área de la Neuroimagen por ejemplo, se
han realizado experimentos y se ha visto que hay una región del cerebro, llamada surco
temporal superior izquierdo, que pareciera mostrar una activación diferente cuando recibe
estímulos congruentes, esto es cuando ambos estímulos (visual y auditivo) coinciden, con
respecto a cuando éstos son incongruentes. Esta región es lo que se conoce como un área de
asociación. Es por eso que existe una gran seguridad de que el sistema visual ha
evolucionado en conjunto con el sistema auditivo para permitir un mejor procesamiento del
habla. Es decir, la vista podría ayudar a discriminar sonidos difíciles de diferenciar, o
podría servir para reafirmar un mensaje, incrementando la confianza sobre una información
recibida auditivamente.
Para que el efecto McGurk suceda, se requiere que el tele-auditor preste atención,
ya que al incorporar estímulos distractores visuales o auditivos, va disminuyendo
considerablemente su objetivo, demostrando así que el fenómeno no se debe a un mal
procesamiento de la vista o del oído, sino a la integración de estas dos modalidades
sensoriales. Cuando una persona está hablando con otra y la ve, pero no la puede oír, en su
cerebro se activa la corteza visual, que hace referencia a lo que sus ojos ven y, además, se
activa también la corteza auditiva, aún cuando no esté escuchando nada.
6.7
Aspectos lingüísticos
Se denomina lengua al sistema de signos y asociaciones entre ideas y sonidos o
gestos que cada grupo humano posee, memoriza y utiliza con el fin de comunicarse. El
habla hace referencia a una selección asociativa que tiene el hablante en el cerebro, entre
imágenes acústicas y significados, y que finalmente las comunica, llevando a cabo la
fonoarticulación. Para hablar, el individuo materializa sus pensamientos en base a un
modelo que le es proporcionado por la lengua, aplicando las normas y reglas de ésta.
El lenguaje humano es un sistema de comunicación que usa ciertos signos que están
previamente establecidos. El signo lingüístico es la unión del concepto con una imagen
acústica y está constituido por un significante (suma de elementos fónicos) y un significado
18 (idea o concepto que se tiene de lo que es la palabra que está en uso). Respecto al
significante, es importante mencionar que la unidad fónica mínima es el fonema, que es
indivisible y sin significado (a modo de ejemplo: la palabra “mamá”, está formada por
cuatro fonemas: /m/+/a/+/m/+/á/).
La fonética y la fonología son dos disciplinas lingüísticas que estudian los sonidos
de una lengua. Aún así, ambas no estudian específica y exactamente lo mismo. La fonética
por su parte comprende un ámbito de estudio mayor que la fonología y se basa en la
acústica, mientras que la fonología considera la imagen mental de lo que se percibe. A
continuación se definirán ambas disciplinas.
6.7.1 Fonética
Estudia los elementos fónicos de una lengua desde el punto de vista de su
producción, constitución acústica, articulatoria y perceptiva [5]; estudia los aspectos físicos
de los fonemas, cómo son articulados y percibidos, por ejemplo los sonidos reales
pronunciados, ya que en variados casos, algunos fonemas cambian su pronunciación según
el contexto y la posición en que se encuentren. Dichas variaciones, a pesar de que
generalmente no son apreciadas por el hablante, se dan muy a menudo y tienen por nombre
alófonos. Según las distintas formas en que se pronuncie; por ejemplo, el fonema /g/,
respecto a su contexto o posición, son los alófonos de /g/.
6.7.2 Fonología
Estudia los elementos fónicos de una lengua desde el punto de vista de su función
en el sistema de la comunicación lingüística [5]; estudia las normas que definen cómo
articular el sonido y de qué manera es afectado por otros. El centro del estudio de la
fonología es el fonema, que tiene más carácter mental que acústico. La fonología trata la
manera en que funcionan los sonidos, en una lengua en particular o en las lenguas en
general, en un nivel mental o abstracto.
En cuanto a los fonemas, existen dos clases: Vocales, que son sonidos de la voz que
no encuentran obstáculo en su recorrido a través del aparato fonador y Consonantes, que
son emisiones de voz que tienen obstáculos en su recorrido a lo largo de todo el aparato
fonador. Es importante, además, destacar que en el idioma Español, una sílaba siempre
necesita por lo menos una vocal, ya que al no poseerla, las consonantes no se pueden
pronunciar. Estos fonemas pueden ser sonidos articulados sonoros o sordos dependiendo de
su ejecución, esto es si en ella participan o no las cuerdas vocales, respectivamente. Las
consonantes tienen menor amplitud que las vocales. Esta diferencia se debe a la cantidad de
aire expulsado, la energía empleada y, finalmente, por el uso de las cuerdas vocales.
19 Las vocales se distinguen entre ellas por el modo y la zona de articulación, pero
siempre utilizan las cuerdas vocales.
Según el modo de articulación, se clasifican de la siguiente forma: Altas o cerradas,
son las vocales /i/ y /u/, aquí la lengua se eleva y se aproxima al velo del paladar; Medias,
son las vocales /e/ y /o/, en este caso la lengua desciende del velo del paladar; Baja o
abierta, es la vocal /a/, la lengua desciende completamente con respecto al paladar duro y
hay una distancia máxima al techo de la boca.
Según la zona de articulación, se clasifican de la siguiente manera: Anteriores: las
vocales /i/ y /e/, donde la lengua está bajo el paladar duro, con dirección a la zona delantera
de la cavidad bocal; Central: la vocal /a/, la lengua en este caso, va en la región del paladar
medio, en posición de descanso; Posteriores: las vocales /o/ y /u/, donde en esta
clasificación el dorso de la lengua retrocede un poco y se acerca al velo del paladar.
Con respecto a las consonantes, éstas se clasifican según cuatro características
distintas:
1) Según la acción de las cuerdas vocales: Sonoras: /m/, /n/, /ñ/, /r/, /rr/, /l/, /y/, /b/,
/d/, /g/ y Sordas: /p/, /t/, /k/, /ch/, /f/, /s/, /j/.
2) Según la acción del velo del paladar: Nasales: /m/, /n/, /ñ/ y Orales: /r/, /rr/, /l/,
/y/, /b/, /d/, /g/, /p/, /t/, /k/, /ch/, /f/, /s/, /j/.
3) Según el modo de articulación y se dividen en: a) Obstruyentes: Oclusivas: /p/,
/t/, /k/, /b/, /d/, /g/. Fricativas: /f/, /s/, /j/. Africadas: /ch/. Aproximantes: /y/. b) Resonantes
o no obstruyentes Nasales: /m/, /n/, /ñ/. Líquidas: Laterales: /l/, /ll/ y Vibrantes: /r/, /rr/.
4) Según el lugar de articulación: Bilabial: /p/, /b/, /m/. Labiodental: /f/. Postdental: /t/, /d/. Ápico alveolar: /n/, /l/, /r/, /rr/. Predorso alveolar: /s/. Alveólo palatal:
/ch/. Prepalatal: /y/. Mediopalatal: /ñ/ y Velar: /k/, /j/, /g/.
20 7.
MATERIALES Y MÉTODOS
7.1
Plan de trabajo
Para llevar a cabo la fase experimental de esta investigación, se debe tener claro
primero que todo, los objetivos que se persiguen, éstos son los siguientes: evaluar la
relación entre la percepción visual articulatoria y la percepción auditiva, diseñar un test
visual-auditivo para evaluar la variación de la percepción auditiva correcta de logatomos
con apoyos visuales, y finalmente, comparar el comportamiento auditivo en emisiones
visual-auditivas convergentes y divergentes.
El motivo central de esta etapa es el diseño, elaboración, aplicación y registro de un
test audiovisual a quince personas, donde ellas deberán escribir en unas listas lo que
escuchan o creen escuchar; según el porcentaje de respuestas buenas y malas, se obtendrá
un aumento y/o disminución de la percepción auditiva correcta.
La dinámica con la cual se obtendrán los resultados para el posterior análisis y sus
actividades respectivas, se detallan a continuación:
7.1.1 Selección Justificada y Fundamentada de Logatomos
En primera instancia, se realizó el diseño del test, con el cual se midió los porcentajes
de aumento y disminución de la percepción auditiva correcta. Para esto, se diseñó un test
con logatomos, éstos son fonemas que agrupados cumplen con la estructura CVC
(consonante-vocal-consonante); y se decidió utilizar estas estructuras, ya que con ellas se
mide inteligibilidad, además son estructuras sin sentido, lo que se traduce en una menor
probabilidad de ser recordadas por los informantes y esto conlleva a resultados más
confiables, al momento de aplicar un test. Luego de tomar la decisión de que se utilizarían
logatomos, para seleccionarlos, se tomó como referencia la publicación: ‘ Corpus para un
test de articulación en español’, de los profesores Sommerhoff y Rosas [9]; En este trabajo
se describe una lista de mil logatomos, y es la lista más completa encontrada hasta el
momento, para fines de medición de inteligibilidad de la palabra.
A partir de esta lista completa de mil logatomos, se preseleccionaron los que
comenzaban con una consonante velar o bilabial (j,k,g o m,p,b), quedando finalmente
seleccionados 380 logatomos. Se buscó esto ya que este tipo de consonantes se ha
demostrado que produce el Efecto McGurk, que es una de las mayores pruebas que existen
sobre las confusiones producidas en el cerebro, respecto a la recepción de información
visual y auditiva no coincidente y a su procesamiento en conjunto; y en esta ocasión, se
quiere medir porcentajes, en los cuales la percepción auditiva, varía al aplicar una señal
visual convergente y divergente. Al tener este corpus, se decidió posteriormente,
seleccionar sólo logatomos que tuvieran contenida la vocal ‘a’, por dos razones, en primer
lugar, la importancia de este estudio, recae sobre las consonantes del logatomo, y no en la
vocal, ya que esto provocaría un mayor caos al analizar los resultados, y era preciso dejar
un parámetro fijo. También se pensó en la vocal ’a’, ya que según estudios lingüísticos, es
21 la vocal con mayor porcentaje de reconocimiento y con mayor frecuencia de uso.
K P G B J M kas kak kat kap kal kar kan kaf kam kab pas pak pat pap pal par pan paf pam pab gal gam gat gad gan gaf gab gag gas gar Bal Bam Bat Bad Ban Baf Bab Bag Bas Bar jal jas jag jab jap jad jam jaf jan jar mal mas mag mab map mad mam maf man mar Tabla No. 1. Corpus definitivo de logatomos seleccionados para
evaluación del test.
7.1.2 Elección de la Sala
Por mayor disponibilidad, facilidad de acceso, y características específicas, se
escogió para aplicar el test, la sala número 7301 del Edificio 7000, de la Facultad de
Ciencias de la Ingeniería, perteneciente al Campus Miraflores, ubicado en la Universidad
Austral de Chile. Las razones por las cuales se optó por esta ubicación, es que es una sala
diseñada especialmente para clases o exposiciones, es decir, se utiliza con fines
comunicacionales, y en estos casos la percepción auditiva es fundamental.
Físicamente, la sala estaba construida de la siguiente forma, la pared lateral derecha
estaba compuesta por ventanas, puertas y material concreto; la pared lateral izquierda
estaba compuesta por ventanas y material concreto; la pared posterior, estaba construida de
concreto, pero cubierta con material absorbente, y la pared frontal, de material concreto y
encima una pizarra de madera, que ocupaba gran superficie de ésta.
22 Figura 6. Fotografía panorámica de la sala.
7.1.3 Elección y entrenamiento del Locutor
Al elegir a la persona idónea para realizar la labor de Locutor del test, se consideró
trabajar con un varón; por sus características vocales, mayor firmeza y más estabilidad de la
voz, luego se puso atención en que tuviera las siguientes características: audición y visión
normal, un rostro de características normales y homogéneas, es decir, que no llame la
atención ningún órgano en particular de su rostro; especialmente se hizo énfasis, en que su
boca y sus dientes fueran física y visualmente armoniosos; esto con el fin de que no
existieran motivos de distracción para los teleauditores al momento de ser aplicado el test,
ya que éstos debían concentrarse en la boca del Locutor. Una vez claras las características
de exclusión, se llamó a un casting, a tres personas que cumplían los requisitos
anteriormente nombrados, de los cuáles fue seleccionado uno, quien contaba con
conocimientos básicos de Fonética Articulatoria, y un gran interés por aprender más de ella.
Al tomar esta decisión, se pensó en que esto facilitaría en gran medida el trabajo futuro de
entrenamiento, además de brindar un mejor resultado a la experiencia. Luego de ser
seleccionado el Locutor, se realizó una sesión intensiva donde se entrenó a éste para que
pudiera realizar una Fonética Articulatoria óptima, para pronunciar correctamente los
logatomos seleccionados, cuidando especialmente de hacer distinciones entre los fonemas
/v/ y /b/, y en las consonantes velares y bilabiales. Esta actividad se llevó a cabo en el
Instituto de Lingüística y Literatura de la Universidad Austral de Chile, por la Profesora,
Dra. Claudia Rosas. Después de recibir las enseñanzas e indicaciones, el Locutor realizó
una semana de reforzamiento, prácticas y estudio de Fonética Articulatoria, en base al
listado de mil logatomos publicado en el trabajo ‘Corpus para un test de articulación en
español’ de Sommerhoff y Rosas, también al libro ‘’Manual de Pronunciación Española’’
de Tomas Navarro Tomas, y finalmente a materiales relacionados con el tema provisto por
Internet, incluyendo documentos y material audiovisual. Al estar preparado, se hizo pruebas
de reconocimiento en tres personas, completamente ajenas a la investigación, con el fin de
obtener una información fidedigna, ya que sus respuestas no eran influenciadas. La
dinámica de esta actividad fue la siguiente, el Locutor articulaba ciertos logatomos y las
personas escribían lo que escuchaban; esta prueba constó de 60 logatomos, y se repitió tres
!
%&!
veces, arrojando un resultado aceptable y bueno, con lo que se dio por finalizada la etapa de
entrenamiento del Locutor.
7.1.4 Selección de Informantes
Se necesitaba contar con quince sujetos de prueba. El número de personas es
pequeño ya que se asume que las respuestas entregadas por ellos se podrán relacionar
estadísticamente de acuerdo a un intervalo de confianza previamente establecido. Además,
cabe destacar que la mayoría de los estudios subjetivos de acústica en los cuales los
aspectos intangibles psicoacústicos son de mucha importancia, son realizados por una
cantidad no muy elevada de sujetos de prueba, ya que se asume que estos tendrán
respuestas similares si cumplen con ciertos requisitos y poseen información previa
asociada. Para el caso específico de este estudio, se considera como criterio base que la
lengua materna de todos los informantes es el español, que todos poseen una capacidad
auditiva normal de acuerdo a su edad y que están informados del contenido de las listas de
logatomos y de los objetivos principales de este test audiovisual, además de las condiciones
específicas de transcripción de segmentos (indicación de grafías a utilizar para la
representación de los fonemas, principalmente).
Los sujetos de prueba, en adelante informantes, en su totalidad fueron estudiantes
universitarios (voluntarios), de edades entre 18 y 27 años. No era necesario que los
informantes tuvieran audición normal, pero sí era necesaria una audiometría, para tener una
clasificación de ellos, según su nivel de audición actual, ya que los resultados y porcentajes,
se analizarían con respecto a sus características particulares.
Una audiometría es un examen fundamental para medir la capacidad auditiva actual
de un individuo; con esta prueba se determina el umbral de cada oído para cada una de
ciertas frecuencias. El instrumento que realiza este procedimiento es el ‘’audiómetro’’. Éste
genera tonos puros de diferentes frecuencias e intensidades, los que posteriormente son
enviados por medio de fonos a cada oído de la persona que está siendo testeada dentro de
una cámara insonorizada; la persona al escuchar un tono puro debe apretar un botón, y
mantenerlo presionado hasta que éste deje de ser percibido. La información recibida por el
aparato es procesada e indicada en un gráfico que muestra los umbrales de audición por
frecuencia de la persona. Las frecuencias utilizadas en este examen son las siguientes: 500,
1000, 2000, 3000, 4000, 6000, 8000, Hertz, para cada oído, y cada umbral es medido en
decibeles, siendo alrededor de 0 dB, el registro de un promedio estadístico óptimo que
evidencia una audición normal en personas de entre 18 y 30 años [18]. En esta ocasión se
utilizó para realizar el examen, el audiómetro Brüel & Kjaer tipo 1800.
24 Figura 7. Tesista realizando una audiometría.
Figura 8. Fotografía del Instrumento utilizado para realizar las audiometrías. Audiómetro Brüel &
Kjaer, Type 1800.
7.1.5 Proceso de Grabación y Edición
Con la finalidad de disponer de un material para ser reproducido las veces que se
precise, el corpus de logatomos seleccionado para evaluar el test de esta investigación, fue
grabado. Los sesenta logatomos seleccionados, fueron registrados audiovisualmente; esto
se hizo filmando al Locutor, quien articuló cada logatomo según la Fonética Articulatoria
correspondiente en cada caso.
El lugar utilizado para esta filmación, fue escogido con el propósito de reducir al
máximo un campo reverberante o alguna interferencia que se pudiera añadir al material que
se estaba registrando. Es por esto que se decidió utilizar la Sala Anecoica No. 2,
perteneciente al Instituto de Acústica de la Universidad Austral de Chile, para esta etapa de
la investigación, ya que ésta simula condiciones de un campo libre, es decir casi la totalidad
de la energía es absorbida, y no hay reflexiones de ningún tipo en las paredes.
Al momento de grabar, cada logatomo fue repetido tres veces, para reafirmar la
información recibida por el informante, y éste presentara la menor cantidad posible de
errores al transcribir; además cada trío de logatomo se grabó con una separación de cinco
!
%(!
segundos, con motivo de dar espacio a los informantes de responder de manera adecuada el
test al cual se estaban sometiendo.
Cabe destacar que antes de realizar la grabación definitiva, se llevó a cabo una
grabación de prueba, para identificar las posiciones y configuraciones óptimas de
instrumentos y Locutor, además de tener un acercamiento al resultado final, cuidando de
modificar posteriormente, posibles errores cometidos, tanto de la parte técnica, como de la
articulatoria del Locutor.
Luego de la obtención y análisis del material de prueba, se llevó a cabo la grabación
definitiva del test. Esta etapa de la investigación fue de suma importancia, puesto que según
la calidad del material resultante, se obtendría un mayor o menor porcentaje de buenos
resultados en la futura aplicación de este test, por esto mismo se eligió, dentro de los
equipos disponibles, los de mejor calidad, según el objetivo perseguido. Ya que los
resultados del material de prueba fueron muy buenos, se realizó sólo una sesión de
grabación, en la Sala Anecoica No. 2 del Instituto de Acústica de la Universidad Austral de
Chile. En esta ocasión se utilizaron los siguientes equipos: Cámara Sony HVR-V1N Digital
HDV + Trípode, Preamplificador Rupert Neve, pórtico 5012, ya que entrega una señal con
mayor calidad, Micrófono Audiotécnica modelo 4051, de patrón direccional cardioide y de
condensador, 2 cables XLR de micrófono para hacer las conexiones correspondientes, y
finalmente un par de fonos para ir obteniendo una referencia a tiempo real del material que
estaba siendo registrado.
Los equipos fueron conectados conforme a la siguiente cadena electroacústica:
Figura 9. Diagrama del esquema de conexiones entre los
equipos utilizados en la grabación.
!
%)!
Se conectó el micrófono al preamplificador, y desde éste se hizo una conexión a la
cámara de video, a la cual se le conectaron los audífonos. El preampflicador se utilizó con
filtro en los 40 Hz, ya que la voz humana, no suele arrojar frecuencias bajo este umbral.
También desde este equipo se proveyó el phantom de 48 volts., necesario para el
funcionamiento del micrófono. En cuanto a la cámara de filmación, luego de realizar un
balance de blancos, se consideraron las preferencias visuales y condiciones requeridas;
posteriormente el equipo quedó configurado de la siguiente forma: velocidad de obturación
en un valor 60, ya que con ese valor se obtenía una imagen parcialmente iluminada,
cuidando que los movimientos del Locutor se percibieran naturales, se utilzó también una
abertura de diafragma, de 1.8, este es el valor de máxima abertura de diafragma del equipo
utilizado en esta ocasión, es decir, el valor con el cual se permite que entre la mayor
cantidad de luz posible, al capturar la imagen. Finalmente, ya que la imagen no estaba lo
suficientemente iluminada, se tuvo que recurrir a una ganancia electrónica de 6 dB, ya que
el lugar era relativamente oscuro, sólo alumbrado con luz artificial, y de poca potencia. Con
respecto a los parámetros de audio, se conectó la señal proveniente del preamplificador a la
Cámara de video y se ajustó manualmente la ganancia, cuidando que el nivel de la señal
auditiva entrante no marcara saturación en los niveles registrados. Teniendo entonces todo
en orden, se procedió a comenzar la grabación definitiva del test. El Locutor leyó cada
logatomo tres veces, haciendo una pausa de cinco segundos entre cada trío de logatomos. El
tiempo de separación fue estimado con el propósito de evitar una relajación de las cuerdas
vocales, ya que si eso llegaba a suceder, ellas producirían un mayor ruido para volver a
tensarse. Los niveles se ajustaron de acuerdo a una distancia aproximada de un metro entre
la boca del locutor y el micrófono. Se consideró esta distancia, para que el aumento de
intensidad de la voz, en las bajas frecuencias, no produjera distorsión, para que el
micrófono no apareciera en la imagen final; además el micrófono quedó en una posición
muy cercana a la Cámara de video, ya que el rostro del Locutor y principalmente su voz,
iban dirigidos en esa dirección.
El trabajo descrito anteriormente se repitió tres veces, con el fin de tener una mayor
cantidad de material disponible, al momento de editar audio y video, y no tener que repetir
la experiencia de grabación por consecuencia de algún error concerniente a la gesticulación
del Locutor, que pudiera haber pasado desapercibido.
27 Figura 10. Fotografía del Proceso de Grabación del Test, en la Sala Anecoica No. 2,
perteneciente al Instituto de Acústica de la Universidad Austral de Chile.
Una vez obtenido el material de grabación, se trabajó en la Sala de Edición del
Instituto de Acústica de la Universidad Austral de Chile. Primero que todo se efectuó una
revisión del material en cuanto a la articulación y a la comprobación de la correcta emisión
de los logatomos, y al no tener objeciones al respecto, se procedió a traspasar el registro
obtenido, para comenzar con la etapa de edición de éste. Esta actividad se llevó a cabo
inicialmente capturando la grabación en uno de los equipos iMac, utilizando el software
‘’Final Cut Express’’. En esta etapa de trabajo, se comenzó separando los sesenta
logatomos con sus respectivas imágenes articulatorias. Cada trío de logatomos tenía una
duración aproximada de cinco segundos. Una vez separado e identificado el material, se
crearon tres proyectos independientes los que darían origen al test final. El primero que
contenía todos los logatomos, pero sin imagen; este ítem, fue creado para tener un
parámetro de comparación con respecto a los dos ítems posteriores. En esta ocasión se
aplicó un orden aleatorio, además de un Fade-in y Fade-out, al incio y fin del archivo de
audio. Finalmente se equilibraron lo mejor posible los niveles de cada logatomo para que
quedara un nivel total parejo de reproducción. En el segundo proyecto o ítem, se trabajó
sólo con los logatomos que comenzaban con una consonante bilabial, es decir todos los que
comenzaban con /b/, /m/ y /p/; este subconjunto de logatomos conformaba la mitad de la
lista total. Al estar ya separados, se procedió a dar un orden aleatorio a la secuencia, ya que
en este caso, se estaba desarrollando el test convergente, donde la imagen se correspondía
con el audio, es decir la señal auditiva se reforzaba o confirmaba con la visual.
Posteriormente se aplicó en cada inicio y término de cada trío de logatomos un Fade-in y
Fade-out respectivamente, en audio y video. Esto para que los informantes tuvieran un
tiempo, sin dejar de poner atención en la imagen que era una de las consideraciones
!
%+!
importantes, para transcribir sus resultados. En este caso también como actividad final se
desarrolló un equilibrio en los niveles de cada logatomo para que quedara un nivel total
parejo de reproducción. En el tercer y último bloque o proyecto, se conformó el test
convergente, aquí se separó la señal de audio y video, y se utilizó la señal de audio del test
anterior, es decir los sonidos producidos por logatomos que comenzaban con /b/, /m/ y /p/,
pero en este caso fueron acompañados por la imagen del grupo restante de logatomos, los
que comenzaban con una consonante velar, /g/, /j/ y /k/. Se agruparon, mezclaron y
sincronizaron buscando producir el Efecto McGurk de la siguiente forma: los sonidos de
logatomos que comenzaban con /b/, se agruparon con la imagen de los logatomos que
comenzaban con /g/, se hizo de forma análoga, con el sonido de los que comenzaban con
/p/, es decir, se utilizó la imagen de los que empezaban con /k/, y finalmente se agruparon
los sonidos de logatomos con consonante inicial /m/, con la imagen de logatomos que
comenzaban con /j/. Con respecto a esta última agrupación de consonantes bilabiales y
velares, no se han realizado estudios referentes a la producción del Efecto McGurk, a pesar
de que las características de las consonantes en juego, son similares a las de las
agrupaciones de consonantes que suelen producirlo. Como actividad siguiente, se llevó a
cabo la sincronización más detallada de cada grupo de logatomos, con su respectiva imagen
establecida según los criterios anteriormente descritos, cuidando que se produjera el Efecto
McGurk y que además resultara de forma natural al mirarlo. Para corroborar que el material
cumplía con los objetivos perseguidos, se mostró a tres estudiantes y a un profesor, ajenos
al tema, en quienes causó el efecto esperado. Finalmente, al igual que en el caso anterior se
aplicó en cada inicio y término de cada trío de logatomos un Fade-in y Fade-out
respectivamente, en audio y video, para que los informantes tuvieran un tiempo, sin dejar
de poner atención en la imagen, que en este caso era la condición más importante, para
transcribir sus resultados. Para terminar se aplicó también en esta ocasión, un equilibrio en
los niveles de cada logatomo para que quedara la secuencia con un nivel total parejo de
reproducción.
Como último paso en la etapa de edición del test, se realizó una reducción de ruido
de fondo en el audio de los videos, con el software ‘’Cubase’’, y una conversión de los
archivos obtenidos a formatos que posteriormente pudieran ser reproducidos en cualquier
tipo de computador (el audio desde formato .wav a mp3, y los videos desde formato .mov a
.avi), a pesar de que se aplicarían en los formatos originales, para realizar la experiencia
con la mayor y mejor calidad posible.
29 7.1.6 Indicaciones dadas a Informantes
Los Informantes recibieron ciertas indicaciones antes de que les fuera aplicado el
test; primero que todo, se les pidió apagar celulares, para evitar distracciones durante el
desarrollo de la experiencia. Luego se les comentó brevemente el propósito de la
investigación, también se les explicó qué eran los logatomos, y porqué se les estaba
evaluando con ese tipo de estructuras silábicas; luego se les dio la orden de responder en
las listas entregadas en un orden correlativo, según la aparición de los logatomos, lo que
creyeran escuchar, explicando que el ítem I era el test de sólo audio, el II un test
convergente y el ítem III, un test divergente, todo esto con sus respectivas explicaciones y
finalmente, se les advirtió que en el caso de los ítems audiovisuales, concentraran su
atención en el audio y en la boca del Locutor que aparecía en la imagen.
Para comprobar que la instrucción recibida había sido comprendida, se dejó correr,
un par de segundos cada test, y se respondieron las dudas que ellos tenían al respecto.
7.1.7 Aplicación del test
La aplicación del test se llevó a cabo en dependencias de la Universidad Austral de
Chile, específicamente en el Edificio 7000, en el tercer piso en la Sala 7301 (dicha sala fue
descrita anteriormente con mayor profundidad en el apartado 7.1.2). Antes que todo, se
instaló y conectó el equipamiento de refuerzo sonoro. Se utilizaron dos parlantes pasivos
ASC y se posicionaron bajo la imagen, para dar la sensación de que el sonido provenía
desde ésta, la separación entre ellos fue de dos metros y se conectó cada uno de ellos a un
Power Mixer Phonic PowerPod 408, con cables TRS-TRS. A este equipo se conectó, por
medio de un cable RCA- MiniPlug, un Equipo MacBook Pro, desde el cual fueron emitidas
las secuencias del test a evaluar, en su calidad de formato original (.mov y .wav). La
imagen fue emitida por un equipo proyector de imagen, que fue conectado directamente al
equipo MacBook Pro.
Después de tener todo conectado y funcionando, se midió con un Sonómetro
CESVA Modelo SC310, los niveles máximos de presión sonora en toda la sala, para
descartar lugares donde se produjeran nodos, y tener claro en qué sectores de la sala se
podían ubicar de una mejor forma a los informantes. El nivel equivalente total medido fue
de 81,7 dB, tomando un nivel máximo de salida en el Power Mixer.
30 Figura 11. Fotografía del proceso de mediciones de niveles de presión sonora en toda la
sala.
Al emitir tonos puros de distintas frecuencias se produjeron nodos, pero al medir
con el sonido respectivo del test, se percibió un nivel relativamente equilibrado en toda la
sala, sin mayores variaciones. Por lo tanto la consideración que se persiguió al ubicar a los
informantes, fue que quedaran lo más directo posible a la imagen, tratando de evitar que se
ubicaran en los extremos, y cuidando de que quedaran distribuidos equilibradamente,
evitando estorbarse entre ellos, al momento de poner atención en la imagen. Después de
medir niveles máximos de presión sonora, se buscó llegar a un nivel característico de una
conversación normal, es decir, se midió hasta llegar a un nivel promedio equivalente total
alrededor de los 65 dB aproximadamente[19], en toda la sala (basándose en las mediciones
realizadas en puntos estratégicos del recinto), ajustando el nivel del Power Mixer; una vez
encontrado este nivel, se dejó identificado, con el fin de que a la hora de aplicar el test, éste
se reprodujera exactamente con el mismo nivel, en la actividad futura. Se pensó medir en
estas dos instancias ya que en esta sala usualmente no se usa amplificación para realizar
clases; y así se podría analizar los diferentes resultados obtenidos, con ambos niveles de
presión sonora, simulando una sala de clases (utilizada sin amplificación), o una
conferencia (tomando en cuenta un mayor nivel de presión sonora).
Teniendo todas las consideraciones controladas y estudiadas, se procedió a aplicar
el test. Éste fue aplicado 2 veces, la primera con un máximo nivel de potencia sonora (82
dB aproximadamente), y la segunda con un nivel cercano al de una conversación normal
(65 dB aproximadamente). Entre cada aplicación, se dio un tiempo de descanso de 10
minutos, y se les pidió a los informantes no conversar respecto a sus respuestas, para que
las mismas no fueran condicionadas en la segunda ocasión. La aplicación del test, demoró
aproximadamente 20 minutos en cada caso; el primer ítem donde se evaluaba sólo con
audio, tenía una duración de 7 minutos con 46 segundos. El segundo ítem, llamado Test
Convergente tenía una duración de 3 minutos y 53 segundos. El tercer y último ítem, de
nombre Test Divergente, contaba con una duración de 3 minutos y 55 segundos. Además
entre cada aplicación de ítems del Test en general, se dio un pequeño descanso de un
minuto, para evitar agotamiento por parte de los informantes.
!
&$!
Figura 12. Fotografía tomada al llevar a cabo el proceso de aplicación del test.
Las respuestas fueron escritas en una hoja diseñada especialmente para esta ocasión,
la cual contaba con la separación de cada ítem, y un orden de casillas tabulado, en orden
cronológico que se correspondía con el orden de aparición de cada logatomo. Esta misma
hoja serviría más adelante para analizar los porcentajes de logatomos percibidos correcta o
incorrectamente. Dichos porcentajes se calcularían además, como un promedio aritmético
del obtenido de las treinta hojas de respuestas obtenidas.
!
&%!
8.
ANÁLISIS DE RESULTADOS
La siguiente tabla muestra un resumen de los resultados obtenidos al aplicacar el
test:
Audiometría
Número de
Informante
N
1
Ne
P
8kHz/d
2
6kHz/d
Test nº1
Test nº2
A
T.C.
T.D.
A
T.C.
T.D.
60/60
30/30
30/30
60/60
30/30
30/30
4/60
1/30
4/30
4/60
2/30
3/30
2/60
0/30
1/30
3/60
1/30
1/30
3
X
4/60
0/30
1/30
7/60
0/30
1/30
4
X
4/60
2/30
3/30
4/60
1/30
10/30
3/60
0/30
2/30
5/60
1/30
3/30
0/60
0/30
26/30
3/60
0/30
28/30
4/60
0/30
4/30
9/60
3/30
5/30
0/60
1/30
0/30
4/60
0/30
1/30
5
6kHz/i
6
X
7
2,3,4,6(kHz/i)
3kHz/d
8
500,1k,8k
(Hz/i)1kHz/d
9
X
8/60
5/30
7/30
9/60
0/30
5/30
10
X
2/60
1/30
6/30
10/60
8/30
13/30
11
8kHz/ i
8/60
3/30
17/30
20/60
12/30
21/30
12
6kHz/i
0/60
0/30
7/30
3/60
2/30
7/30
9/60
2/30
1/30
11/60
3/30
4/30
13
X
14
500,6k(Hz/i)
7/60
2/30
18/30
11/60
2/30
20/30
15
500,6k(Hz/i)
0/60
1/30
3/30
13/60
0/30
21/30
55/900
18/450
100/450
116/900
35/450
143/450
500,6k(Hz/d)
Total
Tabla No. 2. Hoja de resultados de evaluación del test (se indica el número de respuestas
incorrectas en relación al total de respuestas).
En la Tabla No. 2, se muestran, en cada test, las respuestas erróneas recibidas, con
33 respecto al total de respuestas, en cada caso. Además en la sección Audiometría, se
especifica las frecuencias con pérdidas auditivas y el oído afectado, aunque es importante
mencionar que todos los niveles de pérdida auditiva mencionados son aproximados.
Simbología mostrada en la tabla:
N:
Audiometría de carácter normal: espectro completo del umbral de audición,
alrededor de 0 y hasta 10 dB)
Ne: Audiometría de carácter normal con excepción: espectro completo del umbral
de audición, alrededor de 0 y hasta 10 dB; con umbral de audición sobre 15
dB en una sola frecuencia).
P:
Audiometría con pérdida auditiva: espectro completo del umbral de audición,
alrededor de 0 y hasta 10 dB; con umbral de audición sobre 15 dB en más de
una frecuencia.
k:
Kilo.
Hz: Hertz
i:
La deficiencia es en el oído izquierdo.
d:
La deficiencia es en el oído derecho.
A:
Test de sólo audio.
T.C.: Test convergente.
T.D.: Test divergente.
Test nº1: Test evaluado con el máximo nivel de presión sonora (82 dB aprox.).
Test nº2: Test evaluado con un nivel de presión sonora normal (65 dB aprox.).
La comparación de resultados se llevó a cabo en base a las siguientes categorías de
análisis: variación del porcentaje de error en la percepción auditiva de logatomos, entre los
test nº1 y nº2 y entre sus respectivos ítems. Variación del porcentaje de error en la
percepción auditiva de logatomos, entre los ítems I y II y entre los ítems I y III. Error en la
percepción de logatomos, producto de la confusión producida por el Efecto McGurk en
primera consonante en el tercer item. Y, finalmente se consideró la categoría de
diferenciación entre /v/ y /b/ en consonante final e inicial, entre los ítems I y II.
34 Se analizaron los resultados obtenidos en el test nº1, y test nº2 por separado y se
observó lo siguiente:
Test nº1: La percepción auditiva incorrecta de logatomos en el test de Sólo Audio o
ítem I, obtuvo un porcentaje de error del 6%. Dicho porcentaje disminuyó al 4% al ser
acompañado por una imagen visual articulatoria convergente, en el ítem II (Test
Convergente) y aumentó a un 22%, al ser acompañado por una imagen visual articulatoria
divergente, en el ítem III (Test Divergente).
Test nº2: La percepción auditiva incorrecta de logatomos en el test de Sólo Audio,
obtuvo un porcentaje de error del 13%. Dicho porcentaje disminuyó al 8% al ser
acompañado por una imagen visual articulatoria convergente y aumentó a un 32%, al ser
acompañado por una imagen visual articulatoria divergente.
Adicionalmente se percibió que cada porcentaje de error obtenido en el test nº1,
evaluado a un nivel de presión sonora de 82 dB aproximadamente (nivel máximo de
presión sonora posible en la sala), aumentó prácticamente al doble, cuando en el test nº2 ,
se hizo una evaluación disminuyendo el nivel de presión sonora a 65 dB aproximadamente
(nivel de presión sonora aproximado de una conversación normal).
Al deducir que las tendencias de las variaciones de los porcentajes de error
obtenidos, se repetían en ambas condiciones de evaluación del test, se decidió que al
analizar con mayor profundidad los resultados obtenidos, se haría considerando los
porcentajes de errores totales.
En general, la percepción auditiva incorrecta de logatomos en el test de Sólo Audio
o ítem I, obtuvo un porcentaje de error del 10%. Dicho porcentaje disminuyó al 6% al ser
acompañado por una imagen visual articulatoria convergente, en el ítem II o Test
Convergente. Igualmente, se vio que el porcentaje de error aumentó a un 27%, al
acompañar la señal auditiva con una imagen visual articulatoria divergente, en el ítem III o
Test Divergente, de donde aproximadamente la mitad de éste, es el porcentaje de error
debido a la confusión producida por el Efecto McGurk, con un 14%.
Al analizar los resultados del porcentaje de error producido en el reconocimiento de
la consonante final del logatomo, se observó que el porcentaje de error en el test de Sólo
Audio, disminuyó con respecto al test Convergente, desde un 7% a un 4%.
También se notó una disminución del porcentaje de error en el test de Sólo Audio,
con respecto al test Convergente, en la identificación correcta de /b/, en vez de /v/, en
consonantes iniciales y finales, desde un 4% a un 2%.
35 Tomando todos los resultados en consideración, se vio que la aplicación del test
arrojó como resultado que el porcentaje de error de la percepción auditiva de logatomos,
disminuyó en un 4% al ser acompañada la señal auditiva con una señal visual articulatoria
convergente y aumentó en un 17% al ser acompañada por una señal visual articulatoria
divergente.
A pesar de que los errores en la correcta percepción auditiva detectados tuvieron un
porcentaje parcialmente bajo, existieron, y eso es algo importante para tener en
consideración, ya que hay un porcentaje del grupo de sujetos de prueba, que está
comprendiendo con dificultades la información recibida, y en algunos casos, además, la
está interpretando erróneamente.
Es importante también destacar que en la aplicación del test Divergente, muchos
informantes comentaron la sensación de confusión y molestia, al esforzar su concentración
para tomar una decisión de lo que escuchaban, a pesar de escribir muchas veces un
logatomo correctamente.
A pesar de que esta investigación se centra en otro tema, cabe destacar una
consideración muy especial respecto a los resultados de las audiometrías: prácticamente la
mitad de los resultados de éstas, no fueron del todo aceptables, tomando en cuenta que las
personas evaluadas, son personas jóvenes de entre 18 y 27 años de edad. Las personas con
déficit de audición en un oído más que en otro, o en un solo oído, tenían en su gran mayoría
como común denominador la utilización casi permamente de audífonos para escuchar
música, y aproximadamente en su totalidad, era uso de audífonos insertados en el canal
auditivo y con un nivel elevado, es decir, un volumen sobre el 50% del volumen total. Ellos
además, comentaron que mantenían el audífono en un oído y con el mismo nivel aún en
conversaciones; esto coincidía con que en el oído que más utilizaban el audífono era el que
presentaba más pérdida auditiva. Por lo mismo se presume que ésta sea la causa de observar
gran pérdida en las frecuencias altas.
36 9.
CONCLUSIONES
La hipótesis planteada al comienzo de este trabajo de tesis: ‘Existe una relación
entre la percepción auditiva y visual’, ha sido confirmada por medio de los resultados
obtenidos, ya que el porcentaje de error de la percepción auditiva correcta de logatomos
disminuyó al ser apoyada por una imagen visual articulatoria convergente y aumentó al ser
apoyada por una imagen visual articulatoria divergente. Además al cumplir los objetivos
generales y específicos, fue posible desarrollar un estudio de comparación y una evaluación
a la relación existente entre la percepción visual articulatoria y la percepción auditiva; por
otra parte, se pudo diseñar, elaborar, registrar y aplicar un test visual-auditivo, lo que
permitió evaluar la variación del porcentaje de error de la percepción correcta de logatomos
entre señales sólo auditivas y señales con apoyos visuales; igualmente con la obtención del
test, se pudo comparar el comportamiento de la percepción auditiva en secuencias visualauditivas convergentes y divergentes.
También con el cumplimiento de los objetivos se descubrió, que similar a lo
provocado por el Efecto McGurk, al mezclar una señal auditiva de logatomos que
comiencen con la consonante /m/, con una señal visual que comience con la consonante /j/,
se produce una percepción auditiva de la consonante /n/, es decir, se percibe una
consonante nueva e inexistente, que no es ni la emitida en la señal visual ni en la auditiva.
Cabe destacar, que bajo el fundamento en que se basa este trabajo de Tesis, es
posible continuar esta investigación en futuros estudios, desde la línea base de resultados
obtenidos, modificando ciertos parámetros como por ejemplo evaluar el mismo test en
condiciones completamente desfavorables, ya que conforme se disminuyó el nivel de
presión sonora en un valor específico, el porcentaje de error de la percepción auditiva
correcto aumentó casi al doble. También con motivo de buscar una forma más
personalizada y controlada de la aplicación del test, sería interesante por ejemplo, evaluarlo
en algún laboratorio de computación; cada informante frente a un computador con
audífonos. Además se podría evaluar el aumento o la disminución de porcentajes de
aciertos, en la percepción auditiva, con logatomos que tengan otras características, o en otro
tipo de personas, por ejemplo en niños, que están comenzando sus etapas de aprendizaje
escolar. La modificación de estos parámetros permitiría futuros estudios comparativos.
Los resultados obtenidos pueden sostener futuras aplicaciones, en donde un refuerzo
visual articulatorio se podría agregar a algún mensaje entregado sólo auditivamente,
aumentando el porcentaje de una correcta percepción auditiva. Esto podría ser utilizado por
ejemplo en servicios públicos, en los cuales el nivel de presión sonora es afectado
significativamente por el alto nivel de ruido de fondo, lo que dificulta aún más una correcta
percepción auditiva. Podría ser aplicado en hospitales, estaciones de metro, aeropuertos,
lugares en los que generalmente la mayoría de las personas, no entienden las indicaciones o
informaciones dadas. También esto se podría aplicar en salas de clases, en supermercados
37 o sistemas de información, en donde es de suma importancia percibir correctamente la
información auditiva entregada.
Con respecto a las observaciones hechas sobre los resultados de las audiometrías, se
podría llevar a cabo una investigación más profunda del déficit auditivo enfocado en un
oído, ya que por ahora sólo se obtuvieron conclusiones y posibles causas a través de las
grafías de las audiometrías, en las que sus resultados se corrobaron con posteriores
informaciones reveladas por los mismos sujetos de prueba.
Como consideración final, es importante mencionar que con este trabajo de Tesis, se
pudo dar cuenta y tener un acercamiento a la amplia gama de conocimientos, disciplinas y
condiciones que debe reunir y dominar un Ingeniero Civil Acústico, ya que se puede
desenvolver sin problemas, en el área de mediciones acústicas, grabación y edición de
material sonoro y visual, manejo de equipamiento y actividades de refuerzo sonoro, áreas
de lingüística, de gestión y logística, medición y lectura de audiometrías, entre otras.
Además para cumplir los objetivos, en el desarrollo de este trabajo, se persiguió resolver los
problemas que se interpusieron en el camino, de la forma más rápida, eficaz, eficiente y
económica posible, cuidando siempre, de cumplir la palabra de compromiso en cuanto a
fechas y horarios previamente establecidos, las cuales son la base para un buen desempeño
ingenieril.
38 10.
REFERENCIAS Y BIBLIOGRAFÍA
[1]
Tendencias Científicas , (2007), La audición es tan importante como la
visión para formar ilusiones ópticas, Extraído el 30 de Enero de 2012 de la
página web: http://www.tendencias21.net/La-audicion-es-tan-importantecomo-la-vision-para-formar-ilusiones-opticas_a1523.html
[2]
David Casadevall, (2010), El efecto Mc Gurk, Extraído el 5 de Febrero de
2012 del Blog AcústivaWeb: http://acusticaweb.com/blog/psicoacustica-ycerebro/380-el-efecto- mcgurk-.html
[3]
Soto Sanfiel, M.T., Influencia de la percepción visual del rostro del hablante
en la credibilidad de su voz, Tesis de Doctorado. Departamento de
Comunicación Audiovisual y de Publicidad, Universidad Autónoma de
Barcelona, (2000).
[4]
Marrero Aguiar, V., La fonética perceptiva: trascendencia lingüística de
mecanismos neuropsicofisiológicos, Estudios de Fonética Experimental,
XVII, Pág. 207, (2008).
[5]
Quillis, A., Tratado de fonología y fonéticas españolas, 2da edición,
Editorial Gredos, Madrid, (1999).
[6]
Hidalgo Sagredo, J.A., Elaboración de un copus de logatomos fonéticamente
balanceados para la evaluación de la inteligibilidad de la palabra en español,
Tesis de Pregrado, Facultad de Ciencias de la Ingeniería, Universidad
Austral de Chile, (2011).
[7]
Llisterri, J., Introducción a la fonética: el método experimental, Editorial
Anthropos, Barcelona(1991).
[8]
Poyatos, F., La comunicación no verbal, 1era edición, Vol. I y II, Biblioteca
Española de Lingüística y Filología, Ediciones Istmo, Madrid, (1994).
[9]
Sommerhoff, J., Rosas, C., Corpus para un test de articulación en español,
Universidad Austral de Chile, Ingeacus, documento S035.pdf. (2011).
[10]
Sommerhoff, J., Rosas, C., Logatom corpus for the assessment of the
intelligibility in Spanish speaking environments and its relation with STI
measurements, Applied Acoustic, Volume 73, Issue 11, November 2012,
Pages 1190–1200.
39 [11]
Gerges, S.N.Y, Arenas, J.P., Fundamentos y Control del Ruido y
Vibraciones, 2da edición, NR Editora, Florianópolis, (2010).
[12]
Apuntes de la Asignatura ‘’Imagen e Iluminación’’. Profesor Alfio Yori,
Instituto de Acústica, Universidad Austral de Chile.
[13]
G. Kópecks, (2009), El efecto McGurk, Extraído el 14 de Julio de 2012 del
Blog
Museo
de
la
Ciencia:
http://museodelaciencia.blogspot.com/2009/01/efecto-mcgurk.html
[14]
Rodríguez González, M.Á., Lenguaje de Signos, Tesis de Doctorado,
Confederación Sordos de España, Fundación ONCE, (1992).
[15]
Rodríguez García, S., Smith-Ágreda, J.M., Anatomía de los órganos del
lenguaje, visón y audición, , 2da edición, Editorial Médica Panamericana,
Madrid, (2003).
[16]
Apuntes de la Asignatura ‘’Acústica Musical’’. Prof. Daniel Maggiolo,
Escuela de Música, Universidad de la República, Uruguay.
[17]
Jones, R., Inteligibilidad del habla, Meyer Sound, Parte 1, (2009).
[18]
Poblete, V. “Calibración de audiómetro y evaluación auditiva”. Valdivia,
Universidad Austral de Chile (2008).
[19]
Apuntes de la Asignatura ‘’Fundamentos de la Acústica’’. PhD. Jorge
Arenas, Instituto de Acústica, Universidad Austral de Chile.
40 11.
ANEXOS
A continuación se muestran los resultados de las audiometrías obtenidas según
cada sujeto de prueba:
•
Informante No. 1:
•
Informante No. 2:
41 •
Informante No. 3:
•
Informante No. 4:
42 •
Informante No. 5:
•
Informante No. 6:
43 •
Informante No. 7:
•
Informante No. 8:
44 •
Informante No. 9:
•
Informante No. 10:
45 •
Informante No. 11:
•
Informante No. 12:
46 •
Informante No. 13:
•
Informante No. 14:
47 •
Informante No. 15:
48 
Descargar