Universidad Austral de Chile Facultad de Ciencias de la Ingeniería Escuela de Ingeniería Civil Acústica Profesor Patrocinante: PhD. Jorge Arenas Bermúdez Instituto de Acústica Universidad Austral de Chile Profesora Co-Patrocinante: Dra. Claudia Rosas Aguilar Instituto de Lingüística y Literatura Universidad Austral de Chile Profesor Informante: Ing. Rodrigo Torres Alarcón Instituto de Acústica Universidad Austral de Chile “ESTUDIO SOBRE EL EFECTO DE LA INFORMACIÓN VISUAL ARTICULATORIA EN LA PERCEPCIÓN AUDITIVA” Tesis para optar al grado de: Licenciado en Acústica Y al Título Profesional de: Ingeniero Civil Acústica. REINA ANGELINA CANTO CRUZ VALDIVIA – CHILE 2012 AGRADECIMIENTOS A Dios por todo lo que me ha regalado, por ayudarme y permitir que llegara al final de este largo camino que muchas veces, y aún en el final, por duros golpes de la vida, me pareció imposible terminar. A mi familia; mi padre Juan, mi madre Dorila, mi hermana Carolina, mis tías Patricia y Carmen, mis primas Marcela y Magdalena, por su apoyo y amor incondicional en este proyecto y a través de toda mi vida. A mi novio Ibon por su amor incondicional, comprensión, respeto, paciencia y apoyo, cosas que me ayudaron a finalizar esta etapa. A los Profesores Jorge Arenas, Claudia Rosas, Rodrigo Torres y Jorge Sommerhoff, por su enorme disposición, paciencia, responsabilidad, gran desempeño como docentes y guías académicos, gran dedicación y profesionalismo, cosas que me ayudaron de gran manera para poder realizar esta Tesis. A Víctor Cumián, Carolina Pontigo e Hilda Negrón, por su amabilidad, disposición y cariño entregado en la Escuela e Instituto de Acústica de la Universidad Austral de Chile, durante el tiempo de estudios y principalemente en el desarrollo de este trabajo. A mis amigas, Carola, Yarela y Pamela, por ser mis pilares fundamentales, durante el tiempo dedicado a estudiar y realizar mi Tesis, fuera de mi hogar; por quererme, acompañarme, ayudarme y apoyarme tanto. También a Viviana Saldivia, por su compañía y gran ayuda en la búsqueda de información para realizar esta Tesis. Al Locutor, a los Informantes de este trabajo, a mis compañeros de carrera, en especial a Nicolás Ll., Matías D. Juan H. y Roger A., por su gran disposición, cooperación, paciencia, responsabilidad, apoyo, buen desempeño, y cariño entregado en esta investigación. Agradezco además a Alexcy Cárdenas, por su valiosa confianza, buena volutad y ayuda prestada, en una de las etapas más importantes del desarrollo de esta tesis. A los Pastores Enós Mardones y su esposa Maritza Sotomayor, Héctor Lazo y Esposa. Por sus valiosos consejos, su preocupación y apoyo espiritual entregados durante este período. Por último, agradezco a todas las personas que de una u otra forma han ayudado, colaborado y aportado positivamente en mi formación profesional, en especial a Nelson Ribbeck, Tía Anita, Tía Rosalía, Tía Olga y Tío Carlitos. Dedico este trabajo de titulación a mi padre Juan, a mi hermana Carolina, a mi novio Ibon, y a la memoria de mi madre Dorila. ii ÍNDICE 1. Resumen………………………………………………………………….……………. v 2. Abstract……………………………………………………….……….……………….. vi 3. Abstrato.………………………………………………………………...…..………..... vii 4. Introducción………………………………………………….…………………...……. 1 5. Objetivos……….........……………………………………….………………...………. 3 5.1 Hipótesis………………………………………………………………........…....... 3 5.2 Objetivo General………………………………………….……………...……....... 3 5.3 Objetivos Específicos……………………………………………...…………........ 3 6. Base Teórica ………………………………………………….……………………...... 4 6.1 El Sonido…………………………………………………………………...……... 4 6.2 La Comunicación Verbal………………………………………………………..… 6 6.3 Inteligibilidad de la palabra……………………………………………………..… 8 6.4 Aparato Auditivo y Visual……………………………………………………........ 9 6.4.1 Aparato Auditivo……………………………………………………..…...... 9 6.4.1.1 Oído Externo…………………………….………………………... 10 6.4.1.2 Oído Medio………...……………………………………...……… 11 6.4.1.3 Oído Interno………………………………………………...…….. 11 6.4.2 Aparato Visual…………………………………………………………........ 13 6.5 Cerebro Humano………………………………………………………………...... 14 6.6 Efecto McGurk…………………………………………………………………… 17 6.7 Aspectos Lingüísticos…………………………………………………………...… 19 6.7.1 Fonética………………………...……………….…………………………... 19 6.7.2 Fonología……………………………………………………………...……. 19 iii 7. Materiales y Métodos…………………………………………………………………. 21 7.1 Plan de Trabajo…………………………………………………………………..... 21 7.1.1 Selección Justificada y Fundamentada de Logatomos………………...…… 21 7.1.2 Elección de la Sala………………………………………………………..… 22 7.1.3 Elección y entrenamiento del Locutor……….………………………......…. 23 7.1.4 Selección de Informantes………………………………………….....…...… 24 7.1.5 Proceso de Grabación y Edición…………………………………………..... 25 7.1.6 Indicaciones dadas a Informantes…………………………………………... 29 7.1.7 Aplicación del test……………………………………………………......… 30 8. Análisis de Resultados……………………………………………………………......... 33 9. Conclusiones………………………………………………………………..……….… 37 10. Referencias y Bibliografía……………………………………………………………. 39 11. Anexos..............................……………………………………………………………. 41 iv 1. RESUMEN En la percepción de los sonidos confluyen una serie de procesos de diferente naturaleza que, gracias a la propiedad de integración del ser humano, pueden ser percibidos como una unidad, ello por la relación interactiva que existe entre oído y visión, que integra y sintetiza la información disponible en ambos canales. El resultado de dicha integración es una unidad de creencia formada por la combinación de ambos canales que no obedece a una información fragmentada o parcial de sus componentes, sino a una actuación en conjunto. Por esta razón, su estudio requiere considerar aspectos de carácter variado, que responden a la complejidad del fenómeno: articulatorio, acústico, auditivo, comunicacional, y visual. No obstante la importancia del fenómeno descrito, sólo se tiene conocimiento de una experiencia que demuestra el efecto, aunque sin detalles de alcance científico. Con base en lo anterior, en este estudio se pretende demostrar, cómo, en qué grado y forma, la percepción visual de los gestos articulatorios puede determinar lo que se percibe auditivamente y puede aumentar o disminuir dicha percepción en una determinada sala o recinto. Para ello se ha elaborado un test audiovisual que se aplica a 15 estudiantes universitarios quienes transcriben lo que escuchan, o creen escuchar. La aplicación del test se divide en dos partes: convergente y divergente. En la primera, convergente, se presenta un video donde un locutor articula una serie de logatomos en donde el sonido se corresponde con la imagen (gesto articulatorio) que lo produce, en la segunda parte, divergente, se presenta un video donde un locutor articula una serie de logatomos en los cuales el sonido no coincide con el gesto articulatorio. La selección de los logatomos que integran el test se extrajo a partir del ‘Corpus para un test de articulación en español’ de Sommerhoff y Rosas de acuerdo a los fonemas con los cuales se ha demostrado el Efecto McGurk con el fin de obtener resultados comparables. La aplicación del test arrojó como resultado que, en general, el porcentaje de error de la percepción auditiva de logatomos, disminuyó en un 4% al ser acompañada la señal auditiva con una señal visual articulatoria convergente y aumentó en un 17% al ser acompañada por una señal visual articulatoria divergente. Los resultados obtenidos permiten corroborar la hipótesis planteada en esta investigación: ‘existe una relación entre la percepción auditiva y visual” refrendando la experiencia que motivó la investigación de manera inicial; también dicho conocimiento permitirá una aplicación práctica a la hora de diferenciar o incrementar la confianza sobre algún mensaje recibido auditivamente, contribuyendo al mejoramiento de la comunicación en los diferentes ámbitos donde ésta se manifiesta. Palabras Claves: percepción auditiva, percepción visual, fonética articulatoria, logatomos, efecto McGurk. v 2. ABSTRACT A series of processes of different nature converge in sound perception, which thanks to the human being integration property, can be perceived as a unit, that is for the interactive relationship that exists between hearing and vision, which integrates and synthesizes the available information in both channels. The result of such integration is a unit of belief formed by the combination of both channels that does not obey to fragmented or partial information of its components, but to acting in group. For this reason, its study requires to consider different aspects that respond to the complexity of the phenomenon: articulatory, acoustic, auditory, communication, and visual. In spite the importance of the described phenomenon, one has only has knowledge of one experience which demonstrates the effect, although without any details of the scientific reach. Based on the previous statement, this study aims to demonstrate how, in which grade and manner the visual perception of articulatory gestures can determine which it is perceived in an auditory way and can increase or diminish such perception in a determined room or place. In order to do that, an audiovisual test has been elaborated that is applied to 15 college students who transcribe what they hear, or believe to hear. The test application is divided into two parts: convergent and divergent. In the first one, convergent, a video in which the speaker articulates a series of logatomes in which the sound match the articulatory gesture is presented; and in the second one, divergent, a video in which the speaker articulates a series of logatomes in which the sound does not match the articulatory gesture is presented. The logatomes selection that integrates the test was extracted from the ‘Corpus para un test de articulación en español’, written by Sommerhoff and Rosas according to the phonemes in which the McGurk effect has been demonstrated, in order to obtain comparable results. The application of this test showed that in general, the error rate in the auditory perception of logatomes, decreased by 4% to be accompanied the auditory signal with a signal visual articulatory convergent and increased by 17% to be accompanied by a signal visual articulatory divergent. The results obtained allow to corroborate the hypothesis stated in this research: “it exists a relationship between auditory and visual perception which motivated the research in its beginnings; besides, such knowledge will allow a practical application when differentiating or increasing the confidence of some received auditory message, contributing to communication improvement in different aspects in which it manifests itself. Key Words: auditory perception, visual perception, articulatory phonetics, logatomes, McGurk effect. vi 3. ABSTRATO Na percepção dos sons, confluem uma serie de processos de diferentes natureza, e graças ao domínio de integração do ser humano, podem ser percebidos como uma unidade, e pela relação interativa que existe entre o ouvido e visão, que integram e sintetiza a informação disponível em ambos canais. O resultado desta integração é uma unidade de crença formada pela combinação de aqueles canais que não obedece a uma informação fragmentada ou parcial de seus componentes, e sim, a uma atuação em conjunto. Por esta razão, seu estudo requer considerar aspectos de caráter variado, que respondem a complexidade do fenômeno: articulatório, acústico, auditivo, comunicativo e visual. Apesar da importância do fenômeno, só se tem conhecimento de uma experiência que demonstre o efeito, embora sem detalhes de âmbito científico. Com base no estudo anterior, este estudo pretende demonstrar, como, e em que grau e forma, a percepção visual dos gestos articulados podem determinar a percepção auditiva podendo aumentar ou diminuir em uma determinada sala ou recinto. Para isso, um teste foi utilizado com 15 estudantes universitários, que transcrevem o que escuta ou crêem escutar. A aplicação do teste se divide em duas partes: convergentes e divergentes. Na primeira, convergente, se apresenta um video onde um locutor articula uma serie de logatomos onde o som se corresponde com a imagem (gestos articulados). Na segunda parte, divergente, se apresenta um video donde um locutor articula uma serie de logatomos em quais o som não coincide com o gesto. A seleção dos logatomos que integram o teste se extraiu do “Corpus para un test de articulación en español ” de Sommerhoff y Rosas de acordo com os fonemas com os quais se a demonstrado em Efeito McGurk com o fim de obter resultados comparáveis. Na aplicação do teste, o resultados dos ensaios mostraram que, em geral, a taxa de erro de percepção auditiva de logatomos, teve uma redução de 4% ao ser acompanhado pelo sinal auditivo e visual articulatório convergente, e a um aumento de 17% ao ser acompanhado por uma sinal visual articulatória divergente. Os resultados obtidos permitem colaborar com as hipóteses estabelecidas nesta investigação: “existe uma relação entre a percepção auditiva e visual” endossando a experiência que motivou a investigação de maneira inicial; com este conhecimento permitira uma aplicação pratica na hora de diferenciar ou incrementar a confiança sobre alguma mensagem auditiva recebida, contribuindo para a melhor comunicação nos diferentes âmbitos onde esta se manifesta. Palavras Chaves: percepção auditiva, percepção visual, fonética articulatória, logatomes, Efeito McGurk. vii 4. INTRODUCCIÓN Existe una rama de la física que se preocupa del estudio de todos los fenómenos asociados a la emisión, transmisión y recepción del sonido; ésta ciencia se llama Acústica. Dentro de esta disciplina se encuentra la Psicoacústica, que estudia la relación que existe entre las propiedades físicas del sonido y la interpretación que hace de ellas el cerebro; aquí se inscribe un gran fenómeno que se investiga hace aproximadamente cincuenta años, y trata sobre ciertas confusiones perceptivas, como por ejemplo cuando una imagen puede influir en lo que se escucha, debido a que nuestro cerebro genera ilusiones en la visión y audición, por la rápida combinación de estas sensaciones, que no son procesadas en el cerebro por separado, sino que se procesan simultáneamente [1]. Una de las primeras cosas que se comprobó fue que al poder mirar a una persona que nos esté hablando mejora la intensidad de lo que se escucha hasta en unos 15 dB aproximadamente [2]. Teniendo en cuenta estos antecedentes, en esta investigación se trabajará en base a la siguiente hipótesis: ’Existe una relación entre la percepción auditiva y visual’ En la percepción de los sonidos confluyen una serie de procesos de diferente naturaleza que, gracias a la propiedad de integración del ser humano, es posible percibirlos como una unidad, ya que existe una relación interactiva entre oído y visión, por la que se integra y sintetiza la información disponible en ambos canales. El efecto de esta integración visual-auditiva, es una unidad de creencia formada por la combinación de dichos canales que no obedece a la información fragmentada o parcial de sus componentes, sino que actúan en conjunto [3]. De ahí que su estudio requiera considerar esos aspectos que hacen posible que este fenómeno se lleve a cabo: los aspectos articulatorios, que son la emisión o producción del sonido, los aspectos acústicos, que incluyen la transmisión del sonido, los auditivos, que son la percepción del sonido, los que hacen posible el acto del habla y su decodificación en el cerebro y, finalmente, los aspectos visuales que tienen, en este caso, una tarea complementaria, como por ejemplo aportar inteligibilidad en situación de degradación sonora. El proceso de las percepciones visual-auditiva, se inicia cuando un sonido se transmite, debido a las variaciones de presión que llegan al oído, donde el tímpano las convierte en impulsos nerviosos que se transmiten al cerebro [4]. Cabe destacar que en lo concerniente a percepción auditiva de palabras o letras, la percepción de las consonantes es más difícil que la de las vocales; esto es debido a las características acústicas de una y de otra; las consonantes tienen menos componentes armónicos, menor intensidad, menor duración y finalmente la utilización de diferentes tipos de clave para identificarlas entre ellas. Por último, con respecto a la visión, ésta comienza con la entrada de rayos de luz en el ojo, a través de la córnea, pasando por la pupila y su focalización en la retina y el nervio óptico hasta llegar al cerebro, donde es interpretada toda la información de lo que vemos. En este estudio se pretende demostrar, de acuerdo a los antecedentes que se han logrado recabar sobre la evolución conjunta del sistema visual y auditivo en el procesamiento del habla, cómo, en qué grado y forma, la percepción visual de los gestos 1 articulatorios puede determinar lo que se percibe auditivamente, mediante el diseño y aplicación de un test audiovisual ad-hoc que considera las dos perspectivas del fenómeno perceptivo visual y auditivo. Este conocimiento permitirá una aplicación práctica a la hora de diferenciar o incrementar la confianza sobre algún mensaje recibido auditivamente, contribuyendo al mejoramiento de la comunicación en los diferentes ámbitos donde ésta se manifiesta. 2 5. OBJETIVOS 5.1 HIPÓTESIS • Existe una relación entre la percepción auditiva y visual. 5.2 OBJETIVO GENERAL • Evaluar la relación entre la percepción visual-articulatoria y la percepción auditiva. 5.3 OBJETIVOS ESPECÍFICOS • • Diseñar un test visual-auditivo para evaluar la variación de la percepción auditiva correcta con y sin apoyos visuales. Comparar el comportamiento auditivo en emisiones visual-auditivas convergentes y divergentes. 3 6. BASE TEÓRICA Es indispensable tener conocimientos sobre los términos fundamentales y ciertos tópicos con los que se trabajará, explícita e implícitamente, durante toda la investigación. Es por esto que a continuación se presenta un marco teórico, donde se abordan los conceptos necesarios para comprender este estudio y sus propósitos. 6.1 El Sonido El sonido es una propagación de cambios de densidad que transfiere energía a través de un medio elástico; para producirlo es necesario un objeto vibrando y un medio de transmisión que debe poseer masa y elasticidad. El medio elástico en el que se transmite el sonido generado por el habla es el aire. Cuando un objeto vibra, lo hace como un todo, en mitades, tercios, cuartos, quintos, etc.; es así como se producen los armónicos, que son múltiplos de la frecuencia fundamental, siendo ésta la tasa a la cual una onda sonora se repite a sí misma. Todos los objetos que vibran tienen una frecuencia natural a la cual vibran más intensamente y se denomina la frecuencia de resonancia. Desde el punto de vista acústico, el sonido posee las siguientes propiedades: Longitud de onda: es la distancia espacial que ocupa un ciclo vibratorio. Frecuencia: es el número de vibraciones que suceden en un segundo, y es medida en ciclos por segundo o Hertz. Intensidad: corresponde a la fuerza con la cual el objeto es puesto a vibrar, además se relaciona con la amplitud de las vibraciones y la cantidad de energía que pasa por una superficie en un tiempo determinado. En el aparato fonador la amplitud de desplazamiento de las cuerdas vocales es mayor que cuando se encuentran en reposo, siendo entonces proporcional a la energía que se emplea en la producción del sonido. Tono: es una propiedad subjetiva, que varía con respecto a la frecuencia, pareciendo más agudo o más grave si la frecuencia es más alta o más baja, respectivamente. Timbre: es una cualidad sonora que depende del patrón de armónicos, el ataque y el decaimiento del sonido. Es el matiz que distingue dos sonidos de igual tonalidad e intensidad. En el tracto vocal, el timbre se caracteriza por las resonancias mismas de éste (denominadas formantes) o las resonancias compuestas de ruidos producidos en la boca, generados por el aire que pasa por la laringe sin hacer vibrar las cuerdas vocales. Duración: tiempo en el cual se manifiesta un sonido. En el ser humano, específicamente en el ámbito del habla, esta propiedad es directamente proporcional con el trabajo muscular y la tensión. 4 Existe un área de estudio del sonido, que va ligada al ser humano, y tiene relación en cómo una persona produce y articula determinados sonidos para comunicarse, a través de su voz. El sistema vocal del ser humano se puede dividir en tres partes: Aparato respiratorio, que es donde se almacena y circula el aire y en el cual están involucrados la nariz, la tráquea, los pulmones y el diafragma. Aparato de fonación, que es donde el aire se convierte en sonido involucrando la laringe y las cuerdas vocales. Aparato resonador, es donde el sonido adquiere sus propiedades y en el cual están involucrados la cavidad bucal, la faringe, el paladar óseo, los senos maxilares y frontales. La corriente de aire que proviene de los pulmones sufre una serie de transformaciones cuando pasa por el aparato fonador y se convierte en sonido. La voz humana se produce en la laringe. El aire que proviene de los pulmones es forzado en la espiración mediante la glotis, lo cual hace vibrar las cuerdas vocales. El sonido producido por la vibración de las cuerdas vocales es débil, por lo que es necesaria una amplificación. La amplificación tiene lugar en los resonadores nasal, bucal y faríngeo. La vibración de las cuerdas vocales determina el tono y la intensidad del sonido, pero su espectro es determinado por las resonancias del tracto vocal. Las vocales son producidas como sonidos más bien puros, mientras que las consonantes son consideradas como ruidos. Después que la voz sale de los resonadores, es forjada y moldeada por los órganos articulatorios (labio, lengua, paladar, dientes, alvéolo), y es transformada en los sonidos del habla, fonemas, sílabas y palabras. Entonces cada sonido emitido por la voz está determinado por la posición particular que adopten los órganos articulatorios. Figura 1. Esquema ilustrativo del Aparato Fonador Humano y Órganos Articulatorios. ! (! La producción física de los sonidos emitidos por un orador, es estudiada por una disciplina llamada Fonética Articulatoria (también llamada Fonética Fisiológica); ésta se preocupa de los órganos articulatorios involucrados en la producción del sonido oral y la disposición particular que adoptan para producir diferentes segmentos fónicos. Un lenguaje determinado usa segmentos fónicos reconocibles que componen los sonidos del habla. Las personas conocedoras de una determinada lengua, aprenden a clasificar los diferentes segmentos sónicos y a utilizarlos según la idea o información que quieran o necesiten expresar. El sonido también puede tener un enfoque desde la percepción de éste, siendo la percepción sonora el resultado final de un conjunto de procesos psicológicos que se desarrollan en el sistema auditivo central, los que interpretan cada sonido recibido. Primero el sonido es detectado, luego discriminado e identificado, posteriormente es reconocido y finalmente es comprendido e interpretado. La ciencia que estudia la percepción del sonido, desde el punto de vista psicológico, se llama Psicoacústica, y tiene relación con la forma en que son percibidas las características y propiedades del sonido en el cerebro. También existe una disciplina del área Lingüística, específicamente de la fonética, que se ocupa de la percepción de los sonidos por parte del oyente; ésta es la fonética acústica. 6.2 La Comunicación Verbal Es el intercambio verbal entre un sujeto hablante, que produce un enunciado destinado a otro sujeto oyente. Desde el punto de vista psicolingüístico, es el proceso en el cual la significación que un locutor asocia a los sonidos es la misma que la que el oyente asocia a estos mismos sonidos. Al transmitir el enunciado (una determinada información), de un lugar a otro verbalmente, se desarrolla el sistema de comunicación oral que está formado por los siguientes elementos: Emisor, que es el origen de lo que se va a comunicar; es decir, el hombre; Canal de transmisión, que es el medio físico utilizado para que viaje la información; en este tipo de comunicación, el canal es el aire portador de las ondas acústicas; Transmisor, es lo que hace pasar la información desde el emisor hasta el canal, o sea, el aparato vocal (fonador) del ser humano, que transforma la información en ondas sonoras. El emisor y el destino están unidos por medio de un Receptor, que realiza la decodificación del mensaje. En este caso, es el oído que transforma las ondas sonoras en actividad nerviosa en su punto de destino; Destino, es donde se recibe el mensaje o el último destinatario que también es el hombre [5]. 6 Figura 2. Esquema ilustrativo del Proceso de la Comunicación Verbal. El proceso que se lleva a cabo en el sistema anteriormente descrito, comienza en el cerebro del hablante o emisor cuando se produce la codificación: la información se estructura lingüísticamente con respecto a los códigos de la lengua utilizada; este mensaje es transmitido en forma de impulsos nerviosos a los órganos fonadores, quienes originan una onda acústica. Esta onda llega al oído del oyente en forma de señales acústicas que se transmiten al cerebro, donde se produce la decodificación del mensaje y, finalmente, la interpretación del mismo. La base de la comunicación oral es la voz, que tiene una frecuencia fundamental en el rango de 100 a 400 Hz. El promedio está cerca de los 100 Hz para los hombres y 200 Hz para las mujeres; ésta articula sonidos que tienen significados específicos, los que constituyen el mensaje. En el habla, la voz tiene un rol fundamental y para producirla el cuerpo humano debe realizar acciones en las que interactúan diversos elementos. Los más importantes son los siguientes: la fuente energética, que produce el aire a presión impulsado desde los pulmones durante la espiración; el órgano vibratorio, donde el aire produce la vibración tonal al atravesar la abertura (glotis), entre las cuerdas vocales; las cajas de resonancias, donde el aire que proviene de la laringe puede ser modificado mediante resonancias producidas por las fosas nasales, la cavidad bucal y la faringe; el sistema de articulación del sonido, donde el sonido adquiere una pronunciación definitiva por la acción de la lengua, labios, dientes y úvula [6]. ! *! 6.3 Inteligibilidad de la palabra Es una medida de la capacidad de comprensión del material lingüístico articulado, o sea, la efectividad de comprensión de la voz hablada [7]. Es el parámetro acústico más importante para definir la calidad acústica de un lugar diseñado para la comunicación hablada. Ciertamente, existen factores que disminuyen la inteligibilidad de la palabra, es decir, que producen una pérdida de información. Entre los elementos que influyen en esta degradación, se encuentran el ruido, la duración, el enmascaramiento (intrusión de sonidos indeseados que interfieren en la señal del habla) y la reverberación (fenómeno acústico que se da en recintos, donde se refleja el frente de onda incidente sobre las paredes, suelo y techo de éste). Una situación muy común es que los ruidos de fondo enmascaren el habla. Cuando la reverberación es causada por el habla, imita al espectro de la voz, pero con mayor energía en frecuencias bajas. Es por esto que la reverberación y el eco suelen funcionar como múltiples voces perturbadoras y como llegan desde todos los ángulos, hace difícil una separación entre ella y la señal real del habla. A pesar de todos estos factores adversos a una buena percepción del habla, se ha comprobado que en situaciones de degradación sonora, un apoyo visual articulatorio puede aportar positivamente en la inteligibilidad de la palabra. En este contexto, es de suma importancia destacar un elemento que afecta directamente a la inteligibilidad de la palabra; este factor corresponde a la quinésica, definida como el estudio de los fenómenos que forman la expresión somática (corporal) del hombre, quien ofrece información adicional a lo que se está diciendo. Esto ocurre ya que las posiciones corporales, los gestos manuales, las expresiones faciales y la expresividad de la mirada, complementan la información entregada verbalmente por un orador, puesto que también, en conjunto con las ideas que va entregando éste, transmite significados [8]. Esto influye directamente en la inteligibilidad de la palabra, pues en situaciones de degradación sonora, los oyentes pueden poner una mayor atención a la expresión somática del orador, con lo que le sería posible entender lo que se está informando. Además, la quinésica puede, en algunas ocasiones, anticipar el mensaje verbal que sigue, y suplir las deficiencias verbales del orador o acústicas de un recinto. La evaluación de la inteligibilidad de la palabra se hace por medio de procedimientos objetivos y subjetivos. Los métodos objetivos utilizan máquinas cuyos resultados se relacionan con los entregados por métodos subjetivos. El método objetivo más importante es el STI (del Inglés “Speech Transmission Index”, índice de transmisión del habla), que es un algoritmo cuyos valores varían desde el valor 0 (completamente inentendible) a 1 (perfectamente entendible). Al medir con este método, el sonido de la palabra es modelado por una señal de prueba especial con características representativas de la voz humana y emplea un complejo esquema de modulación de amplitud que genera señales de prueba. En la unidad de recepción del sistema de comunicación, la profundidad 8 de modulación de la señal recibida es comparada con la profundidad de modulación de la señal de prueba para un número específico de bandas de frecuencias. Las reducciones en la profundidad de modulación son asociadas a la pérdida de inteligibilidad. Para evaluar la inteligibilidad mediante procedimientos subjetivos se hacen pruebas de articulación a oyentes, que cuantifican la cantidad de sílabas, palabras o frases que ellos escriben correctamente luego de oírlas [6]. Una vez aplicadas las pruebas, hay diversas formas de analizar los resultados; este análisis depende de las características exclusivas de las listas de las palabras utilizadas y de las variables evaluadas. Generalmente, se establecen valores porcentuales que indican las veces en las cuales el oyente identifica correctamente la sílaba, palabra o frase que está siendo evaluada. Las pruebas de articulación para el español utilizan listas de estructuras silábicas. En esta investigación se analizará y cuantificará con porcentajes, la percepción auditiva correcta, por medio de listados de estructuras silábicas sin significado, llamadas logatomos que poseen una estructura de consonante-vocalconsonante (CVC). Se trabajará en base a la lista de logatomos publicada en el estudio ‘Corpus para un test de articulación en español’, desarrollado por Rosas y Sommerhoff [9], ya que se trata de la lista más completa encontrada hasta el momento [10]. 6.4 Aparato Auditivo y Visual 6.4.1 Aparato Auditivo El aparato auditivo cumple principalmente la función de equilibrio y audición; es un sistema enormemente discriminante, sensible, complejo y delicado, que recibe, decodifica y procesa los mensajes de la comunicación lingüística además de percibir e interpretar el sonido. El sistema auditivo periférico es el oído, y está dividido básicamente en tres partes: oído externo, medio e interno. El oído externo y medio se ocupan de trasmitir el sonido al oído interno, y el oído interno se encarga de procesar el sonido. Además, al contener el órgano del equilibrio, se encarga también de mantener un balance homogéneo. A continuación se detallan las tres porciones en las que está dividido el oído humano: 9 Figura 3. Esquema ilustrativo del Oído Humano. 6.4.1.1 Oído Externo Esta parte del oído humano está formado por el pabellón (oreja), canal auditivo y finalmente el tímpano. El pabellón tiene una forma diseñada para recoger y transmitir las ondas sonoras hacia el canal auditivo por medio de reflexiones y difracciones, las que posteriormente excitan el tímpano. El canal auditivo mide aproximadamente 25 milímetros y conduce el sonido al tímpano; éste posee también una función higiénica, además de proteger al oído de los ruidos intensos, debido a las glándulas sebáceas y la vellosidad. El tímpano, por su parte, es una membrana elástica que vibra cuando es excitada por las ondas sonoras. Con esto se inicia el proceso que convierte dichas ondas en impulsos nerviosos, los que posteriormente viajan al cerebro. Esta estructura separa al oído externo del oído medio y funciona como una barrera protectora de elementos externos, como por ejemplo bacterias. ! $-! 6.4.1.2 Oído Medio Es una cámara de aire ubicada en la caja o cavidad timpánica, entre el oído externo y el oído interno, separada del oído externo por medio de la membrana timpánica. Está compuesto por los huesecillos u osículos y la trompa de Eustaquio; actúa como un amplificador sonoro, ya que aumenta las vibraciones del tímpano a través del enlace por ligamentos de éste con tres pequeños huesos: martillo, yunque y estribo. Este último está ligado a una membrana (en la cóclea), llamada ventana oval. La cóclea tiene forma de espiral cónica (o caracol) y recibe todos estos movimientos. Los huesecillos transmiten las vibraciones provenientes del tímpano hacia el oído interno, disminuyendo la amplitud y aumentando la presión de las ondas sonoras, produciéndose un efecto de palanca entre los tres huesos. Esta variación de presiones es altamente importante y necesaria, ya que la impedancia acústica del tímpano es mucho menor a la del oído medio, el cual contiene líquido. El amortiguamiento y revestimiento de los movimientos de los osículos está a cargo de dos músculos: músculo del estribo y músculo tensor del tímpano; ambos músculos, protegen el oído interno de los ruidos intensos y súbitos que pueden causar lesiones y lo hacen aumentando su rigidez, disminuyendo la eficiencia mecánica y disipando gran parte de la energía antes de que llegue al oído medio. Cabe destacar que cuando una persona habla, envía señales colaterales a los músculos del oído para disminuir su sensibilidad auditiva, de manera que su propia palabra no estimule en exceso los mecanismos de audición. El oído medio contiene importantes elementos para proteger el sistema de audición, como por ejemplo la trompa de Eustaquio, que está unida a la cavidad nasofaríngea, para equilibrar la presión del aire; esto lo hace igualando la presión del oído medio con la presión atmosférica, abriendo y cerrándose en forma refleja. Ante cambios bruscos de presión (disminución o aumento), se produce una deformación del tímpano, reduciendo considerablemente la respuesta auditiva, sobre todo en frecuencias altas. 6.4.1.3 Oído Interno En el oído interno se realiza la transformación de la energía mecánica producida por las ondas sonoras en energía nerviosa, a través del Órgano de Corti (órgano receptor del oído). Los movimientos de vibración del tímpano y de los huesos del oído medio son transmitidos por nervios hasta el cerebro donde, posteriormente, estas vibraciones son analizadas por la cóclea, que contiene tres conductos comprimidos de lado a lado. Los conductos de arriba y abajo están rellenos de un líquido llamado perilinfa, y el del medio, llamado también conducto coclear, está lleno de un fluido llamado endolinfa. Este líquido produce un movimiento relativo con respecto a los canales si la cabeza rota en alguna dirección, ya que estos poseen ejes en cuadratura (perpendiculares entre sí) y mediante las 11 terminaciones nerviosas se comunica al cerebro la activación de los mecanismos de control de estabilidad. El oído interno está compuesto por un hueco óseo llamado laberinto, el que comprende las siguientes estructuras: Los canales semicirculares, que son tres conductos, con forma de semicírculo, sensores del sistema de equilibro, y están recubiertos interiormente por células nerviosas y de líquido endolinfático; se disponen de manera perpendicular ocupando los tres planos del espacio. El vestíbulo, que es una pequeña cámara ovalada que comunica los canales semicirculares con el caracol y con la caja timpánica mediante dos orificios, llamados ventana oval y ventana redonda. El caracol, que es el que contiene a la cóclea, que es el órgano más importante de la audición. Este órgano tiene la forma de un tubo enrollado en espiral, que rodea un eje central llamado columela; se divide en tres secciones llamadas rampas (timpánica, vestibular y coclear), separadas por dos membranas (basilar y de Reissner). Dentro de la rampa coclear se encuentra el órgano de Corti. Las ondas sonoras también pueden llegar al oído interno, directamente a través de la vibración de los huesos del cráneo, debido a que el oído interno se encuentra dentro de un espacio del hueso temporal. Este tipo de transmisión explica porqué las personas escuchan su propia voz con un timbre distinto al que lo escuchan las demás personas. Con respecto a la percepción de la dirección del sonido, es importante mencionar que ocurre a través del proceso de correlación cruzada entre los dos oídos. La diferencia de tiempo entre la llegada de un sonido de un oído a otro entrega la información sobre la dirección de la fuente sonora [11]. Finalmente, el sistema auditivo central, está conformado por los nervios acústicos y todas las áreas del cerebro que actúan en el proceso de la audición; aquí se procesa toda la información que se recibe, y le es asignado un significado a cada sonido percibido. El nervio auditivo contiene aproximadamente treinta mil neuronas, y su trabajo consiste en transmitir impulsos eléctricos al cerebro para ser, posteriormente, procesados; el cerebro recibe la información que caracteriza a cada sonido recibido y la compara con la información almacenada en la memoria, con el fin de identificarla. De no ser así, es agregada a la biblioteca de sonidos de la memoria. 12 6.4.2 Aparato Visual La visión es el resultado de un proceso que comienza con la percepción sensible, producida en el ojo, seguida de una sucesión de fenómenos neurológicos que se inician en el ojo y que se dirigen después hacia las neuronas visuales cerebrales, las que identifican la imagen en su base de datos, para finalmente realizar una comprensión de lo se está viendo. Figura 4. Esquema ilustrativo del Ojo Humano. Los órganos más importantes en el sistema visual son los ojos, quienes se encargan de captar la luz, intensidad, volumen, color, líneas y contornos de los objetos; también son capaces de reproducir la imagen de lo que ven y transportarla al cerebro para ser interpretada. Los ojos perciben imágenes en forma de haces luminosos que después son transformados en estímulos nerviosos y viajan a los centros decodificadores del cerebro. Allí, estos estímulos nerviosos son procesados y traducidos al lenguaje de las formas, los colores, el movimiento y los conceptos. Físicamente, el ojo tiene forma esférica, salvo una pequeña zona en su parte central, llamada globo ocular y está rodeado por una fuerte membrana (esclerótica), que lo protege; ésta sobresale en la parte frontal del globo formando la córnea. El globo a su vez está rodeado por una pared formada de una membrana llamada coroides, donde se encuentra el cristalino, que actúa de forma similar a un lente, ajustándose según la distancia; ambos órganos están unidos por unas fibrillas y por un músculo circular, que tiene como misión contraer o dilatar el cristalino. El ojo posee además un diafragma llamado pupila cuyo diámetro está regulado por el iris. La luz penetra a través de la pupila, atraviesa el cristalino y se proyecta sobre la retina donde se transforma, gracias a unas células llamadas fotoreceptoras, en impulsos nerviosos que son trasladados por medio del nervio óptico hacia el cerebro. Este proceso es comparable a la acción que realiza el diafragma en una cámara ! $&! fotográfica, mientras los párpados funcionan de forma análoga a un obturador, permitiendo o impidiendo la entrada de los rayos luminosos. Internamente, el globo ocular está recubierto por una pared interna llamada retina y lleno de un fluido gelatinoso llamado humor vítreo. Las fibrillas nerviosas que constituyen la retina se reúnen en la parte posterior del ojo, formando el nervio óptico (ambos nervios ópticos se cruzan y se dirigen al cerebro). Se extienden en todas las direcciones sobre la superficie anterior de la retina, terminando en los bastoncillos y conos, distribuidos aleatoriamente en la superficie de la retina. Los bastones son muy sensibles a la luz e insensibles al color, poseen poca definición, y son los primeros en enviar la imagen en situación de poca luz. Los conos están concentrados en una parte de la retina llamada Fóvea o Mácula Lútea. En número y en sensibilidad son menores que los bastones, pero poseen una mayor discriminación del detalle, color, forma y posición. La percepción debida a los bastones se llama visión escotópica y la de los conos fotópica [12]. 6.5 Cerebro Humano Está encargado de los sentidos, los pensamientos, la memoria, el control del cuerpo y controla todos los movimientos conscientes; además, recibe la información de los receptores externos (ojos, oídos, nariz, nervios del tacto), para efectuar una reacción, haciendo previamente un análisis de la información recibida. Todo esto es hecho por el cerebro con el único fin de hacer que todo el cuerpo funcione de una manera adecuada. El cerebro tiene una estructura pequeña, y está envuelto por el cráneo, quien le da protección física; al mirarlo desde arriba, es similar a la forma de una nuez: está dividido en dos mitades redondeadas conectadas en el centro, llamadas hemisferio izquierdo y hemisferio derecho; ambos hemisferios tienen la misión de controlar el cuerpo, mediante la conexión del cerebro con el sistema nervioso, y lo hacen de forma cruzada, es decir, el hemisferio derecho controla el lado izquierdo del cuerpo y viceversa. Se encuentran también en el cerebro áreas en donde terminan las fibras sensitivas que transmiten los impulsos nerviosos visuales, auditivos, olfativos y sensaciones que provienen de la superficie del cuerpo y/o de tejidos más profundos. Éstas son las denominadas áreas sensoriales. Dentro de estas áreas se encuentran la visual y la auditiva. Área Visual está ubicada en el lóbulo occipital. En el lóbulo occipital izquierdo se registran los impulsos que se originan en la parte derecha, y en el lóbulo occipital derecho se registran todos los impulsos que se producen en la parte izquierda de cada globo ocular. 14 Área Auditiva se encuentra en los lóbulos temporales, bajo la cisura de Silvio. Cada lóbulo temporal recibe impulsos auditivos procedentes de cada oído. Las encargadas de este proceso son las neuronas, quienes transmiten los impulsos auditivos dirigiéndose al lóbulo temporal del mismo lado. Luego de recibir los impulsos visual-auditivos y procesarlos en el cerebro, las áreas receptivas cerebrales de la audición y la visión, hacen posible entender las palabras habladas: las ondas sonoras y las luminosas llegan, respectivamente al oído interno y a la retina, y se transforman en energía bioeléctrica, que es transportada por los nervios a las áreas correspondientes del cerebro, donde son finalmente decodificadas. El lenguaje receptivo es sólo eficaz cuando se implican otras zonas cerebrales relacionadas con la atención, lo que se traduce, por ejemplo, a una contracción de los músculos faciales de los ojos para llevar la concentración al interlocutor. Las capas celulares de la superficie externa de los hemisferios cerebrales forman la sustancia gris que es conocida como la Corteza Cerebral, que está formada por cuerpos de neuronas y que se divide en tres áreas desde el punto de vista de sus características funcionales: corteza primaria, secundaria y terciaria, respectivamente. Esta división fue una conclusión arrojada de los trabajos e investigación del Doctor Paul Flechsig, quien tenía una hipótesis acerca de las funciones sicológicas de estas áreas, mostrando que la corteza primaria realizaba análisis sensoriales simples, y que la corteza secundaria y terciaria, que eran áreas de asociación, contenían las funciones mentales superiores. En la corteza secundaria se encontraría un área de asociación unimodal y estaría encargada de realizar el análisis de la estimulación proveniente de un sistema sensorial específico. El área de asociación polimodal estaría en la corteza terciaria y allí se realizaría una integración del análisis de la información, por distintas áreas de asociación unimodal, como por ejemplo la vista y el oído. 15 Figura 5. Esquema ilustrativo del Cerebro Humano, que indica los sectores y áreas de la Corteza Cerebral. Las áreas funcionales de la corteza cerebral son de tres tipos: Sensitivas, que reciben las sensaciones y se hacen conscientes; Motoras, que envían órdenes motoras voluntarias; De asociación, que son áreas que reciben la información enviada desde otras áreas de asociación o sensitivas. Estas la integran y la almacenan para elaborar una respuesta que será enviada finalmente a las áreas motoras. Las áreas de asociación son regiones del cerebro donde confluyen axones de neuronas que transmiten información de diferente modalidad sensorial y es aquí donde se procesan de forma conjunta, pudiendo dar lugar a ilusiones o errores [13]. Están distribuidas a lo largo de toda la corteza cerebral; las áreas que se ubican en el lóbulo parietal, están involucradas en la integración de la información sensitiva proveniente de las áreas somestésica, auditiva, visual y gustativa. Las áreas situadas en la porción anterior del lóbulo temporal, están relacionadas con las experiencias audiovisuales. 6.6 Efecto McGurk En todo momento, el ser humano está recibiendo información sensorial. El cerebro hace un gran trabajo en darle sentido a todo, ya que es el encargado de crear percepciones con respecto a la información que llega a los sentidos. Sin embargo, hay veces que no lo hace correctamente y comete errores, es decir, lo percibido no corresponde a la realidad. A ! $)! pesar de que parece muy fácil separar los sonidos escuchados de las cosas que se ven, existe un fenómeno psicoacústico que revela que éste no es siempre el caso. Es una ilusión conocida como el Efecto McGurk y ocurre porque lo que se ve no concuerda con lo que se está escuchando. Lo que sucede es que la información visual, se sobrepone a la auditiva, porque los movimientos articulatorios que realiza la boca en el rostro, influyen en lo que se cree estar escuchando. Este efecto prueba que lo que se oye, puede no siempre ser la realidad, pero también ayuda a comprender lo que sucede cuando los sentidos entran en conflicto. Cuando el cerebro tiene una información complementaria trata de hacer que dicho conflicto tenga sentido, dependiendo de qué modalidad provea mejor información, y esa información se sobrepondrá o combinará con la otra. Este fenómeno fue descubierto por Harry McGurk, un psicólogo de la Universidad de Surrey (Inglaterra), quien dejó sus evidencias y resultados estampados en un paper en 1976, titulado ‘’Escuchando labios y viendo voces’’ (en inglés “Hearing Lips and Seeing Voices”). McGurk descubrió accidentalmente el efecto cuando se encontraba estudiando los patrones de imitación de los niños al aprender a hablar, mostrándoles videos de personas pronunciando diferentes sílabas. Al llegar a la combinación “ga-ba’’, los niños del experimento, oían la sílaba “da”. Inmediatamente, McGurk despidió a la persona que había preparado los videos porque pensó que había editado el material de forma incorrecta, pero rápidamente se dio cuenta de que todo estaba perfectamente montado y editado, y lo que ocurría en realidad era una ilusión auditiva. Posteriormente, McGurk observó que este efecto no sólo se daba en niños sino también en adultos; esto quedó demostrado experimentalmente de la siguiente forma: se elaboró un video donde un hablante gesticulaba la sílaba ‘ga’, acompañado por una señal de audio, donde se estaba pronunciado constantemente ‘ba’. Esta mezcla de señales dio como resultado la percepción de la sílaba ‘da’. Con esta demostración se asignó por primera vez a la visión un rol fundamental en la percepción del habla. Más adelante, otros estudios permitieron observar que aún cuando el sujeto experimental había sido advertido de sólo identificar la señal sonora, la percepción visual articulatoria modificó su respuesta considerablemente. Se comprobó además, que este efecto se puede producir con la combinación ‘ka’ (visual) + ‘pa’ (auditiva), y arroja como resultado la percepción de ‘ta’, y que las personas con una audición normal, integran la información visual-auditiva del habla de la misma manera en situaciones acústicas favorables y adversas, a pesar de que en el procesamiento del habla, la señal auditiva es más influyente que la visual. Según los estudios realizados, se concluye hipotéticamente la siguiente explicación: los fonemas /b/, /d/ y /g/ solamente se diferencian entre ellos por el lugar de articulación, ya que /b/ es bilabial, /d/ interdental y /g/ es velar. En /b/, la abertura de la boca es mínima, mientras que en /d/ es media, y en /g/ es máxima. Entonces, si el oído escucha /b/, con su abertura mínima, pero los ojos ven /g/, pareciera que el cerebro opta por un término medio, 17 haciendo ‘oír’ el fonema /d/. Con esta explicación se podría pensar que la percepción del habla no se basa solamente en el oído, sino también en la vista. Es muy probable que esta ilusión auditiva esté relacionada con la probabilidad del acierto perceptivo en situaciones de comunicación no idóneas, en las que el cerebro intenta buscar y encontrar una solución intermedia, aunque no sea la adecuada en casos particulares, pero que en muchos casos puede funcionar. Desde esa investigación en adelante, se ha seguido estudiando este efecto, descubriéndose detalles muy interesantes. En el área de la Neuroimagen por ejemplo, se han realizado experimentos y se ha visto que hay una región del cerebro, llamada surco temporal superior izquierdo, que pareciera mostrar una activación diferente cuando recibe estímulos congruentes, esto es cuando ambos estímulos (visual y auditivo) coinciden, con respecto a cuando éstos son incongruentes. Esta región es lo que se conoce como un área de asociación. Es por eso que existe una gran seguridad de que el sistema visual ha evolucionado en conjunto con el sistema auditivo para permitir un mejor procesamiento del habla. Es decir, la vista podría ayudar a discriminar sonidos difíciles de diferenciar, o podría servir para reafirmar un mensaje, incrementando la confianza sobre una información recibida auditivamente. Para que el efecto McGurk suceda, se requiere que el tele-auditor preste atención, ya que al incorporar estímulos distractores visuales o auditivos, va disminuyendo considerablemente su objetivo, demostrando así que el fenómeno no se debe a un mal procesamiento de la vista o del oído, sino a la integración de estas dos modalidades sensoriales. Cuando una persona está hablando con otra y la ve, pero no la puede oír, en su cerebro se activa la corteza visual, que hace referencia a lo que sus ojos ven y, además, se activa también la corteza auditiva, aún cuando no esté escuchando nada. 6.7 Aspectos lingüísticos Se denomina lengua al sistema de signos y asociaciones entre ideas y sonidos o gestos que cada grupo humano posee, memoriza y utiliza con el fin de comunicarse. El habla hace referencia a una selección asociativa que tiene el hablante en el cerebro, entre imágenes acústicas y significados, y que finalmente las comunica, llevando a cabo la fonoarticulación. Para hablar, el individuo materializa sus pensamientos en base a un modelo que le es proporcionado por la lengua, aplicando las normas y reglas de ésta. El lenguaje humano es un sistema de comunicación que usa ciertos signos que están previamente establecidos. El signo lingüístico es la unión del concepto con una imagen acústica y está constituido por un significante (suma de elementos fónicos) y un significado 18 (idea o concepto que se tiene de lo que es la palabra que está en uso). Respecto al significante, es importante mencionar que la unidad fónica mínima es el fonema, que es indivisible y sin significado (a modo de ejemplo: la palabra “mamá”, está formada por cuatro fonemas: /m/+/a/+/m/+/á/). La fonética y la fonología son dos disciplinas lingüísticas que estudian los sonidos de una lengua. Aún así, ambas no estudian específica y exactamente lo mismo. La fonética por su parte comprende un ámbito de estudio mayor que la fonología y se basa en la acústica, mientras que la fonología considera la imagen mental de lo que se percibe. A continuación se definirán ambas disciplinas. 6.7.1 Fonética Estudia los elementos fónicos de una lengua desde el punto de vista de su producción, constitución acústica, articulatoria y perceptiva [5]; estudia los aspectos físicos de los fonemas, cómo son articulados y percibidos, por ejemplo los sonidos reales pronunciados, ya que en variados casos, algunos fonemas cambian su pronunciación según el contexto y la posición en que se encuentren. Dichas variaciones, a pesar de que generalmente no son apreciadas por el hablante, se dan muy a menudo y tienen por nombre alófonos. Según las distintas formas en que se pronuncie; por ejemplo, el fonema /g/, respecto a su contexto o posición, son los alófonos de /g/. 6.7.2 Fonología Estudia los elementos fónicos de una lengua desde el punto de vista de su función en el sistema de la comunicación lingüística [5]; estudia las normas que definen cómo articular el sonido y de qué manera es afectado por otros. El centro del estudio de la fonología es el fonema, que tiene más carácter mental que acústico. La fonología trata la manera en que funcionan los sonidos, en una lengua en particular o en las lenguas en general, en un nivel mental o abstracto. En cuanto a los fonemas, existen dos clases: Vocales, que son sonidos de la voz que no encuentran obstáculo en su recorrido a través del aparato fonador y Consonantes, que son emisiones de voz que tienen obstáculos en su recorrido a lo largo de todo el aparato fonador. Es importante, además, destacar que en el idioma Español, una sílaba siempre necesita por lo menos una vocal, ya que al no poseerla, las consonantes no se pueden pronunciar. Estos fonemas pueden ser sonidos articulados sonoros o sordos dependiendo de su ejecución, esto es si en ella participan o no las cuerdas vocales, respectivamente. Las consonantes tienen menor amplitud que las vocales. Esta diferencia se debe a la cantidad de aire expulsado, la energía empleada y, finalmente, por el uso de las cuerdas vocales. 19 Las vocales se distinguen entre ellas por el modo y la zona de articulación, pero siempre utilizan las cuerdas vocales. Según el modo de articulación, se clasifican de la siguiente forma: Altas o cerradas, son las vocales /i/ y /u/, aquí la lengua se eleva y se aproxima al velo del paladar; Medias, son las vocales /e/ y /o/, en este caso la lengua desciende del velo del paladar; Baja o abierta, es la vocal /a/, la lengua desciende completamente con respecto al paladar duro y hay una distancia máxima al techo de la boca. Según la zona de articulación, se clasifican de la siguiente manera: Anteriores: las vocales /i/ y /e/, donde la lengua está bajo el paladar duro, con dirección a la zona delantera de la cavidad bocal; Central: la vocal /a/, la lengua en este caso, va en la región del paladar medio, en posición de descanso; Posteriores: las vocales /o/ y /u/, donde en esta clasificación el dorso de la lengua retrocede un poco y se acerca al velo del paladar. Con respecto a las consonantes, éstas se clasifican según cuatro características distintas: 1) Según la acción de las cuerdas vocales: Sonoras: /m/, /n/, /ñ/, /r/, /rr/, /l/, /y/, /b/, /d/, /g/ y Sordas: /p/, /t/, /k/, /ch/, /f/, /s/, /j/. 2) Según la acción del velo del paladar: Nasales: /m/, /n/, /ñ/ y Orales: /r/, /rr/, /l/, /y/, /b/, /d/, /g/, /p/, /t/, /k/, /ch/, /f/, /s/, /j/. 3) Según el modo de articulación y se dividen en: a) Obstruyentes: Oclusivas: /p/, /t/, /k/, /b/, /d/, /g/. Fricativas: /f/, /s/, /j/. Africadas: /ch/. Aproximantes: /y/. b) Resonantes o no obstruyentes Nasales: /m/, /n/, /ñ/. Líquidas: Laterales: /l/, /ll/ y Vibrantes: /r/, /rr/. 4) Según el lugar de articulación: Bilabial: /p/, /b/, /m/. Labiodental: /f/. Postdental: /t/, /d/. Ápico alveolar: /n/, /l/, /r/, /rr/. Predorso alveolar: /s/. Alveólo palatal: /ch/. Prepalatal: /y/. Mediopalatal: /ñ/ y Velar: /k/, /j/, /g/. 20 7. MATERIALES Y MÉTODOS 7.1 Plan de trabajo Para llevar a cabo la fase experimental de esta investigación, se debe tener claro primero que todo, los objetivos que se persiguen, éstos son los siguientes: evaluar la relación entre la percepción visual articulatoria y la percepción auditiva, diseñar un test visual-auditivo para evaluar la variación de la percepción auditiva correcta de logatomos con apoyos visuales, y finalmente, comparar el comportamiento auditivo en emisiones visual-auditivas convergentes y divergentes. El motivo central de esta etapa es el diseño, elaboración, aplicación y registro de un test audiovisual a quince personas, donde ellas deberán escribir en unas listas lo que escuchan o creen escuchar; según el porcentaje de respuestas buenas y malas, se obtendrá un aumento y/o disminución de la percepción auditiva correcta. La dinámica con la cual se obtendrán los resultados para el posterior análisis y sus actividades respectivas, se detallan a continuación: 7.1.1 Selección Justificada y Fundamentada de Logatomos En primera instancia, se realizó el diseño del test, con el cual se midió los porcentajes de aumento y disminución de la percepción auditiva correcta. Para esto, se diseñó un test con logatomos, éstos son fonemas que agrupados cumplen con la estructura CVC (consonante-vocal-consonante); y se decidió utilizar estas estructuras, ya que con ellas se mide inteligibilidad, además son estructuras sin sentido, lo que se traduce en una menor probabilidad de ser recordadas por los informantes y esto conlleva a resultados más confiables, al momento de aplicar un test. Luego de tomar la decisión de que se utilizarían logatomos, para seleccionarlos, se tomó como referencia la publicación: ‘ Corpus para un test de articulación en español’, de los profesores Sommerhoff y Rosas [9]; En este trabajo se describe una lista de mil logatomos, y es la lista más completa encontrada hasta el momento, para fines de medición de inteligibilidad de la palabra. A partir de esta lista completa de mil logatomos, se preseleccionaron los que comenzaban con una consonante velar o bilabial (j,k,g o m,p,b), quedando finalmente seleccionados 380 logatomos. Se buscó esto ya que este tipo de consonantes se ha demostrado que produce el Efecto McGurk, que es una de las mayores pruebas que existen sobre las confusiones producidas en el cerebro, respecto a la recepción de información visual y auditiva no coincidente y a su procesamiento en conjunto; y en esta ocasión, se quiere medir porcentajes, en los cuales la percepción auditiva, varía al aplicar una señal visual convergente y divergente. Al tener este corpus, se decidió posteriormente, seleccionar sólo logatomos que tuvieran contenida la vocal ‘a’, por dos razones, en primer lugar, la importancia de este estudio, recae sobre las consonantes del logatomo, y no en la vocal, ya que esto provocaría un mayor caos al analizar los resultados, y era preciso dejar un parámetro fijo. También se pensó en la vocal ’a’, ya que según estudios lingüísticos, es 21 la vocal con mayor porcentaje de reconocimiento y con mayor frecuencia de uso. K P G B J M kas kak kat kap kal kar kan kaf kam kab pas pak pat pap pal par pan paf pam pab gal gam gat gad gan gaf gab gag gas gar Bal Bam Bat Bad Ban Baf Bab Bag Bas Bar jal jas jag jab jap jad jam jaf jan jar mal mas mag mab map mad mam maf man mar Tabla No. 1. Corpus definitivo de logatomos seleccionados para evaluación del test. 7.1.2 Elección de la Sala Por mayor disponibilidad, facilidad de acceso, y características específicas, se escogió para aplicar el test, la sala número 7301 del Edificio 7000, de la Facultad de Ciencias de la Ingeniería, perteneciente al Campus Miraflores, ubicado en la Universidad Austral de Chile. Las razones por las cuales se optó por esta ubicación, es que es una sala diseñada especialmente para clases o exposiciones, es decir, se utiliza con fines comunicacionales, y en estos casos la percepción auditiva es fundamental. Físicamente, la sala estaba construida de la siguiente forma, la pared lateral derecha estaba compuesta por ventanas, puertas y material concreto; la pared lateral izquierda estaba compuesta por ventanas y material concreto; la pared posterior, estaba construida de concreto, pero cubierta con material absorbente, y la pared frontal, de material concreto y encima una pizarra de madera, que ocupaba gran superficie de ésta. 22 Figura 6. Fotografía panorámica de la sala. 7.1.3 Elección y entrenamiento del Locutor Al elegir a la persona idónea para realizar la labor de Locutor del test, se consideró trabajar con un varón; por sus características vocales, mayor firmeza y más estabilidad de la voz, luego se puso atención en que tuviera las siguientes características: audición y visión normal, un rostro de características normales y homogéneas, es decir, que no llame la atención ningún órgano en particular de su rostro; especialmente se hizo énfasis, en que su boca y sus dientes fueran física y visualmente armoniosos; esto con el fin de que no existieran motivos de distracción para los teleauditores al momento de ser aplicado el test, ya que éstos debían concentrarse en la boca del Locutor. Una vez claras las características de exclusión, se llamó a un casting, a tres personas que cumplían los requisitos anteriormente nombrados, de los cuáles fue seleccionado uno, quien contaba con conocimientos básicos de Fonética Articulatoria, y un gran interés por aprender más de ella. Al tomar esta decisión, se pensó en que esto facilitaría en gran medida el trabajo futuro de entrenamiento, además de brindar un mejor resultado a la experiencia. Luego de ser seleccionado el Locutor, se realizó una sesión intensiva donde se entrenó a éste para que pudiera realizar una Fonética Articulatoria óptima, para pronunciar correctamente los logatomos seleccionados, cuidando especialmente de hacer distinciones entre los fonemas /v/ y /b/, y en las consonantes velares y bilabiales. Esta actividad se llevó a cabo en el Instituto de Lingüística y Literatura de la Universidad Austral de Chile, por la Profesora, Dra. Claudia Rosas. Después de recibir las enseñanzas e indicaciones, el Locutor realizó una semana de reforzamiento, prácticas y estudio de Fonética Articulatoria, en base al listado de mil logatomos publicado en el trabajo ‘Corpus para un test de articulación en español’ de Sommerhoff y Rosas, también al libro ‘’Manual de Pronunciación Española’’ de Tomas Navarro Tomas, y finalmente a materiales relacionados con el tema provisto por Internet, incluyendo documentos y material audiovisual. Al estar preparado, se hizo pruebas de reconocimiento en tres personas, completamente ajenas a la investigación, con el fin de obtener una información fidedigna, ya que sus respuestas no eran influenciadas. La dinámica de esta actividad fue la siguiente, el Locutor articulaba ciertos logatomos y las personas escribían lo que escuchaban; esta prueba constó de 60 logatomos, y se repitió tres ! %&! veces, arrojando un resultado aceptable y bueno, con lo que se dio por finalizada la etapa de entrenamiento del Locutor. 7.1.4 Selección de Informantes Se necesitaba contar con quince sujetos de prueba. El número de personas es pequeño ya que se asume que las respuestas entregadas por ellos se podrán relacionar estadísticamente de acuerdo a un intervalo de confianza previamente establecido. Además, cabe destacar que la mayoría de los estudios subjetivos de acústica en los cuales los aspectos intangibles psicoacústicos son de mucha importancia, son realizados por una cantidad no muy elevada de sujetos de prueba, ya que se asume que estos tendrán respuestas similares si cumplen con ciertos requisitos y poseen información previa asociada. Para el caso específico de este estudio, se considera como criterio base que la lengua materna de todos los informantes es el español, que todos poseen una capacidad auditiva normal de acuerdo a su edad y que están informados del contenido de las listas de logatomos y de los objetivos principales de este test audiovisual, además de las condiciones específicas de transcripción de segmentos (indicación de grafías a utilizar para la representación de los fonemas, principalmente). Los sujetos de prueba, en adelante informantes, en su totalidad fueron estudiantes universitarios (voluntarios), de edades entre 18 y 27 años. No era necesario que los informantes tuvieran audición normal, pero sí era necesaria una audiometría, para tener una clasificación de ellos, según su nivel de audición actual, ya que los resultados y porcentajes, se analizarían con respecto a sus características particulares. Una audiometría es un examen fundamental para medir la capacidad auditiva actual de un individuo; con esta prueba se determina el umbral de cada oído para cada una de ciertas frecuencias. El instrumento que realiza este procedimiento es el ‘’audiómetro’’. Éste genera tonos puros de diferentes frecuencias e intensidades, los que posteriormente son enviados por medio de fonos a cada oído de la persona que está siendo testeada dentro de una cámara insonorizada; la persona al escuchar un tono puro debe apretar un botón, y mantenerlo presionado hasta que éste deje de ser percibido. La información recibida por el aparato es procesada e indicada en un gráfico que muestra los umbrales de audición por frecuencia de la persona. Las frecuencias utilizadas en este examen son las siguientes: 500, 1000, 2000, 3000, 4000, 6000, 8000, Hertz, para cada oído, y cada umbral es medido en decibeles, siendo alrededor de 0 dB, el registro de un promedio estadístico óptimo que evidencia una audición normal en personas de entre 18 y 30 años [18]. En esta ocasión se utilizó para realizar el examen, el audiómetro Brüel & Kjaer tipo 1800. 24 Figura 7. Tesista realizando una audiometría. Figura 8. Fotografía del Instrumento utilizado para realizar las audiometrías. Audiómetro Brüel & Kjaer, Type 1800. 7.1.5 Proceso de Grabación y Edición Con la finalidad de disponer de un material para ser reproducido las veces que se precise, el corpus de logatomos seleccionado para evaluar el test de esta investigación, fue grabado. Los sesenta logatomos seleccionados, fueron registrados audiovisualmente; esto se hizo filmando al Locutor, quien articuló cada logatomo según la Fonética Articulatoria correspondiente en cada caso. El lugar utilizado para esta filmación, fue escogido con el propósito de reducir al máximo un campo reverberante o alguna interferencia que se pudiera añadir al material que se estaba registrando. Es por esto que se decidió utilizar la Sala Anecoica No. 2, perteneciente al Instituto de Acústica de la Universidad Austral de Chile, para esta etapa de la investigación, ya que ésta simula condiciones de un campo libre, es decir casi la totalidad de la energía es absorbida, y no hay reflexiones de ningún tipo en las paredes. Al momento de grabar, cada logatomo fue repetido tres veces, para reafirmar la información recibida por el informante, y éste presentara la menor cantidad posible de errores al transcribir; además cada trío de logatomo se grabó con una separación de cinco ! %(! segundos, con motivo de dar espacio a los informantes de responder de manera adecuada el test al cual se estaban sometiendo. Cabe destacar que antes de realizar la grabación definitiva, se llevó a cabo una grabación de prueba, para identificar las posiciones y configuraciones óptimas de instrumentos y Locutor, además de tener un acercamiento al resultado final, cuidando de modificar posteriormente, posibles errores cometidos, tanto de la parte técnica, como de la articulatoria del Locutor. Luego de la obtención y análisis del material de prueba, se llevó a cabo la grabación definitiva del test. Esta etapa de la investigación fue de suma importancia, puesto que según la calidad del material resultante, se obtendría un mayor o menor porcentaje de buenos resultados en la futura aplicación de este test, por esto mismo se eligió, dentro de los equipos disponibles, los de mejor calidad, según el objetivo perseguido. Ya que los resultados del material de prueba fueron muy buenos, se realizó sólo una sesión de grabación, en la Sala Anecoica No. 2 del Instituto de Acústica de la Universidad Austral de Chile. En esta ocasión se utilizaron los siguientes equipos: Cámara Sony HVR-V1N Digital HDV + Trípode, Preamplificador Rupert Neve, pórtico 5012, ya que entrega una señal con mayor calidad, Micrófono Audiotécnica modelo 4051, de patrón direccional cardioide y de condensador, 2 cables XLR de micrófono para hacer las conexiones correspondientes, y finalmente un par de fonos para ir obteniendo una referencia a tiempo real del material que estaba siendo registrado. Los equipos fueron conectados conforme a la siguiente cadena electroacústica: Figura 9. Diagrama del esquema de conexiones entre los equipos utilizados en la grabación. ! %)! Se conectó el micrófono al preamplificador, y desde éste se hizo una conexión a la cámara de video, a la cual se le conectaron los audífonos. El preampflicador se utilizó con filtro en los 40 Hz, ya que la voz humana, no suele arrojar frecuencias bajo este umbral. También desde este equipo se proveyó el phantom de 48 volts., necesario para el funcionamiento del micrófono. En cuanto a la cámara de filmación, luego de realizar un balance de blancos, se consideraron las preferencias visuales y condiciones requeridas; posteriormente el equipo quedó configurado de la siguiente forma: velocidad de obturación en un valor 60, ya que con ese valor se obtenía una imagen parcialmente iluminada, cuidando que los movimientos del Locutor se percibieran naturales, se utilzó también una abertura de diafragma, de 1.8, este es el valor de máxima abertura de diafragma del equipo utilizado en esta ocasión, es decir, el valor con el cual se permite que entre la mayor cantidad de luz posible, al capturar la imagen. Finalmente, ya que la imagen no estaba lo suficientemente iluminada, se tuvo que recurrir a una ganancia electrónica de 6 dB, ya que el lugar era relativamente oscuro, sólo alumbrado con luz artificial, y de poca potencia. Con respecto a los parámetros de audio, se conectó la señal proveniente del preamplificador a la Cámara de video y se ajustó manualmente la ganancia, cuidando que el nivel de la señal auditiva entrante no marcara saturación en los niveles registrados. Teniendo entonces todo en orden, se procedió a comenzar la grabación definitiva del test. El Locutor leyó cada logatomo tres veces, haciendo una pausa de cinco segundos entre cada trío de logatomos. El tiempo de separación fue estimado con el propósito de evitar una relajación de las cuerdas vocales, ya que si eso llegaba a suceder, ellas producirían un mayor ruido para volver a tensarse. Los niveles se ajustaron de acuerdo a una distancia aproximada de un metro entre la boca del locutor y el micrófono. Se consideró esta distancia, para que el aumento de intensidad de la voz, en las bajas frecuencias, no produjera distorsión, para que el micrófono no apareciera en la imagen final; además el micrófono quedó en una posición muy cercana a la Cámara de video, ya que el rostro del Locutor y principalmente su voz, iban dirigidos en esa dirección. El trabajo descrito anteriormente se repitió tres veces, con el fin de tener una mayor cantidad de material disponible, al momento de editar audio y video, y no tener que repetir la experiencia de grabación por consecuencia de algún error concerniente a la gesticulación del Locutor, que pudiera haber pasado desapercibido. 27 Figura 10. Fotografía del Proceso de Grabación del Test, en la Sala Anecoica No. 2, perteneciente al Instituto de Acústica de la Universidad Austral de Chile. Una vez obtenido el material de grabación, se trabajó en la Sala de Edición del Instituto de Acústica de la Universidad Austral de Chile. Primero que todo se efectuó una revisión del material en cuanto a la articulación y a la comprobación de la correcta emisión de los logatomos, y al no tener objeciones al respecto, se procedió a traspasar el registro obtenido, para comenzar con la etapa de edición de éste. Esta actividad se llevó a cabo inicialmente capturando la grabación en uno de los equipos iMac, utilizando el software ‘’Final Cut Express’’. En esta etapa de trabajo, se comenzó separando los sesenta logatomos con sus respectivas imágenes articulatorias. Cada trío de logatomos tenía una duración aproximada de cinco segundos. Una vez separado e identificado el material, se crearon tres proyectos independientes los que darían origen al test final. El primero que contenía todos los logatomos, pero sin imagen; este ítem, fue creado para tener un parámetro de comparación con respecto a los dos ítems posteriores. En esta ocasión se aplicó un orden aleatorio, además de un Fade-in y Fade-out, al incio y fin del archivo de audio. Finalmente se equilibraron lo mejor posible los niveles de cada logatomo para que quedara un nivel total parejo de reproducción. En el segundo proyecto o ítem, se trabajó sólo con los logatomos que comenzaban con una consonante bilabial, es decir todos los que comenzaban con /b/, /m/ y /p/; este subconjunto de logatomos conformaba la mitad de la lista total. Al estar ya separados, se procedió a dar un orden aleatorio a la secuencia, ya que en este caso, se estaba desarrollando el test convergente, donde la imagen se correspondía con el audio, es decir la señal auditiva se reforzaba o confirmaba con la visual. Posteriormente se aplicó en cada inicio y término de cada trío de logatomos un Fade-in y Fade-out respectivamente, en audio y video. Esto para que los informantes tuvieran un tiempo, sin dejar de poner atención en la imagen que era una de las consideraciones ! %+! importantes, para transcribir sus resultados. En este caso también como actividad final se desarrolló un equilibrio en los niveles de cada logatomo para que quedara un nivel total parejo de reproducción. En el tercer y último bloque o proyecto, se conformó el test convergente, aquí se separó la señal de audio y video, y se utilizó la señal de audio del test anterior, es decir los sonidos producidos por logatomos que comenzaban con /b/, /m/ y /p/, pero en este caso fueron acompañados por la imagen del grupo restante de logatomos, los que comenzaban con una consonante velar, /g/, /j/ y /k/. Se agruparon, mezclaron y sincronizaron buscando producir el Efecto McGurk de la siguiente forma: los sonidos de logatomos que comenzaban con /b/, se agruparon con la imagen de los logatomos que comenzaban con /g/, se hizo de forma análoga, con el sonido de los que comenzaban con /p/, es decir, se utilizó la imagen de los que empezaban con /k/, y finalmente se agruparon los sonidos de logatomos con consonante inicial /m/, con la imagen de logatomos que comenzaban con /j/. Con respecto a esta última agrupación de consonantes bilabiales y velares, no se han realizado estudios referentes a la producción del Efecto McGurk, a pesar de que las características de las consonantes en juego, son similares a las de las agrupaciones de consonantes que suelen producirlo. Como actividad siguiente, se llevó a cabo la sincronización más detallada de cada grupo de logatomos, con su respectiva imagen establecida según los criterios anteriormente descritos, cuidando que se produjera el Efecto McGurk y que además resultara de forma natural al mirarlo. Para corroborar que el material cumplía con los objetivos perseguidos, se mostró a tres estudiantes y a un profesor, ajenos al tema, en quienes causó el efecto esperado. Finalmente, al igual que en el caso anterior se aplicó en cada inicio y término de cada trío de logatomos un Fade-in y Fade-out respectivamente, en audio y video, para que los informantes tuvieran un tiempo, sin dejar de poner atención en la imagen, que en este caso era la condición más importante, para transcribir sus resultados. Para terminar se aplicó también en esta ocasión, un equilibrio en los niveles de cada logatomo para que quedara la secuencia con un nivel total parejo de reproducción. Como último paso en la etapa de edición del test, se realizó una reducción de ruido de fondo en el audio de los videos, con el software ‘’Cubase’’, y una conversión de los archivos obtenidos a formatos que posteriormente pudieran ser reproducidos en cualquier tipo de computador (el audio desde formato .wav a mp3, y los videos desde formato .mov a .avi), a pesar de que se aplicarían en los formatos originales, para realizar la experiencia con la mayor y mejor calidad posible. 29 7.1.6 Indicaciones dadas a Informantes Los Informantes recibieron ciertas indicaciones antes de que les fuera aplicado el test; primero que todo, se les pidió apagar celulares, para evitar distracciones durante el desarrollo de la experiencia. Luego se les comentó brevemente el propósito de la investigación, también se les explicó qué eran los logatomos, y porqué se les estaba evaluando con ese tipo de estructuras silábicas; luego se les dio la orden de responder en las listas entregadas en un orden correlativo, según la aparición de los logatomos, lo que creyeran escuchar, explicando que el ítem I era el test de sólo audio, el II un test convergente y el ítem III, un test divergente, todo esto con sus respectivas explicaciones y finalmente, se les advirtió que en el caso de los ítems audiovisuales, concentraran su atención en el audio y en la boca del Locutor que aparecía en la imagen. Para comprobar que la instrucción recibida había sido comprendida, se dejó correr, un par de segundos cada test, y se respondieron las dudas que ellos tenían al respecto. 7.1.7 Aplicación del test La aplicación del test se llevó a cabo en dependencias de la Universidad Austral de Chile, específicamente en el Edificio 7000, en el tercer piso en la Sala 7301 (dicha sala fue descrita anteriormente con mayor profundidad en el apartado 7.1.2). Antes que todo, se instaló y conectó el equipamiento de refuerzo sonoro. Se utilizaron dos parlantes pasivos ASC y se posicionaron bajo la imagen, para dar la sensación de que el sonido provenía desde ésta, la separación entre ellos fue de dos metros y se conectó cada uno de ellos a un Power Mixer Phonic PowerPod 408, con cables TRS-TRS. A este equipo se conectó, por medio de un cable RCA- MiniPlug, un Equipo MacBook Pro, desde el cual fueron emitidas las secuencias del test a evaluar, en su calidad de formato original (.mov y .wav). La imagen fue emitida por un equipo proyector de imagen, que fue conectado directamente al equipo MacBook Pro. Después de tener todo conectado y funcionando, se midió con un Sonómetro CESVA Modelo SC310, los niveles máximos de presión sonora en toda la sala, para descartar lugares donde se produjeran nodos, y tener claro en qué sectores de la sala se podían ubicar de una mejor forma a los informantes. El nivel equivalente total medido fue de 81,7 dB, tomando un nivel máximo de salida en el Power Mixer. 30 Figura 11. Fotografía del proceso de mediciones de niveles de presión sonora en toda la sala. Al emitir tonos puros de distintas frecuencias se produjeron nodos, pero al medir con el sonido respectivo del test, se percibió un nivel relativamente equilibrado en toda la sala, sin mayores variaciones. Por lo tanto la consideración que se persiguió al ubicar a los informantes, fue que quedaran lo más directo posible a la imagen, tratando de evitar que se ubicaran en los extremos, y cuidando de que quedaran distribuidos equilibradamente, evitando estorbarse entre ellos, al momento de poner atención en la imagen. Después de medir niveles máximos de presión sonora, se buscó llegar a un nivel característico de una conversación normal, es decir, se midió hasta llegar a un nivel promedio equivalente total alrededor de los 65 dB aproximadamente[19], en toda la sala (basándose en las mediciones realizadas en puntos estratégicos del recinto), ajustando el nivel del Power Mixer; una vez encontrado este nivel, se dejó identificado, con el fin de que a la hora de aplicar el test, éste se reprodujera exactamente con el mismo nivel, en la actividad futura. Se pensó medir en estas dos instancias ya que en esta sala usualmente no se usa amplificación para realizar clases; y así se podría analizar los diferentes resultados obtenidos, con ambos niveles de presión sonora, simulando una sala de clases (utilizada sin amplificación), o una conferencia (tomando en cuenta un mayor nivel de presión sonora). Teniendo todas las consideraciones controladas y estudiadas, se procedió a aplicar el test. Éste fue aplicado 2 veces, la primera con un máximo nivel de potencia sonora (82 dB aproximadamente), y la segunda con un nivel cercano al de una conversación normal (65 dB aproximadamente). Entre cada aplicación, se dio un tiempo de descanso de 10 minutos, y se les pidió a los informantes no conversar respecto a sus respuestas, para que las mismas no fueran condicionadas en la segunda ocasión. La aplicación del test, demoró aproximadamente 20 minutos en cada caso; el primer ítem donde se evaluaba sólo con audio, tenía una duración de 7 minutos con 46 segundos. El segundo ítem, llamado Test Convergente tenía una duración de 3 minutos y 53 segundos. El tercer y último ítem, de nombre Test Divergente, contaba con una duración de 3 minutos y 55 segundos. Además entre cada aplicación de ítems del Test en general, se dio un pequeño descanso de un minuto, para evitar agotamiento por parte de los informantes. ! &$! Figura 12. Fotografía tomada al llevar a cabo el proceso de aplicación del test. Las respuestas fueron escritas en una hoja diseñada especialmente para esta ocasión, la cual contaba con la separación de cada ítem, y un orden de casillas tabulado, en orden cronológico que se correspondía con el orden de aparición de cada logatomo. Esta misma hoja serviría más adelante para analizar los porcentajes de logatomos percibidos correcta o incorrectamente. Dichos porcentajes se calcularían además, como un promedio aritmético del obtenido de las treinta hojas de respuestas obtenidas. ! &%! 8. ANÁLISIS DE RESULTADOS La siguiente tabla muestra un resumen de los resultados obtenidos al aplicacar el test: Audiometría Número de Informante N 1 Ne P 8kHz/d 2 6kHz/d Test nº1 Test nº2 A T.C. T.D. A T.C. T.D. 60/60 30/30 30/30 60/60 30/30 30/30 4/60 1/30 4/30 4/60 2/30 3/30 2/60 0/30 1/30 3/60 1/30 1/30 3 X 4/60 0/30 1/30 7/60 0/30 1/30 4 X 4/60 2/30 3/30 4/60 1/30 10/30 3/60 0/30 2/30 5/60 1/30 3/30 0/60 0/30 26/30 3/60 0/30 28/30 4/60 0/30 4/30 9/60 3/30 5/30 0/60 1/30 0/30 4/60 0/30 1/30 5 6kHz/i 6 X 7 2,3,4,6(kHz/i) 3kHz/d 8 500,1k,8k (Hz/i)1kHz/d 9 X 8/60 5/30 7/30 9/60 0/30 5/30 10 X 2/60 1/30 6/30 10/60 8/30 13/30 11 8kHz/ i 8/60 3/30 17/30 20/60 12/30 21/30 12 6kHz/i 0/60 0/30 7/30 3/60 2/30 7/30 9/60 2/30 1/30 11/60 3/30 4/30 13 X 14 500,6k(Hz/i) 7/60 2/30 18/30 11/60 2/30 20/30 15 500,6k(Hz/i) 0/60 1/30 3/30 13/60 0/30 21/30 55/900 18/450 100/450 116/900 35/450 143/450 500,6k(Hz/d) Total Tabla No. 2. Hoja de resultados de evaluación del test (se indica el número de respuestas incorrectas en relación al total de respuestas). En la Tabla No. 2, se muestran, en cada test, las respuestas erróneas recibidas, con 33 respecto al total de respuestas, en cada caso. Además en la sección Audiometría, se especifica las frecuencias con pérdidas auditivas y el oído afectado, aunque es importante mencionar que todos los niveles de pérdida auditiva mencionados son aproximados. Simbología mostrada en la tabla: N: Audiometría de carácter normal: espectro completo del umbral de audición, alrededor de 0 y hasta 10 dB) Ne: Audiometría de carácter normal con excepción: espectro completo del umbral de audición, alrededor de 0 y hasta 10 dB; con umbral de audición sobre 15 dB en una sola frecuencia). P: Audiometría con pérdida auditiva: espectro completo del umbral de audición, alrededor de 0 y hasta 10 dB; con umbral de audición sobre 15 dB en más de una frecuencia. k: Kilo. Hz: Hertz i: La deficiencia es en el oído izquierdo. d: La deficiencia es en el oído derecho. A: Test de sólo audio. T.C.: Test convergente. T.D.: Test divergente. Test nº1: Test evaluado con el máximo nivel de presión sonora (82 dB aprox.). Test nº2: Test evaluado con un nivel de presión sonora normal (65 dB aprox.). La comparación de resultados se llevó a cabo en base a las siguientes categorías de análisis: variación del porcentaje de error en la percepción auditiva de logatomos, entre los test nº1 y nº2 y entre sus respectivos ítems. Variación del porcentaje de error en la percepción auditiva de logatomos, entre los ítems I y II y entre los ítems I y III. Error en la percepción de logatomos, producto de la confusión producida por el Efecto McGurk en primera consonante en el tercer item. Y, finalmente se consideró la categoría de diferenciación entre /v/ y /b/ en consonante final e inicial, entre los ítems I y II. 34 Se analizaron los resultados obtenidos en el test nº1, y test nº2 por separado y se observó lo siguiente: Test nº1: La percepción auditiva incorrecta de logatomos en el test de Sólo Audio o ítem I, obtuvo un porcentaje de error del 6%. Dicho porcentaje disminuyó al 4% al ser acompañado por una imagen visual articulatoria convergente, en el ítem II (Test Convergente) y aumentó a un 22%, al ser acompañado por una imagen visual articulatoria divergente, en el ítem III (Test Divergente). Test nº2: La percepción auditiva incorrecta de logatomos en el test de Sólo Audio, obtuvo un porcentaje de error del 13%. Dicho porcentaje disminuyó al 8% al ser acompañado por una imagen visual articulatoria convergente y aumentó a un 32%, al ser acompañado por una imagen visual articulatoria divergente. Adicionalmente se percibió que cada porcentaje de error obtenido en el test nº1, evaluado a un nivel de presión sonora de 82 dB aproximadamente (nivel máximo de presión sonora posible en la sala), aumentó prácticamente al doble, cuando en el test nº2 , se hizo una evaluación disminuyendo el nivel de presión sonora a 65 dB aproximadamente (nivel de presión sonora aproximado de una conversación normal). Al deducir que las tendencias de las variaciones de los porcentajes de error obtenidos, se repetían en ambas condiciones de evaluación del test, se decidió que al analizar con mayor profundidad los resultados obtenidos, se haría considerando los porcentajes de errores totales. En general, la percepción auditiva incorrecta de logatomos en el test de Sólo Audio o ítem I, obtuvo un porcentaje de error del 10%. Dicho porcentaje disminuyó al 6% al ser acompañado por una imagen visual articulatoria convergente, en el ítem II o Test Convergente. Igualmente, se vio que el porcentaje de error aumentó a un 27%, al acompañar la señal auditiva con una imagen visual articulatoria divergente, en el ítem III o Test Divergente, de donde aproximadamente la mitad de éste, es el porcentaje de error debido a la confusión producida por el Efecto McGurk, con un 14%. Al analizar los resultados del porcentaje de error producido en el reconocimiento de la consonante final del logatomo, se observó que el porcentaje de error en el test de Sólo Audio, disminuyó con respecto al test Convergente, desde un 7% a un 4%. También se notó una disminución del porcentaje de error en el test de Sólo Audio, con respecto al test Convergente, en la identificación correcta de /b/, en vez de /v/, en consonantes iniciales y finales, desde un 4% a un 2%. 35 Tomando todos los resultados en consideración, se vio que la aplicación del test arrojó como resultado que el porcentaje de error de la percepción auditiva de logatomos, disminuyó en un 4% al ser acompañada la señal auditiva con una señal visual articulatoria convergente y aumentó en un 17% al ser acompañada por una señal visual articulatoria divergente. A pesar de que los errores en la correcta percepción auditiva detectados tuvieron un porcentaje parcialmente bajo, existieron, y eso es algo importante para tener en consideración, ya que hay un porcentaje del grupo de sujetos de prueba, que está comprendiendo con dificultades la información recibida, y en algunos casos, además, la está interpretando erróneamente. Es importante también destacar que en la aplicación del test Divergente, muchos informantes comentaron la sensación de confusión y molestia, al esforzar su concentración para tomar una decisión de lo que escuchaban, a pesar de escribir muchas veces un logatomo correctamente. A pesar de que esta investigación se centra en otro tema, cabe destacar una consideración muy especial respecto a los resultados de las audiometrías: prácticamente la mitad de los resultados de éstas, no fueron del todo aceptables, tomando en cuenta que las personas evaluadas, son personas jóvenes de entre 18 y 27 años de edad. Las personas con déficit de audición en un oído más que en otro, o en un solo oído, tenían en su gran mayoría como común denominador la utilización casi permamente de audífonos para escuchar música, y aproximadamente en su totalidad, era uso de audífonos insertados en el canal auditivo y con un nivel elevado, es decir, un volumen sobre el 50% del volumen total. Ellos además, comentaron que mantenían el audífono en un oído y con el mismo nivel aún en conversaciones; esto coincidía con que en el oído que más utilizaban el audífono era el que presentaba más pérdida auditiva. Por lo mismo se presume que ésta sea la causa de observar gran pérdida en las frecuencias altas. 36 9. CONCLUSIONES La hipótesis planteada al comienzo de este trabajo de tesis: ‘Existe una relación entre la percepción auditiva y visual’, ha sido confirmada por medio de los resultados obtenidos, ya que el porcentaje de error de la percepción auditiva correcta de logatomos disminuyó al ser apoyada por una imagen visual articulatoria convergente y aumentó al ser apoyada por una imagen visual articulatoria divergente. Además al cumplir los objetivos generales y específicos, fue posible desarrollar un estudio de comparación y una evaluación a la relación existente entre la percepción visual articulatoria y la percepción auditiva; por otra parte, se pudo diseñar, elaborar, registrar y aplicar un test visual-auditivo, lo que permitió evaluar la variación del porcentaje de error de la percepción correcta de logatomos entre señales sólo auditivas y señales con apoyos visuales; igualmente con la obtención del test, se pudo comparar el comportamiento de la percepción auditiva en secuencias visualauditivas convergentes y divergentes. También con el cumplimiento de los objetivos se descubrió, que similar a lo provocado por el Efecto McGurk, al mezclar una señal auditiva de logatomos que comiencen con la consonante /m/, con una señal visual que comience con la consonante /j/, se produce una percepción auditiva de la consonante /n/, es decir, se percibe una consonante nueva e inexistente, que no es ni la emitida en la señal visual ni en la auditiva. Cabe destacar, que bajo el fundamento en que se basa este trabajo de Tesis, es posible continuar esta investigación en futuros estudios, desde la línea base de resultados obtenidos, modificando ciertos parámetros como por ejemplo evaluar el mismo test en condiciones completamente desfavorables, ya que conforme se disminuyó el nivel de presión sonora en un valor específico, el porcentaje de error de la percepción auditiva correcto aumentó casi al doble. También con motivo de buscar una forma más personalizada y controlada de la aplicación del test, sería interesante por ejemplo, evaluarlo en algún laboratorio de computación; cada informante frente a un computador con audífonos. Además se podría evaluar el aumento o la disminución de porcentajes de aciertos, en la percepción auditiva, con logatomos que tengan otras características, o en otro tipo de personas, por ejemplo en niños, que están comenzando sus etapas de aprendizaje escolar. La modificación de estos parámetros permitiría futuros estudios comparativos. Los resultados obtenidos pueden sostener futuras aplicaciones, en donde un refuerzo visual articulatorio se podría agregar a algún mensaje entregado sólo auditivamente, aumentando el porcentaje de una correcta percepción auditiva. Esto podría ser utilizado por ejemplo en servicios públicos, en los cuales el nivel de presión sonora es afectado significativamente por el alto nivel de ruido de fondo, lo que dificulta aún más una correcta percepción auditiva. Podría ser aplicado en hospitales, estaciones de metro, aeropuertos, lugares en los que generalmente la mayoría de las personas, no entienden las indicaciones o informaciones dadas. También esto se podría aplicar en salas de clases, en supermercados 37 o sistemas de información, en donde es de suma importancia percibir correctamente la información auditiva entregada. Con respecto a las observaciones hechas sobre los resultados de las audiometrías, se podría llevar a cabo una investigación más profunda del déficit auditivo enfocado en un oído, ya que por ahora sólo se obtuvieron conclusiones y posibles causas a través de las grafías de las audiometrías, en las que sus resultados se corrobaron con posteriores informaciones reveladas por los mismos sujetos de prueba. Como consideración final, es importante mencionar que con este trabajo de Tesis, se pudo dar cuenta y tener un acercamiento a la amplia gama de conocimientos, disciplinas y condiciones que debe reunir y dominar un Ingeniero Civil Acústico, ya que se puede desenvolver sin problemas, en el área de mediciones acústicas, grabación y edición de material sonoro y visual, manejo de equipamiento y actividades de refuerzo sonoro, áreas de lingüística, de gestión y logística, medición y lectura de audiometrías, entre otras. Además para cumplir los objetivos, en el desarrollo de este trabajo, se persiguió resolver los problemas que se interpusieron en el camino, de la forma más rápida, eficaz, eficiente y económica posible, cuidando siempre, de cumplir la palabra de compromiso en cuanto a fechas y horarios previamente establecidos, las cuales son la base para un buen desempeño ingenieril. 38 10. REFERENCIAS Y BIBLIOGRAFÍA [1] Tendencias Científicas , (2007), La audición es tan importante como la visión para formar ilusiones ópticas, Extraído el 30 de Enero de 2012 de la página web: http://www.tendencias21.net/La-audicion-es-tan-importantecomo-la-vision-para-formar-ilusiones-opticas_a1523.html [2] David Casadevall, (2010), El efecto Mc Gurk, Extraído el 5 de Febrero de 2012 del Blog AcústivaWeb: http://acusticaweb.com/blog/psicoacustica-ycerebro/380-el-efecto- mcgurk-.html [3] Soto Sanfiel, M.T., Influencia de la percepción visual del rostro del hablante en la credibilidad de su voz, Tesis de Doctorado. Departamento de Comunicación Audiovisual y de Publicidad, Universidad Autónoma de Barcelona, (2000). [4] Marrero Aguiar, V., La fonética perceptiva: trascendencia lingüística de mecanismos neuropsicofisiológicos, Estudios de Fonética Experimental, XVII, Pág. 207, (2008). [5] Quillis, A., Tratado de fonología y fonéticas españolas, 2da edición, Editorial Gredos, Madrid, (1999). [6] Hidalgo Sagredo, J.A., Elaboración de un copus de logatomos fonéticamente balanceados para la evaluación de la inteligibilidad de la palabra en español, Tesis de Pregrado, Facultad de Ciencias de la Ingeniería, Universidad Austral de Chile, (2011). [7] Llisterri, J., Introducción a la fonética: el método experimental, Editorial Anthropos, Barcelona(1991). [8] Poyatos, F., La comunicación no verbal, 1era edición, Vol. I y II, Biblioteca Española de Lingüística y Filología, Ediciones Istmo, Madrid, (1994). [9] Sommerhoff, J., Rosas, C., Corpus para un test de articulación en español, Universidad Austral de Chile, Ingeacus, documento S035.pdf. (2011). [10] Sommerhoff, J., Rosas, C., Logatom corpus for the assessment of the intelligibility in Spanish speaking environments and its relation with STI measurements, Applied Acoustic, Volume 73, Issue 11, November 2012, Pages 1190–1200. 39 [11] Gerges, S.N.Y, Arenas, J.P., Fundamentos y Control del Ruido y Vibraciones, 2da edición, NR Editora, Florianópolis, (2010). [12] Apuntes de la Asignatura ‘’Imagen e Iluminación’’. Profesor Alfio Yori, Instituto de Acústica, Universidad Austral de Chile. [13] G. Kópecks, (2009), El efecto McGurk, Extraído el 14 de Julio de 2012 del Blog Museo de la Ciencia: http://museodelaciencia.blogspot.com/2009/01/efecto-mcgurk.html [14] Rodríguez González, M.Á., Lenguaje de Signos, Tesis de Doctorado, Confederación Sordos de España, Fundación ONCE, (1992). [15] Rodríguez García, S., Smith-Ágreda, J.M., Anatomía de los órganos del lenguaje, visón y audición, , 2da edición, Editorial Médica Panamericana, Madrid, (2003). [16] Apuntes de la Asignatura ‘’Acústica Musical’’. Prof. Daniel Maggiolo, Escuela de Música, Universidad de la República, Uruguay. [17] Jones, R., Inteligibilidad del habla, Meyer Sound, Parte 1, (2009). [18] Poblete, V. “Calibración de audiómetro y evaluación auditiva”. Valdivia, Universidad Austral de Chile (2008). [19] Apuntes de la Asignatura ‘’Fundamentos de la Acústica’’. PhD. Jorge Arenas, Instituto de Acústica, Universidad Austral de Chile. 40 11. ANEXOS A continuación se muestran los resultados de las audiometrías obtenidas según cada sujeto de prueba: • Informante No. 1: • Informante No. 2: 41 • Informante No. 3: • Informante No. 4: 42 • Informante No. 5: • Informante No. 6: 43 • Informante No. 7: • Informante No. 8: 44 • Informante No. 9: • Informante No. 10: 45 • Informante No. 11: • Informante No. 12: 46 • Informante No. 13: • Informante No. 14: 47 • Informante No. 15: 48