Subido por ZEUS ZAREK

Rodríguez, Angel - La dimensión sonora del lenguaje audioisual

Anuncio
Ángel Rodríguez
La dimensión
sonora del
lenguaje
audiovisual
Paidós Papeles de Comunicación 14
Papeles de Comunicación / 14
Ángel Rodríguez Bravo
Colección dirigida por J. M. Pérez Tornero y Pilar Sanagustín
La dimensión sonora
del lenguaje audiovisual
MUOItCA Da ÜJS’h'JíO
CHE V ARIES AUDÍÍW»*^
1. M. Fontcuberta - La noticia
2.1. Tubau - Periodismo oral
3. F. R Diez y J. Martínez Abadía - La dirección de producción para cine
y televisión
4. Á. G. Meseguer - ¿Es sexista la lengua española?
5. M. Á. Ortiz y J. Marchámalo - Técnicas de comunicación en radio
6. J. M. Pérez Tornero - El desafío educativo de la televisión
7. P. Rodríguez - Periodismo de investigación: técnicas y estrategia
8. L. Arfuch - La entrevista, una invención dialógica
9. M. López - Cómo se fabrican las noticias
10. J. M.a Perceval - Nacionalismos, xenofobia y racismo en la comunica­
ción
11. M. Á. Ortiz y F. Folpini - Diseño de programas de radio
12. P. Soler - La investigación cualitativa
13. V. Llorens - Fundamentos tecnológicos en vídeo y televisión
14. A. Rodríguez - La dimensión sonora del lenguaje audiovisual
15. S. Zunzunegui - La mirada cercana
16. M. Onaindia - El guión clásico de Hollywood
18. T. Álvarez y M. Caballero - Vendedores de imagen
19. J. Rey - Palabras para vender. Palabras para soñar
dft PAIDÓS
Barcelona • Buenos Aires • México
SUMARIO
Presentación, Armand Balsebre....................................................................
Al lector.........................................................................................................
Introducción..................................................................................................
Cubierta de Mario Eskenazi
1a edición, 1998
Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del
■Copyright», bajo las sanciones establecidas en las leyes, la reproducción total o
parcial de esta obra por cualquier medio o procedimiento, comprendidos la
reprografía y el tratamiento informático, y la distribución de ejemplares de ella
mediante alquiler o préstamo públicos.
© de todas las ediciones en castellano,
Ediciones Paidós Ibérica, S.A.,
Mariano Cubí, 92 - 08021 Barcelona
y Editorial Paidós, SAICF,
Defensa, 599 - Buenos Aires
ISBN: 84-493-0479-2
Depósito legal: B-238/1998
Impreso en Gráfiques 92, S.A.,
Av. Sucarrats, 91 - 08190 Rubí (Barcelona)
Impreso en España - Printed in Spain
11
13
15
1. Sobre los planteamientos metodológicos que orientan esta obra
1.1. La subjetividad como problema metodológico en las corrientes
clásicas de investigación sobre lenguaje audiovisual...............
19
1.2. La alternativa de las metodologías cualitativas..............................
1.3. La percepción humana como punto de partida..............................
1.4. ¿Existe un lenguaje audiovisual distinto para cada medio?............
1.5. El lenguaje audiovisual como objeto de estudio............................
1.5.1. Definición y características esenciales..................................
1.5.2. Sobre la dimensión naturalista del lenguaje audiovisual ....
1.5.3- Sobre la naturaleza incompleta del lenguaje audiovisual....
1.6. De la física a la percepción de los mensajes audiovisuales............
20
22
22
25
25
27
28
31
2. La acústica y la comunicación audiovisual......................................
2.1. La acusmatización.............................................................................
2.1.1. Desarrollo de un nuevo concepto........................................
2.1.2. La acusmatización en la comunicación de masas................
2.2. Los conocimientos necesarios para dominar el audio....................
2.2.1. La tecnología y la experiencia productiva............................
2.2.2. La acústica...............................................................................
2.2.3. La psicoacústica.....................................................................
2.2.4. El sentido de aplicar la acústica al lenguaje audiovisual......
2.3. Del fenómeno acústico al sentido audiovisual..............................
2.3.1. El sonido.................................................................................
2.3.2. Fuente sonora.....'...............................................................
2.3.3. Objeto sonoro.........................................................................
2.3.4. Ente acústico...........................................................................
33
35
35
36
38
38
39
40
41
45
45
46
47
48
3. Del análisis acústico a la sensación...................................................
3.1. Entre el fenómeno vibratorio y el perceptivo................................
3.1.1. Sonidos puros y sonidos compuestos..................................
3.1.2. La amplitud y la frecuencia en los sonidos puros................
3.2. Los instrumentos para analizar sonidos compuestos....................
51
53
53
59
63
17
8
SUMARIO
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
3.2.1. Sobre la concepción analítica de los sonidos compuestos ...
3.2.2. Los métodos gráficos de análisis acústico............................
3.2.3. La interrelación entre los tres métodos clásicos de análisis
acústico...........................................................................
73
3-3- El tono y el timbre en los sonidos compuestos................................
3.3.1. La sensación de tono en los sonidos compuestos................
3.3.2. El concepto de timbre...........................................................
3.3.3. La sensación tímbrica.............................................................
3.3.4. Sobre la dimensión dinámica del timbre..............................
3.4. Las magnitudes físicas para la medición del sonido......................
3.4.1. La medición del tono.............................................................
3.4.2. La medición de la intensidad.................................................
63
64
79
79
83
85
97
97
98
100
4. Fundamentos de la percepción sonora............................................
4.1. La subjetividad perceptiva como objeto científico........................
4.1.1. En busca de mecanismos expresivos universales................
4.2. La percepción de las dimensiones sonoras simples......................
4.2.1. El concepto de umbral...........................................................
4.2.2. Umbrales de intensidad.........................................................
4.2.3. La sensación de intensidad en los sonidos compuestos......
4.2.4. Influencia de la distanciaenla sensación de intensidad ....
4.2.5. Influencia de la intensidaden la sensación de distancia ....
4.2.6. Umbrales de tono...................................................................
4.2.7. Sensibilidad absoluta y sensibilidad relativa respecto al tono
4.2.8. Umbrales temporales.............................................................
4.3. La percepción de la complejidad sonora interna............................
4.3.1. La percepción en bandas críticas...........................................
4.3.2. El enmascaramiento...............................................................
4.3.3. Los diagramas de Zwicker.....................................................
109
111
112
112
112
113
114
116
117
120
121
122
125
126
127
128
5. Las formas del sonido.........................................................................
5.1. La percepción de formas sonoras.....................................................
5.1.1. El ruido...................................................................................
5.1.2. El silencio...............................................................................
5.1.3. El uso expresivodelefecto-silencio.......................................
5.1.4. Formas estacionariasy formasdinámicas................................
5.2. Inercia acústica y discriminación entre formas sonoras................
5.2.1. Principio de la coherencia espectral.....................................
5.2.2. Principio de la estabilidad espectral.....................................
5.2.3. Principio de la estabilidad tonal.............................................
5.2.4. Principio de la regularidad.....................................................
5.2.5. Principios de la sincronía y de la asincronía........................
5.3. Taxonomía de las formas sonoras simples....................................
5.3.1. Contorno y textura.................................................................
5.3.2. Clasificación según el inicio del contorno sonoro..............
137
139
141
148
152
155
158
161
163
165
165
169
171
173
175
5.3.3. Clasificación según el cuerpo del contornosonoro..............
5.3-4. Clasificación según el final del contorno sonoro................
5.3-5. La duración.............................................................................
5.3.6. Clasificación según la textura................................................
5.3.7. Cuadro global.........................................................................
5.4. Sobre las formas sonoras complejas...............................................
9
177
183
184
185
189
190
6. De la forma sonora al sentido...........................................................
6.1. El modelo semiótico.........................................................................
6.1.1. Signos sonoros motivados y signos sonoros arbitrarios......
6.1.2. La construcción de sentido sonoro en el ámbito audiovisual.
6.2. El modelo de los mecanismos de escucha......................................
6.2.1. Oír...........................................................................................
6.2.2. Escuchar.................................................................................
6.2.3- Reconocer...............................................................................
6.2.4. Comprender...........................................................................
6.2.5. El aprendizaje en la construcción del sentido sonoro..........
6.2.6. Un modelo sobre dos ejes: el perceptivo y el cultural........
6.3- Teoría de la coherencia perceptiva.................................................
6.31. El sentido sonoro como construcción multidimensional......
6.3.2 . El sentido audiovisual y la coherencia perceptiva.............
193
195
195
196
198
199
200
201
202
203
205
207
208
210
7. El sonido en la narración audiovisual............................................
7.1. Sobre la superioridad de la visión...................................................
7.2. ¿Que aporta el sonido a lo audiovisual?...........................................
7.3. El espacio sonoro.............................................................................
7.3.1. La necesidad de una teoría del espacio sonoro....................
7.3.2. El concepto de espacio sonoro............................................
7.3.3- El espacio sonoro en el contexto audiovisual......................
7.3.4. Acústica de la sensación de distancia..................................
7.3.5. Sobre el concepto de plano sonoro......................................
7.3.6. Movimientos en el espacio sonoro......................................
7.3-7. El efecto de profundidad o perspectiva................................
7.3- 8. Acústica del volumen espacial.............................................
7.3- 9. El punto de audición...........................................................
7.4. El papel narrativo de la sincronía imagen-sonido...........................
7.4.1. El concepto de sincronía.......................................................
7.4.2. La sincronía como recurso narrativo....................................
7.4.3. Ritmo musical y movimiento visual......................................
7.4.4. Otras formas de relación sonido-imagen..............................
7.5. El sonido como instrumento organizador de la narración............
7.6. Sobre el papel del habla en el lenguaje audiovisual..................
217
219
221
223
225
227
229
230
237
239
242
243
247
251
252
254
257
259
260
263
10
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Conclusiones...............................................................................................
Referencias bibliográficas .........................................................................
Bibliografía básica sobre el tema.............................................................
Para ampliar.................................................................................................
267
268
271
272
PRESENTACION
El sonido es una vibración en el aire, un fenómeno físico...
El sonido es un signo: suministra al oyente una información; agita su sistema
nervioso y crea una emoción...
El sonido es algo más que una voz encadenando signos lingüísticos...
El sonido puede llegar a estimular nuestro sistema perceptivo sensorial con la
misma fuerza y presencia que la imagen...
¿El sonido es imagen...?
Los medios tradicionales de la comunicación audiovisual (radio, cine, televi­
sión) y sus nuevos soportes informáticos (multimedia, internet) fundamentan una
buena parte de su impacto comunicativo en la fuerza expresiva del sonido de sus
mensajes audiovisuales. El sonido es todavía un manantial inagotable de signifi­
cados... aunque muchas veces los creadores de la comunicación audiovisual ad­
judiquen a lo sonoro una importancia relativa.
Porque la intuición no ha de ser la única fuerza motriz en la creación audiovi­
sual, Ángel Rodríguez Bravo nos propone con esta obra un estudio sincero sobre
la trascendencia expresiva y narrativa del sonido en el lenguaje audiovisual, des­
cubriéndonos toda su enorme complejidad. Huyendo del vococentrismo y del reduccionismo lingüístico, el autor defiende un enfoque transdisciplinar para el es­
tudio del sonido y apuesta por un inevitable esfuerzo colectivo: ¡acústicos,
psicólogos, ingenieros... unios, en el estudio de la comunicación audiovisual! Y
sin complejos: quienes ocupan su actividad investigadora de forma exclusiva en
el estudio de lo sonoro tienen los mismos derechos a la dignidad científica que
aquellos que delimitan su objeto de estudio a la imagen icónica o lo visual.
El autor define y analiza la dimensión acústica del lenguaje audiovisual a par­
tir de la percepción, desde la perspectiva del sujeto oyente, pero al mismo tiempo
con un enfoque nada comunicativista, pues se aparta de las investigaciones de­
terminadas por un «contexto comunicativo» particular para intentar establecer los
límites entre lo objetivo y lo subjetivo en la formulación del sentido en el universo
sonoro... a la búsqueda de esos «códigos universales» de la comunicación audio­
visual: el estudio de los mecanismos de la interpretación del universo sonoro in­
tentando superar los límites de los factores de percepción específicos de cada me­
dio de comunicación. O dicho de otra forma: el objetivo de la presente obra es la
formalización de una gramática de la expresión sonora que supere las fronteras
comunicativas específicas de los distintos sujetos-oyentes de la comunicación au­
diovisual (el sujeto-oyente del cine, el sujeto-oyente de la televisión o el sujetooyente de la radio).
12
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Estudiantes de la comunicación audiovisual y creadores de mensajes en los
medios audiovisuales encontrarán en esta obra un sistema útil de comprensión del
universo sonoro. Ahora bien, el conocimiento es sólo el primer paso y necesita fe­
cundar algo mucho más importante: ¡apreciemos el sonido!... Es el alimento de
nuestros oídos y también de nuestra sensibilidad.
AL LECTOR
Armand Balsebre
Catedrático de Comunicación Audiovisual
de la Universidad Autónoma de Barcelona
Estimado lector:
La obra que usted tiene en sus manos recoge y ordena un trabajo desarrollado
a lo largo de unos doce años de estudio, centrados en la narración y la compren­
sión del mundo desde el sonido. Esta larga labor es el fruto de una primera etapa
de puro interés y voluntad personal y, luego, del enorme estímulo que han su­
puesto para mí las ayudas recibidas de la Dirección General de Universidades, el
Centre d’Investigació de la Comunicació de la Generalitat de Catalunya, y la Di­
rección General de Investigación Científica y Técnica (DGICYT: PB 94-0732), ins­
tituciones que consideraron que mi trabajo en este campo podía ser interesante y
fértil. Gracias a estas ayudas he podido llevar a cabo la labor de estudio y de in­
vestigación que se presenta en este libro.
Esta obra es, de algún modo, el resultado de haber descubierto que la comu­
nicación audiovisual es algo bastante más complicado que la pura intuición apli­
cada al manejo de la tecnología de las telecomunicaciones. La comunicación au­
diovisual es la técnica de engaño más compleja, más extraordinaria y más
verosímil que se ha conseguido a lo largo de la historia de la humanidad. Su len­
guaje trabaja con la propia esencia perceptiva de la realidad, capturando las in­
formaciones sensoriales que emanan de los objetos, para componer con ellas na­
rraciones que nos hacen oír y ver cosas que en ese momento y en ese lugar no
existen, o que quizá no han existido ni existirán jamás, pero que percibimos como
si fuesen la realidad misma. Ese fenómeno es de tal alcance humano, social y cien­
tífico que rebasa violentamente los problemas de la ingeniería que les da el so­
porte tecnológico.
Este libro es un esforzado intento para dar algunos pasos firmes en la com­
prensión científica de los mecanismos que estructuran ese fenómeno de aluci­
nación consciente que sufre el ser humano cuando oye y ve sonidos e imágenes
artificiales; y responde a la clara convicción de que su estudio no debe quedar
centrado solamente en la tecnología que apoya la producción audiovisual.
Es un trabajo que articula la psicología de la percepción, la física acústica y la
narrativa audiovisual, procurando que actúen como un todo unívoco, capaz de
proporcionar respuestas a aquellos que quieren comprender cómo funciona la in­
terpretación del mundo desde el sonido. Y es, sobre todo, una obra dedicada a
proporcionar instrumentos de trabajo útiles y eficaces a quienes pretenden narrar
con el sonido y la imagen.
INTRODUCCION
Creo que es importante aclarar algunas premisas sobre la línea de pensamien­
to que estructura esta obra:
En primer lugar señalaré que entiendo el sonido como una parte integral e in­
separable de la globalidad del /lenguaje audiovisual/ y que ese criterio es el que
guiará todo el estudio que el lector tiene en estos momentos en sus manos. No
obstante, el nivel de desarrollo actual del conocimiento sobre lenguaje audiovi­
sual todavía no permite una aproximación multidimensional y simultánea sonidoimagen si ésta se desarrolla desde una metodología rigurosamente empírica.
Estas dos razones me han llevado a acotar el objeto de estudio /lenguaje au­
diovisual/ centrándome en su dimensión auditiva, y, en consecuencia, a circuns­
cribir esta obra al universo sonoro. Así, nos ocuparemos del sonido, de su per­
cepción, y de la expresión a través de él. No obstante, el criterio de trabajo será
siempre el de entender el audio como parte integrante del sistema global sonidoimagen; y las sensaciones sonoras como parte integrante del sistema global de la
percepción.
En cualquier caso, el enfoque propuesto no responde exclusivamente a una
reducción funcional y pragmática para resolver un objeto de estudio demasiado
complejo, sino que es también fruto de una concepción reivindicativa del univer­
so acústico como instrumento de la comunicación audiovisual.
Tradicionalmente, en el entorno de la comunicación de masas, el sonido ha si­
do relegado a un segundo plano frente a la imagen. Tanto en el ámbito producti­
vo como en el universo de la investigación, se ha arrastrado al sonido como algo
inevitable pero de segunda categoría frente a la imagen. Y, salvo en honrosas ex­
cepciones, se le ha prestado muy poco interés. Pienso que es importante intentar
la inversión de esta tendencia. El universo sonoro es el ámbito en el que se pro­
duce la comunicación de las sensaciones más primarias, esenciales y difícilmente
racionalizables que es capaz de expresar y percibir el ser humano. Pensemos, por
ejemplo, en el papel fundamental del sonido en la comunicación emocional.
La segunda cuestión que considero importante señalar a priori es que este tra­
bajo debe ser entendido sólo como un primer paso hacia el conocimiento global
de los mecanismos que organizan la interpretación de los mensajes audiovisuales.
Un primer paso consciente de los cientos de kilómetros que quedan por recorrer.
El enfoque que presentaremos a lo largo de este libro será, en muchas ocasiones,
extremadamente reduccionista. Pero la única forma de iniciar una labor sistemáti­
ca de investigación empírica en el campo del lenguaje audiovisual es empezando
el trabajo por el principio. Y creo que la base esencial del funcionamiento de este
■
16
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
lenguaje depende de la relación que existe entre las dimensiones físicas de los
mensajes y las formas percibidas por el ser humano que los interpreta. Sólo cuan­
do podamos disponer de algunos conocimientos contrastados sobre la relación
entre estos dos universos estaremos en condiciones de abrir una imprescindible
nueva etapa de investigación; una nueva etapa cuyo objetivo sea ya gramaticalizar la influencia de las dimensiones cognoscitivas y contextúales del ser humano
en la interpretación del discurso audiovisual.
Finalmente, quiero señalar que La dimensión sonora del lenguaje audiovisual
no es un estudio sobre radio, sobre la banda sonora del cine o sobre el audio en
televisión, sino que es una obra sobre el sonido como forma de expresión. Una in­
vestigación sobre las posibilidades expresivas del sonido en su sentido más am­
plio, tomando como referencia esencial los mecanismos perceptivos con inde­
pendencia del medio que pueda vehicular el sonido en cada momento. Considero
que éste es el planteamiento metodológico más fértil para avanzar en el conoci­
miento del lenguaje audiovisual en su acepción más amplia, compleja y profunda.
Capítulo 1
SOBRE LOS PLANTEAMIENTOS
METODOLÓGICOS QUE ORIENTAN ESTA OBRA
En este primer capítulo, antes de enfrentarnos directamente con los mecanis­
mos de la expresión acústica, expondré los criterios epistemológicos y metodoló­
gicos desde los que abordaremos la comunicación audiovisual como objeto de es­
tudio y como marco conceptual de trabajo.
BIBLIOTECA DEI INSTITUTO NACKM >
CINE V ARTES Aiminwiww
1.1. La subjetividad como problema metodológico
en las corrientes clásicas de investigación sobre
lenguaje audiovisual
La investigación sobre el lenguaje audiovisual en el ámbito de la comunica­
ción de masas se ha desarrollado hasta ahora siguiendo dos grandes corrientes
paralelas:
1. La primera parte de una perspectiva inspirada en el estructuralismo y
apoyada básicamente en la lingüística y la semiótica. Esta corriente ensaya un
modelo teórico que intenta dar respuesta global a los problemas narratológicos de la comunicación de masas y, consecuentemente, también de la comu­
nicación audiovisual, desde todos los puntos de vista posibles. Roland Barthes
ha sido probablemente el autor más paradigmático en los comienzos de esta lí­
nea de trabajo que se desarrolló en los años cuarenta y cincuenta.
2. La segunda establece unos planteamientos mucho más ligados a los pro­
blemas productivos y se apoya básicamente en el análisis de las posibilidades
narrativas de cada medio partiendo del conocimiento de su tecnología. Esta
segunda línea no trabaja con un paradigma globalizador sino que fragmenta su
análisis en función de los distintos medios de comunicación (cine, radio, tele­
visión y últimamente los llamados multimedia). Uno de los fundadores de es­
ta corriente es sin duda S. M Eisenstein. Este autor llega al análisis conceptual
de la comunicación audiovisual desde su experiencia como cineasta, y desa­
rrolla sus reflexiones mas fértiles también en los años cuarenta.
Desde el punto de vista metodológico existen aspectos comunes entre las dos
corrientes. Ambas líneas desarrollan su estudio sobre la eficacia comunicativa del
discurso audiovisual observando los productos audiovisuales y observando al
emisor mismo: sus criterios, su contexto, sus orígenes, etc.; pero son escasísimas
las investigaciones que observen las respuestas de grupos independientes de re­
ceptores expuestos a los mensajes. Y, también, cuando se enfrentan al problema
de la descodificación de los mensajes, las dos líneas de trabajo lo han hecho utili­
zando sistemáticamente el método introspectivo.
El argumento tradicional y recurrente en contra de los resultados obtenidos a
partir de estas dos grandes líneas de estudio ha sido el de subjetividad. Revise­
mos, pues, en qué se sustenta esta crítica histórica sobre la investigación en torno
al lenguaje y a la comunicación audiovisual.
Al utilizar el método introspectivo, el investigador se toma a sí mismo como re­
ceptor-tipo. Si el estudioso es también autor y creador de productos audiovisua-
20
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
les, recurriendo a este método es el propio narrador de las historias el que se autoelige como receptor-tipo. Esto genera un bucle metodológico que retorna siem­
pre al emisor, manteniéndose sistemáticamente muy lejos de la localización de
elementos generalizables.
Realmente, los modelos sobre el funcionamiento de los códigos audiovisuales
determinados por el punto de vista del emisor (director, narrador, realizador, es­
critor, guionista, compositor...) impregnan la mayor parte de la investigación so­
bre lenguajes. Y, puesto que estos modelos teóricos no intentan contrastar si los
mecanismos comunicativos que el estudioso ha encontrado actúan igual sobre to­
dos los receptores posibles, la investigación queda limitada metodológicamente al
estudio de una sola parte del modelo clásico de la comunicación: el emisor.
Es cierto que la comunicación de masas es unidireccional y que- el criterio de
codificación narrativa y estética de un solo sujeto emisor se impone a un gran nú­
mero de sujetos receptores, en consecuencia, esta perspectiva de estudio de lo au­
diovisual no deja de ser fértil y, por tanto, valiosa; no obstante, los resultados ob­
tenidos en una investigación marcada sólo por el punto de vista del receptor son,
efectivamente, subjetivos en tanto que no pueden hacerse extensibles a todo el
universo posible de receptores, sino a un solo sujeto emisor
En coherencia con esta reflexión, considero que es necesario que la investiga­
ción sobre el lenguaje audiovisual dirija su punto de vista hacia el receptor. Una
forma de conseguir esto es que las investigaciones sobre lenguajes intenten res­
ponder sistemáticamente a la pregunta:
¿Es esta interpretación del mensaje extensible a todos los receptores posi­
bles? ¿Por qué?
No es nuevo que frente a cualquier estímulo estético o narrativo los distintos
receptores perciban sensaciones distintas, pero tampoco lo es que una parte de
estas sensaciones son también coincidentes. Sin coincidencias de descodificación
de todos los receptores frente a un mismo estímulo, la narración audiovisual no
sería posible. Y cuando lo que nos preocupa son las coincidencias estamos diri­
giendo nuestra mirada hacia los códigos universales.
Sin duda todo ‘cineasta cuenta sus propios fantasmas en sus películas, pero no
todos esos fantasmas se ven en la sala de proyección, cada espectador descubre
unos u otros en la oscuridad del cine, pero siempre hay algunos de ellos que son
vistos por todo el público, por todos los públicos de todas las salas, ésos son los
universales. Ésos son los que han sido narrados utilizando los elementos esencia­
les del lenguaje audiovisual. A ese público no le preocupa cuáles son los fantas­
mas del autor, sólo le preocupan los que ha visto y ha sentido en la pantalla.
1.2. La alternativa de las metodologías cualitativas
La tendencia actual para resolver ese efecto de subjetividad de la investigación
centrada en el emisor es la de estudiar toda la complejidad contextual que en­
PLANTEAMIENTOS METODOLÓGICOS
21
vuelve la producción y la recepción de los mensajes (cultura, situación económi­
ca, hábitos de uso de los medios de comunicación, características sociales, histo­
ria...). Desde luego, en tanto que la información contextual sea rica estamos en
mejores condiciones para intuir algunos de los elementos que influyen en la in­
terpretación de los mensajes de determinados grupos. No obstante, entiendo que
esta orientación de las llamadas metodologías cualitativas (véanse Jensen y Jan­
kowski, 1993) es, en cierto modo, contradictoria en sí misma. Si aceptamos que
uno de los problemas esenciales de la investigación en comunicación de masas es
la subjetividad de los resultados, pienso que esta nueva orientación metodológica
vuelve a incurrir en el mismo tipo de error. Es cierto que supone un avance en tan­
to que con estos criterios no estudiamos ya emisores aislados sino grupos que
comparten contextos, hábitos y culturas; no obstante las mismas características
agrupadoras son, a la vez, elementos diferenciadores de gran trascendencia.
La introducción sistemática del contexto comunicacional en la investigación
sobre lenguajes no nos lleva a códigos universales sino a una nueva compartimentación en grupos mayores pero también con diferencias mucho más acen­
tuadas.
El conocimiento profundo de los hábitos de consumo comunicativo en la cul­
tura japonesa nos puede ayudar a comprender los mecanismos que hacen que un
ciudadano de Tokio interprete de distinto modo que uno de París determinada se­
cuencia fílmica, pero seguimos sin saber cuáles son los elementos comunes a am­
bos, seguimos sin dominar las variables esenciales que ambos entenderían de ma­
nera idéntica al ver la misma secuencia cinematográfica. Entiendo que desde esta
perspectiva contextualizadora que promueven las metodologías cualitativas,
nuestra mirada contempla mucho mejor los elementos diferenciadores que los
elementos comunes y, por tanto, sólo observa con eficacia a determinados grupos
de receptores y no a todos los receptores .posibles.
Probablemente la dispersión que existe hoy respecto a los métodos de estudio
de la comunicación audiovisual en el ámbito de la comunicación de masas pro­
venga de haberse iniciado su estudio desde la perspectiva de las ciencias sociales
en lugar de hacerlo desde las ciencias físicas y humanas. Pienso que la sociología
de la comunicación debería ser posterior al estudio de la psicofísica comunicati­
va. Uno de los objetivos esenciales del conocimiento científico es la previsión efi­
caz de los fenómenos a partir de informaciones previas, y difícilmente podemos
prever las respuestas de todos los espectadores posibles de una serie televisiva
norteamericana si no conocemos todavía, por ejemplo, cómo actúa la percepción
del color en la comprensión de una narración; o cómo influyen los cambios de in­
tensidad sonora en la construcción del sentido global de una secuencia, o cuáles
son exactamente los mecanismos visuales y sonoros que determinan la sensación
de segmentación y de coherencia narrativa.
No habría sido eficaz hacer sociología médica sin haber desarrollado antes la
medicina, ni sociolingüística antes de que la lingüística se consolidase como cien­
cia de partida.
22
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
1.3. La percepción humana como punto de partida
Partamos de la idea de que dentro de los objetivos esenciales de la investiga­
ción sobre comunicación audiovisual ha de estar la localización de códigos uni­
versales.
Ciertamente, los criterios del emisor que codifica los mensajes no van a
coincidir siempre con los del receptor que los interpreta. Tampoco el contexto
cultural del equipo de producción que guioniza, interpreta y filma, pongamos
por caso, una telenovela sudamericana va a corresponderse con el de sus es­
pectadores europeos. ¿Dónde está entonces el territorio común? ¿Qué es lo que
permite que determinados productos mediáticos den la vuelta al mundo sin
problemas de descodificación? ¿Y qué diferencia a éstos de otros que no lo con­
siguen?
Una breve reflexión antropogenética puede orientarnos en la búsqueda de es­
te tipo de respuestas.
En tanto que las características biológicas de todos los miembros de una mis­
ma especie de seres vivos determinan necesidades muy similares para su supervi­
vencia, su fisiología establece también una forma homogénea de percibir e inter­
pretar su entorno inmediato para poder relacionarse con él de acuerdo con esas
necesidades. Consecuentemente, si entendemos que todos los seres humanos
perciben los mismos estímulos físicos mediante los mismos mecanismos fisiológi­
cos, y que estos mecanismos determinan la interpretación de cualquier variación
del entorno próximo a nuestro cuerpo de acuerdo con nuestras características bio­
lógicas, uno de los puntos de partida esenciales en la investigación sobre comu­
nicación ha de ser necesariamente la percepción humana.
Si la gama de frecuencias sonoras que percibe cualquier ser humano es prácti­
camente idéntica a la que perciben todos los demás y la gama de frecuencias lu­
mínicas también lo es, si el sistema receptor de información externa responde a
las mismas necesidades biológicas, espaciales, cinéticas, alimenticias, táctiles, de
temperatura, etc., no creo que incurramos en ningún error afirmando que es po­
sible localizar variables universales en los mecanismos humanos de interpretación
de los mensajes sonoros y visuales. De acuerdo con esta reflexión, esta obra toma
como punto de partida la percepción del ser humano.
Es necesario destacar también que en este trabajo nos aproximaremos a la per­
cepción contemplándola como un único sistema global. Siguiendo el mismo plan­
teamiento antropogenético que expuse más arriba, la lógica perceptiva del ser hu­
mano no aísla el sonido de la luz, o del tacto; los objetos se ven y se oyen a la vez.
Cuando entramos en una catedral, la miramos, la escuchamos, la olemos, nos mo­
vemos por ella, y todo ocurre simultáneamente.
1.4. ¿Existe un lenguaje audiovisual distinto para cada medio?
Si consideramos que lo esencial en el ámbito del conocimiento de los meca­
nismos que estructuran la narración audiovisual es la percepción, desde la pers­
PLANTEAMIENTOS METODOLÓGICOS
23
pectiva del lenguaje audiovisual la lógica nos lleva inmediatamente a no separar
radio, cine y televisión como objetos de estudio diferentes.
Expondré con más detenimiento en qué se fundamenta esta afirmación.
La idea de que las características de cada medio empujan al desarrollo y a la
orientación de un lenguaje específico distinto tiene un origen esencialmente pro­
ductivo. Que exista un lenguaje específico para cada medio audiovisual sólo es
parcialmente cierto si nos enfrentamos al medio desde la perspectiva del emisor.
O, más concretamente, desde la perspectiva del realizador o del director. Es decir,
de aquel que ha de manejar la tecnología del medio para construir físicamente los
productos narrativos. Utilizar soporte químico o soporte magnético para una gra­
bación plantea sin ninguna duda dos técnicas de trabajo radicalmente distintas.
Pero éste sólo es un problema fundamental para aquel que produce los mensajes,
y no lo es en absoluto para el que los recibe.
El receptor se limita a ver y a escuchar, no necesita aprender previamente nin­
gún código complejo. O, en todo caso, este aprendizaje se realiza de un modo in­
consciente. En cambio el emisor sí ha de enfrentarse constantemente al problema
de cómo hacer inteligible un mensaje para cualquier espectador a partir del con­
junto de posibilidades y de limitaciones expresivas del medio con el que está tra­
bajando. En consecuencia, el emisor (director, realizador, guionista) necesita
aprender en profundidad el lenguaje del medio. Se articulan entonces una serie
de convenciones que responden esencialmente a las necesidades de producción
narrativa de cada medio de comunicación en concreto. Convenciones que no sue­
len preocupar para nada al receptor, que sencillamente se expone al mensaje que
le gusta o no, y lo entiende o no lo entiende.
Si nos aproximamos al efecto generado por los distintos medios audiovisuales
desde el lugar de quien contempla los resultados, es decir, desde la perspectiva
del espectador, la necesidad que tiene un realizador de resolver las dificultades
narrativas mediante técnicas diferentes se disuelve en los problemas perceptivos
hasta desaparecer. Es cierto que la definición de la imagen o el tamaño de la pan­
talla plantean diferencias importantes entre un medio y otro, pero la masiva trans­
posición del cine a la televisión, o de las bandas sonoras musicales fílmicas al mer­
cado discográfico, acota perfectamente la cuestión de la diferenciación entre los
medios como un problema esencialmente productivo.
£n suma, pienso que sólo tiene sentido hablar de un lenguaje especifico de ca­
da medio desde el punto de vista del emisor, pero no desde el punto de vista del
receptor.
Si nuestro objetivo es la localización de rasgos esenciales, el norte que ha de
orientar la navegación hacia el conocimiento del lenguaje audiovisual, todavía
en proceso de elaboración, es el estudio de las respuestas de la percepción hu­
mana.
El ser humano usa códigos distintos para interpretar flujos de información de
orígenes diferentes. Pero para hacer eso no altera en absoluto su base perceptiva.
Provenga la información de la televisión, de la radio o de otro ser humano, sigue
escuchando con el mismo sistema auditivo y sigue mirando con el mismo sistema
visual. Varía el tipo de empaquetamiento informativo en función del medio utili-
24
25
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
PLANTEAMIENTOS METODOLÓGICOS
zado, pero jamás cambia el sistema de reconocimiento de formas del público re­
ceptor.
Cualquier mensaje se constituye a partir de las perturbaciones organizadas
de un determinado medio físico (presión sobre el aire, movimientos de las for­
mas visuales, variaciones lumínicas, etc.) que son percibidas e interpretadas por
el ser humano. Así, a determinado orden de perturbaciones físicas percibidas
corresponden determinadas sensaciones. A continuación interpretamos esta in­
formación procesándola con todos los códigos de que disponemos que sean
pertinentes y resulten útiles para hacerlo. El oído actúa para todos los sonidos
del mismo modo, sin diferenciar si su origen es radiofónico, televisivo o cine­
matográfico.
La clave del conocimiento de los lenguajes está, entonces, en qué relaciones se
establecen entre las perturbaciones físicas del medio percibidas y la interpretación
que hace el hombre de ellas.
Es cierto que desde el punto de vista productivo los conocimientos que preci­
sa un realizador de televisión o un director de cine son distintos, especialmente
los tecnológicos, pero también es cierto que estos dos roles profesionales se in­
tercambian con muchísima frecuencia. Pienso, en consecuencia, que es impor­
tante no confundir el lenguaje audiovisual, con la técnica y la tecnología de los
medios de comunicación.
No confundimos el lenguaje musical, que es la forma de estudio y de codifica­
ción de la música, con la música como composición estética de formas sonoras. Ni
confundimos tampoco el lenguaje musical con la técnica de uso de cada uno de
los instrumentos que la producen. El lenguaje musical es el mismo para todos los
instrumentos a pesar de que la técnica para tocar el violín tenga muy poco que ver
con la del oboe, la del piano, o la de los timbales. El lenguaje musical es un códi­
go estructurado que se ajusta con precisión a los mecanismos perceptivos y fisio­
lógicos del ser humano. Las escalas tonales se organizan en octavas, es decir, lo­
garítmicamente, de acuerdo con nuestros mecanismos de percepción del tono. El
tiempo musical se estructura en impulsos rítmicos que se ajustan perfectamente a
la duración de los movimientos más habituales del ser humano. Las estructuras del
compás son esencialmente binarias, adaptándose a las combinaciones que es po­
sible realizar golpeando con los pies o las manos. Las pautas de velocidad en la
sucesión de los sonidos musicales (alegro, vivace, lento, adagio...) responden per­
fectamente a las cadencias que pueden generar los pasos de una persona alteran­
do la velocidad de su marcha.
Del mismo modo, no debemos confundir el lenguaje audiovisual, como es­
tructura organizativa conjunta de la imagen y el sonido que persigue la comuni­
cación eficaz, con la técnica de cada medio audiovisual. Mientras la técnica del
medio intenta resolver los problemas derivados de las limitaciones tecnológicas
para organizar imágenes y sonidos, el lenguaje audiovisual responde a la capaci­
dad del ser humano para entender las composiciones audiovisuales. La radio, el
montaje con imágenes estáticas y sonido, el cine, la televisión, la multivisión, el
multimedia..., son distintos instrumentos para tocar las posibles composiciones
audiovisuales que es capaz de comprender el ser humano. En cambio el lenguaje
audiovisual es el conjunto de los modos de organización artificial de la imagen y
el sonido que utilizamos para transmitir ideas o sensaciones, ajustándonos a la ca­
pacidad del hombre para percibirlas y comprenderlas.
En consecuencia con todo lo expuesto un poco más arriba, no definiré mi ob­
jeto de estudio como es tradicional en la literatura sobre comunicación audiovi­
sual acotando un medio en concreto, sino que partiré de la perspectiva del recep­
tor para estudiar los mecanismos de la expresión/percepción sonora como un
objeto de estudio único que alcance y abarque a cualquier medio de comunica­
ción que utilice el sonido como instrumento expresivo.
1.5. El lenguaje audiovisual como objeto de estudio
1.5.1. Definición y características esenciales
En tanto que la revisión y las nuevas acotaciones que hemos propuesto sobre
la comunicación audiovisual la sitúan muy cerca de los objetos de estudio clási­
cos de la psicología de la percepción, creo que es necesario desarrollar una re­
flexión sobre las características específicas del lenguaje audiovisual como objeto
de estudio.
Pienso que para avanzar en el conocimiento de la comunicación audiovisual
el objeto de estudio central ha de ser el lenguaje audiovisual entendiéndolo co­
mo los modos artificiales de organización de la imagen y el sonido que utiliza­
mos para transmitir ideas o sensaciones, ajustándonos a la capacidad del hom­
bre para percibirlas y comprenderlas y no cada uno de los medios tecnológicos
que utilizan ese lenguaje. Para estudiar este lenguaje, uno de los instrumentos
científicos imprescindibles es la psicología de la percepción. Nó obstante, el len­
guaje audiovisual configura un objeto de estudio más complejo que la percep­
ción humana en tanto que la incluye parcialmente en algunos aspectos y la reba­
sa en otros.
La psicología de la percepción se preocupa de cómo el ser humano percibe
e interpreta la información del entorno, o del propio organismo (Lieury, 1992,
pág. 31), o, más concretamente, de cómo el hombre, de toda la información dis­
ponible, recoge únicamente aquella que es importante para su supervivencia den­
tro de su ecosistema (Guski, 1992, pág. 7).
Evidentemente, si nuestro objeto de estudio es el lenguaje audiovisual nos pre­
ocupan los mecanismos de recogida de información del entorno con que actúa el
ser humano. Pero no podemos decir que la mayor parte de la información gene­
rada por los medios de comunicación audiovisual sea precisamente una informa­
ción esencial para la supervivencia del hombre. A pesar de que una de sus carac­
terísticas principales es su similitud formal con la información natural, es decir,
con la información generada por el entorno sin ninguna intervención consciente
del hombre; la información transmitida mediante el lenguaje audiovisual sola­
mente simula de forma artificial las perturbaciones físicas del entorno humano
que originariamente eran fundamentales para la supervivencia humana. Y esta si-
26
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
PLANTEAMIENTOS METODOLÓGICOS
mulación está hecha artificialmente de una forma consciente y voluntaria por otra
u otras personas.
El lenguaje audiovisual es un conjunto sistematizado y gramaticalizado de re­
cursos expresivos que han sido siempre previamente imaginados por un narrador,
y que permiten estimular en el público series organizadas de sensaciones y per­
cepciones que se transformarán en mensajes concretos y complejos. Esto supone
que el fundamento mismo de este lenguaje es el conocimiento de un sistema de
recursos narrativos artificiales que permiten emular a voluntad del narrador mu­
chas de las sensaciones que suele producir el entorno natural del hombre. Por
otra parte, el lenguaje audiovisual, desde su base expresiva esencialmente perceptivo-naturalista, configura un complejo entramado en el que convergen la mú­
sica y la lengua (tanto la oral como la escrita) con toda la cultura iconográfica, li­
teraria y dramática de la civilización actual. Así, dentro del lenguaje audiovisual se
articulan perfectamente la lengua y la música como sistemas de códigos comple­
jos que se entrelazan con las simulaciones perceptivas naturalistas características
del dibujo, la pintura, la fotografía, los montajes de imagen fija y sonido, el cine,
la radio, la televisión, etc., transfiriéndole su propia capacidad expresiva.
Pienso, en definitiva, que las tres características esenciales que dan una enti­
dad propia y específica al lenguaje audiovisual como objeto de estudio son las si­
guientes:
plejísimo entramado cultural y cognoscitivo que supone la articulación audiovi­
sual de múltiples códigos complejos.
1. El hecho de que exista siempre voluntad previa por parte de unos emi­
sores para estimular en otras personas series organizadas de percepciones na­
turalistas simuladas.
2. Su capacidad de generar artificialmente mensajes que estimulan sobre el
sistema sensorial del hombre percepciones muy similares a las que producen
las informaciones de origen natural.
3. Su capacidad de articular dentro de él cualquier otro lenguaje basado en
la percepción humana.
Estos atributos del lenguaje audiovisual son los que le dan especificidad y lo
diferencian tanto de otros lenguajes, por ejemplo el del habla o el de la música,
como de las informaciones indexativas de origen natural.
Y pienso, también, que el conocimiento profundo de la percepción humana es
un punto de partida imprescindible para el conocimiento de lo audiovisual; pero
hay que insistir en que solamente es el punto de partida. La psicología de la per­
cepción difícilmente puede ser el instrumento exclusivo para dar cuenta del com­
plicadísimo tejido cultural que queda tramado en cualquier producción cinemato­
gráfica o televisiva. Entiendo que la psicología de la percepción y la física
estrechamente vinculada a ella han de ser las disciplinas básicas de apoyo para
una larga etapa de contrastación experimental que permitirá asentar el conoci­
miento sólido y bien contrastado de las leyes básicas que ordenan la comprensión
de los mensajes audiovisuales (véase Rodríguez Bravo, 1994, págs. 150-171).
Y, por fin, creo firmemente que sólo después de haber superado esta etapa es­
taremos en condiciones de comenzar a deshilar con garantías de éxito en el com­
27
1.5.2. Sobre la dimensión naturalista del lenguaje audiovisual
El lenguaje audiovisual se construye sobre dos paradojas especialmente inte­
resantes.
Desde el principio de la historia, el hombre está desarrollando formas de ex­
presión como la pintura, la escultura y el teatro, basadas en la imitación del en­
torno mediante medios artificiales, que han ido evolucionando con el desarrollo
del conocimiento técnico y tecnológico. Estas formas de expresión naturalista son
especialmente simples desde el punto de vista perceptivo. En tanto que la per­
cepción de los mensajes artificiales se parezca cada vez más a la percepción de la
realidad misma es mucho más fácil para el receptor descodificarlos y compren­
derlos. A medida que el conocimiento técnico se va haciendo más rico y comple­
jo, la capacidad para desarrollar mensajes cada vez más similares a la realidad mis­
ma aumenta y, como consecuencia directa de esto, los mensajes producidos son
cada vez más fáciles de interpretar, son más simples y universales.
Puesto que lo que se persigue mediante el lenguaje audiovisual es transmitir
mensajes articulando estímulos que el receptor ya conoce porque existen en el
medio natural, el pintor-escultor-radiofonista-cineasta... intenta trabajar cada vez
con mayor completitud perceptiva en sus mensajes para que la necesidad de arti­
culación de lenguajes complejos sea cada vez menor.
Cuanto más abstracto es un lenguaje mayor es su dificultad de comprensión
para el receptor, que necesita aprender a dominar estos códigos complejos. En­
tonces, la alternativa de lo audiovisual es facilitar la tarea al receptor simplifican­
do los códigos al usar organizaciones expresivas que generan artificialmente estí­
mulos muy parecidos a los naturales. Utilizando distintas técnicas de imitación, el
lenguaje audiovisual copia, con mayor o menor fortuna, fragmentos de la realidad
misma y los recompone para transmitir información de la forma mas simple y uni­
versal posible. La primera de las paradojas que mencionábamos más arriba apare­
ce con la propia capacidad del lenguaje audiovisual de engullir esos lenguajes
complejos de los que intentaba huir. Los lenguajes apoyados en códigos abstrac­
tos generan también formas físicas objetivas que pasan a formar parte del univer­
so real que puede ser percibido por el hombre. Y, consecuentemente, las técnicas
de imitación y recomposición de fragmentos de la realidad física, que utiliza el
lenguaje audiovisual, le permiten también copiar las formas físicas generadas por
los lenguajes abstractos. El resultado es una integración perfecta entre el lenguaje
naturalista original de la comunicación audiovisual y otros lenguajes abstractos
como la lengua o la música, construidos a partir de códigos comunicativos mucho
mas complicados y arbitrarios.
Cuando las técnicas para imitar la realidad en las que se basa lo audiovisual
permiten reproducir también las formas físicas de los lenguajes más complejos, la
fuerza comunicativa global se multiplica al combinar las posibilidades de la ex-
28
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
PLANTEAMIENTOS METODOLÓGICOS
presión naturalista con la capacidad de expresión abstracta y conceptual. El re­
sultado es un salto cualitativo enorme, y en cierto modo casual, en las posibilida­
des comunicativas del lenguaje audiovisual, que con la evolución tecnológica ad­
quiere unas posibilidades de combinación expresiva extraordinarias y en muchos
aspectos todavía por explorar.
sin potenciar ni atenuar ninguna de las zonas del espectro sonoro. No obstante,
cualquier micro es siempre mucho más dependiente de la distancia respecto a la
fuente sonora que el oído humano. Cuando la fuente sonora se aleja unos pocos
centímetros de la zona de captación óptima del micro, el sonido captado se al­
tera, dando como resultado un cambio importante de su calidad al ser reprodu­
cido.
Pero volvamos de nuevo a nuestro caballo galopando por la playa. El oído hu­
mano es perfectamente capaz de estar percibiendo, a la vez, el sonido de las olas
de la playa, el chapoteo de las patas en el agua, o el golpeteo sordo y rítmico de
los cascos sobre la arena. Y todo esto lo podemos escuchar sin ningún problema
aunque estemos a cien o doscientos metros del caballo y aun cuando éste se acer­
que y se aleje de nosotros. Sin embargo, la captación electrónica de este tipo de
paisaje sonoro es bastante más complicada.
Invitamos ahora al lector a que nos siga en una reflexión sobre los problemas
que debió de tener el realizador cuando intentaba contar acústicamente las sen­
saciones que experimentó al ver y oír el caballo en la playa.
Sin duda, cualquier micrófono de alta fidelidad colocado a 50 centímetros de
las pezuñas del corcel captaría perfectamente el ruido de los cascos sobre la are­
na, pero hacer esto con un caballo al galope no es un tarea sencilla. Si nuestro cieneasta optaba por seguir al caballo con un vehículo desde el cual se haría la toma
de sonido, esto iba a suponer una situación en la que el vehículo generaría mucho
más ruido que el caballo mismo. Por otra parte, en el momento en que este tipo
de micrófono se aleja de la fuente sonora el resultado de la grabación es ya muy
deficiente, por lo que tampoco se podría hacer la toma de sonido desde un punto
fijo. Otra opción era hacer la toma de sonido desde lejos con un micro de cañón
(altamente direccional). Esta solución supondría distorsionar el sonido perdiendo
todas las frecuencias graves, con lo que el ruido del galope iba a resultar muy po­
co natural. En cualquier caso, en ninguna de estas dos situaciones era posible con­
seguir también, a la vez, una grabación satisfactoria del rumor de las olas. Este so­
nido habría que grabarlo independientemente y mezclar ambos después en el
estudio de audio.
Posiblemente, la mejor forma de solucionar el problema iba a ser haciendo di­
rectamente una sonorización artificial que mezclase en el estudio algunos de los
sonidos pregrabados que hay disponibles en las colecciones de efectos sonoros.
Naturalmente, el resultado de esto sólo se parecería remotamente al paisaje sono­
ro original que envolvía al corcel negro mientras nuestro realizador lo contempla­
ba en la playa.
No se adoptó ninguna de las tres soluciones anteriores. Más arriba hemos di­
cho ya que mientras el caballo galopaba por la playa, en lugar del paisaje sonoro
natural, sonaba una música sugerente. Obviamente, nuestro amigo realizador re­
solvió, finalmente, que la asociación entre una música determinada y las imáge­
nes del caballo transmitiría mucho mejor las sensaciones vividas en la playa, que
una recomposición artificial hecha con sonidos pregrabados. Las diferencias entre
la percepción de la situación real y el resultado que era posible obtener copiando
técnicamente la realidad eran demasiado grandes, así que se optó por una forma
1.5.3. Sobre la naturaleza incompleta del lenguaje audiovisual
Escribía más arriba que una de las características esenciales que definen al len­
guaje audiovisual como objeto de estudio es su dimensión naturalista y su completitud perceptiva. Dicho de otra forma, su capacidad de vehicular narraciones
mediante mensajes dirigidos simultáneamente a varios sentidos, de modo que se
perciban de forma muy similar a cómo son percibidos los fenómenos naturales.
Esta característica es la segunda de las paradojas sobre las que se construye el len­
guaje audiovisual. En realidad, la lógica de este lenguaje no está sólo determina­
da por el hecho mismo de la similitud formal entre el mensaje y el referente, es de­
cir, entre el mensaje y la realidad a la que éste se refiere, sino que se fundamenta
también, paralelamente, en las diferencias reales que existen entre ambos.
Intentaré explicar esto con mayor precisión.
La secuencia cinematográfica de un caballo negro galopando por la playa es
capaz de transmitirnos sensaciones que tienen una similitud incuestionable con
las que habríamos percibido si hubiésemos estado realmente en esa misma playa
el día en que se filmó la secuencia. Pero también es incuestionable que existe una
distancia importante entre ambas percepciones. La pantalla es bidimensional, la
imagen encuadrada por la pantalla sólo nos muestra una pequeña parte del espa­
cio que hubiésemos visto, el mar no huele, los altavoces en lugar de proyectar el
sonido de las olas y el golpeteo de las pezuñas del caballo sobre la arena emiten
una música sugerente... Las diferencias entre las percepciones que tendríamos
frente a la realidad referencial y las que tenemos frente a la realidad virtual cine­
matográfica exigen al cineasta la invención de una serie de recursos narrativos
que le ayuden a suplir las deficiencias que comporta su material de trabajo. Y es,
precisamente, sobre estos recursos para suplir diferencias y, a la vez, sobre la si­
militud objetiva que existe entre realidad virtual y realidad referencial, donde se
sustenta la esencia del lenguaje audiovisual. Es el entrelazado de ambos fenóme­
nos: similitud y diferencia respecto a la realidad lo que da sentido a los códigos
narrativos del lenguaje audiovisual.
Veamos ahora este mismo ejemplo desde su perspectiva sonora.
Los micrófonos son instrumentos capaces de realizar la transducción de una
señal acústica transformándola en señal eléctrica de un modo relativamente si­
milar a como lo haría el oído para enviar información a nuestro cerebro. No obs­
tante, la sensibilidad de la membrana de un micro suele ser bastante más limita­
da que la de la cóclea del oído humano. Un micrófono de gran fidelidad, es
decir, lo que técnicamente se denomina cómo un micrófono de respuesta plana,
es capaz de captar una gama de frecuencias muy similar a la del oído humano,
29
31
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
PLANTEAMIENTOS METODOLÓGICOS
de expresión mucho más abstracta para conseguir el efecto narrativo que deseaba
nuestro realizador.
En suma, ese juego articulado de recursos expresivos que dan soluciones na­
rrativas a la incompletitud audiovisual para resolver las diferencias que existen en­
tre realidad referencial y realidad reproducida audiovisualmente es el que confi­
gura el lenguaje audiovisual. Así, toda narración audiovisual se apoya siempre en
un equilibrio constante entre:
nuyendo conscientemente la intensidad de su voz, tal como lo haría si se acerca­
se realmente a alguien para hablarle cerca del oído. El resultado de la combina­
ción entre el efecto de la distorsión acústica producida al acercarse al micro y su
utilización racional por parte del locutor da como resultado una percepción, por
parte del oyente, que es muy similar a la que produce el sonido de la voz en una
situación natural de relación íntima a distancia de contacto físico entre los interlo­
cutores.
Lo que en principio era un problema de diferencia entre percepción natural y
percepción mediática, puede ser transformado por el emisor en un recurso narra­
tivo que permite recrear acústicamente una situación virtual de relación íntima lo­
cutor-oyente.
Todos estos ejemplos muestran que los códigos narrativos del lenguaje au­
30
a) la similitud naturalista del mensaje con lo contado;
b) los recursos expresivos que escamotean su verdadera naturaleza de copia
incompleta.
No obstante, una de las características más interesantes del lenguaje audiovi­
sual es la posibilidad de transformar su propia incompletitud y sus propias difi­
cultades técnicas en instrumentos narrativos útiles.
La sensación auditiva que suele producir el mal uso de un micrófono es una
fuerte exageración de la sensación de distancia. Pensemos en lo que ocurre, por
ejemplo, cuando un locutor de radio poco experimentado se balancea frente al
micro siguiendo el ritmo de su discurso, al desplazarse tan sólo unos veinte centí­
metros de la zona de captación óptima, el oyente, que recibe la voz del locutor ya
amplificada de nuevo por su receptor de radio, tiene la sensación de que éste se
ha levantado de la mesa y va y viene por el estudio alejándose y acercándose unos
dos o tres metros del micro. Y al contrario, si el locutor se acerca tan sólo unos
diez centímetros más a la membrana del micrófono, el oyente va a tener en su ca­
sa la sensación de que quien habla prácticamente se ha echado encima de él y ha­
bla junto a su oreja.
Este fenómeno de percepción natural alterada por el medio técnico puede ser
interpretado y utilizado por el emisor de dos formas muy distintas.
La primera consiste en entender que el micro debe manejarse de modo que el
sonido que llega a través del receptor de radio a los oyentes sea lo más parecido
posible al que se está produciendo en el punto de emisión. Es decir, que lo que
suena en el estudio se parezca lo más posible a aquello que escucharán los oyen­
tes en su casa. Este planteamiento estrictamente naturalista supone usar el micró­
fono exclusivamente como un medio para transportar sonido de un lugar a otro y
supone, fundamentalmente, la preocupación por que la separación locutor-micro
se mantenga constantemente a la distancia óptima.
La segunda interpretación, que podríamos denominar expresionista, consiste
en considerar las diferencias entre sonido original y sonido captado por el micro
como un instrumento expresivo. Es decir, prescindiendo de si lo que suena en el
estudio y lo que emite el receptor radiofónico son sonidos distintos o no y preo­
cupándonos exclusivamente de cómo va a interpretar el radioyente aquello que
escucha. El locutor puede transformar estas alteraciones sobre la percepción na­
tural que genera el movimiento frente al micrófono en un recurso para reforzar,
por ejemplo, la sensación de proximidad física entre él y el locutor. Para conse­
guirlo, simplemente tendrá que acercarse unos centímetros al micrófono dismi­
diovisual se configuran como instrumentos orientados a solucionar los proble­
mas de interpretación, derivados de la diferencia que existe entre la percepción
directa de la realidad referencial y la percepción de las formas audiovisuales
que la representan. Así, lo que se desprende de esta ejemplificación es que la di­
mensión naturalista con la que trabaja el lenguaje audiovisual y las diferencias
objetivas que existen entre percepción natural y percepción mediática son dos
facetas inseparables, que es imprescindible tener presentes cuando intentamos
descubrir las leyes que estructuran el lenguaje audiovisual y los códigos que lo
organizan.
1.6. De la física a la percepción de los mensajes audiovisuales
De la reflexión desarrollada en el apartado 1.5.1. se desprende que la función
básica del lenguaje audiovisual es simular deforma artificial las perturbaciones
físicas naturales del entorno humano para transmitir voluntariamente ideas o
sensaciones. Y que, necesariamente, estas perturbaciones artificiales tienen que
adaptarse a las capacidades de la percepción humana.
Sabemos que la percepción humana es fundamentalmente un proceso de cap­
tación-interpretación de las perturbaciones físicas del entorno. Y que la comuni­
cación audiovisual introduce, como elemento nuevo en este sistema, perturbacio­
nes físicas artificiales que simulan voluntariamente a las naturales.
La psicología de la percepción se ocupa de estudiar los mecanismos de cap­
tación y de interpretación de las perturbaciones físicas que envuelven al ser hu­
mano prescindiendo de estudiar la organización de las perturbaciones mismas.
Simplemente asume que éstas existen e investiga cómo son recogidas y com­
prendidas por los sujetos.
Puesto que la comunicación audiovisual modifica la esencia misma de la per­
cepción sustituyendo las perturbaciones originales del entorno por otras producidas
y manipuladas de forma artificial, un modelo que intente dar cuenta del lenguaje au­
diovisual tiene necesariamente que investigar también las formas físicas de esos es­
tímulos artificiales para conectarlas con las interpretaciones que son capaces de ge­
nerar.
32
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
El lenguaje audiovisual nos permite manipular las formas físicas sonoras y vi­
suales que percibe el ser humano, a través de sus sentidos, de un modo concreto
para estimular unas interpretaciones concretas, desencadenando en el receptor
sensaciones realistas controladas por el emisor. En consecuencia, considero que
la fenomenología de la comunicación audiovisual debe ser estudiada desde un
paradigma que incluya y rebase la psicología de la percepción, añadiendo a ésta
el análisis físico de las formas visuales y sonoras artificiales creadas expresamen­
te para la comunicación. Pienso que la clave del lenguaje audiovisual está en el
descubrimiento progresivo de las relaciones que existen entre las series de per­
turbaciones físicas acústicas y lumínicas, creadas artificialmente por un narrador,
y la interpretación de estas perturbaciones que hacen los receptores.
En coherencia con esta afirmación, este paradigma físico-perceptivo será el
que orientará a partir de ahora todo el desarrollo de la obra que el lector tiene en
sus manos.
Capítulo 2
LA ACÚSTICA
Y LA COMUNICACIÓN AUDIOVISUAL
En este capítulo haremos una reflexión sobre el sonido como un fenómeno
con autonomía y entidad propia dentro de la comunicación de masas. Analiza­
remos, también, la necesidad de recurrir a la acústica para mejorar la eficacia
narrativa de las producciones audiovisuales y para desarrollar el conocimiento
sobre las leyes que ordenan el lenguaje audiovisual.
2.1. La acusmatización
2.1.1. Desarrollo de un nuevo concepto
El concepto acusmatización tiene su origen en una técnica pedagógica utili­
zada por Pitágoras para incrementar la efectividad de las enseñanzas que impartía
a sus discípulos. El ilustre sabio griego hizo que sus alumnos le escucharan tras
una cortina mientras hablaba para que así el contenido de sus discursos adquirie­
ra toda la fuerza posible al desvincularse de su propia imagen. A los discípulos
que escucharon las lecciones del maestro en esta situación durante cinco años se
les denominó acusmáticos. Posiblemente el sabio descubrió que, a menudo, sus
oyentes prestaban más atención a su aspecto y a su gesticulación que a aquello
que intentaba contar, así que decidió atajar de raíz el problema desvinculando lo
narrado de la fuente física que lo narraba.
La consecuencia de este origen ha sido que el término acusmático haya pasa­
do a ser utilizado para denominar aquello que se oye sin ver la fuente de donde
proviene.
Hasta que se desarrollaron los sistemas de grabación y de radiotransmisión de
los sonidos, para que un sonido fuese acusmático el objeto físico que lo genera­
ba podía estar escondido a la visión del oyente, pero nunca alejado de él. Sólo es
posible oír aquello que está suficientemente cerca del receptor. Pero a partir del
momento en que T. Edison inventa el primer gramófono en 1877 y que el físico ca­
nadiense Reginald A. Fessenden consigue en 1900 realizar la primera transmisión
de voz humana a través de la radio (Franquet y Martí, 1985, págs. 20-21), el fenó­
meno acusmático adquiere una dimensión radicalmente nueva. Con la evolución
de la tecnología del audio, el objeto original productor del sonido ya no necesita
esconderse de la visión del oyente sino que realmente desaparece; ya no tiene
que coincidir con el receptor ni en el espacio ni en el tiempo. El sonido puede ser
ahora reproducido por un aparato (un gramófono o un receptor de radio) que na­
da tiene que ver con aquello que lo generó; la fuente sonora inicial deja de tener
el valor físico sustancial y este valor pasa al sonido mismo que se hace indepen­
diente de su origen natural.
Esta independencia física que la tecnología del audio otorga al sonido ha pasado
también a ser independencia semiótica. Actualmente, escuchar, por ejemplo, el so­
nido de una melodía de violín no es ningún índice de que en nuestro entorno inme­
diato haya una persona haciendo sonar un instrumento musical. Ese sonido puede
estar expresando que cerca de nosotros alguien escucha su equipo de alta fidelidad;
que en esos momentos, en algún lugar del mundo, un violinista da un concierto que
nos llega transmitido en directo a través de la radio; que la pareja de protagonistas de
una telenovela por fin han llegado a comprenderse mutuamente, etc.
36
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
La acusmatización aísla los objetos sonoros y los convierte en portadores de
conceptos. Ahora, con mucha frecuencia, el sonido prescinde de su fuente y se
conecta con un sentido nuevo que ya no tiene nada que ver con su origen directo
sino con su forma sonora y con su situación en el contexto audiovisual. Todo es­
to nos lleva a que en el concepto actual de acusmatización debamos incluir tam­
bién esta nueva vertiente de independencia física entre el sonido y su ente pro­
ductor original. Pierre Shaeffer (Shaeffer, 1988) y Michel Chion (Chion, 1982) han
utilizado con profusión el concepto con este nuevo sentido para investigar los me­
canismos expresivos del universo sonoro.
2.1.2. La acusmatización en la comunicación de masas
Sin duda, uno de los fenómenos más importantes y de más trascendencia so­
cial en la evolución de la moderna comunicación de masas ha sido la acusmati­
zación. La posibilidad que proporciona la tecnología del audio, de separar el so­
nido de la fuente sonora original y situarlo a voluntad del narrador en cualquier
otro tiempo y lugar espacial, ha abierto una larga serie de nuevas posibilidades.
Pensemos por ejemplo en la radiodifusión, en el cine sonoro, en la industria discográfica y en su complementaria: la del audio doméstico de alta fidelidad; en la
mal llamada televisión (que en justicia debiera llamarse tele-audio-visióri), en la in­
dustria de la música ambiental, en las reconstrucciones escenográfico-audio-visuales de los museos modernos; en la sonorización electrónica de las salas de fies­
tas, las salas de conferencias, los teatros... Todas estas formas de comunicación
colectiva se apoyan de una manera absolutamente fundamental en la desvincula­
ción entre el ente físico que actuó como primer generador del sonido y el sonido
mismo, que ha pasado a ser grabado, filtrado, reordenado, empaquetado, trans­
portado, vendido, comprado, amplificado y reescuchado, una o mil veces, como
algo completamente independiente de su producción inicial.
Paralela y directamente vinculadas a todas estas nuevas formas de comunica­
ción de masas, la posibilidad de trabajar con el sonido aislado permite a los na­
rradores audiovisuales establecer nuevas asociaciones virtuales entre sonidos e
imágenes que no existen en el universo referencial. Esta nueva forma de trabajar
vinculada al tratamiento tecnológico de la acusmatización ha abierto un universo
expresivo revolucionario dentro de la comunicación audiovisual.
Revisemos algunas de las opciones narrativas que ha desencadenado la posi­
bilidad de acusmatizar sonido:
• El doblaje, por ejemplo, ha permitido la construcción de nuevos personajes
’
partiendo de una recomposición del par voz-imagen y posibilita mezclar los
rasgos físicos y de expresión gestual de un actor con la capacidad de ex­
presión oral y sonora de otro. Un caso paradigmático de este tipo de uso
del doblaje en español es el de la asociación de las imágenes del actor ame­
ricano Clint Eastwood, que es propietario de una voz considerablemente
aguda, con la voz del actor español Constantino Romero, poseedor de una
LA ACÚSTICA Y LA COMUNICACIÓN AUDIOVISUAL
37
voz sumamente densa y grave, construyéndose así un nuevo personaje que
sólo existe en el universo audiovisual, mucho más «duro» que el del original
estadounidense. Aquí los directores de doblaje españoles no han optado
por imitar el modelo original eligiendo una voz similar a la de Eastwood, si­
no que han preferido crear un ente dramático completamente nuevo a par­
tir de los materiales audiovisuales de que disponían. Este tipo de recursos
permite también la creación de personajes mágicos o monstruosos manipu­
lando técnicamente la voz de los actores o sustituyéndola por determinados
efectos sonoros. Pensemos por ejemplo en animales parlantes, en mujeres
poseídas diabólicamente que hablan con voces masculinas fortísimas y ro­
tas, etc.
•
La ambientación musical en el cine, la televisión o el teatro ha permitido
asociar melodías y ritmos instrumentales a situaciones en las que desde un
punto de vista realista sería absurdo que sonaran allí. Imagine el lector, por
ejemplo, la secuencia fílmica de un jinete solitario que cabalga sobre un ca­
mello por el desierto mientras una ambientación orquestal construye una in­
tensa música épica. En ningún caso vamos a interpretar esta asociación au­
diovisual pensando que hay una orquesta escondida detrás de las dunas
tocando de forma entusiasta bajo el sol abrasador del desierto. Lo que nos
indica de forma inequívoca esta «incoherente» asociación entre imagen y so­
nido es que nuestro jinete se dispone a realizar un gran acto heroico. Este ti­
po de uso no naturalista, o no realista, de la música se utiliza también para
narrar los estados emocionales de los personajes; para crear efecto de previ­
sibilidad (algo va a ocurrir); para dar sensación de tensión a un momento de­
terminado de la historia; etc.
•
La creación de efectos sonoros. Mediante la asociación de sonidos pregraba­
dos en distintos lugares a situaciones visuales filmadas en platos televisivos
o cinematográficos ha sido posible conferir a las imágenes resultantes sen­
sación de realismo. Un ejemplo clásico es el de las secuencias ambientadas
en pantanos brumosos o en densas selvas tropicales en el cine de los años
cincuenta y sesenta, normalmente filmadas en platos y sonorizadas después
con ruidos de los animales naturales de ese tipo de zonas geográficas. Al vin­
cular las imágenes a los efectos sonoros selváticos y tratar los sonidos con
distintas intensidades se conseguía la sensación de espacio abierto y pro­
fundo lleno de misteriosos animales situados a diferentes distancias de los
protagonistas. Otro recurso clásico es el de la asociación de ecos artificiales
a determinadas imágenes para crear sensación de gran espacio cerrado. O,
al contrario, eliminar en el momento de la sonorización las resonancias del
plato para conseguir sensación sonora de espacio abierto.
Al poder trabajar a voluntad con una nueva recomposición entre sonido-ima­
gen y, en consecuencia, con una recomposición virtual entre sonido y fuente so­
nora se han ampliado extraordinariamente las posibilidades expresivas del uni­
verso audiovisual. Así, lo que podríamos denominar ya como la acusmatización
tecnológica, para diferenciarla de la acusmatización pitagórica, ha supuesto una
38
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
auténtica revolución tanto en el ámbito estricto del lenguaje audiovisual como en
el universo de la comunicación de masas en el sentido más amplio y genérico del
término, incluida su vertiente industrial.
2.2. Los conocimientos necesarios para dominar el audio
Todo este complejo universo audiovisual que acabamos de revisar un poco
más arriba está repleto de posibilidades expresivas vinculadas al sonido acusmatizado. Pero ¿cuáles son los fundamentos del saber que pueden ayudarnos a do­
minar con eficacia la narración a través del audio? El contar cosas desde el sonido
en las producciones audiovisuales tiene varias bases de conocimiento que actúan
a la vez estrechamente vinculadas unas a otras. Pero, curiosamente, en algunas de
ellas se piensa siempre, y en otras casi nunca.
2.2.1. La tecnología y la experiencia productiva
Sin duda, la disciplina más conocida entre las que apoyan todo este universo
expresivo es la tecnología. Todo narrador o aspirante a narrador audiovisual se ha
enfrentado a la necesidad de saber con qué sistemas, instrumentos, aparatos, téc­
nicas, o trucos es posible hacer tal o cual sonido.
También se piensa muy a menudo en la experiencia productiva como genera­
dor del conocimiento acústico-narrativo. El realizador se plantea qué sensación
percibe sobre sí mismo, o qué sensación ha percibido su público al escuchar tal o
cual efecto sonoro en cada situación narrativa, contexto visual, etc., en los que tra­
baja. A partir de ahí se produce la acumulación progresiva de un saber generado
desde la experiencia productiva desarrollada por uno mismo o por otros narrado­
res. Obviamente, la experiencia productiva acumulada por «otros» es algo difícil­
mente transferible.
En suma, cuando nos aproximamos al universo de la producción sonora au­
diovisual, el dominio de este universo parece depender casi exclusivamente de un
amplio saber sobre aparatos electrónicos y de la experiencia dilatada en su uso.
Curiosamente, se suele pensar bastante menos en la acústica, es decir, en el co­
nocimiento físico del sonido; y mucho menos todavía en la percepción e inter­
pretación de las formas acústicas por parte del ser humano, o sea, en la psicología
perceptiva. No obstante, paradójicamente, a pesar de que la tecnología es lo que
actualmente parece deslumbrar de manera exclusiva a los estudiosos de la narra­
ción y a los propios narradores audiovisuales, la base de la tecnología del audio
es la acústica, y la base de la experiencia productiva del cineasta o del realizador
son sus propios mecanismos perceptivos.
Pero veamos de una forma algo más desarrollada en qué se fundamentan las
afirmaciones que acabamos de hacer.
LA ACÚSTICA Y LA COMUNICACIÓN AUDIOVISUAL
39
2.2.2. La acústica
La base fundamental en la ingeniería de la alta fidelidad sonora (HI-FI) consis­
te en garantizar que después de cualquier manipulación electrónica, grabación,
transmisión, reordenación, etc., el audio conserva con exactitud su espectro so­
noro original. O, dicho de otro modo, la garantía de que el sonido ha de seguir
exactamente igual antes y después del tratamiento (Matras, 1977). La única forma
de observar si esto es cierto es utilizando la acústica como disciplina de apoyo. Sin
saber cómo actúan sobre el sonido los equipos electrónicos que tratan el audio, la
electrónica no tiene ningún sentido. Y este saber sólo es posible a partir del aná­
lisis acústico del audio antes y después de su tratamiento tecnológico.
Es cierto que frente a esto se podría argumentar que basta con tratar los equi­
pos de sonido como una caja negra de la que tenemos garantía de que lo que en­
tra en ella es exactamente igual a lo que sale y, por tanto, que podemos despreo­
cuparnos de lo que ocurre dentro de ella. Esto nunca es objetivamente cierto.
Todo aficionado a la música sabe perfectamente que la misma interpretación mu­
sical suena de forma muy distinta en el teatro que en su equipo de alta fidelidad.
Del mismo modo que todo aficionado al cine ha experimentado más de una vez
que la misma película no suena de la misma manera en la sala de cine que en el
televisor de su casa. Y no entramos aquí en el juicio de valor que supone decidir
en cuál de los dos sitios suena mejor, sino, simplemente, en la constatación de que
existe una diferencia claramente perceptible. Esto supone, consecuentemente,
que los aparatos de audio, por muchas garantías que ofrezcan y muy sofisticados
que sean, siempre alteran el sonido, y sólo la acústica nos permite saber de qué
modo.
Pero tampoco es una cuestión de sutilezas auditivas a lo que nos estamos re­
firiendo. El objeto de estudio de esta obra es el papel del sonido en el contexto
de la narración audiovisual; y en la producción audiovisual una de las funciones
fundamentales de los tratamientos del sonido es su alteración, el cambio de sus
formas. Me estoy refiriendo a tratamientos como el filtrado (eliminación de una
parte de las frecuencias), la compresión (acortamiento de la duración en deter­
minadas partes de sonido), la aceleración, la ralentización, la adición de reso­
nancias, etc. Probablemente la forma más clara de ilustrar esto sea haciendo re­
ferencia al doblaje.
Todo el doblaje actual se hace en estudios acústicamente bien aislados y de
paredes interiores muy absorbentes para evitar reflexiones sonoras que puedan
revelar el tamaño y la forma del locutorio. No obstante los personajes a doblar
aparecen a menudo en las imágenes hablando metidos en cuevas, grandes salo­
nes, criptas, catedrales... Lógicamente, este tipo de espacios altera el sonido de las
voces que se emiten en su interior añadiéndoles resonancias o, incluso, ecos. La
única manera, entonces, de hacer coherente la calidad del sonido de la voz del
doblador, que está metido en una sala en la que no hay ninguna resonancia, con
el espacio fuertemente resonante que se muestra en las imágenes, es manipulan­
do electrónicamente el sonido. Es decir: cambiándolo, alterándolo acústicamente
de forma muy importante. La única forma, entonces, de saber qué está ocurrien-
LA ACÚSTICA Y LA COMUNICACIÓN AUDIOVISUAL
40
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
do con cada sonido, de saber cómo hay que trabajar y qué tipo y qué nivel de re­
sonancia hay que añadir, de saber cómo actuará cada uno de los aparatos de que
disponemos en el estudio, es utilizando los instrumentos conceptuales y técnicos
de la disciplina que estudia el sonido objetivándolo como ente físico, es decir: la
acústica.
2.2.3. Lapsicoacústica
Por otra parte, la base de toda comunicación humana es la percepción, y en el
caso que nos ocupa: la percepción del sonido. Sin conocer los mecanismos del ser
humano para percibir y entender las formas sonoras, el estudio de los aspectos so­
noros del lenguaje audiovisual tampoco tiene ningún sentido. Pero vayamos tam­
bién a un caso concreto. Una pregunta paradigmática en un momento como el ac­
tual, en que el soporte analógico de las grabaciones comerciales de audio está
sustituyéndose a marchas forzadas por el soporte digital, podría ser la siguiente:
¿es o no es capaz el consumidor medio de valorar la diferencia de calidad de so­
nido entre ambos sistemas?
La rápida implantación del disco óptico en la industria discográfica («Compact
Disc») parece apuntar a una respuesta afirmativa, pero el rotundo fracaso comer­
cial del casete digital («DAT»)1 indica justamente lo contrario. La mejora en la cali­
dad sonora que ofrecía el nuevo sistema no fue suficiente para que el consumidor
medio abandonara el casete analógico de alta fidelidad. Si pensamos en las im­
portantes mejoras funcionales que supone el disco óptico frente al antiguo siste­
ma de discos de vinilo: se deteriora mucho menos, ocupa un espacio mucho me­
nor y su manejo es mucho más cómodo y más versátil; posiblemente no nos
equivocamos al pensar que la mejora en la calidad del sonido que supone la tec­
nología digital no es el factor determinante de su consumo. De hecho la nueva al­
ternativa digital al casete, el mini disc, centra ya su oferta técnica y publicitaria
mucho más en las posibilidades de edición doméstica del sonido que en la mejo­
ra de su calidad acústica. La fidelidad de la grabación de audio no ha cesado de
mejorar desde que Edison inventó en 1877 su gramófono, pero este proceso pa­
rece haber llegado a su límite que es el límite de la propia percepción humana.
Pero veamos lo que pueden aportar algunos conocimientos de psicología per­
ceptiva a la solución de la pregunta planteada.
Desde el punto de vista de la percepción, la diferencia entre una grabación di­
gital y una analógica con equipos de alta fidelidad que incorporen el sistema
«Dolby» de reducción de ruido no va mucho más allá de la eliminación de una su­
til cantidad de ruido de fondo. Concretamente, el ruido de fondo de una platina
de casete analógica está en torno a los 18-20 decibelios y el ruido de fondo de un
sistema digital está entre los 9-10 decibelios. Es decir, aproximadamente la mitad.
Esta ventaja resulta bastante poco importante si tenemos en cuenta que no existe
ningún entorno sonoro absolutamente silencioso. El nivel de ruido habitual en
1.
Digital Audio Tape.
41
cualquier contexto de audición que normalmente calificaríamos como «silencioso»
es de unos 30-40 decibelios. Así que en las condiciones domésticas normales, el
ruido ambiente duplica o triplica en intensidad el ruido de fondo de una graba­
ción analógica de buena calidad, que como decíamos es de 18-20 Db. Si a estos
datos añadimos que estos dos tipos de ruido son, normalmente, coincidentes en
el tiempo, se llega sin ningún problema a la conclusión de que lo normal es que
el ruido ambiente enmascare perceptivamente el levísimo ruido de fondo del au­
dio analógico. Es decir, que lo esconde tras él haciéndolo inaudible.
A la luz de la psicología perceptiva, la respuesta a la pregunta planteada más
arriba es que los sistemas digitales de audio suponen un avance poco útil para el
oído humano puesto que la capacidad de resolución auditiva, en condiciones que
no sean las de un laboratorio, no permiten disfrutar de la mejora acústica que su­
pone el tratamiento numérico del audio. Naturalmente, las posibilidades de trata­
miento de señal, y por tanto de comodidad en la manipulación profesional del so­
nido (edición, filtrados, almacenamientos, etc.) que aporta esta nueva tecnología
suponen un avance indiscutible, pero esto es ya una cuestión muy distinta.
En suma, la única forma de saber cuál es la relación que existe entre los efec­
tos sonoros que producen las máquinas de tratamiento del audio y la interpreta­
ción que hace de ellos el ser humano es apoyándonos en la acústica. Necesitamos
estudiar con precisión cómo son los sonidos para llegar a saber con exactitud qué
clase de sensaciones perceptivas produce cada tipo de variación acústica. Conse­
cuentemente, la acústica es un instrumento que nos permitirá estudiar con preci­
sión las formas sonoras, descubriendo cómo el ser humano da sentido a cada so­
nido al ser escuchado e interpretado por él. Esta perspectiva de conocimiento
desemboca en la psicoacústica, es decir, en la integración sistemática de la acús­
tica y la psicología de la percepción, como una disciplina de apoyo esencial para
todo trabajo sonoro vinculado a la producción audiovisual.
2.2.4. El sentido de aplicar la acústica al lenguaje audiovisual
Demasiado a menudo, tanto los narradores audiovisuales como los estudiosos
del lenguaje audiovisual desprecian los modelos basados en las ciencias físicas y
los instrumentos de medición precisa, considerándolos como algo no aplicable a
la creación de productos audiovisuales. Las razones en contra suelen basarse en
una serie de argumentos, más o menos peregrinos, que desembocan siempre en
considerar la «creación» como algo basado en una suerte de mística imposible de
objetivar y medir.
Como respuesta puramente pragmática a esa corriente, en este apartado hare­
mos una amplia revisión de las posibilidades que puede suponer, o que está su­
poniendo ya en muchos casos, la aplicación sistemática de los instrumentos con­
ceptuales de la acústica y de la psicología perceptiva a la producción audiovisual.
A menudo se han desarrollado estudios previos sobre las formas visuales para
la producción de películas de ciencia-ficción o de dibujos animados. Seguramen­
te el lector recordará las promociones de muchos de los filmes de la productora
42
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Disney en las que se explicaba el trabajo de investigación visual realizado para la
secuencia del baile en Blancanieves, para dibujar la lluvia en Bambi, para crear
los espacios virtuales de Tron, para dar expresividad a la cara de Aladín, etc. Este
tipo de estudios supone un trabajo previo de análisis sobre formas visuales apa­
rentemente no perceptibles, pero que influyen de una manera definitiva en el
efecto global de verosimilitud. Es el caso, por ejemplo, del chapoteo de las gotas
de agua, con las que no se consiguió un efecto realista hasta que se observó, con
macro-ampliaciones y a cámara lenta, el efecto físico objetivo de la fragmentación
de las gotas de agua en las salpicaduras. A pesar de que este efecto sólo era visi­
ble en el laboratorio, cuando se reconstruyó en los dibujos animados pudo com­
probarse que daba una verosimilitud definitiva al efecto visual del chapoteo.
El instrumental teórico y técnico que ha desarrollado la psicoacústica pone al
alcance del narrador audiovisual la posibilidad de aplicar este tipo de investiga­
ción previa también a la producción creativa del audio.
Veamos algunos ejemplos:
En la voz, por ejemplo. En el momento en que un realizador se enfrenta a la
necesidad de construir dramáticamente un personaje, de darle forma sonora y vi­
sual, aparece el problema de la elección y la adaptación de la voz del actor, o su
sustitución por otra voz (doblaje). Nos encontramos, con el fenómeno absoluta­
mente cotidiano en la ficción audiovisual de que ciertas voces transmiten unas de­
terminadas sensaciones y otras no. Y que, a menudo, el efecto que buscamos no
aparece completo en ninguna de las voces de las que disponemos. ¿Por qué ocu­
rre esto? Profesionalmente, apenas se utilizan instrumentos conceptuales para su
descripción y mucho menos para su análisis y su manipulación.
Se pide, entonces, a uno de los locutores que adopte una actitud aniñada, pe­
ro su voz no llega a lograrlo. ¿Por qué? ¿Qué le falta o que le sobra a esa voz para
conseguirlo?
El conocimiento de la acústica del espectro de la voz nos puede proporcionar
toda esa información con mucha precisión. Es perfectamente posible saber cómo
actúa, por ejemplo, el valor expresivo del tono, es decir de la frecuencia funda­
mental del espectro de la voz. A grandes rasgos, cualquier director de doblaje sabe
que una «voz grave* sugiere credibilidad, madurez y seguridad. Y que una «voz
aguda* transmite poca credibilidad, inmadurez e inseguridad. Pero ¿cuáles son los
límites exactos de esto? ¿Dónde termina lo grave y empieza lo agudo? ¿Qué ocurre
con las voces intermedias? ¿Qué pasa con las voces femeninas? ¿Qué efecto produ­
ce que un locutor de registro normalmente grave fuerce su voz hacia los agudos?
Las respuestas a todas estas preguntas son siempre absolutamente intuitivas.
En cambio, el tono concreto de cualquier voz y su margen específico de variación
son acústicamente cuantificables y diferenciables de los de cualquier otra. Y sus
efectos en la construcción de los personajes son también rigurosamente analiza­
bles, hasta el punto de que es posible desarrollar una lista cerrada de categorías
sobre este tipo de efecto narrativo (Rodríguez Bravo, 1989).
Sería perfectamente posible, por ejemplo, establecer una tipología acústica de
los personajes que podría facilitar enormemente la tarea de la elección de los ac-
LA ACÚSTICA Y LA COMUNICACIÓN AUDIOVISUAL
43
tores o los presentadores en función de lo que sugiere su voz. Bastaría con hacer
una lista de los rasgos de personalidad que el director desea que sugiera la voz pa­
ra buscar en un banco de datos el actor o presentador con una voz ajustada a esta
demanda. También es viable, sin ningún tipo de problemas, estudiar acústica­
mente la voz de los personajes históricos, lo mismo que se hace con su imagen,
con el objeto de encontrar un doblador o dobladora que tenga exactamente sus
características o sea capaz de reproducirlas con la ayuda de determinados trata­
mientos técnicos.
El reconocimiento sonoro del espacio plantea un problema muy similar al de
la voz. La identificación sonora del espacio consiste en reconocer las resonan­
cias que se han añadido a sonidos que ya conocemos y que han sido situados en
otros contextos espaciales: pasos, voz, toses, ruido de movimiento de papeles,
de objetos de madera, etc., pero ¿cuál es el carácter acústico que hace unas re­
sonancias distintas de otras? ¿Qué resonancias se asocian a qué espacios? ¿Por
qué?
El análisis previo de los tiempos de reflexión del sonido en cada uno de los es­
pacios sobre los que vamos a trabajar nos van a dar una información acústica va­
liosísima para definir la reverberación de cada espacio visual de acuerdo con la
experiencia auditiva natural que tiene cualquier oyente. Este tipo de estudio pre­
vio permite diferenciar unos espacios de otros de manera verosímil y realista, in­
cluso utilizando sistemas electrónicos de reverberación artificial.
Otro de los problemas clásicos de la narración audiovisual es resolver cuál es
el tipo de sonido que le ha de llegar al espectador en cada momento. Pensemos,
por ejemplo, en las situaciones en las que se produce un cambio del punto de vis­
ta de la cámara en el mismo espacio contemplando la misma fuente sonora, y no
cambia en absoluto el paisaje sonoro. Este problema tiene una doble dimensión:
la reconstrucción auditiva realista, y la ubicación del espectador en el espacio de
la narración. El análisis acústico previo de los espacios que se van a recrear en una
narración abre, también, un amplio universo de posibilidades expresivas en la
ubicación del espectador en estos espacios.
Si el lector busca en su memoria el sonido de una sala, el de un aula por ejem­
plo, recordará que mientras el profesor habla desde su mesa, la voz no suena igual
escuchándola desde la primera fila que desde la última. En consecuencia, no sería
lo mismo reconstruir en una película el sonido de la voz concreta haciendo que
todos los espectadores del cine se sintieran en la primera fila, o que se sintieran en
la última. A partir del análisis de algunos de los parámetros acústicos del espacio:
intensidad, tono fundamental, resonancias, duración y evolución temporal, es po­
sible dominar minuciosamente la situación espacial en la que queremos que se
sienta el espectador mientras escucha. El método de trabajo partiría de estudiar el
sonido del espacio desde puntos concretos de audición.
\fa construcción de atmósferas emocionales es otro de los ejemplos clásicos de
la narración audiovisual en los que el papel del audio tiene un gran protagonismo
y que la adecuada aplicación de la acústica supondría una mejora esencial. Los es­
tados emocionales están asociados a los sonidos con la misma fuerza que a los
olores, y disponer del instrumental adecuado para reconocer la forma de estos so-
44
LA ACÚSTICA Y LA COMUNICACIÓN AUDIOVISUAL
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
nidos es tener a nuestro alcance la llave de las emociones y las sensaciones que
están asociados a ellos. ~l
Uno de los problemas habituales en la narración de estados emocionales es
encontrar el sonido capaz de comunicar con fuerza, por ejemplo, una gran sensa­
ción de soledad. Todos hemos vivido situaciones similares, y esas situaciones es­
tán asociadas a sonidos concretos que no son nada fáciles de encontrar. Si conse­
guimos encontrarlos y reconstruirlos, esos paisajes sonoros son fuertes inductores
de estados emocionales. Pensemos en que nos sugieren: «el tic-tac de un reloj en
una habitación en silencio», «un goteo de agua en un espacio resonante amplio»,
«el sonido de los grillos», «el rumor del agua circulando con resonancias de túnel o
bóveda», «el sonido del viento en un espacio abierto», «el sonido del viento a través
de una ventana cerrada», «el sonido de la lluvia en la calle; desde una ventana; en
la montaña». Todos estos paisajes sonoros inducen con fuerza sensaciones como
soledad, frío, vacío, nostalgia, etc. Pero no basta con estas ideas; con mucha fre­
cuencia los realizadores experimentan que por alguna extraña razón un determi­
nado efecto no sugiere lo que se esperaba de él, no suena a aquello que buscamos
a pesar de que en realidad lo es. ¿Por qué ocurre eso? ¿Por qué un sonido que
identificamos perfectamente deja de actuar como debiera?
El sonido /grillo/ es mucho más que ese concepto simple de insecto que can­
ta por la noche. Es una duración, es una composición de frecuencias que suena
en un espacio concreto, es un ritmo, es una evolución de la intensidad que varía
en el tiempo, es el resultado de una atenuación (filtrado) de una parte del espec­
tro por la humedad del aire y la distancia que lo separaba de nosotros. Es, en su­
ma, un fenómeno tan preciso y matizado como la luz y el punto de vista, y para
definirlo el instrumental acústico es imprescindible si no queremos limitarnos ex­
clusivamente a usar el mismo decorado sonoro indefinidamente.
Finalmente, la edición y el control informatizado del sonido es el ámbito don­
de la acústica resulta ya un conocimiento imprescindible para obtener rendimien­
tos profesionales mínimamente aceptables.
Actualmente ya existen en el mercado sistemas que permiten la edición infor­
matizada del sonido mediante la digitalización y tratamiento de su oscilograma,
segmentándolo en paquetes temporales y manipulándolo en ficheros que permi­
ten el montaje sobre el eje de la temporalidad siguiendo el modelo visual de los
tratamientos de texto. Es decir, permiten cortar y reordenar los sonidos como si se
tratara de cromos autoadhesivos.
Permiten también el tratamiento lineal del timbre del sonido mediante la mani­
pulación del espectro de frecuencias en tiempo real. Y la aplicación de algoritmos
de compresión o de dilatación del sonido mediante el tratamiento de las zonas es­
tacionarias del oscilograma. Esta última función se aplica sobre todo al montaje sin­
crónico sonido-imagen. Resumiendo: cuando el sonido no cuadra con la imagen el
sistema lo recorta de manera que los fragmentos eliminados se reparten propor­
cionalmente a lo largo de todo el paquete sonoro en las zonas en las que se nota
menos. El resultado es que el sonido se acorta sin que se note donde está el golpe
de tijera. Otra de las posibilidades que ofrecen es la manipulación del ataque o la
caída al comienzo y al final de cada sonido. Esta función se aplica especialmente
45
a los efectos sonoros y a las composiciones de música electrónica y permite cam­
biar radicalmente la sensación perceptiva de los sonidos, posibilitando, por ejem­
plo, la transformación artificial de un sonido de piano en uno de violín.
Lógicamente, la correcta utilización de este tipo de sistemas, que comienzan a
ser en estos momentos algo cotidiano en los estudios de audio de alto nivel, pasa
necesariamente por dominar, por lo menos, los instrumentos conceptuales bási­
cos de la acústica.
2.3. Del fenómeno acústico al sentido audiovisual
Revisadas ya las razones que nos mueven a tomar la acústica como un campo
de conocimiento fundamental en la investigación sobre la expresión audiovisual,
pasaremos a desarrollar la definición de los conceptos esenciales que nos permi­
tirán vincular sólidamente la acústica con la percepción sígnica del sonido. Así, el
primer paso para desarrollar un modelo coherente que intente explicar con efica­
cia la acústica del sonido en el contexto del lenguaje audiovisual, será sistemati­
zar cuatro conceptos básicos en los que se va a apoyar todo nuestro desarrollo
teorético posterior. Concretamente los de: sonido, fuente sonora, objeto sonoro y
ente acústico.
2.3.1. El sonido
La lingüística ha mostrado ya con mucho detalle que el sonido como tal, como
fenómeno físico, es un fenómeno que no tiene nada que ver con las formas sígnicas que se pueden construir con él como sustancia modelable (Hjelmslev, 1980).
Y nos ha enseñado, también, que una cosa es el hablante como ente capaz de pro­
ducir sonido y otra muy distinta el habla como sonido estructurado.
La aplicación de este tipo de lógica estructural al sistema sonoro de la comu­
nicación audiovisual, de modo que cada nivel de complicación funcional del so­
nido quede perfectamente delimitado y definido, como podrá comprobar el lec­
tor, resulta muy fértil.
Comenzaremos con la definición del nivel más elemental desde el punto de
vista estructural: el sonido. Puesto que la aproximación que estamos haciendo al
audio es esencialmente fenomenológica, intentaremos localizar los mecanismos
que estructuran la sensación sonora, pero para ello no podemos ignorar en nin­
gún momento que todas nuestras propuestas estructurales han de ser rigurosa­
mente coherentes con el fenómeno mismo. Así, partiendo de este planteamiento,
nos interesa el concepto de sonido como primera etapa de un proceso expresivo,
como material físico perceptible en bruto sobre el cual se van a efectuar una serie
de manipulaciones para modelarlo, transformándolo en material expresivo.
El sonido es ya en su esencia misma un puente entre la acústica y la percepción.
El sonido es el resultado de percibir auditivamente variaciones oscilantes de algún
cuerpo físico, normalmente a través del aire. El origen de un sonido es siempre la
47
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LA ACÚSTICA Y LA COMUNICACIÓN AUDIOVISUAL
vibración de un objeto físico dentro de la gama de frecuencias y amplitudes que es
capaz de percibir el oído humano. Esta vibración empuja rítmicamente las molé­
culas de los otros cuerpos físicos que lo rodean generando a su vez vibraciones en
ellas. Cuando estas vibraciones llegan a nuestro oído, normalmente a través del ai­
re, las percibimos como un sonido. En suma, el fenómeno sonoro es la percepción
de las oscilaciones rítmicas, normalmente, de la presión del aire, y que han sido es­
timuladas por otro objeto físico vibrante que actúa como fuente de emisión.
Definimos pues el sonido como:
La tecnología del audio nos permite tratar el sonido como un fenómeno que es
posible empaquetar, separar y reproducir de forma completamente independien­
te del objeto físico que lo generó. En consecuencia, parece muy claro que, a pe­
sar de que sonido y fuente sonora tienen entre sí una relación evidente, es nece­
sario tratarlos como conceptos separados.
Definiremos fuente sonora como:
El resultado de percibir auditivamente variaciones oscilantes de algún cuerpo físico,
normalmente a través del aire.
Esta definición introduce en el concepto de fuente sonora la dimensión tem­
poral en tanto que, normalmente, existe la posibilidad de que los objetos físicos
que son capaces de emitir sonidos (la laringe humana por ejemplo) suenen o no
de manera totalmente arbitraria en el tiempo. Así, cuando una laringe no está emi­
tiendo sonido no debe ser considerada como una fuente sonora.
Ampliar el concepto a todos los objetos capaces de producir sonidos, estén so­
nando o no, nos llevaría a confusiones importantes en tanto que prácticamente to­
dos los objetos físicos que existen son susceptibles de emitir sonido si se les esti­
mula de la manera adecuada.
Como hemos comentado ya, y veremos con detalle más adelante, la separa­
ción conceptual entre sonido y fuente sonora es esencial desde el punto de vista
narrativo ya que la acusmatización audiovisual abre la posibilidad de que sonidos
y fuentes sonoras sean completamente intercambiables.
46
Para comprender esta definición en todo su sentido es importante tener en
cuenta que la percepción del sonido no se realiza exclusivamente a través del ai­
re. Así, el sonido puede llegarnos, por ejemplo, a través de la vibración de nues­
tro propio cuerpo. Éste es el caso de la percepción que tiene todo locutor de su
propia voz.
Todo hablante percibe su propia voz con una calidad sonora muy distinta a co­
mo la oyen los demás. Una experiencia reveladora, que seguramente el lector ha­
brá vivido ya, es la de todo aquel que escucha por primera vez su voz grabada en
un magnetófono. De repente, uno se encuentra con la desagradable sorpresa de
que no reconoce su propia voz. De que no se reconoce a sí mismo. Y eso se vuel­
ve todavía más desorientador cuando otras personas que han escuchado también
esa grabación nos aseguran que el aparato está reproduciendo con total fidelidad
el sonido y que, efectivamente, uno suena así de raro para todos los demás. La ex­
plicación de esta percepción distinta es, justamente, que mientras las vibraciones
de la voz de un locutor llegan a su propio oído, fundamentalmente, a través de su
estructura ósea, tanto al magnetófono como a todos los demás oyentes el sonido
de la voz les llega a través del aire; con lo que las vibraciones de la fuente original
(la laringe del locutor) se ven profundamente alteradas por el medio que las trans­
mite.
Otra forma relativamente habitual de percibir la influencia del medio que
transmite las vibraciones sonoras en la percepción del sonido es comparando co­
mo suena algo con los oídos dentro o fuera del agua. Por ejemplo, el sonido del
motor de una canoa mientras nos bañamos en el mar. Es muy fácil comprobar có­
mo cambia radicalmente el ruido del motor según lo escuchemos con los oídos
sumergidos en el agua o no. De nuevo aquí la diferencia se debe a la influencia
del medio que transmite la vibración.
2.3.2. Fuente sonora
Imagino que el lector habrá deducido hace ya desde hace muchas líneas que
una primera diferencia básica imprescindible desde el punto de vista audiovisual
es la de distinguir entre sonido y fuente sonora.
Cualquier objeto físico mientras está emitiendo un sonido.
2.3.3. Objeto sonoro
Estamos trabajando con el sonido como objeto de estudio en un sentido gené­
rico y amplio. Las formas acústicas contienen estructuras muy complejas que nos
interesa estudiar en todas sus dimensiones. Esto nos lleva a la necesidad de en­
contrar métodos de acotar el sonido de forma objetivable, en unidades concretas
que permitan su estudio sabiendo cuáles son los límites de aquello que estamos
investigando.
De esta necesidad parte el concepto de objeto sonoro.
Siguiendo a Murray Shafer (Shafer, 1979, pág. 185) que, a su vez, toma este
concepto de Pierre Shaeffer (Shaeffer, 1988, pág. 102), entendemos que un objeto
sonoro es un sonido concreto que hacemos objeto de nuestra percepción y de
nuestro estudio. Un sonido del que definimos sus límites físicos, su principio y su
final para que sea posible estudiarlo de forma sistemática.
Así, podemos definir objeto sonoro como:
Cualquier sonido que aislamos físicamente o con instrumentos conceptuales, aco­
tándolo de una forma precisa para que su estudio sea posible.
Esta definición se inspira de una manera muy clara en el concepto metodoló­
gico de objeto de estudio. Podríamos decir también, por ejemplo, que un objeto
49
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LA ACÚSTICA Y LA COMUNICACIÓN AUDIOVISUAL
sonoro es todo sonido que transformemos en nuestro objeto de estudio. Lógica­
mente, para transformar un sonido en objeto de estudio es imprescindible aislar­
lo físicamente o acotarlo conceptualmente con suficiente exactitud.
Como conceptos vinculados al de objeto sonoro, aunque de menor nivel en
tanto que éste los englobaría, podemos hablar de suceso sonoro y de forma so­
El hecho de que el oyente identifique una forma sonora con un objeto físico
concreto que emite sonido conlleva necesariamente que este objeto físico esté si­
tuado en algún espacio volumétrico. Es decir, el acto mismo de la construcción de
un ente sonoro desencadena, también, la construcción del espacio sonoro que lo
contiene. No obstante, debemos tener en cuenta, también, que a pesar de que te­
óricamente todo sonido proviene siempre de una fuente física real, el oyente no
siempre se preocupa de identificarla.
Pensemos de nuevo en la fenomenología de la escucha radiofónica.
Muy a menudo oímos el discurso informativo preocupándonos sólo por inter­
pretar sus contenidos, sin prestar ninguna atención al lugar que ocupan los locu­
tores en el espacio del estudio, a la distancia que hay entre ellos, o a cómo esta­
ban colocados los instrumentistas que grabaron las ráfagas musicales utilizadas
como separador entre las distintas secciones del informativo. Es decir, como oyen­
tes, podemos optar perfectamente por no preocuparnos en ningún momento por
reconocer a un locutor o a una música como un ente acústico.
Pero también podemos hacer lo contrario.
En el momento en el que un oyente sustituye intelectualmente el sonido de
la voz de un locutor por el locutor mismo, automáticamente está creando un es­
pacio para él y en torno a él. En este momento el sonido de la voz actúa como
un ente acústico, es decir, como una forma acústica que sustituye sígnicamente
a una fuente sonora, y que puede ser tratada dentro del espacio sonoro exacta­
mente igual a como podría ser tratada la fuente sonora evocada en el espacio
real.
Para comprender la lógica narrativa que organiza el espacio sonoro es impor­
tante tener en cuenta que los entes acústicos son siempre acusmáticos. Es decir,
hablando de una forma menos críptica, son absolutamente independientes de su
fuente sonora objetiva original. Se trata de sonidos aislados que sólo están vincu­
lados a un objeto físico en el cerebro del receptor. Es decir, el sonido / trino de pá­
jaros/ puede perfectamente haber sido creado mediante síntesis sonora por un or­
denador. El valor expresivo de un ente acústico no dependede su origen
productivo sino de que éste sea reconocido o no por parte del receptor como di­
rectamente dependiente de una fuente sonora. Así, el ente acústico no solo no de­
pende de su fuente original, sino que puede construirse articulando sonidos con
fuentes sonoras que nunca tuvieron nada que ver entre sí. Ejemplos muy claros de
esto podemos encontrarlos en el radiodrama. Recuerdo en estos momentos un
brillante ejercicio de narración sonora realizado por un grupo de alumnos míos
en el que se asociaba un sonido sintético a los saltos de una planta que había ad­
quirido misteriosamente la capacidad de moverse. La planta saltaba haciendo un
/pooooiiing/ metálico extraordinariamente sugerente que aterrorizaba a una tier­
na señora cincuentona. El /pooooiiing/, una vez asociado mediante una adecuada
descripción a la exótica planta, actuaba ya narrativamente como la planta misma.
A partir de este momento cualquier manipulación acústica del /pooooiiing/ (trata­
miento de la intensidad, reverberancia, etc.) era ya interpretado por los oyentes
como un movimiento espacial de la planta. En suma el /pooooiiing/ se había
transformado en el ente acústico /planta saltadora/.
48
nora.
Un suceso sonoro es cualquier sonido acotado en el tiempo (véase Shafer, 1979).
Definiremos forma sonora como cualquier sonido identifiable y reconocible a tra­
vés de alguna de sus características acústicas.
Como el lector habrá deducido sin dificultad, cualquiera de estos dos concep­
tos puede ser utilizado para definir un objeto sonoro.
2.3.4. Ente acústico
Cuando escuchamos a través de un medio de comunicación audiovisual un so­
nido, el oyente puede reconocer o no reconocer la fuente sonora que lo ha gene­
rado. Cada una de estas dos posibilidades genera una fenomenología completa­
mente distinta desde el punto de vista cognoscitivo.
Cuando el oyente reconoce la fuente generadora del sonido, el sonido deja de
ser un objeto sonoro para pasar a actuar en la mente del receptor como si fuese la
fuente sonora misma. No obstante, la fuente sonora ya no existe, solo existe el so­
nido como un ente independiente que ha adquirido para el receptor un valor sígnico aparentemente -sustitutorio» de la fuente sonora. En realidad el fenómeno co­
municativo que esto comporta es bastante más complejo que una simple
sustitución del sonido por la fuente. O, en todo caso, este valor sustitutorio es de
un carácter muy similar al que tiene un signo lingüístico.
Intentaremos ilustrar esto con un ejemplo.
Mediante la forma sonora /trino de pájaros/ podemos evocar en la mente del
oyente la sensación de presencia de un grupo de pequeñas aves, sin ninguna ne­
cesidad de que éstas estén presentes en realidad, sin necesidad siquiera de que és­
tas existan. Exactamente igual que hacemos con la lengua al decir por ejemplo
-allí detrás hay unos pajarillos». La única diferencia objetiva es que el signo /trino
de pájaros/ no es arbitrario sino indexativo. El piar de los pájaros es reconocido
como un forma acústica que está asociada de forma física al referente que evoca
y esto le confiere un grado de verosimilitud muchísimo mayor del que tiene una
secuencia lingüística.
Pero antes de seguir avanzando en el estudio detallado del concepto ente
acústico intentaremos definirlo con la precisión suficiente:
Llamaremos ente acústico a cualquier forma sonora que habiendo sido separada de
su fuente original, es reconocida por el receptor como una fuente sonora concreta que
está situada en algún lugar de un espacio sonoro.
50
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Naturalmente, el origen del efecto sonoro no tenía nada que ver con ninguna
planta. Los estudiantes lo construyeron a partir del sonido de un muelle previa­
mente grabado en un disco editado por la BBC,2 y que ellos manipularon copián­
dolo en cinta magnetofónica y ralentizando después su velocidad de reproduc­
ción.
Evidentemente, un ente acústico es un signo en tanto que es una forma ex­
presiva que al ser reconocida por el receptor desencadena en su mente un estí­
mulo concreto con el que está asociada. Y, a la vez, esta forma sonora tiene un re­
ferente concreto en la realidad referencial.
Hasta aquí un ente acústico actúa exactamente igual que un signo lingüístico.
No obstante, el ente acústico está justo a mitad de camino entre las concepciones
peirceana y saussuriana del signo. Las formas sonoras que configuran un ente
acústico no tienen un origen arbitrario como ocurre con el signo lingüístico, sino
que la forma sonora que actúa como significante ha sido generada originaria­
mente de un modo natural, y estaba vinculada de una forma objetiva al ente físico
que la produjo mediante sus vibraciones.
Pero desde el momento en que arrancamos el sonido de su fuente física y lo
tratamos en una narración de manera independiente, tampoco está actuando co­
mo un índice vinculado rígidamente a su origen físico.
Al enfrentarnos con el concepto de ente acústico nos encontramos con un
ejemplo muy claro de una fenomenología sígnica radicalmente nueva que tiene su
origen específico en el lenguaje audiovisual y cuyas características fundamentales
son las siguientes:
1. Partimos de la voluntad previa de transmitir una información de carácter
naturalista.
2. Creamos artificialmente un mensaje totalmente nuevo que estimula so­
bre el sistema sensorial del hombre percepciones muy similares a las que pro­
ducen las informaciones de origen natural.
El ente acústico es un signo específicamente audiovisual que tiene como ca­
racterística esencial, igual que todos los signos específicamente audiovisuales,
una enorme capacidad de verosimilitud. Como signo audiovisual es de carácter
esencialmente naturalista, y se basa en su identidad con formas sonoras y visuales
que originariamente fueron índices naturales de fenómenos físicos concretos. Es­
te carácter de fragmentos de copia casi exacta de la realidad, creados y reordena­
dos para narrar es lo que confiere a los signos audiovisuales su gran capacidad de
realismo.
2. British Broadcasting Corporation.
Capítulo
3
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
El objetivo de este capítulo es proporcionar al lector una serie de conocimien­
tos sobre acústica básica y su relación con el fenómeno perceptivo que le serán
imprescindibles para comprender muchos de los razonamientos y los modelos
que revisaremos a lo largo de esta obra.
3.1. Entre el fenómeno vibratorio y el perceptivo
Si bien es cierto que no todos los fenómenos vibratorios son perceptibles por
el ser humano, si que lo es que el oído del hombre tiene una extraordinaria capa­
cidad de análisis para toda vibración simple o compuesta que esté entre los 17 y
los 20.000 ciclos por segundo y entre los 0 y los 120 decibelios (naturalmente con
muchos matices como veremos más adelante).
En este apartado haremos una revisión de la física del sonido, es decir, de las
vibraciones perceptibles por el oído humano, para extraer de esta disciplina una
serie de instrumentos conceptuales que pueden ser de gran utilidad para la narra­
ción audiovisual. Para que esta aproximación a la acústica resulte útil desde el pri­
mer momento, relacionaremos siempre las dimensiones acústicas con el tipo de
sensaciones que vehiculan.
La aproximación al sonido que se va a hacer en esta obra tendrá siempre dos
puntos de vista: el físico y el perceptivo. Comenzaremos en este apartado estu­
diando el sonido desde la acústica, pero conectando siempre esta disciplina con
su inevitable dimensión perceptiva; y en el capítulo siguiente desarrollaremos con
detalle la perspectiva inversa, es decir, el estudio del sonido desde el punto de vis­
ta de la psicología de la percepción. El sentido de hacer este doble esfuerzo radi­
ca en las importantes contradicciones que aparecen sistemáticamente entre la me­
dición acústica de las formas sonoras, y la percepción humana de aquello que
hemos medido,1 contradicción que no suele estar suficientemente recogida ni en
los tratados de acústica ni en los de psicología perceptiva. El objetivo último de
este método de trabajo va a ser siempre el mismo: intentar localizar los puentes
que existen entre el sonido como fenómeno físico y las distintas interpretacio­
nes que hace de él el ser humano.
3.1.1. Sonidos puros y sonidos compuestos
Para empezar a ordenar en categorías el universo sonoro comenzaremos por
esta dicotomía esencial. Hablaremos de sonidos puros cuando estemos haciendo
referencia a sonidos que están constituidos por una sola frecuencia. Los sonidos
puros producen una sensación auditiva extremadamente pobre y simple, poco
agradable. El ejemplo clásico es la vibración de un diapasón; los pitidos electró­
nicos suelen ser también sonidos simples; este tipo de sonidos es bastante escaso
fuera de los estudios de audio y de los laboratorios de sonido. Los sonidos com1. Este fenómeno fue sistematizado ya en la ley de Weber y Fechner, que estudiaremos con detalle
en el apartado 3.4.2 cuando se habla de la intensidad del sonido.
54
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
55
puestos son aquellos que están formados por dos o más frecuencias. Éste es el es­
tado más natural del sonido y su gama de posibilidades es tan extremadamente
amplia que no es posible hablar de ninguna sensación auditiva común en todos
ellos.
La división entre sonidos puros y compuestos es puramente física. Su sentido
tiene poco valor perceptivo pero, como veremos más adelante, es la base de una
aproximación teorética que permite comprender los sonidos complejos partiendo
de la suma de conocimientos obtenidos en el estudio de las distintas frecuencias
simples que constituyen cualquier sonido compuesto.
Los sonidos puros están generados por la vibración de cuerpos que tienen una
estructura interna muy homogénea, lo que hace que todas sus moléculas respon­
dan frente a determinado estímulo físico vibrando exactamente del mismo modo.
Contrariamente, las diferencias de densidad, de forma, de cantidad de masa, etc.,
entre las moléculas de un mismo cuerpo hacen que al ser estimulado físicamente,
por ejemplo con un golpe, se originen dentro de él varias vibraciones distintas
que al interactuar unas sobre otras generan una oscilación global compuesta y,
por tanto, mucho más compleja.
Una forma simple para ejemplificar esta diferencia es imaginando dos cuerpos
físicos ideales, compuesto cada uno de ellos solamente por dos moléculas. Imagi­
nemos también que las dos moléculas del cuerpo-1 (fig. 1) son exactamente igua­
les y tienen la misma forma, masa y tamaño, es decir, forman un cuerpo homogé­
neo. En cambio el cuerpo-2 (fig. 2) es heterogéneo y, por tanto, está compuesto
por dos materias distintas, así que sus dos moléculas tienen una masa, un tamaño
y una densidad diferentes una de otra. En tanto que cada uno de los cuerpos tiene
sus dos moléculas ensambladas entre sí elásticamente, tanto el cuerpo-1 como el
cuerpo-2 tendrán al vibrar un movimiento global que será la combinación de los
movimientos de sus dos moléculas respectivas (fig. 3).
Estudiemos en primer lugar el movimiento vibratorio del cuerpo-1.
Al golpearlo, cada una de sus dos moléculas idénticas oscilará exactamente del
mismo modo, trazando dos movimientos vibratorio-armónicos simples. Estos mo­
vimientos pueden representarse mediante dos senoides también idénticas y en fa­
se. Si el resultado es la combinación de movimientos, y esto lo representamos me­
diante la suma lineal de las dos senoides trazadas por la vibración de cada una de
las moléculas A y B, el resultado será una nueva vibración simple (columna iz­
quierda de la fig. 3). En suma, la vibración global del cuerpo-1 (vibración- [AB])
es una vibración simple. Vibra de un solo modo; si esta vibración fuera audible
(entre 20 y 20.000 oscilaciones por segundo) estaría constituyendo un sonido pu­
ro analizable como una única frecuencia.
Pasemos ahora a estudiar con detalle el movimiento de nuestro segundo cuer­
po ideal, el cuerpo-2.
Al recibir el estímulo, cada una de sus dos moléculas C y D responderá de un
modo distinto en función de su propia masa y tamaño. Así, cada una de las molé­
culas que lo componen describirá un movimiento vibratorio-armónico diferente.
La molécula-D, al ser de mayor masa y tamaño que la molécula-C, oscilará en me­
nos ocasiones por unidad de tiempo pero alejándose más del centro de oscilación
Figura
1. Vibración de un cuerpo físico ideal homogéneo.
que la molécula-C (fig. 2). Estamos ahora ante un sistema constituido por dos par­
tes distintas y ensambladas que, aunque responde parcialmente de dos maneras
diferentes al mismo estímulo, tiende, obligado por una unión elástica, a construir
un único movimiento global. La oscilación de todo el cuerpo-2, en lugar de pro­
ducir un movimiento vibratorio-armónico simple, lo producirá complejo (colum­
na derecha de la fig. 3). Resumiendo, el movimiento global del cuerpo-2 (vibración-[CDP es una única oscilación compleja, que si fuera audible estaría
construyendo un sonido compuesto, y que al analizarlo instrumentalmente daría
como resultado dos frecuencias perfectamente diferenciadas.
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
Cuerpo -1
Normalmente, todo cuerpo físico es heterogéneo en su forma, en su masa, o
en ambas cosas a la vez. Al ser estimulados de modo que vibren con frecuencias
audibles, las distintas oscilaciones internas de estos cuerpos heterogéneos com­
ponen un único movimiento complejo global que se traduce perceptivamente en
un sonido compuesto. Estos sonidos compuestos son la única información habi­
tual de que solemos disponer, así que solamente cuando se analizan esos sonidos
compuestos con los instrumentos adecuados, éstos revelan cuales son las distin­
tas frecuencias que los componen.
La que hemos descrito en la figura 2 no es la única forma de composición de una
vibración compleja, y, en consecuencia, de un sonido compuesto. Cada molécula
de un cuerpo físico puede responder, también, moviéndose simultáneamente de
formas diferentes frente a estímulos distintos, organizando así vibraciones comple­
jas. Esto explica el caso de los objetos que suenan de forma completamente distin-
57
F igura 3- Senoides trazadas por las vibraciones de cada una de las moléculas de los cuerpos 1 y 2 (curvas superiores), y senoides
resultantes de sumar las dos vibraciones de cada cuerpo (curvas inferiores).
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Cuerpo -2
56
58
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
59
ta según se les golpea en un lugar o en otro. Cada uno de los golpes hace vibrar al
cuerpo en cuestión de una manera diferente y, en consecuencia, produce un ruido
distinto. Pero veamos esto con un poco más de detalle.
Imaginemos una pequeña esfera metálica sujeta horizontalmente por dos ban­
das elásticas en la disposición que se muestra en la figura 4. Podemos aplicar a es­
te sistema físico dos tipos de estímulos diferentes que lo harán oscilar de manera
diferente. Si estiramos de la esfera, por ejemplo aplicando una fuerza F1 de arriba
hacia abajo para soltarla cuando las bandas estén tensas, se producirá una vibra­
ción de la bola de arriba hacia abajo y de abajo hacia arriba. El sistema permite
también, aplicando una fuerza F2, que mueva la bola de metal hacia la derecha
hasta tensar las gomas y soltándola bruscamente, que la esfera oscile de izquierda
a derecha y de derecha a izquierda. Cada una de estas dos vibraciones tendrá una
frecuencia y una amplitud diferentes, así que si sus frecuencias estuvieran dentro
del espectro audible producirían dos sonidos distintos.
Imagine ahora el lector que aplicamos ambas fuerzas simultáneamente, es de­
cir, que a la vez que estiramos de arriba hacia abajo tensamos la esfera hacia la de­
recha y volvemos a soltar bruscamente. Ahora la bola metálica se estará movien­
do a la vez: de abajo arriba, de arriba abajo, de derecha a izquierda y de izquierda
a derecha (fig. 5). En resumen, trazando un movimiento vibratorio sumamente
complejo que de ser audible sería un sonido compuesto de dos frecuencias. A di­
ferencia del ejemplo anterior, ahora la complejidad no depende de la heteroge­
neidad del cuerpo vibrante, sino de los distintos estímulos aplicados para hacerlo
vibrar.
Finalmente, la tercera forma de construcción de un sonido compuesto es la su­
ma de las dos anteriores. Es decir la de un cuerpo que, además de ser heterogé­
neo, está sometido a varios estímulos distintos que hacen vibrar cada una de sus
moléculas de varias formas diferentes. El resultado es una vibración muy comple­
ja compuesta por el sumatorio de tantas frecuencias simples como tipos de movi­
mientos existen en el interior del cuerpo en cuestión.
3.1.2. La amplitud y la frecuencia en los sonidos puros
y 5. Sistema físico estimulado por dosfuerzas diferentes Fl y F2, que ge­
neran un movimiento vibratorio complejo.
Figuras 4
Creo que es importante empezar este apartado explicando las dos siguientes
cuestiones previas.
En primer lugar, hemos visto que cualquier sonido compuesto es analizable
como una serie de frecuencias simples, o sonidos puros, que al sumarse lineal­
mente dan como resultado el sonido compuesto estudiado. Esta posibilidad de
análisis por descomposición en partes simples es lo que da sentido real al estudio
de los sonidos puros. Sin partir de esta base conceptual no sería posible entender
el funcionamiento de los sonidos cotidianos, que son siempre compuestos.
La segunda cuestión previa es que en el ámbito de la comunicación audiovi­
sual se confunden a menudo el fenómeno físico de las vibraciones y la sensación
que éstas producen en el sentido de la audición. Este problema tiene su origen en
la relación directa que existe entre estos dos fenómenos: toda vibración que está
60
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
entre las 20 y las 20.000 oscilaciones por segundo es detectada por el hombre co­
mo un sonido, con lo que vibración se asimila a sonido, y sonido a vibración. No
obstante, ni todos los fenómenos físicos vibratorios son audibles ni todo lo que oí­
mos es traducible en fenómenos físicos vibratorios. Es necesario, en consecuen­
cia, diferenciar siempre con toda claridad entre lo acústico como fenómeno físico
y la sensación sonora como fenómeno psicológico ya que la relación entre ambos
no es siempre isomórfica. En este apartado revisaremos los primeros y más sim­
ples puentes de relación entre estos dos fenómenos.
Explicados ya estos dos apriorismos que determinarán por completo nuestra
forma de abordar y desarrollar la acústica, comenzaremos la aproximación a los
sonidos puros con el concepto de amplitud y su vinculación a la sensación de in­
tensidad sonora. Para ello recurriremos de nuevo a la imaginación auditiva del
lector.
Suponga el lector que se encuentra frente a una barra metálica de masa y ten­
siones internas homogéneas, es decir, capaz de emitir sonidos puros, firmemen­
te sujeta por uno de sus extremos, tal como se muestra en el dibujo de la izquier­
da de la figura 6. Si golpeásemos la barra aplicando una fuerza «F», la barra se
pondría a oscilar de arriba abajo emitiendo un sonido de frecuencia única. Ima­
ginemos, también, que el sistema de mordazas que sujeta la barra permite el giro
en torno a un eje de simetría -S>, tal como se muestra en la misma figura 6. Si ha­
cemos girar la barra a la vez que oscila, su extremo seguirá una trayectoria ondu­
lante describiendo un movimiento similar al que se ha dibujado en el lado dere­
cho de la figura. Lógicamente, el pequeño rectángulo rayado de la derecha
representa la punta de la barra de metal, y la línea ondulante la trayectoria que si­
gue al desplazarse a velocidad uniforme de izquierda a derecha mientras gira en
torno al eje -S».
Desde este tipo de representación del movimiento es posible relacionar con
comodidad las distintas dimensiones perceptivas de la audición con la forma de
vibrar la fuente sonora. Junto a la figura 6 se muestran la figura 7 y la figura 8 que
nos permitirán desarrollar una serie de comparaciones para explicar estas relacio­
nes acústico-vibratorias.
La propia experiencia vital nos muestra con frecuencia que cuanto más fuer­
te es el golpe que asestamos a algo (por ejemplo a nuestra barra de metal) más
fuerte es el sonido que produce. Esto es lo que expresan las diferencias entre las
figuras 6 y 7. Mientras la fuerza del imaginario golpe que hemos dado a la prime­
ra barra era
la fuerza con que se ha golpeado la segunda es justamente el do­
ble, es decir -2F. El resultado lógico de esta diferencia es que la segunda barra,
la de la figura 7, vibra alejándose mucho más de su centro de reposo y suena,
también, bastante más fuerte. Vemos, pues, que existe una relación evidente en­
tre la amplitud con la que vibra la fuente sonora y la sensación de fuerza que
produce el sonido generado por esta vibración. Dicho de otro modo: existe una
2. Recordemos que la amplitud es la distancia entre el punto de reposo del cuerpo vibrante y el lu­
gar más alejado de éste al que llega el mismo cuerpo durante un ciclo oscilatorio. En el caso de las fi­
guras 6, 7 y 8 sería la distancia entre los puntos «0» y «A» respectivamente.
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
61
6, 7 y 8. Representación de la amplitud y la frecuencia desarrolladas por
una barra de metal al estar sujeta y ser golpeada de formas distintas.
Figuras
relación de dependencia directa entre la amplitud? de cualquier vibración y la
sensación de intensidad5 que ésta produce en el oído humano. Como puede ver­
se a la izquierda de las figuras 6 y 7, mientras la amplitud de la vibración produ­
cida por el primer golpe es de 26 milímetros, la amplitud producida por el se­
gundo es de 37.
Así, la mayor o menor amplitud de las vibraciones que llegan hasta nuestros
tímpanos queda traducida por el sistema perceptivo humano en sensación de más
o menos intensidad. Entre ambos fenómenos existe, pues, una conexión directa;
3. Recordemos, también, que el concepto de intensidad sonora es el que sistematiza la sensación
de sonidos más o menos fuertes.
62
63
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
no obstante, la relación entre ambos es muy compleja. Más adelante estudiaremos
de qué modo es posible cuantificarla.
Pasaremos ahora a hablar de la relación entre la frecuencia de una vibración y
la sensación auditiva de tono.
Recordaremos, en primer lugar, el sentido de estos dos conceptos: cuando ha­
blamos de frecuencia^ nos estamos refiriendo a la velocidad de vibración de cual­
quier cuerpo físico; y cuando hablamos de tono nos referimos a la sensación de
agudo o grave que comporta siempre la percepción de cualquier sonido. Y para
explicar de qué forma percibe el ser humano la frecuencia de vibración de un
cuerpo, recurriremos de nuevo a la experiencia vital del lector.
Volvamos a la barra metálica del ejemplo anterior, pero ahora nos ocuparemos
de la figura 8. Vamos a golpear la misma barra exactamente con la misma fuerza
con que lo hicimos en el primer ejemplo (fig. 6), pero ahora la barra en lugar
de estar sujeta colocando las mordazas en su extremo derecho está sujeta por el
centro. En esta nueva disposición del sistema, la cantidad de masa que vibra es
mucho menor, con lo que la recuperación elástica debida a las tensiones internas
del metal es más eficaz. El sistema vibrante tiene menos masa y, por tanto, menos
inercia, así que las fuerzas de recuperación interna le dejan alejarse menos de su
centro de reposo (menor amplitud) y le hacen retornar a él mucho más rápida­
mente. Cuando ocurre todo esto, el golpe suena con menor intensidad pero mu­
cho más agudo. En suma, el mismo golpe sobre la misma barra, ahora sujeta de
otra manera, ha transformado parte de la energía vibratoria de modo que la barra
se mueve ahora con mayor rapidez generando un sonido más débil, pero mucho
más agudo.
El fenómeno que describimos es exactamente el mismo que se desarrolla en
una cuerda de guitarra cuando tocamos notas cada vez más agudas. A medida que
bajamos la mano que trastea en el mástil de la guitarra, reducimos la longitud de
la zona vibrante de la cuerda, haciendo así que la sensación auditiva que produce
el tañido sea progresivamente más débil y aguda.
Observando la parte derecha de la figura 8 y comparándola con la de las dos
figuras anteriores se puede comprobar cómo durante los 0,01 segundos repre­
sentados gráficamente en las dos primeras situaciones, la barra desarrolla sólo 2
ciclos completos, mientras que en la tercera consigue desarrollar 3. Traduciendo
esto en número de ciclos por segundo que es la unidad habitual, obtendríamos
que las situación de las figuras 6 y 7 generarían una frecuencia de 120 hertzios4
5o
ciclos por segundo mientras la situación de la figura 8 produce una vibración de
180 Hz.
Este tipo de situaciones tan cotidiano nos muestra de manera muy clara cómo
se establece una relación entre la frecuencia de vibración de cualquier cuerpo (si
ésta está en la gama audible) y la sensación de tono. Cuanto más alta sea la fre­
cuencia de una vibración, será percibida como una sensación sonora de tono ca­
da vez más agudo. Nos encontramos, pues, con que la frecuencia de cualquier vi­
bración simple es traducida por el sistema auditivo humano en sensación tonal.
En el siguiente capítulo hablaremos de cómo se sistematiza esta relación frecuen­
cia-tono, que es, también, considerablemente compleja.
4. En el contexto de los movimientos vibratorios, el concepto de frecuencia se define como el nú­
mero de recorridos completos que realiza un cuerpo oscilante durante un segundo.
5. El hertz (Hz) es la unidad de medida de la frecuencia de oscilación. Decimos que determinada vi­
bración tiene una frecuencia de 1 hertz cuando su movimiento oscilatorio desarrolla un solo ciclo com­
pleto cada segundo. Así, una frecuencia de 2 Hz supone hablar de una vibración que oscila 2 veces por
segundo; 10 Hz suponen 10 oscilaciones cada segundo, etc.
3.2. Los instrumentos para analizar sonidos compuestos
3.2.1. Sobre la concepción analítica de los sonidos compuestos
Más arriba decíamos que los sonidos compuestos son aquellos que están for­
mados por dos o más frecuencias, es decir, son aquellas sensaciones sonoras que
han sido producidas por vibraciones complicadas. También hemos visto en el
apartado anterior cómo estas vibraciones complejas son siempre el resultado de
que una misma masa vibrante se mueva simultáneamente con distintos tipos de
oscilación.
Esta concepción de los sonidos compuestos tiene su origen en los estudios
que hizo Hermann von Helmholtz en el siglo xix utilizando esferas huecas de vi­
drio con dos cuellos tubulares cortos y abiertos. Cada esfera tenía sus dos cuellos
situados en extremos diametralmente opuestos (Helmholtz, 1954). Uno de los
cuellos se aplicaba al oído mientras el otro se acercaba a la fuente de sonido. Si la
composición del sonido contenía una frecuencia igual o muy próxima a la fre­
cuencia resonante de la cavidad del resonador, éste la amplificaba permitiendo
percibirla aisladamente. Utilizando una serie de este tipo de resonadores era po­
sible tener una idea muy aproximada de las distintas frecuencias que componían
cada sonido estudiado. La deducción es directa y lógica: los sonidos complicados
estaban compuestos por un conjunto organizado de otros sonidos más simples
que era posible aislar y escuchar con los resonadores de Helmholtz.
Más tarde, la electrónica ha hecho posible transcodificar con comodidad el so­
nido en una señal eléctrica que varía del mismo modo que la señal sonora utili­
zando los micrófonos; y esta señal eléctrica variable puede transcodificarse a su
vez en un dibujo en forma de onda que contiene prácticamente toda la informa­
ción de la vibración: estamos hablando del oscilograma. A partir de este momen­
to el oscilograma puede ser medido y tratado como una función matemática que
varía al transcurrir el tiempo y que es desglosable en una serie de frecuencias sim­
ples mediante la herramienta matemática denominada Transformada de Fourier.
Estas frecuencias resultantes al ser superpuestas dan siempre como resultado la vi­
bración compleja original.
Finalmente, con la rapidez de cálculo y de toma de muestras que ha propor­
cionado la informática, y con el descubrimiento en 1965 del algoritmo denomi­
nado Transformada Rápida de Fourier6 (véase Martí Roca, 1988, págs. 233-251),
6. En el ámbito más técnico es conocida por las iniciales FFT «Fast Fourier Transform».
64
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
es posible disponer de equipos de análisis de audio capaces de analizar con
gran rapidez la descomposición en frecuencias simples de cualquier sonido
complejo.
Ciertamente, la concepción analítica que emana de todo el proceso histórico
que acabamos de resumir es sumamente fértil. No obstante, como más adelante
veremos, tiene limitaciones importantes. Su limitación consiste en que resulta ex­
tremadamente difícil utilizar conceptualmente un centenar de frecuencias distin­
tas que evolucionan a la vez variando rápidamente en el tiempo.
Pero volvamos al origen. El punto de partida natural es siempre una vibración
compleja que origina la sensación de sonido compuesto. Éste va a ser también
nuestro punto de partida en el contexto audiovisual. Normalmente nos enfrenta­
remos a sonidos compuestos extraordinariamente ricos y complicados que nece­
sitaremos tratar técnica y narrativamente para transmitir tal o cual efecto percepti­
vo a nuestro público. Pero para poder tratar un sonido necesitamos disponer de
una cantidad de información sobre él lo suficientemente amplia. Veamos, pues, en
primer lugar, de qué modo y con qué lógica estructural se pueden presentar ac­
tualmente los análisis de un sonido compuesto, y luego pasaremos a delimitar y
explicar los instrumentos de trabajo que utilizaremos para obtener información
sobre los sonidos en el resto de esta obra.
OSCILOGRAMAS
65
9- Oscilogramas del sonido de una voz pronunciando la vocalA (gráfico
superior); y pronunciando la palabra FONÉTICA (gráfico inferior).
Figura
3.2.2. Los métodos gráficos de análisis acústico
Comenzaremos hablando del oscilograma ya que en la instrumentación actual
éste es siempre el punto de partida de cualquier análisis acústico, seguiremos des­
pués explicando el sonograma como instrumento básico de análisis global, y pa­
saremos, por último, a estudiar el sentido puntual y «microscópico» de espectro­
grama.
El oscilograma es un instrumento gráfico fundamental para estudiar cualquier
sonido compuesto. Como hemos dicho más arriba, el oscilograma es la represen­
tación gráfica en forma de onda de todas las variaciones eléctricas que ha genera­
do un micrófono al ser estimulado por cierto sonido durante un tiempo concreto.
Estas variaciones se extienden sobre ejes de coordenadas representándose la am­
plitud en el eje vertical y el tiempo en el horizontal. En la figura 9 podemos ver
en la parte superior el oscilograma de una voz masculina pronunciando la vocal
/AAAA/ de forma continua, y en la parte inferior el oscilograma de la misma voz
pronunciando la palabra /FONÉTICA/.
El primero es un sonido compuesto estacionario, es decir que no varía en el
tiempo (naturalmente este carácter estacionario es sólo aproximado); y el segun­
do un sonido compuesto que varía en función del tiempo. Se puede observar
perfectamente, comparando los dos oscilogramas, que mientras el primero está
constituido por una oscilación compleja regular, el del gráfico inferior sufre va­
riaciones muy importantes tanto en amplitud como en forma de onda a medida
que nos desplazamos en el eje de tiempo (de izquierda a derecha). Ambos osci-
logramas representan sendos fragmentos sonoros de 0,74 segundos. El lector
puede comprobar esto restando la cifra del extremo inferior izquierdo7 de la del
extremo inferior derecho8 respectivamente en cada gráfico. En el segundo osci­
lograma se ve claramente cómo cada uno de los distintos fonemas de la palabra
/FONÉTICA/ configura un tipo de representación vibratoria perfectamente dife­
renciada.
A partir del tratamiento matemático de estos dos oscilogramas es posible ob­
tener información sobre su composición de otras dos formas distintas: generando
sonogramas y generando espectrogramas. Pero antes de entrar con detalle en es­
tas dos nuevas formas de presentación de la misma información acústica desarro­
llaremos una propuesta gráfica global que proporcionará al lector una idea intui­
tiva de cómo realizan las distintas transformaciones de los datos del oscilograma
los sistemas de análisis electroacústico.
Observe ahora el lector la figura 10. En este dibujo están representadas dentro
de un espacio tridimensional las cuatro frecuencias simples que constituyen un
7. La cifra expresa el momento en que empieza la representación gráfica del oscilograma (1.486
seg.) respecto al momento (0 seg.) que sería el inicio absoluto del sonido que el sistema ha capturado y
tiene completo en su memoria.
8. La cifra expresa el momento en que termina la representación gráfica del oscilograma (2.231 seg.)
respecto al momento (0 seg.) que sería el inicio absoluto del sonido que el sistema ha capturado y tie­
ne completo en su memoria.
66
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
pto. vista 2 (sonograma)
67
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
■ñ>chl : FIG10.NSP - SCALE
a
0.04?É>8<
1498>
11. Medida de la duración delfonema/I/ en la palabra FONÉTICA utili­
zando el oscilograma.
Figura
10. Representación tridimensional de un sonido compuesto por cuatrofre­
cuencias simples.
Figura
sonido compuesto. Las ondas vibratorias están ordenadas de menor a mayor fre­
cuencia según estén más o menos cerca del punto -0- en los ejes de coordenadas.
Para poder observar y tomar datos de nuestro sonido compuesto, ya desglosado
gráficamente en cuatro frecuencias, hemos de definir puntos de vista concretos y
estables. Siguiendo esta lógica, el punto de vista frontal (perpendicular) a cada
uno los tres planos (X-Y; X-Z; Y-Z), que definen geométricamente el espacio tri­
dimensional, determina uno los tres métodos clásicos de representación gráfica
que se utilizan para estudiar los sonidos. Es decir: el oscilograma, el sonograma y
el espectrograma respectivamente.
El oscilograma. Vayamos en primer lugar al -pto. de vista 1- de la figura 10. Si
observásemos las cuatro curvas desde este punto de vista, o sea, colocando nues­
tros ojos exactamente frente al plano X-Y, tal como se indica en el dibujo, vería­
mos todas las senoides aplastadas y amontonadas una sobre otra formando una
única madeja de líneas que se extiende de izquierda a derecha en este plano se­
gún avanza el tiempo. La forma de que esta -madeja" de líneas aporte información
coherente y ordenada es transformando las cuatro frecuencias simples en una úni­
ca curva compleja que sea el resultado de la superposición lineal de las cuatro an­
teriores. Si hiciésemos esto, el -pto. de vista 1- nos proporcionaría la representa­
ción gráfica del sonido denominada oscilograma.
Este tipo de representación de los sonidos es especialmente eficaz para traba­
jar sobre la dimensión temporal. Dicho de otro modo: el oscilograma nos permi­
te medir con mucha precisión la duración de los objetos sonoros (ver el apartado
2.3.3). Mediante el oscilograma del sonido /FONÉTICA/, por ejemplo, podemos
saber cuál es la duración de cada uno de los fonemas que lo componen. Pode­
mos situar los cursores del sistema de análisis en los dos extremos de la /I/ (véase
fig. 11), tomar los tiempos, restarlos, y obtener así su duración exacta. Este tiem­
po exacto aparece en la primera cifra del ángulo superior derecho del gráfico;
0,04760 segundos. O lo que es lo mismo: 47 milésimas de segundo. La única for­
ma de cuantificar tiempos de esta magnitud es utilizando este instrumento gráfico,
por supuesto, sería imposible medir este objeto sonoro con un cronómetro mien­
tras se escucha la palabra.
Mediante el mismo método podemos conseguir, por ejemplo, la duración me­
dia de los distintos sonidos de toda la palabra /FONÉTICA/.
Pero, ¿cuál es la utilidad de todo esto en el ámbito de la expresión audio­
visual?
Pongamos por caso que decidimos obtener datos sobre la duración media de
las vocales y las pausas de locuciones tensas y agresivas para compararlos con
otros datos sobre locuciones tranquilas y relajadas. Este tipo de información pro­
porcionaría referencias objetivas muy útiles en el doblaje. Cada actitud emocional
concreta que perseguimos podría estar formalizada por una serie de datos de re­
ferencia que servirían, tanto al director como a los dobladores, para saber si'se es­
tá construyendo exactamente, o no, la actitud que se intenta construir.
Veamos otro ejemplo. La reverberación artificial es un recurso expresivo es­
pecialmente habitual en el contexto audiovisual. Cuando el tiempo de reverbe­
ración supera la duración media de los fonemas, el texto sonoro reverberado se
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
hace completamente ininteligible. Así pues, conocer con precisión la duración
media de los fonemas del texto concreto que queremos manipular es una in­
formación crucial para decidir el nivel de reverberación artificial que podemos
aplicar en cada texto.
Un último ejemplo para ilustrar la utilidad de este instrumento gráfico. Sin du­
da, el uso más cotidiano de la medición sobre el oscilograma es el que se hace en
el montaje audio-video mediante la edición informatizada. Actualmente, para
ajustar la sincronía entre imágenes y sonido se manipula informáticamente el au­
dio recortando fragmentos sonoros aquí o allá de forma cuantificada y exacta. El
lector debe tener en cuenta que éstos son sólo unos pocos ejemplos de una gama
de posibilidades de uso extremadamente amplias de las que ahora sólo hemos ci­
tado alguna.
El sonograma. El -pto. de vista 2-, que contempla las curvas de la figura 10 des­
de arriba (plano X-Z), es el que generaría la imagen del sonograma. Al mirar las lí­
neas trazadas por las cuatro vibraciones a vista de pájaro tendríamos la sensación
de que éstas se han transformado en rayas lisas (la perspectiva adoptada nos es­
conde el efecto de ondulación). No obstante, estas líneas que ondulan acercán­
dose y alejándose de nuestro ojo según aumenta o disminuye la amplitud de la vi­
bración, o lo que es lo mismo, la intensidad del sonido, sí que producirían un
efecto visual de mayor grosor y oscuridad a medida que se acercan a nuestro ojo.
Así, el sonograma traduce el aumento de intensidad del sonido (amplitud de la vi­
bración) en mayor oscuridad y grosor de las líneas. A mayor intensidad, mayor os­
curidad. Cuantas más frecuencias intensas se concentran en una zona concreta
mayor es el grosor de la línea oscura.
Al ser vistas sobre el plano X-Z, las curvas de la figura 10 estarían representa­
das, entonces, por cuatro líneas rectas horizontales que se extenderían de iz­
quierda a derecha, siendo la más cercana al eje -X- la más oscura de las cuatro,
puesto que es la que tiene mayor amplitud. Y de acuerdo con el citado dibujo, ca­
da una de las tres siguientes sería menos oscura a medida que disminuye su res­
pectiva amplitud.
En la figura 12 podemos observar el sonograma real de un sonido estacionario,
es el de la vocal /A/ que ya habíamos estudiado en la figura 9, ahora representa­
do como una serie de líneas de mayor o menor oscuridad que se extienden de iz­
quierda a derecha durante un tiempo de 0,000 a 0,745 segundos.
Pero ésta no es la única información que proporciona el sonograma. Siguien­
do siempre la misma lógica representational, las frecuencias simples obtenidas en
el análisis estarán ordenadas de menor a mayor frecuencia según estén más o me­
nos cerca del punto «0». Consecuentemente, cada una de las líneas que contem­
plaríamos al mirar la figura 10 desde el -pto. de vista 2~ está ubicada a una distan­
cia concreta de «0» al cortar el eje «Z». La distancia que va del punto «0» al punto en
que cada línea intersecta el eje «Z» nos da información sobre la altura tonal de ca­
da uno de los sonidos simples que componen el análisis. O lo que es lo mismo,
sobre la frecuencia exacta de cada una de las vibraciones simples que constituyen
la frecuencia compuesta. Volviendo, pues, a la figura 12, puede verse como el eje
situado a la izquierda del sonograma (se corresponde con el eje «Z» de la figu­
ra 10) es el que indica la frecuencia en hertz -Freq. (Hzf y se extiende, en este ca­
so, de 0 a 5.000 hertzios.
El sonograma es la representación gráfica de un sonido compuesto que nos
proporciona más cantidad de información simultánea. Sobre el eje vertical («Z» en
la figura 10) obtenemos información de la altura tonal; el grado de oscuridad de
las líneas nos proporciona información sobre la intensidad; y, finalmente, tal co­
mo ocurría con el oscilograma, el eje situado en la parte inferior del sonograma
(«X» en la figura 10) aporta información temporal. Es decir, nos encontramos fren­
te a una representación que da información sobre los tres parámetros sonoros a la
vez: intensidad, frecuencia y tiempo.
El sonograma ha sido muy utilizado en fonética y bastante menos en comuni­
cación audiovisual. No obstante, es un instrumento absolutamente imprescindible
en la primera etapa de cualquier análisis acústico. Cuando no sabemos absoluta­
mente nada de un sonido que necesitamos tratar expresivamente, el punto de par­
tida será siempre el análisis sonográfico.
El espectrograma. Finalmente, el -pto. de vista 3- para contemplar las cur­
vas de la figura 10 sobre el plano Y-Z generaría el aspecto gráfico de una serie
de barras verticales de distinta longitud, todas alineadas. A este tipo de repre­
sentación es a lo que se denomina espectrograma. En el plano Y-Z de la figu­
ra 10 podemos observar la proyección de lo que sería el espectrograma de
nuestro imaginario sonido compuesto por cuatro frecuencias simples. Al mirar
«lateralmente» las curvas, solamente podríamos ver sus distintos perfiles como
barras o líneas, tanto más alejados del punto «0» cuanto más alta sea la fre­
cuencia de cada una de las vibraciones. Igual que en el sonograma, la inter-
68
12. Sonograma del sonido de una voz pronunciando la vocal /A/. Es el
mismo sonido que se estudió en la figura 9, gráfico superior.
Figura
69
70
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
sección con el eje «Z» nos aportará la frecuencia exacta de cada uno de los so­
nidos simples.
Por otra parte, cada una de las curvas, al ser vista de «lado» adoptará el aspec­
to de una barra vertical tanto más larga cuanto mayor sea su amplitud, es decir,
cuanto mayor sea la intensidad del sonido simple que representa. La proyección
de cada una de estas barras sobre el eje «Y» proporciona información precisa so­
bre la intensidad de cada uno de los sonidos simples.
Con el fin de que la representación espectrográfica sea visualmente más signi­
ficativa, en lugar de representar las barras de cada una de las curvas alineadas por
su centro, tal como correspondería a la imagen que generaría de forma natural el
■pto. de vista 3-, se representa sólo una de las mitades de la imagen, de modo que
queden alineadas siempre con uno de sus extremos sobre el eje «Z». De esta ma­
nera, en lugar de presentar un aspecto simétrico a ambos lados de un eje central,
el espectrograma muestra el aspecto de una cresta en la que las diferencias que­
dan siempre acumuladas en el mismo extremo. Las diferencias de amplitud (in­
tensidad) se hacen así más evidentes y fáciles de manejar.
Respecto al espectrograma, es muy importante observar que la información
que proporciona respecto a la composición de frecuencias que tiene un sonido, y
respecto a la intensidad de cada una de estas frecuencias, está siempre referida a
un solo instante concreto de la evolución del sonido en el tiempo. Es un corte
transversal del suceso sonoro, algo así como una fina rodaja que muestra con mu­
cho detalle el contenido de un salchichón, pero sólo en el lugar exacto donde la
hemos cortado, ignorando todo lo demás; a no ser que lo cortemos en su totalidad
en infinitas rodajas sucesivas para estudiarlas una a una. Nos permite analizar al
detalle la composición de la materia acústica en un punto temporal preciso, pero
pierde completamente de vista el resto de la evolución sonora anterior y posterior
al instante seleccionado.
Las barras representadas en el plano Y-Z de la figura 10 configuran el espec­
trograma del sonido-ejemplo de cuatro frecuencias con el que estamos trabajan­
do. Puede observarse cómo cada una de las barras es más alta que la anterior a
medida que nos acercamos al punto «0», respondiendo estas alturas a las respecti­
vas amplitudes de cada una de las vibraciones. El espectrograma representado
respondería a un análisis realizado justo al iniciarse el sonido, digamos que en el
segundo 0,0001.
Veamos ahora un espectrograma real. En la figura 13 se muestra el espectro­
grama de la misma /A/ que hemos estudiado ya varias veces. Observe el lector
que el espectro de frecuencias se muestra bajo un oscilograma.
El oscilograma muestra un suceso sonoro de 0,744 segundos de duración, con
un cursor situado aproximadamente en el centro, exactamente en el segundo
0,33195 (cifra de la esquina superior derecha). En este punto es en el que se ha
realizado el análisis espectral que se muestra en el gráfico de debajo. Siguiendo el
modelo de representación global con el que estamos trabajando, el espectrogra­
ma viene a ser la contemplación frontal de un corte transversal del oscilograma
realizado en el punto T = 0,33195 seg.
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
71
13. Gráfico inferior: espectrograma del sonido de una voz pronunciando
la vocal /A/ desarrollado en momento: T - 0,33195 seg. Es el mismo sonido que
se estudió en la figura 9.
Figura
Podemos observar que, en este instante temporal, la masa sonora de la /A/ es­
tá representada por una cresta de 41 puntas que indican la presencia de 41 fre­
cuencias simples distintas entre los 0 y los 5.000 Hz, cada una de ellas con una in­
tensidad diferente, componiendo el sonido complejo /A/. La proyección de cada
una de las puntas de la cresta sobre el eje horizontal inferior («Z» en la figura 10)
nos proporciona datos sobre las frecuencias respectivas "Frequency (Hz)» y su
proyección sobre el eje vertical izquierdo («Y» en la figura 10) aporta datos con­
cretos sobre de cada una de las intensidades. El cursor que aparece en el espec­
trograma al cruzarse con el espectro indica un punto concreto del que se desean
extraer datos. En la parte superior derecha del recuadro inferior pueden leerse es­
tos datos, es decir, su frecuencia e intensidad exactas: -2491<46.55>», es decir,
2.491 hertzios y 46.55 decibelios.
Hay que tener en cuenta, también, que el espectrograma de la figura 13
está representado sobre un fondo-escala de 5.000 Hz. O sea, analiza la com­
posición de la /A/ entre 0 y 5.000 hertzios. Pero podría estar desarrollado,
también sobre otros fondos-escala, por ejemplo, de 10.000, de 15.000 o de
20.000 Hz, con lo que obtendríamos mayor información sobre la composición
de la masa sonora de la /A/ en las frecuencias altas. Más adelante, cuando ha­
blemos de la percepción del tono en el capítulo 4, veremos otro tipo de re-
72
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
presentación del espectro de frecuencias más adaptada que éstas a la percep­
ción humana.
El espectrograma es un tipo de representación analítica de los sonidos com­
puestos muy habitual en el ámbito técnico de la comunicación audiovisual, y ve­
remos a lo largo de esta obra que puede serlo también el ámbito expresivo. Es
muy común realizar análisis espectrográficos de los sonidos que están mezclados
con ruidos no deseados. Esta «suciedad» suele introducirse en las grabaciones de
efectos sonoros en entornos naturales, en las grabaciones de diálogos con sonido
directo, etc. En estos casos se realizan análisis espectrales en varios puntos de la
grabación para determinar cuál es la composición frecuencial de estos ruidos e in­
tentar eliminarlos filtrando las frecuencias no deseadas.
Otro de los usos habituales de espectrograma es el estudio de las resonancias
típicas de las salas de proyección cinematográfica, de audición, de teatro, etc. To­
da sala, al proyectar dentro de ella un sonido y rebotar éste contra sus paredes,
genera una serie de reflexiones. Cuando esto ocurre, las vibraciones reflejadas se
superponen al sonido original reforzando unas frecuencias y cancelando o ate­
nuando otras. Este fenómeno modifica la composición de las distintas intensida­
des originales, generando en el interior de la sala un sonido compuesto resultan­
te que puede ser muy distinto del que había previsto el realizador de la banda
sonora, o del que tendría la misma banda sonora en una sala distinta.
Proyectando dentro de cualquier local un ruido blanco9 y realizando un análi­
sis espectral de este mismo ruido después de que haya recorrido el local, se de­
tecta inmediatamente sobre qué zonas de frecuencia influye la forma y el volumen
de la sala. Una vez que se dispone de la información espectral sabremos qué tipo
de modificaciones introducirá ese local concreto sobre cualquier sonido que sue­
ne dentro de él. Desarrollado ya este proceso de análisis, normalmente es posible
corregir la influencia acústica de la sala mediante una manipulación electrónica
del sonido que contrarreste esa influencia antes de su amplificación.
Actualmente existen sistemas de tratamiento del audio en el contexto de la in­
dustria audiovisual como el de Lucas Film Entertainment, denominado THX, que
exigen a sus exhibidores comerciales que las salas de proyección cumplan con
unas características acústicas muy estrictas de reducción de niveles de ruido y
de tiempos de reverberación en función de la frecuencia (véase Siguero, 1995,
pág. 54). De otro modo, todo el esfuerzo para el tratamiento expresivo del audio
que ha realizado la productora podría resultar completamente inútil al ser des­
truido por la acústica propia de la sala de exhibición. Como hemos visto un poco
más arriba, el modo de saber si la sala reúne o no las condiciones es siempre el
análisis espectral, o algún método derivado de él.
9. El ruido blanco es un raido homogéneo que se obtiene sumando un gran número de vibraciones
sinusoidales muy próximas que han de cumplir las siguientes condiciones técnicas: a) las amplitudes de
todas sus vibraciones han de ser muy similares; b) las frecuencias de estas vibraciones deben cubrir to­
da la banda audible (20 Hz a 20 kHz); c) las fases de todas estas vibraciones deben estar repartidas so­
bre todo el dominio angular de forma estadísticamente uniforme.
73
3.2.3. La interrelación entre los tres métodos clásicos de análisis
acústico
De hecho hemos ido relacionando ya constantemente oscilograma, sonogramay espectrograma apoyándonos en el modelo tridimensional de la figura 10; no
obstante, es evidente que ése es un modelo ideal que lo que aporta es una con­
cepción global intuitiva. Así que nos queda, todavía, estudiar de qué modo se re­
lacionan entre sí estos tres instrumentos sobre representaciones de sonidos reales:
Del oscilograma al espectrograma. Hemos visto ya a grandes rasgos que el os­
cilograma era la primera etapa de referencia visual a partir de la cual se elige un
instante concreto del suceso sonoro para obtener de él su espectro de frecuencias.
Lo que ocurre, en realidad, es que el sistema de análisis toma una serie de mues­
tras en el entorno inmediato en el que hemos situado el cursor y, aplicando la
Transformada Rápida de Fourier (véase apartado 3-2.), calcula y representará grá­
ficamente un espectrograma. La relación básica entre estas dos representaciones
gráficas es que el oscilograma actúa como punto de partida sobre el cual el ana­
lista decide los puntos temporales que quiere estudiar, y a partir de ellos el siste­
ma de análisis toma las muestras, calcula y construye el espectrograma.
Las figuras 14 y 15 ilustran con claridad cómo analizando el oscilograma del
suceso sonoro /FONÉTICA/ se obtienen espectrogramas completamente distin­
tos según el cursor esté situado en la zona de la /O/ o de la /E/, y volvería a re­
sultar diferente en cualquier otra. Esto ocurre porque nos enfrentamos a un soni­
do variable. Naturalmente, si trabajamos con sonidos estacionarios, es decir, que
mantienen su composición de frecuencias homogéneo a lo largo del tiempo, el
espectrograma será el mismo aunque realicemos análisis en distintos puntos tem­
porales del oscilograma.
De todas formas, hay que señalar, también, que los conceptos de variable y de
estacionario son siempre relativos al tipo de análisis que necesitamos desarrollar.
En un suceso sonoro que durante 1 segundo ha sufrido 10 variaciones espectrales,
seguramente podremos localizar zonas estacionarias de 0,005 segundos, y vice­
versa. Si tomamos un suceso sonoro que se muestra estacionario durante un se­
gundo, y ampliamos lo suficiente la muestra antes y después, casi con toda segu­
ridad localizaremos variaciones. Cuanto menos, encontraremos el inicio y el final
y, en consecuencia, las formas de variación que constituyen el ataque y la caída,
que pueden ser muy diversas.
Del espectrograma al sonograma. Al describir la figura 10, decíamos que el es­
pectrograma era una vista lateral del perfil que configura todo el conjunto de fre­
cuencias de un sonido en un punto temporal concreto; y que el sonograma era al­
go así como mirar desde arriba el cuerpo del sonido viendo toda su extensión
temporal. Veamos ahora esto con análisis gráficos de sonidos reales.
En la figura 16 hemos colocado juntos, uno debajo de otro, el espectrograma y
el sonograma del sonido estacionario de vocal /A/ que hemos estudiado ya varias
veces (véanse figs. 12 y 13). En esta imagen, el espectrograma (gráfico superior)
74
75
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
14 y 15. Espectrogramas de las vocales/O/y/E/ obtenidos analizando dis­
tintos puntos temporales en el oscilograma del suceso sonoro /FONÉTICA/.
aparece del mismo modo que lo habíamos visto hasta ahora. El sonograma, en
cambio, ha sido manipulado respecto a cómo lo vimos en la figura 12 de dos for­
mas diferentes: a) con un giro de 90 grados en el sentido de las agujas del reloj; y
b) ampliando la longitud del eje que representa gráficamente las frecuencias de 0
a 5.000 Hz hasta hacerlo coincidir exactamente con la longitud del mismo eje de
representación de frecuencias en el espectrograma.
Al comparar ambas representaciones del mismo sonido, podemos observar có­
mo en la situación sobre el eje horizontal (Frecuencia) cada una de las puntas de
la cresta que constituye el espectrograma se corresponde de una forma muy apro­
ximada con la situación en este mismo eje, ahora en el sonograma, de las franjas
oscuras que representan las distintas frecuencias simples que componen la /A/. Y
las franjas del sonograma aparecen tanto más oscuras cuanto mayor es la altura de
la punta de cresta con la que se corresponde en el espectrograma, es decir, cuan­
to más alta es la intensidad de cada una de las frecuencias.
Resulta muy claro, por ejemplo, observando ambos gráficos de izquierda a de­
recha, que el espectrograma comienza con una intensidad muy baja en la zona
próxima al «0», y que esta zona está representada con una estrecha franja blanca en
el sonograma. Inmediatamente después observamos en el espectrograma cómo
aparece la punta de mayor altura del espectro sonoro; si el lector mira el sonogra­
ma en la misma zona comprobará cómo ahí está también la franja más oscura y
ancha de toda la imagen sonográfica. Siguiendo hacia la derecha las franjas del so­
nograma se oscurecen o se aclaran correspondiéndose respectivamente con las
subidas y bajadas de la cresta espectral. Hacia el final, vuelve a verse con mucha
claridad cómo la bajada global de la altura del espectro se representa en el sono­
grama como una zona blanca, bastante más ancha que las anteriores.
Un último ejercicio de imaginación.
Decíamos más arriba que el sonograma venía a ser la observación de soni­
do a vista de pájaro, es decir, desde arriba («pto. de vista 2» en la fig. 10). Po­
demos pensar, entonces, que ver el sonograma de la figura 16 es algo así como
si estuviésemos mirando desde arriba un taco de madera en forma de cuña on­
dulada, que varía de 1 a 6 centímetros de grosor, y al que se le han hecho una
serie de estrías profundas en su parte superior. Si el lector agarrase este «taco
de madera sonográfica» con sus dos manos de modo que los pulgares queda­
sen debajo del papel y lo girase levantando el perfil hacia sus ojos de manera
que pudiese mirarlo frontalmente, vería exactamente el perfil que muestra el
espectrograma de la figura 16.
Del oscilograma al sonograma. La correspondencia entre el sonograma y el
oscilograma es esencialmente temporal. Ya vimos que el oscilograma, como ins­
trumento de análisis, queda limitado básicamente al estudio minucioso de la du­
ración de los sucesos sonoros. Sobre representaciones oscilográficas que mues­
tren duraciones entre 0,5 y unos 6 o 7 segundos suelen estar muy claras las
variaciones de amplitud del oscilograma, y esto nos permite, normalmente, de­
tectar con eficacia la articulación sonora; es decir, el principio y el final de las va­
riaciones del sonido y, por tanto, tomar medidas temporales entre el inicio y la ter­
minación de los distintos sucesos sonoros. No obstante, observando directamente
Figuras
76
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Sonograma del mismo sonido estacionario
77
la forma de onda no es posible obtener información útil sobre la composición
acústica, a no ser que el sonido sea extremadamente simple.
En cambio, en la observación del sonograma ocurre justamente lo contrario.
Aporta una información mucho más precisa y completa sobre la composición que
sobre la duración de los sucesos sonoros. Es cierto que el sonograma presenta los
sucesos sonoros que analizamos desarrollados en el tiempo. Pero, un sonograma
muestra, simultáneamente, una serie de franjas oscuras (frecuencias simples) que
evolucionan sufriendo cada una de ellas variaciones distintas, que muchas veces
no coinciden en el tiempo. Esto hace que, a menudo, sea difícil decidir sobre el
sonograma dónde empiezan y dónde acaban las variaciones sonoras. Veamos un
ejemplo de esto sobre la figura 17.
En esta imagen presentamos de nuevo el oscilograma (gráfico superior) y el
sonograma (gráfico inferior) del sonido oral /FONÉTICA/. Si el lector observa de­
tenidamente, por ejemplo, la zona del sonograma correspondiente a la /O/, nota­
rá cómo este sonido no es homogéneo en el tiempo. Mirándolo de abajo hacia
arriba podemos ver en primer lugar dos franjas que se extienden de manera con­
tinua y prácticamente sin variaciones desde la línea discontinua que señala el ini­
cio de la /O/ hasta la que marca el final de la /É/. Posteriormente tres franjas se
ajustan perfectamente a las líneas discontinuas que delimitan la /O/, pero, a par­
tir de ahí y siguiendo hacia arriba, se forma algo parecido a un arco que no tiene
ya nada que ver con lo que hemos marcado como límites del sonido /O/. Esta va­
riación tan irregular en el tiempo de las distintas frecuencias se debe a que, en re­
alidad, no existe un sonido estacionario /O/, sino un proceso de sucesivas transi­
ciones sonoras, que el sonograma nos muestra como un conjunto de sonidos
simples que evolucionan para componer la mutación de la /F/ a la /O/ pasando
luego a ser /N/ sin que haya ningún momento de discontinuidad.
Así, para decidir solamente a partir del sonograma dónde comienza y acaba
el sonido /O/ tendríamos algunos problemas. No ocurre esto en cambio con el
oscilograma, en el que podemos observar con claridad cómo dos reducciones
perfectamente definidas de la amplitud determinan el paquete de la primera
vocal /O/. Si el lector vuelve a la figura 11, podrá ver el mismo oscilograma sin
ninguna señal en torno a la primera vocal que entorpezca su observación y
comprobar cómo, efectivamente, resulta mucho más fácil decidir dónde están
el comienzo y el final de este sonido sobre el oscilograma que sobre el sono­
grama.
Figura 16. Representación espectrográfica (superior) y sonográfica (inferior) de
Es evidente que la combinación de ambos instrumentos gráficos de análisis del
sonido resulta perfectamente complementaria. Aquella información que no pue­
de aportar el sonograma la proporciona el oscilograma y viceversa. Por esa razón,
la primera etapa de los análisis acústicos suele desarrollarse observando a la vez
el oscilograma y el sonograma, y trabajando en el sistema de análisis10 con ambos
instrumentos gráficos lineados; es decir, sincronizados, ajustados en el tiempo.
la misma vocal /A/. Obsérvense las correspondencias visuales entre ambas.
10. Si es de su interés, el lector puede encontrar una información amplia y detallada sobre los fun­
damentos de este tipo de sistemas de análisis acústico en la obra Fonética de Martínez Celdrán (1984,
págs. 91-130).
78
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
79
3.3. El tono y el timbre en los sonidos compuestos
En este apartado, estudiaremos y propondremos algunos conceptos que faci­
litarán la comprensión del espectro acústico de los sonidos compuestos.
Se trata de revisar conceptos como los de armónico, parcial, formante y en­
volvente, poniéndolos en relación con el de tono y, especialmente, con el de tim­
bre; entendiendo que este último es una herramienta fundamental para la inter­
pretación perceptiva de los sonidos complejos.
3.3.1. La sensación de tono en los sonidos compuestos
17. Representación oscilográfica (superior) y sonográfica (inferior) del
mismo suceso sonoro /FONÉTICA/. Obsérvense las correspondencias visuales en­
tre ambas.
Figura
Cuando oscilograma y sonograma están lineados, los cursores que se desplazan
sobre ambos gráficos actúan como si fuese uno solo. Así, si trabajando sobre el os­
cilograma colocamos el cursor, por ejemplo, en el inicio de la /O/, puesto que ahí
es perfectamente localizable el punto temporal donde comienza el suceso sono­
ro, tenemos ya la garantía de que el cursor indicará, también sobre el sonograma,
cuál es el punto de partida temporal del fenómeno acústico que estamos estu­
diando. La gran ventaja de la asociación entre sonograma y oscilograma es que
permite localizar con comodidad el inicio y final de los sucesos sonoros sobre am­
bos gráficos a la vez, solucionando el problema de que en el sonograma eso re­
sulta visualmente mucho más confuso.
Tanto en el oscilograma como en el sonograma de la figura 17, aproximada­
mente en el centro de la /E/, pueden observarse sendos cursores representados
con línea continua, que indican exactamente el mismo punto temporal en ambos
gráficos. El lector puede comprobar, en el ángulo superior derecho de los dos di­
bujos, cómo el tiempo señalado por ambos cursores es exactamente el mismo:
0,28240 segundos. Es decir, puede comprobar que han actuado, en realidad, co­
mo un cursor único.
Al escuchar un sonido compuesto estamos oyendo a la vez un conjunto muy
numeroso de frecuencias que suenan a la vez. Cuando este sonido es consonan­
te, es decir, cuando se percibe por las características de su composición como un
sonido único y no como muchos sonidos a la vez, produce una sensación de altu­
ra tonal concreta. Cualquiera de los instrumentos musicales a los que estamos ha­
bituados se modula en altura tonal a pesar de que emite sonidos compuestos. Las
teclas del piano, por ejemplo; cada una de ellas produce una sensación auditiva
tonal concreta que va de las más graves a la izquierda del teclado a las más agu­
das a la derecha. No obstante, el sonido de cada una de las notas es un sonido
compuesto considerablemente complicado.
Esta sensación tonal unitaria que producen los sonidos compuestos viene deter­
minada perceptivamente por la más baja de las frecuencias que componen el soni­
do. A esta frecuencia de valor perceptivo tan relevante se la denomina frecuencia
fundamental o pitch. Encontraremos habitualmente el término -pitch- en la literatu­
ra técnica y el término frecuencia fundamental- en la literatura lingüística, musical
y psicológica.
Esa primera frecuencia o frecuencia fundamental actúa en los sonidos armó­
nicos como pauta organizativa para el resto de frecuencias que componen el so­
nido. Así, los sonidos que denominamos armónicos son sonidos compuestos en
los que todas las frecuencias que los constituyen son múltiplos de la frecuencia
fundamental. Veamos un ejemplo. Una voz masculina muy grave puede tener una
frecuencia fundamental de 80 Hz. Si esto es así y su voz está bien timbrada, el
resto de las vibraciones que la componen tendrán unas frecuencias que serán
siempre múltiplos de 80 Hz. Es decir, la voz estará compuesta por una frecuencia
fundamental de 80 Hz y una serie de armónicos que se situarán de una forma bas­
tante aproximada en torno a los: 160, 240, 320, 400, 480, 560, 640, 720, 800, 880,
960, 1040, 1120, 1200, 1280, 1360... Hz.
^De todas formas, los sonidos no siempre están tan perfectamente organizados.
A menudo, se da en los sonidos una mezcla entre frecuencias que son múltiplos
de la fundamental, es decir de armónicos, con otras frecuencias que no tienen es­
te tipo de relación numérica con el pitch. En estos casos los sonidos son auditiva­
mente bastante más desagradables y producen un efecto de «suciedad» sonora, o
de sonido ruidoso. En cualquier caso, todo sonido tiene siempre una frecuencia
80
81
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
inicial más baja que todas las demás, que será su frecuencia fundamental, y que
es la que predomina perceptivamente en la sensación de altura tonal.
En la figura 18 podemos ver dos espectrogramas resultantes de analizar dos so­
nidos distintos de /E/ que ilustran lo explicado más arriba. Ambos tienen una fre­
cuencia fundamental muy similar, unos 245 Hz, como se puede observar por la
situación del cursor y la primera cifra en la esquina superior derecha de ambos
gráficos.
Esto significa que ambas /E/ transmiten una sensación tonal muy similar. Per­
ceptivamente, la diferencia entre ambas /E/ está precisamente en que el sonido
de la primera (gráfico superior) es mucho más limpio y agradable que el de la se­
gunda (gráfico inferior), que es un sonido «sucio». El sonido que representa en la
figura 18 el espectrograma inferior está compuesto, a la vez, por frecuencias que
son armónicas con la frecuencia fundamental, es decir, múltiplos de ella, y por
otras frecuencias que no tienen ninguna relación numérica regular con la funda­
mental. Estas otras frecuencias no armónicas con la fundamental, pero que habi­
tualmente forman parte también de la composición de los sonidos se las deno­
mina parciales. Si el lector observa con detenimiento ambos espectrogramas y
los compara, notará que la cresta del gráfico superior está formada por una serie
de picos alargados, perfectamente definidos, separados por una distancia regular
y formando un perfil global ondulante. Éste es el aspecto habitual de los armó­
nicos-, cada una de las largas puntas de la cresta es una frecuencia armónica con
la fundamental. En cambio, la cresta del gráfico inferior tiene una forma mucho
más indefinida, los picos son mucho más cortos, la distancia entre ellos es irre­
gular y la forma global de la cresta en lugar de ser ondulante es completamente
escarpada. Así es como se presentan normalmente los parciales en el espectro­
grama.
Los sonidos están tanto más organizados armónicamente cuanto mayor es la par­
te del espectro ocupada por armónicos. Y viceversa, cuanto más baja es la frecuen­
cia a la que comienzan a aparecer parciales, mayor es la desorganización sonora.
Pero veamos adonde nos lleva todo esto desde el punto de vista de la sensa­
ción tonal, llamada también tonía. Cuanto mayor es la organización armónica de
las frecuencias que componen un sonido, mejor definida está la sensación de al­
tura tonal que éste transmite, y podemos precisar su frecuencia auditivamente con
bastante exactitud. Contrariamente, cuando la relación entre los componentes del
sonido es desordenada e irregular, es decir, cuando predominan los parciales so­
bre los armónicos, la sensación tonal es mucho más confusa y resulta mucho más
difícil precisar su altura tonal.
Si el lector compara de nuevo los dos espectrogramas de la figura 18, ahora
observando ya hasta donde se extienden los armónicos, notará que mientras en
el primero llegan más allá de la mitad del gráfico (aproximadamente hasta los
8.000 Hz), en el inferior prácticamente no hay presencia de armónicos.
La figura 19 muestra exactamente las mismas representaciones sonográficas
que en la figura anterior, pero ahora con el cursor desplazado hasta el extremo
más alto de la cresta después de la frecuencia fundamental. Si el lector cuenta so­
bre el sonograma superior el número de armónicos que hay desde la frecuencia
fundaméntalo pitch hasta el lugar en el que está situado el cursor comprobará sin
ningún problema que son 11. Si todo lo explicado hasta aquí es cierto, frecuen­
cia fundamental de este sonido debería ser aproximadamente la onceava parte
de la frecuencia que indica ahora el cursor (primera cifra de la esquina superior
derecha) es decir de 2.483 Hz. Realicemos la operación:
18. Representación espectrográfica de dos vocales /E/ distintas: la primera
(superior), de gran armonicidady transparencia; y la segunda (inferior), sucia
y nada armónica.
Figura
2.483 Hz / 11 - 225,72
Hemos obtenido una cifra que se aproxima mucho a la frecuencia de 245 Hz
que conseguimos colocando el cursor sobre el primer armónico o frecuencia
fundamental (yé^se fig. 18). Este simple proceso de cálculo es uno de los que se
utiliza habitualmente para localizar la frecuencia fundamental sobre un espectro,
cuando el primer armónico no aparece bien definido visualmente. El lector pue­
de, también, comprobar por sí mismo observando el gráfico inferior de la figu­
ra 19 cómo esta forma de calcular la frecuencia fundamental solamente es posi­
ble si estudiamos un sonido bien organizado armónicamente.
Todo lo explicado hasta aquí sobre el tono de los sonidos compuestos a partir
de dos espectrogramas puede observarse también sobre los sonogramas corres­
pondientes.
En la figura 20 podemos ver de nuevo el análisis de los mismos sonidos de /E/
limpia y armónica (izquierda) y de /E/ sucia e inarmónica (derecha), ahora en sen­
dos sonogramas y sobre un fondo-escala de 10.000 Hz. En estas imágenes vuelve a
ser muy evidente cómo las sombras que se extienden de izquierda a derecha, re­
presentando las distintas frecuencias simples, tienen un aspecto completamente
distinto en cada gráfico. Mientras en el de la izquierda (/E/ «limpia») las sombras se
ordenan con claridad en franjas horizontales representando los armónicos, en el
82
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
83
de la derecha (/E/ «sucia») la organización de las sombras es mucho más escasa re­
presentando frecuencias parciales que se distribuyen por el espectro sonoro de
una forma muy irregular.
3.3.2. El concepto de timbre
19. Representación espectrográfica de dos vocales /E/ distintas: la primera
(superior) de gran armonicidady transparencia; y la segunda (inferior) sucia y
nada armónica.
Figura
Figura
20. Representación sonográfica de dos vocales /E/ distintas: la primera (iz­
quierda), de gran armonicidad y transparencia; y la segunda (derecha), sucia
y nada armónica.
Antes de entrar en la problemática estricta de la sensación tímbrica y de estu­
diar los métodos para poder relacionarla con los resultados del análisis acústico,
revisaremos el concepto mismo de timbre.
El concepto de timbre ha sido siempre uno de los que ha causado más pro­
blemas de comprensión al explicarlo en mis clases. Probablemente porque existe
una idea social demasiado elemental y simplista respecto a qué es el timbre. El
timbre suele entenderse como la dimensión acústica que da el carácter individual
a los sonidos: cuando dos sonidos, a pesar de tener la misma intensidad y el mis­
mo tono, se perciben como diferentes entre sí, su diferencia se debe al timbre. A
menudo se define también como aquella parte del sonido de la voz o del sonido
de un instrumento musical que es invariable, para oponerlo al tono y la intensi­
dad como dimensiones sonoras variables y fácilmente manipulables.
Esa concepción del timbre como una dimensión sonora invariable e inherente
en exclusiva a las características de la fuente sonora supone, por ejemplo, que una
misma voz no podría variar jamás su timbre. Paradójicamente, una forma esencial
de organización sonora de la lengua es el reconocimiento de las variaciones del
timbre fonético. Cuando un hablante cualquiera construye oralmente, por ejem­
plo, una serie de vocales cambiando la posición de su boca, lo que hace es modi­
ficar el timbre áe\ sonido que inmediatamente antes ha producido su laringe. Pa­
ralelamente, cuando, como oyentes cotidianos y permanentes del habla de
aquellos que nos rodean, identificamos los distintos sonidos que componen cada
palabra, lo que estamos haciendo es diferenciar y reconocer los respectivos tim­
bres de cada uno de los fonemas que han construido nuestros interlocutores.
Solamente la observación de este fenómeno tan cotidiano del uso de la varia­
ción tímbrica en el habla debería ser suficiente para que se cuestionase profunda­
mente y a nivel general el valor del concepto /timbre/, e intentásemos corregir
adecuadamente su definición. Sin embargo, es posible encontrar esa concepción
simplista del timbre, en lugares tan diversos como el Diccionario de la Real Aca­
demia de la Lengua Española,11 obras sobre foniatría,12 obras técnicas sobre
audio,13 obras sobre radio,14 etc. No obstante, la idea de que el timbre es algo bas11. «Modo propio y característico de sonar un instrumento músico o la voz de una persona» (Real
Academia Española, 1992, pág. 1.979).
12. -Ese algo sutil e indefinible que hace que dos voces, al cantar la misma nota, conserven su indi­
vidualidad» (Perelló, 1975, pág. 69).
13. «La calidad o color de tono única de un sonido» (Alten, 1994, pág. 635).
14. -Varios sonidos de igual intensidad y tono y cuya onda sonora tenga diferente estructura, se dis­
tinguirán por el timbre y permitirán reconocer diversas características del emisor» (Cebrián Herreros,
1994, pág. 276).
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
tante más complicado que un simple rasgo diferenciador ha sido defendida con
mucha claridad por algunos estudiosos desde hace más de 40 años. Edouard Gar­
de en su obra La Voix, editada por primera vez en 1954, definía ya la noción de
timbre como una dimensión muy compleja, y diferenciaba en el timbre de una
misma voz: color, volumen, densidady mordiente (Garde, I960, págs. 37-40).
En general, en el estudio del canto hay una larga tradición de clasificación del
timbre de la voz con términos más o menos afortunados pero siempre numerosos y
diversos. Al margen de la potencia o volumen (intensidad) y de la extensión tonal,
se habla de voz blanca, negra, brillante, metálica, redonda, blanda, dura, sorda,
oscura, nasal, gutural, cálida, ... Y cada voz suele ser descrita con combinaciones
concretas de varios de estos calificativos (véase Rodríguez Bravo, 1984, pág. 73).
Pero cuando el tipo de instrumentos de análisis que hemos descrito a lo largo
del apartado 3-2 llegan a la fonética y a la investigación musical es cuando la con­
cepción elemental de timbre que estamos discutiendo queda definitivamente ob­
soleta y se abre todo un universo de investigación en torno a esta tercera dimen­
sión del sonido. El timbre pasa a contemplarse, entonces, como lo que es en
realidad: un entramado sumamente complejo de caracteres acústicos y sensacio­
nes auditivas. De hecho, las últimas investigaciones experimentales sobre los ca­
racteres acústicos y perceptivos que configuran la sensación auditiva del timbre
desembocan sistemáticamente en un tipo de definiciones que reflejan muy clara­
mente lo inadecuado, o mejor, lo insuficiente de este término:
ma gama de categorías tonales. La mayor o menor energía con la que se sopla en
un instrumento de viento, o el grado de fuerza con que se pellizcan, golpean o
frotan los instrumentos de cuerda determinan inevitablemente variaciones de in­
tensidad; los cambios de intensidad se contemplan también en el solfeo, pero de
una manera muchísimo menos precisa que la evolución tonal. Lo que en ningún
caso contempla nuestro código de signos musicales es la variación tímbrica.
La variación del timbre en la música occidental se limita al cambio de instru­
mento. Para conseguir otro tipo de matiz sonoro sobre una misma altura tonal sen­
cillamente se elige otro instrumento. Esa forma de organizar y dar cuenta escrita de
los sonidos determina muy claramente una tendencia a no observar ni clasificar los
matices tímbricos que van más allá de las diferencias globales entre un instrumen­
to y otro. Una tendencia que ha impregnado toda nuestra cultura sonora.
Tal como constatábamos un poco más arriba, la preocupación por las varia­
ciones y por un conocimiento más desarrollado del timbre proviene del estudio
de la voz cantada y del estudio de los sonidos de la lengua.
Todo hablante ha observado en más de una ocasión cómo, en determinadas si­
tuaciones de salud, o cuando vive ciertos estados emocionales, su voz cambia de
matiz, de «color sonoro”. En esos estados, la voz sigue pudiendo variar su tono y su
intensidad sin ningún problema, pero hay algo que la hace sonar globalmente dis­
tinta. Lógicamente, este fenómeno tiene mucha más trascendencia en alguien, co­
mo un cantante, que utiliza profesionalmente su voz y que necesita que su rendi­
miento sonoro sea homogéneo. Así, la preocupación por aspectos de la voz como
el brillo, la dureza, el color, la claridad, la calidez, el mordiente, etc., que son con­
ceptos independientes de los de tono e intensidad, suponen de forma inequívoca
una concepción del timbre completamente distinta por parte de los estudiosos de
la voz cantada. Esta concepción, mucho más abierta, es la que conecta directa­
mente con las corrientes de investigación actuales sobre el timbre, especialmente
en el contexto de la psicoacústica y la fonética experimental.
84
... lo que diferencia una vocal de otra u otras, aunque la frecuencia de sus compo­
nentes sea igual, es la distinta estructuración de sus armónicos, cuya percepción es lo
que denominamos timbre (Quilis, 1981, pág. 142).
Altura y sonoridad son características definidas comparadas con la complejidad del
timbre. [...] El timbre es mucho más complejo. Es verdad que en cierta manera depende
del espectro del sonido [...]. Nuestros conocimientos sobre el timbre son aún incomple­
tos, pero se ha aprendido mucho en los últimos años gracias al análisis de las ondas so­
noras [...] (Pierce, 1985, pág. 170).
La sensación de intensidad sonora no tiene más que una dimensión. Un sonido pu­
ro o un sonido compuesto no puede ser más que igual, más fuerte o más débil que otro.
Incluso la altura de un sonido no tiene más que una dimensión. Hablamos de sonidos
agudos o graves. El timbre del sonido, al contrario, de múltiples dimensiones, corres­
ponde a la gran variedad de organización posible de los parciales. No se han encontra­
do todavía nombres apropiados para caracterizar con precisión el timbre de un soni­
do [...] (Zwicker, 1981, pág. 5).
Probablemente esa concepción del timbre como una dimensión invariable del
sonido que depende exclusivamente de la fuente sonora que lo produce, tiene su
origen en la sistematización de la música occidental. Nuestro sistema musical es
esencialmente tonal. El código de notación musical permite dar cuenta por escri­
to de una serie cerrada de categorías tonales concretas, y los instrumentos musi­
cales de Occidente están diseñados también para reproducir exactamente esa mis­
85
3.3.3. La sensación tímbrica
£jEl concepto de timbre no es acústico sino psicológicoT^s la denominación de
un tipo de sensación auditiva. Pero como el lector habrá observado ya en el apar­
tado anterior, no es en absoluto un concepto unidimensional, sino un concepto
considerablemente ambiguo y complejo que debe ser desarrollado, a su vez, en
varias dimensiones. Eso será lo que haremos en este apartado. Pero, antes, pro­
ponemos una nueva definición para el timbre:
El timbre es una sensación auditiva compleja (independiente de las de duración, to­
no e intensidad y simultánea a ellas) que nos permite percibir la estructura acústica in­
terna de los sonidos compuestos.
Es cierto que esta definición es, también, considerablemente ambigua. No obs­
tante, creemos que tiene las siguientes virtudes frente a la concepción tradicional:
BIBLIOTECA DEL INSTITUTO NACMWl A
CINE Y ARTES A1
86
87
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
a) es coherente con ella; b) no contempla el timbre como algo simple; y c) permi­
te ser desglosada y ampliada en función de los nuevos conocimientos que se ob­
tengan sobre esta dimensión perceptiva, conservando el concepto genérico de
laciones de multiplicidad respecto a la frecuencia fundamental. No obstante, la
composición musical occidental trabaja mezclando sonidos compuestos de ins­
trumentos musicales que son acústicamente muy complejos y distintos entre sí.
Esto complica enormemente el análisis acústico de las composiciones sonoras; y
hace que los problemas de la armonía musical desemboquen en soluciones mu­
cho más relacionadas con los hábitos culturales que con los mecanismos percep­
tivos.
El análisis acústico, concretamente el espectrograma, refleja con mucha clari­
dad el grado de armonicidad del sonido. Los sonidos compuestos que percepti­
vamente son claros, limpios y agradables son sonidos que tienen una gran parte
de su espectro ocupada por armónicos. Éstos se presentan siempre de izquierda a
derecha. Es decir, desde la frecuencia fundamental hacia las frecuencias más al­
tas de una forma contigua. Cuanto más armónico es un sonido, tanto mayor es la
superficie del espectro de izquierda a derecha ocupada por una cresta formada
por dientes de sierra muy largos, ordenados y bien definidos.
Si el lector vuelve a revisar la figura 19, ahora desde este nuevo punto de vis­
ta, podrá observar claramente cómo el espectrograma superior representa, sin lu­
gar a dudas, un sonido con un grado de armonicidad mucho mayor que el es­
pectrograma inferior. Ya explicamos antes que tanto el gráfico superior de esta
figura como el inferior correspondían a sendos sonidos de /E/; pero mientras el
superior corresponde a una voz limpia, resonante y agradable, el inferior está he­
cho a partir de una voz desagradable, sucia y ensordecida. Mientras en el espec­
trograma inferior (voz de escasísima armonicidad) sólo son claramente visibles 2
armónicos en la zona izquierda, al principio del espectro; en el espectrograma su­
perior (voz de mucha armonicidad) son perfectamente visibles 38 armónicos, que
ocupan más de la mitad del gráfico.
Parece existir, pues, una relación directa entre la sensación tímbrica de armo­
nicidad y la relación proporcional entre armónicos y parciales que podemos ob­
servar visualmente al hacer el análisis espectral de un sonido. Cuanto mayor sea
la superficie espectral ocupada por armónicos, mayor será la sensación de armo­
timbre.
La dificultad para enfrentarse a este concepto sobre la percepción sonora es
tan notable que algunos autores como Bruce Goldstein (Bruce Goldstein, 1993,
págs. 380-429) evitan usarlo directamente y optan por utilizar sólo los conceptos
como -resonancia», -percepción categorial», -formante», etc., para tratar la per­
cepción de la estructura sonora interna; fragmentando así una sensación que, a
nuestro modo de ver, debe ser tratada finalmente como algo global, a pesar de la
descomposición que exige su complejidad. Como vamos a ver más adelante, és­
tos son, precisamente, aspectos puntuales que componen la sensación tímbrica
global.
En una primera aproximación, podemos encontrar en la sensación tímbrica
tres dimensiones bien diferenciadas: armonicidad, impresión espectral y defini­
ción auditiva. Veamos con detalle cada uno de estos tres conceptos utilizando los
instrumentos de análisis acústico que tenemos ya a nuestra disposición.
• Armonicidad. La sensación de armonicidado inarmonicidadserá pro­
bablemente la más familiar y fácil de comprender para el lector. De hecho he­
mos estado haciendo ya referencia a ella cuando en el apartado 3-3-1 hablába­
mos de la sensación de tono en los sonidos compuestos, e introducíamos el
concepto de parcial para diferenciar entre armónicos (frecuencias múltiplo de
la frecuencia fundamental) y parciales (frecuencias no organizadas respecto a
la fundamental). En este apartado mencionábamos sonidos más o menos ricos
en armónicos y concluíamos que la sensación de tono podía ser más o menos
difusa o sucia en función de lo bien o mal organizado que estuviese el sonido
en armónicos. Lógicamente, si hemos definido el timbre como la sensación au­
ditiva que transmite la estructura acústica interna de los sonidos compuestos,
el grado de organización de un sonido en armónicos y parciales ha de estar ne­
cesariamente asociado a la sensación tímbrica. Lo está concretamente con la
nicidad.
armonicidad.
Denominaremos armonicidad al distinto grado de limpieza y agradabilidad que per­
cibimos al escuchar un sonido compuesto, dependiendo de la relación que existe en su
espectro entre armónicos y parciales. Cuanto mayor sea la gama de frecuencias organi­
zada armónicamente, mayor será la sensación de limpieza y agradabilidad, es decir: ma­
yor será la armonicidad.
• Impresión espectral. La organización de las resonancias o formantes a lo
largo del espectro configuran una sensación tímbrica que podríamos denomi­
nar genéricamente como impresión espectral. Definiremos este concepto del
siguiente modo:
Hemos llamado a esta primera dimensión de la sensación tímbrica armoni­
cidad para diferenciarla del concepto musical de armonía. En la terminología
musical se denomina armonía al conjunto de normas que ordenan y regulan
Llamaremos impresión espectral a la sensación de diferente matiz auditivo que per­
cibe un receptor, cada vez que escucha un sonido de idéntica composición de frecuen­
cias, pero con distinta envolvente espectral. Entendiendo como envolvente espectral la
forma obtenida al trazar una línea que une todas las puntas de cresta de cualquiera de
sus espectrogramas posibles.
las relaciones entre las partes de una composición, para que sea posible articu­
larlas entre sí en función de unos principios acústicos (véase Valls Gorina, 1986,
pág. 16). De hecho, las normas de la armonía musical se apoyan también en las re-
Hemos visto ya con detalle distintas representaciones espectrales y hemos es­
tudiado sus relaciones con el sonido. Pero para poder desarrollar adecuadamente
88
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIÓVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
89
esa dimensión de la percepción tímbrica que hemos denominado impresión es­
pectral es necesario que utilicemos como punto de partida el concepto de reso­
nancia o formante. Éste es un concepto muy habitual en el ámbito del análisis
acústico que permite comprender e interpretar algunos aspectos importantes en
el espectro de los sonidos compuestos.
Se denomina formante a la gama de frecuencias de un sonido compuesto que
han quedado reforzadas en amplitud por la forma y el volumen del espacio en el
que se ha producido, o la forma y el volumen del espacio'en el que se está pro­
pagando el sonido en cuestión.
Cuando un sonido compuesto se emite dentro de un espacio cerrado o semicerrado, este sonido incide en todas las paredes, resultando modificado en su
composición al sumarse linealmente con su propia reflexión múltiple, de modo
que unas frecuencias quedan reforzadas, otras se debilitan y algunas se cancelan.
A los espacios o cavidades que producen este tipo de efecto se les llama resona­
dores y pueden ser de tamaños y formas totalmente diversos: cavidades bucales,
cajas de resonancia de los instrumentos musicales, paredes, techo y suelo de las
salas de audición... Perceptivamente, este tipo de fenómeno matiza el sonido ori­
ginario de modo que éste genera una impresión auditiva mas brillante y lumino­
sa, más oscura y difusa, etc. No obstante, este tipo de matización sonora mantie­
ne constante la sensación de tono y la intensidad.
Desde el punto de vista acústico, una resonancia es perfectamente reconoci­
ble tanto en el espectrograma como en el sonograma como un grupo de frecuen­
cias contiguas que han aumentado de intensidad en torno a una frecuencia con­
creta a modo del perfil de una montaña. Volvamos a nuestra ya familiar /A/
estacionaria para observar esto en sus representaciones espectrográfica y sonográfica.
En el espectrograma (gráfico de la página siguiente) de la figura 21, de iz­
quierda a derecha, podemos observar, en primer lugar, el armónico de frecuencia
más baja o primer armónico, que a partir de ahora nombraremos ya siempre co­
mo frecuencia fundamental. A continuación, se extienden el resto de los armó­
nicos, a modo de dientes de sierra perfectamente equidistantes entre sí a lo largo
de todo el espectro. El lector notará cómo los armónicos aumentan de intensidad
como si se tratara de la cresta de una montaña en torno a cuatro puntos concretos
del espectro. Estas zonas bien definidas de acumulación de energía acústica son
las resonancias, y a su forma tamaño y distribución en el espectro se debe la sen­
sación tímbrica de impresión espectral.
Si observamos, ahora, el mismo sonido representado en el sonograma (gráfi­
co inferior), podemos ver que las franjas estrechas y regulares que representan
los armónicos se oscurecen también progresivamente definiendo bandas más os­
curas. Estas bandas son las resonancias. Igual que en el espectrograma, en el so­
nograma están señaladas, también, la frecuencia fundamental y las cuatro reso­
nancias.
La situación en el espectro de cada resonancia y su anchura (franja de fre­
cuencias que la componen) influyen de una manera determinante en la impresión
espectral concreta que produce un sonido. Cuanto más hacia la zona alta del es-
21. Se señalan sobre un espectrograma (arriba) y un sonograma (abajo)
la frecuencia fundamental y las cuatro primeras resonancias de un sonido com­
plejo.
Figura
90
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
pectro (frecuencias altas) se sitúa una resonancia, mayor es la sensación de bri­
llantez y luminosidad del sonido; contrariamente: a medida que la resonancia se
sitúa hacia la zona de las bajas frecuencias, mayor es la sensación de matización
oscura del sonido. Sin duda, el mejor modo de ilustrar esto por escrito es recu­
rriendo a nuestra voz, el instrumento de producción sonora más familiar del ser
humano. El lector puede comprobar por sí mismo cómo es posible matizar el tim­
bre de su propia voz sin variar el tono ni la intensidad emitiendo un sonido fuer­
te con una energía de espiración pulmonar que no varíe (intensidadconstante) y
sin alterar en ningún momento el grado de tensión muscular de la laringe (tono
constante) pero cambiando la posición de la boca. A medida que los labios se cie­
rran el sonido se oscurece. Cuando los labios se abren y la mandíbula se separa el
sonido es claro. Si entrecerramos la mandíbula con los labios abiertos, y a la vez
acercamos progresivamente el dorso de la lengua hacia el paladar con lentitud, es­
cucharemos cómo nuestra voz se va haciendo estridente, mate y perdiendo pro­
fundidad.
Acústicamente, lo que está ocurriendo es que modificamos la situación de las
resonancias del espectro de nuestra voz al ir cambiando la forma de la cavidad bu­
cal. Al ir cambiando la forma y el volumen de espacio en el que se estrellan, re­
flejan y entremezclan las frecuencias del sonido compuesto producido por nues­
tra laringe, alteramos la impresión espectral que produce nuestra voz.
Desde el punto de vista conceptual, las resonancias producidas en la cavidad
bucal y las producidas en las bóvedas del techo de una sala de conciertos no tie­
nen ninguna diferencia entre sí. No obstante, cuando se nombran las resonancias
producidas en la boca se habla sistemáticamente de -formantes-, dejándose la de­
nominación -resonancias- para los instrumentos musicales y las salas de audi­
ción. Así, para que las resonancias de nuestra familiar /A/ en la figura 21 estén
nombradas correctamente, en lugar de hablar de primera segunda, tercera o
cuarta resonancia, debemos hablar respectivamente de primerformante o Fl, se­
gundo formante o F2, tercerformante o F3, etc. De hecho, una parte esencial del
conocimiento acústico de la lengua está apoyado en la ubicación dentro del es­
pectro de los tres primeros formantes (Fl, F2 y F3) que se observan al analizar las
unidades mínimas del habla (fonemas). Estamos hablando ya de una forma muy
concreta del timbre fonético, que es uno de los terrenos acústicos más investiga­
dos en los últimos veinte años en las principales lenguas del mundo. Especial­
mente en lo que se refiere a los sonidos vocálicos.
En función de como hemos definido el concepto de impresión espectral, el
timbrefonético es una categoría de éste. Concretamente, denominamos timbre fo­
nético al subconjunto de impresiones espectrales que configuran los sonidos de las
lenguas. Así, la sensación de sonido /a/, por ejemplo, es una impresión espectral
que pertenece a la categoría de los timbres fonéticos.
Para formalizar el timbre fonético de las vocales, la fonética traduce toda la
complejidad del espectro acústico sólo en dos o en tres datos. Estos datos son
las frecuencias concretas en las que se sitúa el punto de máxima intensidad de
cada uno de los dos o los tres primeros formantes. Veamos esto en un ejemplo
concreto.
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
91
Figura 22. Medición en Hz de la frecuencia fundamental (Fo) y los tres primeros
formantes (Fl, F2y F3), sobre el espectrograma de una /A/.
En la figura 22 seguimos interpretando el espectrograma de la /A/ estaciona­
ria. Ahora hemos localizado cuál de las frecuencias que constituyen cada forman­
te es la de mayor intensidad, y la tomamos como frecuencia representativa. Es de­
cir, tomamos cada uno de estos valores frecuenciales como dato representativo de
cada uno de los formantes del fonema /A/. Tenemos, entonces, que nuestra /A/
tiene la frecuencia fundamental (F0) a 142 Hz, su primer formante (FV) a 828 Hz,
el segundo (F2) a 1.173 Hz y el tercero (F3) a 2.491 Hz.
En la sensación perceptiva de escuchar una /A/ la situación de Fl y F2 es lo
que determina el timbre fonético, es decir lo que hace que identifiquemos deter­
minado fragmento del sonido de la voz como una categoría sonora concreta del
habla denominada fonema «a». En cambio, la situación de Fo (frecuencia funda­
mental) no afecta en absoluto a la sensación de impresión acústica, sino a la to­
nal. Según esté Fo más alta o más baja percibiremos que la voz es más grave o más
aguda, no obstante, mientras la situación de los formantes no varíe, seguiremos
percibiendo como constante la impresión espectral de /AJ. En este caso, el tono
(142 Hz) es el de una voz masculina media, ni muy grave ni demasiado aguda.
Una Fo, por ejemplo, de 80 Hz sería el de una voz masculina sumamente grave.
El tercer formante (F3) se incluye también, en ocasiones, como valor de la con­
figuración del timbre fonético, no obstante no existe un acuerdo unánime al res­
pecto entre los estudiosos. Quilis, por ejemplo, cuando define listas de valores
sobre la realización acústica de las vocales del español sólo presenta datos de los
dos primeros formantes (Quilis, 1981, págs. 157-158). Es habitual encontrar co­
mentarios en la literatura sobre fonética que asignan a los formantes altos (F3, F4,
F5, etc.) un valor expresivo relacionado con las características individuales del lo-
92
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
cutor: con la forma del paladar, la disposición de los dientes, el tamaño del velo
del paladar, etc. No obstante, esto no ha sido probado y las investigaciones al res­
pecto navegan todavía sin un rumbo fijo.
Es interesante observar lo limitado de la información acústica a la que se asig­
na valor expresivo: solamente tres puntos frente a la extremada complejidad del
espectro. Incluso estos tres puntos (Fo, Fl y F2) comportan una serie de informa­
ciones que, normalmente, son despreciadas. Cada uno de los formantes tiene una
intensidad concreta, que varía en cada una de las distintas realizaciones del fone­
ma «a». Cada uno de los formantes, además de la frecuencia de mayor intensidad,
está constituido por una franja más o menos ancha de otras frecuencias contiguas
a ella; y en cada realización de una Z4/esta franja de frecuencias tiene un perfil de
intensidades distinto. Posiblemente, esta información acústica sea la que permite,
al escuchar un sonido de /A/ lo suficientemente largo, que el oyente pueda dedu­
cir si el locutor está deprimido, tiene una actitud agresiva o siente miedo. Pero és­
te es un campo muy poco explorado aún, probablemente porque los estudiosos
de la narración audiovisual están todavía poco preocupados por encontrar instru­
mentos que puedan objetivar la eficacia expresiva de la voz.
Hemos revisado con cierto detalle la impresión espectral en función de las po­
siciones de la boca y cómo se relacionan estas sensaciones con el análisis acústi­
co, concretamente, con los formantes.
Volvamos, ahora, de nuevo, al concepto de resonancia, para estudiar la sen­
sación tímbrica de impresión espectral en las salas de audición (cines, aulas, salas
de conciertos, etc.).
Volveremos a hacer referencia a la voz al ser siempre éste el más familiar y co­
nocido de los sonidos y, por tanto, el sonido respecto al cual estamos en mejores
condiciones para observar auditivamente cualquier tipo de cambio por leve que
éste sea.
Probablemente el lector recordará alguna situación en la que ha oído hablar a
alguien conocido, una vez que se ha alejado lo suficiente, en una sala de gran ta­
maño: una sala de conferencias, un aula, una catedral... Su voz se torna de repen­
te oscura, o metálica, o se hace ininteligible. Este tipo de fenómeno tiene exacta­
mente el mismo punto de partida que el del timbre fonético: la reflexión de la voz,
ahora en las paredes de la sala, y la modificación de su espectro de frecuencias
por la suma del sonido original con sus propias reflexiones.
Cuanto mayor es el tamaño del resonador, más indefinida es la configuración
de los formantes y, por tanto, mas difusa es la impresión espectral. No obstante, es
muy fácil diferenciar entre el timbre qpe introduce en la voz un aula alargada y es­
trecha, que resulta frío, metálico y estridente, del que produce la nave central de
una catedral gótica, que da a la voz un matiz mucho más cálido y oscuro. Acústi­
camente, estas sensaciones se traducen en el espectrograma como resonancias
con un aspecto muy distinto que el de las producidas por nuestro «diminuto» re­
sonador bucal. Las resonancias producidas por una sala son siempre mucho más
anchas y de menor intensidad que los formantes producidos por la cavidad bucal.
La influencia de los resonadores de gran tamaño actúa siempre sobre una canti­
dad mucho mayor de frecuencias del sonido compuesto original, y esto es lo que
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
93
genera esa impresión sonora de difusión, o dispersión, tan característica de los re­
sonadores de gran volumen.
En la figura 23 podemos observar dos espectros de un mismo sonido, antes y
después de ser emitido dentro del aula magna de la Facultad de Ciencias de la Co­
municación de la Universidad Autónoma de Barcelona.
El sonido en cuestión es un ruido blanco (véase nota 9) generado digitalmen­
te por un equipo «Computer Speech Lab» de la empresa Kay. El gráfico superior es
un espectrograma del ruido blanco en su estado original, y el inferior es un es­
pectrograma del mismo ruido blanco una vez emitido dentro de la sala y grabado
durante la emisión con un micrófono situado en el centro del aula magna.
Comparando ambos perfiles se puede comprobar, en primer lugar, que el rui­
do blanco antes de ser emitido en la sala (gráfico superior) tiene un perfil muy re­
gular a lo largo de todo el espectro, con variaciones de intensidad de las frecuen­
cias que lo componen que oscilan entre 5 y 10 decibelios (entre línea y línea
punteada hay un salto de 10 dB). En cambio, el mismo ruido blanco una vez que
ha recorrido la sala (gráfico inferior) presenta ya variaciones en su cresta de hasta
30 decibelios. Puede observarse, también, cómo las diferencias en el gráfico infe­
rior se acumulan en zonas concretas: la intensidad de las frecuencias aumenta glo­
balmente en torno a los 1.030 Hz y disminuye alrededor de los 1.868 Hz.
Por otra parte, si el lector compara el perfil del espectrograma inferior de la fi­
gura 23 con el de la figura 22 podrá comprobar, como decíamos un poco más arri­
ba, que las resonancias que configuran el perfil del primero son mucho más an­
chas y suaves que las que configuran el segundo. En el caso de la /A/ los
formantes (o resonancias) trazan un perfil más acentuado y mucho mejor defini­
do visualmente que el que han producido las resonancias del aula magna.
En suma, y recuperando todo lo revisado hasta aquí sobre el papel perceptivo
de las resonancias, la organización de las resonancias o formantes a lo largo del
espectro configuran una sensación tímbrica que hemos denominado genérica­
mente como impresión espectral.
• Definición auditiva. Para desarrollar y explicar este concepto perceptivo
estableceremos un símil con la terminología utilizada para hablar de la sensa­
ción de detalle visual en la reproducción de imágenes:
f Denominaremos definición auditiva a la sensación de máximo grado de precisión,
/ exactitud o detalle sonoro que percibe el oyente al escuchar atentamente un sonido.
Esta sensación no está vinculada con la de altura tonal ni con la de intensidad,
sino con la percepción de la estructura interna del sonido. Es, también, por tanto,
una sensación tímbrica. La sensación de definición auditiva está ligada a la gama
de frecuencias que componen un sonido. La riqueza de frecuencias con que está
compuesto cada sonido transmite al oído humano una sensación equiparable a la
de grano o textura visual. Cuanto mayor es la gama de frecuencias con que está
compuesto un sonido, más grande es la sensación de detalle y de precisión sono­
ra que produce. Así, la sensación de definición auditiva es tanto mayor cuando el
94
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Figura 23. Espectrograma de un ruido blanco antes (arriba)y después (abajo) de
ser emitido en un auditorio.
oído dispone de más elementos acústicos capaces de transmitir información so­
nora. Inversamente, cuanto más pequeña es la gama de frecuencias con la que se
compone un sonido, menor es la sensación de precisión al escucharlo, y, por tan­
to, menor es el efecto de definición auditiva.
Con la evolución de la tecnología ha ido aumentando la gama de frecuencias
que son capaces de recoger los sistemas de grabación y transmisión de sonido.
Actualmente, los sistemas de alta fidelidad recogen perfectamente toda la gama de
frecuencias que puede percibir el oído humano. No obstante, a menudo escucha­
mos sonidos con una definición auditiva bastante baja. El lector habrá observado
que cualquier voz conocida cambia radicalmente de calidad sonora, es decir, de
timbre, al ser escuchada a través del teléfono. La gama de frecuencias que es ca­
paz de transmitir el teléfono está entre los 300 y los 3-000 hertzios. Teniendo en
cuenta que la capacidad perceptiva del oído humano se extiende de 20 a 20.000
Hz, la definición auditiva del sonido telefónico es bastante escasa. Dicho de otra
forma: el timbre característico del sonido podría ser descrito perfectamente como
de baja definición auditiva.
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
95
Otro ejemplo característico podría ser el de la radio de onda larga. La gama de
frecuencias que es capaz de transmitir este sistema va de los 160 Hz a los 6.300 Hz.
Evidentemente, su definición auditiva es mayor que la del teléfono, pero es to­
davía bastante pobre. En suma, esa sensación tímbrica tan característica que nos
hace identificar el sonido telefónico, o el sonido emitido por cualquiera de los
equipos de audio domésticos, y diferenciarlo inmediatamente del sonido natural
directo es su inferior grado de definición auditiva.
En el ámbito de la comunicación audiovisual se manipula muy a menudo el
grado de definición auditiva. No obstante, en esta labor suelen predominar los
criterios técnicos sobre los expresivos. De hecho, el término habitual dentro del
ámbito de tratamiento del audio en las producciones audiovisuales es el de ancho
de banda.'5No es ningún secreto para un técnico de audio que el ancho de ban­
da del teléfono es mucho menor que el de cualquier equipo doméstico de alta fi­
delidad. Pero la denominación ancho de banda tiene un carácter exclusivamente
acústico y en ningún caso hace referencia a una dimensión psicológica percepti­
va. No van a tener en absoluto el mismo papel perceptivo, por ejemplo, dos an­
chos de banda de 3.500 Hz, si el primero va de 100 Hz a 3-600 Hz y el segundo de
5.000 Hz a 8.500 Hz. A pesar de que ambos tienen un ancho de banda idéntico la
sensación de definición auditiva del primero no tendrá absolutamente nada que
ver con la del segundo. Es por eso que hemos considerado pertinente acuñar el
concepto de definición auditiva. Podemos decir que existe una relación directa­
mente proporcional entre el concepto acústico de ancho de banda y el percepti­
vo de definición auditiva. Ciertamente, cuanto mayor sea el ancho de banda,
mayor será el grado de definición auditiva, y viceversa. No obstante, esta relación
no es isomórfica, ya que cuanto más alta es la zona de la banda de frecuencias es­
cuchada, menor es la capacidad de discriminación perceptiva del oído humano.
Antes de seguir adelante con esta reflexión sobre la definición auditiva, pien­
so será útil para el lector que hagamos una descripción elemental sobre los meca­
nismos básicos de la técnica del filtrado, puesto que en la industria audiovisual és­
ta es la forma más habitual de manipulación del ancho de banda de los sonidos,
y, por tanto, también de su definición auditiva.
La forma más simple de filtrar es controlando la sensibilidad del sistema en la
recogida del sonido. Un sistema, por ejemplo un micrófono cuya membrana sólo
puede vibrar entre 0 y 5.000 Hz, al ser estimulado con un sonido compuesto por
frecuencias de 0 a 20.000 Hz, traducirá la señal sonora original ignorando todas
las frecuencias que no estén dentro de esta gama. Es decir, no recogerá ninguna
de las frecuencias que están situadas entre 5.000 y 20.000 hertzios. Del mismo modo,
un sistema que no pueda vibrar a frecuencias bajas, por ejemplo entre 0 y 300 Hz,
al ser estimulado por un sonido compuesto por frecuencias entre 0 y 20.000 igno­
rará las frecuencias bajas y actuará como un filtro, recogiendo el sonido sólo des­
de los 200 Hz hacia arriba. En definitiva, el filtrado consiste en realizar una trans­
ís. Se denomina ancho de banda a la diferencia entre los límites de frecuencia superior e inferior de
un componente de audio. Por ejemplo, si la gama de frecuencias que es capaz de transmitir el teléfono
va de 160 Hz a 3-600 Hz, el ancho de banda del sonido telefónico será de: 3 600 - 160 = 3-440 Hz.
96
97
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
misión de la señal sonora de un lugar a otro utilizando un sistema de captación
que sólo es sensible para una determinada banda de frecuencias. Naturalmente,
esta gama de frecuencias ha de ser selectiva y controlable por un operador.
Las denominaciones más clásicas de filtrado son:
diado con detalle en su dimensión dinámica; es decir, en su actuación sobre las sen­
saciones auditivas en función del tiempo. Pero, desgraciadamente, el nivel de cono­
cimiento acumulado en este campo todavía no ha generado las condiciones para eso.
• De paso bajo (sólo deja pasar frecuencias graves).
• De paso alto (sólo deja pasar frecuencias agudas).
• De paso de banda (sólo deja pasar algunas frecuencias centrales).
Recuperemos ahora, de nuevo, la idea de que la manipulación del grado de
definición auditiva es algo habitual en el ámbito audiovisual.
En la posproducción de audio, se recurre muy frecuentemente al recurso del
filtrado para quitar la -suciedad» sonora. Es decir, para borrar sonidos no deseados
cuando éstos están concentrados en una zona bien definida del espectro. Hemos
visto ya que filtrar un sonido no es más que la eliminación selectiva de una gama
determinada de frecuencias del espectro. Si, por ejemplo, detectamos mediante
un análisis espectral que los ruidos no deseados que se escuchan en una graba­
ción están en la zona más baja del espectro, por ejemplo en torno a los 50 Hz (el
zumbido característico de las lámparas fluorescentes), podremos filtrar el sonido
borrando la banda de frecuencias de 0 a 60 Hz. Este tratamiento de la señal sono­
ra, efectivamente, eliminará el ruido, pero también cualquier otra frecuencia sig­
nificativamente expresiva que se encuentre en esa misma zona del espectro.
En suma, todo filtrado, sea del tipo que sea, altera el timbre del sonido. Más
concretamente: hace bajar el grado de definición auditiva, del sonido tratado.
Desde el punto de vista expresivo, los filtrados se utilizan a menudo en la rea­
lización audiovisual para simular sonido telefónico, o sonido radiofónico a partir
de sonidos que han sido grabados con equipos de alta fidelidad y, por tanto, que
tienen un ancho de banda entre 15.000 o 20.000 Hz. Evidentemente, lo que se es­
tá haciendo en estos casos es reconstruir el timbre del sonido telefónico o el del
sonido radiofónico reduciendo la definición auditiva de una grabación original
de gran definición.
Para concluir ya este apañado sobre la sensación tímbrica retomaremos la idea
del timbre como sensación global compleja.
Hasta ahora, hemos dimensionado el timbre en tres aspectos diferenciados: la
armonicidad, la impresión espectral y la definición auditiva. No obstante, las tres
dimensiones sensoriales hacen referencia y dependen de la estructura interna del
sonido, de su composición espectral y, por tanto responden a la concepción glo­
bal de timbre. Así, podemos decir perfectamente que el timbre es una sensación
compleja en la que influyen de forma simultánea y unívoca armonicidad, impre­
sión espectral y definición auditiva, es decir:
timbre = (armonicidad) + (impresión espectral) + (definición auditiva)
Para cerrar con cierta solidez esa concepción global del timbre que proponemos,
el papel perceptivo de la composición interna del sonido también debería ser estu-
3.3.4. Sobre la dimensión dinámica del timbre
Consideramos que en esta obra se apoñan algunos elementos que pueden ser
útiles para avanzar un poco más en el conocimiento y la comprensión de los so­
nidos compuestos, especialmente en la dimensión tímbrica. No obstante, nuestro
planteamiento sobre el timbre se presenta pretendidamente como algo abierto en
tanto que aún no podemos tratar su dimensión dinámica con la suficiente profun­
didad. En cualquier caso, sí que tenemos la certeza de que éste es un camino que
necesariamente se deberá recorrer.
Más arriba, cuando estudiábamos el sonograma (apartado 3-2.3) habíamos vis­
to que la composición de frecuencias de un sonido es un fenómeno dinámico que
evoluciona constantemente en el tiempo. Y este fenómeno de evolución dinámica
se da también, aunque en un grado mucho menor, en los sonidos estacionarios. El
lector estará ya en condiciones de observar el sonograma de cualquier sonido es­
tacionario y notar que las franjas que definen su composición de frecuencias tienen
ligeras variaciones tanto de altura (frecuencia) como de grosor u oscuridad (inten­
sidad). Puede comprobar todo esto, por ejemplo, en la figura 12, o en el centro de
la /E/ de la figura 17. Y ver, también, que estas variaciones tienen una cierta regu­
laridad cíclica a medida que el sonido evoluciona en el tiempo. Estas pequeñas va­
riaciones regulares en la evolución dinámica del espectro actúan sobre la sensa­
ción tímbrica. Pero el carácter fugaz y múltiple de este tipo de variaciones de la
estructura interna del sonido hace sumamente difícil y complicado su estudio.
Risset, intentando sintetizar digitalmente un timbre de trompeta, descubrió en
1965 que la variación dinámica del espectro de frecuencias era fundamental para
que el sonido que estaba construyendo se pareciese perceptivamente al de una
trompeta real. Y, en consecuencia, llegó a la conclusión de que la reconstrucción
sintética de un sonido a partir de modelos espectrales completamente estaciona­
rios no era válida (véase Mathews y Pierce, 1987, págs. 82-90). Quien escribe estas
líneas piensa como Risset, como Mathews y como Pierce, que la evolución diná­
mica del espectro es una pieza clave para comprender cómo actúa la percepción
sonora humana de los sonidos compuestos. Pero éste es todavía un campo dema­
siado poco conocido. Quizá, el campo más difícil e inexplorado del complejo y fas­
cinante universo de las sensaciones sonoras.
3.4. Las magnitudes físicas para la medición del sonido
La acústica aporta dos unidades esenciales para poder medir y comparar entre
sí los sonidos. Estas unidades son el hertzio para la frecuencia y el decibelio para
98
99
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
la amplitud. Ambas unidades están siendo utilizadas de un modo muy generaliza­
do en todos los ámbitos en los que se trabaja con el sonido. Se han convertido en
el punto de partida para cualquier investigación en la que las vibraciones audibles
formen parte del objeto de estudio; y son también unidades muy cotidianas en el
ámbito de la industria audiovisual. No obstante, es importante tener muy presen­
te que aunque estas dos magnitudes dan cuenta adecuadamente de las dimensio­
nes estrictamente físicas de los fenómenos vibratorios, están muy lejos de resolver
satisfactoriamente la medición de las sensaciones de tono e intensidad.
En el primer capítulo de esta obra concretábamos ya que nuestro objeto de es­
tudio es el lenguaje audiovisual, es decir: los modos artificiales de organización
de la imagen y el sonido que utilizamos para transmitir ideas o sensaciones. Es­
to supone que el sonido no nos preocupa en tanto que entidad física, sino como
instrumento para la transmisión voluntaria de sensaciones y de ideas. Así, lo esen­
cial para nosotros no es la dimensión física del sonido sino su dimensión percep­
tiva. Consecuentemente, es importante que revisemos estos instrumentos de me­
dida a la luz de nuestras necesidades concretas, mucho más cercanas a las de la
psicología perceptiva que a las de la física.
Esta unidad no responde al umbral mínimo de percepción de frecuencia, ya
que éste es de unos 17 cps. Una vibración de 1 cps será detectada por un instru­
mento de medición acústica, pero no por el oído humano. Es una unidad de me­
dida que sólo se ajusta parcialmente a la dinámica de la audición en tanto que no
contempla la pérdida de finura en la sensibilidad que tienen todos los sentidos hu­
manos a medida que va aumentando la intensidad del estímulo percibido (ley de
Weber y Fechner).16
Ciertamente, existe una relación entre la frecuencia de una vibración medida en
Hz. y la sensación tonal que ésta produce, ya que cuando aumenta la frecuencia de
la vibración sube, también, la sensación tonal. Pero esta relación no es lineal sino
geométrica: cada vez que se dobla la frecuencia sólo aumenta en un grado nuestra
sensación auditiva de tono. Estudiaremos con más detalle estas cuestiones en el ca­
pítulo 4.
El sistema musical de Occidente ha organizado sus unidades de una forma mu­
cho más ajustada a la sensibilidad del oído humano que la física acústica. La esca­
la tonal estructura su gama de unidades en semitonos, tonos y octavas y de este
modo se aproxima bastante más a la estructura de la percepción humana que el
estudio en cps o Hz. A continuación desarrollaremos un cuadro en el que se esta­
blece la equivalencia sistemática entre medida física de las vibraciones y escala to­
nal. En el cuadro se muestra el valor en Hz de todas las notas en 5 octavas de la es­
cala tonal, y el salto de frecuencia que se produce entre cada nota musical y la
siguiente.
En la primera columna, las cifras ordenadas de arriba abajo en negrita y que son
de mayor tamaño muestran la frecuencia que se corresponde, respectivamente,
con cada una de las siete notas de la primera octava (DO de la Ia octava = 64 Hz;
RE de la Ia octava = 73 Hz; MI de la Ia octava = 82 Hz; etc.). Las cantidades que es­
tán en cursiva y son de tamaño menor expresan el salto en Hz que hay entre cada
nota y la inmediata siguiente. En la segunda columna se muestran, también de arri­
ba abajo las respectivas frecuencias en Hz que corresponden a cada una de las no­
tas de la 2a octava y los saltos de frecuencia entre notas. En la tercera columna los
de la 3a octava; y así sucesivamente hasta la 5a octava.
Mirando este cuadro, el lector puede observar cómo las notas de la escala mu­
sical, al ser escuchadas, producen la sensación de ser lineales y equidistantes en­
tre sí; cuando son medidas físicamente, las cifras en Hz que las representan refle­
jan que la distancia entre ellas no es regular sino que aumenta muy rápidamente a
medida que subimos en la escala. Mientras el salto de frecuencia entre las notas de
la primera octava está en torno a los 10 Hz, en la quinta octava los saltos de fre­
cuencia varían ya entre 150 y 200 Hz. Probablemente, lo que resulta perceptiva­
mente más claro es la diferencia entre las variaciones de frecuencia y de sensación
tonal de una octava a otra. Cuando escuchamos sucesivamente los DO de la Ia, 2a,
3a, 4a y 5a octavas de un piano tenemos una sensación auditiva muy clara de que
el salto tonal es regular y de que cada una de las notas es auditivamente equidis­
tante de la anterior. Sin embargo, los datos de sus respectivas frecuencias nos
3.4.1. La medición del tono
Técnicamente, la medición física de la frecuencia suele utilizarse en todos los
ámbitos como medida de la sensación tonal, a pesar de que ambos son fenóme­
nos perfectamente diferenciados.
La medida de la frecuencia es sumamente simple. Se mide contando el número
de oscilaciones por segundo que desarrolla cualquier objeto al sufrir una vibración.
La frecuencia de vibración de un objeto que actúa como fuente sonora se co­
rresponderá con el número de oscilaciones que sufren las moléculas del aire que
son estimuladas por él. Y el aire transmite esta frecuencia al oído, que se encarga­
rá de traducirla en sensación tonal; o al diafragma del micrófono, que se encargará
de traducir la vibración sonora en variaciones de amplitud eléctrica.
La física toma como magnitud de referencia para medir cualquier frecuencia
una vibración que tarda un segundo en hacer el recorrido completo desde que
parte de su punto de reposo en un sentido y retorna a este punto en el mismo sen­
tido. A esta relación entre la rapidez de la vibración y el tiempo se la denomina:
1 ciclo por segundo ti cps~). Haciendo referencia siempre a esta magnitud es posi­
ble comparar con exactitud la rapidez de cualquier vibración con la de cualquier
otra. El ciclo por segundo es, pues, la magnitud que se utiliza como unidad para el
estudio del grado de rapidez de las vibraciones. A esta unidad se la denomina
también hertz (Hz). Éste es el nombre de su creador.
1 hertz = 1 ciclo x 1 segundo.
Así, del sonido producido por unas moléculas de aire que oscilan en 150 oca­
siones cada segundo se dice que tiene una frecuencia de 150 Hz.
16. Esta ley se revisa con detalle en el apartado 3.4.2.
100
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Frecuencias y saltos defrecuencia en la escala tonal
1»
DO
64
9
RE
MI
73
9
82
5
FA
SOL
LA
SI
87
11
98
12
110
13
123
2»
3*
128
18
146
18
164
10
174
22
196
24
220
26
246
256
37
293
36
329
20
349
43
392
43
435
58
493
4»
512
75
587
72
659
39
698
85
783
97
880
107
987
5a
1024
150
1174
144
1318
78
1396
171
1567
193
1760
213
1973
Octavas
Frecuencia de cada tono en Hz.
Salto defrecuencia entre tonos en Hz.
muestran cómo el número de hertz se duplica cada vez que pasamos del DO de
una octava al de la siguiente. Si esta variación tuviese una correspondencia nu­
mérica directa en la sensación tonal, deberíamos percibir que la distancia tonal
entre los DO sucesivos es cada vez mayor a medida que ascendemos en la escala.
Y esto no es así.
Finalmente, la magnitud acústica para medir la frecuencia, por sí sola, tampo­
co da cuenta de un modo satisfactorio de los sonidos compuestos. De hecho, el
concepto de frecuencia en su sentido estricto sólo es satisfactorio para los soni­
dos simples. En el momento en que nos enfrentamos a un sonido compuesto, co­
mo hemos visto ya en el apartado 3.3.1, es necesario diferenciar entre frecuencia
fundamental y armónicos o parciales. Cuando se habla de frecuencia de un so­
nido compuesto, normalmente, se está haciendo referencia a su frecuencia fun­
damental, al ser ésta la que tiene una influencia perceptiva más clara en la sensa­
ción tonal. No obstante, hemos visto que el resto de las frecuencias que
componen los sonidos complejos influyen también de una forma determinante en
la sensación auditiva (.timbré) que éstos producen. Así, el concepto de frecuencia,
por sí solo, resulta demasiado simple para cuantificar adecuadamente este fenó­
meno perceptivo.
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
que la medida de su frecuencia, al introducir en la medición de la energía sonora
la pérdida progresiva de finura del sistema sensorial humano con el aumento de
la energía de los estímulos. No obstante, encontraremos también algunos proble­
mas en la cuantificación de la intensidad.
La definición de la unidad de medida de la intensidad es bastante más com­
pleja que la de la frecuencia y hemos de partir de algunas consideraciones previas
sobre la percepción antes de llegar a ella.
Como hemos dicho ya, el ser humano pierde finura en la sensibilidad de todos
los sentidos a medida que aumenta físicamente la intensidad del estímulo percibi­
do. Si comparamos, por ejemplo, el peso de dos paquetes pequeños de 100 g y
150 g respectivamente, poniendo uno en cada mano somos perfectamente capa­
ces de percibir la diferencia y decir cuál de los dos es el más pesado. Es decir afi­
namos a distinguir 50 g de diferencia. Pero si esta comparación la hacemos con
paquetes de 10.000 g y 10.050 g utilizando la misma técnica seremos incapaces de
notar diferencia alguna. Para percibir la misma sensación diferenciadora que
tuvimos entre 100 y 150 gramos deberíamos tener en una mano 10 kg y en la otra
15 kg.
Es decir, para sentir lo mismo que antes podíamos percibir con 50 gramos, al
aumentar la intensidad del estímulo necesitamos una diferencia de peso 100 veces
mayor. Exactamente la misma proporción con la que ha aumentado globalmente
el estímulo a comparar.
Este fenómeno fue sistematizado en la ley de Weber y Fechner, que se formu­
la de la forma siguiente: La percepción es proporcional al logaritmo de la excita­
ción. O lo que es lo mismo: La sensación crece sólo en progresión aritmética
mientras que la excitación que la provoca crece proporcionalmente en progre­
sión geométrica (véase Bruce Goldstein, 1993, pág. 20).
Volviendo al ejemplo de la comparación de 100 gramos y 150 gramos de peso
entre las dos manos, si la percepción es proporcional al logaritmo de la excita­
ción, calculando el logaritmo de los pesos tendremos una idea de la sensación
que éstos transmiten. Veámoslo:
log 100 = 2 log 150 = 2,17
así, la sensación de diferencia percibida es de
2,17 - 2 = 0,17.
Si lo que comparamos son 10 kg con 10 kg más 50 g
3.4.2. La medición de la intensidad
Mientras que la frecuencia hacía referencia exclusivamente al fenómeno vi­
bratorio, y por tanto físico, el concepto de intensidad hace referencia ya de forma
directa a la sensación psicológica de energía del sonido. Veremos que la acústica
ha resuelto bastante mejor la medida de la amplitud de las vibraciones sonoras
101
log 10.000 = 4 log 10.050 = 4,002
la diferencia percibida es de
10.050 - 10.000 = 0,002
102
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
para conseguir la misma diferencia de sensación (0,17), el peso en la mano que
aguanta una carga mayor debería ser igual a la inversa del logaritmo de (4 + 0,17).
O sea, el peso debería ser: 10417. Haciendo el cálculo:
diseñar una escala sólo de 12 grados desde la sensibilidad mínima hasta la máxi­
ma. O sea:
103
si 1.000.000.000.000 = 1012
IO447 = 14.791 g (unos 15 kg).
los grados podían ser:
Estudiaremos ahora la unidad clásica de intensidad sonora que es el decibel
(dB). Esta magnitud intenta relacionar la percepción humana con la cuantificación
física de la presión que producen las vibraciones sonoras del aire al incidir sobre
el oído. Es una medida relativa que toma como referencia la mínima presión so­
nora que es capaz de percibir el oído humano. Y compara la presión ejercida por
cualquier sonido con esa magnitud.
A partir de aquí desarrollaremos paso a paso todo el proceso de construcción
conceptual y matemática del decibel o decibelio.
Esta unidad trabaja desde el sistema CeGeSimal (centímetros, gramos, segun­
dos) y toma como referencia una frecuencia pura de 1.000 cps. La razón por la
que se toma una referencia de 1.000 Hz es que la percepción de la intensidad no
solamente varía con la amplitud de la vibración, sino que varía, también, en fun­
ción de la frecuencia. Escuchando una frecuencia de 1.000 Hz estamos en la zona
frecuencial para la que el oído humano tiene una respuesta sensible más regular
a la amplitud de las vibraciones sonoras.
El punto de partida es el fenómeno físico: concretamente, la presión que ejer­
cen las moléculas de aire, que han sido estimuladas por una fuente sonora, al vi­
brar sobre el tímpano humano. Aproximadamente,17 la presión mínima que pue­
de percibir el oído es de: 0,0002 dinas/cm2. Esta cantidad se tomó como magnitud
de referencia (Po) con la que se compararía cualquier otra presión acústica (P r) so­
bre el oído. Es decir, como unidad. Así, se podría conocer el grado de presión au­
ditiva de cualquier sonido calculando el número de Po que contuviera. La presión
auditiva sería pues:
presión auditiva = Pj / Po.
A partir de aquí era necesario encontrar el otro extremo: la máxima presión so­
nora perceptible, y construir una escala entre estos dos límites de la sensibilidad
humana a la intensidad.
La máxima presión sonora que el oído podía aguantar antes de llegar al um­
bral de dolor era 1.000.000.000.000 de veces la presión mínima. Es decir 1012 x
(0,0002 dinas/cm2). Con lo que desde el umbral mínimo hasta el umbral máximo
aparecía una escala de un billón de grados, que resultaba absolutamente inma­
nejable. No obstante, trabajando matemáticamente con potencias de 10 se podía
17. La sensibilidad mínima del oído a la presión auditiva varía de unas personas a otras; no obstan­
te, se puede establecer sin problemas el umbral mínimo medio dentro de unos márgenes de variación
relativamente estrechos. El lector puede encontrar en la obra Introducción a la audiometría (Quirós y
D’Elia, 1982) un amplio y profundo estudio sobre estos temas.
101, 102, 103, 104, 105, ... ,1012.
Además, se había observado ya que la sensación que percibe el ser huma­
no es siempre proporcional al logaritmo de la cantidad de excitación; por lo
tanto, el cálculo de la sensación de sonoridad, o de potencia sonora, debería
ajustarse también a esta ley. Así, en realidad, la sensación de intensidad se ajus­
taría al logaritmo del cociente entre la presión sonora que incide sobre el tím­
pano (P, ), dividida por la presión sonora mínima que puede percibir el oído
(Po). Es decir:
intensidad = log (P, / Po).
Dando al umbral mínimo de presión auditiva el valor de unidad: 1, y hacer es­
te cálculo tomando como Pj la máxima de presión audible, se obtuvo la cifra: 12
como valor que expresaba la máxima intensidad audible. Veamoslo:
intensidad = log (1012 / 1) = 12.
Quedaba, pues, definido así el máximo de una escala relativa de 12 grados que
se aproximaba a la sensación de intensidad. A la unidad de esta escala se la deno­
minó bel. La máxima intensidad que soporta el oído es, pues, de 12 bels. No obs­
tante, el bel no era adecuado como unidad para medir las pequeñas variaciones
de intensidad; en realidad el bel resultaba una unidad demasiado grande, dema­
siado gruesa para la sensibilidad auditiva humana. Se decidió entonces dividir el
bel en 10 unidades más pequeñas, con lo que se obtenía definitivamente el deci­
bel. Tenemos pues que:
1 bel= 10 decibels.
Lógicamente, para calcular la sensación de intensidad en decibels (dB), será
necesario multiplicar por 10 el número de bels. El umbral de dolor, por ejemplo,
es de 12 bels x 10 = 120 decibels o decibelios. Ahora, la sensación de intensidad
que produce un sonido se podía ya predecir de forma bastante aproximada cal­
culando el número de decibelios que tiene el sonido en cuestión mediante la si­
guiente fórmula:
intensidad (en decibels) = 10 log ( P, / Po).
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
104
105
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Siendo: Po la magnitud o unidad de referencia (en este caso 0,0002 dinas/cm2),
y Pl la presión que ejerce el sonido en cuestión expresada en las mismas unida­
des que la unidad de referencia.
Finalmente, cuando la impedancia acústica es constante, o dicho de otro mo­
do, cuando la capacidad de penetración del sonido en el aire es constante, tal co­
mo ocurre en las investigaciones acústicas, las potencias acústicas resultan pro­
porcionales al cuadrado de las presiones acústicas. Aplicando esto, el cálculo de
la intensidad en dB queda del siguiente modo:
intensidad (en dB) = 10 log P/ / Po2
o lo que es lo mismo
intensidad (en dB) = 20 log P, / Po.
El decibelio ha sido homologado internacionalmente como unidad de medida,
dándole un valor concreto de presión, exactamente el de 0,000204 dinas/cm2. És­
te es el valor medio de la mínima presión audible, determinado a 1000 cps.
Al estudiar el decibelio, hemos visto que todo el desarrollo de esta unidad es­
tá hecho tomando como referencia una vibración simple de 1.000 Hz. Lógica­
mente, eso supone, también, que aunque obtengamos, por ejemplo, dos medidas
idénticas de 50 dB de presión sonora en sendos sonidos de 100 y de 1.000 Hz, no
tenemos ninguna garantía de que estos dos sonidos vayan a transmitir la misma
sensación psicológica de intensidad. De hecho esto es justamente lo que ocurre.
La sensibilidad humana a la presión auditiva es menor cuando el sonido escucha­
do es de frecuencia más baja, y va aumentando a medida que aumenta la fre­
cuencia del sonido. Esto ocurre aproximadamente hasta los 3.000 Hz. A partir de
esa frecuencia, la sensibilidad del oído a la presión sonora vuelve a disminuir pro­
gresivamente, hasta que desaparece en torno a los 15.000 o 20.000 Hz. Sucede,
entonces, que un sonido que tenga una frecuencia de 100 Hz y una presión so­
nora de 20 dB, no puede ser percibido por el oído humano, mientras que si esta
misma presión sonora de 20 dB llega a nuestro oído asociada a un sonido de
1.000 Hz, sí que será perfectamente audible.
Este fenómeno fue formalizado por Fletcher (véase Pierce, 1985, pags. 110111) mediante un diagrama de curvas de igual audibilidad. La base de esta formalización gráfica es psicoacústica. Para construirlo se solicita a un amplio número
de sujetos experimentales que comparen entre sí sonidos de distinta frecuencia a
medida que se modula su potencia en decibelios, hasta que tengan la sensación de
intensidad idéntica. Una vez igualadas las sensaciones de intensidad entre sonidos
de distinta potencia se anotan exactamente los dB de presión sonora con los que
se estaba emitiendo cada uno de los sonidos. El resultado de este trabajo es la
construcción del diagrama de la figura 24.
En el diagrama de Fletcher se ponen en relación sobre una escala logarítmica
la presión sonora en decibels (eje vertical) con la frecuencia en hertz (eje hori­
zontal). Y sobre él se trazan curvas isofónicas. Las curvas isofónicas expresan cuál
es la relación entre potencia sonora en dB y frecuencia en Hz para que el oído hu­
mano tenga la misma sensación de intensidad a medida que va variando el tono.
Revisemos, por ejemplo, la primera de las curvas observando el diagrama de
abajo hacia arriba. Esta curva indica la mínima intensidad perceptible por el oído
humano. Es decir, el sonido más débil posible que empieza a ser audible. En el
diagrama podemos ver que cuando la frecuencia de un sonido es de unos 35 Hz,
para que empiece a ser percibido es necesario que se emita con una potencia de
unos 60 dB; sin embargo, cuando el sonido es de 100 Hz, para que sea audible ya
sólo es necesaria una potencia de unos 40 dB; al subir la frecuencia del sonido a
500 Hz, con que la presión sonora sea de unos 5 dB basta para comenzar a perci­
bir el sonido; a 1.000 Hz el sonido se hace audible a 0 dB; sobre los 3.000 Hz pa­
ra percibir el sonido la presión sonora necesaria es mínima, aproximadamente,
-15 dB, etc.
La segunda curva de abajo arriba expresa el mismo tipo de información, pero
ahora tomando como punto de referencia la sensación psicológica de intensidad
que produce un sonido de 1.000 Hz emitido con una potencia sonora de 10 dB. La
curva indica las distintas potencias en dB que son necesarias en cada frecuencia
para que la sensación subjetiva de intensidad sea siempre la misma.
Todas las curvas de abajo arriba siguen siempre el mismo criterio y expresan el
mismo tipo de información: la tercera curva indica la relación potencia-frecuencia
necesaria para que la sensación de intensidad sea la misma que la que produce un
sonido de 20 dB a 1.000 Hz; la cuarta curva, la relación potencia-frecuencia nece­
saria para que la intensidad sea idéntica a la de un sonido 30 dB a 1.000 Hz, etc.
Finalmente, la última curva indica el umbral de dolor.
En suma, la sensibilidad del oído humano se adapta a la medición de decibe­
lios a los 1.000 Hz, pero cuando esta frecuencia varía, la percepción humana no se
ajusta ya a esta forma de cuantificar la intensidad. La conclusión vuelve a ser la
misma que en el caso de la frecuencia. Aunque bastante más adaptada a la per­
cepción humana, el decibel no deja de ser una magnitud centrada en el fenómeno
físico de la presión y no en el fenómeno psicológico de la intensidad.
Para resolver este problema se estableció el fon, que es una medida que da el
mismo valor a todos los puntos de la curva isofónica. El valor en fones de cada cur­
va es el que se obtiene en decibelios cuando la curva cruza la línea de los 1.000 Hz.
Para saber cuál es la intensidad en fones de un sonido hay que situarlo, pues, co­
mo un punto en el diagrama de Fletcher y buscar la curva isofónica que pasa sobre
él. Así, por ejemplo, un sonido de 50 Hz y 60 dB de potencia sonora tendría un va­
lor de 10 fones-, otro de 100 Hz y 40 dB equivaldría a 0 fones-, etc.
Pero esta unidad de medida tampoco resolvía las diferencias sensitivas. El au­
mento de un fon no se ajusta a los saltos naturales de la sensibilidad auditiva. Se
inventó entonces otra medida que sí respondiera a los saltos de intensidad que re­
conoce el hombre como regulares: el son. En la frecuencia de 1.000 Hz se esta­
blece la equivalencia de:
40 fones - 1 son
106
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Figura
24. Diagrama de Fletcher.
A partir de esta equivalencia, cuando el oído perciba un sonido el doble de
fuerte diremos que la intensidad es de 2 sones, si la diferencia es triple serán 3 so­
nes y si es de la mitad serán 0,5 sones.
Finalmente, trabajar a nivel técnico con unidades como el fon y el son dificul­
ta y encarece los instrumentos de medida para el cálculo de la intensidad. Esto ha
hecho que el decibel se haya implantado internacionalmente como la unidad de
medida utilizada en todos los ámbitos. Nos encontramos, pues, con que los ins­
trumentos convencionales miden siempre la presión sonora en decibelios-, y, lo
que es peor, que demasiado a menudo se establece una asociación rígida entre la
medición de la presión sonora en dB y la sensación psicológica de intensidad,
cuando, cómo hemos visto, esta vinculación supone arrastrar errores muy impor­
tantes.
Todo creador de narraciones audiovisuales debería tener muy en cuenta este
problema, y aprender a desconfiar de los omnipresentes vúmetros. Es imprescindi­
ble tener absolutamente claro que las indicaciones en dB de los instrumentos de
medida en los estudios de grabación sonora sólo son válidas para las molestas cali­
braciones a 1.000 Hz y para indicar los niveles de saturación desde un punto de vis­
ta exclusivamente técnico. Pero que nos aportan muy poco cuando se trata de decidir
cuáles son las intensidades adecuadas para equilibrar una composición de sonidos
distintos, complejos y diversos. Es el oído humano y no el vúmetro el que debe de­
DEL ANÁLISIS ACÚSTICO A LA SENSACIÓN
107
cidir sobre el nivel de intensidad de los distintos sonidos para diseñar una perspec­
tiva sonora. Es la sensibilidad auditiva del narrador y no el número de dB quien
puede y debe precisar con exactitud si un determinado nivel de intensidad es o no
suficiente para que el público de una sala de cine perciba el sonido de unos pasos
en la lejanía.
A modo de resumen global, creo que es importante insistir en que la com­
prensión científica de los sonidos compuestos complejos es un problema que dis­
ta todavía mucho de estar completamente resuelto. Es cierto que los modernos
instrumentos que hemos expuesto a lo largo de todo este capítulo han supuesto
un enorme avance sobre el conocimiento del sonido en los últimos cincuenta
años. Y que en poco tiempo se han desarrollado una serie de herramientas con­
ceptuales, que permiten ya navegar con una cierta eficacia en el océano de los so­
nidos complejos.
Técnicamente, se ha avanzado y obtenido resultados muy satisfactorios sobre
los sonidos estacionarios, concretamente en filtrado, eliminación y cancelación18
de ruidos; y sobre la manipulación y el tratamiento en general de la señal de au­
dio. Pero hay en estos momentos numerosos frentes de investigación en los que
se están invirtiendo grandes esfuerzos para conseguir sólo avances muy reduci­
dos, especialmente en el ámbito de la comprensión del funcionamiento acústicoexpresivo de la voz humana.
La investigación en fonética experimental justo comienza ahora a trabajar so­
bre la evolución dinámica del habla en el tiempo, a pesar de ser ésta una de sus
características esenciales; los estudios sobre seguridad e investigación policial no
han resuelto aun el modo de identificar una voz con una garantía de acierto satis­
factoria; el reconocimiento automático del habla no ha conseguido pasar todavía
de las palabras aisladas dichas por un único locutor; la diagnosis psiquiátrica y foniátrica mediante el análisis del sonido de la voz es todavía muy reducida y se uti­
liza sólo en un número reducido de casos; y el conocimiento general sobre los
mecanismos de interpretación del sonido que utiliza el ser humano son todavía
muy escasos. Por desgracia, se ha investigado sobre ellos muchísimo menos que
sobre los de la comprensión visual.
Consecuentemente, lo que hemos estudiado en este capítulo no son en abso­
luto herramientas definitivas para resolver todos los problemas de comprensión
del audio. Se trata simplemente de que tanto los investigadores como los profe­
sionales de la comunicación audiovisual puedan tener en sus manos aquellos ins­
trumentos de análisis acústico que, a nuestro modo de ver, se han perfilado como
los más eficaces tanto para la comprensión científica, como para la manipulación
técnica y expresiva de los sonidos compuestos.
18. La cancelación es un sistema de eliminación de ruido consistente en oponer al conjunto de vi­
braciones sonoras que lo componen, otro exactamente igual pero de fase invertida, de modo que al su­
marse linealmente ambas oscilaciones complejas el resultado final sea cero. Es decir, ausencia total de
vibración y, por tanto, desaparición del ruido. Algo así como empujar una puerta entreabierta exacta­
mente con la misma fuerza por ambos lados a la vez. Lógicamente, la puerta no llegará a moverse.
Capítulo
4
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
En este capítulo se revisan aquellos mecanismos perceptivos de la audición
que el autor considera fundamentales para comprender cómo se organiza la ex­
presión sonora. Y su objetivo es localizar relaciones que existen entre los proce­
sos perceptivosy la capacidad humana para expresary comprender mensajes so­
noros.
4.1. La subjetividad perceptiva como objeto científico
En el universo de la narración y del lenguaje audiovisual, los fenómenos que
están relacionados con el universo interior del receptor suelen calificarse dema­
siado a menudo como algo difuso, individual e informalizable. Existe, además,
una fuerte tendencia a desestimar los estudios sobre la interpretación del discur­
so audiovisual que ponen su punto de vista en el receptor. A menudo, aquellos
que estudian la comunicación de masas desde una perspectiva sociológica, argu­
mentan que investigar en el campo de las relaciones entre los fenómenos físicos y
la interpretación de los mensajes audiovisuales es algo -demasiado subjetivo». En
este tipo de discurso, el concepto de subjetividad suele ser utilizado como un ins­
trumento de descalificación.
Buena parte de la literatura sobre comunicación de masas trabaja desde una
concepción demasiado reduccionista del concepto subjetividad, entendiendo que
cada sujeto percibe e interpreta de un modo completamente individualizado y di­
ferente de los otros sujetos el conjunto de fenómenos físicos objetivos que consti­
tuyen un mensaje audiovisual.
No obstante, la psicología perceptiva ha demostrado de forma experimental,
desde hace ya más de medio siglo, que cuando no se dan unas condiciones espe­
ciales como: ambigüedad, confusión, tensión, agotamiento, miedo, etc., se com­
prueba sistemáticamente que frente a estímulos idénticos los sujetos coinciden en
sus percepciones dentro de unos márgenes muy concretos y estrechos. Es decir,
que la relación entre las condiciones físicas externas y los resultados de la per­
cepción interna son regulares (Guski, 1992, pág. 24). La consecuencia directa de
esto es que el concepto de subjetividad, entendido desde el punto de vista de la
psicología de la percepción, es perfectamente objetivable. Dicho de otro modo:
toda sensación que se desencadena en el interior de un sujeto como respuesta a
la recepción de estímulos físicos externos objetivos y toda interpretación de estas
sensaciones que haga el mismo sujeto receptor son objetivables. Es decir, formalizables como un objeto de estudio científico.
Entenderemos pues, en esta obra, el concepto de subjetivo en el sentido que
lo entiende la psicología de la percepción. Así, denominaremos subjetivo a todo
aquello que es inherente a la fenomenología objetivable, analizable y mensurable
que se produce en el interior del sujeto. Y, como corolario, entenderemos el con­
cepto de objetivo como todo aquello que es inherente a los fenómenos físicos ex­
ternos al sujeto.
Este planteamiento inicial nos proporciona un fundamento conceptual muy
claro para estudiar el lenguaje audiovisual desde una perspectiva psicofísica. Es
evidente que si no hubiese coherencia entre las percepciones de los distintos re­
ceptores no sería posible ningún tipo de comunicación. Que productos audiovi-
112
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
suales como Cantando bajo la lluvia, Blancanievesy los siete enanitoso La Gue­
rra de las Galaxias puedan recorrer el mundo conservando intacta su organiza­
ción visual y sus bandas sonoras de música y efectos, sólo es comprensible si exis­
te coherencia perceptiva entre los receptores; sin una base de apoyo en códigos
universales ese fenómeno comunicativo transcontinental no sería posible. Y esto
no es en absoluto exclusivo del lenguaje audiovisual. Toda comunicación, sin ex­
cepción posible, tiene su origen antropogenético en la interpretación subjetiva,
coherente y unívoca, por parte de un grupo de individuos, de una serie de estí­
mulos físicos objetivos.
4.1.1. En busca de mecanismos expresivos universales
Hemos estudiado en el capítulo anterior cómo fenómenos físicos y experien­
cia perceptiva son procesos radicalmente distintos que mantienen entre ellos unas
relaciones regulares aunque, a menudo, bastante complicadas. El sistema percep­
tivo traduce las variaciones físicas de nuestro entorno en sensaciones siguiendo
unas leyes que investiga e intenta encontrar la psicología de la percepción. En el
tema concreto que nos ocupa la disciplina que nos aporta información sobre esas
leyes es la psicoacústica.
Así, hemos visto cómo la longitud de las ondas sonoras (frecuencia) desenca­
dena la sensación tonal; cómo la presión sonora (amplitud) implica sensación de
intensidad; y que las distintas formas de organización del espectro desencadenan
las sensaciones tímbricas. Éstos son sólo unos primeros pasos todavía tambale­
antes en nuestro camino. Nuestro objetivo será ahora revisar los elementos esen­
ciales de la percepción auditiva, con el fin de comprender mejor el funciona­
miento global de los fenómenos expresivos audiovisuales. Cuando seamos
capaces de descubrir de qué modo actúa la interpretación subjetiva de los estí­
mulos físicos audiovisuales, estaremos en mejores condiciones para localizar al­
gunos de los mecanismos expresivos universales en los que se basa el lenguaje
audiovisual.
4.2. La percepción de las dimensiones sonoras simples
En este apartado, revisaremos cada uno de los umbrales perceptivos relacio­
nados con la intensidad, el tono y la duración. Es decir, estudiaremos con detalle
el primer nivel del proceso interpretativo que desencadena el sistema perceptivo
humano cuando nuestro oído está expuesto a estímulos sonoros.
4.2.1. El concepto de umbral
El concepto de umbral está asociado al de límite de sensibilidad perceptiva. La
psicología de la percepción trabaja de una manera sistemática con tres tipos de
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
113
umbrales perceptivos: el umbral mínimo, el umbral máximo y el umbral dife­
rencial. Veamos la definición de cada uno de estos conceptos.
Umbral mínimo: supone detectar la cantidad mínima de estímulo por debajo
de la cual el fenómeno físico ya no es percibido por el ser humano.
Umbral máximo: es justamente el concepto antitético, supone detectar la can­
tidad de estímulo por encima del cual el fenómeno tampoco puede ser ya perci­
bido por el hombre.
Umbral diferencial: se define como la cantidad mínima de variación de estí­
mulo que puede ser percibida por el sistema perceptivo. Cuando esta cantidad de
variación física es inferior a la del umbral diferencial, el ser humano deja de notar
cambios en el fenómeno y lo percibe como constante, a pesar de que se haya pro­
ducido una variación física objetiva.
4.2.2. Umbrales de intensidad
El umbral mínimo de intensidad se define como de 0 dB a 1.000 Hz. Es de­
cir, una frecuencia pura de 1.000 Hz con una presión sonora que esté por deba­
jo de los 0 dB ya no es audible por el ser humano. No obstante, el umbral míni­
mo de la sensación de intensidad tiene una fuerte variabilidad en función de la
frecuencia. Por ejemplo a 2.500 Hz podemos percibir hasta -16 dB, y a frecuen­
cias bajas (50 Hz por ejemplo) son necesarios hasta 50 dB para llegar a escuchar
el sonido. El lector puede observar todo esto gráficamente en el diagrama de
Fletcher (fig. 24).
Es interesante señalar que el silencio absoluto no existe. Cuando se produce la
ausencia total de sonidos exteriores se oyen los ruidos del propio cuerpo. Quien
escribe estas líneas ha podido experimentar, dentro de la cámara anecoica1 del
Instituto de Acústica del C.S.I.C. en Madrid, cómo los ruidos de su propia respira­
ción y de los pequeños movimientos internos de su cuerpo adquirían, en una si­
tuación de ausencia total de sonido externo, un protagonismo inesperado y sor­
prendente.
El umbral máximo en audición se denomina umbral de dolor. Esta forma de
nombrarlo se debe a que a partir de él la sensación perceptiva es dolorosa. El
umbral de dolor auditivo es bastante regular, es decir, varía poco con la fre­
cuencia. Está situado en torno a los 130 dB (véase también fig. 24). A partir de
este nivel de energía sonora el oído humano pasa de percibir sensación sonora
1. Se denomina cámara anecoica a un espacio que cumple las condiciones de no dejar pasar ab­
solutamente ningún sonido del exterior, y dentro de la cual no se produce ningún tipo de reflexiones
sonoras. Es una sala situada en el interior de un gran cubo de hormigón. El cubo está separado del sue­
lo por un sistema de soportes capaces de evitar la transmisión de vibraciones, y envuelto en una malla
conductora (jaula de Faraday) que evita toda influencia radioeléctrica en su interior. El suelo, el techo y
las cuatro paredes interiores están totalmente recubiertos por aislante acústico y sobre esta capa aislan­
te se instalan grandes cuñas de material absorbente. El acceso al interior de la sala se realiza sobre una
malla metálica que flota entre el suelo y el techo.
114
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
115
a percibir sensación de dolor y corre el riesgo de sufrir daños fisiológicos im­
portantes.
El umbral diferencial auditivo vuelve a ser, también, muy variable en fun­
ción de la frecuencia. El umbral diferencial medio es de +3 dB y oscila entre 2 y
10 dB en función del tono. Esto significa que para que el oído humano pueda
percibir que se ha producido una variación de intensidad sonora es necesaria
una variación mínima de la presión sonora de unos 3 dB; por debajo de esta
cantidad de variación, el cambio no será percibido y la sensación será de inten­
sidad constante. El umbral aumenta en las frecuencias bajas (es necesaria una
mayor cantidad de variación) y disminuye a medida que la frecuencia escucha­
da es más alta.
4.2.3. La sensación de intensidad en los sonidos compuestos
Todo lo que hemos revisado hasta ahora sobre la intensidad en decibelios ha­
cía referencia a una frecuencia pura de 1.000 Hz, pero hemos visto, también, que
lo habitual era escuchar sonidos compuestos y, por tanto, constituidos por mu­
chas frecuencias. Esto supone que la sensación real de intensidad está directa­
mente relacionada con la suma de todas las frecuencias que componen globalmen­
te el espectro de un sonido.
No obstante, acabamos de decir que tanto el umbral mínimo como el umbral
diferencial de la intensidad son variables en función de la frecuencia sonora; ló­
gicamente, esto significa que la sensación de intensidad que percibe el oído hu­
mano al escuchar un sonido compuesto no responde exactamente a la suma de in­
tensidades de todos los componentes frecuenciales del sonido, sino a una suma
ponderada en función de la sensibilidad que el ser humano tiene de cada fre­
cuencia. Técnicamente, este problema se ha resuelto estableciendo curvas nor­
malizadas para ponderar la sensación de intensidad correspondiente a cada zona
del espectro. En la figura 25 podemos ver tres curvas clásicas utilizadas para pon­
derar la intensidad de los distintos componentes de frecuencia antes de sumarlos
para obtener un lectura única global.
Según se haga la ponderación para obtener la intensidad global aplicando
la curva A, la B o la C se obtendrá un valor en dB distinto, es por eso que en el
ámbito técnico se habla de decibelios A (dBA), decibelios B (dBB), o decibe­
lios C (dBC), según el calculo de la potencia sonora se haya realizado con una
u otra curva. Cuando las medidas en decibelios no están ponderadas, es decir,
cuando hacen referencia directamente a la sensibilidad del oído humano a
1.000 Hz se habla de decibelios NPS2 (dB NPS) significando NPS: Nivel de Pre­
sión Sonora.
De las curvas presentadas en el gráfico de la figura 25 nos interesa fundamen­
talmente la A en tanto que es la que se aproxima con más eficacia a la percepción
2. En textos técnicos se utiliza también con mucha frecuencia la notación inglesa «Sound Pressure
Level» que en siglas es S.P.L., es decir: dB SPL.
10
100
1.000
10.000
Frecuencia (Hz)
25. Diagrama de curvas de ponderación. Destinado a calcular la intensi­
dad global en dB de los sonidos complejos.
Figura
humana de la sonoridad. La escala de ponderación para calcular la sonoridad que
define la curva A es la más utilizada de las tres con las que pueden trabajar nor­
malmente los sonómetros.3
Pero veamos con más detalle cómo funciona este gráfico. Éste es ya un instru­
mento adaptado a la percepción humana en tanto que sus dos escalas son logarít­
micas. El eje vertical indica la cifra en decibelios que es necesario restar a la me­
dida física de presión tomada por el sonómetro, para que el resultado final se
adapte a la percepción psicológica de intensidad (los dB son ya unidades logarít­
micas). El eje horizontal indica la frecuencia en hertzios de los componentes es­
pectrales del sonido compuesto. Como habrá observado el lector, el eje horizon­
tal está graduado logarítmicamente para ajustar visualmente el papel de cada
frecuencia a su protagonismo real en la percepción humana.
El modo de utilizar el diagrama es situando, una a una, en el gráfico, las res­
pectivas medidas directas de intensidad en dB que toma un sonómetro sobre el
sonido que estamos estudiando. Para situar cada medida en el gráfico y ponde­
rarla necesitamos saber la frecuencia correspondiente a la que ha sido tomada.
Supongamos, por ejemplo, que el sonómetro ha tomado una medida directa de
intensidad de 80 dB en la banda de 90 Hz; nos hemos de situar, entonces, en el eje
horizontal sobre la frecuencia correspondiente (90 Hz) y ascender verticalmente
desde este punto hasta encontrarnos con la curva A, y una vez aquí, la proyección
de este punto sobre el eje de ordenadas (vertical) nos dará la cifra en dB con la
3. Se denomina sonómetro al instrumento que mide la presión ejercida por las ondas sonoras. El so­
nómetro selecciona sistemáticamente las distintas bandas de frecuencia del espectro sonoro, mide la
presión que ejerce cada una de ellas y, antes de sumarlas, las modifica en función de una escala prede­
finida, dando finalmente una medida resultante ponderada de intensidad global en decibelios.
116
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
que hemos de ponderar la medida directa. En este caso concreto la ponderación
es de -20 dB. Es decir, la medida ya ponderada será de:
80 dB - 20 dB = 60 dB
Esta operación se realizará con cada una de las medidas directas, situándola en
la banda correspondiente de frecuencia a la que ha sido tomada. Una vez ponde­
radas todas las medidas directas estaremos ya en condiciones de sumarlas y obte­
ner la intensidad global, en este caso en dBA.
Es necesario, pues, realizar una serie de operaciones bastante complejas para
llegar a obtener medidas de intensidad que se aproximen a la percepción huma­
na de los sonidos compuestos. Todo este proceso de cálculo y ponderación que
hemos descrito en los apartados 3-4.2 y 4.2.3 es el que se desarrolla normalmen­
te de forma automática para obtener las medidas en decibelios que suelen ma­
nejarse en el ámbito audiovisual. Las cifras en dB que se usan normalmente son
medidas ponderadas tomadas sobre sonidos compuestos; es decir suelen ser
dBA.
Una tabla orientativa sobre la medida en decibelios A de algunos de los am­
bientes sonoros en los que cotidianamente estamos inmersos podría ser la si­
guiente:
Descripción de la fuente
Umbral de audición
Estudio de radio vacío
Aula vacía
Ruido de fondo de una casa silenciosa
Conversación normal
Automóvil a 80 km/h
Radio o TV en una habitación
Coches en el tráfico urbano
Camiones en el tráfico urbano
Martillo neumático
Avión a reacción
Nivel (dBA)
0-5
20-25
25-30
30-42
40-55
45-50
50-60
65-85
70-90
90 - 105
105 - 130
Estas intensidades se toman como referencia escuchando la emisión de la
fuente sonora a 1 metro de distancia.
4.2.4. Influencia de la distancia en la sensación de intensidad
La distancia entre la fuente sonora y el receptor influye también en la sensa­
ción de intensidad disminuyéndola de una forma regular. Igual que en todo fenó­
meno físico, existe un consumo de energía en el esfuerzo de propagación del so­
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
117
nido. Este consumo atenúa progresivamente el fenómeno vibratorio hasta llegar a
eliminarlo. Concretamente: cuando un sonido se propaga a través del aire, cada
vez que se dobla la distancia entre la fuente sonora y el receptor la intensidad dis­
minuye en 6 dB. Y viceversa, cada vez que la distancia se reduce a la mitad la dis­
tancia aumenta en 6 dB.
Veamos esto en un ejemplo. Si escuchamos un sonido de 90 dB oído desde
3 metros de distancia, cada vez que doblemos la distancia entre nuestro oído y la
fuente sonora alejándonos desde 3 hasta 6 metros, luego de 6 metros hasta 12 y
así sucesivamente, observaremos que la intensidad disminuye 6 dB cada vez. Es
decir:
Distancia
3m
6m
12 m
24 m
48 m
124 m
Intensidad
90dB
84dB
78dB
72dB
66dB
60dB
Naturalmente el fenómeno de atenuación debida a la distancia recorrida por el
sonido es independiente de la potencia con la que está emitiendo la fuente sono­
ra, que en este caso concreto sería constante.
El fenómeno de la atenuación de la intensidad sonora en función de la distan­
cia resulta especialmente interesante para el lenguaje audiovisual. Todo aleja­
miento entre fuente sonora y oyente se percibe mediante la sensación de atenua­
ción de la intensidad sonora que percibe el receptor. Y a cada distancia entre una
fuente sonora concreta y el oyente corresponde una intensidad determinada. Ade­
más, todo oyente, esté o no habituado a la comunicación audiovisual, tiene una
larga experiencia vital en percibir cómo la distancia entre él y los objetos que sue­
nan influye disminuyendo la sensación de fuerza del sonido.
Así, el alejamiento entre el micrófono que capta un sonido determinado y la
fuente sonora que lo emite, se refleja de forma física siguiendo esta regla de los
6 dB; con lo que basta acortar o alargar la distancia entre micro y fuente sonora
para controlar la sensación de distancia que va a percibir cualquier oyente cuan­
do oiga su reproducción.
4.2.5. Influencia de la intensidad en la sensación de distancia
Éste que acabamos de explicar es, sin duda, el nivel más elemental de uso de
la «regla de los 6 dB». Pero resulta bastante más interesante la posibilidad de re­
construir sensaciones de acercamientos, alejamientos y distancias concretas (pró­
ximas o lejanas) sin que éstas existan en realidad. El universo de la producción de
efectos sonoros es depositario de una larga y vieja tradición en manipular la sen-
118
119
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
sación de distancia entre los entes acústicos (véase apartado 2.3.4) y el oyente,
que tiene su origen en el radiodrama. La posibilidad de manipular artificialmente
la intensidad de cualquiera de las señales sonoras que se están manipulando en el
estudio de audio, simplemente moviendo un potenciómetro, posibilita el control
del número exacto de dB con el que va a emitir una fuente sonora una vez graba­
da; y, en consecuencia, también el control de la sensación de distancia entre fuen­
te sonora y receptor, a pesar de que ésta permanezca quieta y muy cercana al mi­
crófono.
Vayamos, como siempre, a algún ejemplo concreto. Imagine el lector el locu­
torio de un estudio de audio en el que hay tres personas conversando que llama­
remos: L.l, L.2 y L.3, sentados alrededor de una mesa triangular, cada uno en un
lado de la mesa y situado a 20 cm de distancia de un micrófono. Los tres micros
son fuertemente direccionales con objeto de que cada uno de ellos capte exclusi­
vamente la voz del locutor que está sentado frente a él. Finalmente, la señal de ca­
da micro llega a la mesa de control de audio del estudio por un canal distinto, lo
que posibilita la manipulación independiente del sonido de cada uno de los locu­
tores. Este tipo de configuración técnica abre un interesante abanico de posibles
aplicaciones del tratamiento artificial de la intensidad.
Podemos, por ejemplo, equilibrar las tres intensidades de forma que sean
idénticas a 55 dB, con lo cual la sensación de distancia que tendríamos al escuchar
el sonido tratado electrónicamente sería la de estar escuchando a los tres locuto­
res desde muy cerca, a la misma distancia los tres, aproximadamente a un metro
de ellos. Algo así como si el oyente estuviese en el centro de la mesa. Otra posibi­
lidad es atenuar artificialmente las tres señales, de nuevo de forma equilibrada,
por ejemplo, bajando su nivel de intensidad hasta 37 dB. Ahora la sensación al es­
cuchar el sonido tratado será la de escuchar a tres personas que hablan lejos de
nosotros a unos 8 metros de distancia. Este efecto perceptivo se producirá sin que
ellos se hayan movido físicamente ni un solo centímetro de su posición original.
Podríamos también combinar ambos tratamientos manipulando la señal del locu­
tor L.l de modo que sonase a 55 dB, mientras que las de los locutores L.2 y L.3
fueran atenuadas hasta bajar a 37 dB. Escuchar el sonido resultante de esta última
manipulación generará en el oyente la percepción de que el locutor L.l está muy
cerca (1 m), mientras que L.2 y L.3 se han alejado mucho y hablan ambos desde la
misma distancia (8 m).
Si realizamos tratamientos progresivos de la intensidad conseguiremos sensa­
ción de movimiento. Partamos del primer ejemplo: las tres señales a 55 dB; si des­
de esta situación realizamos una atenuación progresiva de la señal del L.3 bajan­
do su intensidad lentamente hasta llevarla a 0 dB, la sensación que se generará
será la de que el locutor L.3 se va alejando de nosotros y de los otros dos locuto­
res, que permanecen cerca y quietos, hasta perderse en la lejanía.
Todas estas sensaciones se habrán producido sin que exista ningún movi­
miento real de las fuentes sonoras. Los locutores permanecieron quietos todo el
tiempo, sólo fue alterada electrónicamente la información acústica que el ser hu­
mano utiliza para interpretar la distancia a la que se encuentra de él cualquier
fuente sonora real. Se ha manipulado la esencia perceptiva sonora creando en la
mente del oyente interpretaciones de fenómenos que no existían en la realidad re­
ferencia!. Hemos creado, en definitiva, entes acústicos y los hemos tratado para
que actúen sobre la percepción sonora humana como lo habrían hecho las fuen­
tes sonoras reales (en este caso los tres locutores sentados), si realmente se hu­
biesen movido alejándose y acercándose de los micrófonos.
Concluiremos este apartado extrayendo algunas conclusiones que pueden re­
sultar muy útiles para la narración sonora.
Si en el apartado 4.2.2 decíamos que el umbral diferencial medio de intensi­
dad está en torno a los 3 dB, es decir, que por debajo de esta cantidad de variación
de intensidad el cambio no es perceptible; y la regla de los 6 dB nos dice que ca­
da vez que se dobla, o reduce a la mitad, la distancia entre fuente sonora y recep­
tor se produce una variación de la sensación de intensidad de 6 decibelios. Una
solución simple y lógica para garantizar que cualquier receptor, incluso los «duros
de oído», perciben las variaciones artificiales de la intensidad es trabajar siempre a
partir de la regla de los 6 dB. De este modo, dispondremos de una referencia em­
pírica perfectamente definida y nos moveremos con unos amplios márgenes de
seguridad que garantizarán la percepción y la comprensión de todas las manipu­
laciones de la intensidad.
En suma, de toda esta reflexión podemos deducir el siguiente principio expre­
sivo: cuando un realizador intenta que los oyentes que contemplan su narración
audiovisual perciban y comprendan sólo a través de la intensidad sonora las dis­
tancias y los movimientos de sus entes acústicos, es conveniente que los sonidos
que constituyen esos entes sean manipulados de modo que sus alteraciones de in­
tensidad se organicen en variaciones de 6 en 6 decibelios.
Intentaremos explicar la funcionalidad de esto con algunos ejemplos:
Un realizador intenta que los oyentes que contemplan su película perciban y
comprendan solamente a través de la banda sonora que Jack el Destripador se ha
alejado momentáneamente de su nueva victima,4 y manipula los sonidos que
constituyen el ente acústico «Jack el Destripador» (por ejemplo: ruido de pasos y
respiración agitada) de modo que sus alteraciones de intensidad se organizan en
variaciones de 6 en 6 decibelios. La aplicación de esta norma supone tres claras
ventajas: 1) garantiza que toda variación de la intensidad va a ser perceptible por
cualquier receptor, porque está muy por encima del umbral diferencial; 2) duran­
te la realización, mientras se producen y se graban los sonidos, da una referencia
muy clara de cómo han de moverse las fuentes sonoras frente a los micrófonos,
puesto que sabemos que duplicando o reduciendo a la mitad la distancia entre
fuente y micrófono el resultado acústico es de 6 dB más o 6 dB menos; y, final­
mente, 3) permite prever y controlar técnicamente, desde la manipulación artifi­
cial de la intensidad, la posición a la que vamos a colocar al asesino respecto al
oyente.
Veamos con algo más de detalle esta última ventaja. Teníamos al ente acústico
«Jack el Destripador» respirando, por ejemplo, a una intensidad de 25 dB, es decir,
4. Estamos imaginando una situación narrativa en la que el asesino está siempre oculto, y el espec­
tador sólo lo identifica por el ruido de sus pasos y una característica forma de respirar.
120
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
aproximadamente a un metro del oyente y, por tanto, muy cerca de la víctima. Es
decir, haciendo sentir al espectador que va a producirse un apuñalamiento en
cualquier instante. Y, ahora, deseamos alejarlo acústicamente lo suficiente para
que el espectador sienta que ha desaparecido el riesgo inminente y que baja algo
la tensión dramática. Queremos alejar al «Destripador» a una distancia, por ejem­
plo, de 8 metros, desde la cual es ya muy improbable que apuñale a la víctima, pa­
ra ello bastará con reducir la intensidad del sonido de «Jack» en 18 dB. El cálculo
necesario es simple. Si tenemos al asesino a 1 metro y queremos alejarlo a 8 me­
tros hemos de duplicar 3 veces la distancia:
1 x 23 = 8
Traduciendo esto en potencias sonoras y aplicando la regla de los 6 dB, hemos
de minorar la intensidad 3 veces 6 dB, es decir, reducir los 25 dB con los que está
sonando «el Destripador» a sólo 7 (25 dB - 18 dB = 7 dB). De esta manera, a partir
de un efecto pregrabado de pasos y respiración agitada, el realizador puede con­
seguir cómodamente un control virtual de los movimientos del ente acústico «Jack
el Destripador» considerablemente exhaustivo y preciso.
Naturalmente, hemos de aclarar aquí que nos estamos refiriendo, todavía, úni­
ca y exclusivamente a sensaciones virtuales de alejamiento y acercamiento. Mas
adelante revisaremos la construcción global del espacio acústico e introduciremos
otras dimensiones del movimiento y la espacialidad sonora. Recuerde el lector
que ésta es solamente una ilustración sobre la influencia de la intensidad en la
sensación de distancia.
4.2.6. Umbrales de tono
Umbral mínimo-. El oído humano comienza a percibir los fenómenos vibrato­
rios cuando éstos se producen con un mínimo de 16 oscilaciones por segundo.
Cualquier vibración de frecuencia menor no es percibida por el hombre. Se habla
entonces de «infrasonidos». Una vibración de 16 cps será el tono más grave o bajo
que puede percibir nuestro sistema auditivo. Este tono se corresponde con el que
genera el do inicial del órgano.
Umbral máximo-. La frecuencia máxima que es capaz de percibir el oído hu­
mano está en torno a los 20.000 cps a partir de aquí los sonidos son inaudibles y
se habla de «ultrasonidos». El tono más alto o agudo que puede escuchar el hom­
bre es, pues, el que genera una frecuencia de 20.000 Hz. Los instrumentos musi­
cales clásicos no alcanzan esta frecuencia. El re de pícolo, por ejemplo, alcanza
4.700 cps, la gama de frecuencias del piano va de 27 a 3-500 cps y la frecuencia
fundamental de la voz de 65 a 1.036 cps.
Umbral diferencial-. El umbral diferencial de tono definido a 1.000 Hz es de
2 cps. Este umbral cambia haciéndose más grueso a medida que aumenta la fre­
cuencia. Tal como hemos visto ya en otros fenómenos perceptivos de la audición,
mientras la frecuencia de un sonido aumenta exponencialmente, la sensibilidad al
121
cambio de tono varía aproximadamente de forma lineal. Escuchando un sonido
de 500 Hz podemos percibir sensación de cambio de tono cuando la frecuencia
aumenta entre 0,5 cps y 1 cps. Es decir, cuando la frecuencia pasa de 500 a 501 Hz
percibimos auditivamente que el tono ha subido. A medida que el estímulo au­
menta, la sensibilidad auditiva al cambio va disminuyendo. Escuchando un soni­
do de 1.000 Hz el umbral diferencial del tono es de 2 cps. O sea, nuestro oído per­
cibe que el tono ha subido cuando el sonido pasa de 1.000 a 1.002 Hz, pero ya no
siente ninguna sensación de variación si el cambio es solo de 1 cps. Para un soni­
do puro de 2.000 Hz el umbral diferencial es de unos 4 cps y para uno de 8.000 Hz
el umbral diferencial es de unos 100 cps.
Podemos deducir, en consecuencia, que la capacidad de resolución tonal del
oído humano es mucho más fina de lo que define la escala tonal heptatónica5 oc­
cidental. Nuestra escala divide cada octava en 7 tonos o notas y 12 semitonos. El
oído, en cambio, es capaz de diferenciar unos 300 sonidos en una octava situada
sobre los 500 Hz.
4.2.7. Sensibilidad absoluta y sensibilidad relativa respecto al
tono
En general, la capacidad perceptiva responde mucho mejor a las relaciones
entre unos sonidos y otros que a su valor absoluto. La percepción tonal está espe­
cialmente influenciada por este fenómeno. En este sentido, es revelador que los
músicos profesionales, a pesar de su altísima especialización auditiva, sólo sean
capaces de identificar con precisión la frecuencia de una nota aislada cuando és­
ta está tocada con su instrumento habitual, pero en el momento en que la nota es­
tá construida con cualquier otra fuente sonora, por ejemplo, con un generador di­
gital de sonidos puros, no son capaces de identificar con precisión su altura tonal.
Paradójicamente, cualquier individuo no especializado es perfectamente capaz de
reconocer una melodía familiar para él a pesar de que ésta sea tocada a distinta al­
tura tonal o con diferentes instrumentos. Reconocemos, por ejemplo, Noche de
paz independientemente de que ésta sea construida con todas sus notas situadas
una octava más arriba o una octava más abajo; e independientemente, también,
de que sea tocada con sonido de piano o con un nuevo sonido electrónico recién
sintetizado.
Esto se debe a que nuestra sensibilidad auditiva es mucho más alta para las re­
laciones entre estímulos que para los estímulos aislados. Reconocer Noche de paz,
que el lector habrá escuchado cantada y tocada de mil modos distintos, supone
identificar una determinada estructura relacional entre una secuencia de sonidos
ordenados en el tiempo. Y esa relación es independiente de su situación dentro
de nuestro mapa auditivo. Es lo mismo que sea tarareada por voces infantiles, can­
tada en inglés por un tenor, en ruso por un bajo, tocada en un órgano, o por una
flauta dulce.
5. De siete tonos.
123
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
Es algo así como reconocer el esquema visual de una cara formada por unas
pocas líneas que dibujan un círculo con dos puntos representando los ojos, una
pequeña raya vertical en el centro para hacer la nariz y una línea horizontal en la
parte inferior para mostrar la boca. Da igual el color de las líneas, su grosor, tam­
poco importa el color del fondo ni el lugar en el que esté situado el dibujo, segui­
remos reconociendo la cara. Lo importante en este reconocimiento es la relación
entre los propios elementos que configuran la forma reconocible.
Este tipo de reconocimiento sonoro de formas relaciónales es muy claro en el
habla. El efecto de interrogación, por ejemplo, se construye mediante el ascenso
tonal de la última sílaba de la frase. Y éste es un efecto reconocible con absoluta in­
dependencia de la extensión tonal que tiene la voz que hace la pregunta. Sentimos
el efecto interrogación tanto en la voz aguda de un niño como en la voz grave y os­
cura de cualquier hombre maduro. En suma: toda estructuración tonal responde a
una organización global de relaciones de frecuencia y no a las frecuencias en sí
mismas como valor absoluto.
Respecto al tono: cuando un suceso sonoro dura menos de 0,1 segundos se
pierde la sensación tonal y el sonido se percibe solamente como un «clic». Dicho
de otro modo, los sucesos sonoros han de superar los 0,1 segundos de duración
para que su tono sea perceptible.
Respecto al timbre: para que sea posible reconocer simultáneamente las ca­
racterísticas de tono y timbre de un sonido es necesario que el suceso sonoro es­
cuchado tenga una duración de más de 1 segundo (véase Guski, 1992, pág. 165).
Umbral diferencial. El ser humano es capaz de percibir variaciones de intensi­
dad de 3 dB (umbral diferencial de intensidad) cada vez más próximas en el tiem­
po unas de otras hasta que el tiempo de una variación a otra se reduce entre 2 y
7 milésimas de segundo. Es decir, podemos llegar a percibir entre 140 y 500 varia­
ciones de intensidad cada segundo. Cuando el tiempo entre un cambio de inten­
sidad y otro es menor de 7 ms la sensación auditiva es ya de sonido continuo, y la
variación no es perceptible (véase Guski, 1992, pág. 167).
Posiblemente, para el lector que todavía esté trabajando en un entorno exclu­
sivamente analógico de tratamiento del sonido, este tipo de referencias micrométricas sobre los umbrales temporales sean poco menos que incomprensibles. Cier­
tamente, con un buen cronómetro en la mano y mucha habilidad, o con los
contadores de vueltas o de tiempo de los magnetófonos, es imposible afinar más
allá de las décimas de segundo. Y aquí estamos hablando de segundos divididos
en mil partes. No obstante, para todos aquellos que hayan tenido alguna vez en
sus manos un equipo para la edición digital de audio, la manipulación de sucesos
sonoros de algunas centésimas o milésimas de segundo resultará ya algo perfecta­
mente natural. Justamente en este terreno y trabajando con este tipo de instru­
mentos es cuando el conocimiento de los umbrales perceptivos adquiere todo su
sentido.
Cuando tenemos en las manos un instrumento que nos permite afinar hasta la
manipulación de las milésimas de segundo, con toda seguridad vamos a trabajar
con esta resolución temporal en nuestros montajes. Pero ¿qué sentido puede te­
ner, por ejemplo, manipular e insertar cuidadosamente fragmentos sonoros de
unas pocas centésimas (o milésimas) de segundo, cuando la percepción sonora
completa no se produce hasta que escuchamos «enormes» sucesos sonoros de más
de 1 segundo? Pienso que es importante recordar aquí, de nuevo, que la codifica­
ción eficaz de los mensajes audiovisuales no debe estar conducida por el dominio
de las posibilidades tecnológicas, sino por el conocimiento de las capacidades
perceptivas. Y la instrumentación digital de tratamiento del audio abre muchas
posibilidades que rebasan la capacidad perceptiva del ser humano. La conse­
cuencia directa de centrar nuestra atención exclusivamente en la tecnología nos
lleva con demasiada frecuencia a desaprovechar equipos excelentes, utilizándo­
los de forma absolutamente absurda e ineficaz; y a no obtener todo el rendimien­
to posible de otros, en virtud de su supuesta obsolescencia tecnológica.
Umbral máximo. No se ha definido un umbral máximo de duración auditiva,
no obstante la atención está estrechamente ligada a la variabilidad temporal. Si un
sonido permanece estacionario el receptor deja de prestarle atención. Y la aten­
ción vuelve a ser de nuevo activa cuando aparecen variaciones en alguna de las
122
4.2.8. Umbrales temporales
Los umbrales temporales de la audición varían tanto en función del tono como
de la intensidad del sonido y esto hace especialmente complicado recoger y pro­
poner ideas claras y útiles sobre ellos. Podemos, no obstante, trabajar con algunas
referencias orientativas.
Umbral mínimo. La duración mínima que ha de tener un sonido aislado para
que pueda ser oído es de 5 ms (milésimas de segundo). Por debajo de esta canti­
dad de tiempo el sonido no se percibe. La sensibilidad es algo más alta en la si­
tuación inversa, o sea, cuando el sonido es constante e introducimos en él un frag­
mento de silencio. En este caso podemos ir reduciendo la duración de la
interrupción hasta que dejamos de percibirla cuando ésta es inferior a 3 ms.
Es importante aclarar que la sensación de presencia sonora es independiente
de las sensaciones de intensidad tono y timbre.
Respecto a la intensidad: se observa que manteniendo constante la presión so­
nora de un tono audible y haciendo escuchar sucesos sonoro^ cortísimos de éste
que se hacen progresivamente más largos, la sensación de intensidad comienza
muy débilmente cuando los sucesos son de 5 ms, y crece desde los 5 ms del um­
bral hasta que los sucesos duran entre 100 o 150 ms, entonces la sensación de in­
tensidad se torna ya estacionaria. Resumiendo: es necesario que un sonido dure
por lo menos 150 milésimas de segundo para que el oído humano perciba su in­
tensidad real. Y a la inversa, cuando el sonido tiene una intensidad muy débil,
concretamente, cuando estamos escuchando un sonido en los umbrales de inten­
sidad, es necesario que el suceso sonoro dure 0,5 segundos para que pueda ser au­
dible (véase Schaeffer, 1988, págs. 115 y 119)6. Véase el apartado 2.3.3.
124
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
dimensiones del sonido, es decir, en el momento en que el sonido deja de ser es­
tacionario. La fuerza de recuperación de la atención es tanto mayor cuanto más rá­
pida es la variación del sonido. Podríamos concluir que la variabilidad es un ins­
trumento esencial del estímulo sonoro para activar el sistema perceptivo.
Intentaremos desarrollar esto con más detalle.
Antropogenéticamente, el fenómeno perceptivo de la alta sensibilidad al cam­
bio puede asociarse a la señal acústica de peligro que constituyen los sonidos ge­
nerados por el acercamiento rápido de un predador. Los humanos primitivos, co­
mo cualquier especie intermedia dentro de la cadena alimentaria, habían de estar
muy atentos a las variaciones del entorno sonoro. Una vez reconocido un espacio
por todos los sentidos como lugar sin peligro, el humano podía proceder a des­
cansar relajando conscientemente sus músculos y sus sentidos. Excepto el de la
audición, que actúa como un sistema de atención pasiva independiente que pone
en marcha de forma automática todo el sistema perceptivo al detectar alguna va­
riación. Cualquier cambio sonoro en el contexto inmediato es indicación de cam­
bio físico en el espacio próximo y, por tanto, posible indicio de la aproximación
de un animal peligroso.
La técnica del cazador es, y ha sido siempre, la de evitar la producción de
cualquier estímulo perceptible que pueda avisar a la presa de su presencia, hasta
el momento en que la proximidad permita sorprenderla con la rapidez suficiente
como para que sea inútil su huida. Lógicamente, cambios sonoros rápidos indican
movimientos rápidos y, por tanto, un posible predador atacando. En consecuen­
cia, la supervivencia de la presa depende de que pueda reaccionar tanto más rá­
pidamente cuanto más rápidas sean las variaciones del estímulo sonoro detecta­
do. Afortunadamente, este mecanismo perceptivo sigue actuando en el ser
humano y permitiéndonos brincar hacia la acera cuando nos sobresalta el claxon
de un automóvil.
Pero vayamos al papel que puede desempeñar este fenómeno en el lenguaje
audiovisual, que es el objeto de nuestra obra.
En la década de los noventa han aparecido una serie de producciones cine­
matográficas que utilizan de manera fundamental la banda sonora para controlar
los estímulos emocionales del espectador. Los nuevos sistemas de sonorización
envolvente de las salas de cine, que emite con 4, o 6 vías perfectamente diferen­
ciadas: 1 tras la pantalla (ubicación de los personajes), 1 para bajas frecuencias,
2 laterales que crean el efecto izquierda/derecha y 1 o 2 que distribuyen el sonido
ambiente de forma envolvente por el resto de la sala, permiten trabajar con mu­
cha más eficacia los efectos sonoros sin que éstos enmascaren las voces. Este nue­
vo sistema de sonorización ha posibilitado el desarrollo de trabajos muy intere­
santes en el uso narrativo del sonido. Concretamente pensamos en películas como
Llamaradas o Stargate que consiguen transmitir al espectador una fuertísima sen­
sación de tensión mantenida, prácticamente, a lo largo de toda la proyección. Esa
tensión depende sobre todo del sonido. En la sala, los espectadores están metidos
en una burbuja sonora con formas acústicas muy bien definidas y de gran poten­
cia, que se construye desde los altavoces envolventes del cine, y esta burbuja so­
nora es constantemente cambiante. Eso obliga al «espectador-presa» a permanecer
125
en atención activa esperando al virtual «depredador» cinematográfico. Por otra
parte, los momentos de la narración que contienen situaciones de peligro están
subrayados con una gran estruendo sonoro de espectro dinámico,7 que comunica
una fuerte sensación mantenida de peligro. Por si esto fuera poco, los cambios de
espacio de los personajes son tratados también como cambios del punto de audi­
ción del espectador. El espectador oye en cada momento desde el lugar en el que
están los personajes. Con lo cual el estruendo acústico del peligro cambia global­
mente de forma (se escucha desde dentro, luego desde fuera, después se acerca,
vuelve a alejarse, etc.) definiendo sucesos sonoros distintos con una frecuencia
que oscila entre varias decenas de segundos y algunos minutos.
El resultado global es la configuración de un estilo en la manipulación del so­
nido que somete al espectador a larguísimos períodos de tensión, manteniéndolo
en atención constante gracias a la sucesión de cambios sonoros que evitan la re­
lajación perceptiva. Cuando el sonido está en cambio permanente, la atención
permanece activa con total independencia de la voluntad racional del receptor.
Probablemente el lector habrá notado ya en su propia carne, en más de una oca­
sión, el efecto agotador de este tipo de recursos expresivos que trabajan con los
umbrales temporales de atención.
4.3 » La percepción de la complejidad sonora interna
Hasta ahora, hemos revisado en este capítulo los conocimientos disponibles
sobre la percepción de la intensidad, el tono y la duración de los sonidos, unos
en función de otros, pero siempre como dimensiones aisladas. En este apartado
nos dedicaremos ya a estudiar los conocimientos que proporciona la psicoacústica sobre la percepción del sonido, entendiéndolo como un fenómeno global y
complejo, en el que interactúan simultáneamente muchas frecuencias diferentes a
intensidades diversas. Resumiendo: de acuerdo con lo que definíamos en el apar­
tado 3.3.3, vamos a enfrentarnos a la sistematización de la sensación tímbricay a
lo que sabemos sobre sus umbrales.
Probablemente, la aproximación psicoacústica más completa que se ha desa­
rrollado hasta ahora sobre como actúa la percepción humana frente a los sonidos
compuestos complejos es la de E. Zwicker. Este investigador propone lo que él
mismo denomina diagramas de sonía (Zwicker y Feldtkeller, 1981, págs. 182196). Utilizando estos diagramas es posible traducir los datos sobre intensidad y
frecuencia tomados por equipos convencionales de análisis de audio8 en espec­
tros que se ajustan de forma muy aproximada al modo en que el oído humano
percibe la complejidad sonora. En el diagrama que Zwicker propone para el
7. Al hablar de espectro dinámico nos referimos a que la composición interna del sonido está su­
friendo cambios importantes a medida que pasa el tiempo. Por ejemplo, una variación alternativa de
10 dB en la intensidad del 2Q y el 4Q formantes del espectro global del ruido cada 2 segundos.
8. Nos estamos refiriendo aquí tanto a analizadores de espectro por FFT, como a analizadores de es­
pectro en fragmentos de octava.
126
127
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
cálculo de la sonía se relacionan simultáneamente la presión física en dB, la sen­
sación subjetiva de intensidad en sones y fones, la sensación de intensidad en fun­
ción del ancho de banda del sonido, el enmascaramiento de unos sonidos por
otros en función de su intensidad y su frecuencia y, finalmente, la relación entre
las distintas sensaciones subjetivas de intensidad que determina cada frecuencia
fragmentando la zona de audición en tercios de octava.
Pero antes de explicar con detalle este diagrama para el cálculo de la sonía re­
visaremos dos fenómenos auditivos sobre los que se apoya, que no hemos estu­
diado todavía: la percepción en bandas críticas y el enmascaramiento.
a los 1.000 Hz se observa que la amplitud de banda (o umbral diferencial) nece­
saria para que una acumulación de componentes sonoros sea percibida como
aumento de intensidad es de 160 Hz.
Una forma mucho más cómoda de nombrar este fenómeno es diciendo que
existe una anchura de banda crítica por debajo de la cual la sensación de in­
tensidad permanece constante. La experimentación a lo largo de toda la super­
ficie audible refleja que diferentes frecuencias centrales tienen bandas críticas
distintas.
Fletcher detectó ya en 1940 que la percepción de los sonidos compuestos se
organizaba en bandas críticas (Fletcher, 1961). Actualmente, se asume que la des­
composición del espectro de frecuencia en bandas críticas es una de las caracte­
rísticas perceptivas fundamentales del oído. Parece ser que el oído percibe siem­
pre ordenando el sonido en bandas críticas, con independencia del punto de la
escala de frecuencias en el que se sitúa el sonido. Zwicker, tras una laboriosa ex­
perimentación sobre toda la superficie auditiva, propuso una división de la zona
de frecuencias que va de los 20 Hz a los 16 kHz en 24 bandas críticas (Zwicker y
Feldtkeller, 1981, pág. 72). Luego, al observarse que la anchura de las bandas crí­
ticas es relativamente próxima a los anchos de banda de 1/3 de octava, y que la
variabilidad entre sujetos para percibir las bandas críticas pueden oscilar en torno
al 20 %, o incluso más, la división del espectro propuesta en principio ha sido mo­
dificada de manera que se ajusta a los filtros convencionales normalizados de 1/3,
2/3 o 3/3 de octava. Esta división del espectro en bandas 1/3 de octava es la que
se implementa en los diagramas propuestos por Zwicker para el cálculo de sonía,
que estudiaremos un poco más adelante.
4.3.1. La percepción en bandas críticas
En el apartado 4.2.3 de este mismo capítulo estudiábamos que la sensación
global de intensidad está relacionada con el ancho de banda del sonido. Vimos
que la sensación de intensidad subjetiva aumenta a medida que acumulamos fre­
cuencias que suenan simultáneamente al sumarse auditivamente sus energías, y
que el cálculo de esta sensación global de intensidad se hacía de acuerdo con
unas curvas de ponderación. Este fenómeno tiene también unos umbrales a los
que se denomina bandas críticas.
Pero estudiemos todo esto desde el principio. Se observa que la sensación de
intensidad subjetiva siempre es mayor cuando escuchamos un sonido de cierta
anchura de banda, centrado por ejemplo a 100 Hz, que cuando escuchamos un
sonido puro de 100 Hz, a pesar de que ambos tengan exactamente la misma pre­
sión sonora. Pero esta sensación de que la intensidad aumenta a medida que au­
menta el ancho de banda no es homogénea. En realidad, el aumento de la sensa­
ción subjetiva de intensidad no se produce hasta que la acumulación de
componentes de frecuencia rebasa cierta amplitud de banda.
Pasemos a un ejemplo. Si tomamos un sonido puro de 1.000 Hz con una in­
tensidad de 60 dB y, mientras lo escuchamos, vamos añadiendo progresivamente
otros componentes de frecuencia de la misma intensidad, es decir:
sonido central:
+
+
+
+
+
1.000 Hz (60 dB)
980 Hz (60 dB)
990 Hz (60 dB)
1.010 Hz (60 dB)
1.020 Hz (60 dB)
etc.,
Se comprueba experimentalmente que hasta que los componentes de fre­
cuencia acumulados no forman un sonido con un ancho de banda de 160 Hz la
sensación subjetiva de intensidad permanece constante. A partir de esta amplitud
de banda cada nuevo componente de frecuencia que se añade supone ya un au­
mento progresivo y homogéneo de la sensación de intensidad. Así pues, en torno
4.3.2. El enmascaramiento
El enmascaramiento es un fenómeno auditivo mucho más familiar y evidente
que el de las bandas críticas. Se denomina enmascaramientos la pérdida de sen­
sación de presencia auditiva de un sonido determinado cuando aparece otro si­
milar más fuerte que el primero. Dicho de otro modo: cuando un tono de intensi­
dad fuerte esconde a otros de intensidad igual o menor que están a su alrededor,
se dice que los está enmascarando. Se observa fácilmente que cuanto más cerca­
nos son los tonos de dos sonidos y más alta es la intensidad de uno de ellos, ma­
yor es el enmascaramiento. Una experiencia muy habitual es, por ejemplo, la de
estar hablando en un ambiente relativamente silencioso y, de repente, el terrible
zumbido que proviene de una obra cercana hace que dejemos de entendernos.
Cuando el zumbido es muy intenso parece, incluso, absorber como por arte de
magia el sonido de nuestras voces, haciéndolas completamente inaudibles. En la
primera situación se está produciendo el enmascaramiento de una parte de las fre­
cuencias de nuestra voz, en la segunda, el espectro sonoro del zumbido es tan am­
plio y potente que enmascara las voces por completo.
La explicación del enmascaramiento, tal como ocurre con la de las bandas crí­
ticas, no es física sino fisiológica. Las investigaciones sobre el funcionamiento de
128
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
129
la membrana basilar del oído humano muestran que un sonido simple no excita
sólo a un nervio concreto correspondiente al tono con el que se experimenta, si­
no que, además, excita todo un conjunto de nervios correspondientes a una gama
de frecuencias que están alrededor del tono simple en cuestión, actuando éste, en
realidad, como la frecuencia central de una banda más o menos ancha (véase Landercy, 1973)- Es decir, la membrana basilar reacciona igual frente a un tono puro
que frente a un sonido compuesto por ese mismo tono y las frecuencias más pró­
ximas a él. Este funcionamiento del oído parece explicar tanto el fenómeno tonal
del enmascaramiento como el fenómeno de las bandas críticas.
Lógicamente, si se tiene en cuenta el fenómeno que acabamos de explicar, la
representación gráfica de un sonido puro desde el punto de vista perceptivo no
debe estar definido por una raya, sino por una superficie que tenga en cuenta la
influencia de cada tono sobre la percepción de las frecuencias vecinas. Se habla,
entonces, de curvas de densidad específica del sonido. Estas curvas fueron esta­
blecidas por Fletcher realizando numerosos experimentos sobre enmascaramien­
to (Fletcher, 1961), y han sido normalizadas y sistematizadas por Zwicker para ca­
da una de las bandas de frecuencia (Zwicker, I960).
4.3.3. Los diagramas de Zwicker
Hecha ya la revisión que proponíamos sobre la percepción en bandas críticas
y sobre el enmascaramiento, pasaremos a desarrollar la explicación detallada de
los diagramas para el cálculo de la sonía.
Más arriba, decíamos que Zwicker, partiendo de los conocimientos existentes
sobre la organización perceptiva del sonido, ha desarrollado una experimentación
sistemática sobre percepción psicoacústica en una parte muy amplia del espectro
audible. Este trabajo le ha permitido integrar sobre un mismo diagrama experi­
mental la sensación subjetiva de intensidad en dB, fones y sones, la sensación de
intensidad en función del ancho de banda, el enmascaramiento y, finalmente, la
relación entre las distintas sensaciones subjetivas de intensidad en función de la
densidad especificó que tiene cada banda de frecuencia, ajustándose mucho al
mecanismo de la audición compleja humana.
Pero veamos todo esto gráficamente en la figura 26. En esta figura se muestran
dos de los diez diagramas preparados por Zwicker para el cálculo de los espectros
de sonía. El diagrama superior es para calcular la sonía en campos sonoros libres,
y el inferior para el cálculo en campos sonoros difusos.
Un campo sonoro libre es aquel que se genera al emitir sonido en un espacio
en el que no existe ningún tipo de posibilidad de reflexión. En él el sonido llega
al punto de medida desde una única dirección. Sería el caso de un lugar total26. Diagramas de Zwickerpara el cálculo de la sonía. En esta ilustración
sólo se muestran dos de los diez diagramas que son necesarios para representar
todo el espectro audible: cinco para la percepción en campo libre y otros cinco
para campo difuso.
Figura
9. El concepto de densidad específica hace referencia a la distinta sensación de intensidad subjeti­
va que producen los sonidos de la misma presión acústica, en función del lugar del espectro audible en
el que estén situados. Dicho de otro modo, a igual presión sonora, se dice que un sonido tiene mayor
densidad específica que otro cuando transmite una sensación de intensidad mayor.
130
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
mente abierto y con el suelo absorbente, por ejemplo, una pradera con la hierba
crecida, una cima recién nevada, o una cámara anecoica. En este tipo de campo
sonoro, la fuente actúa sin que al sonido emitido se le oponga ninguna vibración
que modifique el espectro sonoro original.
Contrariamente, un campo sonoro difuso es el que se produce cuando el so­
nido proviene de todas partes, sin que haya ninguna dirección de propagación del
sonido que predomine con claridad sobre las otras. En un campo sonoro difuso
el sonido llega al punto de medida desde todas las direcciones a la vez. Esto ocu­
rre en las cámaras reverberantes, es decir en las habitaciones cerradas con el sue­
lo y las paredes lisas y duras. En los campos difusos el espectro original que pro­
duce la fuente sonora queda alterado al mezclarse con sus propias reflexiones.
Zwicker ha desarrollado un total de cinco diagramas para cada tipo de campo
con el fin de que el resultado fuese gráficamente manejable. Cada uno de los cin­
co diagramas para campo libre y para campo difuso recoge una parte distinta de
la gama audible de intensidades. Tomando como unidad de intensidad, por ejem­
plo, el dB, y como banda de referencia la de 900 Hz a 1.120 Hz, cada uno de los
cinco diagramas para campo libre y para campo difuso recoge respectivamente la
siguiente franja de intensidades:
1er diagrama:
2a diagrama:
3er diagrama:
4s diagrama:
5a diagrama:
en campo libre
en campo difuso
de 5 a 37 dB
de 10 a 51 dB
de 20 a 70 dB
de 40 a 92 dB
de 60 a 110 dB
de 5 a 34 dB
de 10 a 53 dB
de 20 a 73 dB
de 40 a 89 dB
de 60 a 109 dB
Como el lector puede comprobar, los diagramas que se muestran en la figura
26 son los centrales (20 a 70 dB en campo libre-, y 20 a 73 dB en campo difuso').
Las diferencias entre uno y otro se deben a la influencia del campo acústico con o
sin reflexiones, y pueden observarse si se comparan detenidamente las distribu­
ciones relativas de las líneas.
Desarrollaremos a partir de ahora toda la explicación de los diagramas en sin­
gular puesto que, a pesar de que la distribución de los datos en cada uno de ellos
es distinta, todos actúan exactamente del mismo modo y configuran, en realidad,
un único gráfico representado en varias partes.
En el eje de abscisas (horizontal) del cuadro se representan las frecuencias del
espectro audible organizadas en tercios de octava (aproximadamente en bandas
críticas). En las frecuencias más bajas los tercios de octava están representados
por líneas verticales delgadas y las líneas gruesas muestran saltos de una octava.
A partir de los 280 Hz (numeración horizontal inferior) las líneas gruesas vertica­
les indican ya divisiones de 1/3 de octava. En el cuadro aparecen dos numeracio­
nes horizontales, una en el lado horizontal inferior y otra en el superior. Ambas
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
131
expresan la misma escala de frecuencias, no obstante, las cifras del lado horizon­
tal superior lo que indican son la frecuencia central de cada una de las bandas crí­
ticas. Ambas escalas son complementarias, y permiten situar en el diagrama cual­
quier sonido compuesto por frecuencias comprendidas entre 20 y 14.000 Hz de
una forma muy aproximada desde el punto de vista de la sensación auditiva.
En el interior del cuadro, en el eje de ordenadas (vertical) el lector habrá ob­
servado una serie de escalas distintas que fragmentan cada una de las bandas de
frecuencia en unas 35 divisiones de anchura irregular. Y habrá notado, también,
que la distribución de estas divisiones irregulares es diferente para cada banda de
frecuencia. Esas escalas internas expresan la distinta sensación relativa de intensi­
dad que producen los sonidos que tienen la misma presión sonora pero que están
situados en un lugar distinto dentro del espectro de frecuencias audibles.
Desarrollaremos un ejemplo para explicar esto.
Imaginemos tres sonidos A, B y C: el sonido A tiene su tono central a 8.000 Hz
y una anchura de banda de 1.900 Hz; el B está centrado tonalmente a 10.000 Hz,
tiene un ancho de banda de 2.200 Hz; y, finalmente, el sonido C está situado to­
nalmente a 12.500 Hz y su amplitud de banda es de 2.800 Hz. Ahora, medimos es­
tos sonidos con un sonómetro y los ajustamos de modo que los tres tengan la mis­
ma presión sonora: exactamente 65 dB. Experimentalmente, se comprueba que
estos tres sonidos no producen la misma sensación subjetiva de intensidad, sino
que se perciben de modo que el sonido A resulta el más fuerte, el B se percibe co­
mo más débil que el A y, por fin, el C se oye como comparativamente bastante
menos intenso que los dos anteriores. Y este fenómeno es completamente inde­
pendiente de que la medida física en dB de las tres intensidades sea la misma.
Este tipo de fenómeno perceptivo en el que la frecuencia influye sobre la sen­
sibilidad del oído a la intensidad, queda perfectamente recogido en las escalas in­
ternas verticales del diagrama de Zwicker que estamos revisando.
Veámoslo ahora gráficamente.
Las divisiones de las escalas internas de cada banda crítica están expresadas en
decibelios (dB), cada división marcada por una línea delgada representa 1 dB, de
una línea gruesa a otra hay un salto de 10 dB, y entre una línea gruesa y una dis­
continua el salto es de 5 dB.
Situemos ahora los sonidos A, B y C, de nuestro ejemplo en el diagrama de
Zwicker y observemos el resultado. La forma de hacerlo será simplemente relle­
nando las franjas verticales que representan los distintos tercios de octava del mo­
do más aproximado posible a los anchos de banda mencionados, hasta la altura
que indica su intensidad en dB. Es decir, tal como se representa en la figura 27.
Al dibujar los tres sonidos, podemos observar cómo la altura de cada una de
las representaciones es distinta, a pesar de que la presión sonora de los tres en dB
es exactamente la misma. Éste es el modo en que el diagrama recoge el fenóme­
no de las distintas densidades específicas de cada sonido. O, dicho de otra mane­
ra, la distinta sensación subjetiva de intensidad que producen los sonidos que tie­
nen la misma presión sonora pero que están situados en un lugar distinto dentro
del espectro de frecuencias audibles. Así, utilizando los diagramas de sonía, po­
demos disponer de una «imagen perceptiva» de la presencia que va a tener cual-
132
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
133
Diagrama para el cálculo de la sonía en campo libre
27. Representación sobre el diagrama de Zwicker de la distinta sensación
de intensidad que producirán sendos sonidos A (8.000 Hz), B (10.000 Hz) y C
(12.500 Hz), a pesar de que la presión sonora de los tres sea exactamente la mis­
ma: 65 dB.
28. Representación sobre el diagrama de Zwicker de un enmascaramien­
to acústico. El sonido A (500 Hz; 68 dB) enmascarará completamente al sonido
B (630 Hz; 60 dB), pero no al C (1.000 Hz; 60 dB).
quier sonido en nuestro oído, y prever qué sonidos van a predominar sobre otros
aplicando criterios estrictamente perceptivos.
Pasemos ahora a revisar otra de las posibilidades del diagrama. El lector no­
tará que en el gráfico aparecen una serie de líneas discontinuas de forma curva
que, recorriendo el gráfico de izquierda a derecha, descienden de arriba a aba­
jo cruzando varias bandas críticas. Estas líneas expresan cómo actúa el fenóme­
no del enmascaramiento en función de la intensidad y la frecuencia del sonido
enmascarador y de los sonidos enmascarados. Estas líneas de enmascaramien­
to nos permiten prever si un sonido va a enmascarar a otro, o no. Veamos un
ejemplo.
Nos interesa saber si tres sonidos distintos (A, B y C) que tonalmente están bas­
tante próximos entre sí, serán oídos claramente, o si se van a interferir entre ellos
enmascarándose unos a otros. Los sonidos son los siguientes: A es un sonido com­
puesto, cuyo tono está centrado en 500 Hz, que tiene un ancho de banda de
110 Hz y una intensidad de 68 dB; B y C son dos tonos puros de 60 dB de intensi­
dad que tienen unas frecuencias de 630 Hz y de 1.000 Hz, respectivamente. Ubi­
quemos ahora estos sonidos en el diagrama. El lector puede observar los tres so­
nidos representados en la figura 28.
El sonido enmascarador será siempre el de frecuencia más baja. Para estudiar
el enmascaramiento que producirá el sonido más grave se ha de considerar que
este sonido (en este caso el sonido A) recubre toda la superficie contenida entre
el espacio definido por la banda de frecuencias en cuestión y la línea discontinua
(de enmascaramiento) que parte de esta misma banda de frecuencia. En la figura
28 esta superficie se ha rellenado con un trazado de líneas inclinadas. Toda la su­
perficie acústica que queda recubierta con este trazo es la zona audible que en­
mascara el sonido A. Los otros dos sonidos (B y C), al ser puros, han sido repre­
sentados con un único trazo grueso. En la figura 28 se ve con toda claridad cómo
el sonido B queda totalmente incluido en el área de enmascaramiento mientras el
C está en su mayor parte fuera de ella. Esto significa que el sonido B quedará com­
pletamente enmascarado por el A y, por tanto, que desde el punto de vista per­
ceptivo podemos prescindir de él puesto que será inaudible. No obstante, el soni­
do C sí podrá ser escuchado sin ningún problema.
El sonido B sí que sería audible si aumentásemos su intensidad en 7 u 8 dB,
puesto que entonces escaparía ya al área de influencia del enmascaramiento.
Respecto a la estricta explicación del diagrama, sólo queda ya comentar la pre­
sencia a ambos lados del gráfico de sendas escalas de fones y una escala de sones
a la derecha, cuyo sentido es el de permitir la comparación entre los valores de in­
tensidad dados en dB o dados en fones o en sones. Y posibilitar la representación
Figura
Figura
134
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
sobre el diagrama de sonidos cuyos valores de intensidad vengan dados en iones
o sones.10
Pasemos ahora a revisar la utilidad del diagrama de Zwicker como instrumen­
to funcional aplicado a la comunicación audiovisual.
La aplicación de los diagramas de sonía tiene desde hace ya algunos años un
papel importante en el universo de la ingeniería de las telecomunicaciones. El mo­
delo de Zwicker sobre la percepción del sonido se está utilizando para abaratar
las transmisiones de señal acústica. A partir del conocimiento de fenómenos per­
ceptivos como el de la audición en bandas críticas y el del enmascaramiento, la
ingeniería de tratamiento de la señal sonora procede a eliminar todo aquello que
el oído humano no es capaz de percibir, ahorrando así una parte importante de la
información a tratar, almacenar o transmitir y consiguiendo, en consecuencia, un
abaratamiento importante del precio.
Pero toda la información múltiple y simultánea que proporciona el diagrama
de Zwicker no sólo es útil a la economía de las telecomunicaciones, sino que
pensamos puede y debe ser utilizado como un instrumento básico para la eco­
nomía de la expresión acústica en su sentido más amplio y general. Desde el
punto de vista expresivo, disponer de un modelo teórico que permita prever qué
sonidos resultarán inaudibles al quedar enmascarados y qué sonidos no, y cuál
es la presencia real que tiene cada sonido ante el oído humano ha de resolvernos
muchos de los problemas que aparecen en la producción de los diseños sonoros
complejos.
Pensemos, por ejemplo, en la sonorización cinematográfica de una batalla. En
este tipo de escenas auditivas es frecuente acumular y superponer numerosos ob­
jetos sonoros caros y de difícil producción. Y es frecuente, también, que una bue­
na parte de los objetos sonoros que componen el escenario auditivo de la batalla
queden completamente disueltos (enmascarados) en una mezcla múltiple y con­
fusa que, en realidad, los hace completamente inaudibles. La aplicación racional
del diagrama de Zwicker en este tipo de producciones sonoras como un instru­
mento de apoyo técnico-narrativo puede suponer un ahorro importante de tiem­
po y esfuerzo, y un fuerte incremento del rendimiento expresivo en el resultado
final de la mezcla. La selección y la organización sonora de todo el material que
ha de componer un decorado acústico suele depender exclusivamente de la in­
tuición y el oído del realizador. No obstante, este trabajo puede y debe estar apo­
yado en instrumentos como el que estamos estudiando, porque al manejarlos se
están teniendo en cuenta los mecanismos esenciales que organizan la percepción
sonora del ser humano.
Cuando se trabaja, por ejemplo, en sonorizar una persecución, resultaría muy
útil saber exactamente a qué diferencia tonal ha de estar la melodía que subraya
la acción dramática, del tono medio de cada uno de los efectos sonoros (motores
de coche, frenazos, ruidos urbanos, gritos), para que el ruido no enmascare la mú­
sica. De este modo, sería posible conseguir con rapidez y eficacia que ambos sis­
10. El lector puede encontrar en el apartado 3-4.2 una explicación detallada sobre estas unidades.
FUNDAMENTOS DE LA PERCEPCIÓN SONORA
135
temas sonoros (música y efectos) fuesen audibles llegando a una mezcla equili­
brada y natural.
Los efectos sonoros son a menudo sonidos compuestos altamente enmascaradores. Normalmente, para evitar el enmascaramiento, por ejemplo, de la melodía,
o de otros efectos con menor potencia sonora (ruidos de pasos, crepitar del fuego,
murmullo de hojas, etc.) se tiende a potenciar los más débiles. Si uno de los soni­
dos no se oye porque queda enmascarado, simplemente se aumenta su intensidad.
El resultado es un efecto atronador y antinatural en el que sonidos que normal­
mente son de muy poca intensidad estallan en la sala de cine o en el altavoz del te­
levisor como auténticos cañonazos. El trabajo sobre las composiciones sonoras uti­
lizando los diagramas de sonía supondría disponer de un auténtico mapa sobre las
posibilidades humanas de audición. Un mapa que nos permitiera saber por dónde
hemos de movernos acústicamente para desarrollar el máximo rendimiento narra­
tivo con el mínimo esfuerzo. Diseñando adecuadamente la ubicación de los soni­
dos simultáneos sobre la superficie auditiva, podemos evitar el enmascaramiento
sin necesidad de aumentar la intensidad, sin necesidad de que el sonido global re­
sultante sea atronador, consiguiendo así una mezcla mucho más próxima a las in­
tensidades naturales de nuestro entorno cotidiano.
Con frecuencia escuchamos en las obras audiovisuales, sonidos supuestamen­
te delicados y voluptuosos como el «fru-fru» de las ropas, pasos en ambientes si­
lenciosos, murmullos de agua... Este tipo de sonidos, que deberían ser tenues y
sutiles, suelen estar tratados con unas intensidades tan fuertes que resultan com­
pletamente antinaturales. Para evitar esto, resultaría muy eficaz determinar con
precisión cuál ha de ser la composición espectral y la intensidad mínima impres­
cindible para superar los 40 dB de frecuencias bajas que produce el ambiente de
la sala donde se ve la televisión o se proyecta la película, evitando que el almidón
de las ropas siga sonando como 50 kilos de cartón piedra aplastados por una api­
sonadora.
Capítulo
5
LAS FORMAS DEL SONIDO
La lógica de desarrollo de este apartado será ir revisando, de menor a mayor
complejidad, todo aquello que sabemos sobre la organización auditiva del soni­
do hasta llegar a establecer una primera taxonomía de las formas sonoras fun­
damentales. Así, en este capítulo, se intentan localizar las piezas fundamentales
del rompecabezas acústico con el que construimos el sentido sonoro.
5.1. La percepción de formas sonoras
Hasta aquí hemos estado estudiando la sustancia sonora dentro del lenguaje
audiovisual en el sentido más hjelmsleviano del término (véase Hjelmslev, 1980).
Hemos ido analizando y estudiando cómo es la «pintura sonora., cómo está com­
puesta, qué tipo de «color auditivo» transmiten al oyente los distintos «colores so­
noros» básicos. Por qué razón percibimos de manera distinta una mezcla u otra.
De qué modo podemos manipular la intensidad del material sonoro puro. Cómo
influyen las intensidades en el «color» final que da la mezcla... Y hemos ido si­
tuando sistemáticamente este análisis en el marco de la narración audiovisual.
Ahora estudiaremos el siguiente nivel expresivo, el nivel de las formas. Es decir, el
nivel en el que la sustancia sonora se organiza en modos y distribuciones concre­
tas, componiendo formas, para que a estas formas se les pueda asignar sentido.
Es cierto que la percepción de formas es en gran parte cultural y, por tanto,
aprendida. Pero también lo es que responde y se organiza sobre los cimientos cons­
truidos con las leyes físicas que rigen el sonido, y con las leyes fisiológicas y psico­
lógicas que rigen la percepción auditiva. Sin duda, la percepción de formas sonoras
rebasa la organización física de la sustancia sonora y los mecanismos primarios de
funcionamiento del oído humano, pero, a la vez, depende rígidamente de ambos.
El reconocimiento de las formas sonoras se organiza en grandes sistemas.
Unos sistemas los descubrimos por la simple observación de fenómenos distintos
que suelen estar próximos en el espacio y ser sincrónicos en el tiempo. Y otros
son el resultado de un largo y complejo aprendizaje. El primer tipo de sistemas se­
ría el que organiza la identificación de formas sonoras como la del ruido de un
motor o la del crepitar del fuego. El dominio del habla y la competencia musical
serían, en cambio, dos ejemplos paradigmáticos del segundo tipo de sistemas so­
noros, los que son altamente dependientes de la educación.
Ciertamente, todos estos sistemas determinan que un conjunto de formas so­
noras pasen a ser formas-patrón. Son las formas sonoras que al ser reiteradamen­
te identificadas y asociadas a otros fenómenos concretos adquieren valor de mo­
delo sonoro de referencia y valor de signo. Así, en la memoria auditiva se van
acumulando formas-patrón y constituyendo un amplio muestrario que orientará
nuestra manera de escuchar, organizar, seleccionar e interpretar las mezclas de so­
nidos que provienen de nuestro entorno. Finalmente, el uso reiterado de estos pa­
trones hará que el ser humano tienda con mucha fuerza a la percepción categorial, es decir, a escuchar sólo aquello que busca, o aquello que está acostumbrado
a reconocer habitualmente, a menudo, incluso, ignorando todo lo demás.
No obstante, como fenómeno anterior, y a la vez paralelo, a la percepción categorial de las formas sonoras, han de actuar necesariamente la propia física del
sonido y los mecanismos perceptivos primarios. Pensamos, en consecuencia, que
141
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LAS FORMAS DEL SONIDO
en el proceso de identificación de las formas sonoras existe una etapa previa a la
percepción de categorías sonoras y a la construcción de sentido que esto com­
porta. No nos estamos refiriendo ahora al reconocimiento de formas sonoras co­
mo sinónimo de identificación, sino a su percepción misma.
Intentaremos aclarar esto.
Para poder reconocer una forma sonora, es necesario haberle asignado antes
un sentido. Haber experimentado que esa forma es relevante. Ese valor de rele­
vancia puede haber sido otorgado por varias vías: la repetición reiterada de la
misma forma sonora, el impacto emocional de la situación a la que está asociada,
el valor que supone identificar esa forma para la supervivencia del oyente, etc.
Como consecuencia de esa experiencia, la forma en cuestión se almacenará en
nuestra memoria como un patrón sonoro. Pero antes de esta etapa ha sido nece­
saria la percepción estricta de la forma. Ha sido necesario poder percibirla antes
de poder reconocerla.
Estamos, pues, diferenciando entre la percepción de formas sonoras y el reco­
nocimiento de formas sonoras. La percepción es previa al reconocimiento. Perci­
bir formas sonoras supone experimentar sensaciones subjetivas asociadas a estí­
mulos acústicos complejos, antes de asignar a estas formas algún sentido o algún
valor expresivo. Vimos ya algo de esto cuando estudiábamos la sensación tímbrica (véase apartado 3.3.3). Contrariamente, reconocer formas sonoras es identificar
sensaciones auditivas ya conocidas a las cuales están asociadas determinadas re­
laciones de contigüidad o de sentido.
Esta diferencia entre la percepción y reconocimiento de las formas sonoras no
es baladí. El narrador audiovisual tiene en sus manos una serie de instrumentos de
producción que le permiten tratar los objetos sonoros, acusmatizándolos y alte­
rando su forma. De modo que estos objetos sonoros no sólo dejan de estar asocia­
dos a su fuente original, sino que, además, pasan a ser identificados como algo
que no tiene nada que ver con su origen real. Piense el lector, por ejemplo, en los
efectos sonoros sintetizados que se utilizan normalmente en el cine de ciencia-fic­
ción. Los zumbidos vibrantes de las armas futuristas y el sonido vertiginoso de las
naves que huyen hacia el «hiperespacio» han sido originados, normalmente, en el
teclado de un sintetizador y provienen físicamente de altavoces colgados en las
paredes de la sala de proyección. ¿Qué es lo que se está reconociendo entonces?
No existe un referente objetivo, ni las armas ni las naves existen; en todo caso, re­
conocemos algo que hemos oído ya en alguna otra narración audiovisual del mis­
mo género. No obstante, lo que nos interesa es la primera vez, el primer sonido
inventado para contar acústicamente los ruidos de las armas del futuro y el salto
al «hiperespacio». Para el narrador que tiene capacidad de diseñar nuevos sonidos,
lo importante no es la identificación de una forma sonora familiar, sino el saber
cómo ha de ser la forma misma de aquello que crea, para que pueda ser interpre­
tado por el receptor tal como él quiere.
Para crear un sonido podemos seguir dos estrategias distintas. La primera es,
simplemente, imitar, copiar otras formas sonoras que sabemos reconocibles. La
segunda es articular una composición de distintos rasgos parciales de estas mis­
mas formas que, antes, cuando estaban completas, eran identificables, pero que
ahora, al ensamblar una forma nueva a partir de fragmentos de otras, dejará de
serlo. Para hacer esto necesitamos diferenciar entrepercepcióny reconocimiento,
porque cada uno de los rasgos acústicos parciales que ahora serán percibidos co­
mo formas específicas, ya no configuran un patrón sonoro almacenado en nues­
tra memoria. Ahora componen un suceso sonoro nuevo al que hay que asignar
sentido, y ese sentido será el que nos proponga el narrador audiovisual con una
nueva asociación sonido-imagen o sonido-concepto. Recurriendo a la teoría que
comenzamos a desarrollar en el apartado 2.3, el dominio de las formas sonoras, es
decir la capacidad para percibir y manipular formas sonoras con independencia
de los patrones almacenados previamente en nuestra memoria auditiva, es lo que
permite la creación audiovisual de entes acústicos nuevos.
Cuando disponemos de capacidad para crear formas sonoras nuevas, lo que
nos interesa saber es qué características sonoras son las que el oyente va a consi­
derar como relevantes y por qué. Del sonido nos va a interesar su carácter diferenciador, su forma misma; y del receptor, la percepción estricta que va a tener de
ella, porque el sentido también lo podremos crear nosotros. Así, partiendo de to­
da la reflexión anterior, definiremos forma sonora como:
140
Toda configuración acústica que, aun siendo analizable en dimensiones más sim­
ples, tiende a ser percibida como un bloque sonoro unitario y coherente.
De acuerdo con este planteamiento, en este apartado y los siguientes, desa­
rrollaremos una primera revisión sobre la organización de las formas sonoras, an­
tes de adentrarnos en el fenómeno estricto de la producción de sentido a partir del
sonido. Es decir, lo que nos va a ocupar ahora será la observación de las formas
más elementales de agrupamiento y organización de las distintas dimensiones de
los sonidos complejos; y el tipo de percepciones auditivas que estas organizacio­
nes sonoras desencadenan en el receptor. Probablemente las formas sonoras sim­
ples más familiares y mejor clasificadas en la cultura occidental sean el ruido y el
silencio. En consecuencia con esta reflexión, consideramos que nuestro estudio
de las formas sonoras debe comenzar revisando estos dos conceptos.
5.1.1. El ruido
El concepto de ruido en el ámbito de la comunicación audiovisual es tan ex­
tremadamente familiar como poco concreto. Se utiliza la palabra «ruido» para
nombrar algo tan vago como «cualquier sonido no deseado»; para hacer referencia
a los efectos sonoros, es decir, a los sonidos del ámbito audiovisual que no son de
origen verbal ni musical, por ejemplo, el timbre de un teléfono o el crujido de una
puerta; a menudo la palabra «ruido» se asimila, también, al concepto de sonido, es
decir, a cualquier vibración perceptible por el oído; otras veces se entiende por
«ruido» todo aquello que dificulta un proceso de comunicación.
Evidentemente, la palabra «ruido» aporta, entonces, muy poca información pa­
ra el narrador audiovisual. No obstante, tras el concepto de ruido subyacen formas
142
143
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LAS FORMAS DEL SONIDO
sonoras concretas que podemos estudiar acústica y perceptivamente, y que si fue­
sen descritas con cierta precisión quedaría eliminada esta enorme ambigüedad.
Obviamente, estamos llamando «ruidos- a formas sonoras muy diferentes y que
deberíamos nombrar de maneras distintas. No obstante, para poder hacer algo tan
simple como nombrar cosas diversas con nombres diferenciados, en primer lugar
debemos ser capaces de distinguirlas entre sí. Intentemos hacerlo. Para concretar
qué es exactamente el ruido y poder diferenciarlo de todas aquellas formas sono­
ras que no sean ruidos, necesitamos estudiar y definir algunos rasgos formales
que lo caractericen.
Partiremos de la concepción psicoacústica del ruido ya que ésta nos propor­
ciona una definición concreta desde el punto de vista de la organización formal y
perceptiva de sus distintas dimensiones sonoras.
Zwicker y Feldtkeller objetivan el concepto de ruido definiéndolo como soni­
do que no tiene altura ni timbre. Es decir, como un sonido en el cual ninguna zo­
na de frecuencia difiere de ninguna otra y ningún segmento temporal difiere de
ningún otro. Si las dos condiciones (sin altura tonal definida y sin diferenciación
temporal definida) se cumplen con una precisión que se ajuste al poder discriminador del oído, se dan las condiciones suficientes para hablar de ruido (véase
Zwicker y Feldtkeller, 1981, pág. 13).
Esta definición distingue perfectamente el ruido de otros objetos sonoros (véa­
se apartado 2.3.3), definiéndolo como una clase concreta de formas sonoras cuya
especificidad es, justamente, la de no tener características acústicas definidas. Así,
si adoptamos esta definición como válida, cuando hablamos de ruido estamos ha­
ciendo referencia, en realidad, a una mezcla de frecuencias audibles lo suficiente­
mente heterogénea como para que, frente a ella, la percepción auditiva humana
no tenga capacidad de discriminación tonal ni temporal.
Veamos dos ejemplos característicos de este tipo de concepción del ruido: el
ruido blanco y el ruido rosa.
El ruido blanco se obtiene sumando un gran número de vibraciones sinusoida­
les de frecuencia muy próxima que tienen las siguientes condiciones técnicas: sus
amplitudes deben ser similares, sus frecuencias deben cubrir la banda de 20 Hz a
20 kHz y, finalmente, sus fases deben estar repartidas sobre todo el dominio angu­
lar (de 0 a 360° de forma estadísticamente uniforme). El ruido rosa tiene las mis­
mas características que el ruido blanco, pero sus frecuencias sufren una atenuación
progresiva (una pendiente) de -3 dB desde su primera frecuencia (la más baja)
hasta la última (la más alta). La sensación auditiva que producen ambos ruidos es
similar; viene a ser algo parecido a ese soplido característico que hace el altavoz de
un televisor cuando no se recibe ninguna señal y la pantalla está completamente
llena de puntos blancos, grises y negros que se mueven aleatoriamente a gran ve­
locidad.
Revisemos ahora las otras concepciones del ruido que mencionábamos al
principio de este apartado para comprobar si se ajustan o no a las dimensiones
formales con las que Zwicker y Feldtkeller caracterizan el concepto de ruido.
La concepción del ruido como «un sonido no deseado- es sin duda la concep­
ción más universal de ruido. Esta forma de definir el ruido, que es el punto de par­
tida perceptivo que adopta la ingeniería (véanse Ochoa y Bolaños, 1990, pág. 9;
Recuero, 1994, pág. 403; Matras, 1974, pág. 67), no diferencia, en principio, entre
unas formas sonoras y otras. Su criterio es exclusivamente funcional y centrado en
la voluntad de eliminar cualquier sonido que sobrepase una determinada poten­
cia sonora. La idea que subyace a esa concepción del ruido como todo sonido no
deseado es la de poder eliminar mediante el aislamiento acústico cualquier forma
sonora a voluntad del receptor. Estrechamente vinculada a esta misma concep­
ción, aunque rebasando la fenomenología sonora y haciéndose extensiva a cual­
quier tipo de comunicación está la concepción del ruido como «todo aquello que
perturba un proceso de comunicación- (Katz, Doria y Costa, 1980, pág. 408). Tan­
to la ingeniería acústica como la ingeniería de las telecomunicaciones tiene serios
problemas con este tipo de definición del ruido. Es una definición demasiado am­
plia, que incluye demasiados tipos de sonido; y la decisión de qué es ruido y qué
no lo es depende de un criterio de preferencia arbitrario que es distinto para cada
situación concreta. La ingeniería intenta siempre, entonces, complementar este
punto de partida (todo sonido no deseado) con una tipología que caracteriza for­
mal y perceptivamente el ruido en categorías como: «ruido de fondo», «ruido alea­
torio», «ruido blanco-, «ruido continuo constante-, «ruido fluctuante periódicamen­
te», «ruido fluctuante no periódico», etc. (véase Recuero, 1994, págs. 405-407). A
nuestro modo de ver, este tipo de clasificación es mucho menos fértil que la pro­
puesta de Zwicker y Feldtkeller.
En realidad, la concepción de ruido como «todo sonido no deseable- nos pa­
rece absolutamente inoperante para discriminar unas formas sonoras de otras,
puesto que el sonido que en un determinado momento resulta no deseado y de­
sagradable, puede ser, para el mismo receptor, deseado y agradable.
Invitamos al lector a reflexionar un poco sobre esto. Por ejemplo, sobre la ex­
periencia cotidiana de escuchar música en la cadena de alta fidelidad. Cuando es
uno mismo el que decide la música que va a escuchar y su nivel de intensidad, la
audición es siempre deseada y agradable. En cambio, cuando es otra persona la
que ha decidido escuchar música en el espacio físico en el que se encuentra tam­
bién uno mismo, con frecuencia la experiencia puede resultar muy desagradable.
Especialmente si la música elegida no coincide con nuestras propias preferencias.
Estamos, entonces, frente a una situación en la que exactamente las mismas for­
mas sonoras, emitidas por la misma fuente, en idéntico espacio y tiempo, para un
receptor son ruidos y para otro no. No sería nada difícil, en cambio, poner de
acuerdo a dos personas de gustos musicales radicalmente opuestos en que el
zumbido del molinillo eléctrico de café es un ruido-, incluso a pesar de que escu­
char el zumbido del molinillo por la mañana, asociado al intenso aroma de café
recién molido, pueda ser una experiencia muy agradable. Ahora no nos estamos
refiriendo a un criterio subjetivo de agradabilidad-desagradabilidad, sino a una
forma sonora precisa. Ahora lo importante no es el criterio variable del individuo
sino el común acuerdo en asignar un nombre a determinada organización de las
dimensiones acústicas, es decir, a una forma sonora muy concreta.
El zumbido de nuestro molinillo de café se ajusta perfectamente a la definición
psicoacústica de ruido: no tiene altura tonal ni diferenciación temporal definidas.
144
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LAS FORMAS DEL SONIDO
Es una maraña sonora para la que no tenemos suficiente capacidad auditiva de
análisis. Y esto es independiente de que nos guste o no.
La concepción de ruido que utiliza la ingeniería de las telecomunicaciones (to­
do aquello que perturba un proceso de comunicación), que ha sido adaptada tam­
bién con mucha frecuencia por los teóricos de la comunicación de masas (véanse
Eco, 1977, pág. 73; Weaver, 1976, pág. 39; Groupe M., 1993, págs. 162, 300), com­
porta un problema muy similar al que acabamos de plantear. Parece estar muy cla­
ro que ruido es toda aquella señal indeseable que deseamos eliminar. El proble­
ma es cómo discriminar la señal indeseable de las deseables para poder separarlas
eliminando sólo una de ellas. Para que la separación sea posible necesitamos dis­
poner de información concreta, por lo menos, sobre la señal indeseable. Precisa­
mos de información formal sobre cómo es el ruido para ser capaces de separarlo
del resto del proceso de comunicación, ya que, en realidad, toda comunicación es
un proceso controlado y dirigido de perturbaciones de una señal. Y si todo es
«perturbación» sólo podemos separar la perturbación «buena» de la «mala» sabien­
do cómo es cada una de ellas. Saber que en un determinado lugar o proceso hay
«algo» que «me molesta» o que «no me gusta» es completamente insuficiente para
eliminarlo. Para poder separar ese «algo» de la mezcla es imprescindible saber al­
gunas características exactas que permitan diferenciar el ruido de todo lo demás.
Podemos haber decidido, por ejemplo en la preparación de un efecto sonoro,
recoger exclusivamente el ruido de la molienda del café, eliminando todos los so­
nidos de voces que se producen alrededor. Si en este ejemplo el ruido está cons­
tituido por el sonido de las voces, ¿como hemos de llamar al estrepitoso zumbido
de la molienda? A nuestro modo de ver, etiquetar como ruido a todo aquello que
nos molesta es muy poco útil. Resulta mucho más eficaz que intentemos denomi­
nar y etiquetar con precisión cada una de las distintas formas sonoras, con el ob­
jeto de poder nombrar exactamente aquella forma que deseamos eliminar en ca­
da momento y situación.
En la literatura sobre radio podemos encontrar una amplia muestra de las dos
concepciones de ruido que aún nos quedan por comentar: el ruido como sinóni­
mo de sonido y el ruido como efecto sonoro. Cuando se hace referencia a los
componentes sonoros del lenguaje radiofónico se suele establecer la clasificación
de: palabra, música, ruidos o efectos especiales, y silencio. Confundiéndose con
bastante frecuencia entre sí, los conceptos de sonido, ruido y efecto sonoro. En ge­
neral, en la literatura sobre lenguaje radiofónico, se define una categoría para to­
dos aquellos sonidos que, sin pertenecer al sistema musical ni al de la palabra, tie­
nen valor significativo. A esta clase de sonidos se la suele denominar ruidos o
efectos sonoros (véanse Arnheim, 1980, pág. 26; McLeish, 1985, pág. 252; Muñoz y
Gil, 1986, pág. 29; Cebrián, 1994, pág. 302; Ortiz y Marchámalo, 1994, pág. 65; Balsebre, 1994, págs. 20, 23).
Evidentemente, esta concepción de ruido no tiene nada que ver con las dos an­
teriores, sino que es, más bien, radicalmente opuesta a ellas. Para todos estos estu­
diosos de la radio, los ruidos no son ni mucho menos algo que sea necesario elimi­
nar, sino un conjunto de sonidos de alto valor significativo que tienen un papel muy
importante dentro del continuum sonoro que compone el mensaje radiofónico.
A nuestro modo de ver, la asimilación entre los conceptos de sonido y ruido su­
pone un error importante. Consideramos que es necesario disponer de una única
categoría universal concreta para definir globalmente toda vibración capaz de esti­
mular la percepción auditiva del ser humano. Y este concepto, sin duda, queda
mucho mejor recubierto por la palabra «sonido que por la palabra «ruido, en tan­
to que, como estamos viendo, la segunda palabra tiene un campo semántico mu­
cho más contradictorio, ambiguo y difuso que la primera. Mientras la categoría /so­
nido/ incluye sin problemas los subconjuntos de formas sonoras que constituyen
la /música/y la /palabra/, la categoría /ruidos/, tal como la entienden los autores
citados un poco más arriba, configura un subconjunto de sonidos que adquiere su
identidad justamente en función de su no pertenencia a los subconjuntos de soni­
dos que configuran la /música/y la /palabra/.
Pero estudiemos con más detalle adonde nos lleva la concepción del ruido
que proponen los estudiosos de la radio.
A esa concepción del ruido como una categoría de formas sonoras distintas a
las de la música y la palabra, se la nombra como efectos sonoros. Una vez en este
punto los ruidos o efectos sonoros no tiene ya más entidad acústica que la que es
capaz de darles el nombre de su supuesta fuente sonora. Los investigadores de la
radio hablan, entonces, de: «efecto sonoro de lluvia», «sonido de puerta», «efecto
sonoro de grillos» (Balsebre, 1994, pág. 127), «sonido de una gallina», «disparo de
un colt» (Muñoz y Gil, 1986, pág. 30), «caminar a través de la maleza», «cascos de los
caballos» (McLeish, 1985, pág. 252), «efecto de tren pasando a toda velocidad» (Or­
tiz y Marchámalo, 1994, pág. 70), etc. Es decir, no se suele andar ni un solo paso
para definir objetivamente las dimensiones sonoras del ruido nombrado. Sino que
la caracterización del ruido-efecto consiste en asociar una palabra que apela al fe­
nómeno de la emisión de sonido (efecto sonoro de..., sonido de..., ruido de...) con
el nombre de cualquier objeto que suele actuar como fuente sonora.
Si entendemos que la acusmatización (véase apartado 2.1) es una de las ca­
racterísticas esenciales del lenguaje audiovisual, definir una forma sonora en vir­
tud de su asociación a una fuente no tiene absolutamente ningún sentido. En rea­
lidad, cuando nos enfrentamos a un efecto sonoro, por ejemplo uno cualquiera de
los que comercializa la BBC, nadie sabe, en realidad, cuál ha sido su fuente sono­
ra original, ni cuál va a ser su último destino expresivo. El sonido de muelle que
finalmente, tras una manipulación, se transformaba en una planta saltarina (véase
apartado 2.3.4), podría ser originalmente un sonido sintético que nada ha tenido
que ver nunca con un muelle real. Y, en todo caso, ¿qué significa exactamente
«efecto sonoro de muelle»? El efecto auditivo que producen los gruesos muelles
sobre los que basculan los modernos balancines de los parques infantiles no tie­
ne absolutamente nada que ver con el sonido de la oscilación del muelle de un
bolígrafo, o con el ruido que hacen los muelles de un colchón. Finalmente, desde
el punto de vista acústico, las tres formas sonoras que hemos mencionado, y que
podrían ser nombradas perfectamente como «efecto sonoro de muelle», tampoco
tienen nada que ver entre sí.
Nos encontramos, entonces, con que estamos llamando ruidoso efectos sono­
ros a una serie de formas acústicas absolutamente heterogéneas cuya única carac-
145
146
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
terística definida, en principio, es la de no pertenecer a las formas musicales ni a
las del habla. Y si seguimos la definición que hace Balsebre de los efectos sonoros,
el concepto se abre claramente a las formas musicales. La definición propuesta
por este autor es la siguiente:
Conjunto de formas sonoras representadas por sonidos inarticulados o de estructu­
ra musical, de fuentes sonoras naturales y/o artificiales, que restituyen objetiva y subje­
tivamente la realidad construyendo una imagen (Balsebre, 1994, pág. 125).
Con esta definición aún se complica más, si cabe, saber con precisión a qué ti­
po de formas nos referimos y de qué tipo de dimensiones sonoras estamos ha­
blando en realidad. En suma, desde la perspectiva de Balsebre, podríamos dedu­
cir que un efecto sonoro es cualquier objeto sonoro que no podamos clasificar
como habla, siempre que éste sea suficientemente sugerente.
La definición de Balsebre deja totalmente desdibujada la frontera entre música
y efectos sonoros, puesto que la capacidad de sugestión y de creación de imágenes
que tiene la música está, evidentemente, fuera de toda duda. Pero, entonces, ¿cual­
quier música puede ser un efecto sonoro? En ese caso, ¿cuándo es una música efec­
to sonoro y cuándo no lo es? Y qué ocurre con los sonidos articulados que suenan
lo suficientemente extraños como para sugerir esas imágenes a las que apela Bal­
sebre. Estoy pensando ahora en el habla de los diversos monstruos audiovisuales;
a saber: vampiros, extraterrestres, hombres lobo, zombis, etc. Normalmente son
voces naturales que son forzadas o manipuladas hasta conseguir un nivel de dis­
torsión sonora que es capaz de transmitir cierto efecto terrorífico. ¿Estos discursos
articulados «monstruosos» son o no son clasificables como efectos sonoros?
A partir de esta última reflexión, surge un grado de incertidumbre frente al
concepto de ruido o efecto sonoro que permite introducir en esta categoría prác­
ticamente todos los objetos sonoros posibles.
Pensamos, en consecuencia, que el concepto de efecto sonoro es, también,
muy poco fértil y extremadamente confuso. Resulta, en realidad, muy poco útil
para diferenciar unas formas sonoras de otras. Más adelante veremos que la dife­
rencia esencial entre la música y el habla no depende de sus formas sonoras in­
trínsecas, ni de su funcionalidad expresiva, sino de los protocolos que utilizamos
para su interpretación expresiva. Lo que diferencia estos dos sistemas no son sus
formas específicas ni sus capacidades expresivas, sino la percepción categorial
que se configura en el receptor mediante un intenso aprendizaje de códigos con­
cretos. Y lo que ocurre con los efectos sonoros es, precisamente, que no hay para
ellos más código cultural que la propia experiencia auditiva de cada oyente.
Son formas sonoras para las que no disponemos de educación reglada. No
obstante, estas formas no están ni mucho menos aisladas, sino que se entrelazan
con la palabra y la música trenzando un tejido acústico único y denso que no es
posible separar en el tiempo. Palabras, músicas, efectos sonoros, ruidos... se en­
trelazan y se superponen convirtiéndose en algo que no es analizable como for­
mas independientes separadas en el tiempo, sino como formas superpuestas y en­
trelazadas que interactúan formal y expresivamente entre sí.
BIBLIOTECA DtL INSTITUTO NAClUfói
CIME Y ARTES AIJNfW,,Wí<‘
LAS FORMAS DEL SONIDO
147
Podemos describir cómo es un ruido, analizarlo objetivamente, representarlo
en ejes de ordenadas o transformarlo en datos, pero no podemos decir que los
ruidos no están en el habla o no están en la música. Podemos analizar, describir y
cuantificar objetivamente un sonido explosivo, pero es un disparate clasificar los
sonidos explosivos exclusivamente como efectos sonoros, como sonidos musica­
les, o como rasgos del habla. Los rasgos acústicos característicos de una explosión
son localizables indistintamente en el sonido que producen los estallidos pirotéc­
nicos, en el inicio de cada nota, es decir, en cada ataque de muchos de los instru­
mentos de viento y en el inicio de ciertos fonemas consonanticos.
El concepto de forma sonora rebasa el de los sistemas del habla y la música en
tanto que es capaz de dar cuenta de los rasgos acústicos comunes a ambos y, tam­
bién, de los rasgos diferentes que existan entre ellos. Y, a nuestro modo de ver, el
concepto de ruido debe ser entendido como una forma sonora concreta, que
puede ser localizable tanto aislada (zumbido del molinillo de café), como dentro
del habla (sonido de fricción de la «S»), o dentro de la música (fricción de aire mez­
clado con el sonido de la flauta travesera). Consecuentemente, la definición de
ruido que defendemos aquí como idónea es la propuesta por Zwicker y Feldtke11er. Es decir, la que define el ruido como un sonido sin altura tonal ni diferencia­
ción temporal definidas.
Lo que estamos apuntando ya en este apartado sobre el ruido no es ni más ni
menos que la fuerte necesidad que tiene el lenguaje audiovisual de disponer de
un gramática elemental de los sonidos en su sentido más amplio y genérico. Ne­
cesitamos poder nombrar aquello que estamos manipulando, alterando, y reorde­
nando. Y para hacerlo necesitamos descubrir y definir cuál es la serie finita de for­
mas básicas universales a partir de las cuales sería posible componer o analizar
cualquier forma sonora, sea ésta del habla, de la música, o de cualquier fuente so­
nora natural o artificial no codificada.
Igual que los lingüistas y los músicos han encontrado sus respectivas series fi­
nitas de formas sonoras elementales a partir de los cuales componen o descom­
ponen con eficacia sus discursos, el lenguaje audiovisual necesita encontrar cuál
es la base analítica de su trabajo expresivo. Y si una de las características específi­
cas del lenguaje audiovisual es la de contener el habla y la música, el conjunto fi­
nito de formas sonoras básicas del lenguaje audiovisual deberían poder dar cuen­
ta, también, de estos dos sistemas, ya que ambos son susceptibles de ser utilizados
audiovisualmente.
Concluiremos, pues, este apartado afirmando que el ruido, tal como lo definen
Zwicker y Feldtkeller, debe ser considerado como una de las formas sonoras bá­
sicas elementales del lenguaje audiovisual. Es decir, algo así como un elemento
de la tabla periódica sonora, o una letra del alfabeto de los sonidos audiovisuales.
Y su valor como límite de la descomposición de un sonido viene determinado
porque el ruido es uno de los conjuntos elementales de rasgos acústicos que ac­
túan, a su vez, como límite de la capacidad perceptiva humana. El oído es capaz
de localizar el ruido del aire mezclado con el tono de la flauta, la fricción de la «S»
en una palabra, o el brevísimo ruido explosivo de la -T» en una sílaba, pero ya no
es capaz de ir más allá en la descomposición de esa clase de forma sonora. Al es-
148
149
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LAS FORMAS DEL SONIDO
cuchar atentamente un ruido, ya no somos capaces de encontrar nada dentro de
él, sólo una densa pasta sonora indescifrable.
oídos sanos, dejan de percibir una serie de tonos de referencia. La medición (cali­
bración del cero) se hace solicitando a los sujetos de referencia que escuchen un
tono que se hace cada vez más débil; cada joven debe avisar al experimentador jus­
to en el momento en que tiene la sensación de que el tono ha desaparecido. La
prueba se hace con distintos tonos. Una vez desarrollada esta serie de pruebas se
calcula la intensidad mínima promedio a partir de la cual estos individuos dejan de
tener sensación auditiva en cada uno de los distintos tonos. Esta intensidad se to­
ma como punto de referencia y es a lo que se denomina cero audiométrico.
Naturalmente, los pacientes en los que se detecta una sensibilidad auditiva que
esté por debajo del cero audiométrico siguen percibiendo sensaciones sonoras,
continúan oyendo sonidos. Su problema no es ni mucho menos que estén sumi­
dos en el silencio, sino que su sensibilidad está por debajo de un nivel de refe­
rencia concreto predeterminado.
Según las dos reflexiones anteriores, la concepción del silencio como «ausen­
cia total de sonido» no tiene ningún fundamento. Estamos, pues, de acuerdo con
J.L. Terrón cuando afirma rotundamente en su tesis doctoral que el silencio abso­
luto no existe (Terrón, 1991, págs. 224, 663). Una experiencia interesante para
ilustrar esta afirmación es observar atentamente el resultado auditivo que se pro­
duce al cerrar y volver a abrir el canal de un micro que está situado en el interior
de un estudio insonorizado en el que hay silencio.
Imaginemos, por ejemplo, una situación en la que un locutor realiza una pau­
sa muy larga a la espera de algún acontecimiento dramático, y mientras se produ­
ce la pausa no hay ningún otro sonido. Si, mientras el locutor está callado, cerra­
mos el canal del micrófono para volver a abrirlo luego sin detener la grabación en
ningún momento, al escuchar el resultado sonoro final notaremos un cambio
brusco de la calidad del ruido de fondo coincidiendo justo con el momento en
que decidimos cerrar y volver a abrir el canal. A pesar de que en el locutorio no se
esté produciendo ningún sonido bien definido, existen siempre una serie de rui­
dos con intensidades muy cercanas al umbral de audibilidad (movimientos del lo­
cutor, respiración, zumbido de lámparas, etc.) que al difundirse por el espacio
configuran un fondo sonoro de baja intensidad que el micrófono está captando.
Este fondo sonoro continúa oyéndose durante el silencio del locutor, y su ausen­
cia (al cerrar el micro) se percibe muy claramente. Este fondo sonoro que capta el
micrófono transmite una fuerte sensación espacial que ha quedado eliminada al
cerrar el canal y ha vuelto a restablecerse al abrirlo.
Nos encontramos, pues, con una situación en la que el silencio se hace audi­
ble, o mejor dicho, una situación en la que nos apercibimos de que el silencio no
era ausencia de sonido, sino un tenue fondo de ruidos asociados a un espacio
concreto.
Pero avancemos aún un poco más en esta ilustración y pensemos en el mo­
mento en que los altavoces por los que hemos estado escuchando esa grabación
dejan de emitir sonido; es decir, en el momento en que desconectamos el equipo
de amplificación. Ahora los altavoces no emiten ningún tipo de sonido, pero en
esa nueva situación, lógicamente, estaremos escuchando los sonidos del espacio
objetivo donde nos encontremos ubicados (zumbido del aire acondicionado, rui-
5.1.2. El silencio
Abordaremos el concepto de silencio con la misma perspectiva que lo hicimos
con el de ruido, es decir, estudiando paralelamente su carácter acústico, su carác­
ter perceptivo y los distintos usos que se suelen hacer de este concepto, hasta lle­
gar a una definición precisa del silencio como forma sonora.
La definición de silencio se omite con demasiada frecuencia, hablándose del si­
lencio como si se tratara de un concepto perfectamente claro y carente de toda am­
bigüedad. Es el caso, por ejemplo, de Cebrián (1994, págs. 303-304) y de Balsebre
(1994, págs. 135-136). En los textos de ambos estudiosos es posible encontrar la
concepción del silencio como ausencia de sonido, aunque la definición no se ex­
plícita en ningún momento. Ortiz y Marchámalo (1994, pág. 73) sí explicitan la de­
finición aunque añadiéndole la idea de premeditación: «ausencia premeditada de
sonido». La omisión del concepto del silencio es mucho más patente aún en los tra­
tados de acústica, en los que no sólo se omite la definición sino que se omite el
concepto mismo. En los manuales de acústica el concepto de silencio no existe.
La concepción automática de silencio suele ser la de «ausencia total de sonido».
Pero esta definición es demasiado simple tanto a la luz de un análisis acústico co­
mo desde el punto de vista perceptivo. Cuando recurrimos al análisis electroacústico para comprobar si existe o no sonido, resulta extraordinariamente difícil con­
seguir una situación en la que no aparezca ningún tipo de señal sonora. Incluso
en el interior de una cámara anecoica1 vacía existen vibraciones detectables por
un micrófono y, por supuesto, en cualquier entorno natural «silencioso» existen
siempre numerosas vibraciones audibles de baja intensidad. Si acústicamente no
es posible localizar situaciones naturales de silencio absoluto, la «ausencia total de
sonido» debería ser un fenómeno puramente perceptivo. No obstante, cuando en
audiología y audiometría se utilizan conceptos como los de sordera y cero audio­
métrico (véanse Quirós y D’Elia, 1982, págs. 212-218), tampoco se está hablando
de ausencia total de sensación sonora. Tanto la sordera, como el cero audiomé­
trico se definen tomando puntos de referencia estadísticos sobre los niveles de au­
dición que se consideran normales. Se considera que existe sordera cuando un
sujeto tiene una sensibilidad auditiva para las frecuencias o para las intensidades
que es inferior a una determinada gama-promedio definida como normal. Eso sig­
nifica que cuando alguien deja de percibir, por ejemplo, las frecuencias que están
por encima de los 10.000 Hz se habla ya de sordera. Pero, obviamente, esta per­
sona que clasificamos como sorda sigue percibiendo sensación sonora, a pesar de
que ésta se haya reducido.
El cero audiométrico se define como un nivel de intensidad a partir del cual dis­
tintos grupos de individuos entre 18 y 25 años de edad, clínicamente sanos y con
1. Véase nota 1 del capítulo 4.
150
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
dos del pasillo, siseo del magnetófono al rebobinar la cinta, etc.). De nuevo lo que
debería ser silencio vuelve a ser audible. De nuevo el silencio pasa a ser una for­
ma sonora objetivable.
Todas las observaciones desarrolladas hasta aquí parecen conducirnos a la so­
lución adoptada en los manuales de acústica, es decir, a desterrar el concepto de
silencio de nuestro vocabulario científico y técnico. No obstante, no podemos ni
debemos ignorar que, perceptivamente, la sensación de silencio es un hecho tan
cotidiano como la sensación de oscuridad, o la sensación de quietud. ¿Qué es en­
tonces el silencio exactamente?
Evidentemente, el silencio no es ausencia de sonido, puesto que la ausencia
absoluta de sonido no es posible; el silencio es, en realidad, el efecto perceptivo
producido por un determinado tipo de formas sonoras.
Cuando en lugar de aproximarnos al concepto de silencio desde la perspectiva
acústica lo hacemos desde el punto de vista perceptivo, abandonando la idea de
ausencia total de sonido, toda la problemática que existe en torno a este concepto
se aclara considerablemente. Si entendemos que la palabra «silencio» expresa, en
realidad, un efecto auditivo, la contradicción con la que nos estamos enfrentando
desaparece. Si el silencio no es -ausencia de sonido sino -sensación de ausencia
de sonido, al localizar el tipo de formas sonoras que producen la sensación de si­
lencio habremos eliminado definitivamente la contradicción entre la percepción
del silencio y la imposibilidad acústica de que exista una ausencia total de sonido.
Lo que estamos afirmando aquí, en realidad es bastante simple, a pesar del
complicado juego de palabras con el que lo justificábamos racionalmente: puesto
que, objetivamente, sabemos que no es posible la ausencia total de sonidos, el si­
lencio sólo puede ser un efecto auditivo producido por determinado tipo de for­
mas sonoras.
Veamos ahora qué formas sonoras son ésas.
La sensación de silencio parece estar asociada sistemáticamente a una bajada
brusca de la intensidad hasta un nivel cercano al umbral de audibilidad. En las si­
tuaciones sonoras en que se produce una disminución importante entre la inten­
sidad de una señal sonora que suena durante varios segundos y la posterior desa­
parición rápida de esa misma señal, dejando en su lugar un fondo difuso de
sucesos sonoros con intensidad muy débil, se configura una forma sonora que es­
timula en el oyente cierta sensación de placidez auditiva característica que sole­
mos denominar silencio. No obstante, cuando, posteriormente, se presta la sufi­
ciente atención a cualquier fondo sonoro «silencioso» vuelve siempre a percibirse
la presencia de nuevos objetos sonoros. Así, desde esta perspectiva, podemos afir­
mar que el silencio es un efecto auditivo determinado fundamentalmente por una
disminución grande y rápida en el nivel de intensidad sonora.
Intentemos ahora concretar con mayor precisión ese tipo de forma sonora que
nos lleva al efecto auditivo del silencio.
Según lo revisado hasta ahora, el tipo de forma sonora que produce el efecto
auditivo de silencio está configurado por una disminución súbita de intensidad en
la evolución temporal del sonido, siendo necesario establecer un rango mínimo
de diferencia de intensidad entre la señal fuerte y el fondo sonoro que queda al
LAS FORMAS DEL SONIDO
151
desaparecer ésta. El «fondo silencioso» de esta forma sonora es un conjunto con­
tinuo de sucesos sonoros poco definidos con intensidades cercanas a las del um­
bral de audibilidad. En la figura 29 se muestra un diagrama representando gráfi­
camente una forma sonora que produciría sensación de silencio.
El diagrama muestra sobre ejes de coordenadas, indicando el eje vertical la in­
tensidad y el horizontal el tiempo, la evolución temporal de un sonido. Así, la lí­
nea gruesa presenta la forma característica con la que ha de evolucionar la inten­
sidad de un sonido en el tiempo para que éste desencadene en cualquier oyente
la sensación de silencio.
En su momento, será necesario contrastar rigurosamente lo que aquí presen­
tamos sólo como una hipótesis fundamentada. Y será necesario, también, deter­
minar empíricamente cuál es, exactamente, el rango que ha de tener la caída sú­
bita de la intensidad, y cuáles son las duraciones que definen los umbrales entre
los que se produce el efecto-silencio. No obstante, la experimentación indicativa
desarrollada por quien ha escrito estas líneas, tomando a sus propios alumnos
universitarios como sujetos experimentales, indica que la mínima caída de inten­
sidad necesaria para que se produzca la sensación de silencio parece estar en tor­
no a los 30 dB, y que es necesaria una duración igual o superior a los 3 segundos
tanto de la señal fuerte como del fondo para que se desencadene en los oyentes
el efecto auditivo de silencio.
Llegamos, pues, finalmente, a que el silencio no es, exactamente, la ausencia
de sonido, ya que ésta no es posible, sino el efecto auditivo desencadenado por el
tipo de relación señal/fondo sonoro que hemos descrito un poco más arriba. La
concepción del silencio que estamos defendiendo aquí se inspira en la vieja dico­
tomía conceptual «tesis - arsis» (dar - alzar), propuesta ya por los músicos de la
Grecia clásica en el siglo v antes de Cristo, como fundamento organizativo del so­
nido (véase Willens, 1979, págs. 223-225). Estos dos conceptos sitúan la relación
entre el dar o sonar (tesis) y el alzara dejar de sonar (arsis) como un principio
básico de toda estructura musical. Lo que nos parece más revelador de esta dico­
tomía no es tanto la idea de oponer la presencia de sonido a su ausencia, como el
principio de que el efecto de ausencia sonora sólo existe en función de la presen­
cia misma. El alzar só\o tiene sentido, sólo existe, junto al dar. El silencio (arsis)
no es la ausencia de sonido, si no la sensación que aparece justo en el momento
en que algo que está sonando (tesis) deja de sonar.
Para ser coherentes con esta conclusión y poder diferenciar sin problemas la
concepción psicoacústica del silencio que acabamos de perfilar, de su concepción
tradicional (ausencia de sonido), utilizaremos a partir de ahora el término de efec­
to-silencio para denominar esa característica sensación de placidez auditiva que
percibe cualquier oyente al escuchar la forma sonora que estamos estudiando.
Pasemos ahora, como hemos hecho ya en otros apartados de esta obra, a la di­
mensión práctica que puede aportar al dominio del lenguaje audiovisual este tipo
de conocimiento psicoacústico.
Si para que se produzca el efecto de placidez que caracteriza la sensación de
silencio es necesario que el fondo sonoro de baja intensidad tenga una duración
de más de 3 segundos, esta referencia temporal se constituye como una cifra
152
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
29. Representación gráfica de cómo ha de evolucionar la intensidad de un
sonido en el tiempo para que se produzca sensación de silencio.
Figura
orientativa fundamental para la expresión audiovisual. Con fondos silenciosos
menores de 3 segundos, es decir, con relaciones señal/fondo en las que el fondo
de baja intensidad sea demasiado corto, no se va a desencadenar el efecto-silen­
cio, es decir, el silencio no va a ser perceptible. En consecuencia, tampoco los va­
lores expresivos que se suelen asociar al efecto-silencio: vacío, muerte, suspense,
etc., podrán ser transmitidos.
Por otra parte, conocer con precisión el rango mínimo de caída de intensidad
que es necesario para que se produzca la sensación de silencio (unos 30 dB) pro­
porcionará al narrador audiovisual la garantía de que aquellas formas sonoras que
son inevitables en cualquier fondo de muy poca intensidad no van a ser relevan­
tes para el oyente y, por lo tanto, que el efecto-silencio va a producirse y a cargar­
se de sentido expresivo. Veámoslo también desde el punto de vista opuesto. Si la
caída súbita de intensidad para pasar de la señal fuerte al fondo de intensidad muy
débil está por debajo del rango mínimo, el receptor oirá y escuchará las formas so­
noras del fondo, y estos sonidos pasarán a ser importantes. En consecuencia, el
realizador no habrá conseguido desencadenar un efecto-silencio, sino que el efec­
to narrativo producido será ahora el de focalizar toda la atención del oyente sobre
las tenues formas sonoras que han quedado repentinamente al descubierto.
5.1.3. El uso expresivo del efecto-silencio
Existen numerosas tipologías sobre el silencio, estas tipologías son mayoritariamente de origen lingüístico y entienden el silencio simplemente como ausencia de
LAS FORMAS DEL SONIDO
153
discurso oral durante un determinado período de tiempo, sin ocuparse de si duran­
te la ausencia de texto verbal se perciben o no otro tipo de sonidos. El valor expre­
sivo de este tipo de ausencias temporales de discurso (pausas) es fundamentalmen­
te el de organizar el sentido del texto oral en unidades de sentido suprasegmentales.
Es importante diferenciar el uso de las pausas en el marco del discurso oral, del uso
del efecto-silencio en el marco más amplio del lenguaje audiovisual.
Cuando un determinado tratamiento de la intensidad sonora desencadena el
efecto-silencio en el marco de un discurso audiovisual, este efecto se carga inme­
diatamente de valor informativo en función de su contexto y de su extensión en el
tiempo. El problema del narrador audiovisual es, entonces, diseñar ese contexto de
modo que el efecto-silencio adquiera el valor expresivo que él desea y no otro, ya
que, lógicamente, un fondo sonoro difuso y de poquísima intensidad no tiene valor
expresivo por sí mismo sino por aquello que se sitúa inmediatamente antes de él.
Los márgenes temporales de un efecto-silencio pueden oscilar aproximada­
mente entre los 3 y los 10 segundos. Hemos comprobado en varios experimentos
que cuando el fondo sonoro de baja intensidad dura menos de 3 segundos el efec­
to-silencio no llega a producirse; el receptor lo descodifica, entonces, simplemen­
te como un tiempo de espera vacío de contenido expresivo, o como una pausa
lingüística. Podemos afirmar, pues, que para que adquiera valor expresivo el efec­
to-silencio debe extenderse durante más de 3 segundos.
Terminaremos este apartado proponiendo una clasificación que recoge lo que,
a nuestro modo de ver, son los tres usos expresivos fundamentales que se suelen
dar al efecto-silencio en los discursos audiovisuales. Denominaremos estas tres
grandes categorías como: el uso sintáctico, el uso naturalista y el uso dramático.
Describiremos ahora con detalle cada uno de estos modos de cargar de sentido los
efectos-silencio.
• Hablamos de uso sintáctico cuando los efectos-silencio se utilizan para or­
ganizar y estructurar los contenidos audiovisuales. Es decir, cuando actúan
simplemente como instrumento de separación. Este tipo de uso viene deter­
minado por un contexto que podríamos denominar «de contenidos neutros».
Por ejemplo, cuando el efecto-silencio se ubica al final de un texto oral que
acaba de finalizar, detrás de una situación dramática que ha sido resuelta con
final feliz, al acabar una pieza musical completa, etc. Tras este tipo de situa­
ciones contextúales, el valor expresivo que aporta el desencadenamiento de
un efecto-silencio es el de separador, indicando con mucha claridad al oyen­
te que se ha llegado al final de una etapa y que, a continuación, va a co­
menzar algo completamente distinto que tendrá muy poca o ninguna rela­
ción con todo lo anterior.
• El uso naturalista corresponde a aquellos efectos-silencio que se utilizan imi­
tando estrictamente los sonidos de la realidad referencial: el sonido de pasos
se elimina /efecto-silencio/, la respiración deja de sonar /efecto-silencio/, el
sonido de rodadura de los neumáticos cesa y se resuelve el ruido del motor
/efecto-silencio/, etc. Cuando se sitúan más de 3 segundos de fondo sonoro
de baja intensidad tras este tipo de informaciones sonoras, el efecto-silencio
154
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
desencadenado se carga de un valor esencialmente descriptivo. En este tipo
de situación contextual, los efectos-silencio actúan expresando informaciones
objetivas muy concretas sobre la acción narrada. Siguiendo con el ejemplo
anterior: mientras suenen los pasos el personaje anda, el tiempo que dejan de
sonar indica que el personaje está parado (mira un escaparate); mientras es­
cuchamos la respiración el enfermo vive, si ésta se detiene es que el enfermo
ha fallecido (la enfermedad, finalmente, lo ha vencido); si escuchamos el mo­
tor y los neumáticos de un vehículo es que el coche está circulando, si ambos
dejan de sonar es que el coche se ha detenido (ha llegado a su destino).
• Finalmente, llamamos uso dramático al uso consciente del efecto-silencio
por parte del narrador para expresar algún tipo de información simbólica
concreta como: muerte, suspense, vacío, angustia, etc. Este uso del efecto-si­
lencio no tiene una relación directa con la reproducción objetiva del paisaje
sonoro de la realidad referencial. Su uso es extremadamente abierto y el ti­
po de carga simbólica que adquiere depende, a la vez, de la presencia de
ciertas incongruencias narrativas y del tipo de información emocional que
contiene el discurso que lo precede.
Veamos un ejemplo de este uso del efecto-silencio en una ficción dramática ra­
diofónica:
Desde una torre de control se escucha por radio el ruido interior de un avión
y la voz angustiada de su piloto que pide ayuda por la radio mientras describe que
un motor del avión está ardiendo y que ya casi no le es posible controlar el vuelo.
Los controladores aéreos le dan información sobre el aeropuerto más cercano. Por
las explicaciones de los controladores nos enteramos que es un vuelo regular lle­
no de pasajeros. El ruido del avión que llega por la radio aumenta de intensidad
progresivamente y la voz del piloto suena cada vez más desesperada mientras ex­
plica que ya no puede dominar el avión y que está cayendo. Varias explosiones
entrelazadas muy intensas y reverberantes suenan durante 2 segundos. Luego, un
fondo sonoro silencioso se alarga durante 8 segundos más.
Evidentemente, el valor expresivo del efecto-silencio simboliza muerte: la
muerte de todos los ocupantes del avión. Pero es interesante observar que, desde
un punto de vista naturalista, en el ejemplo hay dos claras incongruencias narrati­
vas: a) si el avión estalla, la radio que emite desde él quedaría destruida, por lo
que sería imposible escuchar las explosiones en la torre de control durante dos se­
gundos y, además, con reverberancia; b) una vez que estalla el avión, simple­
mente deja de llegar sonido por la radio, por lo tanto, si la narración estaba situa­
da en la torre de control, deberíamos seguir escuchando los sonidos de la torre de
control y las voces de los controladores en lugar de un fondo sonoro difuso y si­
lencioso de 8 segundos.
Son justamente estas incongruencias narrativas y la tensión emocional codifi­
cada en el sonido de la voz del piloto las que configuran el contexto previo y de­
terminan el valor expresivo con el que se cargará el efecto-silencio posterior.
Finalmente, es importante observar que el uso narrativo de los efectos-silen­
cio es el que admite duraciones más largas. La duración de un efecto-silencio uti­
LAS FORMAS DEL SONIDO
155
lizado narrativamente se puede alargar hasta 9 o 10 segundos antes de que el
oyente comience a pensar en la existencia de algún problema técnico en la emi­
sión.
5.1.4. Formas estacionarias y formas dinámicas
Revisados ya los casos concretos del ruido y el silencio, nos ocuparemos de
nuevo del fenómeno de la percepción de formas sonoras elementales en su senti­
do más amplio. Es decir, intentaremos localizar y sistematizar los mecanismos bá­
sicos que utiliza el oído humano para agrupar las dimensiones de cualquier soni­
do complejo, organizándolo en formas sonoras simples.
Hasta aquí sólo habíamos estudiado la influencia del tiempo en las sensacio­
nes sonoras cuando hablábamos de la dimensión dinámica del timbre y al revisar
los umbrales temporales (véanse apartados 3.3.4 y 4.2.8).
Anteriormente definíamos forma sonora como toda configuración acústica
que, aun siendo analizable en dimensiones más simples, tiende a ser percibida co­
mo un bloque sonoro unitario y coherente. Ahora introduciremos ya la dimensión
temporal como un primer elemento de discriminación entre las formas sonoras y
veremos que la evolución de las variaciones acústicas en el tiempo tiene una in­
fluencia absolutamente determinante sobre la percepción auditiva.
Las percepciones auditivas producidas por las formas sonoras que varían en el
tiempo (dinámicas) son radicalmente distintas de aquellas que emanan de formas
sonoras que no se alteran al transcurrir el tiempo (estacionarias). En consecuen ­
cia, consideramos que un punto de bifurcación importante de cualquier aproxi­
mación teórica al sonido ha de ser la diferenciación entre formas sonoras diná­
micas y formas sonoras estacionarias.
El paso siguiente para seguir en esta línea debería ser ya la explicación con­
creta de estos dos conceptos; no obstante, todavía no estamos en condiciones de
definir con precisión las diferencias que existen entre formas dinámicas y formas
estacionarias.
Si consideramos que todo sonido ha de tener siempre un principio y un final,
la diferenciación que acabamos de establecer entre formas sonoras dinámicas y
estacionarias, dependiendo de si varían o no con el transcurso del tiempo, resulta
todavía insuficiente. El inicio y el final de toda vibración sonora comportan siem­
pre dos variaciones acústicas. Lógicamente, esto significa que si lo consideramos
desde su comienzo, o esperamos el tiempo suficiente, todo sonido acabaría sien­
do una forma dinámica. ¿Tiene, entonces, algún sentido establecer esta diferencia
como una de las claves teóricas de la percepción sonora? Veremos que, efectiva­
mente, sí lo tiene y que es una referencia perceptiva fundamental.
Para que sea posible discriminar con precisión entre formas dinámicas y for­
mas estacionarias necesitamos, en primer lugar, establecer cuáles son los límites
temporales que definen la diferencia entre estas dos categorías sonoras.
En el apartado 4.2.8 decíamos, siguiendo a Guski, que es necesaria una dura­
ción sonora de 1 segundo para que el oyente perciba perfectamente todas las ca-
156
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
racterísticas tonales tímbricas y direccionales23de un suceso sonoro. Si eso es así, la
duración de 1 segundo se configura como el umbral temporal mínimo de una for­
ma sonora. Dicho de otro modo: la mínima cantidad de tiempo necesaria a partir
de la cual podemos ya considerar que un sonido ha sido percibido con todas sus
posibilidades informativas al completo es 1 segundo. Así, para poder percibir to­
das las dimensiones acústicas de una forma sonora estacionaria necesitaremos
que ésta tenga, por lo menos, una duración de 1 segundo.
Ahora sí que estamos ya en condiciones de diferenciar lo dinámico de lo esta­
cionario y, en consecuencia, también de proponer sendas definiciones para que
sea posible una primera clasificación de las formas sonoras en función de estas
dos grandes categorías, así:
Llamaremos forma sonora estacionaria a todo suceso sonoro de duración igual o
superior a 1 segundo que no haya sufrido variación acústica alguna.
Y siguiendo la misma lógica:
Llamaremos forma sonora dinámica a todo suceso sonoro que haya sufrido más de
una variación en alguna, o varias, de sus dimensiones acústicas, en todos y cada uno de
sus sucesivos intervalos de 1 segundo.
En ambas definiciones estamos aplicando la teoría psicológica de la Gestalt
(véase Boring, 1950) al desarrollo de un modelo general sobre la percepción de
las formas sonoras; concretamente, hemos recurrido a la ley de la simplicidad, de­
nominada también ley de la buena figura o ley de la pregnancia, y a la ley de la similaridad?
Con estas definiciones estamos proponiendo la primera etapa de un modelo
de análisis temporal que, tras estudiar cualquier objeto sonoro en intervalos de un
segundo, permite descomponerlo en formas dinámicas y formas estacionarias. Es­
te modelo responde a la siguiente concepción de la percepción auditiva: El senti­
do humano del oído tiende a simplificar cualquier estructura sonora compleja,
agrupando en formas unitarias todos los intervalos sonoros contiguos con ca­
racterísticas acústicas similares, y separando en formas distintas los intervalos
sonoros contiguos con características acústicas muy diferentes.
Imaginemos, por ejemplo, un objeto sonoro concreto de 14 segundos de dura­
ción. El primer segundo de este sonido configurará una forma sonora dinámica,
en tanto que ha de pasar de la no existencia a una presencia con intensidad, tono
y composición espectral concretos. En realidad, el primer segundo de todo soni­
do se configurará siempre como una forma dinámica ya que, necesariamente, ha
2. Guski (1992, pág. 165) explica que la capacidad de los sujetos experimentales para ubicar espa­
cialmente un sonido mejora notablemente cuando el oyente puede dedicar a la audición un tiempo su­
perior a 1 segundo.
3. Desde los años setenta, psicólogos como Bregman y Campbell (1971), R. Warren, C. J. Obuseck
yj. M. Acroff (1972) han trabajado ya en esta línea, investigando y contrastando el cumplimiento de al­
gunos de los principios de la teoría guestáltica en la percepción de los fenómenos sonoros.
LAS FORMAS DEL SONIDO
157
de sufrir variación en todas sus dimensiones acústicas. Supongamos ahora que
desde el comienzo del segundo 2 hasta el del segundo 4 el sonido no sufre nin­
guna variación acústica; eso significa que hemos encontrado una forma estacio­
naria de 3 segundos. Imaginemos, finalmente, que la intensidad del sonido au­
menta suavemente desde el segundo 4 hasta el inicio del segundo 8 y a partir de
ese instante la intensidad desciende ya progresiva y lentamente hasta el segundo
13; consideraremos, entonces, que esta última parte del sonido es, globalmente,
una única forma dinámica de 9 segundos. Veamos todo esto gráficamente:
El modelo que proponemos analiza temporalmente el objeto sonoro descrito
un poco más arriba y representado en la figura 30, como una estructura sonora
compleja compuesta por tres formas sonoras simples, la primera dinámica, la se­
gunda estacionaria y la última también dinámica. Es decir, fragmentamos el soni­
do en partes según sea éste estacionario o variable, entendiendo que mientras el
sonido permanezca acústicamente invariable éste debe ser considerado como una
única forma sonora estacionaria-, y entendiendo, también, que mientras el soni­
do esté sufriendo variaciones acústicas sucesivas que disten entre sí menos de un
segundo, éste debe ser considerado, también, como una única forma sonora di­
námica. Y que el punto de cambio de una forma sonora a otra se sitúa justo en el
instante en que el sonido pasa de ser estacionario a ser dinámico o viceversa.
Esto significa que la duración de una forma sonora simple puede rebasar muy
ampliamente el tiempo de 1 segundo. En el apartado 4.2.8 cuando hablábamos
del umbral temporal máximo decíamos ya que la variabilidad es el elemento esen­
cial de captación de la atención auditiva; en consecuencia, hemos de deducir que
las formas sonoras dinámicas podrán ser tan largas como pueda tolerar el límite
de la fatiga auditiva. Contrariamente, las formas sonoras estacionarias tendrán con
toda seguridad un umbral concreto de duración mucho más corto. No dispone­
mos de experiencias contrastadas científicamente sobre cuál es el umbral máximo
de duración que puede llegar a alcanzar una forma sonora estacionaria antes de
que el receptor deje de prestarle atención, ni sabemos tampoco con exactitud si el
carácter acústico de la forma influye o no en el umbral. No obstante, nuestra pro­
pia experimentación con el efecto-silencio nos ha mostrado que una vez transcu­
rridos 9 segundos desde que se produce la caída de intensidad y el sonido pasa a
ser un fondo sonoro difuso muy débil, el oyente deja de ocuparse de la forma so­
nora y centra su atención en otro tipo de estímulos. Esto parece indicar, pues, que
si deseamos que se preste atención a una forma sonora estacionaria, ésta no de­
bería durar más de 9 segundos.
Naturalmente, una concepción de la percepción auditiva que se apoya en la apa­
rición de “características acústicas muy diferentes» y en los conceptos de forma diná­
mica y forma estacionaria es todavía demasiado simplista. Es cierto que, al escribir
estas líneas, está todavía por desarrollar una investigación empírica amplia y profun­
da que pueda concretar con exactitud cuáles son las leyes que rigen la percepción
auditiva para discriminar entre una formas sonoras y otras. No obstante, se han loca­
lizado ya algunos elementos que empiezan a indicar con claridad cómo actúa la per­
cepción humana frente a la audición de estructuras sonoras altamente complejas.
158
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Figura 30. Descomposición de un sonido complejo en tresformas sonoras simples.
5.2. Inercia acústica y discriminación entre formas sonoras
En el apartado anterior ilustrábamos la descomposición de un objeto sonoro en
tres formas sonoras diferenciadas recurriendo exclusivamente a la variación de la
intensidad. Pero ¿qué ocurre cuando son varias las dimensiones sonoras que evo­
lucionan a la vez? ¿Cómo actúa cada una de ellas sobre la percepción de formas
sonoras? ¿Cómo influye cada dimensión sobre las demás? ¿Cuál de ellas es la que
predomina?
No tenemos todavía respuestas precisas para todas estas preguntas, aunque,
como hemos dicho más arriba, sí que disponemos de algunos elementos orientativos. Existe una lógica perceptiva fundamental que permite al ser humano orga­
nizar en su mente toda la complejidad acústica en unas cuantas categorías forma­
les. Hemos estudiado ya con detalle esa lógica perceptiva. Ahora, intentaremos la
articulación de esa lógica del sistema auditivo con la propia fenomenología natu­
ral de la producción de sonidos:
Según Bregman (1994, pág. 17), para descubrir las leyes de la organización
auditiva, es necesario investigar las relaciones sistemáticas entre los componen­
tes acústicos que emanan de diferentes fuentes sonoras del entorno y estudiar,
luego, de qué modo explota el oído humano estas relaciones. Si estamos de
acuerdo con Bregman, y efectivamente lo estamos, debemos buscar cuáles son
los puntos en que la lógica acústica de los fenómenos sonoros encaja con la del
sistema auditivo. Obviamente, el oído del hombre ha de explotar la lógica natu­
ral de los sonidos que lo rodean, así que en esa zona de coincidencia entre la or­
ganización acústica de nuestro entorno y nuestros mecanismos perceptivos han
de estar concentradas muchas de las respuestas a nuestras preguntas.
LAS FORMAS DEL SONIDO
159
Puesto que la clasificación perceptiva que realizamos al recibir la información
de nuestro entorno sonoro se apoya directamente en la explotación de la lógica fí­
sica a la que responden los fenómenos acústicos, hemos de estudiar los elemen­
tos de esta lógica.
Las vibraciones acústicas que escuchamos cotidianamente son fenómenos físi­
cos que se desarrollan en un marco inercial y, en consecuencia, responden siste­
máticamente a la primera ley de Newton, o ley de la inercia. Es decir, conservan su
estado de movimiento o de reposo a menos que ese estado sea obligado a cambiar
por fuerzas que se le apliquen (véanse Resnick y Halliday, 1974, pág. 129, tomo 1).
Esta lógica inercial determina todos los fenómenos acústicos que nos rodean y, ló­
gicamente, configura también nuestra experiencia perceptiva respecto a ellos.
A lo largo de nuestra experiencia vital hemos aprendido que un automóvil en
circulación no puede detenerse repentinamente, que cuando un cuerpo está en
movimiento todas las partes que lo componen se mueven en el mismo sentido, la
misma velocidad y la misma dirección; y, también, que cuando lanzamos una pie­
dra, ésta sigue siempre la misma trayectoria sin sufrir cambios bruscos de direc­
ción. Luego, utilizamos esa experiencia para componer y discriminar los límites
entre unos objetos y otros según sean los movimientos de aquello que vemos. Por
ejemplo, podemos mezclar dos siluetas de automóvil superpuestas en la lejanía
percibiéndolas como un único vehículo sorprendentemente largo (una forma úni­
ca), pero en el momento en que detectamos en la silueta dos lógicas de movi­
miento distintas tenemos la certeza de que no estamos viendo ya un único vehí­
culo sino dos. Nuestro sistema perceptivo ha separado los puntos de la silueta en
dos grupos coherentes y bien diferenciados en función de sus dos lógicas distin­
tas de movimiento (en dos formas distintas).
Igual que nuestro sistema visual, nuestro sistema auditivo reconoce esa lógica
inercial y la explota para interpretar el mundo. Del mismo modo que un vehículo
en movimiento no tiende a detenerse bruscamente, tampoco tiende a hacerlo el
sonido de una cuerda de guitarra; y si esto ocurre, sabemos que se debe a alguna
fuerza interpuesta: un choque con la pared, o una mano que detiene la cuerda.
Del mismo modo que en la pantalla de cine reconocemos los contornos de una
forma visual porque todos sus puntos evolucionan exactamente de la misma ma­
nera en el espacio, en la mezcla de frecuencias que provienen de una membrana
de altavoz podemos diferenciar dos fuentes sonoras virtuales4 distintas, porque
sus espectros evolucionan en el tiempo con dos lógicas de relación interna per­
fectamente diferenciadas entre sí. Así, la lógica inercial del entorno sonoro es una
de las claves que explica cómo actúan los mecanismos de composición y discri­
minación de formas sonoras en el sistema auditivo humano. Nuestro sistema per­
ceptivo selecciona, desprecia, separa o agrupa la información acústica en formas
sonoras en función de esa lógica.
4. Al hablar aquí de -dos fuentes sonoras virtuales» nos estamos refiriendo al fenómeno perceptivo
que se produce cuando, a pesar de estar escuchando un altavoz de membrana única, por ejemplo el de
un pequeño receptor de radio portátil, tenemos la clarísima sensación de estar oyendo dos voces dis­
tintas y bien diferenciadas que suenan a la vez.
160
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Veamos, en primer lugar, cuáles son los principios5 naturales que rigen esa ló­
gica inercial de los sonidos, y más abajo estudiaremos ya con detalle cómo utiliza
el sistema auditivo estos principios para la construcción de formas sonoras.
Así, los principios de la inercia sonora que explota nuestro sistema auditivo
son, básicamente, los siguientes:
Principio de la coherencia espectral. La relación de multiplicidad que existe en­
tre las frecuencias que componen una señal sonora, proveniente de una misma fuen­
te, tiende a no verse afectada por ninguna de las variaciones que sufre esta señal.
Principio de la estabilidad espectral. La composición espectral de una señal
continua que emana de una misma fuente sonora no tiende a transformarse súbi­
tamente.
Principio de la estabilidad tonal. La frecuencia de un sonido continuo que
emana de una misma fuente no tiende a cambiar súbitamente.
Principio de la regularidad. Las series o flujos de sucesos sonoros que ema­
nan de una misma fuente sonora, no tienden a transformarse súbitamente.
Principio de la sincronía. Cuando distintos componentes acústicos que se su­
perponen en el tiempo provienen de la misma fuente sonora, tienden a arrancar y
a pararse en el mismo instante.
Principio de la asincronía. Cuando distintos componentes acústicos que se
superponen en el tiempo provienen de fuentes sonoras diferentes, tienden a no
arrancar ni pararse en el mismo momento.
Como el lector podrá observar, en todos estos principios subyace la vincula­
ción entre sonido y fuente sonora como un elemento prioritario. Ciertamente, la
necesidad de saber de qué objeto físico concreto proviene cada uno de los soni­
dos que escuchamos, rige y ha regido antropogenéticamente de una manera muy
prioritaria nuestro interés auditivo. Y, sin duda, este interés configura nuestra for­
ma de escuchar, organizar y empaquetar la enorme cantidad de información acús­
tica que llega constantemente a nuestros oídos. Así, las características acústicas
que nos permiten decidir cuáles son los componentes que provienen de una fuen­
te sonora, y cuáles de otra, cuando escuchamos una mezcla complicada de soni­
dos, son también las que rigen nuestro criterio de agrupamiento y discriminación
de las formas sonoras.
Hasta la tardía introducción de la tecnología sonora en las formas de comuni­
cación audiovisual, en nuestro entorno físico cotidiano la organización de la com­
plejidad acústica había dependido exclusivamente de las fuentes sonoras natura­
les. Hemos aprendido, pues, que a cada sonido corresponde siempre un objeto
físico colocado en algún lugar próximo. Es decir, hemos aprendido a utilizar nues­
tra capacidad de percepción auditiva de acuerdo con esa lógica acústica. Una ló­
gica que consiste, básicamente, en discriminar como formas sonoras distintas a to5. Los seis principios que presentamos aquí suponen una revisión y una ampliación de las pro­
puestas hechas por Bergman en su artículo -L’analyse des scenes auditives: ¡’audition dans les enviro­
nments complexes- (Bergman, 1994).
LAS FORMAS DEL SONIDO
161
do conjunto de componentes acústicos que puedan ser identificados perceptiva­
mente como provenientes de fuentes distintas, y agrupar en una misma forma so­
nora los componentes que identificamos como emanados de la misma fuente.
Partiendo de esta reflexión general, estudiaremos ahora de manera concreta
cómo influye cada uno de estos seis principios de la inercia sonora en la cons­
trucción y la discriminación de formas sonoras.
5.2.1. Principio de la coherencia espectral
El principio de la coherencia espectral es explotado por el sentido de la audi­
ción cuando se presenta ante nuestros oídos una mezcla sonora de muchos com­
ponentes acústicos que coexisten simultáneamente en el tiempo. Por ejemplo,
cuando escuchamos una misma melodía tocada por varios instrumentos musica­
les y somos capaces de diferenciar exactamente cuántos y cuáles son los instru­
mentos que están sonando.
Nuestro oído ha aprendido a dar coherencia unitaria a los conjuntos de fre­
cuencias que tienen entre ellos una relación de multiplicidad numérica concreta
porque suelen provenir de la misma fuente; y a separar en paquetes distintos a los
conjuntos de componentes acústicos que se relacionan entre sí de acuerdo con
distintos patrones de multiplicidad porque suelen emanar de fuentes sonoras dis­
tintas. Es decir, ha aprendido a reconocer como una forma sonora única todo el
«haz» de frecuencias que siguen un mismo patrón relacional de armonicidad; y a
identificar como formas sonoras distintas y claramente separadas entre sí, cada
uno de los distintos «haces» de frecuencias sonoras organizados con patrones re­
laciónales de armonicidad diferentes.
En el apartado 3.3.1 hicimos ya una primera aproximación a este fenómeno
perceptivo cuando hablábamos de la sensación tonal en los sonidos compuestos.
A este fenómeno perceptivo de construcción de formas sonoras unitarias depen­
diendo de su coherencia armónica se le suele denominar consonancia, y al de la
separación en formas sonoras distintas disonancia. Así, un mismo número de
componentes frecuenciales, por ejemplo cuatro tonos simples, puede producir en
el oído humano la sensación de un solo sonido o de varios sonidos distintos; o
sea, la percepción de una única forma sonora o de varias formas sonoras, según
estén estos tonos organizados de un modo o de otro.
Ciertamente, la explotación perceptiva del principio de la coherencia espectral
responde en su nivel primigenio a la necesidad de agrupar los componentes so­
noros en función de las fuentes que los ha generado. No obstante, en el ámbito de
la comunicación audiovisual, la acusmatización y la posibilidad de manipular
electrónicamente las distintas dimensiones acústicas del sonido introducen una
serie de posibilidades expresivas extraordinarias para engañar y conducir artifi­
cialmente la percepción humana.
Sin duda, la mejor manera de ilustrar el alcance expresivo del conocimiento de
estos mecanismos perceptivos en el marco del lenguaje audiovisual es reflexionar de
nuevo sobre la escucha de los sonidos que provienen de una membrana de altavoz.
162
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Imagine el lector que estamos en el cine escuchando y contemplando una se­
cuencia fílmica sobre un baile de salón del siglo xix. Para que sea posible escu­
char la banda sonora, cada altavoz actúa como una fuente única de la que emana
una mezcla de componentes sonoros extraordinariamente compleja que al llegar
a nuestro oído es interpretada como (conversación + música + ruido ambiente).
Cerrando los ojos y prestando más atención nos podemos dar cuenta sin proble­
mas de que esa composición sonora se desdobla en ([Voz 1 + Voz 2] + [violín +
violonchelo + piano] + [fru-fru de ropas + ruido de pasos]). ¿Qué milagro percep­
tivo hace que a través de una membrana de altavoz, es decir, de una sola fuente
sonora pueda salir el sonido de lo que podríamos considerar 7 fuentes sonoras
distintas? ¿Cómo una única membrana vibrante puede sonar a la vez como voz
masculina y femenina, violín, violonchelo, piano, pasos y ruidos de ropa?
Para desenredar semejante maraña acústica el sistema auditivo no recurre só­
lo al principio de la coherencia espectral, sino que utiliza también los cinco res­
tantes y, seguramente, alguno más que todavía no hemos sido capaces de locali­
zar. Pero para ilustrar la explotación que hace el oído del principio que nos ocupa
ahora, es decir, el de la coherencia espectral, centraremos nuestra atención en el
problema acústico que supone la mezcla de las frecuencias del violín y el violon­
chelo tocando a la vez una misma melodía. Si las frecuencias de ambos instru­
mentos se mezclan en el altavoz saliendo sumadas en la vibración de una única
membrana, ¿por qué somos capaces de discriminarlas y percibir los dos instru­
mentos como separados?
Lógicamente, la melodía compuesta por el primer instrumento de cuerda será
exactamente la misma que la del segundo, pero al ser la tesitura del violonchelo
más baja que la del violín, la frecuencia fundamental (Fo) de cada uno de ellos es­
tá a una altura distinta. Por ejemplo, imaginemos que el chelo toca una octava más
bajo que el violín, supongamos que la nota inicial del violonchelo es un sol de la
4a octava6 y la del violín un sol de la 5a. Puesto que la diferencia entre ambas fre­
cuencias fundamentales es de una octava, ésta se ajusta a la organización percep­
tiva y el resultado de la suma de los dos sonidos resulta al oído armónico y agra­
dable. Tenemos, entonces, que ambos sonidos evolucionan tonalmente del
mismo modo en el tiempo y que, además, son armónicos entre sí. ¿Qué es, enton­
ces, lo que nos permite discriminarlos?
La diferencia acústica fundamental que existe en este caso es la organización
espectral del sonido de cada instrumento. Concretamente, las frecuencias de la se­
rie de armónicos sería en cada caso la siguiente:
Violonchelo:
750, 1500, 2250, 3000, 3750, 4500, 5250, 6000, 6750, 7500, 8250, 9000, ... Hz.
1500,
3000,
4500,
Violín:
6000,
7500,
9000,... Hz.
6. Con objeto de que la presentación numérica sea más simple y clara supondremos que este sol de
4a octava está centrada en los 750 Hz, y que el sol de la octava siguiente lo está a 1.500 Hz.
LAS FORMAS DEL SONIDO
163
Por supuesto, la membrana del altavoz no va a discriminar y va a estar gene­
rando un único sonido resultante de la mezcla de ambas series que nos llegará al
oído como:
Altavoz:
750,1500, 2250,3000, 3750, 4500, 5250, 6000, 6750, 7500, 8250,9000, ... Hz.
Teniendo, en este caso, los armónicos marcados en negrita una intensidad ma­
yor que los restantes como resultado de la suma. Puesto que la relación de multi­
plicidad tiende a no verse afectada por ninguna variación acústica, la serie de pe­
queñas variaciones tonales y de intensidad que van a surgir a lo largo de la
evolución de la melodía afectarán coherentemente sólo a uno u otro paquete de
frecuencias, respetando siempre la relación de multiplicidad interna del espectro
de cada instrumento, con lo cual, perceptivamente, se configuran dos haces de
frecuencia bien diferenciados que, a pesar de construir la misma melodía, están
respondiendo a dos dinámicas inerciales bien diferenciadas. Al percibir esta mez­
cla, nuestro sistema auditivo explota este fenómeno acústico, reconoce en la mez­
cla que emana del altavoz dos relaciones de multiplicidad distintas y las interpre­
ta como dos formas sonoras diferenciadas que evolucionan simultáneamente en
el tiempo.
Es muy interesante observar que ahora ya no podemos hablar de fuentes so­
noras distintas, puesto que la única fuente es la membrana del altavoz. Ahora, esa
sensación de diversidad sonora es solamente perceptiva, son sólo formas sonoras
y la sensación de que escuchamos un chelo y un violín tocando a la vez es sólo un
efecto virtual.
Cuando esa lógica acústica es reproducida artificialmente mediante síntesis so­
nora, el oyente percibe exactamente la misma sensación de desdoblamiento for­
mal, pero ahora el engaño es mucho más radical puesto que la duplicidad de
fuentes sonoras no existe ya ni en el origen mismo del sonido.
5.2.2. Principio de la estabilidad espectral
El principio de la estabilidad espectral indica que la composición de un es­
pectro, es decir su envolvente, cuyo efecto perceptivo hemos definido como im­
presión espectral (véase apartado 3-3.3), suele ser estable y sólo tiende a variar
bruscamente cuando existen elementos externos o variaciones físicas de la fuen­
te que influyen sobre él. Utilizamos este principio para identificar cambios espa­
ciales o para reconocer alteraciones físicas de la propia fuente generadora del so­
nido.
Vamos a pedir al lector que componga en su mente una nueva situación sono­
ra para ilustrar todo esto adecuadamente. Imaginémonos oyendo lo mismo que
escucha un individuo mientras maneja una máquina para pulir suelos. Nuestro
nuevo amigo está abrillantando el suelo en las distintas dependencias de un gran
banco. Es de noche, el banco está vacío, el operario en cuestión permanece calla-
164
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
do y sólo oímos el zumbido de la máquina mientras pule el suelo de un pequeño
despacho con las paredes enmoquetadas. El ruido de la pulidora es una señal con­
tinua que emana siempre de la misma fuente y, por tanto no tiende a transformar­
se súbitamente. Bruscamente, percibimos que el zumbido suena más intenso,
adopta un matiz mucho más oscuro y parece alargarse en el tiempo. El cambio
acústico se debe a la influencia del nuevo espacio en el que ha entrado la fuente
sonora al atravesar una puerta. Antes, las reducidas dimensiones del despacho y
sus paredes cubiertas de moqueta afectaban muy poco al ruido de la máquina.
Ahora nuestro operario y su pulidora están en un amplísimo pasillo de techo abo­
vedado muy alto y paredes de mármol en el que resuena con fuerza el zumbido.
El ruido reflejado en el techo y las paredes se mezcla con el que sale directamen­
te de la máquina, sumándose a él y alterando súbitamente su composición espec­
tral. Las características volumétricas del pasillo hacen que la zona reforzada del es­
pectro sea la de frecuencias graves, produciéndose así una impresión más oscura
e intensa.
Cada nueva sala por la que pasan el operario y su máquina influye sobre el so­
nido y lo altera de un modo u otro. Pero, igual que nosotros, nuestro trabajador
nocturno sabe que esos cambios acústicos no se deben a la fuente sonora, sino a
la influencia del espacio. Cada cambio espectral brusco se debe, pues, a una nue­
va influencia externa, y hemos aprendido a interpretar que ese tipo de alteracio­
nes acústicas indican que la fuente sonora está en un nuevo espacio.
También influyen sobre la envolvente espectral las alteraciones de la propia
fuente sonora. El lector habrá observado, por ejemplo, que al tocar un objeto vi­
brante éste cambia su matiz sonoro. Por ejemplo, al sujetar fuertemente con las
manos un molinillo de café en funcionamiento el sonido se atenúa. En cambio, si
lo dejamos que vibre libremente el zumbido pasa a ser más fuerte y brillante.
Nuestras manos actúan como un amortiguador, haciendo que determinadas vi­
braciones de la carcasa que cubre el motor disminuyan de amplitud, alterándose,
entonces, de una manera súbita el espectro del sonido que produce el molinillo.
Así, si cada cambio súbito de impresión espectral está sistemáticamente asocia­
do a una influencia espacial nueva, o a algún cambio en la propia fuente sonora,
esos cambios, en tanto en cuanto son importantes para el reconocimiento del en­
torno, son reconocidos y segregados por el oído como formas sonoras distintas por­
que aportan información importante sobre el contexto espacial de la fuente sonora.
Todo esto nos lleva, en suma, a deducir que el sistema auditivo explota el prin­
cipio de la estabilidad espectral identificando como una única forma sonora aquel
sonido que mantiene su envolvente espectral estable, y discriminando como dos
formas sonoras distintas aquello que percibimos antes y después de un cambio
súbito de la envolvente espectral.
Es revelador e ilustrativo observar que toda la discriminación entre unos soni­
dos vocálicos y otros que realiza el ser humano cuando utiliza la lengua oral, se
sustenta en esa capacidad perceptiva para diferenciar formas sonoras cuando se
producen cambios súbitos en la envolvente espectral del sonido. Trataremos con
detalle las aplicaciones narrativas audiovisuales de este fenómeno cuando estu­
diemos el espacio sonoro.
LAS FORMAS DEL SONIDO
165
5.2.3. Principio de la estabilidad tonal
El principio de la estabilidad tonal es coherente con la resistencia natural de
los cuerpos a cualquier cambio brusco, y expresa la sensación auditiva de finalprincipio que percibimos cuando la evolución del tono de un sonido no es pro­
gresiva, sino que se transforma a saltos. Es decir, desarrollando una cantidad de
variación de su frecuencia muy superior a la del umbral humano de variabilidad
tonal, en un tiempo inferior al del umbral mínimo de sensibilidad temporal.7 La
percepción que desencadena este tipo de variación tonal es la de ruptura en la
continuidad sonora. Es, por ejemplo, la sensación que se produce cuando un ins­
trumento musical cambia de nota sin dejar de sonar, cuando en una flauta dulce
en la que se está tocando el do se destapa el agujero del re.
En la experiencia acústica sobre el entorno natural acumulada por nuestra memo­
ria auditiva, cada fuente sonora ha sido asociada a un tono y un timbre que tendían a
ser estables. Y esto es así porque la frecuencia de los sonidos de una misma fuente no
tiende a cambiar de forma brusca, sino que tiende a hacerlo de forma progresiva. En
consecuencia, por eso es por lo que los cambios súbitos de tono tienden, a su vez, a
estar vinculados sistemáticamente a un cambio de fuente sonora; o al final de una
emisión sonora y el comienzo de otra cuando provienen de la misma fuente.
Explicaremos ahora esto desde la perspectiva de la inercia acústica: la frecuencia
de un sonido no tiende a cambiar súbitamente de forma natural si no existe algún fe­
nómeno externo o interno que influya fuertemente en la fuente que lo genera. Igual
que en los principios anteriores, el aprendizaje perceptivo de esta fenomenología es
lo que parece determinar que nuestro sistema auditivo interprete la percepción de un
salto tonal brusco como el final de una forma sonora y el principio de otra. O lo que
es lo mismo, que nuestro oído utilice el primer principio de la estabilidad tonal reco­
nociendo como una forma sonora única a un sonido mientras su tono no sufre nin­
guna variación súbita, y discriminado en dos formas sonoras distintas los conti­
nuums sonoros que percibimos antes y después de un salto tonal brusco.
Creemos que ahora es necesario observar que hasta aquí sólo hemos hablado
de formas sonoras elementales, y que es mediante la estructuración perceptiva de
estas formas sonoras elementales cómo se generan otros niveles superiores de or­
ganización formal del sonido. Es el caso de los lexemas, que son ya formas sono­
ras de segundo nivel, construidas a partir de grupos cerrados de fonemas, o del fra­
seado musical, y la melodía construidos a partir de los elementos de la escala tonal.
5.2.4. Principio de la regularidad
El principio de la regularidad está directamente vinculado a los de estabilidad
tonal y estabilidad espectral y es coherente con ellos. Lo que expresa es que, en el
entorno natural, las cualidades acústicas de una misma fuente sonora suelen man7. Véanse apartados 4.2.6 y 4.2.8, respectivamente.
166
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LAS FORMAS DEL SONIDO
tenerse estables a pesar de que aparezcan interrupciones breves de la emisión del
sonido. Y que si estas cualidades cambian, tienden a hacerlo de forma lenta y pro­
gresiva.
Imagine el lector que está en una terraza escuchando trinos que provienen del
balcón de alguna vivienda vecina en la que son aficionados a la cría de pájaros. Se
oye el trinar pero no es posible ver la fuente sonora. Al escuchar atentamente des­
cubrimos que los trinos se organizan con claridad en dos tonos estables perfecta­
mente diferenciados, automáticamente deducirá que lo que está escuchando no
es un pájaro sino dos y que ambos están piando a la vez. Es decir, interpretamos
la mezcla de sucesos sonoros (trinos) en función de la similitud acústica que exis­
te entre ellos, agrupándolos como dos flujos diferenciados que provienen de dos
fuentes sonoras distintas.
Este ejemplo ilustra el tipo de explotación que hace nuestro sistema auditivo
de este principio. El oído humano tiende a unir los estímulos sonoros de caracte­
rísticas acústicas similares en un solo grupo y una única forma, y a segregar los es­
tímulos acústicos de características distintas en grupos diferentes y, por tanto, en
formas sonoras diferenciadas.
Probablemente, la razón por la que el sistema auditivo humano explota el
principio de la regularidad hemos de buscarla en la necesidad de recomponer las
formas sonoras esenciales para la supervivencia, que regularmente son interrum­
pidas por muchos sonidos, con objeto de diferenciarlas de otras formas sonoras
menos importantes. Igual que para un aborigen de los bosques húmedos tropica­
les era fundamental poder recomponer y distinguir el sonido de un animal peli­
groso de entre los ruidos de las hojas y las chicharras; hoy, los habitantes de las
grandes metrópolis necesitamos recomponer las informaciones sonoras esencia­
les de entre las constantes interrupciones que origina la escandalosa maraña de
sonidos urbanos.
Piense el lector, por ejemplo, lo extraordinariamente útil que resulta poder re­
componer los contenidos de una llamada telefónica internacional cuando ésta lle­
ga a su oído llena de parásitos.
Existe una experiencia paradigmática de esta tendencia auditiva que tiene su
origen en la música barroca: la ilusión auditiva de un único violín que es capaz de
tocar dos melodías distintas a la vez. El secreto consistía en tocar con la suficiente
rapidez de forma intercalada y alternante dos series melódicas una de tonos gra­
ves y otra de tonos agudos. El oído hace el resto al percibir este flujo de tonos
graves y agudos como dos formas sonoras diferenciadas, uniendo entre sí los so­
nidos graves por una parte y los agudos por otra. Puesto que el sistema auditivo
da prioridad a la similitud acústica sobre la proximidad temporal, lo que origina­
riamente proviene de una única fuente sonora es percibido como si emanase de
dos; es decir, el músico consigue que un solo violín suene como si a la vez toca­
sen dos. El fragmento del preludio de coral de Jesús Christus unser Heiland de
J. S. Bach, que el lector puede ver en la figura 31, es un ejemplo de composición
musical que produce ese efecto de segregación tonal.
En la figura 32 hemos hecho una representación de estos cuatro compases
de J. S. Bach sobre coordenadas cartesianas que nos permitirá estudiar con
detalle cuáles son las características acústicas de este tipo de composición
musical.
El gráfico presenta en el eje de ordenadas (vertical) frecuencia en Hz y escala
tonal, y el eje de abscisas (horizontal) el tiempo en segundos. Como el lector pue­
de comprobar, las cinco líneas del pentagrama están situadas a la altura del eje
vertical que se corresponde con las notas en clave de sol y con sus respectivas fre­
cuencias en Hz. Para representar gráficamente en el tiempo la duración de las no­
tas de la composición, en este caso corcheas, hemos tomado como referencia un
movimiento de presto, concretamente, una velocidad de interpretación de unas
190 negras por minuto. Puesto que cada corchea dura la mitad que una negra, la
velocidad de interpretación de este pasaje musical es de unas 380 notas por mi­
nuto, o lo que es lo mismo, si cada minuto contiene 60 segundos, cada una de las
notas indicadas en la figura 31 dura:
167
60 segundos
----------------- =0,157 segundos
380 notas
Es decir, aproximadamente una décima y media de segundo. Así, la evolución
dinámica de las notas a lo largo del tiempo se puede observar gráficamente pro­
yectando la situación de cada nota sobre el eje de abscisas, en el que las divisio­
nes expresan segundos y décimas de segundo.
Explicada ya la lógica que se ha seguido en la representación gráfica de la fi­
gura 32 pasemos ya a estudiar el efecto auditivo que produce este tipo de compo­
siciones sonoras.
El violinista que interprete este fragmento musical seguirá el orden que indica
la línea discontinua de la figura, es decir, desarrollará una única serie de sonidos
que sube y baja de tono alternativamente, y que evoluciona en el tiempo de for­
ma lineal y regular. No obstante, al escuchar esta interpretación, el oyente no es­
cucha una forma sonora ajustada al flujo objetivo de los impulsos sonoros (línea
discontinua); sino que va a percibir dos flujos simultáneos y diferenciados, tal co­
mo se representan en la figura las dos líneas continuas que unen entre sí las notas
agudas por una parte y las graves por otra.
El intérprete, al explotar el principio de la regularidad, consigue crear la ilu­
sión de que está tocando dos melodías a la vez; cuando en realidad lo que ocurre
es que el oído humano agrupa por similitud las pequeñas formas sonoras que es­
tán lo suficientemente próximas entre sí. En este caso, la similitud tonal, que su­
pone un salto sólo de 1 a 3 semitonos cada 0,30 segundos, predomina auditiva­
mente sobre una mayor proximidad temporal (0,15 segundos) asociada a saltos
tonales de 5 a 9 semitonos.
Resumiendo, el oído da prioridad al tono sobre la proximidad temporal, y
agrupa los graves con los graves y los agudos con los agudos. Según Bregman, es­
te tipo de segregación auditiva se produce cuando la sucesión se alarga por lo me­
nos 4 segundos. Y son necesarios, también, al menos 4 segundos para disiparla
(véase Bregman, 1994, pág. 25).
168
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
las FORMAS DEL SONIDO
169
jo sonoro a un cambio de fuente. Así, el citado principio es utilizado por el oído
de tres modos distintos:
Preludio de la coral de «JESUS CHRISTUS UNSER HEILAND», J. S. Bach.
31. Fragmento de una composición musical de Bach que al ser interpre­
tado linealmente por un solo violín produce la sensación auditiva de dos melo­
días sonando a la vez (efecto de segregación tonal).
Figura
1. Cuando todo un conjunto de sucesos sonoros separados entre sí por breves
interrupciones son reconocidos como muy similares, van a ser interpretados
por el oído humano como provenientes de la misma fuente y, por tanto, re­
compuestos como una forma sonora única.
2. Cuando en una serie lineal de sonidos acústicamente muy similares surge
una única variación sonora brusca, que afecta ya al resto de la serie; esta va­
riación será interpretada por el oído como un cambio de fuente sonora. O lo
que es lo mismo, el oído fragmentará la serie en dos partes, haciendo que
ésta sea percibida como dos formas sonoras yuxtapuestas y perfectamente
diferenciadas.
3. Finalmente, cuando todo un conjunto de sucesos sonoros acústicamente
muy similares, que evolucionan linealmente en el tiempo y que están sepa­
rados entre sí por interrupciones muy breves, se configuran como dos Aujos
sonoros suficientemente diferenciados, éstos van a ser segregados por el oí­
do humano como dos formas sonoras diferentes que serán percibidas como
si evolucionaran en el tiempo de modo simultáneo e independiente.
5.2.5. Principios de la sincronía y de la asincronía
32. Representación sobre coordenadas cartesianas de la composición mu­
sical mostrada en la figura 31, con objeto de estudiar sus características acústi­
Figura
cas y perceptivas.
Sinteticemos, ahora, toda esta revisión en torno al principio de la regularidad
desde la perspectiva de la inercia acústica.
Puesto que las series de sonidos que emanan de la misma fuente sonora no
tienden a cambiar bruscamente, cuando esto ocurre, el sentido de la audición ex­
plota el principio de la regularidad asociando cualquier cambio acústico en el Au­
Los principios de la sincronía y de la asincronía son corolarios por lo que los
abordaremos en un mismo apartado.
El punto de partida de este doble principio es la lógica física de que todos los
componentes acústicos de un mismo sonido, es decir, de un sonido que emana de
una misma fuente sonora concreta, tiendan a arrancar, parar y sufrir sus variacio­
nes de manera idéntica y simultánea. Y, contrariamente, que los componentes
acústicos de los sonidos que emanan de distintas fuentes tiendan a no arrancar,
parar, ni sufrir variaciones en el mismo momento.
Este principio, aparentemente tan elemental y obvio, resulta especialmente
fértil para la audición humana. El primer nivel de explotación que hacemos de él
es organizar en haces acústicos perfectamente diferenciados a todo el conjunto de
componentes sonoros que llegan revueltos a la vez a nuestros oídos. Es decir, nos
permite que seamos capaces de distinguir unos sones de otros entre la mezcla ca­
si permanente de ruidos y sonidos que escuchamos simultáneamente. Cualquier
entorno natural está constantemente lleno de componentes acústicos emanados
de fuentes sonoras distintas que escuchamos simultáneamente. Y ninguna de es­
tas fuentes genera, normalmente, sonidos simples, sino que todos ellos suelen ser
complejos. Pero, a pesar de eso, no solemos tener ningún tipo de problema para
agrupar toda esta maraña acústica en paquetes perfectamente diferenciados y sa­
ber, además, a qué fuente corresponde exactamente cada uno de ellos.
Un poco más arriba, en este mismo apartado, estudiábamos cómo el principio
de la coherencia espectral también es utilizado por el oído para diferenciar entre
170
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LAS FORMAS DEL SONIDO
sí haces acústicos que suenan a la vez. En este caso, eran las relaciones de armonicidad las que definían los agrupamientos sonoros. Pero ¿qué ocurre cuando los
sonidos que estamos escuchando son inarmónicos? ¿De qué modo trabaja enton­
ces el oído para discriminarlos adecuadamente?
En este tipo de situaciones sonoras es, precisamente, cuando el oído explota a
pleno rendimiento el principio de la sincronía, agrupando perceptivamente co­
mo una única forma sonora todos los componentes acústicos que sufren sus va­
riaciones de forma sincrónica; y separando en formas sonoras distintas los com­
ponentes que arrancan, cambian o se detienen en momentos diferentes.
El lector habrá observado que las mezclas de sonidos inarmónicos son más di­
fíciles de discriminar auditivamente entre sí que las de sonidos armónicos. Este fe­
nómeno responde, probablemente, a que en las mezclas de sonidos armónicos el
oído puede explotar dos principios inerciales a la vez, mientras que en los inar­
mónicos sólo trabaja con uno.
El principio de la sincronía es utilizado, también, por la percepción humana
para coordinar el sentido de la vista con el sentido de la audición. La coincidencia
en el tiempo entre las variaciones de los estímulos visuales generados por cual­
quier objeto físico y los cambios acústicos de un sonido, estimula una asociación
perceptiva inmediata entre ese sonido y el citado objeto, desencadenando en el
receptor una fuerte sensación de que el objeto que ve es la fuente física del soni­
do que está escuchando.
Seguramente el lector habrá experimentado alguna vez un tipo de experiencia
perceptiva que resulta muy reveladora al respecto: cuando en un entorno ruidoso
en el que se desarrollan varias conversaciones a la vez, por ejemplo en un bar, o
en un vagón de tren, nos interesa mucho escuchar la charla de un grupo, que es­
tá algo lejos de nosotros.
El intento de seguir la conversación suele iniciarse con disimulo, prestando una
esforzada atención auditiva al lío de voces y de ruidos, normalmente con resulta­
dos muy decepcionantes. Inmediatamente después, suelen sobrevenir al fisgón, en
este caso uno mismo, unas ganas irresistibles de mirar directamente al grupo de su
interés para comprobar si lo que ocurre es que se han callado. Procedemos, en­
tonces, a mirar con todo el disimulo posible al grupo en cuestión y comprobamos
que, en efecto, siguen hablando animadamente. A partir de ese momento, sin po­
derlo evitar, la mirada se dirige descarada e inquisitivamente a los labios del ora­
dor. En ese momento, como por arte de magia, de entre la madeja acústica que nos
llega a los oídos, podemos distinguir con toda claridad cuáles son los sonidos que
salen de aquellos labios, y empezamos, por fin, a enterarnos de la conversación.
Cogido ya el hilo del asunto y reconocida la voz, cambiamos discretamente la mi­
rada de sitio a la vez que intentamos abrir aún más nuestros oídos, pensando que
ahora sí podremos seguir la conversación. Todo vuelve a ser inútil. Inmediatamen­
te, los sonidos se empastan de nuevo y pasamos, otra vez, a no enteramos absolu­
tamente de nada.
En este caso, la sincronía ha sido utilizada en sentido inverso al que suele ser
más habitual. Normalmente, primero se identifica con claridad alguna forma so­
nora y luego buscamos en nuestro entorno cuál es el objeto físico que está visual­
mente sincronizado con las variaciones del sonido: golpes con una ventana mal
cerrada, crujidos con una puerta que se mueve... En nuestro ejemplo del fisgón, el
proceso ha sido justamente al contrario. El interés fue estimulado visualmente y el
principio de la sincronía ha sido explotado por el sistema perceptivo para sepa­
rar de entre toda la maraña sonora sólo aquellos componentes acústicos que
arrancaban, variaban y se detenían coincidiendo en el tiempo con el movimiento
de su fuente sonora. Es decir, ha sido posible identificar y separar determinadas
formas sonoras utilizando la sincronía audiovisual.
Terminaremos este apartado comentando que el principio de la sincronía es
uno de los más conocidos y racionalmente explotados en el contexto del lengua­
je audiovisual, especialmente en la sonorización y en el doblaje. Desarrollaremos
este tema con mayor detalle cuando hablemos de los mecanismos narrativos au­
diovisuales.
171
5.3. Taxonomía de las formas sonoras simples
Este apartado responde al convencimiento profundo de quien escribe estas lí­
neas, de que existe en el ámbito de lo audiovisual, tanto en el trabajo puramente
industrial como en la labor investigadora, una gran necesidad de disponer de ter­
minología fundamentada, básica y común sobre el sonido. Tanto en la producción
cinematográfica, como en la televisiva y en la radiofónica, la terminología que se
utiliza para nombrar el sonido, es pobrísima. Y esto alcanza a todos los grupos
profesionales que manipulan sonido, incluidos los ingenieros. Quizá deberíamos
excluir de esto a los músicos, no obstante, la terminología que manejan esos pro­
fesionales está demasiado restringida a su propio material de trabajo.
La falta de terminología en cualquier ámbito desencadena confusiones impor­
tantes: se utilizan términos diferentes para nombrar la misma cosa, y se nombran
de la misma manera conceptos demasiado distintos. El campo sonoro de lo au­
diovisual, a nuestro modo de ver, padece seriamente de ese mal. No existe toda­
vía una taxonomía de las formas sonoras que sea lo suficientemente concreta y
precisa como para que sea posible nombrar con cierta objetividad los sonidos con
los que trabajan cotidianamente los profesionales y los estudiosos del audio.
Siendo consecuentes con esta reflexión, a lo largo de este apartado vamos a
proponer un modelo terminológico que intentará resolver este problema en su ni­
vel más básico y, a la vez, fundamental. Nuestra propuesta se apoyará en los tra­
bajos sobre las clasificaciones de los sonidos desarrollados ya por Murray Schafer
(Shafer, 1991) y Pierre Shaeffer (Shaeffer, 1988). Lógicamente nos basaremos, tam­
bién, en los planteamientos sobre percepción sonora que han sido expuestos ya a
lo largo de esta misma obra.
La clasificación que articularemos pretende establecer una terminología funda­
mentada en el análisis acústico que, a la vez, sea capaz de adaptarse a la capacidad
perceptiva y descriptiva de cualquier oyente. No intentamos aquí desarrollar una
morfología universal exhaustiva como la que hizo Shaeffer con los sonidos de la
música; lo que pretendemos es establecer una serie de términos fundamentales
172
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
que nos permitan describir verbalmente cualquier sonido, ya sea éste musical, oral,
o de cualquier otro ámbito, con la eficacia, el rigor y la precisión suficientes.
Naturalmente, si esta terminología para nombrar las formas sonoras pretende
ser universal, debe buscar referencias y puntos de apoyo interdisciplinares. Es de­
cir, ha de estar fundamentada de modo que no se base solamente en el carácter de
las fuentes estudiadas, o exclusivamente en datos analíticos del sonido. Esto es lo
que ocurre, por ejemplo, en las taxonomías de los timbres de la- voz cantada
(véanse Garde, 1965, págs. 124 y sigs. y Perelló, 1975, pág. 76). Cuando en esas ta­
xonomías se habla, por ejemplo, del carácter «oscuro» de una voz, se hacen siem­
pre abundantes referencias a las características de la laringe que la produce, pero
en ningún momento se explica cuál es el carácter perceptivo y acústico del térmi­
no «oscuridad sonora». En el caso de la ingeniería acústica ocurre algo muy simi­
lar, ésta es una disciplina en la que se trabaja con el sonido utilizando de manera
casi exclusiva referencias numérico-analíticas; en cambio, las referencias a los
problemas perceptivos y las sensaciones auditivas prácticamente no se utilizan
(véanse Matras, 1977; Recuero, 1995).
Igual que existe una terminología que nos permite describir con suficiente pre­
cisión una imagen visual o un paisaje, sin necesidad de recurrir a mediciones
exactas, necesitamos una terminología que nos permita explicar satisfactoriamen­
te los sonidos. Y esta terminología no debería ser exclusiva del ámbito audiovi­
sual, del ámbito médico, o del musical, sino que debería ser útil para la interco­
municación entre todos estos campos. Con objeto de que la taxonomía de las
formas sonoras simples tenga un carácter a la vez: preciso, objetivo y generalista;
ésta cumplirá siempre las dos condiciones siguientes: 1) no tomaremos nunca co­
mo referencia las características de la fuente sonora, sino el propio carácter formal
del sonido; 2) a pesar de que la taxonomía que propondremos se apoyará en da­
tos acústicos objetivos, no describiremos los sonidos con cifras sino con palabras,
es decir, utilizaremos nombres y adjetivos que estén sólidamente asociados a las
sensaciones que desencadena cada forma sonora.
Finalmente, si el objeto de esta terminología es nombrar y clasificar las formas
sonoras simples, hemos de concretar, exactamente, a qué tipo de sonidos vamos
a llamar formas sonoras simples y por qué.
Como sabe ya perfectamente el lector, todas las dimensiones del sonido evo­
lucionan en el tiempo y pueden configurar formas perceptibles por el oído huma­
no. Lógicamente, estas formas serán tanto más complejas cuanto mayor sea el nú­
mero de dimensiones acústicas con las que se desarrolle simultáneamente su
configuración. No obstante, una terminología que pretende nombrar cualquier so­
nido ha de partir, necesariamente, del nivel formal más simple posible. Necesita­
mos, pues, definir ese nivel. Más arriba definíamos forma sonora como «toda con­
figuración acústica que tiende a ser percibida como un bloque sonoro unitario» y,
sin duda, cualquier forma sonora que esté configurada por las tres dimensiones
del sonido a la vez será sumamente complicada. Así, las formas sonoras más sim­
ples serán, lógicamente, aquellas que estén configuradas solamente por las varia­
ciones de una única dimensión sonora. Definiremos, pues, las formas sonoras
simples del siguiente modo:
LAS FORMAS DEL SONIDO
173
Forma sonora simple es cualquier configuración sonora constituida por las varia­
ciones de una única dimensión acústica, que tiende a ser percibida como un bloque so­
noro unitario y coherente.
5.3.1. Contorno y textura
En este subapartado haremos una primera clasificación terminológica de las
formas sonoras simples en dos categorías globales que luego desglosaremos en
sus partes correspondientes. A estas dos primeras categorías las denominaremos
contorno y textura. No obstante, antes de definir estos dos conceptos justificare­
mos con detalle su sentido teórico y su origen perceptivo.
Cuando somos capaces de identificar con soltura el tono y la intensidad, nos en­
contramos con una diferencia muy clara entre la influencia auditiva que tienen las
variaciones de esos dos parámetros según las encontremos al principio y al final del
suceso sonoro, o cuando las variaciones del tono y la intensidad se producen en el
centro del sonido; es decir, después del principio del suceso y antes del final.
Todos los estudiosos del audio están de acuerdo en que para observar el carác­
ter perceptivo de un sonido es necesario tener especialmente en cuenta la evolu­
ción de su inicio (ataque) en relación con la intensidad. Lo mismo en música y
canto que en fonética, foniatría y logopedia, la observación del ataque de los su­
cesos sonoros es una de las pautas metodológicas fundamentales para analizar, des­
cribir y tomar decisiones sobre los sonidos. Siguiendo con la evolución natural del
sonido en el tiempo, una vez que se ha producido el ataque, el suceso sonoro se
desarrolla constituyendo un bloque compacto (cuerpo) que puede mantenerse, o
no, invariable hasta que llega al momento de su extinción. La evolución de las di­
mensiones acústicas del cuerpo de los sucesos sonoros acostumbra a resultar bas­
tante menos significativa que su ataque. La observación básica que se suele hacer
del cuerpo de un sonido es su duración. Finalmente, todo suceso sonoro tiene un
momento en el que su energía vibratoria se extingue y deja de sonar (caída). La
evolución de la caída en relación con la intensidad es, también, otro de los puntos
de referencia importantes para todas las disciplinas que trabajan con el sonido.
Este criterio que clasifica el sonido siguiendo su evolución natural en el tiem­
po en tres fases perfectamente diferenciadas: ataque, cuerpo y caída, es común­
mente aceptado por los estudiosos. Cuestión muy distinta es ya la observación y
clasificación de los sonidos en función de su «aspecto interno». O sea, no en fun­
ción de sus variaciones concretas en el tiempo, sino partiendo del impacto per­
ceptivo global que produce su audición.
Imagine el lector que está comparando la misma nota tocada en un piano y to­
cada en un guitarra española, o comparando dos voces masculinas que pronun­
cian con el mismo tono, por ejemplo, el son /TAAA/. Oímos cómo evolucionan los
dos sonidos, notamos perfectamente el carácter brusco de sus principios, una
cierta estabilización central, el alargamiento resonante de sus finales y su tono si­
milar. Pero suenan globalmente distintos. Si sus intensidades, sus evoluciones en
el tiempo y sus tonos son muy parecidos, para explicar la diferencia hemos de en-
174
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
trar en el carácter «interno- del sonido. Aquí es donde empiezan a aparecer ya se­
rios problemas terminológicos y de concepción formal. Para hablar de este carác­
ter interno, o tímbrico, los investigadores de la música incluyen la forma del ata­
que y hablan de sonoridad global (Shaeffer, 1988, págs. 190-192; Peirce, 1983,
pág. 178). En cambio, aquellos que se dedican a la composición musical, cuando
hablan del efecto perceptivo que produce globalmente un determinado sonido,
utilizan palabras como «color» o «textura» (Nieto, 1996, pág. 124). Los estudiosos de
la voz cantada tienen, sus propios criterios para describir los matices internos del
sonido de una voz, y hablan de la «claridad», del «mordiente», del «brillo», de la
•densidad» o de la «personalidad del sonido» (Garde, 1965, págs. 124-125; Perelló,
1975, págs. 69-70). Finalmente, y a pesar de todo lo anterior, los lingüistas entien­
den el timbre como algo cerrado que es inherente a cada fonema; así que frente a
dos sonidos de /A/ diferentes, que tengan el mismo tono y la misma duración, en
lugar de hablar de diferencias tímbricas, hablan de «rasgos acústicos» dependien­
tes del orador (Lyons; 1980, pág. 65; Quilis, 1981, pág. 135). En suma, no hay un
acuerdo claro sobre este tema.
No obstante, en los textos de todos estos estudiosos del sonido sí se observa
cierto acuerdo conceptual generalizado que diferencia un carácter periférico, vin­
culado a las variaciones de intensidad o de tono que sufre cualquier sonido a lo
largo del tiempo, de otro multidimensional, que se vincula siempre, en mayor o
menor grado, a sus matices de sonoridad global, es decir, a la sensación tímbrica.
Apoyándonos en toda esta reflexión, estableceremos el primer nivel de clasifica­
ción de los sonidos diferenciando su perfil, de la forma global de su superficie.
Vamos, pues, a describir y nombrar los sonidos comenzando por dos catego­
rías globales: la primera, a la que denominaremos contorno, englobará las formas
que dependen de la evolución del tono y la intensidad en el tiempo; y la segunda,
que vamos a llamar textura, contendrá todas las formas dependientes de la evo­
lución de la estructura tímbrica en el tiempo.
Así, definiremos, el contorno y la textura de un suceso sonoro del siguiente
modo:
Llamaremos contorno a todas las evoluciones de la intensidad y el tono que se pro­
ducen a lo largo de un suceso sonoro concreto.
Llamaremos texture? a todas las evoluciones del timbre que se producen a lo largo
de un suceso sonoro concreto.
A continuación, concretaremos dos cuestiones importantes que se derivan de
la definición de contorno.
1. El contorno de cualquier suceso sonoro está compuesto por las tres fases o
etapas fundamentales {ataque, cuerpo y caída), que definiremos del siguiente
modo:
8. Como recordará el lector (véase apartado 3-3.3) el concepto de timbre está vinculado a la per­
cepción compleja e instantánea del sonido. Consecuentemente, el concepto de textura es distinto del
de timbre, puesto que lo que expresa es su dimensión dinámica, es decir, las formas que se derivan de
percibir la evolución del timbre a lo largo del tiempo.
LAS FORMAS DEL SONIDO
175
Ataque-, es la fase de inicio del suceso sonoro y su característica esencial es que la
energía del sonido parte de valor «0» y adquiere un valor «X» en un tiempo determinado.
Cuerpo: es la etapa central del sonido. Se sitúa entre el instante en que finaliza el
ataque (la energía del sonido se estabiliza haciéndose estacionaria), y el instante en que
la energía del sonido vuelve a desestabilizarse para iniciar su caída. El concepto de
cuerpo sólo adquiere un sentido claro cuando en el suceso sonoro hay un tiempo cen­
tral durante el cual las dimensiones del sonido no varían, o en el que, de forma muy evi­
dente, las variaciones son mucho menores que durante al ataque y la caída.
Caída-, es la fase final de todo suceso sonoro y su característica esencial es que la
energía del sonido parte de un valor «X» y se extingue progresivamente hasta llegar a un
valor «0» en un tiempo determinado.
2. El contorno de todo suceso sonoro consta siempre de dos dimensiones que
evolucionan simultáneamente en el tiempo: la dinámica (intensidad global) y la to­
nal (frecuencia fundamental). Así, la evolución del ataque y la caída en los sucesos
sonoros, perceptivamente, quedan asociadas de una manera muy clara a la relación
tiempo-intensidad, por lo que, como se verá un poco más abajo, podemos apoyar­
nos en este par de variables para nombrar y clasificar cualquier sonido.
Esta primera clasificación de las formas sonoras simples en dos partes {contor­
no y textura) se ajusta perfectamente al doble mecanismo perceptivo con el que
actúa el sentido de la audición, que da un claro predominio inicial a las sensacio­
nes de tono e intensidad y pone en una segunda etapa la sensación tímbrica.
El sistema auditivo, después de escuchar entre 1 y 1,5 décimas de segundo el
conjunto de frecuencias que componen un sonido (véase apartado 4.2.8), está ya
en condiciones de hacernos percibir una única intensidad y un único tono resul­
tantes. Este primer paquete de información comienza, entonces, a configurar las
formas del contorno sonoro. En cambio, nuestro oído sólo empieza a enviarnos
sensaciones sobre la complejidad acústica después de haber escuchado el sonido
durante todo un segundo. Sólo después de ese tiempo podemos percibir las for­
mas derivadas de la textura acústica. Es decir, empezamos a percibir las formas de
la textura acústica interna del sonido unas seis veces y media después de que ha­
yamos comenzado a sentir cómo es el contorno sonoro.
Parece, pues, muy clara la necesidad de diferenciar conceptualmente entre
contorno y textura de un sonido. Y, en consecuencia, la necesidad de establecer
toda la taxonomía de las formas sonoras simples partiendo de esta primera clasi­
ficación.
5.3.2. Clasificación según el inicio del contorno sonoro
La influencia de la evolución de la intensidad en el inicio de un suceso sonoro
es perceptivamente fundamental. La variación dentro de un mismo rango de in­
tensidad produce un efecto auditivo muy distinto si el cambio se extiende a lo lar­
go de todo un segundo, o si el salto de intensidad se produce en una centésima
parte de este tiempo. La gama numérica que cabe entre estas dos posibilidades es
177
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LAS FORMAS DEL SONIDO
muy amplia, no obstante, la gama de sus efectos perceptivos es esencialmente de
tres categorías.
Para establecer una clasificación de las formas sonoras simples en función de
la sensación que desencadena su ataque y su caída, tomaremos como referencia
temporal una duración global máxima del ataque de 1 segundo y una mínima de
0,01 segundos. Y como referencia de intensidad una energía sonora mínima de 0 dB
y una máxima de 50 dB.
La razones que nos llevan a tomar estas referencias son siempre perceptivas.
En el caso de la duración, ambas definen umbrales temporales. Como el lector re­
cordará (véase apartado 4.2.8) cuando un sonido tiene una duración entre 0,005 y
0,100 segundos su tono y su intensidad no son perceptibles y el efecto sonoro que
produce es sólo el de un chasquido que con la duración va aumentando de inten­
sidad. También recordará el lector que hasta que el oído no oye un sonido apro­
ximadamente durante 1 segundo no comienza a tener percepción de la sensación
tímbrica ni de la direccionalidad del sonido.
Respecto a la intensidad, tomaremos como referencia mínima los 0 dB por que
a esta energía se localiza el umbral de audibilidad a 1.000 Hz (véase apartado
4.2.2) (a menor intensidad el sonido ya no es audible). Y como referencia máxima
50 dB, ya que esta intensidad es la habitual de la voz durante una conversación
normal, lo cual supone una referencia perceptiva aproximada muy clara del gra­
do de intensidad.
Hecha esta introducción, pasamos ya a exponer detalladamente la terminología
que proponemos para nombrar los sonidos en función del carácter de su ataque.
estas fluctuaciones aparecen se establece un cuarto tipo de ataque que se suele
denominar -ataque múltiple»
176
Ataque duro. Hablaremos de ataque duro cuando el cambio de la intensidad del so­
nido de 0 a 50 dB se produce aproximadamente en 1 centésima parte de un segundo. La
sensación auditiva de esta forma de iniciar el sonido es la de una explosión, o un golpe
seco sobre algo duro. Es, por ejemplo, el efecto sonoro del inicio de las consonantes ex­
plosivas del español (ataque de unos 0,015 s.).
El ladrido de un perro, por ejemplo, tarda entre 0,08 y 0,10 segundos en llegar a su
intensidad máxima. Cuando se manipula este sonido de modo que la duración de su ata­
que se reduce por debajo de los 0,05 segundos, la sensación auditiva resultante es que el
ladrido se ha transformado en un golpe de algo duro sobre una madera muy resonante.
Ataque blando. Diremos que el ataque del sonido es blando cuando el estableci­
miento de la intensidad del sonido entre 0 y 50 dB tarda más de 5 centésimas de segundo.
La sensación auditiva que produce esta forma de iniciar el sonido es la de un comienzo
brusco pero sin efecto de chasquido o de explosión, viene a ser como un golpe sobre al­
go blando, o como el sonido de las sílabas empezadas con el fonema /B/ en el español.
Ataque lento. Diremos que un ataque es lento cuando el ascenso de la intensidad
para llegar de 0 a 50 dB se produce a lo largo de todo 1 segundo. Este tipo de ataque
permite escuchar claramente la subida progresiva del sonido, sensación que no es en
absoluto perceptible en los otros dos ataques. Es el sonido del inicio de las notas de un
órgano de viento, o del inicio de un bostezo.
Cuando el ataque se extiende a lo largo de un segundo el sistema auditivo tie­
ne ya capacidad para percibir fluctuaciones tonales o de intensidad, con lo que si
Ataque múltiple. Hablaremos de ataque múltiple cuando el ascenso de la intensidad
de 0 a 50 dB se desarrolla a lo largo de todo 1 segundo y, a la vez, durante este ascenso
progresivo se producen variaciones perceptibles del tono o la intensidad. La sensación
es de ascenso sonoro vibrante. Es un tipo de ataque que acostumbran a incorporar los
teclados electrónicos en algunas de sus gamas de sonido.
En el ataque duro y el ataque blando, el sistema auditivo no discrimina entre
tono e intensidad, puesto que es necesario que el sonido dure más de una décima
de segundo para que la sensación tonal sea perceptible al oído humano.
En la figura 33 el lector puede observar una representación gráfica de los cua­
tro tipos de ataque sonoro. En el eje de ordenadas se representa la intensidad en
decibelios y en el de abscisas el tiempo en segundos. La línea gruesa expresa la
evolución de la intensidad en función del tiempo, que aparece más vertical cuan­
to más rápido es el ascenso de la energía sonora.
5.3-3. Clasificación según el cuerpo del contorno sonoro
Es necesario hacer algunas consideraciones preliminares sobre el cuerpo de
los sonidos antes de iniciar el trabajo de clasificación y denominación propia­
mente dicho.
Más arriba llegábamos a la conclusión de que el tiempo que ha de durar un su­
ceso sonoro para poder percibirlo en todas sus dimensiones y, por tanto, poder
hablar de formas sonoras, es aproximadamente 1 segundo. En consecuencia, des­
de el punto de vista perceptivo, sólo podremos describir y nombrar con la preci­
sión suficiente el cuerpo de un contorno sonoro cuando éste se extienda, por lo
menos, durante 1 segundo.
Decíamos, también, que el concepto de cuerpo sólo tomaba sentido cuando en
el suceso sonoro existe una etapa central durante la cual las dimensiones del so­
nido se estabilizaban. Eso significa que, a menudo, nos podemos encontrar con
contornos sonoros que no tengan un cuerpo central bien definido porque la con­
figuración de sus formas pasa directamente del ataque a la caída. Esta es la clase
de contornos sonoros que generan, por ejemplo, los instrumentos de percusión:
tambores, timbales, platillos, triángulos, etc. En cualquier caso, a pesar de que un
sonido determinado carezca de cuerpo central, si el suceso se extiende global­
mente durante un segundo, éste desencadenará percepción dinámica, tonal y tím­
brica en el sistema auditivo y, por tanto, podremos hablar sin problemas de su in­
tensidad, su tono y su textura.
Una última consideración, que nos va a dar paso ya a una nueva definición de
categorías. A lo largo del cuerpo de un sonido son perceptibles siempre las evolu­
ciones paralelas del tono y la intensidad. Eso significa que ambas dimensiones van
a estar configurando, a la vez, formas sonoras. Sin duda, la combinatoria simultá-
178
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
LAS FORMAS DEL SONIDO
179
visto en el apartado 5.1.4 de este mismo capítulo que éste es ya por sí mismo un
cambio que define formas sonoras distintas. Entonces, según sea la condición de
estacionaria o variable de la intensidad definiremos tres tipos de formas diferen­
tes: intensidad estable, intensidad variable e intensidad oscilante. Veamos sus
definiciones concretas:
0,01 s.
0,05 s.
Oí s.
Intensidad estable. Podremos decir que una intensidad es estable cuando ésta per­
manezca sin sufrir ninguna variación un período de tiempo igual o superior a 1 segun­
do. Sólo se le podrá denominar intensidad estable durante el período que ha permane­
cido continuamente invariable.
De esta definición se deduce que dentro de un mismo suceso sonoro pueden
aparecer uno o varios períodos de intensidad estable.
Intensidad variable. Diremos que una intensidad es variable mientras esté sufrien­
do más de una alteración en sus sucesivos intervalos de 1 segundo, siempre que todas
estas variaciones no retornen cíclicamente al mismo valor.
Intensidad oscilante. Diremos que una intensidad es oscilante mientras esté su­
friendo más de una variación de su intensidad en sus sucesivos intervalos de 1 segun­
do, de modo que esas variaciones dinámicas se repitan cíclicamente dentro de cada in­
tervalo retornando siempre a un mismo valor.
Figura
33. Representación gráfica de los tipos de ataque sonoro según su efecto
perceptivo.
nea de variaciones de tono e intensidad desencadenan la percepción de formas
sonoras complejas de doble articulación. No obstante, puesto que el objetivo de
este apartado es el estudio de las formas sonoras simples, vamos a aproximarnos
al cuerpo del contorno sonoro separando formas tonales y formas de la intensi­
dad. Es decir tomando como referencia los mecanismos de la percepción auditiva
cuando ésta separa las formas tonales de las formas dinámicas.9
Veamos en, primer lugar, de qué modo podemos clasificar y, en consecuencia,
nombrar un sonido según su intensidad.
La primera diferenciación perceptiva que salta al oído es si la intensidad es di­
námica o estacionaria, es decir si permanece estable o está variando. Ya habíamos
9. La palabra -dinámica- se utiliza en la literatura técnica para hacer referencia a las variaciones de
la intensidad.
Perceptivamente, la sensación auditiva que produce una intensidad oscilante
es la de un sonido vibrante o pulsante que mantiene su intensidad modulada de
manera globalmente estable. Contrariamente, cuando la intensidad de un sonido
es variable, la sensación que produce es de cambio permanente.
Cada una de estas tres categorías sonoras puede subdividirse, a su vez, en va­
rias más. Para ello nos basaremos, de nuevo, en criterios perceptivos que puedan
tomar referencias suficientemente claras y familiares.
Comenzaremos por la intensidad estable. Para describir con cierta precisión
los distintos tipos de sensaciones que nos produce una intensidad estable será
muy útil tomar, de nuevo, como referencia central el sonido de la voz humana.
Seguramente, el lector estará de acuerdo con nosotros en que una energía sono­
ra media es la de una conversación a intensidad normal, esta intensidad suele an­
dar por los 50 decibelios. Y, probablemente, también estaríamos de acuerdo en
que a un lugar cerrado, sin grandes ruidos, donde no habla nadie podemos cali­
ficarlo como silencioso, o de intensidad baja; cuando se mide la intensidad en es­
te tipo de lugares y situaciones el resultado ronda los 20 decibelios. Contraria­
mente, cuando estamos cerca de un martillo neumático solemos decir que el
sonido que emana de él es muy fuerte y desagradable, este tipo de ruido suele al­
canzar una intensidad alrededor de los 100 dB. Estas referencias definen ya sin
problemas tres categorías: media, alta y baja. No obstante, nuestra familiaridad
con el sonido de la voz aún nos deja desglosar la categoría central en dos cate­
gorías intermedias: la voz muy fuerte (unos 70 dB) y la voz muy baja (unos 40
dB). Ahora tenemos ya 4 referencias claramente diferenciadas de niveles de in­
tensidad que nos permiten proponer un último nivel de clasificación para la in­
tensidad estable:
180
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Así, diremos que una forma sonora de intensidad estable puede ser:
•
•
•
•
Fuerte (unos 100 dB). Intensidad de un martillo neumático.
Media alta (unos 70 dB). Intensidad de voz muy fuerte.
Media baja (unos 40 dB). Intensidad de voz muy baja.
Débil (unos 20 dB). Intensidad del ambiente sonoro en una habitación cerrada si­
lenciosa.
Pasemos ahora a estudiar el último nivel con el que podemos clasificar per­
ceptivamente una intensidad variable.
Si más arriba establecíamos que lo característico de una intensidad variable era
su dinámica de cambio constante, sin repetir nunca un mismo valor de manera cí­
clica, las categorías que se configuran de manera lógica son dos: la del sonido que
aumenta de intensidad progresivamente y la del sonido que baja de intensidad
progresivamente.
Es decir, una forma sonora de intensidad variable puede ser:
• Ascendente. Aumenta de intensidad progresivamente.
• Descendente. Disminuye de intensidad progresivamente.
Entendemos que cuando se produce una inversión brusca en el sentido de la
variación, en coherencia general con los principios de la inercia sonora (véase
apartado 5.1.5), surge en el sistema auditivo una tendencia a fragmentar en dos
formas sonoras simples: una ascendente y otra descendente.
Vayamos, finalmente, al último nivel con el que podemos discriminar con cla­
ridad entre distintas intensidades oscilantes.
Para apoyar esta última clasificación recurriremos al concepto de tiempo mu­
sical, y a las investigaciones desarrolladas por Paul Fraisse en torno al concepto de
compás espontáneo. En efecto, la música ha utilizado tradicionalmente referen­
cias muy concretas para definir si una sucesión de sonidos es lenta o rápida crean­
do conceptos como: «grave», «andante», «moderato», «alegretto», «allegro» etc., y aso­
ciando cada uno de estos conceptos, respectivamente, a ideas de movimiento tan
concretas como «muy despacio», «velocidad de paseo», «velocidad moderada», «más
bien rápido» y «rápido». Tenemos, entonces, que un «grave», que es un ritmo aso­
ciado musicalmente a una sucesión de menos de 40 sonidos por minuto, se des­
cribe como «muy despacio», un «andante» (de 76 a 108 sonidos min.) se describe
como «velocidad de paseo» y un «allegro» (de 1'20 a 168 sonidos min.) como «rápi­
do» (véase Károlyi, 1984, pág. 45).
Está claro que las referencias «muy despacio», «velocidad de paseo», «rápido» y
«muy rápido» establecen un centro de modulación en la «velocidad de paseo» (76 a
108 sonidos min.). A partir de esta referencia, todo lo que tiene menor velocidad se
describe como lento, y lo que la tiene mayor como rápido. Este centro de modula­
ción, o velocidad moduladora, coincide de forma muy aproximada con la velocidad
de sucesión de movimientos que observó Paul Fraise cuando estudiaba el compás
espontáneo, es decir, el ritmo natural de movimiento en el que se ubican los indivi-
LAS FORMAS DEL SONIDO
181
duos cuando se mueven espontáneamente (véase Fraise, 1976, pág. 50). Y coincide,
a su vez, con la modulación natural del ritmo cardíaco, que oscila en un individuo
en reposo entre los 60 y los 90 latidos por minuto, o con el del número medio de pa­
sos por minuto al caminar. En suma, parece existir un centro natural para la percep­
ción de cualquier tipo de sucesión de fenómenos en el tiempo que nos indica de
manera automática cuando hemos de sentir que una sucesión es rápida o lenta. Y
este centro de modulación rítmica está en torno a los 70-80 estímulos por minuto.
Es evidente que este centro de modulación es un indicador muy claro en el
que apoyarnos para clasificar y denominar los sonidos en función de sus varia­
ciones cíclicas, así que vamos ya a recuperar, de nuevo, nuestro objetivo de clasi­
ficar los distintos tipos de intensidades oscilantes.
Como consecuencia de todo lo anterior, sabemos que un sonido de intensidad
oscilante producirá sensación de vibración rápida si la pulsación cíclica de su in­
tensidad supera las 80 variaciones por minuto, sensación de oscilación media
cuando la pulsación cíclica de su intensidad está entre 70 y 80 variaciones por mi­
nuto, y sensación de oscilación lenta si su pulsación está por debajo de las 70 va­
riaciones por minuto.
Así, diremos que una intensidad oscilante puede ser de:
Pulsación rápida (mas de 80 variaciones cíclicas por min.).
Pulsación media (entre 70 y 80 variaciones cíclicas por min.).
Pulsación lenta (menos de 70 variaciones cíclicas por min.).
El origen de este apartado era clasificar y denominar los sonidos en función de
las características perceptivas de su contorno, concretamente, del cuerpo de su
contorno sonoro. Hasta aquí, hemos revisado la clasificación a partir de la inten­
sidad, así que nos queda todavía pendiente concretar una terminología para de­
nominar el cuerpo de un contorno sonoro en función de sus formas tonales. De­
sarrollaremos esta terminología para el tono siguiendo, exactamente, la misma
estructura global que hemos utilizado ya para la intensidad. Es decir, observando,
en primer lugar, si el tono es estable, variable u oscilante. Y, después, detallando
subcategorías concretas para cada una de estas tres.
Pasemos, pues, de nuevo, a desarrollar las definiciones concretas, ahora para
clasificar y nombrar las formas tonales básicas.
Tono estable. Podremos decir que un tono es estable cuando éste permanezca sin
sufrir ninguna variación un período de tiempo igual o superior a 1 segundo. Sólo se le
podrá denominar tono estable durante el período que ha permanecido continuamente
invariable.
De esta definición se deduce, también, que dentro de un mismo suceso sono­
ro pueden aparecer uno o varios períodos de tono estable.
Tono variable. Diremos que un tono es variable mientras esté sufriendo más de una
alteración en sus sucesivos intervalos de 1 segundo, siempre que todas estas variacio­
nes no retornen cíclicamente al mismo valor.
182
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Tono oscilante. Diremos que un tono es oscilante mientras esté sufriendo más de
una variación de su frecuencia fundamental en sus sucesivos intervalos de 1 segundo,
de modo que esas variaciones tonales se repitan cíclicamente dentro de cada intervalo
retornando siempre a un mismo valor.
La sensación que produce un tono oscilante es la de un sonido vibrante que
mantiene su frecuencia fundamental modulada de manera globalmente estable.
En cambio, cuando el tono es variable, la sensación que produce es de cambio
permanente, sin ningún punto cíclico de referencia estable.
Como ocurría con la intensidad, cada una de estas tres categorías sonoras pue­
de subdividirse, a su vez, en varias más si nos apoyamos en criterios perceptivos
que puedan proporcionar referencias suficientemente concretas y familiares.
Para desarrollar la clasificación del cuerpo de un sonido con tono estable re­
curriremos otra vez a la voz humana y la tomaremos como referencia. Se suelen
clasificar sistemáticamente las voces masculinas como graves y las femeninas co­
mo agudas. Y dentro de las voces masculinas acostumbramos a percibir y deno­
minar como voces muy graves aquellas que tienen su frecuencia fundamental en­
tre los 60 y los 80 Hz. Finalmente, entre las voces femeninas, las que sitúan su
frecuencia fundamental alrededor de los 500 Hz nos parecen ya muy agudas y es­
tridentes.
Partiendo de estas referencias, clasificaremos las formas sonoras de tono esta­
ble del siguiente modo:
Agudo (500 Hz). Tono de una voz femenina muy aguda.
Medio alto (240 Hz). Tono de una voz femenina normal.
Medio bajo (120 Hz). Tono de una voz masculina normal.
Grave (70 Hz) Tono, de una voz masculina muy grave.
Pasemos ahora a estudiar los contornos sonoros con un cuerpo de tono varia­
ble. El caso de las formas sonoras de tono variable no cíclico es, sin duda, el más
complejo y abierto con el que nos podemos encontrar dentro de una taxonomía
de formas sonoras simples. La clasificación en ascendente y descendente es, a to­
das luces, demasiado pobre para las formas tonales. La experiencia tonal musical
y la experiencia entonativa oral configuran culturalmente un número muy amplio
de formas tonales simples. Ciertamente, consideramos que el número de formas
tonales es finito y, por tanto, sistematizable; no obstante, desarrollar aquí una re­
visión y clasificación suficientemente eficaz de este tipo de formas sonoras su­
pondría realizar una tarea larga, concreta y especializada que rebasa ampliamen­
te los objetivos de esta obra.
En cualquier caso, es importante no confundir las formas melódicas simples,
configuradas mediante variaciones tonales progresivas muy lentas, con las for­
mas tonales complejas construidas en doble articulación. Éste sería, por ejemplo,
el caso de las melodías construidas al teclear un piano. Los cambios acústicos
bruscos que supone cada salto de una nota a otra desencadenan una fragmenta­
ción auditiva muy clara en formas sonoras simples; a pesar de que estas formas
LAS FORMAS DEL SONIDO
183
simples sean percibidas, también, en paquetes, organizadas como formas sono­
ras complejas.
Optaremos, en consecuencia, por añadir a las categorías obvias de tono as­
cendente y tono descendente una tercera categoría general que recoja este tipo de
formas tonales características de la música y el habla.
Así, clasificaremos las formas sonoras de tono variable como:
• Ascendentes. Aumentan de frecuencia progresivamente.
• Descendentes. Disminuyen de frecuencia progresivamente.
• Melódicas. Sufren variaciones le frecuencia ascendentes-descendentes o descendentes-ascendentes, sin ningún cambio brusco.
Hemos especificado en las variaciones tonales melódicas la condición de que
su paso de ascendente a descendente, o viceversa, se produzca sin alteración
brusca, porque, en caso contrario, el sistema auditivo tenderá a descomponerla en
dos formas simples diferenciadas: una ascendente y otra descendente.
Ya para finalizar este apartado sobre la clasificación según las características
del cuerpo de los contornos sonoros, veamos con qué tipos básicos de tonos os­
cilantes podemos encontrarnos.
Ahora, vuelve a ser válida la lógica de clasificación que utilizamos para nom­
brar las intensidades oscilantes. Como vimos más arriba, la frecuencia de modula­
ción rítmica que utiliza nuestro sistema perceptivo para sentir si algo es rápido o
lento parece actuar con cualquier tipo de estímulos y, efectivamente, actúa del
mismo modo con las oscilaciones tonales que con las oscilaciones dinámicas.
Así, diremos, también, que un tono oscilante puede ser de:
Pulsación rápida (mas de 80 variaciones cíclicas por min.).
Pulsación media (entre 70 y 80 variaciones cíclicas por min.).
Pulsación lenta (menos de 70 variaciones cíclicas por min.).
5.3.4. Clasificación según elfinal del contorno sonoro
Igual que ocurría con el inicio, el final de un contorno sonoro aporta informa­
ción muy importante sobre la percepción formal de un suceso sonoro. Como vi­
mos con detalle, también más arriba, al final del contorno sonoro se le denomina
específicamente como: caída, en tanto que supone una caída final de la energía
sonora hasta su extinción definitiva.
Para concretar y describir los distintos tipos de caída recurriremos, exacta­
mente, a la misma lógica de clasificación que utilizamos para el ataque. Es decir,
por las mismas razones que en el apartado 5.2.2, tomaremos como referencia un
cambio de intensidad de 50 a 0 decibelios, y un tiempo de la caída que oscilará
entre 0,01 y 1 segundos.
La terminología que proponemos para nombrar los sonidos en función del ca­
rácter de su caída es pues la siguiente:
184
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Caída dura. Diremos que una caída es dura cuando la disminución de la intensidad
del sonido desde 50 hasta 0 dB se produce aproximadamente en 0,01 segundos. La sen­
sación auditiva de esta forma de terminar el sonido es de obstrucción seca y brusca. Es,
por ejemplo, el efecto sonoro que producen las consonantes oclusivas del español tras
una vocal; o el sonido de final cortado y antinatural característico de cerrar con un inte­
rruptor la salida amplificada de un canal de audio.
Caída blanda. Diremos que la caída de un sonido es blanda cuando la desaparición
de la intensidad de 50 a 0 dB tarda en producirse más de 5 centésimas de segundo. La
sensación auditiva que produce este tipo de caída del sonido es la de un final muy rá­
pido, pero sin oclusión. El efecto auditivo es el que produce una vocal situada al acabar
un grupo fónico, que termina de golpe, sin ningún tipo de alargamiento ni resonancia.
Caída lenta. Diremos que una caída es lenta cuando el descenso de la intensidad
para bajar de 50 a 0 dB se produce a lo largo de todo 1 segundo. Este tipo de caída pro­
duce un efecto auditivo característico de resonancia. Es el sonido del final de una nota
de piano, de guitarra, o de un grito en una sala vacía de paredes duras; la caja de reso­
nancia alarga el sonido y hace que éste se extinga lentamente.
Igual que ocurre con el ataque, cuando la caída de un sonido se extiende du­
rante un segundo, el sistema auditivo puede ya percibir fluctuaciones tonales o de
intensidad. Cuando estas fluctuaciones aparecen se establece el cuarto tipo de caí­
da que denominaremos también «caída múltiple»
Caída múltiple. Hablaremos de caída múltiple cuando el descenso de intensidad de
50 a 0 dB se extiende durante 1 segundo y, a la vez, a lo largo de este descenso progre­
sivo se producen variaciones perceptibles del tono o la intensidad. Es el tipo de caída
característico del sonido de un gong, o de una campana. También los teclados electró­
nicos acostumbran a disponer en su gama de sonidos de este tipo de caída.
5.3.5. La duración
No vamos a establecer una clasificación concreta en función de las duraciones
puesto que, como vimos ya en el apartado 4.2.8, ésta es una variable del sonido
extremadamente abierta desde el punto de vista perceptivo.
De todos modos, sí que nos parece imprescindible utilizar sistemáticamente el
concepto de duración en la descripción de cualquier forma sonora simple. Así, lo
que proponemos como parte de la descripción del contorno de una forma sonora
simple es: añadir siempre la duración aproximada en segundos. Es evidente, por
ejemplo, que la sensación que produce a nuestro oído la repetición de un suceso
sonoro exactamente de las mismas características acústicas, resulta completamen­
te distinta si el suceso dura 0,5 segundos o si dura, por ejemplo, 6 segundos. La
forma sonora pasa, perceptivamente, de ser un /bip/ a ser un /pitido largo/.
Se trata, pues, de decir cuál es la duración completa aproximada en segundos,
desde el inicio hasta el final, de cada forma sonora simple. Lógicamente, cuando
un sonido quede desglosado en varias formas sonoras simples deberemos descri­
bir cada una de ellas y añadir, también, sus respectivas duraciones en segundos.
LAS FORMAS DEL SONIDO
185
5.3.6. Clasificación según la textura
Como recordará el lector, hemos llamado textura a la sensación auditiva glo­
bal que se produce al percibir cómo evoluciona el timbre en el tiempo. Dicho de
otro modo, la textura es el resultado perceptivo que desencadena la variabilidad
del timbre a lo largo del tiempo.
Intentaremos aclarar y matizar con mayor precisión la diferencia que existe en­
te estos dos conceptos.
Utilizando un símil forestal, podemos relacionar la idea de contorno sonoro
con la silueta de un árbol centenario. Cuando observamos el árbol, en una prime­
ra aproximación solemos obtener información visual muy simplificada. Vemos glo­
balmente su silueta, es decir, el tipo de formas que configuran sus límites físicos y
nos sorprenden su tamaño global y su grosor. Del mismo modo que al escuchar un
sonido sin demasiada atención percibimos su contorno y sus caracteres acústicos
más dominantes, es decir, la energía sonora global y la frecuencia fundamental.
Luego, si nos acercamos más al tronco y lo observamos durante más tiempo y
con más detalle, nos damos cuenta ya del color y la rugosidad que tiene la super­
ficie del tronco. Igual que cuando escuchamos un sonido con el tiempo y la aten­
ción suficientes nos apercibimos ya de su textura.
El concepto de timbre está vinculado rígidamente a la estructura acústica de
los sonidos compuestos (véase apartado 3-3.3). Es la sensación que produce es­
ta estructura. Y el modo de aproximarnos a la estructura acústica global de un so­
nido, en un primer momento, es siempre sincrónico. Es decir, estudiamos el es­
pectro del sonido en un instante temporal determinado, o muestreamos el sonido
y observamos varios cortes temporales de él, y a partir de ahí nos hacemos una
idea de cuál es su composición acústica global. Viene a ser algo así como estudiar
la forma superficial del tronco de nuestro árbol centenario cortándolo en rodajas
para observar con detalle el perfil de cada una de ellas. Asimilemos, ahora, el
tronco a un sonido. Cada uno de los perfiles nos da información sobre el timbre
en un momento determinado, pero la forma global del sonido cambia a cada ins­
tante, del mismo modo que la superficie del tronco cambia de un centímetro a
otro. No hemos de confundir, entonces, el perfil del tronco en cada una de sus
rodajas, con el aspecto global que producían a la vista todas las protuberancias,
pequeñas rugosidades, variaciones de diámetro, y hendiduras antes de que el
tronco fuera cortado. En ese caso, estaríamos confundiendo el perfil de una sec­
ción determinada del tronco, con el aspecto global de su superficie, es decir, con
su «textura».
Así, el concepto de timbre está asociado a un perfil acústico concreto en un
instante determinado, pero al ir transcurriendo el tiempo la composición acústica
evoluciona, igual que evoluciona el perfil del tronco, y va configurando timbres
distintos. No hemos de confundir, entonces, los timbres de distintos instantes de­
terminados, con la sensación que produce al oído todo su conjunto tras configu­
rar una forma en el tiempo. O sea, no hemos de confundir el perfil timbrico de un
instante determinado, con la sensación de textura que produce al oído el resulta­
do global de su evolución temporal. En suma, el timbre es a la textura de un su-
186
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
ceso sonoro, lo que el perfil de las secciones del tronco son al aspecto global de
la superficie de nuestro árbol centenario.
Es cierto que cabría la posibilidad conceptual de encontrarnos con el tronco
de un árbol que fuese exactamente igual en toda su extensión. Dicho de otra ma­
nera, con un tronco de perfil homogéneo, aunque esto no es demasiado normal.
En realidad, sólo encontramos perfiles homogéneos en los listones que están a la
venta en las tiendas de bricolaje. Algo bastante parecido ocurre con los sonidos.
En efecto, cabe la posibilidad teórica de encontrar sucesos sonoros de timbre ho­
mogéneo, especialmente entre los sonidos artificiales de producción electrónica.
No obstante, tal como demuestran las investigaciones sobre timbre musical (véa­
se Pierce, 1985, págs. 178-179), son, precisamente, ciertas variaciones aleatorias
del timbre en el tiempo las que dan a los sonidos su textura característica, por
ejemplo, para diferenciar entre el efecto auditivo de los instrumentos de viento
construidos con madera, o construidos con metal. En realidad, el gran problema
de la industria electrónica que se dedica a la instrumentación musical es descubrir
cuáles son las variaciones tímbricas que pueden dar naturalidad y textura al soni­
do de unos instrumentos, que tienden siempre a sonar de manera demasiado me­
cánica y artificial.
Hechas estas precisiones pasemos ya a la terminología.
Puesto que el efecto de textura de un sonido depende de su composición
acústica global y, en consecuencia, de la evolución temporal de timbre, la termi­
nología que proponemos para nombrar las texturas básicas estará organizada de
acuerdo con las tres dimensiones del timbre. Tenemos, entonces, que la textura de
un sonido dependerá siempre, simultáneamente, de su armonicidad, de su defi­
nición y de su impresión espectral.
Estudiemos en primer lugar la definición-.
Denominábamos definición auditiva a la sensación de máximo grado de precisión,
exactitud o detalle sonoro que percibe el oyente al escuchar atentamente un sonido.
Y decíamos que esta sensación depende de la riqueza de frecuencias que com­
ponen un sonido. A mayor gama de frecuencias mayor sensación de definición
auditiva. Partiendo de esta concepción, vamos a establecer tres grados distintos de
nivel de definición dependiendo de la gama de frecuencias que denominaremos
y definiremos del siguiente modo:
• Definición baja-. Diremos que un sonido es de baja definición cuando esté com­
puesto por una gama de frecuencias muy reducida, por ejemplo la que va de los
300 Hz a los 3.000 Hz. Esta gama de frecuencias produce una sensación de calidad
auditiva muy pobre y poco matizada, característica en los sonidos escuchados a
través del auricular de un teléfono.
• Definición media-. Diremos que un sonido es de definición media cuando esté
compuesto por una gama de frecuencias intermedia, por ejemplo la que va de 160
a 6.300 Hz. La sensación de precisión auditiva que produce esta banda de fre­
cuencias es la característica de la radio de onda media y de onda larga, o la del so­
nido del cine de los años cuarenta y cincuenta.
LAS FORMAS DEL SONIDO
187
• Definición alta: Calificaremos a un sonido como de alta definición si está com­
puesto por una gama de frecuencias tan extensa como la que es capaz de percibir el
oído humano (de 20 a 20.000 Hz). Esta gama de frecuencias produce la sensación
auditiva de gran minuciosidad y exactitud característica de escuchar sonidos natu­
rales con la fuente muy cercana al oído, y de las cadenas de sonido de alta fidelidad.
La sensación más característica de la definición auditiva es la que percibimos
cuando en cualquier paisaje sonoro cotidiano somos capaces de diferenciar inme­
diatamente cuáles son los sonidos naturales y cuáles son los que provienen de la ra­
dio o la televisión. Los sonidos naturales tienen siempre una definición mucho más
alta que los de la televisión o la radio, que suelen ser de definición media o baja.
La dimensión de la textura de los sonidos a la que nos vamos a dedicar ahora
será la impresión espectral.
Llamábamos impresión espectral a la sensación de diferente matiz auditivo que per­
cibe un receptor, cada vez que escucha un sonido de idéntica composición de frecuen­
cias, pero con distinta envolvente espectral. Entendiendo como envolvente espectral de
un sonido la forma obtenida al trazar una línea que une todas las puntas de cresta de
cualquiera de sus espectrogramas posibles.
Explicábamos también en el apartado correspondiente (3.3.3) que la forma
más habitual de construir o alterar esta impresión espectral es influyendo sobre la
caja de resonancia en la que se produce el sonido. Así, una voz que grita en una
habitación vacía y pequeña de paredes muy duras queda reforzada en sus fre­
cuencias agudas y se vuelve «brillante». Y un sonido al que, mediante un ecualizador, se le refuerzan las frecuencias graves adquiere una textura «oscura».
Para concretar tres categorías claramente diferenciadas dentro de la sensación
de impresión espectral, tomaremos como referencia una división del espectro de
frecuencias audibles en tres zonas: una zona de frecuencias bajas (20 a 200 Hz),
una de frecuencias medias (200 a 3-000 Hz) y otra de frecuencias altas (3.000 a
20.000 Hz). Cuando la envolvente de las frecuencias de un sonido se manipula, de
modo que la intensidad del tercio de frecuencias altas, o el de las bajas, resulta
proporcionalmente distinto de la intensidad de los otros dos tercios del espectro,
la distinta impresión sonora es muy clara para el oído. A los tres tipos de textura
que se configuran siguiendo estos criterios los denominaremos: impresión oscu­
ra, impresión brillantez impresión mate.
Así, definiremos las formas de la textura sonora en función de la impresión es­
pectral que producen del modo siguiente:
Oscura. Diremos que la impresión espectral de un sonido es oscura cuando la in­
tensidad de su zona de frecuencias bajas es proporcionalmente superior a la intensidad
del resto de frecuencias. Es el matiz que adquiere una voz
Brillante. Diremos que la impresión espectral de un sonido es brillante cuando la
intensidad de su zona de frecuencias altas es proporcionalmente superior a la intensi­
dad del resto de frecuencias. Es el matiz que adquiere una voz cuando se emite en una
habitación vacía de paredes lisas y duras.
188
LAS FORMAS DEL SONIDO
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Mate. Diremos que la impresión espectral de un sonido es mate cuando la intensidad
de su zona de frecuencias medias es proporcionalmente superior a la intensidad del resto
de frecuencias. Es el matiz que adquiere la voz cuando se emite en una pequeña sala de
paredes acolchadas o enmoquetadas; por ejemplo, el locutorio de un estudio de radio.
Este tipo de matiz en la textura del sonido puede notarse, también, observan­
do cómo influye la postura del resonador bocal en la calidad del sonido de la voz.
Cuanto más ahuequemos la boca hacia la garganta más se oscurece la voz, y cuan­
to más ampliemos la cavidad bocal hacia la parte exterior, separando las mandí­
bulas y aplastando hacia abajo la lengua, más brillante suena. La vocal /U/ por
ejemplo produce una impresión espectral mucho más oscura que la /E/, que sue­
na bastante más brillante. En cambio, cuando se habla entre dientes y con el dor­
so de la lengua próximo al paladar la resonancia de la voz se empobrece y pro­
duce una sensación de textura sonora completamente mate.
Vayamos ya, por último, a la armonicidad.
Dijimos que la armonicidad es el distinto grado de limpieza y agradabilidad que
percibimos al escuchar un sonido compuesto, dependiendo de la relación que existe en
su espectro entre armónicos y parciales. Cuanto mayor sea la gama de frecuencias or­
ganizada armónicamente, mayor será la sensación de limpieza y agradabilidad, es decir:
mayor será la armonicidad.
En la tesis doctoral de quien escribe estas líneas se mostró cómo un grupo muy
amplio de oyentes juzgaban series de voces como más o menos agradables y
transparentes, según éstas tuvieran una franja más o menos amplia de frecuencias
de su espectro organizadas armónicamente (véase Rodríguez Bravo, 1989, págs.
243-247). A pesar de que toda la investigación acústica estaba desarrollada sobre
un fondo-escala de 10.000 Hz, se pudo observar con claridad que los oyentes dis­
criminaban el grado de transparencia de las voces sólo en función de la cantidad
de armónicos que aparecieron en la banda de los 5.000 primeros Hz del espectro.
Apoyándonos en estos resultados, tomaremos como referencia acústica los
5.000 primeros hertzios del espectro audible y los dividiremos en tres bandas
aproximadamente iguales. Es decir: de 0 a 1. 700 Hz, de 1.700 a 3-300 Hzy de
3-300 a 5-000 Hz. Ahora, según se extienda la franja de frecuencias armónicas a
una, dos o las tres bandas, denominamos respectivamente la textura según su
grado de armonicidad como: sucia, basta o transparente.
Ahora, pasemos ya a definir estos tres matices de la textura sonora que depen­
den del grado de armonicidad.
Sucia. Diremos que una textura sonora es sucia cuando la organización armónica
de su espectro de frecuencias esté por debajo de los 1.700 Hz. Un sonido de textura
muy sucia es, por ejemplo, el que emana de un molinillo de café. Las voces de los villa­
nos de cine y de teatro suelen tener una textura sucia.
Basta. Diremos que una textura sonora es basta cuando la organización armónica
de su espectro de frecuencias esté por debajo de los 3-300 Hz. Es, por ejemplo, el soni­
do producido por una trompetilla de juguete.
189
Transparente. Diremos que una textura sonora es transparente cuando la organiza­
ción armónica de su espectro de frecuencias esté por encima de los 3.300 Hz. Un ejem­
plo de textura muy transparente es el sonido de un diapasón, o el de una copa de cris­
tal de Bohemia. Las voces de los héroes y las heroínas jóvenes de cine y teatro suelen
tener texturas transparentes.
Es importante tener en cuenta que la textura de un sonido tiene siempre las
tres dimensiones simultáneamente. Nos referimos a que es necesario nombrar su
grado de definición, y de armonicidad, y decir, además, qué tipo de impresión
espectral produce. Así, de la textura del sonido, por ejemplo, de la sirena de un
gran barco que suena cerca de nosotros podemos decir que tiene una definición
alta, que produce una impresión espectral oscura, y que armónicamente es bas­
ta. A medida que el barco se va alejando el sonido pierde cada vez más definición,
así que diremos que la sirena sigue sonando oscura y basta, pero, ahora, ya con
una definición muy baja.
5-3.7. Cuadro global
Queremos insistir en que esta taxonomía no pretende ser exacta y exhaustiva
sino aproximada y, sobre todo, útil para la descripción de cualquier sonido; natu­
ralmente sin dejar de ser rigurosa desde el primero al último término que hemos
propuesto.
El cuadro global que exponemos en la figura 34, en realidad, es la recomposi­
ción organizada y sistemática de las partes de un rompecabezas que estaba toda­
vía sin montar. Unas piezas muy familiares, pero casi siempre aisladas o descolo­
cadas, y que al ordenarlas son perfectamente capaces de dar cuenta detallada de
formas sonoras que, normalmente, no sabemos describir si no es nombrando su
fuente sonora, o alguna otra fuente que produzca un sonido similar.
Estamos convencidos de que este cuadro puede ser un instrumento muy útil pa­
ra todos aquellos estudiosos y profesionales que necesitan hablar de los sonidos y
que se encuentran, sistemáticamente, con una gran escasez de términos adecuados.
Pasemos, ahora, a explicar el funcionamiento del cuadro de la figura 34. Como
el lector habrá deducido ya, en el cuadro se hace una presentación global que in­
terrelaciona todos los conceptos que hemos tratado en este apartado establecien­
do hasta cuatro subniveles de dependencia. El modo de utilizar el cuadro es reco­
rrerlo de arriba abajo, seleccionando el término que se adecúa en cada nivel y
subnivel a la forma sonora que queremos describir.
Para mostrar su funcionamiento describiremos el graznido de un cuervo y lo
compararemos, por ejemplo, con el trino de un canario.
Comencemos por el graznido. En primer lugar explicaremos cómo es su contor­
no. El ataque del graznido es duro y su cuerpo sonoro tiene una intensidad estable
media alta y un tono, también estable y medio alto. La caída del graznido es blan­
da. Y cada graznido dura alrededor de 1 segundo. Aunque, sin duda, la caracterís­
tica más definitoria del graznido está en su textura. Una textura de definición alta
pero con una impresión espectral matey de una armonicidadespecialmente basta.
190
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Podemos hacer una descripción igualmente sistemática y ordenada del trino
del canario pero sin duda lo mas interesante será buscar cómo podemos nombrar
las diferencias.
Igual que en el caso del graznido, el trino del canario tiene un ataque duro,
pero la intensidad de su cuerpo sonoro no es estable sino oscilante. Oscila con
una pulsación rápida en torno a una intensidad media baja, en lugar de media
alta como en el caso del cuervo. El tono es también estable, pero en lugar de ser
medio alto es muy agudo. Mientras cada graznido tiene un contorno aproxima­
damente de 1 segundo de duración, el contorno oscilante de un trino dura entre
2y 3 segundos cada vez que se produce. Finalmente, respecto a la textura, la de­
finición del sonido del canario es también alta, pero si en el cuervo la armonicidad es basta y la impresión espectral mate, en el canario la textura resulta extre­
madamente brillante y transparente.
Pensamos que en estos ejemplos quedan bien reflejadas las posibilidades de esta
terminología. Es cierto que, en un principio, esta taxonomía puede parecer demasia­
do simplista y elemental; pero también lo es que la acumulación de un número sufi­
cientemente amplio de categorías simples referidas al mismo objeto de estudio, con­
figuran una información muy rica y compleja. En cualquier caso, esta taxonomía está
planteada de un modo abierto. Con esto queremos decir que el desdoblamiento en
sólo tres o cuatro clases de cada una de las categorías fundamentales no es en abso­
luto un planteamiento limitador. Es evidente que hablar sólo de cuatro categorías (al­
ta, media alta, media baja y débil) resulta ridículo para una persona acostumbrada a
manejar intensidades sonoras. En ese sentido, la taxonomía propuesta no plantea nin­
gún problema para que en lugar de cuatro categorías utilicemos diez y en lugar de ha­
blar de intensidad media alta hablemos exactamente de ■ 76 decibelio». El objetivo de
plantearla del modo que lo hemos hecho es que pueda resultar eficaz y coherente tan­
to a nivel de las descripciones apoyadas simplemente en la percepción, como en las
descripciones apoyadas en los más sofisticados instrumentos de análisis acústico.
5.4. Sobre las formas sonoras complejas
Un exponente muy claro de la complejidad que pueden llegar a alcanzar los
sonidos son las formas sonoras de la lengua, tanto en su nivel léxico como en su
nivel sintáctico y discursivo. En el proceso del habla se encaraman uno sobre otro
entre 4 y 5 niveles estructurales para construir organizaciones sonoras extraordi­
nariamente complicadas. Este proceso de complejidad progresiva se suele inter­
pretar utilizando recursos teóricos con el concepto de la doble articulación.
La tradición lingüística suele explicar la doble articulación de la lengua, esta­
bleciendo un primer nivel en las formas sonoras que constituyen los fonemas y un
segundo en las que constituyen las palabras. Aunque, en otras ocasiones, se esta­
blece, también, el primer nivel en las palabras y el segundo en las frases. Parece,
entonces, que, en lugar de doble articulación deberíamos hablar de cuádruple.
En realidad, la denominación de doble articulación se mantiene a pesar de que su
aplicación conceptual se desarrolla normalmente en varios niveles distintos. Es
191
LAS FORMAS DEL SONIDO
CONTORNO: (ataque + cuerpo + caída + duración)
Duro
Blando
Lento
■ Oscilante
ATAQUE
.
•Alta
•CUERPO: (intensidad + tono)
Media alta
■ Estable- ■ Media baja
Débil
Ascendente
Descendente
INTENSIDAD:
Pulsación rápida
Pulsación media
Pulsación lenta
■ Agudo
■ Medio alto
- Estable-. Medio bajo
4
•Grave
l TONO: —
• Dura
,
- Blanda
• CAIDA— Lema
Ascendente
Descendente
Formas melódicas
¿
Pulsación rápida
Pulsación media
Pulsación lenta
• Oscilante
DURACIÓN
TEXTURA: (definición + impresión espectral + armonicidad)
r Alta
DEFINICION-1 Media
- Baja
r Oscura
------ IMPRESIÓN ESPECTRAL —L Brillante
*• Mate
r Sucia
ARMONICIDAD-! Basta
1 Transparente
Figura
34. Taxonomía de las formas sonoras simples.
decir, lo mismo se utiliza la idea de doble articulación cuando pasamos de fone­
mas a sílabas, que cuando pasamos de palabras a frases.
Cuando Moles se aproximó al problema de la percepción de distintos niveles
de complejidad formal, optó por alejarse de los referentes lingüísticos e intentó
desenmarañar el problema observando la percepción visual (siempre más fácil de
manejar que la auditiva) llegando, finalmente, a la conclusión de que debíamos
hablar de signos y supersignos, y de una jerarquía entre 1 y 5 niveles. Afirmando,
además, que debía establecerse en cada nivel cuál es el repertorio de signos o de
supersignos que se utilizan (véase Moles, 1976, págs. 112-119). Esta última reco­
mendación sí que estaba, evidentemente, inspirada en la lingüística y en sus re­
pertorios cerrados de sonidos y de palabras.
192
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Moles establecía un nivel de salida y varios de supersignos. Es decir, un primer
nivel de formas básicas: nuestra taxonomía de las formas sonoras simples podría
ser este punto de partida. Luego, un segundo nivel de supersignos en el que se
componen nuevas formas a partir de estas unidades básicas, sería el caso de las
super-formas melódicas compuestas a partir de distintas formas sonoras simples
separadas entre sí (notas). Y un tercer nivel compuesto por la superposición de
varias super-formas melódicas, por ejemplo, las que componen un sonido armó­
nico característico.
Ciertamente, el modelo molesiano supera y rebasa la idea de doble articula­
ción, pero parte de un nivel de salida que en la realidad objetiva es siempre su­
mamente difícil de establecer.
En este sentido, Shaeffer afirma que los niveles de estructuración perceptiva
constituyen una cadena sin fin de eslabones dobles (Shaeffer, 1988, pág. 171). En
esta cadena, cada forma coherente que consigamos observar y definir aparecerá
siempre como unidad de un nivel estructural superior; y cuando observemos esa
misma forma con el detalle y la resolución suficientes, ésta se mostrará siempre
como compuesta por unidades más simples de un nivel estructural inferior.
Pensamos, con Shaeffer, que la percepción es una cadena sin fin de formas y
super-formas, y pensamos, como Moles, que existe un punto de partida. Pero es­
te punto de partida no es inicial, sino central. El punto de partida son las formas
que definen de manera automática nuestros mecanismos perceptivos antes de que
medie la educación.
A partir de ahí y mediante el entrenamiento cultural, somos capaces de subdi­
vidir encontrando micro-formas o de agrupar reconociendo macro-formas. Así, un
mecánico puede identificar dentro de la maraña de ruidos de un automóvil en
marcha la vibración del tubo de escape flojo, gracias a su especialización en es­
cuchar analíticamente el sonido de los motores de explosión. Y un músico es ca­
paz de reconocer entre la cascada de notas de un piano el sonido de todos los
acordes de sexta aumentada, gracias a su entrenamiento en la escucha de sonidos
musicales relacionados entre sí.
En suma, nuestra taxonomía de formas sonoras simples está situada en ese ni­
vel central. Perceptivamente el nivel más simple y automático, dentro de la cade­
na posible de formas sonoras reconocibles por el ser humano. A partir de ahí, ha­
blaremos de formas sonoras analíticas cuando seamos capaces de súbdividir
perceptivamente una forma sonora simple en dos o más formas elementales. Y, si­
guiendo la misma lógica, hablaremos de formas sonoras complejas cuando agru­
pemos perceptivamente como una única unidad auditiva sonidos que estén com­
puestos por dos o más formas sonoras simples, ocurra esto oyendo las distintas
formas simples de manera sucesiva, o bien simultáneamente en el tiempo.
Justo en este punto de nuestro estudio de los sonidos es donde juega su papel
crucial la formación cultural y el aprendizaje sonoro del individuo. Cuando entra­
mos en el universo de las formas sonoras complejas aparece con una gran fuerza
la influencia cultural del aprendizaje. Actuando ésta de modo que: cuanto mayor
es la complejidad de las formas, mayor es el papel de la educación del oído para
que sea posible percibirlas
Capítulo
6
DE LA FORMA SONORA AL SENTIDO
El objetivo de este capítulo es estudiar con detalle los procesos que utiliza el ser
humano para asignar un sentido determinado a cualquier sonido en el contex­
to audiovisual. En este apartado se revisa a grandes rasgos el modelo clásico de
la semiótica, para proponer uno nuevo y más amplio, que incorpora y rebasa las
propuestas semiológicas.
6.1. El modelo semiótico
Para explicar el fenómeno de la construcción de sentido, la lingüística y a par­
tir de ella la semiología nos proporcionan el concepto de signo, explicando la
construcción de sentido a partir de la interacción entre los conceptos de signifi­
cante (forma reconocible de cualquier sustancia expresiva), significado (sentido
asociado a esa forma reconocible) y referente (parte del universo referencial a la
que se asocia el significado). Podemos, lógicamente, reducir este modelo sólo al
sonido y explicar la producción de sentido a partir de la interacción que se esta­
blece entre las formas sonoras reconocibles, la asociación de cada forma sonora
a un contenido y la parte del universo que estamos nombrando o escuchando.
Siguiendo en esta línea de pensamiento, el fenómeno de la producción de sen­
tido en torno a las formas sonoras se ha de apoyar, a la vez, en dos concepciones
en cierto modo antagónicas: la saussuriana y la peirceana.
La diferencia esencial entre estas dos concepciones es que la primera entiende
el signo como una forma perceptible que se elige arbitrariamente para asociarla a
un sentido determinado. Éste es el caso de la concepción saussuriana (véase Saussure, 1980). En cambio, la segunda entiende el signo como una forma perceptible
que está vinculada físicamente con algún fenómeno real del que emana su senti­
do (véase Peirce, 1987). Se habla entonces, respectivamente, de signo arbitrario
(concepción saussuriana) y de signo motivado (concepción peirceana).
Revisemos, ahora, cada una de estas dos concepciones aplicándolas ya exclu­
sivamente a la asignación de sentido a las formas sonoras.
6.1.1. Signos sonoros motivados y signos sonoros arbitrarios
Los signos sonoros motivados son aquellos que tienen su origen en formas so­
noras que al reconocerlas nos remiten a un ente o a un fenómeno concreto en el
universo referencial que es su fuente de producción. Son formas sonoras vincula­
das físicamente a la fuente de vibraciones que las produce, y lo que nos indican es
la existencia o la presencia de esta fuente. Es el caso de sonidos como: el /pitido
de un teléfono/, el /claxon de un automóvil/, el /ruido de motory de rodadura de
un automóvil/, el /sonido de un instrumento musical/, el /ruido de traqueteo de
un tren/, un /trueno/, el /sonido del viento/, el /sonido de la lluvia/ Este tipo de
formas sonoras son denominadas por Peirce como índices. Y, como hemos dicho,
se caracterizan por estar siempre asociadas físicamente al fenómeno que las pro­
duce. Son los signos más simples posibles.
Este modelo de construcción de sentido propuesto por Peirce funciona bien
en los ámbitos naturales, donde el ser humano está en contacto directo con las
196
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
fuentes generadoras del sonido. Es decir, el sonido del claxon de un automóvil es,
efectivamente, un índice de la presencia de un coche cuando estamos cruzando
una calle. Pero no lo es en absoluto cuando lo oímos mientras estamos en casa
viendo y escuchando el televisor.
Los signos sonoros arbitrarios son aquellas formas sonoras que están asocia­
das mediante elección arbitraria a una clase de objetos o acciones del universo re­
ferencia!. Son estructuras sonoras como las palabras: /árbol/, /aula/, /bolígrafo/,
/papel/, /correr/, /amar/, /comer/, /hablar/ etc. Los caracteriza el hecho de que no
existe ninguna razón que explique por qué cada una de estas secuencias de soni­
dos ha sido asociada a determinado objeto o acción.
Igual que ocurría con los signos motivados, el modelo para explicar la pro­
ducción del sentido sonoro que propone Saussure funciona bien en un contexto
literario de lectura y escritura, pero funciona bastante peor en un contexto audio­
visual ya que la forma de decir cada palabra está siempre vinculada en mayor o
menor grado, por ejemplo, al estado emocional del individuo, o a las característi­
cas objetivas de aquello que se nombra. La palabra «grande» por ejemplo tiende a
tener su intensidad y la duración de sus sonidos vocálicos vinculados al tamaño
del objeto nombrado. A mayor tamaño, mayor intensidad y mayor duración de las
vocales (véase Rodríguez Bravo, 1984). Y, ciertamente, en este tipo de fenomeno­
logía sí existe un cierto nivel de relación entre sonido, fuente sonora y universo
referencial.
Obviamente, la producción de sentido sonoro en el marco de la comunicación
audiovisual incluye de manera muy clara ambas concepciones sígnicas ya que el
lenguaje audiovisual usa constantemente sonidos de objetos y los mezcla con so­
nidos del habla. Pero el uso que hace el lenguaje audiovisual del sonido rebasa
muy ampliamente el marco que se define al sumar las dos concepciones del sig­
no. El lenguaje audiovisual produce mecanismos de construcción de sentido de
los que no es posible dar cuenta recurriendo sólo a los modelos de la semiótica
clásica.
6.1.2. La construcción de sentido sonoro en el ámbito audiovisual
En el marco del lenguaje audiovisual, podemos construir artificialmente el so­
nido de una tormenta mediante la suma de sonidos de viento, de lluvia y de true­
nos, y usar este sonido para aumentar la sensación de dramatismo de una situa­
ción determinada: por ejemplo el desplazamiento del héroe por el interior del
castillo del vampiro. Ahora el sonido del viento, la lluvia y los truenos han dejado
de tener el valor de indicar que llueve y hace viento ya que mientras narramos las
situaciones del héroe dentro del castillo esto es objetivamente irrelevante. Lo
esencial de estos sonidos es su capacidad de comunicar sensación de inseguridad
y de peligro al espectador que contempla la secuencia. Hemos creado, pues, un
nuevo sentido que no es el de índice, y evidentemente, tampoco es el de signo
lingüístico arbitrario. Pero veamos algunos ejemplos más.
DE LA FORMA SONORA AL SENTIDO
197
En el contexto audiovisual, la forma sonora del /ring/ de un teléfono suele
ser simplemente la evocación de una fuente sonora, pero puede ser, también,
una forma de explicar, por ejemplo, el estado de ánimo de un personaje. Sabe­
mos que cierto personaje está afectado emocionalmente por un suceso del dra­
ma, pero aún no sabemos exactamente cuánto. Nuestro héroe se ha dejado caer
en el sillón de una sala de estar y permanece inmóvil con la mirada fija en el sue­
lo. Como parte del atrezzo de la sala de estar, muy cerca de él, hay un teléfono
en una mesilla. ¡Ahora es el momento de hacer sonar el teléfono! Introducimos el
/ ring/ y lo hacemos sonar una y otra vez mientras nuestro atormentado héroe si­
gue sin moverse ni un centímetro, ignorando por completo la posibilidad de des­
colgar el aparato.
Evidentemente, el /ring/ del teléfono es lo único que ha variado en la situa­
ción y, por tanto, el único elemento narrativo que explica hasta qué punto nues­
tro personaje está terriblemente afectado por los hechos. Ese sonido no narra que
hay un teléfono que está sonando sino la situación en la que ha quedado nuestro
hombre.
Volvemos a encontrarnos con un sonido asociado a una situación, que aporta
una información esencial sobre ella. Pero esa información no ha sido asignada
aprioristicamente como ocurre con las palabras de la lengua, ni tampoco existe
una relación física de sonido/fuente entre el /ring/ y nuestro hombre.
Otra situación interesante es cuando se producen sentidos muy diversos oyen­
do siempre la misma forma sonora.
Pensemos, por ejemplo, en la melodía de un piano. Según sea nuestro interés
y nuestros objetivos, después de oír exactamente la misma secuencia de sonidos
podemos interpretar: «él tiene un piano en casa», «¡él también sabe tocar el piano!»,
«está tocando cielito lindo o «el tempo de esa melodía está cambiado». Es decir, a
partir del mismo sonido se han construido varios sentidos radicalmente diferentes.
Como en la comunicación interpersonal o en la comunicación del hombre con
su entorno, en el contexto del lenguaje audiovisual cada forma sonora es utilizable y utilizada de múltiples maneras para obtener sentido de ella. No obstante, en
todos estos ejemplos usamos las formas sonoras y las interpretamos dándoles un
sentido, pero ninguno de los ejemplos propuestos de producción de sentido res­
ponde a la definición peirceana de índice ni tampoco a la saussuriana de signo en
su sentido arbitrario.
Hasta aquí sólo hemos recurrido a ejemplos de formas sonoras no verbales. No
obstante, veremos que cuando usamos secuencias de discurso lingüístico en un
contexto dramático audiovisual, es decir, sonidos a los que supuestamente se les
ha asignado de manera arbitraria un sentido previo concreto, ocurre algo muy pa­
recido.
Pensemos en la siguiente situación: oímos la voz de un personaje que grita re­
pitiendo cada vez con mayor intensidad y a mayor velocidad /correr/, /correr/,
/correr/, /correr/. El grito suena desgarrado, con tono medio grave, y una textura
mate y muy basta.
Igual que ocurría antes, es posible hacer varias interpretaciones. Después de
haber escuchado esto aisladamente podemos interpretar: «he escuchado a una
198
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
persona angustiada que quiere huir» u «oigo a un desequilibrado mental que está
pasando una crisis» o bien «estoy escuchando a un actor que interpreta una esce­
na muy dramática».
En este último ejemplo, a pesar de que trabajamos exclusivamente con signos
lingüísticos, se está utilizado la palabra «correr» como un índice, es decir como un
signo motivado y no como un signo arbitrario.^ información que nos permite
desarrollar las producciones de sentido que hemos propuesto no era el contenido
arbitrario de la palabra, sino la matización sonora con la que se está pronuncian­
do ésta. Evidentemente, existe una relación directa entre la forma de pronunciar y
el sentido completo que asignemos a cualquier texto oral. "A
Todos los ejemplos anteriores que desbordan la concepción tradicional de sig­
4 no tienen un elemento en común: el papel activo del oyente. El sujeto receptor no
3 actúa en absoluto como una máquina automática que procesa repertorios cerra­
dos de signos. El receptor reestructura, matiza y recrea cada signo sonoro en fun5 ción de la situación comunicativa en la que lo encuentra. Y no sólo eso, sino que
en función de su propio conocimiento previo sobre el valor informativo de cada
forma sonora, es capar de recomponer formas nuevas con contenidos nuevos; de
,ó asociar signos lingüísticos a índices acústicos y recomponer nuevas formas sono­
ras complejas que actúan a modo de formantes semánticos que al unirse desenca­
denan nuevos sentidos cada vez más ricos y matizados.
Estamos diciendo que el receptor, el oyente, parte del dominio profundo de
sus propios automatismos perceptivos y de la acumulación de una larga expe­
riencia vital en asociar formas sonoras y sentido, para conducir activamente su
propia escucha. El oyente decide activamente en cada ocasión cómo debe oír y
luego interpreta lo que oye para darle sentido. Pero este sentido no tiene por qué
estar en repertorios prefijados, puede ser un sentido nuevo: modificado, recom­
puesto, o recién descubierto.
Estos ejemplos muestran cómo los dos modelos clásicos que ha utilizado tra­
dicionalmente la semiología son insuficientes para dar cuenta de todas las dimen­
siones de producción de sentido que se producen en el contexto del lenguaje au­
diovisual a partir de las formas sonoras. Necesitamos, pues, buscar y desarrollar
un modelo mucho más amplio, que sea capaz de explicar situaciones de produc­
ción de sentido como las que hemos estudiado en los ejemplos anteriores.
6.2. El modelo de los mecanismos de escucha
En ocasiones se oye un sonido, pero no se le presta ninguna atención; y otras
veces se escucha algo con gran esfuerzo pero no llega a oírse bien. Del mismo
modo, podemos reconocer el sonido de la voz de un conocido sin comprender lo
que dice; o comprender perfectamente lo que dice alguien sin llegar a reconocer
quién es el propietario de aquella voz.
El modelo que vamos a desarrollar en este apartado se plantea a fondo este ti­
po de problema aplicando la concepción shaefferiana de la audición. Shaeffer es­
tablece cuatro mecanismos diferenciados de escucha: oír, escuchar, reconocer y
DE LA FORMA SONORA AL SENTIDO
199
comprender (Shaeffer, 1988, págs. 61-66). Apoyándonos en esta línea de pensa­
miento y en el análisis del proceso de aprendizaje perceptivo que realiza el ser hu­
mano hasta aprender los lenguajes sonoros complejos, propondremos un modelo
que explica la construcción del sentido sonoro a partir de la especialización en el
uso de la propia capacidad auditiva.
Revisemos, ahora, con detalle, cada uno de los cuatro tipos de escucha pro­
puestos por Shaeffer.
6.2.1. Oír
Este es el primer nivel de audición, el mas simple. Supone, sencillamente, re­
cibir información a través de nuestro sistema auditivo. El universo que nos rodea
está lleno de estímulos vibrantes que llegan a nuestro oído en forma de variacio­
nes de presión del aire. Pero estos estímulos, estos sonidos, no tienen por qué ser
tenidos en cuenta de una forma activa y atenta por parte del receptor. Cuando es­
to ocurre, es decir cuando recibimos sonido sin prestarle atención activa es cuan­
do estamos oyendo.
En realidad, la mayor parte de los estímulos sonoros que nos rodean pasan pa­
ra nosotros totalmente desapercibidos. Solamente prestamos atención a unos po­
cos, y esto lo hacemos en función de su variabilidad o de nuestra familiarización
con algunas de sus características acústicas. Dicho de otro modo, la mayor parte
de estímulos sonoros que llegan a nuestro sistema auditivo son sólo oídos y úni­
camente unos pocos son escuchados.
Veamos, ahora, cuál es el proceso psicológico que permite al sistema auditivo
pasar del nivel de oír al de escuchar.
El concepto shaefferiano de escucha está directamente ligado al concepto
perceptivo de atención, y ya vimos en el apartado 4.2.8 que la atención presta­
da a cualquier estímulo depende muy estrechamente de la variabilidad de éste.
Pues bien, aunque no prestemos ninguna atención a los estímulos sonoros, nun­
ca dejamos de oírlos. Ni siquiera en el estado de sueño deja de estar en marcha
este mecanismo auditivo de conexión con el entorno. Nuestra atención perma­
nece en un estado pasivo, oímos, mientras los estímulos auditivos permanecen
regulares y constantes. No obstante, el oído salta inmediatamente a la atención
activa cuando aparecen nuevas variaciones del estímulo. Así, para desencadenar
la atención auditiva, es decir, para que un receptor pase de oír a escuchar, bas­
ta sencillamente con que aparezcan variaciones en el estímulo sonoro. Y este fe­
nómeno se produce con más fuerza cuanto más bruscas son las variaciones del
estímulo. O sea, la atracción hacia el estado de escucha activa es más intensa
cuanto mayor es la cantidad de variación del estímulo sonoro por unidad de
tiempo.
El interés por un estímulo depende también de nuestra familiaridad con él.
Cuanto más conocido es un estímulo tanto mayor es su fuerza de atracción y la
sensación de definición que produce. En suma, cuanto más familiar es el estímu­
lo que oímos más fácil es que lo escuchemos.
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DE LA FORMA SONORA AL SENTIDO
Estos dos fenómenos perceptivos determinan la gran capacidad de atracción
que ejercen sobre cualquier oyente los sucesos sonoros que tienen formas cono­
cidas y que, además, están variando en el tiempo. Una voz conocida destaca con
gran fuerza de cualquier mezcla de voces; es mucho más difícil dejar de escuchar
el sonido de una lengua que sabemos hablar que el de una que ignoramos; los rui­
dos conocidos se perfilan perfectamente, destacando con claridad de entre las
mezclas sonoras que no nos son familiares.
me recomienda un piano en concreto y también me hace una demostración. Es­
cucho atentamente como toca. Como primera consecuencia de mi escucha en­
tiendo lo siguiente:
200
201
a) este vendedor además del saxo también sabe tocar el piano;
b) reconozco la melodía, es «Cielito lindo»;
c) me parece que toca la canción demasiado rápido.
Luego presto mayor atención a la calidad del sonido y observo:
6.2.2. Escuchar
El acto de escuchar supone prestar al sonido una atención activa que tiene co­
mo objetivo extraer de él una información determinada que nos interesa por al­
guna razón.
Veamos algunos ejemplos.
Es de noche, estoy solo en mi casa, oigo un ruido extraño que me sorprende y
lo escucho para intentar reconocerlo. Intento identificar si la fuente se mueve o
no, saber cuál es exactamente la fuente, quiero averiguar qué es, si es o no algo
por lo que debo preocuparme y que debo resolver.
Estoy en la última fila de la clase, oigo el /bla-bla-bla/de\ profesor pero no le
presto ninguna atención, estoy completamente despistado. De repente descubro
que me mira con insistencia mientras habla, deduzco que de un momento a otro
me va a hacer una terrible pregunta que no sabré cómo contestar, inmediatamen­
te me pongo a escucharle con todas mis fuerzas intentando comprender lo antes
posible la lógica de su discurso.
Escuchar supone prestar atención al sonido con voluntad de identificarlo o in­
terpretarlo. Curiosamente, esta atención activa suele utilizar el sonido sólo como
correa de transmisión. En estos dos ejemplos la escucha no atiende al sonido mis­
mo, a su forma, sino solamente a la información que éste transporta. El sonido
mismo como fenómeno físico muy a menudo suele ser completamente ignorado
por el receptor. Y esto ocurre hasta el punto de que el lenguaje cotidiano tiende a
sustituir los sonidos por aquello de lo que informan. Así, no decimos oigo el so­
nido del teléfono-, -escucho el tic-tac del reloj- o «cada vez se oye más fuerte el rui­
do del tren- sino que pasamos directamente a decir «llaman por teléfono-, «este re­
loj está funcionando» o «viene el tren». El sonido parece difuminarse para tener
solamente en cuenta su fuente o sus causas.
No obstante, el objetivo de la escucha también puede ser el intento de oír me­
jor. Es decir, también podemos escuchar los sonidos con voluntad de identifica­
ción precisa de sus formas acústicas. Este tipo de escucha analítica es bastante
menos habitual y es la que estamos proponiendo constantemente en esta obra y
la que necesita usar con eficacia todo narrador audiovisual para trabajar con el au­
dio. Veamos, también, algún ejemplo de este segundo tipo de escucha.
He entrado en una tienda de instrumentos musicales con intención de comprar
un piano. El vendedor está atendiendo a otra persona y le muestra la calidad de
un saxofón tocándolo hábilmente. Por fin me atienden. El vendedor-saxofonista
d)
e)
f)
g)
la duración y el timbre de la resonancia en cada una de las notas;
la textura, el ataque y la caída de cada sonido;
si hay crujidos en el teclado;
cómo actúan los pedales sobre el sonido.
Frente al mismo fenómeno sonoro estoy aplicando criterios de escucha com­
pletamente distintos. El segundo criterio de escucha, la escucha analítica, apare­
ce cuando cambian mis objetivos respecto al tipo de información que quiero ob­
tener del sonido.
En un primer momento me ha interesado el individuo que tocaba, quería saber
algo de él así que he escuchado cómo toca y como conclusión interpreto: a), b) y
c). Luego, mi interés se ha centrado ya en la calidad del instrumento. Quiero saber
si merece la pena o no comprar ese piano así que observo: d), e), f) y g). Tene­
mos, entonces, que al realizar una escucha analítica de las mismas formas sono­
ras he obtenido informaciones y sentidos completamente distintos de los de la es­
cucha anterior. Es decir, vemos, cómo un criterio de escucha diferente es capaz de
alterar por completo la percepción y, en consecuencia, la información obtenida.
Es importante tener en cuenta, finalmente, que la capacidad para desarrollar
una escucha analítica y el rendimiento informativo que podamos obtener de
ella dependen, en gran medida, del conocimiento aprendido sobre las formas
sonoras.
6.2.3. Reconocer
Reconocer un sonido supone identificar su forma y asociarla a una fuente so­
nora. O bien, supone encontrar dentro de nuestra memoria auditiva una forma so­
nora similar a la escuchada que nos da la clave del origen de ésta que ahora esta­
mos escuchando. Esta última sería la clave, por ejemplo, del reconocimiento de
las formas sonoras de la lengua. Es necesario diferenciar entre el reconocimiento,
que es simplemente identificación de una forma, de la producción de sentido a
partir de esa forma sonora que hemos reconocido. Ése es ya el siguiente nivel, es
decir el de comprender.
Reconocer supone haber desarrollado un proceso de sucesivos reconocimien­
tos del conjunto de formas sonoras que llegan a mi oído hasta dejar sola aquella
202
203
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DE LA FORMA SONORA AL SENTIDO
que me interesa. Escucho con atención los ruidos mientras escribo estas líneas en
mi casa por la noche: identifico los chasquidos ligeros y rítmicos que hacen mis
dedos sobre el teclado, cuando dejo de teclear oigo el zumbido cercano de mi or­
denador, otro zumbido mucho más grave y lejano que reconozco como el de un
avión; por último escucho dos clases de /clic!, uno de ellos es familiar, es el de la
calefacción, el otro /clic/ es extraño, parece provenir de una ventana. Descubro
por fin que efectivamente es la ventana: es el crujido de los vidrios al contraerse
por la diferencia de temperatura entre el interior del estudio y la calle.
En el marco del lenguaje audiovisual, el acto de reconocer un sonido supone
la asociación del sonido a una fuente sonora virtual y, por tanto, la configuración
de un ente acústico (véase apartado 2.3.4). Una vez reconocido el sonido y confi­
gurado el ente acústico, éste puede ser tratado ya por el narrador como si se tra­
tara de la fuente misma. Es importante tener en cuenta, no obstante, que no todos
los sonidos han de ser reconocidos y transformados en entes acústicos. Los soni­
dos pueden también ser directamente comprendidos sin que los ubiquemos en un
punto exacto del espacio y como provenientes de un objeto vibrante. Por ejem­
plo, puedo comprender que una música me explica la emoción de un personaje
sin preocuparme de cuál es el instrumento que la emite ni de dónde está escondi­
do el músico que la toca.
comprendido como signo del inexorable paso del tiempo hacia el momento de la
muerte, la narración habrá fracasado estrepitosamente.
Comprender es, pues, ir más allá de la identificación de la forma y de la fuen­
te, es producir un nuevo nivel de sentido a partir de la interpretación de aquello
que estamos oyendo en función del contexto perceptivo y de nuestra propia ex­
periencia auditiva. En el caso de las formas sonoras lingüísticas, el reconocimien­
to supone solamente una primera asociación simple de sentido, al mismo nivel
que la identificación de la fuente en los ruidos. Reconocerla palabra «árbol» supo­
ne conectarla con su primer origen, con su primer sentido simple. Pero cuando
esa palabra aparece en el contexto de una frase y de un discurso, y pronunciada
con una actitud sonora determinada, el tipo de producción de sentido que gene­
ra no se alcanza con el simple reconocimiento, sino que es resultado de una inte­
racción compleja de informaciones que exige ya de la comprensión.
6.2.4. Comprender
Comprenderes obtener la información final que buscábamos en el sonido con
el acto de escucha. Supone desarrollar una interpretación que se apoya previa­
mente en la escucha y el reconocimiento.
Cuando escucho una secuencia lingüística, después de reconocerla, compren­
do finalmente sus contenidos semánticos complejos. Cuando escucho la actitud
sonora de mi interlocutor mientras me habla, identifico la textura oscura y armó­
nica de su voz y comprendo que cree profundamente en lo que dice y que siente
miedo de las consecuencias que le acarrearán sus decisiones.
En el marco del lenguaje audiovisual se asocian muy a menudo recursos so­
noros e imágenes para conducir la interpretación que ha de hacer el espectador
del conjunto audiovisual. En estas situaciones, el oyente comprende el sentido de
cada forma sonora mediante la influencia mutua sonido-imagen. Así, la música
asociada a determinadas secuencias visuales se utiliza para subrayar la situación
crítica de la acción, para expresar la sensación de angustia de un personaje o pa­
ra explicar la gran energía que genera una máquina. Con fines similares se utilizan
también determinados sonidos naturalistas (./pasos resonantes/, /sonido de agua/,
/trinos de pájaros/, /campanadas de un reloj de pared/, /tic-tac de un desperta­
dor de cuerda/).
Todos estos sonidos necesitan ser comprendidos por el receptor según la pro­
puesta del narrador. Si el /tic-tad fuerte y resonante que oímos mientras se mues­
tra la imagen del condenado a muerte en una celda completamente vacía es reco­
nocido como un despertador viejo escondido en algún rincón, en lugar de ser
6.2.5. El aprendizaje en la construcción del sentido sonoro
El ser humano trabaja con un conjunto de conocimientos adquiridos sobre
las formas sonoras que va desde los más generales y elementales (asociación
de sonidos cotidianos a sus fuentes sonoras) a otros mucho más especializados
(conocimiento de las estructuras y los códigos de una lengua o de un sistema
musical).
La asociación de una forma sonora a su fuente es el nivel de conocimiento más
básico que puede adquirirse sobre ella y, por tanto, es un saber generalizado, es
decir, universal. Muy al contrario, el conocimiento necesario para decidir si la ca­
lidad de un sonido amplificado es buena, o el que hace falta para averiguar si exis­
te o no una avería mecánica escuchando el sonido de un motor y, también, el que
necesitamos para entender una conferencia en alemán ya no lo es. Esa clase de sa­
ber sonoro está restringido a grupos humanos que se han especializado en reco­
nocer ciertas clases de formas sonoras y que, en consecuencia, son capaces de ex­
traer sentido de ellas.
Lo que hacemos en niveles de alta especialización auditiva es aplicar patrones
de reconocimiento que han sido adquiridos previamente durante largo tiempo de
aprendizaje, ya sea mediante un sistema de enseñanza, ya sea mediante la propia
experiencia. En cualquier caso, nadie sabe que un sonido corresponde a tal o cual
fuente sonora si antes no ha aprendido a asociarlo con ella, el resto es tan sólo
una cuestión de grado de especialización y de nivel de relación entre personas y
especializaciones.
A nadie se le escapa que intentar analizar si funciona bien un motor de explo­
sión a partir de conocimientos musicales es absurdo, es tan absurdo como pedir­
le a un mecánico que valore si está bien afinado un piano. Mecánico y afinador
aplican unos patrones previos de reconocimiento completamente distintos, cerra­
dos y aislados entre sí; pero, paradójicamente, utilizan su sistema auditivo exacta­
mente de la misma forma y con el mismo objetivo: diagnosticar los problemas de
un sistema mecánico a partir del sonido que emite, con el objetivo de poder re-
204
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
solverlos. Lo que estamos planteando desde esta perspectiva es lo siguiente: una
vez se tiene en cuenta cómo los mecanismos perceptivos unifican y determinan la
audición humana, ya no es relevante saber qué aspectos de la audición son cultu­
rales y cuáles no, puesto que toda asignación de sentido a una forma sonora es
aprendida. El problema real de las diferentes posibilidades de producción de sen­
tido oyendo una misma forma sonora radica, entonces, en el grado de especialización de este aprendizaje.
El proceso de asignación de sentido a las formas sonoras está organizado en
tres niveles de especialización bastante bien definidos. El primer nivel, es decir, el
más simple y más generalizado, es el que se apoya exclusivamente en la memoria
auditiva del entorno inmediato. Es la fase de aprendizaje auditivo que cursa todo
ser humano con un sentido de la audición normal en sus primeros años de vida.
Todo niño, mientras crece, descubre que los sonidos provienen de lugares y co­
sas que también puede ver, tocar, oler y saborear, e inicia un proceso de asocia­
ción entre sonidos y objetos concretos que va a guardar para siempre en su me­
moria. Una asociación que más tarde será entre clases de sonidos y clases de
objetos. Mientras nuestro sistema perceptivo agrupa automáticamente unas for­
mas sonoras y separa otras, las va asociando a objetos físicos determinados o a fe­
nómenos y situaciones concretas. En esta primera etapa es cuando aprendemos a
identificar formas y variaciones sonoras para reconocerlas como índices que nos
informan sobre el universo que nos rodea: índices de tormenta, de una persona
concreta, de un animal, de aproximación física, de volumen espacial, de estados
emocionales, etc.
Este primer nivel de aprendizaje es un nivel absolutamente común y generali­
zado para todo ser humano. Así, si los intereses de supervivencia y desarrollo vi­
tal son comunes a toda la especie humana, la primera fase de aprendizaje sobre la
explotación de su sistema perceptivo para obtener información sonora del mun­
do es también común y establece valores universales.
Una vez que disponemos de la primera formación general básica sobre la pro­
ducción de sentido a partir de los sonidos, se inicia un segundo nivel del proceso
que depende del ámbito específico en el que se desarrolla cada individuo. Este se­
gundo nivel se adquiere ya con el apoyo de una experiencia auditiva especiali­
zada. Esta experiencia supone un saber sonoro de ámbito bastante más restringi­
do que el que se Obtuvo en el nivel anterior, puesto que se basa en un aprendizaje
de síntomas acústicos que sólo resultan útiles en ámbitos muy concretos. Sería el
caso, ya citado antes, del mecánico que aprovechando su experiencia aprende a
reconocer una serie de formas sonoras que le indican con toda claridad cierto ti­
po de problemas del motor. Del cazador que aprende a reconocer los sonidos de
los animales que persigue. O del médico que a medida que utiliza su fonendos­
copio sabe asociar cada vez mejor los ruidos del sistema respiratorio a sus enfer­
medades.
La única diferencia entre la memoria auditiva del entorno inmediato y la expe­
riencia auditiva especializada está en la dimensión más restringida de la segunda.
El proceso perceptivo y de asignación de sentido son exactamente los mismos, pe­
ro mientras el primer saber sonoro es universal, el segundo se ha desarrollado en
DE LA FORMA SONORA AL SENTIDO
205
función de intereses específicos no generalizables y, por tanto, pertenece ya a gru­
pos reducidos.
Es interesante observar, también, que cuando un grupo posee una experiencia
auditiva especializada importante suele preocuparse por que ese conocimiento
sea sistematizado y enseñado de manera ordenada a otros miembros de ese mis­
mo grupo. Ese nuevo sistema de aprendizaje hace, entonces, que el saber sonoro
tienda a acumularse y a hacerse progresivamente más complejo y cerrado. Luego,
a partir del momento en el que media formación reglada, el conocimiento sobre
la interpretación de los sonidos se restringe cada vez más a los que pueden acce­
der a ese programa formativo.
Finalmente, el último y más complejo nivel de especialización auditiva es el
que se necesita para el aprendizaje de lenguajes sonoros arbitrarios. Los lengua­
jes arbitrarios tienen su origen en conjuntos de formas sonoras que han sido aso­
ciadas racionalmente a valores de sentido concretos para intercomunicarse en el
interior de un grupo de personas, o para cubrir las necesidades de comunicación
específicas de ese grupo. Estas asociaciones entre forma sonora y sentido quedan
establecidas, entonces, como códigos cuya clave no puede ser ya obtenida sólo
mediante la experiencia auditiva. Es decir, sólo puede accederse a ese tipo de sa­
ber sonoro mediante una formación reglada que informe de cuáles son los códi­
gos de asociación entre formas sonoras y sentido. Este tipo de saber sonoro es ya
desde su punto de partida un conocimiento acumulativo que va desarrollándose
como un sistema de asociaciones entre formas sonoras y sentidos que se enrique­
ce y se complica progresivamente. Éste es el caso concreto de sistemas como las
lenguas, el morse, o la música.
De nuevo, el elemento definitorio de este tercer nivel constituido por el apren­
dizaje de lenguajes sonoros arbitrarios frente a los dos niveles anteriores es el gra­
do de especialización auditiva. Ahora el sistema de producción de sentido está li­
mitado ya a aquellos a los que se les haya enseñado exactamente el mismo código
de asociación sonido-sentido. Para aprender los lenguajes sonoros arbitrarios es
siempre imprescindible, pues, desarrollar un aprendizaje complejo y estructurado.
Vemos que los sistemas de asociación sonido-sentido tienden a cerrarse con­
ceptualmente a medida que es necesario un proceso más complejo de aprendiza­
je. Cuanto mayor es la especialización auditiva necesaria, menor es la capacidad
de los no especializados para reconocer las formas sonoras de ese sistema. En es­
te último nivel de especialización auditiva, la percepción categorial adquiere toda
su fuerza; resulta imprescindible haber aprendido a reconocer las categorías for­
males que constituyen cada lenguaje para poder reconocerlas. Esto es lo que ha­
ce que unas culturas musicales sean sordas para otras y lo que hace que los fone­
mas fundamentales de una lengua sean irreconocibles para los hablantes de otra.
6.2.6. Un modelo sobre dos ejes: el perceptivo y el cultural
Hemos revisado la propuesta de Shaeffer sobre los tipos de audición, contras­
tándola con las situaciones de construcción de sentido sonoro que genera el len-
206
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
guaje audiovisual y, luego, nos hemos planteado, también, el papel del aprendi­
zaje. El resultado global es que el aprendizaje se inserta en el proceso de recono­
cimiento auditivo para desarrollarlo y especializarlo de acuerdo con unos intere­
ses concretos de grupo. El aprendizaje se convierte así, efectivamente, en un
proceso que reorienta la percepción y la hace dependiente de la cultura de cada
grupo humano. No obstante, esta nueva línea dentro de los mecanismos auditivos
se inserta y encaja perfectamente en el proceso perceptivo respetando su estruc­
tura. Y no sólo la respeta sino que precisa de ella y precisa, además, del asenta­
miento del primer nivel de aprendizaje para poder existir. Construir la memoria
auditiva del entorno inmediato supone construir una base que será imprescindi­
ble para todo aprendizaje perceptivo posterior.
Una prueba clarísima de lo que acabamos de afirmar son los enormes proble­
mas de las personas que han nacido sordas para dominar una lengua oral. Los in­
dividuos sordos que tienen su aparato fonador sano no llegan jamás a dominar los
matices sonoros de la lengua. Pueden aprender su estructura, pero su voz suena
siempre desajustada y absurda. Y ese fenómeno es independiente de la lengua y
de la cultura en la que se inserta y que aprende perfectamente la persona sorda.
Su incapacidad expresiva en el ámbito acústico se debe a que no disponen de la
base imprescindible y universal que supone tener configurada la memoria audi­
tiva del entorno inmediato.
Así, efectivamente, la cultura determina en un cierto nivel las categorías per­
ceptivas enseñándonos algunas de las formas sonoras que podemos oír, pero no
altera en lo más mínimo el proceso global de los mecanismos auditivos, porque
sin ellos la percepción categorial aprendida tampoco podría existir. Del mismo
modo que tampoco podría existir sin la primera etapa del aprendizaje perceptivo.
Estamos proponiendo, en suma, un modelo estructurado simultáneamente so­
bre dos ejes: el de los mecanismos perceptivos de la escucha y el del proceso cul­
tural del aprendizaje sonoro. En la figura 35 se muestra un modelo que organiza
gráficamente todo lo que hemos estado explicando en este apartado.
Como el lector puede ver, en la figura se han situado los tipos de escucha en
sentido vertical configurando el eje perceptivo; y se insertan en la etapa del re­
conocimiento (en sentido horizontal) los tres niveles del proceso de aprendizaje
auditivo, para configurar el eje cultural. Ambos ejes: perceptivo y cultural se arti­
culan cubriendo toda la superficie de posibilidades que tiene el lenguaje audio­
visual para generar sentidos sonoros. Las líneas discontinuas del modelo que tie­
nen las puntas de flecha en sentido contrario indican la posibilidad que existe en
todo proceso de construcción de sentido sonoro de regresar a los niveles ante­
riores.
Veamos un ejemplo de ese mecanismo de doble sentido. El lector recordará la
situación del comprador de un piano estudiada ya más arriba. En primer lugar, el
comprador dedicaba su atención a reconocer las formas sonoras emanadas del
instrumento que podían aportar información sobre el vendedor. Pero, un mo­
mento después, el mismo comprador regresaba al nivel auditivo anterior para rea­
lizar una escucha analítica que aprovecharía desde su experiencia como oyente
especializado para decidir definitivamente sobre la compra del piano.
207
DE LA FORMA SONORA AL SENTIDO
AUDICIÓN
ESCUCHA
8
m
<75
O
1
RECONOCIMIENTO
IDENTIFICACIÓN DEL
R EXPERIENCIA AUDITIVA____ APRENDIZAJE DE
ENTORNO INMEDIATO”----- ESPECIALIZADA
O
(Formas sonoras primarias)
*------ LENGUAJES ARBITRARIOS
(Formas sonoras especializadas)
(Formas sonoras culturales)
PROCESO CULTURAL
COMPRENSIÓN
Figura
35. Modelo de los mecanismos de escucha.
Ahora, vamos a volver ya al problema central de esta obra que es el sonido en
el marco del lenguaje audiovisual.
Hemos visto que para trabajar sobre la expresión acústica en el contexto del
lenguaje audiovisual necesitábamos utilizar un modelo que fuese capaz de dar
cuenta de la construcción de sentido sonoro en cualquier situación narrativa.
Puesto que nos vamos a expresar con todos los sonidos posibles susceptibles de
ser grabados, y puesto que el ámbito audiovisual maneja simultáneamente formas
sonoras primarias, formas sonoras especializadas y formas sonoras culturales,
no podíamos ceñirnos de manera estrecha a uno u otro sistema de patrones so­
noros. En consecuencia, necesitábamos un modelo capaz de contemplar la pro­
ducción de sentido en todos lós niveles a la vez.
La aplicación del modelo de los mecanismos de escucha para explicar los pro­
cesos de creación de sentido sonoro en el marco de la comunicación audiovisual
resulta, entonces, mucho más fértil que la aplicación de los modelos lingüísticos y
semiológicos. Este modelo inserta el discurso lingüístico en su contexto sonoro
real, que es mucho más amplio y complejo que el escrito/literario, permite expli­
car cómo se crea sentido a partir de las formas sonoras primarias, y permite ex­
plicar, además, cómo se vinculan estas formas primarias con las formas sonoras
culturales en un único sistema expresivo multidimensional.
6.3. Teoría de la coherencia perceptiva
El sistema perceptivo tiende siempre a actuar de manera global y coherente,
haciendo interactuar a la vez todos sus sentidos y todos los niveles de cada senti­
do. Esto supone que el modelo presentado en el apartado anterior no funciona de
un modo lineal sino de manera simultánea en sus dos ejes, sus dos sentidos y to­
dos sus niveles. El resultado de toda esa interacción es la capacidad del oído para
extraer múltiples dimensiones informativas relacionadas entre sí.
208
DE LA FORMA SONORA AL SENTIDO
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
6.3.1. El sentido sonoro como construcción multidimensional
Durante todo el proceso de producción del sentido sonoro, la escucha, el re­
conocimiento y la comprensión actúan estrechamente relacionados entre sí. Es­
tableciéndose, además, un grado de interacción muy importante entre los tres
niveles de especialización auditiva. Se configura, entonces, un sistema de su­
perposición de informaciones que hace que el sentido sonoro sea siempre una
construcción multidimensional.
Intentaremos aclarar esta última explicación recurriendo a un nuevo ejemplo.
Imagine el lector que acabo de escuchar en mi contestador automático el men­
saje de una persona que conozco hace muchos años y con la que estoy vinculado
por una profunda relación sentimental. El sonido de la grabación es, claro, escue­
to y simple:
¡SOY X.! ¡NO PIENSO VOLVER A HABLARTE NUNCA MÁS!
No encuentro absolutamente ninguna información previa que me permita in­
terpretar ese mensaje. Entre X. y yo no ha habido ningún enfrentamiento o pro­
blema que me permita saber a qué viene esto. Tampoco tengo la posibilidad de
contactar con X.; llamo a su número y no descuelgan el teléfono. Mi única infor­
mación es la grabación en el contestador. La escucho una y otra vez intentando
encontrar en el sonido de esa inquietante llamada algo que pueda solucionar mi
angustia.
En un primer momento mi conocimiento de la lengua me ha permitido saber
cuál era el contenido semántico del mensaje. Pero enseguida ese contenido lin­
güístico estricto ha dejado de ser el centro de mi interés. ¿Es realmente la voz de
X. o es alguien que quiere tomarme el pelo? Abandono el nivel de reconocimien­
to de las formas lingüísticas y vuelvo a escuchar atentamente el timbre y el estilo
de la voz utilizando mi memoria auditiva para comprobar si realmente la voz es de
X. o no. Compruebo que efectivamente sí lo es. Ahora acabo de realizar un traba­
jo de construcción de sentido mucho más primario, en realidad sólo he identifica­
do una fuente sonora.
Pasan minutos interminables y la angustia se acumula. Se me ocurre de repen­
te que quizá sea X. quien ha decidido atormentarme con una de sus bromas de
mal gusto. Conozco muy bien cómo suena la ironía en su voz así que vuelvo a es­
cuchar la grabación atentamente para comprobar cuáles son sus matices expresi­
vos. Ahora he regresado de nuevo a una fase de escucha, pero estoy recurriendo
a mi experiencia auditiva especializada-, sólo puedo hacer eso porque estoy muy
familiarizado con la voz de X. y, normalmente, soy capaz de descubrir en ella los
matices emocionales más escondidos. Me doy cuenta de que la voz intenta ser
agresiva, pero percibo que es una agresividad fingida, la intensidad es fuerte, pe­
ro no hay tensión; habla con rapidez pero los ataques de las consonantes no son
lo bastante duros. Efectivamente es la voz de X., pero tengo una sensación bas­
tante clara de que está haciendo teatro. Esa última observación me tranquiliza un
poco y con la calma me viene el recuerdo de que, precisamente hoy, cumplo 40
209
años. Mientras comprendo definitivamente que sólo debe tratarse de una felicita­
ción tortuosa llaman a la puerta de casa.
En el momento de comprender plenamente el sentido de una bufonada de
gusto más que dudoso, se están superponiendo en esa escueta secuencia sonora
por lo menos tres dimensiones de sentido: el contenido semántico del texto, la
identificación del locutor y, por fin, el reconocimiento de una contradicción entre
lo que debería ser el sonido lógico del discurso y su matiz expresivo real. Hemos
hecho, pues, una construcción de sentido multidimensional. Pero ese mecanismo
de construcción del sentido sonoro en múltiples dimensiones no ha desencade­
nado una interpretación concreta hasta que ha sido posible encontrar su cohe­
rencia global.
Vemos, pues, cómo la construcción de sentido desde las formas sonoras se ar­
ticula siempre en varias dimensiones simultáneamente.
En las formas sonoras culturales como el habla, la identificación de las pa­
labras aisladas y de su sentido se articula con el reconocimiento de las formas
sonoras que organizan y matizan el contenido semántico global de estas pala­
bras cuando están agrupadas y asociadas entre sí (entonación y pausas); y es­
tos dos primeros sentidos, a su vez, se suman al que podemos extraer cuando
reconocemos acústicamente los matices emocionales. Todo esto ocurre a la vez
y se organiza desencadenando un sentido coherente y unívoco de tres dimen­
siones.
Las formas sonoras primarias tampoco quedan excluidas de esta multiplicidad
de sentido. En este tipo de formas sonoras se suelen articular la identificación de
la fuente que origina el sonido y una minuciosa extracción de información sobre
su ubicación espacial. La sensación espacial llega a través del timbre y de la caída
del sonido. Así es como sabemos, pongamos por caso, que cierto ruido concreto
es de un automóvil, se acerca rápido y viene por la derecha.
Puesto que esas dos líneas de sentido que hemos asignado a la audición de
formas sonoras primarias suelen aparecer, también, escuchando un discurso oral,
en realidad, las dimensiones de sentido que pueden acumularse a la vez en el so­
nido del habla son ya, por lo menos, cinco.
Un ejemplo más.
Mientras estoy leyendo en el estudio de casa me sobresalta un sonido fami­
liar; reconozco enseguida que proviene de un televisor (nivel de sentido: 1).
Noto la dirección del sonido y me doy cuenta de que no es el de la sala de es­
tar sino que suena desde la cocina (nivel de sentido: 2). Al prestar más atención
me doy cuenta de que por la tele están hablando dos personas cuyas palabras
reconozco y entiendo (nivel de sentido: 3), voy agrupando las palabras por ide­
as en función de la entonación y las pausas (nivel de sentido: 4) y me doy
cuenta de que uno de los que habla tiene una actitud muy agresiva mientras
que el otro está atemorizado (nivel de sentido: 5); además, soy perfectamente
capaz de diferenciar las voces de los dos interlocutores (nivel de sentido: 6). Fi­
nalmente, me apercibo que la voz del temeroso baja cada vez más de intensi­
dad mientras grita aterrorizado y deduzco que debe estar huyendo (nivel de
sentido: 7).
210
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Todavía es perfectamente posible añadir algunas dimensiones de sentido más,
pero dejaremos esto para una obra posterior que dedicaremos exclusivamente a
los sonidos de la voz humana.
6.3.2. El sentido audiovisual y la coherencia perceptiva
A lo largo del apartado anterior hemos visto cómo las formas sonoras pueden
desencadenar múltiples líneas de sentido que actúan a la vez componiendo un
mensaje multidimensional unívoco y coherente. Y hemos revisado este mecanis­
mo tanto en las formas sonoras primarias como en las formas sonoras culturales.
Sólo nos falta ya ubicar todo este complejo sistema para la construcción de senti­
do en algunas situaciones reales de comunicación audiovisual y tendremos una
visión completa del complicado juego de cajas chinas en el que se inserta la semiosis producida desde la expresión acústica.
Cuando cualquiera de los sonidos que hemos estudiado es introducido en el
marco audiovisual, queda asociado a otras formas sonoras e insertado en el con­
texto de un mensaje visual concreto. Es decir, además de toda la multiplicidad de
sentidos que desencadena cualquier forma sonora en un contexto real, cuando es­
ta forma es introducida en un discurso audiovisual queda modalizada por otros
mensajes sonoros y visuales que han sido colocados junto a ella por alguien con
voluntad de configurar una narración global. ¿De qué modo se ve influenciada,
entonces, la construcción de sentido desde las formas sonoras?
Planteado en situaciones concretas:
• ¿Qué pasa con el sentido de una voz cuando sale de una cara que no mueve
los labios mientras suena, además, una música de fondo?
• ¿Cómo interpretamos un fuerte /tic-tac/ de reloj cuando sale de un espacio
en el que no aparece reloj alguno?
• ¿Cómo entendemos que suene con mucha intensidad la conversación de dos
personas que están demasiado alejadas para poder oírlas?
La clave de interpretación en este nuevo nivel de complejidad en la composi­
ción del sentido audiovisual vuelve a ser la necesidad de coherencia que tiene
nuestro sistema perceptivo.
Los sentidos no actúan nunca aisladamente, en consecuencia, el sentido de la
audición actúa siempre de forma simultánea con todos los demás sentidos: la vis­
ta, el tacto, el olfato, las sensaciones motoras, etc. No sólo vemos un automóvil
que se acerca, además escuchamos su motor y el ruido de sus neumáticos rodan­
do, olemos la gasolina quemada, notamos cómo el ruido se hace cada vez más in­
tenso y más preciso. La simultaneidad de todos los sentidos es lo que nos permite
traducir en imágenes sensaciones auditivas como las variaciones de intensidad,
para interpretarlas como si fuesen los movimientos de una fuente sonora que se
ubica en un determinado espacio visual; o para imaginar el tamaño y la forma de
este espacio a partir de la audición de sus resonancias. En suma, todo proceso
DE LA FORMA SONORA AL SENTIDO
211
perceptivo es múltiple, simultáneo, complementario, de apoyo mutuo y tiende
siempre a una coherencia global. La consecuencia de esto es que desarrollamos
una etapa fundamental del aprendizaje perceptivo en la que experimentamos que
los movimientos de aproximación tienen un sonido determinado y los de aleja­
miento otro, que los ruidos que se producen en una habitación grande y cerrada
suenan distintos de los que oímos en los espacios abiertos, que el resplandor rojo
de la incandescencia se ve, huele y quema... Descubrimos, en definitiva, que todo
fenómeno físico se siente de muchas maneras a la vez, y que todas estas sensa­
ciones son siempre coherentes con las variaciones del fenómeno que las produce,
y coherentes entre sí.
Pensemos en cualquier situación cotidiana. Imagínese el lector a sí mismo, por
ejemplo, en el momento de estar atravesando la calzada de una amplia vía urbana
cerca de un cruce. De repente cambia el semáforo y comienzan a aparecer coches
por todas partes. Usted está justo en el centro de la calzada y necesita saberlo to­
do respecto a su entorno. Lo que hay delante, lo que hay detrás y lo que ocurre a
ambos lados. Ahora los ojos no le bastan porque sólo le proporcionan informa­
ción frontal en un radio de 180°; en cambio, los oídos son capaces de procesar in­
formación circular en un radio de 360° así que le informan también de todo lo que
ocurre detrás de usted. Es cierto que girará la cabeza para mirar a un lado y a otro,
pero siempre experimentará la pérdida de un ángulo visual que tendrá que ser su­
plida por la audición. Usted no podrá conseguir la percepción global y simultánea
de todos los vehículos que se mueven a su alrededor sólo con la vista, necesita la
actuación complementaria del oído.
Resumiendo: sólo podemos obtener una concepción completa de la realidad
exterior mediante la percepción simultánea complementaria y coherente de todos
nuestros sentidos. Toda la estructuración de nuestro saber perceptivo responde
sistemáticamente a esta lógica porque es la que nos permite interpretar el mundo.
A lo largo de nuestro primer nivel de entrenamiento perceptivo hemos aprendido
que todo sonido está siempre asociado a una fuente que lo produce, y que esa
fuente siempre está en alguna parte aunque no la veamos. Hemos aprendido que
si los sonidos cambian es porque algo actúa sobre su fuente. Aprendemos, tam­
bién, que a veces alguno de nuestros sentidos nos engaña, y creemos ver u oír al­
go que el resto de nuestro sistema perceptivo no corrobora; entonces dudamos de
ese sentido, porque sabemos perfectamente que todo aquello que se oye sale de
alguna parte que, además, se ha de poder ver, tocar y oler. Y cuando no es así,
buscamos alguna respuesta lógica que sea capaz de explicar ese fenómeno que
sólo hemos sentido parcialmente, de modo que se vuelva coherente con nuestro
saber perceptivo. Hemos aprendido, en definitiva, que siempre hay una estrecha
lógica de relación entre todos nuestros sentidos. Una lógica que emana de la mis­
ma realidad física que nos rodea. Y cuando esta coherencia lógica entre los dis­
tintos sentidos no existe nuestro sistema perceptivo tiende a reconstruirla.
Esta misma lógica perceptiva es la que permite inducir sensaciones desde sen­
tidos que no les son propios, estamos hablando, ahora, de la percepción sinestésica. Así, sabemos que es posible, por ejemplo, alterar el sentido del equilibrio
mediante la visión de imágenes artificiales que ocupen un ángulo de 180 grados,
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DE LA FORMA SONORA AL SENTIDO
hacer que se sienta frío a través de la audición de sonidos de viento y lluvia, o in­
ducir sensaciones y estímulos de movimiento escuchando estructuras sonoras rít­
micas.
Todos esos mecanismos de coherencia y recomposición perceptiva, que con
toda seguridad el lector habrá experimentado más de una vez, son los que expli­
can el nivel más complejo de construcción de sentido dentro del universo de la
narrativa audiovisual. Así, cuando en una narración audiovisual aparecen infor­
maciones perceptivas que desde un punto de vista naturalista serían incongruen­
tes, tendemos a resolverlas buscando respuestas lógicas:
que suena mientras se muestra la imagen de un condenado a muerte es reconoci­
do como un despertador, en lugar de ser comprendido como signo del inexorable
paso del tiempo hacia la muerte, la narración había fracasado. Para garantizar una
interpretación correcta la solución a la que suele recurrir el realizador es, precisa­
mente, transgredir la lógica perceptiva:
212
• cuando en el cine aparece una voz asociada a la imagen de una cara que no
mueve los labios interpretamos que estamos escuchando los «sonidos» de su
pensamiento;
• cuando escuchamos un sonido de locución vinculado visualmente a una mí­
mica bocal que sólo sincroniza de manera parcial, tendemos a integrarlo
asociando globalmente la voz al movimiento de los labios;
• cuando vemos a una persona que se aleja mientras habla, aunque el sonido
de su voz no disminuya de intensidad, seguimos asociando la voz al hablan­
te que se marcha, etc., etc.
En suma, nuestro sistema perceptivo no está preparado para las contradiccio­
nes entre los distintos sentidos, así que cuando éstas aparecen en un discurso au­
diovisual tendemos:
a) a ignorar una parte de la información y observar sólo la coherente (do­
blaje);
b) a interpretar estas contradicciones asociándolas a experiencias sensoriales
mucho más complejas como el recuerdo, los sueños, la imaginación, etc.
(elipsis, flash-backs, sucesos en la mente del sujeto, etc.);
c) a dar prioridad a una de las informaciones frente a las otras (frente a una
contradicción irresoluble entre sonido de imagen suele predominar la infor­
mación visual).
("Esa tendencia del ser humano a la coherencia perceptiva es explotada habitua) mente en el lenguaje audiovisual como instrumento narrativo; por ejemplo:
asociando la música a determinadas secuencias visuales para subrayar la situación
crítica de la acción, para expresar la sensación de angustia de un personaje o pa­
ra explicar la gran energía que genera una máquina. El narrador audiovisual es
consciente de que esa asociación no natural entre sonidos e imágenes va a ser in­
tegrada por el receptor con un sentido únicojCon fines similares se utilizan tam­
bién muy a menudo sonidos naturalistas como /pasos resonantes/, /sonido de
agua/, /trinos de pájaros/, /campanadas de un reloj de pared/, /tic-tac de un des­
pertador de cuerda/, etc.
Pero todos estos sonidos necesitan ser escuchados y comprendidos por el re­
ceptor según la propuesta del narrador. Decíamos más arriba que si el /tic-tac/
213
• mientras se oye el /tic-tac/ se muestra claramente que en la celda no hay
ningún reloj que pueda emitir ese sonido.
• la intensidad del /tic-tac/ no es natural, suena demasiado fuerte y su reso­
nancia no se ajusta a la que produciría el espacio de la celda.
Nuestra tendencia a la coherencia intenta, entonces, integrar estas incon­
gruencias dentro de la lógica perceptiva natural, así que debe buscar algún tipo de
interpretación que permita integrar el /tic-tac/ y la imagen. Si el sonido de /tic­
tac/ se asocia siempre a reloj, y reloj a paso del tiempo, una buena solución al
problema es: «El reo siente cómo pasa el escasísimo tiempo que le queda hasta el
momento de su muerte». Es importante tener en cuenta que éste no es un proceso
racional consciente, sino un proceso asociativo automático. A partir de una deter­
minada combinatoria de elementos se desencadena cierta sensación o cierto sen­
tido complejo.
Cuando un realizador fuerza la base naturalista de su narración audiovisual
transgrediendo la lógica perceptiva, está forzando al receptor a pasar del nivel au­
ditivo del reconocimiento al de la interpretación. Está desencadenando en el re­
ceptor una construcción de sentido a través de la mezcla de sonidos e imágenes
propuesta, que se orienta en una dirección concretá^Naturalmente, los resultados
obtenidos dependen de la adecuada combinación artificial de las formas que el re­
ceptor ha de percibir. El grado de eficacia en este tipo de organizaciones expresi­
vas no depende del conocimiento por parte del receptor de determinadas con­
venciones o códigos expresivos, sino de la capacidad que tiene un narrador! para
prever cuál va a ser el tipo de interpretación perceptiva que hará su audiencia. Pa­
ra conseguir esto el narrador comprueba siempre en sí mismo, y en la gente pró­
xima a él, cuál es el efecto perceptivo que desencadena cada nueva combinatoria
audiovisual. Es decir, experimenta sobre audiencias cautivas para estudiar cuál es
el grado de eficacia expresiva que tiene cada una de las transgresiones que acaba
de inventar.
Ninguna convención previa ni ningún código predeterminado establecía que la
asociación entre un sonido neumático y la yuxtaposición de dos planos, uno de
puerta metálica abierta y otro de la misma puerta ya cerrada, iba a producir un cla­
ro efecto preceptivo de puerta futurista que se cierra a gran velocidad. En cambio,
esta transgresión perceptiva (puerta que aparece cerrada de repente) inventada por
Irving Kershner para El Imperio contraataca' ha sido correctamente interpretada
por espectadores de todo el mundo. El efecto que desencadena la mezcla de cierta
forma sonora con los dos planos de la puerta no se debe a un aprendizaje previo si1. Título original de la película: The empire strikes back (Irving Kershner, 1980).
214
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
DE LA FORMA SONORA AL SENTIDO
no a la tendencia que tiene nuestro sistema perceptivo a unificar los sonidos y las
imágenes que suenan sincrónicamente, interpretándolos como el resultado de un
único fenómeno coherente. En el caso que nos ocupa, el resultado semiótico de la
asociación entre estos tres estímulos perceptivos (sonido de descarga de presión +
imagen de puerta abierta + imagen de puerta cerrada) está claro: -La descarga de
presión cerró la puerta, pero eso ha ocurrido tan rápido que no he podido verlo».
En la literatura sobre comunicación, con frecuencia se atribuye la capacidad
del receptor para interpretar los sentidos superpuestos del discurso audiovisual a
una suerte de alfabetización previa. Dicho de otro modo, el aprendizaje previo de
una serie de códigos específicos del lenguaje audiovisual.
A nuestro modo de ver, el lenguaje audiovisual no se constituye, en absoluto,
como un lenguaje arbitrario, estructurado a partir de códigos culturales que sea
imprescindible aprender. Es cierto que, en virtud de la tecnología audio- y fotomimética que lo soporta, el lenguaje audiovisual tiene capacidad para incorporar
este tipo de lenguajes arbitrarios. Pero su fundamento, su base esencial (véase
apartado 1.5.2) es naturalista. Reproduce las formas de la realidad que son per­
ceptibles por el ser humano y las recompone de acuerdo con esa misma lógica
perceptiva. La consecuencia de todo esto es la posibilidad de interpretar la di­
mensión naturalista del discurso audiovisual del mismo modo que interpretamos
la realidad referencial que nos rodea.
Existe un viejo argumento en contra de esta tesis. El hecho de que las perso­
nas no acostumbradas a ver imágenes en dos dimensiones2 tengan problemas pa­
ra interpretarlas. Éste es un fenómeno que nos parece perfectamente lógico si se
tiene en cuenta que el salto de la tri- a la bi-dimensionalidad supone un empo­
brecimiento fundamental respecto a la percepción natural de las imágenes. No
obstante, no es necesario enseñar un alfabeto visual a estos individuos, basta con
permitirles que se habitúen a esta nueva forma de ver. O sea, basta con que ad­
quieran un cierto grado de experiencia perceptiva especializada para que sean
capaces de utilizar su propio saber perceptivo e interpretar el nuevo lenguaje de
acuerdo con su experiencia sensorial.
Es más, el lenguaje audiovisual no sólo está muy lejos de ser un lenguaje arbi­
trario, sino que no le interesa en absoluto crear convenciones sígnicas cerradas
porque esto le hace perder efecto de verosimilitud y realismo. Obviamente, si en­
tendemos que la especificidad de lo audiovisual está, precisamente, en su capaci­
dad de desencadenar percepciones similares a las de origen natural, cuanto más
se centre su lenguaje en desarrollar códigos y convenciones sígnicas arbitrarias,
más lejos estará de desencadenar sensaciones realistas verosímiles. La elaboración
de convenciones cada vez más elaboradas supondría, además, una fuerte necesi­
dad de especialización progresiva de los receptores para poder descodificar los
mensajes. Es lo que ocurre, por ejemplo, con la literatura o con la pintura. El cine
de la -nouvelle vague-, especialmente en la obra de J. L. Godard, es un claro ex­
ponente de los resultados de ese tipo de orientación hacia una construcción de
códigos específicos que acaban siendo accesibles sólo para unos pocos.
Si tenemos en cuenta que el lenguaje audiovisual tiene su punto de partida en
el uso narrativo de la tecnología audio- y foto-mimética, parece evidente que la
tendencia actual va a ser justamente la contraria. Se tiende a desarrollar sistemas
capaces de producir imágenes y sonidos cada vez más similares a la realidad. Las
pantallas de los receptores de TV son cada vez más grandes y tienen mayor defi­
nición y su sistema de audio ha pasado ya de manera generalizada de la definición
sonora media a la alta, y de la monofonía a la estereofonía. Sin duda, la ilustración
más clara de esta tendencia es el éxito más que evidente de las nuevas técnicas de
naturalismo cinematográfico desarrolladas por la compañía canadiense IMAX.3
La Imax Systems Corporation ha conseguido implantar ya en las grandes capi­
tales de todo el mundo sus nuevos sistemas de reproducción de imágenes y soni­
do. El sistema se estrenó en la feria mundial de Osaka en 1970 y en diciembre de
1995 había instalados ya 121 de estos cines en todo el mundo. La sala IMAX de
Barcelona registró en sus 9 primeros meses una afluencia de 800.000 espectado­
res, cuando una sala tradicional recibe unos 300.000 espectadores al año. En 1995
se estrenó la primera producción de ficción de IMAX-3D.4 Y la productora 20th
Century Fox ha firmado ya un contrato con IMAX para rodar su primer largome­
traje en ese formato.
Parece evidente, pues, que la tendencia, dentro del ámbito de lo audiovisual,
es mantener como una prioridad esencial el realismo y la verosimilitud de las sen­
saciones percibidas por espectador. El lenguaje audiovisual ha sido destinado his­
tóricamente a crear universos cada vez más verosímiles y a producir sensaciones
cada vez más parecidas a las que genera la realidad referencial. Y esta tendencia,
lejos de invertirse desarrollando códigos que acerquen el lenguaje audiovisual a
los lenguajes arbitrarios, sigue y se afianza cada vez más. Así, la producción de
sentido audiovisual, no sólo está fuertemente vinculada a los mecanismos per­
ceptivos de interpretación del mundo, sino que parece que va a seguir estándolo
cada vez con más fuerza. Si esto efectivamente es así, la teoría de la coherencia
perceptiva podría ser el punto de partida para explicar y resolver muchos de los
problemas de conocimiento que tiene todavía pendientes el lenguaje audiovisual.
de 177 metros cuadrados cuando es de 70 milímetros. En pantalla plana existe la versión normal (IMAXHD) y la trimensional (IMAX-3D), esta última basada en dos cadenas de imágenes simultáneas que se
proyectan en la misma pantalla polarizadas de forma distinta; las dos imágenes quedan unificadas per­
ceptivamente produciendo efecto tridimensional al contemplarse también con gafas polarizadas. La ver­
sión OMNIMAX es la proyección en una pantalla semiesférica de 180 grados para producir al especta­
dor la sensación de que está introducido en un espacio real. Todos los formatos trabajan con un sistema
A menudo en lugar de eso se suele decir: -no alfabetizadas en el lenguaje audiovisual-.
sonoro de alta fidelidad cuya característica más relevante es la de tener seis canales de audio dedicados
exclusivamente a situar y mover los sonidos por la pantalla.
4. El título de la película es Wins of Courage y su director es Jean-Jacques Annaud.
2.
215
3. La compañía IMAX ha desarrollado los formatos cinematográficos: IMAX-HD, IMAX-3D y OMNIMAX. Los tres formatos son sistemas de reproducción de imagen y sonido basados en un fotograma diez
veces más grande que el convencional, que se proyecta sobre una pantalla de 600 metros cuadrados pa­
ra conseguir un efecto envolvente. Los proyectores trabajan a una velocidad de 48 fotogramas por se­
gundo para obtener texturas visuales mucho más realistas que las del cine convencional. Hay que tener
en cuenta que el cine convencional trabaja a 24 fotogramas por segundo y se proyecta sobre una pan­
talla de 56 metros cuadrados cuando el tamaño del fotograma es de 35 milímetros, o sobre una pantalla
Capítulo
7
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
Finalmente, en el capítulo 7 estudiaremos cuáles son las aportaciones que ha­
ce el sonido a la narrativa audiovisual. Esencialmente, se mostrará cómo el ma­
terial sonoro actúa sobre los resultados expresivos de la combinación audiovi­
sual, desencadenando un nivel de influencia mucho mayor del que se le asigna
normalmente. Este último capítulo pretende, también, sintetizar y dar coheren­
cia a las distintas partes de esta obra, mostrando su dimensión práctica y narra­
tiva sobre algunos ejemplos concretos
7.1. Sobre la superioridad de la visión
En la literatura sobre comunicación suele asignarse a la visión, y en conse­
cuencia a la imagen, un papel muy preponderante sobre los otros sentidos, espe­
cialmente en su comparación con el de la audición. No obstante, a nuestro modo
de ver, esta primacía del sentido de la vista no tiene, en absoluto, una base per­
ceptiva, sino que se sustenta fundamentalmente en motivos históricos y metodo­
lógicos.
Aclararemos esto.
Desde la prehistoria, el hombre ha sido capaz de desarrollar técnicas de dibu­
jo que le permitían fijar en mayor o menor grado las sensaciones proporcionadas
por el sentido de la vista. En cambio, la capacidad para fijar sonidos no aparece
hasta la invención de la escritura, es decir, mucho más tardíamente. Aun así, la es­
critura se limita sólo a fijar las sensaciones sonoras vinculadas a la lengua, pero re­
sulta un instrumento limitadísimo para fijar otro tipo de sonidos. Mientras el natu­
ralismo crece y se desarrolla progresivamente en la pintura desde el siglo xn al
siglo xix, y con él el conocimiento sobre las sensaciones visuales y las técnicas pa­
ra su reproducción, hasta bien entrado el siglo xx no aparecen sistemas fiables
que permitan fijar y reproducir los sonidos.
A esto hay que sumar que desde que se crean las unidades de medida, de lon­
gitud y de superficie es posible aplicarlas sobre la forma objetiva de una imagen
reproducida en dibujos o pinturas. Contrariamente, el sonido fluye en el tiempo y
se escapa a la capacidad de análisis objetivo hasta que a mediados del siglo xx la
informática da un impulso definitivo a la sonografía y a la espectrografía.
Aún hoy es mucho más fácil para los estudiosos analizar una imagen que ana­
lizar un sonido. Fijar y medir una imagen está, ahora, al alcance de cualquier per­
sona que disponga de una cámara fotográfica o de un magnetoscopio; en cambio,
la posibilidad de fijar espectrográficamente o sonográficamente un sonido sólo es
posible para el grupo reducido de expertos que disponemos del material y de los
conocimientos adecuados para hacerlo.
Todo esto ha hecho avanzar el conocimiento sobre la percepción y la narra­
ción visual mucho más rápidamente que el conocimiento sobre la narración so­
nora. Como consecuencia, los estudiosos de la comunicación disponen de más
material, de más facilidades, y se sienten más atraídos por el estudio de la imagen
que por el del sonido. El resultado global: el sonido se abandona y se transforma
progresivamente en el sentido de segunda categoría que parece ser hoy.
El punto de apoyo fundamental de las argumentaciones que relegan el sonido
a una segunda categoría respecto a la audición, suele tener una base fisiológica
puramente numérica. Es cierto que el nervio auditivo está constituido por unas
30.000 fibras, mientras que el nervio óptico lo constituyen 1.000.000 de fibras
220
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
(véase Lieury, 1992). Si nos fiamos exclusivamente de este dato podríamos dedu­
cir que el oído envía al cerebro sólo un 30 % de la información que es capaz de
enviar el ojo.
En realidad no se dispone de comparaciones experimentales fiables que puedan
demostrar esta idea de preponderancia visual, que está demasiado arraigada en
nuestra escasa tradición sobre comunicación audiovisual, así que para apoyar esta
idea de preponderancia de la visión suele argumentarse lo siguiente: a) «las perso­
nas pueden asimilar más información por vía visual que por vía auditiva»; b) «el sis­
tema auditivo se rige por el sistema visual»; c) «la visión actúa simultáneamente en
distintas dimensiones mientras la audición es básicamente llana y lineal».
Cada uno de estos tres argumentos es fácilmente rebatible.
Respecto a la cantidad de información resulta revelador observar, por ejemplo,
que el ojo humano puede ser cerrado, y descansa aproximadamente durante una
tercera parte de la vida del ser humano (sueño). Contrariamente, el oído perma­
nece en funcionamiento activo, noche y día a lo largo de toda la vida. Especial­
mente en los períodos de descanso, el oído es el sentido que permanece vigilan­
te enviando al cerebro información sobre cualquier cambio del entorno para que
nos despierte y nos devuelva al estado de actividad global de la vigilia.
Respecto a que el sistema visual es el que rige al auditivo, es también muy re­
velador recordar que, precisamente, una de las funciones de la audición es indi­
car la presencia de estímulos en las zonas que normalmente no son cubiertas
por la visión. En tanto que el oído cubre constantemente los 360 grados del en­
torno humano, y puede hacerlo sin depender de la posición del cuerpo, ni de la
cantidad de luz presente, la vista sólo cubre 180 grados y depende de la luz y de
la postura del receptor. A partir de los estímulos sonoros captados de toda esa
zona a la que nunca tiene acceso la visión, el oído indica al sistema perceptivo
el lugar de donde provienen informaciones que sólo después de ser oídas pasan
a ser revisadas inmediatamente por el sentido de la vista: moviendo el cuerpo,
abriendo los ojos, iluminando un espacio concreto, etc. La fenomenología del
doblaje demuestra, también, lo fácil que es engañar desde el oído al sentido de
la vista.
Finalmente, respecto a la idea de que la audición es «llana» y «lineal», es espe­
cialmente sencillo rebatirla apelando a la capacidad del oído para percibir pers­
pectivas (sensación de profundidad) a partir de la diferencia de intensidades en­
tre distintos objetos sonoros; y espacialidad (orientación izquierda derecha),
utilizando las diferencias de tiempo que tarda en llegar un sonido a un oído o a
otro. Esto supone sensación de profundidad y de dirección. Estas dos percepcio­
nes son, además, simultáneas en el tiempo.
El oído humano, como hemos visto ya, es perfectamente capaz, además, de
realizar tres funciones distintas simultáneamente en el tiempo: 1) análisis de la
complejidadfrecuencial (timbre), 2) análisis de la evolución de la dinámica (va­
riaciones de intensidad), y 3) análisis de la evolución del tono (entonación y me­
lodía). Además, cada una de estas tres funciones puede actuar observando simul­
táneamente varios niveles estructurales. Veámoslo esquemáticamente tomando
como referencia las operaciones de captación de información que realiza el oído
de cualquier individuo mientras está escuchando a un locutor que le habla en su
propia lengua.
Timbre:
221
1. Timbre de la voz del locutor.
2. Timbre fonemático (reconocimiento de las vocales).
3. Reconocimiento de las resonancias de la sala.
Intensidad: 1. Reconocimiento de la distancia locutor-oyente.
2. Reconocimiento de la intensidad a la que habla el locutor.
3. Reconocimiento de las diferencias de intensidad entre oídos.
Tono:
1. Tono natural del locutor.
2. Entonación del discurso.
3. Variaciones micromelódicas emocionales.
En suma, sin hacer demasiado esfuerzo podemos contabilizar, por lo menos,
nueve niveles simultáneos de captación y procesamiento de información acústica
en la escucha de una simple conversación. Frente a todo esto, es necesario plan­
tearse, cuanto menos, que es un error enfrentarse a una discusión, que divide en­
tre sentidos «prioritarios» o «importantes» y sentidos de segunda categoría o menos
importantes. Este tipo de discusión que sitúa la vista por encima del oído, ignora
las funciones específicas de cada uno de los sentidos y la necesidad imprescindi­
ble de su actuación conjunta complementaria y, en consecuencia, se enfrenta a
ellos desde una perspectiva apriorística y equivocada.
7.2. ¿Qué aporta el sonido a lo audiovisual?
El papel del sonido en la narración audiovisual no es, ni mucho menos, el de
un acompañamiento redundante. Michel Chion afirma que la asociación del soni­
do y la imagen genera una percepción completamente distinta a la que produce
cada uno de ellos por separado; y concreta esto teóricamente proponiendo el
concepto de -valor añadido-, que él mismo explica diciendo: «Por valor añadido
designamos el valor expresivo e informativo con el que un sonido enriquece una
imagen dada» (Chion, 1993, pág. 16). Esa idea define con claridad cuál es a los
ojos de Chion la aportación que el sonido hace al sentido audiovisual.
Nuestra propia concepción sobre la importancia del audio es bastante más ra­
dical que la de Michel Chion. Pensar que el papel del sonido en una narración au­
diovisual es enriquecer la imagen supone, en realidad, seguir dándole la primacía
absoluta al sentido de la visiór^ En el contexto del lenguaje audiovisual, el sonido
no enriquece la imagen sino que modifica la percepción global del receptor. El au­
dio no actúa en función de la imagen y dependiendo de ella, sino que actúa como
ella y a la vez que ella, aportando información que el receptor va a procesar de
manera complementaria en función de su tendencia natural a la coherencia per­
ceptiva. ■"]
222
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Nuestros oídos no dependen en absoluto de nuestros ojos para procesar infor­
mación, actúan en sincronía y en coherencia con ellos. Han sido los realizadores
y los estudiosos los que han supeditado el sonido a la imagen y no el sistema per­
ceptivo. El mayor costo económico de la producción de imágenes y su compleji­
dad tecnológica superior suele obligar a los realizadores a comenzar el trabajo por
ellas. Siempre es técnicamente más fácil y, además, más barato adaptar el sonido
a la imagen que hacerlo a la inversa. Si a eso se suma la larga tradición y la mayor
facilidad que existe para desarrollar análisis de imágenes, entenderemos por qué
los estudiosos de la comunicación también han secundado de una manera muy
generalizada esa tendencia a anteponer lo visual a lo sonoro.
El sonido debe ser resituado dentro de la investigación y de la cultura produc­
tiva audiovisual en un lugar mucho más ajustado al papel que realmente desarro­
lla. Invitamos al lector a que practique la experiencia de ver narraciones audiovi­
suales eliminando el sonido y oírlas eliminando las imágenes. Ese pequeño
experimento personal tiene siempre una fuerza reveladora sorprendente, aumen­
ta la conciencia sobre la importancia del audio y equilibra el valor de ambas ma­
terias expresivas. La experiencia resultará tanto más interesante cuanto más lejos
estén los materiales con los que se realice de los géneros de ficción. Al eliminar el
sonido, la publicidad, los documentales y los informativos llegan a resultar, con
frecuencia, absolutamente incomprensibles.
La importancia del sonido en la interpretación de la narración audiovisual no
es una cuestión genérica y baladí, su trascendencia es sistemática y responde a
una lógica que es posible investigar y poner de manifiesto. El audio actúa en la na­
rrativa audiovisual siguiendo tres líneas expresivas bien definidas:
1. Transmite con gran precisión sensaciones espaciales-,
2. Conduce la interpretación del conjunto audiovisual-,
3. Organiza narrativamente elflujo del discurso audiovisual.
Pero expliquemos con algo más de detalle los recursos narrativos que abarca
cada una de esas líneas expresivas.
1. Transmisión de sensaciones espaciales. Nuestra experiencia en el análisis
acústico y en la manipulación narrativa del sonido hace que no podamos es­
tar de acuerdo con Mitry ni con Chion en restringir exclusivamente a la vis­
ta la percepción de las relaciones espaciales (véanse Mitry, 1989, tomo-1,
pág. 405; y Chion, 1993, pág. 22). Ambos estudiosos relegan la sensación
auditiva del espacio casi exclusivamente a la percepción de distancias me­
diante la intensidad, y hablan sólo de manera residual de la direccionalidad
que genera la estereofonía. Los dos autores parecen olvidarse por completo
de la gran capacidad que tiene el oído para identificar formas y volúmenes
espaciales reconociendo las reflexiones del sonido y su envolvente espec­
tral. De hecho, la radio y el cine sonoro han utilizado profusamente esa ca­
pacidad auditiva para introducir acústicamente al espectador en cuevas,
criptas, pozos y salones palaciegos. Esa vieja tradición, con la ayuda de las
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
223
técnicas del Surround1 y el Dolby-Stereo, ha desembocado finalmente en un
cine que da cada vez más importancia a la construcción de espacios sono­
ros, a sus detalles y a su exactitud acústica.
2. Conducción de la interpretación audiovisual. Esta línea expresiva del soni­
do es la que emana más directamente de la naturaleza unificadora y cohe­
rente del sistema perceptivo. Cuando a una propuesta narrativa sonora se le
añade una imagen, o a una visual se le añade un sonido, la simbiosis de am­
bas configura un mensaje nuevo, completamente distinto del que transmiten
aisladamente cada una de ellas. Ciertamente, el realizador suele iniciar siem­
pre su trabajo con una propuesta visual, pero luego, consciente del poder na­
rrativo del audio, recurre al sonido para conseguir los efectos perceptivos
que no ha logrado desencadenar sólo con la imagen. Así, mediante la sim­
biosis imagen-sonido reorienta su propuesta narrativa inicial conduciendo al
espectador hacia la interpretación correcta. De ahí la necesidad de recurrir a
la música para contar, pongamos por caso, que es justo al acercarse a la ter­
cera puerta de un largo pasillo cuando el héroe está corriendo un peligro in­
minente, mientras que en las dos puertas anteriores, que eran exactamente
iguales, no pasaba nada. O la necesidad de introducir un grito desgarrador
de la protagonista dos fotogramas antes de que el espectador vea cómo sur­
ge bruscamente el temido vampiro: sin el grito, la aparición repentina del
monstruo sanguinario carece por completo de todo impacto emotivo.
3. Organización narrativa delflujo audiovisual. La organización de la cadena
audiovisual es, probablemente, el uso más racional que el realizador hace del
sonido. No obstante, su fundamento sigue teniendo la base en la coherencia
perceptiva. En virtud del principio de la reguladidad,2 nuestro sistema sen­
sorial sabe que todo cambio brusco en el sonido supone el final de un fenó­
meno y el comienzo de otro y nos lo hace percibir así. Los realizadores son
conscientes de ese mecanismo perceptivo y agrupan o separan los materia­
les visuales en secuencias coherentes utilizando el audio. Es por eso que un
mismo grupo de varios planos visuales puede ser comprendido como una se­
cuencia única o como varias secuencias separadas según se haya manejado
el sonido. Los espots publicitarios y los videoclips son ejemplos paradigmá­
ticos de conjuntos de materiales visuales que sin el sonido se suelen conver­
tir en cascadas de imágenes completamente desordenadas que sólo tienen
entre ellas algunas conexiones visuales absolutamente vagas y confusas.
7.3. El espacio sonoro
La percepción auditiva del espacio es, después del habla,' la información so­
nora más importante y compleja de las que procesa el sistema auditivo. Y, dentro
1. Técnica cinematográfica de audio que distribuye sonido desde altavoces situados en las paredes
laterales y posterior de la sala del cine.
2.
Véase el apartado 5.2.4.
224
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
del conjunto de las formas sonoras primarias, es una categoría perfectamente
bien definida que el ser humano explota constantemente para identificar su en­
torno y desenvolverse en él.
La narrativa audiovisual ha sido consciente de eso desde el primer momento
en que comenzó a utilizar el sonido y, constantemente, ha intentado imitar, re­
construir o crear sensación de espacio sonoro. La radio, en su etapa de esplendor
entre los años treinta y los sesenta, desarrolló una sofisticada técnica de trata­
miento del sonido orientada a la reconstrucción narrativa de sensaciones espacia­
les. Las emisoras de radio solían disponer de estudios con paredes acolchadas pa­
ra recrear espacios abiertos, y estudios de paredes duras para reproducir la
sensación de espacios interiores. Se utilizaban locutorios con paredes móviles pa­
ra poder controlar el nivel de reverberación de los sonidos, sugiriendo así espa­
cios más grandes o más pequeños según las necesidades de la narración en cada
momento; y se planificaban cuidadosamente las distancias entre los locutores y
los micrófonos.
El cine actual es heredero directo de toda esa sofisticada técnica de recons­
trucción sonora del espacio, aunque ayudado ya por las inagotables posibilidades
que aporta el tratamiento informático electrónico del sonido.
Como hemos mencionado ya en varias ocasiones, la tecnología cinemato­
gráfica del Dolby Stereo ha abierto un campo extraordinario en el trabajo con la
espacialidad acústica, y en todas las grandes producciones actuales se trabaja a
fondo con las sensaciones de espacio auditivo para aumentar el grado de realis­
mo. En el entorno profesional incluso se ha acuñado el término supercampo
(véase Nieto, 1996, pág. 180) para hablar de ese territorio que está fuera de la
pantalla y al que sólo se accede perceptivamente mediante el tratamiento espa­
cial del sonido.
La incorporación generalizada de la estereofonía a los televisores acabará lle­
vando el trabajo detallado sobre espacios sonoros también a ese medio. Aunque,
por desgracia, los vertiginosos ritmos productivos de la televisión hacen que la
tendencia en ese ámbito sea bastante menos acusada que en el caso del cine. La
reconstrucción auditiva del espacio es, pues, un recurso constante y creciente
dentro de la narrativa audiovisual.
La labor que se desarrolla en este terreno por los realizadores es todavía muy
intuitiva; no obstante, quien escribe estas líneas está convencido de que la re­
construcción de espacios sonoros en el ámbito de la narración audiovisual debe y
puede dejar de ser un proceso de creación puramente intuitivo para pasar a apo­
yarse en una serie de conocimientos técnicos y científicos ya contrastados. Siendo
consecuentes con esa última afirmación, en este apartado aplicaremos los conoci­
mientos de acústica y de psicología de la percepción revisados a lo largo de esta
obra, al problema concreto de la reconstrucción del espacio sonoro en el ámbito
de la narración audiovisual. Se trata, en definitiva, de desarrollar una teoría del es­
pacio sonoro que permita explicar y resolver los problemas cotidianos que se
plantean en la manipulación del audio.
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
225
7.3.1. La necesidad de una teoría del espacio sonoro
En la memoria auditiva de cualquier persona está presente la experiencia de
una asociación inmediata y lógica entre el alejamiento o acercamiento de las fuen­
tes sonoras y la intensidad de los sonidos que emanan de ellas. También es habi­
tual recordar la relación que existe entre los movimientos laterales de las fuentes
sonoras y la sensación de direccionalidad del sonido, o la asociación entre el vo­
lumen del lugar donde se encuentra la fuente sonora y la sensación de reverbera­
ción o de eco en el sonido.
Pero esta fenomenología se complica considerablemente cuando ha de ser re­
producida en las narraciones audiovisuales.
Al intentar una reproducción audiovisual realista, el narrador se encuentra
con un serio problema cada vez que ha de tomar decisiones sobre la situación
del micrófono. La narración visual televisiva y cinematográfica está actualmente
en movimiento constante. Para narrar una misma situación se intercalan conti­
nuamente planos cortos y cercanos con planos generales alejados, tomas fijas
con la cámara quieta con tomas en movimiento circular o con movimiento as­
cendente y descendente, travellings que desplazan el punto de vista junto a una
situación en movimiento con tomas de cámara quieta contemplando ese mismo
movimiento desde un punto fijo. La reconstrucción sonora de esos cambios de
punto de vista, de manera que suenen tal como los escucharía un ser humano
que mira sufriendo las mismas variaciones de posición que la cámara, supone
tantas alteraciones del paisaje sonoro como cambios haya de plano visual. Apa­
rece, entonces, el problema de dónde colocar el micro en cada momento: ¿debe
ajustarse la toma de sonido a un criterio naturalista estricto y, por tanto, seguir
sistemáticamente pegado a la cámara y al tipo de plano? ¿O, por el contrario, el
micrófono debe independizarse y utilizar una lógica distinta de la que sigue la
captación de imagen?
El primer criterio obliga a una simplificación considerable de los movimientos
del punto de vista-audición. Cuando percibimos en poco tiempo un número muy
alto de variaciones sincrónicas de imagen y sonido que están asociadas narrativa­
mente, el efecto resulta enloquecedor. El cine de los años treinta es un buen ejem­
plo de lógica narrativa con relación sonido-imagen estrictamente naturalista. En
las producciones de esa época se observa una gran austeridad de cambios o mo­
vimientos del punto de vista (véase Altman, 1989). Se hacía un tipo de cine en el
que la alternancia de planos cercanos y alejados para narrar una misma situación
sólo se utilizaba cuando los contenidos sonoros eran muy poco relevantes y, por
tanto, no era grave alterarlos de manera antinatural.
Más tarde, se observó que cuando el micro se dejaba quieto muy próximo a la
situación, aunque la cámara se moviese constantemente, todo se comprendía mu­
cho mejor. Se descubre, también, que esa técnica narrativa es aceptable solamen­
te dentro de un orden limitado y que hay que regresar con bastante frecuencia a
la coherencia natural estricta entre sonido e imagen para que la relación audiovi­
sual sea perceptivamente aceptable. Visto desde la perspectiva del realizador, lo
que se descubre, en realidad, es que la independencia entre imagen y sonido fa-
226
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
cilitada por la tecnología permite desarrollar dos líneas distintas de trabajo narra- •
tivo, una de audio y otra de vídeo, que al ser cohesionadas con una cierta fre­
cuencia mantienen el efecto global de la lógica perceptiva humana.
A partir de este momento, la narración audiovisual comienza a bucear en las
posibilidades expresivas de la acusmatización. Y esta trayectoria de trabajo libe­
ra todas las posibilidades expresivas del montaje visual, que deja de estar sujeto al
sonido, y evoluciona con la técnica del doblaje3 hasta la separación técnica casi
absoluta entre el sistema visual y el sistema sonoro.
Esta forma de producción que separa vídeo y audio casi por completo nos lle­
va a un universo narrativo totalmente nuevo en el que es imprescindible conocer
a fondo la lógica espacial del sistema auditivo para poder asociar sonidos e imá­
genes que, en principio, no tienen nada que ver entre sí. El problema actual es
mantener un nivel suficiente^de coherencia narrativa audiovisual que responda a
la lógica perceptiva del espectador-oyente. Actualmente, los ejemplos más claros
de este tipo de estructura narrativa son los espots publicitarios y los videoclips. En
estos géneros audiovisuales, a menudo, no existe ningún tipo de relación original
entre sonido e imagen. No obstante, la coherencia narrativa entre ambos sistemas
es evidente y está especialmente trabajada.
Tras este proceso histórico llegamos al punto actual de la narración audio­
visual, en el que la tecnología y las técnicas de producción industrial obligan
al narrador a trabajar diseñando piezas visuales y sonoras aisladas, que luego
se montarán como un sistema global que ha de encajar perfectamente. Imagi­
nar esa fragmentación previa del producto audiovisual crea unas condiciones
generales de trabajo, tanto a nivel productivo como narrativo, sumamente con­
fusas.
Desde el punto de vista productivo:
• Las situaciones de la realidad referencial que actúan como fuentes de imá­
genes para las narraciones audiovisuales, a menudo no son las fuentes so­
noras de las que se capta el sonido.
• Se trabaja frecuentemente con sonidos ya grabados a priori, que original­
mente no tenían ningún tipo de relación con la narración concreta que se es­
tá produciendo.
• Los sonidos se manejan como objetos independientes de las fuentes sonoras
que los originaron.
Desde el punto de vista narrativo:
• Sonidos e imágenes actúan como dos sistemas narrativos con lógicas distin­
tas, pero deben ser montados con una coherencia global que se apoyará bá­
sicamente en la sincronía.
3. No nos referimos aquí al doblaje como instrumento de traducción lingüística sino a la sonoriza­
ción que se realiza después de la producción de las imágenes, y que se desarrolla en función de éstas
para montar de forma definitiva la voz de los actores en la versión original de la película.
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
227
• Los espacios sonoros son totalmente artificiales, pero han de responder a la
lógica perceptiva y deben ser completamente coherentes con la imagen en
los fragmentos de la narración en los que hay coherencia audiovisual es­
tricta.
• El sonido se utiliza normalmente como un instrumento cohesionador que
contrarresta la gran disgregación perceptiva comportada por el montaje
visual.
En suma, en la narración audiovisual, las imágenes que vemos no son las fuen­
tes que han producido el sonido, el espacio que escuchamos no es siempre el es­
pacio que vemos, las distancias que escuchamos a menudo no se corresponden
con las que vemos. Y, finalmente, el espacio que vemos y oímos no existe. No
existen los objetos, ni el espacio, ni distancia entre ellos y el receptor. Sólo existe
una serie de sonidos organizados que configuran un paisaje sonoro que tiene que
ser interpretado.
¿A que lógica responde todo esto? ¿De acuerdo con qué modelos organizamos
en nuestra mente todo este fenómeno?
Parece evidente que para construir este universo narrativo no basta con la in­
tuición del narrador, y que es necesario estudiar y sistematizar con todo el detalle
posible algunos instrumentos conceptuales que puedan ayudarnos a navegar en
la complejidad del espacio sonoro audiovisual.
7.3.2. El concepto de espacio sonoro
Hemos visto ya que nuestra memoria y nuestra experiencia auditivas nos per­
miten: a) reconocer distancias que existen entre las fuentes sonoras y nosotros co­
mo receptores; b) reconocer la dirección de la que provienen los sonidos; y c) re­
construir el volumen espacial del lugar donde está situada una fuente sonora.
Estos tres mecanismos perceptivos configuran una sensación global que po­
demos definir perfectamente como sensación espacial. El funcionamiento simul­
táneo de estos tres procesos nos proporciona auditivamente una información muy
clara de nuestra ubicación espacial, de nuestro propio movimiento en el espacio
y del movimiento en el espacio de los objetos que nos rodean.
Es cierto que estos mecanismos perceptivos son simultáneos a los de la visión,
y que actúan complementando las informaciones espaciales que nos proporciona
el sentido de la vista. Pero es igualmente cierto que cuando cerramos los ojos, o
cuando nos movemos en un espacio sin luz, esta percepción espacial auditiva si­
gue funcionando con eficacia. La conclusión es que resulta pertinente hablar de
espacio sonoro, y que éste debe ser definido como un concepto específico y dife­
renciado de las otras concepciones espaciales. Vamos a proponer, en consecuen­
cia, la siguiente definición de espacio sonoro:
Definiremos espacio sonoro como la percepción volumétrica que surge en la mente
de un receptor, a medida que va procesando sincrónicamente todas las formas sonoras
228
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
relacionadas con el espacio. Estas formas sonoras llegan regularmente al oyente como
parte de la información acústica que recibe su sistema auditivo.
La definición propuesta no perfila una definición física de espacio sonoro ob­
jetivadle y cuantificable como tal, sino que sitúa el concepto de espacio sonoro en
la mente del receptor. Los estímulos que configuran la percepción espacial son
formas sonoras generadas por la reflexión acústica en un volumen de aire situado
entre obstáculos. El sentido humano de la audición reconoce las formas sonoras
asociadas a cada volumen y lo reconstruye perceptivamente. Es decir, recompone
mentalmente volúmenes que están acotados por objetos físicos concretos (muros,
techos, túneles, pozos, etc.) y recompone, también, las distancias, movimientos y
perspectivas que producen las fuentes sonoras al ubicarse o moverse en estos vo­
lúmenes; todo ello con una precisión considerable.
La percepción de espacio sonoro aparece en la mente del oyente en el mo­
mento en que éste reconoce alguna de las formas acústicas vinculadas a la in­
fluencia del espacio: diferencias o variaciones coherentes de intensidad, reverbe­
ración, direccionalidad, etc. Es decir, en el momento en que el sonido proveniente
de los altavoces de la radio, la TV o el cine se transforma en un ente acústico. A
partir de entonces, los sonidos adquieren valor por sí mismos dentro de la narra­
ción audiovisual, y actúan sobre la percepción como si fuesen objetos físicos rea­
les situados en el espacio (véase apartado 2.3.4.).
La fenomenología espacial' auditiva en su sentido más puro se da en el univer­
so de la composición musical, en el que el espacio ocupado por las formas sono­
ras existe y tiene valor por sí mismo y no sólo como un índice asociado sistemáti­
camente a sus fuentes sonoras y a los obstáculos que éstas encuentran.
Finalmente, señalaremos que el concepto de espacio sonoro es distinto del con­
cepto de paisaje sonoro (véase Moles, 1981). El concepto de paisaje sonoro pro­
puesto por Moles comprende cualquier tipo de conjunto sonoro que perciba el
oyente, suponga éste una recomposición espacial, o no. Desde el punto de vista de
la narratividad audiovisual esta diferenciación es importante. En las composiciones
sonoras audiovisuales que distribuyen los medios de comunicación de masas, a
menudo recibimos composiciones sonoras en las que no se hace ningún tipo de
tratamiento espacial en el sentido de recomposición volumétrica del entorno.
Por ejemplo, en todos los programas informativos radiofónicos o televisivos se
configuran, efectivamente, paisajes sonoros, pero su composición desde el punto
de vista espacial es absolutamente plana. No existe voluntad de construcción de
espacio: todas las voces y las músicas que configuran la información están tratadas
técnicamente de manera que generan casi exactamente el mismo nivel de intensi­
dad; se procura eliminar, además, todo tipo de reverberación instalando materia­
les absorbentes en las paredes, techo y suelo de los estudios. Dicho de otra ma­
nera: en los programas informativos se tiende a destruir todas las formas sonoras
vinculadas al espacio. La única posibilidad, entonces, de que el oído del receptor
perciba sensaciones espaciales en este tipo de géneros audiovisuales suele ser a
través de alguna de las grabaciones de sonido realizadas en «malas condiciones»
fuera de los estudios. En esas grabaciones externas sí suele haber diferencias de
229
intensidad y resonancias que serán percibidas por el receptor como sensaciones
espaciales, apareciendo, entonces, dentro del conjunto global de los paisajes so­
noros del informativo, algunos espacios sonoros concretos.
Tomemos ahora las películas de terror como ejemplo contrario. En este géne­
ro audiovisual se trabajan con detalle las formas acústicas espaciales para cons­
truir espacios sonoros grandes y vacíos: sótanos, cavernas, criptas, catedrales... En
estos casos el paisaje sonoro transmite de una forma muy clara sensaciones volu­
métricas, es decir, compone espacios sonoros.
Así, el concepto molesiano de paisaje sonoro es mucho más amplio y menos
preciso que el de espacio sonoro. Mientras un paisaje sonoro es cualquier mezcla
de sonidos que llega al oído, el espacio sonoro es una sensación volumétrica que
sólo puede producir en el oyente un tipo muy determinado de paisajes sonoros.
7'33. El espacio sonoro en el contexto audiovisual
La percepción del espacio sonoro se rige por unas leyes perfectamente dife­
renciadas de las del espacio visual y, lógicamente, el conocimiento de estas leyes
puede transformarse en un instrumento muy útil en el contexto de la narración au­
diovisual.
En el contexto audiovisual, la posibilidad de dominar los mecanismos que rigen
la percepción del espacio sonoro es una aportación esencial que nos permite cons­
truir y dominar artificialmente las percepciones auditivas espaciales de nuestra au­
diencia, sin que sea necesario que exista en el universo referencial el espacio que
debería generarlas. La posibilidad de acusmatizar los sonidos que nos da la tec­
nología del audio, sumada a las posibilidades de manipulación técnica de la inten­
sidad, de la reverberación4 y de la direccionalidad,5 nos permiten controlar con mu­
cha eficacia la reconstrucción de cualquier tipo de efectos acústicos espaciales.
Hemos visto que ciertas formas sonoras actúan como índices sígnicos que nos
remiten a una determinada configuración espacial donde están ubicadas las fuen­
tes sonoras que estamos escuchando. Y hemos visto, también, cómo la tecnología
audiovisual nos permite generar y manipular artificialmente formas sonoras que
están relacionadas con el espacio. La consecuencia inmediata de estas dos obser­
vaciones es la posibilidad de generar espacios sonoros virtuales en la mente de
nuestros receptores, que actúan con una extraordinaria fuerza realista. En suma,
partiendo de un conocimiento detallado del tipo de alteraciones acústicas que
producen en el sonido determinados obstáculos y volúmenes, es perfectamente
posible reconstruir artificialmente la sensación espacial. Es decir, es perfectamen­
te posible manipular un sonido concreto de modo que éste transmita acústica­
mente a cualquier oyente la sensación de que su fuente sonora está ubicada en un
túnel, un pozo, una sala abovedada, frente a una pared, en un espacio abierto, en
4.
Efecto de repetición de los sonidos controlando a voluntad el tiempo de separación entre ellos.
5. Actualmente es posible controlar artificialmente el efecto de direccionalidad de los sonidos con
mucha precisión mediante los sistemas de grabación y reproducción estereofónicos, cuadrafónicos, etc.
230
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
una habitación pequeña...; o que comunique distancias, perspectivas y movi­
mientos, a voluntad del narrador.
A partir de aquí, revisaremos una serie de modelos básicos de conocimiento
acústico, acústico-visual y acústico-narrativo que nos permitirán explicar y siste­
matizar este tipo de trabajo expresivo desde el sonido.
timbre-tiempo. Así, cuando observamos el sonido en su globalidad y con suficien­
te detalle, aparecen siempre diferencias muy claras entre la sensación que produ­
ce una amplificación artificial del sonido y las sensaciones producidas por la varia­
ción de distancia entre fuente sonora y el oído, o entre fuente sonora y micrófono.
Veamos cuáles son estas diferencias.
La amplificación electrónica de un sonido no altera ninguna de las dimensio­
nes de su timbre. Simplemente aumenta o reduce de manera homogénea la inten­
sidad de todas las frecuencias que componen ese sonido, dejando el perfil de su
espectro exactamente igual que estaba inicialmente. No es éste, en cambio, el mo­
do en que la distancia actúa sobre el espectro. Cuando una fuente sonora se aleja
del punto de audición, el efecto acústico global que se produce en el lugar de es­
cucha es, efectivamente, la atenuación de todas las intensidades que componen
su sonido por efecto de la energía gastada en recorrer el espacio. Pero esta ate­
nuación nunca es homogénea. La composición espectral queda afectada por el
alejamiento de dos formas distintas:
7.3.4. Acústica de la sensación de distancia
Reproducir acústicamente la sensación de distancia entre una fuente sonora y
el receptor que la escucha es la forma aparentemente más simple y, sin duda, la
más utilizada para crear espacios sonoros. El modo de controlar la sensación de
distancia entre los oyentes y un ente acústico (véase apartado 2.3.4) es manipu­
lando técnicamente su intensidad. En una primera aproximación, parece perti­
nente afirmar que cuanto mayor es el nivel de amplificación de la intensidad, el
ente acústico se percibe como más cercano; y que cuando la intensidad se redu­
ce, percibimos que el ente acústico se aleja.
A lo largo del presente apartado y del siguiente, el lector podrá comprobar que
este primer planteamiento sobre la relación entre intensidad y distancia es, a to­
das luces, demasiado simplista. Es necesario conocer mucho más a fondo la acús­
tica de la sensación de distancia para no cometer graves errores narrativos al cons­
truir espacios sonoros utilizando sólo el control artificial de la intensidad
En el apartado 4.2.4 vimos con detalle que el aumento de la distancia entre la
fuente sonora y el punto de audición, o el punto de ubicación del micro, determi­
na una variación de la sensación de intensidad. Cuando una fuente sonora se ale­
ja, la intensidad disminuye en 6 dB cada vez que duplicamos la distancia entre ella
y nosotros; y siguiendo la misma lógica, cuando la distancia entre la fuente sono­
ra y el punto de audición se reduce a la mitad la intensidad aumenta en 6 dB.
En el apartado 4.2.5 vimos, también, que este fenómeno perceptivo es directa­
mente utilizable en el sentido inverso. O sea, al manipular técnicamente la inten­
sidad se consigue de manera artificial la sensación de que la fuente sonora se es­
tá alejando o acercando de acuerdo con un mecanismo perceptivo que hemos
bautizado como la -regla de los 6 dB-, Este recurso expresivo es, sin duda, el más
popular y generalizado de todos los que pueden utilizarse en el ámbito audiovi­
sual para conseguir la creación de sensaciones espaciales. Una vez que elegimos
algún suceso sonoro concreto y lo tratamos como un ente acústico, éste genera un
espacio sonoro y puede ser situado en cualquier punto de este mismo espacio
(cerca o lejos del oyente) con mucha precisión. En el apartado 4.2.5 exponíamos
algunos ejemplos de cómo es posible controlar la sensación de ubicación en el es­
pacio sonoro manipulando técnicamente el nivel de intensidad.
El efecto virtual de alejamiento o acercamiento que produce la manipulación
técnica de la intensidad se explica porque la amplificación electrónica del sonido
crea un efecto acústico muy parecido al que produce la variación real de distancia
entre fuente sonora y punto de audición. De todas formas, la sensación de intensi­
dad nunca se presenta aislada, sino como una parte del sistema intensidad-tono-
231
1. la intensidad de las frecuencias graves se atenúa con mucha más rapidez
que la de las frecuencias agudas, de manera que el sonido produce al oído
una impresión espectral cada vez más clara a medida que la fuente se aleja
del punto de audición;
2. si el sonido se produce en un espacio cerrado, la diferencia entre la intensi­
dad del sonido que proviene directamente de la fuente y la del sonido refle­
jado en las paredes es cada vez menor, de modo que cuanto más se aleja la
fuente sonora del punto de audición es más perceptible para el oído la re­
verberación de ese espacio.
El resultado de todo esto es que cuando en el interior de un estudio de graba­
ción un locutor se aleja del micro, el sonido de la voz que llega al control de gra­
bación no sólo se oye globalmente con menos intensidad, sino que también se oye
menos definida, más brillante y con algo de resonancia. En cambio, si situamos ese
mismo locutor a 20 centímetros del micrófono y lo escuchamos atenuando artifi­
cialmente su intensidad desde la mesa de mezclas, el sonido de la voz será, efecti­
vamente, más débil, pero no va a sonar con los otros tres matices acústicos del ale­
jamiento. Es decir, no vamos a escuchar la pérdida de definición, ni la mayor
atenuación de las frecuencias graves, ni la ligera resonancia de la sala.
Vemos, pues, que la intensidad es, ciertamente, el parámetro dominante en la
sensación de distancia. No obstante, esta dimensión no aparece nunca aislada, si­
no que se vincula sistemáticamente a otros aspectos acústico-perceptivos. Desa­
rrollaremos algún ejemplo concreto que permita al lector valorar cuál es el alcan­
ce narrativo de esos matices acústicos que acompañan siempre a las variaciones
de intensidad.
Imagine el lector que estamos sonorizando una telenovela, y hoy nos toca do­
blar la secuencia del encuentro final entre un padre y su hijo en el puerto de una
ciudad pesquera. Las imágenes a las que hemos de añadir sonido muestran un es­
pacio visual completamente abierto. El padre está aún en el pequeño barco de
232
233
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
pesca y ve a su hijo a lo lejos, esperándole en el puerto. La imagen toma el punto
de vista del padre y vemos cómo el niño grita a lo lejos, en el puerto, entusiasma­
do y feliz.
Con objeto de conseguir un efecto realista de lejanía al sonorizar esa situación,
decidimos que el actor de doblaje que interpreta la voz de niño se aleje hasta el ex­
tremo opuesto del locutorio que está a unos 8 metros del micro para gritar el texto.
Procedemos a la grabación y comprobamos los resultados. La sincronía es buena y
la interpretación perfecta, pero el efecto global resulta absolutamente inverosímil
y absurdo. Mientras estamos viendo un plano de gran espacio abierto, oímos la voz
reverberante del niño que suena a metida en una sala cerrada. El ligero nivel de re­
flexión sonora del locutorio ha sido más que suficiente para que la falta de relación
lógica entre sonido e imagen impida que se produzca el efecto final de coherencia
perceptiva que es imprescindible en cualquier narración audiovisual.
Será necesario volver a realizar la grabación, ahora con el actor siempre cerca
del micrófono, y conseguiremos el efecto de lejanía mediante la manipulación téc­
nica de la intensidad. Al estar el locutor junto al micro, el sonido directo de la voz
sonará mucho más fuerte que las débiles reflexiones producidas por las paredes
insonorizadas y absorbentes del locutorio. Luego, al atenuar técnicamente la in­
tensidad de todo el conjunto para reconstruir la sensación de que el niño está le­
jos, quedará definitivamente eliminado el ligero sonido de reverberación de la
sala, que en el proceso anterior había aumentado espectacularmente. Como re­
sultado final tendremos una voz que suena muy débil (como a lo lejos) y sin nin­
guna reverberación (como en un espacio abierto).
Pensemos, ahora, que nuestro problema es poner la voz a otra secuencia de la
telenovela donde predominan los primeros planos del rostro desencajado de un
hombre que piensa en su propia desesperación. La cara no mueve los labios así
que la voz ha de sugerir un monólogo interior desesperado y dramático.
Para que el sonido de la voz transmita la sensación de monólogo interior, ha
de sonar como si la escuchásemos desde dentro mismo del personaje. El referen­
te acústico de esta situación es ese sonido característico de cuando uno se habla a
sí mismo. Imagine el lector, por ejemplo, que al ir a pasar la página de un viejo li­
bro al que tiene mucho aprecio lo hace con tanta energía y descuido que la plana
se rompe por la mitad, este pequeño accidente seguramente desencadenará una
exclamación sonora muy enérgica y de poca intensidad, algo así como un: ¡¡os­
tras..., me lo he cargado'.', muy flojito y desconsolado. Ése es el sonido de monó­
logo interior que hemos de conseguir para nuestro personaje solitario: el sonido
de escucharnos la voz desde dentro de nuestro propio cuerpo.
Para conseguir ese efecto de proximidad extrema pediremos al actor de do­
blaje que se acerque mucho al micrófono porque sólo de ese modo es posible re­
coger los matices acústicos más débiles de las frecuencias que componen su voz.
Si el locutor se sitúa a la distancia habitual (a unos 20 cm del micro) estas fre­
cuencias de baja intensidad no son recogidas por el micrófono, pero sí que lo son
cuando la boca del locutor se sitúa a 1 o 2 cm del micrófono. En una comunica­
ción interpersonal, las frecuencias débiles de la voz sólo son audibles cuando al­
guien nos habla con la boca pegada al oído, o cuando nos escuchamos a nosotros
mismos. Así, cuando oímos esas frecuencias características de la cercanía en una
narración audiovisual, tendemos automáticamente a interpretarlas de una de estas
dos maneras: a) alguien me habla al oído, b) estoy escuchando la voz de alguien
como si la escuchara desde dentro de él mismo.
Es cierto que al acercarse el doblador hasta 1 cm del micrófono, este acerca­
miento produce un aumento de la intensidad que será recogido en la mesa de
mezclas, y que a eso se le suele denominar un primerísimo primer plano. Pero
ese mismo aumento de la intensidad global se podría haber conseguido con el
locutor colocado a 20 cm del micrófono y aumentando técnicamente la ganan­
cia acústica desde el control de audio. La especificidad del matiz sonoro de ese
mal llamado primerísimo primer plano no está en la intensidad sino en la di­
mensión tímbrica que hemos denominado definición.6 Cuanto más se acerca un
locutor al micro, más se amplía la gama de frecuencias de la voz recogidas,
puesto que hay una serie de frecuencias de muy poca energía que antes no lle­
gaban al diafragma del micrófono y ahora sí pueden llegar. El resultado percep­
tivo es, entonces, un aumento característico de la sensación de precisión y de
matiz, o sea un aumento de la definición. La voz se oye enriquecida con una se­
rie de pequeños ruidos característicos del aparato fonador que antes no escu­
chábamos: ligera fricción del aire, leves ruidos de los labios y la lengua, algún
crujido de la saliva, etc.
De momento, hemos conseguido la sensación de monólogo interior mediante
el acercamiento al micro, pero pasemos a la problemática que se produce en el in­
terior del control de grabación. Cuando un actor se acerca tanto al micrófono se
produce inmediatamente un problema de saturación de niveles de potencia en la
cadena de grabación que puede ser resuelto de dos maneras:
1. bajando técnicamente la intensidad al reducir la ganancia acústica desde la
mesa de mezclas;
2. siendo el propio locutor quien baje la intensidad de su voz controlando la
fonación.
Si aplicamos la solución técnica -solución a)-, enseguida nos damos cuenta de
que la voz vuelve a sonar alejada, perdiéndose la sensación de monólogo interior.
La disminución global y homogénea de intensidad en todo el espectro que pro­
duce el potenciómetro de la consola de mezclas hace desaparecer las frecuencias
de menor intensidad, que eran, precisamente, las responsables de expresar la sen­
sación de «voz oída desde dentro del actor». En cambio, cuando es el locutor el
que controla fonológicamente la intensidad de su voz -solución b)-, ésta sigue so­
nando con todos sus matices de proximidad. Al seguir la boca del doblador junto
al micro, éste sigue recogiendo todas las frecuencias de poca intensidad que son
características del efecto de cercanía.
Ahora sabemos ya que para reconstruir el sonido de monólogo interior es ne­
cesario que el actor de doblaje se sitúe muy cerca del micrófono y, además, que
6. Véase el apartado 3.3.3.
234
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
desde el control de audio se mantenga un nivel de amplificación fuerte, con obje­
to de que las frecuencias menos intensas de la voz, que son las responsables de la
sensación de gran proximidad física, sean perfectamente audibles. Y hemos lle­
gado, también, a la conclusión de que para que eso sea técnicamente posible es
necesario que el locutor lleve la intensidad de su voz a niveles muy bajos a fin de
evitar saturación de potencia en la cadena de grabación.
El último problema que quedaría por resolver depende de la capacidad del actor
de doblaje para mostrarse desesperado a 1 cm del micro y manteniendo su voz a ba­
ja intensidad, pero, evidentemente, eso escapa ya a las posibilidades del realizador.
Intentemos ahora sistematizar toda esta información fenomenológica en torno
a la sensación auditiva de distancia que hemos expuesto hasta ahora.
Decíamos que la intensidad sonora es el parámetro fundamental que influye
sobre la sensación de distancia, pero también hemos visto con detalle, a través de
los ejemplos revisados, que en cada situación concreta la alteración de la intensi­
dad va siempre acompañada con otro tipo de variaciones acústicas que son las
que aportan información sobre el estado de la fuente sonora, o sobre el tipo de es­
pacio en el que está ubicada. Así que si reducimos la construcción de la sensación
de distancia exclusivamente a la manipulación técnica de la intensidad estamos
empobreciendo enormemente sus posibilidades expresivas.
Por otra parte, hemos visto, también, que no todas las variaciones técnicas de
la intensidad expresan cambios de distancia, ni todos los cambios naturales de in­
tensidad se deben al acercamiento o alejamiento de una fuente sonora.
Es cierto que cuando nos enfrentamos a la acústica de la distancia desembo­
camos sistemáticamente en la intensidad, pero percibimos y sabemos que la in­
tensidad no es físicamente aislable, sino que es parte de un sistema. En conse­
cuencia, al buscar una explicación a la sensación auditiva de distancia, se
configuran junto a la variación de intensidad una serie de entornos que son per­
fectamente diferenciables entre sí por sus distintas fenomenologías acústicas y
perceptivas. Estos entornos de la variación de la intensidad son concretamente
tres y dependen del tipo de tratamiento con el que se controla en cada momento
el nivel de intensidad.
Genéricamente, los tratamientos que permiten controlar la intensidad son los
siguientes: 1) el control de la energía vibratoria de la fuente,7 2) el control de la
distancia entre fuente sonora y punto de audición, y 3) el control del nivel de am­
plificación electrónica.
Puesto que cada uno de estos tratamientos de la intensidad genera su propio
entorno acústico-perceptivo, nombraremos cada entorno de modo que quede di­
rectamente relacionado con la correspondiente manipulación de la intensidad que
lo origina:
Control de la energía vibratoria de la fuente:
Entorno de la fuente.
7. Por ejemplo: gritando más o menos, o golpeando más o menos fuerte una campana.
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
235
Control de la distancia entre fuente sonora y el punto de audición.Entorno de la distancia.
Control del nivel de amplificación electrónica:
Entorno técnico.
Terminaremos, pues, este apartado proponiendo la clasificación sistemática de
todos los fenómenos acústico-perceptivos que están vinculados al tratamiento de
la intensidad en tres entornos claramente diferenciados: el entorno de la fuente,
el entorno de la distancia y el entorno técnico.
• El entorno de la fuente. Este entorno hace referencia de manera intrínseca y
exclusiva a la amplitud de las vibraciones que emanan de las fuentes sono­
ras y no tiene ninguna relación directa con la distancia ni con el tratamiento
artificial de la señal de audio. La fenomenología perceptiva que depende de
la amplitud de las vibraciones naturales de una fuente sonora está vinculada
a la propia estructura física de esa fuente, y no puede ser reconstruida me­
diante la amplificación electrónica, ni variando la distancia entre fuente y
punto de audición.
Cuando una misma fuente sonora es estimulada de manera natural con
más o menos fuerza, vibra con mayor o menor amplitud; no obstante, la
composición espectral y la evolución temporal de esta vibración tienden a
variar de manera diferente según sea la energía aplicada. Por ejemplo, el so­
nido que produce un golpe débil en una campana es completamente distin­
to del que produce sobre esa misma campana un golpe muy fuerte. Mientras
el golpe débil extrae de la campana una forma sonora corta, casi sin cuerpo
y con una caída blanda y homogénea; un golpe muy fuerte hace que emane
de la campana una forma sonora mucho más larga, de cuerpo definido y con
una caída oscilante extremadamente lenta. Esta fenomenología acústica
vinculada a la estructura física de la campana y que depende de sus varia­
ciones naturales de intensidad, no puede ser reproducida por la amplifica­
ción electrónica.
Del mismo modo, cuando un locutor emite su voz con poca o con mucha
fuerza, además de actuar sobre la intensidad está influyendo sobre la com­
posición espectral del sonido que produce. Mientras que al emitir la voz con
poca energía, el espectro acústico de la voz resulta poco rico y suena al oído
con una impresión espectral mate; cuanto mayor sea la presión de aire subglótica que apliquemos a la laringe para hacer vibrar los pliegues vocales, el
espectro aumentará su intensidad en la zona de frecuencias agudas, produ­
ciendo una percepción auditiva mucho más brillante. Tampoco esto puede
ser reproducido mediante una simple amplificación electrónica.
Amplificando un tañido débil de campanada, o un murmullo oral no va­
mos a conseguir que el golpe del badajo parezca fuerte ni que el murmullo
se vuelva un grito, lo único que lograremos es que campana y voz suenen
como si estuviesen mucho más cerca del receptor.
236
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
• El entorno de la distancia. Es un entorno configurado por la fenomenología
perceptiva que depende exclusivamente de la distancia entre la fuente so­
nora y el punto de audición. Como hemos visto más arriba en este mismo
apartado, la distancia actúa a la vez sobre el sonido directo y sobre el soni­
do reflejado, produciendo en el punto de audición un sonido resultante que
difiere del original en intensidad, composición espectral y estructura tempo­
ral. Mediante la amplificación artificial es posible reproducir la influencia de
la distancia sobre la intensidad, pero no podemos reconstruir el efecto que
producen las reflexiones sonoras en el espectro (impresión espectral) y en la
forma temporal (reverberación).
Toda fuente sonora natural, mientras está emitiendo sonido, se encuentra
ubicada en un lugar en el que existe una cierta cantidad de obstáculos que
generan reflexiones. Las vibraciones que provienen directamente de la fuen­
te y las vibraciones reflejadas se suman componiendo un sonido resultante
que el oyente reconoce como característico del espacio. En los espacios ce­
rrados, mientras la intensidad del sonido directo cambia, aumentando o dis­
minuyendo con la distancia, la intensidad del sonido reflejado se mantiene
constante. De ese modo, cuanto más se aleja la fuente sonora del punto de
audición, mayor es la presencia auditiva de las reflexiones y menor la del so­
nido directo. Cuando la fuente se acerca el fenómeno se invierte.
Por otra parte, las reflexiones influyen en el espectro, de manera que al su­
marse éstas con el sonido directo queda alterada la impresión espectral que
percibe el oyente. Así, una sala de paredes duras potenciará los agudos ha­
ciendo que la impresión espectral sea más brillante. Y, además, aumentará la
fuerza de las reflexiones haciendo que el sonido siga oyéndose mientras re­
bota de una pared a otra aun después de que la fuente haya dejado de sonar.
Resumiendo, al aumentar la distancia entre fuente y punto de audición, pon­
gamos por caso en una sala cerrada de paredes duras, se producen los si­
guientes efectos perceptivos: a) disminuye la intensidad global, b) el sonido
se hace más brillante y c) aumenta la sensación de reverberación.
La amplificación electrónica, efectivamente, reconstruye un aumento o
una disminución de la intensidad similar al que produce el acercamiento o el
alejamiento de una fuente sonora, pero en ningún caso alarga o acorta la re­
verberación, ni altera la impresión espectral. Es fundamental, pues, tener
presente que el efecto perceptivo de la distancia sólo será idéntico al que
produce el tratamiento técnico de la intensidad cuando estemos simulando
un espacio abierto, es decir, cuando trabajemos con formas sonoras sin nin­
gún tipo de reflexión espacial.
• El entorno técnico. Este último entorno hace referencia exclusiva al ámbito
tecnológico de la manipulación de la intensidad. Hemos dicho ya con todo
lujo de detalles que cuando amplificamos electrónicamente un sonido au­
menta la intensidad de todas las frecuencias que componen su espectro so­
noro de manera homogénea. Contrariamente, los fenómenos naturales in­
fluyen siempre sobre la intensidad de los sonidos de manera selectiva,
actuando sólo sobre una parte limitada del espectro.
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
237
Todo narrador audiovisual debería, pues, tener eso muy en cuenta y no
confundir en ningún caso el efecto acústico de la amplificación electrónica,
con el que depende de la distancia, o del aumento de la energía de un cuer­
po vibrante.
Es cierto que con la tecnología actual también resulta perfectamente posi­
ble reconstruir el efecto acústico de la reverberación, o aumentar la brillan­
tez de un sonido, pero el problema que plantea este tipo de manipulaciones
ya no tiene nada que ver con la simple amplificación. Para imitar la reverbe­
ración de una sala utilizando un procesador de tiempos, o para copiar la im­
presión espectral que produce una voz agresiva usando un ecualizador grá­
fico, es necesario hacer una aproximación analítica al sonido; y eso exige un
conocimiento bastante más profundo que el que se necesita para ajustar el
nivel general de intensidad con uno de los potenciómetros de la mesa de
mezclas.
En cualquier caso, toda manipulación técnica del sonido está orientada a
reproducir o a recomponer los efectos acústicos y perceptivos que producen
los fenómenos naturales. Así, es fundamental que los fenómenos acústicos y
perceptivos originales no sean confundidos con su recomposición artificial
a través de medios tecnológicos. En el caso concreto de la relación entre dis­
tancia e intensidad, la conclusión evidente es que nunca debe ser confundi­
da la acústica real y compleja que desencadena la variación de distancia en­
tre fuente sonora y punto de audición,8 con la simple manipulación técnica
de la intensidad.
7.3.5. Sobre el concepto de plano sonoro
En realidad, la confusión que criticamos al final del apartado anterior es bas­
tante frecuente y, a menudo, la distancia y la manipulación técnica de la intensi­
dad se tratan como si fuesen isomórficos o, incluso, como si fuesen la misma co­
sa. Balsebre, por ejemplo, unifica intensidad y distancia hablando solamente de
plano sonoro sin llegar a diferenciar entre tratamiento técnico y sensación espa­
cial (véase Balsebre, 1994, págs. 148-149). Cebrián Herreros va algo más allá que
Balsebre y dice que los planos indican al oyente el alejamiento o aproximación de
las fuentes sonoras, especificando que no debe confundirse la intensidad con la
presencia sonora. Luego, explica que la intensidad se refiere a la fuerza o debili­
dad de los sonidos y que la presencia sonora hace referencia al plano; asociando
así el concepto de plano a la distancia entre fuente sonora y micrófono (véase Ce­
brián, 1994, págs. 324 y 327). No obstante, tampoco Herreros clarifica en ningún
momento cuál es la diferencia entre la sensación de plano y la de presencia sono8. Al margen de las diferencias de sensibilidad acústica que puedan existir entre el oído y cada mi­
crófono concreto, el concepto de punto de audición es válido tanto para la ubicación de un oyente co­
mo para la situación de un micro, en tanto que la fenomenología acústica que se desencadena en am­
bos casos es la misma. (Véase apartado 7.39)
238
239
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
ra, con lo que la distinción entre el entorno técnico y el entorno de la distancia si­
gue sin quedar clara.
A nuestro modo de ver, el término /plano/, ya clásico en la terminología ra­
diofónica como un concepto vinculado a la relación distancia-intensidad, debe te­
ner un uso mucho más matizado.
Es evidente que el concepto de plano sonoro está inspirado en el de plano vi­
sual en su acepción de punto de vista: plano corto, plano medio, plano americano,
etc. Y que recoge claramente de éste la idea de proximidad o lejanía entre la fuen­
te y el observador. Pero si comparamos con detalle la mecánica productiva en am­
bos contextos audiovisuales veremos que entre ellos hay diferencias importantes.
En la producción de imágenes, normalmente el objeto, o el personaje a foto­
grafiar, están insertados en un decorado o en un contexto visual más amplio; y co­
mo consecuencia de eso, la manipulación de la cámara es siempre la que deter­
mina el plano, con lo que el término adquiere un sentido muy claro. En cambio,
en el ámbito de la producción sonora, la fuente de la que se ha de recoger el so­
nido se suele tratar de manera aislada; trabajándose sólo con una voz, con un rui­
do, o con un instrumento musical, cuyo sonido, una vez grabado, será mezclado
con otros que también han sido recogidos aisladamente. En esta situación, el pla­
no sonoro puede venir determinado indistintamente tanto por la situación de la
fuente respecto al micrófono (la fuente se aleja o se acerca del micro), como por
el nivel de amplificación que decide el técnico desde la mesa de mezclas (el ope­
rador de control baja o sube la intensidad moviendo un potenciómetro). Esta du­
plicación de posibilidades crea un nivel de confusión importante, que se hace más
grave cuando la sala de grabación es reverberante, o cuando la fuente sonora ge­
nera cambios importantes de intensidad.
Imaginemos que estamos grabando la voz de un actor. El sonido está llegando
desde lejos, con una intensidad muy débil es decir, en un «plano de fondo» o «ter­
cer plano». Técnicamente la situación es la siguiente: el actor está a 2 metros del
micrófono y el potenciómetro del canal por el que entra la voz en la consola está
sólo a un tercio de sus posibilidades de amplificación. En el apartado anterior vi­
mos que cada entorno de la intensidad desencadena unos resultados expresivos
radicalmente diferentes, así que no va a sonar igual el paso del «plano de fondo» a
«primer plano» si lo conseguimos acercando al actor al micro, que si lo consegui­
mos aumentando la ganancia acústica desde la mesa de mezclas. Mientras en el
primer caso las resonancias de la sala se reducen, en el segundo aumentan.
Naturalmente, la decisión sobre cómo queremos realizar el «primer plano» de
esa voz dependerá de los resultados que busquemos; no obstante, es absurdo que
se nombren del mismo modo dos cosas que van a generar resultados sonoros muy
distintos. Si la acústica de la aproximación no es la misma que la acústica de la am­
plificación, está claro que debemos denominar cada tipo de tratamiento de una
manera diferente.
Nos parece, entonces, mucho más lógico y preciso seguir nombrando la sepa­
ración entre fuente sonora y micrófono utilizando su acepción natural, es decir, la
de: distancia-, y reservar el concepto de plano sonoro para concretar el nivel de
amplificación que se consigue electrónicamente. En suma, cuando en una reali­
zación sonora se pretende dar sensación espacial de cambio de distancia, es ne­
cesario diferenciar entre el efecto expresivo que produce un cambio de la separa­
ción entre fuente y micrófono, del que producirá un cambio en el nivel de ampli­
ficación. Así, es necesario, también, que concretemos terminológicamente
llamando distancia a la separación entre fuente y micrófono, y plano sonoro al ni­
vel de amplificación artificial.
Concluiremos, pues, afirmando que ambos recursos, manipulación de la dis­
tancia y manipulación del plano sonoro, son dos técnicas perfectamente diferen­
ciadas que el realizador utiliza a.la vez para tratar ciertos sonidos, creando una de­
terminada sensación de distancia espacial. Dicho de otro modo: son dos técnicas
distintas de realización que permiten situar a los entes acústicos en el espacio so­
noro, a cualquier distancia del receptor.
7.3.6. Movimientos en el espacio sonoro
La posibilidad de variar progresivamente la amplificación mediante los poten­
ciómetros de la consola permite reproducir el efecto acústico-perceptivo de una
fuente sonora que se mueve. Éste es un recurso narrativo clásico que supone
construir artificialmente la sensación auditiva de que los entes acústicos se están
acercando o alejando del oyente
Explicaremos esto más detalladamente recurriendo a algunos ejemplos.
Pensemos de nuevo en el ente acústico /planta saltadora/del que hablábamos
en el apartado 2.3.4. Como el lector recordará, se trataba de una forma sonora si­
milar a la que emana de un muelle (un /pooooiiingP), que quedaba asociada a lo
largo de la narración a los movimientos de una planta animada con capacidad
para desplazarse dando saltos. Si a medida que se sucede la reproducción de los
/poooiiing/ grabados previamente vamos manipulando el nivel de amplificación,
disminuyéndolo lenta y progresivamente, estaremos expresando un alejamiento
de la planta dentro del espacio sonoro. Naturalmente todo este fenómeno es pu­
ramente virtual ya que, en realidad, no existen ni la planta ni el espacio.
Siguiendo exactamente el mismo proceso, ahora a la inversa, es decir, aumen­
tando el nivel de amplificación, por ejemplo del ruido de un automóvil en marcha,
podremos reproducir con toda precisión el efecto perceptivo de que el vehículo
se está acercando.
La fenomenología acústica responsable de la sensación de que una fuente so­
nora se mueve acercándose o alejándose es prácticamente idéntica a la que desen­
cadena la sensación de distancia; la única diferencia entre ellas es que la intensidad
y su correspondiente entorno acústico-perceptivo, en lugar de permanecer esta­
bles, varían de manera progresiva. Si para expresar una determinada situación fi­
ja en el espacio sonoro, por ejemplo un automóvil parado, procedemos a elegir un
nivel concreto de intensidad y lo mantenemos sin variaciones; para expresar acer­
camiento o alejamiento en el mismo espacio sonoro lo que se ha de hacer es alte­
rar progresiva y lentamente el nivel de intensidad del ente acústico que queremos
mover.
240
241
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
Pero la manipulación de la intensidad no sólo posibilita recrear el movimiento
de las fuentes sonoras en la dimensión de la distancia. Cuando el tratamiento de
la intensidad se distribuye de la forma adecuada entre dos altavoces (estereofónicamente) aparece la sensación de movimiento lateral.
La técnica de la estereofonía9 permite al realizador de audio controlar el movi­
miento de los entes acústicos, de manera que, además de moverse hacia delante y
hacia atrás, puedan moverse, también, a la izquierda y la derecha. O sea, permite
crear el efecto perceptivo de que una fuente sonora se desplaza de izquierda a de­
recha, o de derecha a izquierda, siendo posible situarla lateralmente, en cualquier
punto frente al oyente. La capacidad para transmitir sensación de movimiento la­
teral que tienen los sistemas estereofónicos, se basa en la producción simultánea
de dos formas sonoras ligeramente distintas entre sí y que provienen de la misma
fuente; de manera que cada una de ellas se dirige a uno de los oídos del receptor.
La sensación de direccionalidad lateral proviene de las distintas condiciones
acústicas en que llega a cada oído del receptor el sonido de una fuente sonora no
situada frontalmente. Imaginemos que al cruzar una calle notamos que una moto­
cicleta se nos acerca por el lado derecho, esa clara sensación de lateralidad se de­
be a que el sonido de la moto, al provenir del lado derecho y avanzar de derecha
a izquierda, alcanza antes y con mayor intensidad al oído derecho que al izquier­
do. La capacidad de resolución temporal del sistema auditivo humano (entre los 2
y 7 milisegundos) localiza el desfase temporal que hay entre los dos oídos. Igual­
mente, la capacidad para percibir variaciones de intensidad entre 2 y 3 dB hace
que el sistema auditivo detecte la diferencia de volumen que hay entre el oído de­
recho, al que el sonido de la moto le llega directo, y el izquierdo, que lo recibe ya
ligeramente atenuado por la energía gastada para rodear la cabeza. Estas diferen­
cias de tiempo e intensidad son las dimensiones acústicas que traducimos per­
ceptivamente como sensación sonora de lateralidad.
La técnica de la producción estereofónica sigue, normalmente, una estricta ló­
gica naturalista. Su proceso, a grandes rasgos, es el siguiente: se capta el sonido
con dos micrófonos independientes a la vez, y se envían sus respectivas señales a
dos canales distintos que las grabarán separadamente, recogiendo las mismas vi­
braciones sonoras desde dos puntos distintos y de un modo muy similar a como
lo hacen los dos oídos de una persona. Los dos micros se montan sobre un adap­
tador que los mantiene a una distancia y a un ángulo determinados10 (véase Bar­
tlett, 1995). Cada configuración de doble micrófono, una vez diseñada, se mantie­
ne siempre de la misma forma y se usa como si fuese un micro único que capta el
sonido desde dos puntos de audición a la vez, uno desde el lado izquierdo y otro
desde el lado derecho. Luego, el material recogido en esos dos puntos de audi­
ción también se reproduce separadamente: el primero por un altavoz dirigido al
oído izquierdo y el segundo por otro altavoz dirigido hacia el oído derecho. Me­
diante esa técnica, cuando un oyente está adecuadamente situado entre los dos al­
tavoces recibe en sus oídos la misma composición acústica que le llegaría si hu­
biese estado en el mismo lugar donde se situó al par de micrófonos. Es decir, la
misma señal sonora compleja llega a cada oído con una intensidad distinta y con
una ligera diferencia temporal; o sea, exactamente como fue captada por cada
uno de los dos micros configurados para crear el efecto estéreo. El sistema auditi­
vo unifica, entonces, esas dos composiciones de formas sonoras ligeramente dife­
rentes, percibiéndolas como un único ente acústico que está situado más o menos
a la izquierda o la derecha, según sean las diferencias de tiempo e intensidad en­
tre ambos altavoces. Basta, pues, por ejemplo, grabar situando el par de micros
estéreo a la izquierda de la fuente, y cada vez que los altavoces reproduzcan esa
grabación el receptor percibirá que hay un ente acústico colocado a su derecha.
Hasta aquí hemos estado revisando la estereofonía como un proceso que per­
mite copiar de manera naturalista la direccionalidad espacial del sonido, no obstan­
te, esta tecnología abre también la posibilidad de crear artificialmente la sensación
de direccionalidad y de movimiento lateral. Un diseñador de sonidos que trabaje en
cine fantástico puede asociar sonidos sintéticos a máquinas o a personajes creados
infográficamente, y reconstruir acústicamente sus movimientos a izquierda y dere­
cha de la pantalla. El secreto del movimiento sonoro consiste, entonces, en duplicar
el sonido artificial estereofónicamente, controlando la diferencia de intensidad y de
desfase temporal entre los dos canales de modo artificial.
Según Alten, el sistema auditivo utiliza dos sistemas distintos para identificar la
dirección de la que viene el sonido: en las frecuencias altas reconoce la dirección
mediante la diferencia de intensidad entre los oídos, y en las frecuencias bajas re­
curre a la diferencia temporal (véase Alten, 1994, pág. 33). De todas formas, la re­
construcción artificial de la lateralidad sonora suele realizarse manipulando sola­
mente la diferencia de intensidad entre los altavoces, en tanto que éste es un tipo
de tratamiento mucho más simple que el de la manipulación del desfase temporal.
Probablemente el lector habrá comprobado ya más de una vez lo sencillo que re­
sulta manipular el balance" de su equipo estéreo para controlar la sensación de
direccionalidad, eligiendo así a voluntad, por ejemplo, el punto del espacio entre
los dos altavoces en el que quiere situar a su cantante favorito.
Resumiendo: para controlar artificialmente la sensación de lateralidad sonora
que pretendemos que perciba un receptor, hemos de duplicar el sonido de mane­
ra que sea reproducible paralela y simultáneamente en dos canales direccionados
respectivamente a la izquierda y la derecha, y tratar, luego, el sonido de cada ca­
nal por separado de la forma adecuada.
El trabajo artificial de mover los entes acústicos a la izquierda o a la derecha se
hace hoy de manera esencialmente intuitiva, siguiendo un método iterativo: el rea-
9. Técnica que utiliza dos sistemas paralelos y simultáneos de grabación, tratamiento y reproduc­
ción del sonido, orientados a izquierda y derecha. El sistema permite simular con mucha eficacia el pro­
cesamiento de captación bi-aural del oído humano.
10. El ángulo y la distancia que configuran el sistema de micrófonos estéreo varían en función de
las características técnicas que tienen los micros que componen cada par.
11. Botón que controla la relación de intensidad entre los dos altavoces en un sistema esterofónico.
Al girar el botón en el sentido de las agujas del reloj disminuye la intensidad de la señal que reproduce
el altavoz izquierdo y aumenta en la misma proporción la del altavoz derecho. Si el botón se gira en sen­
tido contrario la variación de intensidades se produce al revés.
BIBLIOTECA DLL INSTITUTO NAClüKfA
CINE Y ARTES
242
243
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
lizador manipula el balance y los desfases temporales, escucha los resultados, los
corrige, los vuelve a escuchar y los vuelve a corregir..., reiterando el ciclo hasta
que considera, finalmente, que ha obtenido los efectos deseados. Es evidente, no
obstante, que en este campo resultaría muy útil investigar cuáles son los márgenes
de variabilidad perceptiva (temporal y dinámica) entre un altavoz y otro, a fin de
poder concretar con precisión cuáles son los efectos de cada combinatoria de di­
ferencias entre el sonido de ambos altavoces sobre las sensaciones acústico-espaciales. Este tipo de investigación sería especialmente interesante para las aplica­
ciones multimedia que trabajan con espacios virtuales muy precisos, que podrían
así reproducir sensaciones espaciales de lateralidad de manera muy simple, recu­
rriendo sólo al tratamiento numérico de las señales de audio.
para ello bastaría con situar a las locutoras en un micrófono, al locutor en otro y en­
trar la señal de cada uno de ellos a la consola por un canal distinto; el ambiente de
feria entraría por un tercer canal proveniente de un magnetófono.
La composición inicial podría ser la siguiente: tratamos con los potenciómetros
la intensidad del locutor de modo que ésta quede muy débil, al fondo; el ambien­
te de feria lo amplificamos algo más, de manera que quede ubicado técnicamente
en un segundo plano; y finalmente manipulamos la intensidad de la conversación
de las chicas dejándola en un claro primer plano. Ahora tenemos definido un es­
pacio que producirá en el receptor sensación de profundidad. El efecto auditivo
para el oyente será que se encuentra situado junto a las muchachas, en un espacio
rodeado por gente y atracciones de feria, y que al fondo, a lo lejos, está la atrac­
ción de las serpientes. Cada sonido se ha transformado en un ente acústico situa­
do en el espacio sonoro, de manera que ya no tiene nada que ver con su ubicación
real en el estudio. Finalmente, cuando siguiendo el texto del guión, las locutoras
reparan en la atracción de las serpientes, y deciden ir a verlas, comenzamos a ba­
jar progresivamente el potenciómetro de su canal, mientras ellas siguen hablando
sin parar, de modo que la intensidad de la charla vaya bajando poco a poco hasta
llegar al mismo plano en el que tenemos amplificado el canal del locutor. Este úl­
timo tratamiento transmitirá al oyente la sensación inequívoca de que el grupo de
chicas se mueve hacia el fondo del espacio sonoro en dirección hacia la atracción
de las serpientes venenosas.
7.3-7. El efecto de profundidad o perspectiva
Cuando en lugar de trabajar con un solo ente sonoro situado en el espacio
acústico trabajamos simultáneamente con dos o más, se abre una nueva posibili­
dad narrativa: la de la construcción de perspectivas espaciales.
Mediante la manipulación organizada y coherente del tamaño de las formas vi­
suales que representan objetos, los pintores renacentistas consiguieron reprodu­
cir el efecto perceptivo de la profundidad visual. De un modo muy similar, la ma­
nipulación coherente de las intensidades posibilita la reconstrucción del efecto
perceptivo de profundidad sonora.
Al tratar cada ente acústico con una intensidad diferente podemos situarlos en
lugares distintos del espacio sonoro. Cuando el receptor escucha una composi­
ción, por ejemplo, de tres entes acústicos sonando simultáneamente con intensi­
dades diferentes aplica de una forma automática la tendencia natural a la cohe­
rencia perceptiva y la reconoce globalmente como un único espacio en el que hay
tres objetos que suenan situados en lugares diferentes. Es decir, escucha la pro­
fundidad espacial que hemos construido mediante un tratamiento perspectivista
de la intensidad, situando «más lejos» los entes que suenan con menor intensidad
y «más cerca» los que suenan más fuerte.
Una vez construido ese efecto perceptivo de profundidad, otros entes acústi­
cos pueden moverse perfectamente a través de él recorriéndolo en los dos senti­
dos: hacia el oyente o hacia el fondo. Para que ese efecto perceptivo se produzca
basta con mantener dos de los entes acústicos que definieron la perspectiva espa­
cial con su intensidad estable y manipular la intensidad del tercero.
Reconstruiremos esto en un ejemplo.
En primer lugar definiremos la perspectiva espacial. Para ello manejaremos el
siguiente material sonoro: a) un ambiente grabado de feria (músicas, ruidos, risas,
etc.), b) la voz de un locutor (interpreta al portero de una atracción promocionando a voz en grito un espectáculo de serpientes venenosas), y c) una conversación
entre tres locutoras (interpretan a tres muchachas adolescentes entusiasmadas con
la feria). Cada uno de estos materiales debería entrar por un canal diferente a la
mesa de mezclas, de modo que actuasen como fuentes sonoras independientes,
7.3.8. Acústica del volumen espacial
La sensación de volumen espacial viene determinada por la combinación del
efecto perceptivo de distancia con el efecto perceptivo que producen las reflexio­
nes sonoras. Cuapdo estudiábamos la percepción temporal de los sonidos, vimos
cómo la gran resolución temporal del sentido del oído (de 2 a 7 milisegundos)
permitía diferenciar con mucha exactitud los sonidos directos de los reflejados.
Esta capacidad es utilizada por el sistema perceptivo humano para recomponer
los espacios que actúan como caja de resonancia de los sonidos reflejados.
Acústicamente, las reflexiones sonoras son una serie de repeticiones idénticas
a una forma sonora originaria, pero que aparecen con un cierto retardo respecto
a ella y con menor intensidad. Esta configuración acústica también puede ser re­
producida técnicamente. Para ello es posible utilizar dos métodos: la retroalimentación mediante un magnetófono de dos cabezales, o la retroalimentación me­
diante un sistema electrónico de procesamiento de tiempos. En ambos casos, se
realizan las mismas funciones con instrumentos diferentes: se generan repeticio­
nes de un sonido original controlando la intensidad de las repeticiones y, también,
el tiempo de separación entre éstas y el sonido inicial.
Pero antes de seguir avanzando en las posibilidades narrativas que tiene la ma­
nipulación artificial de reflexiones sonoras, igual que hemos hecho en otras oca­
siones, revisaremos los conocimientos psicoacústicos disponibles sobre este tema
y el modo en que pueden ser aplicados a la expresión acústica.
244
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
Existen distintas categorías de reflexiones; no obstante, el tipo de reflexión
que, sin duda, resulta más interesante para la narrativa audiovisual es la refle­
xión directa y múltiple, característica de los espacios cerrados. A este tipo de re­
flexión se la denomina reverberación. Esta clase de reflexiones transportan una
información acústica que determina la percepción auditiva del volumen espacial.
La reverberación se origina cuando las vibraciones sonoras producidas en el inte­
rior de una sala cerrada son reflejadas muchas veces al rebotar de una pared a
otra. Este fenómeno acústico tiene tres dimensiones bien definidas: a) el tiempo
que tarda la primera reflexión en volver al punto donde está la fuente sonora que
produce el sonido (tiempo hasta la primera reflexión)-, b) el tiempo que tarda en
extinguirse el sonido después de que la fuente haya dejado de sonar {tiempo de
reverberación)-, y c) la relación entre las frecuencias del sonido original que son
absorbidas por las paredes y las que son reflejadas {coeficiente de absorción so­
nora). Las dos primeras dimensiones están directamente asociadas al tamaño de
la sala donde se emite el sonido, y la tercera a la dureza de sus paredes.
Cuanto mayor es la distancia entre las paredes de una sala, más tarda un soni­
do emitido dentro de ella en retornar a su punto de partida, o lo que es lo mismo,
más largo es el tiempo desde que deja de sonar la fuente hasta que la primera re­
flexión vuelve reflejada al lugar de origen. Paralelamente, cuanto mayor es la du­
reza de las paredes de la sala donde se produce el sonido, más tiempo permane­
ce el sonido reflejándose de una pared a otra después de que la fuente sonora
haya dejado de vibrar (mayor tiempo de reverberación). En consecuencia, el tiem­
po de reverberación depende, a la vez, del tiempo hasta la primera reflexión y del
Existe, pues, una relación física directa entre el volumen del espacio donde se
emite un sonido y el tipo de reflexiones que éste genera: a mayor volumen mayor
tiempo de reverberación. Y como consecuencia de esa vinculación física directa
nuestra memoria auditiva también asocia automáticamente el tiempo de reverbe­
ración con el volumen espacial, haciéndonos sentir que cuanto más larga es la re­
verberación percibida, tanto mayor es el tamaño de la sala que oímos resonar.
Revisemos ahora con más detalle el coeficiente de absorción sonora.
Este coeficiente puede variar de 1,0 a 0,0 y se calcula para cada banda de octa­
va, a lo largo de todo el espectro de frecuencias audible. Si decimos, por ejemplo,
que un material tiene un coeficiente de absorción sonora de 1,0 en la banda de
125 Hz, eso significará que absorbe todo el sonido de la octava que corresponde a
esa frecuencia. En cambio, cuando el coeficiente de absorción a 125 Hz es de 0,0
significa que el material en cuestión reflejará totalmente esa banda de frecuencias.
En las superficies habituales de nuestro entorno cotidiano (oficinas, aulas,
tiendas, viviendas, etc.) las superficies están, a menudo, recubiertas con materia­
les que tienen un coeficiente de absorción sonora importante (moquetas, cortinas,
alfombras, etc.). No obstante, la absorción que realiza este tipo de materiales po­
rosos sólo resulta efectiva en las frecuencias altas, porque el tamaño de sus poros
sólo permite que penetren las vibraciones con longitud de onda muy corta. Así,
cuanto más blandas son las superficies de la sala donde se produce una reverberancia, suele haber menos frecuencias agudas reflejadas; y a la inversa, cuanto
más duras son las paredes de la sala, mayor es la cantidad de frecuencias altas que
se reflejan y que enriquecen la reverberación.
Pues bien, perceptivamente, la cantidad de frecuencias que refleja una super­
ficie está directamente relacionada con la impresión espectral que adquiere el so­
nido al mezclarse con sus propias reflexiones. Cuando las paredes son duras, las
reflexiones incluyen las frecuencias agudas, y eso hace que la reverberación dé al
sonido un matiz tímbrico brillante. A medida que las superficies son más blandas
y porosas, se van reflejando solamente las frecuencias de mayor longitud de on­
da, que son, obviamente, las graves, entonces la reverberación produce una im­
presión espectral mucho más oscura y mate. El lector habrá comprobado muchas
veces cómo el matiz que toma su voz al resonar en una sala de paredes lisas y du­
ras, por ejemplo un gran cuarto de baño alicatado, es muy diferente del que ad­
quiere cuando resuena en un salón con alfombras y cortinas. La dureza de las
paredes del baño tienen un coeficiente de absorción sonora muy bajo, en conse­
cuencia, la reverberancia es rica en frecuencias agudas y la voz toma un matiz so­
noro brillante. En cambio, las superficies porosas del salón absorben un buen por­
centaje de las frecuencias más altas, con lo que la voz sólo se colorea con las
frecuencias graves produciendo una impresión espectral mucho más oscura que
en el cuarto de baño.
Así, cuando escuchamos una reverberación de impresión espectral brillante,
inmediatamente la asociamos a lugares de paredes duras; y si la impresión espec­
tral es oscura asociamos el sonido a un lugar de paredes blandas.
Volvamos, ahora, de nuevo, a la dimensión expresiva. Como siempre, lo inte­
resante para la narrativa audiovisual es la posibilidad de reproducir en el estudio,
coeficiente de absorción sonora.
A nivel práctico, las tres dimensiones suelen resumirse en una sola que es el
tiempo de reverberación. Utilizando este concepto se han desarrollado tablas que
asocian tiempo de reverberación y necesidades acústicas de la sala. Establecién­
dose, por ejemplo, que el tiempo óptimo de reverberación para una sala en la que
han de realizarse emisiones de voz está entre 0,25 y 0,75 segundos, que el de un
salón en la que ha de interpretarse música de cámara está entre 1,00 y 1,75 se­
gundos, y que el tiempo de reverberación que ha de producir un local en el que
suene un gran órgano de viento debe estar entre 2 y 3 segundos. De hecho cada
tipo de espacios tiene un tiempo de reverberación característico. Se suele estable­
cer la siguiente tabla indicativa de tiempos de reverberación:
Tipo de espacio
Tiempo reverb, en seg.
Estudios de grabación
Aulas
Salas de conferencias
Cines
Teatros pequeños
Salas de conciertos
Iglesias
Catedrales
0,4 - 0,6
0,5 - 0,9
0,8 - 1,2
0,7 -1,3
1,1 - 1,5
1,1 - 2,3
1,8 - 2,5
2,4 - 3,3
245
246
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
de manera artificial, las mismas sensaciones acústicas que emanan de los espacios
reales; y todo lo que acabamos de estudiar sobre la acústica del volumen espacial
nos proporciona medios concretos para eso.
Evidentemente, al generar una repetición múltiple y retardada del sonido, por
ejemplo con un magnetófono, estaremos produciendo un efecto acústico muy si­
milar a la reverberación real que se produce en una sala cerrada. Entonces, con­
trolando artificialmente la velocidad de la cinta magnetofónica, se controla el
tiempo que hay entre el sonido originario y las primeras repeticiones. Y ese tiem­
po de separación entre sonido original y repeticiones artificiales simula el tiempo
hasta la primera reflexión, de una reflexión real. A mayor velocidad de la cinta, el
tiempo entre el sonido originario y las primeras repeticiones se acorta, y el efecto
es de espacio pequeño. Si hacemos lo contrario y la cinta va más lenta, el tiempo
hasta las primeras repeticiones artificiales se alarga, con lo que el efecto es de un
espacio mucho mayor.
Por otra parte, al controlar la intensidad de la reverberación artificial, influimos
también sobre la sensación de volumen espacial. Cuanto mayor es la intensidad de
las repeticiones, más lenta es la caída del sonido reverberado y, en consecuencia,
más se alarga el tiempo que dura la reverberación artificial. Dicho de otra forma:
cuanto más amplifiquemos la intensidad del canal por el que entra la reverberación
artificial, más dura ésta y, en consecuencia, la sensación generada es que el ente
acústico que escuchamos está en un lugar cerrado de gran volumen espacial.
Finalmente, una vez controlada la sensación de volumen espacial a voluntad
del narrador audiovisual, podemos, también, controlar artificialmente la sensación
de dureza de las paredes de nuestro espacio virtual. Así, mediante un ecualizador,12 que nos permita manipular el espectro de la señal sonora en tercios de oc­
tava, no tiene ninguna complicación crear artificialmente impresiones espectrales
más o menos brillantes u oscuras. Con lo que el realizador puede, también, trans­
mitir al oyente la sensación de que las paredes del espacio resonante son más o
menos duras de acuerdo con las necesidades de la narración.
Vemos, pues, que existen múltiples posibilidades combinatorias entre la mani­
pulación del tiempo de reverberación y la ecualización de la mezcla resultante,
para conseguir espacios sonoros virtuales de las más diversas características volu­
métricas.
Respecto a las reflexiones sonoras suele existir un cierto nivel de confusión
terminológica entre los conceptos de eco y de reverberación que creemos que es
conveniente aclarar aquí. Debe utilizarse el término reverberación mientras las re­
flexiones sonoras se perciben como parte integrante del sonido, o sea, cuando se
oyen como un alargamiento que está pegado al sonido inicial. Este fenómeno per­
ceptivo se produce cuando el tiempo hasta la primera reflexión oscila entre los 10
y los 40 milisegundos, o lo que es lo mismo, cuando la distancia a la que se en­
cuentra la primera pared reflectante está a menos de 17 metros del punto de emi-
sión y audición. En esta situación, nuestro sistema auditivo, siguiendo el principio
de la regularidad (véase apartado 5.2.4) nos hace percibir el sonido inicial y sus
reflexiones unidos como una misma forma sonora.
En cambio, debe hablarse de eco cuando las reflexiones sonoras ya no son
percibidas como un alargamiento, sino como repeticiones claramente separadas
de la forma sonora originaria, es decir, como formas sonoras distintas. Esta per­
cepción se produce cuando el tiempo hasta la primera reflexión supera los 50 mi­
lisegundos. Explicándolo de otro modo: cuando la primera pared que refleja el so­
nido está a más de 17 metros del lugar de emisión y audición.
Para concluir este apartado, desarrollaremos una última reflexión que da co­
herencia a todo lo que hemos revisado hasta aquí sobre la construcción auditiva
del volumen espacial.
Si mediante el tratamiento adecuado de la intensidad de dos entes acústicos
(pensemos por ejemplo en personas) estoy explicando la distancia que hay entre
ellos, y a la vez, entre ellos y el oyente, es decir, estoy construyendo un claro y
concreto efecto de profundidad; al añadir un efecto sonoro de reflexión con un
retardo importante, estoy creando unas paredes que el oyente percibe como muy
alejadas de los personajes. Así, el volumen espacial percibido globalmente por el
receptor será el resultado de articular la distancia entre los dos personajes, y entre
ellos y el oyente; con la distancia de los personajes hasta los muros que reflejan su
voz, que depende del tiempo de reverberación.
A esta construcción es posible añadir el efecto direccional que es posible ge­
nerar mediante la estereofonía (diferencias de intensidad entre ambos oídos) y el
efecto de dureza de las paredes que es posible inducir perceptivamente mediante
el control de la impresión espectral. El resultado es una construcción espacial con­
siderablemente precisa y muy compleja. En suma, uniendo todas estas posibilida­
des de reconstrucción de la acústica del volumen espacial, disponemos de una
gran capacidad para la narración del espacio sonoro. Es decir, para la construc­
ción de volúmenes espaciales virtuales que se pueden aproximar con extraordi­
naria exactitud a como sonarían estos mismos espacios en la realidad referencial.
12. Se denomina ecualizador a un sistema de filtros de paso de banda organizados en paralelo, de
modo que dividen el espectro sonoro en un número determinado de bandas de frecuencia, y que per­
mite tratar por separado la intensidad de cada una de esas bandas, normalmente en ± 12 dB.
247
7.3.9. El punto de audición
Cuando un oyente escucha un paisaje sonoro de la realidad referencial, lo es­
tá oyendo siempre desde un lugar concreto, desde un punto específico del espa­
cio. En este punto están situados sus oídos, y todos los sonidos que percibe son
predeterminados y alterados perceptivamente por lo que podríamos denominar el
efecto del punto de audición. Las fuentes sonoras más alejadas son percibidas, en­
tonces, con menos intensidad que las más cercanas; se percibe la lateralidad de la
fuente sonora mediante las diferencias de tiempo e intensidad entre oídos, etc.
Imagínese a sí mismo el lector, por ejemplo, en la siguiente situación: está en
el centro de una plaza amplia y arbolada escuchando la actuación de unos músi­
cos callejeros, alrededor de la plaza hay circulación de vehículos que percibe co­
mo un rumor sordo de fondo. Y algo más débiles que la melodía de los músicos,
248
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
pero más fuertes que el rumor de los coches, escucha también el trino de los pá­
jaros que están en las copas de los árboles de la plaza, más allá de los músicos.
Pasan unos minutos y usted decide reanudar su camino, así que se aleja de los
músicos acercándose a la calzada que rodea la plaza para cruzarla y dirigirse ha­
cia la parada de autobús más cercana. Justo en el momento en el que va a cruzar
la calle sigue escuchando la música, pero ésta suena ya alejada; en cambio, el rui­
do de los automóviles, que antes era sólo un rumor, suena ahora mucho más fuer­
te que la música. El trino de los pájaros ya es casi imperceptible.
La situación objetiva desde el punto de vista físico es exactamente la misma,
todas las fuentes sonoras siguen en el mismo lugar. Para las personas que aún si­
guen frente a los músicos, en el centro de la plaza, todo sigue sonando exacta­
mente igual. No obstante, el espacio sonoro que estaría usted percibiendo sería ya
radicalmente distinto, a pesar de que sigue todavía en la plaza y oyendo exacta­
mente las mismas fuentes sonoras.
En suma, el punto desde donde se escucha una determinada organización de
fuentes sonoras que emiten sonido simultáneamente, determina de una forma ra­
dical la sensación de espacio sonoro y de perspectiva, ya que la composición
acústica es distinta en cada punto de audición. Esta fenomenología perceptiva
configura, pues, el efecto del punto de audición como una clave narrativa funda­
mental para la creación virtual de espacios sonoros.
Cambiemos ahora de terreno, abandonando el universo referencial y saltemos
de nuevo a los espacios sonoros virtuales de la narrativa audiovisual.
Hemos visto ya cómo la ubicación ordenada de entes acústicos en el espacio so­
noro nos permitía controlar la sensación de perspectiva y construir el efecto de
profundidad sonora. Pues bien, teniendo en cuenta el efecto perceptivo que intro­
duce el lugar desde donde se escucha un espacio sonoro, es posible organizar los
entes acústicos en función de un punto de audición concreto y definido a priori.
El objetivo es reconstruir artificialmente las sensaciones auditivas de un receptor
que se desplaza por un espacio sonoro virtual. Evidentemente, si disponemos de
grabaciones con los tres sonidos que mencionábamos antes (fruido de circulación
de automóviles/, /trino de pájaros/y /músicos callejeros/) podemos tratarlos técni­
camente en el estudio de audio de modo que transmitan de forma artificial exacta­
mente las mismas sensaciones que describíamos un poco más arriba.
Lo que estamos haciendo ahora es organizar los entes acústicos en función de
un punto de audición concreto, para construir el espacio sonoro siguiendo la ló­
gica perceptiva natural. La definición precisa de punto de audición sería la si­
guiente:
153), no obstante, nos parece más adecuado nombrarlo como punto de audición
en tanto que, en realidad, no estamos haciendo referencia al lugar donde está co­
locado físicamente el receptor, sino a un punto de referencia virtual a partir del
cual hemos de imaginar una determinada composición sonora que ha de seguir la
misma lógica acústica que la realidad referencial. En esta misma línea está también
el concepto de punto de escucha que propone Michel Chion; de todas formas, el
planteamiento de Chion es estrictamente cinematográfico y está, a nuestro modo
de ver, demasiado ligado a la imagen en tanto se plantea como directamente de­
pendiente de ella (véase Chion, 1993, págs. 90-94). Es por eso que hemos preferi­
do mantener una diferencia terminológica y conceptual respecto a su propuesta.
Nosotros entendemos el punto de audición como un punto de referencia teórico
concreto y, sobre todo, estrictamente auditivo.
Pero regresemos a nuestro ejemplo. Para crear la sensación auditiva de despla­
zamiento a través de la plaza bastaría con meterse en ella cargando un magnetófo­
no portátil y un micrófono adecuado, y grabar los sonidos mientras caminamos ha­
ciendo el recorrido descrito. Pero de ese modo realizaríamos lo que se suele llamar
«un travelling sonoro», es decir, sería simplemente copiar. Lo que resulta más inte­
resante para la narración audiovisual es, precisamente, la posibilidad de crear es­
pacios que en realidad no existen, situar en ellos entes acústicos inventados, y lo­
grar, luego, que el receptor perciba las mismas sensaciones auditivas que tendría si
se desplazase realmente a través de ese espacio virtual. Para conseguir eso es im­
prescindible partir de un punto que nos permita organizar el espacio, o lo que es
lo mismo, tomar siempre como referencia un punto de audición concreto.
La película de la Walt Disney Company: Toy Story, que fue enteramente desa­
rrollada a partir de imágenes infográficas, es un buen ejemplo para ilustrar este ti­
po de posibilidades expresivas del sonido. Evidentemente, ninguno de los espa­
cios en los que se desarrolla esta historia existe como paisaje sonoro real, así que
fue necesario crearlos todos artificialmente desde el principio hasta el final. To­
maremos, pues, prestada una de las situaciones de esta historia para estudiar de
qué modo es posible narrar el desplazamiento por un espacio sonoro virtual.
Uno de los momentos críticos de Toy Story, es cuando Buzz, el juguete astro­
nauta, y Woody, el juguete vaquero, huyendo de un perro que los persigue a tra­
vés de la escalera y el pasillo, se esconden cada uno en una habitación. Casual­
mente, Buzz entra en una habitación en la que hay un televisor en marcha, justo
en el momento en el que transmiten un espot publicitario sobre él.
Para construir el sonido en esta situación son necesarios tres entes acústicos-, el
/perro/(ladridos, gruñidos y jadeos), el /televisor/(voces, músicas, efectos, etc., tra­
tados con una definición sonora reducida) y /Buzz/(voz del juguete-astronauta).
En el momento en que el juguete-astronauta entra en la habitación del televisor, el
receptor entra con él y, por tanto, ha de escuchar el espacio sonoro del mismo mo­
do que lo escucharía Buzz. Es decir, con el punto de audición situado dentro de
la habitación. El tratamiento de los entes acústicos es, entonces, el siguiente: la
voz del juguete suena en primer plano (estamos junto a él), y los sonidos del tele­
visor y del perro se oyen ambos en segundo. El perro sigue en el pasillo ladrando
a la puerta cerrada de la habitación en la que se ha refugiado Woody, y Buzz está
Punto de audición es el punto de referencia espacial a partir del cual se construye
toda perspectiva sonora. Emula el punto del espacio referencial desde donde un oyen­
te escucha cualquier conjunto de fuentes sonoras.
Ciertamente, hablamos del mismo concepto al que hizo referencia en su mo­
mento Fuzellier llamándolo point ici, y que luego retoma Balsebre traduciéndolo
como punto aquí (véanse Fuzellier, 1965, págs. 34-37 y Balsebre, 1994, págs. 152-
249
250
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
escondido en la habitación de la tele (que tiene la puerta entreabierta) a medio ca­
mino entre el perro y el televisor. Esta situación puede tratarse estereofónicamente situando al perro en los altavoces de la izquierda y el sonido del televisor en el
de la derecha. Puede también matizarse el sonido del perro, haciéndolo sonar con
algo de reverberación y tratando su timbre de manera más brillante para sugerir el
volumen espacial del pasillo en el que está. Y el audio del televisor queda perfec­
tamente diferenciado al tener reducida su definición, de modo que suena con un
efecto característico de altavoz de baja calidad.
Ahora hemos definido un espacio sonoro y estamos en condiciones de mover
el receptor a través de él.
Buzz descubre que en la tele hablan de él y se acerca al televisor. Si la imagen
adopta un punto de vista subjetivo y se acerca a la pantalla como si viésemos por
los ojos del muñeco, el tratamiento del sonido debe responder a ese movimiento
y, por tanto, el punto de audición debe desplazarse por el espacio sonoro acer­
cándose al televisor. Nada más sencillo. Para sugerir acústicamente ese movi­
miento bastará con variar progresivamente, y en sentido contrario, la intensidad
de los dos entes acústicos que proporcionan la referencia espacial. O sea, mien­
tras aumentamos lenta y progresivamente la intensidad del sonido del televisor,
iremos bajando también la intensidad de los gruñidos del perro en la misma pro­
porción. De esa manera, el receptor percibe auditivamente el efecto de que está
desplazándose por el espacio sonoro. Cuando aparece la voz de Buzz, ésta debe
seguir sonando en primer plano, puesto que el punto de audición se ha desplaza­
do con él.
Imaginemos que el muñeco astronauta regresa hacia la puerta para mirar el
perro y estudiar la situación. Pero ahora el punto de vista se queda junto al televi­
sor y contemplamos cómo Buzz se aleja desplazándose hasta el fondo del espa­
cio. La construcción sonora de esta situación deberá hacerse manteniendo idénti­
cas las intensidades a las que habíamos llevado el televisor y el perro. La forma de
contar acústicamente el movimiento del muñeco sería reduciendo solamente la in­
tensidad de su voz mientras que se aleja del punto de audición. Vemos, pues, que
la forma de explicar que el punto de audición está quieto, a pesar de que algún
ente acústico esté desplazándose a través del espacio sonoro, es manteniendo es­
tables (sin variación de intensidad) los entes acústicos que actúan como referen­
cia espacial.
Una última situación. Se produce un nuevo cambio visual y la imagen pasa di­
rectamente a mostrar el punto de vista subjetivo de Buzz. Los espectadores ven,
ahora, al perro desde muy cerca. Todo el paisaje sonoro debe cambiar de nuevo,
pero bruscamente, ya que el punto de audición también ha cambiado repentina­
mente de lugar. El modo de tratar acústicamente el espacio sonoro para conseguir
ese efecto será invirtiendo de un salto la relación de intensidades del perro y el te­
levisor. El sonido del perro ha de pasar a primer plano, y el de la televisión a ter­
cero. Y puesto que el punto de audición vuelve a estar junto a Buzz, su voz debe
pasar, también bruscamente, a sonar en primer plano.
Las situaciones que hemos propuesto muestran las dos posibilidades que exis­
ten de desplazamiento del punto de audición, y que denominaremos como:
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
251
a) punto de audición móvil,
b) cambio de punto de audición.
El punto de audición móvil transmite al receptor la sensación auditiva de des­
plazamiento progresivo a través de un espacio sonoro previamente creado. El
cambio de punto de audición expresa un salto brusco de un lugar a otro en un
mismo espacio sonoro, o un salto repentino de un espacio sonoro a otro comple­
tamente distinto.
Es importante recordar que en este ejemplo las imágenes son completamente
virtuales y, por tanto, nunca actuaron como fuentes cuya emisión sonora pudiese
ser reproducida. En consecuencia, todas las sensaciones de movimiento por el es­
pacio sonoro son el resultado sistemático de una manipulación racional de los en­
tes acústicos.
Para acabar, queremos insistir en que este tipo de mecanismos expresivos so­
noros puede actuar con absoluta independencia de cualquier representación vi­
sual. A lo largo del ejemplo existía coherencia entre punto de vista y punto de au­
dición. No obstante, también podemos perfectamente transmitir al receptor la
sensación de desplazamiento a través del espacio sonoro trabajando sólo con so­
nidos. De hecho, en la tradición dramática radiofónica éste ha sido un recurso
muy utilizado: tanto Fuzellier como Balsebre, cuando se refieren al punto de au­
dición, lo hacen desde el estudio de la ficción radiofónica. Ciertamente, lo lógico
en la narración audiovisual es que punto de vista y punto de audición coincidan,
ya que los ojos y los oídos están situados en el mismo lugar del cuerpo y, normal­
mente, ambos sistemas perceptivos actúan a la vez. Pero no olvidemos que cuan­
do la luz se apaga, cuando los ojos se cierran, o cuando la visión se pierde, los oí­
dos nos siguen informando sobre el espacio que nos rodea y sobre cómo nos
movemos a través de él.
7.4. El papel narrativo de la sincronía imagen-sonido
Para enfrentarnos a la fenomenología generada por la suma de la imagen y el
sonido hemos de acotar dos clases de fenómenos distintos:
1. La tendencia natural del receptor a la coherencia perceptiva.
2. La búsqueda y la construcción porparte del narrador de relacionesforma­
les entre el material visual y el material sonoro.
Vimos que el entorno natural genera, normalmente, informaciones perceptivas
sonoras y visuales que son coherentes entre sí, porque vinculan sistemáticamente
fuentes sonoras y sonidos; en consecuencia, cuando un receptor se enfrenta a
cualquier tipo de formas perceptivas sonoras y visuales simultáneas, tiende de
una forma natural a buscar conexiones entre ellas.
En el apartado 6.3-2 estudiamos que la comunicación audiovisual se apoya en
esta tendencia a la coherencia perceptiva para producir sus discursos. Así, la cía-
252
253
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
ve para conectar entre sí un discurso sonoro y otro visual que originariamente no
han tenido ningún tipo de relación natural entre ellos, es proporcionar al receptor
un número de relaciones formales entre sonido e imagen que los vincule rígida­
mente entre sí. Normalmente, ese esfuerzo de conexión no ha de ser demasiado
grande. Una vez conseguido el efecto de conexión entre la imagen de la pantalla
y el sonido que emana de los altavoces, el espectador siente con mucha fuerza
que las vibraciones sonoras provienen de la imagen que contempla proyectada. A
partir de ese momento, el narrador está en condiciones de conducir la percepción
visual de su espectador manipulando el audio, porque el receptor procesa ya la
información sonora y la información visual como un todo unívoco y coherente.
Eso significa, por ejemplo, que si la energía de una fuente sonora está vincula­
da al nivel de intensidad de su sonido, una vez que hayamos conseguido conectar,
pongamos por caso, la imagen de un cristal luminoso a un zumbido, bastará con
hacer sonar el zumbido cada vez más fuerte para que el receptor sienta que está
aumentando la energía de aquella cosa centelleante y transparente; o al contrario,
será suficiente con hacer que el zumbido se debilite para que nuestro engañado es­
pectador perciba que la energía del cristal está disminuyendo. Podemos también
invertir esta lógica, y asociar la imagen de un «androide luminoso» a un sonido de
voz inexpresivo y lineal, para contar luego al espectador que el grado de energía
del «androide» crece cuando aumentamos la luminosidad que éste desprende.
En suma, una vez establecida la asociación sonido-imagen, todo nuestro saber
sonoro puede ser aplicado a dirigir la percepción de la imagen, o todo nuestro sa­
ber visual puede aplicarse a conducir la percepción del sonido.
Pero ¿de qué manera se establece esa conexión previa sonido-imagen? ¿Cómo
es posible que unifiquemos perceptivamente una serie de imágenes lumínicas que
se mueven en una pantalla con los sonidos que provienen de una serie de cajas
oscuras escondidas detrás de la pantalla y colgadas en la pared? En principio, se
podría pensar que la situación de los altavoces detrás de la pantalla en el cine, o
justo a su lado en el televisor, es un elemento esencial de esa unificación. No obs­
tante, que el sonido provenga de la misma dirección que la fuente propuesta vi­
sualmente no es, en absoluto, el elemento de relación formal que determina la fu­
sión perceptiva audio-visual. Ya vimos en el capítulo 5 que nuestro sistema
auditivo está perfectamente preparado para discriminar entre sonidos generados
por distintas fuentes sonoras sin depender de su dirección.
La fusión perceptiva audio-visual se apoya básicamente en la explotación de
la coincidencia o no coincidencia temporal entre el sonido y la imagen. Es decir,
en los principios de la sincronía (véase apartado 5.2.5).
A medida que acumulamos experiencia sensorial y perceptiva al desenvolver­
nos en nuestro entorno cotidiano, aprendemos que los fenómenos sonoros y los
visuales solamente tienden a coincidir en el tiempo cuando ambos provienen de
la misma fuente. Entonces, al recibir una coincidencia precisa en el tiempo entre
lo sonoro y lo visual, nuestro sistema sensorial conecta entre sí los estímulos acús­
ticos y lumínicos, y se desencadena lo que Chion denomina sinéresis (véase
Chion, 1993, pág. 65) y que a nosotros nos parece más descriptivo nombrar como:
fusión perceptiva audio-visual. Una vez que se ha logrado esa fusión, percibimos,
aun a pesar de nuestro conocimiento racional del fenómeno, que entre la imagen
proyectada en la pantalla y el sonido que sale de los altavoces hay una relación
sonido-fuente, que mantiene unidos ambos fenómenos perceptivos.
Proponemos definir la sincronía del siguiente modo:
7.4.1. El concepto de sincronía
En el caso de la relación sonido-imagen, el principio de la sincronía responde
a la siguiente lógica natural: es altamente improbable que el inicio y elfinal de un
fenómeno sonoro coincidan exactamente en el tiempo con el inicio y el final de
un fenómeno visual, solamente por casualidad.
Se denomina sincronía la coincidencia exacta en el tiempo de dos estímulos distin­
tos que el receptor percibe perfectamente diferenciados. Estos dos estímulos pueden
ser percibidos por el mismo sentido (oído: sincronía entre distintos instrumentos musi­
cales) o por sentidos distintos {vista y oído: sincronía audiovisual).
Así, cuando nuestros órganos auditivos y visuales reciben sendos estímulos
sincronizados, el sistema perceptivo nos hace sentir automáticamente que ambos
están directamente relacionados entre sí como si los hubiese generado la misma
fuente física, o como si proviniesen de fuentes distintas que han entrado en rela­
ción física directa (por ejemplo mediante un choque).
Ésa es, pues, la forma esencial de conseguir la conexión entre sonido e ima­
gen: la sincronía. Es más, el efecto perceptivo de fusión audio-visual que se con­
sigue sincronizando formas sonoras con formas visuales es tanto más fuerte, cuan­
to más fina y precisa sea esa coincidencia temporal. Siendo más concretos:
cuanto más limitada está en el tiempo la posibilidad de coincidencia de los es­
tímulos; o lo que es lo mismo, cuanto más breves son los estímulos que coinci­
den en el tiempo, más fuerte es el efecto de fusión que produce la sincronía en­
tre ellos.
De hecho, cuando un receptor percibe sincrónicamente dos fenómenos dife­
renciados caben.tres posibilidades de descodificación en función del nivel de pre­
cisión de la coincidencia temporal:
1. Cuando la sincronía es permanente y muy precisa, el receptor percibe que
los dos fenómenos provienen de la misma fuente, o de fuentes que están en
relación directa (se produce la unificación).
2. Cuando la sincronía es extensa en el tiempo, pero hay un margen de preci­
sión escaso al tomar puntos concretos de referencia, el receptor percibe los
dos fenómenos como provenientes de fuentes distintas que buscan armoni­
zar su evolución en el tiempo. Este tipo de sincronía produce un fuerte efec­
to de fascinación en el receptor (se produce una sincronía estética).
3. Cuando la sincronía es puntual, esporádica e imprevisible, el receptor per­
cibe los dos fenómenos como totalmente independientes, decidiendo racio-
254
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
nalmente que su coincidencia en el tiempo es puramente accidental (se pro­
duce una sincronía casual).
También Chion hace referencia a distintos grados de sincronía, y habla de sin­
cronismo amplio, medio y estrecho (véase Chion, 1993, pág. 66). No obstante, no
vincula esas denominaciones a efectos narrativos o perceptivos sino que, simple­
mente, menciona tres estilos diferentes de usar la sincronía en función de tres gra­
dos distintos de precisión, que tampoco llega a concretar.
Sabemos que la sincronía se detecta sistemáticamente en las coincidencias tem­
porales entre los máximos de intensidad sonora o en el principio y el final del su­
ceso sonoro, con cualquier otro estímulo sensorial claramente definido en el tiem­
po; por ejemplo el principio y el final de un movimiento visual. De todos modos,
conocemos todavía muy pocas cosas sobre las respuestas de nuestro sistema per­
ceptivo al fenómeno de la sincronía, y hay todavía muchas preguntas a las que ne­
cesitamos encontrar respuesta; sobre todo si tenemos en cuenta que la sincronía es
hoy un fenómeno absolutamente fácil de manejar de forma artificial. De hecho, la
técnica de la sincronía permite, hoy, llevar el engaño televisivo y cinematográfico
a un grado de verosimilitud tan extraordinario, que hace de las «mentiras» narrati­
vas algo absolutamente inextricable por la percepción humana, y esto nos parece
demasiado importante y complejo para dejarlo exclusivamente en manos de la in­
tuición.
7.4.2. La sincronía como recurso narrativo
Definida ya la sincronía desde el punto de vista perceptivo, vayamos de nue­
vo a estudiar su papel dentro del universo de la narratividad audiovisual.
Estamos totalmente de acuerdo con Chion en que la síncresis, es decir, la fu­
sión audio-visual, es la función básica de la sincronía en el universo audiovisual.
Gracias a la coincidencia exacta en el tiempo entre imágenes y sonidos, percibi­
mos como una unidad indivisible estímulos que originariamente no tenían nada
que ver entre sí. La línea básica de descodificación de la sincronía en el universo
audiovisual es, consecuentemente, la unificación.
Desde la perspectiva de la narración audiovisual existen diferentes grados de
necesidad de rigor sincrónico para que sonido e imagen sean captados por el re­
ceptor como unificados. Por ejemplo, para que un material sonoro musical y otro
visual sean aceptados perceptivamente por el receptor como coherentes sólo es
necesario que aparezca algún punto de sincronía cada varios segundos (cada 2 o
3 segundos). Este umbral no ha sido estudiado. El umbral varía en los fenómenos
a los que estamos mucho más habituados, como por ejemplo el habla y la imagen
de la gesticulación de la boca. Para estos fenómenos muy cotidianos la exigencia de
frecuencia sincrónica es mucho más alta. No obstante, parece que existen siempre
unos márgenes de tolerancia bastante amplios.
La sincronía audiovisual permite unificar sonidos de distinto origen, generan­
do entes audiovisuales completamente nuevos y de gran impacto expresivo. Uti­
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
255
lizando los valores informativos que tienen en nuestra memoria auditiva determi­
nadas formas sonoras, el narrador audiovisual puede crear y conducir con mucha
eficacia los nuevos entes que surgirán en la mente del receptor al asociar imagen
y sonido. Existen muchas muestras interesantes de esa capacidad para generar
nuevos valores expresivos a través de la sincronía audiovisual, que no están ori­
ginariamente ni en la imagen ni en el sonido. Un ejemplo ya clásico es el sonido
de sandía aplastada que se utilizó en La piel de Liliana Cavani (1981) para contar
acústicamente el momento en que un tanque aplasta accidentalmente a un mu­
chacho. La fusión audio-visual genera, en este caso, una espeluznante sensación
de huesos y visceras aplastadas, que es en realidad un ente audiovisual nuevo. El
receptor, difícilmente, tendrá en su memoria perceptiva una situación similar con
la que poder comparar esa propuesta audiovisual.
Un ejemplo más reciente es el interesante dragón creado en la película Dra­
gonheart que dirigió Rob Cohen en 1996. En este caso, la sincronía conecta un
personaje fantástico creado mediante ordenador, con la voz entrañable de un ac­
tor muy conocido: Sean Connery en el doblaje norteamericano y Francisco Rabal
en la versión española. Tras el breve rechazo inicial que se produce al recordar la
imagen del propietario de la voz, el efecto perceptivo de la sincronía rebasa am­
pliamente el de nuestra memoria y las características sonoras del actor quedan
completamente transferidas a la imagen del dragón. Entonces se produce el mila­
gro, y ese ser inexistente se reifica y adquiere una sorprendente consistencia fren­
te a nuestro sistema perceptivo, convirtiéndose en un ente audiovisual completa­
mente nuevo que ya no tiene nada que ver con la imagen sintética aislada, ni con
la voz del actor. Ahora es «Draco», en la versión española: un personaje nada terri­
ble, viejo, sabio, entrañable y un poco torpe. Unas características que le descubri­
mos enseguida, mucho antes de que el personaje tenga tiempo para desarrollarse
a lo largo de la historia. Ése es el carácter que «Draco» debe a la inconfundible voz
del ya veteranísimo Paco Rabal.
Siempre tomando como punto de partida el efecto de fusión audio-visual que
produce la sincronía, pero ahora desplazándonos ya hacia los umbrales de tole­
rancia de nuestra percepción de ese fenómeno, nos encontramos con dos recur­
sos narrativos habituales que nombraremos como: 1) control del impacto emocio­
nal, y 2) conducción de la atención visual.
1. Control del impacto emocional. El desfase temporal entre sonido e imagen
es un recurso expresivo clásico que aprovecha el margen de variabilidad
que tiene la percepción humana respecto a la sincronía. Los profesionales
de la narración cinematográfica saben muy bien que nuestro sistema per­
ceptivo tolera cierto desfase de la sincronía entre imagen y sonido sin que
se deje de desencadenar el efecto de fusión audio-visual (véase Nieto, 1996,
pág. 139); y que manipulando ese desfase es posible controlar el grado de
impacto emocional que produce en el espectador una situación determina­
da. Así, cuando un montador quiere reforzar el impacto emocional de la
aparición súbita del monstruo de la historia, sólo debe hacer entrar su rugi­
do en el fotograma anterior al de la aparición .
256
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Si tenemos en cuenta que cada fotograma tiene un tiempo aproximado de
exposición de 0,04 segundos, deduciremos que ése es el margen con el que
cuenta el narrador para asustar más o menos al espectador manteniendo el
efecto de fusión audio-visual.
Entonces, cuanto más se adelanta el sonido respecto a la imagen, mayor
será el impacto que la aparición del monstruo produce13 en el receptor. Se
utiliza también el efecto inverso. Si el sonido se atrasa respecto a la visión de
la fiera, el impacto emocional del monstruo desaparece por completo, y eso
ocurre a pesar de todo lo repentina y terrible que pueda ser visualmente la
citada aparición.
Al parecer, a pesar de que nosotros no seamos racionalmente conscientes
de ello, nuestro sistema perceptivo nos alerta con más o menos fuerza sobre
un estímulo audiovisual, según vaya la sensación sonora respectivamente
antes o después de la sensación visual.
2. Conducción de la atención visual. Sabemos que las sensaciones sincrónicas
producen una impresión sobre el sistema perceptivo mucho más fuerte que
la que ejercen esas mismas sensaciones cuando no coinciden en el tiempo.
Pues bien, ése es, también, un fenómeno ampliamente aprovechado en la
narración audiovisual.
Así, un recurso que se utiliza para conducir la atención del receptor so­
bre alguna de las formas visuales que aparece en la pantalla es, precisa­
mente, la sincronización de los movimientos de esa forma concreta, con es­
tímulos acústicos que suenan más intensos y mejor definidos que todos los
demás.
Un ejemplo característico de esto serían las imágenes que componen la
secuencia de una batalla. Los planos de una batalla, especialmente en las
narraciones ambientadas en la Edad Antigua o en la Edad Media, suelen es­
tar compuestos por una gran confusión de personas armadas con espadas,
lanzas, hachas, puñales, y demás herramientas de guerra, que luchan entre
sí moviéndose por toda la pantalla. Mientras vemos esto, oímos también una
gran confusión de gritos, golpes sordos, pasos, golpes metálicos, caídas, etc.
De los sonidos que oímos, algunos sincronizan con lo que vemos, y otros
muchos no. Se supone, entonces, que estamos escuchando los soldados que
podemos ver, y además, a otros muchos que quedan fuera del campo visual
que muestra la pantalla.
Entonces, cuando el realizador quiere destacar al héroe entre el confuso
grupo de 20 o 30 guerreros que se muestran en la pantalla luchando a muer­
te entre sí, recurre a la sincronía. Para hacerlo, trata el sonido de modo que
algunos gritos y golpes concretos destaquen con más intensidad que los de­
más, y ese sonido destacado se sincroniza con los movimientos del prota­
gonista. De ese modo la atención del receptor queda claramente dirigida ha­
cia él. Es decir, se tratan los estímulos sonoros y visuales que configuran al
13.
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
héroe, de manera que sean precisamente éstos los que llamen con más fuer­
za la atención del receptor.
7.4.3. Ritmo musical y movimiento visual
Si entendemos el ritmo musical como las sensaciones que emanan de la orga­
nización de las formas acústicas en el tiempo, y que el movimiento visual supone,
también, organizar desplazamientos de formas lumínicas en el tiempo, deducire­
mos sin dificultad que el instrumento evidente de relación es la sincronía. Es de­
cir, la coincidencia exacta en el tiempo de determinadas formas sonoras con de­
terminadas formas visuales.
La investigación en este campo es también muy escasa; haremos, no obstante,
una aproximación a la fenomenología perceptiva que desencadena la relación
sincrónica entre la música y el movimiento visual diferenciando entre sus dos uti­
lidades expresivas más conocidas: 1) el control del efecto de agradabilidad-desagradabilidad y 2) el control del ritmo visual.
1. Control del efecto de agradabilidad-desagradabilidad. Cuando trabajamos
con una organización visual bien definida en el tiempo (cambios regulares
de plano, movimientos bien definidos de un personaje, etc.), el hecho de
que el ritmo de la música sincronice o no con el movimiento visual determi­
na la agradabilidad o desagradabilidad del resultado.
El uso publicitario de la música es un ejemplo característico de coheren­
cia sincrónica que busca claramente el efecto de agradabilidad. Contraria­
mente, las situaciones de gran tensión dramática-violenta suelen estar cons­
truidas en base a estructuras rítmicas audiovisuales muy desordenadas, sin
sincronía entre música e imagen; como consecuencia, se genera sensación
de desagradabilidad y un fuerte deseo de que finalice la situación narrada.
Si las mismas situaciones violentas se trabajan a partir de relaciones sin­
crónicas sonido-imagen, se consigue un fuerte efecto de fascinación por la
situación de violencia. El efecto perceptivo que desencadena la última se­
cuencia de Apocalypse Now,14 mientras se desarrolla el bombardeo con las
explosiones perfectamente sincronizadas con la música y a medida que van
saliendo los créditos, serían un interesante ejemplo de este último recurso.
2. El control del ritmo visual. La sensación de adecuación o no de una música
a una imagen en movimiento depende de que el tempo musical sincronice
con alguno de los movimientos perceptibles visualmente. Cuando se consi­
gue esta sincronía la música se percibe como adecuada a la imagen.
Una vez conseguido este efecto de coherencia, si los movimientos visuales son
complejos y múltiples, los puntos de sincronía con el sonido actúan como un re­
curso de focalización de la atención perceptiva. Hemos visto ya que de todo el
La película Alien, el octavo pasajero dirigida en 1979 por Ridley Scott utiliza este recurso con
profusión para hacer más impactantes las apariciones de su infernal alienígena.
257
14. Dirigida por Francis F. Coppola en 1979.
259
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
conjunto de movimientos observables, el receptor sólo repara, u observa como
esenciales, aquellos que estén marcados por la coherencia sincrónica sonido-ima­
gen. Naturalmente, esto es directamente aplicable a la sincronía rítmica. Así, eli­
giendo un tipo de sincronía música-imagen u otra, el narrador puede conducir la
atención del receptor fijándola en una parte concreta u otra del conjunto de mo­
vimientos visuales. La manipulación de la música proporciona, entonces, índices
muy claros que dirigen la percepción visual del receptor.
La eficacia de este recurso es de un alcance sorprendente, llegando hasta el
punto de alterar el efecto de velocidad de los movimientos de la imagen. Tras
unas conversaciones sobre este tema, el compositor español José Nieto15 hizo lle­
gar a mi poder un interesantísimo experimento al respecto. Nieto había ambien­
tado una de las secuencias de la serie Capitán Cook con dos músicas distintas, ob­
teniendo un resultado perceptivo impresionante. Las imágenes muestran el
enfrentamiento de Cook y algunos de sus soldados ingleses contra una tribu de in­
dígenas en una playa tropical. El movimiento visual de las imágenes, como en
cualquier otra batalla audiovisual, contiene muchos tipos de movimiento distin­
tos. En este caso, podemos destacar una línea de movimientos cortos y rápidos,
constituida por los indígenas agitando las lanzas y saltando en actitud agresiva, los
movimientos de los labios y la boca gritando, los fogonazos de los disparos, sal­
tos, movimientos bruscos de agresión, etc. Y una segunda línea de movimientos
mucho más lentos, constituida por las caídas atormentadas de los heridos, des­
plazamientos suaves para acercarse cautelosamente al enemigo, movimientos lar­
gos de los brazos, bocanadas de humo de los disparos, etc. Nieto músico la se­
cuencia en primer lugar con una base rítmica de percusión rápida muy dominante
y, luego, con una música de base melódica con notas muy largas sin demasiados
cambios y sin ningún tipo de percusión.
El efecto perceptivo del primer montaje sonido-imagen es de una situación
tensa en la que todo el mundo se mueve nerviosamente y con rapidez. En cambio,
cuando la misma secuencia visual se observa con la segunda música, el efecto es
radicalmente distinto. La primera vez que me sometí al experimento llegue a pen­
sar que la imagen del montaje con la música melódica había sido ralentizada. Na­
turalmente, no era así. Era la música la que desencadenaba ese efecto de ralentización global.
Luego, he sometido a mis alumnos en varias ocasiones a la experiencia, siem­
pre con el mismo resultado: en la segunda versión de la secuencia aparece la sen­
sación en que todo sucede más lentamente que en la primera.
¿Que es lo que ocurre? ¿A que se debe ese cambio perceptivo? En la primera
versión, el ritmo rápido de la percusión sincroniza con la primera línea de movi­
mientos; entonces, nuestra atención es conducida auditivamente hacia las accio­
nes rápidas, dominando éstas completamente la percepción global de la informa­
ción audiovisual recibida. En cambio, en la segunda versión, los principios y
finales de las formas sonoras que constituyen las notas, tienden a sincronizar mu­
cho mejor con la segunda línea de movimientos lentos, haciéndolos sensorial­
mente más importantes y centrando sobre ellos la atención del receptor.
La forma en que se perciben los disparos de los cañones y los fusiles decimo­
nónicos en función de la música utilizada es quizás el ejemplo más revelador.
Mientras la música rítmica hace recaer la atención visual sobre los fogonazos de
los disparos, la música melódica da un relieve perceptivo insospechado a cada
bocanada de humo que sale de las armas
258
15. José Nieto, entre otras muchas, ha compuesto la música de películas como El bosque animado,
El maestro de esgrima, o La pasión turca y la de series documentales como Ciudades perdidas o Ulti­
mos refugios.
7.4.4. Otras formas de relación sonido-imagen
A pesar de que el instrumento expresivo más poderoso para conseguir el efec­
to de fusión audio-visual es, sin ninguna duda, la sincronía, existen otros recur­
sos que permiten relacionar formalmente imagen y sonido, aprovechando la ten­
dencia de nuestro sistema sensorial a la coherencia perceptiva.
Quizás el uso más obvio de la relación entre imagen y sonido sea el que se es­
tablece entre intensidad y energía de la acción. Así, tanto los monstruos podero­
sos como las máquinas de gran potencia suelen estar asociados a intensidades
acústicas que bordean el centenar de decibelios. Y lo mismo ocurre con las situa­
ciones de fuerte carga emocional, que son asociadas sistemáticamente a pasajes
musicales interpretados con una intensidad muy alta. Naturalmente se hace tam­
bién el uso inverso, asociando la extinción de la energía con la disminución de la
intensidad sonora. Se suele establecer, también, una relación directa entre inten­
sidad sonora y el tamaño de su fuente visual. Cuanto mayor es físicamente la fuen­
te sonora que se presenta en la pantalla, mayor suele ser la intensidad de las for­
mas sonoras que se le asocian; cumpliéndose también el efecto contrario: a menor
tamaño menos intensidad.
Un ascenso tonal en la banda sonora suele aparecer asociado a ascensos vi­
suales, y el descenso tonal va unido a las bajadas o caídas. Un ejemplo absoluta­
mente tópico es el de los dibujos animados, en cuyas historias todo lo que sube se
asocia a tonos ascendentes y lo que baja a tonos descendentes. Esta relación se
cumple, también, con la modificación de la impresión espectral. Por ejemplo, con
el zumbido de un avión, o con el ruido de un helicóptero. Cuando la máquina vo­
lante en cuestión asciende visualmente por la pantalla, se la asocia a una envol­
vente espectral con mas intensidad en los tonos agudos; es decir, a un ruido de
impresión espectral más brillante. En cambio, si el aparato volador baja, este mo­
vimiento se asocia a un espectro que aumenta de intensidad en la zona de graves;
o sea, a una impresión espectral más oscura.
Finalmente, todo cambio sonoro suele estar siempre asociado a un cambio vi­
sual, y viceversa. La base de esta vinculación se debe, sin duda, a la explotación
perceptiva de los principios de la estabilidad (véanse apartados 5.2.2 y 5.2.3). Así,
todo cambio sonoro de intensidad, tono, espectro, presencia-ausencia, etc., acos­
tumbra a estar vinculado con cambios visuales como acercamientos, ascensos,
descensos, cambios de color, cambios de plano, etc.
260
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
7.5. El sonido como instrumento organizador de la narración
El sonido cubre un papel esencial en la narrativa audiovisual como elemento
de organización, unificando o separando estructuralmente secuencias visuales
compuestas por múltiples movimientos y cambios del punto de vista. Este uso del
sonido como instrumento organizador tiene, también, una relación muy directa
con la lógica perceptiva humana.
Que el sentido de la audición sea mucho más estable en el tiempo que el de la
vista es la razón perceptiva que explica el papel estructurador del sonido. Para ex­
plicar esto con detalle invitamos de nuevo al lector a utilizar su propio sistema
perceptivo. Mientras lee estas líneas, tendrá sus ojos fijos en la hoja del papel en
el que están impresas y, a la vez, estará oyendo un determinado paisaje sonoro
más o menos estable. Ahora, el lector debería levantar la vista y apartarla de esta
hoja para mirar a su alrededor, fijando la atención sucesivamente en cuatro cosas
distintas: 1) en la portada de este libro, 2) en el paisaje visual que lo rodea, 3) en
cualquier objeto cercano que no sea el libro, y 4) en el objeto más alejado que ha­
ya frente a usted.
Al desarrollar este pequeño experimento, observará cómo, a pesar de los gran­
des cambios visuales que percibe, la información sonora que le proporciona su
sentido del oído se mantiene prácticamente sin variaciones. O sea, mientras que
visualmente usted ha experimentando unos cambios perceptivos muy importan­
tes, el oído le ha mantenido informado de que, en realidad, en su contexto inme­
diato todo seguía igual. El resultado global es la sensación de que sigue en el mis­
mo espacio y que ha sido simplemente su voluntad de fijar la vista en un lugar o
en otro lo que le ha comunicado sensaciones visuales distintas.
Supongamos ahora que escucha un zumbido a lo lejos, se vuelve a mirar hacia
la dirección de la que proviene, y al mirar hacia una ventana que hay al fondo de
un pasillo se da usted cuenta de que un moscardón negro y grande está intentan­
do salir al exterior golpeándose una y otra vez contra el cristal. Tras mirarlo unos
minutos desde lejos, decide ir a abrir la ventana para que salga, así que se levan­
ta, recorre el pasillo y llega donde está el moscardón. En este momento, efectiva­
mente, ha cambiado su visión del insecto, pero también ha cambiado radicalmen­
te el paisaje sonoro que escuchaba al principio. Los sonidos que percibe junto a la
ventana son completamente diferentes de los que escuchaba mirando el moscar­
dón de lejos: ahora lo oye mucho más fuerte, en el zumbido percibe la pulsación
del aleteo y nota claramente el ataque blando y el timbre mate de los golpes con­
tra el vidrio.
En suma, nuestra sensación visual cambia constantemente, percibimos puntos
de vista cercanos, lejanos, quietos y en movimiento, de objetos completamente
distintos, continuamente, uno tras otro; obedeciendo, simplemente, a nuestra vo­
luntad de observación. En cambio, el sentido de la audición actúa de manera mu­
cho más estable, haciéndonos percibir cambios sonoros importantes solamente
cuando estos cambios se producen, también, físicamente en nuestro entorno. Por
más atención que prestemos a algo, nuestra percepción auditiva se mantiene prác­
ticamente idéntica, y los giros de cabeza para poder escuchar mejor una fuente
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
261
concreta no nos dan más que una sutil sensación de mejoría en la percepción de
la direccionalidad del sonido.
Esta misma lógica es la que aplican hoy los narradores audiovisuales para el
uso del sonido. Actualmente, la cámara es tan libre y ágil como la mirada misma.
Entonces, el narrador, para contrarrestar la gran fragmentación perceptiva que
emana de las secuencias con imágenes continuamente cambiantes, recurre al so­
nido y lo usa de acuerdo con su propia lógica perceptiva. Es decir, unificando con
la información sonora todo aquello que considera como un espacio común y un
tiempo continuo. Para conseguir esto, el diseñador del sonido construye un solo
espacio sonoro que englobe todos los puntos de vista de la secuencia y que de­
sencadene la sensación de un único tiempo lineal coherente. O lo que es lo mis­
mo, construye varios espacios sonoros, agrupando ese mismo material visual en
varias unidades menores, que producirán, también, la sensación de varios tiem­
pos diferenciados
De hecho, el sonido suele utilizarse para organizar la narración audiovisual de
tres formas concretas:
1. Haciendo que el sonido correspondiente a un plano determinado se alar­
gue en el tiempo más allá del momento en que aparece el plano siguiente
(efecto de encabalgamiento u -overlapping-). El resultado es una ligera sen­
sación formal de unión entre los planos, a pesar de que las imágenes sean
completamente distintas.
2. Utilizando una música de modo que ésta se extienda deforma homogénea
y sin rupturas formales bruscas, a lo largo de distintos planos con conteni­
dos visuales distintos. El resultado cohesiona perceptivamente esos planos,
produciendo un efecto narrativo de acción o situación unitaria.
3. Manteniendo estable el punto de audición, a lo largo de toda una serie de
planos visuales con puntos de vista muy diferentes. Este tercer recurso pro­
duce el efecto perceptivo de insertar la citada serie de planos en un mismo
espacio sonoro y en un tiempo continuo.
El efecto unificador del segundo recurso (utilización de una música) es bas­
tante más fuerte que el primero, y suele utilizarse para reforzar el efecto de rela­
ción entre dos planos visuales, cuando entre ellos hay un salto evidente en el
tiempo.
Ilustraremos esto con un experimento muy revelador preparado también por
el compositor José Nieto. Una misma narración audiovisual compleja fue tratada
acústicamente de dos formas distintas para comprobar cómo actuaba la música
sobre ella: en primer lugar solamente con el sonido ambiente; luego, se le añadió
una melodía que se extendía por toda la secuencia.
El contenido de la secuencia era el que sigue. Aparece primero una persona en
un exterior que apunta a alguien con una pistola. La siguiente imagen es ya en el
interior de una habitación, contemplamos cómo se abre una puerta y comienza a
entrar un hombre, mientras, se oyen los gemidos y jadeos de una pareja haciendo
el amor. En el rostro del hombre que entra vemos claramente un cambio de acti-
262
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
tud que expresa su sorpresa. En contraplano se muestra frontalmente a una pare­
ja acariciándose en una ducha. Nueva imagen del que entraba que cierra lenta­
mente la puerta, lo vemos ahora desde fuera, acaba de cerrar, se gira y se lleva las
manos a la cara en actitud de angustia. La imagen que sigue es ya, de nuevo, el es­
pacio inicial, el exterior con un hombre apuntando a alguien con su pistola. En
contraplano aparece, ahora, el amenazado; es otro hombre, y lo identificamos co­
mo la misma persona que hacía el amor con una mujer en la ducha. Quien tiene la
pistola, se parece también al engañado de la puerta, pero ahora lleva barba y no
es claramente reconocible.
Para los receptores que se sometieron al experimento la diferencia entre las
dos versiones enseguida fue evidente. En la versión sin música era difícil decidir
si las dos situaciones visuales tenían o no una relación directa. En cambio, cuan­
do se contemplaba la secuencia con el telón de fondo musical no había ninguna
duda sobre la interpretación. Resultaba evidente que quien tenía la pistola en la
mano era el hombre engañado, ya visiblemente envejecido, que conseguía, por
fin, vengarse del amante de su mujer. El efecto cohesionador de la música resulta­
ba, entonces, absolutamente evidente.
El fondo sonoro homogéneo de la música une todo el material visual hacien­
do que sea interpretado sin problemas como un flash-back. El marido engañado,
mientras apunta al amante de su mujer, recuerda cuándo descubrió el adulterio.
El tercer recurso (mantenimiento de un punto de audición establé) es, sin
duda, el que tiene mayor poder de unificación en el tiempo y el espacio. Sería,
por ejemplo, el caso de una serie de planos visuales mostrando a una pareja de
enamorados en un parque que, por fin, se han reunido tras muchos meses de se­
paración. Las imágenes alternan tres puntos de vista: a) primeros planos de las
dos caras una muy cerca de la otra; b) planos de un travelling circular; y c) pla­
nos muy generales en los que se ve a la pareja a lo lejos en el contexto del par­
que. El constante cambio visual queda contrastado con una banda de audio ho­
mogénea en la que se oye la conversación de la pareja tratada todo el tiempo con
un primer plano sonoro, y un fondo de pájaros y rumor de hojas. La homogenei­
dad de ese sonido produce un claro efecto unificador. Este tipo de banda sonora
hace que la sucesión alternada de los tres puntos de vista sea interpretada como
un único paquete narrativo que muestra siempre a la pareja como objeto central
de atención.
Imaginemos, ahora, que cada vez que aparece el punto de vista c) (planos
mostrando la pareja alejada en el contexto del parque) ya no oímos a la pareja y
los pájaros, sino que el fondo sonoro cambia bruscamente, y en vez de oírse las
voces, los pájaros y el rumor de hojas, lo que se escucha, ahora, es una fuerte res­
piración junto a un fondo de chicharras y croar de ranas. Automáticamente dedu­
ciremos que alguien está observando a nuestra pareja de enamorados desde otro
lugar del parque.
Así, a partir del sonido, el mismo material visual, presentado exactamente en
el mismo orden, queda agrupado de otra manera; y cada vez que aparece el pun­
to de vista c) con los nuevos sonidos, tenemos la sensación de estar junto a al­
guien que observa desde lejos a la pareja. Es decir, quedan organizados dos pa­
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
263
quetes narrativos perfectamente diferenciados: el que nos muestra a la pareja (pla­
nos desde el punto de vista a) y b)), y el que nos muestra la mirada de un obser­
vador (planos desde el punto de vista c)).
Lógicamente, del mismo modo que el sonido actúa como instrumento unifica­
dor, puede utilizarse, también, como instrumento separador.
7.6. Sobre el papel del habla en el lenguaje audiovisual
Hasta aquí hemos estudiado la expresión acústica desde una perspectiva sígnica básicamente indexativa. Es decir, contemplando un uso de las formas sono­
ras como índices realistas del universo referencial. No obstante, no podemos olvi­
dar que en cualquier narración audiovisual el contenido semántico del discurso
lingüístico es uno de los instrumentos expresivos fundamentales.
En realidad, las estructuras lingüísticas están presentes constantemente en el
universo audiovisual, tanto en su forma sonora como en su forma escrita ¿Cuál es,
entonces, el papel de los contenidos semánticos del habla en el lenguaje audiovi­
sual? O dicho de otro modo: ¿cómo se estructura y se articula la información se­
mántica que emana de la lengua con las otras dimensiones de la expresión acústica?
Cuando construimos una narración audiovisual en la que se elaboran minucio­
samente todas las formas de expresión acústica, el texto lingüístico deja de ser im­
prescindible para su descodificación, en tanto que la propia información sonora
permite una descodificación eficaz. Contrariamente, en las narraciones audiovi­
suales en las que el trabajo sobre las formas sonoras es pobre y poco cuidado, el
papel del contenido semántico del habla pasa a ser algo fundamental para que
pueda ser comprendida la significación global del discurso. A menudo, contem­
plamos narraciones audiovisuales que han sido construidas acústicamente de mo­
do muy elemental, con formas sonoras incompletas, o poco ajustadas a la informa­
ción visual. Por ejemplo, con una definición demasiado baja, con una resonancia
sonora que no corresponde al espacio que presenta la imagen, o con una clara fal­
ta de correspondencia entre la intensidad del sonido que oímos y la distancia a la
que se sitúa la fuente sonora propuesta visualmente. En las narraciones que con­
tienen este tipo de problemas, el contenido semántico del texto es fundamental pa­
ra que la descodificación del discurso audiovisual sea la correcta. El contenido se­
mántico del texto actúa, entonces, con la función de «ancladero» según la proponía
R. Barthes en su histórico artículo sobre retórica de la imagen (véase Barthes, 1964,
págs. 40-51). Es decir, el contenido lingüístico es el que proporciona al receptor la
referencia de cómo ha de ser percibido todo aquello que estamos viendo y oyen­
do, con objeto de que la descodificación no vaya a la deriva.
Veámoslo ahora de otro modo. Cuando la información acústica que intenta­
mos reconocer es pobre, la narración audiovisual resulta ambigua y no atinamos
a encontrar exactamente cuál es el camino a tomar para interpretarla. Pensemos,
por ejemplo, en la siguiente escena: contemplamos en la pantalla la imagen sub­
jetiva de un paisaje nevado, abierto, vacío e inmenso que se mueve como si la
pantalla estuviese caminando. Suenan unos pasos lentos y se oye ruido de viento
264
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
(no suena nada más). Evidentemente, la propuesta narrativa es que vemos por los
ojos de alguien que anda solo por el desierto nevado. Pero ¿en qué estado está el
explorador? ¿Tiene algún problema o sencillamente camina tranquilamente dis­
frutando del paisaje?
Imaginemos, ahora, que suena ahora también una voz en primerísimo primer
plano que dice con una actitud agotada:
-No hay nada... nada... ¡Ya no puedo más!
A partir de ahora ya sabemos cómo interpretar los pasos lentos, y los acepta­
mos como correctos a pesar de que, en principio, no fuesen identificables como
pasos de una persona agotada.
La alternativa sería no utilizar un texto hablado, y en su lugar sustituir el an­
claje semántico por un conjunto de formas sonoras mucho más minucioso y pre­
ciso. Por ejemplo con la siguiente composición: escuchamos pasos lentos con el
crujir característico de estar pisando la nieve, el sonido de arrastrar los pies pesa­
damente al moverlos para dar cada nuevo paso y, a la vez, una respiración muy fa­
tigada; los distintos ruidos de ese caminar extenuado están perfectamente sincro­
nizados con todos los movimientos del inmenso paisaje nevado.
Si disponemos de este tipo de información sonora no será necesario enunciar
un texto lingüístico que actúe como ancladero semántico porque los sonidos uti­
lizados’ nos informarán perfectamente del penoso estado del caminante.
Ciertamente, a lo largo de esta obra hemos mostrado en repetidas ocasiones y
desde distintas perspectivas cómo el sonido puede facilitar y conducir la interpre­
tación de los mensajes audiovisuales complejos. No obstante, tampoco debemos
olvidar que el gran conductor de la expresión audiovisual es el habla; es decir, el
discurso lingüístico de la voz. El texto oral es capaz de estructurar tanto la visión
como la audición, y sus contenidos suelen ser los que determinan, en ultima ins­
tancia, cuál es el tipo de descodificadón que van a hacer nuestros sentidos.
Pero ¿cual es la razón que da esa hegemonía a los contenidos lingüísticos den­
tro del lenguaje audiovisual? y ¿cuál es el límite de empobrecimiento sonoro que
debemos tolerar en la expresión audiovisual, cuando narramos apoyándonos só­
lo en los contenidos orales?
A medida que evoluciona el proceso de aprendizaje de una persona, los len­
guajes arbitrarios adquieren una prioridad extraordinaria sobre todos los demás
niveles de reconocimiento sonoro. De hecho, Iqs s^res humanos educados en cul­
turas «desarrolladas» adquirimos los conocimientos fundamentales sobre la identi­
ficación del entorno inmediato en los tres o cuatro primeros años de nuestra vi­
da. Luego, a partir del momento en que aprendemos a hablar, se nos inicia ya en
un nueva etapa de formación completamente distinta, que está vehiculada muy
prioritariamente por las formas sonoras y escritas del habla, y que se alargará en­
tre diez y veinte años más. A partir de entonces, todo lo que nos rodea será ya
siempre nombrado, explicado, interpretado, ordenado, estudiado, clasificado,
aceptado, rechazado, narrado, almacenado... a través del lenguaje arbitrario más
hegemónico e imperialista que existe: la lengua.
Esta durísima programación psicológica hará que el sistema auditivo humano
anteponga los contenidos del discurso oral a cualquier otra cosa. Así, cuando en
EL SONIDO EN LA NARRACIÓN AUDIOVISUAL
265
la pantalla de un cine un agricultor dice a su esposa que la plaga de langosta está
todavía a 50 kilómetros de la granja, aunque en el plano siguiente se nos muestren
miles de langostas devorando un campo de trigo, no ponemos en duda ni un mo­
mento la información verbal, y deducimos que para ver las langostas el narrador
nos ha llevado a 50 kilómetros de la granja. Y cuando, en una película, un caba­
llero medieval explica a su rey que durante los últimos seis meses ha conseguido
reclutar los mejores cazadores de todo el reino para formar un gran ejército, los
espectadores aceptamos inmediatamente que el reino existe y que debe ser muy
grande, a pesar de que ese «gran reino- no se nos haya mostrado por ninguna par­
te. Desgraciadamente, este efecto prioritario del habla sobre el resto de los recur­
sos de la expresión acústica produce, con frecuencia, un empobrecimiento sono­
ro de la narrativa audiovisual.
Es cierto que el predominio del discurso lingüístico determina en muchas oca­
siones la comprensión última de nuestras propias percepciones. No obstante, to­
do narrador audiovisual debe tener muy presente que el aprendizaje de los len­
guajes arbitrarios, y el funcionamiento de la lengua misma, se sustentan en un
proceso fundamental de identificación del entorno inmediato y de reconoci­
miento acústico de formas sonoras primarias. Y que el efecto de verosimilitud del
lenguaje audiovisual depende, precisamente, de estas etapas básicas del proceso
de aprendizaje perceptivo.
Efectivamente, el aprendizaje perceptivo y expresivo en torno a los sonidos,
desemboca en sistemas de formas sonoras cuya máxima expresión es la lengua.
Pero, en el contexto del lenguaje audiovisual, es fundamental no olvidar en ningún
momento que el sistema de los mecanismos de escucha no está, en absoluto, limi­
tado a los contenidos semánticos que emanan de la lengua, sino que actúa siempre
en toda su globalidad como un sistema multidimensional.16 Y que la expresión oral
misma es un complejo trenzado de múltiples niveles de expresión acústica.
Sin duda, el ejemplo que muestra más claramente la importancia que tienen
los niveles primarios de expresión y reconocimiento acústico en el lenguaje au­
diovisual, es el desarrollo de la tecnología que les da soporte. En la última déca­
da, las emisoras de TV han comenzado a enviar el sonido en estéreo y con mayor
ancho de banda, los televisores se promocionan comercialmente como equipos
con sonido de alta fidelidad, las principales productoras cinematográficas han de­
cidido exigir a sus exhibidores un nivel de calidad homologado tanto en la repro­
ducción del sonido como en la acústica de las salas de proyección, y la empresa
cinematográfica IMAX recurre a un sistema digital de seis canales de audio para
distribuir el sonido por la pantalla con más realismo.
Si tenemos en cuenta que para el reconocimiento completo de los contenidos
del habla basta simplemente con una calidad sonora como la del teléfono, parece
evidente que los grandes narradores industriales piensan, como nosotros, que la ca­
pacidad expresiva del lenguaje audiovisual depende extraordinariamente de la ex­
presión acústica en su sentido más global.
16. Véase apartado 6.3.1.
CONCLUSIONES
El trabajo sobre esta obra nos ha llevado a establecer algunas conclusiones
que nos parecen fundamentales y que señalaremos a continuación:
1. Igual que el lenguaje musical se estudia como disciplina independiente del
instrumento que se toca, el lenguaje audiovisual debe ser estudiado como
una disciplina amplia que rebasa la tecnología y que es independiente del
medio de comunicación con que se narra.
2. Existe una categoría sígnica sonora específicamente audiovisual: el ente
acústico. Un ente acústico es cualquier sonido separado de su fuente sono­
ra, que actúa narrativamente como si fuese un objeto físico real.
3. Es necesario romper con la idea de que la intuición es la herramienta exclu­
siva del narrador. En esta obra se demuestra la gran utilidad de aplicar los
instrumentos de medición acústica a la narrativa audiovisual.
4. Es necesario aplicar a la investigación del lenguaje audiovisual la misma
concepción de la subjetividad que maneja la psicología de la percepción. La
subjetividad no debe ser entendida como algo incontrolable y único inhe­
rente a cada individuo, sino como aquellosfenómenos de sensación y senti­
do que son objetivadles y sistematizadles, porque ocurren dentro de todo ser
humano siguiendo el mismo proceso y con un resultado muy similar.
5. Para avanzar en el conocimiento sobre la expresión acústica es imprescin­
dible establecer una terminología unificada que nos permita nombrar los so­
nidos con la suficiente precisión. En esta obra se propone una taxonomía
sobre lasformas sonoras simples que pretende ser el primer paso hacia ella.
6. Los mecanismos sensoriales del ser humano tienden a la coherencia per­
ceptiva. Es decir, nuestro sistema perceptivo nos informa y nos hace inter­
pretar la realidad, dando prioridad a los estímulos coherentes que provie­
nen de varios sentidos a la vez.
7. No es posible afirmar que el sentido de la vista sea superior al sentido de la
audición.
REFERENCIAS BIBLIOGRÁFICAS
REFERENCIAS BIBLIOGRAFICAS
Altman, Charles (1989): «Tecnologie et representation: l’espace sonore», en Histoire du cinema. Nouvelles approches (págs. 121-130), París, Publications de la
Sorbonne (obra dirigida por J. Aumont, A. Gaudreau y M. Marie).
Alten, Stanley R. (1994): El manual del audio en los medios de comunicación, Andoain, Escuela de Cine y Vídeo.
Arnheim, R. (1980): Estética radiofónica, Barcelona, Gustavo Gili.
Balsebre, A. (1994): El lenguaje radiofónico, Madrid, Cátedra.
Barthes, R. (1964): -Rhetorique de l’image», en Communications n° 4, págs. 40-51.
Batrlett, Bruce (1995): Técnicas de Micrófonos en Estéreo, Madrid, Instituto Oficial
de Radio Televisión Española.
Boring, E.G. (1950): A history of experimental psychology, Nueva York, AppletonCentury-Crofts.
Bregman, A.S. y Campbell, J. (1971): “Primary auditory stream segregation and
perception of order in rapid sequences of tones», en Journal of Experimental
Psichology, n° 89, págs. 244-249.
Bregman, A. S. (1994): «L’analyse des scenes auditives: 1’audition dans des environements complexes», en Penser les sons. Psichologie cognitive de l’auditión.
págs. 11-37, Paris, Presses Universitaires de France (McAdams, S. y Bigant, E.,
1994).
Bruce Goldstein, E. (1992): Sensación y percepción, Móstoles, Debate.
Cebrián Herreros, M. (1994): Información radiofónica. Mediación técnica, trata­
miento y programación, Madrid, Síntesis.
Centre National de Documentation Pedagogique (1987): «Des sons en boíte», Pa­
rís, Ateliers du CNDP.
Chion, Michel (1982): La voix au cinema, París, Éditions de l’Etoile.
Chion, Michel (1993): La audiovisión. Introducción a un análisis conjunto de la
imagen y el sonido, Barcelona, Paidós.
Eco, U. (1977): Tratado de semiótica general, Barcelona, Lumen.
Fletcher, H. (1961): Speech and Hearing in Communication, D. Van Nostrand Cié
Inc. Citado en “Les parámetres acoustiques de 1’audition et la perception de
sons de la parole» (Landercy, 1973).
Fraise, Paul (1976): Psicología del ritmo, Madrid, Morata.
Franquet, R. y Martí, J.M. (1985): La radio. De la telegrafía sin hilos a los satélites
(Cronología 1780-1984), Barcelona, Mitre.
Fuzellier, E. (1965): Le langage Radiophonique, París, Instituí des Hautes Études
Cinématographiques.
269
Garde, Edouard (1965): La voix, París, Presses Universitaires de France.
Groupe, M. (1993): Tratado del signo visual, Madrid, Cátedra.
Guski, Rainer (1992): La percepción, Barcelona, Herder.
Helmholtz, H. (1954): On the Sensation of Tone. Reimpresión Dover. Citado en
Los sonidos de la música (Peirce, 1985).
Hjelmslev, L. (1980): Prolegómenos a una teoría del lenguaje, Madrid, Gredos.
Károlyi, Ottó (1984): Introducción a la música, Madrid, Alianza.
Katz, Ch. S., Doria, F.A. y Lima, L.C. (1980): Diccionario básico de comunicación,
México, Nueva Imagen.
Jensen, K.B. y Janowski, N.W. (1993): Metodologías cualitativas de investigación
en comunicación de masas, Barcelona, Bosch.
Landercy, A. (1973): “Les parámetres acoustiques de 1’audition et la perception de
sons de la parole», en Revue de Phonétique apliquée, Bélgica, Université de
Mons.
Lieury, Alain (1992): Manual de psicología general, Barcelona, Herder.
Lyons, John (1980): Semántica, Barcelona, Teide.
Martí Roca, José (1988): «FFT como herramienta de análisis en fonética», en Estu­
dios de Fonética Experimental III, págs. 233-251, Laboratorio de fonética de la
Facultad de Filología de la Universidad de Barcelona.
Martínez Celdrán, E. (1984): Fonética, Barcelona, Teide.
Mathews, M.V. y Pierce', J.R. (1987): «El ordenador, instrumento musical», en Acús­
tica Musical, págs. 82-90, Barcelona, Prensa Científica.
Matras, Jean-Jacques (1977): L’acoustique Appliquée, Vendóme, Presses Universi­
taires de France (Ia ed. en francés: 1954).
McAdams, S. y Bigant, E. (1994): Penser les sons. Psichologie cognitive de (audi­
tion, París, Presses Universitaires de France.
McLeish, R. (1985): Técnicas de creación y realización en radio. Madrid, Institu­
to Oficial de Radio y Televisión.
Mitry, Jean (1989): Estética y psicología del cine. 1. Las estructuras, 2. Las formas,
Madrid, Siglo XXL
Moles, Abraham (1976): Teoría de la información y percepción estética, Madrid,
Júcar.
Moles, Abraham (1981): L’image communication fonctionelle, Bélgica, Caster­
man.
Muñoz, J.J. y Gil, C. (1986): La radio. Teoría y práctica, Madrid, Instituto Oficial
de Radio y Televisión.
Nieto, José (1996): Música para la Lmagen. La influencia secreta, Madrid, Publi­
caciones y Ediciones SGAE.
Ochoa Pérez, J.M. y Bolaños, M. (1990): Medida y control del ruido, Barcelona,
Marcombo.
Ortiz, M.A. y Marchámalo, J. (1994): Técnicas de Comunicación en radio, Barce­
lona, Paidós.
Peirce, Ch. S. (1987): Obra lógico semiótica, Madrid, Taurus.
Perelló, J., Caballé, M. y Guitart, E. (1975): Canto, dicción yfoniatría estética, Bar­
celona, Editorial Científico-Médica.
270
LA DIMENSIÓN SONORA DEL LENGUAJE AUDIOVISUAL
Pierce, John, R. (1985): Los sonidos de la música, Barcelona, Prensa Científica
Labor.
Quilis, A. (1981): Fonética acústica de la Lengua Española, Madrid, Gredos.
Quirós, J.B, y D’Elia, N. (1982): Introducción a la audiometría, Barcelona, Paidós.
Real Academia Española (1992): Diccionario de la Lengua Española, Madrid, Espasa Calpe.
Recuero, M. (1994): Ingeniería Acústica, Madrid, Paraninfo.
Resnick, H. y Halliday, D. (1974): Física. Parte Iy Parte II, México, Compañía Edi­
torial Continental.
Rodríguez Bravo, A. (1984): La voz en la radio (Manipulacionesy técnicas de ex­
presión), Tesis de licenciatura, Dto. de Comunicación Audiovisual y Publicidad
de la Universidad Autónoma de Barcelona.
Rodríguez Bravo, A. (1989): La construcción de una voz radiofónica. Tesis doc­
toral, Dto. de Comunicación Audiovisual y Publicidad de la Universidad Autó­
noma de Barcelona.
Rodríguez Bravo, A. (1994): -La comunicación de masas en el laboratorio. Nuevos
métodos de contrastación experimental-, en Investigarla Comunicación. Pro­
puestas Iberoamericanas, págs.135-159, Universidad de Guadalajara, Centro
de Estudios de la Información y la Comunicación.
Saussure, F. de (1980): Curso de lingüística general, Madrid, Akal.
Shaeffer, Pierre (1988): Tratado de los objetos musicales, Madrid, Alianza (Ia ed.
en francés en 1966).
Shafer, R. Murray (1991): Lepaysage sonore, Poitiers, Aubin Imprimeur, Ligugé.
Siguero, Manuel (julio de 1995): «Del espacio sonoro en la representación audio­
visual. Acústica, inteligibilidad, nitidez». En Área Cinco, número 4, Dto. de Co­
municación Audiovisual y Publicidad de la UAB, Dto. de Comunicación Au­
diovisual y Publicidad I y Dto. de Comunicación Audiovisual y Publicidad II de
la UCM, Dto. de Comunicación Audiovisual y Publicidad de la UPV, Madrid.
Terrón, J.L. (1991): El silencio en el lenguaje radiofónico, tesis doctoral, Dto. de
Comunicación Audiovisual y Publicidad de la Univ. Autónoma de Barcelona.
Valls Gorina, M. (1986): Diccionario de la música, Madrid, Alianza.
Weaver, W. (1976): «La matemática de la comunicación-, en Comunicación y cul­
tura, págs. 33-37, Buenos Aires, Ediciones Nueva Visión (editor: Alfred G.
Smith).
Warren, R.M., Obuseck, CJ. y Accroff, J.M. (1972): «Auditory induction of absent
sounds», en Science n° 216, págs. 1.185-1.192.
Willens, E. (1979): El ritmo musical, Buenos Aires, Editorial Universitaria de Bue­
nos Aires.
Zwicker, E. (I960): «Ein Verfahren zur Berechnung der Lautstarke, en Acústica
n° 20, págs. 304-308. Citado en «Les parámetres acoustiques de l’audition et la
perception de sons de la parole» (Landercy, 1973).
Zwicker, E. y Feldtkeller, R. (1981): Psychoacoustique. L’oreille récepteur d’information, París, Masson.
BIBLIOGRAFÍA BÁSICA SOBRE EL TEMA
Alten, Stanley R. (1994): El manual del audio en los medios de comunicación,
Andoain, Escuela de Cine y Vídeo.
Chion, Michel (1993): La audiovisión. Introducción a un análisis conjunto de
la imagen y el sonido, Barcelona, Paidós.
Lieury, Alain (1992): Manual de psicología general, Barcelona, Herder.
McAdams, S. y Bigant, E. (1994): Penser les sons. Psichologie cognitive de l’auditión, París, Presses Universitaires de France.
Quilis, A. (1981): Fonética acústica de la Lengua Española, Madrid, Gredos.
Schaeffer, Pierre (1988): Tratado de los objetos musicales, Madrid, Alianza
(Ia ed. en francés en 1966).
Zwicker, E. y Feldtkeller, R. (1981): Psychoacoustique. L’oreille récepteur d’information, París, Masson.
BIBLIOTECA DEL INSTITUTO NACMH #
CINE Y ARTES
PARA AMPLIAR
Los libros recomendados en la bibliografía básica son instrumentos importan­
tes que pueden ayudar al lector de esta obra a seguir avanzando en el conoci­
miento de la expresión acústica, especialmente las obras de Shaeffer, McAdams y
Zwicker.
De todos modos, éste es un tema en el que es imprescindible trabajar con el
material que constituye el objeto de estudio, es decir, con el sonido. La primera
actividad recomendable para que usted amplié su conocimiento sobre este tema
es aprender a escuchar las formas sonoras, a observar cómo son, preguntándose
qué le comunican y por qué.
Un segundo nivel de trabajo es seleccionar las producciones audiovisuales que
le parezcan especialmente interesantes por su capacidad expresiva, y contem­
plarlas exponiéndose por separado al sonido y a la imagen. Es decir, oírlas elimi­
nando la imagen, y verlas quitando el sonido. Éste es uno de los ejercicios más re­
veladores que pueden hacerse para estudiar el papel del audio en la narración
audiovisual.
Nuestra recomendación última para avanzar en el estudio de la expresión so­
nora es que maneje con curiosidad cualquier tipo de instrumento doméstico o
profesional que le permita manipular el sonido: micrófonos, magnetófonos, am­
plificadores, auriculares, cámaras de vídeo, teclados, instrumentos musicales..., y
muy especialmente su propio aparato fonador. Todos estos sistemas de produc­
ción de sonido son excelentes instrumentos de investigación. No limite su equipo
estéreo a escuchar música, experimente con él, manipule el balance, analice la in­
fluencia de su propia posición frente a los altavoces. Al realizar una grabación
compruebe qué ocurre con el timbre del sonido cuando la fuente sonora se colo­
ca a distintas distancias del micrófono. Observe los cambios del sonido de su voz
cuando modifica la postura de su boca. Y pregúntese siempre el porqué.
Y si es usted un profesional del audio con un estudio a su disposición, no de­
je los aspectos creativos sólo a la intuición, no dude ni un momento que las sen­
saciones sonoras siempre tienen un porqué; búsquelo.
Ángel Rodríguez
La dimensión sonora del
lenguaje audiovisual
El papel del sonido ha sido, hasta ahora, absolutamente infravalo­
rado en toda la bibliografía sobre el lenguaje audiovisual. Esta
obra resitúa al audio frente a la imagen, analizando con un rigor
poco habitual su papel expresivo y narrativo.
En el libro, se revisa el concepto de lenguaje audiovisual y sus
métodos de estudio a partir de las últimas aportaciones hechas
por la psicoacústica y por la psicología de la percepción. Desde
esa perspectiva, el autor propone nuevos planteamientos sobre el
rol del audio dentro del sistema sonido-imagen, que resultan
especialmente fértiles tanto desde una perspectiva analítica como
desde la perspectiva productiva y profesional.
A lo largo de la obra se desarrolla un estudio muy didáctico sobre
el uso de los métodos de análisis acústico y sus diversas posibili­
dades de aplicación, y se propone, también , una terminología sis­
temática para nombrar y describir con eficacia los sonidos.
Finalmente, el estudio desemboca en la aplicación de todos estos
instrumentos de trabajo sobre cuestiones tan concretas como la
creación de espacios audiovisuales, los usos expresivos y narrati­
vos de la sincronía sonido-imagen o la organización de secuencias
de imágenes mediante el sonido.
Paidós Papeles de Comunicación 14
Ángel Rodríguez Bravo es doctor
en Ciencias de la Información y
profesor del departamento de
Comunicación Audiovisual y
Publicidad de la Universidad
Autónoma de Barcelona. Obtuvo
el Premio Extraordinario de
Doctorado en la Facultad de
Ciencias de la Comunicación en
1991, y fué galardonado en 1992
por la Generalitat de Cataluña con
el Premio a la Investigación sobre
Comunicación de Masas por su
estudio «La construcción de una
voz radiofónica». Ha sido director
del primer Master de Creación y
Producción de Ficción y Entrete­
nimiento Audiovisual. En la
actualidad, dirige el Laboratorio
de Análisis Instrumental en
Comunicación de Masas
(LAICOM)
Descargar