PROCESAMIENTO DE SONIDO DE DOS A 5.1 CANALES Esteban Gómez Velásquez, Jose Fernando Varela Gómez y Juan Diego Correa Blair Estudiantes de Ingeniería Electrónica esgomie@hotmail.com, josevarego@gmail.com y juandiegocorreablair@hotmail.com Resumen Este artículo presenta los resultados de la implementación y análisis de algunos métodos de multicanalización de señales. Se presentan las configuraciones estéreo y 5.1. Se muestran los métodos de multicanalización implementados y se analiza su funcionamiento. Luego se presentan las conclusiones y recomendaciones acerca del proyecto y sus futuros adelantos 1. Introducción La creciente popularización de los sistemas de teatro en casa con sonido envolvente, y la variedad e interacción de diferentes dispositivos y formatos de audio y video, hace que la compatibilidad entre estos crezca en importancia, y que la búsqueda de algoritmos que permitan aumentar o disminuir el número de canales de una señal de audio para su reproducción en cualquiera de dichos sistemas sea cada vez mayor. Tal vez el sistema de sonido de más rápida difusión en los últimos años ha sido la configuración de 5.1 canales que reproduce grabaciones con sonido envolvente, en las que el espectador se siente dentro de la acción al ver, por ejemplo, una película. Gracias a la posibilidad de reproducción relativamente sencilla de dichos canales, y el surgimiento de formatos digitales de almacenamiento masivo como el DVD, los estudios de producción están grabando la pista de sonido de las películas con múltiples canales discretos de audio. En la música, el lanzamiento del Super Audio CD, o SACD permitió que las grabaciones musicales también pudieran reproducirse en sistemas 5.1. Sin embargo, esto viene sucediendo desde hace relativamente poco, y el número de grabaciones multicanal comparado con el de grabaciones monofónicas o estéreo es mínimo, lo que hace que la experiencia envolvente ocurra con pocas grabaciones. Dado que el éxito del proceso de reproducción multicanal se fundamenta por ahora en que el proceso de grabación también sea multicanal, es decir, que se grabe con varios micrófonos dedicados a cada canal de audio, es importante generar métodos capaces de adaptarse a la reproducción multicanal aunque la grabación original no sea multicanal. Es por esto que el artículo está enfocado en el estudio de los métodos de multicanalización que permitan aumentar el número de canales de una señal estéreo, y procesarla para su reproducción en un sistema de sonido de 5.1 canales o de teatro en casa, como se le conoce popularmente. El contenido de este artículo está organizado de la siguiente forma: Al principio se ilustra el desarrollo y evolución de los formatos de grabación multicanal y de los algoritmos de multicanalización. Luego se explican la configuración del sistema 5.1 y algunas consideraciones que se deben tener. Más adelante contiene la descripción y el análisis de los algoritmos para derivar 5.1 canales estudiados e implementados. Luego se evalúan las pruebas de calidad realizadas. Finalmente se presentan las conclusiones y sugerencias para avances futuros. 2. Evolución de los formatos multicanal 2.1. Antecedentes de las Grabaciones Multicanal Los Laboratorios Dolby introdujeron una tecnología conocida como Dolby Stereo, que incorporaba tecnología óptica para grabar las pistas de audio, y aprovechaba las ventajas que tenía la utilización de canales adicionales en el cine. El formato Dolby Stereo es un sistema de codificación dos a cuatro y de decodificación cuatro a dos, lo que le dio gran versatilidad pues la mayoría de las salas de cine tenían forma de reproducir Dolby Stereo. Debido a esto, el formato se extendió rápidamente y se convirtió en un estándar virtual para la reproducción de audio en cine. Dolby continuó desarrollando tecnología para la codificación-decodificación de audio multicanal al tiempo que la industria del video revolucionaba la forma de ver cine en casa. A medida que pasó el tiempo, la industria añadió canales estéreo para el surround a expensas de dos de los canales que se ubicaban al frente. Esto hizo que la tecnología 5.1 diera sus primeros pasos y que los productores de audio tuvieran algo más de libertad creativa a la hora de diseñar el sonido de las producciones cinematográficas. La figura 1 muestra la configuración casera para un sistema 5.1. A partir del surgimiento de tecnologías de grabación y reproducción digital de sonido e imagen como el popular compact disc (CD) para el audio y el Laser Disc (LD) para el video, La producción de pistas multicanal ha ido en aumento constante. Figura 1. Configuración Típica 5.1 casero Los laboratorios Dolby continuaron con su labor de mejoramiento constante generando tecnologías que acercaran los mundos del cine y el teatro en casa -o home theater, término acuñado por los usuarios de estas nuevas tecnologías que permitían reproducir la experiencia vivida en la sala de cine en el hogar-, y en 1982, Dolby lanza su sistema Dolby Surround, que consta de dos canales diferenciados en el frente, aunque se genera un canal central “fantasma", que no era más que la suma de las señales de los canales laterales (izquierdo y derecho), y un canal de efectos surround. Aunque el concepto de Dolby Digital se generalizó como 5.1, el término se refiere al proceso de codificación y no al número de canales de la grabación. Sin embargo, la tecnología Dolby Digital 5.1 sí incorpora 6 canales discretos de audio (tres frontales, dos de surround y un canal extra de efectos de baja frecuencia, conocido como LFE [22], siglas en inglés de Low Frequency Effects), y que es el estándar de la industria del cine para reproducir audio en la actualidad. Dicha configuración es la deseada para este artículo. El Dolby Digital 5.1 añade precisión y flexibilidad en el sonido pues incorpora canales de surround estéreo que permiten que los sonidos emanen en más direcciones, y también incluye un canal dedicado exclusivamente al realce de frecuencias bajas (sonidos graves). El desarrollo del audio y del video casero dio vida a nuevos formatos de video como el DVD y el DivX, y formatos multicanal de audio como DVD-A y SACD (Super Audio CD), que permiten realizar grabaciones multicanal de música con el fin de brindar experiencias envolventes al escuchar música. 2.2. Métodos de Multicanalización Los métodos de multicanalización van desde la creación de ambiente estéreo a partir de una señal monofónica hasta el procesamiento matricial de dos a 5.1 canales. Los métodos mono-estéreo han sido estudiados en profundidad y se ha determinado que la pseudoestéreofonía, es decir, la creación de la sensación estereofónica partiendo de una señal monofónica, se puede lograr por medio del uso de funciones de transferencia relativas a la cabeza o HRTF por sus siglas en inglés. Los métodos de multicanalización desarrollados hasta el momento incluyen los trabajos de Carlos Avendaño [1], [2], quien trabaja con la señal en el dominio de la frecuencia con el fin de extraer las características ambientales de la señal estéreo, Ronald M. Aarts [3], [4] quien trabaja con correlación cruzada y PCA para establecer la dirección vectorial del canal central por medio de análisis matricial, Christoff Faller quien desarrolló un método llamado Binaural Cue Coding o BCC que sintetiza las características multicanal y un canal mono para hacer transmisiones eficientes de señales multicanal y por último, Julia Jakka quien implementó el método de Faller como tesis de maestría. En este artículo se revisa la implementación de los métodos de Avendaño y Aarts con el fin de compararlas y analizarlas. 3. Configuración 5.1 3.1. Consideraciones La Unión Internacional de Telecomunicaciones ITU, en su recomendación BS.1116 presenta la configuración deseada para un sistema de audio de 5.1 canales en los que los canales se denominan L (izquierdo), R (derecho), C (central ), LS (Envolvente izquierdo) y LR (Envolvente derecho), y consta de tres canales frontales y dos traseros de sonido envolvente. La siguiente figura presenta la configuración establecida. Figura 2. Configuración establecida por la ITU para sistemas 5.1 [4]. Teniendo esta configuración en cuenta se describen a continuación los canales individualmente. 3.2. Descripción de los Canales 3.2.1. Canales Izquierdo y Derecho. Las señales de entrada evaluadas en este artículo siempre fueron estéreo, por lo que siempre se tuvieron dos canales (izquierdo y derecho). La función principal de los canales izquierdo y derecho es darle al espectador una sensación de espacialidad, en donde los sonidos provienen de cualquiera de los lados o por ambos. Esta técnica se logra en estudios grabando independientemente los elementos de la composición y luego mezclándolos y haciéndoles paneo dándole mayor o menor énfasis a izquierda o derecha de acuerdo con la idea de la producción original de la señal. La ubicación de los altavoces L y R se puede observar en la figura 3. La distancia que los separa debe ser igual a la distancia que separa al oyente de los altavoces (alrededor de 2.5m.), formando así un triángulo equilátero. Estos canales se utilizan para definir un ambiente sonoro tridimensional que envuelva al espectador (por esto también se les llama canales de Ambiente o de Efectos). 3.2.4. Canal de Graves LFE. El canal llamado canal de frecuencias o efectos bajos (Low Frequency Effects) reproduce las frecuencias más bajas que los otros altavoces no pueden reproducir. Su rango de frecuencia se encuentra entre los 20Hz y los 120Hz. Su ubicación en el cine es detrás de la pantalla y al lado o por debajo de los altavoces principales, y en casa es bastante libre ya que en los límites del espectro el oído humano no es capaz de reconocer la fuente de los sonidos, siendo recomendable su colocación a nivel de suelo. Debido a la limitada capacidad del oído humano el canal LFE no representa nada en términos de definición de la espacialidad percibida. La señal del LFE es calibrada en la mezcla final unos 10dB por encima del nivel de presión sonora (SPL por sus siglas en inglés) de los otros canales con el fin de contribuir con la imagen sonora aunque ocurra que el contenido de bajos de las señales de los canales frontales sea alto. Figura 3. Configuración Estéreo. 3.2.2. Canal Central. El canal de mayor uso y que lleva las componentes principales de una grabación 5.1 es el canal central. El surgimiento de dicho canal se dio en el cine por varios motivos, aunque los dos más importantes fueron sin duda: 1. Tamaño de la pantalla vs. Imagen auditiva del estéreo: La imagen de la pantalla de los cines tiene un ancho particularmente grande, y el contenido de audio de los filmes se veía en problemas para dar la sensación al espectador de que los diálogos provenían de la pantalla. La imagen auditiva se completaba añadiendo un canal que se ubicaba detrás de la pantalla, y se le dio el nombre de canal central. 2. Énfasis al contenido hablado de las producciones: Para contribuir con la sensación de espacialidad que daba el estéreo, el canal central se concentra en reproducir fundamentalmente el contenido hablado y los canales laterales izquierdo y derecho el resto de la imagen. 3.2.3. Canal de Efectos o Surround. Lo conforman dos canales, llamados Efectos Izquierdo (Left Surround) y Efectos Derecho (Right Surround), que se localizan de manera diferente en cine y en casa. En el cine, se ubican en las paredes laterales y parte de la trasera a 2 o más metros de altura y en casa se sitúan dos altavoces a los lados del espectador, a 20º por detrás de su horizontal, es decir, a 110º de la referencia del canal central y a más o menos 1.20m. de altura como se observa en la figura 3. 4. Algoritmos de Multicanalización Los algoritmos de multicanalización estudiados son los propuestos por R. Irwan y Ronald M. Aarts [4][5], los cuales realizan un tratamiento de las señales originales en el dominio del tiempo, creando un nuevo eje coordenado que incluye el canal central y el canal de efectos. Se determinan los pesos relativos de cada canal a la imagen estéreo, determinando el ángulo de la fuente y generando una nueva señal proyectada sobre el nuevo eje obteniendo el canal central. Para el canal de efectos se extrae la correlación cruzada de los canales originales encontrando los componentes de la señal que no son comunes en las señales originales. Los algoritmos propuestos por Carlos Avendaño y Jean-Marc Jot [1][2][3] analizan la señal original en el dominio de la frecuencia usando la transformada de Fourier de tiempo corto (STFT). Para encontrar los nuevos canales se hallan funciones de coherencia y de similitud, para realizar un repaneo de las señales en una dirección especifica, en este caso para el canal central y el canal de efectos. Este repaneo se logra al operar la STFT con ventanas Gaussianas, que dependen de las funciones de coherencia y similitud, y permiten modificar las señales originales dándoles una dirección específica. 4.1. Derivación Del Canal Central 4.1.1. Análisis de componentes principales. Este método se basa en la extracción de los vectores y , correspondientes a la señal dominante y residual respectivamente, para después proyectar estas sobre unos nuevos ejes coordenados que incluyen el canal central. Esto se hace calculando los pesos relativos de los canales derecho e izquierdo y para determinar cual predomina para cada muestra de la señal. ' ( ) ' ( ) ' ( Figura 5. Ejes incluyendo el canal central [4]. 4.1.2. Extracción de coherencia y repaneo. Este procedimiento para extraer el canal central se basa en la extracción de una función de coherencia intecanal definida por Figura 4. Ejes estéreo originales [4]. Para calcular los pesos relativos de cada canal se usa la expresión 1 1 1 1 1 _ _ 1 1 _ 1 _ 1 1 donde es el tamaño del paso. El angulo , el cual nos da la dirección de la imagen estéreo es tan Al doblar el ángulo de la imagen para incluir el nuevo eje coordenado que incluye el canal central, se puede encontrar la proyección de la señal estéreo sobre estos nuevo 2 y la contribución de cada canal se escribe como , 0, 0, ! , ! # 0& % 0 # 0& % 0 La señal dominante y residual se halla al rotar el sistema coordenado de y , Finalmente se calculan las nuevas señales estéreo para cada canal ' y ' , además del canal central ' . *+, -, 1 .*+, - 1, ./+ -, /, -, |* -, | *-, * -, * -, / donde /+ y /, representan la STFT de cada canal de la señal original, . es un factor de olvido para obtener un sistema causal y los índices - y son de tiempo y frecuencia respectivamente. Se define entonces la función de similitud al hacer el factor de olvido . igual a uno. 2+, -, *+, -, | . 1 |2 -, | 2-, 2 2 -, 2 -, Dado que la correlación intercanal será menor en las zonas en las que la señal predominante sea la porción residual, se define la función de ambiente como Φ-, 1 *-, Para obtener el canal central, se define el coeficiente de paneo como: Ψ-, 1 2-, Para evitar cambios abruptos al modificar la STFT, se aplica una ventana angosta centrada en el índice de paneo deseado. En este caso, para obtener el canal central, el índice de paneo es cero. Esta función ventana es una ventana Gaussiana definida como: ΘΨ 3 1 34 5 7ΨΨ8 9 6 donde Ψ: es el valor de índice de paneo deseado, ; controla el ancho de la ventana y 3 es el valor mínimo de la función para que la STFT no sea cero y se eviten cambios abruptos. Se aplica la ventana a la suma de los componentes derecho e izquierdo, <= -, ΘΨ-, / -, / -, y luego se encuentra la transformada inversa ISTFT de la nueva señal modificada. 4.1.3. Canal fantasma. Existen otros métodos para derivar el canal central, como el propuesto por Klipsch [5], pero que al no realizar ningún tratamiento adicional a la señal, trae consecuencias como la pérdida de sensación de la imagen estéreo entre otros. √2 2 donde y son los componentes izquierdo y derecho de la señal original estéreo respectivamente. 4.2. Derivación De Los Canales Envolventes. 4.2.1. Correlación Cruzada. Para obtener el canal de efectos se debe calcular la correlación cruzada entre las señales originales, así ?@ ?@ 1 AB2 ?@ 1C donde ?@ es un valor aproximado de la correlación cruzada intercanal y ?: ! ?, 0, 0D?D1 & ?#0 E ?F1 que se utiliza para calcular el ángulo G, que es una representacion actual de la información del canal de efectos G sin 1 ?: la proyección de este ángulo en el sistema coordenado que incluye el canal central y el canal de efectos esta dada por J sin G Y el canal de efectos es calculado como 'J (J Figura 6. Ejes incluyendo el canal de efectos [4]. 4.2.1. Función de similitud. Para extraer el ambiente, se define el índice de ambiente como: Φ-, 1 *-, donde las regiones con poca coherencia tienen valores cercanos a uno, indicando la presencia del ambiente de la grabación y las regiones con alta coherencia tienen un índice de ambiente cercano a cero. Las STFT de las señales derecha e izquierda deben ser modificadas según el índice de ambiente, de modo que las zonas con un índice de ambiente alto no se modifiquen, mientras que las zonas con un índice de ambiente bajo son atenuadas para remover los componentes principales de la señal. Una función que permite este objetivo y que además es de transición suave para evitar cambios abruptos en el espectro y así evitar componentes no deseadas al realizar la transformada inversa de Fourier de tiempo corto es ΓΦ : : tanhBLMΦ Φ: C 2 2 donde Φ: define desde qué valor del índice de ambiente se considera como de efectos. Los valores y : definen el rango de salida de la función y ? permite modificar la pendiente de esta. La función ΓΦ modifica la STFT de cada canal para obtener el canal de efectos derecho e izquierdo así N+ -, /+ -, ΓΦm, k Para la función ventana Gaussiana, el valor de Φ: se escoge como cero para esta aplicación ya que sólo se necesitan los componentes de señal paneados en el centro; la variación de Q afecta el ancho de la ventana, que si es muy ancha produce transiciones suaves lo que disminuye la distorsión, aunque permite el paso de componentes de la señal paneados cerca al cero. Para lograr un equilibrio entre estos dos factores, se escogió un Q 5. Luego se encuentra la ISTFT de los canales modificados para obtener las señales en el tiempo. 5. Pruebas Subjetivas 5.4. Resultados 5.1. Metodología Para las pruebas subjetivas de audio se utilizó uno de los métodos sugeridos en la recomendación P.800 de la ITU [5]. El método, denominado CCR (Calificación por comparación de categorías) o Comparison Category Rating compara de manera cualitativa y cuantitativa tres piezas diferentes y separadas de audio. Al oyente se le presentan tres señales, elegidas al azar: una, la señal de referencia (que no ha sido procesada), se presenta dos veces, en cualquier orden, además de la señal procesada. El sujeto de prueba debe evaluar y juzgar la calidad de las muestras una en relación con la otra. La tabla 1 describe la escala de calificación que se les da a los sujetos para que califiquen lo que han oído. La búsqueda de nuestras pruebas preguntaba por la percepción de espacialidad. Con este método de evaluación es posible responder entonces a dos preguntas contenidas en una respuesta. Nos dice cual de las muestras es mejor y cuanto mejor es una sobre las otras CALIDAD Mucho mejor Mejor Levemente Mejor Iguales Levemente Peor Peor Mucho Peor CALIFICACIÓN 3 2 1 0 -1 -2 -3 Al tener estos dos ítems de calificación (cualitativo y cuantitativo), es posible discernir sobre la calidad y la magnitud de la diferencia entre una y otra calidad. 5.2. Repertorio y Equipo Se tomaron cuatro muestras de audio, incluyendo una señal de audio proveniente de una película, y tres muestras de música de diferentes géneros. Todas las señales con las que trabajamos fueron muestreadas a 11025Hz y 44100 Hz, y los géneros musicales varían, para garantizar objetividad. Las muestras tienen duraciones aproximadas de 20 a 25 segundos, y todas las pruebas se llevaron a cabo en un computador personal con tarjeta de sonido de 5.1 canales, con altavoces JBL y Yamaha ubicados de acuerdo con la configuración de la figura (1) [5], con el oyente ubicado en el punto de mejor escucha o sweet spot. 5.3. Sujetos de Prueba Las señales se probaron con cinco hombres y cinco mujeres con edades comprendidas entre los 18 y los 35 años, y sin problemas o limitantes auditivas reportados. Lo que pudimos observar de acuerdo a lo nos entregaron los sujetos de prueba es que la sensación percibida de sonido envolvente fue considerablemente buena para ambos algoritmos, es decir, que la percepción de espacialidad para los algoritmos evaluados es mayor a la percibid en la señal sin procesamiento. Vale la pena destacar que el desempeño del robusto algoritmo de Aarts superó en calidad percibida al de Avendaño para las muestras de audio suministradas y que ambos algoritmos superaron a la señal original en percepción de espacialidad. 6. Bibliografía [1] AVENDAÑO, Carlos y JOT, Jean-Marc. Ambience extraction and synthesis from stereo signals for multichannel audio upmix. IEEE International Conference on Acoustics, Speech and Signal Processing. Orlando, FL, 2002. [2] AVENDAÑO, Carlos y JOT, Jean-Marc. A Frequency-Domain approach to multichannel upmix. Journal of AES. Vol. 52 No. 7/8. Julio/Agosto 2004 [3] AVENDAÑO, Carlos. Frequency-Domain Source Identification And Manipulation In Stereo Mixes For Enhancement, Suppression And RePanning Applications. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics October 19{22, 2003, New Paltz, NY. [4] IRWAN, R. y AARTS, Ronald M. Two-to-Five Channel Sound Processing. Journal of AES. Vol. 50 No. 11. Noviembre, 2002. [5] AARTS, Ronald M. Effcient Tracking of the crosscorrelation coeffcient. IEEE Transactions on Speech and Audio Processing, Vol. 10, No.6. Septiembre 2002 [6] KLIPSCH, P.W. Stereophonic Sound with Two Tracks, Three Channels by Means of a Phantom Circuit (2PH3). Journal of the Audio Engineering Society, vol. 6. 1958. p. 118 [7] INTERNATIONAL TELECOMMUNICATION UNION. Methods for objective and subjective assessment of quality ITU -T Recommendation P.800. ITU , 2006.