©Constantino Pérez Vega Dpto. de Ingeniería de Comunicaciones Universidad de Cantabria, 2005 1 Introducción a la compresión de audio La compresión de audio con pérdidas se basa por completo en las características perceptuales de la audición humana. Quizá resulte un tanto sorprendente, que la audición humana, en particular la estereofónica tiene propiedades discriminatorias más críticas que la visión y, por consecuencia, la compresión de audio debe enfocarse cuidadosamente. A diferencia del vídeo, el audio no posee redundancia espacial, sino solamente temporal y, de manera similar al vídeo, la compresión de audio requiere de distintos niveles de complejidad, dependiendo del grado de compresión deseado. El tema de la audición humana se ha tratado ya con cierta extensión1, por lo que aquí mencionaremos solamente algunos de los aspectos más importantes. El rango de frecuencias audibles se considera por lo general entre 20 Hz y 15 kHz, si bien la máxima frecuencia audible disminuye con la edad y más en los hombres que en las mujeres. La presión sonora se transmite a través del oído externo y del oído medio a la cóclea o caracol, que forma parte del oído interno en que se encuentra la membrana basilar, que soporta alrededor de 25000 células sensoriales que forman el nervio coclear. Esta membrana varía en masa y rigidez a lo largo del caracol. En su extremo más próximo a la ventana oval, en que recibe la señal de presión procedente del oído medio, la membrana basilar es rígida y ligera, de modo que su frecuencia de resonancia en esa zona es alta. En su extremo final es suave y pesada, de modo que resuena a frecuencias bajas. Las señales de presión de diferentes frecuencias a la entrada de la membrana provocan vibraciones en diferentes áreas de la membrana, que se comporta de manera semejante a un analizador de espectro. Esto hace que diferentes células del nervio coclear respondan a diferentes frecuencias. Esta forma de organización se designa como principio de ubicación y se mantiene a través del trayecto de audición hasta el cerebro. También se aplica otro esquema de codificación de la información en el oído que se designa como principio de ráfaga2. Las células nerviosas transmiten información generando pulsos eléctricos de corta duración designados como potenciales de acción, así, una célula nerviosa de la membrana basilar puede codificar la información de audio generando un potencial de acción en respuesta a cada ciclo de vibración sonora. Por ejemplo, un tono de 200 Hz puede traducirse por una neurona a 200 potenciales de acción por segundo. Sin embargo, esto solo funciona a frecuencias inferiores a unos 500 Hz, la máxima frecuencia a la que las neuronas pueden producir potenciales de acción. El oído humano supera este problema, haciendo que varias células nerviosas se turnen para realizar esta tarea simple. Así por ejemplo, un tono de 3000 Hz puede representarse por las señales de diez células nerviosas, “disparando” alternativamente 300 pulsos por segundo, lo que extiende el el rango del principio de ráfaga hasta alrededor de unos 4 kHz. A frecuencias superiores funciona el principio de ubicación. El rango rango dinámico del oído humano es de alrededor de 120 dB, es decir la diferencia entre los niveles de presión sonora más fuertes y los más débiles. Un oyente puede detectar cambios de nivel sonoro de alrededor de 1 dB, lo que representa un cambio de 12% en la amplitud. Como consecuencia de esto, sólo hay alrededor de 120 niveles sonoros que pueden percibirse entre los sonidos más débiles y los más fuertes. La sensibilidad del oído es sorprendente; cuando escucha sonidos muy débiles, la amplitud de las vibraciones del tímpano es menor que el diámetro de una molécula. La percepción del nivel sonoro por el oído, lo que con frecuencia se designa como volumen está relacionada con la potencia sonora, aproximadamente por una ley exponencial de exponente 1/3. Por Pérez Vega C. y Zamanillo Sáinz de la Maza, J.M. Fundamentos de Televisión Analógica y Digital. Capítulo 2. Servicio de Publicaciones de la Universidad de Cantabria. Santander, 2003. 2 Por analogía con una descarga de fusilería. 1 ©Constantino Pérez Vega Dpto. de Ingeniería de Comunicaciones Universidad de Cantabria, 2005 2 ejemplo, se la potencia sonora aumenta diez veces, un oyente dirá que el volumen ha aumentado sólo por un factor de 2 (101/3 ≈ 2). Este hecho constituye un problema importante para la eliminación de ruidos ambientales indeseables. Por ejemplo, si se acondiciona acústicamente un recinto para aislar el 99% de la potencia acústica indeseable, la reducción perceptible en volumen será de 0.011/3 ≈ 0.2, es decir sólo del 20%. Un aspecto de interés en la audición es que el oído es prácticamente insensible a la fase y percibe de forma idéntica dos sonidos de la misma frecuencia o tono, independientemente de sus fases relativas, si bien no puede afirmarse que el oído sea completamente sordo a la fase. En realidad, la fase no juega ningún papel significativo en la compresión de audio. Cuando se manejan señales en los dominios del tiempo o de frecuencia, opera un principio que puede considerarse como de incertidumbre: Cuanto más precisamente se conoce el dominio de la señal transformada, menos precisamente se conoce su comportamiento en el dominio del tiempo. Por consecuencia, cuanto mejor puede una transformada discriminar entre dos frecuencias, menos puede discriminar entre el tiempo de ocurrencia de dos eventos. La evolución del oído humano ha sido tal que permite un cierto compromiso en la incertidumbre de discriminación temporal y frecuencial. La imperfección en la discriminación de frecuencias es el resultado de la incapacidad de separar sonidos de frecuencias muy cercanas, que se conoce como enmascaramiento y se define como la reducción en la sensibilidad a un sonido en la presencia de otro. La mayor sensibilidad del oído se tiene a las frecuencias de voz, entre unos 400 y 4000 Hz, disminuyendo considerablemente en bajas frecuencias y también, pero en menor escala, en altas frecuencias. Una consecuencia de este comportamiento es, por ejemplo, que el zumbido agudo (hiss) de un casette de audio analógico sólo es perceptible durante los intervalos de silencio de la música. El proceso de compresión‐expansión3 aplica esa característica del oído amplificando las señales de audio de bajo nivel antes de su grabación o transmisión y regresándolas a su nivel correcto después. La discriminación imperfecta en el dominio de tiempo se debe a la respuesta del oído a resonancia, ya que el factor Q es tal que un sonido dado debe estar presente por lo menos, un milisegundo antes de que sea audible. Debido a esta respuesta lenta del oído, el enmascaramiento puede ocurrir aún cuando las dos señales involucradas no estén presentes simultáneamente. El enmascaramiento puede ocurrir “hacia adelante” y “hacia atrás”, cuando el sonido enmascarador continúa enmascarando sonidode menor nivel antes y después de su duración real. El enmascaramiento aumenta el umbral de audibilidad, por lo que los compresores de sonido aprovechan este efecto aumentando el fondo de ruido, lo que permite expresar la señal con menor número de bits. El fondo de ruido sólo puede aumentarse a aquellas frecuencias en las que el enmascaramiento es efectivo y, para maximizar el enmascaramiento es necesario dividir el espectro de audio en diferentes bandas a fin de permitir el empleo de diferentes niveles de compresión, expansión y ruido en cada banda. Principios básicos de la codificación perceptual La idea fundamental de la codificación perceptual es aprovechar aprovechar las características o quizá mejor dicho “debilidades” del sistema auditivo humano, de modo que cualquier introducida por el codificador resulte insignificante perceptualmente. 3 En inglés se designa como companding. ©Constantino Pérez Vega Dpto. de Ingeniería de Comunicaciones Universidad de Cantabria, 2005 3 Uno de los efectos psicoacústicos mejor conocidos es el de enmascaramiento, cuyas características se han descrito en párrafos anteriores. La mayor parte de las técnicas de codificación aprovechan los efectos del enmascaramiento en el dominio de la frecuencia, ya que en éste una señal débil puede quedar completamente enmascarada si su frecuencia es cercana a la de señales con mayor amplitu y contenido espectral similar. Tanto el estándard MPEG como el Dolby AC‐3 emplean este modelo, que esquemáticamente se representa en la figura 1. Entrada de audio Cuantificación y codificación Banco de filtros Flujo comprimido Codificación de flujo binario Modelo perceptual Fig. 1. Modelo de codificación perceptual de audio. Codificación en subbandas En la compresión de audio el primer proceso al que se somete la señal digital no comprimida de entrada, es a una codificación en subbandas que consiste en filtrar la señal mediante un banco de filtros que parten la banda total en una serie de subbandas o ventanas y, a continuación cada subbanda se codifica adaptativamente. Si la señal de sonido se hace pasar por un banco de filtros cuyos anchos de banda son contiguos en todo el espectro de la señal y no se traslapan, las subbandas resultantes pueden recombinarse para recuperar la señal original sin distorsión perceptible4. En la caso de la codificación de audio MPEG se emplean 32 filtros, cada uno con 512 derivaciones. El número de bits utilizado en el proceso de codificación, en general esdiferente para la señal de cada subbanda, en que la cuantificación se realiza con un criterio perceptual. Al codificar individualmente la señal de cada subbanda, el ruido de cuantificación queda confinado sólo a esa subbanda. Los flujos binarios de salida de cada codificador se multiplexan para su transmisión o procesado posterior. En el receptor se realiza primero un demultiplexado seguido por la decodificación de las señales de cada subbanda para recuperar la señal original. Modelo perceptual La señal de entrada, además de aplicarse al banco de filtros, se aplica simultáneamente al bloque designado como modelo perceptual en la figura 1. La función de este modelo es aplicar las reglas del comportamiento psicoacústico del sistema auditivo humano para estimar los niveles de enmascaramiento necesario en cada subbanda. Esta información se pasa al cuantificador de modo que el nivel de cuantificación se ajusta en cada caso, de modo que el todo el ruido de cuantificación quede por debajo de los umbrales de enmascaramiento. Tanto los sistemas MPEG como AC‐3 utilizan este modelo. El modelo psicoacústico funciona en paralelo con el filtrado en subbandas y consume una carga de cómputo considerable. La primera etapa en este proceso es la computación de una curva de enmascaramiento de acuerdo a las propiedades de enmascaramiento en frecuencia del oído humano. De cada una de las curvas de enmascaramiento para cada subbanda se obtienen los correspondientes Pa un tratamiento amplio del tema de codificación en subbandas véase por ejemplo, Salami, R.A. et al. Speech Coding. Cap. 3 de Mobile Radio Communications. Raymond Steele (Editor). Pentech Press, London, 1992. 4 ©Constantino Pérez Vega Dpto. de Ingeniería de Comunicaciones Universidad de Cantabria, 2005 4 umbrales a aplicar en cada una. Cada uno de ellos establece la máxima energía aceptable para el ruido de cuantificación en cada subbanda, es decir, el nivel por debajo del cual el ruido no se percibirá. para una tasa binaria determinada y un nivel de compresión sin pérdidas perceptuales, todo el ruido de cuantificación debe estar por debajo de los umbrales de enmascaramiento. Sin embargo, para tasas binarias bajas este no es generalmente el caso y, en tales condiciones, el modelo psicoacústico utiliza un modelo iterativo que asigna más bits a las subbandas en las que un aumento de resolución proporciona mayor ventaja. Codificación de audio en el estándar MPEG El estándar de compresión de audio MPEG define tres capas de calidad subjetiva y complejidad crecientes. Soporta muestreo a 32, 44.1 y 48 kHz. A 16 bits por muestra, el audio no comrimido produce un caudal binario de alrededor de 1.5 Mbit/s. Después de la compresión, los flujos binarios para canales monoaurales se sitúan entre 32 y 192 kbit/s y los estereofónicos, entre 128 y 324 kbit/s. Al igual que otros sistemas de compresión de audio, MPEG aprovecha las características psicoacústicas del sistema auditivo humano, principalmente el enmascaramiento simultáneo y el temporal. El enmascaramiento simultáneo se basa en el hecho de que una señal de audio de cierta amplitud y frecuencia, puede enmascarar a otras señales de frecuencias cercanas y menor amplitud. El enmascaramiento temporal, por otra parte, se basa en el hecho de que el oído no percibe señales inmediatamente anteriores o posteriores a una señal enmascaradora. La primera acción en el proceso de compresión MPEG es la de codificación en subbandas, segmentando el audio digital en ventanas de 384 muestras. Las capas I y II de MPEG utilizan un banco de filtros para descomponer cada ventana en 32 subbandas, cada una con un ancho de banda de aproximadamente 750 Hz, para una frecuencia de muestreo de 48 kHz. Cada subbanda es diezmada de modo que la tasa de muestreo por subbanda es de 1.5 kHz con 12 muestras por ventana. Por otra parte, a la entrada de audio digital se le aplica una transformada rápida de Fourier (FFT) con el fin de determinar su espectro y computar un umbral global de enmascaramiento para cada subbanda; con ello, se elige un cuantificador uniforme que produce la mínima distorsión a la tasa binaria requerida. Para cada subbanda se amplifica el nivel de la señal para obtener niveles normalizados máximos. La ganancia necesaria es constante durante cada bloque y se transmite un factor de escala con cada bloque, en cada subbanda, a fin de invertir el proceso en el decodificador. Uno de los problemas introducidos por la cuantificación son los pre‐ecos, que pueden ocurrir cuando un sonido percusivo agudo va precedido de silencio. Al reconstruir la señal, los errores debidos a la cuantificación tienden a distribuirse sobre el bloque de muestras causando una distorsión audible antes de la señal real. En una ventana de 8 ms el enmascaramiento temporal no puede suprimir los pre‐ecos por completo. En la capa III de MPEG el control de pre‐ecos es una parte imporrtante y, para ello, en esa capa se agrega una descomposición de las subbandas mediante la transformada del coseno discreto (DCT) modificada, con el fin de conseguir una división de frecuencia mucho más fina. En la capa III se agrega cuantificación no uniforme, en el sentido de que las señales de mayor nivel pueden enmascarar errores de cuantificación mayores. Además se incluye codificación por entropía y conmutación dinámica de ventanas, con lo que se obtiene mejor resolución temporal y mejor control de los pre‐ecos. La máxima tasa binaria que soporta es de 384 kbits/s. Las tres capas soportan tasas binarias tan bajas como 32 kbits/s, de ellas, la capa I es la más simple de las tres y proporciona audio de buena calidad a 192 kbits/s. La máxima tasa binaria que soporta es de 448 kbits/s. La capa II utiliza una FFT de mayor resolución que la I, cuantificación más fina y una forma más eficiente de transmitir los factores de escala para las subbandas. El modelo psicoacústico ©Constantino Pérez Vega Dpto. de Ingeniería de Comunicaciones Universidad de Cantabria, 2005 5 empleado en esta capa es más complejo que el utilizado en la capa I. Proporciona audio con calidad de CD a 128 kbits/s por canal y la máxima tasa binaria que soporta es de 384 kbits/s. En la figura 2 se muestra el flujo binario para la capa 1 del estándard MPEG. Encabezado CRC (opcional) Asignación de bits Factores de escala 0 GR0 1 GR1 GR2 GR3 2 Muestras de subbandas 30 GR10 GR11 Otros datos 31 El encabezado incluye 20 bits del sistema precedidos de 12 bits de sincronismo. A este le sigue un código opcional de redundancia cíclica y, a continuación 32 códigos de 4 bits cada uno, de asignación de los bits utilizados en las muestras de cada subbanda. Después de los códigos de asignación se tienen los factores de escala que determinan la ganancia en cada subbanda, seguidos de los datos de audio en cada una y finalmente, un número no especificado de bits para otros posibles datos. Bibliografía 1. Smith, S.W. Digital Signal Processing: A Practical Guide for Engineers and Scientists. Newnes ‐ Elsevier, 2003. 2. Watkinson, J. The MPEG Handbook. 2nd Ed. Focal Press (Elsevier), 2004 3. Steele, R. Mobile Radio Communications. Capítulo 3. Pentech Press, London, 1992. 4. Pan, D. “A Tutorial on MPEG/Audio Compression”. IEEE Multimedia Journal, Summer 1995. 5. Pérez Vega C. y Zamanillo Sáinz de la Maza, J.M. Fundamentos de Televisión Analógica y Digital. Capítulo 2. Servicio de Publicaciones de la Universidad de Cantabria. Santander, 2003. 6. Bhaskaran, V. and Konstantinides, K. Image and Video Compression Standards. 2nd Ed. Kluwer Academic Publishers, Boston, 1997. 7. Symes, P. Digital Video Compression. McGraw‐Hill, 2004. 8. Mitchell, J.L., Pennebaker, W.B., Fogg, C.E. and LeGall, D.J. MPEG Video Compression Standard. Kluwer Academic Publishers, Boston, 1996. 9. Yen Pan, D. “Digital Audio Compression”. Digital Technical Journal. Vol. 5, Nº 2, Spring 1993. 10. A Guide to MPEG Fundamentals and Protocol Analysis. www.tektronix.com/video_audio.