EL PERFIL HE-AAC v2 DE MPEG-4 PARA DIFUSIÓN DIGITAL ING. JESÚS ROJAS Universidad Central de Venezuela E-mail: jesús_rojas04@yahoo.com RESUMEN La calidad del contenido transmitido a los consumidores utilizando tecnología digital es uno de los desafíos más difíciles de la difusión hoy en día. Uno de los aspectos más críticos es el adecuado uso del espectro disponible. En consecuencia es necesaria una correcta selección de los esquemas de compresión a utilizar, de manera que sea factible la implementación en los sistemas de difusión digital actual tanto en el aspecto técnico como económico. En el caso del audio, el perfil HE-AAC v2 propio del estándar MPEG-4, ha probado ser el esquema de compresión de audio más eficiente disponible a nivel mundial. Recientemente ha sido seleccionado dentro de DVB (Digital Video Broadcasting) como parte de sus herramientas de codificación. HE-AAC v2 contiene un set de herramientas para la codificación de alta calidad de señales de audio mono, stereo y multicanal (por encima de 48 canales), utilizando una amplia gama de tasas de bit. ABSTRACT Delivering broadcast-quality content to consumers is one of the most challenging tasks in the new world of digital broadcasting. One of the most critical aspects is the highly efficient use of the available transmission spectrum. Consequently, a careful choice of compression schemes for media content is essential, for both the technical and the economical feasibility of modern digital broadcasting systems. In the case of audio content, the MPEG-4 High Efficiency AAC v2 profile (HE-AAC v2) for digital broadcasting has proven to be the most efficient audio compression scheme available worldwide. It has recently been selected within DVB (Digital Video Broadcasting) as part of its HE-AAC v2 comprises a fully-featured tool set for the coding of audio signals in mono, stereo and multichannel modes (up to 48 channels), at high quality levels using a wide range of bitrates. Radio Hd: El sistema terrestre de difusión digital usado en USA. Digital Radio Mondiale: El estándar internacional para la difusión de bandas de larga, mediana y corta onda. Los componentes de HE-AAC v2 ya están siendo usados ampliamente en una gran variedad de sistemas y aplicaciones donde las limitaciones del ancho de banda son una factor crucial. Entre estas aplicaciones se pueden mencionar: El siguiente articulo ofrece un resumen de los componentes técnicos de HE-AAC v2, la eficiencia del proceso de compresión y Radio satelital XM: Servicio de difusión digital usado en USA. 1 provee una visión del futuro potencial de los trabajos que se están desarrollando usando este sistema de codificación. Parametric Stereo incrementa la eficiencia de codificación en segundo plano aprovechando la representación del componente stereo de una entrada de audio dada como una imagen paramétrica. HEAAC v2 permite que audio de gran calidad en el formato MPEG-4 se obtenga con tasas de bits mucho mas bajas que si se usara AAC. Los decodificadores HE-AAC v2 son compatibles con formatos que utilizan AAC y los que incluyen AAC con componentes SBR. ESTANDARIZACIÓN INTERNACIONAL El perfil HE-AAC v2 (también conocido como AACPlus v2) es la combinación de tres tecnologías: Advanced Audio Coding (AAC). Spectral Band Replication (SBR) Parametric Stereo (PS). Estas tres tecnologías están especificadas en la norma ISO/IEC 14496-3 y combinados en el perfil HE-AAC v2, el cual está especificado en la norma ISO/IEC 14496-3:2001/Amd.4. Figura 1. Familia de codificadores de audio de HE-AAC v2 Otra característica importante de las arquitecturas HE-AAC y HE-AAC v2 es la flexibilidad que tienen de transportar metadata. La metadata puede ser embebida como una data auxiliar que solamente los decodificadores compatibles con esta arquitectura pueden detectar. Los decodificadores no compatibles, simplemente ignoran esta información, la cual determina elementos propios de los contenidos de audio, tales como descripción de la data, nombre de la canción, intérprete, etc. El Instituto de Estándares de Telecomunicaciones Europeo (ETSI) ha estandarizado el perfil HE-AAC v2 en su especificación técnica TS 102005. ARQUITECTURA DE HE-AAC V2 La codificación HE-AAC v2 básicamente se basa en la conocida codificación AAC de MPEG-4, cuya calidad de audio es buena a una tasa de bit típica de 128 Kbit/s. A tasas inferiores a esta, la calidad de audio de AAC puede empezar a degradarse, lo cual puede ser compensando al máximo con las técnicas de mejora SBR y PS (anteriormente mencionadas). MPEG ISO/IEC 14496-3 Parte 3 (Audio) define las áreas designadas para la metadata en un stream (flujo de data) MPEG. La capacidad máxima de la data en un flujo de bit (bit stream) MPEG depende de diversas variables como la tasa de muestreo, la tasa de bit de determinado bit stream, entre otros factores. En general la cantidad de metadata disponible no impone restricciones a las aplicaciones mencionadas anteriormente. SBR Es una técnica de extensión de ancho de banda que permite a los codecs de audio ofrecer la misma calidad auditiva a una tasa de bit casi de la mitad de la requerida si el codec opera por sí solo. 2 Data codificada en HE-ACC puede existir en variedad de formatos de archivo, con extensiones diferentes, dependiendo de la aplicación utilizada. Los formatos más comunes son los formatos de archivos MPEG-4 es decir los formatos MP4 y M4A, con sus respectivas extensiones .mp4 y .m4a; las extensiones .m4a son usadas para enfatizar el hecho de que el archivo solo contiene audio. Los formatos de archivo 3GP soportan todas las características de HE-AAC para archivos mono y stereo a una tasa de muestreo superior a 48 KHz. Figura 2. Si la rata de compresión se incrementa, la distorsión introducida por el codec viola el umbral de enmascaramiento y produce efectos audibles. Esto se observa en la figura 3 MPEG AAC Las investigaciones para desarrollar codecs de audio comenzaron aproximadamente hace 20 años, y se descubrió que el oído humano no es capaz de percibir distorsiones que están por debajo de un umbral definido como umbral de enmascaramiento, el cual se forma en el oído humano cuando este percibe una señal auditiva fuerte; frecuencias que circundan a la frecuencia de esta señal y señales con amplitudes inferiores a dicho estímulo no son percibidos de forma efectiva por el oído durante cierto período de tiempo. Al observar el espectro auditivo, se puede observar lo que se denomina como umbral de enmascaramiento, el cual puede ser calculado ya que depende del estímulo que excita al oído. Idealmente distorsiones y estímulos que se encuentren bajo este umbral no son perceptibles por el oído. Figura 3. El principal método para evitar este problema es limitar el ancho de banda del audio. Otro método llamado Intensity Stereo sólo puede ser usado para señales stereo; en Intensity Stereo solo un canal es transmitido en lugar del canal derecho e izquierdo. Las investigaciones en el campo del proceso de percepción auditiva ya han alcanzado sus límites, de forma que los métodos conocidos no parecen proveer de algún elemento adicional para incrementar la eficiencia de codificación. Por tal razón, se requiere un cambio de paradigma, el cual puede estar dado por la idea de que diferentes elementos de la señal de audio, como por ejemplo los componentes espectrales o los componentes stereo, necesitan diferentes herramientas, si van a ser codificados de forma más eficiente. Esta idea inició el desarrollo de las El objetivo es calcular el umbral de enmascaramiento basándose en el modelo psicoacústico del oído humano, y procesar la señal de audio de forma que solo la información audible resida en esta señal. La figura 2 ilustra la respuesta del oído ante un estímulo y el ruido de cuantización producido por un proceso de codificación ideal. 3 herramientas de mejora Spectral Band Replication (SBR) y Parametric Stereo (PS). REPLICACIÓN ESPECTRAL BANDAS (Spectral Band Replication) DE Figura 5. En la codificación de audio tradicional, una cantidad significativa de información es usada para codificar las altas frecuencias, a pesar de que en el modelo psicoacústico no se le da mucha importancia a las señales de frecuencias altas; esto fue considerado básicamente para el desarrollo de SBR. Sabiendo la fuerte correlación existente entre el rango de altas y bajas frecuencias, una buena aproximación de la señal original de entrada, en su rango de alta frecuencia, puede ser obtenida por la transposición de la señal presente en el rango de baja frecuencia, tal y como lo muestra la figura 4: En el lado del codificador, la señal de entrada original es analizada, la envolvente correspondiente a la banda de alta frecuencia y sus características en relación con la banda de baja frecuencia son codificadas formando la data SBR, y esta data resultante es multiplexada junto con el flujo de bits de la información codificada de la señal. En el lado del decodificador, primero la data SBR es demultiplexada, entonces el decodificador actúa sobre esta data. Finalmente el decodificador SBR opera en la señal de salida, usando la data SBR para guiar el proceso de replicación espectral de bandas. El resultado es una señal completa en ancho de banda. Los decodificadores que no son SBR podrían ser capaces de decodificar la señal compuesta por data SBR, pero el resultado sería una señal de salida limitada en banda. A pesar de que la aproximación básica parece simple, hacer que trabaje en la práctica no lo es. Obviamente no es trivial codificar la información de guiado para cumplir los siguientes criterios: Figura 4. Transposición de la señal Además de la transposición, la reconstrucción de la banda de alta frecuencia (Figura 5) es canalizada por la transmisión de información de guiado, de forma que la envolvente espectral de la señal original o información adicional que compense componentes de altas frecuencias faltantes estén presentes. Esta información de guiado es lo que se denomina data SBR. Se requiere buena resolución espectral. Se requiere resolución adecuada en el dominio del tiempo para evitar los preecos. Los casos en los que la banda de alta y baja frecuencia no estén altamente correlacionadas, deben ser considerados de forma cuidadosa, ya que la transposición y el ajuste de envolvente en estos casos 4 pueden producir efectos auditivos artificiales. Una baja rata de data es requerida con el fin de obtener una significativa ganancia de codificación. Al combinar AAC con SBR el resultado obtenido es HE-AAC o aacPlus v1. PARAMETRIC STEREO (PS) Mientras que SBR explota la posibilidad de una representación paramétrica de la banda de alta frecuencia, la idea básica detrás de PS es parametrizar la componente stereo de una señal de audio considerándolo como un imagen (panorama) y analizando la diferencia de fase y tiempo de los canales stereo, con el fin de mejorar la eficiencia de codificación. La frecuencia de cruce entre la banda de baja y la de alta frecuencia es seleccionada en base a diferentes factores como la tasa de bit y la frecuencia de muestreo de la señal de entrada. Generalmente las bandas bajas necesitan cubrir un rango de frecuencia comprendido desde el nivel DC hasta los 4 o 12 KHz, dependiendo de la tasa de bit. En el codificador, solo un mezclador monaural (mono) de la señal stereo original es codificado después de la extracción de la data Parametric Stereo. Al igual que la data SBR, la data PS es embebida en la parte auxiliar del bit stream de información como data PS (complementaria). El limitado rango de frecuencia cubierto por los codificadores AAC permite el uso de una baja frecuencia de muestreo, inferior a los 24 KHz, lo cual mejora la eficiencia de codificación si se compara al uso de frecuencias de muestreo más altas, como por ejemplo 48 o 44.1 KHz. En el decodificador, la señal monaural es decodificada primero. Después de esto, la señal stereo es reconstruida, basándose en los parámetros stereo embebidos por el codificador. La figura 6 muestra el principio básico del proceso de codificación de Parametric Stereo. La siguiente tabla muestra ejemplos típicos de frecuencia de cruce entre AAC y SBR, usando ratas de muestra de 24/48 KHz en stereo, dando una configuración apropiada al codificador HE-AAC. La tasa de bit de la data SBR varía dependiendo de la sintonización del codificador, pero en general, esta tasa corresponde al rango de 1 a 3 Kbit/s por cada canal de audio. Esto es mucho menor a la tasa de bits que se requeriría para codificar la banda de alta frecuencia usando un algoritmo convencional para la codificación de una forma de onda. Figura 6. Tres tipos de parámetros pueden ser empleados en el sistema Parametric Stereo para describir la imagen stereo: Tabla 1. 5 Diferencia de Intensidad Inter Canal (IID): Describe la diferencia de intensidad entre los canales. Cros-Correlación Inter Canal (ICC): Describe el cruce de correlación o coherencia entre los canales. La coherencia es medida como el máximo valor de la función de tiempo y fase de la correlación de cruce. Diferencia de Fase Inter Canal (IPD): Describe la diferencia de fase entre los canales. Esto puede ser definido por un parámetro adicional denominado Overall Phase Difference (OPD), el cual muestra cómo la diferencia de fase es distribuida entre los canales. El parámetro Diferencia Inter Canal (ITD) puede ser considerado como una alternativa para IPD. Si la herramienta Parametric Stereo no es usada, la señal de audio alimenta a un remuestreador 2:1 y nuevamente esta señal entra al codificador AAC. El codificador SBR trabaja también en el dominio QMF; este codificador extrae la envolvente espectral y la información adicional de ayuda para guiar el proceso de replicación en el decodificador. Toda la data codificada es multiplexada en un flujo de bit (bit stream) para la transmisión o el almacenamiento de dicha data. La figura 7 muestra un diagrama de bloques completo de un codificador HE-AAC v2. FUNCIONALIDAD DE HE-AAC V2 Las tecnologías AAC, SBR y PS descritas anteriormente, son los bloques fundamentales del perfil HE-AAC v2 de MPEG-4. La codificación AAC es usada para codificar las señales de banda baja, SBR codifica las señales de banda alta, y PS codifica la imagen stereo en una forma paramétrica. En una implementación típica de un codificador aacPlus, la señal de entrada de audio muestreada a una frecuencia de muestreo fs es introducida en un banco de filtros espejo de cuadratura (Quadrature Mirror Filter QMF) de 64 bandas y transformada al dominio QMF. Si se usa la herramienta Parametric Stereo, el codificador PS extrae la información Parametric Stereo basada en las muestras QMF. Además, un mezclador de stereo a mono es aplicado. Con una síntesis QMF a 32 bandas, la representación mono QMF es vuelta a transformar al dominio del tiempo a una tasa de muestreo igual a la mitad de la señal de audio fs/2. Esta señal alimenta al codificador AAC. Figura 7. En el decodificador HE-AAC v2, el flujo de bits es separado en porciones correspondientes a los formatos AAC, SBR y PS. El decodificador AAC saca una señal de banda baja en el dominio del tiempo a una tasa de muestreo de fs/2. La señal es entonces transformada al dominio QMF para un procesamiento posterior. El proceso SBR da como resultado una reconstrucción de la señal de banda alta en el dominio QMF. Las bandas altas y bajas son fusionadas obteniéndose una representación QMF completa en banda. Si la herramienta Parametric Stereo se utiliza, esta genera una representación stereo en el dominio QMF. Finalmente la señal es sintetizada por un banco sintetizador QMF de 64 bandas. El resultado es una señal de salida en el 6 dominio del tiempo a la tasa de muestreo fs. La figura 8 muestra el diagrama de bloques completo de un decodificador HEAAC v2. bit máxima (1,5 Mbit/s). El flujo de bit DTS codificado puede ser transmitido a los receptores A/V sobre una interfaz S/PDIF. La solución aacPlus/DTS ofrece ventajas considerables sobre los sistemas existentes para la difusión multicanal: La reducción de ancho de banda para las transmisiones aacPlus comparado con los sistemas actuales, excede a estos en un factor de 2; así, por ejemplo, dos canales de lenguaje pueden ser transmitidos en uno. Los beneficios obvios de un estándar abierto. Cualquier fabricante de codificadores esta en capacidad de implementar el codificador aacPlus, y los operadores de la red podrán escoger entre una gran cantidad de vendedores. Gran ahorro en costos al haber múltiples fabricantes entre los cuales se pueden escoger. Estos ahorros pueden ser usados en otros aspectos tales comos soluciones de codificadores integrados, servicios de soporte, entrenamiento, operaciones, etc. Figura 8. DTS Y TECNOLOGÍAS DE CODIFICACIÓN PARA LA DIFUSIÓN DIGITAL En años recientes, con la llegada de receptores DVD y A/V, los sistemas de audio multicanal se han vuelto cada vez más populares en los hogares para aplicaciones de entretenimiento. Como se mencionó anteriormente, HE-AAC ofrece alta calidad, y aplicaciones como por ejemplo sistemas 5.1 multicanal de audio a tasas de bits tan bajas como 160 kbit/s, ofreciendo el doble de eficiencia de otros formatos ya utilizados. La compatibilidad con receptores existentes de A/V puede ser direccionado fácilmente por la combinación de los perfiles HE-AAC y DTS (Digital Theather Systems), habilitando la adopción de la codificación de audio HE-ACC para la difusión digital en una forma compatible. CONCLUSIONES En este artículo se ha mostrado cómo tecnologías existentes para la codificación de audio, como MPEG-AAC, pueden ser mejorados significativamente por el uso de técnicas de mejora: por ejemplo SBR y PS. Estudios preliminares muestran que la eficiencia de compresión de AAC puede ser incrementada en un factor de cuatro. Se ha creado una solución para las tecnologías de codificación, combinando un decodificador HE-AAC con un codificador DTS, ambos colocados en un set-up-box de un usuario estándar. La señal codificada HE-AAC que es difundida, es decodificada en el set-up-box, y codificada luego por el codificador DTS a la tasa de HE-AAC v2, resultado de la combinación de AAC, SBR y PS, es sin duda la codificación de audio más poderosa disponible hoy en día. Es entonces la primera opción para todas las aplicaciones donde el ancho de banda está limitado o es 7 muy costoso, y un claro ejemplo de esto es la difusión digital. BIBLIOGRAFÍA www.rtve.es/dab/queesdab.html www.worlddab.org/gendocs.aspx http://dab.intereconomia.com/ 8