Digitalización del Sonido Emilia Gómez Gutiérrez Síntesi i Processament del So I Departament de Sonologia Escola Superior de Musica de Catalunya Curso 2009-2010 emilia.gomez@esmuc.cat 17 de septiembre de 2009 Índice 1. Repaso de conceptos básicos 2 2. Introducción a la digitalización de sonidos 2 3. Muestreo 3.1. Frecuencia de Nyquist . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Aliasing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 5 4. Cuantización 4.1. Ruido de cuantización . . . . . . . . . . . . . . . . . . . . . . . . 6 7 5. Codificación 7 6. Rango dinámico 8 7. Ventajas del formato digital frente al analógico 9 8. Bibliografía 10 9. Cuestiones de autoevaluación y ejercicios 11 1 1. Repaso de conceptos básicos El sonido es un fenómeno perceptual que se produce cuando un objeto entra en vibración mecánica, la cual se traduce a una variación de la presión atmosférica en el aire que envuelve el objeto. La naturaleza de dicha vibración puede ser periódica o no periódica, o incluso una combinación entre las dos. Las vibraciones periódicas generan, en general, una sensación de altura, y las no periódicas una sensación de ruido. Los sonidos naturales son casi todos semiperiódicos, es decir, corresponden a una combinación de vibraciones periódicas y no periódicas. Estas variaciones se denominan comunmente formas de onda. La duración de un motivo recurrente de la forma de onda es el período T. El número de veces que dicho período se repite en un segundo (es decir, la tasa de repetición, la inversa del período) nos da su frecuencia fundamental f, f = T1 . La frecuencia fundamental de una onda determina su altura. Si el sonido sólo contiene una frecuencia, decimos que el sonido es sinusoidal puro. Los sonidos naturales contienen diversas frecuencias, además de la fundamental, que forman un sonido complejo y da lugar a la percepción del timbre. A las frecuencias adicionales se les denomina armónicos o parciales, según sea su frecuencia múltiplo o no de la frecuencia fundamental. 2. Introducción a la digitalización de sonidos Ahora veremos en profundidad conceptos relacionados con: Muestreo (Sampling) Cuantización (Quantization) Codificación (Codification) de señales de audio. Las vibraciones sonoras pueden ser representadas como señales electrónicas a través de algunos dispositivos (por ejemplo, un micrófono), que convierte estas vibraciones en una señal de voltaje o tensión dependiente del tiempo. El resultado de la conversión se denomina señal analógica (analog signal). Las señales analógicas son continuas en el sentido en que consisten en un continuo de valores. Una señal analógica puede grabarse en una cinta magnética mediante tecnología electromagnética. Con el fin de reproducir este sonido grabado, la señal es escaneada y enviada a un altavoz que reproduce las vibraciones del sonido en el aire. Como vimos anteriormente, los sintetizadores analógicos tienen la función básica de crear sonidos desde cero utilizando dispositivos electrónicos capaces de producir este tipo de señales adecuadas para la vibración de los altavoces. Por lo tanto, las señales analógicas pueden ser manipuladas, grabadas y amplificadas mediante técnicas analógicas. En la Figura 1 se representa la cadena de reproducción de audio analógico. La reproducción analógica, aunque es adecuada para algunas aplicaciones, posee un defecto claro: cuando una grabación analógica se copia, estamos añadiendo una cantidad imporante de ruido. Por otra parte, cuando amplificamos una señal, también amplificamos el ruido presente en la misma. 2 Figura 1: Cadena de reproducción de audio analógico Sin embargo, los ordenadores son máquinas digitales y no analógicas, es decir, sus operaciones se basan en matemáticas discretas, término opuesto a continuo. Las entidades son contadas en vez de ser medidas o pesadas, por lo que los cálculos deben trabajar con números finitos y exactos. Ejemplo: analogía con el reloj analógico y digital. En el reloj analógico, las agujas tienen un movimiento continuo, y en el digital los dígitos cambian dando saltos. La mayor dificultad en utilizar el ordenador para síntesis de sonido es que se trabaja sólo en el dominio discreto, mientras que el conocimiento científico que se tiene sobre el sonido es esencialmente analógico. Es más, los ordenadores trabajan con números binarios (combinaciones de 0 y 1) en contraste con el sistema decimal (valores del 0 al 9) que es utilizado en el lenguaje científico. La unidad mínima de información con la que el ordenador trabaja es el bit, o binary digit. 3 Para trabajar con sonidos en el ordenador, las señales analógicas tienen que ser convertidas a formato digital, es decir, el sonido debe ser representado con números binarios. En el sentido contrario, las señales digitales deben ser convertidas a formato analógico para escucharlas. Por lo tanto, el ordenador tiene que tener dos tipos de conversores de datos: convertidor analógico a digital (ADC) y digital a analógico (DAC). En la figura 2 se representan los pasos principales de una conversión analógico/digital, proceso que explicaremos a continuación. Señal digital Señal analógica Muestreo Codificación Cuantización 10010100111 Figura 2: Pasos para la digitalización de una señal analógica CAD 3. Muestreo El bloque de muestreo funciona midiendo la amplitud de la señal continua a intervalos de igual duración. Cada valor que se mide se denomina muestra (o sample) de la señal. Esto matemáticamente se puede expresar de la siguiente manera: muestrear una señal es tomar valores de una señal continua x(t) a determinados instantes de tiempo tn : x(t = tn ) = x(n), tn = n · Tm La distancia temporal o el intervalo de tiempo que hay entre dos muestras consecutivas se denomina período de muestreo, y se mide en segundos. Su inversa fm = T1m se denomina frecuencia de muestreo o sampling rate, y se mide en ciclos por segundo o Hz. Por lo tanto, en el proceso de muestreo pasamos de una señal continua a un conjunto de muestras (es decir, puntos discretos en el tiempo). Es importante muestrear la señal lo suficientemente rápido como para capturar toda la información. El teorema de muestreo, o teorema de Nyquist, demuestra que para representar adecuadamente una sinusoide es necesario tener al menos dos muestras por cada ciclo de la sinusoide. Por tanto, para representar adecuadamente un sonido, la frecuencia de muestreo fm tiene que ser mayor, como mínimo, del doble de la frecuencia más alta contenida en la señal: fm ≥ 2 · fmaxima 3.1. Frecuencia de Nyquist Se denomina frecuencia de Nyquist a la frecuencia más alta que se puede capturar con una determinada frecuencia de muestreo fm : fN yquist = 4 fm 2 1 0.8 0.6 0.4 0.2 0 −0.2 −0.4 −0.6 −0.8 −1 0 50 100 150 200 250 300 350 400 450 Figura 3: Señal continua Los sonidos musicales no contienen información significante por arriba de 10KHz, por lo que 20KHz es una frecuencia de muestreo adecuada. Los reproductores de CD a su vez utilizan una frecuencia de muestreo de 44,1KHz. El límite superior de audición de una persona joven y sana es de 20KHz, por lo que podemos decir que los reproductores de CD “exageran” al muestrear. 3.2. Aliasing Una onda compleja puede componerse de sinusoides a frecuencias muy altas, las cuales oscilan tan rápidamente que no son representadas correctamente por las muestras de la señal, al estar éstas demasiado espaciadas entre sí. A este fenómenos se le denomina aliasing, y ocurre cuando la señal que se muestrea tiene componentes de frecuencia que son mayores que la mitad de la frecuencia de muestreo o frecuencia de Nyquist. Para estas frecuencias no se cumple el teorema de muestreo y se produce, por lo tanto, este fenómeno. fm 2 Estas componentes de frecuencia corrompen la señal original introduciendo componentes que se denominan alias. Este efecto está ilustrado en la Figura 5. Las frecuencias que aparecen pueden calcularse como f ≥ fN yquist ; f ≥ fr = fm − fx siendo fm la frecuencia de muestre y fx la frecuencia de la señal. En el dominio visual se produce el mismo fenómeno bajo el efecto de una luz estroboscópica o en el cine (e.g. impresión de rotación en el sentido inverso de las ruedas de los coches). 5 1 0.8 0.6 0.4 0.2 0 −0.2 −0.4 −0.6 −0.8 −1 0 5 10 15 20 25 30 Figura 4: Señal muestreada Las soluciones posibles para este problema son las siguientes: Aumentar la frecuencia de muestreo para que esta sea mayor o igual al doble de la frecuencia máxima de la señal. Realizar un filtrado de las frecuencias por encima de la frecuencia de Nyquist: estos filtros se denominan filtros antialiasing y son filtros de tipo paso bajo (Low-Pass Filter)1 . 4. Cuantización Una vez la señal muestreada nos encontramos con un conjunto de muestras o de valores continuos de la amplitud de la señal. La cuantización se realiza al limitar los posibles valores de amplitud de una señal, definiendo una serie discreta (no continua) de valores posibles. El número de posibles valores de amplitud viene determinado por la resolución del convertidor (CAD o CDA). La resolución de los convertidores depende del tamaño de la palabra que se utiliza para representar cada una de las muestras de la señal. La resolución de un convertidor se mide en número de bits de la palabra que utiliza, y un convertidor de n bits de resolución cuantizará a 2n valores de la señal. Ejemplo: un sistema con una resolución de 4 bits tendría sólo 16 valores diferentes de señal (24 ), y un sistema de 16 bits tendría 216 = 65536 valores diferentes. Cuanto mayor sea la resolución del convertidor, mayor precisión tendremos en la representación de la señal. 1 Los filtros se verán en un tema posterior 6 Figura 5: Ejemplo de aliasing. (a,d,g): señales sinusoidales de entrada de un ADC. (b,e,h): trenes de impulsos a la frecuencia de nuestreo. (c,f,i): señal reconstruida a la salida del DAC. 4.1. Ruido de cuantización El ruido de cuantización aparece en el proceso de cuantización, en el cual sustituimos la amplitud de la muestra por la amplitud más cercana del conjunto de valores admitidos. Se define como la diferencia entre la señal muestreada antes de cuantizar y la señal muestreada cuantizada: r(n) = x(n) − xc (n) x(n) sería el valor de la muestra sin cuantizar, xc (n) sería el valor de la muestra cuantizada, y r(n) sería el valor del ruido de cuantización para la muestra número n. El ruido de cuantización representa la pérdida de calidad de sonido al cuantizar. 5. Codificación El proceso de codificación consiste en asignar un código binario o conjunto de bits a cada uno de los valores posibles de las muestras de la señal. Hay muchas posibilidades de realizar este proceso de codificación. Se denomina códec (abreviatura para codificador/decodificador) es el código específico que se utiliza para codificar y decodificar datos. El códec incluye parámetros referentes a todo el proceso de digitalización, indicando cómo se tiene que realizar el proceso de conversion: Número de canales: monoaural, binaural o multicanal. Frecuencia de muestreo. Resolución: número de bits. Como hemos visto en el punto anterior, cuanto mayor sea el número de bits que utilicemos, mayor resolución tendremos y menor ruido de cuantización. Por otra parte, tendremos palabras de un tamaño mayor, por lo que se tendrá que llegar a un compromiso entre espacio de almacenamiento y resolución. Bit rate: velocidad o tasa de transferencia (en bits por segundo). 7 1 0.8 0.6 0.4 0.2 0 −0.2 −0.4 −0.6 −0.8 −1 0 5 10 15 20 25 30 Figura 6: Señal cuantizada Pérdida: algunos códecs realizan una compresión del sonido, y por tanto eliminan cierta cantidad de información, y el sonido resultante puede tener algunas pérdidas. 6. Rango dinámico Al establecer del conjunto de valores de una señal que se permiten definimos también lo que se denomina rango dinámico del proceso de CAD. El rango dinámico en decibelios se define de la siguiente forma: RDdB = 10 · log10 ( amplitud2max ) amplitud2min Si en un sistema digital consideramos la amplitud máxima como 2n y la mínima como 1, tendremos que un sistema de conversión de n bits posee un rango dinámico de: 22 · n ) 1 y esto puede aproximarse con la siguiente fórmula: RDdB = 10 · log10 ( RDdB = 6 · n 8bits nos daría 48dB y 16bits 96dB. 8 7. Ventajas del formato digital frente al analógico La principal ventaja del formato digital frente al analógico es la posibilidad de repetición. Una vez digitalizado, el sonido puede reproducirse y copiarse exactamente sin pérdida de calidad alguna. Esto no ocurre en el formato analógico, en el que existen pérdidas debido al ruido de reproducción que se van acumulando con las copias. Esta robustez frente al ruido está ilustrada en la Figura 7. Figura 7: (a) Señal analógica representando una serie de bits (0100111101011..). (b) Señal con ruido de fondo (canal, ondas interferentes, ruido del soporte, etc). (c) Regeneración de la señal digital. (d) Señal reconstruida. Por otro lado, existe la ventaja de realizar un procesado digital. El mismo proceso realizado al mismo sonido digital dará siempre el mismo resultado, ya que se realizan relaciones matemáticas con los números. En el caso analógico, es imposible obtener 2 veces el mismo resultado ya que algunos componentes electrónicos son susceptibles de variar dependiendo, por ejemplo, de las condiciones ambientales. 8. Bibliografía Roads, C. 1996. The Computer Music Tutorial, MIT Press, Chapter 1. Story, M. 1997. A suggested explanation for (some of ) the audible differences between high sample rate and conventional sample rate audio material. 9. Cuestiones de autoevaluación y ejercicios 1. Enumera los pasos más importantes del proceso de conversión analógico/digital. 9 Figura 8: Proceso de conversión AD y DA. 2. Enumera algunes de les advantatges del format digital respecte analògic. 3. ¿Qué es la frecuencia de muestreo de un sistema de audio digital? ¿Cómo se elige esta frecuencia? ¿Qué pasa cuando la frecuencia de muestreo viene dada por las características del sistema y por lo tanto no se puede elegir libremente (e.g. en un CD)? 4. ¿Qué vol dir aliasing? Explica perquè es produeix i com es pot evitar. 5. Si muestreamos una señal de 26000 Hz con una tasa de 40000 Hz, ¿tendremos aliasing? En caso afirmativo, ¿qué frecuencias aparecerán?. 6. ¿Qué es la resolución de un sistema de audio digital? 7. Investiga qué es el dither. 10 8. 11