EL SONIDO Por Martha Zapata Rendón El sonido, igual que los elementos visuales, tiene que ser grabado y formateado de forma que la computadora pueda manipularlo y usarlo en presentaciones. Dos tipos frecuentes de formato audio son los archivos de forma de onda (WAV) y el Musical Instrument Digital Interface (MIDI). Los archivos WAV almacenan los sonidos propiamente dichos, como lo hacen los CD musicales o las cintas de audio. Los archivos WAV pueden ser muy grandes y requerir compresión. Los archivos MIDI no almacenan sonidos, sino instrucciones que permiten a unos dispositivos llamados sintetizadores reproducir los sonidos o la música. Los archivos MIDI son mucho más pequeños que los archivos WAV, pero la calidad de la reproducción del sonido es bastante menor. El proceso de grabación del sonido en la computadora representa una onda de sonido en código binario -unos y ceros-. Para este proceso los programas utilizan variables como la frecuencia de muestreo, y el número de bits -8 o 16- que el programador puede elegir. La calidad del sonido digitalizado está asociada con los valores de las variables; de igual forma dicha calidad es proporcional al espacio de almacenamiento. Para poder tomar decisiones sobre las variables a usar cuando se digitaliza sonido, conviene conocer algunos fundamentos sobre los modelos que desde la física explican el comportamiento del sonido, sobre el proceso de muestreo y retención del sonido por medios electrónicos, y las relaciones entre las variables de muestreo y el espacio de almacenamiento de la información digital. Componentes de una señal analógica Las ondas de sonido se representan como una curva continua llamada señal analógica. Los componentes principales de una señal analógica son: La Línea Base, el Período, la Frecuencia, y la Amplitud (figura 1). figura 1 La Línea Base corta la señal aproximadamente por la mitad, y es un punto de referencia para medir el sonido. El Período es la cantidad de tiempo que transcurre entre dos ciclos sucesivos de la onda de sonido. La Frecuencia es el inverso del período, o número de ciclos por segundo. Se mide en hertz (Hz) o en kilohertz (KHz). Los sonidos audibles para los seres humanos tienen una frecuencia entre 16 Hz y 16 KHz. El canal de audio estándar para comunicación telefónica tiene frecuencias entre 300 Hz y 3.4 KHz. La Amplitud de la señal es la distancia de la línea base a un pico dado. volumen del sonido (figura 2) Esta, determina el figura 2 Muestreo y retención del sonido Para el procesamiento de señales analógicas se usan los circuitos de muestreo y retención. Un circuito de muestreo y retención es un elemento de memoria analógica que almacena una tensión dada en un condensador. Este condensador está conectado a un interruptor electrónico de forma que cuando el interruptor se cierra el condensador se carga a la tensión de entrada; cuando el interruptor se abre el condensador retiene esta carga, congela la tensión durante un período de tiempo especificado. Un temporizador (dispositivo de control de muestreo) conectado al interruptor, hace que este tome muestras de la amplitud de la onda de sonido a intervalos de tiempo fijo. El número de muestras tomados por segundo se conoce como FRECUENCIA DE MUESTREO ( en la figura 3 la frecuencia de muestreo es 28 Hz). Figura 3 La frecuencia de muestreo debe ser como mínimo 2 veces la frecuencia máxima contenida en la señal. Mientras más alta sea la frecuencia de muestreo mejor será la calidad del sonido. La siguiente tabla presenta las frecuencias de muestreo más usadas, el número de muestras por segundo y la calidad del sonido. FRECUENCIA MUESTREO 11 KHz 22 KHz 44 KHz DE MUESTRAS SEGUNDO POR CALIDAD SONIDO 11,025 22,050 44,100 DEL Baja Media Alta Digitalización del sonido en la computadora Una vez convertida la señal analógica a una señal discreta por medio del circuito de muestreo y retención se representa cada uno de los valores de amplitud retenidos en código binario (señal digital). A cada muestra de sonido tomada corresponde un valor de amplitud, que en la computadora se representa en 8 o en 16 bits. Si se utiliza la representación en 8 bits, las medidas de amplitud del muestreo se llevan a una escala (en binario) entre 00000000 y 11111111. Se tienen, por lo tanto, 256 valores binarios diferentes para representar una señal. Cualquier valor binario comprendido en este rango corresponde a un valor dado de amplitud de la señal. De forma similar, una representación en 16 bits lleva los valores de amplitud del muestreo a una escala entre 0000000000000000 y. 1111111111111111. Así, se tienen 65536 valores binarios diferentes para representar una señal. La calidad del sonido depende de la representación. Para digitalizar un segundo de sonido como el de la figura 1.3. en 8 bits se tendría una escala vertical con paso de 0.0078125; mientras que para digitalizar el mismo sonido en 16 bits el paso de la escala vertical sería de 0.0000305. Como se observa, existen pasos más pequeños para la representación en 16 bits que para la representación en 8 bits. Esto es, que con 16 bits se representa con mayor precisión la onda original. Sin embargo, esta representación consume dos veces el espacio de almacenamiento en disco duro. La tabla siguiente muestra los tamaños de disco duro consumidos por minuto de grabación, a diferentes frecuencias de muestro, y representaciones en 8 y 16 bits: FRECUENCIA MUESTREO 11 KHz 22 KHz 44 KHz 11 KHz 22 KHz 44 KHz DE REPRESENTACION 8 bits 8 bits 8 bits 16 bits 16 bits 16 bits BYTES EN DISCO DURO 0.66 MB 1.32 MB 2.64 MB 1.32 MB 2.64 MB 5.29 MB Calidad del sonido vs. espacio de almacenamiento Es obvio que los sonidos generados con una frecuencia de muestreo de 44 KHz y representados en 16 bits son de la más alta calidad, pero utilizan más espacio de almacenamiento. Otra variable que afecta la calidad del sonido es el número de canales de entrada. Un sonido monofónico se produce cuando la fuente de audio tiene un canal de entrada, mientras que un sonido estereofónico resulta cuando la fuente de audio tiene dos canales de entrada. Es necesario entonces buscar un equilibrio entre la calidad de sonido deseado, y los recursos de almacenamiento disponibles en la computadora. Para propósitos sencillos (no comerciales) se puede trabajar a 11 KHz 8 bits y monofónico o estereofónico.