Tecnología Multimedia Profesor Coordinador: Manuel Castro – Antonio Colmenar, UNED Profesores de la asignatura: Manuel Castro, UNED Imágenes Máster en Ingeniería de la Web Índice Captura de imágenes digitales..................................................... 3 Cámaras digitales fotográficas .................................................... 4 Clip-Arts............................................................................... 4 Formatos de archivos ............................................................... 6 BMP (Windows Bitmap Format) ................................................... 6 GIF (Graphics Interchange Group, Grupo de Intercambio de Gráficos) ..... 6 TIFF .................................................................................... 7 JPEG ................................................................................... 7 JPEG y JPEG 2000 .................................................................... 7 Conceptos Básicos ................................................................ 7 Compresión JPEG ................................................................. 8 JPEG 2000 ....................................................................... 11 Mejoras de JPEG 2000 con respecto a JPEG ............................... 11 Problemas de JPEG 2000 con respecto a JPEG ............................ 12 Medios digitales. Edición, codificación e integración 2 de 12 Máster en Ingeniería de la Web Antes de comenzar a digitalizar y editar imágenes es necesario familiarizarse con un par de conceptos fundamentales sobre el mundo de la imagen digital. Captura de imágenes digitales Por todos es conocido que “una imagen vale más que mil palabras”, la imagen juega un papel fundamental en el campo del multimedia; a continuación, se verá como es posible introducir en el ordenador una imagen no digital, como obtener directamente imágenes digitales, así como qué son y donde encontrar álbumes de imágenes digitales. 2.4.1 El escáner El dispositivo óptico que puede leer documentos y convertirlos en "unos y ceros" para posteriormente ser tratados por un programa informático, recibe el nombre de escáner. Éstos pueden interpretar fotos, dibujos, texto, y almacenarlos en un archivo gráfico en el ordenador. Si el aparato es bueno, y se reconoce el original a una resolución elevada, la diferencia entre el original y la exploración será muy poca. Con el escáner, una fotografía puede ser explorada, incorporada en un documento después de retocarla ligeramente y ser impresa en muy pocos minutos. E1 avance tecnológico de la mayoría de los escáneres permite que puedan ser utilizados para todo tipo de trabajos. El tamaño se ha reducido casi hasta alcanzar la superficie de una hoja A4, y su espesor es de apenas unos centímetros, por lo que consumen poco espacio sobre la mesa. Además, si no se dispone de impresora y escasea el espacio, existen escáneres multifunción, que en una sola máquina permiten escanear e imprimir. Casi todos los fabricantes incluyen con sus productos algún software con el que empezar a trabajar desde el primer momento. Los programas de OCR (reconocimiento óptico de caracteres) suelen formar parte de todos los paquetes de software. La característica más importante de un escáner es su resolución, la cantidad de información que es capaz de procesar el escáner, indicando el nivel de detalles en la imagen que el escáner puede capturar. Se mide en puntos por pulgada y la cifra se suele dar en ppp (puntos por pulgada), dpi (dots per inch), e incluso en ppi (pixels per inch), aunque todo significa lo mismo. Cuando se dice que un escáner tiene una resolución de 300x600, significa que tiene una resolución horizontal de 300 ppp y una resolución vertical de 600 ppp. Y cuando se dice que un escáner tiene una resolución de 600 ppp es que tanto la resolución horizontal como la vertical es de 600 ppp. La resolución de un escáner se facilita, habitualmente, de dos tipos: resolución óptica y resolución interpolada. Las imágenes digitalizadas se guardan en unos archivos de formato gráfico denominados, según la forma de almacenamiento, gráficos vectoriales o mapas de bits (bitmaps). Un mapa de bits consiste en un mosaico rectangular de puntos, denominados píxeles. Por lo tanto, un píxel es el elemento más pequeño del que está compuesta una imagen. Cada píxel lleva asignado un Medios digitales. Edición, codificación e integración 3 de 12 Máster en Ingeniería de la Web valor, desde un bit de información, que indica si es blanco o negro, hasta 64 bits utilizado por algunos formatos de uso reducido. A este valor se le llama profundidad de color. La profundidad de color más utilizada actualmente es la de 24 bits. Los bitmaps de 24 bits están formados por tres canales de color, rojo, verde y azul (RGB, de Red, Green, Blue), de 8 bits cada uno. Al combinar los tres canales RGB se pueden obtener hasta 16,7 millones de colores. Esta profundidad de color se la suele llamar Color Verdadero o True Color. Utilizar más de esta profundidad de color para visualizar en pantalla, imprimir o hacer algo que no sean procesos internos de cálculo de los programas o sensibilidades ópticas de los escáneres, no tiene demasiado sentido, porque el ojo humano no es capaz de distinguir tantos tonos y matices. Cámaras digitales fotográficas En pleno siglo XXI el hecho de que las cámaras digitales estén predestinadas a sustituir a las convencionales es algo que no parece razonable discutir. La actual tendencia de bajada de precios y el incremento más que notable de la resolución óptica y de la calidad general aparecidas en el mercado parecen confirmarlo. Las ventajas de una cámara digital son muy variadas: crear fotografías rápidamente para su inclusión en una página Web, realizar trabajos escolares, tener fotografías de excursiones o eventos familiares en pocos minutos, o eliminar los tiempos de espera de revelado y procesado en los trabajos donde el tiempo es vital (y en comunicación como es el caso de periodismo). Y todo ello pudiendo obtener copias infinitas y realizar el proceso en el ordenador de casa (figura 4). Figura 4. Cámara digital fotográfica Clip-Arts Existen álbumes de imágenes profesionales (llamados ClipArt), figura 5, y de fotografías que son muy fáciles de conseguir. Las imágenes y las fotos son los elementos que más habitualmente se incorporan a los programas multimedia. Muchos paquetes incluyen muestras de diferentes compañías creadoras de imágenes y fotos. Por ejemplo, CorelDRAW 96 incorpora 22.000 imágenes y Medios digitales. Edición, codificación e integración 4 de 12 Máster en Ingeniería de la Web símbolos, así como 100 fotografías de alta resolución. Si eso no fuera suficiente (y para muchos profesionales no lo es), Corel vende bibliotecas de imágenes y fotos adicionales, con otras 200.000 imágenes. Sin embargo, hay que tener en cuenta que la calidad de las imágenes y las fotos puede variar enormemente. Sólo porque se trate de un producto comercializado no significa que tenga una categoría verdaderamente profesional. Image Club es una compañía que siempre se ha considerado líder en la categoría de las imágenes profesionales de alta calidad. Este Club también ofrece fotografías profesionales. Adobe adquirió Image Club en 1995. Se puede visitar la página de presentación de Image Club en: http://www.adobe.com/imageclub. Otras dos compañías que disponen de imágenes digitales impresionantes son PhotoDisk y CMCD. CMCD es una compañía de la firma de diseño Clemont Mok, y sus fotos las distribuye PhotoDisk. Una tendencia en las imágenes fotográficas es la utilización de objetos de uso cotidiano y metáforas al respecto. Se pueden visitar las últimas novedades de los objetos de uso cotidiano de CMCD en la dirección: http://www.cmdesigns.com/ Tenga en cuenta que no existe un formato estándar para las fotografías y las imágenes de los clip-art. Image Club utiliza los formatos EPS y TIFF. PhotoDisk utiliza los formatos JPEG y TIFF, mientras que CMCD utiliza el formato PhotoCD de Kodak. Figura 5. Colección de Clip-Arts Comentar aquí la conveniencia, por no decir necesidad o condición de los autores de referenciar siempre su trabajo haciendo una referencia a su uso (no su compra), como un reconocimiento a sus derechos de autor. Medios digitales. Edición, codificación e integración 5 de 12 Máster en Ingeniería de la Web Formatos de archivos Los datos contenidos en los archivos gráficos no siempre se refieren a parámetros de pixeles o puntos, tales como posiciones y colores. Esto es sólo cierto en el caso de los archivos raster o de tipo bitmap (mapa de bits), muy empleados para almacenar fotografías. Los archivos con datos vectoriales contienen ecuaciones matemáticas que evitan la degradación de los contenidos ante las operaciones de edición. Son empleados de forma masiva por los programas de CAD, ilustración y diseño gráfico. Los metafiles son un tipo especial de archivos que pueden contener información bitmap o vectorial. Un claro ejemplo es el Windows Metafile o WMF, un peculiar formato que incluye llamadas a funciones de la interfaz gráfica de Windows. Las animaciones son almacenadas en formatos especiales de datos raster con estructuras preparadas para la reproducción secuencial. Por último, existen formatos de objetos multidimensionales que incluyen los datos y el código para su interpretación y archivos multimedia que pueden almacenar todos estos tipos de datos junto con información audiovisual. La idoneidad y conveniencia de uno u otro formato depende de la finalidad que vayan a tener los trabajos que contienen. Los formatos más utilizados son las que se citan a continuación (Castro y otros, 2002): BMP (Windows Bitmap Format) Es el formato nativo de Windows, puede tener una profundidad de color desde 2 hasta 24 bits, sin compresión. Sus principales ventajas son que no tiene ninguna pérdida de color y lo suelen utilizar todos los programas que se ejecutan en Windows, aunque tiene el inconveniente de su gran tamaño. Existe también una derivación con compresión, empleando un algoritmo de compresión RLE (Run Lenght Encoding) de 4 u 8 bits. El método RLE es idóneo ante imágenes que incluyen patrones repetitivos y bloques de puntos similares, funciona comprimiendo cadenas secuenciales iguales, cambiándolas por el símbolo repetido y el número de veces que se repite. GIF (Graphics Interchange Group, Grupo de Intercambio de Gráficos) Hasta hace poco ha sido el más utilizado, sobre todo en el mundo de las comunicaciones. Hoy ha cedido el paso al JPG, ya que éste soporta 24 bits (16,7 millones de colores), mientras que el GIF sólo permite 8 bits (256 colores). Todavía se sigue utilizando en Internet, ya que goza de un alto nivel de compresión, puede crear gráficos animados y puede establecer fondos transparentes. Los archivos GIF se almacenan en un formato comprimido, de tal manera que el tiempo que se emplea para cargar estos archivos gráficos es mínimo. Los archivos GIF soportan tipos de imágenes de color indexado, así como imágenes en escala de grises y de líneas. Medios digitales. Edición, codificación e integración 6 de 12 Máster en Ingeniería de la Web TIFF Suele ser el formato utilizado por el escáner durante la digitalización de los documentos. Debido a su escasa compresión, su mayor defecto es el tamaño de la imagen resultante. Sin embargo, juega a su favor el que es soportado por todos los programas de tratamiento de imágenes e incluye todos los tipos de color (puede almacenar imágenes de 1, 8, 12 y 24 bits de color por píxel o imágenes de 32 bits separadas en componentes CMYK con un canal alpha para transparencias y otros efectos). Es el formato indicado para utilizar la separación de colores CMYK, utilizada en impresión. Este formato ofrece libertad para elegir el tipo de compresión empleado para tratar sus datos y que puede ser de tipo LZW (Lempel-Ziv-Welch), RLE, PackBits, grupos III y IV de fax y CCITT/Huffman. Es el formato ideal para transferir trabajos entre ordenadores PC y Apple Macintosh. JPEG Fue diseñado por el grupo Joint Photographics Experts Group (la Unión del Grupo de Expertos Fotográficos). Es el formato más utilizado actualmente en Internet y es muy válido para crear fotografías de alta calidad, color verdadero y un tamaño reducido. Ideal para el almacenamiento masivo de imágenes. Hay que tener presente que, aunque admite unos grados de compresión muy elevados (a mayor compresión, mayor pérdida de detalle en la imagen final) no es conveniente superar un nivel de compresión de 15:1. JPEG es el estándar a elegir, debido a su alta resolución y a su elevada compresión. Muchos editores gráficos, tal como Adobe Photoshop, permiten elegir una configuración de alta calidad para efectuar la compresión. La elevada calidad se comprime, con una relación comprendida entre 5:1 y 15:1. Reduce los archivos de imagen aproximadamente a un 10% de su tamaño original (o aún menos). El algoritmo JPEG pierde algunos de los datos, ya que identifica e ignora los píxeles que no son esenciales para la calidad general de la imagen; por ejemplo, una gran área de un color continuo. JPEG y JPEG 2000 Conceptos Básicos Lo primero que vamos a definir son una serie de conceptos que se tienen que tener en cuenta a la hora de hablar de compresión de imágenes. Redundancia de datos: Es importante mencionar la diferencia que existe entre datos e información. Así la información se representa utilizando uno o varios datos. En ocasiones algunos de los datos no aportan información significativa, ni aportan nueva información (datos redundantes). Medios digitales. Edición, codificación e integración 7 de 12 Máster en Ingeniería de la Web La compresión de datos se define como el proceso de reducir la cantidad de datos redundantes o poco significativos. En el caso de las imágenes, existen tres maneras de reducir el número de datos redundantes: 1. Eliminar código redundante: El cuerpo de una imagen se representa mediante un conjunto de símbolos. La eliminación de código redundante consiste en utilizar el menor número de símbolos para representar la información. Las técnicas de compresión por codificación de Huffman y codificación aritmética utilizan cálculos estadísticos para lograr eliminar este tipo de redundancia y reducir la ocupación original de los datos. 2. Eliminar píxeles redundantes: La mayoría de las imágenes presentan semejanzas o correlaciones entre píxeles. Estas correlaciones se deben a la existencia de estructuras similares en las imágenes, puesto que no son totalmente aleatorias. De está manera el valor de un píxel puede utilizarse para predecir el de sus vecinos. Las técnicas de compresión Lempel-Ziv implementan algoritmos basados en situaciones para lograr la eliminación de esta redundancia. 3. Eliminar redundancia visual: El ojo humano no responde a la información visual que recibe con la misma sensibilidad. La información a la que es menos sensible se puede descartar sin afectar a la imagen. La eliminación de la redundancia visual esta relacionada con la cuantificación de la información, lo que conlleva una pérdida de información irreversible. Técnicas de compresión como JPEG, EZW o SPIHT hacen uso de la cuantificación. Métodos de compresión: Los métodos de compresión se pueden agrupar en dos grandes clases: a. Lossless: Son métodos de compresión sin pérdidas de información. Se caracterizan porque la tasa de compresión que proporciona está limitada a la entropía (Redundancia de datos) de la señal original. Algunos ejemplos son: la codificación de Huffman, codificación aritmética y Lempel Ziv. b. Lossy: Son métodos de compresión con perdida de información, logran alcanzar unas tasas de compresión más elevada a costa de sufrir una perdida de información sobre la imagen original. Algunos ejemplos: JPEG, compresión Fractal, EZW y SPITH. Compresión JPEG JPEG (Joint Photographic Experts Group): Es un mecanismo estandarizado de compresión de imágenes estáticas, fruto de la alianza entre ISO, ITU-T e IEC. Fue diseñado para comprimir imágenes estáticas en color verdadero (24 bits) y en escala de grises (para videos está MPEG). La imagen comprimida/descomprimida Medios digitales. Edición, codificación e integración 8 de 12 Máster en Ingeniería de la Web no es igual a la original, Lossy, y a pesar de que existen algoritmos que comprimen sin pérdidas, por ejemplo los ficheros GIF, el nivel de compresión que se alcanza es incomparable. JPEG tiene cuatro modos y muchas opciones. Nosotros nos vamos a centrar en el modo secuencial con perdidas. A continuación vamos a describir los pasos utilizados para comprimir una imagen en JPEG: 1. El primer paso es la preparación del bloque. Imaginemos una imagen en RGB 24 (24 bits/píxel)de 640 x 480. Como hemos indicado en el apartado anterior el ojo humano es más sensible a determinada información (por ejemplo la luminosidad), mientras que a otras no (por ejemplo el color). Por tanto se convierte el RGB a formato YIQ (en NTSC) donde “Y” es la luminosidad e “I” y “Q” es el color. Y = 0,30R + 0,59G + 0,11B I = 0,60R – 0,28G – 0,32B Q = 0,21R – 0,52G + 0,31B En PAL, “I” y “Q” reciben el nombre de “U” y “V” y los coeficientes son diferentes, pero la idea es la misma. Posteriormente se construyen matrices separadas de Y, I, y Q cada una con elementos en el intervalo de 0 a 255. A continuación se promedian tramas de 4 píxeles en las matrices I y Q para reducirlos a 320 X 240 (comprime los datos en un factor de 2). Esta reducción produce perdidas pero el ojo humano apenas lo nota. Ahora se resta128 a cada elemento de las tres matrices para poner el cero a la mitad de la gama. Por último cada matriz se divide en bloques de 8 X 8. “Y” tiene 4800 bloques e “I”, “Q” tienen 1200 bloques cada una. Medios digitales. Edición, codificación e integración 9 de 12 Máster en Ingeniería de la Web (a) Datos RGB. (b) Preparación de bloques 2. Se aplica de manera individual a cada uno de los bloques la transformada por coseno discreto o DCT. La salida de de cada DCT es una matriz de 8 X 8 de coeficientes DCT. El elemento DCT(0,0) es el valor promedio del bloque y recibe el nombre de CD, los otros elementos indican la cantidad de potencia espectral que hay en cada frecuencia espacial y reciben el nombre CA. Aunque la DCT en teoría no tiene perdidas, en la práctica siempre existe algún error por redondeo. 3. El tercer paso que se lleva a cabo es la cuantificación, en el que se eliminan los coeficientes DCT menos importantes. Para ello se divide cada uno de los coeficientes de la matriz DCT de 8 X 8 entre un peso tomado de una tabla de cuantificación. En la siguiente Tabla veremos un ejemplo de cuantificación. Proceso de Cuantificación de los coeficientes DCT 4. El cuarto paso es la cuantificación diferencial que consiste en reemplazar el valor del elemento DCT(0,0) por el valor de su diferencia con respecto al elemento DCT(0,0) del bloque anterior. Recuerde que el valor DCT(0,0) es el valor promedio de todo el bloque. 5. El paso quinto hace lineales los 64 elementos de la matriz y aplica la codificación por longitud de serie. La idea es colocar la mayor parte de los valores cero seguidos para ello hace un barrido en zigzag. Ver el ejemplo de la siguiente figura. 150, 80,92, 26, 75, 20, 4, 18, 19, 3, 1, 2, 13, 3, 1, 0, 1, 2, 2, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 En vez de escribir los 38 ceros seguidos, se puede indicar que hay 38 ceros seguidos. Barrido en ZigZag Medios digitales. Edición, codificación e integración 10 de 12 Máster en Ingeniería de la Web 6. El paso 6 aplica la codificación de Huffman que lo que hace es asignar códigos pequeños a los números más comunes y códigos más grandes a los números menos comunes. La decodificación de una imagen JPEG requiere la ejecución inversa del algoritmo. Por tanto podemos decir que es simétrico, La decodificación tarda tanto como la decodificación. JPEG 2000 Utiliza una nueva metodología de compresión basada en Wavelet que proporciona una serie de ventajas sobre la trasformada discreta del coseno utilizada en JPEG. En la DCT la imagen se comprime normalmente en bloques de 8x8 píxeles que se colocan consecutivamente en el fichero. Por el contrario la compresión Wavelet convierte la imagen en una serie de Wavelets que se almacenan de forma más eficiente que los bloques de píxeles. Las Wavelets son funciones definidas sobre un intervalo finito y con valor medio cero. La idea básica de la trasformada Wavelet es representar arbitrariamente una función como superposición de un conjunto de Wavelets o funciones básicas. Estas Wavelets se obtienen a partir de una Wavelet prototipo, mediante dilataciones, escalados y traslaciones. La trasformada discreta Wavelet (DWT) se emplea para obtener una nueva representación de la imagen, más apropiada para el proceso de compresión. Mejoras de JPEG 2000 con respecto a JPEG • Permite comprimir imágenes entre un 40% y 60% más que JPEG. • JPEG es capaz de mostrar imágenes en diferentes resoluciones y tamaños desde el mismo fichero, ya que esta basado en wavelets. El flujo de las wavelets puede descomprimirse parcialmente si el usuario solamente desea una imagen de baja resolución. Esto permite una serie de ventajas a la hora de utilizar Internet: o Gran ancho de banda, imagen a alta resolución. o Poco ancho de banda, imagen a baja resolución. Medios digitales. Edición, codificación e integración 11 de 12 Máster en Ingeniería de la Web • Permite una mayor robustez a la hora de evitar errores. JPEG 2000 al utilizar wavelets permite seleccionar un determinada área de una imagen para que se muestre en alta definición. Mientras que el resto de la imagen se muestre a menor definición. A esta región se la denomina ROI (region of interest). Problemas de JPEG 2000 con respecto a JPEG Básicamente el mayor problema es la compatibilidad, ya que no es compatible la codificación de JPEG 2000 con la de JPEG, lo que obliga a tener visores específicos así como programas específicos de codificación y compresión. Medios digitales. Edición, codificación e integración 12 de 12