Tecnología Multimedia Profesor Coordinador: Manuel Castro – Antonio Colmenar, UNED Profesores de la asignatura: Manuel Castro, UNED Texto e Hipertexto Máster en Ingeniería de la Web Índice Texto e Hipertexto .................................................................. 3 Caracteres y Glifos .................................................................. 3 Codificación de caracteres ..................................................... 3 ASCII ................................................................................ 3 ASCII extendido ................................................................... 5 ISO 8859............................................................................ 6 EBCDIC ............................................................................. 7 ISO 10646 .......................................................................... 7 UNICODE ........................................................................... 8 Glifos .................................................................................. 9 Páginas de código ................................................................ 9 Hipertexto .......................................................................... 11 OCR. Reconocimiento Óptico de Caracteres .................................. 15 Medios digitales. Edición, codificación e integración 2 de 16 Máster en Ingeniería de la Web Texto e Hipertexto El hipertexto se ha utilizado desde un principio en Informática para almacenar información y presentar ésta en forma de texto entendible, los avances en hardware y programación han permitido añadir gráficos y mejorar la presentación de la información. Cuando el flujo de la información, que aparece en la pantalla del ordenador, es controlable por el usuario, se empieza a hablar de hipertexto. Si bien hace tiempo que fueron acuñados, los sistemas hipertexto han alcanzado auge en la actualidad, con el abaratamiento y popularización de los periféricos de almacenamiento masivo de datos y la llegada de Internet. Caracteres y Glifos Codificación de caracteres Los PCs tratan información binaria, unos y ceros, por lo que es necesario asociar a un conjunto de bits o código un carácter. Por tanto podemos decir que los caracteres se representan mediante códigos de caracteres. A continuación vamos a describir los más utilizados: ASCII Es el código americano estándar para el intercambio de información. Utiliza 7 bits para representar un carácter. Por tanto solo es posible representar 2 7 =128 caracteres distintos, los cuales corresponden a: 26 letras mayúsculas, 26 letras minúsculas, 10 dígitos decimales, signos de puntuación, caracteres especiales y caracteres de control no imprimibles. A continuación se muestra el código ASCII de 7 bits. Tabla ASCII Medios digitales. Edición, codificación e integración 3 de 16 Máster en Ingeniería de la Web MSD: Digito más significativo. Medios digitales. Edición, codificación e integración LSD: Digito menos significativo 4 de 16 Máster en Ingeniería de la Web Las dos primeras columnas corresponden a caracteres de control. En la siguiente tabla veremos el significado de cada uno de ellos: Códigos de Control de la tabla ASCII ASCII extendido El código ASCII pronto se hizo demasiado restrictivo, ya que no se incluían muchos caracteres como por ejemplo la ñ en el lenguaje castellano u otros caracteres pertenecientes a alfabetos no latinos. Para representar un carácter se utilizan 8 bits, 2 8 =256 caracteres. Es decir se aumenta el código ASCII en 128 caracteres más. A diferencia del ASCII original, existen múltiples variedades de ASCII extendido. En la siguiente figura podremos ver una de las posibles extensiones de código ASCII. Códigos de 128 al 255 Medios digitales. Edición, codificación e integración 5 de 16 Máster en Ingeniería de la Web ISO 8859 Es una norma ISO que codifica un carácter en 8 bits. Los 128 coinciden con el US-ASCII pero los 128 siguientes permiten codificar caracteres utilizados en otros sistemas de escritura. Es decir algunas de las codificaciones de ASCII extendido se han convertido en un estándar. A Continuación vamos a enumerar los conjuntos ISO 8859 que incluyen los siguientes alfabetos: • • • • • • • • • • • • • • ISO 8859-1 ISO 8859-2 ISO 8859-3 ISO 8859-4 ISO 8859-5 ISO 8859-6 ISO 8859-7 ISO 8859-8 ISO 8859-9 ISO 8859-10 ISO 8859-11 ISO 8859-13 ISO 8859-14 ISO 8859-15 Lenguas de Europa occidental (Latin-1) Lenguas de Europa oriental (Latin-2) Lenguas del sudeste de Europa, y otras (Latin-3) Lenguas escandinavas/balcánicas (Latin-4) Latín/cirílico Latín/árabe Latín/griego Latín/hebreo Modificación de Latin-1 para el turco (Latin-5) Lenguas lapona/nórdica/esquimal (Latin-6) Tailandés Lenguas de la Ribera del Báltico (Latin-7) Celta (Latin-8) Lenguas de Europa occidental (Latin-9) Medios digitales. Edición, codificación e integración 6 de 16 Máster en Ingeniería de la Web EBCDIC Es el método de codificación de IBM. Su intención fue ampliar la codificación ASCII de 7 Bits, por lo que EBCDIC es una codificación de 8 bits, 2 8 =256 caracteres Tabla EBCDIC ISO 10646 Es un estándar internacional que define el conjunto de caracteres universal, UCS (Universal Character Set). UCS contiene el conjunto de los caracteres necesarios para representar casi todos los lenguajes conocidos. El estándar UCS (ISO 10646) describe una arquitectura del conjunto de caracteres de 31 bits. No obstante, hoy en dia sólo a los primeros 65534 códigos (desde 0x0000 a 0xfffd), que se denominan BMP (Basic Multilingual Plane - Plano Multilingüe Básico), se les han asignado caracteres, y se espera que sólo caracteres muy exóticos (p.ej. jeroglíficos) de uso científico especial obtengan alguna vez un lugar fuera de este BMP de 16 bits. Medios digitales. Edición, codificación e integración 7 de 16 Máster en Ingeniería de la Web Los caracteres UCS 0x0000 a 0x007f son idénticos a los del conjunto de caracteres US-ASCII clásico y los caracteres en el rango de 0x0000 a 0x00ff son idénticos a los del conjunto de caracteres ISO 8859-1 (Latin-1). Algunos códigos en UCS han sido asignados como caracteres de combinación. Así por ejemplo, en alemán el carácter Umlaut-A (“A mayúscula con diéresis”) puede representarse por el código UCS 0x00c4 o alternativamente como la combinación de una “A mayúscula” seguida por una diéresis: 0x0041 0x0308. UNICODE Como ya hemos dicho anteriormente ISO 10646 define el UCS que engloba la mayoría de los sistemas de escritura del mundo. Este conjunto es definido por el estándar Unicode, además de proporcionar información sobre los caracteres y su utilización. ISO 10646 y Unicode definen varias formas de codificación: UTF-8, UTF-16, UCS2, UTF-32 y UCS4. Donde cada carácter es representado por una o más unidades de codificación. • UTF-8: Su unidad de codificación es el octeto. tiene las siguientes características: o El número de caracteres de u+0000 a u+007F corresponde a los caracteres ASCII de 7 bits. Por tanto una cadena ASCII es también un UTF-8 válido. o La conversión entre UTF-8 y otra forma de codificación no es compleja. o El primer octeto de una secuencia multiocteto indica el número de octetos de la secuencia, como se puede ver en la tabla siguiente. Rango Hexadecimal 0000 0000 – 0000 007F UTF-8 Secuencia octeto 0xxxxxxx 0000 0080 – 0000 07FF 110xxxxx 10xxxxxx 0000 0800 – 0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 0001 0000 – 0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx Nota: X indica que es un bit disponible para la codificación del carácter. • UTF-16: Su unidad de codificación es la palabra o Word (16 bits). • UTF32: Su unidad de codificación es la doble palabra o DWord (32 bits). Medios digitales. Edición, codificación e integración 8 de 16 Máster en Ingeniería de la Web Glifos Los usuarios no ven, ni imprimen caracteres, sino que los usuarios ven e imprimen glifos. Un glifo es la representación gráfica de un carácter. Por ejemplo la letra mayúscula y cursiva “u”, en Times New Roman tiene asociado el glifo “U”. Una fuente es una colección de glifos. Los sistemas operativos son capaces de conocer el glifo apropiado utilizando información mapeada del teclado, el lenguaje utilizado y de los glifos asociados a cada carácter. Los glifos pueden también representar combinaciones de caracteres. No existe una estricta correspondencia uno a uno entre carácteres y glifos. Por ejemplo dos caracteres unidos pueden ser representados por un glifo. Imaginemos que un alumno pulsa la tecla “a”, “f” y “t” según la información mapeada el resultado podría ser el siguiente: Otro ejemplo podría ser la unión del carácter “f” y el carácter “i”. El resultado de teclear ambas teclas seguidas sería: Las posibles relaciones que puede tener uno o varios caracteres con uno o varios grifos son: • Un glifo Æ un carácter. • Varios glifos Æ un carácter. En algunos lenguajes dependiendo de donde este colocada la letra se escribe de una manera u otra. • Un glifo Æ varios caracteres. Páginas de código Una página de códigos es una lista de códigos de caracteres en un cierto orden. Las páginas de código normalmente se definen para soportar lenguajes o grupos de lenguajes que comparten un sistema de escritura común. El orden del Medios digitales. Edición, codificación e integración 9 de 16 Máster en Ingeniería de la Web código del carácter en la página de códigos proporciona a una aplicación el código del carácter cuando el usuario presiona una tecla del teclado. En Windows las páginas de código pueden modificarse “al vuelo” sin cambiar el lenguaje por defecto. Los juegos de caracteres, ya sean ASCII, Unicode o de cualquier tipo, se materializan dentro de la máquina en unas tablas denominadas páginas de códigos, que establecen la relación entre cada glifo y su valor numérico. Las páginas de códigos pueden ser cualquiera, incluso construidas por el usuario, pero las utilizadas más frecuentemente están estandarizadas. Existen dos tipos: • • ACP ("ANSI Code Pages") Las que han sido estandarizadas por el Instituto de Estándares Americano. Por ejemplo: la página de códigos ANSI 1252 corresponde al Inglés-Americano y a la mayoría de lenguas de Europa occidental. OCP ("OEM Code Pages") Son propuestas por fabricantes u organizaciones no oficiales (OEM significa "Original Equipment Manufacturer"). Generalmente las páginas de código son mantenidas por el Sistema Operativo. Medios digitales. Edición, codificación e integración 10 de 16 Máster en Ingeniería de la Web Hipertexto La versión estrictamente teórica del Hipertexto responde exactamente a las formas básicas del estructuralismo y propone que cada pieza del texto, cada palabra, será tratada como un elemento relacionable en un sistema de información. De esta manera, se puede acceder a enormes cantidades de datos relacionados a través de palabras claves y búsquedas (Castro y otros, 1996). A diferencia de lo que son las llamadas a pie de página o notas de un texto, los distintos cuerpos o espacios textuales del hipertexto poseen autonomía. Crecen y se modifican de forma independiente y sólo se ven cuando son activados a través de las palabras claves o puntos de conexión, a los que se llama nodos. Es obvio que cuando se planifica un viaje o se narra un hecho, se hace de manera hipertextual, yéndose por las ramas como se suele decir y haciendo mención a definiciones o narraciones anexas que ayudan a completar la idea del discurso. Esto demuestra que el hipertexto no es un invento del ordenador, sino un descubrimiento del pensamiento humano que encontró en la máquina una herramienta para su propio crecimiento; los primeros hipertextos creados en papel, jamás gozaron de versiones electrónicas y entre otros se pueden contar el libro de Julio Cortázar Rayuela, considerado como un hipertexto, ya que puede leerse de manera lineal hasta el capítulo 56 o tomar el camino que sugiere el autor. Algunos poemas de Cortázar también están construidos en forma hipertextual. El Jardín de los senderos que se bifurcan o El Aleph, de Jorge Luis Borges, son libros que también hablan en clave de hipertextualidad. En la colección de libros “Elige tu propia aventura”, el lector toma parte activa seleccionando los espacios que desea leer. Lo primero que el ordenador le añadió, fue la posibilidad de presentar los distintos cuerpos en forma casi inmediata permitiendo, a través de opciones de fácil acceso, avanzar o retroceder para navegar por los mares de la información. “Por lo tanto, la diferencia básica entre un hipertexto y un texto tradicional es la naturaleza exclusivamente secuencial de la información que presenta este último. El hipertexto por el contrario, representa una red o sistema de información en el que no se sigue un único orden de lectura. Las sucesivas unidades de información están entrelazadas mediante vínculos o punteros que permiten desplazarse en el documento”. Se entiende por hipertexto un texto interactivo que incorpora otros elementos que no son propiamente texto. Es por tanto, un sistema que vincula elementos de información mediante enlaces activables. Algunas formas de enlazar entre sí los diferentes nodos del hipertexto se logran mediante un conjunto de botones que permiten la navegación hacia la próxima página o a la página anterior, abandonar la sesión de trabajo o el Medios digitales. Edición, codificación e integración 11 de 16 Máster en Ingeniería de la Web libro, solicitar orientaciones generales sobre cómo utilizar el hipertexto, consultar el índice temático, buscar directamente contenidos especificados mediante palabras claves, realizar evaluaciones del aprendizaje o ejecutar comprobaciones prácticas de los contenidos estudiados. Otra forma de enlace utilizada son las denominadas palabras calientes, que se distinguen por su color diferente al resto del texto y por el cambio en la forma del cursor del ratón cuando el mismo se ubica encima de una de estas palabras. Los enlaces se realizan, en general, mediante elementos designables en pantalla usando el ratón (letras de color, palabras activas, frases o imágenes) y su objetivo (texto plano, otro hipertexto, una imagen, una secuencia de vídeo o un sonido). Un hipertexto debe estructurarse jerárquicamente, pues así se facilita la entrada a éste por múltiples puntos del documento final, flexibilizando su uso para posteriores aplicaciones, (figura 1). Generar hipertexto es tan sencillo como escribir un documento en un procesador de texto cualquiera, e ir insertando marcas (elementos activables y referencias de documentos) que definen las relaciones entre los distintos textos que lo definen. El hipertexto puede ser desarrollado mediante múltiples formas, desde aplicaciones informáticas personalizadas como Visual Basic, Borland C, Delphi, Toolbook, etc., hasta pequeñas herramientas que generan hipertexto en formato .HLP (como es el caso del procesador de texto Word), es decir, documentos que son leídos por la ayuda de Windows, programa que acompaña al entorno por lo que la visualización de estos ficheros está garantizada desde la instalación de Windows. Pueden encontrarse otras herramientas para generar hipertexto a precios asequibles (incluso versiones shareware): Help Builder, compilador Entrada Cap. 1 Cap. 2 Cap. N Glosario Entrada HC31 de Borland o Microsoft, etc. Figura 1. Estructura jerárquica de un hipertexto Uno de los programas que más fielmente se adaptan a la definición de hipertexto es el programa Simply Help. Éste nació, tal como reconoce su autor, como un entorno de creación de ayudas que son integradas en otros programas que funcionan bajo el sistema operativo DOS. Los sistemas creados con él son pantallas de texto independientes que se vinculan entre sí de Medios digitales. Edición, codificación e integración 12 de 16 Máster en Ingeniería de la Web diferentes formas. La sucesiva presentación de las mismas se puede realizar por su orden natural o en cualquier orden que se diseñe mediante enlaces hipertexto. Con el fin de moverse a través de las distintas pantallas, se pulsa cualquier palabra de enlace con el ratón, o bien la tecla Intro cuando se encuentre resaltada. Las últimas versiones permiten la posibilidad de enlazar con programas externos de modo que, utilizando visores adecuados, es posible dar a la publicación hipertexto un carácter multimedia más amplio. Un sistema hipertextual completo debe proporcionar herramientas de creación y edición de nodos y enlaces para formar hiperdocumentos, permitiendo que un nodo esté conectado a otro en una compleja red. Estas herramientas deben estar incluidas en un entorno que tenga una interfaz de usuario que sea sencilla y flexible, y que dé un amplio rango de facilidades en la construcción, modificación y actualización de documentos. En la figura 2 se muestra un modelo general de arquitectura de sistemas hipertextuales. Como primer nivel están dos tipos de usuarios: uno que accede en forma de consulta (denominado usuario en la figura) y el otro que es el creador del hiperdocumento (denominado autor). El primero puede consultar y navegar por la base de información, mientras que el autor puede, además, actualizar el sistema con las herramientas de mantenimiento. La información con la que trabajan los dos está contenida en una base de datos hipertextual. Como se desprende de la figura 2 en los sistemas hipertextuales existen dos formas básicas de acceso a la información, mediante navegación y por interrogación. La experiencia en hipertextos ha demostrado que los mecanismos de acceso por navegación no son suficientes. En algunas aplicaciones normalmente caracterizadas por grandes redes estructuradas y heterogéneas, los usuarios tienden a perderse mientras están buscando la información de partida. En consecuencia para reforzar los mecanismos de acceso (navegadores gráficos, visualizador de la red, etc.), muchos sistemas hipertextuales soportan otros tipos de búsqueda por contenidos, que permite a los usuarios examinar el hiperdocumento con una pregunta. Medios digitales. Edición, codificación e integración 13 de 16 Máster en Ingeniería de la Web Usuarios Figura 2. Arquitectura de un hipertexto 2.2 Hipermedia Como extensión del término hipertexto (escritura no secuencial), aparece el término hipermedia, que implica enlaces y navegación en un material almacenado en cualquier medio: texto, vídeo, sonido, música, gráficos, etc. Hipermedia es el término que define el almacenamiento y recuperación de información mediante un ordenador de una manera no secuencial. La habilidad para moverse en la información textual y las imágenes es sólo la mitad del sistema: un entorno que se denomina con propiedad como hipermedia incluye herramientas que permiten al lector reelaborar el material que se le presenta con un control total del usuario. Muchos autores consideran sinónimos los términos hipertexto e hipermedia. Medios digitales. Edición, codificación e integración 14 de 16 Máster en Ingeniería de la Web OCR. Reconocimiento Óptico de Caracteres El reconocimiento óptico de caracteres (OCR), es decir, que el ordenador entienda las letras escritas sobre el papel y sea capaz de trabajar con ellas, es uno de los grandes logros de los escáneres o sistemas de digitalización. Para su correcto funcionamiento hace falta un software especial, que suele incluirse con el aparato. La combinación software-hardware servirá para ahorrar trabajo (teclear el texto) y para ahorrar espacio en disco (un documento editable ocupa mucho menos que una imagen digital). El reconocimiento óptico de caracteres es el proceso mediante el que, a partir de la imagen de un documento, se reconocen los caracteres en él contenidos. El proceso de OCR no siempre es capaz de leer la totalidad del contenido de los documentos, algunas palabras pueden estar mal interpretadas o algunos caracteres pueden ser erróneos. La tasa de errores dependerá de la calidad y el tipo de original que se maneje. No obstante, el OCR puede ahorrar mucho trabajo de introducción de datos. Al hacer OCR, el escáner (o el ordenador) se limita a convertir la página de texto física a una imagen digitalizada; posteriormente, el software OCR se encarga de traducir sus líneas a caracteres editables. De hecho, cualquier imagen digitalizada que contenga texto, es susceptible de ser convertida en un documento editable. Se puede grabar la imagen digitalizada como un bitmap en formato TIF, por ejemplo, para, más tarde, arrancar el programa de OCR, leer desde el disco el mapa de bits y convertirlo en una página perfectamente editable por el procesador de textos habitual. Figura 3. Reconocimiento por extracción de rasgos El reconocimiento de caracteres ópticos (OCR) es una tecnología utilizada en aplicaciones comerciales desde 1950. Fue diseñada inicialmente para leer lo que se conoce como tipologías “estilizadas”. Estas tipologías, como OCR-A, incluyen conjuntos completos de caracteres alfanuméricos junto con caracteres especiales que son digitalizados o leídos mecánicamente proporcionando, de esa manera, un método de alta velocidad de entrada de datos libre del teclado. Hay dos formas principales de abordar el reconocimiento de caracteres ópticos: la comparación contra un juego de caracteres existente o la extracción de rasgos. La comparación “ve” el carácter impreso y compara esa imagen con una base de datos de posibles opciones. La extracción de rasgos mira los elementos estructurales y su combinación para reconocer el carácter. En los últimos años, la tecnología ha mejorado significativamente, en parte a la disponibilidad de ordenadores personales de bajo costo y alta potencia. Esto ha permitido el desarrollo de software de reconocimiento más poderosos. Por ejemplo, la mayoría de los equipos actuales de OCR son capaces de leer tipologías comunes de oficina, Medios digitales. Edición, codificación e integración 15 de 16 Máster en Ingeniería de la Web como la Courier, también como las tipologías estilizadas y tipologías proporcionales que se encuentran en los periódicos y revistas. De hecho, muchos utilizan el término “reconocimiento de caracteres inteligentes” (ICR) que, según ellos, describe mejor el hardware y software actuales para OCR. Sin duda, aunque el OCR tiene mucho tiempo de existencia, no ha sido hasta hace algunos años, cuando bajaron los precios de los escáneres y llegaron al pequeño usuario, cuando han empezado a mejorarse hasta los límites que se conocen hoy. Medios digitales. Edición, codificación e integración 16 de 16