Acuerdo de Bibliotecas Universitarias de Córdoba Seminario 27 y 28 de septiembre de 2012 Web semántica sem ntica, Web 3.0 y entornos Cloud Computing, nuevos horizontes para bibliotecarios, documentalistas y archivistas melabosch@hotmail.com Tercer encuentro: Los lenguajes de marcado a la Web semántica Temáticas: El concepto de lenguaje de marcado y su historia Precisiones terminológicas Aspectos de estándares de descripción:Fundamentos y principios Aspectos de software El lugar de los especialistas en documentación El lenguaje de marcado en la Web Semántica: XML, RDF, Ontologías Cierre: intercambio y puesta en común. El lugar de los especialistas en documentación Lenguajes de marcado: Aspectos de estándares de descripción Aspectos del mercado de software ¿Qué son y para qué se usan las etiquetas? Origen usos y etimología El término ETIQUETA apareció en Francia en el siglo XIV con la forma estiquette para designar una señal escrita fijada en una estaca. Se relaciona con la palabra española 'estaca', del gótico staka (palo), y con stick, inglesa. Otro origen posible del término ETIQUETA es el rótulo que se ponía en los paquete de causas judiciales, escrito en latín: Est-hic-quaestio ("Aquí está la cuestión“se corrompió a est-hi-quaest, ->et-hic-quet, y finalmente -> étiquette, Etiquetas: punto de vista de la semiología Siguiendo a Peirce, un índice es un signo determinado por su objeto dinámico en virtud de la relación real que mantiene con ese objeto. El uso de índices nos permite identificar: desde el índice de los libros a los menúes de un restaurante o loa rótulos o etiquetas de los envases en el supermercado y también permiten comparar y valorar Ej: los indices económicos. Un ícono es un signo determinado por su objeto dinámico en virtud de su naturaleza interna. Un ícono es una dama o un caballero en la puerta de un baño público, si además el baño es para discapacitados se le agrega el ícono pertinente. La generación de íconos es un trabajo intencional y hoy en día está siendo estudiado y utilizado en ámbitos tan disímiles como la arquitectura, la publicidad o la propaganda política. El símbolo por su parte no tiene ninguna relación con su objeto dinámico, está allí por una convención o costumbre o decisión social. Las banderas de los países son un símbolo, cuyo color puede tener algún sentido atribuido pero que esencialmente tiene ninguna relación con la nacionalidad de las personas. Los números y palabras son símbolos. Desde el punto de vista semiológico una etiqueta es un índice En informática se respeta este sentido, ya que el tag es un marca que indica una presencia física o conceptual Todos los signos lingüísticos, las palabras, son símbolos: pero la complejidad del etiquetamiento es que es un índice que se expresa de manera simbólica e incluso de manera icónica. En síntesis una ETIQUETA es siempre METAINFORMACION La metainformación puede tener diferentes objetivos que es importante diferenciar: 1.Contextualizar una información 2. Localizar y-o aglutinar información con características similares 3. Comentar, anotar, opinar sobre una información Cada uno de estos objetivos en el etiquetamiento requiere diferentes procesos cognitivos 1. Contextualizar una información: fue el primer uso de las etiquetas en informática: se llamaba tag (etiquetas) a las órdenes o comandos de tipo descriptivo escritas en corchetes angulares que se agregraban en los programas, y luego con este procedimiento se desarrolló el marcado de los documentos en SGML y HTML Cuando etiquetamos para contextualizar identificamos aspectos formales: formatos, tipos: imágenes, textos, tipos de letras, acentos, idioma, etc. Cognitivamente realizamos un proceso ANALITICO Procesos cognitivos en el etiquetado 2. Encontrar o aglutinar información con características similares: Se basa en un parecido fenomenológico u objetivo entre aspectos o propiedades de la información Cognitivamente se realiza una ABSTRACCION, típicamente va del todo a la parte, está dentro de la tradición de taxonomía y organización del conocimiento en la tradición científica positivista. Se trata de una orientación HEURISTICA Procesos cognitivos en el etiquetado 3. Comentar, anotar, opinar sobre una información: Los conceptos que se relacionan se basan en aspectos VALORATIVOS El proceso cognitivo está orientado la interpretación, se trata de una orientación hermenéutica útil para recomendaciones, orientaciones Riesgos: de la subjetividad a la intersubjetividad: manipulaciones, sesgos En el aspecto sociológico: estigmatización (Los autores de la teoría del etiquetamiento como estigmatización fueron, Becker, Lemert, Erikson, Kitsuse, Tannembaum. Schur y Gusfiel) Lenguajes de marcado Concepto que ambió el panorama de la estructuración de documentos no era el objetivo inicial Años 1980: transferencia de datos digitalmente manteniendo aspectos presentación. Desarrollado por Charles Goldfarb con el nombre de General Markup Language (GML), en 1969 para IBM. Adoptado para la circulación de documentos en el interior de Departamento de Defensa de USA y en la Oficina de Publicaciones Oficiales de la Comunidad Europea, ambos clientes de IBM. 1986: Standard Generalized Markup Language, (SGML), ISO 8879 Lenguajes de marcado: Su historia marca dos características de SGML: Está pensado para sistemas de oficina, es decir para Documentos Corporativos. Está orientado al procesamiento de datos y dentro de este ámbito al intercambio. Lenguajes de marcado: Norma ISO 8879 descriptores de contenido: Data processing, documentation, Logical structure, programming (computers), artificial languages, programming languages. (ISO, 1986) SGML es un lenguaje artificial para representar la estructura lógica de documentos a efectos de procesamiento y programación. Lenguajes de marcado: SGML es la gran solución para la transferencia de datos documentales con una estructura lógica determinada y a la vez se generaron grandes problemas que abarcan: Aspectos de estándares de descripción Aspectos de mercado de software El problema de la descripción y representación de las estructuras conceptuales en medios informáticos estuvo ligado y sobredeterminado por las necesidades de proceso más importante lograr similitud con el lenguaje de programación que con el lenguaje de las personas Precisiones terminológicas Lenguaje: conjunto de símbolos normalizados para la representación y comunicación Se dividen en: lenguajes naturales, lenguajes controlados y lenguajes artificiales. Lenguas naturales: creadas en forma social y convencional conjuntos por individuos. Ej. lenguas de los comunidades humanas y formas de comunicación animal Lenguajes controlados son porciones del lenguaje natural reglamentadas para fines específicos: lenguajes documentarios y las ontologías. Lenguajes artificiales: conjuntos de símbolos arbitrarios también para fines específicos: los lenguajes de programación procesamiento, lenguajes de descripción, como el SGML, cuyo fin es la interpretación por parte de lenguajes de programación. Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción: Objetivo de SGML permitir la transmisión de datos. Determina la forma de descripción. Permite establecer grupos de códigos propios según la característica de la estructura documental. Varias líneas de cambios dentro del lenguaje de marcado: Sintaxis concreta Subconjuntos Extensiones Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción: Sintaxis concreta Se denomina sintaxis a las reglas que definen el significado de los códigos y nombres reservados usados por un particular lenguaje Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción: SGML necesita ajustarse al objeto de su descripción y a la vez mantener una consistencia en códigos y nominaciones. La forma de lograrlo es por medio de tipos de sintaxis: la sintaxis abstracta y la sintaxis concreta Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción: Sintaxis abstracta : usada para especificar cómo deben ser escritas las declaraciones de SGML y las declaraciones de tipo de documento. Sintaxis concreta : es el conjunto de reglas para definir como deben ser codificados documentos específicos. Una forma particular de sintaxis concreta, llamada Reference Concrete Sintax fue definida de manera formal en la ISO 8879. Su objetivo es proveer una referencia con la que las sintaxis concretas eventuales puedan tomar como base o compararse. Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción: International Reference Version (IRV) contiene: Códigos que deben ser ignorados (shunnes character number identification) El set básico de caracteres BASESET definidos por la norma ISO 646. Códigos ASCII homologados La ampliación de ese conjunto DESCSET Códigos de caracteres de funciones (function character identifacation) Reglas de denominación para cuando se crean entidades o etiquetas El conjunto de delimitadores alternativos de marcado y alternativas Convenciones de denominación de declaraciones (reserved name use) Las cantidades permitidas para el anidamiento de elementos y entidades Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción: International Reference Version (IRV) contiene: Esta sintaxis es asumida automáticamente por los sistemas que procesan SGML cuando se indica: SYNTAX PUBLIC Reference//EN” “ISO 8879-1986//SYNTAX Pueden agregarse esquemas propios de codificación Debe ser conocida y comprendida por sus usuarios potenciales, sean humanos o sistemas Cambios en las opciones por defecto deben hacerse de acuerdo también con ciertas reglas, declarando públicamente variantes de sintaxis concreta. Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción: Existen tres formas de especificar la variante de sintaxis concreta en un documento: Por medio del uso de la opción SWITCHES: Variantes de la sintaxis concreta de referencia o en otra sintaxis concreta. Permite establecer pares de caracteres que pueden ser cambiados. Por ejemplo se quiere indicar que en lugar de usar brackets cuadrados [ ] Códigos ASCII 91 y 93 (Homologado ISO 646) se prefiere usar: {} cuya codificación es 123 y 125: SYNTAX PUBLIC “ISO 8879-1986//SYNTAX Reference//EN” SWITCHES 91 123 93 125 Declarando públicamente que se usa una variante de sintaxis concreta: SYNTAX PUBLIC “ISO 8879-1986//SYNTAX PRUEBA//SP” Se elaboran sintaxis concretas orientadas a usos de algunas áreas temáticas como música, salud o leyes y organizaciones: organizaciones: Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción: Formas de especificar la variante de sintaxis concreta en un documento: Produciendo declaraciones de tipo de documento (DTD) que engloban las variantes de sintaxis respecto de la básica de SGML : TEI (Text Encoding Initiative) financiada por varias universidades y la CEE, cuyo objetivo es construir una referencia universal para el la codificación de textos EAD (Encoded Archival Description) para documentos corporativos y de archivo, es mantenida por Network Development and MARC Standards Office de la Library of Congress asociada a la Society of American Archivists. MARC DTD (MAchine Readable Cataloging Document Type Definition) RDA Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción Subconjuntos Más simplificados o más completos que las sintaxis concretas Lo importante es que toman aspectos de la sintaxis abstracta. Más conocido es el HTML. ISO 9069 fija el formato de intercambio HTML Lenguajes de marcado: fundamentos y principios Aspectos de estándares de descripción Extensiones XML: un dialecto de SGML contempla alteraciones estructurales respecto del lenguaje madre Es una versión extremadamente simplificada de efectos de crear un SGML genérico que permita procesar en Web objetos que no se pueden procesar con HTML: realidad virtual, movimiento, señales olfativas, etc. XML es un metalenguaje, ya que permite a su vez crear subconjuntos, de hecho se está reescribiendo todo HTML en XML. Se normalizó la parte XML para libros, artículos y series con la norma ISO 12083 (última 2009) Lenguajes de marcado: como se usan Aspectos de software Es posible codificar textos en SGML en cualquier editor de texto, la tarea artesanal es muy lenta y pasible de errores Tres tipos de software Editores analizadores (parsers) visualizadores (browsers) Lenguajes de marcado: como se usan Aspectos de mercado software Editor: permite redactar DTD de documentos particulares Free ware báiscos y más complejos que permiten convertir texto proveniente de otro origen . Otros permiten integrar hojas de estilo-Mezclas de posibilidades con análisis y visualización Analizador o parser verifica las reglas de edición respecto de la sintaxis concreta o la DTD. Trabajan en conjunto con el editor o sobre documentos una vez compuestos para verificar o modificar marcado Hojas de estilo como DSSSL (Document Syle and Specification Language, ISO 10179 y SPDL (Standard Page Description Language, ISO 10180). La primera permite agregar abundantes detalles tipográficos y la segunda está más orientada a la impresión. Visualizadores o browsers: permiten recorrer el documento en toda su arborecencia Web Semántica: usa el lenguaje de marcado tanto para expresar los datos como para darles sentido aunque tengan diferente origen y forma Tres tecnologías Web Semántica que se valen del lenguaje de marcado: XML Resource Description Framework (RDF) Ontologías. Tecnologías de Web Semántica usando lenguajes de marcado Resource Description Framework (RDF) Es una EXTENSION de XML: Tripletes con verbo, sujeto y predicado: Cada sujeto y cada predicado son identificados por el Universal Resource Identifier (URI), como un enlace en cualquier página web Verbos son identificados también por URIs, que permite a cualquiera definir un concepto nuevo, un verbo nuevo, simplemente definiendo un URI para ellos en algún lugar de la Web. RDF está siendo desarrollado y promovido por el Consorcio 3WC y varias ISO lo están normalizando RDF No evita superposiciones, dos recursos pueden usar diferentes identificadors para el mismo concepto. Grafo de declaración RDF Predicado propiedad Sujeto Recurso lugares, personas, objetos Identificados con URI Objeto, valor asigando a la propiedad, puede ser otro URI Sentencia (declaración) RDF No evita superposiciones, dos recursos pueden usar diferentes identificadors para el mismo concepto. Para evitarlo Ontologías: Origen en la filosofí filosofía En los sistemas informá informáticos: especificació especificación de una conceptualizació conceptualización Conceptos son definidos por sus atributos y comportamiento Reglas que permiten que la ontologí ontología deduzca, o por lo menos proponga, a que clase o categorí categoría puede pertenecer cada nuevo concepto que ingresa La ontología: taxonomía + un conjunto de reglas de inferencia. La taxonomía define clases de objetos y relaciones entre ellos Retomando la reflexión sobre los lenguajes naturales, artificiales y controlados, la ontologías se sitúan dentro de los lenguajes controlados Lugar de los especialistas en información documentación: Apoyo a los desarrolladores trabajando en la definición de DTDs y sintaxis concreta adaptada a las necesidades de cada corpus de información Desarrollo de los esquemas de metadatos para Web Semántica Capacitación en este ámbito es indispensable