Informática Documental Tema 1.- Introducción Informática Documental = Informática + Documentación. Documento: DEF: fuente y soporte de información. TIPOS: o naturaleza: visual, auditivo, audiovisual. o soporte físico: impreso, fotográfico, informático. o difusión: publicado, inédito, reservado. o contenido: primario (fuentes originales), secundario (análisis documental: sumarios, anuarios, bibliografías, etc.). Bases de datos: BD != SGBD DEF: cualquier conjunto de información almacenada en cualquier tipo de soporte, de forma que sea accesible y manipulable por un sistema informático. TIPOS: o diseño: red, jerárquicas, relacionales, documentales, orientadas a objetos. o Documentales, atendiendo al contenido de la información: Referenciales: Bibliográficas: registros bibliográficos (muy estructurado). Directorios: referencia a personas o instituciones. Fuentes: Textuales: texto íntegro del documento original. Numéricas o bancos de datos: encuestas, etc. Mixtas: textuales + numéricas. Mixtas: textuales + bibliográficas. El ordenador: Funciones en Informática documental: BD + SGBD. Modos de acceso: on-line (teledocumentación), off-line (BD en el propio PC). Tema 2.- Tareas del Servicio de Documentación y Tema 3.- Nociones sobre el Hardware y Software para la documentación. Dos tareas principales: 1. Almacenamiento y análisis: obtener una descripción del documento formalizada dentro del sistema (registro-índice). 1 2. Interrogación y búsqueda: comprender las peticiones del usuario y encontrar los documentos apropiados. Partes de un Sistema Documental: Entrada del Documento: o Teclado: procesador de textos (lento). o Scanner: OCR (rápido, digitalizacion>>>transformación, errores). Tratamiento del Documento: o Almacenamiento Documento: cinta, disco magnético (flexible o duro), disco óptico (CD-ROM, CD-R, CD-RW, DVD, DVD-R). o Análisis: Documento >>> Índice. o Almacenamiento Índice: cinta, disco magnético (flexible o duro), disco óptico (CD-ROM, CD-R, CD-RW, DVD, DVD-R). o Comparación / Selección: ¿Query = Índice? Entrada de la Query: o Interfaz de entrada + Lenguaje de Interrogación. Salidad del Documento: o Pantalla: orden de visualización. o Impresora: orden de impresión. Tema 4.- Nociones sobre ficheros. Fichero: DEF: conjunto de información similar con una estructura determinada. Cada unidad de acceso a un fichero se llama registro, y cada registro está compuesto por diferentes campos. Ejemplo: Fichero de clientes de una empresa: cada cliente es un registro, cada registro contiene los campos "nombre", "número", "dirección", "teléfono"... Organización y tipos de acceso: o Secuencial: el primer registro es el primero que ha llegado. o Indexada: se define un campo clave y se crea un árbol de índices (metadatos). Tema 5.- Primera parte de la Gestión Documental. 1.- Análisis de contenido: Objetivo: Documento >>> Índice (proceso de indexación). El registro-índice tiene un diseño estandarizado en cada Sistema de Gestión Documental. Ejemplo: nombre, identificativo, fecha de entrada, 10 campos descriptores + pesos. Subtareas: o Catalogación o descripción física del documento: título, autor, etc. o Indexación del documento: texto >>> términos-índice o descriptores (palabras clave). o Valoración de los índices del documento: cálculo de pesos en base a frecuencias. Tipos de Indexación: 2 o Indexación Automática / Manual: crear diccionarios que el sistema necesita (glosario, palabras-vacías, tesauro). indicar las zonas del documento objeto de análisis. o Indexación de términos controlados / incontrolados: Incontrolado: toda la variedad del lenguaje natural. Controlado: propio de sistemas sobre un tema en concreto. o Indexación Postcoordinada / Precoordinada: Postcoordinada: términos-índice individuales, posteriormente pueden coordinarse. Precoordinada: términos-índice ya coordinados, como frases. Diccionarios necesarios para el análisis: o Glosario-Lexicón-Vocabulario: descriptores del área de conocimiento tratada (= todas las palabras de búsqueda e identificación de los documentos). o Stoplist-Diccionario de palabras vacías: palabras no útiles para la búsqueda, con valor únicamente gramatical (artículos, preposiciones, etc.). o Thesaurus (tesauro): diccionario estructurado de conceptos, con relaciones jerárquicas y asociativas entre ellos. Su objetivo: garantizar la coincidencia entre el descriptor usado para analizar el documento y para la formulación de la búsqueda o pregunta. Componentes: Unidades léxicas: descriptores, no-descriptores (reenvían) e identificadores (nombres propios, de lugares, etc.). Relaciones conceptuales: o Equivalencia: descriptor y sus sinónimos. USE: para remitir del sinónimo al descriptor. UP: para remitir del descriptor al sinónimo. ORDENADOR UP COMPUTER COMPUTER USE ORDENADOR o Jerárquicas: cosa-tipo, género-especie, todo-parte. TG: Términos genéricos. TE: Términos específicos. TG PERRO TE CANICHE o Asociativas: horizontales, de proximidad conceptual. TR: Término relacionado. TA: Término asociado. CRISTAL TR TRANSPARENCIA LAPIZ TA PORTAMINAS o Definitorias: no son una definición, sino que facilitan la correcta utilización del descriptor, delimitando su uso ("nota de alcance"). NA: Nota de alcance (en inglés SN, scope note) ALUMNO NA Referido al que cursa la ESO. Subtarea 1: Catalogación: trivial, rellenar una ficha con los datos físicos. Subtarea 2: Indexación, Elección de los descriptores: o Fase 1: Identificar palabras individuales, separadas por espacios. o Fase 2: Cálculo de la frecuencia de cada palabra (FREQik). o Fase 3: Calculo de la frecuencia total de cada palabra (TOTFREQk). 3 o Fase 4: Ordenación de las palabras en orden decreciente por su frecuencia total. o Fase 5: Eliminación de las palabras que pertenecen al STOPLIST. o Fase 6: Elminación de las palabras de menor frecuencia. o Fase 7: Elección de las palabras con mayor frecuencia individual en el documento (FREQik) y menor frecuencia total (TOTFREQk). o Fase 8: Traducción de estas palabras a forma canónica (quitando prefijos, sufijos, plurales, etc.). o Fase 9: Indentificación de las categorías semánticas en el Tesauro y elección del PT (Preferred Term). Subtarea 3: Valoración o Cálculo de los pesos de los índices. o Efectividad: Exhaustividad de indexación: si la indexación es exhaustiva, se asignan muchas palabras clave (normal: de 5 a 12). Poca exhausitividad = silencio. Especificidad o precisión del término: si los términos-índice asignados son muy generales, se recuperará mucha información útil, pero junto con otra que no lo es (ruido). A: doc. Relevantes recuperados, B: doc. Relevantes no recuperados, C: doc. No Relevantes recuperados, D: doc. No Relevantes no recuperados. Tasas: Ruido: c / a + c. Precisión: a / a + c. Silencio: b / a + b. Exhaustividad: a / a + b. o Pesos: Wik: FTik x FIk. FIk = 1 / TOTFREQk FTk = FREQik o Elementos funcionales: Elementos de exhaustividad: objetivo = disminuir el silencio. Estructuración jerárquica del tesauro. Normalización de la indexación. Elementos de precisión: objetivo = disminuir el ruido. Especificidad del lenguaje de indexación. Nivel de coordinación: o Poca precoordinación => fácil tesauro => mucha postcoordinación => más ruido. Indicadores de unión y de función: poco usados. Tema 6.- Segunda parte de la gestión documental Recuperación de la información: DEF: técnicas relativas al acceso y posterior selección de información almacenada en un sistema informático. Dos componentes: 4 o Interfaz de usuario: traducir la demanda del usuario a una ecuación en lenguaje formal (lenguaje de interrogación). o Función de recuperación: comparación de esta ecuación con la información almacenada para proporcionar la respuesta adecuada. Interfaz de usuario: Diferentes posibilidades: o Mediante menús o ventanas. o Mediante instrucciones o comandos. o Mediante Lenguaje Natural (Estado-ASK -> NLQ -> QNF). Función de recuperación: Modelos de operadores: o Operadores boléanos: AND, OR, etc. CNF: Forma Normal Conjuntiva (AND). DNF: Forma Normal Disyuntiva (OR). Modelos booleanos con pesos. o Operadores de intervalo: =, >, <, etc. o Operadores de proximidad: INFORMATICA D3 DOCUMENTACION. o Operadores de cualificación: (INFORMATICA D3 DOCUMENTACION) EN TITULO. o Operadores de encadenamiento: encadenando búsquedas precedentes. 5