CDU 050 Diciembre Documentación NORMA UNE 5th121-91 MÉTODOS PARA EL ANALISIS DE DOCUMENTOS, ESPAÑOLA DETERMINACIÓN DE SU CONTENIDO Y SELECCIÓN DE LOS TÉRMINOS DE INDIZACIÓN 1 1991 OBJETO Y CAMPO DE APLICACIÓN 1.1 Esta norma recomienda procedimientos para el análisis de documentos, determinación de su contenido y selección de los términos de indización. Se limita a las primeras etapas de la indización y es independiente de la práctica del sistema de indización, ya sea pre-coordinado o post-coordinado. Describe métodos generales de análisis de documentos que deben aplicarse en cualquier situación. Sin embargo, estos métodos están destinados especialmente a los sistemas de indización en los que las materias de los documentos se expresan de forma abreviada con ayuda de los términos de un lenguaje de indización controlado. En este contexto, el lenguaje controlado está constituido generalmente por un subconjunto de términos extraídos del lenguaje natural y estructurado, por ejemplo, mediante un tesauro. Estos métodos se pueden aplicar, normalmente, a sistemas en los que, con fines de recuperación, los conceptos se representan por símbolos seleccionados del esquema de clasificacion. 1.2 Las técnicas descritas en esta norma se pueden utilizar por cualquier organismo en el que se empleen indizadores humanos para analizar temáticamente el documento y expresar el contenido en forma de términos de indización. No se aplican en instituciones que utilizan tecnicas de indización automáticas en las que los términos existentes en los textos se organizan en conjuntos o clases según criterios que pueden aplicarse mediante un ordenador, por ejemplo, por frecuencia de aparición y/o adyacencia en el texto, aunque la finalidad de estos sistemas sea la misma. 1.3 Esta norma debe, en primer lugar, servir de guía a los indizadores para las etapas de análisis de los documentos e identificación de los conceptos. Puede aplicarse también a la búsqueda documental para transformar las peticiones de los usuarios en términos de indización controlados. Tambien puede servir como guía para la elaboración de resúmenes analíticos, teniendo presente, sin embargo, que estas tareas, aunque análogas, no son idénticas. 1.4 Esta norma se destina a promover la utilización a) en una institución b) en diferentes servicios de indización, bibliográficos. de una práctica normalizada o una red de centros o instituciones; en especial en aquellos que intercambian registros Continúa en páginas 2 a 7 Secretarla del CTN ICYT I Las observaciones relativas a ia presente norma deben ser dirigidas a I AENOR - Fernández de la Hoz, 52 - 28010 Madrid Equivalente a: ISO 5963: 1985 l UNE 50-121-91 @AENOR 1991 Depósito legal: M 43 088-91 Documentation. Methods for examining documents. Determining their subjects and selecting indexing terms. Documentation. Mkthodes pour I’analyse des documents, la dbtermination de ieur COt’Itenu et ia ShXtiOn des terITWS d’indexation. Grupo 4 AENOR AUTORIZA EL USO DE ESTE DOCUMENTO A UNIV.CARLOS III DE MADRID -2- UNE50-121-91 2 NORMAS PARA CONSULTA UNE 50-I 06 - Documentación. UNE 50- 1251) - Documentación. Directrices para el establecimiento Directrices para el establecimiento y desarrollo de tesauros monolingües. y desarrollo de tesauros multilingúes. 3 DEFINICIONES Dentro del marco de esta norma, se aplican las definiciones 3.1 documento: NOTA- Cualquier fuente de información, siguientes: impresa o no, que se pueda catalogar o indizar. Esta definición se refiere no ~610 a los materiales escritos e impresos en papel o microforma (por ejemplo, libros, revistas especializadas, diagramas, mapas, etc.), sino tambih a medios no impresos (por ejemplo, registros legibles por ordenador, pelfculas y grabaciones sonoras) y a objetos de colección. 3.2 noción o concepto: Una unidad de pensamiento. El contenido semántico de un concepto puede ser expresado por una combinación de otros diferentes que pueden variar de un idioma a otro. 3.3 materia: Cualquier concepto o combinación 3.4 término de inditación: La representación de conceptos que representa el tema de un documento. de un concepto en forma de: - un término derivado del lenguaje natural, preferiblemente - un código de clasificación. NOTA- Un tkmino de indización puede constar de más de una palabra. na como descriptor o no-descriptor. 3.5 descriptor: Término usado siempre, tambikn como “término preferente”. en la indización, un sustantivo simple o compuesto. En un lenguaje de indizacibn para representar controlado, un concepto un thrmino se desig- dado, conocido 3.6 no-descriptor: Sinónimo o cuasi sinónimo de un descriptor. Los no-descriptores no se asignan a los documentos pero pueden servir como puntos de entrada en un índice, dirigiendo al usuario mediante una instrucción (por ejemplo: ver o vease) al descriptor. Se llaman, también ‘Wrminos no preferentes”. 3.7 índice: Lista alfabética y sistemática de materias que señala el lugar en que se encuentra en un documento o en una colección de documentos. 3.8 indización: Acci6n de describir o identificar un documento cada materia en relaci6n con su contenido. 4 PROCESO DE INDIZACIÓN 4.1 La indización no concierne a la descripción de un documento como entidad física (por ejemplo,‘no indica la forma, editor, fecha, etc.), aunque estos factores pueden estar incluidos en un índice de materias si esta informaci6n puede permitir a un usuario determinar, de forma m6s precisa, si un documento dado es relevante para su necesidad de información. 1) Actualmenteen elaboración. AENOR AUTORIZA EL USO DE ESTE DOCUMENTO A UNIV.CARLOS III DE MADRID UNE 50-121-91 4.2 Durante la indización los conceptos se extraen del documento mediante un proceso de análisis intelectual y despu& se transforman en términos de indización. Tanto el análisis como la transcripción deben realizarse con ayuda de herramientas de indización, como tesauros y sistemas de clasificación. 4.3 La indización consiste esencialmente a) examen del documento b) identificación c) selección de los tkminos en tres etapas, que tienden a solaparse en la práctica: y determinación de su contenido; y selección de los conceptos principales del contenido; de indización. Cada una de estas etapas, junto con un capítulosobre el control de calidad, son tratadas en los capítulos 5 a 8. 5 EXAMEN DEL DOCUMENTO 5.1 La precisión con que se puede examinar un documento depende en gran manera de su forma física. Se pueden distinguir dos casos diferentes: documentos impresos y documentos no impresos. 5.2 Los documentos impresos constituyen el material habitual de las bibliotecas y centros de documentaci6n cuyo fondo consiste principalmente en libros, revistas, informes, actas de congresos, etc. De forma ideal la compresión completa de estos documentos requiere su lectura detallada. Sin embargo, una lectura completa es a menudo impracticable y no siempre necesaria, pero el indizador debe asegurarse de que no se ha descuidado ninguna información útil. Las partes importantes del texto deben examinarse cuidadosamente y se debe prestar especial atención a las siguientes: a) título; b) resumen, si lo tiene; c) sumario o tabla de contenido; d) introducción, e) ilustraciones, diagramas, tablas y su leyenda o explicación; f) palabras o frases que están destacadas mediante párrafos iniciales de los distintos capítulos o apartados y conclusiones; una tipografía diferente o subrayadas. Todos estos elementos deben examinarse cuidadosamente por el indizador durante el estudio del documento. No se recomienda la indización a partir del título solamente, y el resumen si existe, no se debe considerar como un sustituto del examen del texto. Hay títulos que pueden inducir a errores; existen resúmenes que son insuficientes y ni los unos ni los otros constituyen una fuente segura del tipo de información que necesita el indizador. 5.3 Los documentos no impresos, tales como medios audiovisuales, visuales y sonoros, requieren procedimientos diferentes. En la practica no siempre es posible examinarlos en su totalidad. La indización hay que realizarla en estos casos a partir del título y de la sinopsis o reseña. Sin embargo si estos son inadecuados o insuficientes, el indizador debe visualizar o escuchar el documento. 6 IDENTIFICACIÓN DE LOS CONCEPTOS 6.1 Después de examinar el documento el indizador debe identificar las nociones que son elementos esenciales de la descripcibn del contenido. Las instituciones que patrocinan la realización del índice deben establecer los factores que se consideran importantes en el campo temático cubierto por el índice. AENOR AUTORIZA EL USO DE ESTE DOCUMENTO A UNIV.CARLOS III DE MADRID -4- UNE50-121-91 Algunas cuestiones que ilustran los ejemplos de criterios a retener son: a) iTrata el documento de algún objeto sometido a una acción? b) icontiene c) ¿Se ve afectado el objeto por la acción identificada? d) iTrata del agente causante de la acción? e) ¿Se describen los medios para llevara peciales) f) iExisten factores considerados en un medio o lugar particular? g) ¿Se identifican.variables h) ¿Se trata el tema desde un punto de vista particular no asociado normalmente plo, estudio de la religi6n desde un punto de vista sociológico). algún concepto activo? (por ejemplo, una acción, un procedimiento, dependientes etc.) cabo la accibn? (por ejemplo, instrumentos, técnicas o metodos es- o independientes? a ese campo? (por ejem- Estos son ejemplos de criterios susceptibles de aplicación en muchos campos; en disciplinas particulares de ser necesario formular otras cuestiones. pue- 6.2 El indizador no tiene necesariamente que utilizar como tkrminos de indización todos los conceptos identificados durante el examen del documento. La selección o el rechazo de conceptos depende de la finalidad con que se van a utilizar los tkrminos de indización, que pueden variar desde la producci6n de índices alfabéticos impresos hasta la creación de una base de datos bibliográfica informatizada. La identificación de conceptos puede también estar influida, como se indicó anteriormente, por el documento a indizar. Por ejemplo la indización de libros puede diferir de la de artículos de revistas. Las dos características de un índice mis afectadas por la selección de los términos haustividad y la especificidad. de indización son la ex- 6.3 La exhaustividad esta relacionada con el número de conceptos que se tienen en cuenta, y que caracterizan el contenido íntegro de un documento. 6.3.1 tos de casos, bierto rentes Un indizador que sigue los procedimientos indicados antes, debe poder identificar todos los concepun documento, que tienen valor potencial para los usuarios de un sistema de información. En algunos en un mismo documento, se presentan independientemente dos o más temas dentro del campo cupor la indización. En ese caso los temas deben tratarse de forma separada y, si es necesario, por difeespecialistas. 6.3.2 La cobertura de la indización no debe interpretarse de una forma demasiado estricta. Hay que tener en cuenta qué términos de indización creados inicialmente para un grupo de usuarios (por ejemplo, científicos y técnicos) pueden utilizarse por otros grupos (por ejemplo, economistas). Se aconseja que los indizadores de literatura científica y tkcnica tengan presentes otros aspectos del tema, en particular, los sociales y económicos. 6.3.3 El principal criterio de selección de conceptos debe ser su valor potencial sión del tema del documento para su recuperación. como elemento de expre- En la selección de conceptos, el indizador debe tener en mente las preguntas que se pueden hacer al sistema de información, en la medida en que dichas preguntas se pueden conocer. En efecto, este criterio constituye la principal función de la indización. Dentro de este contexto el indizador debe: a) elegir las nociones mas apropiadas para un grupo de usuarios dado, sin perder de vista el objetivo de la indización; b) modificar, si es necesario, tanto las herramientas como el procedimiento de indización, como resultado de las preguntas hechas al sistema. Dichas modificaciones no deben producir distorsión de la estructura o de la 16gica del lenguaje de indización. AENOR AUTORIZA EL USO DE ESTE DOCUMENTO A UNIV.CARLOS III DE MADRID -5- UNE 50-121-91 6.3.4 El número de Wminos o descriptores que se pueden asignar a un documento no debe limitarse de forma arbitraria. Debe determinarse enteramente por la cantidad de información contenida en el documento en relación con las necesidades supuestas de los usuarios a que va destinado el índice. Imponer un Iímite arbitrario puede conducir a una pérdida de objetividad en la indización y a una deformaci6n de la información que se podrá utilizar en la recuperación. Si por imposiciones establecidas es necesario limitar el número de tkrminos, la selección de conceptos debe ser guiada por el juicio del indizador sobre el papel de cada término para expresar el contenido total del documento. 6.4 La especificidad está relacionada con la exactitud con que un concepto particular que aparece documento está representada por un tkrmino de indización. Se produce una pérdida de especificidad do un concepto particular está representado por un término que tiene un significado m6s general. en un cuan- Las nociones deben identificarse de la forma nes m6s generales en los casos siguientes: nocio- mSs específica posible. Sin embargo, pueden preferirse a) cuando el indizador considere que un exceso de especificidad puede actuar de forma negativa sobre el sistema de indización. (Por ejemplo, puede decidir que un modelo muy específico de una máquina se represente por el t&mino m6s genérico de ese tipo de máquinas, en especial cuando esas nociones aparecen ~610 en áreas muy restringidas del campo temático cubierto por el índice); b) cuando se trate de una idea no completamente desarrollada, autor, estará justificada la indización a un nivel m6s general. o de la que se hace ~610 una alusión por el 7 SELECCIÓN DE LOS TÉRMINOS DE INDIZACIÓN 7.1 Cuando guientes: los conceptos se traducen en términos ya presentes en el lenguaje de indización, Los conceptos b) Los términos que representan nuevos conceptos deben comprobarse, tación, con ayuda de obras de referencia tales como: en cuanto - diccionarios en cuestión; - tesauros, especialmente - clasificaciones de autoridad los elaborados deben retenerse debe observar a) y enciclopedias, de indización el indizador reconocida de acuerdo en la materia las reglas si- como descriptores. a su exactitud y su acep- con las normas UNE SO-106 y UNE 50-125; temAticas. Se puede también consultar a especialistas de indización y documentación. en la materia, prefiriéndose aquellos que tienen conocimientos 7.2 El indizador debe estar familiarizado con estas obras y con las limitaciones que presentan, por ejemplo una lista de encabezamientos de materia o un esquema de clasificación puede no permitir la representación exacta de un concepto encontrado en un documento. Si los conceptos están representados por códigos de clasificación, necesita saber que estos códigos designan generalmente un contexto más amplio o más restringido, que puede no ser completamente apropiado para el documento estudiado. 7.3 Si un lenguaje de indización incorpora un tesauro, el número de términos multiplicidad de entradas, pueden reducirse sin perdidas, ya que los términos pueden establecerse con el propio tesauro. Cuando se utiliza concepto dado. un tesauro debe seleccionarse el tkmino m6s específico asignados generales existente al documento y la y otras relaciones para representar AENOR AUTORIZA EL USO DE ESTE DOCUMENTO A UNIV.CARLOS III DE MADRID un UNE 50-121-91 -6- 7.4 Algunos sistemas de indización utilizan indicadores de función de enlace, de ponderación, zador debe estar familiarizado con todas las reglas asociadas con el uso de estos mecanismos. 7.5 En la práctica el indizador encontrará con frecuencia conceptos quema de clasificación. Según el sistema utilizado dichos conceptos por ejemplo: a) expresarlos por terminos o descriptores b) representarlos temporalmente adición posterior. y añadirlos por términos inmediatamente más generales, etc. El indi- que no existen en ningún tesauro o esdeberán tratarse de diferentes formas, al lenguaje y proponerlos de indización. como candidatos para una 8 CONTROL DE CALIDAD DE LA INDIZACIÓN 8.1 La calidad y la coherencia de la indización a) la competencia b) la calidad de los instrumentos dependen de factores tales como: del indizador; de indización. En una situación ideal, los términos de indización asignados a un documento y el nivel de exhaustividad conseguido son identicos con cualquier indizador. Para un mismo sistema de indización estos factores deben mantenerse relativamente estables en el tiempo. La coherencia es un factor importante en el comportamiento de un sistema de indización, en especial cuando la información se va a intercambiar entre diferentes centros de una red documental. 8.2 La imparcialidad total del indizador es un factor necesario para conseguir la consistencia de la indización. Un juicio subjetivo en la identificación de los conceptos y en la elección de los terminos de indización, afectarán inevitablemente al comportamiento del sistema de indización. La consistencia es más difícil de conseguir con un equipo de indización formado por muchos miembros o cuando la indización se lleva a cabo por equipos de indizadores que trabajan en lugares diferentes, por ejemplo en un sistema descentralizado. En estas situaciones, se recomienda una etapa de comprobación centralizada con devolución a los indizadores. 8.3 El indizador debe tener un buen conocimiento del campo de que tratan los documentos a indizar. Debe comprender los términos que se encuentran en los documentos y las reglas y procedimientos del lenguaje de indización específico. Los centros que manejan documentos en lenguas extranjeras deben disponer de especialistas en esas lenguas. 8.4 La calidad de la indización se podrá conseguir de manera mas efectiva si los indizadores tienen directo con los usuarios. Estos podrían, por ejemplo, determinar si ciertos términos o descriptores ceptiblesde producir combinaciones falsas, dando lugar a salidas no pertinentes. contacto son sus- 8.5 La calidad de la indización depende también de la posibilidad de poner al día el lenguaje de indización. Es esencial que el sistema permita la introducción de nuevos términos en el lenguaje o cambios en la terminología que respondan a nuevas necesidades de los usuarios. 8.6 Cuando sea posible, peración de documentos, debe comprobarse la calidad de la indización, analizando por ejemplo, calculando los porcentajes de exhaustividad los resultados y de precisión. de la recu- 9 CORRESPONDENCIA CON OTRAS NORMAS Esta norma es tecnicamente equivalente a la norma ISO 5963: 1985. AENOR AUTORIZA EL USO DE ESTE DOCUMENTO A UNIV.CARLOS III DE MADRID -7- ANEXO A Organigrama UNESO-121-91 (Informativo) del proceso de indizacibn utilizando un tesauro 0 Principio Examen del documento e identificación de los concep- Considerar el primer concepto Seleccionar otro tbrmino que Seleccionar Considerar el descriptor Considerar cada Admitir el nuevo término en el tesaurus Considerar todos los thrminos asociados en el tesauro. Ejemplo: TG, TS, VA Si Asignar el (los) 1 Se%;;;; alternativo el 0 Final AENOR AUTORIZA EL USO DE ESTE DOCUMENTO A UNIV.CARLOS III DE MADRID . AENOR AUTORIZA EL USO DE ESTE DOCUMENTO A UNIV.CARLOS III DE MADRID