Generación automática de resúmenes. Adelina Codina, Fátima Eixau, Pablo Villaplana, Laura Rubio. 1.-Introducción 2.-Proceso de compresión de los textos 3.-Métodos de representación automática en la elaboración de resúmenes 4.-Métodos de evaluación 5.-PROYECTOS: The Text Summarition Project TIDES SweSum Project 6.-PRODUCTOS: COPERNIC SWESUM 7.-Conclusiones 8.-Bibliografía 1.- Introducción Ante la ingente cantidad de información almacenada en formato electrónico, al hablar tanto de documentación científica como no científica, la sociedad ha creado la necesidad de disponer de herramientas que permitan a los usuarios procesar y representar el contenido de los documentos de forma pertinente y fiable. Pensemos en el caso de Internet, contenedor de información que podemos definir como una potente base de datos con un crecimiento diario espectacular de documentos. No obstante resulta necesario destacar las bases de datos de documentación científica o revistas electrónicas especializadas. Las investigaciones en tecnologías de la información van dirigidas a solucionar los problemas del exceso de información: La obtención, filtrado, clasificación y extracción de información son ámbitos prioritarios en el campo de la tecnología lingüística y del Procesamiento del Lenguaje Natural (PLN). Un problema común que se plantea es la existencia de múltiples documentos sobre un mismo tema, por lo que sería útil poder destacar y/o resumir las similitudes y diferencias la información contenida en los documentos de una forma que satisfaga las necesidades de los usuarios (1). Siendo imprescindible obtener una adecuada representación del contenido. La premura del tiempo y los costos elevados que derivan de su ejecución, ante la inmediatez y la productividad exigidos en la sociedad de la información permiten desarrollar de forma urgente un sistema de producción automática de resúmenes. Diferenciamos dos tipos de resumen resultado de la combinación de las metodológicas para la representación textual, exactamente son: Resúmenes por extracción, consisten en una colección de términos, frases o párrafos significativos que son considerados representativos del texto original y que responden a unos criterios determinados. Resúmenes por abstracción, consisten en un documento de nueva redacción como fruto del tratamiento automatizado de la información del documento original y para ello se precisa la conjugación de varias técnicas que pertenecen aún al campo de la investigación básica, y con resultados poco satisfactorios. 2.Proceso de comprensión de los textos. El proceso de comprensión o interpretación semántica del Lenguaje Natural se aborda con un conjunto de técnicas informáticas para facilitar un procesamiento del lenguaje y cuyo objetivo es la desambigüación a todos los niveles del modelo sincrónico del lenguaje(2): morfosintáctico, sintáctico, semántico y contextual. Los problemas en cada nivel se abordan de manera separada y se toma la solución de cada uno como entrada para el siguiente con el fin de simplificarlo. Pasemos a comentar los niveles de Procesamiento de lenguaje natural (PLN): a) Nivel morfológico. Se utiliza una técnica que consigue segmentar las palabras permitiendo el truncamiento de los términos, mediante un analizador morfológico basado en etiquetadores morfosintácticos capaces de abstraer las categorías gramaticales léxicas en lugar de palabras por lo tanto facilita la definición de las gramáticas y el proceso de análisis. Las etiquetas representan las categorías gramaticales y los rasgos morfológicos y la información de modo, tiempo y persona para los verbos. Esta primera fase es considerada base del posterior análisis, y aunque no se consiga eliminar la incertidumbre o ambigüedad de las frases, se puede utilizar como preprocesador de las oraciones en PLN. b) Nivel sintáctico. Se persigue la desambigüación de los términos, es decir del sentido de las palabras. Este segundo nivel de la investigación puede ser básica o más compleja. La más básica o superficial bastara para identificar los componentes estructurales de las frases, sintagma nominal (SN), sintagma verbal (SV) y sintagmas preposicionales (SP), etc. Un análisis superficial consiste en dividir una oración en segementos no solapados que se corresponden con ciertas estructuras sintácticas, sin establecer relaciones funcionales de las mismas. Un análisis más complejo, especificaría las relaciones entre los items de un texto (Barzilay,1997): referencia, elipsis, conjunción, e incluiría marcadores de cohesión léxica que señalen dónde y qué tipo de vínculos deben establecerse entre los elementos de una frase a través de la selección de las palabras por reiteración, colocación y también utilizando técnicas de encadenamiento de términos, en inglés “lexical chains”, referido a la cohesión pronominal, repetición, equivalencia, para aproximarse a una coherencia interna del texto y conseguir mayor calidad del resumen. Los recursos lingüísticos que quedarían resueltos en este nivel son: las anáforas, las catáforas y los deícticos. El problema de la anáfora consiste en resolver relaciones de correferencia existentes entre los sintagmas analizados. La catáfora agrupa los casos donde la expresión anafórica aparece antes. Los deícticos son marcadores usados para articular el enunciado o inscribirlo en un determinado discurso, son los adverbios de tiempo y lugar, demostrativos y pronombres personales. En esta línea se han desarrollado técnicas automáticas para la eliminación de palabras vacías, a veces frecuentes en texto y con poca significación para resumen. Cabe mencionar los necesarios procesos de steming basados en la combinación de reglas y excepciones de la base de conocimiento, que permiten controlar la existencia de palabras en distintas formas (tiempos verbales, plurales...) reduciendo sus variantes a la forma léxica canónica. c) Nivel semántico. El analizador semántico facilita la aplicación de procedimientos de razonamiento que asigna significados a las estructuras creadas por el analizador sintáctico. El problema primordial surge en el nivel interpretativo del texto, la ambigüedad y la imprecisión del lenguaje, tratará de resolverse en el tercer nivel. Si se pudiese transformar las estructuras lógicosemánticas en estructuras lógicas, el problema quedaría resuelto, puesto que las estructuras lógicas son precisamente maleables y sometidas a procesos de transformación y mecanización. En esta línea de investigación en inteligencia artificial se combinan varias disciplinas, psicología cognitiva, lingüística y lógica. El conocimiento semántico se representa mediante redes semánticas, conceptos simples relacionados entre sí para crear estructuras conceptuales complejas. Cualquier sistema que pretenda trabajar sobre la información semántica de un documento precisa un módulo de desambigüación del sentido de las palabras (Word Sense Diambiguation, WSD); esto incluye bases de conocimiento sobre los términos y conceptos de cada dominio temático, recursos como ontologías, recursos léxicos y diccionarios como único modo de proceder a las interpretaciones. Precisamente es la escasez de estos recursos léxicos los que obstaculizan la investigación de sistemas de PLN en español. La aparición de diferentes WordsNet dentro del proyecto EuroWordNet , y en particular el WordNet español, permitirá el desarrollo de aplicaciones que puedan incorporar módulos de WSD en sistemas de PLN en español. d) Nivel contextual o pragmático. Los sistemas de generación automática de textos extraen parte del resultado final mediante una base de conocimiento, una vez son identificados los fragmentos pasan al módulo de solución de problemas donde se resolverá el perfil y el estilo adecuado, dependiendo de los objetivos a satisfacer. Un módulo organizador del discurso transformará los segmentos de frases en oraciones bién formadas en lenguaje natural. Y posteriormente un módulo generador de frases construye el texto final en forma de párrafos, para ello se insertan puntuaciones y posteriormente se ordenan las oraciones en párrafos. Un gran precursor de este modelo de resumen es Borko- Bernier. Debido a la gran proliferación de modelos y métodos en la investigación de los procesos automatizadores del PLN y sus dosis de combinación tan numerosas, se hace difícil la clasificación de unos sistemas o métodos que son híbridos en su mayoría. En realidad se opta por establecer dos grandes agrupaciones metodológicas para la representación textual según se trate de métodos de extracción (basados en la estructura superficial) o de sumarización (basados en la estructura retórica y/o profunda) y finalmente hablaremos de métodos gráficos y relaciónales. 3. Métodos de representación automática del conocimiento en la elaboración de resúmenes Hemos considerado la clasificación en la automatización de resúmenes defendida por Maria Pinto para explicar las líneas de investigación metodológicas del área de PLN, agrupadas en tres grandes bloques: -Métodos de extracción basados en la estructura superficial -Métodos de sumarización, a medio camino entre resumen y extracto -Métodos gráficos y relacionales Pasamos a exponer brevemente las características y diferencias de cada bloque mencionado. 3.1 Métodos de extracción basados en la estructura profunda Caracterizados porque abordan el texto como cadenas de caracteres y apenas realizan un análisis lingüístico. El documento final es un subconjunto de oraciones del texto. Siguiendo a Paice, estos son los métodos estadísticos de extracción automática: -Frecuencia de palabras La selección de palabras clave realizada en atención a la frecuencia de repetición en la frase. -Palabras Clave del título Selección sobre el título y encabezamientos, tras eliminar las palabras vacias. -Localización de la información o posición en el texto Lead method: Se considera que en cualquier texto lo importante aparece al principio (o al final), se seleccionan las n primeras oraciones o párrafos. Optimum position policy( OPP) : Las posiciones con mayor carga significativa aparecen en posiciones dependientes del género, se precisa el aprendizaje automático de las posiciones más prometedoras a nivel de párrafo y oración ( Lin,Hovy,1997 ) -Sintáctico La extracción relacionada con la estructura sintáctica. -Palabras temáticas importantes La identificación de términos claves de contenido más frecuente o con frecuencia alta en el documento que son escasas en el conjunto de documentos. -Términos o frases significativas (cue phrases) La selección se apoya en una lista de términos indicativos que tienen un peso en la selección de las frases se diferencian tres clases según la relevancia: Bonus phrases indicadores de términos con peso : Concluyendo.....,en resumen.....,principalmente...... Stigma phrases indicadores de términos de escaso peso: Dificilmente....., imposible.....no..., Null phrases indicadoras de frases irrelevantes para la selección.:Por contra.. -Relacionales La extracción de información relevante se consigue utilizando representaciones semánticas del texto. Por otra parte, Edmundson (4) propone un método lógico matemático para la asignación de valores numéricos a las frases. Plantea cuatro modos de selección de frases: palabra clave (key), entrada (cue), título y emplazamiento. Al evaluar los experimentos se constató que la selección por entrada, título y emplazamiento tuvieron ventaja frente a los de palabra clave, por tanto se eliminó este método de selección para resúmenes automáticos. Otra combinatoria de métodos interesante es la propuesta por ANES (Sistema de Extracción Automática de Noticias) en base a métodos estadístico/heurístico sobre los términos, determinando las frases más representativas(5). El análisis estadístico del corpus documental se realiza a partir de las frecuencias asignándoles un peso a cada término y un identificador. Utiliza una ecuación de frecuencias para seleccionar las frases que contienen las ideas principales mediante la suma de los pesos de los términos que contienen cada frase y el sistema se decide por las que obtienen los pesos mayores. En cuanto a los resultados del experimento fueron valorados por analistas con la calificación de medianamente aceptables en cuanto a coherencia y cohesión. Y por último dentro del grupo de métodos por extracción cabe mencionar el método llamado de máxima frecuencia ó método de Knowledge Discovery (KD), en que se se realiza un preproceso de documentos, tratando la eliminación de términos y datos el texto original queda reducido a una secuencia de palabras, se analiza las máximas secuencias de palabras más frecuentes para terminar con una clasificación y ordenación de términos. Este método permite sobre un grupo de documentos encontrar una frecuencia de palabras que es frecuente en una colección y a la vez de otra secuencia frecuente mayor.(6) KD es un método que destaca en las técnicas de análisis inteligentes en bases de datos automatizadas, cuya meta es derivar conocimiento de esas bases de datos reales, aplicando patrones para la extracción de información. 3.2-Métodos de sumarización Dado el extraordinario crecimiento exponencial de la información on-line, los usuarios son víctimas de una sobrecarga informativa. Los sumarios entendidos como una forma abreviada del contenido del documento pueden aliviar esta situación reduciendo de manera considerable la información a leer por el usuario o investigador. Los sistemas basados en la estructura del discurso o retórica incorporan cierto grado de creatividad y operan sobre las relaciones discursivas de cohesión y coherencia. Presentamos las siguientes agrupaciones de métodos de sumarización: - Métodos basados en la estructura discursiva o retórica Métodos basados en la estructura profunda Métodos basados en la estructura discursiva o retórica Los sistemas basados en la cohesión (Barzilay,1997) relacionan los items de un texto, la conectividad no estructural, repetición, referencia, cohesión léxica a través de selección de las palabras. Los sistemas basados en la coherencia (D.Marcu,1997-1999) consiguen relacionar los segmentos del texto , los elementos del discurso están conectados a través de la estructura semántica. Es una aproximación basada en la coherencia interna del texto, consigue una buena calidad del resumen. Marcu, representa la estructura retórica del texto y utiliza algoritmos de análisis retórico basado en un corpus compuesto por marcadores de discurso y fragmentos textuales. Plantillas Los sistemas basados en plantillas (Gaizauslas-Wilks 1998) han sido utilizado en extracción de noticias (prensa económica ), Reuter(Andersen1992-1994), artículos de información financiera (Chong-Goh 1997), extracción automática de referencias bibliográficas de patentes a texto completo ( Lawson1996), en este procesamiento del lenguaje natural se cumplimentan plantillas estructuradas en patrones . Plantillas Web Altavista es un ejemplo de sistema de plantillas con frases relacionadas con el tema de búsqueda para que el usuario escoja la opción más acertada. Métodos basados en la estructura profunda Concebido este procedimiento como un sistema experto basado en una red de conocimientos básicos o redes semánticas representativas del contenido y aplicados al texto, es un modelo semántico conceptual de generación de sumarios basado en las teorías cognitivas. FRUMP (7) es un programa para la generación de sumarios de artículos cortos. Está cifrado sobre la base de hechos o conocimiento base que se usa para predecir acontecimientos generales. El analizador textual está dirigido hacia las expectativas y la interpretación del texto de entrada sobre la base de acontecimientos pronosticados, realiza una nueva interpretación de la nueva situación y nuevas predicciones. La base de conocimiento en la que actúa se estructura en guiones que contienen sólo los hechos destacables que pueden ocurrir en una situación. Otro sistema basado en inteligencia artificial para el análisis y la comprensión de textos breves en dominios restringidos, generando representaciones semánticas en forma bien de extractos o de sumarios es SCISOR (System for Conceptual Information Summarization Organization and Retrieval) de Rau (8). Diseñado para procesar noticias cortas on-line sobre un tema del mundo empresarial (transacciones de empresas y responsabilidad corporativa)extraídas de periódicos o revistas como el Wall Street Journal. Permite una recuperación conceptual de la información, de respuestas a cuestiones planteadas en lenguaje natural. Utiliza una metodología KADS sistema experto de ingeniería del conocimiento, emplea arquitectura BLACKBOARD o de pizarra para la representación cognitiva técnica de la información en la resolución de problemas (Niggemeyer) 3.3-Métodos gráficos y relacionales Salton diseñó un modelo de recuperación, conocido como espacio vectorial en el que las unidades informativas se representan por grupos o vectores de términos conocidos como clustering de documentos y pasajes. El sistema SMART permite la descomposición y estructuración de los documentos, segmentos de longitud: secciones, grupos de frases adyacentes o frases sueltas. Se establecen relaciones entre textos y pasajes de textos para generar mapas relacionales que muestren las similitudes de los textos y pasajes que han superado un determinado valor. Este modelo conlleva tres fases: Identificación del tema textual, travesía selectiva del texto y extracción de sus partes relevantes, utilizando las ideas sobre generación, de enlaces hipertextuales, se pueden crear enlaces intradocumentales entre los párrafos o frases de un texto. 4. Métodos de evaluación Para valorar y verificar que los modelos tienen un resultado óptimo para conseguir los objetivos, se necesitará un proceso de evaluación cuya finalidad es detectar errores para mejorar el modelo. Encontramos que las dificultades en la evaluación son debidas a varios puntos: . No existe un único resumen válido para un texto. . Lenguaje natural producido por una máquina . Mayor número de personas juzgando incrementa el coste de evaluar. . La tarea deresumir conlleva compresión(reducción de tamaño) y se necesita evaluar resúmenes de distintos tamaños. . Legibilidad (puede no tener relación con la calidad del resumen) En relación con las expectativas de las tareas: Respuesta a una pregunta concreta Nueva información respecto a los documentos previos Con respecto a un tema concreto (Evento, Persona…) Actualmente se viene a diferenciar dos métodos para la evaluación de resúmenes automáticos, hablamos de métodos intrínsecos y métodos extrínsecos. 4.1 Métodos de evaluación intrínsecos Valoran la calidad del resumen en legibilidad, comprensión, acrónimos, anáforas, integridad de la estructura, gramaticalidad, estilo impersonal. Valoran la informatividad. La información que contiene respecto a un resumen ideal e con respecto al texto original. 4.2 Métodos de evaluación extrínsecos Evalúan el uso del resumen en relación con otras tareas: - Encontrar documentos relevantes en una colección Decisión tomada leyendo el resumen o el texto original Sistemas de recuperación de información Contenidos páginas Web (buscadores) El Corpus de evaluación es la interfaz para indicar lo relevante que es una oración en el texto. Se utilizan sistemas de confección de un corpus de evaluación de resúmenes. Ejemplo: Proyecto Hermes, se puede ampliar esta información visitando la siguiente URL http://ima.udg.es/~mfuentes/cgi-bin/instruc.html 5.-Proyectos The Text Summarition Project TIDES program SweSum Project The Text Summarition Project (Universidad de Ottawa) El proyecto del que hablamos a continuación tiene como funciones generales extraer los contenidos más importantes de los textos y la aplicación de técnicas para el procesamiento de textos basado estadísticas y en inteligencia artificial. The Text Summarition Project ha desarrollado importantes herramientas para el proceso de lenguaje natural. A través de las investigaciones llevadas a cabo se ha implementado un sistema que genera resúmenes de textos en inglés técnico. El sistema extrae automáticamente una proporción reducida del texto, que contiene los puntos más importantes y significativos del original. Text Summarition está enfocado de manera que combina el procesamiento del lenguaje natural (Natural Language Proccesing: NLP) con la inteligencia artificial o aprendizaje de la máquina (Machine Learning: ML) para obtener un sistema eficiente y robusto. Con las investigaciones llevadas a cabo en este proyecto se ha conseguido que el sistema realice eficientemente las siguiente tareas: 1.- Identificación de palabras clave en el texto resumido. Para ello se han aplicado reglas de identificación de palabras clave en el aprendizaje de la máquina que veremos más adelante. 2.- Selección de frases significativas o destacables. Para lo que se han utilizado técnicas basadas en la incidencia de palabras clave. 3.- Producción de un resumen aproximado, utilizando los resultados de la selección de frases significativas. Objetivos El objetivo principal de esta investigación se centra en construir un único sistema capaz de extraer los conceptos principales del texto. La extracción de estos conceptos se basa en pulir las propiedades ligüísticas del texto y en la estadística más básica, dando mayor énfasis al texto original. En el transcurso de la investigación llevada a cabo en este proyecto se ha adquirido especial interés en los recursos léxicos de dominio público, en la información léxica, en el filtrado sintáctico de la información y en los análisis de frecuencia. EL resultado de todo ello ha sido una aproximación alentadora y válida al objetivo especificado anteriormente, utilizando tanto sistemas parcialmente manuales como otros parcialmente automáticos. Las aproximaciones en la generación automática de resúmenes se desvían en dos direcciones. Por un lado, los sistemas basados en sistemas clásicos de inteligencia artificial, como por ejemplo la dependencia conceptual. Y por otro lado, los sistemas que generan resúmenes a partir de la construcción de una representación del conocimiento o contenido del texto, que permite la selección y modificación de elementos del texto original. Por último, los sistemas heurísticos como pueden ser los basados en la ocurrencia, concurrencia y exclusión de frases no significativas, se pueden incluir en la segunda de las clases mencionadas, aunque los resultados obtenidos suelen ser bastante menos aceptables. En las investigaciones llevadas a cabo en este proyecto se propone la generación de resúmenes basada en el procesamiento superficial del texto original. En un principio el sistema fue implementado y se comprobó su eficacia, para posteriormente redireccionar el sistema hacia técnicas de procesamiento de textos, las cuales permiten al sistema “aprender” de las continuas búsquedas y acciones realizadas por él en determinadas áreas relacionadas. Trabajos relacionados Los criterios que se han seguido a la hora de llevar adelante este proyecto, a partir de otros trabajos y estudios anteriores, son los siguientes: Frecuencia y distribución de las palabras en el texto. Posición de las frases, teniendo muy en cuenta la estructura del texto. Presencia de palabras clave. Presencia de indicadores. Métodos y aproximaciones propuestos El desarrollo de métodos de computación lingüística (solos o en combinación con técnicas probabilísticas) han hecho del procesamiento del lenguaje natural un componente viable en la generación automática de resúmenes. Y actualmente, recientes trabajos sobre la búsqueda de información y resumen de documentos han incorporado a las técnicas habituales otras basadas en el conocimiento lingüístico, como por ejemplo la sintaxis, relaciones y discursos. Sin embargo, en lo concerniente a la cohesión del texto extraído sigue siendo uno de los apartados que sigue sin ser resuelto de una manera totalmente eficiente en el área que estamos estudiando. Técnicas Summarition Text es un sistema que produce resúmenes como resultado del análisis del texto en varios niveles: - Procesamiento lingüístico del texto que se desea resumir. Identificación de palabras clave usando las reglas que veremos más adelante. Selección de frases significativas por la aparición de palabras clave. Cohesión de la estructura del resumen a partir de la secuencia de frases extraídas. Métodos Procesamiento lingüístico. Este método consiste en obtener la raíz de las formas y etiquetar cada palabra, para lo cual se utiliza una base de datos léxica (WordNet), intentando solucionar la ambigüedad de ciertas palabras técnicas. La experiencia en la identificación de conceptos técnicos en el texto ha diseccionado la investigación hacia el uso de conocimiento sintáctico y análisis de frecuencia del texto para clasificar las frases poco importantes y las más significativas dentro de cinco categorías técnicas. Y en este caso la ambigüedad de las categorías sintácticas se soluciona en base a técnicas estadísticas aplicadas al texto. En otras palabras, si el dominio del texto se conoce, la mayoría de los conceptos del texto se pueden buscar en la base de datos terminológica para ese dominio o categoría técnica, y así solucionar el problema de la ambigüedad de los conceptos técnicos en un alto grado. Selección de palabras clave. Posiblemente la extracción de palabras clave sea la parte más sencilla en la generación de resúmenes. Su identificación se produce a través de la frecuencia de conceptos candidatos en un corpus extenso. En concreto es este sistema se ha experimentado con el sistema SMART de la Universidad Cornell. Como alternativa a este método, si una colección de textos pertenece a un dominio técnico concreto, las palabras clave se pueden determinar gracias a métodos de aproximación con reglas inductivas de aprendizaje del sistema, como hemos visto anteriormente. Determinación de frases significativas. El resumen automático a partir del nivel de las palabras clave no es capaz de generar una presentación formal del texto. Por ello se toman frases completas que se combinan con estas palabras clave y con una consideración más o menos pulida del resumen para alcanzar al objetivo final. Esta selección se realiza sobre la base de indicadores sintácticos, especialmente conjunciones, como también con las palabras clave. Cohesión de la estructura textual del resumen. La mera secuencia de frases extraídas del texto original es una solución poco efectiva. A pesar de que existen técnicas y nuevas líneas de estudio en este sentido, como por ejemplo el truncamiento de frases, Summarition Text no ha conseguido obtener resultados más favorables. Es por ello que se ha optado por un método aceptable, como es el uso de una estructura de grupos de frases en un árbol de relaciones. Uno de estos grupos está guiado por elementos que denotan ejemplificación, otro que denota especialización y otro que engloba aspectos más generales. Esta aproximación en la selección de frases del texto original y situación en la estructura del resumen ha sido la solución que mejor resultado ha ofrecido, y por tanto la que se ha incorporado al sistema. Evaluación. La evaluación de la calidad de un resumen es una tarea obvia, aunque es un proceso ambiguo, ya que se ha comentado mucho sobre cuáles son los parámetros a seguir y si son fiables, ya no solo para evaluar un resumen generado automáticamente sino también para uno generado manualmente. No obstante, algunos de los criterios que se siguen en la evaluación de los resúmenes producidos por este sistema son la precisión, entendimiento, brevedad, contenido extraído del original, etc. Programa TIDES Translingual Information Detection, Extraction and Summarization (TIDES), perteneciente a la Agencia de Proyectos de Investigación para la Defensa (DARPA) del gobierno estadounidense,TIDES es uno de los programas de mayor envergadura dentro de la creación automática de resúmenes, detección y extracción de información multilingüe. Objetivo: el programa TIDES tiene como objetivo el desarrollo de una tecnología avanzada de procesamiento del lenguaje que permita a los usuarios del idioma inglés encontrar e interpretar información crítica en múltiples lenguajes sin necesidad de su conocimiento. Ya que los materiales de idiomas extranjeros están creciendo en una proporción más rápida que los materiales del idioma inglés . el programa TIDES pretende hacer accesibles y utilizables estos materiales en el idioma inglés. La meta del programa es reducir significativamente la cantidad de tiempo que se tarda en recuperar información multilingüe, extraer la parte importante de esa información, su resumen e interpretación y la traducción automática en un nuevo idioma. TIDES desarrollará la capacidad para recuperar, resumir, extraer información y traducir la información en múltiples lenguas que usan interfaces de idioma inglesas. La información puede ser de dos tipos: Estructurada: Tablas. Mapas Diagramas Textos publicados. Sin estructura: Prosa. Transcripciones de discursos. E-mail. Áreas técnicas del programa: 1.-Área de TRADUCCIÓN AUTOMÁTICA: Aplicaciones encaminadas a la resolución del problema del desarrollo rápido de la traducción automática para los nuevos idiomas de interés. TIDES seleccionará varias docenas de idiomas para la : Traducción de la pregunta: es la formación de una pregunta del idioma extranjero en la entrada inglesa. Traducción del documento. Refinamiento de la pregunta (usando regeneración de relevancia).la pregunta de refinamiento es el estrechamiento, ensanchado o elboración terminológica de la pregunta para el volúmen lingüístico. 2.-Área de ACCESO A LA INFORMACIÓN Y SISTEMAS DE DIRECCION: Pruebas de la hipótesis de que el acceso a la información y dirección pueden ser reforzadas substancialmente por interacciones entre los componentes de serie. Los ejemplos de tales interacciones son: Descubrimiento del tema y interacción: es el proceso de separar materiales recuperados de los idiomas múltiples en las categorías de interés. Nombre y correlación del evento: incluye el análisis detallado de los recursos disponibles para identificar nombres de las personas, corporaciones y organizaciones, fechas, eventos, y para establecer correlación entre entidades relacionadas. Resumen del multi-documento: reducir el volumen de información a ser examinado por un factor típico de 10. También se utiliza el resumen de documentos múltiples para refinar la pregunta y mejorar el resultado. El interés se extiende a las interfaces para las preguntas multi-modales en las conexiones de banda ancha con grandes multi-medios de comunicación de alto volumen y los datos multi-linguales. El programa TIDES probará varias hipótesis en esta área: 1. un usuario terminal puede emplear la traducción automática para refinar una pregunta en un idioma extranjero y mejorar la actuación de la recuperación un 50%. La identificación de temas coherentes y consistentes mejorará otro 25%. 2. Pueden extraerse nombres, lugares, eventos, y las entidades relacionadas de los resultados de una búsqueda multilingüe, pueden ponerse en correlación y pueden alimentarse para mejorar la actuación de la recuperación un 25% más. 3. Un resumen multi-documento coherente puede usarse como una pregunta refinada para actuar en un sistema multilingüe comparable al uso que se le da en sistemas monolingües. 3.-Área de LAS HERRAMIENTAS Y RECURSOS: desarrollo de herramientas de análisis del cuerpo (estadístico, híbrido, lingüístico...) de manera que se habilite el extracto automatizado de gramática y vocabulario de cuerpos paralelos y comparables en múltiples idiomas. Desarrollo de herramientas para construir cuerpos paralelos y comparables de los documentos y herramientas lingüísticas para el análisis rápido del idioma. Desarrollo multilingüe de escrito y hablado de recursos idiomáticos de apoyo a las areas técnicas anteriores. Desarrollo de arquitecturas para la interoperabilidad de componentes. El programa TIDES proporcionará la habilidad de expresar una necesidad de información en inglés, y usará esta pregunta para analizar materiales en una multitud de idiomas. Recuperará materiales pertinentes, traducirá su volumen al inglés, nombres exactos de perdonas, eventos..., identificará eventos de interés y los pondrá en correlación al volumen de una serie de documentos en múltiples idiomas de manera resumida y traducida. El objetivo es desarrollar, rápidamente y con precisión , una comprensión de desdoblamiento de situaciones internacionales para proporcionar interpretaciones oportunas y validas para la toma de decisiones. Marco temporal del programa: El programa TIDES tiene una duración de 5 años con los siguientes objetivos: · Capacidades del sistema en por lo menos 30 idiomas. · 80% de la exactitud en correlación de entidad translingual. · 70% de la exactitud rellenando plantillas multilingües. · Habilidad de generar resúmenes pregunta específicos de 20 documentos en por lo menos 4 idiomas. El año 2003 es el tercer año del programa , pudiendo presentar nuevos proyectos que serán evaluados por DARPA para su inclusión dentro del proyecto estando ya cerrados los 15 proyectos. SweSum Project SweSum es un proyecto sueco creado por Martin Hassel y Hércules Dalianis que permite la traducción de textos en danés, inglés, francés, alemán, noruego, español y sueco. SweSum es accesible a través de internet a través de la URL: http://swesum.nada.kth.se/index-eng.html Los métodos de resumen utilizados son: ·Etiquetado en HTML el texto de un periódico sueco etiquetando solo los comandos de formato del texto. El resumidor se escribe en Perl que es un cordón (según los autores) excelente que procesa idiomas. ·Desde el texto procesado se tiene el texto del periódico donde las frases que están al principio se presupone que contienen más información. De esta manera se calcula un factor de Posición donde se da más peso a las frases del principio del documento que a las del final. La fórmula es : 1/ n donde n es el número de línea, llamado Básico. ·Las etiquetas HTML indican frases con mayor peso(texto intrépido) que las que contienen menos etiquetas, ya que los diarios titulan etiquetando. El texto intrépido también indica un cambio nuevo párrafo. ·A las frases con datos numéricos se les da una cuenta o puntuación más alta que sin valores numéricos.Se anotan frases que contienen palabras clave de frecuencia lata (tf). Para encontrar estas palabras se necesita usar un diccionario de clases de palabras. Todo el parámetro se normaliza y se pone en una función de combinación para obtener la cuenta o peso total de cada frase dentro del texto. CUENTA TOTAL: Peso posición Peso intrépido + Peso numérico + Peso Clave El usuario de Swesum también puede introducir sus propias palabras clave en el sistema y elegir el tamaño del resumen. Evaluación del sistema: Se usó una prueba de campo dentro del armazón (Tecnología del Idioma Humano). Se dieron a los estudiantes 10 textos de artículos con el propósito de ver cuanto un texto puede resumirse sin perder coherencia o información importante. La prueba se realizó leyendo el texto resumido y dando a SweSum la cantidad de texto original que les gustaría en el resumen, anotando en una encuesta cuando la coherencia estaba rota o se perdía información. De esta prueba se concluyó que el sistema funcionaba, al menos, tan bien como los resumidores en inglés con una coherencia de información del 30%. El uso de SweSum se explica de manera detallada en el apartado de productos al final de esta exposición. 6.-PRODUCTOS: Copernic COPERNIC SUMMARIZER es un software que permite resumir diversos tipos de documentos usando algoritmos estadísticos y lingüísticos, de manera que extrae las frases más relevantes. Entre sus funciones se encuentra: Crear resúmenes de cualquier texto incluido PDF: páginas web, PDF, e-mail, mensajes... Integrado en las aplicaciones más usuales: se pueden obtener resúmenes desde aplicaciones como Explorer, Netscape, Adobe Acrobat, Outlook Express, Eudora, Word.. Resúmenes en tiempo real mientras se navega en Internet: mientras se navega relaiza en tiempo real un resumen de la página web, de manera que no es necesario leer toda la página ahorrando tiempo. Uso de Web Essence: tecnología que automáticamente quita de las páginas web texto irrelevante, centrándose en los elementos esenciales del texto. Interface Intuitiva. Exporta los resultados a una gran variedad de formatos de archivo. Funcionamiento del programa: Concepts: aparecen las palabras claves extraídas del documento. Summary tasks: permite : Exportar el resumen a diversos tipos de archivo. Enviar el resumen por e-mail. Imprimir el resumen. Encontrar cadenas de texto en el resumen. Ayuda. Summary length: permite reducir el texto hasta un 5%, 25%, 50% y crear resúmenes de 100, 250 o 1000 palabras. Se puede encontrar una demo en:http://www.copernic.com/en/products/summarizer/index.html# Swesum SWESUM (ON-LINE) Proyecto sueco de resumen on-line de muy fácil utilización, contiene principalmente dos opciones de resumen: Permite a través de una URL resumir un documento eligiendo el tipo de texto del que se trata (periódico, académico), el porcentaje de documento a resumir, idioma etc..La segunda opción permite resumir textos escribiéndolos o desde el propio ordenador y asignarles diferentes pesos a la negrita, valores numéricos, palabras clave del usuario... Microsoft Word Herramienta de resumen Una de las opciones que nos permite Microsft Word es la de resumir documentos en este formato de una manera sencilla. La opción de AUTORESUMEN se encuentra en la barra de Herramientas y las opciones que permite son: Resaltar los puntos principales: resalta dentro del documento los puntos que considera principales. Crear un documento nuevo para colocar el resumen: coloca el resumen escogido en otro documento Word. Insertar un resumen o extracto al principio del documento. Mostrar solo el resumen sin salir del documento. En cuanto al tamaño del resumen permite escoger entre diversos tamaños 25%, 10%, 75% del documento original o crear un resumen de menos de 100 palabras, menos de 500 palabras o por oraciones (10 oraciones, 20 oraciones...) 7.-CONCLUSIONES Del análisis desarrollado sobre necesidades en el procesamiento de la información en el proceso de recuperación documental y con relación con las líneas de investigación que se están trabajando desde los grupos de investigación de las universidades podemos enumerar las siguientes conclusiones: 1.- El increíble crecimiento de la producción documental ha obligado a desarrollar herramientas que permitan procesar la información de una forma eficiente. Para ello se han creado sistemas de producción automática de resúmenes que permiten a los usuarios procesar y representar el contenido de los documentos de forma pertinente y fiable. 2.- Actualmente las investigaciones llevadas a cabo han derivado en dos líneas de trabajo fundamentales, a la hora de obtener los resúmenes de forma automática. Por definición se van a diferenciar dos tipos de resúmenes, por extracción y por abstracción. 3.- El procesamiento del lenguaje natural va dirigido a solucionar la ambigüedad del lenguaje natural a través de técnicas informáticas. Con ello se pretende solucionar problemas en varios niveles (morfosintáctico, sintáctico, semántico y contextual). 4.- Los métodos de representación del conocimiento en la generación automática de resúmenes se encuadra en tres grandes grupos: los métodos de extracción basados en la estructura superficial, los métodos de sumarización a medio camino entre el resumen y el extracto, y los métodos gráficos y relaciónales. 5.- El proceso de evaluación permite clarificar el resultado más o menos óptimo de la producción automática de resúmenes. Sin embargo es un procedimiento complejo, que está condicionado por la propia complejidad de la tarea de resumen (que se puede aplicar no solo al resumen automático sino también al manual). 6.- Hemos comprobado que la investigación en la generación automática de resúmenes va paralela a la investigación sobre Procesamiento de Lenguaje Natural (PLN). Las investigaciones han experimentado un incremento significativo en la década de los noventa y en estos momentos arroja resultados prometedores, basándonos en el análisis de los proyectos que se desarrollaron podemos afirmar que en el futuro la investigación está garantizada. Los grandes proyectos americanos (TIDES) y europeos (Proyecto WordNet) continúan buscando mejoras en los resultados. Sin embargo, hay que señalar que casi la totalidad de la investigación es en lengua inglesa pues cualquier sistema que pretenda trabajar sobre la información semántica de un documento precisa un módulo de desambigüación del sentido de las palabras(WSD), los recursos léxicos,las ontologías están orientadas a la desambiguación del sentido de las palabras en ingles . Además los numerosos recursos supone mayores facilidades en la fase de evaluación de resultados. Es muy significativo que el idioma de trabajo en que se desarrolla la investigación es el ingles, por tanto en este campo de investigación se considera un handicap para los investigadores que utilizan el español. No obstante en las universidades españolas la investigación en este campo es en ingles. Sin embargo, la aparición de diferentes WordNets, dentro del proyecto EurowordNet, permitirá el desarrollo de aplicaciones que podrán incorporar módulos de WSD en español y un avance en los próximos años para la investigación desde las universidades lengua española. 8.-Bibliografía Salvador Climent. Sistemas de resumen automático. Digithum.nº3. http://www.uoc.edu/humfil/digithum/digithum3/catala/Art_Climent_esp/Climent/climent.html Programa TIDES http://www.darpa.mil/iao/TIDES.htm http://www.darpa.mil/ipto/Solicitations/CBD_9926.html http://www.darpa.mil/baa/translingual%20information%20detection.html Programa The Text Summarization Project (Universidad de Ottawa) http://www.csi.uottawa.ca/~szpak/proposals/text-summ-1996.html#RTFToC1 SweSum project http://swesum.nada.kth.se/index-eng.html http://www.nada.kth.se/~hercules/Textsumsummary.html Pinto ,M. .Automatización de los resúmenes. El resumen documental. Ed.Fundación German Sánchez Ruipérez,2001. Segarra, E. Molina A. Pla, F. Sanchis E. Proyecto sobre el desarrollo de un sistema de comprensión de textos aplicado a la Recuperación de Información:TUSIR I Jornadas de Tratamiento y Recuperación de información (JOTRi) Notas 1. Mani, I. Y Bloerdon, E. Multi-document Sumarization by Graph Search and Matching.Procedings of American Association for Artificial Intelligence,1997. 2. Liddy, E.Natural Language Processing En Atheron y Johnson (Eds),Visualizing Subject Acces for 21st Century Information Resources.Illinois:University,1998 3. Paice, C.:Constructing literature abstracts by computer:techniquesand prospects.Information Processing and Management,1990,26,1,171-186 4. Edmundson, H.P; New methods in automatic extracting.J.Ass.Comput.Mach;1969, 16,2,264-285 5. Brandow,R.;Mitze, K. y Rau, L. Automatic Condensation of Electronic Publications by Sentence Selection .Information Processing and Management ,1995,31,5,675-685 6. Ahoen, H. Knowledge Discovery in Documents by Extracting Frecuent Word Sequences.Library Trends, 1999, 48,1, 160-181 7. Dejong, G.An overview of the FRUMP systems.En W.G. Rehnert, y M.Ringle (eds),Strategies for Natural Language Processing.London:Lawrwnce Ealbaum,1982,149-172 8. Rau,L. Organization and Acces in a Conceptual Information System.Information processing and Management,1987