Bibliotecas y Centros de Documentación: Internet para Bibliotecarios y Documentalistas Bibliotecas y Centros de Documentación: Internet para bibliotecarios y documentalistas Dr. Jesús Tramullas Profesor Titular de Documentación Automatizada jesus@tramullas.com tramullas@posta.unizar.es Dep. Ciencias de la Documentación Universidad de Zaragoza http://tramullas.com Módulo 1 Fuentes e instrumentos de búsqueda de información en Internet: Directorios, motores de búsqueda, metabuscadores, agentes inteligentes, internet invisible, portales... 0. Resumen Se analiza la estructura de la información en Internet y sus implicaciones para los procesos de recuperación de información. Se propone un proceso estándar para las laboras de recuperación, y se revisan brevemente los principales enfoques y herramientas disponibles para el desarrollo de la actividad. 1. Planteamiento Internet se ha planteado como un nuevo medio, la panacea universal, en el acceso a la información, que se hace inmediata, fluida y actualizada en tiempo real. En la literatura sobre el tema podemos encontrar todo tipo de posturas, desde aquellos que la consideran como una nueva frontera, a aquellos que ven en la misma una simple extensión de la actividad humana, con los mismos problemas y errores. Al igual que cualquier otra herramienta, Internet será buena o mala según la utilización que los usuarios hagan de la misma. En cualquier caso, la actividad que sobre ella y con ella desarrollen los especialistas en información y documentación seguirá las pautas básicas de la profesión: la organización, análisis, recuperación y difusión de los documentos que solucionen los problemas que aquellos han planteado. Y para ello es necesario, eso sí, conocer las nuevas posibilidades y herramientas que se ofrecen al especialista para el desarrollo de sus actividades en Internet, y que le van a facilitar alcanzar el nivel de éxito requerido por los usuarios. El papel del especialista en información se verá reforzado en breve, como intermediario especializado en la localización, selección y valoración de los recursos de información. La paradoja de poner en el escritorio del usuario no especializado todo el poder de búsqueda en Internet, ha traído como consecuencia la necesidad de una mayor especialización en todo tipo de cuestiones, que los usuarios, por muy diferentes causas, no pueden abordar. En consecuencia con lo anterior, las unidades de información, además de desarrollar sus tareas tradicionales, tendrán que aumentar el número de recursos que destinan a las tareas de facilitar el acceso de los usuarios a la información disponible en Internet. Ello supondrá, casi con total probabilidad, la © 2001, Jesús Tramullas 1 aparición de una especialización en nuestro campo, dedicada a la documentación digital en redes distribuidas abiertas, y cuyo trabajo tendrá un fortísimo componente de conocimiento y habilidad tecnológica, a la par que de integración del quehacer tradicional de las unidades de información y documentación. 2. Problemas de los documentos digitales El objeto básico de recuperación en Internet, por el momento, son los documentos textuales. Sobre los mismos se aplican los principios de tratamiento y recuperación que utilizan los sistemas de gestión documental y de recuperación de información. Sin embargo, los documentos digitales que forman la World Wide Web difieren sobremanera de la percepción clásica de documento como unidad cerrada, ya que, pro contra, son cambiantes y dinámicos. Estas particularidades deben ser tomadas muy en cuenta al desarrollar los procesos de recuperación de información. La información que es visualizada por el usuario en el web adopta la forma de páginas web. Se trata de documentos textuales, es decir, documentos cuyo componente fundamental es el texto. La norma que rige la construcción de páginas web es el HyperText Markup Language, más conocido como HTML, actualmente en su versión 4. La característica que le dota de un poder extraordinario frente a otros soportes o formatos para documentos electrónicos, es su capacidad hipertextual. Al considerar una página web como un documento, resulta evidente que las características técnicas del HTML permiten integrar todo tipo de informaciones, por lo que, aparentemente, la página web se configura como el soporte documental ideal para los nuevos documentos interactivos que se prevean para los próximos años. Y también puede deducir que una página web, tal y como se la muestra el navegador, tampoco existe realmente; lo que existen son las instrucciones y los elementos necesarios para componerla. El hipertexto es un sistema de organización y acceso a la información basado en la asociación de documentos, que utiliza para ello un sistema informático, y que sigue la metáfora de la red de elementos. El principio de asociación permite que se pueda acceder directamente desde una idea a otras íntimamente relacionadas con la primera, en virtud de diferentes criterios. Los componentes fundamentales de los sistemas hipermedia, desde una perspectiva informativa y documental, son los nodos, los enlaces y los anclajes. El nodo es la unidad básica del hipertexto, la unidad de acción del usuario, que la explora y evalúa en el contexto en el que se encuentra. Los enlaces interconectan los nodos, y su ejecución permite conmutar o saltar entre los nodos. El usuario tiene la libertad de ejecutar o no los enlaces, según su interés. La ejecución de los enlaces es posible gracias a la presencia de los anclajes. Los anclajes son los puntos de activación y de destino del enlace, y suelen diferenciarse del resto de la información mediante atributos de presentación. Si estos componentes los trasladamos a una página web, queda claro que el nodo corresponde con la propia página web; que el anclaje es el © 2001, Jesús Tramullas 2 texto o gráfico resaltado en la presentación, cuya pulsación nos llevará a otra página web, y que el enlace, en realidad, es una etiqueta de HTML que no vemos directamente. El web es un entorno abierto, heterogéneo y cambiante, y esas particularidades se reflejan en los documentos y páginas web. Las páginas web poseen unas dimensiones organizadoras, espaciales y temporales muy activas, de las que carecen los documentos escritos o impresos, e incluso los documentos visuales dinámicos. Para bien o para mal, esa dimensión activa supone que no existen límites a las variaciones que puede sufrir un documento, en virtud de los intereses y motivaciones de su creador. Las principales dimensiones, que no son excluyentes, ya que pueden combinarse unas con otras, son: 1. Variabilidad de organización: en una primera versión de una página web, todo el contenido informativo puede encontrarse en un único documento o página web. Tras cierto periodo, el autor puede decidir cambiar esa estructura organizativa, manteniendo el contenido informativo, pero separándolo en varias páginas web con unidad de interpretación, y dotando a las mismas de una navegación mediante enlaces. 2. Variabilidad de presentación: las páginas con el nivel de presentación A y el contenido B, son sustituidas por las páginas con el nivel de presentación C, pero manteniendo el contenido B. 3. Variabilidad de modificación: las páginas con el contenido A son sustituidas, o complementadas, por las páginas con el contenido A+B. 4. Variabilidad espacial: en un momento dado, las páginas que el autor había alojado en el servidor A son trasladadas, por diferentes causas, con cambio o sin cambio de estructura, al servidor B, y desaparecen de A definitivamente. 5. Variabilidad temporal: las páginas A con el contenido B son sustituidas por las páginas A' (con la misma estructura y presentación), pero con el contenido C. También cabe la posibilidad de que las páginas A y el contenido B desaparezcan totalmente del web, sin ser sustituidas o modificadas. Debe tener en cuenta un último factor al analizar la variabilidad. Se trata de aquellas páginas que no existen como ficheros HTML en ningún servidor, sino que son generadas dinámicamente a petición del usuario. Generalmente se trata de páginas que son creadas como resultado de consultar bases de datos a través de una interfaz web. Por ejemplo, cuando consulta un motor de búsqueda, o el catálogo de una biblioteca. Por último, la propia estructura hipertextual del web hace que se produzca desorientación cuando el usuario no comprende el contexto en el que se sitúa, y cómo ha llegado a la situación en la que se encuentra en ese momento. Suele ser producto de la ejecución de enlaces de manera errática, que acaban llevando al usuario, espacial e informativamente, lejos de su objetivo original. Los estudios psicológicos han demostrado que el ser humano es capaz de recordar listados de hasta siete elementos, comenzado los errores a partir de este punto. Tras la ejecución y revisión de siete o más anclajes © 2001, Jesús Tramullas 3 (enlaces) y nodos, el usuario se ve superado por la cantidad, volumen y relaciones recibidas durante el episodio hipertextual, no puede mantener el nivel de concentración necesario, y se produce el desbordamiento cognitivo. Ambos problemas, la desorientación y el desbordamiento cognitivo, están íntimamente relacionados en los sistemas hipertextuales. Un buen diseño de la información, en el ámbito de organización y de presentación, de interfaz de usuario, es una garantía en estos casos, pero de nuevo ésto no depende de la capacidad del usuario que busca, sino de las intenciones y habilidades del creador y responsable de las páginas web. 2. El proceso de localización y recuperación de información Los fundamentos sobre los que construir una técnica exitosa de recuperación de información en Internet son el conocimiento de las características propias de los documentos existentes en Internet, y de la teoría de la recuperación de información. Las herramientas de búsqueda aplican sobre el texto los principios que se han explicado sobre recuperación de información textual, y los usuarios disponen de las mismas prestaciones para la recuperación: operadores booleanos, de posición, vectorización… Al tratarse de un entorno abierto y cambiante, las herramientas de búsqueda ofrecen listados de resultados, que dirigen al usuario hacia el documento original. Los cambios que se producen, por la propia dinámica del web, hacen que en ocasiones esa redirección no ofrezca los resultados esperados, y que en numerosas ocasiones haya que completar la búsqueda mediante procesos de exploración basados en la navegación. El usuario siempre debe pensar que no es suficiente, en recuperación de información en Internet, con seguir los resultados obtenidos de un motor de búsqueda: hay que explorarlos, analizarlos, valorarlos, y seleccionarlos como adecuados, o desecharlos como no pertinentes. Las herramientas de recuperación de información en el web son un medio más, una fase intermedia, no un fin. Las aproximaciones a la RI en Internet pueden establecerse según la creación de recursos, o según al herramienta utilizada. Ambos enfoques, al igual que en casos anteriores, no son excluyentes: Según la creación del recurso: 1. La creación de listados, índices y catálogos ordenados por áreas o materias, de forma que el usuario dispusiese de un conjunto de fuentes seleccionadas en las que empezar a buscar. El ejemplo más conocido es el norteamericano Yahoo!. Han ido añadiendo motores internos a sus prestaciones, de forma que permiten consultar mediante ecuaciones sus bases de datos 2. La creación automática de bases de datos basadas en índices o ficheros inversos, mediante unas aplicaciones que rastrean o exploran todo el ámbito Web, llamados robots, spiders o wanderers. Estos robots rastrean el web a la búsqueda de documentos, obtienen una copia, la indizan según los © 2001, Jesús Tramullas 4 métodos vistos en el capítulo anterior, y usan los enlaces presentes en los mismos para localizar nuevos documentos Según la herramienta utilizada: 1. Directa: El navegador se conecta al servidor web que actúa como interfaz del motor de búsqueda correspondiente a la base de datos que desea consultar. El servidor le envía una página web que actúa como interfaz de interrogación, a través de la cual formula la consulta. El servidor la recibe, procesa y envía como respuesta una nueva página web, generada de forma dinámica, que contiene las respuestas más pertinentes a la cuestión formulada por el usuario. 2. Por intermediario: El navegador se conecta a un servidor web que le ofrece una interfaz de interrogación propia. Esta interfaz le permite interrogar una base de datos correspondiente a un motor de búsqueda situado en un servidor web diferente al que ofrece la interfaz. La interfaz actúa como intermediario entre el motor de búsqueda de destino y el usuario. El interés de estos intermediarios (metabuscadores) se da cuando consultan a múltiples motores de búsqueda. 3. Por agente: El usuario instala en su máquina una aplicación que permite formular las ecuaciones de búsqueda y remitirlas a uno o varios motores de búsqueda. La aplicación lanza conexiones simultáneas al conjunto de motores que se trate, recibe las respuestas, y las entrega al usuario en una presentación única, que puede ofrecer diferentes formas. Dependiendo de las prestaciones del agente, las respuestas pueden ser filtradas, aplicando criterios propios de eliminación de duplicados, reordenación de resultados, etc. 4. Por robot personal: Se trata de aplicaciones que se instalan en el ordenador del usuario, y que son capaces de acceder a un servidor web, construir un mapa de índices de sus contenidos, y utilizar los mismos para acceder a la información que sea interesante para el usuario, obteniendo copias de las páginas o documentos web contenidos en el mismo. Los siguientes párrafos proponen un proceso de recuperación; pero debe recordarse siempre que la recuperación de información no es un proceso y una actividad exacta: pueden haber varios procesos y varias soluciones distintas para el mismo problema: 1. Planteamiento del tema y nivel de conocimientos: debe establecer claramente cual es el objetivo de su interés. Hay objetivos que pueden parecer adecuados, pero que en realidad necesiten un refinamiento; plantee todas las posibles situaciones que pueden darse, y piense en varias tácticas para acercarse al problema. Si prepara estas tácticas alternativas, las respuestas que obtenga durante una consulta, sobre temas relacionados con lo que está buscando, pueden servirle como punto de partida para buscar por exploración. Debe establecer cual es su propio nivel de conocimientos sobre el tema. Si su nivel de conocimientos es adecuado, podrá abordar el problema de la fiabilidad con mayores garantías. En cualquier situación, esta fase debe dar como © 2001, Jesús Tramullas 5 2. 3. 4. 5. 6. resultado una formulación clara e inequívoca del objetivo de su búsqueda. Identificación de los tipos de información: El web contiene diferentes tipos de información, tanto por el tipo de fichero que los contiene, como por el objetivo y finalidad de las páginas web y de los creadores de las mismas. Debe establecer la posible utilidad de cada una de estos tipos de documentos, y no desdeñar ninguno a priori, ya que por exploración puede encontrar información complementaria que le sea de utilidad. Selección de los recursos de información y de las herramientas de consulta: La selección de los recursos de información, es decir, índices, directorios y motores de búsqueda a utilizar, es de suma importancia. Continuamente están apareciendo directorios especializados en los más diversos temas; en numerosas ocasiones, ofrecen coberturas muy parciales, aunque los índices que ofrecen tienen un alto nivel de fiabilidad. Si no conoce estos directorios, debe recurrir a los motores generalistas. Si desea comparar los resultados ofrecidos por varios de éstos, lo más recomendable es utilizar un metabuscador. La segunda parte de esta fase definirá que herramienta utilizará para consultar los recursos de información. Podrá optar por un navegador para utilizar la interfaz web de los motores o de los metabuscadores, o podrá usar un agente personal, para el proceso de consulta a múltiples fuentes de información. Formulación de la ecuación. Ejecución. Recepción de respuestas. Debe introducir en la interfaz o herramienta que haya seleccionado para desarrollar la búsqueda, la expresión que reúne los términos elegidos, y los operadores que establecen las relaciones existentes entre aquellos. Los motores ofrecen siempre páginas de ayuda, en las que explican las posibilidades del lenguaje de interrogación que usan, y suelen incluir ejemplos. También ofrecen interfaces simples y avanzadas para formular las ecuaciones. Es preferible que utilice las interfaces avanzadas, ya que van a ofrecer más potencial y parámetros que ayudan a perfeccionar las ecuaciones y a obtener resultados ajustados. Un agente traducirá al lenguaje de cada motor la expresión que el usuario introduzca, pero esa generalización hace perder la oportunidad de usar operadores más restrictivos. Preselección de respuestas pertinentes. Exploración de los documentos originales: con use los datos que ofrece el listado para desechar aquellos que no sean adecuados. Pulse en el enlace que le lleva al documento original. Para aligerar el trabajo, y evitar la sobrecarga cognitiva, use el menú emergente De esta forma podrá explorar el documento, y otros relacionados con el mismo, sin perder la ventana con el listado de respuestas, lo que facilitará nuevas exploraciones. Si el documento, o documentos a los que ha accedido le interesan, márquelos. En caso contrario, cierre la ventana y vuelva al listado respuestas. Replanteamiento de estrategias. Si tras analizar las quince o veinte primeras respuestas no ha obtenido algún resultado satisfactorio, es necesario cambiar la táctica. El cambio puede referirse a las ecuaciones utilizadas, o al motor o herramienta seleccionado, o a ambas cosas. Si el número de respuestas obtenido es muy elevado, y los primeros © 2001, Jesús Tramullas 6 resultados son poco pertinentes, muy generales, formule una nueva ecuación de búsqueda, con más condiciones y limitaciones.. En el caso contrario, con nulo o escaso número de resultados, puede suceder que a) si la ecuación no es restrictiva, entonces no hay documentos, o los documentos no contienen esos términos; b) que la ecuación sea demasiado restrictiva, con demasiadas condiciones. Para estos casos, debe probar con una ecuación con menos condiciones, y usar términos sinónimos o similares a los usados en la primera formulación. 3. Los directorios Los directorios de recursos de información en Internet son una forma organizada de localizar y acceder a temas de interés, del usuario, usando para ello una clasificación, generalmente de tipo jerárquico. La clasificación por temas suele realizarse mediante expertos humanos, que analizan y clasifican en una o varias categorías, los recursos que se incluyen. Los directorios genéricos son interesantes cuando no se posee un conocimiento del tema en cuestión, ya que ofrecen puntos de partida seleccionados. La mayor parte de estos directorios incorporan una interfaz de interrogación que permite consultar su base de datos interna. El cada vez mayor número de portales temáticos está dando lugar a lo que se ha dado en llamar portales, que ofrecen otros servicios, además del propio directorio especializado. Enlaces a utilizar: Yahoo! http://www.yahoo.com http://www.yahoo.es LookSmart http://www.looksmart.com © 2001, Jesús Tramullas 7 Figura 1. Yahoo! 4. Los motores de búsqueda El creciente número de documentos presentes en Internet, desde 1993 y 1994, facilitó la aparición de herramientas de recopilación automática de documentos, que recopilaban copias de todos aquellos que encontraban, y las introducían en bases de datos textuales, que podían ser consultadas mediante interfaces de búsqueda que permitían utilizar los operadores booleanos. En principio, todos los motores de búsqueda ofrecen un esquema similar: base de datos, programa de indización, robot de búsqueda e interfaz. El robot o araña es el programa que cruza la Web moviéndose de un documento a otro, descendiendo progresivamente a través de los hiperenlaces. El programa de indización se ocupa de indizar la información de los millones de páginas web ubicadas en servidores conectados a la red formando gigantescas bases de datos a las que acceden los usuarios a través de la interfaz del buscador. Los metabuscadores son sistemas cuyas interfaces facilita que se pueden usar varios motores de búsqueda al mismo tiempo. Actúan como intermediarios que remiten las cuestiones a varios motores seleccionados, y reenvían las respuestas, procesadas o no, al usuario. © 2001, Jesús Tramullas 8 Figura 2: Altavista Enlaces a utilizar: Altavista http://www.altavista.com Altavista España http://es-es.altavista.com Dogpile http://www.dogpile.com Excite http://www.excite.com Go.com http://www.go.com Google http://www.google.com HotBot http://www.hotbot.com © 2001, Jesús Tramullas 9 Lycos http://www.lycos.com Metacrawler http://www.metacrawler.com Northern Light http://www.northernlight.com 5. Los agentes personales Los sistemas de agentes más conocidos de Internet son, los web robots, agentes que desarrollan todo tipo de tareas en el World Wide Web. Los más populares y útiles, para el usuario común, son los agentes de búsqueda de información, o searchbots. Los motores de búsqueda alimentan sus bases de datos mediante la utilización de robots o agentes básicos, los llamados spiders, wanderers o worms, a los que delegan las tareas de localización, acceso y copia de documentos, como se ha explicado en capítulos anteriores. Junto a éstos, cada vez en mayor medida está aumenta la utilización de los agentes personales para recuperación de información, que actúan como intermediario entre el usuario y los motores de búsqueda, tanto si éstos son de tipo general, como especializados. Las funciones técnicas que ofrecen los searchbot están muy relacionadas con su funcionamiento directo. Las principales funciones disponibles son: 1. Consulta autónoma a fuentes de información: el usuario establece que fuentes de información, principalmente motores de búsqueda, van a ser consultadas para solucionar la cuestión planteada. 2. Consulta simultánea: para optimar la conexión y el tiempo disponible, los searchbots no lanzan las conexiones secuencialmente, sino que lo hacen de forma simultánea. 3. Filtrado de respuestas: tras la recepción de las respuestas es necesario someterlas a un filtrado que elimine referencias duplicadas, inexistentes, o subsecciones de documentos principales, por ejemplo. 4. Criterios de ordenación y ponderación de respuestas: incorporan algoritmos capaces de analizar el contenido del documento, y dotarlo con una escala de valoración de sus contenidos, ordenando el conjunto resultante según la misma. 5. Obtención del documento original o primario y creación de recursos de información: Las prestaciones anterior y siguiente se apoyan en la capacidad de ir a la localización del documento, y obtener una copia del mismo que es recibida y almacenada en el ordenador del usuario. Así permiten crear recursos de información en su propio © 2001, Jesús Tramullas 10 ordenador, que pueden adoptar la forma de bases de datos textuales, directorios e índices en forma de páginas web, etc. 6. Definición de perfiles de usuario: creación de un archivo permanente en el que almacenar esas ecuaciones, para su ejecución cuando sea menester. 7. Temporalización de actividades: el searchbot debe ofrecer la posibilidad de establecer la ejecución de perfiles de usuario a intervalos temporales. Figura 3: Agente personal Copernic 2001 Enlaces a utilizar: BookWhere http://www.bookwhere.com BullsEye Pro http://www.intelliseek.com Copernic 2001 Basic, Plus y Pro http://www.copernic.com WebSeeker 98 http://www.bluesquirrel.com/products/seeker/webseeker.html © 2001, Jesús Tramullas 11 Hurricane WebSearch 1.30 http://www.gatecomm.com/websearch Lexibot http://www.lexibot.com/ WebFerret 3.5.001 http://www.ferretsoft.com 6. La “Internet invisible” La noción de Internet invisible se asocia a la presencia en la misma red de gran cantidad de recursos de información, cuyo contenido no se encuentra disponible usando los motores de búsqueda o los agentes personales. Esto es debido precisamente a que, a su vez, esta “Internet invisible” se encuentra recogida en bases de datos que sólo muestran su contenido cuando son interrogadas, generando páginas web dinámicas, que evidentemente no pueden ser descubiertas y analizadas por los robots que utilizan los buscadores tradicionales. Dentro de la esta área invisible se engloba las bases de datos especializadas, los catálogos de bibliotecas, las bases de datos de prensa, etc. La aproximación más provechosa a cualquier tema de la Internet invisible suele ser las recopilaciones realizadas y publicadas por expertos en los diferentes temas. Enlaces a utilizar The Researching Librarian http://www2.msstate.edu/~kerjsmit/trl/ LibWeb http://sunsite.Berkeley.EDU/Libweb/ WebCats http://library.usask.ca/hywebcat/ InfoMine http://lib-www.ucr.edu/ Index Morganagus http://sunsite.berkeley.edu/~emorgan/morganagus/ PICK http://www.aber.ac.uk/~tplwww/e/ Digital Librarian http://www.digital-librarian.com/ © 2001, Jesús Tramullas 12 InvisibleWeb.com http://www.invisibleweb.com/ 7. Bibliografía TRAMULLAS SAZ, J. Y OLVERA LOBO, Mª.D., Recuperación de la Información en Internet. Madrid: Ra-Ma, 2001. 8. Pautas de trabajo Durante el desarrollo de las sesiones del módulo se llevarán a cabo varios ejemplos de técnicas y tácticas de búsqueda, utilizando para ello herramientas comentadas en el texto y en la exposición oral. © 2001, Jesús Tramullas 13