Internet para bibliotecarios y documentalistas

Anuncio
Bibliotecas y Centros de
Documentación:
Internet para Bibliotecarios
y Documentalistas
Bibliotecas y Centros de Documentación:
Internet para bibliotecarios y
documentalistas
Dr. Jesús Tramullas
Profesor Titular de Documentación Automatizada
jesus@tramullas.com
tramullas@posta.unizar.es
Dep. Ciencias de la Documentación
Universidad de Zaragoza
http://tramullas.com
Módulo 1
Fuentes e instrumentos de búsqueda de información en Internet:
Directorios, motores de búsqueda, metabuscadores, agentes inteligentes,
internet invisible, portales...
0. Resumen
Se analiza la estructura de la información en Internet y sus implicaciones
para los procesos de recuperación de información. Se propone un proceso
estándar para las laboras de recuperación, y se revisan brevemente los
principales enfoques y herramientas disponibles para el desarrollo de la
actividad.
1. Planteamiento
Internet se ha planteado como un nuevo medio, la panacea universal, en
el acceso a la información, que se hace inmediata, fluida y actualizada en
tiempo real. En la literatura sobre el tema podemos encontrar todo tipo de
posturas, desde aquellos que la consideran como una nueva frontera, a
aquellos que ven en la misma una simple extensión de la actividad humana,
con los mismos problemas y errores. Al igual que cualquier otra herramienta,
Internet será buena o mala según la utilización que los usuarios hagan de la
misma.
En cualquier caso, la actividad que sobre ella y con ella desarrollen los
especialistas en información y documentación seguirá las pautas básicas de la
profesión: la organización, análisis, recuperación y difusión de los documentos
que solucionen los problemas que aquellos han planteado. Y para ello es
necesario, eso sí, conocer las nuevas posibilidades y herramientas que se
ofrecen al especialista para el desarrollo de sus actividades en Internet, y que
le van a facilitar alcanzar el nivel de éxito requerido por los usuarios.
El papel del especialista en información se verá reforzado en breve,
como intermediario especializado en la localización, selección y valoración de
los recursos de información. La paradoja de poner en el escritorio del usuario
no especializado todo el poder de búsqueda en Internet, ha traído como
consecuencia la necesidad de una mayor especialización en todo tipo de
cuestiones, que los usuarios, por muy diferentes causas, no pueden abordar.
En consecuencia con lo anterior, las unidades de información, además de
desarrollar sus tareas tradicionales, tendrán que aumentar el número de
recursos que destinan a las tareas de facilitar el acceso de los usuarios a la
información disponible en Internet. Ello supondrá, casi con total probabilidad, la
© 2001, Jesús Tramullas
1
aparición de una especialización en nuestro campo, dedicada a la
documentación digital en redes distribuidas abiertas, y cuyo trabajo tendrá un
fortísimo componente de conocimiento y habilidad tecnológica, a la par que de
integración del quehacer tradicional de las unidades de información y
documentación.
2. Problemas de los documentos digitales
El objeto básico de recuperación en Internet, por el momento, son los
documentos textuales. Sobre los mismos se aplican los principios de
tratamiento y recuperación que utilizan los sistemas de gestión documental y
de recuperación de información. Sin embargo, los documentos digitales que
forman la World Wide Web difieren sobremanera de la percepción clásica de
documento como unidad cerrada, ya que, pro contra, son cambiantes y
dinámicos. Estas particularidades deben ser tomadas muy en cuenta al
desarrollar los procesos de recuperación de información.
La información que es visualizada por el usuario en el web adopta la
forma de páginas web. Se trata de documentos textuales, es decir, documentos
cuyo componente fundamental es el texto. La norma que rige la construcción
de páginas web es el HyperText Markup Language, más conocido como HTML,
actualmente en su versión 4. La característica que le dota de un poder
extraordinario frente a otros soportes o formatos para documentos electrónicos,
es su capacidad hipertextual. Al considerar una página web como un
documento, resulta evidente que las características técnicas del HTML
permiten integrar todo tipo de informaciones, por lo que, aparentemente, la
página web se configura como el soporte documental ideal para los nuevos
documentos interactivos que se prevean para los próximos años. Y también
puede deducir que una página web, tal y como se la muestra el navegador,
tampoco existe realmente; lo que existen son las instrucciones y los elementos
necesarios para componerla.
El hipertexto es un sistema de organización y acceso a la información
basado en la asociación de documentos, que utiliza para ello un sistema
informático, y que sigue la metáfora de la red de elementos. El principio de
asociación permite que se pueda acceder directamente desde una idea a otras
íntimamente relacionadas con la primera, en virtud de diferentes criterios. Los
componentes fundamentales de los sistemas hipermedia, desde una
perspectiva informativa y documental, son los nodos, los enlaces y los anclajes.
El nodo es la unidad básica del hipertexto, la unidad de acción del usuario, que
la explora y evalúa en el contexto en el que se encuentra. Los enlaces
interconectan los nodos, y su ejecución permite conmutar o saltar entre los
nodos. El usuario tiene la libertad de ejecutar o no los enlaces, según su
interés. La ejecución de los enlaces es posible gracias a la presencia de los
anclajes. Los anclajes son los puntos de activación y de destino del enlace, y
suelen diferenciarse del resto de la información mediante atributos de
presentación. Si estos componentes los trasladamos a una página web, queda
claro que el nodo corresponde con la propia página web; que el anclaje es el
© 2001, Jesús Tramullas
2
texto o gráfico resaltado en la presentación, cuya pulsación nos llevará a otra
página web, y que el enlace, en realidad, es una etiqueta de HTML que no
vemos directamente.
El web es un entorno abierto, heterogéneo y cambiante, y esas
particularidades se reflejan en los documentos y páginas web. Las páginas web
poseen unas dimensiones organizadoras, espaciales y temporales muy activas,
de las que carecen los documentos escritos o impresos, e incluso los
documentos visuales dinámicos. Para bien o para mal, esa dimensión activa
supone que no existen límites a las variaciones que puede sufrir un documento,
en virtud de los intereses y motivaciones de su creador. Las principales
dimensiones, que no son excluyentes, ya que pueden combinarse unas con
otras, son:
1. Variabilidad de organización: en una primera versión de una página web,
todo el contenido informativo puede encontrarse en un único documento o
página web. Tras cierto periodo, el autor puede decidir cambiar esa
estructura organizativa, manteniendo el contenido informativo, pero
separándolo en varias páginas web con unidad de interpretación, y dotando
a las mismas de una navegación mediante enlaces.
2. Variabilidad de presentación: las páginas con el nivel de presentación A y el
contenido B, son sustituidas por las páginas con el nivel de presentación C,
pero manteniendo el contenido B.
3. Variabilidad de modificación: las páginas con el contenido A son sustituidas,
o complementadas, por las páginas con el contenido A+B.
4. Variabilidad espacial: en un momento dado, las páginas que el autor había
alojado en el servidor A son trasladadas, por diferentes causas, con cambio
o sin cambio de estructura, al servidor B, y desaparecen de A
definitivamente.
5. Variabilidad temporal: las páginas A con el contenido B son sustituidas por
las páginas A' (con la misma estructura y presentación), pero con el
contenido C. También cabe la posibilidad de que las páginas A y el
contenido B desaparezcan totalmente del web, sin ser sustituidas o
modificadas.
Debe tener en cuenta un último factor al analizar la variabilidad. Se trata
de aquellas páginas que no existen como ficheros HTML en ningún servidor,
sino que son generadas dinámicamente a petición del usuario. Generalmente
se trata de páginas que son creadas como resultado de consultar bases de
datos a través de una interfaz web. Por ejemplo, cuando consulta un motor de
búsqueda, o el catálogo de una biblioteca.
Por último, la propia estructura hipertextual del web hace que se
produzca desorientación cuando el usuario no comprende el contexto en el que
se sitúa, y cómo ha llegado a la situación en la que se encuentra en ese
momento. Suele ser producto de la ejecución de enlaces de manera errática,
que acaban llevando al usuario, espacial e informativamente, lejos de su
objetivo original. Los estudios psicológicos han demostrado que el ser humano
es capaz de recordar listados de hasta siete elementos, comenzado los errores
a partir de este punto. Tras la ejecución y revisión de siete o más anclajes
© 2001, Jesús Tramullas
3
(enlaces) y nodos, el usuario se ve superado por la cantidad, volumen y
relaciones recibidas durante el episodio hipertextual, no puede mantener el
nivel de concentración necesario, y se produce el desbordamiento cognitivo.
Ambos problemas, la desorientación y el desbordamiento cognitivo, están
íntimamente relacionados en los sistemas hipertextuales. Un buen diseño de la
información, en el ámbito de organización y de presentación, de interfaz de
usuario, es una garantía en estos casos, pero de nuevo ésto no depende de la
capacidad del usuario que busca, sino de las intenciones y habilidades del
creador y responsable de las páginas web.
2. El proceso de localización y recuperación de información
Los fundamentos sobre los que construir una técnica exitosa de
recuperación de información en Internet son el conocimiento de las
características propias de los documentos existentes en Internet, y de la teoría
de la recuperación de información. Las herramientas de búsqueda aplican
sobre el texto los principios que se han explicado sobre recuperación de
información textual, y los usuarios disponen de las mismas prestaciones para la
recuperación: operadores booleanos, de posición, vectorización… Al tratarse
de un entorno abierto y cambiante, las herramientas de búsqueda ofrecen
listados de resultados, que dirigen al usuario hacia el documento original. Los
cambios que se producen, por la propia dinámica del web, hacen que en
ocasiones esa redirección no ofrezca los resultados esperados, y que en
numerosas ocasiones haya que completar la búsqueda mediante procesos de
exploración basados en la navegación. El usuario siempre debe pensar que no
es suficiente, en recuperación de información en Internet, con seguir los
resultados obtenidos de un motor de búsqueda: hay que explorarlos,
analizarlos, valorarlos, y seleccionarlos como adecuados, o desecharlos como
no pertinentes. Las herramientas de recuperación de información en el web son
un medio más, una fase intermedia, no un fin.
Las aproximaciones a la RI en Internet pueden establecerse según la
creación de recursos, o según al herramienta utilizada. Ambos enfoques, al
igual que en casos anteriores, no son excluyentes:
Según la creación del recurso:
1. La creación de listados, índices y catálogos ordenados por áreas o
materias, de forma que el usuario dispusiese de un conjunto de fuentes
seleccionadas en las que empezar a buscar. El ejemplo más conocido es el
norteamericano Yahoo!. Han ido añadiendo motores internos a sus
prestaciones, de forma que permiten consultar mediante ecuaciones sus
bases de datos
2. La creación automática de bases de datos basadas en índices o ficheros
inversos, mediante unas aplicaciones que rastrean o exploran todo el
ámbito Web, llamados robots, spiders o wanderers. Estos robots rastrean el
web a la búsqueda de documentos, obtienen una copia, la indizan según los
© 2001, Jesús Tramullas
4
métodos vistos en el capítulo anterior, y usan los enlaces presentes en los
mismos para localizar nuevos documentos
Según la herramienta utilizada:
1. Directa: El navegador se conecta al servidor web que actúa como interfaz
del motor de búsqueda correspondiente a la base de datos que desea
consultar. El servidor le envía una página web que actúa como interfaz de
interrogación, a través de la cual formula la consulta. El servidor la recibe,
procesa y envía como respuesta una nueva página web, generada de forma
dinámica, que contiene las respuestas más pertinentes a la cuestión
formulada por el usuario.
2. Por intermediario: El navegador se conecta a un servidor web que le ofrece
una interfaz de interrogación propia. Esta interfaz le permite interrogar una
base de datos correspondiente a un motor de búsqueda situado en un
servidor web diferente al que ofrece la interfaz. La interfaz actúa como
intermediario entre el motor de búsqueda de destino y el usuario. El interés
de estos intermediarios (metabuscadores) se da cuando consultan a
múltiples motores de búsqueda.
3. Por agente: El usuario instala en su máquina una aplicación que permite
formular las ecuaciones de búsqueda y remitirlas a uno o varios motores de
búsqueda. La aplicación lanza conexiones simultáneas al conjunto de
motores que se trate, recibe las respuestas, y las entrega al usuario en una
presentación única, que puede ofrecer diferentes formas. Dependiendo de
las prestaciones del agente, las respuestas pueden ser filtradas, aplicando
criterios propios de eliminación de duplicados, reordenación de resultados,
etc.
4. Por robot personal: Se trata de aplicaciones que se instalan en el ordenador
del usuario, y que son capaces de acceder a un servidor web, construir un
mapa de índices de sus contenidos, y utilizar los mismos para acceder a la
información que sea interesante para el usuario, obteniendo copias de las
páginas o documentos web contenidos en el mismo.
Los siguientes párrafos proponen un proceso de recuperación; pero
debe recordarse siempre que la recuperación de información no es un proceso
y una actividad exacta: pueden haber varios procesos y varias soluciones
distintas para el mismo problema:
1. Planteamiento del tema y nivel de conocimientos: debe establecer
claramente cual es el objetivo de su interés. Hay objetivos que pueden
parecer adecuados, pero que en realidad necesiten un refinamiento;
plantee todas las posibles situaciones que pueden darse, y piense en
varias tácticas para acercarse al problema. Si prepara estas tácticas
alternativas, las respuestas que obtenga durante una consulta, sobre
temas relacionados con lo que está buscando, pueden servirle como
punto de partida para buscar por exploración. Debe establecer cual es
su propio nivel de conocimientos sobre el tema. Si su nivel de
conocimientos es adecuado, podrá abordar el problema de la fiabilidad
con mayores garantías. En cualquier situación, esta fase debe dar como
© 2001, Jesús Tramullas
5
2.
3.
4.
5.
6.
resultado una formulación clara e inequívoca del objetivo de su
búsqueda.
Identificación de los tipos de información: El web contiene diferentes
tipos de información, tanto por el tipo de fichero que los contiene, como
por el objetivo y finalidad de las páginas web y de los creadores de las
mismas. Debe establecer la posible utilidad de cada una de estos tipos
de documentos, y no desdeñar ninguno a priori, ya que por exploración
puede encontrar información complementaria que le sea de utilidad.
Selección de los recursos de información y de las herramientas de
consulta: La selección de los recursos de información, es decir, índices,
directorios y motores de búsqueda a utilizar, es de suma importancia.
Continuamente están apareciendo directorios especializados en los más
diversos temas; en numerosas ocasiones, ofrecen coberturas muy
parciales, aunque los índices que ofrecen tienen un alto nivel de
fiabilidad. Si no conoce estos directorios, debe recurrir a los motores
generalistas. Si desea comparar los resultados ofrecidos por varios de
éstos, lo más recomendable es utilizar un metabuscador. La segunda
parte de esta fase definirá que herramienta utilizará para consultar los
recursos de información. Podrá optar por un navegador para utilizar la
interfaz web de los motores o de los metabuscadores, o podrá usar un
agente personal, para el proceso de consulta a múltiples fuentes de
información.
Formulación de la ecuación. Ejecución. Recepción de respuestas. Debe
introducir en la interfaz o herramienta que haya seleccionado para
desarrollar la búsqueda, la expresión que reúne los términos elegidos, y
los operadores que establecen las relaciones existentes entre aquellos.
Los motores ofrecen siempre páginas de ayuda, en las que explican las
posibilidades del lenguaje de interrogación que usan, y suelen incluir
ejemplos. También ofrecen interfaces simples y avanzadas para
formular las ecuaciones. Es preferible que utilice las interfaces
avanzadas, ya que van a ofrecer más potencial y parámetros que
ayudan a perfeccionar las ecuaciones y a obtener resultados ajustados.
Un agente traducirá al lenguaje de cada motor la expresión que el
usuario introduzca, pero esa generalización hace perder la oportunidad
de usar operadores más restrictivos.
Preselección de respuestas pertinentes. Exploración de los documentos
originales: con use los datos que ofrece el listado para desechar
aquellos que no sean adecuados. Pulse en el enlace que le lleva al
documento original. Para aligerar el trabajo, y evitar la sobrecarga
cognitiva, use el menú emergente De esta forma podrá explorar el
documento, y otros relacionados con el mismo, sin perder la ventana con
el listado de respuestas, lo que facilitará nuevas exploraciones. Si el
documento, o documentos a los que ha accedido le interesan,
márquelos. En caso contrario, cierre la ventana y vuelva al listado
respuestas.
Replanteamiento de estrategias. Si tras analizar las quince o veinte
primeras respuestas no ha obtenido algún resultado satisfactorio, es
necesario cambiar la táctica. El cambio puede referirse a las ecuaciones
utilizadas, o al motor o herramienta seleccionado, o a ambas cosas. Si el
número de respuestas obtenido es muy elevado, y los primeros
© 2001, Jesús Tramullas
6
resultados son poco pertinentes, muy generales, formule una nueva
ecuación de búsqueda, con más condiciones y limitaciones.. En el caso
contrario, con nulo o escaso número de resultados, puede suceder que
a) si la ecuación no es restrictiva, entonces no hay documentos, o los
documentos no contienen esos términos; b) que la ecuación sea
demasiado restrictiva, con demasiadas condiciones. Para estos casos,
debe probar con una ecuación con menos condiciones, y usar términos
sinónimos o similares a los usados en la primera formulación.
3. Los directorios
Los directorios de recursos de información en Internet son una forma
organizada de localizar y acceder a temas de interés, del usuario, usando para
ello una clasificación, generalmente de tipo jerárquico. La clasificación por
temas suele realizarse mediante expertos humanos, que analizan y clasifican
en una o varias categorías, los recursos que se incluyen. Los directorios
genéricos son interesantes cuando no se posee un conocimiento del tema en
cuestión, ya que ofrecen puntos de partida seleccionados. La mayor parte de
estos directorios incorporan una interfaz de interrogación que permite consultar
su base de datos interna. El cada vez mayor número de portales temáticos está
dando lugar a lo que se ha dado en llamar portales, que ofrecen otros servicios,
además del propio directorio especializado.
Enlaces a utilizar:
Yahoo!
http://www.yahoo.com
http://www.yahoo.es
LookSmart
http://www.looksmart.com
© 2001, Jesús Tramullas
7
Figura 1. Yahoo!
4. Los motores de búsqueda
El creciente número de documentos presentes en Internet, desde 1993 y
1994, facilitó la aparición de herramientas de recopilación automática de
documentos, que recopilaban copias de todos aquellos que encontraban, y las
introducían en bases de datos textuales, que podían ser consultadas mediante
interfaces de búsqueda que permitían utilizar los operadores booleanos. En
principio, todos los motores de búsqueda ofrecen un esquema similar: base de
datos, programa de indización, robot de búsqueda e interfaz. El robot o araña
es el programa que cruza la Web moviéndose de un documento a otro,
descendiendo progresivamente a través de los hiperenlaces. El programa de
indización se ocupa de indizar la información de los millones de páginas web
ubicadas en servidores conectados a la red formando gigantescas bases de
datos a las que acceden los usuarios a través de la interfaz del buscador.
Los metabuscadores son sistemas cuyas interfaces facilita que se
pueden usar varios motores de búsqueda al mismo tiempo. Actúan como
intermediarios que remiten las cuestiones a varios motores seleccionados, y
reenvían las respuestas, procesadas o no, al usuario.
© 2001, Jesús Tramullas
8
Figura 2: Altavista
Enlaces a utilizar:
Altavista
http://www.altavista.com
Altavista España
http://es-es.altavista.com
Dogpile
http://www.dogpile.com
Excite
http://www.excite.com
Go.com
http://www.go.com
Google
http://www.google.com
HotBot
http://www.hotbot.com
© 2001, Jesús Tramullas
9
Lycos
http://www.lycos.com
Metacrawler
http://www.metacrawler.com
Northern Light
http://www.northernlight.com
5. Los agentes personales
Los sistemas de agentes más conocidos de Internet son, los web robots,
agentes que desarrollan todo tipo de tareas en el World Wide Web. Los más
populares y útiles, para el usuario común, son los agentes de búsqueda de
información, o searchbots. Los motores de búsqueda alimentan sus bases de
datos mediante la utilización de robots o agentes básicos, los llamados spiders,
wanderers o worms, a los que delegan las tareas de localización, acceso y
copia de documentos, como se ha explicado en capítulos anteriores. Junto a
éstos, cada vez en mayor medida está aumenta la utilización de los agentes
personales para recuperación de información, que actúan como intermediario
entre el usuario y los motores de búsqueda, tanto si éstos son de tipo general,
como especializados.
Las funciones técnicas que ofrecen los searchbot están muy
relacionadas con su funcionamiento directo. Las principales funciones
disponibles son:
1. Consulta autónoma a fuentes de información: el usuario establece
que fuentes de información, principalmente motores de búsqueda,
van a ser consultadas para solucionar la cuestión planteada.
2. Consulta simultánea: para optimar la conexión y el tiempo
disponible,
los
searchbots
no
lanzan
las
conexiones
secuencialmente, sino que lo hacen de forma simultánea.
3. Filtrado de respuestas: tras la recepción de las respuestas es
necesario someterlas a un filtrado que elimine referencias
duplicadas, inexistentes, o subsecciones de documentos principales,
por ejemplo.
4. Criterios de ordenación y ponderación de respuestas: incorporan
algoritmos capaces de analizar el contenido del documento, y dotarlo
con una escala de valoración de sus contenidos, ordenando el
conjunto resultante según la misma.
5. Obtención del documento original o primario y creación de recursos
de información: Las prestaciones anterior y siguiente se apoyan en
la capacidad de ir a la localización del documento, y obtener una
copia del mismo que es recibida y almacenada en el ordenador del
usuario. Así permiten crear recursos de información en su propio
© 2001, Jesús Tramullas
10
ordenador, que pueden adoptar la forma de bases de datos
textuales, directorios e índices en forma de páginas web, etc.
6. Definición de perfiles de usuario: creación de un archivo permanente
en el que almacenar esas ecuaciones, para su ejecución cuando sea
menester.
7. Temporalización de actividades: el searchbot debe ofrecer la
posibilidad de establecer la ejecución de perfiles de usuario a
intervalos temporales.
Figura 3: Agente personal Copernic 2001
Enlaces a utilizar:
BookWhere
http://www.bookwhere.com
BullsEye Pro
http://www.intelliseek.com
Copernic 2001 Basic, Plus y Pro
http://www.copernic.com
WebSeeker 98
http://www.bluesquirrel.com/products/seeker/webseeker.html
© 2001, Jesús Tramullas
11
Hurricane WebSearch 1.30
http://www.gatecomm.com/websearch
Lexibot
http://www.lexibot.com/
WebFerret 3.5.001
http://www.ferretsoft.com
6. La “Internet invisible”
La noción de Internet invisible se asocia a la presencia en la misma red
de gran cantidad de recursos de información, cuyo contenido no se encuentra
disponible usando los motores de búsqueda o los agentes personales. Esto es
debido precisamente a que, a su vez, esta “Internet invisible” se encuentra
recogida en bases de datos que sólo muestran su contenido cuando son
interrogadas, generando páginas web dinámicas, que evidentemente no
pueden ser descubiertas y analizadas por los robots que utilizan los
buscadores tradicionales. Dentro de la esta área invisible se engloba las bases
de datos especializadas, los catálogos de bibliotecas, las bases de datos de
prensa, etc. La aproximación más provechosa a cualquier tema de la Internet
invisible suele ser las recopilaciones realizadas y publicadas por expertos en
los diferentes temas.
Enlaces a utilizar
The Researching Librarian
http://www2.msstate.edu/~kerjsmit/trl/
LibWeb
http://sunsite.Berkeley.EDU/Libweb/
WebCats
http://library.usask.ca/hywebcat/
InfoMine
http://lib-www.ucr.edu/
Index Morganagus
http://sunsite.berkeley.edu/~emorgan/morganagus/
PICK
http://www.aber.ac.uk/~tplwww/e/
Digital Librarian
http://www.digital-librarian.com/
© 2001, Jesús Tramullas
12
InvisibleWeb.com
http://www.invisibleweb.com/
7. Bibliografía
TRAMULLAS SAZ, J. Y OLVERA LOBO, Mª.D., Recuperación de la
Información en Internet. Madrid: Ra-Ma, 2001.
8. Pautas de trabajo
Durante el desarrollo de las sesiones del módulo se llevarán a cabo
varios ejemplos de técnicas y tácticas de búsqueda, utilizando para ello
herramientas comentadas en el texto y en la exposición oral.
© 2001, Jesús Tramullas
13
Descargar