MOTORES DE BÚSQUEDA EN INTERNET Trabajo de Investigación MOTORES DE BÚSQUEDA EN INTERNET Natalia S. Stark nstark@ing.unlpam.edu.ar Teleinformática y Redes Licenciatura en Sistemas de Información Universidad Nacional de Luján Resumen En este trabajo se describe la arquitectura de un motor de búsqueda convencional y su modo de operación. Se presenta el relevamiento de los motores de búsqueda: Google, Yahoo, Altavista, Infoseek y Terra, en base a sus características generales, modo de operación, capacidad para expresar condiciones de búsqueda, formato de salida y capacidad de personalización. Así mismo se explican en detalle métodos de indexación. Introducción Uno de los problemas actuales de las búsquedas en Internet es el enorme crecimiento que se evidencia en la Web, además de la cantidad de altas, bajas y modificaciones de recursos que se realizan. Un motor de búsqueda tiene por finalidad la selección de páginas web que respondan a las solicitudes de información que emiten los usuarios, es decir, buscar qué es lo que hay y para qué sirve, de manera de demostrar que las páginas web que se proporcionan son relevantes para el usuario y no para los intereses de los distintos sitios web o para los propietarios de los motores de búsqueda. Los motores de búsqueda visitan las páginas Web y realizan la indexación. La manera en que se efectúa dicha indexación es propia de cada motor. Uno de los elementos claves de un motor de búsqueda es el crawler (araña) que se ocupa de recuperar páginas web, generalmente se lo describe como un softbot (robot de software) usado por los motores de búsqueda automatizados que crean índices de URLs, palabras claves, textos, etc. En el mercado existen motores muy populares que no utilizar crawlers y se les denomina directorios, trabajan usando descripciones de las páginas que les proporcionan sus propietarios [1]. En un principio la cantidad de páginas que un motor era capaz de escanear, el tamaño del motor, constituía una medida de calidad o excelencia. Actualmente este criterio se está desplazando hacia otros como la indexación y el ranking. Estos dos factores están relacionados con la importancia de las páginas para el usuario que realiza una búsqueda, lo que lleva al desarrollo de modelos para crear criterios aplicables de forma coherente y sin ambigüedades Motores de Búsqueda y Arquitectura de un Motor de Búsqueda Los motores de búsqueda (search engines) son programas encargados de realizar las búsquedas dentro de las bases de datos de documentos web. Actualmente se clasifican en tres categorías principales: motores de búsqueda temática, también conocidos como directorios o catálogos; motores de búsqueda por palabras claves o "crawlers" y sistemas basados en el "content-routing [1, 2]. Los primeros se caracterizan por ser un índice de documentos recopilados manualmente, los mismos son sugeridos por sus propietarios, quienes además los clasifican en áreas específicas y brindan una descripción de la información que contiene el sitio, formando así una jerarquía de URLs. Para realizar búsquedas se debe recorrer un árbol jerárquico hasta dar con la información requerida. Debido a que la indexación se realiza en forma manual, la información que se encuentra no siempre está actualizada. Los crawlers están basados en el concepto de una única base de datos centralizada en donde se almacena toda la información. Algunos sistemas contienen varias bases de datos en una misma máquina, sin ningún tipo de conexión y cada una es tratada autónomamente . Se componen de un índice de URLs recopiladas en forma automática por un robot o mediante el envío de las mismas por parte de los administradores web. Cada sistema de esta categoría tiene sus propias características, herramienta de indexación y opciones de consulta, pero casi todos ofrecen la misma file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (1 of 12) [10/11/2001 8:38:26 AM] MOTORES DE BÚSQUEDA EN INTERNET funcionalidad. Finalmente, el tercer grupo de motor de búsqueda es el llamado sistemas basados en "content-routing". Estos sistemas se caracterizan por poseer una estructura distribuida y mecanismos de "content-routing" para guiar las peticiones de los usuarios a través de los servidores de información. En general, todos los motores de búsqueda reciben la consulta del usuario, que consiste en el ingreso de una o varias palabras claves, realizan la búsqueda en la base de datos y extraen una lista ordenada de documentos que responden a la consulta en forma total o parcial. El orden de las respuestas depende de una puntuación, que asocia el programa a cada documento cuando realiza la búsqueda y varía en cada caso, como por ejemplo cuanto antes aparecen las palabras o por proximidad entre las mismas. Están compuestos básicamente por: un robot, un índice y un mecanismo de búsqueda. [3] ● Un robot, es el programa que rastrea la web, tomando información sobre las páginas que encuentra. Cada robot trabaja en forma particular, generalmente parten de una lista determinada y a partir de ahí, hacen un rastreo recursivo de los documentos que se referencia en un documento. ● Un índice es la base de datos que contiene una copia completa o parcial de los documentos reunidos por el robot. ● Un Mecanismo de búsqueda, programa que permite al usuario encontrar páginas de su interés que estén en el índice a través de una página web y que devuelve resultados correspondientes a la búsqueda ordenados según los criterios establecidos previamente por el usuario. Operacionalmente, para recuperar determinada información, el usuario realiza una consulta (query), la cual llega al motor de búsqueda y donde es tomada por un componente (Query Expansion) que se encarga de transformar la consulta del usuario en un conjunto de incógnitas posibles en base a las palabras claves ingresadas por el usuario. Esto se realiza de acuerdo con el conjunto de términos indexados que posee el motor de búsqueda (topic terms). Una vez que se tienen las posibles incógnitas, las mismas son pasadas a un "Clustering" en donde se construye la información que se le mostrará al usuario, para lo cual se envían las palabras claves posibles al generador de frases (phase generation) y al mecanismo de rankeo de búsqueda (search engine ranking). El generador de frases selecciona la serie de títulos posibles para cada palabra buscada y el mecanismo de rankeo, al tener el rankeo de todas las búsquedas realizadas, completa los lugares de las palabras claves después del encabezado que creo para cada una de las frases generadas. La indexación de la información puede realizarse de dos maneras: los robots toman las listas de URLs provistas por file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (2 of 12) [10/11/2001 8:38:26 AM] MOTORES DE BÚSQUEDA EN INTERNET servicios que promueven sitios o páginas web o que son registradas por los usuarios al completar un formularios en forma manual en el que se sugiere una URL para su indexación proporcionando categoría, palabras claves e información adicional del sitio; o a través de los robots que son activados por los motores de búsqueda para que visiten las Web en busca de URLs o tópicos de interés. Se activa el "Neighborhood-based Topic Identification" para buscar URLs que pueden o no estar catalogadas y que se envían al "search engine selection index" para selecciona términos y tópicos de interés dentro de las mismas. En el caso de que el robot ya tuviese catalogada o registrada una URL encontrada verificará si fue modificada y de ser así, actualizará la información que contiene sobre ella. Cuando el "search engine selection index" finaliza la selección, envía los resultados obtenidos al mecanismo de rankeo de búsqueda (search engine ranking). A continuación se presenta el relevamiento de cinco motores de búsqueda seleccionados aleatoriamente. GOOGLE: surgió como un proyecto en la Universidad de Standford [4,5,6,7]. A pesar que no es uno de los primeros motores de búsqueda que aparecieron en la web, se ha convertido rápidamente en uno de los más usados. Modo de operación: Google cuenta con la tecnología de PageRank, con lo que aprovecha los vínculos directos entre las páginas web de distintos sitios, evitando la jerarquía de páginas. PageRank usa la gran estructura de vínculos como una herramienta para organizar la información. Google considera que un vínculo de una página a otra es como un "voto" que la primer página hace a la segunda. Una página es posicionada más arriba, al ser ordenada, que otra según tenga un PageRank mayor. La página que emite el voto es evaluada y si es considerada importante también dará mayor ponderación a la página votada y en consecuencia más importancia. PageRank es un indicador de Google y no depende de una consulta específica, se trata de la característica de una página, basada en datos de la web que Google analiza utilizando algoritmos complejos que evalúan la estructura de vínculo. Además utiliza técnicas de coincidencia de textos para encontrar páginas de resultado a una determinada consulta. Recibe sitios web enviados por los usuarios pero no garantiza su aparición en su índice. Se envían a través de un formulario donde se les solicita la URL del sitio (no es necesario enviar cada página individualmente) y un comentario o palabras claves que es optativo, a modo de información y no afecta la manera en que la página es indexada. Capacidad para expresar condiciones de búsqueda: para búsquedas básicas sólo requiere que se tipeen palabras descriptivas en el campo de búsqueda y buscará la coincidencia exacta permitiendo ajustar el número de resultados que se desea ver en cada página (10, 30 o 100, por defecto es 10). El operador lógico predeterminado es "AND" por lo que devuelve páginas que contengan la totalidad de los términos. Permite limitar una búsqueda o buscar en los resultados de la búsqueda actual. Para evitar una palabra en la búsqueda debe usarse el signo (-). No admite el operador OR, ni las búsquedas de raíz, ni las búsquedas con comodines. Google considera todas las letras como minúsculas. Acepta varios signos (guiones, barras, signos igual, puntos y apóstrofes) como conectores de frases los que funcionan como comillas, devolverá las páginas donde las palabras estén juntas. Permite realizar búsquedas por categorías y subcategorías. Para la búsqueda avanzada presenta un formulario que permite seleccionar entre buscar resultados con todas las palabras ingresadas y la cantidad de resultados que se desea (10,20,30,50,100) , por frases exactas, con alguna palabra o sin las palabras ingresadas. Permite búsquedas por páginas actualizadas en base a determinada fecha y por algún idioma en particular. Se puede especificar entre buscar páginas donde los términos ingresados se encuentren en el título, en la URL o en cualquier parte de la página. También se puede condicionar si las búsquedas se harán sólo de un determinado dominio o sitio web o si no se desea que pertenezcan a un dominio o sitio. Permite la búsqueda de imágenes y búsqueda específica a una página, esto es encontrar páginas similares o páginas con enlaces a una dada. Formatos de salida: los resultados devueltos se corresponden con todos los términos ingresados para la consulta y analiza la proximidad de esos términos dentro de una página, para evitar devolver páginas que no tengan nada que ver con lo que se desea encontrar. La primer línea del resultado es el título de la página web que cumple con la consulta. Si la página aún no fue indexada por Google o no se conoce su título, en vez del título se observa la URL de la página. En lugar de mostrar resúmenes del contenido de las páginas web encontradas, muestra el párrafo que coincide con la consulta, con las palabras de búsqueda remarcadas. En algunos resultados puede aparecer la marca RN (RealName), indica que se trata de una palabra clave en Internet como el nombre un producto, marca, empresa o servicio y que vinculará al sitio web del propietario. Cuando la palabra file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (3 of 12) [10/11/2001 8:38:26 AM] MOTORES DE BÚSQUEDA EN INTERNET clave de Internet coincide con el primer resultado de la búsqueda, la palabra clave de Internet y la marca RN aparecerán al final del título. Cuando la palabra clave de Internet es diferente del primer resultado de la búsqueda, aparecerá sobre los resultados de Google. Para todos los resultados muestra una línea de estadística donde se observa el número de resultados devueltos y el tiempo que tardó la búsqueda. Cuando devuelve varios resultados del mismo sitio web, el más importante va al inicio y los demás aparecen con sangría. Después de la dirección URL aparece un vínculo en caché y el tamaño de la parte del texto de la pagina web. Muestra la opción GoogleScout para usarla en caso de que se desee encontrar páginas relacionadas. Si los resultados están en inglés, se encuentra un vínculo que lo lleva directamente a una versión de la página en español Cuenta con un botón "me siento afortunado" que lleva directamente al sitio Web del primer resultado de búsqueda. Google almacena páginas Web en la memoria caché de la PC del usuario con el fin de recuperarlas para los usuarios como una copia de seguridad, en caso de que el servidor de la página falle temporalmente, se observan vínculos al final de los enlaces resultantes. Opciones anexas: brinda la opción de contactos para realizar preguntas de tipo comercial, técnicas o de cualquier tipo, además de su sistema de ayuda. No presenta carteles de publicidad en su página principal, sí un enlace para servicio de publicidad. Capacidad de personalización: ● Permite que los usuarios puedan configurarlo como motor de búsqueda predeterminado o como página de inicio del navegador. ● ● Brinda logotipos y un pequeño código para quienes quieran incorporarlos en sus propias páginas web. Presenta un sector de preferencias donde los usuarios pueden seleccionar el idioma de la interfaz y si desean traducir los resultados de la búsqueda a dicho idioma. También pueden seleccionar el o los idiomas de búsquedas, especificar la cantidad de resultados a mostrar por páginas y si se desean ver los resultados de la búsqueda en una nueva ventana del navegador. ALTAVISTA: fue construido por la empresa Digital, inició sus servicios en 1995. Es un buscador de contenido internacional con versiones en distintos idiomas. Posee sitios de búsqueda en Brasil, Canadá, Estados Unidos, Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Irlanda, Italia, Países Bajos, Noruega, Portugal, Suecia, Reino Unido, Australia, India , Corea del Sur. [3,5,8] Modo de operación: las páginas son recogidas por un robot que las indexa tomando todas las palabras de un documento, excepto los comentarios. Esto incluye todo el texto, el texto del código ALT de las imágenes, vínculos, enlaces, títulos, códigos META, nombres de objeto applet y ActiveX, la dirección URL de la página, el nombre del host y el nombre de dominio. Usa las primeras palabras del documento como un breve resumen. Para dar de alta una página el usuario debe completar un formulario con solamente la URL de la página. El sistema es capaz de reconocer las etiquetas META de título, descripción y palabras-clave y extraer la información que contienen. El usuario puede usar códigos META para especificar palabras clave adicionales y una breve descripción, como única manera de controlar la forma como se incluye la página en el índice. Cuando se recibe una URL, ésta se agrega al índice junto con todas las de los demás sitios con los que tenga enlace. Capacidad para expresar condiciones de búsqueda: presenta dos formularios, uno para búsquedas simples y otro para avanzadas. En los formularios para búsquedas simples, permite especificar el idioma de búsqueda. Trata a las frases ingresadas en el campo de búsqueda como si fuesen un conjunto de palabras separadas por espacios. Para que tome toda una frase debe "encerrársela" entre comillas, o reemplazar los espacios por ";". Es posible usar las opciones de intersección "+", file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (4 of 12) [10/11/2001 8:38:26 AM] MOTORES DE BÚSQUEDA EN INTERNET de exclusión (-) y de unión (OR) además de paréntesis para acotar búsquedas. Para buscar palabras que derivan de una misma raíz se usa el "*". En las búsquedas avanzadas además del idioma se puede limitar resultados a fechas específicas (por intervalos de tiempo o intervalos de fechas), limitar la cantidad de resultados por páginas (10,20,30,40,50) o limitar la búsqueda a una URL determinada. En búsquedas avanzadas no se permiten comillas simples, operadores , ni palabras sueltas. Si las palabras claves se escriben en minúscula las buscará tanto en minúscula como en mayúscula, en cambio si se escribe alguna letra mayúscula buscará la coincidencia exacta. Formatos de salida: cada documento obtiene una categoría o puntuación para determinar el orden de aparición en la página de resultados. Esa puntuación está basada en la cantidad de palabras, coincidentes con la consulta, que contiene el documento, según el lugar que ocupan las palabras en el documento y según la proximidad que existe entre ellas. En los formularios simples las páginas seleccionadas son presentadas por un orden de relevancia establecido por el propio sistema. En el formulario de búsqueda avanzada el usuario decide el orden de presentación haciendo uso de la opción ranqueo (Ranking), indicando el término que deben contener las páginas presentadas en primer lugar. De cada página de resultado se visualiza: el título, la URL y las primeras palabras en el caso de que no contenga etiqueta META de descripción; si contiene etiqueta META, aparece el contenido de la misma. Según el tipo de búsqueda y la personalización de la misma, se muestra el tamaño de la página (bits), el idioma y la fecha de la última modificación. Se pueden mantener abiertas simultáneamente la página de resultados y uno de los documentos presentados. Opciones anexas: cuenta con otras opciones tales como un sistema de ayuda en línea, software de traducción a numerosos idiomas y permite búsqueda de multimedia: sonido, mp3, video e imágenes. Capacidad de personalización: cuenta con una sección, en la que el usuario puede personalizar el buscador a su manera : ● especificar si desea buscar resultados en una determinada región o a nivel mundial. ● configurar para obtener resultados como sólo texto o texto e imágenes, ● determinar la información de los resultados en forma compacta o de página completa (fecha de la última modificación, el tamaño HTML en Kb. y el idioma para cada página). ● establecer la cantidad de resultados a mostrar por páginas (por defecto es 10), ● realizar búsquedas en uno o más idiomas. ● activar o desactivar la traducción de páginas. agregar Altavista al navegador mediante la barra de vínculos (Power Browser) o agregar un cuadro de búsqueda de Altavista a una página web propia. ● YAHOO (Ya Another Hiererchical Officious Oracle): pertenece a la empresa Yahoo! Inc. Es uno de los motores de búsqueda temática más antiguo en Internet. [3,5,8]. En cuanto a contenidos, su alcance es internacional, con versiones en distintos idiomas. Modo de operación: Yahoo evalúa los sitios web sugeridos por sus usuarios y los indexa en forma manual. Estos rellenan un formulario donde se solicita la URL, el título y la descripción del recurso a incluir como así la categoría o las categorías a las que pretende que pertenezca. El motor de búsqueda de Yahoo se basa en el título y la descripción, no permite incluir palabras claves y no trabaja con los elementos META. Capacidad para expresar condiciones de búsqueda: una de las formas de búsqueda es a través de la clasificación temática donde se pueden ir seleccionando los links de interés mientras se avanza por categorías y subcategorías hasta donde se considere necesario. Es conveniente usarla cuando se desea encontrar todo lo relacionado con un tema. Otra manera de realizar la búsqueda, cuando se trata de una página o servidor en concreto, es ingresando en el campo de búsqueda la palabra o las palabras consideradas claves de lo que se necesita encontrar, de esta forma se podrá buscar ● siguiendo la categorización mostrada, ● siguiendo el link de los sitios web que han sido enumerado por yahoo, que contienen las palabras ingresadas, o ● siguiendo las páginas web contenidas en el índice de Google. file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (5 of 12) [10/11/2001 8:38:26 AM] MOTORES DE BÚSQUEDA EN INTERNET Para los dos primeros casos Yahoo busca las correspondencias en su base de datos y luego ordena los resultados por orden de relevancia, que está dado por la cantidad de palabras claves que se hayan encontrado (a mayor cantidad de palabras claves mayor relevancia), las coincidencias exactas con las palabras claves y en qué parte del documento se encontraron las palabras claves (las encontradas en el título son de mayor relevancia que las encontradas en las URL o en los comentarios). Dado que Google es un buscador especializado si Yahoo no encuentra correspondencias para la búsqueda en sus bases de datos, arroja los resultados obtenidos en su asociado, Google. A veces puede resultar de utilidad combinar las dos formas de búsqueda. Las búsquedas pueden ampliarse o acotarse de acuerdo a las opciones de búsqueda y a la sintaxis usada. Si la consulta no fuese satisfactoria se podría enlazar con otros buscadores mencionados por yahoo. El sistema permite truncar, buscar por frases mediante el uso de comillas, el uso de los operadores boléanos AND (+), NOT (-) y OR, pero no permite el uso de paréntesis, lo que hace a las posibilidades de búsqueda medianamente satisfactorias. No es sensible a mayúsculas / minúsculas. Formatos de salida: si la búsqueda se realizó en las bases de datos de Yahoo, los sitios web resultantes de la misma mostraran el título con el enlace y devolverán la categoría a la que pertenece. Tendrán mayor rango en la presentación aquellos documento que contengan más cantidad de palabras claves o si las palabras claves ingresadas pertenecen al título del recurso o a una categorización general. No se pueden mantener abiertas paralelamente la lista de resultados de la búsqueda y una de las direcciones recuperadas. Algunos signos brindan mayor información sobre un enlace determinado. ● El signo @ al final de un enlace: significa que el encabezado del enlace está incluido en más de un lugar dentro de la jerarquía de Yahoo. ● [Xtra!]: existe información que se actualiza diariamente sobre el tema elegido. ● NEW!: significa que el enlace fue dado de alta durante la última semana. ● Números entre paréntesis luego de las categorías de Yahoo: indican la cantidad de documentos enumerados directamente bajo ese encabezado temático. ● Unas gafas: para destacar los servidores que considera más interesantes por contenido, novedad, diseño, etc. Opciones anexas: las ayudas detallan ejemplos de cómo realizar las búsquedas. Desde su página principal se puede acceder a distintas opciones, como por ejemplo: lista de servicios añadidos durante la última semana, casilla de correo electrónico, agendas, chats, finanzas, páginas amarillas, juegos, etc. Capacidad de personalización: permite convertirlo en la página de inicio. INFOSEEK: fue lanzado en febrero de 1995, creado por la empresa The Infoseek Corp. Es un buscador dee cobertura internacional.[3,5,10] Modo de operación: las páginas son localizadas e indexadas por un robot. Pueden darse de alta página a página, completando en un formulario dado por el sistema, solamente la URL de la página web. El robot es capaz de identificar las etiquetas META de palabras clave y de descripción existentes en las páginas utilizando la primera para la indización de la página y la segunda como resumen del contenido en la visualización de resultados. Capacidad para expresar condiciones de búsqueda: el método que sigue para indexar y ordenar los resultados de las búsquedas se basa en criterios: en primer lugar aquellas páginas en cuyo título ( o cerca de éste) se encuentra la palabra clave ingresada, cantidad de palabras claves o frases que aparecen en la pagina web o si el término ingresado es poco común en la base de datos. Presenta dos formularios de búsquedas, uno para búsquedas simples y otras para búsquedas avanzadas. La sintaxis por defecto es "o", es decir que los espacios entre las palabras claves ingresadas se interpretan como "o". Si se ingresan palabras que contengan alguna o todas las letras en mayúscula busca la coincidencia exacta, si los términos se ingresan en minúscula busca tanto mayúsculas como minúsculas. Para buscar por frases, deberá escribírselas entre comillas o separadas por guiones. Permite el uso del signo + en lugar del AND y el – en lugar del OR, pero no el uso de paréntesis. En el idioma Inglés ofrece reconocimiento de conceptos (ej. sinónimos) y el file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (6 of 12) [10/11/2001 8:38:27 AM] MOTORES DE BÚSQUEDA EN INTERNET truncamiento de términos es automático, no existe un símbolo para representarlo en otro idioma. Las búsquedas pueden hacerse en texto libre o bien limitarse a los campos URL y título. No limita la cantidad de palabras a ingresarse en el campo de búsqueda. Permite separar nombres propios con una coma y la barra vertical para buscar por el segundo término en aquellos documentos que contengan el primero. Formatos de salida: En cada página de resultado aparece el título, la URL, la descripción (la que aparece en la etiqueta META, en el caso de que exista, o las primera líneas que aparecen en la página propiamente dicha), el tamaño de la página (bits) y la fecha de alta en el sistema. Agrupa los resultados provenientes del mismo sitio, asociándolos con el más relevante de ellos, de manera que se tiene la opción de pedir que los presente juntos en una misma página. Existe un único formato de presentación que es el propuesto por el sistema. No permite acotar búsquedas por el criterio fecha de alta de las páginas. Se recuperan páginas y no recursos que además no pueden ser agrupadas por servidores. Permite ocultar la descripción de las páginas arrojadas como resultado mostrando únicamente los títulos Opciones anexas: en las ayudas se explica cómo realizar la búsqueda y los criterios de presentación de los resultados. Presenta secciones de páginas clasificadas y noticias. TERRA: es una herramienta de búsqueda con contenidos realizados en español, catalán, euskera, gallego, bable y portugués para facilitar la navegación de usuarios de Internet de habla hispana. [11] Este buscador está presente en Argentina, Brasil, Colombia, Costa Rica, Chile, El Salvador, España, Guatemala, Honduras, México, Nicaragua, Panamá, Perú, Uruguay, USA, Venezuela. Modo de operación: Contiene un directorio tipo índice con sitios clasificados temáticamente en 16 categorías, con distintas subcategorías. El directorio se actualiza diariamente con el alta de páginas que se cargan en forma manual a través de una formulario. Los datos solicitados en el formulario son: sector en donde ubicar la página web, título, URL, idioma en que está redactada la página, país de origen, zona geográfica de influencia, tipo de servicio o tipo de documento que proporciona la página, explicación que acompañará al título, palabras claves (hasta siete), e-mail de contacto técnico, e-mail de contacto contenido y clave de borrador. Capacidad para expresar condiciones de búsquedas: presenta una categorización temática, donde se puede inspeccionar la jerarquía hasta dar con el tema de interés. Para búsquedas específicas puede introducirse una o más palabras claves en el campo de búsqueda separadas por espacio. A través de un formulario se pueden expresar las condiciones de búsqueda avanzadas: buscar ocurrencias en título, URL, palabras clave, descripción, servicios o zonas de influencia; se puede especificar el ámbito de búsqueda en local, regional o mundial; por idioma de páginas; por antigüedad de las mismas; por país de origen y por tipo de servicio. Las búsquedas avanzadas pueden ser por páginas o por sitios web. Para sitios se debe seleccionar en un formulario los campos donde se pretenden estén las palabras consultadas (título, URL, etc), el idioma de la página, el ámbito (local, internacional), tipo de servicio, antigüedad de la página y país de origen. Para búsquedas por páginas se debe especifica la o las palabras a buscar separadas solamente por espacios, el método de búsqueda (OR/ AND entre palabras, por frases, en el título, frases con links a ese dominio, como nombre de personas, frases lógicas), idioma de las páginas, filtrado de recursos según otras palabras (páginas de resultados con todas las palabras, con algunas o con ninguna), control de fechas (después de o antes de), control geográfico, control del servicio donde se encuentra la página, profundidad de la página en el servidor (principal, página personal, profundidad entre 0 y 4, o cualquiera). Brinda la opción de "búsquedas al azar", que sugiere en forma aleatoria una página web para comenzar a navegar y un abecedario donde buscar los temas de interes sin tener que explorar el directorio temático. Formatos de salida: presenta los siguientes elementos de resultados: ● enlaces a empresas, productos, servicios y marcas que cumplen la condición de búsqueda, ● servicios ofrecidos por Terra relacionados con el término de búsqueda, ● URLs relacionadas que se ajusten a la búsqueda, en función del volumen de resultados obtenido puede presentar los resultados agrupados por sectores de a 25 sitios o datos de cada uno los enlaces resultantes de la consulta con el título, URL y una breve explicación de la misma, presentados de diez en diez y sin límite de cantidad. Se detalla el número de resultados obtenidos para los idiomas: español, catalán, euskera, bable, gallego y portugués. file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (7 of 12) [10/11/2001 8:38:27 AM] MOTORES DE BÚSQUEDA EN INTERNET En la presentación también se distinguen los resultados según correspondan a sitios, páginas web o productos En "estrenos" se encuentra la selección de las mejores páginas webs dadas de alta en los últimos siete días. Las webs seleccionadas son identificadas por estrellas rojas. Con "N , nuevos" se indican los Webs de resultado dadas de alta en los últimos quince días. Opciones anexas: tiene una base de datos Realnames con sitios de empresas, productos, servicios y marcas y una base de datos Inktomi que contiene páginas web a diferencia del buscador de Terra que contiene sitios web. Presenta un "Árbol de sectores" que muestra la organización jerárquica de las categorías y subcategorías en las que se distribuyen las webs dadas de alta para poder visualizar fácilmente la estructura que hay debajo de un sector determinado. Servicio de publicidad para que las páginas aparezcan en los primeros lugares de una determinada categoría. En su página principal presenta opciones como por ejemplo: diccionario de traducción online a varios idiomas, la opción disco virtual, y la de "newsletter" donde se recibe lo mejor de Terra, permite enviar tarjetas de vos, participar de foros, chats, compras, noticias, horóscopo, etc. Capacidad de personalización: Permite introducir enlaces hacia Terra desde una página web del usuario así como realizar búsquedas desde la página del usuario. Modo de Operación Google Altavista Robot X X Manual X X Yahoo Infoseek Terra X Recolección de datos Organización de datos X X X Palabras claves X X X Categorías X X X X Conceptos X PageRank X Título URL Datos imprescindibles para dar de alta una Pág. (por el usuario) X X X X Descripción X X Categoría X X otras Condiciones de búsquedas Coincidencia exacta Búsqueda por X X Google Altavista X Yahoo Infoseek X Nro. de palabras claves X X X Ubicación en la Pág. X X X Proximidad entre palabras X file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (8 of 12) [10/11/2001 8:38:27 AM] X Terra MOTORES DE BÚSQUEDA EN INTERNET Seleccionar cant. de rtas. (10 por defecto) X X X AND X pred. X X X X NOT X X X X X X X X pred. X (;) X X X OR Operadores "" (-, /, =, ‘) () X * X X X X X Parcial Parcial X Parcial X Simple X X X X X Avanzado X X X X X Todos/algunos/ninguno X X De actualización X X Por idioma Por categorías Formulario de Búsqueda Búsqueda por términos Búsqueda por fechas Intervalos de tiempo X X Entre fechas X X URL X X X X X Título X X X X X Descripción X X X Dominios X X X X Todo min X X X Google Altavista Yahoo Infoseek Terra Título X X X X X URL X X X X X Búsqueda en Búsqueda de imágenes Mayúsculas - minúsculas No sensible Formatos de Salida Párrafo que coincide con la consulta Comentario X X Contenido de <META> X Resumen o comentario Estadísticas: tiempo y nro de resultados X X X X Categoría file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (9 of 12) [10/11/2001 8:38:28 AM] X X X X MOTORES DE BÚSQUEDA EN INTERNET Marca RN Información sobre enlaces X X enlace nuevo X X Sitios interesantes X X Varios resultados de un mismo sitio X X Actualizado permanentemente X Fecha de última actualización X X Tamaño de la Pág. X X Vínculos en otro idioma X A pág. relacionadas X A pág. en memoria caché X lista de resultados y dirección recuperada Capacidad de Personalización X Google X Altavista Buscar en índices locales o mundiales X Formato de resultados (solo texto /texto e imágenes) X información compacta o detallada de los resultados X Cantidad de resultados por página X X Idioma de búsqueda X X Activar / desactivar Traducción X X Idioma de interfaz X Ver resultados de búsqueda en ventanas nuevas X Como página de inicio Yahoo X Infoseek Terra X Métodos de Indexación Con la operación de indexación se representan los resultados del análisis de contenido de un documento o de una parte del mismo, mediante elementos que facilitan la recuperación, generalmente denominados "términos de indexación". A diferencia de los directorios, cuya indexación es intelectual, los motores de búsqueda realizan una indexación automática, haciendo uso de distintos métodos para indexar recursos que se incorporan a sus bases de datos.[12]: file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (10 of 12) [10/11/2001 8:38:28 AM] MOTORES DE BÚSQUEDA EN INTERNET La indexación en el nivel submorfológico, es decir, sin hacer un análisis morfológico, sintáctico o semántico ofrece un método muy flexible para la recuperación de información: las fuentes de información se indexan como patrones de bits (bit patterns) con lo que texto, sonido e imágenes en movimiento, pueden indexarse y recuperarse usando la misma forma de representación. La indexación por palabra clave es la forma de indexación más común en la web. Para que las búsquedas recuperen datos rápidamente, se utilizan árboles y palabras clave, direcciones, ubicación y frecuencia de apariciones. Este método, básicamente morfológico y estadístico, basa la recuperación de información en la similitud formal de las palabras, y las estadísticas de su presencia en un mismo documento y en distintos documentos. Crean en sus índices de trabajo interno una entrada para cada una de las palabras únicas que figuran en la base de datos. Cada una de las palabras tiene asociada información sobre su frecuencia estadística y , un puntero para cada registro que describe cada una de las páginas donde ocurre, el cual a su vez incluye la dirección URL. Los artículos, preposiciones, conjunciones, y en general palabras que aparecen con mucha frecuencia en el conjunto de documentos, conocidas como palabras vacías son filtradas comparándolas con una lista de palabras vacías o "antidiccionario" y no se incluyen en el índice. Las palabras asignadas mediante la indexación automática se complementan con palabras de indexación que sugiere el autor del documento HTML en los tag<META>. A veces, los autores no son honestos (por desear que su sitio aparezca entre los primeros resultados o por motivos comerciales) y colocan palabras que, aunque no se corresponden con el contenido del sitio, tienen posibilidades de ser tipeadas en la consulta de un usuario como por ejemplo sex, free, Microsoft, Netscape, etc. La Indexación por conceptos es el método de indexación más usado en la Web después del de indexación por palabra clave. Existen varios procedimientos para construir bases de datos basadas en conceptos. Algunos se apoyan en teorías lingüísticas y de inteligencia artificial, otros se basan en aproximaciones numéricas, calculando la frecuencia de aparición de palabras significativas. Con el análisis estadístico, se puede determinar qué conceptos están relacionados o aparecen juntos en textos que tratan sobre un tema concreto. Mediante este sistema se pueden recuperar sitios que tratan un tema dado, aunque las palabras del sitio no coincidan con las ingresadas por el usuario para realizar la consulta. Otros sistemas de indexación por concepto realizan un análisis profundo a nivel semántico y sintáctico. El mayor nivel de análisis semántico lo ofrecen los sistemas que brindan información evaluada, revisada e indexada por humanos, que se presenta en algunos directorios temáticos. Existen variaciones en cada motor de búsqueda: algunos no seleccionan términos para ingresar en sus bases de datos, sino que indexan el texto completo de los documentos que captan, exceptuando las palabras vacías mientras que otros incluyen el contenido de tags y toman como términos para indexar las 3 o 4 palabras del texto que más se repiten. Existen los que ponderan las páginas según los términos se encuentren en el título, en la URL, en la cabecera, en los enlaces a otros documentos o en otra parte del documento. La Indexación por hiperenlaces representa a la web como un grafo , en el que cada página es un nodo y cada enlace un arco. Se puede decir que hay un grafo dirigido entre una página que apunta o se relaciona con otra, es decir un arco con dirección determinada. Los vínculos permiten de esta manera obtener información de las páginas, por ejemplo puede pensarse que dos páginas que reciben enlaces desde los mismos nodos tienen contenido parecido o relacionado con un mismo tema. Con este tipo de método de indexación se trabajan los hipervínculos como palabras claves o conceptos, pero permite eliminar diferencias idiomáticas y reducir la capacidad de almacenamiento y procesamiento necesaria. Conclusión No se puede dejar de dar importancia a la calidad de los resultados de las búsquedas de información en Internet. Este planteamiento es válido tanto para los usuarios de la información como para quienes posibilitan las búsquedas, los motores de búsqueda. Se ha mostrado que cada motor de búsqueda, tiene su propia arquitectura. Los motores de búsquedas temáticos son más apropiados para encontrar todo lo relacionado con un tema, mientras que los motores de búsqueda que utilizan robots presentan resultados más actualizados. El conocimiento por parte de los usuarios (que generalmente no leen las ayudas propias de cada buscador) y la aplicación de las capacidades de búsqueda y personalización posibilitarían que los resultados sean lo más acordes posibles a sus propios intereses. Principalmente para representación e indexación de la información se usan los métodos de indexación por palabra clave file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (11 of 12) [10/11/2001 8:38:28 AM] MOTORES DE BÚSQUEDA EN INTERNET o concepto. La indexación por palabra clave es la forma más común en la web. Dado el creciente volumen de información en Internet, a pesar de la utilización de robots, la información encontrada no estará siempre actualizada. Bibliografía [1] Grupo Interuniversitario de Certificación de Redes - "Motores de búsqueda en Internet" http://www.ispjae.cu/gicer. [2] Rodríguez G. "Estudio técnico de los buscadores Web" - http://www.AlephWeb-ISOCCAT.htm [3] Cowan A. - "Motores de búsqueda" – disponible en http://www.desde-el-atico.com.ar/buscadores/search.html [4] Brin. S y Page. L. "The Anatomy of a Large-Scale Hyper Textual Web Search Engine" http://dbpubs.standford.edu:8090/pub/1998-8 [5] Martínez A. Sánchez E. "Evaluación de los principales buscadores desde un punto de vista documental recogida, análisis y recuperación de recursos de información" http://fesabid98.florida-uni.es/Comunicaciones/a_maldonado/A_Maldonado.htm [6] Proyecto GOOGLE -http://google.standford.edu [7] Google - http://google.com/intl/es/about.html [8] Altavista - http://es-es.www.altavista.com/foother/about.htm [9] Yahoo – http://www.yahoo.com/help.htm [10] Infoseek – http://infoseek.com/about.html [11] Terra – http://www.terra.com [12] Leal. J. "Cómo se realiza el descubrimiento y la selección e indexación de recursos en el Web" – disponible en http://acoruna.tuportal.com/proyecto/3.htm file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (12 of 12) [10/11/2001 8:38:28 AM]