Buscadores de paginas en Internet Motores de Búsqueda Métodos de indexación SATO ALEXIS (54771) Motores de Búsqueda Resumen En este documento se habla de los diferentes motores de búsqueda y sus métodos de indexación. También se hace una ligera comparación entre algunos motores de búsqueda reflejando sus características desde los más comunes entre si hasta los específicos de cada uno. Introducción En el mundo la informática una de las cosas más desarrollada sea tal ves Internet. Esto se debe a su gran potencial en la interconexión de información a través de todo el mundo. Esto también trae aparejado otros problemas. El crecimiento global de Internet (que llega a alcanzar hasta a un 3000% anual[8*]), y la forma de localización de cierto tipo de información puede ser complicado en gran medida [7*], ahí es donde entran los "motores de búsqueda", herramientas para la localización de información. En este estudio se investigara sobre que son los motores de búsqueda en Internet, las distintas marcas que existen en la actualidad, las características que los diferencian entre sí, e intentaremos caracterizar la tendencia del uso de estos buscadores. Además subclasificaremos cada uno de estos por sus métodos en la estructuración como corresponda y estudiaremos con más detenimiento la forma en que guardan y ordenan la información cada uno de estos para luego satisfacer los requerimientos de los usuarios. [ 2*, 3*, 7*, 8*, 13*, 14*,15,*,16*] Motores de Búsqueda Los motores de búsqueda (también llamados buscadores de conceptos o herramientas de búsqueda) son herramienta que basan su funcionamiento en palabras clave que tienen por objetivo recoger e indexar los recursos disponibles en la Red de forma más automatizada para formar una gran base de datos. [2*, 3*, 7*,8*,13*, 14*, 15*,16*] En la red (Internet) se encuentran una gran variedad de motores de búsqueda los cuales se diferencian tanto por su diseño como por la potencialidad para la localización de la información en la gran red (Internet). Existe una gran variedad de herramientas de motores de búsqueda en Internet de los cuales la gran mayoría son poco eficaces. Entre estos motores de búsqueda se pueden clasificar en buscadores y meta buscadores donde los buscadores son motores de búsqueda que realizan la búsqueda en sus bases de datos, [7*]en cambio los meta buscadores trabajan con un conjunto de buscadores ampliando el horizonte de búsqueda. En muchos casos se combinan los motores de búsqueda con los conocidos índices temáticos donde se pueden encontrar cierta información siguiendo un una cadena de opciones que comienza a partir de un tema especifico. Uno de estos buscadores más conocido es Yahoo el cual ya lo viene implementando desde un prolongado tiempo. Este diseño se ha vuelto bastante popular por lo cual la mayoría de los buscadores ha empezado a implementar lo desde hace un tiempo atrás. Este método suele simplificar la tarea de búsqueda para los usuarios poco experimentados en motores de búsqueda y métodos de búsqueda. file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (1 of 11) [10/11/2001 10:05:18 AM] Buscadores de paginas en Internet Estructura Los motores de búsqueda están integrados por cuatro componentes según lo define "CODINA" que son [8*]: un robot, un sistema automático, un sistema de interrogación y un programa, donde el robot se encarga de buscar en la Web buscando las paginas y sus direcciones. El sistema automático se encarga de revisar el contenido de la página e indexar lo (agregando lo en la lista) junto con los ya encontrados. El sistema de interrogación. Y el programa que actúa de enlace entre el navegador y la base de datos. Otros opinan que en realidad solo están compuestos por tres partes: los robots que recorren la red escrutándola; la base de datos que es construida por los robots; el motor de búsqueda que facilita la consulta a la base [19*]. Funcionamiento [5*, 7*, 8*] A través de estos componentes, generalmente, los motores de búsqueda realizan sus tarea basando su funcionamiento de la siguiente forma: ● El usuario realiza una consulta (cumpliendo con una estructura sintáctica) ● El motor de búsqueda recibe la consulta del usuario que a su vez lo estructura y transforma a un formato en el que luego se lo envía a la base de dato. ● La base de datos le devuelve el resultado al motor de búsqueda que lo re transforma para entregarse lo al usuario. Este resultado esta ordenado de acuerdo a un orden definido por una puntuación donde esta puntuación determina el grado de certeza en el contenido del documento respecto de la consulta. Es fundamental que el usuario conozca la sintaxis para la realización de una consulta a los motores de búsqueda. Operadores para las consultas [7*, 8*, 13*, 15*, 16*] Los operadores que se utilizan son en realidad muy sencillos pero suelen variar entre cada motor de búsqueda. Los operadores se pueden clasificar en 4 tipos: ● Lógicos: Normalmente se utilizan los operadores lógicos conocidos como "álgebra de Boole"( http://docdigital.upf.es/digital/aula2000/aula.htm). Las operaciones que se pueden utilizar son tres, la suma o unión(+,and), la resta o exclusión(-,not) y el producto lógico o intersección (or). ● ● De comparación para la búsqueda de un valor o conjunto de valores numéricos o alfabéticos. De mascara y truncamiento, sirven para reemplazar un conjunto de caracteres (*) o un carácter (¿) de un texto del cual no sabemos o conocemos 1 o más letras (Ej.: esote *, alcornoqu?). ● De proximidad (near), sirven para obtener una mayor amplitud en el rango de la búsqueda (ej. "contador near empresa"). ● De especificación de campo(title, text), es para limitar la amplitud en el rango de búsqueda (ej: title: "Comunicaciones"). Los mas usados Como se menciona anteriormente en Internet existe una gran variedad de motores de búsqueda, entre estos motores se encuentran los más utilizados clasificados por la cantidad de visitas recibidas (este tipo de mediciones de control de audiencia son realizadas por las compañías especializadas Media Metrix y Nielsen/NetRatings) y son: [12*] Yahoo Infoseek Lycos Excite Alta Vista Hot Bot WebCrawler 40% 24% 16% 15% 11% 6% 4% file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (2 of 11) [10/11/2001 10:05:19 AM] Buscadores de paginas en Internet [Tabla obtenida de la pagina: http://www.indexmarketing.com/indextutorial.htm] Debemos considerar que la mayoría de los usuarios utilizan más de un motor de búsqueda, sea tanto por su popularidad como por su potencia de búsqueda para determinados temas especiales o por la facilidad de uso. Características de cinco motores de búsqueda más populares A continuación tomaremos cinco de estos buscadores de los cuales se describirán sus características forma de uso métodos de consulta entre otras cosas. La comparación entre los distintos motores de búsqueda se debe tener en cuenta la cantidad de referencias que contiene, la forma de indexación de cada página, el tipo de interfaz utilizada, el algoritmo de cálculo utilizado para la relevancia y el tipo de lenguaje utilizada para la realización de las consultas. ● Alta Vista Alta vista es uno de los buscadores más populares en el país y en el mundo. Se lo trata como un "Buscador de conceptos" y es un servicio brindado por "Digital". [1*,3*, 4*, 5*, 6*, 7*, 8*, 9*, 11*, 12*, 16*] La dimensión de la base de datos de Alta Vista es de un tamaño activo con unos 30 millones de paginas Web y unos 12 millones de palabras indexadas (que ocupan alrededor de 40 GB). También mantiene un enlace con la red de "USENET" al cual explora diariamente. Suele recibir alrededor de 10 millones de consultas diarias para lo cual mantiene su infraestructura física. Actualmente esta compuesto por un conjunto de potentes programas y bases de datos, una serie de servidores ALPHA con 6 GB de RAM y uno 210 GB en discos rígidos RAID. Y maneja un ancho de banda de uno 100mb/s. Con respecto a su funcionamiento, Alta Vista como cualquier otro buscador, es muy sencillo de utilizar y solo hay que tener en cuenta los operadores que utiliza (que normalmente son similares a los del resto de los buscadores). En todo caso la dificultad se presentaría en búsquedas muy complejas en donde pueden diferir los operadores entre un buscador y otro. Normalmente realizando una consulta sencilla Alta Vista retornara el resultado presentando lo de forma ordenada respecto del valor calculado por la cantidad de aciertos contenidos respecto a la consulta realizada. Una de las características más ventajosas de Alta Vista es que permite realizar consultas especiales o avanzadas en donde se permiten realizar consultas mucho más complejas y acotadas permitiendo inclusive definir rangos de fechas. También permite el uso de paréntesis en el armado de las consultas. Entre otras cosas, el buscador suele consultar a USENET que mantiene una información más actualizada. Los operadores file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (3 of 11) [10/11/2001 10:05:19 AM] Buscadores de paginas en Internet Los operadores básicos de Alta Vista se encuentran: ● Comillas (""): esta permite el pegado de palabras el cual indica que si en la búsqueda no se encuentra exactamente de la misma forma se disminuye el puntaje correspondiente a esa referencia. ● ● Suma (+): esta indica que la palabra que precede al signo (+) y se debe incluir dentro de la búsqueda. Resta (-): esto indica que las paginas que contengan la palabra que precede al signo (-) se deben eliminar del resultado. ● Mayúsculas y minúsculas: permiten forzar a que la palabra coincidente que figure en las páginas respeten esta literalmente. ● Raíz (*): esta sirve para indicar raíces de palabras como México o mexicano. Otros datos Alta Vista indexa las páginas que parten de la página principal hasta tres niveles por debajo. Alta Vista no indexa las páginas que contienen el Meta tag "refresh", es decir páginas que pasan automáticamente a otra página al cabo de un tiempo. Tampoco dará de alta páginas con 'texto invisible' o muy pequeño. Alta Vista es el único buscador que revisita los Webs dependiendo de la frecuencia de actualización que tenga. El plazo para aparecer en Alta Vista es de 3 días a una semana. AltaVista es tremendamente respetuoso y "ecológico" con la Red. Entre otras cosas, viaja de página en página procurando no sobrecargar ningún servidor con consultas continuadas. Adicionalmente, los usuarios pueden añadir código HTML a sus páginas personales o de empresa para evitar que sean indizadas por el robot. Es muy inteligente puesto a que las páginas que más a menudo cambian (como las de noticias) son las más visitadas. Además, automáticamente, las que no pueden ser revisitadas en varios días son eliminadas para evitar enlaces que no lleven a ningún lugar. ● Yahoo Yahoo es uno de los más populares y antiguo índice conocidos de la World Wide Web. Uno de los elementos que lo caracteriza es su completes, su sencilla y atractiva interfaz y su facilidad de uso. [ref:3*,4*, 6*,7*,8*, 9*, 11*, 12*] Yahoo funciona examinando las paginas Web y recursos de todo el mundo y las incluye en una guía jerárquica universal. En realidad lo que hace es clasificar cada uno de los recursos encontrados y colocar un enlace dentro de las jerarquías de temas a las que correspondan donde cada índice o carpeta mantiene un enlace a la página de incumbencia (e incluye ‘alias’ a otras si es necesario), y esta indica también la cantidad de elementos que contiene cada subclasificación. Como se ejemplifica a continuación: Resultado: (3) _ Bolsas de Trabajo (56) vínculos _ Curriculum Vitae (23) vínculos _ Centro del desempleado (15) vínculos Este modo de trabajo simplifica en gran medida la dificultad en la búsqueda de información en Internet Yahoo contiene alrededor de 20.000 categorías, completamente organizada. Los punteros finales solo son enlaces al recurso en Internet como Usenet, sitios FTP, y paginas Web. De esta forma, si un sitio Web con el mismo título y descripción aparece antes en las categorías en ves de que si éstos son distintos. También permite buscar en grupos de News, direcciones de correo, en noticias de prensa de actualidad (que se encuentren anexados en la base de datos) y en el motor Inktomi. Es capaz de lanzar la frase de consulta a varios de los mejores motores de búsqueda en Internet, con sólo pulsar el nombre del motor. Otra ventaja de Yahoo es que cataloga de forma file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (4 of 11) [10/11/2001 10:05:19 AM] Buscadores de paginas en Internet proritaria las FAQ y los recursos que contienen índices de cualquier tipo, esto le convierte en un verdadero Metaíndice. Las FAQs son listas de las respuestas a las preguntas más frecuentes. Una lista de FAQ's es un documento, recopilado por un voluntario, que identifica y responde las preguntas que se realizan más a menudo en un grupo particular. Es la contracción de Frequently Asked Questions. Cuando se da de alta una Web, y debido a que Yahoo es una estructura jerárquica, esta no se hace efectiva de forma inmediata ya que: primero los encargados del mantenimiento de Yahoo revisan el contenido de la Web y luego la analizan y reconsideran su categoría respecto del ingresado por el interesado. En la actualidad solo ingresan 1 de cada 10 solicitantes y se restringe la colocación de paginas de venta. Como ya habrá notado, Yahoo no tiene robot ni cuenta con Meta-tags. Esto se debe principalmente por la política utilizada para realizar las altas de páginas Web y su método de búsqueda jerárquico por temas. ● HotBot HotBot es uno de los últimos buscadores que ha conseguido estar entre los 10 primeros. El HotBot al igual que Alta Vista cuenta con dos formularios de persiana: uno simple y otro más complejo. En el primero se puede acotar por continente y fecha de alta. En el más complejo, además de por los conceptos anteriores, se añaden más elementos. En ambos casos se pueden utilizar las siguientes Meta words (etiquetas de campo): dominio, título, links, fechas de creación y modificación de las páginas. También se pueden localizar páginas dentro del servidor designado. Reconoce términos compuestos y se pueden utilizar: operadores booleanos (AND, OR y NOT), operadores de proximidad, paréntesis y truncado. [3*, 5*, 6*, 7* ,8*, 9*, 11*, 12*] Funcionamiento HotBot permite visualizar los resultados de una búsqueda de tres formas distintas. También visualiza el grado de relevancia de cada una de las entradas encontradas el cual define el orden en el que las páginas se visualizan. HotBot determina el grado de relevancia mediante la frecuencia con la que aparece el termino buscado, teniendo en cuenta la posición de los términos y la profundidad de la misma. Utiliza los mismos operadores que Alta Vista y estas se aplican sobre la presentación del resultado. De la misma forma sucede con los criterios de relevancia. Cuando se realiza una alta lo primero que se presenta en el análisis de la Web es: _ Primero las páginas que tienen sentencias lo más parecidas a las buscadas. Si sólo coinciden algunos términos se le da menos peso; _ En segundo lugar, la frecuencia de las palabras en los diferentes Meta-tags y por este orden: título, palabras clave y descripción. Lo anterior, junto con el texto de la página, definirá la posición final de la web en una búsqueda. En igualdad de frecuencia, las páginas con menos textos se presentan antes que las que tienen más texto. Si se detectan técnicas maliciosas (repeticiones, comentarios, etc.) se penaliza la página y se presenta al final en una búsqueda. Ideas a tener en cuenta son: . El tener una página índice del Web en Hot Bot, a la que se llega desde la página principal, da buen resultado en este buscador. Elija cuidadosamente las palabras o frases claves y piense en qué tipo de usuario le interesa atraer a su Web. . Utilice los metatags Title, keywords y description en todas las páginas de su web. . Incluya algunas palabras clave de la pagina en el titulo y la descripción. . Haga las páginas cortas e interesantes. . Utilice el máximo de enlaces desde su página principal al resto del Web, si no pensaba hacerlo utilice el truco de poner file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (5 of 11) [10/11/2001 10:05:19 AM] Buscadores de paginas en Internet estos enlaces en el color de fondo al final de su home-page. Ésta es la única garantía de que su web sea indexado en su conjunto de una sola vez. . En ningún caso de de alta más de 20 páginas durante 24 horas de una misma web, si se piensa hacer vaya dando los de alta poco a poco. ● LYCOS Lycos es uno de los primeros motores de búsqueda y de los pocos que ha patentado su tecnología de búsqueda y clasificación (spider). Este es de los que mejor guardan sus criterios de clasificación. En principio, utiliza los 250 primeros caracteres de la pagina principal como elemento de mayor peso para hacer su propia descripción. [3*, 5*, 6*, 7*, 8*, 9*, 11*, 12*] Para dar de alta solo hay que dar la URL de la pagina principal. El tiempo desde que se solicita hasta que el Web es visitado por el motor puede llegar a ser muy corto aunque el resultado no aparece durante varias semanas (el tiempo promedio de espera es de 1 mes). Temas a tener en cuenta: . Si solo va a estar en Lycos no necesita tener activos los Meta-tags de la descripción, pero se debe asegurar que en la pagina principal esta bien descripto el contenido de la web. . Poner las palabras clave, si puede en el titulo de cada página. . Lycos es de los pocos buscadores que reconoce, al menos en ingles, sinónimos, es decir si ponemos la palabra banco en el título, también nos encontraran por finanzas o por inversiones, etc. . No poner al comienzo de la página gráficos ya que si no Lycos deja de indexar. . Incluir los signos de puntuación en los textos. . Chequear si Lycos ha indexado todas sus paginas y sino es así hacerlo manualmente. . Dé el nombre completo de la URL incluyendo el nombre de la página html sino puede que ignore la petición. . Incluya enlaces a la pagina principal en el resto de las paginas. . Usar las palabras clave en el texto de las diferentes páginas. El robot de Lycos localiza las paginas a partir de las URL’s dadas de alta en el formulario, donde sólo se solicita la URL y el e-mail de la persona que realiza el alta. Para la búsqueda cuenta con un formulario simple y otro más complejo. En ambos se puede acotar el idioma y utilizar: operadores boleanos, operadores de proximidad y paréntesis. Sin embargo, no se admite el truncado. Además en el formulario complejo se puede elegir entre buscar los términos de búsqueda en todo el documento, el título o la URL. También se pueden hacer búsquedas en una web determinado existente en Lycos, indicando su dominio en el formulario de búsqueda. La opción "más resultados" permite visualizar las páginas de iguales características que una seleccionada. ● INFOSEEK (Infoseek Corp.) En Infoseek la búsqueda se puede realizar utilizando cualquiera de los dos formularios existentes (la búsqueda común y la avanzada): uno para búsquedas simples y otro para las más complejas. El sistema permite localizar palabras y frases que pueden ser combinadas con los operadores AND, OR y NOT, aunque en este no se puede utilizar paréntesis pero si se pueden truncar términos. [3*, 7*, 8*, 9*, 11*, 12*] Las búsquedas pueden hacerse en texto libre o bien limitarse a los siguientes campos: URL, "hyperlinks", título y lugar geográfico. file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (6 of 11) [10/11/2001 10:05:19 AM] Buscadores de paginas en Internet Los resultados de una consulta cualquiera son presentados siguiendo un orden de relevancia, apareciendo primero aquellas páginas en las que los términos requeridos aparecen en el título o cerca del inicio, contienen un mayor número de ocurrencias o los términos solicitados son considerados relevantes (palabras poco comunes en una base de datos). De cada página seleccionada aparece el título con el enlace, la URL, la descripción (la que aparece en la etiqueta META "descripción", en el caso de que exista, o las primeras líneas que aparecen en la página propiamente dicha), el tamaño de la página (bits) y la fecha de alta en el sistema. Infoseek también presenta una sección de páginas clasificadas directamente por un equipo de personas como lo hace Yahoo. Infoseek, como todos los anteriores presenta las siguientes característica: ● Reconoce las etiquetas META de palabras-clave y de descripción. ● Posibilidades de búsqueda bastante completas: truncado, búsqueda de términos compuestos y operadores booleanos (AND, OR, NOT). ● Las páginas recuperadas se presentan siguiendo un orden de relevancia. Detección de novedades por la fecha de alta en el sistema. No permite el uso del paréntesis. No se puede buscar ni en el campo de palabras-clave ni en el de descripción. No se controla el vocabulario. Existe un único formato de presentación. Se recuperan páginas y no recursos que además no pueden ser agrupadas por servidores. Se conoce la fecha de alta de las páginas, pero no se puede acotar por este criterio. Posibilidad de buscar por los siguientes campos: URL, "hiperlink", título y lugar geográfico. Se utiliza el texto de la etiqueta META de descripción para resumir el contenido de cada página recuperada. El alta debe hacerse página a página. Las páginas se encuentran parcialmente clasificadas. ● ● ● ● ● ● ● ● ● ● ● Cuadro comparativo de buscadores Yahoo Alta Vista Lycos Hot Bot Infoseek Reconoce Meta-tags No Sí No Sí Sí Sensible a las minúsculas No Sí No No Sí Tiempo para procesar un alta 4 semanas 1 a 3 Días 2 a 4 sem. 2 a 4 semanas 3 semanas Sensible a los signos de puntuación No No Sí No No Incluye los textos alternativos No Sí No Sí Sí Numero de palabras indexadas N/A Todas Todas Todas Todas Limitaciones a los meta-tags N/A 1024 1024 No repita los contenidos 1024 Frecuencia de actualización N/A 6 a 12 sem. 4 a 12 semanas 2 semanas 3 semanas file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (7 of 11) [10/11/2001 10:05:19 AM] Buscadores de paginas en Internet Relevancia de las direcciones Web N/A Sí No No Sí Buscador real No Sí Sí Sí Sí Métodos de indexación Existen dos métodos de indexación principales que son motores de búsqueda por palabras o conceptos y los llamados índices o directorios que se diferencian de los motores de búsqueda principalmente por su organización de recurso en categorías temáticas. [3*, 4*, 6*, 7*, 11*, 12*] INDICES TEMATICOS Los llamados índices temáticos o directorios identifican en un principio a los conocidos portales donde cada portar suele corresponder a un tema, carrera, rubro o categoría de influencia a la cual se le suele hacer referencia. Estas están compuestas de dos partes. La base de datos que es construida por los URL's remitidos. Una estructura jerárquica que facilita la consulta a la base de datos. Estos normalmente se los suele identificar fácilmente en los portales de Internet orientados o no a un grupo temático. Estas se organizan de forma jerárquica lo cual permite profundizar y alcanzar los temas específicos a los que cada usuario desea alcanzar. El árbol de categorías termina en un listado de enlaces a las paginas referenciadas las cuales contienen una breve descripción sobre su contenido. El cargado de los datos en esta estructura jerárquica se realiza tanto por los responsables del mantenimiento de la pagina índice o (dependiendo de su diseño) por los creadores de la página a las que hacen referencia. La mayoría de los índices permiten dos formas de acceso a los recursos referenciadas: ● La primera es navegando a través de la jerarquía temática. ● La segunda mediante la búsqueda de palabras clave sobre el conjunto de referencias. Suelen diferenciarse especialmente al nivel de precisión alcanzado y trabajo de búsqueda realizado por ambos. Los índices o directorios son más precisos (por el trabajo de indexación realizada por humanos) pero menos exhaustivos. En cambio los motores de búsqueda son más exhaustivos (por la cantidad de referencias que pueden alcanzarce por su automatización) pero menos precisos que los alcanzados por los índices. Herramientas de búsqueda como alta vista tienen bases de datos es un sistema activo que en el momento en el que recibe una nueva alta, esta visita la dirección URL para analizar e indexar su contenido para clasificar automáticamente la página según su contenido. También mantiene un enlace con la red de "USENET" al cual explora diariamente. Suele recibir alrededor de 10 millones de consultas diarias para lo cual mantiene su infraestructura física. El modo de trabajo de un índice o carpeta simplifica en gran medida la dificultad en la búsqueda de información en Internet pero no se ejerce una búsqueda exhaustiva sobre todas las páginas con potencialidad por lo cual suele suceder que se pierde un rango de posibles enlaces de gran relevancia. Además, tiene mayor precisión, menor ruido, y el poder contar en algunos casos con comentarios y valoraciones de los recursos referenciadas realizados por especialistas en el tema. Yahoo contiene alrededor de 20.000 categorías, completamente organizada. Los punteros finales solo son enlaces al recurso en Internet como Usenet, sitios FTP, y paginas Web. Los punteros finales en los índices solo son enlaces al recurso en Internet como Usenet, sitios FTP, y paginas Web. La metodología de búsqueda en estos índices es realmente sencilla puesto que solo hay que descender por las áreas temáticas deseada hasta llegar a la pagina de los vínculos. Curiosamente, Yahoo viene con un buscador de palabras clave a través de la cual se puede localizar las paginas deseadas en una base de datos cargada por los encargados del mantenimiento. Yahoo como resultado a una búsqueda o "search" no file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (8 of 11) [10/11/2001 10:05:19 AM] Buscadores de paginas en Internet retorna una lista ordenada por el análisis del contenido de la página Web sino que lo retorna respetando el orden de prioridad que se le da a la categoría, Titulo y por ultimo a la descripción. Cuando se da de alta una Web, en una estructura jerárquica (índice o carpeta), esta no se hace efectiva de forma inmediata ya que: primero revisan el contenido de la Web y luego la analizan y reconsideran su categoría respecto del ingresado por el interesado. Debido a esto suelen tener un retraso de hasta 6 meses. Yahoo en la actualidad sólo ingresa 1 de cada 10 solicitantes y se restringe la colocación de paginas de venta. [3*, 4*, 7*, 12*, 16*] MOTORES DE BUSQUEDA Como ya se a mencionado anteriormente los motores de búsqueda están construidos en tres parte (el robot, la base de datos y los programas que realizan las consultas) pero cada uno de ellos cambia considerablemente dependiendo de los proveedores del servicio. Generalmente suelen cambiar en la lógica de funcionamiento del robot, los datos a indexar y los operadores disponibles (en su mayoría vistos anteriormente). En esta las páginas son localizadas por un robot a partir de las URL’s dadas de alta en un formulario, donde debe indicarse la URL y el e-mail de la persona que la realiza. El robot extrae información de las etiquetas META de título, descripción y palabras clave. Los robot que buscan dentro de las página no funcionan todos de la misma forma y estos suelen cambiar dependiendo de los proveedores del servicio. Por ejemplo, HotBot indexa todos los enlaces que encuentra en la página principal y sólo éstos. Esto quiere decir que si hacemos una página home-page con un sólo enlace, únicamente revisará este enlace e ignorara el resto del Web. Indexa todas las palabras incluidas los textos alternativos. El mayor peso a la hora de clasificar lo asigna al titulo, el segundo a las palabras clave, el tercero a la descripción y el cuarto al resto de textos. Si repite con demasiada frecuencia una palabra, puede que lo consideren como spanning y le envíen al final en las búsquedas. Cuando se indexa se toma normalmente la frecuencia de las palabras en los diferentes Meta-tags y por este orden: título, palabras clave y descripción. Esta característica de indexado en la base de datos depende mucho de cada servicio donde se suele agregar, cambiar o quitar algunos de estos campos. Tenga en cuenta que el tamaño de cada uno también depende de los servicios puesto que algunos restringen el indexado y otros toman párrafos completos. Lycos indexa todo el texto visible del WEB, no indexa los Meta-tags ni los textos alternativos. Sólo reconoce el meta-tag de palabras clave o keywords de hasta 1024 caracteres, si utiliza mas el resto lo ignora. Además, la actualización de páginas la realiza sistemáticamente aunque no sean muy visitadas. Lycos organiza su base de datos utilizando los siguientes campos: _ Título de la página: Es muy importante que contenga en primer lugar el término de búsqueda por el que se va a optimizar la inserción. Después se debe incluir otras palabras clave. Lycos toma en cuenta la frecuencia con que van apareciendo las palabras clave en el título. _ Cuerpo de la página: Registra los primeros 270 caracteres del texto contenido en la página y organiza los resultados dependiendo de la frecuencia de aparición de las palabras buscadas. _ Ignora las etiquetas META de descripción y palabras clave. Existen algunos que permiten localizar imágenes y sonidos. El robot de Infoseek localiza e indexa las páginas que contiene en su base de datos, también se pueden dar de alta usando un cuestionario que el propio sistema presenta donde exclusivamente se solicita la URL de la página. Cada página se da de alta individualmente. El robot es capaz de identificar las etiquetas META de palabras clave ("keywords") y de la descripción existente en las páginas utilizando la primera para la indexación de la página y la segunda como resumen del contenido en la visualización de resultados. [3*, 4*, 5*, 7*, 12*, 17*, 18*] file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (9 of 11) [10/11/2001 10:05:19 AM] Buscadores de paginas en Internet Conclusión: Como podemos apreciar, la diferencia entre estos tipos de buscadores y sus métodos de búsqueda, permiten el acceso y utilización a todo tipo de usuarios (tanto principiantes como usuarios experimentados). Además, la documentación de ayuda que se presenta (normalmente de difícil comprensión para un usuario principiante) permite generalmente un rápido aprendizaje para los usuarios sobre los métodos y operadores básicos usados en una búsqueda. También, es importante tener en cuenta la utilización de un conjunto de buscadores para la realización de las búsquedas puesto que, como se menciono anteriormente, el constante crecimiento de la WWW hace difícil hallar cierto tipo de información con un solo buscador. Entre otras cosas, el gran crecimiento de la WWW denotan un temprano cambio o migración a los meta/multi buscadores para las futuras consultas a realizar en busca de información. Por ello podríamos pronosticar no solo un aumento en la popularidad en estos meta buscadores sino que también un aumento gradual (iniciado ase poco más de un año) de meta buscadores en Internet y tendiendo a la desaparición de los actuales conocido motores de búsqueda. A pesar de estos cambios graduales no podremos estar seguros del futuro que corren los buscadores puesto que todo cambia y todos nos adaptamos al medio en el que subsistimos. Por esto no podemos saber nunca que es lo que sucederá con los motores de búsqueda en el futuro, solo podemos observar y ver que es lo que sucede. Referencias: 1*_ Ayuda rápida de Alta Vista. http://es-es.altavista.com/help/introduction?t=1. 2*_ La Búsqueda Académica en Internet. http://www.geocities.com/Paris/Arc/7824/Remodelacion/motores3.html. 3*_ Principales Motores de Búsquedas. http://www.uco.es/investiga/grupos/rea/search/descripcion.htm. 4*_ Búsqueda en Internet. http://www.netport.com.ni/netport/tips/busqueda/intro.htm. 5*_ Motores de Búsqueda. Universidad de Chile. http://www.uchile.cl/bibliotecas/navegando/motores.htm. 6*_ Boletín "InfoAUI" Número 004 - Febrero 1998. Infoaui. http://www.aui.es/biblio/bolet/bole004/boletin.htm. 7*_ Buscadores de información en Internet: directorios y motores de búsqueda. Tony Hernández y Jesús Robledano. http://www.bib.uc3m.es/~jroble/documentac/buscar.htm. 8*_ Los motores de búsqueda en Internet: características básicas. Jaume Baró i Queralt y Francesc Martín. http://www.microsoft.com/search/Worldwide/spain/enginetips.htm. 9*_ Evaluación de los principales "Buscadores" desde un punto de vista documental. Angeles Maldonado Martínez. CINDOC-CSIC. Elena Fernández Sánchez. CINDOC-CSIC. http://195.235.97.200/personal6/biblioteconomie/articulos/art9.html. 10*_ http://www.security-informer.com/english/crd_es_291064.html. Métodos de indexación 11*_ Métodos de indexación. Grupo activa. http://www.grupoactiva.net/productos/altas_tutorial02.htm. 12*_ Tutoríal sobre buscadores - Que son y como funcionan los principales índices y buscadores. Index Internet marketing. http://www.indexmarketing.com/indextutorial.htm. Métodos de búsqueda: 13*_ Internet al Día – La búsqueda en Internet. Ing. Margarita Aste. http://www.quipus.com.mx/r14inter.htm. 14*_ Educación Matemática e Internet Una introducción para profesores de secundaria. Antonio Pérez Sanz. http://platea.pntic.mec.es/~aperez4/internet/sevilla1.htm. file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (10 of 11) [10/11/2001 10:05:19 AM] Buscadores de paginas en Internet 15*_ Búsqueda e Investigación en la Internet - estrategia de busqueda.htm. http://www.uprm.edu/socialsciences/recursos-internet/id43.htm. 16*_ Tenis_net - Lecciones de tenis - Como buscar información en Internet. Pablo Machon. http://www.tenis.net/02/01-02-04-10.htm. 17*_ Motores de Búsqueda. http://members.es.tripod.de/DAchiardi/pagina_n8.htm. 18*_ Preguntas más frecuentes (FAQ).http://es-es.altavista.com/help/faq?t=8. 19*_ Búsqueda en Internet. http://www.netport.com.ni/netport/tips/busqueda/buscadores.htm. file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (11 of 11) [10/11/2001 10:05:19 AM]