"Motores de Búsqueda" Universidad Nacional de Luján Delegación Pergamino Paola Aquiles Paolaaquiles@hotmail.com Nro. Legajo: 54693 RESUMEN Las bases de datos de los buscadores tienen una enorme cantidad de información entre la que muy probablemente se encuentre lo que se busca. Para realizar consultas debe utilizarse una herramienta 'motores de búsqueda' aprovechando todas sus posibilidades. Es muy importante tener en cuenta que el buscador es un programa y por tanto hará lo que se le dice y no lo que se le quiere decir. Este motor de búsqueda posee tres elementos bien diferenciados; una interfaz, un robot y una base de datos. En Internet existen diferentes motores de búsqueda cada una de estos posee diferentes métodos para realizar consultas y presentan diversas características. La idea principal es conocer las posibilidades de los distintos buscadores, y establecer una comparación entre las características de cada uno de ellos. INTRODUCCIÓN: El espacio Web se encuentra hoy día en constante crecimiento. La información que se haya publicada puede variar, ya sea su ubicación y su contenido. Para acceder al mundo Web existen herramientas llamadas 'motores de búsqueda'. Un motor de búsqueda o mecanismo de búsqueda (search engine) es un programa que realiza búsquedas dentro de una base de datos. Pueden entrar a un sin número de material en la Web, e informar sobre cualquier artículo que encuentre que combine con las palabras claves que se especificaron en la búsqueda. Cabe aclarar que uno de los problemas que se presenta en el momento de la búsqueda es que el resultado de la misma, las páginas obtenidas, no sean las más relevantes y que el ranking no obedezca a la realidad en término de la relevancia de la información que se proporciona. Arquitectura de los Motores de Búsqueda: los motores de búsqueda están compuestos por los siguientes elementos: 1. Interfaz: es la página Web a la que acceden los usuarios. En ella se establece el tipo de búsqueda: a) Formulario: se presenta una página con formularios en la que se introducen las palabras claves de búsqueda relacionada con el tema que nos interesa, junto con la lógica a emplear. b) Con directorios: además de contar con formularios, estructuran la información jerárquicamente por materias. Para encontrar la información hay que ir descendiendo por el árbol de los temas más generales hasta los más específicos. 2. Base de datos textual: índice de palabras, frases y datos asociados con la dirección de páginas Web (URL), programas, ficheros, etc. La información se da de alta y de baja pero siempre dejando una referencia para que después, quien busque un tema relacionado, pueda encontrar la dirección y un pequeño resumen de lo que contiene. 3. Robot: programa de un ordenador que está diseñado para recorrer de forma automática la estructura hipertexto de la Web con el fin de llevar a cabo una o varias de las siguientes funciones: 1 Análisis estadístico: mide el crecimiento de la Web, número de servidores conectados, etc. Mantenimiento de la estructura hipertextual de la World Wide Web(WWW): verificando la corrección de los enlaces entre documentos y eliminando o guardando información de los denominados 'enlaces muertos' (dead links), es decir, págians Web que ya han desaparecido. Duplicación de directorios Ftp (Mirrors): incrementando su utilidad a un número mayor de usuario. Creación autmática de base de datos textuales: a partir de los documentos HTML distribuidos por los distintos servidores. Debido a que cada robot está programada para buscar en la Red de distinta forma, la información almacenada en cada base de datos puede ser diferente. Modo de operación: Operaciones de consulta: las consultas a los motores de búsqueda se expresan por medio de sentencias formales dependiendo de la necesidad de información de los usuarios del sistema. Por ejemplo una de las operaciones más común es la denominada Parsing, que consiste en la división de la consulta en sus elementos constituyentes. Las búsquedas booleanas deben ser divididas en sus correspondientes términos de la indización o palabra clave y los operadores asociados a ellas para formular la expresión formal de la consulta. El conjunto de los documentos asociados con cada término de consulta es recuperado y estos conjuntos, son entonces, combinados de acuerdo a los operadores booleanos. La operación denominada Reutilización, consiste en la reutilización de una búsqueda anteriormente efectuada. Operaciones sobre los términos: las operaciones que se llevan a cabo sobre los términos en un motor de búsqueda conforme el conjunto: --- Stemming: proceso de corte de las palabras, reduciéndolas normalmente a su forma de raíz más común. --- Truncamiento: proceso de corte de palabras pero realizado de forma manual por el usuario en los procesos de recuperación de la información. --- Tesauro: ofrece una lista de términos, sus términos sinónimos y las relaciones semánticas mantenidas entre los términos del mismo. --- Palabras vacías: la lista de palabras vacías es una relación de término considerada como valores no indizables. Los términos de estas listas tienen poco significado a la hora de recuperar información, como por ejemplo el término 'la'. --- Ponderación de términos: a éstos se le puede asignar un valor numérico basado en su distribución estadística, o sea, en la frecuencia con la que los términos aparecen en documentos, colecciones de documentos, etc. Operaciones sobre documentos: los documentos son los objetos primarios en un buscador y hay muchas operaciones para ellos. La operación común es la de ordenar los documentos recuperados por algún campo determinado, por ejemplo el campo autor. Vista funcional del paradigma de un motor de búsqueda: gráfico demostrativo. 2 DOCUMENTOS Cortes en palabras Palabras vacias Identificador Ponderación Stemming BASE DE DATOS Stemming Operaciones booleanas Búsqueda ranking INTERFAZ Juicios de relevancia USUARIO 3 *** Explicación del gráfico anterior desde el punto de vista del documento que se introduce: 1. A cada documento que entra se le asigna un identificador. 2. Se identifican las palabras contenidas en el documento. 3. Se excluyen las palabras vacías. 4. Se 'cortan' las palabras, es decir, se extraen las raíces de las palabras. 5. Se establece un peso de ponderación para cada raíz. 6. Finalmente las raíces debidamente ponderadas se introducen en la base de datos. *** Explicación del gráfico anterior desde el punto de vista del usuario en el momento de la búsqueda: 1. El usuario en función de sus necesidades y conveniencias lleva a cabo una serie de juicios de relevancia para confeccionar su ecuación de búsqueda, ayudándose de las prestaciones que le proporciona el Interfaz de búsqueda. 2. La ecuación de búsqueda una vez introducida, se descompone en sus partes fundamentales. 3. Los términos clave empleados en la ecuación de búsqueda son 'cortados' para extraer de ellos sus raíces y de esta forma proceder a su localización en la base de datos. 4. Una vez localizados los distintos subconjuntos de documentos asociados a los términos clave, se llevan a cabo las operaciones booleanas pertinentes, que han sido introducidas por el usuario en la ecuación de búsqueda. 5. Posteriormente los documentos pueden alinearse para su presentación según un ranking determinado. Como se describió anteriormente el crecimiento del volumen de información disponible en Internet es muy rápido, por este motivo es necesario mejorar los mecanismos de búsqueda y aprovechar todo lo que ofrece Internet. Para ello es necesario conocer como operan cada buscador como herramienta básica y los métodos que utilizan para realizar la búsqueda y de esta manera se logrará elegir el método de búsqueda adecuado para cada caso. --- Características de distintos motores de búsqueda: Motor de Búsqueda: 'GOOGLE' (WWW.GOOGLE.COM) Es un motor de búsqueda desarrollado en la Universidad de Stanford en California, creado para utilizar de forma eficiente el espacio de almacenamiento, por esto su objetivo principal es mejorar los índices de precisión en la recuperación de la información y mejorar la presentación de los documentos encontrados en una búsqueda para conseguir que los primeros sean los que verdaderamente contienen información relevante. 4 Características del Google: posee dos características importantes. La primera está relacionada con (PageRank) de todas las páginas disponibles en la Web se calcula el grado de calidad de la información de cada página. La segunda característica se basa en el aprovechamiento del cálculo efectuado para mejorar los resultados de la búsqueda. El cálculo para obtener el PageRank de una página 'X' se resuelve con la siguiente expresión: PR(X) = (1-d) + d(PR(T1) / c(T1)+ .... + PR(Tn) / c(Tn)) X: página en la Web. T1...Tn: página a que apunta a la página 'X' por medio de enlaces. Parámetro d: es un factor que se puede establecer entre 0 y 1. C(X): número de enlace que sale de la página 'X'. El coeficiente de PageRank de la página 'X' es muy elevado si muchas páginas apuntan a X o si a 'X' apuntan pocas páginas pero estas poseen muchos enlaces. Arquitectura de Google: URLServer Agentes Indexador Servidor de almacenamiento Repositor Fichero De Enlace URLresolver Doc Index Searcher En Google el análisis de las páginas Web se realiza por diferentes procesos. Hay un URLServer que envía la lista de direcciones URLs a los agentes, estos analizan las listas y las envían al Servidor de Almacenamiento que es el que comprime y almacena las páginas Web. Cada una de estas páginas van a poseer un identificador numérico llamado 'DocId'. El Indexador lee las páginas Web que se encuentran en el Repositor, descomprime los documentos y eligen los términos 5 incluidos en estos. El Indexador almacena una información muy importante de los enlaces de cada página Web en el 'Fichero De Enlace'. El componente URLresolver lee el fichero y convierte las URLs relativas en direcciones absolutas. De esta manera se crea una base de datos de pares de DOCsIds, esta base es utilizada por el PageRank para calcular las páginas que apuntan a esa página. Búsqueda de información en GOOGLE: 1. Se descompone la pregunta. 2. Se convierten las palabras en identificadores de palabras. 3. Se localiza la posición de cada palabra en el barril Repositor. 4. Se busca en la lista de documentos hasta encontrar un documento que contenga los términos de la búsqueda. 5. Se calcula el rango de este documento para esa pregunta. 6. Una vez finalizado el proceso se repiten los pasos 4 y 5 para cada palabra en la búsqueda. 7. Se ordena de mayor a menor los rangos y se presenta al usuario. Motor de Búsqueda: 'ALTAVISTA' (WWW.ALTAVISTA.COM) Este buscador está disponible desde Diciembre de 1995, desarrollado por Digital. El objetivo es crear una base de datos completa de Internet combinando un rápido robot que husmea 3 millones de páginas por día con un potente programa de indexación. Altavista rastrea la Web, añade sus direcciones y las asocia a las palabras claves que aparecen en la cabecera. Da de alta la dirección para que el robot actúe sobre ella. --Se pueden realizar búsquedas simples o avanzadas. Búsquedas simples: si se aprovecha al máximo esta opción no será necesario usar la búsqueda avanzada. Hay diversas maneras de realizar una búsqueda, dentro de estas se pueden mencionar los siguientes puntos: *** al ingresar una palabra escrita toda en minúscula, Altavista buscará en los documentos tanto minúscula como mayúscula. *** al ingresar una palabra escrita en mayúscula, Altavista buscará solamente la palabra que coincida exactamente con la ingresada. *** se pueden realizar búsquedas por medio de la introducción de frases, separando las palabras que la forman con un espacio. *** también se puede realizar búsqueda utilizando frases separadas por signos: '+', '-' y 'x'. En cuanto a la presentación en las respuestas, Altavista posee un 80% de precisión. Motor de Búsqueda: 'INFOSEEK' (WWW.INFOSEEK.COM) Este buscador fue lanzado en el año 1995, creado por la empresa The Infoseek Corp. 6 Posee un método de recopilación de página por medio de un robot. Este buscador se financia por medio de las propagandas que se introducen en sus páginas. Tiene dos tipos de búsqueda: el Infoseek y el Infoseek Ultra. La indexación de página en este buscador se realiza mediante todo el texto. Método de Indexación y puntuación de los resultados (score) *** Número de veces que la palabra o frase aparece en el documento. *** Las frases provocan una puntuación mayor que las palabras sueltas. Para realizar las consultas de palabras se puede utilizar signos '+', '- '. En el caso del signo '+' delante de una palabra se obliga su presencia y con el signo '-' se obliga su ausencia. Este buscador distingue mayúscula de minúscula en la búsqueda y así realza una búsqueda exacta. Las operaciones de búsqueda avanzadas son muy potentes y completas. Se puede preguntar sobre cuestiones específicas sobre imágenes, sitios, enlaces, URLs e índices. Infoseek brinda otra alternativa como es: página de noticias, donde se puede observar un calendario de los sucesos mas importantes de la Red, una base de datos interrogable de compañías norteamericanas y mapas a los que al suministrar el nombre de la calle y el estado nos devuelve un mapa de la zona. Motor de Búsqueda: 'LYCOS' (WWW.LYCOS.COM) Es un buscador que consta de un robot que explora el WWW, indexa las páginas y actualiza la base de datos. La base de datos es interrogada por el motor de búsqueda. El tamaño de la base de datos es difícil de comparar. En este buscador se contabiliza como nuevas referencias todos los enlaces de cada página que indexa, aunque estos nuevos enlaces no los explora. Cuando se da de alta una nueva referencia tarde en incluirse en la base de datos unas 4 a 6 semanas aproximadamente. Método de Indexación y puntuación de los resultados (score) Este buscador crea un índice con el título, cabecera del documento, de las 100 palabras más utilizadas en el documento y las primeras 20 líneas. Método para mostrar el resultado de la búsqueda: *** Número de veces que la palabra aparece en el documento. *** En que campos aparece (título, cabecera o texto). *** Número de veces que este documento está referenciado en otros. Lycos asocia una puntuación de 1 a 1000 a las páginas respetando los criterios anteriores. En la lista de resultados cada página tiene asociada esta puntuación. Lycos nos permite personalizar demasiado la búsqueda. Las posibilidades que ofrece son: *** Utilizar el signo '-' delante de una palabra para obligar a que esta se encuentre ausente en la búsqueda. *** Un punto inmediatamente detrás de una palabra, buscará la coincidencia exacta. *** El símbolo $ (pesos) se puede utilizar como comodín, por ejemplo: Pla$: buscará Placa, Placard, Plaqueta, etc. 7 Nota: no incluye la búsqueda por frase literal. Posee 10 categorías especiales, desde donde se accede a Top News (las últimas noticias generales), guía de las ciudades más importantes de los EE.UU, búsqueda de información por empresa. Motor de Búsqueda: 'YAHOO' (WWW.YAHOO.COM) Es un índice jerárquico de la Internet, con el que se puede navegar o realizar búsquedas. Este buscador fue creado por dos estudiantes predoctorales de la Universidad de Stanford, en el año 1994. Posee un total de 14 grandes categorías que a su vez se dividen en una multitud de subcategorías. Para dar de alta una URL el proceso es el siguiente: es necesario desplazarse por el índice hasta encontrar la categoría donde se desea incluirla y pulsar en el gráfico 'ADD URL'. Se completa un cuestionario para que luego un robot verifique la existencia del Web y luego de una semana aproximadamente se da de alta. Método de Indexación y puntuación de los resultados (score) El indexado se realiza manualmente. El usuario solicita que desea incluir una página y como se explicó anteriormente propone en que directorio desea incluirla. Los resultados de la búsqueda no se expresan siguiendo una puntuación, sino que se presenta respecto al orden en que se encuentra en el directorio. Búsquedas: en este buscador se realizan las búsquedas dentro de categorías "títulos" y descripción de las páginas listadas. En este caso el título no coincide con el título de la página que utilizan los robots. Los resultados de la búsqueda contienen 3 tipos de información: *** Categorías en Yahoo! que cumplen con el criterio de la búsqueda. *** Servidores o páginas que cumplen el criterio. *** Categorías de Yahoo! donde estas páginas están listadas. REFERENCIAS: Sitio de Internet: WWW.INATEC-EDU-NI.HTM Sitio de Internet: WWW.UCHILE-CL.HTM Sitio de Internet: WWW.VOILA-COM.HTM Sitio de Internet: WWW.WEBTEACHER-ORG.HTM Sitio de Internet: WWW.QUADERNSDIGITALS.NET 8 Sitio de Internet: WWW.CYBERCURSOS.NET 9