© Joan-Isidre Badell Práctica Recuperación de información: búsquedas. Prof. Joan-Isidre Badell © 2008 (actualización y adaptación de Lluís Codina (2004) Taller - Investigación en línea) © Joan-Isidre Badell 1. Recuperación de información: Altavista 1.1. Búsquedas simples. AltaVista Utilizaremos el buscador Altavista. Vaya a: www.altavista.com En la caja de búsqueda entre la palabra educación (o education, si prefiere probar con resultados en inglés), asegúrese de seleccionar la opción En todo el mundo o worldwide y haga clic en el botón Encontrar: Observe el resultado. La lista de respuestas está organizada en varias secciones. Algunas son anuncios (Resultados patrocinados) Aparece también el número últimamente he observado que encontrado xxx resultados). indicará probablemente algunas de recursos encontrados, aunque no siempre lo ofrecen (AltaVista ha Si ha entrado el término education, decenas de millones de páginas web. © Joan-Isidre Badell Entre en los cuatro o cinco primeros después de los patrocinados y juzgue si la relevancia estimada por AltaVista se corresponde con la realidad. Entre ahora en la caja de búsqueda la expresión: violence (asegúrese de tener activada siempre la opción Buscar: En todo el mundo, o, worldwide) ya que a partir de ahora practicaremos con una serie de expresiones en inglés, y observe las respuestas. AltaVista informará haber encontrado alrededor de dos cientos millones de respuestas. Examine los primeros recursos e intente juzgar su relevancia. 1.2. Diversos términos Ahora entre en la caja de búsqueda los dos términos: violence television y observe los resultados. Pueden ser algunos de miles de millones. Ahora añada un tercer término y entre esta expresión de búsqueda: violence television children ¿Aumentan o disminuyen los resultados? Probablemente, el resultado se ha reducido bastante. Añadamos finalmente un cuarto término: violence television children protection ¿Sigue descendiendo el resultado? ¿Por qué? Qué pasaría si añadimos un quinto y aún un sexto término. Probemos: violence television children protection films europe Sigue reduciéndose el número de resultados. ¿Por qué? Para intentar entenderlo, pasaremos a los siguientes ejercicios. 1.3. Búsquedas booleanas Las búsquedas booleanas permiten combinar dos o más palabras (o conceptos) para expresar con mucha exactitud el sentido de una necesidad de información. Las palabras o conceptos se combinan entre ellas con tres operadores, llamados operadores de Boole, que son los siguientes: © Joan-Isidre Badell AND OR NOT Atención: el significado de cada uno de esos operadores no coincide exactamente con el del lenguaje natural, ya que no corresponden a las partículas gramaticales Y, O, NO más que de forma aproximada. El operador OR permite unir sinónimos o lo que se denominan también "semi sinónimos" o "casi sinónimos". De esta manera, si unimos dos palabras con OR, el ordenador busca documentos donde esté una cualquiera de las dos palabras o ambas. Por ejemplo, para buscar documentos sobre cine o televisión, hacemos: <cine OR televisión>. Obtendremos así documentos que tengan solo la palabra cine, o solo la palabra televisión, o ambas palabras a la vez. El operador AND sirve para cruzar o combinar conceptos. El operador AND exige que ambas palabras estén presentes en el documento para que sea recuperado. Para buscar documentos que relacionen el cine y la televisión, hacemos: <cine AND televisión>. En este caso, siempre obtendremos como respuesta menos documentos que con la opción anterior, ya que únicamente serán válidos los documentos donde aparezcan, a la vez, ambas palabras. Obsérvese que el "y" gramatical no siempre es un AND lógico. Ejemplo: si digo que quiero saber cosas sobre el crimen y la violencia en el cine y la televisión, ¿qué ecuación debería utilizar?: crimen AND violencia AND cine AND televisión o bien crimen OR violencia AND cine OR televisión En el lenguaje natural el "y" gramatical a veces corresponde a un AND, pero a veces corresponde a un OR. Otro ejemplo, si hay un autor que a veces ha publicado obras con el nombre McQ y a veces con el nombre McQuinn y quiero encontrar todas sus publicaciones, ¿qué ecuación debo emplear?: McQ AND McQuinn o bien McQ OR McQuinn NOT permite excluir documentos del conjunto. En concreto, excluye aquellos documentos que tengan la palabra que sigue al operador NOT. Por ejemplo, <audiovisuales NOT cine> busca documentos © Joan-Isidre Badell sobre audiovisuales, pero si tienen también la palabra cine, los retira de la lista. Con unas cuantas pruebas lo veremos más claro. Observe bien la caja de búsqueda de AltaVista (AV) y busque un enlace que se llama Búsqueda avanzada. Haga clic en esa opción. Verá este formulario: 1.4. Ecuaciones Consulte la Ayuda de Altavista e intente averiguar si las cajas Todas estas palabras, esta secuencia exacta, cualquiera de estas palabras, y ninguna de estas palabras tienen una correspondencia con los operadores boleanos vistos anteriormente. Ahora entre en la caja correspondiente los términos: films OR violence Y haga clic en Encontrar: © Joan-Isidre Badell Observe los resultados: el número de recursos encontrados puede ser de varios millones. La ecuación anterior es un lenguaje formalizado que es equivalente a la expresión en lenguaje natural siguiente: "busca recursos que contengan o bien el término films o bien el término violence o bien ambos términos". Examine los recursos y trate de juzgar la relevancia de los 10 primeros. Ahora entre esta correspondiente: nueva fórmula de búsqueda en la caja television AND violence El resultado debe conducir a una disminución radical. Puede que aún tengamos muchos recursos pero el número total de recursos debería haber disminuido en varios órdenes de magnitud. ¿Qué hemos hecho? Al unir los dos términos con un AND en lugar de con un OR, hemos elevado la exigencia. Ya no nos basta con que un recurso contenga una cualquiera de las dos palabras para que sea recuperado, sino que hemos exigido que el recurso tenga ambas palabras. Por eso hemos logrado reducir el número total. Hagamos ahora esta búsqueda: television AND violence AND children AND protection Hemos reducido aún un poco más el resultado. Por último, vamos a añadir una nueva variación, entrando un término con comillas, de esta manera: television AND minors AND "children protection" Si ha tenido éxito, ahora la reducción aún es mayor y deberá haber encontrado “apenas” unas centenas de recursos. Puede limitar por idioma, por fecha de publicación, por tipo de archivo, etc. Pruebe diversas opciones hasta conseguir algunas decenas de resultados. Examine los primeros en la lista de resultados. Si usted tuviera que preparar algún trabajo o algún informe sobre este tema, le convendría saber cómo hacer para que los motores de búsqueda y las bases de datos le entregaran pequeñas cantidades de información, © Joan-Isidre Badell pero muy relevante, y no millones de recursos, pero de relevancia y fiabilidad muy variada. ¿Sabría explicar el alumno qué hemos hecho en la última ecuación? Si no está seguro de ello, puede proponerlo como tema de debate en clase. Para finalizar este apartado y con el objetivo de practicar con todos los operadores, ¿Qué cajas de búsqueda avanzada utilizaría para realizar la siguiente ecuación?) Television AND violence NOT children Una vez haya terminado pruebe de realizarla en Google, consulte en la ayuda como utilizar paréntesis en las ecuaciones. 1.5. Comparación Vuelva ahora a la opción de búsqueda simple de AltaVista (Home) y entre esta búsqueda: "video games" violence children television films movies Compare los resultados de las búsquedas simples con los resultados de las búsquedas booleanas en cuanto a número total, precisión y relevancia de los resultados. ¿Qué podemos concluir de esta comparación? Redacte el alumno un pequeño informe (tres o cuatro párrafos) explicando sus conclusiones sobre las dos formas de búsqueda que hemos practicado (booleana o avanzada, versus simple) y sobre cuál es la más adecuada para usos profesionales y académicos. Responda también: ¿Por qué en la búsqueda simple se producían oscilaciones entre unos millones de recursos y unos miles por añadir un término más? © Joan-Isidre Badell 2. Términos básicos para entender los buscadores Término 1. Palabra clave (keyword) 2. Frase (phrase) Definición Palabra simple (p.e. televisión) que un usuario utiliza para expresar una necesidad de información en un buscador (o en una base de datos). Palabra compuesta por dos o más términos (p.e. televisión de calidad) que un usuario utiliza para expresar una necesidad de información en un buscador (o una base de datos). Nota: Se denomina frase aún cuando no sea una frase desde el punto de vista gramatical 3. Página de resultados Conjunto o lista de documentos y páginas web que presenta un buscador en respuesta a una palabra o frase clave. Ilustración: Una página de resultados en Ask 4. Ordenación por Relevancia (ranking) Para ganar el máximo de usuarios los buscadores no solo intentan ofrecer los mejores sitios o los más útiles en su página de resultados. La página de resultados no tendría ninguna utilidad práctica si listara los sitios o documentos por orden alfabético o por fechas. Tal vez los usuarios tendrían que revisar decenas de páginas de resultados para encontrar el © Joan-Isidre Badell primer sitio útil. En su lugar, los resultados se presentan por orden de utilidad, denominada relevancia (o ranking); de este modo, no importa cuántos resultados haya encontrado el buscador, será suficiente con examinar las primeras páginas de resultados, digamos las dos o tres primeras, para encontrar sitios útiles (y con suerte, algunos de los más útiles). 5. Cálculo de relevancia La relevancia es la capacidad teórica de cada documento para dar respuesta a la pregunta del usuario. Dicho de otro modo, la relevancia de un documento (o página web) es su relación y/o su adecuación a la pregunta. La relevancia (relativa) de cada página, a su vez, la determina el buscador en base a un análisis automático de un conjunto de características de la página en cuestión. Los ordenadores, como es sabido, no piensan. En su lugar aplican de forma mecánica una serie de procedimientos denominados algoritmos o cálculos. Cuando se trata de determinar la utilidad o la importancia de una página el cálculo puede ser muy certero o muy deficiente. Habrá observado que a veces los resultados son muy poco útiles. Si el algoritmo o el cálculo para confeccionar el ranking de resultados que realiza el buscador es eficiente, la página de resultados contendrá información muy útil (muy relevante) y por tanto contendrá mucha información y poco ruido; si es deficiente, la mayor parte de los resultados serán poco relevantes y la página de resultados tendrá mucho ruido y poca (o ninguna) información. Compare en las dos capturas siguientes las páginas de resultados de dos buscadores distintos para la misma pregunta (navegación social). 1. Página de resultados de Live © Joan-Isidre Badell 2. Página de resultados de Google © Joan-Isidre Badell 6. Índice Los buscadores no podrían responder nuestras preguntas si tuvieran que rastrear la web en tiempo real, es decir, de forma simultánea a la pregunta. En lugar de esto, consultan un índice similar a los índices temáticos que encontramos al final de un libro. En ese índice hay una entrada por cada palabra (para una sola lengua el índice puede estar formado por decenas de miles de palabras distintas). Para cada una de esas palabras hay otro índice que relaciona la palabra con las páginas web donde aparece la palabra. Por razones prácticas, los buscadores solamente cargan en el índice las 900 primeras páginas web (intente pasar del resultado 900 en Google y no podrá). Tenga en cuenta que los buscadores ofrecen los resultados habitualmente agrupados en dos listados, uno de publicidad, los llamados enlaces o sitios patrocinados (vea el ejemplo anterior de Live), aquí tiene el de Google: © Joan-Isidre Badell Probablemente no ignora que hay otros buscadores además de Google. En los últimos años, además de Google, se han ido consolidando los siguientes como los más importantes, antes de Google el buscador más utilizado era Altavista (y más o menos en el siguiente orden): 1. Yahoo Search (es.search.yahoo.com) 2. Live (www.live.com) 3. Ask (www.ask.com) Una característica de los competidores de Google es que parecen ser menos eficientes en la ordenación de resultados, es decir, a la hora de listar los sitios web que han encontrado por su orden relativo de importancia. Sin embargo, algunos de ellos, en particular Yahoo, resuelven mucho mejor algunas opciones concretas. Además, Google no contiene en su índice información sobre toda la Web, ni mucho menos, por lo cual, en alguna ocasión, comparar resultados de Google con los de Yahoo, por ejemplo, puede resolver muchas cosas, ya que Yahoo tiene información sobre la Web en su índice que no tiene Google (y viceversa). Aquí tiene algunos buscadores más clasificados según una de sus principales características (temática o presentación o especialización) Puede ir probándolos. Motores generalistas Bloque 1 Bloque 2 Bloque 3 Ask Yahoo! Search MSN Search © Joan-Isidre Badell Clustering Mooter iBoogie Vivísimo Visualización Kartoo WebBrain Thumbshot Ranking Académicos Dmoz Teoma Intute (Sosig) Especializados Internet Invisible Google Scholar Google News Especializados: Libros Amazon Search Inside Google Books A9 Por último, existe la opción de utilizar sitios web, denominados multibuscadores, que son capaces de enviar la misma pregunta a diversos buscadores para después reunir las respuestas en una sola lista de resultados (eliminando los duplicados). Probablemente, el multibuscador más eficaz es Metacrawler (www.metacrawler.com). Permite desplegar una lista unificada de todos los resultados o listas diferenciadas con las que podemos comparar los resultados de cada motor. Haga diversas pruebas.