DISTRIBUTED SEARCH ENGINES Rodrigo Toro Icarte Motores de Búsqueda Centralizados Motores de Búsqueda Centralizados • ¿Qué son? • Nuestra ventana a Internet • Permiten encontrar información • Características • Input: query • Output: urls relacionadas • Ejercito de servidores • ¿Qué tienen de centralizado? • El dueño Motores de Búsqueda Centralizados • Imaginemos un motor de búsqueda P2P • Idea: ¿Cómo funciona?... Yo no lo sé, pero apuesto que otro peer sí • ¿Alguna ventaja? 1- Gasto Energético • Alto consumo eléctrico en un solo edificio • Sistema P2P distribuye gasto entre sus pares 2- Privacidad • Nula. • Espían tus datos y te llenan de spam • En P2P me piden mi información, pero no sé el destinatario final 3- Censura • Es muy simple eliminar una página del sistema • En un Sistema P2P es imposible la censura Problema de fondo Motores de Búsqueda Distribuidos • Cada peer es un ‘motor de búsqueda’ • Me comunico con otros peers para obtener urls que busco • Cada peer puede agregar URLs que quiera al sistema • Ejemplo practico: Yacy • Buscador totalmente descentralizado • Más de 1.4 billones de documentos ingresados • Más de 130.000 preguntas diarias • Gratis! versiones para Windows, Linux, Mac Estructura red HDT… ¿Pastry? Sistema completo Agregar página web • Cualquier peer puede agregar una página al sistema • Ingresa URL y elije profundidad hasta que analizará la página • Profundidad infinita significa que toda sub URL queda disponible (incluyendo links ocultos) Agregar página web Agregar página web • Realizo análisis del texto de cada URL • Creo índices para realizar búsquedas • Los agrego a una ‘tabla de índice inverso’ Agregar página web Agregar página web Agregar página web • Calculo una función de hash por cada índice mediante la URL y las palabras encontradas • Entrego a los peers que corresponda parte del índice • Debe existir redundancia Agregar página web Agregar página web Agregar página web • Listo! URL agregada • Solo falta ver cómo realizar búsquedas Búsquedas • A partir de términos obtiene Hash • Mediante Hash llega a los peers con las tablas de índices que necesito • Ordena las respuestas según “Preferencias del usuario” Agregar página web Búsquedas Preferencias • ¿Es mejor que google? ¿Qué es ser mejor? • Google ordena resultados según “popularidad” del link • Yacy permite que cada peer ajuste los resultados de sus búsquedas a sus necesidades Comentarios Finales • También permite crear buscador local (útil en trabajos de investigación) • Posee API para agregar Yacy a tu página web • Es lento… básicamente porque tratamos con otros computadores de escritorio y no con súper servidores ¿Preguntas?