Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es INDICE 1. 2. 3. 4. 5. 6. 7. Problemática ¿ Qué es DAPPER ¿ Cómo crear un Dapp? ¿ Cómo usar un Dapp? Dos ejemplos prácticos Características Interesantes Algunos problemas de DAPPER 2 Problemática En 2008, alrededor de 160 millones de webs Estructura heterogénea y dinámica Datos semi-estructurados Desarrollo manual de wrappers ◦ Especializado por web ◦ Muy costoso de desarrollar ◦ Todavía más de mantener 3 ¿Qué es DAPPER? Herramienta de Extracción de Información desde Internet 4 ¿Qué es DAPPER? Servicio web, gratuito (registro) No es necesario programar (entorno visual) Fases: ◦ 1 desarrollo del Dapp para una web ◦ ∞ usos del Dapp sobre diferentes webs Nos permitirá: ◦ Extraer la información requerida de una web ◦ Utilizarla de diferentes modos 5 ¿Cómo crear un DAPP? 1. Varias muestras de webs con la misma estructura 6 ¿Cómo crear un DAPP? 7 ¿Cómo crear un DAPP? 1. 2. Varias muestras de webs con la misma estructura Definir información que queremos 8 ¿Cómo funciona DAPPER? 9 ¿Cómo crear un DAPP? 1. 2. 3. Varias muestras de webs con la misma estructura Definir información que queremos DAPPER aprende y propone automáticamente • • 4. 5. Información estática / dinámica Estructura y etiquetas HTML (XPATH) Refinamos el Dapp Guardamos el Dapp 10 ¿Cómo usar un DAPP? Suscribirnos mediante un lector ◦ ◦ RSS Feed (formato de redifusión de fuentes web) Atom Feed Ponerlo en nuestra página web ◦ ◦ ◦ Gadget Google Módulo Netvibes Widget en flash 11 ¿Cómo usar un DAPP? Usarlo desde un lenguaje de programación ◦ ◦ ◦ XML JSON YAML, XSL, CSV … Otros ◦ ◦ iCal Google Map 12 Ejemplo Práctico I Extraer información de noticias del diario MARCA ◦ Titular ◦ Subtitular ◦ Cuerpo Crear un widget para mi página web 13 Ejemplo Práctico II Crear un buscador que use yahoo Crear un gadget para iGoogle 14 Características Interesantes Uso de variables de entrada ◦ Query para un buscador Creación de alertas ◦ Email cuando en cuerpo de noticia aparezca “Rubén Izquierdo” Enlazar varios Dapp ◦ Dapp buscador inglés Dapp traductor Explotación de Dapp’s ◦ API JAVA ◦ Python… 15 Algunos problemas de DAPPER No funciona con flash Algunas web bloquean al robot de DAPPER Limitación hits/segundo Se ejecuta en el servidor de Yahoo ◦ Dependencia de Yahoo ◦ Dependencia de la carga de la red 16 ¿Sugerencias? ¿Preguntas? DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos ruben@dlsi.ua.es