presentacionDapper

Anuncio
Seminario de Extracción de
Información
DAPPER: The Data Mapper
Rubén Izquierdo Beviá
Departamento de Lenguajes y Sistemas Informáticos
ruben@dlsi.ua.es
INDICE
1.
2.
3.
4.
5.
6.
7.
Problemática
¿ Qué es DAPPER
¿ Cómo crear un Dapp?
¿ Cómo usar un Dapp?
Dos ejemplos prácticos
Características Interesantes
Algunos problemas de DAPPER
2
Problemática

En 2008, alrededor de 160 millones de webs

Estructura heterogénea y dinámica

Datos semi-estructurados

Desarrollo manual de wrappers
◦ Especializado por web
◦ Muy costoso de desarrollar
◦ Todavía más de mantener
3
¿Qué es DAPPER?

Herramienta de Extracción de
Información desde Internet
4
¿Qué es DAPPER?



Servicio web, gratuito (registro)
No es necesario programar (entorno visual)
Fases:
◦ 1 desarrollo del Dapp para una web
◦ ∞ usos del Dapp sobre diferentes webs

Nos permitirá:
◦ Extraer la información requerida de una web
◦ Utilizarla de diferentes modos
5
¿Cómo crear un DAPP?
1.
Varias muestras de webs con la misma
estructura
6
¿Cómo crear un DAPP?
7
¿Cómo crear un DAPP?
1.
2.
Varias muestras de webs con la misma
estructura
Definir información que queremos
8
¿Cómo funciona DAPPER?
9
¿Cómo crear un DAPP?
1.
2.
3.
Varias muestras de webs con la misma
estructura
Definir información que queremos
DAPPER aprende y propone
automáticamente
•
•
4.
5.
Información estática / dinámica
Estructura y etiquetas HTML (XPATH)
Refinamos el Dapp
Guardamos el Dapp
10
¿Cómo usar un DAPP?

Suscribirnos mediante un lector
◦
◦

RSS Feed (formato de redifusión de fuentes web)
Atom Feed
Ponerlo en nuestra página web
◦
◦
◦
Gadget Google
Módulo Netvibes
Widget en flash
11
¿Cómo usar un DAPP?

Usarlo desde un lenguaje de programación
◦
◦
◦

XML
JSON
YAML, XSL, CSV …
Otros
◦
◦
iCal
Google Map
12
Ejemplo Práctico I

Extraer información de noticias del diario
MARCA
◦ Titular
◦ Subtitular
◦ Cuerpo

Crear un widget para mi página web
13
Ejemplo Práctico II

Crear un buscador que use yahoo

Crear un gadget para iGoogle
14
Características Interesantes

Uso de variables de entrada
◦ Query para un buscador

Creación de alertas
◦ Email cuando en cuerpo de noticia aparezca “Rubén
Izquierdo”

Enlazar varios Dapp
◦ Dapp buscador inglés  Dapp traductor

Explotación de Dapp’s
◦ API JAVA
◦ Python…
15
Algunos problemas de DAPPER

No funciona con flash

Algunas web bloquean al robot de DAPPER

Limitación hits/segundo

Se ejecuta en el servidor de Yahoo
◦ Dependencia de Yahoo
◦ Dependencia de la carga de la red
16
¿Sugerencias? ¿Preguntas?
DAPPER: The Data Mapper
Rubén Izquierdo Beviá
Departamento de Lenguajes y Sistemas Informáticos
ruben@dlsi.ua.es
Descargar