Tema 0: KDD

Anuncio
Visión global del KDD
Series Temporales
Máster en Computación
Universitat Politècnica de Catalunya
Dra. Alicia Troncoso Lora
1
Introducción
Desarrollo tecnológico
Almacenamiento masivo de información
Aprovechamiento de esa información:
Tradicionalmente
Técnicas estadísticas
Avance de la tecnología
Data Mining
2
Introducción
Tradicionalmente:
CONSULTAS DE BDS y TÉCNICAS ESTADÍSTICAS
(resúmenes: medias, desviaciones, distribuciones,
correlaciones, etc)
Respuesta a preguntas como:
“¿Cuáles fueron las ventas en el tercer trimestre en la
región norte?”
“¿Qué ventas se prevén en el tercer trimestre del año
próximo en la región norte?”
Insuficiente para la toma de decisiones
conocimiento
muy limitado del comportamiento de los datos.
3
Introducción
Minería de datos:
Gran cantidad de datos: Extracción AUTOMÁTICA de
información verdaderamente útil
CONOCIMIENTO
Respuesta a preguntas como:
“¿Cómo aumentar las ventas en el tercer trimestre en la
región norte?”
Relaciones entre venta de determinados productos y
cliente
Posición de los artículos en la tienda
Envío “personificado” de publicidad
Etc.
4
Introducción
Minería de datos:
Análisis de bases de datos con el fin de descubrir o extraer
información inherente a los datos objeto de análisis, de
modo que sea de utilidad en la toma de decisiones.
Para obtener conclusiones válidas y útiles al aplicar
minería de datos, es necesario complementar este
proceso con una adecuada preparación de los datos
previa al proceso de minería y un análisis posterior de
resultados obtenidos.
KDD (Knowledge Discovery in Databases)
5
Tareas de la Minería de Datos
KDD: Knowledge Discovery in
Databases
“El Descubrimiento de Conocimiento en Bases de Datos es el proceso
no trivial de identificación de patrones válidos, novedosos,
potencialmente útiles y fundamentalmente comprensibles en los datos”,
Fayyad, Piatetsky-Shapiro y Padhraic Smyth (1996).
Proceso no trivial: secuencia de pasos que implican una inferencia
compleja sobre los datos en busca de conclusiones
Patrones: Descripción a alto nivel de los datos (estructuras/modelos de
comportamiento)
Válidos: Los patrones o modelos descubiertos deben gozar de cierto grado
de certeza.
Novedosos: Los patrones deben aportar conocimiento nuevo.
Potencialmente útiles: El modelo debe ser aplicable para la toma de
decisiones que impliquen beneficio.
Comprensibles: Se debe generar un modelo fácilmente interpretable por el
usuario, si no directamente, sí tras un procesado posterior.
7
KDD: Knowledge Discovery in
Databases
El KDD no es un campo aislado, sino la
convergencia de otros campos:
Estadística: Inferir información de datos (principalmente de
datos numéricos)
Base de Datos / Data Warehouse (OLAP: On line
Analytical Processing): SELECT, INSERT, UPDATE,
DELETE
Machine Learning: Algoritmos implementados que
aprenden automáticamente a través de la experiencia
(principalmente datos simbólicos)
8
KDD: Knowledge Discovery in
Databases
El KDD no es un campo aislado, sino la
convergencia de otros campos
Inferir información de datos
(principalmente de datos
numéricos)
Estadística
KDD
Base de Datos
Data Warehouse
OLAP, SELECT, INSERT,
UPDATE, DELETE
Algoritmos implementados
que aprenden
automáticamente a través de
la experiencia
Machine Learning
9
Proceso KDD
!
$
$
&$
#
" #$
#
%
10
Proceso KDD
1.- Determinación de Objetivos:
Precisar qué objetivos quieren cumplirse desde el punto de vista
del usuario.
Datos a usar.
Elección de las técnicas.
2.- Preparación de los datos:
Ambigüedades, ruido o no estar en el formato adecuado.
Acelera el algoritmo de minería
Mejora la calidad del modelo de conocimiento.
Subfases:
Filtros: valores ausentes, ruido, transformación (normalizar,
discretizar, etc).
Selección y Editado: distinguir los subconjuntos de datos
significativos.
11
Proceso KDD
3.- Minería de Datos
La elección del método de minería es fundamental dentro del
proceso KDD.
La validez y utilidad del modelo depende en gran parte de esta
fase.
Algoritmo de aprendizaje + validación del modelo
4.- Análisis:
Estudia, interpreta y evalúa el modelo de conocimiento.
El uso de técnicas de visualización facilitan al usuario la
comprensión.
5.- Aplicación:
Integración del conocimiento adquirido al campo real de
aplicación mediante la toma de decisiones.
Comparación con el conocimiento previo a la aplicación del
proceso
12
Minería de Datos
Aprendizaje: El Aprendizaje Automático (Machine
Learning) es la rama de la Inteligencia Artificial que
estudia el desarrollo de técnicas para extraer de
forma automática conocimiento subyacente en la
vasta información.
$
#' #
'#
(
Aprendizaje inductivo, que engloba todas aquellas
técnicas que aplican inferencias inductivas sobre un
conjunto de datos para adquirir el conocimiento
inherente a ellos. Dos tipos de aprendizaje
inductivo:
Aprendizaje Supervisado, los casos tienen a priori
asignada una clase o categoría, siendo el objetivo
encontrar patrones o tendencias de los casos
pertenecientes a una misma clase.
$
Aprendizaje no supervisado: no goza de una
agrupación previa, por los que se limita a buscar la
regularidades entre éstos. (Clustering)
13
Minería de Datos
Representación del Conocimiento:
Sin representación (Lazy Learning): KNN,
Redes Neuronales
Reglas, árboles…
$
#' #
'#
(
Validación
Precisión (Tasa de error)
Complejidad
Comprensibilidad – Legibilidad
$
14
Minería de Datos
Tareas Principales
Clasificación
Clustering
Regresión
?
Modelado de dependencias
15
Nuestro Contexto
Expertos
Representación de
Reglas, patrones, …
!
$
Bases de
datos temporales
$
&$
#
" #$
#
%
Selección de atributos
Regresión
Clasificación
Clustering
16
Descargar