Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento de esa información: Tradicionalmente Técnicas estadísticas Avance de la tecnología Data Mining 2 Introducción Tradicionalmente: CONSULTAS DE BDS y TÉCNICAS ESTADÍSTICAS (resúmenes: medias, desviaciones, distribuciones, correlaciones, etc) Respuesta a preguntas como: “¿Cuáles fueron las ventas en el tercer trimestre en la región norte?” “¿Qué ventas se prevén en el tercer trimestre del año próximo en la región norte?” Insuficiente para la toma de decisiones conocimiento muy limitado del comportamiento de los datos. 3 Introducción Minería de datos: Gran cantidad de datos: Extracción AUTOMÁTICA de información verdaderamente útil CONOCIMIENTO Respuesta a preguntas como: “¿Cómo aumentar las ventas en el tercer trimestre en la región norte?” Relaciones entre venta de determinados productos y cliente Posición de los artículos en la tienda Envío “personificado” de publicidad Etc. 4 Introducción Minería de datos: Análisis de bases de datos con el fin de descubrir o extraer información inherente a los datos objeto de análisis, de modo que sea de utilidad en la toma de decisiones. Para obtener conclusiones válidas y útiles al aplicar minería de datos, es necesario complementar este proceso con una adecuada preparación de los datos previa al proceso de minería y un análisis posterior de resultados obtenidos. KDD (Knowledge Discovery in Databases) 5 Tareas de la Minería de Datos KDD: Knowledge Discovery in Databases “El Descubrimiento de Conocimiento en Bases de Datos es el proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y fundamentalmente comprensibles en los datos”, Fayyad, Piatetsky-Shapiro y Padhraic Smyth (1996). Proceso no trivial: secuencia de pasos que implican una inferencia compleja sobre los datos en busca de conclusiones Patrones: Descripción a alto nivel de los datos (estructuras/modelos de comportamiento) Válidos: Los patrones o modelos descubiertos deben gozar de cierto grado de certeza. Novedosos: Los patrones deben aportar conocimiento nuevo. Potencialmente útiles: El modelo debe ser aplicable para la toma de decisiones que impliquen beneficio. Comprensibles: Se debe generar un modelo fácilmente interpretable por el usuario, si no directamente, sí tras un procesado posterior. 7 KDD: Knowledge Discovery in Databases El KDD no es un campo aislado, sino la convergencia de otros campos: Estadística: Inferir información de datos (principalmente de datos numéricos) Base de Datos / Data Warehouse (OLAP: On line Analytical Processing): SELECT, INSERT, UPDATE, DELETE Machine Learning: Algoritmos implementados que aprenden automáticamente a través de la experiencia (principalmente datos simbólicos) 8 KDD: Knowledge Discovery in Databases El KDD no es un campo aislado, sino la convergencia de otros campos Inferir información de datos (principalmente de datos numéricos) Estadística KDD Base de Datos Data Warehouse OLAP, SELECT, INSERT, UPDATE, DELETE Algoritmos implementados que aprenden automáticamente a través de la experiencia Machine Learning 9 Proceso KDD ! $ $ &$ # " #$ # % 10 Proceso KDD 1.- Determinación de Objetivos: Precisar qué objetivos quieren cumplirse desde el punto de vista del usuario. Datos a usar. Elección de las técnicas. 2.- Preparación de los datos: Ambigüedades, ruido o no estar en el formato adecuado. Acelera el algoritmo de minería Mejora la calidad del modelo de conocimiento. Subfases: Filtros: valores ausentes, ruido, transformación (normalizar, discretizar, etc). Selección y Editado: distinguir los subconjuntos de datos significativos. 11 Proceso KDD 3.- Minería de Datos La elección del método de minería es fundamental dentro del proceso KDD. La validez y utilidad del modelo depende en gran parte de esta fase. Algoritmo de aprendizaje + validación del modelo 4.- Análisis: Estudia, interpreta y evalúa el modelo de conocimiento. El uso de técnicas de visualización facilitan al usuario la comprensión. 5.- Aplicación: Integración del conocimiento adquirido al campo real de aplicación mediante la toma de decisiones. Comparación con el conocimiento previo a la aplicación del proceso 12 Minería de Datos Aprendizaje: El Aprendizaje Automático (Machine Learning) es la rama de la Inteligencia Artificial que estudia el desarrollo de técnicas para extraer de forma automática conocimiento subyacente en la vasta información. $ #' # '# ( Aprendizaje inductivo, que engloba todas aquellas técnicas que aplican inferencias inductivas sobre un conjunto de datos para adquirir el conocimiento inherente a ellos. Dos tipos de aprendizaje inductivo: Aprendizaje Supervisado, los casos tienen a priori asignada una clase o categoría, siendo el objetivo encontrar patrones o tendencias de los casos pertenecientes a una misma clase. $ Aprendizaje no supervisado: no goza de una agrupación previa, por los que se limita a buscar la regularidades entre éstos. (Clustering) 13 Minería de Datos Representación del Conocimiento: Sin representación (Lazy Learning): KNN, Redes Neuronales Reglas, árboles… $ #' # '# ( Validación Precisión (Tasa de error) Complejidad Comprensibilidad – Legibilidad $ 14 Minería de Datos Tareas Principales Clasificación Clustering Regresión ? Modelado de dependencias 15 Nuestro Contexto Expertos Representación de Reglas, patrones, … ! $ Bases de datos temporales $ &$ # " #$ # % Selección de atributos Regresión Clasificación Clustering 16