Temario Minería de Datos 1. Introducción a la Minería de Datos (DM) 1.1. Motivación 1.2. Problemas tipo y aplicaciones 1.3. Relación de DM con otras disciplinas 1. Introducción a la Minería de Datos 2. El proceso de KDD 2.1. Las Fases del KDD 2.2. Tipología de Técnicas de Minería de Datos 2.3. Sistemas Comerciales y Herramientas de Minería de Datos 2.4. Preparación y Visualización de Datos 3. Técnicas de Minería de Datos José Hernández Orallo 3.1. El Problema de la Extracción Automática de Conocimiento. 3.2. Evaluación de Hipótesis 3.3. Técnicas no supervisadas y descriptivas. 3.4. Técnicas supervisadas y predictivas. jorallo@dsic.upv.es 4. Web Mining Máster y Cursos de Postgrado del DSIC Universitat Politècnica de València 4.1. Los Problemas de la Información No Estructurada. 4.2. Extracción de Conocimiento a partir de Documentos HTML y texto. 4.3. Extracción de Información semi-estructurada (XML). 5. Otros Aspectos Objetivos Tema 1 2 Ejemplos • Reconocer la problemática del análisis de grandes volúmenes de datos y de los beneficios de su uso sistemático para la obtención de modelos y patrones predictivos o descriptivos. • Conocer las aplicaciones habituales de la minería de datos. • AGENTE en un BANCO: ¿Debo conceder el crédito a este cliente? • GERENTE de un SUPERMERCADO: ¿Cuándo se compran huevos, se suele comprar también aceite? • DIRECTOR de RR.HH. de una EMPRESA: ¿Qué tipos de empleados tengo? • Conocer la relación de la minería de datos con otras disciplinas. 3 • COMERCIAL de una EMPRESA DE COMERCIALIZACIÓN: ¿Cuántos televisores planos se estima vender el mes que viene? 4 Ejemplos Ejemplos • GERENTE de un SUPERMERCADO: ¿Cuándo se compran huevos, se suele comprar también aceite? • AGENTE en un BANCO: ¿Debo conceder el crédito a este cliente? Idc Datos históricos: D-crédito (años) C-crédito (euros) Salario (euros) Casa propia Cuentas morosas Devuelvecrédito … Idcesta Huevos Aceite Pañales Vino Leche Mantequilla Salmón Endibias ... 1 sí no no sí no sí sí sí ... ... 101 15 60.000 2.200 sí 2 … no 2 no sí no no sí no no sí 102 2 30.000 3.500 sí 0 … sí 3 no no sí no sí no no no ... 103 9 9.000 1.700 sí 1 … no 4 no sí sí no sí no no no ... 104 15 18.000 1.900 no 0 … sí 5 sí sí no no no sí no sí ... 105 10 24.000 2.100 no 0 … no 6 sí no no sí sí sí sí no ... ... … … … … … … … 7 no no no no no no no no ... 8 sí sí sí sí sí sí sí no ... ... ... ... ... ... ... ... ... ... ... Datos históricos: Minería de Datos Patrón / Modelo: Si Cuentas-Morosas > 0 entonces Devuelve-crédito = no Si Cuentas-Morosas = 0 Y [(Salario > 2.500) O (D-crédito > 10)] entonces Devuelve-crédito = sí Huevos Æ Aceite : Confianza = 75%, Soporte = 12% 5 Ejemplos • COMERCIAL de una EMPRESA DE COMERCIALIZACIÓN: ¿Cuántos televisores planos se estima vender el mes que viene? Id Sueldo Casado Coche Hijos Alq/Prop Sindicado Bajas/Año Antigüedad 1 10000 Sí No 0 Alquiler No 7 15 H 2 20000 No Sí 1 Alquiler Sí 3 3 M 3 15000 Sí Sí 2 Prop Sí 5 10 H 4 30000 Sí Sí 1 Alquiler No 15 7 M 5 10000 Sí Sí 0 Prop Sí 1 6 H 6 40000 No Sí 0 Alquiler Sí 3 16 M 7 25000 No No 0 Alquiler Sí 0 8 H 8 20000 No Sí 0 Prop Sí 2 6 M 15 8000 No Sí 0 Alquiler No 3 2 H ... ... ... ... ... ... ... ... ... ... Patrón / Modelo: 6 Ejemplos • DIRECTOR de RR.HH. de una EMPRESA: ¿Qué tipos de empleados tengo? Datos históricos: Minería de Datos Patrón / Modelo: Sexo Minería de Datos • Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas. • Grupo 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente son mujeres y tienen casas de alquiler. 7 • Grupo 3: Con hijos, casados y con coche. Mayoritariamente hombres propietarios de su vivienda. Poco sindicados. Datos históricos: PRODUCTO MES−12 ... MES−4 MES−3 MES−2 MES−1 televisor plano 30’ 20 ... 52 14 139 74 MES ? vídeo-dvd-recorder 11 ... 43 32 26 59 ? discman 50 … 61 14 5 28 ? frigorífico gama alta 3 … 21 27 1 49 ? nevera 14 ... 27 2 25 12 ? … … … … … … … ... Minería de Datos Patrón / Modelo: Modelo lineal: Ventas Mes Siguiente TV planos: 8 V(Mes)TVplanos = 0.62 · V(Mes-1)Tvplanos + 0.33 · V(Mes-2)Tvplanos + 0.12 · V(Mes-1)DVD-Recorder – 0.05 Motivación Motivación Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos • La mayoría de decisiones de empresas, organizaciones e instituciones se basan también en información de experiencias pasadas extraídas de fuentes muy diversas. • El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos digitales ha crecido espectacularmente en la última década. • las decisiones colectivas suelen tener consecuencias mucho más graves, especialmente económicas, y, recientemente, se deben basar en volúmenes de datos que desbordan la capacidad humana. • Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que se han producido. • Aparte de su función de “memoria de la organización”, la información histórica es útil para predecir la información futura. El área de la extracción (semi-)automática de conocimiento de bases de datos ha adquirido recientemente una importancia científica y económica inusual 9 Motivación 10 Relación de DM con Otras Disciplinas • El usuario final no es un experto en aprendizaje automático ni en estadística. • El usuario no puede perder más tiempo analizando los datos: industria: ventajas competitivas, decisiones más efectivas. ciencia: datos nunca analizados, bancos no cruzados, etc. personal: “information overload”... Aparece... • “Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés Knowledge Discovery from Databases). “proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos”. Fayyad et al. 1996 • RELACIONES: Los sistemas clásicos de estadística son difíciles de usar y no escalan al número y tipo de datos que se suelen encontrar en bases de datos. 11 Diferencia con métodos estadísticos: la estadística se utiliza para validar o parametrizar un modelo sugerido y preexistente, no para generarlo. Diferencia sutil con “Análisis Inteligente de Datos” (IDA, Intelligent Data Analysis) que correspondía con el uso de 12 técnicas de inteligencia artificial en el análisis de los datos. Relación de DM con Otras Disciplinas • KDD nace como interfaz y se nutre de diferentes disciplinas: estadística. Relación de DM con Otras Disciplinas • La minería o prospección de datos (DM) no es más que una fase del KDD: Fase que integra los métodos de aprendizaje y estadísticos para obtener hipótesis de patrones y modelos. sistemas de información / bases de datos. aprendizaje automático / IA. visualización de datos. • Al ser la fase de generación de hipótesis, vulgarmente se asimila KDD con DM. computación paralela / distribuida. interfaces de lenguaje natural a bases de datos. 13 Relación de DM con Otras Disciplinas • La minería de datos no es una extensión de los sistemas de informes inteligentes o sistemas OLAP. La minería de datos aspira a más Otras herramientas, p.ej. consultas sofisticadas o análisis estadístico, pueden responder a preguntas como: “¿Han subido las ventas del producto X en junio?” • Además, las connotaciones de aventura y de dinero fácil del término “minería de datos” han hecho que éste se use como identificador del área. 14 Relación de DM con Otras Disciplinas • Los sistemas OLAP y las herramientas de minería de datos son complementarias. • Los sistemas OLAP permiten obtener la información que está en la base de datos (sea implícita o explícitamente) de manera agregada, cruzada y sumarizada, eficientemente. • El resultado siempre es cierto y exacto. No es un resultado hipotético. “¿Las ventas del producto X bajan cuando promocionamos el producto Y?” “¿El factor Y influye en las ventas del producto X?” Pero sólo con técnicas de minería de datos podremos responder a preguntas del estilo: “¿He de conceder el préstamo al cliente X? • Las herramientas de minería de datos permiten obtener información que no está en la base de datos, pero que se puede inferir de ella con cierta plausibilidad. • El resultado puede ser falso y es aproximado. Es un resultado hipotético. “¿Qué se suele comprar cuando se compran pañales? 15 “¿Cuál será el producto más vendido si abrimos una delegación en Portugal?” 16 Áreas de Aplicación Relación de DM con Otras Disciplinas • Visión con las herramientas tradicionales: Áreas de Aplicación: • El analista empieza con una pregunta, una suposición o simplemente una intuición y explora los datos y construye un modelo. El analista propone el modelo. • Visión con la minería de datos: • Aunque el analista no pierde la posibilidad de proponer modelos, el sistema encuentra y sugiere modelos. Ventajas: • Generar un modelo requiere menos esfuerzo manual y permite evaluar cantidades ingentes de datos. • Se pueden evaluar muchos modelos generados automáticamente, y esto aumenta la probabilidad de encontrar un buen modelo. • El analista necesita menos formación sobre construcción de modelos y menos experiencia. Más importante industrialmente • Toma de Decisiones (banca-finanzas-seguros, márketing, políticas sanitarias/demográficas, ...) • Procesos Industriales (componentes químicos, compuestos, mezclas, esmaltes, procesos, etc.) • Investigación Científica (medicina, astronomía, meteorología, psicología, ...). Aquí la eficiencia no es tan importante. • Soporte al Diseño de Bases de Datos. • Reverse Engineering (dados una base de datos, desnormalizarla para que luego el sistema la normalice). • Mejora de Calidad de Datos. • Mejora de Consultas (si se descubren dependencias funcionales nuevas u otras condiciones evitables). 17 18 Áreas de Aplicación. Problemas Tipo. Áreas de Aplicación. Problemas Tipo. KDD para toma de decisiones (Dilly 96) KDD para toma de decisión Comercio/Marketing: - Identificar patrones de compra de los clientes. - Buscar asociaciones de clientes y características demográficas. - Predecir respuesta a campañas de mailing. - Análisis de cestas de la compra. Banca: - Detectar patrones de uso fraudulento de tarjetas de crédito. - Identificar clientes leales. - Predecir clientes con probabilidad de cambiar su afiliación. - Determinar gasto en tarjeta de crédito por grupos. - Encontrar correlaciones entre indicadores financieros. - Identificar reglas de mercado de valores a partir de históricos. Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente. - Predecir qué clientes compran nuevas pólizas. - Identificar patrones de comportamiento para clientes con riesgo. - Identificar comportamiento fraudulento. Transportes: - Determinar la planificación de la distribución entre tiendas. - Analizar patrones de carga. 19 Medicina: - Identificación de terapias médicas satisfactorias para diferentes enfermedades. - Asociación de síntomas y clasificación diferencial de patologías. - Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo/salud en distintas patologías. - Segmentación de pacientes para una atención más inteligente según su grupo. - Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones. - Estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos, etc. 20 Áreas de Aplicación. Problemas Tipo. KDD para Procesos Industriales - Extracción de modelos sobre comportamiento de compuestos. Detección de piezas con trabas. Predicción de fallos Modelos de calidad. Estimación de composiciones óptimas en mezclas. Extracción de modelos de coste. Extracción de modelos de producción. Simulación costes/beneficios según niveles de calidad 21