MINERÍA DE DATOS INTRODUCCIÓN INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓNA A LA MINERÍA DE DATOS. EL PROCESO DE KDD - TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS. FASE DE SELECCIÓN EN MINERÍA DE DATOS. FASE DE EXPLORACIÓN EN MINERÍA DE DATOS. FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS. MINERÍA DE DATOS - INTRODUCCIÓN 1 EL OBJETIVO ES EL ANÁLISIS DE GRANDES VOLÚMENES DE DATOS PARA LA OBTENCIÓN DE MODELOS Y PATRONES PREDICTIVOS O DESCRIPTIVOS: SE BUSCA EL DESCUBRIMIENTO DE CONOCIMIENTO EN LAS BASES DE DATOS. SE EMPLEAN TÉCNICAS DE APRENDIZAJE AUTOMÁTICO Y ESTADÍSTICAS. MINERÍA DE DATOS - INTRODUCCIÓN 4 INTRODUCCIÓN A LA MINERÍA DE DATOS MOTIVACIÓN: NUEVAS NECESIDADES DEL ANÁLISIS DE GRANDES VOLÚMENES DE DATOS. EL AUMENTO DEL VOLUMEN Y VARIEDAD DE INFORMACIÓN QUE SE ENCUENTRA INFORMATIZADA EN BASES DE DATOS DIGITALES HA CRECIDO ESPECTACULARMENTE EN LA ÚLTIMA DÉCADA. GRAN PARTE DE ESTA INFORMACIÓN ES HISTÓRICA, ES DECIR, REPRESENTA TRANSACCIONES O SITUACIONES QUE SE HAN PRODUCIDO. APARTE DE SU FUNCIÓN DE “MEMORIA DE LA ORGANIZACIÓN”, LA INFORMACIÓN HISTÓRICA ES ÚTIL PARA PREDECIR LA INFORMACIÓN FUTURA. MINERÍA DE DATOS - INTRODUCCIÓN MINERÍA DE DATOS - INTRODUCCIÓN 3 INTRODUCCIÓN A LA MINERÍA DE DATOS 2 INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS MINERÍA DE DATOS - INTRODUCCIÓN 5 LA MAYORÍA DE DECISIONES DE EMPRESAS, ORGANIZACIONES E INSTITUCIONES SE BASAN TAMBIÉN EN INFORMACIÓN DE EXPERIENCIAS PASADAS EXTRAÍDAS DE FUENTES MUY DIVERSAS. LAS DECISIONES COLECTIVAS SUELEN TENER CONSECUENCIAS MUCHO MÁS GRAVES, ESPECIALMENTE ECONÓMICAS, Y, RECIENTEMENTE, SE DEBEN BASAR EN VOLÚMENES DE DATOS QUE DESBORDAN LA CAPACIDAD HUMANA. EL ÁREA DE LA EXTRACCIÓN (SEMI-)AUTOMÁTICA DE CONOCIMIENTO DE BASES DE DATOS HA ADQUIRIDO RECIENTEMENTE UNA IMPORTANCIA CIENTÍFICA Y ECONÓMICA INUSUAL. MINERÍA DE DATOS - INTRODUCCIÓN 6 INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS TAMAÑO DE DATOS POCO HABITUAL PARA ALGORITMOS CLÁSICOS: NÚMERO DE REGISTROS (EJEMPLOS) MUY GRANDE (1081012 BYTES). DATOS ALTAMENTE DIMENSIONALES (Nº DE COLUMNAS / ATRIBUTOS): 102-104. EL USUARIO FINAL NO ES UN EXPERTO EN APRENDIZAJE AUTOMÁTICO NI EN ESTADÍSTICA. EL USUARIO NO PUEDE PERDER MÁS TIEMPO ANALIZANDO LOS DATOS: INDUSTRIA: VENTAJAS COMPETITIVAS, DECISIONES MÁS EFECTIVAS. CIENCIA: DATOS NUNCA ANALIZADOS, BANCOS NO CRUZADOS, ETC. PERSONAL: “INFORMATION OVERLOAD”... MINERÍA DE DATOS - INTRODUCCIÓN 8 KDD NACE COMO INTERFAZ Y SE NUTRE DE DIFERENTES DISCIPLINAS: ESTADÍSTICA. SISTEMAS DE INFORMACIÓN / BASES DE DATOS. APRENDIZAJE AUTOMÁTICO / IA. VISUALIZACIÓN DE DATOS. COMPUTACIÓN PARALELA / DISTRIBUIDA. INTERFACES DE LENGUAJE NATURAL A BASES DE DATOS. MINERÍA DE DATOS - INTRODUCCIÓN 10 INTRODUCCIÓN A LA MINERÍA DE DATOS LA MINERÍA O PROSPECCIÓN DE DATOS (DM) NO ES MÁS QUE UNA FASE DEL KDD: FASE QUE INTEGRA LOS MÉTODOS DE APRENDIZAJE Y ESTADÍSTICOS PARA OBTENER HIPÓTESIS DE PATRONES Y MODELOS. AL SER LA FASE DE GENERACIÓN DE HIPÓTESIS, VULGARMENTE SE ASIMILA KDD CON DM. ADEMÁS, LAS CONNOTACIONES DE AVENTURA Y DE DINERO FÁCIL DEL TÉRMINO “MINERÍA DE DATOS” HAN HECHO QUE ÉSTE SE USE COMO IDENTIFICADOR DEL ÁREA. MINERÍA DE DATOS - INTRODUCCIÓN MINERÍA DE DATOS - INTRODUCCIÓN 9 INTRODUCCIÓN A LA MINERÍA DE DATOS LOS SISTEMAS CLÁSICOS DE ESTADÍSTICA SON DIFÍCILES DE USAR Y NO ESCALAN AL NÚMERO DE DATOS TÍPICOS EN BD. APARECE EL “DESCUBRIMIENTO DE CONOCIMIENTO A PARTIR DE BASES DE DATOS”: KDD: KNOWLEDGE DISCOVERY FROM DATABASES. INTRODUCCIÓN A LA MINERÍA DE DATOS RELACIÓN DEL DM CON OTRAS DISCIPLINAS: KDD: “PROCESO NO TRIVIAL DE IDENTIFICAR PATRONES VÁLIDOS, NOVEDOSOS, POTENCIALMENTE ÚTILES Y EN ÚLTIMA INSTANCIA COMPRENSIBLES A PARTIR DE LOS DATOS”: FAYYAD, 1996. DIFERENCIA CLARA CON MÉTODOS ESTADÍSTICOS: LA ESTADÍSTICA SE UTILIZA PARA VALIDAR O PARAMETRIZAR UN MODELO SUGERIDO Y PREEXISTENTE, NO PARA GENERARLO. DIFERENCIA SUTIL: EL “ANÁLISIS INTELIGENTE DE DATOS” (IDA: INTELLIGENT DATA ANALYSIS) QUE CORRESPONDÍA CON EL USO DE TÉCNICAS DE INTELIGENCIA ARTIFICIAL EN EL ANÁLISIS DE LOS DATOS. MINERÍA DE DATOS - INTRODUCCIÓN 7 INTRODUCCIÓN A LA MINERÍA DE DATOS 11 LA MINERÍA DE DATOS NO ES UNA EXTENSIÓN DE LOS SISTEMAS DE INFORMES INTELIGENTES O SISTEMAS OLAP (ON-LINE ANALYTICAL PROCESSING). LA MINERÍA DE DATOS ASPIRA A MÁS. OTRAS HERRAMIENTAS, P.EJ. CONSULTAS SOFISTICADAS O ANÁLISIS ESTADÍSTICO, PUEDEN RESPONDER A PREGUNTAS COMO: “¿HAN SUBIDO LAS VENTAS DEL PRODUCTO X EN JUNIO?”. “¿LAS VENTAS DEL PRODUCTO X BAJAN CUANDO PROMOCIONAMOS EL PRODUCTO Y?”. PERO SÓLO CON TÉCNICAS DE MINERÍA DE DATOS PODREMOS RESPONDER A PREGUNTAS DEL ESTILO: “¿QUÉ FACTORES INFLUYEN EN LAS VENTAS DEL PRODUCTO X?”. “¿CUÁL SERÁ EL PRODUCTO MÁS VENDIDO SI ABRIMOS UNA DELEGACIÓN EN PORTUGAL?”. MINERÍA DE DATOS - INTRODUCCIÓN 12 INTRODUCCIÓN A LA MINERÍA DE DATOS VISIÓN CON LAS HERRAMIENTAS TRADICIONALES: EL ANALISTA EMPIEZA CON UNA PREGUNTA, UNA SUPOSICIÓN O SIMPLEMENTE UNA INTUICIÓN Y EXPLORA LOS DATOS Y CONSTRUYE UN MODELO. EL ANALISTA PROPONE EL MODELO. VISIÓN CON LA MINERÍA DE DATOS: AUNQUE EL ANALISTA NO PIERDE LA POSIBILIDAD DE PROPONER MODELOS, EL SISTEMA ENCUENTRA Y SUGIERE MODELOS. VENTAJAS: GENERAR UN MODELO REQUIERE MENOS ESFUERZO MANUAL Y PERMITE EVALUAR CANTIDADES INGENTES DE DATOS. SE PUEDEN EVALUAR MUCHOS MODELOS GENERADOS AUTOMÁTICAMENTE, Y ESTO AUMENTA LA PROBABILIDAD DE ENCONTRAR UN BUEN MODELO. EL ANALISTA NECESITA MENOS FORMACIÓN SOBRE CONSTRUCCIÓN DE MODELOS Y MENOS EXPERIENCIA. MINERÍA DE DATOS - INTRODUCCIÓN SOPORTE AL DISEÑO DE BASES DE DATOS. REVERSE ENGINEERING: DADOS UNA BASE DE DATOS, DESNORMALIZARLA PARA QUE LUEGO EL SISTEMA LA NORMALICE. MEJORA DE CALIDAD DE DATOS. MEJORA DE CONSULTAS: SI SE DESCUBREN DEPENDENCIAS FUNCIONALES NUEVAS U OTRAS CONDICIONES EVITABLES. MINERÍA DE DATOS - INTRODUCCIÓN 16 INTRODUCCIÓN A LA MINERÍA DE DATOS ÁREAS DE APLICACIÓN – PROBLEMAS TIPO: APLICACIONES DE KDD PARA TOMA DE DECISIONES, SEGÚN DILLY – 1996: COMERCIO / MARKETING: • IDENTIFICAR PATRONES DE COMPRA DE LOS CLIENTES. • BUSCAR ASOCIACIONES ENTRE CLIENTES Y CARACTERÍSTICAS DEMOGRÁFICAS. • PREDECIR RESPUESTA A CAMPAÑAS DE MAILING. • ANÁLISIS DE CESTAS DE LA COMPRA. MINERÍA DE DATOS - INTRODUCCIÓN 15 INTRODUCCIÓN A LA MINERÍA DE DATOS 14 INTRODUCCIÓN A LA MINERÍA DE DATOS ÁREAS DE APLICACIÓN: TOMA DE DECISIONES: BANCA – FINANZAS - SEGUROS, MÁRKETING, POLÍTICAS SANITARIAS / DEMOGRÁFICAS, ETC. PROCESOS INDUSTRIALES: COMPONENTES QUÍMICOS, COMPUESTOS, MEZCLAS, ESMALTES, PROCESOS, ETC. INVESTIGACIÓN CIENTÍFICA: MEDICINA, ASTRONOMÍA, METEOROLOGÍA, PSICOLOGÍA, ETC. AQUÍ LA EFICIENCIA NO ES TAN IMPORTANTE. MINERÍA DE DATOS - INTRODUCCIÓN MINERÍA DE DATOS - INTRODUCCIÓN 13 INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS 17 BANCA: • DETECTAR PATRONES DE USO FRAUDULENTO DE TARJETAS DE CRÉDITO. • IDENTIFICAR CLIENTES LEALES. • PREDECIR CLIENTES CON PROBABILIDAD DE CAMBIAR SU AFILIACIÓN. • DETERMINAR GASTO EN TARJETA DE CRÉDITO POR GRUPOS. • ENCONTRAR CORRELACIONES ENTRE INDICADORES FINANCIEROS. • IDENTIFICAR REGLAS DE MERCADO DE VALORES A PARTIR DE HISTÓRICOS. MINERÍA DE DATOS - INTRODUCCIÓN 18 INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS SEGUROS Y SALUD PRIVADA: • ANÁLISIS DE PROCEDIMIENTOS MÉDICOS SOLICITADOS CONJUNTAMENTE. • PREDECIR QUÉ CLIENTES COMPRAN NUEVAS PÓLIZAS. • IDENTIFICAR PATRONES DE COMPORTAMIENTO PARA CLIENTES CON RIESGO. • IDENTIFICAR COMPORTAMIENTO FRAUDULENTO. TRANSPORTES: • DETERMINAR LA PLANIFICACIÓN DE LA DISTRIBUCIÓN ENTRE TIENDAS. • ANALIZAR PATRONES DE CARGA. MINERÍA DE DATOS - INTRODUCCIÓN 19 INTRODUCCIÓN A LA MINERÍA DE DATOS APLICACIONES DE KDD PARA PROCESOS INDUSTRIALES: EXTRACCIÓN DE MODELOS SOBRE COMPORTAMIENTO DE COMPUESTOS. DETECCIÓN DE PIEZAS CON FALLAS. PREDICCIÓN DE FALLOS. MODELOS DE CALIDAD. ESTIMACIÓN DE COMPOSICIONES ÓPTIMAS EN MEZCLAS. EXTRACCIÓN DE MODELOS DE COSTE. EXTRACCIÓN DE MODELOS DE PRODUCCIÓN. SIMULACIÓN COSTES/BENEFICIOS SEGÚN NIVELES DE CALIDAD. MINERÍA DE DATOS - INTRODUCCIÓN 21 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS MEDICINA: • IDENTIFICACIÓN DE TERAPIAS MÉDICAS SATISFACTORIAS PARA DIFERENTES ENFERMEDADES. • ASOCIACIÓN DE SÍNTOMAS Y CLASIFICACIÓN DIFERENCIAL DE PATOLOGÍAS. • ESTUDIO DE FACTORES (GENÉTICOS, PRECEDENTES, HÁBITOS, ALIMENTICIOS, ETC.) DE RIESGO / SALUD EN DISTINTAS PATOLOGÍAS. • SEGMENTACIÓN DE PACIENTES PARA UNA ATENCIÓN MÁS INTELIGENTE SEGÚN SU GRUPO. • PREDICCIONES TEMPORALES DE LOS CENTROS ASISTENCIALES PARA EL MEJOR USO DE RECURSOS, CONSULTAS, SALAS Y HABITACIONES. • ESTUDIOS EPIDEMIOLÓGICOS, ANÁLISIS DE RENDIMIENTOS DE CAMPAÑAS DE INFORMACIÓN, PREVENCIÓN, SUSTITUCIÓN DE FÁRMACOS, ETC. MINERÍA DE DATOS - INTRODUCCIÓN 20 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS MINERÍA DE DATOS - INTRODUCCIÓN 22 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS KDD: KNOWLEDGE DISCOVERY FROM DATABASES: DESCUBRIMIENTO DE CONOCIMIENTO DESDE BD. FASES Y TÉCNICAS DEL KDD: LAS DISTINTAS TÉCNICAS DE DISTINTAS DISCIPLINAS SE UTILIZAN EN DISTINTAS FASES: SE INDICAN EN EL GRÁFICO SIGUIENTE. MINERÍA DE DATOS - INTRODUCCIÓN 23 MINERÍA DE DATOS - INTRODUCCIÓN 24 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS MINERÍA DE DATOS - INTRODUCCIÓN MINERÍA DE DATOS - INTRODUCCIÓN 25 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS FASES DEL KDD: SELECCIÓN, EXPLORACIÓN, LIMPIEZA Y TRANSFORMACIÓN DE DATOS. MINERÍA DE DATOS. EVALUACIÓN Y VALIDACIÓN. INTERPRETACIÓN Y DIFUSIÓN. ACTUALIZACIÓN Y MONITORIZACIÓN. MINERÍA DE DATOS - INTRODUCCIÓN FASE DE MINERÍA DE DATOS (SE AMPLIARÁ MÁS ADELANTE): CARACTERÍSTICAS ESPECIALES DE LOS DATOS: APARTE DEL GRAN VOLUMEN, ¿POR QUÉ LAS TÉCNICAS DE APRENDIZAJE AUTOMÁTICO Y ESTADÍSTICA NO SON DIRECTAMENTE APLICABLES?: • LOS DATOS RESIDEN EN EL DISCO; NO SE PUEDEN ESCANEAR MÚLTIPLES VECES. • ALGUNAS TÉCNICAS DE MUESTREO NO SON COMPATIBLES CON ALGORITMOS NO INCREMENTALES. • MUY ALTA DIMENSIONALIDAD (MUCHOS CAMPOS). • EVIDENCIA POSITIVA. • DATOS IMPERFECTOS... AUNQUE ALGUNOS SE APLICAN CASI DIRECTAMENTE, EL INTERÉS EN LA INVESTIGACIÓN EN MINERÍA DE DATOS ESTÁ EN SU ADAPTACIÓN. MINERÍA DE DATOS - INTRODUCCIÓN EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS FASES DE SELECCIÓN, EXPLORACIÓN, TRANSFORMACIÓN DE DATOS: SE DETALLARÁN MÁS ADELANTE. 27 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS 29 26 MINERÍA DE DATOS - INTRODUCCIÓN LIMPIEZA Y 28 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS PATRONES A DESCUBRIR: UNA VEZ RECOGIDOS LOS DATOS DE INTERÉS, UN EXPLORADOR PUEDE DECIDIR QUÉ TIPO DE PATRÓN QUIERE DESCUBRIR. EL TIPO DE CONOCIMIENTO QUE SE DESEA EXTRAER VA A MARCAR CLARAMENTE LA TÉCNICA DE MINERÍA DE DATOS A UTILIZAR. SEGÚN COMO SEA LA BÚSQUEDA DEL CONOCIMIENTO SE PUEDE DISTINGUIR ENTRE: • DIRECTED DATA MINING: SE SABE CLARAMENTE LO QUE SE BUSCA, GENERALMENTE PREDECIR UNOS CIERTOS DATOS O CLASES. • UNDIRECTED DATA MINING: NO SE SABE LO QUE SE BUSCA, SE TRABAJA CON LOS DATOS (¡HASTA QUE APAREZCA ALGO INTERESANTE!). EN EL PRIMER CASO, ALGUNOS SISTEMAS DE MINERÍA DE DATOS SE ENCARGAN GENERALMENTE DE ELEGIR EL ALGORITMO MÁS IDÓNEO ENTRE LOS DISPONIBLES PARA UN DETERMINADO TIPO DE PATRÓN A BUSCAR. MINERÍA DE DATOS - INTRODUCCIÓN 30 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS MINERÍA DE DATOS - INTRODUCCIÓN FASE DE ACTUALIZACIÓN Y MONITORIZACIÓN: LOS PROCESOS DERIVAN EN UN MANTENIMIENTO: ACTUALIZACIÓN: • UN MODELO VÁLIDO PUEDE DEJAR DE SERLO POR UN CAMBIO DE CONTEXTO: – CAMBIOS ECONÓMICOS, EN LA COMPETENCIA, EN LAS FUENTES DE DATOS, ETC. MONITORIZACIÓN: • CONSISTE EN IR REVALIDANDO EL MODELO CON CIERTA FRECUENCIA SOBRE NUEVOS DATOS: – EL OBJETIVO ES DETECTAR SI EL MODELO REQUIERE UNA ACTUALIZACIÓN. PRODUCEN REALIMENTACIONES EN EL PROCESO KDD. MINERÍA DE DATOS - INTRODUCCIÓN 33 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS 35 32 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS FASE DE INTERPRETACIÓN Y DIFUSIÓN: EL DESPLIEGUE DEL MODELO A VECES ES TRIVIAL PERO OTRAS VECES REQUIERE UN PROCESO DE IMPLEMENTACIÓN O INTERPRETACIÓN: EL MODELO PUEDE REQUERIR IMPLEMENTACIÓN: • P.EJ. TIEMPO REAL DE DETECCIÓN DE TARJETAS FRAUDULENTAS. EL MODELO ES DESCRIPTIVO Y REQUIERE INTERPRETACIÓN: • P.EJ. UNA CARACTERIZACIÓN DE ZONAS GEOGRÁFICAS SEGÚN LA DISTRIBUCIÓN DE LOS PRODUCTOS VENDIDOS. MINERÍA DE DATOS - INTRODUCCIÓN POR EJEMPLO: 1ª FASE: • COMPROBACIÓN DE LA PRECISIÓN DEL MODELO EN UN BANCO DE EJEMPLOS INDEPENDIENTE DEL QUE SE HA UTILIZADO PARA APRENDER EL MODELO. • SE PUEDE ELEGIR EL MEJOR MODELO. 2ª FASE: • SE PUEDE REALIZAR UNA EXPERIENCIA PILOTO CON ESE MODELO. • POR EJEMPLO, SI EL MODELO ENCONTRADO SE QUERÍA UTILIZAR PARA PREDECIR LA RESPUESTA DE LOS CLIENTES A UN NUEVO PRODUCTO, SE PUEDE ENVIAR UN MAILING A UN SUBCONJUNTO DE CLIENTES Y EVALUAR LA FIABILIDAD DEL MODELO. 31 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS FASE DE EVALUACIÓN Y VALIDACIÓN: LA FASE ANTERIOR PRODUCE UNA O MÁS HIPÓTESIS DE MODELOS. PARA SELECCIONAR Y VALIDAR ESTOS MODELOS ES NECESARIO EL USO DE CRITERIOS DE EVALUACIÓN DE HIPÓTESIS. MINERÍA DE DATOS - INTRODUCCIÓN EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS EL MODELO PUEDE TENER MUCHOS USUARIOS Y NECESITA DIFUSIÓN: • EL MODELO PUEDE REQUERIR SER EXPRESADO DE UNA MANERA COMPRENSIBLE PARA SER DISTRIBUIDO EN LA ORGANIZACIÓN. • P.EJ. LAS CERVEZAS Y LOS PRODUCTOS CONGELADOS SE COMPRAN FRECUENTEMENTE EN CONJUNTO ⇒ PONERLOS EN ESTANTES DISTANTES. MINERÍA DE DATOS - INTRODUCCIÓN 34 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS TIPOLOGÍA DE TÉCNICAS DE MINERÍA DE DATOS: LAS TÉCNICAS DE MINERÍA DE DATOS CREAN MODELOS QUE SON PREDICTIVOS Y/O DESCRIPTIVOS. UN MODELO PREDICTIVO RESPONDE PREGUNTAS SOBRE DATOS FUTUROS: ¿CUÁLES SERÁN LAS VENTAS EL AÑO PRÓXIMO?. ¿ES ESTA TRANSACCIÓN FRAUDULENTA?. ¿QUÉ TIPO DE SEGURO ES MÁS PROBABLE QUE CONTRATE EL CLIENTE “X”?. UN MODELO DESCRIPTIVO PROPORCIONA INFORMACIÓN SOBRE LAS RELACIONES ENTRE LOS DATOS Y SUS CARACTERÍSTICAS; GENERA INFORMACIÓN DEL TIPO: LOS CLIENTES QUE COMPRAN PAÑALES SUELEN COMPRAR CERVEZA. EL TABACO Y EL ALCOHOL SON LOS FACTORES MÁS IMPORTANTES EN LA ENFERMEDAD “Y”. LOS CLIENTES SIN TELEVISIÓN Y CON BICICLETA TIENEN CARACTERÍSTICAS MUY DIFERENCIADAS DEL RESTO. MINERÍA DE DATOS - INTRODUCCIÓN 36 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS EJEMPLO DE MODELO PREDICTIVO: SE QUIERE SABER SI JUGAR O NO JUGAR ESTA TARDE AL TENIS. SE HAN RECOGIDO DATOS DE EXPERIENCIAS ANTERIORES: MINERÍA DE DATOS - INTRODUCCIÓN 37 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS MINERÍA DE DATOS - INTRODUCCIÓN EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS MINERÍA DE DATOS - INTRODUCCIÓN 39 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS 41 SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE APRENDIZAJE DE ÁRBOLES DE DECISIÓN, SEÑALANDO EL ATRIBUTO “PLAYTENNIS” COMO LA CLASE (OUTPUT). EL RESULTADO DEL ALGORITMO ES EL MODELO QUE SE MUESTRA EN EL GRÁFICO SIGUIENTE. AHORA SE PUEDE UTILIZAR ESTE MODELO PARA PREDECIR SI ESTA TARDE JUGAMOS O NO AL TENIS: • EJ.: LA INSTANCIA ES NO: – (OUTLOOK = SUNNY, TEMPERATURE = HOT, HUMIDITY = HIGH, WIND = STRONG). MINERÍA DE DATOS - INTRODUCCIÓN 40 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS MINERÍA DE DATOS - INTRODUCCIÓN 38 EJEMPLO DE MODELO DESCRIPTIVO: SE QUIERE CATEGORIZAR LOS EMPLEADOS. SE TIENE LOS SIGUIENTES DATOS DE LOS EMPLEADOS: MINERÍA DE DATOS - INTRODUCCIÓN 42 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE CLUSTERING K-MEAMS. SE CREAN TRES CLUSTERS, CON LA DESCRIPCIÓN DEL GRÁFICO SIGUIENTE, DONDE: • GRUPO 1: SIN HIJOS Y DE ALQUILER. POCO SINDICADOS. MUCHAS BAJAS. • GRUPO 2: SIN HIJOS Y CON COCHE. MUY SINDICADOS. POCAS BAJAS. NORMALMENTE DE ALQUILER Y MUJERES. • GRUPO 3: CON HIJOS, CASADOS Y CON COCHE. PROPIETARIOS. POCO SINDICADOS. HOMBRES. MINERÍA DE DATOS - INTRODUCCIÓN TIPOS DE CONOCIMIENTO: ASOCIACIONES: UNA ASOCIACIÓN ENTRE DOS ATRIBUTOS OCURRE CUANDO LA FRECUENCIA DE QUE SE DEN DOS VALORES DETERMINADOS DE CADA UNO CONJUNTAMENTE ES RELATIVAMENTE ALTA: • EJEMPLO: EN UN SUPERMERCADO SE ANALIZA SI LOS PAÑALES Y LOS POTITOS DE BEBÉ SE COMPRAN CONJUNTAMENTE. DEPENDENCIAS: UNA DEPENDENCIA FUNCIONAL (APROXIMADA O ABSOLUTA) ES UN PATRÓN EN EL QUE SE ESTABLECE QUE UNO O MÁS ATRIBUTOS DETERMINAN EL VALOR DE OTRO. OJO! EXISTEN MUCHAS DEPENDENCIAS NADA INTERESANTES (CAUSALIDADES INVERSAS): • EJEMPLO: QUE UN PACIENTE HAYA SIDO INGRESADO EN MATERNIDAD DETERMINA SU SEXO. LA BÚSQUEDA DE ASOCIACIONES Y DEPENDENCIAS SE CONOCE A VECES COMO ANÁLISIS EXPLORATORIO. MINERÍA DE DATOS - INTRODUCCIÓN AGRUPAMIENTO / SEGMENTACIÓN: • EL AGRUPAMIENTO (O CLUSTERING) ES LA DETECCIÓN DE GRUPOS DE INDIVIDUOS. • SE DIFERENCIA DE LA CLASIFICACIÓN EN EL QUE NO SE CONOCEN NI LAS CLASES NI SU NÚMERO (APRENDIZAJE NO SUPERVISADO). • EL OBJETIVO ES DETERMINAR GRUPOS O RACIMOS (CLUSTERS) DIFERENCIADOS DEL RESTO. 46 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS 47 CLASIFICACIÓN: UNA CLASIFICACIÓN SE PUEDE VER COMO EL ESCLARECIMIENTO DE UNA DEPENDENCIA, EN LA QUE EL ATRIBUTO DEPENDIENTE PUEDE TOMAR UN VALOR ENTRE VARIAS CLASES, YA CONOCIDAS: • EJEMPLO: – SE SABE (POR UN ESTUDIO DE DEPENDENCIAS) QUE LOS ATRIBUTOS EDAD, NÚMERO DE MIOPÍAS Y ASTIGMATISMO HAN DETERMINADO LOS PACIENTES PARA LOS QUE SU OPERACIÓN DE CIRUGÍA OCULAR HA SIDO SATISFACTORIA. – PODEMOS INTENTAR DETERMINAR LAS REGLAS EXACTAS QUE CLASIFICAN UN CASO COMO POSITIVO O NEGATIVO A PARTIR DE ESOS ATRIBUTOS. MINERÍA DE DATOS - INTRODUCCIÓN MINERÍA DE DATOS - INTRODUCCIÓN 44 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS 45 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS MINERÍA DE DATOS - INTRODUCCIÓN 43 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS TENDENCIAS / REGRESIÓN: EL OBJETIVO ES PREDECIR LOS VALORES DE UNA VARIABLE CONTINUA A PARTIR DE LA EVOLUCIÓN SOBRE OTRA VARIABLE CONTINUA, GENERALMENTE EL TIEMPO: • EJEMPLO: SE INTENTA PREDECIR EL NÚMERO DE CLIENTES O PACIENTES, LOS INGRESOS, LLAMADAS, GANANCIAS, COSTES, ETC. A PARTIR DE LOS RESULTADOS DE SEMANAS, MESES O AÑOS ANTERIORES. INFORMACIÓN DEL ESQUEMA: DESCUBRIR CLAVES PRIMARIAS ALTERNATIVAS, R.I. REGLAS GENERALES: PATRONES NO SE AJUSTAN A LOS TIPOS ANTERIORES; RECIENTEMENTE LOS SISTEMAS INCORPORAN CAPACIDAD PARA ESTABLECER OTROS PATRONES MÁS GENERALES. MINERÍA DE DATOS - INTRODUCCIÓN 48 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS TAXONOMÍA DE TÉCNICAS DE MINERÍA DE DATOS: MINERÍA DE DATOS - INTRODUCCIÓN 49 EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS LA SELECCIÓN COMPRENDE LA RECOLECCIÓN E INTEGRACIÓN DE LA INFORMACIÓN. LAS PRIMERAS FASES DEL KDD DETERMINAN QUE LAS FASES SUCESIVAS SEAN CAPACES DE EXTRAER CONOCIMIENTO VÁLIDO Y ÚTIL A PARTIR DE LA INFORMACIÓN ORIGINAL. GENERALMENTE, LA INFORMACIÓN QUE SE QUIERE INVESTIGAR SOBRE UN CIERTO DOMINIO DE LA ORGANIZACIÓN SE ENCUENTRA: EN BASES DE DATOS Y OTRAS FUENTES MUY DIVERSAS: TANTO INTERNAS COMO EXTERNAS. MUCHAS DE ESTAS FUENTES SON LAS QUE SE UTILIZAN PARA EL TRABAJO TRANSACCIONAL. EL ANÁLISIS POSTERIOR SERÁ MUCHO MÁS SENCILLO SI LA FUENTE ES UNIFICADA, ACCESIBLE (INTERNA) Y DESCONECTADA DEL TRABAJO TRANSACCIONAL. MINERÍA DE DATOS - INTRODUCCIÓN 53 SISTEMAS DE MINERÍA DE DATOS: MINERÍA DE DATOS - INTRODUCCIÓN 50 FASE DE SELECCIÓN EN MINERÍA DE DATOS TIPOS DE SISTEMAS: STANDALONE: LOS DATOS SE DEBEN EXPORTAR / CONVERTIR AL FORMATO INTERNO DEL SISTEMA DE DATA MINING: • KNOWLEDGE SEEKER IV (ANGOSS INTERNATIONAL LIMITED, GROUPE BULL). ON-TOP: PUEDEN FUNCIONAR SOBRE UN SISTEMA PROPIETARIO: • CLEMENTINE SOBRE ODBC, MICROSTRATEGY SOBRE ORACLE. EMBEDDED: PROPIETARIOS: • ORACLE DISCOVERER, ORACLE DARWIN, IBM INTELLIGENT MINER, ETC. EXTENSIBLE (TECNOLOGÍA PLUG-INS): PROPORCIONAN UNAS HERRAMIENTAS MÍNIMAS DE INTERFAZ CON LOS DATOS, ESTADÍSTICAS Y VISUALIZACIÓN, Y LOS ALGORITMOS DE APRENDIZAJE SE PUEDEN IR AÑADIENDO CON PLUG-INS: • EJ. KEPLER. MINERÍA DE DATOS - INTRODUCCIÓN 51 FASE DE SELECCIÓN EN MINERÍA DE DATOS EL PROCESO DE KDD – TÉCNICAS DE MINERÍA DE DATOS Y PRINCIPALES ALGORITMOS MINERÍA DE DATOS - INTRODUCCIÓN 52 FASE DE SELECCIÓN EN MINERÍA DE DATOS EL PROCESO SUBSIGUIENTE DE MINERÍA DE DATOS: DEPENDE MUCHO DE LA FUENTE: OLAP U OLTP. DATAWAREHOUSE O COPIA CON EL ESQUEMA ORIGINAL. ROLAP O MOLAP. DEPENDE TAMBIÉN DEL TIPO DE USUARIO: “PICAPEDREROS” (O “GRANJEROS”): SE DEDICAN FUNDAMENTALMENTE A REALIZAR INFORMES PERIÓDICOS, VER LA EVOLUCIÓN DE DETERMINADOS PARÁMETROS, CONTROLAR VALORES ANÓMALOS, ETC. “EXPLORADORES”: ENCARGADOS DE ENCONTRAR NUEVOS PATRONES SIGNIFICATIVOS UTILIZANDO TÉCNICAS DE MINERÍA DE DATOS. MINERÍA DE DATOS - INTRODUCCIÓN 54 FASE DE SELECCIÓN EN MINERÍA DE DATOS RECOLECCIÓN DE INFORMACIÓN EXTERNA: APARTE DE INFORMACIÓN INTERNA DE LA ORGANIZACIÓN, LOS ALMACENES DE DATOS PUEDEN RECOGER INFORMACIÓN EXTERNA: DEMOGRAFÍAS (CENSO), PÁGINAS AMARILLAS, PSICOGRAFÍAS (PERFILES POR ZONAS), USO DE INTERNET, INFORMACIÓN DE OTRAS ORGANIZACIONES. DATOS COMPARTIDOS EN UNA INDUSTRIA O ÁREA DE NEGOCIO, ORGANIZACIONES Y COLEGIOS PROFESIONALES, CATÁLOGOS, ETC. DATOS RESUMIDOS DE ÁREAS GEOGRÁFICAS, DISTRIBUCIÓN DE LA COMPETENCIA, EVOLUCIÓN DE LA ECONOMÍA, INFORMACIÓN DE CALENDARIOS Y CLIMATOLÓGICAS, PROGRAMACIONES TELEVISIVASDEPORTIVAS, CATÁSTROFES, ETC. BD EXTERNAS COMPRADAS A OTRAS COMPAÑÍAS. MINERÍA DE DATOS - INTRODUCCIÓN 55 FASE DE EXPLORACIÓN EN MINERÍA DE DATOS FASE DE EXPLORACIÓN EN MINERÍA DE DATOS LA EXPLORACIÓN DE LOS DATOS CONSISTE EN LA UTILIZACIÓN DE TÉCNICAS FORMALES DE ANÁLISIS EXPLORATORIO: SE BUSCA CONOCER LA DISTRIBUCIÓN DE LOS DATOS, SU SIMETRÍA Y NORMALIDAD Y LAS CORRELACIONES EXISTENTES EN LA INFORMACIÓN. SE UTILIZA: ANÁLISIS EXPLORATORIO Y GRÁFICO DE LOS DATOS. MEDIDAS DE DIAGNÓSTICO FORMAL ESTADÍSTICO: EJ.: CONTRASTES DE AJUSTES DE LOS DATOS A UNA DISTRIBUCIÓN, CONTRASTES DE ASIMETRÍA, CONTRASTES DE ALEATORIEDAD, ETC. MINERÍA DE DATOS - INTRODUCCIÓN 57 FASE DE EXPLORACIÓN EN MINERÍA DE DATOS MINERÍA DE DATOS - INTRODUCCIÓN 56 FASE DE EXPLORACIÓN EN MINERÍA DE DATOS SE DEBE REALIZAR LA COMPROBACIÓN DE LOS SUPUESTOS SUBYACENTES EN LOS MÉTODOS MULTIVARIANTES PARA LA MINERÍA DE DATOS; ESTOS SUPUESTOS SUELEN SER: EL CONTRASTE DE LA NORMALIDAD DE TODAS Y C / U DE LAS VARIABLES QUE FORMAN PARTE DEL ESTUDIO. EL TESTEO DE LA LINEALIDAD DE LAS RELACIONES ENTRE LAS VARIABLES. LA COMPROBACIÓN DE LA HOMOCEDASTICIDAD DE LOS DATOS: CONSISTE EN VER QUE LA VARIACIÓN DE LA VARIABLE DEPENDIENTE QUE SE INTENTA EXPLICAR A TRAVÉS DE LAS VARIABLES INDEPENDIENTES NO SE CONCENTRA EN UN PEQUEÑO GRUPO DE VALORES INDEPENDIENTES. MINERÍA DE DATOS - INTRODUCCIÓN 58 FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS LA COMPROBACIÓN DE LA MULTICOLINEALIDAD O EXISTENCIA DE RELACIONES ENTRE LAS VARIABLES INDEPENDIENTES. LA CONTRASTACIÓN DE LA AUSENCIA DE CORRELACIÓN SERIAL DE LOS RESIDUOS O AUTOCORRELACIÓN: CONSISTE EN ASEGURAR QUE CUALQUIERA DE LOS ERRORES DE PREDICCIÓN NO ESTÁ CORRELACIONADO CON EL RESTO. MINERÍA DE DATOS - INTRODUCCIÓN 59 MINERÍA DE DATOS - INTRODUCCIÓN 60 FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS LIMPIEZA (DATA CLEANSING) Y CRIBA (SELECCIÓN) DE DATOS: SE DEBEN ELMININAR EL MAYOR NÚMERO POSIBLE DE DATOS ERRÓNEOS O INCONSISTENTES (LIMPIEZA) E IRRELEVANTES (CRIBA). SE UTILIZAN MÉTODOS ESTADÍSTICOS CASI EXCLUSIVAMENTE: HISTOGRAMAS (DETECCIÓN DE DATOS ANÓMALOS). SELECCIÓN DE DATOS (MUESTREO, YA SEA VERTICALMENTE, ELIMINANDO ATRIBUTOS, U HORIZONTALMENTE, ELIMINANDO TUPLAS). REDEFINICIÓN DE ATRIBUTOS (AGRUPACIÓN O SEPARACIÓN). MINERÍA DE DATOS - INTRODUCCIÓN 61 FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS 62 ACCIONES ANTE DATOS FALTANTES (MISSING VALUES): IGNORAR: ALGUNOS ALGORITMOS SON ROBUSTOS A DATOS FALTANTES (P.EJ. ÁRBOLES). FILTRAR (ELIMINAR O REEMPLAZAR) LA COLUMNA: SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA COLUMNA DEPENDIENTE CON DATOS DE MAYOR CALIDAD. PREFERIBLE A ELIMINAR LA COLUMNA ES REEMPLAZARLA POR UNA COLUMNA BOOLEANA DICIENDO SI EL VALOR EXISTÍA O NO. FILTRAR LA FILA: CLARAMENTE SESGA LOS DATOS, PORQUE MUCHAS VECES LAS CAUSAS DE UN DATO FALTANTE ESTÁN RELACIONADAS CON CASOS O TIPOS ESPECIALES. MINERÍA DE DATOS - INTRODUCCIÓN 64 FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS REEMPLAZAR EL VALOR: POR MEDIAS. A VECES SE PUEDE PREDECIR A PARTIR DE OTROS DATOS, UTILIZANDO CUALQUIER TÉCNICA DE ML. SEGMENTAR: SE SEGMENTAN LAS TUPLAS POR LOS VALORES QUE TIENEN DISPONIBLES. SE OBTIENEN MODELOS DIFERENTES PARA CADA SEGMENTO Y LUEGO SE COMBINAN. MODIFICAR LA POLÍTICA DE CALIDAD DE DATOS Y ESPERAR HASTA QUE LOS DATOS FALTANTES ESTÉN DISPONIBLES. MINERÍA DE DATOS - INTRODUCCIÓN MINERÍA DE DATOS - INTRODUCCIÓN 63 FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS ACCIONES ANTE DATOS ANÓMALOS (OUTLIERS): IGNORAR: ALGUNOS ALGORITMOS SON ROBUSTOS A DATOS ANÓMALOS (P.EJ. ÁRBOLES). FILTRAR (ELIMINAR O REEMPLAZAR) LA COLUMNA: SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA COLUMNA DEPENDIENTE CON DATOS DE MAYOR CALIDAD. PREFERIBLE A ELIMINAR LA COLUMNA ES REEMPLAZARLA POR UNA COLUMNA DISCRETA DICIENDO SI EL VALOR ERA NORMAL U OUTLIER (POR ENCIMA O POR DEBAJO). FILTRAR LA FILA: PUEDE SESGAR LOS DATOS, PORQUE MUCHAS VECES LAS CAUSAS DE UN DATO ERRÓNEO ESTÁN RELACIONADAS CON CASOS O TIPOS ESPECIALES. FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS REEMPLAZAR EL VALOR: POR EL VALOR “NULO” SI EL ALGORITMO LO TRATA BIEN O POR MÁXIMOS O MÍNIMOS, DEPENDIENDO POR DONDE ES EL OUTLIER, O POR MEDIAS. A VECES SE PUEDE PREDECIR A PARTIR DE OTROS DATOS, UTILIZANDO CUALQUIER TÉCNICA DE ML. DISCRETIZAR: TRANSFORMAR UN VALOR CONTINUO EN UNO DISCRETO (P.EJ. MUY ALTO, ALTO, MEDIO, BAJO, MUY BAJO) HACE QUE LOS OUTLIERS CAIGAN EN “MUY ALTO” O “MUY BAJO” SIN MAYORES PROBLEMAS. MINERÍA DE DATOS - INTRODUCCIÓN 65 RAZONES SOBRE DATOS FALTANTES (MISSING VALUES): A VECES ES IMPORTANTE EXAMINAR LAS RAZONES TRAS DATOS FALTANTES Y ACTUAR EN CONSECUENCIA: ALGUNOS VALORES FALTANTES EXPRESAN CARACTERÍSTICAS RELEVANTES: • P.EJ. LA FALTA DE TELÉFONO PUEDE REPRESENTAR EN MUCHOS CASOS UN DESEO DE QUE NO SE MOLESTE A LA PERSONA EN CUESTIÓN, O UN CAMBIO DE DOMICILIO RECIENTE. VALORES NO EXISTENTES: • MUCHOS VALORES FALTANTES EXISTEN EN LA REALIDAD, PERO OTROS NO. P.EJ. EL CLIENTE QUE SE ACABA DE DAR DE ALTA NO TIENE CONSUMO MEDIO DE LOS ÚLTIMOS 12 MESES. DATOS INCOMPLETOS: • SI LOS DATOS VIENEN DE FUENTES DIFERENTES, AL COMBINARLOS SE SUELE HACER LA UNIÓN Y NO LA INTERSECCIÓN DE CAMPOS, CON LO QUE MUCHOS DATOS FALTANTES REPRESENTAN QUE ESAS TUPLAS VIENEN DE UNA/S FUENTE/S DIFERENTE/S AL RESTO. MINERÍA DE DATOS - INTRODUCCIÓN 66 FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS TRANSFORMACIÓN DEL ESQUEMA: ESQUEMA ORIGINAL: VENTAJAS: • LAS R.I. (RELACIONES INICIALES (ORIGINALES)) SE MANTIENEN (NO HAY QUE REAPRENDERLAS, NO DESPISTAN). INCONVENIENTES: • MUCHAS TÉCNICAS NO SE PUEDEN UTILIZAR. MINERÍA DE DATOS - INTRODUCCIÓN 67 FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS 68 INTERCAMBIO DE DIMENSIONES: (FILAS POR COLUMNAS): EJEMPLO: UNA TABLA DE CESTAS DE LA COMPRA, DONDE CADA ATRIBUTO INDICA SI EL PRODUCTO SE HA COMPRADO O NO. OBJETIVO: VER SI DOS PRODUCTOS SE COMPRAN CONJUNTAMENTE (REGLA DE ASOCIACIÓN). ES MUY COSTOSO: HAY QUE MIRAR AL MENOS LA RAÍZ CUADRADA DE TODAS LAS RELACIONES (CESTAS): • PUEDE HABER MILLONES EN UNA SEMANA... • SIN EMBARGO... PRODUCTOS SÓLO HAY UNOS 10.000. SÓLO ES NECESARIO HACER XOR ENTRE DOS FILAS PARA SABER SI HAY ASOCIACIÓN. MINERÍA DE DATOS - INTRODUCCIÓN 70 FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS TRANSFORMACIÓN DE LOS CAMPOS: NUMERIZACIÓN / ETIQUETADO: VENTAJAS: • SE REDUCE ESPACIO: – EJ: APELLIDO ⇒ ENTERO. • SE PUEDEN UTILIZAR TÉCNICAS MÁS SIMPLES. DESVENTAJAS: • SE NECESITA META-INFORMACIÓN PARA DISTINGUIR LOS DATOS INICIALMENTE NO NUMÉRICOS (LA CANTIDAD NO ES RELEVANTE) DE LOS INICIALMENTE NUMÉRICOS (LA CANTIDAD ES RELEVANTE: PRECIOS, UNIDADES, ETC.). • A VECES SE PUEDE “SESGAR” EL MODELO (BIASING). MINERÍA DE DATOS - INTRODUCCIÓN MINERÍA DE DATOS - INTRODUCCIÓN 69 FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS TABLA UNIVERSAL: CUALQUIER ESQUEMA RELACIONAL SE PUEDE CONVERTIR (EN UNA CORRESPONDENCIA 1 A 1) A UNA TABLA UNIVERSAL: VENTAJAS: • MODELOS DE APRENDIZAJE MÁS SIMPLES (PROPOSICIONALES). DESVENTAJAS: • MUCHÍSIMA REDUNDANCIA (TAMAÑOS INGENTES). LA INFORMACIÓN DEL ESQUEMA SE PIERDE. MUCHAS DEPENDENCIAS FUNCIONALES SE VUELVEN A REDESCUBRIR!! SE DEBE AÑADIR METAINFORMACIÓN. FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS DESNORMALIZADO TIPO ESTRELLA O COPO DE NIEVE (DATAMARTS): VENTAJAS: • SE PUEDEN BUSCAR REGLAS SOBRE INFORMACIÓN SUMARIZADA Y SI RESULTAN FACTIBLES SE PUEDEN COMPROBAR CON LA INFORMACIÓN DETALLADA. SE UTILIZAN OPERADORES PROPIOS: ROLL-UP, DRILLDOWN, SLICING AND DICING. DESVENTAJAS: • ORIENTADAS A EXTRAER UN TIPO DE INFORMACIÓN. MINERÍA DE DATOS - INTRODUCCIÓN 71 DISCRETIZACIÓN: VENTAJAS: • SE REDUCE ESPACIO: – EJ. 0..10 ⇒ (PEQUEÑO, MEDIANO, GRANDE). • SE PUEDEN UTILIZAR ÁRBOLES DE DECISIÓN Y CONSTRUIR REGLAS DISCRETAS. DESVENTAJAS: • UNA MALA DISCRETIZACIÓN PUEDE INVALIDAR LOS RESULTADOS. MINERÍA DE DATOS - INTRODUCCIÓN 72