Minería de Datos - Introducción

Anuncio
MINERÍA DE DATOS INTRODUCCIÓN
INTRODUCCIÓN A LA MINERÍA DE
DATOS
INTRODUCCIÓNA A LA MINERÍA DE DATOS.
EL PROCESO DE KDD - TÉCNICAS DE MINERÍA DE DATOS Y
PRINCIPALES ALGORITMOS.
FASE DE SELECCIÓN EN MINERÍA DE DATOS.
FASE DE EXPLORACIÓN EN MINERÍA DE DATOS.
FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS.
MINERÍA DE DATOS - INTRODUCCIÓN
1
EL OBJETIVO ES EL ANÁLISIS DE GRANDES VOLÚMENES DE
DATOS PARA LA OBTENCIÓN DE MODELOS Y PATRONES
PREDICTIVOS O DESCRIPTIVOS:
SE BUSCA EL DESCUBRIMIENTO DE CONOCIMIENTO EN LAS
BASES DE DATOS.
SE EMPLEAN TÉCNICAS DE APRENDIZAJE AUTOMÁTICO Y
ESTADÍSTICAS.
MINERÍA DE DATOS - INTRODUCCIÓN
4
INTRODUCCIÓN A LA MINERÍA DE
DATOS
MOTIVACIÓN:
NUEVAS
NECESIDADES DEL ANÁLISIS DE GRANDES
VOLÚMENES DE DATOS.
EL
AUMENTO DEL VOLUMEN Y VARIEDAD DE
INFORMACIÓN QUE SE ENCUENTRA INFORMATIZADA EN
BASES
DE
DATOS
DIGITALES
HA
CRECIDO
ESPECTACULARMENTE EN LA ÚLTIMA DÉCADA.
GRAN PARTE DE ESTA INFORMACIÓN ES HISTÓRICA, ES
DECIR, REPRESENTA TRANSACCIONES O SITUACIONES QUE SE
HAN PRODUCIDO.
APARTE
DE SU FUNCIÓN DE “MEMORIA DE LA
ORGANIZACIÓN”, LA INFORMACIÓN HISTÓRICA ES ÚTIL
PARA PREDECIR LA INFORMACIÓN FUTURA.
MINERÍA DE DATOS - INTRODUCCIÓN
MINERÍA DE DATOS - INTRODUCCIÓN
3
INTRODUCCIÓN A LA MINERÍA DE
DATOS
2
INTRODUCCIÓN A LA MINERÍA DE
DATOS
INTRODUCCIÓN A LA MINERÍA DE
DATOS
MINERÍA DE DATOS - INTRODUCCIÓN
5
LA
MAYORÍA
DE
DECISIONES
DE
EMPRESAS,
ORGANIZACIONES E INSTITUCIONES SE BASAN TAMBIÉN EN
INFORMACIÓN DE EXPERIENCIAS PASADAS EXTRAÍDAS DE
FUENTES MUY DIVERSAS.
LAS
DECISIONES
COLECTIVAS
SUELEN
TENER
CONSECUENCIAS MUCHO MÁS GRAVES, ESPECIALMENTE
ECONÓMICAS, Y, RECIENTEMENTE, SE DEBEN BASAR EN
VOLÚMENES DE DATOS QUE DESBORDAN LA CAPACIDAD
HUMANA.
EL ÁREA DE LA EXTRACCIÓN (SEMI-)AUTOMÁTICA DE
CONOCIMIENTO DE BASES DE DATOS HA ADQUIRIDO
RECIENTEMENTE
UNA
IMPORTANCIA
CIENTÍFICA
Y
ECONÓMICA INUSUAL.
MINERÍA DE DATOS - INTRODUCCIÓN
6
INTRODUCCIÓN A LA MINERÍA DE
DATOS
INTRODUCCIÓN A LA MINERÍA DE
DATOS
TAMAÑO DE DATOS POCO HABITUAL PARA ALGORITMOS
CLÁSICOS:
NÚMERO DE REGISTROS (EJEMPLOS) MUY GRANDE (1081012 BYTES).
DATOS ALTAMENTE DIMENSIONALES (Nº DE COLUMNAS /
ATRIBUTOS): 102-104.
EL USUARIO FINAL NO ES UN EXPERTO EN APRENDIZAJE
AUTOMÁTICO NI EN ESTADÍSTICA.
EL USUARIO NO PUEDE PERDER MÁS TIEMPO ANALIZANDO
LOS DATOS:
INDUSTRIA: VENTAJAS COMPETITIVAS, DECISIONES MÁS
EFECTIVAS.
CIENCIA: DATOS NUNCA ANALIZADOS, BANCOS NO
CRUZADOS, ETC.
PERSONAL: “INFORMATION OVERLOAD”...
MINERÍA DE DATOS - INTRODUCCIÓN
8
KDD NACE COMO INTERFAZ Y SE NUTRE DE DIFERENTES
DISCIPLINAS:
ESTADÍSTICA.
SISTEMAS DE INFORMACIÓN / BASES DE DATOS.
APRENDIZAJE AUTOMÁTICO / IA.
VISUALIZACIÓN DE DATOS.
COMPUTACIÓN PARALELA / DISTRIBUIDA.
INTERFACES DE LENGUAJE NATURAL A BASES DE DATOS.
MINERÍA DE DATOS - INTRODUCCIÓN
10
INTRODUCCIÓN A LA MINERÍA DE
DATOS
LA MINERÍA O PROSPECCIÓN DE DATOS (DM) NO ES MÁS QUE
UNA FASE DEL KDD:
FASE QUE INTEGRA LOS MÉTODOS DE APRENDIZAJE Y
ESTADÍSTICOS PARA OBTENER HIPÓTESIS DE PATRONES
Y MODELOS.
AL SER LA FASE DE GENERACIÓN DE HIPÓTESIS,
VULGARMENTE SE ASIMILA KDD CON DM.
ADEMÁS, LAS CONNOTACIONES DE AVENTURA Y DE DINERO
FÁCIL DEL TÉRMINO “MINERÍA DE DATOS” HAN HECHO QUE
ÉSTE SE USE COMO IDENTIFICADOR DEL ÁREA.
MINERÍA DE DATOS - INTRODUCCIÓN
MINERÍA DE DATOS - INTRODUCCIÓN
9
INTRODUCCIÓN A LA MINERÍA DE
DATOS
LOS SISTEMAS CLÁSICOS DE ESTADÍSTICA SON DIFÍCILES
DE USAR Y NO ESCALAN AL NÚMERO DE DATOS TÍPICOS EN
BD.
APARECE EL “DESCUBRIMIENTO DE CONOCIMIENTO A
PARTIR DE BASES DE DATOS”:
KDD: KNOWLEDGE DISCOVERY FROM DATABASES.
INTRODUCCIÓN A LA MINERÍA DE
DATOS
RELACIÓN DEL DM CON OTRAS DISCIPLINAS:
KDD: “PROCESO NO TRIVIAL DE IDENTIFICAR PATRONES
VÁLIDOS, NOVEDOSOS, POTENCIALMENTE ÚTILES Y EN
ÚLTIMA INSTANCIA COMPRENSIBLES A PARTIR DE LOS
DATOS”:
FAYYAD, 1996.
DIFERENCIA CLARA CON MÉTODOS ESTADÍSTICOS:
LA
ESTADÍSTICA SE UTILIZA PARA VALIDAR O
PARAMETRIZAR
UN
MODELO
SUGERIDO
Y
PREEXISTENTE, NO PARA GENERARLO.
DIFERENCIA SUTIL:
EL
“ANÁLISIS
INTELIGENTE
DE
DATOS”
(IDA:
INTELLIGENT DATA ANALYSIS) QUE CORRESPONDÍA
CON EL USO DE TÉCNICAS DE INTELIGENCIA ARTIFICIAL
EN EL ANÁLISIS DE LOS DATOS.
MINERÍA DE DATOS - INTRODUCCIÓN
7
INTRODUCCIÓN A LA MINERÍA DE
DATOS
11
LA MINERÍA DE DATOS NO ES UNA EXTENSIÓN DE LOS
SISTEMAS DE INFORMES INTELIGENTES O SISTEMAS OLAP
(ON-LINE ANALYTICAL PROCESSING).
LA MINERÍA DE DATOS ASPIRA A MÁS.
OTRAS HERRAMIENTAS, P.EJ. CONSULTAS SOFISTICADAS O
ANÁLISIS ESTADÍSTICO, PUEDEN RESPONDER A PREGUNTAS
COMO:
“¿HAN SUBIDO LAS VENTAS DEL PRODUCTO X EN JUNIO?”.
“¿LAS
VENTAS DEL PRODUCTO X BAJAN CUANDO
PROMOCIONAMOS EL PRODUCTO Y?”.
PERO SÓLO CON TÉCNICAS DE MINERÍA DE DATOS
PODREMOS RESPONDER A PREGUNTAS DEL ESTILO:
“¿QUÉ
FACTORES INFLUYEN EN LAS VENTAS DEL
PRODUCTO X?”.
“¿CUÁL SERÁ EL PRODUCTO MÁS VENDIDO SI ABRIMOS
UNA DELEGACIÓN EN PORTUGAL?”.
MINERÍA DE DATOS - INTRODUCCIÓN
12
INTRODUCCIÓN A LA MINERÍA DE
DATOS
VISIÓN CON LAS HERRAMIENTAS TRADICIONALES:
EL ANALISTA EMPIEZA CON UNA PREGUNTA,
UNA
SUPOSICIÓN O SIMPLEMENTE UNA INTUICIÓN Y EXPLORA
LOS DATOS Y CONSTRUYE UN MODELO. EL ANALISTA
PROPONE EL MODELO.
VISIÓN CON LA MINERÍA DE DATOS:
AUNQUE EL ANALISTA NO PIERDE LA POSIBILIDAD DE
PROPONER MODELOS, EL SISTEMA ENCUENTRA Y
SUGIERE MODELOS.
VENTAJAS:
GENERAR UN MODELO REQUIERE MENOS ESFUERZO
MANUAL Y PERMITE EVALUAR CANTIDADES INGENTES
DE DATOS.
SE PUEDEN EVALUAR MUCHOS MODELOS GENERADOS
AUTOMÁTICAMENTE,
Y
ESTO
AUMENTA
LA
PROBABILIDAD DE ENCONTRAR UN BUEN MODELO.
EL ANALISTA NECESITA MENOS FORMACIÓN SOBRE
CONSTRUCCIÓN DE MODELOS Y MENOS EXPERIENCIA.
MINERÍA DE DATOS - INTRODUCCIÓN
SOPORTE AL DISEÑO DE BASES DE DATOS.
REVERSE ENGINEERING:
DADOS UNA BASE DE DATOS, DESNORMALIZARLA PARA
QUE LUEGO EL SISTEMA LA NORMALICE.
MEJORA DE CALIDAD DE DATOS.
MEJORA DE CONSULTAS:
SI SE DESCUBREN DEPENDENCIAS FUNCIONALES NUEVAS
U OTRAS CONDICIONES EVITABLES.
MINERÍA DE DATOS - INTRODUCCIÓN
16
INTRODUCCIÓN A LA MINERÍA DE
DATOS
ÁREAS DE APLICACIÓN – PROBLEMAS TIPO:
APLICACIONES DE KDD PARA TOMA DE DECISIONES,
SEGÚN DILLY – 1996:
COMERCIO / MARKETING:
• IDENTIFICAR PATRONES DE COMPRA DE LOS
CLIENTES.
• BUSCAR ASOCIACIONES ENTRE CLIENTES Y
CARACTERÍSTICAS DEMOGRÁFICAS.
• PREDECIR RESPUESTA A CAMPAÑAS DE MAILING.
• ANÁLISIS DE CESTAS DE LA COMPRA.
MINERÍA DE DATOS - INTRODUCCIÓN
15
INTRODUCCIÓN A LA MINERÍA DE
DATOS
14
INTRODUCCIÓN A LA MINERÍA DE
DATOS
ÁREAS DE APLICACIÓN:
TOMA DE DECISIONES:
BANCA – FINANZAS - SEGUROS, MÁRKETING, POLÍTICAS
SANITARIAS / DEMOGRÁFICAS, ETC.
PROCESOS INDUSTRIALES:
COMPONENTES
QUÍMICOS, COMPUESTOS, MEZCLAS,
ESMALTES, PROCESOS, ETC.
INVESTIGACIÓN CIENTÍFICA:
MEDICINA, ASTRONOMÍA, METEOROLOGÍA, PSICOLOGÍA,
ETC.
AQUÍ LA EFICIENCIA NO ES TAN IMPORTANTE.
MINERÍA DE DATOS - INTRODUCCIÓN
MINERÍA DE DATOS - INTRODUCCIÓN
13
INTRODUCCIÓN A LA MINERÍA DE
DATOS
INTRODUCCIÓN A LA MINERÍA DE
DATOS
17
BANCA:
• DETECTAR PATRONES DE USO FRAUDULENTO DE
TARJETAS DE CRÉDITO.
• IDENTIFICAR CLIENTES LEALES.
• PREDECIR CLIENTES CON PROBABILIDAD DE
CAMBIAR SU AFILIACIÓN.
• DETERMINAR GASTO EN TARJETA DE CRÉDITO POR
GRUPOS.
• ENCONTRAR CORRELACIONES ENTRE INDICADORES
FINANCIEROS.
• IDENTIFICAR REGLAS DE MERCADO DE VALORES A
PARTIR DE HISTÓRICOS.
MINERÍA DE DATOS - INTRODUCCIÓN
18
INTRODUCCIÓN A LA MINERÍA DE
DATOS
INTRODUCCIÓN A LA MINERÍA DE
DATOS
SEGUROS Y SALUD PRIVADA:
• ANÁLISIS
DE
PROCEDIMIENTOS
MÉDICOS
SOLICITADOS CONJUNTAMENTE.
• PREDECIR QUÉ CLIENTES COMPRAN NUEVAS
PÓLIZAS.
• IDENTIFICAR PATRONES DE COMPORTAMIENTO
PARA CLIENTES CON RIESGO.
• IDENTIFICAR COMPORTAMIENTO FRAUDULENTO.
TRANSPORTES:
• DETERMINAR
LA
PLANIFICACIÓN
DE
LA
DISTRIBUCIÓN ENTRE TIENDAS.
• ANALIZAR PATRONES DE CARGA.
MINERÍA DE DATOS - INTRODUCCIÓN
19
INTRODUCCIÓN A LA MINERÍA DE
DATOS
APLICACIONES DE KDD PARA PROCESOS INDUSTRIALES:
EXTRACCIÓN DE MODELOS SOBRE COMPORTAMIENTO
DE COMPUESTOS.
DETECCIÓN DE PIEZAS CON FALLAS.
PREDICCIÓN DE FALLOS.
MODELOS DE CALIDAD.
ESTIMACIÓN
DE
COMPOSICIONES
ÓPTIMAS
EN
MEZCLAS.
EXTRACCIÓN DE MODELOS DE COSTE.
EXTRACCIÓN DE MODELOS DE PRODUCCIÓN.
SIMULACIÓN COSTES/BENEFICIOS SEGÚN NIVELES DE
CALIDAD.
MINERÍA DE DATOS - INTRODUCCIÓN
21
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MEDICINA:
• IDENTIFICACIÓN
DE
TERAPIAS
MÉDICAS
SATISFACTORIAS PARA DIFERENTES ENFERMEDADES.
• ASOCIACIÓN DE SÍNTOMAS Y CLASIFICACIÓN
DIFERENCIAL DE PATOLOGÍAS.
• ESTUDIO DE FACTORES (GENÉTICOS, PRECEDENTES,
HÁBITOS, ALIMENTICIOS, ETC.) DE RIESGO / SALUD
EN DISTINTAS PATOLOGÍAS.
• SEGMENTACIÓN DE
PACIENTES
PARA UNA
ATENCIÓN MÁS INTELIGENTE SEGÚN SU GRUPO.
• PREDICCIONES TEMPORALES DE LOS CENTROS
ASISTENCIALES PARA EL MEJOR USO DE RECURSOS,
CONSULTAS, SALAS Y HABITACIONES.
• ESTUDIOS
EPIDEMIOLÓGICOS,
ANÁLISIS
DE
RENDIMIENTOS DE CAMPAÑAS DE INFORMACIÓN,
PREVENCIÓN, SUSTITUCIÓN DE FÁRMACOS, ETC.
MINERÍA DE DATOS - INTRODUCCIÓN
20
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN
22
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
KDD:
KNOWLEDGE
DISCOVERY
FROM
DATABASES:
DESCUBRIMIENTO DE CONOCIMIENTO DESDE BD.
FASES Y TÉCNICAS DEL KDD:
LAS DISTINTAS TÉCNICAS DE DISTINTAS DISCIPLINAS SE
UTILIZAN EN DISTINTAS FASES:
SE INDICAN EN EL GRÁFICO SIGUIENTE.
MINERÍA DE DATOS - INTRODUCCIÓN
23
MINERÍA DE DATOS - INTRODUCCIÓN
24
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN
MINERÍA DE DATOS - INTRODUCCIÓN
25
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASES DEL KDD:
SELECCIÓN, EXPLORACIÓN, LIMPIEZA Y TRANSFORMACIÓN
DE DATOS.
MINERÍA DE DATOS.
EVALUACIÓN Y VALIDACIÓN.
INTERPRETACIÓN Y DIFUSIÓN.
ACTUALIZACIÓN Y MONITORIZACIÓN.
MINERÍA DE DATOS - INTRODUCCIÓN
FASE DE MINERÍA DE DATOS (SE AMPLIARÁ MÁS ADELANTE):
CARACTERÍSTICAS ESPECIALES DE LOS DATOS:
APARTE DEL GRAN VOLUMEN, ¿POR QUÉ LAS TÉCNICAS
DE APRENDIZAJE AUTOMÁTICO Y ESTADÍSTICA NO SON
DIRECTAMENTE APLICABLES?:
• LOS DATOS RESIDEN EN EL DISCO; NO SE PUEDEN
ESCANEAR MÚLTIPLES VECES.
• ALGUNAS TÉCNICAS DE MUESTREO NO SON
COMPATIBLES
CON
ALGORITMOS
NO
INCREMENTALES.
• MUY ALTA DIMENSIONALIDAD (MUCHOS CAMPOS).
• EVIDENCIA POSITIVA.
• DATOS IMPERFECTOS...
AUNQUE ALGUNOS SE APLICAN CASI DIRECTAMENTE,
EL INTERÉS EN LA INVESTIGACIÓN EN MINERÍA DE
DATOS ESTÁ EN SU ADAPTACIÓN.
MINERÍA DE DATOS - INTRODUCCIÓN
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASES
DE
SELECCIÓN,
EXPLORACIÓN,
TRANSFORMACIÓN DE DATOS:
SE DETALLARÁN MÁS ADELANTE.
27
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
29
26
MINERÍA DE DATOS - INTRODUCCIÓN
LIMPIEZA
Y
28
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
PATRONES A DESCUBRIR:
UNA VEZ RECOGIDOS LOS DATOS DE INTERÉS, UN
EXPLORADOR PUEDE DECIDIR QUÉ TIPO DE PATRÓN
QUIERE DESCUBRIR.
EL TIPO DE CONOCIMIENTO QUE SE DESEA EXTRAER VA
A MARCAR CLARAMENTE LA TÉCNICA DE MINERÍA DE
DATOS A UTILIZAR.
SEGÚN COMO SEA LA BÚSQUEDA DEL CONOCIMIENTO SE
PUEDE DISTINGUIR ENTRE:
• DIRECTED DATA MINING: SE SABE CLARAMENTE LO
QUE SE BUSCA, GENERALMENTE PREDECIR UNOS
CIERTOS DATOS O CLASES.
• UNDIRECTED DATA MINING: NO SE SABE LO QUE SE
BUSCA, SE TRABAJA CON LOS DATOS (¡HASTA QUE
APAREZCA ALGO INTERESANTE!).
EN EL PRIMER CASO, ALGUNOS SISTEMAS DE MINERÍA DE
DATOS SE ENCARGAN GENERALMENTE DE ELEGIR EL
ALGORITMO MÁS IDÓNEO ENTRE LOS DISPONIBLES PARA
UN DETERMINADO TIPO DE PATRÓN A BUSCAR.
MINERÍA DE DATOS - INTRODUCCIÓN
30
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN
FASE DE ACTUALIZACIÓN Y MONITORIZACIÓN:
LOS PROCESOS DERIVAN EN UN MANTENIMIENTO:
ACTUALIZACIÓN:
• UN MODELO VÁLIDO PUEDE DEJAR DE SERLO POR UN
CAMBIO DE CONTEXTO:
– CAMBIOS ECONÓMICOS, EN LA COMPETENCIA, EN
LAS FUENTES DE DATOS, ETC.
MONITORIZACIÓN:
• CONSISTE EN IR REVALIDANDO EL MODELO CON
CIERTA FRECUENCIA SOBRE NUEVOS DATOS:
– EL OBJETIVO ES DETECTAR SI EL MODELO
REQUIERE UNA ACTUALIZACIÓN.
PRODUCEN REALIMENTACIONES EN EL PROCESO KDD.
MINERÍA DE DATOS - INTRODUCCIÓN
33
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
35
32
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASE DE INTERPRETACIÓN Y DIFUSIÓN:
EL DESPLIEGUE DEL MODELO A VECES ES TRIVIAL PERO
OTRAS VECES REQUIERE UN PROCESO DE IMPLEMENTACIÓN
O INTERPRETACIÓN:
EL MODELO PUEDE REQUERIR IMPLEMENTACIÓN:
• P.EJ. TIEMPO REAL DE DETECCIÓN DE TARJETAS
FRAUDULENTAS.
EL
MODELO
ES
DESCRIPTIVO
Y
REQUIERE
INTERPRETACIÓN:
• P.EJ.
UNA
CARACTERIZACIÓN
DE
ZONAS
GEOGRÁFICAS SEGÚN LA DISTRIBUCIÓN DE LOS
PRODUCTOS VENDIDOS.
MINERÍA DE DATOS - INTRODUCCIÓN
POR EJEMPLO:
1ª FASE:
• COMPROBACIÓN DE LA PRECISIÓN DEL MODELO EN
UN BANCO DE EJEMPLOS INDEPENDIENTE DEL QUE
SE HA UTILIZADO PARA APRENDER EL MODELO.
• SE PUEDE ELEGIR EL MEJOR MODELO.
2ª FASE:
• SE PUEDE REALIZAR UNA EXPERIENCIA PILOTO CON
ESE MODELO.
• POR EJEMPLO, SI EL MODELO ENCONTRADO SE
QUERÍA UTILIZAR PARA PREDECIR LA RESPUESTA DE
LOS CLIENTES A UN NUEVO PRODUCTO, SE PUEDE
ENVIAR UN MAILING A UN SUBCONJUNTO DE
CLIENTES Y EVALUAR LA FIABILIDAD DEL MODELO.
31
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASE DE EVALUACIÓN Y VALIDACIÓN:
LA FASE ANTERIOR PRODUCE UNA O MÁS HIPÓTESIS DE
MODELOS.
PARA SELECCIONAR Y VALIDAR ESTOS MODELOS ES
NECESARIO EL USO DE CRITERIOS DE EVALUACIÓN DE
HIPÓTESIS.
MINERÍA DE DATOS - INTRODUCCIÓN
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
EL MODELO PUEDE TENER MUCHOS USUARIOS Y
NECESITA DIFUSIÓN:
• EL MODELO PUEDE REQUERIR SER EXPRESADO DE
UNA
MANERA
COMPRENSIBLE
PARA
SER
DISTRIBUIDO EN LA ORGANIZACIÓN.
• P.EJ. LAS CERVEZAS Y LOS PRODUCTOS CONGELADOS
SE COMPRAN FRECUENTEMENTE EN CONJUNTO ⇒
PONERLOS EN ESTANTES DISTANTES.
MINERÍA DE DATOS - INTRODUCCIÓN
34
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
TIPOLOGÍA DE TÉCNICAS DE MINERÍA DE DATOS:
LAS TÉCNICAS DE MINERÍA DE DATOS CREAN MODELOS QUE
SON PREDICTIVOS Y/O DESCRIPTIVOS.
UN MODELO PREDICTIVO RESPONDE PREGUNTAS SOBRE
DATOS FUTUROS:
¿CUÁLES SERÁN LAS VENTAS EL AÑO PRÓXIMO?.
¿ES ESTA TRANSACCIÓN FRAUDULENTA?.
¿QUÉ TIPO DE SEGURO ES MÁS PROBABLE QUE CONTRATE
EL CLIENTE “X”?.
UN MODELO DESCRIPTIVO PROPORCIONA INFORMACIÓN
SOBRE LAS RELACIONES ENTRE LOS DATOS Y SUS
CARACTERÍSTICAS; GENERA INFORMACIÓN DEL TIPO:
LOS
CLIENTES QUE COMPRAN PAÑALES SUELEN
COMPRAR CERVEZA.
EL TABACO Y EL ALCOHOL SON LOS FACTORES MÁS
IMPORTANTES EN LA ENFERMEDAD “Y”.
LOS CLIENTES SIN TELEVISIÓN Y CON BICICLETA TIENEN
CARACTERÍSTICAS MUY DIFERENCIADAS DEL RESTO.
MINERÍA DE DATOS - INTRODUCCIÓN
36
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
EJEMPLO DE MODELO PREDICTIVO:
SE QUIERE SABER SI JUGAR O NO JUGAR ESTA TARDE AL
TENIS.
SE
HAN
RECOGIDO
DATOS
DE
EXPERIENCIAS
ANTERIORES:
MINERÍA DE DATOS - INTRODUCCIÓN
37
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN
39
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
41
SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE
APRENDIZAJE DE ÁRBOLES DE DECISIÓN, SEÑALANDO
EL ATRIBUTO “PLAYTENNIS” COMO LA CLASE (OUTPUT).
EL RESULTADO DEL ALGORITMO ES EL MODELO QUE SE
MUESTRA EN EL GRÁFICO SIGUIENTE.
AHORA SE PUEDE UTILIZAR ESTE MODELO PARA
PREDECIR SI ESTA TARDE JUGAMOS O NO AL TENIS:
• EJ.: LA INSTANCIA ES NO:
– (OUTLOOK = SUNNY, TEMPERATURE = HOT,
HUMIDITY = HIGH, WIND = STRONG).
MINERÍA DE DATOS - INTRODUCCIÓN
40
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN
38
EJEMPLO DE MODELO DESCRIPTIVO:
SE QUIERE CATEGORIZAR LOS EMPLEADOS.
SE TIENE LOS SIGUIENTES DATOS DE LOS EMPLEADOS:
MINERÍA DE DATOS - INTRODUCCIÓN
42
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE
CLUSTERING K-MEAMS.
SE CREAN TRES CLUSTERS, CON LA DESCRIPCIÓN DEL
GRÁFICO SIGUIENTE, DONDE:
• GRUPO 1: SIN HIJOS Y DE ALQUILER. POCO
SINDICADOS. MUCHAS BAJAS.
• GRUPO 2: SIN HIJOS Y CON COCHE. MUY SINDICADOS.
POCAS BAJAS. NORMALMENTE DE ALQUILER Y
MUJERES.
• GRUPO 3: CON HIJOS, CASADOS Y CON COCHE.
PROPIETARIOS. POCO SINDICADOS. HOMBRES.
MINERÍA DE DATOS - INTRODUCCIÓN
TIPOS DE CONOCIMIENTO:
ASOCIACIONES:
UNA
ASOCIACIÓN
ENTRE
DOS
ATRIBUTOS OCURRE CUANDO LA FRECUENCIA DE QUE SE
DEN DOS VALORES DETERMINADOS DE CADA UNO
CONJUNTAMENTE ES RELATIVAMENTE ALTA:
• EJEMPLO: EN UN SUPERMERCADO SE ANALIZA SI LOS
PAÑALES Y LOS POTITOS DE BEBÉ SE COMPRAN
CONJUNTAMENTE.
DEPENDENCIAS:
UNA
DEPENDENCIA
FUNCIONAL
(APROXIMADA O ABSOLUTA) ES UN PATRÓN EN EL QUE SE
ESTABLECE QUE UNO O MÁS ATRIBUTOS DETERMINAN EL
VALOR DE OTRO. OJO! EXISTEN MUCHAS DEPENDENCIAS
NADA INTERESANTES (CAUSALIDADES INVERSAS):
• EJEMPLO: QUE UN PACIENTE HAYA SIDO INGRESADO
EN MATERNIDAD DETERMINA SU SEXO.
LA BÚSQUEDA DE ASOCIACIONES Y DEPENDENCIAS SE
CONOCE A VECES COMO ANÁLISIS EXPLORATORIO.
MINERÍA DE DATOS - INTRODUCCIÓN
AGRUPAMIENTO / SEGMENTACIÓN:
• EL AGRUPAMIENTO (O CLUSTERING) ES LA
DETECCIÓN DE GRUPOS DE INDIVIDUOS.
• SE DIFERENCIA DE LA CLASIFICACIÓN EN EL QUE NO
SE CONOCEN NI LAS CLASES NI SU NÚMERO
(APRENDIZAJE NO SUPERVISADO).
• EL OBJETIVO ES DETERMINAR GRUPOS O RACIMOS
(CLUSTERS) DIFERENCIADOS DEL RESTO.
46
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
47
CLASIFICACIÓN: UNA CLASIFICACIÓN SE PUEDE VER
COMO EL ESCLARECIMIENTO DE UNA DEPENDENCIA, EN
LA QUE EL ATRIBUTO DEPENDIENTE PUEDE TOMAR UN
VALOR ENTRE VARIAS CLASES, YA CONOCIDAS:
• EJEMPLO:
– SE SABE (POR UN ESTUDIO DE DEPENDENCIAS)
QUE LOS ATRIBUTOS EDAD, NÚMERO DE MIOPÍAS
Y ASTIGMATISMO HAN DETERMINADO LOS
PACIENTES PARA LOS QUE SU OPERACIÓN DE
CIRUGÍA OCULAR HA SIDO SATISFACTORIA.
– PODEMOS INTENTAR DETERMINAR LAS REGLAS
EXACTAS QUE CLASIFICAN UN CASO COMO
POSITIVO O NEGATIVO A PARTIR DE ESOS
ATRIBUTOS.
MINERÍA DE DATOS - INTRODUCCIÓN
MINERÍA DE DATOS - INTRODUCCIÓN
44
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
45
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN
43
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
TENDENCIAS / REGRESIÓN: EL OBJETIVO ES PREDECIR
LOS VALORES DE UNA VARIABLE CONTINUA A PARTIR DE
LA EVOLUCIÓN SOBRE OTRA VARIABLE CONTINUA,
GENERALMENTE EL TIEMPO:
• EJEMPLO: SE INTENTA PREDECIR EL NÚMERO DE
CLIENTES O PACIENTES, LOS INGRESOS, LLAMADAS,
GANANCIAS, COSTES, ETC. A PARTIR DE LOS
RESULTADOS DE SEMANAS, MESES O AÑOS
ANTERIORES.
INFORMACIÓN DEL ESQUEMA: DESCUBRIR CLAVES
PRIMARIAS ALTERNATIVAS, R.I.
REGLAS GENERALES: PATRONES NO SE AJUSTAN A LOS
TIPOS ANTERIORES; RECIENTEMENTE LOS SISTEMAS
INCORPORAN CAPACIDAD PARA ESTABLECER OTROS
PATRONES MÁS GENERALES.
MINERÍA DE DATOS - INTRODUCCIÓN
48
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
TAXONOMÍA DE TÉCNICAS DE MINERÍA DE DATOS:
MINERÍA DE DATOS - INTRODUCCIÓN
49
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
LA SELECCIÓN COMPRENDE LA RECOLECCIÓN E INTEGRACIÓN
DE LA INFORMACIÓN.
LAS PRIMERAS FASES DEL KDD DETERMINAN QUE LAS FASES
SUCESIVAS SEAN CAPACES DE EXTRAER CONOCIMIENTO VÁLIDO
Y ÚTIL A PARTIR DE LA INFORMACIÓN ORIGINAL.
GENERALMENTE, LA INFORMACIÓN QUE SE QUIERE INVESTIGAR
SOBRE UN CIERTO DOMINIO DE LA ORGANIZACIÓN SE
ENCUENTRA:
EN BASES DE DATOS Y OTRAS FUENTES MUY DIVERSAS:
TANTO INTERNAS COMO EXTERNAS.
MUCHAS DE ESTAS FUENTES SON LAS QUE SE UTILIZAN
PARA EL TRABAJO TRANSACCIONAL.
EL ANÁLISIS POSTERIOR SERÁ MUCHO MÁS SENCILLO SI LA
FUENTE
ES
UNIFICADA,
ACCESIBLE
(INTERNA)
Y
DESCONECTADA DEL TRABAJO TRANSACCIONAL.
MINERÍA DE DATOS - INTRODUCCIÓN
53
SISTEMAS DE MINERÍA DE DATOS:
MINERÍA DE DATOS - INTRODUCCIÓN
50
FASE DE SELECCIÓN EN MINERÍA DE
DATOS
TIPOS DE SISTEMAS:
STANDALONE: LOS DATOS SE DEBEN EXPORTAR /
CONVERTIR AL FORMATO INTERNO DEL SISTEMA DE
DATA MINING:
• KNOWLEDGE SEEKER IV (ANGOSS INTERNATIONAL
LIMITED, GROUPE BULL).
ON-TOP:
PUEDEN FUNCIONAR SOBRE UN SISTEMA
PROPIETARIO:
• CLEMENTINE SOBRE ODBC, MICROSTRATEGY SOBRE
ORACLE.
EMBEDDED: PROPIETARIOS:
• ORACLE DISCOVERER, ORACLE DARWIN, IBM
INTELLIGENT MINER, ETC.
EXTENSIBLE (TECNOLOGÍA PLUG-INS): PROPORCIONAN
UNAS HERRAMIENTAS MÍNIMAS DE INTERFAZ CON LOS
DATOS, ESTADÍSTICAS Y VISUALIZACIÓN, Y LOS
ALGORITMOS DE APRENDIZAJE SE PUEDEN IR AÑADIENDO
CON PLUG-INS:
• EJ. KEPLER.
MINERÍA DE DATOS - INTRODUCCIÓN
51
FASE DE SELECCIÓN EN MINERÍA DE
DATOS
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN
52
FASE DE SELECCIÓN EN MINERÍA DE
DATOS
EL PROCESO SUBSIGUIENTE DE MINERÍA DE DATOS:
DEPENDE MUCHO DE LA FUENTE:
OLAP U OLTP.
DATAWAREHOUSE O COPIA CON EL ESQUEMA ORIGINAL.
ROLAP O MOLAP.
DEPENDE TAMBIÉN DEL TIPO DE USUARIO:
“PICAPEDREROS”
(O “GRANJEROS”): SE DEDICAN
FUNDAMENTALMENTE
A
REALIZAR
INFORMES
PERIÓDICOS, VER LA EVOLUCIÓN DE DETERMINADOS
PARÁMETROS, CONTROLAR VALORES ANÓMALOS, ETC.
“EXPLORADORES”:
ENCARGADOS
DE
ENCONTRAR
NUEVOS
PATRONES
SIGNIFICATIVOS
UTILIZANDO
TÉCNICAS DE MINERÍA DE DATOS.
MINERÍA DE DATOS - INTRODUCCIÓN
54
FASE DE SELECCIÓN EN MINERÍA DE
DATOS
RECOLECCIÓN DE INFORMACIÓN EXTERNA:
APARTE DE INFORMACIÓN INTERNA DE LA ORGANIZACIÓN,
LOS
ALMACENES
DE
DATOS
PUEDEN
RECOGER
INFORMACIÓN EXTERNA:
DEMOGRAFÍAS
(CENSO),
PÁGINAS
AMARILLAS,
PSICOGRAFÍAS (PERFILES POR ZONAS), USO DE INTERNET,
INFORMACIÓN DE OTRAS ORGANIZACIONES.
DATOS COMPARTIDOS EN UNA INDUSTRIA O ÁREA DE
NEGOCIO,
ORGANIZACIONES
Y
COLEGIOS
PROFESIONALES, CATÁLOGOS, ETC.
DATOS
RESUMIDOS
DE
ÁREAS
GEOGRÁFICAS,
DISTRIBUCIÓN DE LA COMPETENCIA, EVOLUCIÓN DE LA
ECONOMÍA,
INFORMACIÓN
DE
CALENDARIOS
Y
CLIMATOLÓGICAS,
PROGRAMACIONES
TELEVISIVASDEPORTIVAS, CATÁSTROFES, ETC.
BD EXTERNAS COMPRADAS A OTRAS COMPAÑÍAS.
MINERÍA DE DATOS - INTRODUCCIÓN
55
FASE DE EXPLORACIÓN EN MINERÍA
DE DATOS
FASE DE EXPLORACIÓN EN MINERÍA
DE DATOS
LA EXPLORACIÓN DE LOS DATOS CONSISTE EN LA UTILIZACIÓN
DE TÉCNICAS FORMALES DE ANÁLISIS EXPLORATORIO:
SE BUSCA CONOCER LA DISTRIBUCIÓN DE LOS DATOS, SU
SIMETRÍA Y NORMALIDAD Y LAS CORRELACIONES
EXISTENTES EN LA INFORMACIÓN.
SE UTILIZA:
ANÁLISIS EXPLORATORIO Y GRÁFICO DE LOS DATOS.
MEDIDAS DE DIAGNÓSTICO FORMAL ESTADÍSTICO:
EJ.: CONTRASTES DE AJUSTES DE LOS DATOS A UNA
DISTRIBUCIÓN,
CONTRASTES
DE
ASIMETRÍA,
CONTRASTES DE ALEATORIEDAD, ETC.
MINERÍA DE DATOS - INTRODUCCIÓN
57
FASE DE EXPLORACIÓN EN MINERÍA
DE DATOS
MINERÍA DE DATOS - INTRODUCCIÓN
56
FASE DE EXPLORACIÓN EN MINERÍA
DE DATOS
SE DEBE REALIZAR LA COMPROBACIÓN DE LOS SUPUESTOS
SUBYACENTES EN LOS MÉTODOS MULTIVARIANTES PARA LA
MINERÍA DE DATOS; ESTOS SUPUESTOS SUELEN SER:
EL CONTRASTE DE LA NORMALIDAD DE TODAS Y C / U DE
LAS VARIABLES QUE FORMAN PARTE DEL ESTUDIO.
EL TESTEO DE LA LINEALIDAD DE LAS RELACIONES ENTRE
LAS VARIABLES.
LA COMPROBACIÓN DE LA HOMOCEDASTICIDAD DE LOS
DATOS:
CONSISTE EN VER QUE LA VARIACIÓN DE LA VARIABLE
DEPENDIENTE QUE SE INTENTA EXPLICAR A TRAVÉS DE
LAS VARIABLES INDEPENDIENTES NO SE CONCENTRA EN
UN PEQUEÑO GRUPO DE VALORES INDEPENDIENTES.
MINERÍA DE DATOS - INTRODUCCIÓN
58
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
LA COMPROBACIÓN DE LA MULTICOLINEALIDAD O
EXISTENCIA DE RELACIONES ENTRE LAS VARIABLES
INDEPENDIENTES.
LA CONTRASTACIÓN DE LA AUSENCIA DE CORRELACIÓN
SERIAL DE LOS RESIDUOS O AUTOCORRELACIÓN:
CONSISTE EN ASEGURAR QUE CUALQUIERA DE LOS
ERRORES DE PREDICCIÓN NO ESTÁ CORRELACIONADO
CON EL RESTO.
MINERÍA DE DATOS - INTRODUCCIÓN
59
MINERÍA DE DATOS - INTRODUCCIÓN
60
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
LIMPIEZA (DATA CLEANSING) Y CRIBA (SELECCIÓN) DE DATOS:
SE DEBEN ELMININAR EL MAYOR NÚMERO POSIBLE DE
DATOS ERRÓNEOS O INCONSISTENTES (LIMPIEZA) E
IRRELEVANTES (CRIBA).
SE
UTILIZAN
MÉTODOS
ESTADÍSTICOS
CASI
EXCLUSIVAMENTE:
HISTOGRAMAS (DETECCIÓN DE DATOS ANÓMALOS).
SELECCIÓN
DE
DATOS
(MUESTREO,
YA
SEA
VERTICALMENTE,
ELIMINANDO
ATRIBUTOS,
U
HORIZONTALMENTE, ELIMINANDO TUPLAS).
REDEFINICIÓN
DE ATRIBUTOS (AGRUPACIÓN O
SEPARACIÓN).
MINERÍA DE DATOS - INTRODUCCIÓN
61
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
62
ACCIONES ANTE DATOS FALTANTES (MISSING VALUES):
IGNORAR:
ALGUNOS
ALGORITMOS SON ROBUSTOS A DATOS
FALTANTES (P.EJ. ÁRBOLES).
FILTRAR (ELIMINAR O REEMPLAZAR) LA COLUMNA:
SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA
COLUMNA DEPENDIENTE CON DATOS DE MAYOR
CALIDAD. PREFERIBLE A ELIMINAR LA COLUMNA ES
REEMPLAZARLA POR UNA COLUMNA BOOLEANA
DICIENDO SI EL VALOR EXISTÍA O NO.
FILTRAR LA FILA:
CLARAMENTE SESGA LOS DATOS, PORQUE MUCHAS
VECES LAS CAUSAS DE UN DATO FALTANTE ESTÁN
RELACIONADAS CON CASOS O TIPOS ESPECIALES.
MINERÍA DE DATOS - INTRODUCCIÓN
64
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
REEMPLAZAR EL VALOR:
POR MEDIAS. A VECES SE PUEDE PREDECIR A PARTIR DE
OTROS DATOS, UTILIZANDO CUALQUIER TÉCNICA DE ML.
SEGMENTAR:
SE SEGMENTAN LAS TUPLAS POR LOS VALORES QUE
TIENEN
DISPONIBLES.
SE
OBTIENEN
MODELOS
DIFERENTES PARA CADA SEGMENTO Y LUEGO SE
COMBINAN.
MODIFICAR LA POLÍTICA DE CALIDAD DE DATOS Y
ESPERAR HASTA QUE LOS DATOS FALTANTES ESTÉN
DISPONIBLES.
MINERÍA DE DATOS - INTRODUCCIÓN
MINERÍA DE DATOS - INTRODUCCIÓN
63
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
ACCIONES ANTE DATOS ANÓMALOS (OUTLIERS):
IGNORAR:
ALGUNOS
ALGORITMOS SON ROBUSTOS A DATOS
ANÓMALOS (P.EJ. ÁRBOLES).
FILTRAR (ELIMINAR O REEMPLAZAR) LA COLUMNA:
SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA
COLUMNA DEPENDIENTE CON DATOS DE MAYOR
CALIDAD. PREFERIBLE A ELIMINAR LA COLUMNA ES
REEMPLAZARLA POR UNA COLUMNA DISCRETA DICIENDO
SI EL VALOR ERA NORMAL U OUTLIER (POR ENCIMA O
POR DEBAJO).
FILTRAR LA FILA:
PUEDE SESGAR LOS DATOS, PORQUE MUCHAS VECES LAS
CAUSAS DE UN DATO ERRÓNEO ESTÁN RELACIONADAS
CON CASOS O TIPOS ESPECIALES.
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
REEMPLAZAR EL VALOR:
POR EL VALOR “NULO” SI EL ALGORITMO LO TRATA BIEN
O POR MÁXIMOS O MÍNIMOS, DEPENDIENDO POR DONDE
ES EL OUTLIER, O POR MEDIAS. A VECES SE PUEDE
PREDECIR A PARTIR DE OTROS DATOS, UTILIZANDO
CUALQUIER TÉCNICA DE ML.
DISCRETIZAR:
TRANSFORMAR UN VALOR CONTINUO EN UNO DISCRETO
(P.EJ. MUY ALTO, ALTO, MEDIO, BAJO, MUY BAJO) HACE
QUE LOS OUTLIERS CAIGAN EN “MUY ALTO” O “MUY
BAJO” SIN MAYORES PROBLEMAS.
MINERÍA DE DATOS - INTRODUCCIÓN
65
RAZONES SOBRE DATOS FALTANTES (MISSING VALUES):
A VECES ES IMPORTANTE EXAMINAR LAS RAZONES TRAS
DATOS FALTANTES Y ACTUAR EN CONSECUENCIA:
ALGUNOS
VALORES
FALTANTES
EXPRESAN
CARACTERÍSTICAS RELEVANTES:
• P.EJ. LA FALTA DE TELÉFONO PUEDE REPRESENTAR
EN MUCHOS CASOS UN DESEO DE QUE NO SE
MOLESTE A LA PERSONA EN CUESTIÓN, O UN CAMBIO
DE DOMICILIO RECIENTE.
VALORES NO EXISTENTES:
• MUCHOS VALORES FALTANTES EXISTEN EN LA
REALIDAD, PERO OTROS NO. P.EJ. EL CLIENTE QUE SE
ACABA DE DAR DE ALTA NO TIENE CONSUMO MEDIO
DE LOS ÚLTIMOS 12 MESES.
DATOS INCOMPLETOS:
• SI LOS DATOS VIENEN DE FUENTES DIFERENTES, AL
COMBINARLOS SE SUELE HACER LA UNIÓN Y NO LA
INTERSECCIÓN DE CAMPOS, CON LO QUE MUCHOS
DATOS FALTANTES REPRESENTAN QUE ESAS TUPLAS
VIENEN DE UNA/S FUENTE/S DIFERENTE/S AL RESTO.
MINERÍA DE DATOS - INTRODUCCIÓN
66
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
TRANSFORMACIÓN DEL ESQUEMA:
ESQUEMA ORIGINAL:
VENTAJAS:
• LAS R.I. (RELACIONES INICIALES (ORIGINALES)) SE
MANTIENEN (NO HAY QUE REAPRENDERLAS, NO
DESPISTAN).
INCONVENIENTES:
• MUCHAS TÉCNICAS NO SE PUEDEN UTILIZAR.
MINERÍA DE DATOS - INTRODUCCIÓN
67
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
68
INTERCAMBIO DE DIMENSIONES: (FILAS POR COLUMNAS):
EJEMPLO:
UNA TABLA DE CESTAS DE LA COMPRA, DONDE CADA
ATRIBUTO INDICA SI EL PRODUCTO SE HA COMPRADO O
NO.
OBJETIVO:
VER SI DOS PRODUCTOS SE COMPRAN
CONJUNTAMENTE (REGLA DE ASOCIACIÓN).
ES MUY COSTOSO: HAY QUE MIRAR AL MENOS LA RAÍZ
CUADRADA DE TODAS LAS RELACIONES (CESTAS):
• PUEDE HABER MILLONES EN UNA SEMANA...
• SIN EMBARGO... PRODUCTOS SÓLO HAY UNOS 10.000.
SÓLO ES NECESARIO HACER XOR ENTRE DOS FILAS PARA
SABER SI HAY ASOCIACIÓN.
MINERÍA DE DATOS - INTRODUCCIÓN
70
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
TRANSFORMACIÓN DE LOS CAMPOS:
NUMERIZACIÓN / ETIQUETADO:
VENTAJAS:
• SE REDUCE ESPACIO:
– EJ: APELLIDO ⇒ ENTERO.
• SE PUEDEN UTILIZAR TÉCNICAS MÁS SIMPLES.
DESVENTAJAS:
• SE
NECESITA
META-INFORMACIÓN
PARA
DISTINGUIR
LOS
DATOS
INICIALMENTE
NO
NUMÉRICOS (LA CANTIDAD NO ES RELEVANTE) DE
LOS INICIALMENTE NUMÉRICOS (LA CANTIDAD ES
RELEVANTE: PRECIOS, UNIDADES, ETC.).
• A VECES SE PUEDE “SESGAR” EL MODELO (BIASING).
MINERÍA DE DATOS - INTRODUCCIÓN
MINERÍA DE DATOS - INTRODUCCIÓN
69
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
TABLA UNIVERSAL:
CUALQUIER
ESQUEMA
RELACIONAL
SE
PUEDE
CONVERTIR (EN UNA CORRESPONDENCIA 1 A 1) A UNA
TABLA UNIVERSAL:
VENTAJAS:
• MODELOS
DE
APRENDIZAJE
MÁS
SIMPLES
(PROPOSICIONALES).
DESVENTAJAS:
• MUCHÍSIMA REDUNDANCIA (TAMAÑOS INGENTES).
LA INFORMACIÓN DEL ESQUEMA SE PIERDE. MUCHAS
DEPENDENCIAS FUNCIONALES SE VUELVEN A REDESCUBRIR!! SE DEBE AÑADIR METAINFORMACIÓN.
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
DESNORMALIZADO TIPO ESTRELLA O COPO DE NIEVE
(DATAMARTS):
VENTAJAS:
• SE PUEDEN BUSCAR REGLAS SOBRE INFORMACIÓN
SUMARIZADA Y SI RESULTAN FACTIBLES SE PUEDEN
COMPROBAR CON LA INFORMACIÓN DETALLADA. SE
UTILIZAN OPERADORES PROPIOS: ROLL-UP, DRILLDOWN, SLICING AND DICING.
DESVENTAJAS:
• ORIENTADAS A EXTRAER UN TIPO DE INFORMACIÓN.
MINERÍA DE DATOS - INTRODUCCIÓN
71
DISCRETIZACIÓN:
VENTAJAS:
• SE REDUCE ESPACIO:
– EJ. 0..10 ⇒ (PEQUEÑO, MEDIANO, GRANDE).
• SE PUEDEN UTILIZAR ÁRBOLES DE DECISIÓN Y
CONSTRUIR REGLAS DISCRETAS.
DESVENTAJAS:
• UNA MALA DISCRETIZACIÓN PUEDE INVALIDAR LOS
RESULTADOS.
MINERÍA DE DATOS - INTRODUCCIÓN
72
Descargar