Universidad del Cauca Facultad de Ingeniería Electrónica y de Telecomunicaciones UNIVERSIDAD DEL CAUCA FACULTAD DE INGENIERIA ELECTRÓNICA Y TELECOMUNICACIONES DEPARTAMENTO DE SISTEMAS ASIGNATURA: CODIGO: MODALIDAD: INTENSIDAD: AREA: PREREQUISITOS: CREDITOS: PROFESOR: MINERIA DE DATOS SIS827 PRESENCIAL TEORICO / PRACTICA 4 HORAS / SEMANA INGENIERÍA APLICADA NINGUNO 3 MAG. CARLOS ALBERTO COBOS LOZADA OBJETIVO GENERAL Este curso da a los participantes la posibilidad de conocer, comprender las técnicas básicas de minería de datos y saber como se aplican en problemas concretos de extracción de conocimiento útil para el análisis y la toma de decisiones. OBJETIVOS ESPECIFICOS El estudiante al final del curso estará en capacidad de: 1. Entender los conceptos y la terminología de las técnicas de minería de datos. 2. Reconocer los beneficios del uso sistemático de técnicas de extracción de conocimiento para la obtención de modelos y patrones predictivos o descriptivos. 3. Conocer las fases del Descubrimiento de Conocimiento de Bases de Datos y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos). 4. Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad. 5. Elegir, para un problema concreto, qué técnicas de minería de datos son más apropiadas. 6. Generar los modelos y patrones elegidos utilizando una herramienta o paquete de minería de datos. 7. Evaluar la calidad de un modelo, utilizando técnicas sencillas de evaluación (validación cruzada). 8. Implementar un algoritmo de minería de datos específico. 9. Conocer la problemática especial de la minería sobre la Web (documentos textuales e hipertextuales) y las técnicas más usadas. 10. Conocer los problemas abiertos en la investigación de minería de datos. 11. Conocer los congresos y foros más importantes, así como las redes, recursos, etc., relacionados 2007-05-02 Departamento de Sistemas - FIET 1/3 Universidad del Cauca Facultad de Ingeniería Electrónica y de Telecomunicaciones METODOLOGIA 1. El estudiante adquirirá los conocimientos básicos a través de clases magistrales acompañadas de ejercicios prácticos. 2. El estudiante deberá profundizar sus conocimientos con temas complementarios desarrollando talleres prácticos y trabajos de investigación. 3. El estudiante aplicará los conceptos teóricos mediante el desarrollo de talleres dirigidos que se realizarán en las horas prácticas. 4. El estudiante desarrollará prácticas de laboratorio y exposiciones de temas complementarios o de profundización al contenido de la asignatura. 5. El estudiante implementará por lo menos un algoritmo de minería de datos durante el desarrollo del curso. CONTENIDO 1 INTRODUCCIÓN A LA MINERÍA DE DATOS (4 h) 1.1 Definición. 1.2 Motivación. 1.3 Problemas tipo y aplicaciones. 1.4 Relación con otras disciplinas. 2 EL PROCESO KDD (8 h) 2.1 Fases del KDD 2.2 Tipología y técnicas de Minería de Datos 2.3 Sistemas Comerciales 2.4 Visualización 3 TÉCNICAS DE MINERÍA DE DATOS (30 h) 3.1 El problema de la extracción automática de conocimiento. 3.1.1 Pre-procesamiento de datos y análisis exploratorio de los datos 3.1.2 Enfoques estadísticos de estimación y predicción 3.2 Evaluación de Hipótesis 3.3 Técnicas supervisadas y no supervisadas 3.3.1 Clasificación: K-NN, Naive Bayes, árboles de decisión (C4.5, C5.0, CART) 3.3.2 Clustering: K-means, SOM (Self-Organizing Maps) o Redes Kohonen 3.3.3 Estimación y Predicción: Redes Neuronales (Perceptron y Perceptron multicapa) 3.3.4 Análisis de asociación: aprioriAll, aprioriSome, DynamicSome, FPGrow 3.4 Técnicas de evaluación de modelos 4 MINERÍA DE DATOS EN LA WEB – WEBMINING (12 h) 4.1 Los Problemas de la Información No Estructurada 4.2 Extracción de Conocimiento a partir de Documentos HTML y texto. 4.3 Extracción de Información semi-estructurada (XML). 5 ÁREAS DE INTERES EN INVESTIGACIÓN (6 h) 5.1 Problemas concretos. 5.2 Congresos, foros, redes y recursos EVALUACIONES 2007-05-02 Departamento de Sistemas - FIET 2/3 Universidad del Cauca Facultad de Ingeniería Electrónica y de Telecomunicaciones Se realizarán tres (3) evaluaciones de la siguiente forma: CORTE % Primer 35% Segundo 35% Tercero 30% COMPONENTES Descripción Parcial escrito Quices, Talleres y/o Laboratorios Parcial escrito Quices, Talleres y/o Laboratorios Parcial escrito Quices, Talleres y/o Laboratorios % 80% 20% 70% 30% 70% 30% Las practicas, talleres y laboratorios en grupo serán evaluados individualmente y deben estar debidamente documentados. Todo Proyecto NO sustentado pierde validez. Las sustentaciones serán programadas con anterioridad definiendo fecha y hora para cada alumno. BIBLIOGRAFÍA • • • • • • • • • • Larose, Daniel T. Data Mining Methods and Models. Daniel T. Larose. ISBN: 0-47175647-4. E-Book. 385 pages. February 2006, Wiley-IEEE Press. Larose, Daniel T. Discovering Knowledge in Data: An Introduction to Data Mining. Hoboken, NJ, USA: John Wiley & Sons, Incorporated, 2005. E-Book. Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie Maclennan. Wiley Publishing, Indiana, 2005. Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons 2003 (343 pages). ISBN: 0471228524. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM. Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003. Scime, Anthony. Web Mining: Applications and Techniques. Hershey, PA, USA: Idea Group Publishing, 2004. Hsu, Hui-Huang. Advanced Data Mining Technologies in Bioinformatics. Idea Group Publishing. 2006. ISBN: 1-59140-865-2. Berry, Michael J. A.; Linoff, Gordon S. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. John Wiley & Sons, Incorporated. 2004. ISBN: 0-471-47064-3. Last, Mark; Kandel, Abraham; Bunke, Horst. Data Mining in Time Series Databases. World Scientific Publishing Company, Incorporated. 2004. ISBN: 9-81-238290-9. 2007-05-02 Departamento de Sistemas - FIET 3/3