http://www.dsic.upv.es/~jorallo/docent/master/index.html José Hernández Orallo jorallo@dsic.upv.es Mª. José Ramírez Quintana Cèsar Ferri Ramírez mramirez@dsic.upv.es cferri@dsic.upv.es (profesor responsable) • Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información. Main Page Es el tercer sábado consecutivo en el que se desplaza a Paterna a las 10:30 0.25 0.45 Our customers ¿desea crear un evento periódico en su agenda? Catalogue 0.15 0.05 Purchase Sí No Alta de paciente Información Valenbisi: No existen bicicletas disponibles en: UPV rectorado Pero nuestros modelos estiman que en 30’ la probabilidad de que haya al menos una bicicleta es del 95%. Nuestros modelos de datos sugieren que los valores que acaba de introducir para los campos (edad=8) y (patología=“presbicia”) conjuntamente son anómalos. ¿Desea revisar los datos introducidos? Revisar Continuar 2 En el contexto de IS y SI: • Diseñar software e interfaces más inteligentes y adaptativos • Convertir la información de la base de datos en conocimiento • Generar reglas de negocio y ontologías automáticamente • Analizar la web y las redes sociales • Programar dispositivos (e.g., móviles) que aprendan del usuario • Programar a partir de ejemplos • Automatizar tareas que no están bien especificadas inicialmente • ... ¿Qué tienen en común? 3 • Presentar el problema del análisis inteligente y automático de la información para el descubrimiento de conocimiento. • Presentar las técnicas de aprendizaje automático más habituales y conocer la idoneidad de cada una para diferentes problemas, con especial interés en aquellas que generan modelos en formas de reglas o de patrones comprensible. • Reconocer la existencia de técnicas inductivas de alto nivel, especialmente las declarativas, que permiten obtener modelos complejos (estructurales, relacionales y/o recursivos) pero comprensibles, a partir de los datos y de conocimiento previo. 4 • Particularizar las técnicas vistas para las necesidades específicas de la extracción de conocimiento en bases de datos (KDD), y, en concreto, para la minería de datos (data-mining). • Conocer las técnicas para la combinación e integración de modelos, a través de la evaluación y adaptación de modelos (combinación, análisis ROC, calibración, etc.) • Adaptar la extracción automática de conocimiento a otras fuentes de información no estructurada (textos y web) y semiestructurada (XML), así como en aplicaciones relacionadas (sistemas recomendadores). 5 1. Introducción. 1.1. El Problema de la Extracción Automática de Conocimiento. 1.2. Relación de Tareas y Técnicas 1.3. Técnicas que generan modelos comprensibles: árboles de decisión y sistemas de reglas 1.4. El caso de la Minería de Datos 6 2. Integración y Adaptación de Modelos 2.1. Técnicas y Medidas de Evaluación. 2.2. Análisis ROC. 2.3. Combinación de Modelos. 7 3. Extracción de Conocimiento a Partir de Información No Estructurada. Minería Web 3.1. Los Problemas de la Información No Estructurada. 3.2. Extracción de Conocimiento a partir de Documentos HTML y texto (Web content mining) 3.3. Extracción de Información semi-estructurada (XML). 3.4. Lenguajes de consulta e intercambio de conocimiento. 3.5. Extracción de Conocimiento a partir de la estructura 3.6. Extracción de Conocimiento a partir de Patrones de Uso 3.7. Personalización y Sistemas Recomendadores 8 APRENDIZAJE AUTOMÁTICO (Generales): • Flach, P. “Machine Learning. The Art and Science of Algorithms that Make Sense of Data” Cambridge University Press 2012. [*] • Ethem Alpaydin “Introduction to Machine Learning, Second Edition (Adaptive Computation and Machine Learning)” The MIT Press, 2010 [B 4-63/01093] • T. Hastie, R. Tibshirani, J. Friedman “The Elements of Statistical Learning: Data Mining, Inference and Prediciton”, Springer 2009, [*] (2013 version freely available here: http://www-stat.stanford.edu/~tibs/ElemStatLearn/) • Thornton, Chris “Truth from Trash. How Learning Makes Sense” The MIT Press (A Bradford Book), 2000. [4-63/897B] [*] 9 APRENDIZAJE DECLARATIVO (ILP, IFLP, …) Y RELACIONAL: • De Raedt, L. “Logical and Relational Learning” Springer 2010. [*] • Getoor, L.; Taskar, B. “Introduction to Statistical Relational Learning”, MIT 2007. [*] • Dzeroski, S.; Lavrac, N. “Relational Data Mining” Springer 2001. [DSIC/3347] [*] 10 DATA-MINING Y KDD: • Berthold, M.; Hand, D.J. (ed) “Intelligent Data Analysis. An Introduction” Springer 1999. (2nd Edition 2002). [D-SIC/3346] [*] • Dunham, M.H. “Data Mining. Introductory and Advanced Topics” Prentice Hall, 2003. [DSIC/3475D][*] • Han, J.; Kamber, M. “Data Mining: Concepts and Techniques” Morgan Kaufmann, 2001. [D-SIC/3274] [*] • Hand, D.J.; Mannila, H. and Smyth, P. “Principles of Data Mining”, The MIT Press, 2000. [D-SIC/3349] [*] • Hernández, J.; Ramírez, M.J.; Ferri, C. “Introducción a la Minería de Datos”, Prentice Hall / Addison Wesley, 2004. [*] • Witten, I.H.; Frank, E. “Data Mining. Practical Machine Learning Tools and Techniques ”, Morgan Kaufmann, 2nd Edition, 2005. [D-SIC/3281] [*] 11 XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage Data, Second Edition, Springer 2009. [*] • Kosala, R.; Blockeel, H. “Web Mining Research: A Survey” ACM SIGKDD Explorations, Newsletter of the ACM Special Interest Group on Knowledge Discovery and Data Mining, June 2000, Vol. 2, nº1, pp. 1-15. [D-SIC/ ] [*] • Chakrabarti, S. “Mining the Web: Discovering Knowledge from Hypertext Data” Morgan-Kaufmann 2003.[D-SIC/3530] [*] 12 Dos posibilidades: • Presentaciones de artículos científicos (originales o surveys) al final del cuatrimestre: • Cualquier artículo relacionado con la asignatura y, si es posible, relacionado con el campo de interés o tesis del estudiante. • Presentaciones de 15’ + preguntas. • Se valorará: • Crítica del artículo: puntos fuertes, puntos débiles • Relación con la asignatura • Realización de un trabajo práctico con WEKA u otra herramienta de análisis de datos (R, Rapidminer, SPSS Modeler, etc.). • La presentación el trabajo práctico será opcional, y se valorará positivamente. En ambos casos, la elección del artículo o el tema del trabajo práctico deberán obtener el visto bueno por parte de los profesores de la asignatura. 13