BASES DE DATOS

Anuncio
http://www.dsic.upv.es/~jorallo/docent/master/index.html
José Hernández Orallo
jorallo@dsic.upv.es
Mª. José Ramírez Quintana
Cèsar Ferri Ramírez
mramirez@dsic.upv.es
cferri@dsic.upv.es (profesor responsable)
• Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información.
Main
Page
Es el tercer sábado
consecutivo en el que
se desplaza a Paterna
a las 10:30
0.25
0.45
Our
customers
¿desea crear un
evento periódico en su
agenda?
Catalogue
0.15
0.05
Purchase
Sí
No
Alta de paciente
Información Valenbisi:
No existen bicicletas disponibles en:
UPV rectorado
Pero nuestros modelos estiman que en 30’
la probabilidad de que haya al menos una
bicicleta es del 95%.
Nuestros modelos de datos sugieren que los valores que
acaba de introducir para los campos (edad=8) y
(patología=“presbicia”) conjuntamente son anómalos.
¿Desea revisar los datos introducidos?
Revisar
Continuar
2
En el contexto de IS y SI:
• Diseñar software e interfaces más inteligentes y adaptativos
• Convertir la información de la base de datos en conocimiento
• Generar reglas de negocio y ontologías automáticamente
• Analizar la web y las redes sociales
• Programar dispositivos (e.g., móviles) que aprendan del usuario
• Programar a partir de ejemplos
• Automatizar tareas que no están bien especificadas inicialmente
• ...
¿Qué tienen en común?
3
• Presentar el problema del análisis inteligente y automático de la
información para el descubrimiento de conocimiento.
• Presentar las técnicas de aprendizaje automático más habituales y
conocer la idoneidad de cada una para diferentes problemas, con
especial interés en aquellas que generan modelos en formas de
reglas o de patrones comprensible.
• Reconocer la existencia de técnicas inductivas de alto nivel,
especialmente las declarativas, que permiten obtener modelos
complejos (estructurales, relacionales y/o recursivos) pero
comprensibles, a partir de los datos y de conocimiento previo.
4
• Particularizar las técnicas vistas para las necesidades
específicas de la extracción de conocimiento en bases de datos
(KDD), y, en concreto, para la minería de datos (data-mining).
• Conocer las técnicas para la combinación e integración de
modelos, a través de la evaluación y adaptación de modelos
(combinación, análisis ROC, calibración, etc.)
• Adaptar la extracción automática de conocimiento a otras
fuentes de información no estructurada (textos y web) y
semiestructurada (XML), así como en aplicaciones relacionadas
(sistemas recomendadores).
5
1. Introducción.
1.1. El Problema de la Extracción Automática de
Conocimiento.
1.2. Relación de Tareas y Técnicas
1.3. Técnicas que generan modelos comprensibles:
árboles de decisión y sistemas de reglas
1.4. El caso de la Minería de Datos
6
2. Integración y Adaptación de Modelos
2.1. Técnicas y Medidas de Evaluación.
2.2. Análisis ROC.
2.3. Combinación de Modelos.
7
3. Extracción de Conocimiento a Partir de Información No
Estructurada. Minería Web
3.1. Los Problemas de la Información No Estructurada.
3.2. Extracción de Conocimiento a partir de Documentos
HTML y texto (Web content mining)
3.3. Extracción de Información semi-estructurada (XML).
3.4. Lenguajes de consulta e intercambio de conocimiento.
3.5. Extracción de Conocimiento a partir de la estructura
3.6. Extracción de Conocimiento a partir de Patrones de
Uso
3.7. Personalización y Sistemas Recomendadores
8
APRENDIZAJE AUTOMÁTICO (Generales):
• Flach, P. “Machine Learning. The Art and Science of
Algorithms that Make Sense of Data” Cambridge University
Press 2012. [*]
• Ethem Alpaydin “Introduction to Machine Learning, Second
Edition (Adaptive Computation and Machine Learning)” The
MIT Press, 2010 [B 4-63/01093]
• T. Hastie, R. Tibshirani, J. Friedman “The Elements of
Statistical Learning: Data Mining, Inference and Prediciton”,
Springer 2009, [*] (2013 version freely available here:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/)
• Thornton, Chris “Truth from Trash. How Learning Makes
Sense” The MIT Press (A Bradford Book), 2000. [4-63/897B] [*]
9
APRENDIZAJE DECLARATIVO (ILP, IFLP, …) Y RELACIONAL:
• De Raedt, L. “Logical and Relational Learning” Springer 2010. [*]
• Getoor, L.; Taskar, B. “Introduction to Statistical Relational
Learning”, MIT 2007. [*]
• Dzeroski, S.; Lavrac, N. “Relational Data Mining” Springer 2001. [DSIC/3347] [*]
10
DATA-MINING Y KDD:
• Berthold, M.; Hand, D.J. (ed) “Intelligent Data Analysis. An
Introduction” Springer 1999. (2nd Edition 2002). [D-SIC/3346] [*]
• Dunham, M.H. “Data Mining. Introductory and Advanced
Topics” Prentice Hall, 2003. [DSIC/3475D][*]
• Han, J.; Kamber, M. “Data Mining: Concepts and Techniques”
Morgan Kaufmann, 2001. [D-SIC/3274] [*]
• Hand, D.J.; Mannila, H. and Smyth, P. “Principles of Data
Mining”, The MIT Press, 2000. [D-SIC/3349] [*]
• Hernández, J.; Ramírez, M.J.; Ferri, C. “Introducción a la
Minería de Datos”, Prentice Hall / Addison Wesley, 2004. [*]
• Witten, I.H.; Frank, E. “Data Mining. Practical Machine Learning
Tools and Techniques ”, Morgan Kaufmann, 2nd Edition, 2005.
[D-SIC/3281] [*]
11
XML, Datos Semiestructurados, Web Mining
• Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents
and Usage Data, Second Edition, Springer 2009. [*]
• Kosala, R.; Blockeel, H. “Web Mining Research: A Survey”
ACM SIGKDD Explorations, Newsletter of the ACM Special
Interest Group on Knowledge Discovery and Data Mining,
June 2000, Vol. 2, nº1, pp. 1-15. [D-SIC/ ] [*]
• Chakrabarti, S. “Mining the Web: Discovering Knowledge from
Hypertext Data” Morgan-Kaufmann 2003.[D-SIC/3530] [*]
12
Dos posibilidades:
• Presentaciones de artículos científicos (originales o surveys) al
final del cuatrimestre:
• Cualquier artículo relacionado con la asignatura y, si es posible,
relacionado con el campo de interés o tesis del estudiante.
• Presentaciones de 15’ + preguntas.
• Se valorará:
• Crítica del artículo: puntos fuertes, puntos débiles
• Relación con la asignatura
• Realización de un trabajo práctico con WEKA u otra herramienta
de análisis de datos (R, Rapidminer, SPSS Modeler, etc.).
• La presentación el trabajo práctico será opcional, y se valorará
positivamente.
En ambos casos, la elección del artículo o el tema del trabajo práctico deberán
obtener el visto bueno por parte de los profesores de la asignatura.
13
Descargar