Observaciones sobre el trabajo final de la materia Datamining y Aprendizaje Automatizado (Cód. 7629) Conceptos de Datamining y Aprendizaje Automatizado (Cód. 7616) 2do. Cuat. 2009 Prof. Carlos Iván Chesñevar 1. Consideraciones sobre el trabajo final El propósito del proyecto final de la materia es concentrarse en un tópico particular vinculado a la asignatura, y explorarlo en relativa profundidad. El trabajo deberá tener una extensión mínima de 15 páginas. Hay tres formatos principales: 1. Un survey (análisis comparativo). Un “survey” detallado de trabajo previo sobre un tópico claramente definido. Esto debería focalizarse en un tópico relativamente avanzado, e involucrar un análisis de las principales publicaciones aparecidas al respecto recientemente. El survey debería comparar y contrastar diferentes acercamientos alternativos, y no ser un mero “cut&paste” de otros artículos. 2. Una aplicación novedosa de machine learning. Esto debería ser una aplicación no trivial y que devuelva un resultado razonable. 3. Análisis de un modelo o algoritmo para machine learning. Esto puede ser empírico o teórico, o ambas cosas. Esta categoría es amplia, e incluye modificaciones no-triviales de algoritmos ya existentes. Ej. Se puede identificar algún tipo de problema o dificultad en alguna técnica estándar, y proponer una mejora para que la técnica funcione mejor. Tengan en cuenta asimismo que: - Si no pueden encontrar un tema según los criterios anteriores, puedo asignarles uno. - Los trabajos se pueden hacer en comisiones de hasta tres personas. Para facilitar la elección del tema y que pueda evaluar si es apropiado, les sugiero realizar un resumen en una hoja A4 sintetizando la idea central de problema a abordar, y cuál va a ser el enfoque adoptado (cualquiera sea la opción de las anteriores por la que opten). En esa hoja A4 se deberá detallar lo siguiente: - Título del tema elegido Comisión (indicar nombres y L.U.’s de los integantes). Breve descripción del problema que se pretende abordar Me deberían enviar esa hoja por email antes del 20 de febrero de 2010, y yo les confirmo si el tema es apropiado o no (obs: la actividad académica en 2010 se reinicia el 8 de febrero). Si surgen dudas con algun tema, coordinaremos una reunión para aclararlas o lo discutimos por mail. Plazos de entrega: el trabajo final aprobado equivaldrá a la aprobación del examen final de la materia. Se recomienda entregar el trabajo en el lapso de los próximos cuatro meses (antes de mayo de 2010). 2. Algunas ideas (tentativas) La siguiente lista muestra algunas ideas posibles para abordar trabajos tipo “survey” (la lista naturalmente no es exhaustiva). Son muy bienvenidas las propuestas sobre algún tema de interés personal. - Datamining para construir perfiles de usuario de la web (web user profile) - Survey: datamining y machine learning aplicado en vehículos autónomos - Survey: técnicas de reconocimiento de caracteres (OCR). - (YA REALIZADO) Survey: face recognition (actualizar en relación al survey de ACM de 2003). http://www.face-rec.org/ - Detalle y comparación de plataformas comerciales para Datamining (DBMiner, etc.) - (YA REALIZADO) Análisis y detección de SPAM en correo electrónico. Webpage con datasets: http://spamassassin.apache.org/publiccorpus/ Contrastar distintos algoritmos de clasificación. - Identificación de aplicaciones de machine learning y datamining en el sistema de alumnos de la UNS. Análisis usando WEKA - Survey sobre diferentes tipos de datasets disponibles. http://www.google.com/Top/Computers/Artificial_Intelligence/Machine_Learning/ Datasets/ El trabajo debería servir de futura referencia para otros alumnos del curso de Datamining y Machine Learning. TRABAJOS BASADOS EN DESARROLLO DE APLICACIONES Teniendo en cuenta que Weka está implementado en Java, y el código fuente está disponible, pueden combinarse Weka con otras plataformas que utilicen Java. Algunas ideas posibles: - Un sistema multiagente en el que los agentes posean bases de conocimiento formalizadas en términos de reglas de clasificación aprendidas a partir de sensores asociados al entorno. - Un sistema experto para una determinada área temática con una interfaz sencilla que permita cargar una Base de Datos y construir modelos alternativos utilizando distintas técnicas de clasificación. WEB PAGES UTILES: UCI machine learning datasets: http://archive.ics.uci.edu/ml/