Observaciones sobre el trabajo final de la materia

Anuncio
Observaciones sobre el trabajo final de la materia
Datamining y Aprendizaje Automatizado (Cód. 7629)
Conceptos de Datamining y Aprendizaje Automatizado (Cód. 7616)
2do. Cuat. 2009
Prof. Carlos Iván Chesñevar
1. Consideraciones sobre el trabajo final
El propósito del proyecto final de la materia es concentrarse en un tópico
particular vinculado a la asignatura, y explorarlo en relativa profundidad. El
trabajo deberá tener una extensión mínima de 15 páginas. Hay tres formatos
principales:
1. Un survey (análisis comparativo). Un “survey” detallado de trabajo
previo sobre un tópico claramente definido. Esto debería focalizarse en
un tópico relativamente avanzado, e involucrar un análisis de las
principales publicaciones aparecidas al respecto recientemente. El
survey debería comparar y contrastar diferentes acercamientos
alternativos, y no ser un mero “cut&paste” de otros artículos.
2. Una aplicación novedosa de machine learning. Esto debería ser una
aplicación no trivial y que devuelva un resultado razonable.
3. Análisis de un modelo o algoritmo para machine learning. Esto puede
ser empírico o teórico, o ambas cosas. Esta categoría es amplia, e
incluye modificaciones no-triviales de algoritmos ya existentes. Ej. Se
puede identificar algún tipo de problema o dificultad en alguna técnica
estándar, y proponer una mejora para que la técnica funcione mejor.
Tengan en cuenta asimismo que:
- Si no pueden encontrar un tema según los criterios anteriores, puedo
asignarles uno.
- Los trabajos se pueden hacer en comisiones de hasta tres personas.
Para facilitar la elección del tema y que pueda evaluar si es apropiado, les
sugiero realizar un resumen en una hoja A4 sintetizando la idea central de
problema a abordar, y cuál va a ser el enfoque adoptado (cualquiera sea la
opción de las anteriores por la que opten). En esa hoja A4 se deberá detallar lo
siguiente:
-
Título del tema elegido
Comisión (indicar nombres y L.U.’s de los integantes).
Breve descripción del problema que se pretende abordar
Me deberían enviar esa hoja por email antes del 20 de febrero de 2010, y yo
les confirmo si el tema es apropiado o no (obs: la actividad académica en 2010
se reinicia el 8 de febrero). Si surgen dudas con algun tema, coordinaremos
una reunión para aclararlas o lo discutimos por mail.
Plazos de entrega: el trabajo final aprobado equivaldrá a la aprobación del
examen final de la materia. Se recomienda entregar el trabajo en el lapso de
los próximos cuatro meses (antes de mayo de 2010).
2. Algunas ideas (tentativas)
La siguiente lista muestra algunas ideas posibles para abordar trabajos tipo
“survey” (la lista naturalmente no es exhaustiva).
Son muy bienvenidas las propuestas sobre algún tema de interés personal.
-
Datamining para construir perfiles de usuario de la web (web user profile)
-
Survey: datamining y machine learning aplicado en vehículos autónomos
-
Survey: técnicas de reconocimiento de caracteres (OCR).
-
(YA REALIZADO) Survey: face recognition (actualizar en relación al survey de
ACM de 2003).
http://www.face-rec.org/
-
Detalle y comparación de plataformas comerciales para Datamining (DBMiner, etc.)
- (YA REALIZADO) Análisis y detección de SPAM en correo electrónico.
Webpage con datasets: http://spamassassin.apache.org/publiccorpus/
Contrastar distintos algoritmos de clasificación.
-
Identificación de aplicaciones de machine learning y datamining en el sistema de
alumnos de la UNS. Análisis usando WEKA
-
Survey sobre diferentes tipos de datasets disponibles.
http://www.google.com/Top/Computers/Artificial_Intelligence/Machine_Learning/
Datasets/
El trabajo debería servir de futura referencia para otros alumnos del curso de
Datamining y Machine Learning.
TRABAJOS BASADOS EN DESARROLLO DE APLICACIONES
Teniendo en cuenta que Weka está implementado en Java, y el código fuente está
disponible, pueden combinarse Weka con otras plataformas que utilicen Java.
Algunas ideas posibles:
-
Un sistema multiagente en el que los agentes posean bases de conocimiento
formalizadas en términos de reglas de clasificación aprendidas a partir de sensores
asociados al entorno.
-
Un sistema experto para una determinada área temática con una interfaz sencilla que
permita cargar una Base de Datos y construir modelos alternativos utilizando
distintas técnicas de clasificación.
WEB PAGES UTILES:
UCI machine learning datasets: http://archive.ics.uci.edu/ml/
Descargar