Extensió d’una eina per a la construcció de classificacions jeràrquiques AUTOR: David Torres Martín DIRECTOR: Sergio Gómez Adreça electrònica: david.torresm@estudiants.urv.cat Titulació: Enginyeria en Informàtica Data Presentació: Juny de 2009 Resum: En aquest Projecte Final de Carrera es millora una eina de construcció de classificacions jeràrquiques (dendrogrames) corregint errors trobats i afegint-hi noves funcionalitats, per tal d’aconseguir una eina simple però potent i fiable de generació i anàlisi de multidendrogrames. D’aquesta manera es vol aconseguir una aplicació de codi lliure de prou qualitat com per a publicar-la a Internet i poder-ne fer ús tant en projectes de recerca com en àmbits professionals. L’anterior versió de l’aplicació oferia, entre d’altres, les següents funcionalitats: - Capacitat per carregar fitxers de text amb matrius o llistes de distàncies entre diferents elements - Càlcul i representació de les dades carregades en forma de multidendrograma, un tipus de dendrograma que soluciona el problema que apareix quan es produeixen empats en distàncies entre nodes, conegut com a problema de la “no-unicitat” - Possibilitat d’escollir entre diversos algorismes de clustering jeràrquic aglomerador - Possibilitat d’escollir entre dues mesures de distància entre nodes - Possibilitat d’escollir entre múltiples opcions de visualització dels dendrogrames - Possibilitat de desar les imatges generades en diferents formats gràfics - Possibilitat de veure/desar els detalls del dendrograma carregat La nova versió desenvolupada incorpora, a més, les següents noves funcionalitats i millores: - Nou disseny de la interfície gràfica d’usuari més intuïtiva i còmoda - Nova representació per defecte dels dendrogrames amb càrrega automàtica de valors - Nova capacitat per exportar les imatges dels dendrogrames a format PostScript, per poder utilitzar el programa en la preparació d’articles de recerca - Nova possibilitat d’optar entre mostrar o no franges en cas d’empats en distàncies entre nodes - Nou arranjament de finestres internes més intuïtiu - Millora en la càrrega de fitxers - Multitud de millores i correccions menors Resumen: En este Proyecto Final de Carrera se mejora una herramienta de construcción de clasificaciones jerárquicas (dendrogramas) corrigiendo errores encontrados y añadiendo nuevas funcionalidades, para conseguir una herramienta simple pero potente y fiable de generación y análisis de multidendrogramas. De este modo se quiere conseguir una aplicación de código libre de suficiente calidad como para publicarla en Internet y poder usarla tanto en proyectos de investigación como en ámbitos profesionales. La anterior versión de la aplicación ofrecía, entre otras, las siguientes funcionalidades: - Capacidad para cargar ficheros de texto con matrices o listas de distancias entre diferentes elementos - Cálculo y representación de los datos cargados en forma de multidendrograma, un tipo de dendrograma que soluciona el problema que aparece cuando se producen empates en distancies entre diferentes nodos, conocido como problema de la “no-unicidad” - Posibilidad de escoger entre varios algoritmos de clustering jerárquico aglomerativo - Posibilidad de escoger entre dos medidas de distancia entre nodos - Posibilidad de escoger entre múltiples opciones de visualización de los dendrogramas - Posibilidad de guardar las imágenes generadas en diferentes formatos gráficos - Posibilidad de ver/guardar los detalles del dendrograma cargado La nueva versión desarrollada incorpora, además, las siguientes nuevas funcionalidades y mejoras: - Nuevo diseño de la interfaz gráfica de usuario más intuitiva y cómoda - Nueva representación por defecto de los dendrogramas con carga automática de valores - Nueva capacidad para exportar las imágenes de los dendrogramas a formato PostScript, para poder utilizar el programa en la preparación de artículos de investigación - Nueva posibilidad de optar entre mostrar o no franjas en caso de empates en distancias entre nodos - Nueva disposición de ventanas internas más intuitivo - Mejora en la carga de ficheros - Multitud de mejoras y correcciones menores Abstract: In this Final-year Project a hierarchical classification (dendrogram) building tool is improved, by correcting some found errors as well as by adding new functionalities, in order to obtain a simple yet powerful and reliable multidendrograms generation and analysis tool; an application with enough quality as to be published on the Internet and to be used in both research and professional projects. The preceding application version offered the following functionalities: - Text files with distances matrixes or distances lists loading - Loaded data calculation and multidendrogram-like representation, a sort of dendrogram that solves the problem that appears when distances ties between nodes are produced, known as “non-unicity” problem - Possibility to choose among several agglomerative hierarchical clustering algorithms - Possibility to choose among multiple dendrogram visualization options - Possibility to save the generated images to different graphical formats - Possibility to see/save the loaded dendrogram details The new developed version adds the following new functionalities and improvements: - New design of the graphical user interface more intuitive comfortable - New default dendrogram representation with automatic value loading - New PostScript format dendrogram exporting capability, in order to be able to use the program in the preparation of research articles - New possibility to choose whether show or not bands in case of distances ties - File loading improvement - Many other minor improvements and corrections