ANALISIS INTELIGENTE DE DATOS TRABAJO FINAL IMPLEMENTACION MÉTODO CLUSTER EN WEKA: P-MEDIAN Profesores: Dra. Ana Haedo Daniel Vázquez V. Alumno: Jorge Beyoglonian Diciembre 2008 AID - Trabajo Final Implementación P-Median Índice RESUMEN ........................................................................................................................................................................ 3 INTRODUCCIÓN ............................................................................................................................................................. 3 IMPLEMENTACIÓN ........................................................................................................................................................ 5 INTEGRACIÓN CON WEKA ......................................................................................................................................... 5 UN CASO DE EJEMPLO ............................................................................................................................................... 5 ANÁLISIS DE RESULTADOS ...................................................................................................................................... 5 IDEAS PARA FUTURAS INVESTIGACIONES .......................................................................................................... 5 CONCLUSIONES ............................................................................................................................................................ 5 DISPONIBILIDAD PÚBLICA Y DETALLES DE INSTALACIÓN ............................................................................ 5 BIBLIOGRAFÍA Y REFERENCIAS .............................................................................................................................. 5 Diciembre 2008 Página 2 de 6 AID - Trabajo Final Implementación P-Median Resumen El presente trabajo consiste en la presentación del método de agrupamiento P-Median, su comparación con el algoritmo K-Means, y el desarrollo de una implementación a través de la cual se pueda realizar comparaciones de los resultados, y analizar las métricas del consumo de recursos empleado por cada método de agrupamiento. La implementación del algoritmo será realizada como un módulo adicional del sistema Weka, incorporando a este informe todos los detalles de su implementación y los pasos a seguir para poder emplear de forma libre el módulo desarrollado. Introducción El análisis cluster, también conocido como análisis de conglomerados, es una técnica estadística multivariante cuya finalidad es formar grupos a partir de un conjunto de elementos de tal forma que estos grupos estén formados por elementos los más parecidos que sea posible (homogéneos) y a su vez lo más diferentes (heterogéneos) que sea posible entre los grupos. Los elementos en cada grupo (conglomerado) tienden a ser similares entre sí (alta homogeneidad interna, dentro del cluster) y diferentes a los objetos de los otros grupos (alta heterogeneidad externa, entre clusters) con respecto a algún criterio de selección predeterminado. El análisis de cluster se utiliza en marketing para diversos propósitos, entre los que podemos destacar: segmentación del mercado, comprensión del comportamiento del comprador, identificación de oportunidades para productos nuevos, selección de mercados de prueba, reducción de datos, etc. El objetivo del análisis de cluster es la de agrupar a los individuos por su grado de homogeneidad. Existen distintas clasificaciones de este tipo de modelos, siendo la más usada los modelos jerárquicos frente a los no jerárquicos. El análisis cluster jerárquico es una herramienta exploratoria diseñada para revelar las agrupaciones naturales (o los conglomerados o clusters) dentro de un conjunto de datos que no sería de otra manera evidente. Es el más útil cuando se desea agrupar un número pequeño (menos que algunos cientos) de objetos. Este método comienza separando cada objeto en un cluster por sí mismo. En cada etapa del análisis, el criterio por el que los objetos son separados se relaja en orden a enlazar los dos conglomerados más similares hasta que todos los objetos sean agrupados en un árbol de clasificación completo. El criterio básico para cualquier agrupación es la distancia. Los objetos que estén cerca uno del otro pertenecerían al mismo conglomerado o cluster, y los objetos que estén lejos uno del otro pertenecerán a distintos clusters. Los resultados de agrupamientos jerárquicos se muestran en un diagrama conocido como dendrograma, en el que se pueden observar las uniones y/o divisiones que se van realizando. Las ramas del árbol representan los conglomerados. Las ramas se unen en un nodo cuya ubicación sobre el eje de distancias indica el nivel en el cual ocurre la fusión. El nodo en el que todas los objetos forman un solo conglomerado se llama nodo raíz. Diciembre 2008 Página 3 de 6 AID - Trabajo Final Implementación P-Median Figure 1. Ejemplo de un dendograma El análisis de cluster no jerárquico es especialmente indicado para grandes tablas de datos. El objetivo de este análisis es realizar una sola partición de los elementos en K grupos. El número de grupos puede ser especificado de antemano o ser determinado en el procedimiento. Estos métodos pueden comenzar con un agrupamiento inicial o con un grupo de puntos semilla (centroides) que formarán los centros de los grupos. El método de tipo no jerárquico mas comúnmente usado es el algoritmo K-means. Este separa un grupo de objetos en una cantidad elegida de grupos haciendo máxima la variación entre conglomerados y minimizando la variación dentro de cada conglomerado. Asigna cada objeto al grupo que tiene el centroide (media) más cercano. La distancia comúnmente usada es la Euclídea, tanto en observaciones estandarizadas como en las no estandarizadas. La partición lograda es aquella tal que la suma de la suma de las distancias al cuadrado de los miembros del grupo respecto a su centroide es mínima. Dado que este algoritmo, en cada iteración de su proceso, utiliza la media de su población para recalcular el potencial nuevo centroide, la existencia de elementos alejados (que puedan ser outliers o no) logran producir una distorsión tal que lleva a que el algoritmo retorne soluciones erróneas, tanto en la composición de los grupos conformados como en la elección de los centroides de cada uno de ellos. Un algoritmo de tipo no jerárquico inmune a este problema descripto en el párrafo anterior es el conocido bajo el nombre P-Median. Diciembre 2008 Página 4 de 6 AID - Trabajo Final Implementación P-Median Este algoritmo se diferencia del K-means en la postulación de nuevos centroides que hace en cada iteración, ya que en lugar de utilizar la media considera la mediana de la población del grupo. De esta manera la existencia de valores lejanos y/o utliers no afectan la ubicación de los nuevos centroides ni la conformación de nuevos grupos que minimicen la variación interna al conglomerado y maximice la variación intra los diferentes grupos. Implementación El objetivo de este trabajo es presentar el algoritmo P-Median, realizar comprobaciones en cuanto a su desempeño, y proveer una implementación que pueda ser utilizada de la manera más simple posible por quién la requiera. La idea fue integrar este método en algunos de los paquetes de software que se emplean comúnmente para hacer análisis exploratorio y de tipo multivariado, por tal razón la implementación del algoritmo fue realizada en lenguaje Java, previendo cumplir todos los requisitos para poder ser integrado al software Weka. Integración con Weka La implementación Registración a weka Punto de entrada al algoritmo Aspectos puntuales No aceptar missing values Opción de standarizar valores P-Median paso a paso Un caso de Ejemplo Análisis de resultados Ideas para futuras investigaciones Conclusiones Disponibilidad pública y detalles de Instalación http://www.assembla.com/wiki/show/pmedian Libre acceso al código fuente: http://trac.assembla.com/pmedian/browser A través de un cliente subversión, mediante el URL: http://svn.assembla.com/svn/pmedian Bibliografía y referencias Weka Diciembre 2008 Página 5 de 6 AID - Trabajo Final Implementación P-Median http://www.cs.waikato.ac.nz/~ml/weka/index.html Software estadístico Infostat, Manuel del usuario versión 2008 http://www.infostat.com.ar Diciembre 2008 Página 6 de 6