Implementación

Anuncio
ANALISIS INTELIGENTE
DE DATOS
TRABAJO FINAL
IMPLEMENTACION MÉTODO
CLUSTER EN WEKA: P-MEDIAN
Profesores:
Dra. Ana Haedo
Daniel Vázquez V.
Alumno:
Jorge Beyoglonian
Diciembre 2008
AID - Trabajo Final
Implementación P-Median
Índice
RESUMEN ........................................................................................................................................................................ 3
INTRODUCCIÓN ............................................................................................................................................................. 3
IMPLEMENTACIÓN ........................................................................................................................................................ 5
INTEGRACIÓN CON WEKA ......................................................................................................................................... 5
UN CASO DE EJEMPLO ............................................................................................................................................... 5
ANÁLISIS DE RESULTADOS ...................................................................................................................................... 5
IDEAS PARA FUTURAS INVESTIGACIONES .......................................................................................................... 5
CONCLUSIONES ............................................................................................................................................................ 5
DISPONIBILIDAD PÚBLICA Y DETALLES DE INSTALACIÓN ............................................................................ 5
BIBLIOGRAFÍA Y REFERENCIAS .............................................................................................................................. 5
Diciembre 2008
Página 2 de 6
AID - Trabajo Final
Implementación P-Median
Resumen
El presente trabajo consiste en la presentación del método de agrupamiento P-Median, su comparación
con el algoritmo K-Means, y el desarrollo de una implementación a través de la cual se pueda realizar
comparaciones de los resultados, y analizar las métricas del consumo de recursos empleado por cada
método de agrupamiento.
La implementación del algoritmo será realizada como un módulo adicional del sistema Weka, incorporando
a este informe todos los detalles de su implementación y los pasos a seguir para poder emplear de forma
libre el módulo desarrollado.
Introducción
El análisis cluster, también conocido como análisis de conglomerados, es una técnica estadística
multivariante cuya finalidad es formar grupos a partir de un conjunto de elementos de tal forma que estos
grupos estén formados por elementos los más parecidos que sea posible (homogéneos) y a su vez lo más
diferentes (heterogéneos) que sea posible entre los grupos. Los elementos en cada grupo (conglomerado)
tienden a ser similares entre sí (alta homogeneidad interna, dentro del cluster) y diferentes a los objetos de
los otros grupos (alta heterogeneidad externa, entre clusters) con respecto a algún criterio de selección
predeterminado.
El análisis de cluster se utiliza en marketing para diversos propósitos, entre los que podemos destacar:
segmentación del mercado, comprensión del comportamiento del comprador, identificación de
oportunidades para productos nuevos, selección de mercados de prueba, reducción de datos, etc.
El objetivo del análisis de cluster es la de agrupar a los individuos por su grado de homogeneidad. Existen
distintas clasificaciones de este tipo de modelos, siendo la más usada los modelos jerárquicos frente a los
no jerárquicos.
El análisis cluster jerárquico es una herramienta exploratoria diseñada para revelar las agrupaciones
naturales (o los conglomerados o clusters) dentro de un conjunto de datos que no sería de otra manera
evidente. Es el más útil cuando se desea agrupar un número pequeño (menos que algunos cientos) de
objetos. Este método comienza separando cada objeto en un cluster por sí mismo. En cada etapa del
análisis, el criterio por el que los objetos son separados se relaja en orden a enlazar los dos conglomerados
más similares hasta que todos los objetos sean agrupados en un árbol de clasificación completo.
El criterio básico para cualquier agrupación es la distancia. Los objetos que estén cerca uno del otro
pertenecerían al mismo conglomerado o cluster, y los objetos que estén lejos uno del otro pertenecerán a
distintos clusters.
Los resultados de agrupamientos jerárquicos se muestran en un diagrama conocido como dendrograma, en
el que se pueden observar las uniones y/o divisiones que se van realizando. Las ramas del árbol
representan los conglomerados. Las ramas se unen en un nodo cuya ubicación sobre el eje de distancias
indica el nivel en el cual ocurre la fusión. El nodo en el que todas los objetos forman un solo conglomerado
se llama nodo raíz.
Diciembre 2008
Página 3 de 6
AID - Trabajo Final
Implementación P-Median
Figure 1. Ejemplo de un dendograma
El análisis de cluster no jerárquico es especialmente indicado para grandes tablas de datos. El objetivo de
este análisis es realizar una sola partición de los elementos en K grupos.
El número de grupos puede ser especificado de antemano o ser determinado en el procedimiento. Estos
métodos pueden comenzar con un agrupamiento inicial o con un grupo de puntos semilla (centroides) que
formarán los centros de los grupos.
El método de tipo no jerárquico mas comúnmente usado es el algoritmo K-means. Este separa un grupo de
objetos en una cantidad elegida de grupos haciendo máxima la variación entre conglomerados y
minimizando la variación dentro de cada conglomerado. Asigna cada objeto al grupo que tiene el centroide
(media) más cercano. La distancia comúnmente usada es la Euclídea, tanto en observaciones
estandarizadas como en las no estandarizadas. La partición lograda es aquella tal que la suma de la suma de
las distancias al cuadrado de los miembros del grupo respecto a su centroide es mínima.
Dado que este algoritmo, en cada iteración de su proceso, utiliza la media de su población para recalcular el
potencial nuevo centroide, la existencia de elementos alejados (que puedan ser outliers o no) logran
producir una distorsión tal que lleva a que el algoritmo retorne soluciones erróneas, tanto en la
composición de los grupos conformados como en la elección de los centroides de cada uno de ellos.
Un algoritmo de tipo no jerárquico inmune a este problema descripto en el párrafo anterior es el conocido
bajo el nombre P-Median.
Diciembre 2008
Página 4 de 6
AID - Trabajo Final
Implementación P-Median
Este algoritmo se diferencia del K-means en la postulación de nuevos centroides que hace en cada
iteración, ya que en lugar de utilizar la media considera la mediana de la población del grupo. De esta
manera la existencia de valores lejanos y/o utliers no afectan la ubicación de los nuevos centroides ni la
conformación de nuevos grupos que minimicen la variación interna al conglomerado y maximice la
variación intra los diferentes grupos.
Implementación
El objetivo de este trabajo es presentar el algoritmo P-Median, realizar comprobaciones en cuanto a su
desempeño, y proveer una implementación que pueda ser utilizada de la manera más simple posible por
quién la requiera.
La idea fue integrar este método en algunos de los paquetes de software que se emplean comúnmente
para hacer análisis exploratorio y de tipo multivariado, por tal razón la implementación del algoritmo fue
realizada en lenguaje Java, previendo cumplir todos los requisitos para poder ser integrado al software
Weka.
Integración con Weka
La implementación
Registración a weka
Punto de entrada al algoritmo
Aspectos puntuales
No aceptar missing values
Opción de standarizar valores
P-Median paso a paso
Un caso de Ejemplo
Análisis de resultados
Ideas para futuras investigaciones
Conclusiones
Disponibilidad pública y detalles de Instalación
http://www.assembla.com/wiki/show/pmedian
Libre acceso al código fuente:
http://trac.assembla.com/pmedian/browser
A través de un cliente subversión, mediante el URL:
http://svn.assembla.com/svn/pmedian
Bibliografía y referencias
Weka
Diciembre 2008
Página 5 de 6
AID - Trabajo Final
Implementación P-Median
http://www.cs.waikato.ac.nz/~ml/weka/index.html
Software estadístico Infostat, Manuel del usuario versión 2008
http://www.infostat.com.ar
Diciembre 2008
Página 6 de 6
Descargar