Cluster / C3 Indices de Agregación. 9 1 Índice de Agregación de salto mínimo (Single linkage): Dadas A y B, dos clases disjuntas de E y una disimilaridad d entre elementos de E, se denomina Índice de Agregación de salto mínimo para las clases A y B al valor (A,B) dado por: (A,B) = inf {d(x,y) : xA, yB } (A,B) x A x x x x x B (A,B) es la menor disimilaridad entre un punto de A y otro de B. Dos clases serán próximas si algún punto de una clase está próximo a alguno de la otra clase. Veamos dos efectos no deseados que pueden aparecer en una clasificación ascendente jerárquica construida con el criterio del salto mínimo: Cadena y Bola de nieve. - i) Efecto no deseado “Bola de nieve”: Cuanto más grande es una clase A, mejor llega a todas las zonas del espacio E y más fácil es que (A,B) resulte pequeña. x x x x x x x x x A x x x x x x x x x x x Como consecuencia de ello, las clases grandes son muy voraces y es fácil que se produzcan fuertes diferencias de tamaño entre unas clases y otras, tanto en sentido de dispersión como de nº de elementos. Cluster / C3 Indices de Agregación. 10 - ii) Efecto no deseado “Cadena”: La clase A puede ir incorporando puntos a base de muchos saltos pequeños encadenados y puedo finalmente alcanzar zonas de E muy alejadas en lugar de incorporar puntos más naturalmente próximos. x x x x x x x x x x x x x x x x xx x x x x x x x x x x x x x x x x x x x x x x x A B C D Pueden aparecer particiones con clases poco razonables (como A y B en la figura) en lugar de aparecer otras más naturales (como C y D) 2 Criterio del diámetro (Complete linkage): Dadas A y B dos clases disjuntas de E y una disimilaridad d en E, se denomina Índice de agregación del diámetro de las clases A y B al valor (A,B) dado por: (A,B) = sup {d(x,y) : xA, yB } (A,B) x A x x x x x x B (A,B) es la mayor disimilaridad entre un punto de A y otro de B. Para que dos clases estén próximas en preciso que todos los puntos de una clase estén próximos a todos los de la otra. Cluster / C3 Indices de Agregación. 11 Efectos no deseados que pueden aparecer en una clasificación ascendente jerárquica con el criterio del diámetro: - i) Produce el efecto contrario al criterio del salto mínimo: Resulta muy difícil que aparezcan clases dispersas. - ii) No distingue “concentraciones de elementos dispersos” en zonas de baja densidad. En este ejemplo, la clase B tiene diámetro ligeramente mayor que A. El criterio del diámetro separa B en dos clases unipuntuales antes que dividir A (no identifica la “concentración dispersa” B) 3 Criterio del promedio (Average linkage): Dadas A y B dos clases disjuntas de E con nA y nB elementos y una disimilaridad d en E, se denomina Índice de agregación del promedio para las clases A y B al valor (A,B) dado por: (A,B) = 1 d(x,y) n A n B xA yB (A,B) es el promedio de las nAnB disimilaridades entre un punto de A y otro de B Es una posición intermedia entre el salto mínimo y el diámetro. En la práctica se observa una tendencia parecida a la del diámetro, aunque amortiguada. Cluster / C3 Indices de Agregación. 12 4 Método del centroide (centro de gravedad): Dadas A y B dos clases disjuntas de E y una disimilaridad d en E, se denomina Índice de agregación del centroide para las clases A y B al valor (A,B) dado por: (A,B) = d(gA, gB), donde 1 x es el c. de g. de la clase A; n A xA x formado por valores que se puedan promediar. nA es el número de elementos en la clase A. gA= El centroide de la nueva clase (A+B) se computa muy fácilmente a partir de los centroides anteriores (gA y gB ) y de los tamaños de las clases (nA y nB) : gA+B = n g +n g nA nB 1 x A A B B gA gB n A +n B xAB n A +n B n A +n B n A +n B Es una combinación lineal convexa de gA y gB con pesos proporcionales al tamaño de las clases. Las clases pequeñas que son absorbidas pierden su identidad. 5 Método de la mediana : Es una variante del método del centroide. Aquí el nuevo centroide se computa como el simple promedio entre gA y gB sin tener en cuenta los tamaños de las clases: g A +g B 2 De esta forma se evita que una pequeña clase, B, pierda su identidad y su influencia al juntarse con una clase A de contingente mucho mayor. gA+B =