Calidad en Aprendizaje No Supervisado Gráficas estadı́stica y minerı́a de datos con python Miguel Cárdenas Montes Centro de Investigaciones Energéticas Medioambientales y Tecnológicas, Madrid, Spain miguel.cardenas@ciemat.es 2-6 de Noviembre de 2015 M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 1 / 19 Tabla de Contenidos 1 Objetivos 2 Introducción 3 Indices de Calidad M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 2 / 19 Objetivos Conocer las medidas más populares para medir la calidad de los algoritmos de aprendizaje no supervisado. Aspectos Técnicos Indices de Dunn, Davies-Bouldin, silueta, Indice Xie-Beni. M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 3 / 19 Introducción M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 4 / 19 Introducción I Las técnicas de clustering permiten agrupar datos en función de su similaridad. Paralelamente, existen ı́ndices que evalúan la calidad de las agrupaciones producidas por los algoritmos de clustering (cómo de separables son las agrupaciones producidas). M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 5 / 19 Indices de Calidad M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 6 / 19 Indices de Calidad Indice de Dunn Indice de Davies-Bouldin Indice silueta Indice Xie-Beni M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 7 / 19 Indice de Dunn I El objetivo de este ı́ndice es identificar un conjunto de clústeres que sean compactos, con una varianza pequeña entre los miembros del clúster, y que éstos estén bien separados de los miembros de otros clústeres. Un valor más alto del ı́ndice de Dunn indica un mejor rendimiento del algoritmo de clustering. El ı́ndice de Dunn tiene un valor entre cero y infinito. Por lo tanto, la distancia entre los miembros de un clúster debe ser los más baja posible, y la distancia entre los clústeres lo más alta posible. M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 8 / 19 Indice de Dunn II D = min 1≤i≤n min 1≤j≤n,i6=j d(i, j) max1≤k≤n d ′ (k) ′ donde d(i, j) representa la distancia entre los clústeres i y j, y d (k) mide la distancia dentro del cluster k. M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 9 / 19 Indice de Davies-Bouldin I El ı́ndice de Davies-Bouldin tiene una finalidad y construcción similar al de Dunn. n σi + σj 1X max DB = i6=j n d(ci , cj ) i=1 donde n es el número de clústeres, cx denota el centroide del clúster x, σx es la distancia media de todos los elementos del clúster x al centroide cx , y d(ci , cj ) es la distancia entre los centroides ci y cj . M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 10 / 19 Indice de Silueta I Algo más elaborado que los anteriores: Dunn y Davies-Bouldin. El ı́ndice silueta es indicador del número ideal de clústeres. Un valor más alto de este ı́ndice indica un caso más deseable del número de clústeres. El coeficiente de Silueta para un conjunto está dato como la media del coeficiente de Silueta de cada objeto de la muestra, s(i). Se puede utilizar el ı́ndice tanto para un grupo de puntos (cluster) o para cada punto. M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 11 / 19 Indice de Silueta II El coeficiente de Silueta para un objeto es: s(i) = b−a max(a, b) donde: a es la distancia media entre el objeto y todos los otros objetos de la misma clase, y b es la distancia media entre el objeto y todos los otros objetos del clúster más próximo. M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 12 / 19 Indice de Silueta III El valor de s(i) puede ser obtenido combinando los valores de a(i) y b(i) como se muestra a continuación: a(i) 1 − b(i) , if a(i) < b(i) s(i) = 0, if a(i) = b(i) b(i) − 1, if a(i) > b(i) a(i) M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 13 / 19 Indice de Silueta IV 0.71-1.0, las estructuras encontradas son sólidas. 0.51-0.70, las estructuras encontradas con razonables. 0.26-0.50, las estructuras encontradas con débiles y tienen a ser artificiales. Se deberı́an intentar métodos alternativos para el análisis de los datos. < 0.25, no se encuentran estructuras. M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 14 / 19 Indice de Silueta V Un valor de s(i) cercano a cero indica que el objeto i está en la frontera de dos clusteres. Por el contrario si el valor de s(i) es negativo, entonces dicho objeto deberı́a ser asignado al cluster más cercano. M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 15 / 19 Indice de Silueta VI Raw points with errorbars 4.0 3.5 0 3.0 Cluster 2.5 2.0 1.5 1 1.0 0.5 0.0 0.0 0.5 1.5 1.0 2.0 2.5 3.0 3.5 4.0 0.0 0 0.2 0.4 0.6 Silhouette Value 0.8 1.0 0 1 Cluster Cluster 1 2 2 3 0.0 0.2 0.4 0.6 Silhouette Value M. Cárdenas (CIEMAT) 0.8 1.0 −0.2 Calidad 0.0 0.2 0.4 Silhouette Value 0.6 0.8 1.0 2-6 de Noviembre de 2015 16 / 19 Indice de Xie-Beni I El ı́ndice XB se define como el cociente entre la varianza total, σ, y la mı́nima separación de los clusteres, s. σ= n K X X D 2 (zk , xi ) k=1 i=1 donde xi identifica un punto u objeto, y xk del centro del cluster al cual está asociado. D(zk , xi ) es la distancia entre el centroide del cluster k y el punto xi . s = min{D 2 (zk , zl )} k6=l donde D(zk , zl ) es la distancia entre los centroides del cluster k y el cluster l. M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 17 / 19 Indice de Xie-Beni II PK Pn u 2 D 2 (zk , xi ) σ XB = = k=1 i=1 ki 2 n×s n × (mink6=l {D (zk , zl )}) donde n es el número de clusteres creados. Obsérvese que cuando el algoritmo ha producido un agrupamiento compacto, el valor de la varianza σ debe ser bajo, mientras que el valor de s debe ser alto. Por lo tanto, el valor del ı́ndice XB debe ser bajo. De esta forma, el objetivo es minimizar el ı́ndice Xie-Beni. M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 18 / 19 Gracias Gracias ¿Preguntas? ¿Más preguntas? M. Cárdenas (CIEMAT) Calidad 2-6 de Noviembre de 2015 19 / 19