Calidad en Aprendizaje No Supervisado

Anuncio
Calidad en Aprendizaje No Supervisado
Gráficas estadı́stica y minerı́a de datos con python
Miguel Cárdenas Montes
Centro de Investigaciones Energéticas Medioambientales y Tecnológicas,
Madrid, Spain
miguel.cardenas@ciemat.es
2-6 de Noviembre de 2015
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
1 / 19
Tabla de Contenidos
1
Objetivos
2
Introducción
3
Indices de Calidad
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
2 / 19
Objetivos
Conocer las medidas más populares para medir la calidad de los
algoritmos de aprendizaje no supervisado.
Aspectos Técnicos
Indices de Dunn, Davies-Bouldin, silueta, Indice Xie-Beni.
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
3 / 19
Introducción
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
4 / 19
Introducción I
Las técnicas de clustering permiten agrupar datos en función de su
similaridad.
Paralelamente, existen ı́ndices que evalúan la calidad de las
agrupaciones producidas por los algoritmos de clustering (cómo de
separables son las agrupaciones producidas).
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
5 / 19
Indices de Calidad
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
6 / 19
Indices de Calidad
Indice de Dunn
Indice de Davies-Bouldin
Indice silueta
Indice Xie-Beni
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
7 / 19
Indice de Dunn I
El objetivo de este ı́ndice es identificar un conjunto de clústeres que
sean compactos, con una varianza pequeña entre los miembros del
clúster, y que éstos estén bien separados de los miembros de otros
clústeres.
Un valor más alto del ı́ndice de Dunn indica un mejor rendimiento del
algoritmo de clustering. El ı́ndice de Dunn tiene un valor entre cero y
infinito.
Por lo tanto, la distancia entre los miembros de un clúster debe ser los
más baja posible, y la distancia entre los clústeres lo más alta posible.
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
8 / 19
Indice de Dunn II
D = min
1≤i≤n
min
1≤j≤n,i6=j
d(i, j)
max1≤k≤n d ′ (k)
′
donde d(i, j) representa la distancia entre los clústeres i y j, y d (k) mide
la distancia dentro del cluster k.
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
9 / 19
Indice de Davies-Bouldin I
El ı́ndice de Davies-Bouldin tiene una finalidad y construcción similar
al de Dunn.
n
σi + σj
1X
max
DB =
i6=j
n
d(ci , cj )
i=1
donde n es el número de clústeres, cx denota el centroide del clúster x, σx
es la distancia media de todos los elementos del clúster x al centroide cx , y
d(ci , cj ) es la distancia entre los centroides ci y cj .
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
10 / 19
Indice de Silueta I
Algo más elaborado que los anteriores: Dunn y Davies-Bouldin.
El ı́ndice silueta es indicador del número ideal de clústeres.
Un valor más alto de este ı́ndice indica un caso más deseable del
número de clústeres.
El coeficiente de Silueta para un conjunto está dato como la media
del coeficiente de Silueta de cada objeto de la muestra, s(i). Se
puede utilizar el ı́ndice tanto para un grupo de puntos (cluster) o para
cada punto.
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
11 / 19
Indice de Silueta II
El coeficiente de Silueta para un objeto es:
s(i) =
b−a
max(a, b)
donde:
a es la distancia media entre el objeto y todos los otros objetos de la
misma clase, y
b es la distancia media entre el objeto y todos los otros objetos del
clúster más próximo.
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
12 / 19
Indice de Silueta III
El valor de s(i) puede ser obtenido combinando los valores de a(i) y
b(i) como se muestra a continuación:

a(i)


1 − b(i) , if a(i) < b(i)
s(i) = 0,
if a(i) = b(i)


 b(i) − 1, if a(i) > b(i)
a(i)
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
13 / 19
Indice de Silueta IV
0.71-1.0, las estructuras encontradas son sólidas.
0.51-0.70, las estructuras encontradas con razonables.
0.26-0.50, las estructuras encontradas con débiles y tienen a ser
artificiales. Se deberı́an intentar métodos alternativos para el análisis
de los datos.
< 0.25, no se encuentran estructuras.
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
14 / 19
Indice de Silueta V
Un valor de s(i) cercano a cero indica que el objeto i está en la
frontera de dos clusteres.
Por el contrario si el valor de s(i) es negativo, entonces dicho objeto
deberı́a ser asignado al cluster más cercano.
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
15 / 19
Indice de Silueta VI
Raw points with errorbars
4.0
3.5
0
3.0
Cluster
2.5
2.0
1.5
1
1.0
0.5
0.0
0.0
0.5
1.5
1.0
2.0
2.5
3.0
3.5
4.0
0.0
0
0.2
0.4
0.6
Silhouette Value
0.8
1.0
0
1
Cluster
Cluster
1
2
2
3
0.0
0.2
0.4
0.6
Silhouette Value
M. Cárdenas (CIEMAT)
0.8
1.0
−0.2
Calidad
0.0
0.2
0.4
Silhouette Value
0.6
0.8
1.0
2-6 de Noviembre de 2015
16 / 19
Indice de Xie-Beni I
El ı́ndice XB se define como el cociente entre la varianza total, σ, y la
mı́nima separación de los clusteres, s.
σ=
n
K X
X
D 2 (zk , xi )
k=1 i=1
donde xi identifica un punto u objeto, y xk del centro del cluster al cual
está asociado. D(zk , xi ) es la distancia entre el centroide del cluster k y el
punto xi .
s = min{D 2 (zk , zl )}
k6=l
donde D(zk , zl ) es la distancia entre los centroides del cluster k y el
cluster l.
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
17 / 19
Indice de Xie-Beni II
PK Pn
u 2 D 2 (zk , xi )
σ
XB =
= k=1 i=1 ki 2
n×s
n × (mink6=l {D (zk , zl )})
donde n es el número de clusteres creados.
Obsérvese que cuando el algoritmo ha producido un agrupamiento
compacto, el valor de la varianza σ debe ser bajo, mientras que el
valor de s debe ser alto. Por lo tanto, el valor del ı́ndice XB debe ser
bajo. De esta forma, el objetivo es minimizar el ı́ndice Xie-Beni.
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
18 / 19
Gracias
Gracias
¿Preguntas?
¿Más preguntas?
M. Cárdenas (CIEMAT)
Calidad
2-6 de Noviembre de 2015
19 / 19
Descargar