Tema 6: Evaluación de Modelos de Clasificación Supervisada

Anuncio
Tema 6: Evaluación de Modelos de
Clasificación Supervisada
Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga
Departamento de Ciencias de la Computación e Inteligencia Artificial
Universidad del Paı́s Vasco
http://www.sc.ehu.es/isg/
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 1/18
Evaluación de Modelos de Clasificación Supervisada
•
Introducción
•
Estimación basada en precisión
•
Estimación basada en coste
•
Análisis ROC (Receiver Operating
Characteristic)
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 2/18
Introducción
Clasificación Supervisada
X1
(1)
x1
(2)
x1
(x(1) , c(1) )
(x(2) , c(2) )
...
(N )
(N ) (N )
(x , c ) x1
(N +1)
(N +1)
x
x1
...
...
...
...
...
...
Xn
(1)
xn
(2)
xn
(N )
xn
(N +1)
xn
C
c(1)
c(2)
...
c(N )
???
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 3/18
Introducción
Clasificación Supervisada
X1
(x(1) , c(1) )
(2)
(2)
(x , c )
(1)
x1
(2)
x1
...
Xn
C
CM
...
xn
(1)
c(1)
cM
(2)
xn
(2)
(2)
cM
...
...
...
c(N )
cM
...
...
(x(N ) , c(N ) )
(N )
x1
...
Número de aciertos:
(N )
xn
c
(1)
(N )
(i)
PN
(i)
δ(c
, cM )
i=1

 1 si c(i) = c(i)
(i)
M
δ(c(i) , cM ) =
 0 si c(i) 6= c(i)
M
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 4/18
Introducción
C Clase real
+
+
TP
FP
-
FN
TN
CM Clase predicha
• Tasa de acierto:
• Tasa de error:
T P +T N
T P +F P +F N +T N
F N +F P
T P +F P +F N +T N
• Sensibilidad: T P R =
TP
T P +F N
• Especifidad: T N R =
TN
F P +T N
• Proporción de falsos positivos: F P R =
FP
F P +T N
• Proporción de falsos negativos: F N R =
FN
T P +F N
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 5/18
Estimación basada en precisión
p̂M
N
1 X (i)
(i)
δ(c = cM )
=
N i=1
Método no honesto de estimación
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 6/18
Estimación basada en precisión
p̂M
NX
−N1
1
(N +i)
δ(c(N1 +i) = cM 1 )
=
N − N1 i=1
Método H de estimación basado en entrenamiento y testeo
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 7/18
Estimación basada en precisión
p̂M
B
1 X
p̂i
=
B i=1
Método de estimación H repetidas veces
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 8/18
Estimación basada en precisión
k
p̂M
1X
=
p̂i
k i=1
Método de estimación basado en k rodajas (k–fold cross validation). Si
k = N leave one out
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 9/18
Estimación basada en precisión
p̂test
B
1 X
=
p̂i
B i=1
p̂M = p̂0,632Bo = (0,368p̂entrenamiento + 0,632p̂test )
Método de estimación 0,632 booststraping
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 10/18
Estimación basada en precisión
Sobre los distintos métodos:
• Método H: utilizarlo con N grande
• Método H repetidas veces: no hay control sobre los
casos usados como entrenamiento (testeo)
• Método de estimación basado en k rodajas (k–fold
cross validation): estimación insesgada de la
probabilidad de acierto, pero con alta varianza
• Método de estimación 0,632 booststraping: insesgada
en el límite y con baja varianza
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 11/18
Estimación basada en coste
Evaluación sensible al coste
•
En muchas situaciones los dos tipos de error que puede cometer un clasificador
no tienen las mismas consecuencias
•
•
Dejar cerrada una válvula en una central nuclear, cuando es necesario
abrirla, puede provocar una explosión, mientras que abrir una válvula cuando
puede mantenerse cerrada, puede provocar una parada de la central
Matriz de costes
C Clase real
abrir
cerrar
ABRIR
0
100 e
CERRAR
2000 e
0
CM Clase predicha
•
Lo importante no es obtener un clasificador que falle lo menos posible, sino uno
que tenga coste menor
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 12/18
Estimación basada en coste
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 13/18
Análisis ROC
• En muchas situaciones es difícil estimar la matriz de
costes
• Aprender un conjunto de clasificadores y seleccionar
el que mejor se comporte para unas cicunstancias o
contextos de coste determinados a posteriori.
• El análisis ROC provee herramientas que permiten
seleccionar el subconjunto de clasificadores que
tienen un comportamiento óptimo en general.
• El análisis ROC se utiliza normalmente para
problemas de dos clases.
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 14/18
Análisis ROC
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 15/18
La curva ROC
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 16/18
Análisis ROC
• Convex hull (casco convexo) a partir de la poligonal
uniendo varios puntos (FPR, TPR)
• Dichos puntos pueden provenir de varios
clasificadores o de un mismo clasificador (variando el
umbral)
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 17/18
Análisis ROC
Seleccionando el mejor clasificador
• Si cada punto de la curva ROC representa un clasificador:
P cost N eg
escoger el que tenga mayor valor de: FF N
cost · P os
• Si cada punto de la curva ROC corresponde a un umbral con el
que se toma la decisión: seleccionar el clasificador con mayor
área bajo la curva (AUC)
Tema 6: Evaluación de Modelos de Clasificación Supervisada– p. 18/18
Descargar