Estadísticas de error en biometría

Anuncio
Estadísticas de error en biometría
Error rate equations for the general biometric system, J.L.
Wayman, IEEE Robotics & Automation Magazine, (march 1999) 6
(1) pp. 35-48
error sistemas biometricos
1
Introducción
•
•
•
•
Identificación biométrica: verificar que el usuario es quien dice ser o
no es quien dice no ser.
Verificación: emparejamiento uno-a-uno, la base de datos es de un
único individuo.
Identificación: emparejamiento uno-a-muchos, la base de datos es de
muchos individuos.
Test de sistemas miden:
– Falsa aceptación (falsa alarma, falso positivo)
– Falso rechazo (falso negativo)
– Listas de candidatos.
•
El objetivo del trabajo de Wayman es desacoplar la evaluación del
rendimiento del sistema del tamao de la búsqueda, la política de
decisión y el diseño del test.
error sistemas biometricos
2
•
•
•
En general los sistemas biométricos permiten registrar varias medidas
o varias presentaciones del mismo usuario y durante la operación
permiten presentar varias muestras para el emparejamiento.
El sistema puede realizar múltiples comparaciones para verificar la
identidad
Los sistemas son comparaciones M-a-N
– M es el número de muestras que se puden utilizar en la operación, de la
misma o diferentes características biométricas. Es el “conjunto muestra”.
– N es el tamaño de la base de datos.
•
Existen U usuarios registrados con T patrones o modelos almacenados
para cada uno.
– Los modelos de cada usuario se consideran independientes en el sentido
estadístico
– Si es el mismo numero de patrones para cada usuario tenemos
N=T * U.
error sistemas biometricos
3
error sistemas biometricos
4
Medidas basicas
• Coeficiente de penetración
• El error de pre-clasificación “bin-error”
• Tasa de falsos positivos en comparación
simple.
• Tasa de falso negativos en comparación
simple.
• Tasa de comparaciones del sistema
(comparaciones por unidad de tiempo)
error sistemas biometricos
5
Particiones de los datos
• Está orientada a reducir el número de comparaciones
necesarias para realizar la búsqueda.
• Partición de los N datos tomados en función de
características internas: binning
• Partición basada en características externas (nombre, etc):
filtering.
• Un patrón puede colocarse en muchas particiones
simultáneamente si existe incertidumbre en su clasificación
• En operación, las muestras se clasifican y sólo se
comparan con los datos en las mismas particiones.
error sistemas biometricos
6
Coeficiente de penetración
• Es la porción de la base de datos total que se examina, en
promedio por cada muestra de entrada.
• Se asume que la búsqueda no termina cuando se encuentra
el emparejamiento, sino que se extiende a la partición
correspondiente.
– Depende de la forma de particionar los datos.
• Cuanto menor es el coeficiente de penetración, mejor es la
eficiencia del sistema.
error sistemas biometricos
7
• En sistemas de verificación, los datos de los usuarios
pueden estar almacenados
– en una tarjeta inteligente.
• En cada transacción la base de datos son los T patrones en la tarjeta.
– de forma centralizada, donde los datos pueden particionarse en K
clases
• En cada transacción sólo examina N/K datos.
• Si K=U sólo se examinan los datos correspondientes a cada usuario.
• Independientemente de la arquitectura de almacenamiento
el coeficiente de penetración es
T 1
P= =
N U
error sistemas biometricos
8
• En sistemas de identificación se trata de comprobar una
identidad no especificada.
• Se puede considerar T particiones de U datos en cada una.
• Los datos entre particiones están ligados por la identidad
del usuario. La partición es un filtrado.
• En este caso el coeficiente de penetración es
U 1
P= =
N T
error sistemas biometricos
9
• En el caso general tenemos K particiones de los datos y pi
es la probabilidad de que un patrón caiga en la i-esima
partición.
Si las particiones son exclusivas
• Cada partición tendrá N* pi patrones. El número de
comparaciones esperado es
• El coeficiente de penetración es
error sistemas biometricos
10
• En el caso de exista una partición etiquetada como
“desconocido”
– Las muestras etiquetadas como desconocido tienen que ser
comparadas con todos los patrones
– Todas las muestras tienen que ser comparadas con los patrones en
la clase desconocido.
– Sigue manteniendose la intersección nula entre clases
• El numero de comparaciones promedio por muestra:
Muestras etiquetadas
como desconocidas
Restantes
muestras
error sistemas biometricos
Coeficiente de
penetración
11
• Cuando la clasificación es incierta pero no completamente
desconocida, la muestra se coloca en múltiples bins por lo
que
• El coeficiente de penetración promedio en este caso puede
ser calculado empíricamente como
error sistemas biometricos
12
•
•
•
•
Supuesto que existen B métodos independientes de partición de los
patrones (filtering & binning)
Si los métodos de partición son realmente independientes, el
coeficiente de penetración de la i-esima medida se escribe como
Si existe correlación entre los métodos de partición esta ecuación
subestima el coeficiente de penetración.
ensemble binning: Si el número de medidas por usuario es T>1 y el
número de muestras es M=T y las clases están definidas sobre todas las
medidas simultaneamente
error sistemas biometricos
13
Error de clasificación
bin-error rate
• Refleja los errores inducidos por las inconsistencias en el
proceso de partición de los patrones y de clasificación de
las muestras
• Los errores en la clasificación basada en características
propias (binning) son difíciles de caracterizar.
• Los errores de filtrado se deben a errores en la recolección
de los datos, no son medibles y dan lugar a fraudes e
irregularidades. Es preferible el proceso de binning o
clasificación automática
error sistemas biometricos
14
• El error de clasificación empírico se calcula como
• En el caso de múltiples métodos de partición, la
probabilidad de no error de partición (asumiendo
independencia) para cada medida es
• Si todos los métodos tienen el mismo error
• Para los ensemble binnings:
error sistemas biometricos
15
error sistemas biometricos
16
Distancias
•
•
•
•
•
El sistema de reconocimiento de patrones calcula una medida D escalar y
positiva por cada comparación entre los patrones y la muestra: la “distancia”.
D es creciente con la diferencia entre muestra y patrón.
La distribución “genuina” ΨG(D) de las distancia es el histograma de las
distancias entre muestras y patrones que corresponden a emparejamientos
correctos.
Esta distribución mide la repetibilidad del patrón.
El fenómeno del “envejecimiento de los patrones” consiste en el aumento de
las distancias de las muestras respecto de los patrones conforme pasa el
tiempo.
error sistemas biometricos
17
•
La disribución de los “impostores” ΨI(D) es el histograma de las distancias de
los emparejamientos incorrectos. Puede construirse de varias maneras:
–
–
–
–
•
•
•
•
Comparando cada muestra con un único patrón no-mismo
Comparando cada muestra con cada patrón de identidad distinta
Mediante remuestreo aleatorio, en el que se extraen aleatoriamente los patrones.
Creando una base de datos de patrones “de fondo” para los que no hay
emparejamiento.
La estimación de la distribución de impostores puede ser más crítica que la de
la distribución genuina. Necesita muchos más datos para su estimación y
esmucho más suave.
La distribución genuina permite calcular las tasas de error de falsos rechazos
(falso negativo).
La distribución de impostores permite calcular las tasas de error de falso
emparejamiento (falso positivo).
Idealmente las distribuciones genuina y de impostor tendrían soporte disjunto,
con lo que un umbral sobre la distancia permitiría decidir correctamente.
error sistemas biometricos
18
error sistemas biometricos
19
• La distribución genuina ΨG(D) suele ser bimodal.
• El segundo modo de la distribución ΨG(D) coincide con el
modo principal de ΨI(D)
• Las colas de ambas distribuciones se solapan fuertemente.
• La distribución interpatrones ΨT(D) modela la distancia
entre los patrones indep. de la identidad y la clase.
error sistemas biometricos
20
Single comparison False-match rate
• Una muestra es asignada incorrectamente a un
patrón dado que la distancia está bajo un umbral τ.
• Puede calcularse a partir de la distribución de
impostores la tasa de error de falso
emparejamiento
error sistemas biometricos
21
Single comparison false-nonmatch rate
• Un falso no emparejamiento ocurre cuando
se rechaza incorrectamente el
emparejamiento una muestra en base al
umbral de distancias.
• Se calcula sobre la distribución genuina
error sistemas biometricos
22
Rendimiento del sistema
• Emparejamiento y desemparejamiento correcto y
en tiempo de clientes a identidades en una base de
datos de N patrones basado en una política de
decisión que utiliza M muestras de cada cliente.
Una muestra de cada medida M=T.
• En sistemas multi-medida, se utiliza un
subconjunto de m<M medidas para hacer una
búsqueda previa y descartar de forma eficiente la
mayor parte de los usuarios en la BD.
error sistemas biometricos
23
Esquema de decisión
•
•
•
•
•
•
Para declarar un emparejamiento se requiere que se emparejen Q de las M
medidas sobre un conjunto de T patrones.
Se hace una búsqueda inicial con m medidas sobre las particiones relevantes
de la base de patrones. Se hace un total de
comparaciones
Los emparejamientos se confirman comparando las M muestras contra los T
patrones del mismo conjunto de patrones.
Se activa la comparación cuando una de las m medidas es positiva.
Si no se empareja ninguna de las m muestras u ocurren más de T-Q noemparejamientos de los M muestras, se declara como no emparejado.
Las m muestras consideradas en la búsqueda inicial tienen errores
independientes
Tasas de error uniformes
error sistemas biometricos
24
System False-nonmatch rate
• Para que no ocurra un falso nonmatch debe no
haber
– Error de clasificación (binning)
– Error de emparejamiento
• Asumiendo los errores independientes, la
probabilidad de emparejamiento correcto es
Prob. de no emparej.
error sistemas biometricos
25
• Si el sistema no hace combinaciones de los
emparejamientos de las distintas medidas, sino que las
considera independientes, el falso nonmatch del sistema
ocurre cuando todas las m comparaciones resultan en un
falso nonmatch
• Esta ecuación subestima la probabilidad dado que en la
practica se observa una cierta dependencia entre los
resultados de los emparejamientos.
error sistemas biometricos
26
• Para sistemas que emplean ensembles, la i-esima de m
comparaciones contra todo el ensemble, requiere para que
no se produzca un falso nonmatch
– La comparación inicial de muestra y patrón no sea un falso
nonmatch
– Q-1 de los restantes patrones del ensamble sean correctamente
emparejados
• La probabilidad de declarar una correcta identificación en
la i-esima de m comparaciones
Q o más emparejamientos
correctos a partir de la i-esima
muestra
error sistemas biometricos
27
La probabilidad de falso nonmatch es la complementaria
Si las comparaciones son independientes, la probabilidad de
un falso nonmatch del sistema es
En el caso de ensemble binning la probabilidad de error de
clasificación es la misma para todas las muestras, por lo que las
probabilidades de emparejamiento correcto no son independientes
para cada muestra y no se pueden aplicar a las ecuaciones
anteriores.
error sistemas biometricos
28
En el caso de ensemble binning, el error de clasificación no es
independiente sobre las M comparaciones, ya que cada comparación
mira en la misma partición. Reescribiendo
Para obtener una identificación correcta en el caso de los ensemble
binning requiere 1) no hay error de clasificación para todo el ensemble,
2) no hay fallo en las búsquedas iniciales.
error sistemas biometricos
29
System false-match rate
• En sistemas sencillos se declara un emparejamiento si
cualquiera de las m comparaciones resulta en un
emparejamiento.
Esta cantidad se aproxima siempres a 1 para grandes
m*N*Pi
error sistemas biometricos
30
En un sistema que utiliza varias medidas, se declara un falso
emparejamiento si Q falsos emparejamientos ocurren contra
los patrones de registro de un usuario, cuando antes m falsos
emparejamientos iniciales se han realizado.
Copiado literalmente pero seguro que hay que sustituir FNM por FMR
Al recorrer todas las distintas particiones, la probabilidad de que
las m búsquedas iniciales no terminaran en un falso
emparejamiento
error sistemas biometricos
31
Para el sistema completo, la tasa de error de falso
emparejamiento, considerando independientes las m
comparaciones iniciales.
La tasa de falsos emparejamientos decrece con el coeficiente
de penetración.
Permite tasas de error razonables incluso para grandes N.
error sistemas biometricos
32
System throughput
• Capacidad de proceso del sistema
• Depende de
– La tasa harware de comparación
– El número m de muestras comparadas con la
base de datos
– El número de patrones N
– El coeficiente de penetración
error sistemas biometricos
33
En el caso de que no se encuentren emparejamientos, el
throughput en clientes por unidad de tiempo
C es la tasa hardware de proceso uno-a-uno
Si hay ensemble binning
Minimizar los costos frente a un throughput establecido
obliga a modificar el coeficiente de penetración (mediante
binning o filtering) aumentando la tasa de falso nonmatch y
decreciendo la tasa de falso emparejamiento.
error sistemas biometricos
34
Sistema uno-a-uno
• Muestra única y patrón único de un usuario para
verificación.
• T=1, N=T=1, Psys=1, N=U*T, Psys=1/U, N*
Psys=T=1.m=1
error sistemas biometricos
35
Uno-a-uno con tres intentos.
La tasa de falsos
rechazos decrece
exponencialmente con
el número de reintentos,
sin embargo la tasa de
falsas aceptaciones solo
decrece linealmente
error sistemas biometricos
36
One-to-several verification systems
Una medida y varias muestras y patrones almacenados
Comparaciones independientes
Los falsos emparejamientos (falsas aceptaciones) crecen
linealmente (FMR tiende a 1), los falsos rechazos
decrecen exponencialmente.
error sistemas biometricos
37
“One to many” single
comparison systems
Coeficiente de penetración menor que 1, existe bin-error
fingerprint
Filtro de género: asumiendo 2% de género desconocido, mitad y mitad
Coeficiente de penetración.
error sistemas biometricos
38
Falsos no
emparejamientos son
independientes de N.
Espectación de falsos emparejamientos
Condición para una buena definición del sistema de identificación
error sistemas biometricos
39
error sistemas biometricos
40
M-to-N
Datos de 4 dedos (Filipinas)
comparaciones
Al menos tres dedos emparejados
error sistemas biometricos
41
Muestras independientes
Ensemble binning
El error de falsos no emparejamientos es 5 veces mayor
error sistemas biometricos
42
Si el coeficiente de penetración es el mismo
error sistemas biometricos
43
40,000 por semana
error sistemas biometricos
44
Descargar