Estadísticas de error en biometría Error rate equations for the general biometric system, J.L. Wayman, IEEE Robotics & Automation Magazine, (march 1999) 6 (1) pp. 35-48 error sistemas biometricos 1 Introducción • • • • Identificación biométrica: verificar que el usuario es quien dice ser o no es quien dice no ser. Verificación: emparejamiento uno-a-uno, la base de datos es de un único individuo. Identificación: emparejamiento uno-a-muchos, la base de datos es de muchos individuos. Test de sistemas miden: – Falsa aceptación (falsa alarma, falso positivo) – Falso rechazo (falso negativo) – Listas de candidatos. • El objetivo del trabajo de Wayman es desacoplar la evaluación del rendimiento del sistema del tamao de la búsqueda, la política de decisión y el diseño del test. error sistemas biometricos 2 • • • En general los sistemas biométricos permiten registrar varias medidas o varias presentaciones del mismo usuario y durante la operación permiten presentar varias muestras para el emparejamiento. El sistema puede realizar múltiples comparaciones para verificar la identidad Los sistemas son comparaciones M-a-N – M es el número de muestras que se puden utilizar en la operación, de la misma o diferentes características biométricas. Es el “conjunto muestra”. – N es el tamaño de la base de datos. • Existen U usuarios registrados con T patrones o modelos almacenados para cada uno. – Los modelos de cada usuario se consideran independientes en el sentido estadístico – Si es el mismo numero de patrones para cada usuario tenemos N=T * U. error sistemas biometricos 3 error sistemas biometricos 4 Medidas basicas • Coeficiente de penetración • El error de pre-clasificación “bin-error” • Tasa de falsos positivos en comparación simple. • Tasa de falso negativos en comparación simple. • Tasa de comparaciones del sistema (comparaciones por unidad de tiempo) error sistemas biometricos 5 Particiones de los datos • Está orientada a reducir el número de comparaciones necesarias para realizar la búsqueda. • Partición de los N datos tomados en función de características internas: binning • Partición basada en características externas (nombre, etc): filtering. • Un patrón puede colocarse en muchas particiones simultáneamente si existe incertidumbre en su clasificación • En operación, las muestras se clasifican y sólo se comparan con los datos en las mismas particiones. error sistemas biometricos 6 Coeficiente de penetración • Es la porción de la base de datos total que se examina, en promedio por cada muestra de entrada. • Se asume que la búsqueda no termina cuando se encuentra el emparejamiento, sino que se extiende a la partición correspondiente. – Depende de la forma de particionar los datos. • Cuanto menor es el coeficiente de penetración, mejor es la eficiencia del sistema. error sistemas biometricos 7 • En sistemas de verificación, los datos de los usuarios pueden estar almacenados – en una tarjeta inteligente. • En cada transacción la base de datos son los T patrones en la tarjeta. – de forma centralizada, donde los datos pueden particionarse en K clases • En cada transacción sólo examina N/K datos. • Si K=U sólo se examinan los datos correspondientes a cada usuario. • Independientemente de la arquitectura de almacenamiento el coeficiente de penetración es T 1 P= = N U error sistemas biometricos 8 • En sistemas de identificación se trata de comprobar una identidad no especificada. • Se puede considerar T particiones de U datos en cada una. • Los datos entre particiones están ligados por la identidad del usuario. La partición es un filtrado. • En este caso el coeficiente de penetración es U 1 P= = N T error sistemas biometricos 9 • En el caso general tenemos K particiones de los datos y pi es la probabilidad de que un patrón caiga en la i-esima partición. Si las particiones son exclusivas • Cada partición tendrá N* pi patrones. El número de comparaciones esperado es • El coeficiente de penetración es error sistemas biometricos 10 • En el caso de exista una partición etiquetada como “desconocido” – Las muestras etiquetadas como desconocido tienen que ser comparadas con todos los patrones – Todas las muestras tienen que ser comparadas con los patrones en la clase desconocido. – Sigue manteniendose la intersección nula entre clases • El numero de comparaciones promedio por muestra: Muestras etiquetadas como desconocidas Restantes muestras error sistemas biometricos Coeficiente de penetración 11 • Cuando la clasificación es incierta pero no completamente desconocida, la muestra se coloca en múltiples bins por lo que • El coeficiente de penetración promedio en este caso puede ser calculado empíricamente como error sistemas biometricos 12 • • • • Supuesto que existen B métodos independientes de partición de los patrones (filtering & binning) Si los métodos de partición son realmente independientes, el coeficiente de penetración de la i-esima medida se escribe como Si existe correlación entre los métodos de partición esta ecuación subestima el coeficiente de penetración. ensemble binning: Si el número de medidas por usuario es T>1 y el número de muestras es M=T y las clases están definidas sobre todas las medidas simultaneamente error sistemas biometricos 13 Error de clasificación bin-error rate • Refleja los errores inducidos por las inconsistencias en el proceso de partición de los patrones y de clasificación de las muestras • Los errores en la clasificación basada en características propias (binning) son difíciles de caracterizar. • Los errores de filtrado se deben a errores en la recolección de los datos, no son medibles y dan lugar a fraudes e irregularidades. Es preferible el proceso de binning o clasificación automática error sistemas biometricos 14 • El error de clasificación empírico se calcula como • En el caso de múltiples métodos de partición, la probabilidad de no error de partición (asumiendo independencia) para cada medida es • Si todos los métodos tienen el mismo error • Para los ensemble binnings: error sistemas biometricos 15 error sistemas biometricos 16 Distancias • • • • • El sistema de reconocimiento de patrones calcula una medida D escalar y positiva por cada comparación entre los patrones y la muestra: la “distancia”. D es creciente con la diferencia entre muestra y patrón. La distribución “genuina” ΨG(D) de las distancia es el histograma de las distancias entre muestras y patrones que corresponden a emparejamientos correctos. Esta distribución mide la repetibilidad del patrón. El fenómeno del “envejecimiento de los patrones” consiste en el aumento de las distancias de las muestras respecto de los patrones conforme pasa el tiempo. error sistemas biometricos 17 • La disribución de los “impostores” ΨI(D) es el histograma de las distancias de los emparejamientos incorrectos. Puede construirse de varias maneras: – – – – • • • • Comparando cada muestra con un único patrón no-mismo Comparando cada muestra con cada patrón de identidad distinta Mediante remuestreo aleatorio, en el que se extraen aleatoriamente los patrones. Creando una base de datos de patrones “de fondo” para los que no hay emparejamiento. La estimación de la distribución de impostores puede ser más crítica que la de la distribución genuina. Necesita muchos más datos para su estimación y esmucho más suave. La distribución genuina permite calcular las tasas de error de falsos rechazos (falso negativo). La distribución de impostores permite calcular las tasas de error de falso emparejamiento (falso positivo). Idealmente las distribuciones genuina y de impostor tendrían soporte disjunto, con lo que un umbral sobre la distancia permitiría decidir correctamente. error sistemas biometricos 18 error sistemas biometricos 19 • La distribución genuina ΨG(D) suele ser bimodal. • El segundo modo de la distribución ΨG(D) coincide con el modo principal de ΨI(D) • Las colas de ambas distribuciones se solapan fuertemente. • La distribución interpatrones ΨT(D) modela la distancia entre los patrones indep. de la identidad y la clase. error sistemas biometricos 20 Single comparison False-match rate • Una muestra es asignada incorrectamente a un patrón dado que la distancia está bajo un umbral τ. • Puede calcularse a partir de la distribución de impostores la tasa de error de falso emparejamiento error sistemas biometricos 21 Single comparison false-nonmatch rate • Un falso no emparejamiento ocurre cuando se rechaza incorrectamente el emparejamiento una muestra en base al umbral de distancias. • Se calcula sobre la distribución genuina error sistemas biometricos 22 Rendimiento del sistema • Emparejamiento y desemparejamiento correcto y en tiempo de clientes a identidades en una base de datos de N patrones basado en una política de decisión que utiliza M muestras de cada cliente. Una muestra de cada medida M=T. • En sistemas multi-medida, se utiliza un subconjunto de m<M medidas para hacer una búsqueda previa y descartar de forma eficiente la mayor parte de los usuarios en la BD. error sistemas biometricos 23 Esquema de decisión • • • • • • Para declarar un emparejamiento se requiere que se emparejen Q de las M medidas sobre un conjunto de T patrones. Se hace una búsqueda inicial con m medidas sobre las particiones relevantes de la base de patrones. Se hace un total de comparaciones Los emparejamientos se confirman comparando las M muestras contra los T patrones del mismo conjunto de patrones. Se activa la comparación cuando una de las m medidas es positiva. Si no se empareja ninguna de las m muestras u ocurren más de T-Q noemparejamientos de los M muestras, se declara como no emparejado. Las m muestras consideradas en la búsqueda inicial tienen errores independientes Tasas de error uniformes error sistemas biometricos 24 System False-nonmatch rate • Para que no ocurra un falso nonmatch debe no haber – Error de clasificación (binning) – Error de emparejamiento • Asumiendo los errores independientes, la probabilidad de emparejamiento correcto es Prob. de no emparej. error sistemas biometricos 25 • Si el sistema no hace combinaciones de los emparejamientos de las distintas medidas, sino que las considera independientes, el falso nonmatch del sistema ocurre cuando todas las m comparaciones resultan en un falso nonmatch • Esta ecuación subestima la probabilidad dado que en la practica se observa una cierta dependencia entre los resultados de los emparejamientos. error sistemas biometricos 26 • Para sistemas que emplean ensembles, la i-esima de m comparaciones contra todo el ensemble, requiere para que no se produzca un falso nonmatch – La comparación inicial de muestra y patrón no sea un falso nonmatch – Q-1 de los restantes patrones del ensamble sean correctamente emparejados • La probabilidad de declarar una correcta identificación en la i-esima de m comparaciones Q o más emparejamientos correctos a partir de la i-esima muestra error sistemas biometricos 27 La probabilidad de falso nonmatch es la complementaria Si las comparaciones son independientes, la probabilidad de un falso nonmatch del sistema es En el caso de ensemble binning la probabilidad de error de clasificación es la misma para todas las muestras, por lo que las probabilidades de emparejamiento correcto no son independientes para cada muestra y no se pueden aplicar a las ecuaciones anteriores. error sistemas biometricos 28 En el caso de ensemble binning, el error de clasificación no es independiente sobre las M comparaciones, ya que cada comparación mira en la misma partición. Reescribiendo Para obtener una identificación correcta en el caso de los ensemble binning requiere 1) no hay error de clasificación para todo el ensemble, 2) no hay fallo en las búsquedas iniciales. error sistemas biometricos 29 System false-match rate • En sistemas sencillos se declara un emparejamiento si cualquiera de las m comparaciones resulta en un emparejamiento. Esta cantidad se aproxima siempres a 1 para grandes m*N*Pi error sistemas biometricos 30 En un sistema que utiliza varias medidas, se declara un falso emparejamiento si Q falsos emparejamientos ocurren contra los patrones de registro de un usuario, cuando antes m falsos emparejamientos iniciales se han realizado. Copiado literalmente pero seguro que hay que sustituir FNM por FMR Al recorrer todas las distintas particiones, la probabilidad de que las m búsquedas iniciales no terminaran en un falso emparejamiento error sistemas biometricos 31 Para el sistema completo, la tasa de error de falso emparejamiento, considerando independientes las m comparaciones iniciales. La tasa de falsos emparejamientos decrece con el coeficiente de penetración. Permite tasas de error razonables incluso para grandes N. error sistemas biometricos 32 System throughput • Capacidad de proceso del sistema • Depende de – La tasa harware de comparación – El número m de muestras comparadas con la base de datos – El número de patrones N – El coeficiente de penetración error sistemas biometricos 33 En el caso de que no se encuentren emparejamientos, el throughput en clientes por unidad de tiempo C es la tasa hardware de proceso uno-a-uno Si hay ensemble binning Minimizar los costos frente a un throughput establecido obliga a modificar el coeficiente de penetración (mediante binning o filtering) aumentando la tasa de falso nonmatch y decreciendo la tasa de falso emparejamiento. error sistemas biometricos 34 Sistema uno-a-uno • Muestra única y patrón único de un usuario para verificación. • T=1, N=T=1, Psys=1, N=U*T, Psys=1/U, N* Psys=T=1.m=1 error sistemas biometricos 35 Uno-a-uno con tres intentos. La tasa de falsos rechazos decrece exponencialmente con el número de reintentos, sin embargo la tasa de falsas aceptaciones solo decrece linealmente error sistemas biometricos 36 One-to-several verification systems Una medida y varias muestras y patrones almacenados Comparaciones independientes Los falsos emparejamientos (falsas aceptaciones) crecen linealmente (FMR tiende a 1), los falsos rechazos decrecen exponencialmente. error sistemas biometricos 37 “One to many” single comparison systems Coeficiente de penetración menor que 1, existe bin-error fingerprint Filtro de género: asumiendo 2% de género desconocido, mitad y mitad Coeficiente de penetración. error sistemas biometricos 38 Falsos no emparejamientos son independientes de N. Espectación de falsos emparejamientos Condición para una buena definición del sistema de identificación error sistemas biometricos 39 error sistemas biometricos 40 M-to-N Datos de 4 dedos (Filipinas) comparaciones Al menos tres dedos emparejados error sistemas biometricos 41 Muestras independientes Ensemble binning El error de falsos no emparejamientos es 5 veces mayor error sistemas biometricos 42 Si el coeficiente de penetración es el mismo error sistemas biometricos 43 40,000 por semana error sistemas biometricos 44