Teoría de decisión Bayesiana Reconocimiento de Patrones – 2013 Duda Capitulo 2 Decisión Bayesiana Enfoque estadístico fundamental en clasificación de patrones Idea: Estudiar probabilidades de tomar decisiones incorrectas para cuantificar los costos y compromisos de esas decisiones y diseñar las estrategias de menor costo Metodología 1. 2. Supuestas conocidas todas las probabilidades en juego estudiaremos como establecer las reglas de decisión. Posteriormente analizaremos como proceder cuando no se conocen las probabilidades completamente. Ejemplo: Clasificación de brotes y de hierbas parásitas en cultivos, mediante la captura de imágenes multiespectrales (4 bandas), con el objetivo de realizar una fumigación específica. Ejemplo Clasificación de brotes y de hierbas parásitas en cultivos, mediante la captura de imágenes multiespectrales (4 bandas), con el objetivo de realizar una fumigación específica. Pre-procesamiento: discriminación suelo –vegetación Problema de clasificación de 2 clases: cada pixel de vegetación pertenece a: w1 – brote w2 – parásito C={ w1, w2} Ω Є C, V. A Priors P(w1), P(w2) probabilidades a priori, pixel brote o parásito. Reflejan conocimiento previo de cuan probable es que un pixel corresponda a brote o parásito antes de inspeccionar imagen. Supondremos P(w1)+P(w2)=1, todo pixel detectado como vegetación es brote o parásito. Regla de Decisión Supongamos que somos forzados a tomar una decisión y que todos los costos de decisiones incorrectas son iguales. Si la única información a la que podemos acceder son las probabilidades a priori, la regla de decisión razonable es: Decido: w1 si P(w1)> P(w2) , w2 en otro caso Si P(w1)>> P(w2) Si P(w1) ≈P(w2) al decidir w1 casi siempre estamos en lo cierto. nos equivocamos en promedio uno de cada dos. P(error) = min [P(w1), P(w2)] Densidad de Probabilidad condicionada a la clase En general disponemos de más información para tomar decisiones. Ejemplo: a cada pixel le asociamos un vector x=(x1,x2,x3,x4) donde xi : reflectancia en la banda espectral i-ésima. Modelo: x vector aleatorio p(x/wi) densidad de probabilidad R R d , p(x / w )dx P(x R / w ) i R i Bayes Supuesto conocidas las prioris y las densidades condiciona les Para inferir la naturaleza del pixel de vector de caracterís ticas x, usamos Bayes : p (x, wi ) P ( wi / x) p (x) p (x / wi ) P( wi ) p (x / wi ) P ( wi ) P( wi / x) p ( x) 2 donde p (x) P (x / wi ) P( wi ) i 1 Bayes Bayes : verosimilitud prior posterior evidencia P(wi /x)- posterior: probabilidad de que la clase sea wi dado que se midió x . P(wi ) – prior: conocimiento previo del problema p(x/ wi)- verosimilitud : de la clase wi respecto a x, cuanto mayor más probable que la verdadera clase sea wi. p(x)- evidencia: factor de escala, normaliza a 1. Regla de Decisión de Bayes Decido w1 si Pw1 / x Pw2 / x , w2 en otro caso P(error ) P(error, x)dx P(error / x) p(x)dx R4 R4 Pw1 / x si decidimos w2 P(error / x) Pw2 / x si decidimos w1 P(error ) mínima P(error / x) mínima x Bajo esta regla : P(error / x) min Pw1 / x , Pw2 / x Decisión de Bayes P(w1/x) w1 P(w2/x) w2 P(w1 /x)+P(w2 /x)=1 x En término de probabilidad a priori y verosimilitud la regla es: Decido w1 si p(x/ w1) P(w1) > p(x/ w2) P(w2) , w2 en otro caso Eliminando el factor de escala se obtiene una regla equivalente, el factor de normalización cambia la apariencia de las funciones discriminantes. Si p(x/ w1)=p(x/ w2) entonces el medir las características x, no nos aporta información sobre la clase; la decisión se basa puramente en las priors. Si P(w1) =P(w2) la decisión se basa en las verosimilitudes La regla de decisión bayesiana combina ambos factores y toma la decisión que minimiza la probabilidad de error. Formalización y generalización c clases {w1, w2 …. wc} Espacios de características Rd : x = (x1, x2, …xd)T : vector de características x Є Rd : espacio Euclideano dimensión d Funciones de costos más generales que la probabilidad de error. Función de costo ó de pérdida: cuanto me cuesta cometer distinto tipos de errores o no decidir. Ej: costo de extraer tejido si es benigno no es igual costo de no extraer tumor maligno. Funciones de Costo C {w1, w2 . wc } conjunto finito de c categorías A {1, 2 . a } conjunto de a posibles acciones ( i / w j ) : costo asociado a tomar acción i , cuando la muestra es en realidad de la clase wj. Riesgo Condicional M odelo : x R d C , variable aleatoria c p(x / w j ) P( w j ) P ( w j / x) p ( x) p ( x / w j ) P ( w j ) p ( x) i 1 Observo x, contemplo tomar acción i , si clase verdadera w j , voy a incurrir en un costo ( i / w j ) El costo medio de tomar la acción i es el riesgo condiciona l : c R ( i / x) E / x ( i / ) ( i / w j ) P( w j / x) j 1 Riesgo Total Una regla de decisión es una función α(x) α: Rd →A que nos dice que acción tomar para cada x Ej: asigno a una de las clases (1...c) o a la clase de rechazo. Riesgo total R: esperanza del riesgo condicional asociado a una regla de decisión R Ex ( R( (x) / x)) R( (x) / x) p(x)dx Rd Riesgo de Bayes Elegir Regla de Decisión que minimice Riesgo Total R es mínimo para cada x R(α (x) /x) es mínimo para cada x : α * (x) arg min R (αi /x) i A El riesgo asociado a la Decisión Bayesiana : R* R( * / x) p(x)dx Rd Es ópitmo. En caso de empate entre reglas se puede tomar cualquiera Clasificación con 2 clases (sin rechazo) ij ( i / w j ) C w1 , w2 A 1 , 2 R(1 / x) 11P( w1 / x) 12 P( w2 / x) R( 2 / x) 21P( w1 / x) 22 P( w2 / x) Regla Bayesiana: Decido : w1 si R(1 / x) R( 2 / x) , w2 en otro caso Razón de Verosimilitud (12 22 ) P ( w2 / x) (21 11) P( w1 / x ) w1 p (x / w1 ) 12 22 P ( w2 ) p (x / w2 ) 21 11 P ( w1 ) w2 En general 21 11 y12 22 costo de errar mayor al de acertar. Interpretación : Decido w1 cuando la razón de verosimil itud supera un umbral que es independiente de x. Clasificación de menor tasa de error: Función de costo simétrica : Costo cero/uno (w1,w2 ) C 2 0 ( i / w j ) 1 i j aciertos i j errores i, j 1...c Asumo que todos los errores cuestan lo mismo : c R ( i / x) ( i / w j )P ( w j / x) P ( w j / x) 1 P ( wi / x) j 1 j i Clasificación con tasa de error mínima La decisión bayesiana es aquella que minimiza el riesgo total y por ende el riesgo condicional para R(αi/ x) para todo x ↔ Decido wi si P(wi / x) P(w j / x) para todo j i P(wi /x) es la probabilidad condicional de que la acción αi es correcta. Para minimizar el riesgo tengo que elegir i que maximiza P(wi /x). Regla de decisión Bayesiana λ 12 = λ21 =1 λ11 = λ22 = 0 w1 p (x / w1 ) P( w2 ) p(x / w2 ) P( w1 ) w2 p(x/w1 ) p(x/w2 ) P(w2 ) P(w1 ) R2 R1 R2 R1 R2 Ri: región donde se decide wi No tiene porque ser conexa. Criterio minimax En muchos casos es imposible prever la evolución o los cambios de probabilidades a priori, se busca que el clasificador funciones correctamente sobre un rango de priors. Se diseña el clasificador para que el riesgo en el peor caso (entre todos los priors posibles) sea mínimo: estimador minimax F: espacio de características (Rd) F Ri : región en donde el clasificador decide wi Riesgo Minimax Considerem os : C w1 , w2 R1 R2 F R R( (x) / x) p(x)dx Rd R R( R1 1 / x) p(x)dx R( 2 / x) p (x)dx R2 R( i / x) p (x) i1 P( w1 / x) p(x) i 2 P( w2 / x) p(x) R( i / x) p (x) i1 p (x / w1 ) P( w1 ) i 2 p (x / w2 ) P( w2 ) Riesgo Minimax R( i / x) p(x) i1 p(x / w1 ) i 2 p(x / w2 )P( w1 ) i 2 p(x / w2 ) 2 2 R P( w1 ) (i1 p(x / w1 ) i 2 p(x / w2 ))dx i 2 p(x / w2 )dx i 1 Ri i 1 Ri R AP ( w1 ) B El objetivo es encontrar una regla de decisión (ej. Determinar R1 y R2) tal que B mínimo y A=0 . Si podemos encontrar una regla de decisión A=0 la regla es independiente de las priors. Riesgo Minimax Si esta regla existe el riesgo minimax es B* Rminimax= B* minB(R1 , R2 ) sujeto a A(R1 y R2 )=0 Aún en caso de existir el clasificador minimax, puede ser difícil encontrar cuando las distribuciones son complejas. B* Riesgo mínimo de Bayes P(w1) Funciones Discriminantes, Superficies de Decisión C w1 , w2 ...wc g1(x) g2(x) x x1 , x2 ..xd Costo Acción gc(x) T funciones discrimina ntes : g i (x) i 1...c x1 x2 xd Decimos que el clasificad or asigna el vector x a la clase wi si i j gi (x) g j (x) Un clasificador se puede representar como una red que calcula i funciones discriminantes y elige la clase que corresponde al discriminante mayor. Representación Clasificador Bayesiano Caso genérico : g i (x) R( i / x) f : R R monótona creciente g i i 1 y f ( g i ) conducen a c la misma clasificac ión. La idea es elegir f para simplificar analítica o computacionalmente. p (x / wi ) P( wi ) Ej : g i (x) P( wi / x) tasa mínima de error p ( x) g i (x) p(x / wi ) P( wi ) g i (x) ln p (x / wi ) ln P( wi ) Funciones Discriminantes para Densidades Normales: ¿Porqué un interés especial en la ley normal? Teorema central del límite Analíticamente manejable Tendencia actual: trabajar con estadística no paramétrica (simulaciones, potencia de cálculo) Distribución Normal Clasificación basada en modelos estadísticos determinados por momentos de primer y segundo orden. Problema práctico descripto por conjunto de entrenamiento {x,w}, no tenemos conocimiento de las propiedades estocásticas de la fuente de patrones. Enfoque pragmático: Modelar p(x/w) usando distribución normal y evaluamos si hipótesis es sensible. Encontrar clasificador óptimo para p(x/w) normal. Densidad Normal Multivariada x1 1 1 T 1 x p ( x) exp ( x μ ) ( x μ ) 2 (2 ) d / 2 (det Σ)1/ 2 xd μ E (x) xp(x)dx Valor medio de x Rd Σ E (x μ)(x μ)T (x μ)(x μ)T p (x)dx Rd Σ : M atriz de covarianza de x r 2 (x μ)T 1 (x μ) Distancia cuadrática de M ahalanobis Propiedades de Matriz de covarianza Σ : simétrica ΣT Σ, ambas definidas positivas r 0 x μ 2 Σ : regular, detΣ 0, detΣT 0, i j ij cov xi , x j i j ii var xi 0 Valores propios de Σ son definidos positivos. N(x, μ, Σ) : unimodal, máximo para r 2 0, x μ Elipsoides Equidensidad 1 1 T 1 p exp ( x μ ) ( x μ ) 2 (2 ) d / 2 (det Σ)1/ 2 d 1 2 r 2ln( p) ln( 2 ) ln(det Σ) 2 2 r 2 (x μ)T 1 (x μ) cte. Superfieic e cuadrática en un espacio d - dimensiona l d 2 : elipse d 3 : elipsoide ó hiperboloide con centro en μ 0.04 0.03 0.02 0.01 0 20 20 15 15 10 10 5 5 0 0 16 16 14 14 12 12 10 10 8 8 6 6 4 4 2 0 2 0 2 4 6 8 10 12 14 0 16 0 2 2 0 2 Σ I 2 0 6 8 10 12 112 0 Σ 2 0 22 16 14 12 10 11 12 Σ 21 22 4 8 6 4 2 0 0 2 4 6 8 10 12 14 16 14 16 Orientación y tamaño del elipsoide B : matriz de vectores propios de Σ D : matriz diagonal de valores propios de Σ Σ BDBT Cambio de coordenada s z BT (x μ), transformación compuesta traslación (origen de coordenada s a μ) y rotación por la matríz B. r 2 z T D 1z d r2 1 zi 2 i i : valores propios Los ejes del elipsoide estan definidos por los b i y la longitud de los semiejes por i . Transformaciones de Blanqueado Transformación de coordenada s que lleva una distribución normal arbitraria en una distribución esférica (blanca Σ I ) A w BD 1/ 2 Ej : Blanqueado usando Σ BDBT y Cholesky : Σ LLT 16 16 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 2 4 6 8 10 12 14 16 0 0 2 4 6 8 10 12 14 16 Independencia Estadística - Correlación Independiente no correlació n Caso gaussiano : 2 v.a. conjuntame nte gaussianas si su co - varianza 0 independencia. Nota : 2 v.a. pueden ser marginalme nte gaussianas sin serlo conjuntame nte. Ej : X v.a. gaussiana X N( 0 ,1 ) 1 Y UX U 1,1 P(U 1) P (U 1) 2 Y : gaussiana Independencia Estadística - Correlación P(Y t ) P(UX t ) P( X t ,U 1) P( X t ,U 1) 1 1 P(Y t ) P( X t ) P( X t ) P( X t ) 2 2 E ( XY ) E (UX 2 ) E (U ) E ( X 2 ) 0 E ( X 2Y 2 ) E ( X 4 ) 3 2 E ( X ) E (Y ) E ( X ) E (U ) E ( X ) E ( X ) 1 c/u : es gaussiano no lo son conjuntamente Z XY tiene covarianza 0 pero no son independientes. Combinacio nes lineales de v. a. gaussianas son v.a. gaussianas 2 2 2 2 2 2 Funciones discriminantes cuadráticas Funciones discrimina ntes para clasificar con menor tasa de error g i (x) ln P(x / wi ) ln P( wi ) Si todas las densidades son normales : 1 d 1 1 g i (x) (x μ i )T Σ i (x μ i ) ln 2 ln(det i ) ln P( wi ) 2 2 2 Matrices de covarianza blancas Σi 2I Caso I) g i ( x) x μi 2 2 2 1 ln P ( wi ) ln( 2 d ) 2 Estas funciones no son lineales pero se pueden hacer : (x μ i ) (x μ i ) x x 2μ i x μ i μ i T T T T xT x : podemos ignorarlo (igual g i ) g i ( x) 1 2 μi T wi T x ln P ( wi ) 1 2 T μi μi 2 wi0 g i (x) w i x wi 0 T M odelo adecuado ruido blanco gaussiano no correlacio nado independiente de la clase con varian za var(r ) var(x) superpuesto a los vectores prototipos k wi i (filtro apareado) Superficies de Decisión sij x / g i (x) g j (x) sij x /( w i w j )T x ( wi 0 w j 0 ) 0 Reordenand o : μ i μ j P( wi ) 1 1 T 2 0 2 μ i μ j x ln μ i μ j 2 P( w j ) 2 μ μ i j w ij T sij x / w ij (x x 0ij ) 0 T x 0 ij 16 14 12 10 8 6 4 2 0 16 0 2 14 12 10 8 6 x0ij 4 2 0 0 2 4 6 8 10 12 14 16 4 6 8 10 12 14 16 Superficies de Decisión Si P(wi ) P(w j ) x 0ij Si P(wi ) P(w j ) x 0ij 1 μ i μ j 2 se acerca a μ j Si 2 μ i μ j sij menos sensibles a los prioris (los datos tienen poca incertidum bre creemos más en las observacio nes) Duda Duda Clasificador de mínima distancia (Euclideo) P( wi ) I - Si los prioris son equiprobables o casi ln 0 P( w j ) 1 ( P( wi ) c i 1,.....c) Decido : Asignar x a la clase w / i arg min x μ i * i * i 1..c El clasificad or euclideo es óptimo para clases con distribución normal con matrices de covarianza iguales y proporcionales a la identidad y prioris equiprobables. Caso II) Σ i Σ 1 1 T 1 g i (x) x μ i Σ x μ i ln det Σ ln P( wi ) 2 2 Redefinimo s : w i Σ 1μ i T g i (x) w i x wi 0 con 1 T 1 wi 0 μ i Σ μ i ln P( wi ) 2 Las superficies de decisión son hiperplanos (lineales) . w ij (x x ij 0 ) 0 T w ij Σ 1 (μ i μ j ) P( wi ) ln (μ i μ j ) con P( w j ) x 1 (μ μ ) j T 1 0ij 2 i ( μ μ ) Σ (μ i μ j ) i j A menos que (μ i μ j ) sea vector propio de Σ el hiperplano de separación no va ser ortogonal a (μ i μ j ). 16 14 12 16 10 14 8 12 6 10 4 8 2 6 0 4 2 0 0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16 Duda Clasificador de Mahalanobis (minima distancia) P( w ) i - Si los prioris son unifor mes o casi ln P( wi ) 1 ( P( w j ) c i P( w j ) 0 i 1,.....c) g i ( x) ( x μ i ) ( x μ i ) r T 2 Decido : Asignar x a la clase wi* / i * arg min g i ( x) i 1..c El clasificad or de M ahalanobis es óptimo para clases con distribución normal con matrices de covarianza iguales y prioris equiprobables. i arbitraria s Caso III : g i (x) x Wi x w i x wi 0 T T 1 1 Wi 2 Σ i con w i Σ i1μ i 1 T 1 1 wi 0 μ i Σ i μ i ln(det Σ i ) ln P ( wi ) 2 2 Las superficies de decisión son hipercuádricas : hiperplanos o pares de hiperplanos, hiperesferas, hiperelipsoides, hiperparaboloides, hiperboloides. Duda Duda Las regiones de decisión no tienen porqué ser simplemente conexas. Ej: p(x/w2 ) P(w )= P(w ) 1 p(x/w1 ) R2 R1 R2 Para el caso de c clases las superficies de decisión son concatenación de pedazos de cuádricas. 2 Cotas de Error de Clasificación para Densidades Gaussianas P(error ) P(error / x) p (x)dx Decisión Bayesiana (C w1,w2 ) Decido w1 si P( w1 / x) P( w2 / x), w2 en otro caso P(error / x) min P( w1 / x), P( w2 / x) P(error ) min P( w1 / x) p (x), P( w2 / x) p(x)dx P(error ) min p (x / w1 ) P( w1 ), p(x / w2 ) P( w2 )dx El cálculo exacto requiere integració n numérica (impracticable en dimensión 3) Cotas de Error para Densidades Gaussianas Se puede estimar una cota superior del error usando la desigualda d : a,b 0 0,1 min a,b a b1 Supongamos sin pérdida de generalida d que a b a min a,b b b b 0,1 P(error ) P ( w1 )P1 ( w2 ) p (x / w1 ) p1 (x / w2 )dx Ejercicio M ostrar que si p (x / w1 ) N (μ i , Σ i ) 1 p ( x / w ) p (x / w2 )dx exp( k ( )) 1 con k ( ) (1 ) 2 μ 2 μ1 T ( Σ1 (1 ) Σ 2 ) 1 μ 2 μ1 1 det(Σ1 (1 ) Σ 2 ) ln 1 2 det(Σ1 ) det(Σ 2 ) P (error ) min P ( w1 ) P1 ( w2 ) exp( k ( )) 0 ,1 1 P ( w1 ) P( w2 ) exp k 2 Chernoff Bhattacharyya Bayesianos- Frecuentistas ¿Cómo clasificamos cuando no conocemos las probabilidades a priori? Frecuentistas: no tiene sentido hablar de priors solo tienen sentido los datos Discusión epistemológica: Bayesianos: probabilidad indica grado de creencia no tiene porque haber un experimento Frecuentistas: la probabilidad es la frecuencia de ocurrencia de un evento. Tiene que haber datos y experimento. Criterio de Neyman-Pearson constituye una alternativa frecuentista al enfoque Bayesiano. Teorema de Neyman-Pearson Enfoque alternativo a la minimización del riesgo de Bayes para la determinación de la regla de decisión. Neyman-Pearson: Maximiza la probabilidad de detección sujeto a una probabilidad de falsa alarma determinada. No involucra priors. La elección de uno u otro enfoque depende del problema. En los sistemas de radar y sonar se utiliza típicamente Neyman-Pearson mientras que en los sistemas de comunicación y reconocimiento de patrones se utiliza el riesgo Bayesiano. Teorema de Neyman-Pearson Considerem os test de hipótesis simple : H 0 : x f 0 (x) hipótesis nula, " lesión benigna" , normal H1 : x f1 (x) evento a detectar, " lesión maligna" , enfermo Ri : región donde se decide H i i 0 ,1 PFA probabilidad de falsa alarma f 0 f0(x) f1(x) R0 R1 (x)dx R1 PD probabilidad de detección f (x)dx 1 R1 Al ser las densidades positivas si aumenta PD aumenta PFA Solo puede ser PD 1 y PFA 0 si las densidades son disjuntas Criterio de Neyman-Pearson La regla de decisión se construye para maximizar PD bajo la restricción PFA≤α (el test de tamaño α de mayor potencia). Solución: Lema de Neyman-Pearson Para maximizar PD para una PFA dada la regla de decisión : H1 f1 (x) Λ(x) donde el umbral se calcula como : f 0 ( x) H0 PFA f (x)dx x: Λ(x) 0 Este test óptimo es único ( un conjunto de probabilidad nula bajo H 0 ,H1 ) Detección DC en presencia de ruido H 0: x[ k ] n[ k ] presencia de ruido H1: x[ k ] A n[ k ]) señal en presencia de ruido f 0 ( x ) N (0, ) f1 ( x ) N ( A, ) PFA A Q ( ) y PD Q ( ) Regla de decisión : Observado x decido H1 si : ( x) f1 ( x) f 0 ( x) Donde se elige para maximizar PD sujeto a PFA . Receiver Operating Characteristic (ROC) Una forma de resumir el desempeño de un detector NP es graficando PD contra PFA . Cada punto de la curva corresponde a una pareja (PD ,PFA) para un umbral dado. Ej : f 0 N ( 0 , ) 2 f1 N ( 1 , ) 2 PD 1 ROC determinad a por la " discrimina bilidad" d 1 0 d Discriminabilidad depende del diseño del receptor 1 PFA 01 0 11 1 1 roja 02 0 12 .6 1 azul d1 1 d 2 .4 01 0 11 1 01 11 1 roja 02 0 12 .8 02 1 12 .8 azul Característica de operación (ROC) Propiedad intrínseca del detector y no de los costos elegidos. PD 1 1 PFA En la práctica se varia un parámetro que afecta la regla de decisión y se grafica los resultados de la tasa de detecciones contra la tasa de falsa alarmas. Términos estadísticos para test de hipótesis Estadísticos Ingenieros Test estadístico y umbral Detector Hipótesis nula H0 Hipótesis solo ruido Hipótesis alternativa H1 Hipótesis señal + ruido Región crítica Región con presencia de señal Error tipo I (decido H1 cuando H0 verdadero) Falsa alarma Error tipo II (decido H0 cuando H1 verdadero) Pérdida Nivel de significancia o tamaño del test (α). Probabilidad de Falsa alarma (PFA) Probabilidad de Error tipo II (β) Probabilidad de pérdida(PM) Potencia del test (1-β) Probabilidad de detección(PD) Aplicación ROC a diagnóstico médico Ej: comparación de dos test de diagnóstico de diferentes laboratorios Sensibilidad: probabilidad de que un test resulte positivo cuando la enfermedad esta presente. Especificidad: probabilidad que un test resulte negativo cuando la enfermedad no está presente Determinación experimental PD y PFA Analizo en forma experimental utilizando un conjunto de test. Predicción + Predicción - Clase + TP FN Clase - FP TN Matriz de Confusión o Tabla de contingencia TP tasa de detección TP FN FP tasa de falsas alarmas FP TN PD PFA Graficando ROCs puedo comparar la discriminabilidad para comparar efectividad de tratamientos distintos. Construcción de curvas ROC Curvas ROC no paramétricas (funciones de distribución empírica ) ó paramétricas (ej. Binormal) Comparación de ROCs Curvas ROC empíricas de pruebas diagnósticas distintas con área bajo la curva similares pero comportamiento distinto. Comparación de ROCs y AUCs Imagen: Hastie et al. Comparación de algoritmos de clasificación distintos Otras medidas de desempeño Accuracy : TP TN A TP TN FP FN Recall : TP R TP FN Precision : P F - value : TP TP FP (1 2 )RP Fv 2P R 156 844 125 49875 573 427 1868 48132