Funciones discriminantes lineales DEFINICION CASO DOS CATEGORIAS Y MULTICATEGORIA FUNCIONES DISCRIMINANTES GENERALIZADAS Introducción 1 En el capitulo 3, las densidades de probabilidad subyacentes eran conocidas . La muestra de entrenamiento fue usada para estimar los parámetros de esas distribuciones de probabilidad (estimadores ML, MAP ). En este capítulo, solo sabemos las formas de las funciones discriminantes : similar a las técnicas noparametricas . Pueden no ser óptimas pero son muy fáciles de usar Nos proveen clasificadores lineales. Funciones discriminantes lineales 2 Un discriminante lineal es una función combinación lineal de componentes de x g(x) = wtx + w0 (1) donde w es el vector de pesos y w0 el de pesos Un clasificador lineal dicotómico con una función discriminante de la forma (1) usa la siguiente regla: Decide por1 si g(x) > 0 y 2 si g(x) < 0; Esto es equivalente a Decide por 1 si wtx > -w0 y 2 en otro caso Superficies de decisión: caso dicotómico 4 La ecuación g(x) = 0 define la superficie de decisión que separa puntos asignados a la categoría 1 de puntos asignados a la categoría 2 Cuando g(x) es lineal, la superficie de decisión es un hiperplano r es la distancia algebraica del punto x al hiperplano H, (la mínima distancia de un punto fijo a cualquier punto de un plano) 5 Notación 6 r. w x xp w r.w g(x) w x w0 w x p w w0 g(x p ) r w w t t t r w pues g(x p ) 0 y w .w w t g(x) r w w0 en particular d( 0 ,H) w 2 Resumen 7 Una función discriminante lineal divide el espacio de características por una superficie de decisión (hiperplano) La orientación de la superficie esta determinada por w, el vector normal a la superficie, y la posición de la superficie esta determinada por el desvío w0 El clasificador usa la siguiente regla: Decide por 1 si wtx > -w0 y 2 en otro caso 8 Hay mas de una forma de extender clasificadores lineales a mas de dos categorías. En la figura mostramos el mas simple y el mas complejo: i) c discriminantes lineales , casos wi- no wi ii) c(c1)/2 discriminantes lineales, uno por cada par Extension a varias clases 9 Se definen c funciones discriminantes lineales g i ( x ) w x wi 0 t i Se asigna x a i 1,..., c i si gi(x) > gj(x) j i; en caso de empates, la clasificación queda indefinida Un clasificador así se llama “linear machine” Una maquina lineal divide el espacio de características en c regiones de decisión, con gi(x) el discriminante mas grande si x esta en la región Ri 10 Linear machine 11 Dos regiones contiguas Ri and Rj; tienen como frontera que las separa a una porción de un hiperplano Hij definido por gi(x) = gj(x) Esto es (wi – wj)tx + (wi0 – wj0) = 0 (wi – wj) es normal a Hij d ( x, H ij ) gi ( x ) g j ( x ) wi w j Por lo cual, no son los vectores de pesos los importantes sino sus diferencias Es fácil mostrar que las regiones de decisión de una maquina lineal son convexas, esta restricción limita la flexibilidad y la precisión del clasificador Funciones discriminantes lineales generalizadas 12 Las fronteras de decisión que separan las clases no deberían ser siempre lineales La complejidad de las fronteras algunas veces piden el uso de superficies altamente no lineales Una forma muy popular de generalizar el concepto de funciones de decisión lineal es considerar una función de decisión generalizada como : g(x) = w1f1(x) + w2f2(x) + … + wNfN(x) + wN+1 (1) donde fi(x), 1 i N son funciones escalares del patrón x, x Rd (espacio euclideo) Funciones discriminantes lineales generalizadas 13 Introduciendo fn+1(x) = 1 se tiene: N 1 g ( x ) wi f i ( x ) a t y i 1 donde a ( w1 , w2 ,..., wN , wN 1 )T y (f1(x), f 2 ( x ),..., f N ( x ), f N 1 ( x ))T Esta ultima representación de g(x) implica que todo discriminante generalizado puede ser tratado como lineal en el espacio (N + 1) dimensional (N + 1 > d) g(x) mantienen sus características no lineales en Rd Funciones cuadráticas 14 Las funciones de decisión cuadráticas para un espacio de dos características son g ( x ) w x w2 x1 x2 w x w4 x1 w5 x2 w6 2 1 1 2 3 2 aqui a ( w1 , w2 , w3 , w4 , w5 , w6 )t , y ( x12 , x1 x2 , x22 , x1 , x2 ,1)t Para determinar la región de decisión óptima hay que estimar seis pesos (por discriminante) Región de decisión cuadrática 15 Para patrones en x Rd, la función de decisión cuadrática mas usada es: n n1 g ( x ) w ii x i 1 2 i n w i 1 j i 1 n ij xi x j wi xi wn 1 i 1 El numero de términos en el lado derecho es : n( n 1 ) ( n 1 )( n 2 ) l N 1 n n1 2 2 que es el número de parámetros libres del problema d = 3, el vector a es 10-dimensional d = 10, el vector a es 65-dimensional (2) Funciones de orden m 16 En el caso de funciones de decisión polinomiales de orden m, una fi(x) típica es : f i ( x) xie11 xie22 ...xiemm donde 1 i1 , i2 ,..., im n y ei ,1 i m es 0 o 1. Si f es polinomial con grado entre 0 y m, para no tener repeticiones se pide i1 i2 … im n n g ( x ) ... m i1 1 i 2 i1 n m 1 w x x ... x g (x) i1i2 ...im i1 i2 im i m i m 1 (donde g0(x) = wN+1) es la función de decisión polinomial de orden m mas general Ejemplo d=1, m=2 17 Una característica y grado dos en el polinomio Pattern Classification, Chapter 4 (Part 2) Ejemplo 1: sea d = 3 and m = 2 18 3 características y orden del polinomio dos 3 g ( x) 2 i1 1 3 w i2 i1 x x w1 x1 w2 x2 w3 x3 w4 i1i2 i1 i2 w11x12 w12 x1 x2 w13x1 x3 w22 x22 w23x2 x3 w33x32 w1 x1 w2 x2 w3 x3 w4 Para dos clases, Decide por1 si g2(x) > 0 y 2 si g2(x) < 0; Si g2(x) = 0, x se asigna a cualquiera de las clases Pattern Classification, Chapter 4 (Part 2) Ejemplo 2: Sea n = 2 y m = 3 19 Dos caracteristicas y orden de polinomio tres 2 g 3 ( x) i1 1 2 2 2 w x x x g i1i2i3 i1 i2 i3 ( x) i2 i1 i3 i2 w 111x13 w112x12 x2 w122x1 x22 w222x23 g 2 ( x) 2 donde g ( x) 2 i1 1 2 1 w x x g i1i2 i1 i2 ( x) i2 i1 w 11x12 w12 x1 x2 w22 x22 w1 x1 w2 x2 w3 Pattern Classification, Chapter 4 (Part 2) Representación caso cuadrático 20 La función discriminante cuadrática puede ser representada por una superficie cuadrática ndimensional g(x) = xTAx + xTb +c donde la matriz A = (aij), el vector b = (b1, b2, …, bk)T y c, dependen de los pesos wii, wij, wi de la ecuación (2) La matriz A es la que determina la forma y las características de la función de decisión Representación caso cuadrático 21 Si A es definida positiva entonces la función de decisión es un hiperelipsoide con ejes en las direcciones de los autovalores de A En particular: si A = Id (Identidad), la función de decisión es simplemente una hiperesfera ddimensional Si A es definida negativa la función de decisión describe un a hiperboloide Como ya hemos visto, estas son las superficies de decisión que aparecen en el caso Gaussiano general 22