Clase XI

Anuncio
Funciones discriminantes
lineales
DEFINICION CASO DOS CATEGORIAS Y
MULTICATEGORIA
FUNCIONES DISCRIMINANTES
GENERALIZADAS
Introducción
1
 En el capitulo 3, las densidades de probabilidad




subyacentes eran conocidas .
La muestra de entrenamiento fue usada para estimar
los parámetros de esas distribuciones de
probabilidad (estimadores ML, MAP ).
En este capítulo, solo sabemos las formas de las
funciones discriminantes : similar a las técnicas noparametricas .
Pueden no ser óptimas pero son muy fáciles de usar
Nos proveen clasificadores lineales.
Funciones discriminantes lineales
2
 Un discriminante lineal es una función combinación
lineal de componentes de x
g(x) = wtx + w0
(1)
donde w es el vector de pesos y w0 el de pesos
 Un clasificador lineal dicotómico con una función
discriminante de la forma (1) usa la siguiente regla:
Decide por1 si g(x) > 0 y 2 si g(x) < 0;
 Esto es equivalente a
Decide por 1 si wtx > -w0 y 2 en otro caso
Superficies de decisión: caso dicotómico
4
 La ecuación g(x) = 0 define la superficie de
decisión que separa puntos asignados a la
categoría 1 de puntos asignados a la categoría 2
 Cuando g(x) es lineal, la superficie de decisión es
un hiperplano
 r es la distancia algebraica del punto x al
hiperplano H, (la mínima distancia de un punto
fijo a cualquier punto de un plano)
5
Notación
6
r. w
x  xp 
w
r.w
g(x)  w x  w0  w x p  w
 w0  g(x p )  r w
w
t
t
t
r w
pues g(x p )  0 y w .w  w
t
g(x)
r
w
w0
en particular d( 0 ,H) 
w
2
Resumen
7
 Una función discriminante lineal divide el espacio
de características por una superficie de decisión
(hiperplano)
 La orientación de la superficie esta determinada
por w, el vector normal a la superficie, y la posición
de la superficie esta determinada por el desvío w0
 El clasificador usa la siguiente regla:
Decide por 1 si wtx > -w0 y 2 en otro caso
8
Hay mas de una forma
de extender
clasificadores lineales a
mas de dos categorías.
En la figura mostramos
el mas simple y el mas
complejo: i) c
discriminantes lineales
, casos wi- no wi ii) c(c1)/2 discriminantes
lineales, uno por cada
par
Extension a varias clases
9
 Se definen c funciones discriminantes lineales
g i ( x )  w x  wi 0
t
i
 Se asigna x a
i  1,..., c
i si gi(x) > gj(x)  j  i; en caso
de empates, la clasificación queda indefinida
 Un clasificador así se llama “linear machine”
 Una maquina lineal divide el espacio de
características en c regiones de decisión, con gi(x) el
discriminante mas grande si x esta en la región Ri
10
Linear machine
11
 Dos regiones contiguas Ri and Rj; tienen como frontera que las
separa a una porción de un hiperplano Hij definido por gi(x)
= gj(x)
 Esto es
(wi – wj)tx + (wi0 – wj0) = 0
 (wi – wj) es normal a Hij
d ( x, H ij ) 
gi ( x )  g j ( x )
wi  w j
 Por lo cual, no son los vectores de pesos los importantes sino
sus diferencias
 Es fácil mostrar que las regiones de decisión de una maquina
lineal son convexas, esta restricción limita la flexibilidad y la
precisión del clasificador
Funciones discriminantes lineales generalizadas
12
 Las fronteras de decisión que separan las clases no
deberían ser siempre lineales
 La complejidad de las fronteras algunas veces piden el
uso de superficies altamente no lineales
 Una forma muy popular de generalizar el concepto de
funciones de decisión lineal es considerar una función de
decisión generalizada como :
g(x) = w1f1(x) + w2f2(x) + … + wNfN(x) + wN+1
(1)
donde fi(x), 1  i  N son funciones escalares del patrón x,
x  Rd (espacio euclideo)
Funciones discriminantes lineales generalizadas
13
 Introduciendo fn+1(x) = 1 se tiene:
N 1
g ( x )   wi f i ( x )  a t y
i 1
donde a  ( w1 , w2 ,..., wN , wN 1 )T y  (f1(x), f 2 ( x ),..., f N ( x ), f N 1 ( x ))T
 Esta ultima representación de g(x) implica que todo
discriminante generalizado puede ser tratado como
lineal en el espacio (N + 1) dimensional (N + 1 > d)
 g(x) mantienen sus características no lineales en Rd
Funciones cuadráticas
14
 Las funciones de decisión cuadráticas para un espacio de
dos características son
g ( x )  w x  w2 x1 x2  w x  w4 x1  w5 x2  w6
2
1 1
2
3 2
aqui a  ( w1 , w2 , w3 , w4 , w5 , w6 )t , y  ( x12 , x1 x2 , x22 , x1 , x2 ,1)t
 Para determinar la región de decisión óptima hay que
estimar seis pesos (por discriminante)
Región de decisión cuadrática
15
 Para patrones en x Rd, la función de decisión cuadrática
mas usada es:
n
n1
g ( x )   w ii x  
i 1
2
i
n
w
i 1 j  i 1
n
ij
xi x j   wi xi  wn 1
i 1
 El numero de términos en el lado derecho es :
n( n  1 )
( n  1 )( n  2 )
l  N 1 n
n1
2
2
que es el número de parámetros libres del problema
 d = 3, el vector a es 10-dimensional
 d = 10, el vector a es 65-dimensional
(2)
Funciones de orden m
16
 En el caso de funciones de decisión polinomiales de
orden m, una fi(x) típica es :
f i ( x)  xie11 xie22 ...xiemm
donde 1  i1 , i2 ,..., im  n y ei ,1  i  m es 0 o 1.
 Si f es polinomial con grado entre 0 y m, para no tener
repeticiones se pide i1  i2  … im
n
n
g ( x )    ...
m
i1  1 i 2  i1
n
m 1
w
x
x
...
x

g
(x)
 i1i2 ...im i1 i2 im
i m  i m 1
(donde g0(x) = wN+1) es la función de decisión polinomial
de orden m mas general
Ejemplo d=1, m=2
17
 Una característica y grado dos en el polinomio
Pattern Classification, Chapter 4
(Part 2)
Ejemplo 1: sea d = 3 and m = 2
18
 3 características y orden del polinomio dos
3
g ( x)  
2
i1 1
3
w
i2 i1
x x  w1 x1  w2 x2  w3 x3  w4
i1i2 i1 i2
 w11x12  w12 x1 x2  w13x1 x3  w22 x22  w23x2 x3  w33x32
 w1 x1  w2 x2  w3 x3  w4
 Para dos clases,


Decide por1 si g2(x) > 0 y 2 si g2(x) < 0;
Si g2(x) = 0, x se asigna a cualquiera de las clases
Pattern Classification, Chapter 4
(Part 2)
Ejemplo 2: Sea n = 2 y m = 3
19
 Dos caracteristicas y orden de polinomio tres
2
g 3 ( x)  
i1 1
2
2
2
w
x
x
x

g
 i1i2i3 i1 i2 i3 ( x)

i2 i1 i3 i2
 w 111x13  w112x12 x2  w122x1 x22  w222x23  g 2 ( x)
2
donde g ( x)  
2
i1 1
2
1
w
x
x

g
 i1i2 i1 i2 ( x)
i2 i1
 w 11x12  w12 x1 x2  w22 x22  w1 x1  w2 x2  w3
Pattern Classification, Chapter 4
(Part 2)
Representación caso cuadrático
20
 La función discriminante cuadrática puede ser
representada por una superficie cuadrática ndimensional
g(x) = xTAx + xTb +c
donde la matriz A = (aij), el vector b = (b1, b2, …, bk)T
y c, dependen de los pesos wii, wij, wi de la ecuación
(2)
 La matriz A es la que determina la forma y las
características de la función de decisión
Representación caso cuadrático
21
 Si A es definida positiva entonces la función de
decisión es un hiperelipsoide con ejes en las
direcciones de los autovalores de A
 En particular: si A = Id (Identidad), la función de
decisión es simplemente una hiperesfera ddimensional
 Si A es definida negativa la función de decisión
describe un a hiperboloide
 Como ya hemos visto, estas son las superficies de
decisión que aparecen en el caso Gaussiano general
22
Descargar