1 - Universidad Veracruzana

Anuncio
Aprendizaje Estadístico, Redes Neuronales y
Support Vector Machines: Un enfoque global
Miguel González Mendoza
mgonza@itesm.mx
ITESM CEM: Intelligent Transportation Systems Research Group
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
Contenido
I.
La teoría del aprendizaje estadístico
II.
El enfoque neuronal
III.
Las máquinas a soporte vectorial, SVM
IV.
El mecanismo de aprendizaje de las SVM
V.
Aplicaciones
VI.
Conclusiones
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
2
El problema del aprendizaje
Tipos de aprendizaje
Aprendizaje supervisado
Se tienen datos empíricos (datos de un proceso, indicadores de
mercado, …), xi∈X (Rn), acompañados de su objetivo yi∈Y , i=1, …, ,
(estados de fabricación, precio de acciones, …) y se quiere encontrar
una función f relacionando x con y.
y∈{–1,1}
 Clasificación
y∈R
 Regresión
Aprendizaje no supervisado
Se tienen datos xi∈X (Rn) y se busca encontrar regularidades o formas
interesantes a partir de estos datos.
 Estimación de Densidad
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
3
Teoría del aprendizaje estadístico
Error de aprendizaje
Clasificación
0 Si y = f ( x)
L( y , f ( x)) = 
1 Si y ≠ f (x )
Es el error medio del conjunto de aprendizaje
1
Remp [ f ] = ∑ L( yi , f ( x i ) )
 i =1
Regresión
2
L( y, f (x)) = ( y − f (x) )
conocido como el riesgo empírico.
Error previsto
Es el error medio que se puede prever para las nuevas observaciones.
R[ f ] = ∫ L ( y, f (x))dP( x, y )
conocido como el riesgo previsto (expected risk).
Principio de minimización del riesgo empírico (ERM)
Conexión entre el error de aprendizaje y el error previsto. ¿Que podemos decir de R
[f], a partir de Remp[f]? Evidentemente, R[f] es más pequeño (o igual en el caso
idílico) que el error de aprendizaje.
R[ f ] ≤ Remp [ f ] +
18 de Febrero de 2005
h( log ( 2h ) + 1) − log
()
η
4
Universidad Veracruzana, Xalapa, México
4
Teoría del aprendizaje estadístico
Principio inductivo de Minimización Estructural del Riesgo (SRM)
Su objetivo es el de minimizar el riesgo empírico y el intervalo de
confianza al mismo tiempo, eligiendo el elemento S k más apropiado y
que minimiza el borne:
η
R[ f ] ≤ Remp [ f ] +
h( log ( 2h ) + 1) − log
()
4
Error
R[f h*]
Borne real del riesgo
Intervalo de confianza
Generalización
Riesgo empírico
Error de aprendizaje
h*–1
Sh*–1
18 de Febrero de 2005
h*+1
h*
Sh*
Sh*+1
Complejidad
 es el número de elementos de aprendizaje,
h es la dimensión de Vapnik-Chernovenkis,
η 0≤η≤1 (1–η probabilidad de validez del borne o frontera)
Universidad Veracruzana, Xalapa, México
5
Contenido
I.
La teoría del aprendizaje estadístico
II.
El enfoque neuronal
III.
Las máquinas a soporte vectorial, SVM
IV.
El mecanismo de aprendizaje de las SVM
V.
Aplicaciones
VI.
Conclusiones
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
6
El perceptron monocapa y el perceptron multicapa
El perceptron monocapa (single layer perceptron, SLP) es el modelo
matemático simplificado de una neurona biológica.
• El cerebro está compuesto de millones de neuronas con un nivel de interconexión
elevado.
• En una red neuronal artificial las neuronas están organizadas en capas y las
neuronas de una capa se interconectan a las de la capa siguiente
x1
Arborización axonal
w1
x2
x3
w2
w3
w1r (1)
x1
w11 (1)
w12 (1)
w11 ( 2 )
w12 ( 2)
w1t ( 2 )
Axona de otra neurona
Sinápsis
(
Dendrite
T
f w x+b
)
ŷ
w12 (1)
x2
Axona
w22 (1)
w (1)
x3
w12 ( 2 )
w22 ( 2 )
Núcleo
Entrada
18 de Febrero de 2005
Suma Cuerpo
y función
dede
la neurona
o
Salida
activación soma
ŷ
t
2
w1t ( 3)
w1n (1)
xn
b
Pesos
w12 ( 3)
w ( 2)
r
2
wn
xn
w11 ( 3)
Synapsis
Capa de
entrada
Universidad Veracruzana, Xalapa, México
wn2 (1)
wnr (1)
wt1 ( 2 )
wr2 ( 2 )
wrt ( 2 )
Capas ocultas
Capa de salida
7
Las redes neuronales
Maquinas lineales
El perceptron monocapa considera un conjunto de funciones
lineales:
yˆ = f ( w T x + b )
donde f(net) es una función indicador lineal
Signe
Tangente hyperbolique
if net > 0
if net = 0
if net < 0
e net − e − net
f tanh ( net ) = net
e + e −net
f(net)
 1

f sgn ( net ) =  0
− 1

1
-1
-1
net
18 de Febrero de 2005
f(net)
1
Universidad Veracruzana, Xalapa, México
net
8
Las redes neuronales
Maquinas no lineales
Objetivo: Obtener fronteras de decisión no lineales utilizando algorítmos
lineales, transformando los vectores de entrada x en un espacio de
dimensión más importante con ayuda de una función no lineal, elegida
a priori.
φ ( x ) = [ xi1 ,
, xid ], avec 1 ≤ i1
id ≤ n,
ejemplos:
Polinomial
lineales
k
z β = φ β ( x ) = ( v Tβ x ) + c β
18 de Febrero de 2005
Funciones de base radial2
n
zβ = ∏
i =1
1
2
2 πσ β
 x −v
i
βi
exp −
2
2σ β


(
)




Universidad Veracruzana, Xalapa, México
Sumas ponderadas no
(
z β = φ β ( x) = f v Tβ x + cβ
)
9
Las redes neuronales
Maquinas no lineales
 Transformación de técnicas lineales en espacios de
características: Los parámetros σβ, cβ, y vβ se eligen a priori. El resto
es encontrar los parámetros w y b del clasificador final. Problema: la
maldición de la dimensión.
n
β
yˆ = ∑ wβ z β + b = w T z + b = wT φ ( x) + b
β =1
 El perceptron multicapa, MLP: En este esquema los coeficientes cβ,
y vβ son sumas ponderadas no lineales que deben encontrarse a
partir del conjunto
φβ ( x ) = f ( w Tβ x + cβ )
( x) + b
yˆ = de
w Tφaprendizaje
con
 Las redes de funciones a base radial, RBFN: Arquitectura de una
sóla capa oculta. Los coeficientes σβ y vβ de las funciones de base
2
radial ndeben ser encontrados a partir
del conjunto
 x − v de
 datos de
n
1
i
βi

aprendizaje
φ β ( xi ) = z β = ∏
exp −
∑ wcβ φ ( x )
2

β
yˆ =
β =1
nβ
∑w
β =1
18 de Febrero de 2005
i =1
iβ
con
φβ ( x i ) = z β =
( 2π )
2
2πσ β
n/2


( 2σ )
β
(


1
T
exp − 12 ( x i − v β ) A −β1 ( xi − v β )
det( A β )
Universidad Veracruzana, Xalapa, México
)
Aβ : matriz de varianza covarianza
10
Las redes neuronales
Proceso de aprendizaje
Para encontrar los parámetros w y b, hay que minimizar una cierta
función de costo. Una función objetivo general es:
η
h( log ( 2h ) + 1) − log ( 4 )
1
T
2 2
R[ f ] ≤ Remp [ f ] +
J = ∑ ϑ ( y i − f ( x i ) ) + λ( w w − c )
 i =1
yi es la salids deseada (objetivo) para la entrada xi (iésima observación)
 es el número de vectores de aprendizaje,
ϑ es la función de pérdida, y
λ y c2 son parámetros del término de penalización (regularización).
3
Función de pérdida
Gausiana o cuadrática
Modelo de densidad
ϑ (ξ ) = 12 ξ 2
p (ξ ) =
 21σ ξ 2
ϑ (ξ ) = 
 ξ
de Huber
ε–insensible
( )
si ξ < σ
de lo contrario
( )
ϑ (ξ ) = ξ ε
2
1
2 (1+ε )
2
2
1.5
1.5
(
exp − ξ ε
1
1
0.5
0.5
0
-3
3
exp − ξ2
si ξ < σ
p (ξ ) ∝ 
σ
exp
(
−
ξ
)
de
lo contrario

2
p(ξ ) =
fonction de perte
densite
2.5
2
exp − ξ2
p (ξ ) = 12 exp( − ξ )
ϑ (ξ ) = ξ
Laplaciana
1
2π
3
fonction de perte
densite
2.5
)
-2
-1
0
1
2
3
fonction de perte
densite
2.5
0
-3
3
2
1.5
1.5
1
1
0.5
0.5
-2
-1
0
1
2
-1
0
3
0
-3
1
2
3
fonction de perte
densite
2.5
2
0
-3
-2
-2
-1
0
1
2
3
El método del gradiente (conocido con el nombre de regla delta para
el perceptron y backpropagation para el perceptron multicapas) es el
método más utilizado.
∂J ( k )
∂J k
w ( k +1) = w ( k ) − η
18 de Febrero de 2005
∂w
b( k +1) = b( k ) − η
Universidad Veracruzana, Xalapa, México
∂b
11
Las redes neuronales
Ejemplo:
Encontrar una frontera de decisón que separe parating el espacio en dos
regiones.
 Problema de optimización
Criterio: Error calculado en los datos (Error empírico).
Espacio de búsqueda: conjunto de funciones paramétricas, por ejemplo.
 Problema mal condicionado (solución no única).
 ¿Garantías?
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
12
Las redes neuronales
Bajo-aprendizaje y sobre-aprendizaje
Si los datos son generados por un modelo cuadrático:
 El modelo lineal corresponde a una situación de bajo-aprendizaje.
 El modelo de alto grado corresponde a una situación de sobre-aprendizaje.
 Necesidad de encontrar un compromiso entre la adecuación de los datos y
la complejidad que sea capaz de generalizar.
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
13
Contenido
I.
La teoría del aprendizaje estadístico
II.
El enfoque neuronal
III.
Las máquinas a soporte vectorial, SVM
IV.
El mecanismo de aprendizaje de las SVM
V.
Aplicaciones
VI.
Conclusiones
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
14
Las máquinas a soporte vectorial
Las máquinas a soporte vectorial (support vector machines, SVM) son
máquinas, de base lineal y a solución única, fundadas teoría del
aprendizaje estadístico.
Principio general
 Construcción de un clasificador en números reales
 Descomposición del problema en varios sub-problemas
1. Construcción de un separador lineal óptimo
2. Transformación no lineal del espacio de entrada
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
15
Las máquinas a soporte vectorial
Caso lineal
La idea de base: el margen óptimo
Función de decisión:
Definición del hiperplano (frontera de decisión):
Distancia de un punto al hiperplano:
f(x) = wTx+b
wTx+b = 0
d ( x) =
wTx + b
w
Entonces, maximizar el margen es equivalente a minimizar ||w||.
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
16
Las máquinas a soporte vectorial
Caso lineal
Problema primal
Un punto xi será bien clasificado si y solo si:
yif(xi)>0
pero como el par w, b está asociado a un coeficiente de multiplicación,
se impone:
yif(xi)≥1
Así tenemos un problema de optimización cuadrático QP:
Minimizar
w, ξ, b
Sujeto a :
(
(
)
1 T


w w + C ∑ ξ i 
2
 i =1 
T
yi w xi + b ≥ 1 − ξi ,
)
ξ ≥ 0,
i = 1,
,
i
Problema dual
Utilización de los multiplicadores de Lagrange para cada restricción
Maximizar
α
Sujeto a :

1 
LD (α ) = ∑ α i − ∑ α iα j yi y j ( x Ti x j )
2 i , j =1
i =1

∑ yα
i =1
i
i
= 0,
0 ≤ αi ≤ C
i = 1,
,
T
(
x
i
Problema de dimensión  (número de ejemplos). Matriz Hessiana: x j )ij
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
17
Las máquinas a soporte vectorial
Caso lineal
Propiedades
Sólo los multiplicadores αi asociados a los puntos más cercanos al
hiperplano son diferentes de cero. Estos puntos forman el conjunto de
los Vectores de Soporte.
w * = ∑ α *i yi x i
i =1
Función de decisión:
f ( x) = w T x + b
nsv
w = ∑ α i y i xi
*
i =1
f (x ) = ∑ α i* yix Ti x + b
i =1
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
18
Las máquinas a soporte vectorial
Caso no lineal
Proyección del espacio de entrada a un espacio de Hilbert de dimensión
más importante a través de funciones kernel o núcleo:
∞
φ ( x1 ) φ ( x2 ) = ( z1 z 2 ) = ∑ ar z r ( x1 ) z r ( x 2 ) ⇔ k (x1 , x 2 )
T
T
Ejemplo:
Sea x = [x1 x2]T y
r =1
φ ( x) = ( x12 , 2 x1x2 ,x22 )
en el espacio resultante, el producto vectorial es:
φ ( x) T φ ( x' ) = x12 x'12 + 2 x1 x2 x' 1 x' 2 + x 22 x' 22
x2
= ( x1 x'1 + x2 x' 2 ) 2
z3
(
= xT x'
z1
x1
z2
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
)
2
Por lo tanto, se puede
calcular φ(x)T φ(x’) sin
calcular φ.
19
Las máquinas a soporte vectorial
Caso no lineal
Las funciones kernel más utilizadas son:
 x −x
k ( x1 , x 2 ) = exp − 1 2 2

2σ

k ( x1 , x 2 ) = ((x1T x 2 ) + 1) 2
(
2
)




k ( x1 , x 2 ) = tanh (κ ( x1T x 2 ) + δ )
Tomando el kernel, el problema de optimización final es:
Maximizar
α
Sujeto a :

LD (α ) = ∑ α i −
i =1

∑yα
i =1
i
i
= 0,
0 ≤ αi ≤ C
18 de Febrero de 2005
1 
∑ α iα j yi y j k (x i , x j )
2 i , j =1
i = 1,
,
Universidad Veracruzana, Xalapa, México
20
Contenido
I.
La teoría del aprendizaje estadístico
II.
El enfoque neuronal
III.
Las máquinas a soporte vectorial, SVM
IV.
El mecanismo de aprendizaje de las SVM
V.
Aplicaciones
VI.
Conclusiones
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
21
El mecanismo de aprendizaje de las SVM
La fase de aprendizaje de las SVM necesita resolver el problema QP:
Minimizar
α
1
q (α ) = α T Qα − 1T α
2
y T α = 0,
Sujeto a :
con:





0≤α ≤C
(Q)ij = yiyj k(xi,xj), i,j=1, …, ,
α = [α1,…, α]T
1 = [11,…, 1]T
y = [y1 ,…, y]T
C = [C 1,…, C ]T
Condiciones de optimalidad (Karush-Kuhn-Tucker, KKT):
y T α = 0 , α ≥ 0 and C − α ≥ 0
Qα − 1 + γy − β + χ = 0 , β ≥ 0 and χ ≥ 0
β Tα = 0 and χ T (α − C) = 0
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
(primal feasibility)
(dual feasibility)
(complementary
conditions)
22
El mecanismo de aprendizaje de las SVM
Los principales métodos de optimización para resolver los QP son:
 Métodos de conjunto activo
 Métodos Primales
 Métodos Duales
 Métodos de punto interior, que buscan aprovechas las condiciones
complementarias guardando la realizabilidad primal y dual al mismo
tiempo
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
23
El mecanismo de aprendizaje de las SVM
Características:
 Convergencia a un sistema globalmente óptimo.
 Incluye la capacidad del control del nivel de complejidad.
 Construcción basada en un problema de optimización cuadrática.
Inconvenientes:
 Problemas de consumo informático para los problemas de gran escala
de memoria : La matriz Hessiana requiere un espacio de memoria igual a
 Talla
2
ℓ.
(x iT x j )ij
 Tiempo de cálculo : de crecimiento exponencial ℓ2.
 Para un problema real de 10,000 ejemplos, es necesario:
 una memoria de 800MB, sólo para guardar la matriz Hessiana
 varios días de cálculo
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
24
El mecanismo de aprendizaje de las SVM
Descomposición del problema de optimización cuadrático SVM
Minimizar
α A ,α N
1 α A 
q (α A , α N ) =  
2 α N 
Bajo las restriccio nes :
T
Q AA
Q
 NA
Q AN   α A   1A 
−
Q NN  α N  1N 
y A 
 
y N 
T
α A 
  = 0,
α N 
T
α A 
α 
 N
Minimizar
αA
q (α A ) =
Bajo las restriccio nes :
1 T
α A Q Aα A − 1T α A
2
y TAα A = 0,
0A ≤ α A ≤ CA
 0 A   α A  C A 
0  ≤ α  ≤ C 
 N  N  N 
8. Elección de un conjunto activo inicial A de talla nA.
9. Resolver el QP definido por el conjunto activo A.
10. Mientras que exista j∈N sin satisfacer yjg(xj)>1, con


g ( x i ) = ∑ α j y j k ( x j , xi ) + b
j =1
Desplazar los nA vectores xj más erróneos al conjunto activo A,
Desplazar todos los vectores xi con αi=0, i∈A, al conjunto N, y regresar al paso
2
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
25
Contenido
I.
La teoría del aprendizaje estadístico
II.
El enfoque neuronal
III.
Las máquinas a soporte vectorial, SVM
IV.
El mecanismo de aprendizaje de las SVM
V.
Aplicaciones
VI.
Conclusiones
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
26
Aplicaciones
Predicción en la bolsa de valores
Dos principales etapas:
 Predicción de cada índice bursatil o acción
 Optimización del portafolio de acciones
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
27
Aplicaciones
Modelos SVM–difusos
Comparado a las técnicas:
 Fuzzy C-means, FCM
 Gustafson-Kessel, GK
Fuzzy C-Means
18 de Febrero de 2005
Fuzzy Gustafson-Kessel
Fuzzy SVM
Universidad Veracruzana, Xalapa, México
28
Aplicaciones
Identificación de modelos TS para sistemas MIMO
Comparación de la precisión de la predicción de los modelos FCM-TS, GK-TS et SVM-TS (VAF).
Identificación
M odelo difuso GK-TS
M odelo difuso SVM -TS
Concentración de biomasa
98.5309 %
99.0082 %
99.7626 %
Substrato xenobiótico
98.2171 %
99.1278 %
99.7201 %
Substrato energético
96.9935 %
94.5855 %
99.8391 %
Concentración de biomasa
96.0185 %
96.8809 %
98.9975 %
Substrato xenobiótico
98.4601 %
98.4731 %
99.5593 %
Substrato energético
97.5849 %
72.5222 %
99.7848 %
Xenobiotic substrate Biomass concentration
1
Original
Fuzzy-FCM
Fuzzy-GK
Fuzzy-SVM
0.5
0
1
Original
Fuzzy-FCM
Fuzzy-GK
Fuzzy-SVM
0.5
0
0.6
Energetic substrate
Energetic substrate
Xenobiotic substrate Biomass concentration
Validación
M odelo difuso FCM -TS
Original
Fuzzy-FCM
Fuzzy-GK
Fuzzy-SVM
0.4
0.2
0
100
200
18 de Febrero de 2005
300
400
500
600
Time (sec)
700
800
900
1000
1
Original
Fuzzy-FCM
Fuzzy-GK
Fuzzy-SVM
0.5
0
1
Original
Fuzzy-FCM
Fuzzy-GK
Fuzzy-SVM
0.5
0
0.6
Original
Fuzzy-FCM
Fuzzy-GK
Fuzzy-SVM
0.4
0.2
0
100
200
Universidad Veracruzana, Xalapa, México
300
400
500
600
Time (sec)
700
800
900
1000
29
Aplicaciones
Los sistemas de transporte inteligentes, ITS
 La seguridad vial es un tema prioritario.
 Cambia el paradigma de la ayuda a la supervivencia de los ocupantes,
durante un accidente, a la asistencia al conductor.
Productos de Información
diagnóstico/pronóstico
18 de Febrero de 2005
Productos de
Universidad Veracruzana, Xalapa, México
30
Aplicaciones
Nivel de criticidad de las situaciones
Los sistemas de asistencia al manejo
Seguridad Pasiva
6.
Seguridad Activa
4.
3.
2.
1.
M anejo
Norm al
Sistem as
de
asistencia
Sistem as
de alerta
5.
Crash
Probabilidad de Crash
Sistem as
de
seguridad
autom ático
s
Sistem as
de
seguridad
para
m inim izar
el im pacto
Sistem as
de
seguridad
Soft Level
Sistem as
de
seguridad
Hard Level
Evitar la cilisión
7.
Sistem as
de
seguridad
post crash
Socorro
Ejemplos ADAS
Fase de precrash
Seguridad básica del vehículo
ACC
Stop & Go
Etc…
18 de Febrero de 2005
Alerta de
salida de la
vía
Asistencia
en el
frenado
Sistema de
frenado de
urgencia,
evitar la
collision
Protección de los pasajeros
Airbag
peatones
Estimación de la
severidad del accidente
por el nivel de ignición y
de la tensión de los
cinturones de seguridad
Universidad Veracruzana, Xalapa, México
Sistemas de
emergencia
Cruz Roja
31
Contenido
I.
La teoría del aprendizaje estadístico
II.
El enfoque neuronal
III.
Las máquinas a soporte vectorial, SVM
IV.
El mecanismo de aprendizaje de las SVM
V.
Aplicaciones
VI.
Conclusiones
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
32
Conclusiones
 Los algoritmos de aprendizaje son, en su base, algoritmos de


optimización.
No hay algoritmos que puedan resolver todo. La estrategia de
solución de un problema depende de las restricciones impuestas
(tiempo de cálculo, requerimientos informáticos, calidad de la
solución, etc.)
En general, la metodología de las SVM brinda buenos resultados,
pero el principal problema reside en los requerimientos para el
cálculo.
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
33
¿Preguntas?
Aprendizaje Estadístico, Redes Neuronales
y Support Vector Machines: Un enfoque
global
Miguel González Mendoza
mgonza@itesm.mx
ITESM CEM: Intelligent Transportation Systems Research Group
18 de Febrero de 2005
Universidad Veracruzana, Xalapa, México
Descargar