Aprendizaje Estadístico, Redes Neuronales y Support Vector Machines: Un enfoque global Miguel González Mendoza mgonza@itesm.mx ITESM CEM: Intelligent Transportation Systems Research Group 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México Contenido I. La teoría del aprendizaje estadístico II. El enfoque neuronal III. Las máquinas a soporte vectorial, SVM IV. El mecanismo de aprendizaje de las SVM V. Aplicaciones VI. Conclusiones 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 2 El problema del aprendizaje Tipos de aprendizaje Aprendizaje supervisado Se tienen datos empíricos (datos de un proceso, indicadores de mercado, …), xi∈X (Rn), acompañados de su objetivo yi∈Y , i=1, …, , (estados de fabricación, precio de acciones, …) y se quiere encontrar una función f relacionando x con y. y∈{–1,1} Clasificación y∈R Regresión Aprendizaje no supervisado Se tienen datos xi∈X (Rn) y se busca encontrar regularidades o formas interesantes a partir de estos datos. Estimación de Densidad 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 3 Teoría del aprendizaje estadístico Error de aprendizaje Clasificación 0 Si y = f ( x) L( y , f ( x)) = 1 Si y ≠ f (x ) Es el error medio del conjunto de aprendizaje 1 Remp [ f ] = ∑ L( yi , f ( x i ) ) i =1 Regresión 2 L( y, f (x)) = ( y − f (x) ) conocido como el riesgo empírico. Error previsto Es el error medio que se puede prever para las nuevas observaciones. R[ f ] = ∫ L ( y, f (x))dP( x, y ) conocido como el riesgo previsto (expected risk). Principio de minimización del riesgo empírico (ERM) Conexión entre el error de aprendizaje y el error previsto. ¿Que podemos decir de R [f], a partir de Remp[f]? Evidentemente, R[f] es más pequeño (o igual en el caso idílico) que el error de aprendizaje. R[ f ] ≤ Remp [ f ] + 18 de Febrero de 2005 h( log ( 2h ) + 1) − log () η 4 Universidad Veracruzana, Xalapa, México 4 Teoría del aprendizaje estadístico Principio inductivo de Minimización Estructural del Riesgo (SRM) Su objetivo es el de minimizar el riesgo empírico y el intervalo de confianza al mismo tiempo, eligiendo el elemento S k más apropiado y que minimiza el borne: η R[ f ] ≤ Remp [ f ] + h( log ( 2h ) + 1) − log () 4 Error R[f h*] Borne real del riesgo Intervalo de confianza Generalización Riesgo empírico Error de aprendizaje h*–1 Sh*–1 18 de Febrero de 2005 h*+1 h* Sh* Sh*+1 Complejidad es el número de elementos de aprendizaje, h es la dimensión de Vapnik-Chernovenkis, η 0≤η≤1 (1–η probabilidad de validez del borne o frontera) Universidad Veracruzana, Xalapa, México 5 Contenido I. La teoría del aprendizaje estadístico II. El enfoque neuronal III. Las máquinas a soporte vectorial, SVM IV. El mecanismo de aprendizaje de las SVM V. Aplicaciones VI. Conclusiones 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 6 El perceptron monocapa y el perceptron multicapa El perceptron monocapa (single layer perceptron, SLP) es el modelo matemático simplificado de una neurona biológica. • El cerebro está compuesto de millones de neuronas con un nivel de interconexión elevado. • En una red neuronal artificial las neuronas están organizadas en capas y las neuronas de una capa se interconectan a las de la capa siguiente x1 Arborización axonal w1 x2 x3 w2 w3 w1r (1) x1 w11 (1) w12 (1) w11 ( 2 ) w12 ( 2) w1t ( 2 ) Axona de otra neurona Sinápsis ( Dendrite T f w x+b ) ŷ w12 (1) x2 Axona w22 (1) w (1) x3 w12 ( 2 ) w22 ( 2 ) Núcleo Entrada 18 de Febrero de 2005 Suma Cuerpo y función dede la neurona o Salida activación soma ŷ t 2 w1t ( 3) w1n (1) xn b Pesos w12 ( 3) w ( 2) r 2 wn xn w11 ( 3) Synapsis Capa de entrada Universidad Veracruzana, Xalapa, México wn2 (1) wnr (1) wt1 ( 2 ) wr2 ( 2 ) wrt ( 2 ) Capas ocultas Capa de salida 7 Las redes neuronales Maquinas lineales El perceptron monocapa considera un conjunto de funciones lineales: yˆ = f ( w T x + b ) donde f(net) es una función indicador lineal Signe Tangente hyperbolique if net > 0 if net = 0 if net < 0 e net − e − net f tanh ( net ) = net e + e −net f(net) 1 f sgn ( net ) = 0 − 1 1 -1 -1 net 18 de Febrero de 2005 f(net) 1 Universidad Veracruzana, Xalapa, México net 8 Las redes neuronales Maquinas no lineales Objetivo: Obtener fronteras de decisión no lineales utilizando algorítmos lineales, transformando los vectores de entrada x en un espacio de dimensión más importante con ayuda de una función no lineal, elegida a priori. φ ( x ) = [ xi1 , , xid ], avec 1 ≤ i1 id ≤ n, ejemplos: Polinomial lineales k z β = φ β ( x ) = ( v Tβ x ) + c β 18 de Febrero de 2005 Funciones de base radial2 n zβ = ∏ i =1 1 2 2 πσ β x −v i βi exp − 2 2σ β ( ) Universidad Veracruzana, Xalapa, México Sumas ponderadas no ( z β = φ β ( x) = f v Tβ x + cβ ) 9 Las redes neuronales Maquinas no lineales Transformación de técnicas lineales en espacios de características: Los parámetros σβ, cβ, y vβ se eligen a priori. El resto es encontrar los parámetros w y b del clasificador final. Problema: la maldición de la dimensión. n β yˆ = ∑ wβ z β + b = w T z + b = wT φ ( x) + b β =1 El perceptron multicapa, MLP: En este esquema los coeficientes cβ, y vβ son sumas ponderadas no lineales que deben encontrarse a partir del conjunto φβ ( x ) = f ( w Tβ x + cβ ) ( x) + b yˆ = de w Tφaprendizaje con Las redes de funciones a base radial, RBFN: Arquitectura de una sóla capa oculta. Los coeficientes σβ y vβ de las funciones de base 2 radial ndeben ser encontrados a partir del conjunto x − v de datos de n 1 i βi aprendizaje φ β ( xi ) = z β = ∏ exp − ∑ wcβ φ ( x ) 2 β yˆ = β =1 nβ ∑w β =1 18 de Febrero de 2005 i =1 iβ con φβ ( x i ) = z β = ( 2π ) 2 2πσ β n/2 ( 2σ ) β ( 1 T exp − 12 ( x i − v β ) A −β1 ( xi − v β ) det( A β ) Universidad Veracruzana, Xalapa, México ) Aβ : matriz de varianza covarianza 10 Las redes neuronales Proceso de aprendizaje Para encontrar los parámetros w y b, hay que minimizar una cierta función de costo. Una función objetivo general es: η h( log ( 2h ) + 1) − log ( 4 ) 1 T 2 2 R[ f ] ≤ Remp [ f ] + J = ∑ ϑ ( y i − f ( x i ) ) + λ( w w − c ) i =1 yi es la salids deseada (objetivo) para la entrada xi (iésima observación) es el número de vectores de aprendizaje, ϑ es la función de pérdida, y λ y c2 son parámetros del término de penalización (regularización). 3 Función de pérdida Gausiana o cuadrática Modelo de densidad ϑ (ξ ) = 12 ξ 2 p (ξ ) = 21σ ξ 2 ϑ (ξ ) = ξ de Huber ε–insensible ( ) si ξ < σ de lo contrario ( ) ϑ (ξ ) = ξ ε 2 1 2 (1+ε ) 2 2 1.5 1.5 ( exp − ξ ε 1 1 0.5 0.5 0 -3 3 exp − ξ2 si ξ < σ p (ξ ) ∝ σ exp ( − ξ ) de lo contrario 2 p(ξ ) = fonction de perte densite 2.5 2 exp − ξ2 p (ξ ) = 12 exp( − ξ ) ϑ (ξ ) = ξ Laplaciana 1 2π 3 fonction de perte densite 2.5 ) -2 -1 0 1 2 3 fonction de perte densite 2.5 0 -3 3 2 1.5 1.5 1 1 0.5 0.5 -2 -1 0 1 2 -1 0 3 0 -3 1 2 3 fonction de perte densite 2.5 2 0 -3 -2 -2 -1 0 1 2 3 El método del gradiente (conocido con el nombre de regla delta para el perceptron y backpropagation para el perceptron multicapas) es el método más utilizado. ∂J ( k ) ∂J k w ( k +1) = w ( k ) − η 18 de Febrero de 2005 ∂w b( k +1) = b( k ) − η Universidad Veracruzana, Xalapa, México ∂b 11 Las redes neuronales Ejemplo: Encontrar una frontera de decisón que separe parating el espacio en dos regiones. Problema de optimización Criterio: Error calculado en los datos (Error empírico). Espacio de búsqueda: conjunto de funciones paramétricas, por ejemplo. Problema mal condicionado (solución no única). ¿Garantías? 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 12 Las redes neuronales Bajo-aprendizaje y sobre-aprendizaje Si los datos son generados por un modelo cuadrático: El modelo lineal corresponde a una situación de bajo-aprendizaje. El modelo de alto grado corresponde a una situación de sobre-aprendizaje. Necesidad de encontrar un compromiso entre la adecuación de los datos y la complejidad que sea capaz de generalizar. 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 13 Contenido I. La teoría del aprendizaje estadístico II. El enfoque neuronal III. Las máquinas a soporte vectorial, SVM IV. El mecanismo de aprendizaje de las SVM V. Aplicaciones VI. Conclusiones 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 14 Las máquinas a soporte vectorial Las máquinas a soporte vectorial (support vector machines, SVM) son máquinas, de base lineal y a solución única, fundadas teoría del aprendizaje estadístico. Principio general Construcción de un clasificador en números reales Descomposición del problema en varios sub-problemas 1. Construcción de un separador lineal óptimo 2. Transformación no lineal del espacio de entrada 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 15 Las máquinas a soporte vectorial Caso lineal La idea de base: el margen óptimo Función de decisión: Definición del hiperplano (frontera de decisión): Distancia de un punto al hiperplano: f(x) = wTx+b wTx+b = 0 d ( x) = wTx + b w Entonces, maximizar el margen es equivalente a minimizar ||w||. 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 16 Las máquinas a soporte vectorial Caso lineal Problema primal Un punto xi será bien clasificado si y solo si: yif(xi)>0 pero como el par w, b está asociado a un coeficiente de multiplicación, se impone: yif(xi)≥1 Así tenemos un problema de optimización cuadrático QP: Minimizar w, ξ, b Sujeto a : ( ( ) 1 T w w + C ∑ ξ i 2 i =1 T yi w xi + b ≥ 1 − ξi , ) ξ ≥ 0, i = 1, , i Problema dual Utilización de los multiplicadores de Lagrange para cada restricción Maximizar α Sujeto a : 1 LD (α ) = ∑ α i − ∑ α iα j yi y j ( x Ti x j ) 2 i , j =1 i =1 ∑ yα i =1 i i = 0, 0 ≤ αi ≤ C i = 1, , T ( x i Problema de dimensión (número de ejemplos). Matriz Hessiana: x j )ij 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 17 Las máquinas a soporte vectorial Caso lineal Propiedades Sólo los multiplicadores αi asociados a los puntos más cercanos al hiperplano son diferentes de cero. Estos puntos forman el conjunto de los Vectores de Soporte. w * = ∑ α *i yi x i i =1 Función de decisión: f ( x) = w T x + b nsv w = ∑ α i y i xi * i =1 f (x ) = ∑ α i* yix Ti x + b i =1 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 18 Las máquinas a soporte vectorial Caso no lineal Proyección del espacio de entrada a un espacio de Hilbert de dimensión más importante a través de funciones kernel o núcleo: ∞ φ ( x1 ) φ ( x2 ) = ( z1 z 2 ) = ∑ ar z r ( x1 ) z r ( x 2 ) ⇔ k (x1 , x 2 ) T T Ejemplo: Sea x = [x1 x2]T y r =1 φ ( x) = ( x12 , 2 x1x2 ,x22 ) en el espacio resultante, el producto vectorial es: φ ( x) T φ ( x' ) = x12 x'12 + 2 x1 x2 x' 1 x' 2 + x 22 x' 22 x2 = ( x1 x'1 + x2 x' 2 ) 2 z3 ( = xT x' z1 x1 z2 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México ) 2 Por lo tanto, se puede calcular φ(x)T φ(x’) sin calcular φ. 19 Las máquinas a soporte vectorial Caso no lineal Las funciones kernel más utilizadas son: x −x k ( x1 , x 2 ) = exp − 1 2 2 2σ k ( x1 , x 2 ) = ((x1T x 2 ) + 1) 2 ( 2 ) k ( x1 , x 2 ) = tanh (κ ( x1T x 2 ) + δ ) Tomando el kernel, el problema de optimización final es: Maximizar α Sujeto a : LD (α ) = ∑ α i − i =1 ∑yα i =1 i i = 0, 0 ≤ αi ≤ C 18 de Febrero de 2005 1 ∑ α iα j yi y j k (x i , x j ) 2 i , j =1 i = 1, , Universidad Veracruzana, Xalapa, México 20 Contenido I. La teoría del aprendizaje estadístico II. El enfoque neuronal III. Las máquinas a soporte vectorial, SVM IV. El mecanismo de aprendizaje de las SVM V. Aplicaciones VI. Conclusiones 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 21 El mecanismo de aprendizaje de las SVM La fase de aprendizaje de las SVM necesita resolver el problema QP: Minimizar α 1 q (α ) = α T Qα − 1T α 2 y T α = 0, Sujeto a : con: 0≤α ≤C (Q)ij = yiyj k(xi,xj), i,j=1, …, , α = [α1,…, α]T 1 = [11,…, 1]T y = [y1 ,…, y]T C = [C 1,…, C ]T Condiciones de optimalidad (Karush-Kuhn-Tucker, KKT): y T α = 0 , α ≥ 0 and C − α ≥ 0 Qα − 1 + γy − β + χ = 0 , β ≥ 0 and χ ≥ 0 β Tα = 0 and χ T (α − C) = 0 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México (primal feasibility) (dual feasibility) (complementary conditions) 22 El mecanismo de aprendizaje de las SVM Los principales métodos de optimización para resolver los QP son: Métodos de conjunto activo Métodos Primales Métodos Duales Métodos de punto interior, que buscan aprovechas las condiciones complementarias guardando la realizabilidad primal y dual al mismo tiempo 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 23 El mecanismo de aprendizaje de las SVM Características: Convergencia a un sistema globalmente óptimo. Incluye la capacidad del control del nivel de complejidad. Construcción basada en un problema de optimización cuadrática. Inconvenientes: Problemas de consumo informático para los problemas de gran escala de memoria : La matriz Hessiana requiere un espacio de memoria igual a Talla 2 ℓ. (x iT x j )ij Tiempo de cálculo : de crecimiento exponencial ℓ2. Para un problema real de 10,000 ejemplos, es necesario: una memoria de 800MB, sólo para guardar la matriz Hessiana varios días de cálculo 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 24 El mecanismo de aprendizaje de las SVM Descomposición del problema de optimización cuadrático SVM Minimizar α A ,α N 1 α A q (α A , α N ) = 2 α N Bajo las restriccio nes : T Q AA Q NA Q AN α A 1A − Q NN α N 1N y A y N T α A = 0, α N T α A α N Minimizar αA q (α A ) = Bajo las restriccio nes : 1 T α A Q Aα A − 1T α A 2 y TAα A = 0, 0A ≤ α A ≤ CA 0 A α A C A 0 ≤ α ≤ C N N N 8. Elección de un conjunto activo inicial A de talla nA. 9. Resolver el QP definido por el conjunto activo A. 10. Mientras que exista j∈N sin satisfacer yjg(xj)>1, con g ( x i ) = ∑ α j y j k ( x j , xi ) + b j =1 Desplazar los nA vectores xj más erróneos al conjunto activo A, Desplazar todos los vectores xi con αi=0, i∈A, al conjunto N, y regresar al paso 2 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 25 Contenido I. La teoría del aprendizaje estadístico II. El enfoque neuronal III. Las máquinas a soporte vectorial, SVM IV. El mecanismo de aprendizaje de las SVM V. Aplicaciones VI. Conclusiones 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 26 Aplicaciones Predicción en la bolsa de valores Dos principales etapas: Predicción de cada índice bursatil o acción Optimización del portafolio de acciones 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 27 Aplicaciones Modelos SVM–difusos Comparado a las técnicas: Fuzzy C-means, FCM Gustafson-Kessel, GK Fuzzy C-Means 18 de Febrero de 2005 Fuzzy Gustafson-Kessel Fuzzy SVM Universidad Veracruzana, Xalapa, México 28 Aplicaciones Identificación de modelos TS para sistemas MIMO Comparación de la precisión de la predicción de los modelos FCM-TS, GK-TS et SVM-TS (VAF). Identificación M odelo difuso GK-TS M odelo difuso SVM -TS Concentración de biomasa 98.5309 % 99.0082 % 99.7626 % Substrato xenobiótico 98.2171 % 99.1278 % 99.7201 % Substrato energético 96.9935 % 94.5855 % 99.8391 % Concentración de biomasa 96.0185 % 96.8809 % 98.9975 % Substrato xenobiótico 98.4601 % 98.4731 % 99.5593 % Substrato energético 97.5849 % 72.5222 % 99.7848 % Xenobiotic substrate Biomass concentration 1 Original Fuzzy-FCM Fuzzy-GK Fuzzy-SVM 0.5 0 1 Original Fuzzy-FCM Fuzzy-GK Fuzzy-SVM 0.5 0 0.6 Energetic substrate Energetic substrate Xenobiotic substrate Biomass concentration Validación M odelo difuso FCM -TS Original Fuzzy-FCM Fuzzy-GK Fuzzy-SVM 0.4 0.2 0 100 200 18 de Febrero de 2005 300 400 500 600 Time (sec) 700 800 900 1000 1 Original Fuzzy-FCM Fuzzy-GK Fuzzy-SVM 0.5 0 1 Original Fuzzy-FCM Fuzzy-GK Fuzzy-SVM 0.5 0 0.6 Original Fuzzy-FCM Fuzzy-GK Fuzzy-SVM 0.4 0.2 0 100 200 Universidad Veracruzana, Xalapa, México 300 400 500 600 Time (sec) 700 800 900 1000 29 Aplicaciones Los sistemas de transporte inteligentes, ITS La seguridad vial es un tema prioritario. Cambia el paradigma de la ayuda a la supervivencia de los ocupantes, durante un accidente, a la asistencia al conductor. Productos de Información diagnóstico/pronóstico 18 de Febrero de 2005 Productos de Universidad Veracruzana, Xalapa, México 30 Aplicaciones Nivel de criticidad de las situaciones Los sistemas de asistencia al manejo Seguridad Pasiva 6. Seguridad Activa 4. 3. 2. 1. M anejo Norm al Sistem as de asistencia Sistem as de alerta 5. Crash Probabilidad de Crash Sistem as de seguridad autom ático s Sistem as de seguridad para m inim izar el im pacto Sistem as de seguridad Soft Level Sistem as de seguridad Hard Level Evitar la cilisión 7. Sistem as de seguridad post crash Socorro Ejemplos ADAS Fase de precrash Seguridad básica del vehículo ACC Stop & Go Etc… 18 de Febrero de 2005 Alerta de salida de la vía Asistencia en el frenado Sistema de frenado de urgencia, evitar la collision Protección de los pasajeros Airbag peatones Estimación de la severidad del accidente por el nivel de ignición y de la tensión de los cinturones de seguridad Universidad Veracruzana, Xalapa, México Sistemas de emergencia Cruz Roja 31 Contenido I. La teoría del aprendizaje estadístico II. El enfoque neuronal III. Las máquinas a soporte vectorial, SVM IV. El mecanismo de aprendizaje de las SVM V. Aplicaciones VI. Conclusiones 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 32 Conclusiones Los algoritmos de aprendizaje son, en su base, algoritmos de optimización. No hay algoritmos que puedan resolver todo. La estrategia de solución de un problema depende de las restricciones impuestas (tiempo de cálculo, requerimientos informáticos, calidad de la solución, etc.) En general, la metodología de las SVM brinda buenos resultados, pero el principal problema reside en los requerimientos para el cálculo. 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México 33 ¿Preguntas? Aprendizaje Estadístico, Redes Neuronales y Support Vector Machines: Un enfoque global Miguel González Mendoza mgonza@itesm.mx ITESM CEM: Intelligent Transportation Systems Research Group 18 de Febrero de 2005 Universidad Veracruzana, Xalapa, México