Perceptrón multicapa Diego Milone y Leonardo Rufiner Inteligencia Computacional Departamento de Informática FICH-UNL Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Organización Un poco de historia... ¿Cómo resolver el problema XOR? Métodos de gradiente para el entrenamiento Perceptrón multicapa Retropropagación en el perceptrón multicapa Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Organización Un poco de historia... ¿Cómo resolver el problema XOR? Métodos de gradiente para el entrenamiento Perceptrón multicapa Retropropagación en el perceptrón multicapa Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Notas históricas 1957 Rosenblatt comienza el desarrollo del Perceptrón (simple). 1960 Widrow y Hoff desarrollan el modelo Adaline (ADAptative LINear Elements). 1969 Minsky y Papert prueban que el Perceptrón no es capaz de resolver problemas sencillos (XOR). 1974 Werbos desarrolla la idea básica del algoritmo de retro-propagación (BP). 1986 Rumelhart y Hinton redescubren y mejoran el algoritmo de BP. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Organización Un poco de historia... ¿Cómo resolver el problema XOR? Métodos de gradiente para el entrenamiento Perceptrón multicapa Retropropagación en el perceptrón multicapa Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación El problema del XOR Figura: Representación gráfica del problema del OR exclusivo. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Combinación de perceptrones simples ¿Cómo podemos combinar dos o más PS para resolver el problema XOR? Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Combinación de perceptrones simples ¿Cómo podemos combinar dos o más PS para resolver el problema XOR? Perceptrón A: x2 = −1 − x1 Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Combinación de perceptrones simples ¿Cómo podemos combinar dos o más PS para resolver el problema XOR? Perceptrón A: x2 = −1 − x1 = wA0 wA2 − wA1 wA2 x1 Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Combinación de perceptrones simples ¿Cómo podemos combinar dos o más PS para resolver el problema XOR? − wwA1 x1 Perceptrón A: x2 = −1 − x1 = wwA0 A2 A2 wA0 = −1 wA1 = +1 → yA = sgn(x2 + x1 + 1) → wA2 = +1 Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Combinación de perceptrones simples ¿Cómo podemos combinar dos o más PS para resolver el problema XOR? − wwA1 x1 Perceptrón A: x2 = −1 − x1 = wwA0 A2 A2 wA0 = −1 wA1 = +1 → yA = sgn(x2 + x1 + 1) → wA2 = +1 Perceptrón B: x2 = +1 − x1 Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Combinación de perceptrones simples ¿Cómo podemos combinar dos o más PS para resolver el problema XOR? − wwA1 x1 Perceptrón A: x2 = −1 − x1 = wwA0 A2 A2 wA0 = −1 wA1 = +1 → yA = sgn(x2 + x1 + 1) → wA2 = +1 Perceptrón B: x2 = +1 − x1 wB0 = +1 wB1 = +1 → → yB = sgn(x2 + x1 − 1) wB2 = +1 Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Combinación de perceptrones simples Perceptrón C: yA = +1 + yB Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Combinación de perceptrones simples Perceptrón C: yA = +1 + yB wC0 = +1 wC1 = −1 → → yC = sgn(yA − yB − 1) wC2 = +1 Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Combinación de perceptrones simples Perceptrón C: yA = +1 + yB wC0 = +1 wC1 = −1 → → yC = sgn(yA − yB − 1) wC2 = +1 ¿Cómo es la arquitectura de esta red neuronal? yA = sgn(x2 + x1 + 1) → yC = sgn(yA − yB − 1) yB = sgn(x2 + x1 − 1) Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Combinación de perceptrones simples Perceptrón C: yA = +1 + yB wC0 = +1 wC1 = −1 → → yC = sgn(yA − yB − 1) wC2 = +1 ¿Cómo es la arquitectura de esta red neuronal? yA = sgn(x2 + x1 + 1) → yC = sgn(yA − yB − 1) yB = sgn(x2 + x1 − 1) ¿Resuelve el problema XOR? Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Combinación de perceptrones simples Figura: (a) Arquitectura de una red para resolver el problema del XOR. (b) Gráfico de flujo de señal de la red. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Combinación de perceptrones simples Figura: (a) Límite de decisión construido por la neurona oculta 1 de la red en la fig. anterior. (b) Límite de decisión construido por la neurona oculta 2 de la red. (c) Límite de decisión construido por la red completa. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Organización Un poco de historia... ¿Cómo resolver el problema XOR? Métodos de gradiente para el entrenamiento Perceptrón multicapa Retropropagación en el perceptrón multicapa Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Entrenamiento por el método de gradiente • Concepto: Mover los pesos en la dirección en que se reduce el error, dirección que es opuesta a su gradiente con respecto a los pesos Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Entrenamiento por el método de gradiente • Concepto: Mover los pesos en la dirección en que se reduce el error, dirección que es opuesta a su gradiente con respecto a los pesos • Interpretación gráfica Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Entrenamiento por el método de gradiente • Concepto: Mover los pesos en la dirección en que se reduce el error, dirección que es opuesta a su gradiente con respecto a los pesos • Interpretación gráfica • Ecuación básica: w(n + 1) = w(n) − µ∇w ξ(w(n)) Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Entrenamiento por el método de gradiente • Concepto: Mover los pesos en la dirección en que se reduce el error, dirección que es opuesta a su gradiente con respecto a los pesos • Interpretación gráfica • Ecuación básica: w(n + 1) = w(n) − µ∇w ξ(w(n)) • Aplicación: • Caso sencillo: perpectrón simple (least mean squares) • Caso más general: perceptrón multicapa (back-propagation) Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Organización Un poco de historia... ¿Cómo resolver el problema XOR? Métodos de gradiente para el entrenamiento Perceptrón multicapa Retropropagación en el perceptrón multicapa Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Extensión del algoritmo a múltiples capas • Entrenamiento por gradiente en el ADALINE • Entrenamiento por gradiente en el MADALINE • Entrenamiento por gradiente en el caso general • Regiones de decisión Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Regiones para varias capas Figura: Diferentes problemas no-linealmente separables (Lippmann, 1987). Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Arquitectura del perceptrón multicapa Figura: Arquitectura de un perceptrón multicapa (PMC) con dos capas ocultas. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Arquitectura del perceptrón multicapa Figura: Ilustración de las dos direcciones básicas de flujos de señal en un PMC. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Arquitectura del perceptrón multicapa • Representación gráfica de 3 capas • Cálculo de las salidas en cada capa • Criterio: suma del error cuadrático instantáneo Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Cálculo de las salidas en cada capa • Capa I: N P wIji xi (completo vI = Wx) vIj = wI , x = i=0 Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Cálculo de las salidas en cada capa • Capa I: N P wIji xi (completo vI = Wx) vIj = wI , x = i=0 yIj = φ(vIj ) = 2 I 1 + e−bvj − 1 (simétrica ± 1) Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Cálculo de las salidas en cada capa • Capa I: N P wIji xi (completo vI = Wx) vIj = wI , x = i=0 yIj = φ(vIj ) • Capa II: = vIIj = wII , yI 2 I 1 + e−bvj • Capa III: III II vIII j = w ,y → → − 1 (simétrica ± 1) yIIj = φ(vIIj ) III yIII j = φ(vj ) = yj Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Criterio de error Suma del error cuadrático instantáneo M 1X 2 ξ(n) = e (n) 2 j=1 j Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Aplicación del gradiente (caso general) ∂ξ(n) ∆wji (n) = −µ ∂w ji (n) Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Aplicación del gradiente (caso general) ∂ξ(n) ∆wji (n) = −µ ∂w ji (n) ∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n) ∂vj (n) = ∂wji (n) ∂ej (n) ∂yj (n) ∂vj (n) ∂wji (n) Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Aplicación del gradiente (caso general) ∂ξ(n) ∆wji (n) = −µ ∂w ji (n) ∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n) ∂vj (n) = ∂wji (n) ∂ej (n) ∂yj (n) ∂vj (n) ∂wji (n) ∂vj (n) = ∂wji (n) ∂ N P wji (n)yi (n) i=0 ∂wji (n) = yi (n) Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Aplicación del gradiente (caso general) ∂ξ(n) ∆wji (n) = −µ ∂w ji (n) ∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n) yi (n) = ∂wji (n) ∂ej (n) ∂yj (n) ∂vj (n) Gradiente de error local instantáneo: δj = ∂ξ(n) ∂yj (n) ∂yj (n) ∂vj (n) Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Aplicación del gradiente (caso general) ∆wji (n) = µδj (n)yi (n) ∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n) = yi (n) ∂wji (n) ∂ej (n) ∂yj (n) ∂vj (n) Gradiente de error local instantáneo: δj = ∂ξ(n) ∂yj (n) ∂yj (n) ∂vj (n) Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación Derivada de la función de activación simétrica (1/2) ∂yj (n) ∂vj (n) ∂ = = 2 = 2 n 2 1+e−vj (n) o −1 ∂vj (n) e−vj (n) 1 + e−vj (n) 2 1 e−vj (n) 1 + e−vj (n) 1 + e−vj (n) 0 z }| { 1 −1 + 1 +e−vj (n) = 2 1 + e−vj (n) 1 + e−vj (n) 1 = 2 1 + e−vj (n) −1 1 + e−vj (n) + 1 + e−vj (n) 1 + e−vj (n) ! Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Derivada de la función de activación simétrica (2/2) ∂yj (n) ∂vj (n) = = = = = 1 1 2 1− 1 + e−vj (n) 1 + e−vj (n) yj (n) + 1 yj (n) + 1 2 1− 2 2 yj (n) + 1 (yj (n) + 1) 1 − 2 2 − yj (n) − 1 (yj (n) + 1) 2 1 (yj (n) + 1)(yj (n) − 1) 2 Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Aplicación del gradiente (caso general) ∆wji (n) = µδj (n)yi (n) ∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n) = yi (n) ∂wji (n) ∂ej (n) ∂yj (n) ∂vj (n) Gradiente de error local instantáneo: δj = − δj = ∂ξ(n) ∂yj (n) ∂yj (n) ∂vj (n) ∂ξ(n) 1 (1 + yj (n))(1 − yj (n)) ∂yj (n) 2 Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Organización Un poco de historia... ¿Cómo resolver el problema XOR? Métodos de gradiente para el entrenamiento Perceptrón multicapa Retropropagación en el perceptrón multicapa Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Retropropagación en la capa III (salida) III II ∆wIII ji (n) = µδj (n)yi (n) Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Retropropagación en la capa III (salida) III II ∆wIII ji (n) = µδj (n)yi (n) δjIII (n) = − ∂ξ(n) 1 III (1 + yIII j (n))(1 − yj (n)) 2 (n) ∂yIII j Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Retropropagación en la capa III (salida) III II ∆wIII ji (n) = µδj (n)yi (n) δjIII (n) = − ∂ξ(n) 1 III (1 + yIII j (n))(1 − yj (n)) 2 (n) ∂yIII j δjIII (n) = − ∂ξ(n) ∂ej (n) 1 III (1 + yIII j (n))(1 − yj (n)) ∂ej (n) ∂yIII j (n) 2 Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación Retropropagación en la capa III (salida) δjIII (n) = − ∂ n P 1 2 o 2 j ej (n) ∂ej (n) · n o ∂ djIII (n) − yIII j (n) ∂yIII j (n) 1 III · (1 + yIII j (n))(1 − yj (n)) 2 · Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación Retropropagación en la capa III (salida) δjIII (n) = − ∂ n P 1 2 o 2 j ej (n) ∂ej (n) · n o ∂ djIII (n) − yIII j (n) ∂yIII j (n) 1 III · (1 + yIII j (n))(1 − yj (n)) 2 III F δjIII (n) = 12 ej (n)(1 + yIII j (n))(1 − yj (n)) · Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación Retropropagación en la capa III (salida) δjIII (n) = − ∂ n P 1 2 o 2 j ej (n) ∂ej (n) · n o ∂ djIII (n) − yIII j (n) ∂yIII j (n) 1 III · (1 + yIII j (n))(1 − yj (n)) 2 III F δjIII (n) = 12 ej (n)(1 + yIII j (n))(1 − yj (n)) III III II ∆wIII ji (n) = ηej (n)(1 + yj (n))(1 − yj (n))yi (n) · Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación en la capa II (oculta) ∆wIIji (n) = µδjII (n)yIi (n) Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación en la capa II (oculta) ∆wIIji (n) = µδjII (n)yIi (n) δjII (n) = − ∂ξ(n) 1 (1 + yIIj (n))(1 − yIIj (n)) ∂yIIj (n) 2 Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación en la capa II (oculta) ∆wIIji (n) = µδjII (n)yIi (n) δjII (n) = − δjII (n) =− ∂ξ(n) 1 (1 + yIIj (n))(1 − yIIj (n)) ∂yIIj (n) 2 ∂ 1 P 2 k ek (n) ∂yIIj (n) 2 1 (1 + yIIj (n))(1 − yIIj (n)) 2 Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación en la capa II (oculta) ∆wIIji (n) = µδjII (n)yIi (n) δjII (n) = − δjII (n) =− δjII (n) = − ∂ξ(n) 1 (1 + yIIj (n))(1 − yIIj (n)) ∂yIIj (n) 2 ∂ 1 2 1 P 2 k ek (n) 1 (1 + yIIj (n))(1 − yIIj (n)) 2 ∂yIIj (n) X ∂e2 (n) 1 k (1 + yIIj (n))(1 − yIIj (n)) ∂yIIj (n) 2 k 2 Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación en la capa II (oculta) ∆wIIji (n) = µδjII (n)yIi (n) δjII (n) = − δjII (n) =− ∂ξ(n) 1 (1 + yIIj (n))(1 − yIIj (n)) ∂yIIj (n) 2 ∂ 1 P 2 k ek (n) 1 (1 + yIIj (n))(1 − yIIj (n)) 2 ∂yIIj (n) X ∂e2 (n) 1 k (1 + yIIj (n))(1 − yIIj (n)) ∂yIIj (n) 2 k 2 1 2 X ∂ek (n) 1 δjII (n) = − ek (n) II (1 + yIIj (n))(1 − yIIj (n)) ∂yj (n) 2 δjII (n) = − k Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación Retropropagación en la capa II (oculta) δjII (n) = − X k ek (n) III ∂ek (n) ∂yIII k (n) ∂vk (n) 1 (1+yIIj (n))(1−yIIj (n)) III III ∂yk (n) ∂vk (n) ∂yIIj (n) 2 Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación Retropropagación en la capa II (oculta) δjII (n) = − X k δjII (n) = − X k ek (n) III ∂ek (n) ∂yIII k (n) ∂vk (n) 1 (1+yIIj (n))(1−yIIj (n)) III III ∂yk (n) ∂vk (n) ∂yIIj (n) 2 ∂ dkIII (n) − yIII 1 k (n) III ek (n)· · (1 + yIII k (n))(1 − yk (n)) · III 2 ∂yk (n) nP o III yII (n) ∂ w j kj j 1 · · (1 + yIIj (n))(1 − yIIj (n)) II 2 ∂yj (n) Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación Retropropagación en la capa II (oculta) δjII (n) = − X ek (n) k δjII (n) = − X k III ∂ek (n) ∂yIII k (n) ∂vk (n) 1 (1+yIIj (n))(1−yIIj (n)) III III ∂yk (n) ∂vk (n) ∂yIIj (n) 2 ∂ dkIII (n) − yIII 1 k (n) III ek (n)· · (1 + yIII k (n))(1 − yk (n)) · III 2 ∂yk (n) nP o III yII (n) ∂ w j kj j 1 · · (1 + yIIj (n))(1 − yIIj (n)) II 2 ∂yj (n) δjII (n) = − X k 1 III ek (n)·(−1) · (1 + yIII k (n))(1 − yk (n)) · 2 1 II II ·wIII kj · (1 + yj (n))(1 − yj (n)) 2 Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación en la capa II (oculta) δjII (n) = X k 1 III III ek (n) · (1 + yIII k (n))(1 − yk (n)) · wkj · 2 1 · (1 + yIIj (n))(1 − yIIj (n)) 2 Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación en la capa II (oculta) δjII (n) = X k 1 III III ek (n) · (1 + yIII k (n))(1 − yk (n)) · wkj · 2 1 · (1 + yIIj (n))(1 − yIIj (n)) 2 Pero de la capa IIIF sabemos que: III δkIII (n) = 12 ek (n)(1 + yIII k (n))(1 − yk (n)) Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación en la capa II (oculta) δjII (n) = X k 1 III III ek (n) · (1 + yIII k (n))(1 − yk (n)) · wkj · 2 1 · (1 + yIIj (n))(1 − yIIj (n)) 2 Pero de la capa IIIF sabemos que: III δkIII (n) = 12 ek (n)(1 + yIII k (n))(1 − yk (n)) Reemplzando: δjII (n) = X k 1 II II δkIII (n)wIII kj · (1 + yj (n))(1 − yj (n)) 2 Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación en la capa II (oculta) Volviendo a: ∆wIIji (n) = µδjII (n)yIi (n) Retropropagación Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación Retropropagación en la capa II (oculta) Volviendo a: ∆wIIji (n) = µδjII (n)yIi (n) Por lo tanto: ∆wIIji (n) =η P k δkIII wIII kj (n) (1 + yIIj (n))(1 − yIIj (n))yIi (n) Introducción Entrenamiento ∇ PS XOR Perceptrón multicapa Retropropagación Generalizando para la capa “p” " ∆wIIji (n) = η # X II II I δkIII wIII kj (n) (1 + yj (n))(1 − yj (n))yi (n) k ⇓ E D (p) (p+1) (p) (p) (p−1) ∆wji (n) = η δ (p+1) , wj (1 + yj (n))(1 − yj (n))yi (n) Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Resumen del algoritmo de retropropagación (BP) 1. Inicialización aleatoria 2. Propagación hacia adelante (de la entrada) 3. Propagación hacia atras (del error) 4. Adaptación de los pesos 5. Iteración: vuelve a 2 hasta convergencia o finalización Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Ejemplo gráfico BP con PMC 3 capas Figura: Ejemplo de un PMC de 3 capas. Retropropagación Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Cálculo de las salidas en cada capa Figura: Cálculo salida capa I, neurona 1. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Cálculo de las salidas en cada capa Figura: Cálculo salida capa I, neurona 2. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Cálculo de las salidas en cada capa Figura: Cálculo salida capa I, neurona 3. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Cálculo de las salidas en cada capa Figura: Cálculo salida capa II, neurona 1. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Cálculo de las salidas en cada capa Figura: Cálculo salida capa II, neurona 2. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Cálculo de las salidas en cada capa Figura: Cálculo salida capa III, neurona 1. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Retropropagación en la capa III (salida) Figura: Cálculo del error en capa III, neurona 1. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Retropropagación en la capa III (salida) Figura: Propagación del error a la capa II, neurona 1. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Retropropagación en la capa III (salida) Figura: Propagación del error a la capa II, neurona 2. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Retropropagación en la capa II (oculta) Figura: Propagación del error a la capa I, neurona 1. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Retropropagación en la capa II (oculta) Figura: Propagacion del error a la capa I, neurona 2. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Retropropagación en la capa II (oculta) Figura: Propagación del error a la capa I, neurona 3. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Actualizando los pesos de la red Figura: Actualización de pesos capa I, neurona 1. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Actualizando los pesos de la red Figura: Actualización de pesos capa I, neurona 2. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Actualizando los pesos de la red Figura: Actualizacion de pesos capa I, neurona 3. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Actualizando los pesos de la red Figura: Actualización de pesos capa II, neurona 1. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Actualizando los pesos de la red Figura: Actualización de pesos capa II, neurona 2. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación Ejemplo: Actualizando los pesos de la red Figura: Actualización de pesos capa III, neurona 1. Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Término de momento Modificación adaptativa de la velocidad de aprendizaje. (ver Haykin Sección 6.3) Retropropagación