Subido por rigoupload

una-introduccion-al-computo-neuronal-artificial-ricardo-perez-aguila compress

Anuncio
Una Introducción
al Cómputo
Neuronal Artificial
Ricardo Pérez Aguila
Profesor Investigador Titular
Universidad Tecnológica de la Mixteca (UTM)
Dedicatorias
Con todo amor
a mi hija Diana,
mi esposa Kenia
y mi(s) hij@(s) que aún está(n)
por llegar a este mundo.
Con todo cariño
a mi sobrina Lucy,
mi mamá María de la Luz,
mi hermana Edna
y mi cuñada Fernanda
A quien me introdujo en el
mundo de las Redes Neuronales:
Dra. María del Pilar Gómez Gil
A mis amigos
Thelma García,
Gabriel Gerónimo,
Luis Javier Martínez,
Omar Ramírez,
Ricardo Ruiz,
Aisa Santiago
y Paola Soto
Una introducción al cómputo neuronal artificial.
24
!"#978-1-4135-2424-6
$%&'(Septiembre)
!"#* +&' +(978-1-4135-2424-6
!"#* +&',(978-1-4135-2434-5
Una Introducción al Cómputo Neuronal Artificial
Acerca del Autor
Ricardo Pérez Aguila es originario de la ciudad de Tehuacán, Puebla, México.
Es egresado de la Universidad de las Américas Puebla (UDLAP, Cholula, Puebla, México)
donde obtuvo los Títulos de Ingeniero en Sistemas Computacionales (2001),
Maestro en Ciencias con Especialidad en Ingeniería en Sistemas Computacionales (2003)
y Doctor en Ciencias de la Computación (2006). Durante el periodo 2003-2007 se
desempeñó como Profesor de Tiempo Parcial en el Departamento de Actuaría, Física y
Matemáticas de la UDLAP. En Otoño de 2007 se incorporó de Tiempo Completo como
Profesor-Investigador Titular del Instituto de Computación en la Universidad Tecnológica
de la Mixteca (UTM, Huajuapan de León, Oaxaca, México). Desde el año 2009 ostenta el
nombramiento de Candidato a Investigador Nacional por parte del Sistema Nacional de
Investigadores (Conacyt-SNI, México). En 2011 se le otorgó el Reconocimiento a
Perfil Deseable y Apoyo por parte del Programa de Mejoramiento del Profesorado
(PROMEP, México). Como docente ha impartido en varias ocasiones los cursos de
Matemáticas Discretas, Análisis de Algoritmos, Redes Neuronales Artificiales, Teoría de
Autómatas, Algoritmos Genéticos, Visión por Computadora, entre otros. Sus intereses de
investigación consideran la visualización, geometría, topología, representación y
aplicaciones de los Politopos n-Dimensionales. En el campo de las Redes Neuronales
Artificiales ha tenido particular interés en las arquitecturas basadas en entrenamiento no
supervisado. Cuenta en su haber con más de 30 artículos publicados, internacionalmente y
con arbitraje, en congresos y revistas.
Ricardo Pérez Aguila
Instituto de Computación
Universidad Tecnológica de la Mixteca (UTM)
Carretera Huajuapan-Acatlima Km. 2.5
Huajuapan de León, Oaxaca 69000, México
E-mails: aguila@mixteco.utm.mx, ricardo.perez.aguila@gmail.com
Web site: http://ricardo.perez.aguila.googlepages.com
iii
Una Introducción al Cómputo Neuronal Artificial
iv
Una Introducción al Cómputo Neuronal Artificial
También del Autor
El objetivo principal de este texto es el de proporcionar las bases formales y
fundamentales para que el alumno sea capaz de estudiar sus algoritmos y determinar si
éstos son, desde un punto de vista de la Complejidad Temporal, eficientes o no. Este trabajo
cuenta con cinco capítulos en donde se abordan tópicos como Preliminares Matemáticos
(Logaritmos, Series, Sucesiones, Inducción Matemática, Teorema del Binomio), Notación
Asintótica, Técnicas para el Análisis de Complejidad Temporal, Solución de Recurrencias
(Método de Extensiones, Teorema Maestro), Teoría de Grafos, enfoques de diseño de
algoritmos bajo Memoización, Bottom-Up y Voracidad. Finalmente, se presenta una
introducción informal a las Clases de Problemas P y NP, Problemas NP-Completos y
Reducción Polinomial. Las técnicas y conceptos son aplicados sobre los bien conocidos
algoritmos de ordenamiento Insertion Sort, Quick Sort, Merge Sort, Counting Sort y Bucket
Sort. También se estudia la Complejidad Temporal de algunos algoritmos que dan solución
a problemas clásicos de Teoría de Grafos: Búsquedas por Profundidad y Amplitud,
Algoritmos de Dijkstra, Bellman-Ford, Fleury y Kruskal. La forma de presentar los temas
está dirigida a estudiantes que estén cursando el segundo año de las Licenciaturas en
Computación, Sistemas Computacionales, Informática, Ciencias de la Computación y
Matemáticas Aplicadas.
Una Introducción a las Matemáticas para el Análisis y Diseño de Algoritmos
Ricardo Pérez Aguila
El Cid Editor, Argentina, 336 páginas, Primera Edición, 2012
ISBN Edición Impresa: 978-1-4135-7661-0, ISBN Edición Digital: 978-1-4135-7647-4
Registro SEP-INDAUTOR (México): 03-2011-111412410000-01
Web Site de Difusión y Distribución: http://www.e-libro.net/libros/libro.aspx?idlibro=6525
v
Una Introducción al Cómputo Neuronal Artificial
vi
Una Introducción al Cómputo Neuronal Artificial
Abstract
En este trabajo se presenta una introducción al estudio y análisis de las Redes
Neuronales Artificiales. Se hace mención de las bases neurofisiológicas que inspiran a
algunas de las Arquitecturas Neuronales más populares y se plantean de manera formal sus
procedimientos correspondientes haciendo uso de herramientas provenientes de áreas como
el Álgebra Lineal y el Cálculo Diferencial de Varias Variables. Se estudian inicialmente las
neuronas de tipo Adaline y Perceptrón. En el caso del Perceptrón se presentan el Problema
de Representación y el Teorema de Convergencia a fin de plantear los alcances y
limitaciones que se tiene con este tipo de Neurona Artificial. Posteriormente se aborda el
estudio de la Red Madaline a fin de establecer los retos que surgen para el aprendizaje en
una red formada por varias neuronas. Se da un especial énfasis a las redes compuestas por
Perceptrones al estudiar los fundamentos de su popular mecanismo de aprendizaje, definido
por el Algoritmo de Retropropagación. También se presentarán a las Redes de Kohonen
como un ejemplo de Arquitectura Neuronal cuyo aprendizaje no requiere de supervisión. A
lo largo del texto se desarrollan aplicaciones de las Redes Neuronales en los contextos del
Modelado y Predicción de Señales, Modelado de Funciones Booleanas y Clasificación
Automática de Imágenes.
vii
Una Introducción al Cómputo Neuronal Artificial
viii
Una Introducción al Cómputo Neuronal Artificial
Prólogo
"I propose we build a robot child, who can love.
A robot child who will genuinely love the parent or
parents it imprints on, with a love that will never end ...
But a mecha with a mind, with neuronal feedback.
You see what I'm suggesting is that live will be the key
by which they acquire a kind of subconscious never
before achieved. And inner world of metaphor,
of intuition, of self motivated reasoning. Of dreams."
Profesor Hobby en
A.I. Artificial Intelligence,
Dirigida por Steven Spielberg,
Warner Bros. Pictures, 2001
Tuve la oportunidad de conocer el área de las Redes Neuronales Artificiales gracias
a que formé parte, primero como alumno de Licenciatura y posteriormente como alumno de
Posgrado, de dos interesantes cursos impartidos por la Dra. María del Pilar Gómez Gil. Fue
en esas ocasiones en las que tuve acceso por primera vez a ese paradigma cuyo fundamento
radica en tomar el poder del procesamiento cerebral y tratar de llevarlo a la implementación
mediante nuestras computadoras actuales. Al incorporarme como Profesor Titular de la
Universidad Tecnológica de la Mixteca (UTM) me fue asignada la impartición del curso de
Redes Neuronales Artificiales. Se me presentó entonces la oportunidad de expandir mis
conocimientos en el área, nuevamente con la ayuda de la Dra. Gómez Gil, y de ganar un
poco más de experiencia. Desde entonces he tenido la oportunidad de transmitir lo que sé al
respecto a alumnos tanto de nivel Licenciatura como de Posgrado. Hasta el día de hoy,
teniendo identificadas las limitaciones teóricas de nuestras computadoras, no me ha dejado
de ser sumamente interesante que mediante esas Redes Neuronales y sus sencillas
implementaciones se han logrado resultados que han dado importantes soluciones a
problemas tan variados como de Optimización, Predicción y Clasificación. Inclusive, se
han dado soluciones aproximadas, pero muy cercanas a las exactas, a problemas que yacen
en la frontera de las Ciencias de la Computación, como son los bien conocidos Problemas
NP-Completos. Hemos de mencionarlo también, las Redes Neuronales Artificiales tienen
sus limitaciones, pero éstas a su vez forman un gran panorama de Investigación y
Desarrollo que ha de ser enfrentado y cubierto en los próximos años.
ix
Una Introducción al Cómputo Neuronal Artificial
Muchas de mis experiencias como Docente y como Investigador en el área de Redes
Neuronales Artificiales las he englobado en este texto, el cual se divide en siete Capítulos y
cuyos contenidos enuncio brevemente:
• Capítulo 1: Introducción. En donde se estudian las bases neurofisiológicas de las que
toma su inspiración el Computo Neuronal. También se hace una breve visita a los
principios de los que parte el diseño y expectativas de las Redes Neuronales Artificiales
y sus mecanismos de aprendizaje. Finalmente, se mencionan las estructuras básicas de
Neuronas y Redes más utilizadas en la actualidad.
• Capítulo 2: Preliminares Matemáticos. Se hace un repaso de algunas herramientas
Matemáticas que serán requeridas para la formalización de los Algoritmos de
Aprendizaje a abordar en el texto. Se estudian los vectores gradientes desde el punto de
vista del Cálculo Diferencial y su relación con los Máximos y Mínimos en una función
de varias variables. También se aborda a la Regresión Lineal y en particular al Método
de Mínimos Cuadrados. Finalmente se discutirá a la Desigualdad de Cauchy-Schwarz.
• Capítulo 3: La Neurona Adaline. En donde se utiliza a tal neurona para introducir los
métodos de Aprendizaje neuronal basados primeramente en el método de Mínimos
Cuadrados, y posteriormente en el método de Descenso Escalonado. Los métodos serán
formalizados desde un punto de vista que los analiza como procesos de búsqueda de
gradientes.
• Capítulo 4: El Perceptrón. En donde se abordará el estudio de la que quizás es la
Neurona Artificial más popular. Se analizará su estructura y principios funcionales.
También nos introduciremos en el Problema de Representación que se encarga de
establecer de manera formal los alcances y limitaciones que presenta la neurona de tipo
Perceptrón desde el punto de vista de los problemas a los que puede dar solución. Se
hará mención de una aplicación orientada al Modelado de Señales.
• Capítulo 5: La Red Madaline. En este Capítulo se introduce a esta red, formada por
neuronas de tipo Adaline, como un primer ejemplo de una arquitectura de neuronas
interconectadas. También se establecen los retos y consideraciones referentes al
aprendizaje. En particular, se discuten los aspectos relacionados con la eficiencia de los
métodos de aprendizaje desde el punto de vista de la solución que se encuentre para un
problema dado, así como el tiempo requerido para llegar a ésta. Finalmente, se presenta
una aplicación dirigida al Modelado de Funciones Booleanas.
• Capítulo 6: Redes de Perceptrones. Se estudian las redes formadas por neuronas de
tipo Perceptrón. Se retomará el estudio de la neurona de tipo Perceptrón al abordar la
Regla de Aprendizaje de Rosenblatt. También se demostrará y discutirá el Teorema de
Convergencia de Perceptrón, el cual formaliza la mencionada regla. Esta regla
representa el punto de partida e inspiración para el popular Algoritmo de
Retropropagación. Se estudiarán también las bases formales detrás de la
Retropropagación tanto para redes formadas por una capa oculta así también para redes
formadas por varias capas ocultas. Ubicaremos formalmente al Algoritmo de
Retropropagación como un método de búsqueda de gradiente por medio de Descenso
Escalonado. Por último, se presentará una aplicación de las redes de Perceptrones en la
Predicción de Señales.
x
Una Introducción al Cómputo Neuronal Artificial
•
Capítulo 7: Redes de Kohonen. En este último Capítulo se abordará el modelo
propuesto por el finlandés Teuvo Kohonen. Estas redes son un ejemplo de arquitectura
basada en aprendizaje no supervisado, es decir, aprendizaje no sustentado en la
presencia de un “maestro” o “evaluador”. Veremos como es que las Redes de Kohonen
toman inspiración de la forma en la cual la corteza cerebral procesa y administra
información proveniente de los sentidos. Se discutirá una aplicación para la
Clasificación Automática de Imágenes.
Este texto está pensado principalmente para estudiantes de nivel Licenciatura en las
carreras de Ciencias de la Computación, Informática, Física, Matemáticas Aplicadas y
afines. Desde el punto de vista Matemático se asume que el alumno se encuentra habilitado
con las nociones básicas de Álgebra Lineal y Cálculo Diferencial de Varias Variables.
Como se apreciará a lo largo del texto, desde el punto de vista Computacional sólo se
requiere un buen manejo de algún lenguaje de programación de alto nivel. Nuestros
algoritmos serán especificados utilizando únicamente estructuras de datos estáticas
(arreglos y matrices).
Reconozco que el área de las Redes Neuronales Artificiales no es mi principal nicho
de Investigación. Pero mi objetivo es transmitir las nociones que forman a este campo tal y
cómo las veo y las entiendo. Pero además, como se verá a través de este trabajo, lo haremos
desde la perspectiva de la aplicación intensa del Cálculo Diferencial de Varias Variables.
Esta es un área de estudio de la cual los estudiantes, sobre todo de Ingeniería (incluido el
Autor), han renegado en su momento. Quiero hacerles ver a los alumnos como es que el
Cálculo Diferencial es una poderosa herramienta que permite establecer los fundamentos
detrás de los mecanismos de Aprendizaje para algunos modelos de Redes Neuronales.
Veremos que términos como Derivada Parcial, Regla de la Cadena, Vector Gradiente,
Máximos y Mínimos de una Función tendrán una gran relevancia en el estudio que
presentamos. Espero haber cumplido con mis objetivos.
Quiero agradecer, en primer lugar y como mi siempre, a mi hermosa hija Diana y a
mi esposa Kenia. Ustedes han sido, y serán, mi motor y mi inspiración. Gracias por todos
los ánimos, cariño y amor que me han dado para poder concluir este trabajo. También
quiero dar las gracias a la Dra. María del Pilar Gómez Gil por ser, como ya mencioné antes,
quien me introdujo a este maravilloso campo de estudio y con quien además he tenido el
gran de honor de colaborar en varios artículos científicos. También agradezco
profundamente a mis amigos por todo su apoyo. Cualquier comentario, sugerencia o
corrección serán siempre bienvenidos. Éstos se podrán hacer llegar a través del e-mail
ricardo.perez.aguila@gmail.com. Finalmente, solo me basta hacer saber que a final del
texto se cuenta con una Sección de Referencias. Todas han sido utilizadas en la elaboración
de este trabajo y además el lector interesado puede consultarlas para profundizar más aún
en el área de Redes Neuronales Artificiales. Una buena opción, desde mi punto de vista,
sería comenzar por lo excelentes textos de Graupe, Haykin, Hilera & Martínez, y Rojas.
Ricardo Pérez Aguila
Agosto de 2012
xi
Una Introducción al Cómputo Neuronal Artificial
xii
Una Introducción al Cómputo Neuronal Artificial
Índice General
Índice de Ecuaciones
Índice de Algoritmos
Índice de Figuras
Índice de Tablas
1. Introducción
1.1 Redes Neuronales Biológicas
1.2 Principios del Diseño de Redes Neuronales Artificiales
1.3 Principios del Aprendizaje o Entrenamiento de una
Red Neuronal Artificial
1.4 Estructuras Básicas de Neuronas y Redes
2. Preliminares Matemáticos
2.1 Gradientes y Búsquedas de Máximos y Mínimos
2.2 Regresión Lineal
2.3 Regresión Lineal con Múltiples Variables
2.4 La Desigualdad de Cauchy-Schwarz
3. La Neurona Adaline
3.1 Estructura
3.2 Ajuste de Pesos de la Neurona Adaline por Mínimos Cuadrados
3.3 Ajuste de Pesos de la Neurona Adaline por Descenso Escalonado
3.3.1 Descenso Escalonado: Caso una entrada – una salida
3.3.2 Descenso Escalonado: Caso varias entradas – una salida
4. El Perceptrón
4.1. Estructura Básica y Funciones de Activación
4.2 El Problema de Representación
4.3 Aplicación: Identificación de Parámetros Autorregresivos
en una Señal
5. La Red Madaline
5.1 Estructura Básica
5.2 Ajuste de Pesos en una Red Madaline
5.3 Modelado de Funciones Booleanas
Página
xv
xxix
xxxi
xxxix
1
8
13
15
17
21
23
30
38
44
47
49
52
57
58
69
83
85
90
103
121
123
125
133
xiii
Una Introducción al Cómputo Neuronal Artificial
6. Redes de Perceptrones
6.1 La Regla de Rosenblatt
6.2 Teorema de Convergencia del Perceptrón
6.2.1 Discusión
6.3 Retropropagación
6.3.1 Retropropagación en una Red de una Sola Capa Oculta
6.3.2 Justificación del Algoritmo de Retropropagación
6.4 Retropropagación en una Red con Múltiples Capas Ocultas
6.5 Aplicación: Predicción de Señales
7. Redes de Kohonen
7.1 Redes Neuronales Auto-Organizadas
7.2 La Corteza Cerebral
7.3 El Modelo de Kohonen
7.4 Aplicación: Clasificación Automática de Imágenes
7.4.1 Redistribución del Conjunto de Entrenamiento
7.4.2. Clasificación de Imágenes mediante una
Red de Kohonen 1D
Referencias
xiv
153
155
159
168
173
174
184
201
227
243
245
246
248
262
263
268
279
Una Introducción al Cómputo Neuronal Artificial
Índice de Ecuaciones
Página
Ecuación 2.1.1
Ecuación 2.1.2
Ecuación 2.1.3
Ecuación 2.2.1
Ecuación 2.2.2
Ecuación 2.2.3
Ecuación 2.2.4
Ecuación 2.2.5
Ecuación 2.2.6
Ecuación 2.2.7
Ecuación 2.2.8
Ecuación 2.2.9
Ecuación 2.2.10
Ecuación 2.2.11
Ecuación 2.2.12
ªδ f º
«δ x »
« 1»
«δ f »
∇f ( x1 ,..., xn ) = «« δ x2 »»
« # »
«
»
«δ f »
«¬ δ xn »¼
δf
δf
δf
Du f ( x1 ,..., xn ) =
u1 +
u2 + ... +
u
δ x1
δ x2
δ xn n
Duf(x1, …, xn) = ||∇f(x1, …, xn)|| cos θ
di = wx1,i + b + εi
di = x2,i + εi
εi = di – (wx1,i + b)
εi = di – di’
1 N 2
J=
¦εi
2 N i =1
N x
N
δJ
b N d
= w¦ 1,i + ¦ − ¦ i
δb
i =1 N
i =1 N
i =1 N
N x2
N x
N d x
δJ
= w¦ 1,i + b¦ 1,i − ¦ i 1,i
N
δw
i =1 N
i =1 N
i =1
N x
N
N
d
b
w¦ 1,i + ¦ − ¦ i = 0
i =1 N
i =1 N
i =1 N
2
N x
N x
N d x
w¦ 1,i + b¦ 1,i − ¦ i 1,i = 0
N
i =1 N
i =1 N
i =1
wx + b − d = 0
wx 2 + bx − xd = 0
xd − d ⋅ x
w=
2
x2 − x
()
23
26
28
30
30
31
31
32
33
33
34
34
34
34
35
xv
Una Introducción al Cómputo Neuronal Artificial
Ecuación 2.2.13
d ⋅ x 2 − xd ⋅ x
b=
()
x2 − x
2
35
Ecuación 2.3.1
di' = b + ¦ wk xi ,k
38
Ecuación 2.3.2
ε i = di − (b + w1 xi ,1 + w2 xi ,2 + ... + wP xi , P )
38
P
k =1
Ecuación 2.3.3
P
ε i = di − ¦ wk xi ,k
39
k =0
Ecuación 2.3.4
1
2N
J=
§
N
P
¦ ¨© d − ¦ w x
i
k i ,k
i =1
k =0
·
¸
¹
2
39
Ecuación 2.3.5
δJ
1
§
·
= − ¦ xi , j ¨ di − ¦ wk xi ,k ¸
δ wj
N i =1
k =0
©
¹
Ecuación 2.3.6
§
·
di = ¦ ¨ xi , j ¦ wk xi ,k ¸
i =1
i =1 ©
k =0
¹
N
P
P
N
§
·
¦
¨ xi , j ¦ wk xi , k ¸ = ¦ wk ¦ xi , j xi , k
i =1 ©
k =0
¹ k =0 i =1
N
N
P
N
¦x
i, j
Ecuación 2.3.7
Ecuación 2.3.8
N
¦x
i, j
i =1
Ecuación 2.3.9
Ecuación 2.3.10
Ecuación 2.3.11
Ecuación 2.3.12
Ecuación 2.3.13
xvi
1
N
P
k =0
¦x
i, j
i =1
di = ¦ wk
k =0
N
N
1
¦ xi, j di
N i =1
ª℘0 º
«℘ »
℘= « 1 »
« # »
« »
¬℘P ¼
℘j =
41
42
i =1
P
1
N
N
¦x
x
i , j i,k
i =1
1
¦ xi, j xi,k
N i =1
ª R0,0 R0,1 " R0, P º
«R
R1,1 " R1, P »»
1,0
«
R=
« #
# %
# »
«
»
¬ RP ,0 RP ,1 " RP , P ¼
Rk , j =
41
N
di = ¦ wk ¦ xi , j xi ,k
N
40
P
k = 0,1, 2,..., P
j = 0,1, 2,..., P
42
42
42
j = 0,1, 2,..., P
42
43
Una Introducción al Cómputo Neuronal Artificial
Ecuación 2.3.14
Ecuación 2.3.15
Ecuación 2.3.16
Ecuación 3.1.1
Ecuación 3.2.1
ª w0 º
«w »
W =« 1»
« # »
« »
¬ wP ¼
℘ = RW
R-1℘ = W
P
§
·
y = sign ¨ w0 + ¦ wi xi ¸
i =1
©
¹
43
43
43
49
P
zi = ¦ wk xi ,k
54
54
k =0
Ecuación 3.2.2
Ecuación 3.2.3
Ecuación 3.3.1
Ecuación 3.3.2
Ecuación 3.3.3
Ecuación 3.3.4
Ecuación 3.3.5
Ecuación 3.3.6
Ecuación 3.3.7
Ecuación 3.3.8
Ecuación 3.3.9
Ecuación 3.3.10
εi = di - zi
1 N 2
¦εi
2 N i =1
Wm+1 = Wm + Δwm
Δwm = μ(-∇J(W)m)
J(W)m = (dm – zm)2 = (dm – (wm,0xm,0 + wm,1xm,1))2
ª xm ,0 º
∇J (W ) m = −2(d m − ( wm,0 xm ,0 + wm,1 xm ,1 )) «
»
¬ xm ,1 ¼
J (W ) =
§
·
J (W ) m = (d m − Wm ⋅ X m ) 2 = ¨ d m − ¦ wm ,k xm ,k ¸
k =0
©
¹
ª δ J (W ) m º
« δw
»
m ,0
«
»
« δ J (W ) m »
«
»
∇J (W ) m = « δ wm ,1 »
«
»
#
«
»
« δ J (W ) m »
« δw
»
m,P ¼
¬
P
54
58
63
63
64
2
δ J (W ) m
= −2 xm , j (d m − Wm ⋅ X m )
δ wm , j
ª xm,0 º
«x »
m ,1 »
∇J (W ) m = −2(d m − Wm ⋅ X m ) «
« # »
«
»
¬ xm , P ¼
SDO(T, N, P) = TN(7P + 8)
LSO(N, P) =
(P + 1)2(2N + 1) + (P + 1)(2N + 1) + (P + 1)3 + (P + 1)2
70
71
71
72
75
77
xvii
Una Introducción al Cómputo Neuronal Artificial
Ecuación 3.3.11
« 2P2 + 6P + 4 »
T ( P) = «
»
¬ 7P + 8 ¼
Ecuación 4.1.1
z = ¦ wi xi
Ecuación 4.1.2
Ecuación 4.1.3
Ecuación 4.1.4
z =W ⋅ X
y = fN(z)
79
n
85
85
86
i =1
Ecuación 4.1.5
Ecuación 4.1.6
Ecuación 4.1.7
Ecuación 4.1.8
Ecuación 4.1.9
Ecuación 4.1.10
Ecuación 4.1.11
Ecuación 4.2.1
Ecuación 4.2.2
Ecuación 4.2.3
Ecuación 4.2.4
Ecuación 4.2.5
1
=y
1 + e− z
e− z
fN ' =
(1 + e − z ) 2
§z·
f N ( z ) = Tanh ¨ ¸ = y
©2¹
2
§z·
f N ( z ) = Tanh ¨ ¸ =
−1
−z
© 2 ¹ 1+ e
2e− z
fN ' =
2
(1 + e− z )
fN ( z ) =
f N ( z ) = Tanh ( z ) =
fN ' =
fN ' =
4e
1− e
=y
1 + e−2 z
2z
Ecuación 4.3.2
xviii
89
89
89
2z
(1 + e )
2z
2
z(x1, x2) = w1 x1 + w2 x2
w1x1 + w2x2 = v⋅x = ||v||⋅||x|| cos θ
z(x1, x2, x3) = w1x1 + w2x2 + w3x3
z(x1, x2,…, xn) = w1x1 + w2x2 + … + wnxn = 0
2⋅ 2 ⋅ ... ⋅ 2 = 2n
2⋅ 2 ⋅ ... ⋅ 2 = 2
­
ck
si n = k , k ∈ {1, 2,..., M }
°M
xn = ®
n>M
°¦ ak xn − k + noise(n) si
¯ k =1
M
x 'n = ¦ a 'k xn − k
εn = xn – x 'n
90
92
92
94
95
99
(2n )
N ≥n>M
k =1
Ecuación 4.3.3
88
2
2n
Ecuación 4.3.1
88
−2 z
n
Ecuación 4.2.6
87
2z
(1 + e )
2e
86
N≥n>M
99
103
105
106
Una Introducción al Cómputo Neuronal Artificial
Ecuación 4.3.4
1
MSE =
N −M
Ecuación 4.3.5
§
·
MSEn = ¨ xn − ¦ a 'n ,k xn − k ¸
k =1
©
¹
δ MSEn
= −2ε n xn − j
δ a 'n , j
Ecuación 4.3.6
M
§
·
¦
¨ xn − ¦ a 'k xn − k ¸
n = M +1 ©
k =1
¹
N
M
2
107
2
N ≥n>M
107
108
ª xn −1 º
«x »
∇MSEn = −2ε n « n − 2 »
« # »
«
»
¬ xn − M ¼
108
ª a 'n ,1 º
«
»
a 'n ,2 »
«
a 'n =
« # »
«
»
¬« a 'n , M ¼»
109
Ecuación 4.3.9
a 'n +1 = a 'n + Δa'n
109
Ecuación 4.3.10
ª xn −1 º
«x »
Δa'n = μ2εn « n − 2 »
« # »
«
»
¬ xn − M ¼
ck
si n = k , k ∈ {1, 2,..., M }
­
°M
x 'n = ®
N ≥n>M
°¦ a 'k xn − k si
¯ k =1
109
Ecuación 4.3.7
Ecuación 4.3.8
Ecuación 4.3.11
Ecuación 5.1.1
CM ( n, p, m, q, n1 , …, nm ) = np + pn1 + ¦ nA ⋅nA +1 + nm q
A =1
Ecuación 5.2.1
Ecuación 5.2.2
2
­
½
S = ® w j ,0 + ¦ w j ,i yi : j = 3, 4 ¾
i =1
¯
¿
A( j ) = w j ,0 + ¦ w j ,i yi
i =1
Ecuación 5.2.3
Ecuación 5.2.5
124
127
129
m
M = q + ¦ nA
A =1
Ecuación 5.2.4
115
m −1
§M ·
M!
¨ ¸=
© k ¹ k !( M − k )!
§M · §M ·
§M ·
§M · M §M ·
+
+
...
+
+
...
+
¨ ¸ ¨ ¸
¨ ¸
¨ ¸ = ¦¨ ¸
©1¹ ©2¹
©k ¹
© M ¹ k =1 © k ¹
131
131
131
xix
Una Introducción al Cómputo Neuronal Artificial
Ecuación 5.2.6
Ecuación 5.2.7
Ecuación 5.3.1
Ecuación 5.3.2
Ecuación 5.3.3
Ecuación 5.3.4
Ecuación 5.3.5
Ecuación 5.3.6
Ecuación 5.3.7
Ecuación 5.3.8
Ecuación 5.3.9
Ecuación 5.3.10
Ecuación 5.3.11
Ecuación 5.3.12
Ecuación 5.3.13
Ecuación 5.3.14
Ecuación 5.3.15
Ecuación 5.3.16
Ecuación 6.1.1
Ecuación 6.1.2
M
§M ·
( a + b) M = ¦ ¨ ¸ a M − k b k
k =0 © k ¹
M
§ M · § M · M § M · M −k k
M
¦
¨ ¸ − ¨ ¸ = ¦ ¨ ¸1 1 − 1 = 2 − 1
0
k
k
k =1 ©
¹ © ¹ k =1 © ¹
f(x1, x2, x3) =
(¬x1 ∧ ¬x2 ∧ x3) ∨ (¬x1 ∧ x2 ∧ ¬x3) ∨ (x1 ∧ x2 ∧ x3)
x1 ⊗ x2 = (¬x1 ∧ x2) ∨ (x1 ∧ ¬x2)
Z1(x1, x2) = w1,0 + x1w1,1 + x2w1,2
x1 − x2 − 1 = 0
Z2(x1, x2) = w2,0 + x1w2,1 + x2w2,2
x1 − x2 + 1 = 0
− x1 + x2 − 1 = 0
− y1 − y2 − 1 = 0
Z3(y1, y2) = y1 + y2 + 1
− x1 − x2 + x3 − 2 = 0
x1 − x2 + x3 + 2 = 0
− x1 + x2 − x3 − 2 = 0
− x1 − x2 − x3 + 2 = 0
x1 + x2 + x3 − 2 = 0
y1 + y2 + y3 + 2 = 0
§ 2n ·
(2n )!
=
¨ ¸
n
© n ¹ (2 − n)!n !
ª I1 º
«I »
E = « 2»
«#»
« »
¬ In ¼
ent = ¦ w j I j
xx
135
136
137
137
138
138
138
139
140
144
145
145
145
145
146
149
155
156
Ecuación 6.1.5
Ecuación 6.2.1
§
·
O = g(ent) = g ¨ ¦ w j I j ¸
© j =1
¹
§ n
·
Err = T – O = T – g ¨ ¦ w j I j ¸
© j =1
¹
wj = wj + α⋅Err⋅Ij
j = 1, 2, …, n
γ 1 = min {W * ⋅Ek }
Ecuación 6.2.2
Wk+1 = Wk + Ek = (E1 + E2 + … + Ek-1) + Ek
Ecuación 6.1.4
132
n
j =1
Ecuación 6.1.3
132
n
156
156
157
162
162
Una Introducción al Cómputo Neuronal Artificial
Ecuación 6.2.3
Ecuación 6.2.4
Ecuación 6.2.5
Ecuación 6.2.6
Ecuación 6.2.7
W*⋅Wk+1 = W*⋅(E1 + E2 + … + Ek-1 + Ek)
W*⋅Wk+1 = W*⋅E1 + W*⋅E2 + … + W*⋅Ek-1 + W*⋅Ek
||Wk+1||2 = ||Wk||2 + 2Wk⋅Εk + ||Εk||2
||Wk+1||2 – 2Wk⋅Εk = ||Wk||2 + ||Εk||2
2
Wk
+ Ek
2
{
Ecuación 6.2.8
γ 2 = max Ek
Ecuación 6.2.9
(k ) γ
2
W*
Ecuación 6.2.10
Ecuación 6.2.11
Ecuación 6.2.12
Ecuación 6.2.13
Ecuación 6.3.1
k =
2
1
2
k
2
j =1
j =1
}
Ecuación 6.3.7
Ecuación 6.3.8
Ecuación 6.3.10
166
167
1
N
168
N
¦ (T
− Ok ) 2
k
170
k =1
2
§
§ n
··
MEk = (Tk – Ok)2 = ¨ Tk − g ¨ ¦ w j I j ¸ ¸
¨
¸
© j =1
¹¹
©
W*⋅Wk+1 =
W*⋅W1 + W*⋅E1 + W*⋅E2 + … + W*⋅Ek-1 + W*⋅Ek
170
172
n2
enti = ¦ w j ,i a j
Oi = g(enti)
wj,I = wj,I + α⋅aj⋅Δi
Δi = Erri ⋅ g’(enti)
Erri = Ti – Oi
§ n2
·
g '(enti ) = g ' ¨ ¦ w j ,i a j ¸
© j =1
¹
wk,j = wk,j + α⋅Ik⋅Δj
176
176
176
176
176
177
177
n3
Δ j = g '(ent j ) ⋅ ¦ w j ,i Δ i
i =1
Ecuación 6.3.9
165
2
j =1
Ecuación 6.3.2
Ecuación 6.3.3
Ecuación 6.3.4
Ecuación 6.3.5
Ecuación 6.3.6
2
= kγ 2
γ2 W *
γ 12
ME =
k −1
= ¦ 2W j ⋅ E j + ¦ E j
162
163
164
164
177
n1
ent j = ¦ wk , j I k
E=
k =1
n3
1
(Ti − Oi ) 2
¦
2 i =1
177
184
xxi
Una Introducción al Cómputo Neuronal Artificial
Ecuación 6.3.11
Ecuación 6.3.12
§ n3
·
SSE = ¦ ¨ ¦ (Ti ,A − Oi ,A ) 2 ¸
A =1 © i =1
¹
n3
1
E = ¦ (Ti − g (enti )) 2
2 i =1
N
Ecuación 6.3.13
E=
Ecuación 6.3.14
Ecuación 6.3.15
Ecuación 6.3.16
xxii
§ n2
··
1 n3 §
T
g
w
a
−
¨
¨
¦ i ¦
j ,i j ¸ ¸
¸
2 i =1 ¨©
© j =1
¹¹
185
185
2
185
∂E
= −a j Δi
∂w j ,i
∂E
= −Δ j ⋅ I k
∂wk , j
189
ª δE º
« δw »
1,1
«
»
« # »
«
»
« δE »
« δ wn ,1 »
2
«
»
« # »
« δE »
«
»
« δ w1,n3 »
«
»
« # »
« δE »
«
»
« δ wn2 , n3 »
∇E = «
δ E »»
«
« δ w1,1 »
«
»
« # »
« δE »
«
»
« δ wn1 ,1 »
« # »
«
»
« δE »
« δw »
« 1, n2 »
« # »
«
»
« δE »
« δ wn ,n »
¬
1 2 ¼
190
187
Una Introducción al Cómputo Neuronal Artificial
Ecuación 6.3.17
ª − a1Δ1 º
« # »
«
»
« −an2 Δ1 »
«
»
« # »
« −a Δ »
« 1 n3 »
« # »
«
»
« −an2 Δ n3 »
∇E = «
»
« − I1Δ1 »
« # »
«
»
« − I n1 Δ1 »
« # »
«
»
« − I1Δ n2 »
«
»
« # »
« −I Δ »
¬ n1 n2 ¼
Ecuación 6.3.18
2
1
E = §¨ T12 − 2 ⋅ T1 ⋅ g w1,1 g ( w1,1 x1 ) + ª g w1,1 g ( w1,1 x1 ) º ·¸
¬
¼ ¹
2©
−2( w1,1x1 ) ·
§
1− e
§
¸ ·
−2¨ w1,1 ⋅
−2 ( w1,1x1 ) ¸
¨
1+ e
¨
©
¹ ¸
1− e
¨ T12 − 2 ⋅ T1 ⋅
¸
−2 ( w1,1x1 ) ·
§
1− e
¸ ¸
¨
−2¨ w1,1 ⋅
−2( w1,1x1 ) ¸
¨
¹ ¸
1 + e © 1+ e
1¨
E= ¨
¸
2
−2( w1,1x1 ) ·
§
1− e
2¨ ª
º
¸
¸
−2¨ w1,1 ⋅
−2( w1,1x1 ) ¸
¨
¹ »
¨ «1 − e © 1+ e
¸
»
¨+«
¸
−2( w1,1x1 ) ·
§
1− e
¸ »
−2¨ w1,1 ⋅
¨ «
¸
−2 ( w1,1x1 ) ¸
¨
¹ »
¨ «1 + e © 1+ e
¸
¼
© ¬
¹
−2 ( w1,1⋅0.2) ·
§
1− e
§
¸ ·
−2¨ w1,1 ⋅
−2 ( w1,1⋅0.2) ¸
¨
1+ e
¨
©
¹ ¸
1− e
¨ (0.5) 2 − 2 ⋅ (0.5) ⋅
¸
−2( w1,1⋅0.2 ) ·
§
1− e
¸ ¸
¨
−2¨ w1,1 ⋅
−2( w1,1⋅0.2 ) ¸
¨
¹ ¸
1 + e © 1+ e
1¨
E= ¨
¸
2
−2( w1,1⋅0.2) ·
§
1− e
2¨ ª
¸
¸ º
−2¨ w1,1 ⋅
−2( w1,1⋅0.2) ¸
¨
¹ »
¨ «1 − e © 1+ e
¸
»
¨+«
¸
−2 ( w1,1⋅0.2 ) ·
§
1− e
¸»
−2¨ w1,1 ⋅
¨ «
¸
−2 ( w1,1⋅0.2 ) ¸
¨
¹»
¨ «1 + e © 1+ e
¸
¼
© ¬
¹
1
2
2 2
E = (T12 − 2T1w1,1w1,1 x1 + w1.1
w1,1
x1 )
2
Ecuación 6.3.19
Ecuación 6.3.20
Ecuación 6.3.21
191
(
)
(
)
193
193
194
195
xxiii
Una Introducción al Cómputo Neuronal Artificial
Ecuación 6.3.22
2
2
E = 0.125 − 0.1w1,1w1,1 + 0.02 w1.1
w1,1
Ecuación 6.3.23
δE
2
= −0.1w1,1 + 0.04w1,1w1,1
δ w1,1
δE
2
= −0.1w1,1 + 0.04w1,1
w1,1
δ w1,1
Ecuación 6.3.24
195
196
196
Ecuación 6.3.25
w1,1 =
2.5
, w1,1 ≠ 0
w1,1
197
Ecuación 6.3.26
2.5
w1,1 =
, w1.1 ≠ 0
w1,1
197
Ecuación 6.4.1
enti =
nm
¦w
km =1
Ecuación 6.4.2
Ecuación 6.4.3
Ecuación 6.4.4
Ecuación 6.4.5
⋅ am,km
km ,i
204
§
·
Oi = g (enti ) = g ¨ ¦ wkm ,i ⋅ am ,km ¸
© km =1
¹
nm
entkA ,A =
nA −1
¦w
kA−1 =1
kA−1 , kA ,A
⋅ aA −1, kA .−1
§
·
aA , kA = g (entkA ,A ) = g ¨ ¦ wkA−1 ,kA ,A ⋅ aA −1,kA−1 ¸
© kA−1 =1
¹
Ecuación 6.4.7
Ecuación 6.4.8
Ecuación 6.4.10
Ecuación 6.4.11
xxiv
204
p
entk1 ,1 = ¦ wk ,k1 ,1 ⋅ I k
a1,k1
204
§ p
·
= g (ent1,k1 ) = g ¨ ¦ wk ,k1 ,1 ⋅ I k ¸
© k =1
¹
q
E = ¦ (Ti − Oi )
δE
δ wk
Ecuación 6.4.9
204
nA−1
k =1
Ecuación 6.4.6
204
204
2
205
i =1
= − (Ti − Oi ) g ' ( enti ) am,km
m ,i
207
§
·
Erri = Ti − Oi = Ti − g ¨ ¦ wkm ,i ⋅ am,km ¸
© km =1
¹
Δ i = Erri ⋅ g '(enti )
207
§
§ nm
· · § nm
·
= ¨ Ti − g ¨ ¦ wkm ,i ⋅ am ,km ¸ ¸ ⋅ g ' ¨ ¦ wkm ,i ⋅ am,km ¸
¨
¸
© km =1
¹ ¹ © km =1
¹
©
δE
= −Δ i ⋅ am ,km
δ wkm ,i
207
nm
207
Una Introducción al Cómputo Neuronal Artificial
δE
Ecuación 6.4.12
δ wk
Ecuación 6.4.13
(
i =1
(
Δ km ,m = ¦ Δ i ⋅ wkm ,i ⋅ g ' entkm , m
δE
δ wk
)
= −¦ Δ i wkm ,i g ' entkm ,m am −1,km−1
m−1 , km , m
q
Ecuación 6.4.14
Ecuación 6.4.15
q
i =1
)
210
210
= −Δ km , m ⋅ am −1, km−1
211
m−1 , k m , m
nA+1
Δ kA ,A = g '(entkA ,A ) ¦ Δ kA+1,A +1 ⋅ wkA ,kA+1 ,A +1
kA+1 =1
δE
Ecuación 6.4.16
δ wk
A −1 , kA , A
δE
Ecuación 6.4.17
δ wk ,k ,1
= −Δ kA ,A aA −1,kA−1
215
1< A < m
= −Δ k1 ,1 ⋅ I k
1
220
224
Ecuación 6.4.18
wkm ,i = wkm ,i + α⋅Δi⋅ am,km
225
Ecuación 6.4.19
wkm−1 ,km , m = wkm−1 ,km , m + α⋅ Δ km ,m ⋅ am −1, km−1
225
Ecuación 6.4.20
wkA−1 ,kA ,A = wkA−1 ,kA ,A + α⋅ Δ kA ,A ⋅ aA −1,kA−1
225
Ecuación 6.4.21
wk ,k1 ,1 = wk ,k1 ,1 + α⋅ Δ k1 ,1 ⋅Ιk
225
Ecuación 6.5.1
1
1+ t
ª x1 º
«x »
X = « 2»
«#»
« »
¬ xn ¼
Wj = Wj + α⋅ϕ(j, k, r)⋅(E – Wj)
H = [0,1]
× [0,1] × ... × [0,1]
Ecuación 7.3.1
Ecuación 7.3.2
Ecuación 7.4.1
α (t ) =
n
Ecuación 7.4.2
min
xi
­
½
ª # º
°
°
«
»
= min ® x j ,i : E j = « x j ,i » , j = 1, 2,..., N ¾
°
°
«¬ # »¼
¯
¿
233
248
250
263
264
xxv
Una Introducción al Cómputo Neuronal Artificial
Ecuación 7.4.3
Ecuación 7.4.4
Ecuación 7.4.5
ª x1min º
« min »
x
Pmin = « 2 »
« # »
« min »
«¬ xn »¼
ª x1max º
« max »
x
Pmax = « 2 »
« # »
« max »
¬« xn ¼»
­
½
ª # º
°
°
«
»
xi = max ® x j ,i : E j = « x j ,i » , j = 1, 2,..., N ¾
°
°
«¬ # »¼
¯
¿
min
ª x j ,1 º ª x1 º ª x ' j ,1 º
» «
« » «
»
E j ' = E j − Pmin = « # » − « # » = « # »
« x j ,n » « xnmin » « x ' j ,n »
¬ ¼ ¬
¼
¼ ¬
max
min
ª x1 º ª x1 º ª x1max 'º
«
» «
» «
»
Pmax ' = Pmax − Pmin = « # » − « # » = « # »
« xnmax » « xnmin » « xnmax '»
¬
¼ ¬
¼ ¬
¼
min
min
ª x1 º ª x1 º ª0 º
«
» «
»
Pmin ' = Pmin − Pmin = « # » − « # » = «« # »»
« xnmin » « xnmin » «¬0 »¼
¬
¼ ¬
¼
max
xi '⋅ Si = 1, i = 1, 2,..., n
1
Si = max , i = 1, 2,..., n
xi '
264
265
max
Ecuación 7.4.6
Ecuación 7.4.7
Ecuación 7.4.8
Ecuación 7.4.9
Ecuación 7.4.10
Ecuación 7.4.11
xxvi
ª
·º
1
min §
« ( x j ,1 − x1 ) ¨ max
min ¸ »
© x1 − x1 ¹ »
«
ª x*j ,1 º «
»
#
« » «
»
#
« » «
»
§
·
1
E j * = « x*j ,i » = « ( x j ,i − ximin ) ¨ max
min ¸ »
« » «
© xi − xi ¹ »
« # » «
»
#
« x* » «
»
,
j
n
¬ ¼
·»
«
1
min §
« ( x j ,n − xn ) ¨ max
min ¸ »
© xn − xn ¹ ¼
¬
265
266
266
266
267
267
268
Una Introducción al Cómputo Neuronal Artificial
Ecuación 7.4.12
Ecuación 7.4.13
Ecuación 7.4.14
G normalized
=
j
Gj
256
1
α (t ) =
t +1
« d
»
GW = «
⋅ 255»
¬ d max
¼
268
270
274
xxvii
Una Introducción al Cómputo Neuronal Artificial
xxviii
Una Introducción al Cómputo Neuronal Artificial
Índice de Algoritmos
Página
Algoritmo 3.1.
Algoritmo 3.2.
Algoritmo 3.3.
Algoritmo 3.4.
Algoritmo 4.1.
Algoritmo 6.1.
Algoritmo 6.2.
Algoritmo 6.3.
Algoritmo 6.4.
Algoritmo 6.5.
Algoritmo 7.1.
Algoritmo 7.2.
Cálculo del mínimo de la función J(W) mediante búsqueda
del vector gradiente ∇J(W) = 0 y actualización iterativa del
vector de pesos.
Método de Descenso Escalonado para la búsqueda de un
mínimo: caso de una única entrada.
Método de Descenso Escalonado para la búsqueda de un
mínimo: caso de una única entrada y T presentaciones del
conjunto de entrenamiento.
Método de Descenso Escalonado para la búsqueda de un
mínimo: caso de varias entradas y T presentaciones del
conjunto de entrenamiento.
Implementación del método de Descenso Escalonado para el
entrenamiento de un Perceptrón y determinación de
Parámetros Autorregresivos en una señal.
Implementación de la Regla de Rosenblatt para el
entrenamiento de un Perceptrón.
Propagación de un vector de entrada en una red de
Perceptrones con una única capa oculta.
Método de Retropropagación para el entrenamiento de una
Red de Perceptrones con una única capa oculta.
Propagación de un vector de entrada en una red de
Perceptrones con dos capas ocultas.
Entrenamiento por Retropropagación para una Red de
Perceptrones con dos capas ocultas.
Entrenamiento de una Red de Kohonen Unidimensional.
Determinando la neurona asociada a un vector de entrada E
en una Red de Kohonen Unidimensional.
61
65
69
72
110
158
180
182
230
233
251
253
xxix
Una Introducción al Cómputo Neuronal Artificial
xxx
Una Introducción al Cómputo Neuronal Artificial
Índice de Figuras
Figura 1.1.
Figura 1.2.
Figura 1.3.
Figura 1.4.
Figura 1.5.
Figura 1.6.
Figura 2.1.
Figura 2.2.
Figura 2.3.
Figura 2.4.
Figura 2.5.
Figura 3.1.
Figura 3.2.
Figura 3.3.
Figura 3.4.
Figura 3.5.
Figura 3.6.
Componentes principales de una Neurona Biológica.
Componentes de la Unión Sináptica entre dos neuronas.
Porción de una Red Neuronal Biológica.
Representación esquemática de una neurona (biológica o
artificial).
Ejemplo de Representación Esquemática de un
fragmento de Red Neuronal.
Un Red formada por 6 neuronas tipo Adaline.
Interpretación del signo de las pendientes de las Rectas
Tangentes a una función f. a) Una pendiente positiva
señala la dirección de crecimiento de f. b) Una pendiente
negativa indica que f decrece en la dirección positiva del
eje X1.
Ajuste de la recta wx1 + b.
Disposición en el plano cartesiano de los puntos
presentados en la Tabla 2.1.
La recta d = 2.9818x1 + 3.9545 como el mejor estimador
lineal para el conjunto de datos presentado en la Tabla
2.1.
El paraboloide asociado a la función de error
J = 5w2 + 0.5b2 – 29.81w – 3.95b + 52.397
Representación esquemática de una neurona Adaline.
Gráfica de la función sign.
Esquema de una neurona Adaline para dar solución al
modelado de la compuerta lógica OR.
Estructura de la neurona Adaline omitiendo el uso de la
función sign.
Sección transversal del paraboloide definido por J(W). El
vector gradiente nos indica la dirección de máximo
crecimiento de J(W).
Sección transversal del paraboloide definido por J(W).
La dirección opuesta del vector gradiente indica la
dirección en donde se ubica el mínimo de J(W).
Página
9
10
11
12
13
18
25
31
36
37
38
49
49
51
53
58
59
xxxi
Una Introducción al Cómputo Neuronal Artificial
Figura 3.7.
Figura 4.1.
Figura 4.2.
Figura 4.3.
Figura 4.4.
Figura 4.5.
Figura 4.6.
Figura 4.7.
Figura 4.8.
Figura 4.9.
Figura 4.10.
Figura 4.11.
xxxii
Sección transversal del paraboloide definido por J(W).
Dado un (punto) vector de pesos inicial W1 y -∇J(W1) se
obtiene el nuevo (punto) vector de pesos W2. Usando a
W2 y -∇J(W2) se obtiene el (punto) vector de pesos W3.
Se procede de manera sucesiva hasta obtener un vector
de pesos Wm tal que ∇J(Wm) = 0 o tan cercano a éste
como sea posible.
Representación esquemática de un Perceptrón.
Algunas Funciones de Activación para el Perceptrón:
a) Función Sigmoide; b) Tangente Hiperbólica con
z
argumento ; c) Tangente Hiperbólica; d) La función
2
1 + Tanh( z )
.
2
Una neurona de tipo Perceptrón con dos entradas.
El umbral z(x1, x2) = w1 x1 + w2 x2 = 0 asociado a un
Perceptrón de 2 entradas.
El vector normal v del umbral z(x1, x2) = w1 x1 + w2 x2 = 0
asociado a un Perceptrón de 2 entradas. Los componentes
de v son precisamente los valores de los pesos w1 y w2.
Caracterización de los puntos en el Espacio Euclidiano
Bidimensional en función del signo de su evaluación con
la función z(x1, x2) = w1 x1 + w2 x2. Si w1 x1 + w2 x2 > 0
entonces el punto está en la misma región hacia la que
apunta el vector normal v. Si w1 x1 + w2 x2 < 0 entonces
el punto está en la región hacia la que apunta –v. Si
w1 x1 + w2 x2 = 0 entonces el punto está sobre la recta
z(x1, x2) = 0.
\2
mediante
el
umbral
Partición
de
z(x1, x2) = w1 x1 + w2 x2 = 0 y su vector normal v. R12 se
forma por los puntos por encima de la recta z(x1, x2) = 0.
R22 se forma por los puntos debajo de la recta
z(x1, x2) = 0. R32 es el conjunto de puntos sobre la recta
z(x1, x2) = 0.
Una neurona de tipo Perceptrón con tres entradas.
El lugar geométrico asociado a z(x1, x2, x3) = 0.
Visualización en el plano de los cuatro posibles estados
de la compuerta lógica AND (Véase el texto para
detalles).
Una recta que separa los estados con salida 0 del estado
con salida 1 en la compuerta lógica AND.
60
85
87
91
91
92
93
94
94
95
96
97
Una Introducción al Cómputo Neuronal Artificial
Figura 4.12.
Figura 4.13.
Figura 4.14.
Figura 4.15.
Figura 4.16.
Figura 4.17.
Figura 4.18.
Figura 4.19.
Figura 4.20.
Figura 4.21.
Figura 4.22.
Figura 4.23.
Figura 5.1.
Figura 5.2.
Figura 5.3.
Visualización en el plano de los cuatro posibles estados
de la compuerta lógica XOR (Véase el texto para
detalles).
a) Una recta que agrupa, para la compuerta lógica XOR,
a los estados con salida 0 pero que también incluye a un
estado con salida 1. b) Una recta que agrupa a los estados
con salida 1 pero que también incluye a un estado con
salida 0.
Ejemplos de regiones convexas: a) Región Convexa
Cerrada; b) Región Convexa Abierta.
Separación de los estados de la compuerta lógica AND
mediante dos regiones cerradas convexas disjuntas
(véase el texto para detalles).
Dos regiones convexas no disjuntas que agrupan, cada
una, a los estados negros y a los estados blancos de la
función XOR.
Separación de los estados negros y los estados blancos de
la función XOR. Se tienen dos regiones disjuntas, pero
una de ellas es no convexa.
Una serie de tiempo de 7 parámetros autorregresivos
(véase el texto para detalles).
Representación esquemática del Perceptrón que se
utilizará para determinar los Parámetros Autorregresivos
en una Señal de Séptimo Orden (Véase el texto para
detalles).
Evolución del valor MSE (Ecuación 4.3.4) a lo largo de
las T = 100 presentaciones del conjunto de entrenamiento
para un Perceptrón entrenado mediante el Algoritmo 4.1
(Véase el texto para detalles).
Evolución del Coeficiente de Aprendizaje μ a lo largo de
las T = 100 presentaciones del conjunto de entrenamiento
para un Perceptrón entrenado mediante el Algoritmo 4.1
(Véase el texto para detalles).
Serie de tiempo de 7 parámetros autorregresivos
generada por un Perceptrón bajo la Ecuación 4.3.11
(véase el texto para detalles).
En color gris, la serie de tiempo presentada en la Figura
4.22. En color negro, la serie de tiempo presentada en la
Figura 4.18 (véase el texto para detalles).
Una red Madaline formada por 5 neuronas.
Una red Madaline formada por 5 neuronas que efectúa un
mapeo de vectores en \ 2 a vectores (escalares) en \ .
El umbral Z1(x1, x2) = 0 asociado a la neurona que
modelará la función Booleana x1 ∧ ¬x2.
98
99
100
101
102
102
106
114
116
117
118
119
123
126
138
xxxiii
Una Introducción al Cómputo Neuronal Artificial
Figura 5.4.
Figura 5.5.
Figura 5.6.
Figura 5.7.
Figura 5.8.
Figura 5.9.
Figura 5.10.
Figura 5.11.
Figura 6.1.
Figura 6.2.
Figura 6.3.
Figura 6.4.
Figura 6.5.
Figura 6.6.
xxxiv
El umbral Z2(x1, x2) = 0 asociado a la neurona que
modelará la función Booleana ¬x1 ∧ x2.
El umbral Z3(y1, y2) = 0 asociado a la neurona que
modelará la función Booleana OR.
Una red Madaline formada por 3 neuronas que resuelve
el problema del modelado de la compuerta XOR.
a), b) y c) En gris: Regiones del plano por encima de los
umbrales asociados a las neuronas que modelan las
funciones Booleanas x1 ∧ ¬x2, ¬x1 ∧ x2 y OR. d) Las tres
regiones anteriores sobrepuestas. En gris obscuro: sus
intersecciones.
Partición del plano inducida por la Red Neuronal de la
Figura 5.6 (Véase el texto para detalles).
Visualización en el espacio 3D de los estados y las
salidas de las funciones Booleanas a) ¬x1 ∧ ¬x2 ∧ x3, b)
¬x1 ∧ x2 ∧ ¬x3, c) x1 ∧ x2 ∧ x3, y d) y1 ∨ y2 ∨ y3. Los
triángulos en gris están inmersos en los planos que
separan a los estados negros de los estados blancos. Sus
vértices son utilizados para determinar sus
correspondientes ecuaciones y orientaciones (véase el
texto para detalles).
Red Madaline que modela a la función Booleana
f(x1, x2, x3) = (¬x1 ∧ ¬x2 ∧ x3) ∨ (¬x1 ∧ x2 ∧ ¬x3) ∨
(x1 ∧ x2 ∧ x3).
Los estados de las funciones Booleanas de 1 a 4 variables
vistos como los vértices de hipercubos. a) Un hipercubo
1D: un segmento (2 vértices/estados). b) Un hipercubo
2D: un cuadrado (4 vértices/estados). c) Un hipercubo
3D: un cubo (8 vértices/estados). d) Un Hipercubo 4D
(16 vértices/estados).
Representación Esquemática de un Perceptrón.
Una red de Perceptrones con una única capa oculta
(Véase el texto para detalles).
Una Red de Perceptrones de una sola capa oculta con una
neurona en cada una de sus capas.
Gráfica de la función de Error asociada a la red de
Perceptrones de la Figura 6.3 (véase el texto para
detalles).
Gráfica de la Ecuación
2
2
E = 0.125 − 0.1w1,1w1,1 + 0.02 w1.1
w1,1
.
El conjunto de puntos, resaltados en negro, para los
cuales el vector gradiente de la función
2
2
E = 0.125 − 0.1w1,1w1,1 + 0.02 w1.1
w1,1
es el vector cero.
139
140
141
143
143
147
148
150
156
175
192
194
195
199
Una Introducción al Cómputo Neuronal Artificial
Figura 6.7.
Figura 6.8.
Figura 6.9.
Figura 6.10.
Una Función de Error E con un único punto crítico: un
máximo (punto remarcado).
Una de red de Perceptrones formada por m capas ocultas,
m ≥ 2 (Véase el texto para detalles).
En color gris se muestran las neuronas involucradas en la
actualización del peso wkm ,i . Tal peso se encuentra
únicamente en la i-ésima neurona de la capa de salida.
En color gris se muestran las neuronas involucradas en la
actualización del peso wkm−1 ,km ,m el cual reside en la
km-ésima neurona de la última capa oculta. Las
actualizaciones aplicadas sobre las neuronas en la capa
de salida influyen también en la actualización del peso
wkm−1 ,km ,m .
Figura 6.11.
Figura 6.15.
Figura 6.16.
205
208
211
En color gris se muestran las neuronas involucradas en la
actualización del peso wk , k1 ,1 . Este peso se ubica
específicamente en la k1-ésima neurona de la primera
capa oculta. Las correcciones aplicadas sobre todas las
neuronas de la red, a excepción de las neuronas en la
capa de entrada y de las neuronas en la primera capa
oculta (salvo la k1-ésima), influyen sobre la actualización
del peso wk ,k1 ,1 .
Figura 6.13.
Figura 6.14.
202
En color gris se presentan a las neuronas involucradas en
la actualización del peso wkA−1 , kA ,A . Éste se encuentra
localizado específicamente en la kO-ésima neurona en la
O-ésima capa oculta. Las actualizaciones aplicadas sobre
las neuronas en las capas ocultas O+1, O+2, …, m y la capa
de salida influyen sobre la actualización de wkA−1 ,kA ,A .
Figura 6.12.
201
Una serie de tiempo formada por K = 2000 muestras.
La serie de tiempo originalmente presentada en la Figura
6.13. En color negro, las muestras utilizadas para formar
el conjunto de entrenamiento. En color gris, las muestras
que conformarán al conjunto de evaluación.
1
a
Evolución del Coeficiente de Aprendizaje α (t ) =
1+ t
lo largo de 500 presentaciones del conjunto de
entrenamiento. En la última instancia se tiene
α(500) ≈ 0.0019.
Una Red de Perceptrones con dos capas ocultas. Se
utilizará para modelar a la serie de tiempo presentada en
la Figura 6.13.
221
229
229
237
238
xxxv
Una Introducción al Cómputo Neuronal Artificial
Figura 6.17.
Figura 6.18.
Figura 7.1.
Figura 7.2.
Figura 7.3.
Figura 7.4.
Figura 7.5.
Figura 7.6.
Figura 7.7.
xxxvi
Evolución del Error Global de la Red de Perceptrones de
la Figura 6.16 durante la aplicación del Algoritmo de
Retropropagación. Se efectuaron 500 presentaciones del
conjunto de entrenamiento.
En color gris, serie de tiempo producida por la Red de
Perceptrones de la Figura 6.16. En color negro, la serie
de tiempo original. La recta punteada separa las muestras
que conformaron al conjunto de entrenamiento
(n = 1, …, 1000) de las muestras que dieron lugar al
conjunto de evaluación (n = 1001, …, 2000).
El conjunto A es particionado en 20 regiones. Una Red
de Kohonen implementa a la función f de manera que los
vectores en el conjunto A son asociados a su
correspondiente clase.
Una Red Unidimensional de Kohonen para la
clasificación de vectores en \ n .
La vecindad de radio r para la k-ésima neurona en una
Red de Kohonen 1D. La vecindad se extiende r
posiciones hacia la izquierda y r posiciones hacia la
derecha.
Una Red de Kohonen Bidimensional para la clasificación
de puntos en \ n . Las neuronas son posicionadas en
renglones y columnas. El vector de entrada X es enviado
a todas las neuronas.
La vecindad bidimensional de radio r para la k-ésima
neurona en una Red de Kohonen 2D. La vecindad se
extiende r posiciones cubriendo una región cuadrangular.
Todas las neuronas dentro de esta región son vecinas de
la neurona k.
Evolución del ajuste de pesos para una Red de Kohonen
1D en la primeras 10 presentaciones del conjunto de
entrenamiento. Los triángulos denotan las posiciones de
los Centros de Gravedad (vectores de pesos) asociados a
las neuronas que forman la red (véase el texto para
detalles).
Algunas fases de la evolución del ajuste de pesos para
una Red de Kohonen 1D. Los triángulos denotan las
posiciones de los Centros de Gravedad (vectores de
pesos) asociados a las neuronas que forman la red (véase
el texto para detalles).
240
241
246
249
250
254
255
257
258
Una Introducción al Cómputo Neuronal Artificial
Figura 7.8.
Figura 7.9.
Figura 7.10.
Figura 7.11.
Figura 7.12.
Figura 7.13.
Figura 7.14.
Figura 7.15.
Figura 7.16.
Partición de la región [0, 1] × [0, 1] inducida por los
centros de gravedad (vectores de pesos, triángulos en la
figura) asociados a las 10 neuronas que conforman a una
Red de Kohonen 1D. La región ha sido subdividida en 10
clases después de 100 presentaciones del conjunto de
entrenamiento (véase el texto para detalles).
Evolución del ajuste de pesos para una Red de Kohonen
1D en la primeras 10 presentaciones de un conjunto de
entrenamiento inmerso en un cubo unitario
[0, 1] × [0, 1] × [0, 1]. Los círculos mayores denotan las
posiciones de los Centros de Gravedad (vectores de
pesos) asociados a las neuronas que forman la red (véase
el texto para detalles).
Algunas fases de la evolución del ajuste de pesos para
una Red de Kohonen 1D. Se mapea un conjunto de
entrenamiento inmerso en un cubo unitario
[0, 1] × [0, 1] × [0, 1]. Los círculos mayores denotan las
posiciones de los Centros de Gravedad (vectores de
pesos) asociados a las neuronas que forman la red (véase
el texto para detalles).
Un conjunto de vectores inmersos en el cubo
[0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6] ⊆ [0,1] × [0,1] × [0,1].
La
diagonal
principal
asociada
al
cubo
[0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6].
Traslación de los vectores originalmente inmersos en el
cubo [0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6] de manera que
Pmin ' es ahora el origen del espacio 3D.
Aplicación de factores de escalamiento de manera que el
conjunto de vectores originalmente inmerso en el cubo
[0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6] (Figura 7.11) se
redistribuya a lo largo del cubo [0, 1] × [0, 1] × [0, 1].
Una imagen correspondiente a una sección cerebral
capturada mediante Tomografía Computada.
Mapa de Falso Color que muestra las distancias entre los
vectores de pesos asociados a una Red de Kohonen 1D
formada por 20 neuronas.
259
260
261
264
265
266
267
269
276
xxxvii
Una Introducción al Cómputo Neuronal Artificial
xxxviii
Una Introducción al Cómputo Neuronal Artificial
Índice de Tablas
Tabla 2.1.
Tabla 3.1.
Tabla 3.2.
Tabla 3.3.
Tabla 3.4.
Tabla 3.5.
Tabla 4.1.
Tabla 4.2.
Tabla 4.3.
Tabla 4.4.
Tabla 4.5.
Tabla 5.1.
Tabla 5.2.
Tabla 5.3.
Tabla 5.4.
Un conjunto de 11 observaciones.
Una compuerta lógica a ser modelada por una neurona
Adaline.
Un conjunto de entrenamiento al que se le aplicará el
método de Descenso Escalonado a fin de que una
neurona Adaline lo modele.
Aplicación del método de Descenso Escalonado para el
ajuste de pesos de una neurona Adaline con el conjunto
de entrenamiento de la Tabla 3.2.
Aplicación del método de Descenso Escalonado para el
ajuste de pesos de una neurona Adaline presentando por
segunda vez el conjunto de entrenamiento de la Tabla 3.2
ª1.2432 º
y usando como vector de pesos iniciales W1 = «
».
¬3.4485¼
Vectores de pesos obtenidos al final de la t-ésima
presentación, t = 1, 2, …, 10, mediante Descenso
Escalonado, para el conjunto de entrenamiento de la
Tabla 3.2.
Tabla de verdad de la compuerta lógica AND.
Tabla de verdad de la compuerta lógica XOR.
Conteo de funciones Booleanas de 1 a 6 entradas
linealmente separables.
Las primeras 15 muestras asociadas a una serie de tiempo
de 7 parámetros autorregresivos (véase el texto para
detalles).
Desempeño del aprendizaje de un Perceptrón entrenado
mediante Descenso Escalonado y el Algoritmo 4.1 (véase
el texto para detalles).
Conjunto de entrenamiento a presentar a una red
Madaline.
Pesos iniciales de las neuronas en la red Madaline
presentada en la Figura 5.2.
Pesos de las neuronas en la red Madaline presentada en
la Figura 5.2 una vez que se ha aplicado un ajuste sobre
la neurona 4 (Véase el texto para detalles).
Estados y salidas para una función Booleana de 3
variables.
Página
36
55
67
67
68
70
96
98
100
105
115
125
126
128
133
xxxix
Una Introducción al Cómputo Neuronal Artificial
Tabla 5.5.
Tabla 5.6.
Tabla 5.7.
Tabla 5.8.
Tabla 5.9.
Tabla 5.10.
Tabla 6.1.
Tabla 7.1.
Tabla 7.2.
Tabla 7.3.
Tabla 7.4.
Tabla 7.5.
Tabla 7.6.
Tabla 7.7.
xl
Estados para los cuales la función Booleana de la Tabla
5.4 tiene salida 1.
Tabla de verdad asociada la función Booleana
(¬x1 ∧ ¬x2 ∧ x3) ∨ (¬x1 ∧ x2 ∧ ¬x3) ∨ (x1 ∧ x2 ∧ x3).
Estados y salidas para la función Booleana XOR.
Estados y salidas para la función Booleana x1 ∧ ¬x2
(el valor 0 ha sido sustituido por -1).
Estados y salidas para la función Booleana ¬x1 ∧ x2
(el valor 0 ha sido sustituido por -1).
Estados y salidas para la función Booleana OR (el valor
0 ha sido sustituido por -1).
Pesos asociados a la Red de Perceptrones de la Figura
6.16 una vez que se aplicó el Algoritmo de
Retropropagación con 500 presentaciones del conjunto
de entrenamiento.
Distribución de los 100 elementos del conjunto de
entrenamiento en las 10 clases obtenidas mediante una
Red de Kohonen 1D. Se muestran también las
coordenadas finales de los centros de gravedad de cada
clase una vez efectuadas 100 presentaciones del conjunto
de entrenamiento (véase el texto para detalles).
Distribución de los 100 elementos del conjunto de
entrenamiento, inmerso en un cubo unitario
[0, 1] × [0, 1] × [0, 1], en las 10 clases obtenidas
mediante una Red de Kohonen 1D. Se muestran también
las coordenadas finales de los centros de gravedad de
cada clase una vez efectuadas 100 presentaciones del
conjunto de entrenamiento (véase el texto para detalles).
Clasificación de las 340 imágenes en el conjunto de
entrenamiento de acuerdo a una Red de Kohonen 1D con
20 neuronas (véase el texto para detalles).
Los 16 miembros de la clase 17 asociada a un conjunto
de entrenamiento formado por 340 imágenes y
clasificado mediante una Red de Kohonen 1D.
Los 25 miembros de la clase 12 asociada a un conjunto
de entrenamiento formado por 340 imágenes y
clasificado mediante una Red de Kohonen 1D.
Visualización de las imágenes asociadas a los vectores de
pesos de una Red de Kohonen 1D formada por 20
neuronas (Véase el texto para detalles).
Distancias que tienen los vectores de pesos asociados a
las clases 12 y 17 con todos los demás vectores de pesos
que conforman a una Red de Kohonen 1D.
133
135
135
137
139
140
239
259
262
271
271
272
275
277
Una Introducción al Cómputo Neuronal Artificial
1. Introducción
Una Introducción al Cómputo Neuronal Artificial
2
Capítulo 1. Introducción
Las Redes Neuronales Artificiales son Redes Computacionales cuya finalidad es la
de simular, en su totalidad, las redes de células nerviosas (neuronas) del sistema nervioso
central (biológico) de humanos o mamíferos. Usamos el término totalidad para referirnos al
hecho de que la simulación efectivamente es total: se detalla cada neurona a utilizar, la
forma en que procesa la información, y también se especifican las conexiones entre las
neuronas. Estas simulaciones se derivan del conocimiento neurofisiológico de las neuronas
biológicas y las redes formadas por éstas. Se dice que el proceso de solución de problemas
mediante Redes Neuronales, ya sean Biológicas o Artificiales, es llamado Cómputo
Neuronal. Esta distinción tiene la intención también de diferenciarlo del Cómputo Digital
“Convencional”, es decir, aquel cómputo que se sustenta en nuestras computadoras
digitales actuales. También diremos que el Cómputo Neuronal Artificial es el proceso de
solución de problemas pero utilizando específicamente Redes Neuronales Artificiales.
El Cómputo Neuronal Artificial aspira a reemplazar, mejorar o acelerar el cómputo
que se efectúa en el cerebro humano. Sabemos que la velocidad de procesamiento del
cerebro es lenta comparada con la velocidad de procesamiento presente en las
computadoras actuales. Operaciones simples pero en grandes volúmenes, como las
aritméticas por ejemplo, en los inicios del siglo XX le requerían interminables horas de
trabajo a un ser humano. Además, habría que tener en cuenta las posibilidades de cometer
errores, que por lo regular eran considerables. Con la llegada de las primeras computadoras
electrónicas de propósito general, como la ENIAC en 1946, cuyo poder de procesamiento
es hoy comparable al de una calculadora de bolsillo, esas mismas operaciones aritméticas
podían ser efectuadas con unos pocos segundos de procesamiento y con nulas
probabilidades de error. Ahora bien, imaginemos lo que se puede lograr al proporcionar la
misma velocidad de cómputo que nos da la electrónica al incorporarla a nivel neuronal y
combinarla con el poder de solución de problemas con que cuenta nuestro cerebro.
Tomemos en cuenta que hay una gran cantidad de problemas en los cuales el cerebro
humano supera, por su capacidad para formar y proporcionar soluciones, a las
computadoras digitales. La velocidad que nos da la electrónica junto con las capacidades
del Cómputo Neuronal deja abiertas grandes posibilidades de contar con soluciones
correctas a problemas realmente difíciles en tiempos sumamente cortos.
Otro punto interesante es que el Cómputo Neuronal no considera explícitamente la
organización de sus elementos de cómputo, las neuronas, y las redes que éstas forman. El
cerebro se estructura en una red de neuronas realmente enorme. Se tiene un conteo
aproximado de 1011 = 100,000,000,000 células nerviosas en el caso del cerebro humano.
Esta red neuronal se encuentra trabajando activamente incluso en los periodos de sueño. Es
la misma red que utilizamos para la solución de problemas. Sin embargo, es claro que
ningún ser humano está consciente de que partes de esa red fueron utilizadas para dar
solución a una Ecuación Diferencial, por ejemplo. Es decir, para solucionar problemas, no
requerimos, a priori, determinar a que subred neuronal hay que dirigir nuestro razonamiento
o bien cual de todas las subredes disponibles se adapta mejor para solucionarlo. Tampoco
estamos conscientes de los mensajes transmitidos por cada neurona involucrada en la
generación de la solución. Contamos con una arquitectura de Red Neuronal de la cual no
necesitamos conocer su organización y funcionamiento internos. En el caso de las Redes
3
Una Introducción al Cómputo Neuronal Artificial
Neuronales Artificiales veremos que si es necesario especificar una arquitectura y la
manera en que las neuronas se conectan. También es necesario especificar puntos en los
cuales proporcionaremos una entrada a la red y puntos en donde debemos esperar la salida
que ésta dará para nuestro problema. Pero aparte de ello, veremos que los mecanismos de
aprendizaje a utilizar no son dependientes en ninguna manera de la estructura de red.
También veremos que si el aprendizaje fue exitoso, entonces realmente sólo nos
preocuparemos de dar la entrada y obtener la salida correspondiente sin prestar mayor
consideración a la organización interna, tal y como sucede con el procesamiento cerebral.
Una Red Neuronal Artificial es computacionalmente y algorítmicamente muy
simple. Si bien sabemos que se tienen contabilizadas aproximadamente 1011 neuronas en el
cerebro humano, en la práctica, la implementación de una Red Neuronal Artificial sólo
requiere, a lo más, unos cientos de neuronas. Pero, por otro lado, se verá que existen
aplicaciones en las cuales una decena de neuronas basta para dar solución a un problema.
Ello implica que los requerimientos espaciales (memoria primaria y secundaria) son en
realidad pequeños. Adicionalmente, una Red Neuronal, y particularmente cada una de las
neuronas que la componen, usan únicamente operaciones computacionales elementales
tales como sumas, multiplicaciones y operadores lógicos. Esto tiene como consecuencia
que la implementación, ya sea en software o en hardware, es en realidad sencilla y además
cuenta con tiempos de ejecución, o respuesta, reducidos que de hecho dependen
directamente del tamaño de la entrada que recibirá la red y el número de neuronas que la
forman.
En el sistema nervioso central miles de neuronas mueren al año. La perdida de
neuronas inicia a partir del nacimiento y nunca se detiene. También hay que tomar en
cuenta que las neuronas tienen entre una de sus características la de no reproducirse. Por lo
tanto, la pérdida neuronal puede verse como un daño irreparable. Pero en este punto surge
un aspecto sumamente interesante y que forma parte del gran poder del Cómputo Neuronal:
las funciones del cerebro no se ven afectadas por daños menores (al menos bajo
condiciones normales y durante los primeros dos tercios de vida del ser humano). Esta
insensibilidad a daños menores se debe a tres propiedades trascendentales de las Redes
Neuronales Biológicas: su Alto Paralelismo, su Adaptabilidad y la capacidad de
Auto-Organización.
El Alto Paralelismo se refiere al hecho de que una vez que se recibe una entrada,
ésta es manipulada al mismo tiempo por varias neuronas. Cada neurona proporcionará su
correspondiente aportación a la solución del problema la cual es enviada a su vez como
entrada a otras neuronas que la procesarán también en paralelo. El punto trascendental es
que la pérdida de neuronas no implica necesariamente que la red quede desconectada o bien
que reduzca su eficiencia. La ventaja del paralelismo es que siempre existirán rutas
disponibles para procesar la entrada y producir la salida correspondiente. Sólo para hacer
un contraste: una computadora digital “convencional” es una máquina secuencial, ello
implica que si un transistor falla entonces la máquina por completo se hace inservible.
4
Capítulo 1. Introducción
El alto paralelismo presente en las Redes Neuronales permite siempre encontrar
rutas alternas para procesar una entrada. Sin embargo, es probable que el daño neuronal
reduzca la eficiencia de la red. Es cuando las propiedades de la Adaptabilidad y
Auto-Organización entran en acción. Puede que se tengan neuronas especializadas en
alguna tarea particular. Sin embargo, la pérdida neuronal puede obligar a éstas a
especializarse en otras nuevas tareas. Ello implica que deben adaptarse a un nuevo
ambiente e inclusive estar preparadas para recibir y procesar nuevos tipos de entradas y
proporcionar las salidas correspondientes a esas nuevas tareas. La auto-organización toma
lugar cuando se crean u omiten conexiones entre neuronas a fin de reforzar el proceso de
adaptación. Son las mismas neuronas las que controlan las modificaciones a la estructura de
la Red Neuronal a la que están asociadas. Los procesos de auto-organización y adaptación
toman lugar a lo largo de toda la vida, dado que ya mencionamos que a lo largo de ésta se
pierden neuronas, y además, se encuentra sumamente ligado a los procesos de aprendizaje.
Para su estudio y análisis, el cerebro humano, y en particular la corteza cerebral, se
dividen en regiones. Cada una de estas regiones es de hecho una Red Neuronal con una
tarea específica. Una de estas zonas es la llamada Área de Broca la cual está asociada con
el proceso de la comunicación oral. Mencionamos antes que bajo condiciones normales las
pérdidas neuronales pueden ser controladas sin percibir los daños o efectos provocados por
la ausencia de tales neuronas. Sin embargo, la adaptabilidad y auto-organización neuronales
también actúan bajo situaciones más dramáticas. Un accidente cerebrovascular puede ser
causado al incidir sobre una región del tejido cerebral un repentino bloqueo de la irrigación
sanguínea o bien, por el contrario, una hemorragia. Como consecuencia, la región afectada
queda por completo dañada. Si esta condición se presentara en el Área de Broca, el paciente
entonces perdería la capacidad del habla. En la Literatura Médica se tienen identificados
casos de pacientes con esta situación y que han regenerado su capacidad de comunicación
gracias a los procesos de auto-organización y adaptabilidad. En estos casos se requieren
intervalos de tiempo más largos para la recuperación, del orden de meses, debido a que son
millones las neuronas involucradas. Las regiones en la corteza cerebral que son vecinas del
Área de Broca deben adaptarse a la nueva función y al mismo tiempo continuar dando
seguimiento a las tareas que ya tienen asignadas. En consecuencia, se tiene que una Red
Neuronal, gracias a los procesos de adaptación y auto-organización, cuenta con un amplio
potencial para abordar una gran cantidad de problemas.
Aunque la base algorítmica sobre la que se sustentan Redes Neuronales Artificiales
es muy simple, veremos que éstas efectivamente cuentan con las características del
paralelismo, adaptabilidad y auto-organización. Dado un problema a ser resuelto,
plantearemos una topología de red neuronal: se establecen las neuronas a utilizar, su
posición dentro de la red y sus conexiones. Los algoritmos de aprendizaje ajustarán los
elementos de cómputo de cada neurona a fin de maximizar su eficiencia de manera que la
topología elegida se adapte tanto como sea posible para proporcionar una solución al
problema y procesar adecuadamente las entradas y producir las salidas correctas. Inclusive,
si la red es sometida en el futuro a cambios respecto a la naturaleza del problema, será
posible esperar que mediante reajustes mínimos de sus elementos, ésta tenga la capacidad
de responder exitosamente a tales cambios.
5
Una Introducción al Cómputo Neuronal Artificial
Todos los puntos anteriores nos conducen a pensar que una Red Neuronal puede
verse de hecho como una arquitectura novedosa a nivel computacional y algorítmico. Ello
quiere decir que incluso podríamos pensar en una arquitectura computacional adicional a la
arquitectura de Cómputo Digital “Convencional”. El cómputo “Convencional” debe
entenderse, de manera concreta y formal, como aquel basado en las Máquinas de Turing y
la electrónica. Las Máquinas de Turing proporcionan la Teoría y Fundamentos detrás de la
Computación. Una Máquina de Turing expresa a nivel elemental la lógica detrás de un
algoritmo. Una Máquina de Turing Universal T es aquella que es capaz de recibir como
entrada una Máquina de Turing M y las entradas para M de manera que T simula la
ejecución de M. Es decir, una Máquina de Turing Universal puede verse como el modelo
matemático de una computadora de escritorio y de manera más específica, de su Unidad
Central de Procesamiento (CPU). La electrónica nos proporciona los elementos para la
materialización y aceleración de nuestras Máquinas de Turing.
Ya hicimos mención de que el Cómputo Neuronal podría verse como un modelo
adicional al Cómputo “Convencional”. Sin embargo, en realidad las Redes Neuronales
Artificiales pueden simularse sin problema alguno en las computadoras convencionales.
Ello implica que las herramientas algorítmicas que utilizamos comúnmente nos serán útiles
para resolver problemas bajo el enfoque neuronal. El hardware y software que requiere el
Cómputo Neuronal Artificial es el mismo que utilizamos hoy en día. Además, hemos de
recalcar que una Red Neuronal usa únicamente operaciones computacionales elementales,
como sumas, multiplicaciones y lógica elemental, para dar solución a una amplia gama de
problemas. En este punto es posible plantearse una observación: Si el Cómputo Neuronal
Artificial no requiere hardware y software específicos y además se basa en operaciones
básicas, las mismas presentes en los CPUs, entonces, ¿qué ventajas puede tener sobre el
Cómputo “Convencional”? Parte de la respuesta a ello viene de las características del Alto
Paralelismo, Adaptabilidad y la capacidad de Auto-Organización que forman en sí una
porción de la base de los procesos de razonamiento y aprendizaje en el cerebro. La otra
parte de la respuesta surge al considerar las propiedades anteriores y su impacto en la
solución de algunos de los problemas a los cuales el Cómputo Neuronal Artificial ha dado
soluciones exitosas:
• Problemas Mal Definidos: Todo problema a ser resuelto computacionalmente debe
tener bien definidos sus conjuntos de entrada y de salida. Es decir, se debe especificar
claramente las propiedades de las entradas y las propiedades de las salidas y cómo es
que éstas pueden ser validadas como correctas o incorrectas. Sin embargo, no todos los
problemas presentan estas propiedades. Considérese por ejemplo el reconocimiento de
voz. Supongamos que se desean clasificar oraciones en general. Si bien los idiomas
cuentan con reglas para definir la estructura de una oración, sujeto-verbo-predicado por
ejemplo, la realidad es que muchas de las oraciones en ocasiones no se sujetan a una y
sólo una estructura ya definida. Por lo regular una oración puede ajustarse a varias
reglas o estructuras al mismo tiempo. Ello se debe a que si se busca clasificar oraciones
es necesario tomar en cuenta su semántica o intención. Una misma oración puede ser
entendida como una declaración, interrogación, exclamación, etc. Es claro que los
conjuntos de entrada y salida, en este caso, oraciones y su clasificación esperada, no
6
Capítulo 1. Introducción
•
•
•
están bien delimitados y estructurados. Pero por otro lado, como seres humanos somos
capaces de comunicarnos de manera oral y también somos capaces de entender y actuar
en función de los mensajes recibidos y su intención. En este sentido, existen
aplicaciones exitosas de Redes Neuronales Artificiales, bajo dominios restringidos, en
el Área de Reconocimiento de Voz.
Problemas No Lineales: Analicemos el caso particular de la Optimización
Matemática. Aquí se tienen conjuntos de entradas y salidas bien especificadas. Por lo
regular, se cuenta con una función objetivo y un conjunto de restricciones. La idea es
Maximizar o Minimizar la función al encontrar los valores de sus variables que la
optimicen y que además satisfagan las restricciones dadas. La instancia en la cual la
función objetivo y las restricciones son todas funciones lineales está sumamente
estudiada y se cuenta con soluciones algorítmicas “convencionales” eficientes. Sin
embargo, la gran mayoría de los problemas de optimización no son de naturaleza lineal.
Una búsqueda exhaustiva es no factible ya que el conjunto de los posibles valores de
que pueden tomar las variables es por lo regular infinito. Actualmente la Optimización
No Lineal es un área de Investigación de desarrollo intenso. Hay una gran cantidad de
Investigadores involucrados en la búsqueda de metodologías y soluciones para este tipo
de problemas. El campo de las Redes Neuronales Artificiales ha logrado aportar guías
respecto a la manera en la que problemas particulares podrían ser abordados al
proporcionar información geométrica y/o topológica respecto al espacio de búsqueda de
posibles soluciones, o bien al proporcionar soluciones bastante cercanas a las soluciones
óptimas.
Problemas de Predicción: Consideremos la situación en la cual contamos con una
serie de eventos dependientes del tiempo y para los cuales se desea saber como se
comportará esa serie pero en el futuro. Este tipo de estudios han encontrado nichos de
trascendencia vital para los seres humanos tales como la predicción de sismos, tornados,
actividad volcánica, el clima, e incluso en cuestiones de salud como análisis de
electrocardiogramas para predicción de infartos o bien en el diagnóstico de algunos
tipos de cáncer. El “Santo Grial” de los Economistas es un modelo que les permita
predecir el comportamiento futuro de las Bolsas de Valores. Es bien sabido que en este
tipo de situaciones la sola medición de los factores involucrados directos por lo regular
no es suficiente. Es decir, por ejemplo, el comportamiento de la Bolsa de Valores no
sólo se rige por el intercambio de divisas o por el mercado accionario, también se puede
ver afectado por factores externos como las declaraciones de un mandatario, por
movimientos sociales, o hasta actividades como el terrorismo. Estos factores por lo
regular son muy difíciles de modelar y predecir, pero influyen y están presentes de
manera intrínseca en las mediciones. Las Redes Neuronales Artificiales han encontrado
un nicho de aplicación exitoso al efectuar predicciones sobre series de tiempo o bien al
identificar predictores dentro de éstas: subsecuencias dentro de una serie de tiempo que
sirven como patrones para identificar eventos futuros como las devaluaciones de las
monedas, por ejemplo.
Problemas computacionalmente complejos: Dentro de la Teoría de la Computación
existe la llamada Completez NP. Un problema caracterizado como NP-Completo se
entiende, informalmente, como aquel para el cual no se ha encontrado una solución
7
Una Introducción al Cómputo Neuronal Artificial
algorítmica eficiente, es decir, no se ha determinado un algoritmo ejecutado sobre una
computadora convencional que lo resuelva en un tiempo razonable. Es importante
mencionar también que para este tipo de problemas tampoco se ha demostrado que no
puedan ser resueltos de manera eficiente. La clase de problemas NP-Completos tiene en
su haber a algunos bien conocidos como el Problema del Agente Viajero (PAV), el
Problema de la Satisfactibilidad de una Proposición en Forma Normal Conjuntiva
(SAT-CNF), el Problema del Cliqué de Orden k (k-Cliqué), el Problema del Circuito
Hamiltoniano, etc. De hecho, hasta el día de hoy se han caracterizado a millares de
problemas como NP-Completos, y la cuenta sigue en aumento al publicarse en la
literatura, año con año, nuevos problemas identificados. El consenso mayoritario entre
los expertos de la Teoría de la Computación, y basado únicamente en las experiencias e
información con que se cuenta, apunta a que para los problemas NP-Completos no
existirán soluciones algorítmicas eficientes. Ello quiere decir que existiría una noción
clara de lo que es un problema computacional “fácil” y un problema computacional
“difícil”. Lo importante es que entonces se estaría reconocimiento la ausencia de
soluciones eficientes para éstos últimos. Otra cuestión relevante es que existen una gran
cantidad de problemas prácticos que a final de cuentas se reducen a un problema
NP-Completo. Por lo tanto, tampoco podemos ignorarlos debido a que efectivamente,
bajo tales instancias, se requiere solucionarlos. Nuevamente, se tienen arquitecturas de
Redes Neuronales Artificiales que han proporcionado soluciones aproximadas a
instancias de entrada para algunos problemas NP-Completos. Lo mejor es que de hecho
estas arquitecturas proporcionan en algunos casos soluciones con rangos de error muy
bajos, usando pocos elementos de Cómputo Neuronal y con un tiempo de ejecución
sumamente corto.
1.1 Redes Neuronales Biológicas
Como bien sabemos una Red Neuronal Biológica se forma por células nerviosas, las
neuronas, las cuales se encuentran interconectadas. En el cuerpo de una neurona, el cuál
contiene su Núcleo, es donde la mayor parte de la Computación Neuronal se efectúa. Véase
la Figura 1.1. Las Dentritas son ramificaciones a través de las cuales una neurona recibe
las señales de entrada. Por otro lado, el Axón es una ramificación que puede llegar a tener
cientos o hasta miles de veces la longitud del diámetro del núcleo y su objetivo es propagar
una señal. Por lo regular la propagación es en un único sentido pero de hecho es posible
encontrar axones bidireccionales. El axón en su parte final se ramifica. A estas
ramificaciones se les llama en conjunto Región Pre-Sináptica. Por último, cada
ramificación termina en una Sinapsis. Es en las sinapsis donde precisamente una neurona
transmite su señal al propagarla con todas aquellas neuronas con las cuales tiene
conexiones. Nótese que la descripción que acabamos de presentar es muy similar a la
clasificación comúnmente usada para presentar los componentes de una computadora
digital “convencional”: tenemos entonces a las dentritas como los dispositivos de entrada,
el núcleo de la neurona como su CPU y finalmente las sinapsis como los dispositivos de
salida. De allí la razón de considerar a la neurona como la unidad básica del Cómputo
Neuronal.
8
Capítulo 1. Introducción
Dentritas
(Entradas)
Axón
Región
Pre-sináptica
(Salidas)
Núcleo
Figura 1.1. Componentes principales de una Neurona Biológica.
Las neuronas pueden ser clasificadas en 3 tipos de acuerdo al rol que cumplen
dentro de una Red Neuronal:
• Neuronas aferentes:
o Transmiten mensajes al interior del organismo los cuales proceden de los receptores
sensoriales (vista, tacto, olfato, etcétera).
• Neuronas eferentes:
o Llevan mensajes a las estructuras ejecutoras haciendo que los músculos se
contraigan o relajen y también al ordenar a las glándulas la secreción de hormonas.
• Interneuronas:
o Sirven como puntos de conexión entre otras neuronas dentro del sistema nervioso
central y constituyen aproximadamente el 97% de todas las células nerviosas.
Veremos en secciones posteriores como que es que esta clasificación es sumamente útil, ya
que en una Red Neuronal Artificial efectivamente identificaremos a las neuronas aferentes
(la entrada de la red), las interneuronas y a las neuronas eferentes (la salida de la red). De
acuerdo a su rol es como los algoritmos de aprendizaje aplican cambios y ajustes.
Parte del poder del Cómputo Neuronal radica en la capacidad de las neuronas para
transportar y transmitir mensajes. A esta propiedad se le conoce como Excitabilidad.
Analicemos de manera superficial como que es que una neurona transmite un mensaje.
Como cualquier célula, una neurona es delimitada por su membrana. La membrana de la
neurona se encuentra Polarizada. Es decir, en el exterior se presenta una baja
concentración de iones de potasio mientras que en su interior esta concentración es alta. Por
otro lado, se tiene una alta concentración de iones de sodio en el exterior y una baja
concentración en el interior. Estas concentraciones no se equilibran gracias a que la
membrana tiene diferencias de permeabilidad lo que impide el paso de iones del interior al
exterior y viceversa.
9
Una Introducción al Cómputo Neuronal Artificial
Sin embargo, es posible que la permeabilidad de la membrana de una neurona se
altere momentáneamente permitiendo que las concentraciones de los iones se equilibren.
Este fenómeno provoca entonces un súbito incremento de actividad eléctrica lo cual da
lugar a un Impulso Nervioso que se propaga a lo largo de la membrana. Una vez que la
neurona se ha Despolarizado, es decir, se ha liberado del impulso nervioso, inicia un
proceso rápido que la coloca en un estado de Reposo. En esta fase se reacomodan y
redistribuyen los iones de sodio y potasio en el interior/exterior de la membrana, así como
las moléculas que la forman para retornar a su estado de permeabilidad original. Durante
esta fase a la neurona se le llama Refractaria ya que no es capaz de transmitir impulsos
nerviosos.
Los impulsos nerviosos, dentro de una neurona, se mueven de las dentritas al
núcleo, del núcleo al axón y finalmente del axón a la región pre-sináptica. Cuando el
impulso llega a los extremos finales de las ramificaciones en la región pre-sináptica, es
decir, a las sinapsis, se encuentra con una discontinuidad. A este espacio, junto con una
sinapsis de la neurona que porta el impulso y la dentrita de una neurona a la cual se le
transmitirá el impulso, se le denomina Espacio Sináptico o Unión Sináptica. Véase la
Figura 1.2.
Dentrita
(Entrada)
Uni ón
Sin áptica
Neurotransmisor
Sinapsis
(Salida)
Figura 1.2. Componentes de la Unión Sináptica entre dos neuronas.
Cuando el impulso nervioso alcanza a una sinapsis provoca la liberación de una
sustancia química denominada Neurotransmisor. Los neurotransmisores están alojados en
vesículas adheridas a las terminaciones del axón. Al día de hoy se tienen identificados
decenas de tipos de neurotransmisores entre los que se encuentran, por ejemplo, la
adrenalina o la acetilcolina. La secreción ocupa el espacio sináptico y provoca los cambios
de permeabilidad en la membrana de la neurona receptora. De esta manera el impulso
nervioso pasa de una neurona a la siguiente y de hecho continúa su camino a través del
nervio correspondiente. Finalmente, el neurotransmisor es destruido por la acción de
enzimas con lo que se deja nuevamente libre el espacio sináptico.
Dado que una neurona puede tener miles de sinapsis, entonces ésta se puede
conectar, y por tanto transmitir su impulso, a otros miles de neuronas. Véase la Figura 1.3.
Es más, una neurona puede conectarse consigo misma. En otras palabras, al procesar la
10
Capítulo 1. Introducción
señal que ella misma generó se tiene un proceso que en ocasiones es llamado de
Retroalimentación. No todas las conexiones entre neuronas tienen los mismos valores o
pesos. Y de hecho esos valores o pesos determinan si la membrana de la neurona que recibe
el impulso lo transmitirá o no. Ello se debe a la existencia de Sinapsis Excitadoras y
Sinapsis Inhibidoras. Estas diferencias de pesos o prioridades son moduladas
precisamente por los neurotransmisores involucrados, los cuales en ocasiones son
clasificados en Neurotransmisores Excitadores y Neurotransmisores Inhibidores. Un
neurotransmisor excitador incrementa las probabilidades de que la neurona receptora
continúe con la transmisión del mensaje, mientras que un neurotransmisor inhibidor puede
encargarse de bloquear su transmisión.
Región
Pre-sináptica
Neurona i+1
Neurona i+1
Dentritas
Neurona i+1
Dentritas
Neurona i
Axón i+1
Región
Pre-sináptica
Neurona i+3
Neurona i
Dentritas
Neurona i+2
Axón i
Axón i+3
Región
Pre-sináptica
Neurona i
Región
Pre-sináptica
Neurona i+2
Neurona i +3
Neurona i+2
Axón i+2
Dentritas
Neurona i+3
Figura 1.3. Porción de una Red Neuronal Biológica.
A partir de este punto nos será más conveniente representar a las neuronas
(biológicas o artificiales) en términos esquemáticos. Véase la Figura 1.4. A toda neurona
se le visualizará como una entidad que cuenta con n entradas (las dentritas). En cada
entrada se recibirá un valor proveniente de otra neurona, o bien, tales valores pueden
formar también una entrada proveniente del mundo exterior. En el primer caso estaríamos
modelando una interneurona, mientras que en el segundo nuestra neurona sería del tipo
11
Una Introducción al Cómputo Neuronal Artificial
aferente. Ello implica que el conjunto de las entradas de una neurona puede ser
representado como un vector con n componentes. Cada entrada i, i = 1, 2, …, n, tendrá
asociada un peso wi. Este peso tendrá la función de neurotransmisor. El peso wi se asociará
al valor recibido en la entrada i. La combinación de ambos puede caracterizar a la conexión
como excitadora o como inhibidora. Todo par (entrada i, peso wi) es llevado al núcleo en
donde se efectuará el Cómputo Neural. El resultado obtenido es un único valor el cual es
distribuido en m salidas (las sinapsis). Estas salidas pueden conectarse con el mundo
exterior, en donde por instancia tenemos una neurona de tipo eferente. Si, por otro lado,
cada salida se conecta con otra neurona entonces tenemos una interneurona. Nótese que de
hecho podemos tener las siguientes caracterizaciones de neuronas en función de su relación
con otras neuronas y con el mundo exterior:
• Aferente/Eferente: entradas provenientes del exterior, salidas enviadas al exterior.
• Aferente/Interneurona: entradas provenientes del exterior, salidas enviadas a otras
neuronas.
• Interneurona/Eferente: entradas provenientes de otras neuronas, salidas enviadas al
exterior.
• Interneurona: entradas provenientes de otras neuronas, salidas enviadas a otras
neuronas.
W1
W2
Salida 1
Núcleo
Salida 2
Wn
Salida m
Figura 1.4. Representación esquemática de una neurona (biológica o artificial).
Con base en los puntos anteriores, también contamos con los elementos para una
representación esquemática de Red Neuronal (biológica o artificial). En la Figura 1.5 se
presenta un ejemplo de fragmento de esquema de Red Neuronal. Se puede apreciar
claramente la presencia de 3 neuronas y la manera en que se encuentran conectadas sus
respectivas entradas y salidas. A cada neurona le es asignado un índice. Por lo tanto, para
diferenciar los pesos a estos se les asignan dos índices de manera que wi,j denota al j-ésimo
peso de la i-ésima neurona.
12
Capítulo 1. Introducción
W i+2,1
W i+2,2
Neurona i+2
W i,1
W i+2,n
W i,2
Neurona i
W i,n
W i+1,1
W i+1,2
Neurona i+1
W i+1,n
Figura 1.5. Ejemplo de Representación Esquemática de un fragmento de Red Neuronal.
1.2 Principios del Diseño de Redes Neuronales Artificiales
A partir de este punto nos adentraremos en los aspectos teóricos detrás de las Redes
Neuronales Artificiales. También seremos más concretos y formales al especificar los
principios detrás de su funcionamiento e interacción con su “mundo exterior” y sus
procesos de aprendizaje. Finalmente, haremos mención de los modelos básicos de neuronas
y también de las estructuras básicas de Redes Neuronales.
Los principios básicos de las Redes Neuronales Artificiales fueron formulados por
Warren McCulloch y Walter Pitts en 1943 al proponer la idea de analizar el Cómputo
Neuronal (Biológico) por medio de operaciones elementales (sumas, multiplicaciones y
lógica básica). Establecieron cinco principios como punto de partida:
• La actividad de una neurona es “Todo o Nada”. Se refiere al hecho de que las salidas
proporcionadas por la neurona son binarias: 0 o 1. La neurona proporcionará un 1 (el
“todo”) si las entradas que recibe, y al ser “sumadas” de alguna manera, proporcionan
un valor lo “suficientemente alto” precisamente para proporcionar la salida 1. De lo
contrario, se proporciona la salida 0 (la “nada”). Es claro que entonces contamos con
Neurona Binaria.
• Un cierto número fijo de sinapsis, mayor a 1, deben ser estimuladas dentro de un
intervalo de tiempo para que una neurona sea excitada. Entenderemos a la excitación de
la neurona como el simple hecho de que inicia el procesamiento de su entrada. Es decir,
sólo se ha planteado un criterio para “encender” una neurona.
13
Una Introducción al Cómputo Neuronal Artificial
•
El único retraso no despreciable dentro de la Red Neuronal es el retraso sináptico. En
otras palabras, para efectuar Cómputo Neuronal se deben tomar en cuenta los tiempos
de espera para que las sinapsis proporcionen su salida.
• La actividad de cualquier sinapsis inhibidora impide por completo la excitación de la
neurona en ese momento. De hecho, la activación de una sola sinapsis inhibidora
“apagará” a la neurona durante un tiempo, independientemente de las sinapsis
excitadoras que se hayan activado en ese mismo momento.
• La estructura de las conexiones entre las neuronas de la red nunca cambia.
Estos cinco principios aún se aplican (no necesariamente todos al mismo tiempo) en el
diseño de Redes Neuronales Artificiales. Además cimentaron las bases a partir de las
cuales, de acuerdo a McCulloch y Pitts, las neuronas y las Redes Neuronales deberían ser
modeladas y estudiadas.
Por otro lado, en 1949, Donald Hebb estableció un principio que también es
utilizado en la actualidad: la Ley de Aprendizaje Hebbiano (Hebbian Rule, Hebbian
Learning Law). Esta ley se cita de la siguiente manera:
“Cuando un axón de una célula P está lo suficientemente cerca de una célula Q
y cuando P de manera repetida y persistente toma parte en la excitación de Q,
entonces algún proceso de crecimiento o cambio metabólico ocurre en una o
ambas células tal que la eficiencia de P es incrementada.”
¿Qué significa que la eficiencia de una neurona sea incrementada? Veamos primero
un ejemplo clásico que se utiliza para visualizar el proceso de Aprendizaje Hebbiano.
a) Supóngase que una célula S causa salivación y es excitada por una célula F la cual, a su
vez, es excitada por el avistamiento de comida.
b) Supóngase además que una célula L, la cual es excitada al escuchar una campana,
también se conecta con S, pero L no es capaz de encender o excitar, por sí sola, a S:
necesita a F.
c) Ahora, cada vez que S es excitada por F, también recibe estimulación proveniente de L.
Sin embargo, la conexión entre S y L es débil o no cuenta con prioridad suficiente de
manera que S no detecta o ignora el impulso proveniente de L. Como ya comentamos,
para excitar a S, L necesita excitar a F y ésta a su vez excita a S.
d) Eventualmente, por repetición sucesiva y por cambios metabólicos o de algún otro tipo,
L será capaz de excitar a S sin que F intervenga. Es decir, tales cambios incrementan el
peso (o prioridad) de la entrada de L hacia S.
e) L ha aprendido a estimular a S y a su vez S ha aprendido a detectar y responder a las
señales de L (sin intervención alguna de F).
De acuerdo al ejemplo anterior, es claro que el la Ley de Aprendizaje Hebbiano
implica la modificación de las sinapsis para controlar la memoria a largo plazo a través de
la generación de nuevas conexiones entre neuronas o a través del refuerzo de las
conexiones existentes entre éstas. Este tipo de modificaciones pueden incluso requerir el
que las neuronas se desplacen.
14
Capítulo 1. Introducción
Desde el punto de vista de las Redes Neuronales Artificiales se plantea la existencia
de un proceso de modificación de pesos en las entradas de cualquier neurona a fin de
mejorar su eficiencia. Esta variación de pesos es un evento que ocurre en todo modelo de
Red Neuronal Artificial. En la siguiente Sección veremos los principios de los que parte el
proceso de aprendizaje neuronal.
1.3 Principios del Aprendizaje o Entrenamiento
de una Red Neuronal Artificial
Considérese un conjunto formado por N vectores:
{X1, X2, …, XN}
Donde:
ª xi ,1 º
« # »
« »
X i = « xi ,k »
« »
« # »
« xi , P »
¬ ¼
i = 1, 2, …, N
xi,k ∈ \
k = 1, 2, …, P
A tal conjunto se le llamará el Conjunto de Vectores de Entrada para una Red
Neuronal. Ahora considérese un segundo conjunto de N vectores:
{D1, D2, …, DN}
Donde:
ª di ,1 º
« # »
«
»
«
d
Di = i ,k »
«
»
« # »
« di ,m »
¬
¼
i = 1, 2, …, N
di,k ∈ \
k = 1, 2, …, m
15
Una Introducción al Cómputo Neuronal Artificial
Al conjunto {D1, D2, …, DN} se le llamará el Conjunto de Vectores de Salida Esperada
para una Red Neuronal.
Se asumirá que dado un vector de entrada Xi, la salida que se espera proporcione la
Red Neuronal será el vector Di. El conjunto de vectores de entrada y el conjunto de
vectores de salida esperada forman el Conjunto de Entrenamiento de la Red Neuronal.
Nótese que de hecho la Red Neuronal efectuará un mapeo de vectores de entrada en \ P a
vectores de salida en \ m .
El conjunto de entrenamiento se utiliza para ajustar a las neuronas que forman una
Red Neuronal. El procedimiento de ajuste trata de modificar los pesos de las neuronas de
manera que para cualquier vector de entrada Xi el vector de salida Si proporcionado por la
red sea igual a Di. De hecho, en la práctica sólo se espera que Si sea tan cercano como sea
posible a Di. Ello implica que las salidas proporcionadas por la red tendrán un error
respecto a las esperadas. Por lo tanto, el procedimiento de ajuste en estos casos también
tratará de minimizar los errores. El procedimiento de ajuste de las neuronas de una red es
llamado Procedimiento de Aprendizaje o Procedimiento de Entrenamiento.
Aquellas arquitecturas de Redes Neuronales que requieren un conjunto de
entrenamiento formado por los vectores de entrada y por los vectores de salida esperada son
agrupadas en una clase denominada Redes Neuronales Supervisadas. El término
“Supervisado” surge del hecho de que los procedimientos de entrenamiento cuentan con un
parámetro para supervisar el desempeño actual de la red. Tal parámetro es usado para
determinar las mejores modificaciones a aplicar con la finalidad de mejorar el desempeño.
En las Redes Supervisadas el desempeño por lo regular se mide numéricamente con la
magnitud del Error de Aprendizaje, es decir, mediante la diferencia entre Di y Si. En
función de la magnitud obtenida se deciden los cambios a aplicar.
En ocasiones, sólo se cuenta con el conjunto de vectores de entrada. Estas
situaciones por lo regular se presentan en problemas relacionados con la agrupación de
tales vectores en clases de equivalencia. Un ejemplo clásico de un problema con este
enfoque es el del Reconocimiento Automático de Caracteres Manuscritos. Tenemos
conocimiento previo respecto a cuantas clases necesitamos para clasificar a los caracteres:
deseamos que aquellos caracteres que corresponden a la letra x, por ejemplo, estén
agrupados en la misma clase. Las arquitecturas de Redes Neuronales que parten de la
hipótesis de que el conjunto de entrenamiento únicamente se forma por los vectores de
entrada, forman parte de las denominadas Redes Neuronales No Supervisadas. Es claro
que los procedimientos de entrenamiento de las Redes No Supervisadas no pueden medir
numéricamente la magnitud del error de aprendizaje. Por lo tanto, estos procesos tratan de
determinar la estructura que forman los vectores de entrada al tomar en cuenta las
similitudes entre éstos. Para determinar en que clase debe ser colocado un vector, el
proceso de análisis de similitud se puede apoyar, por ejemplo, en evaluación y comparación
de características topológicas o geométricas.
16
Capítulo 1. Introducción
1.4 Estructuras Básicas de Neuronas y Redes
Dentro de las neuronas artificiales básicas en primer lugar debemos mencionar al
Perceptrón. Es quizás la neurona artificial más popular. Su mecanismo de aprendizaje está
basado en un entrenamiento supervisado y fue propuesta en 1958 por el psicólogo Frank
Rosenblatt. Por otro lado contamos con el Adaline (Adaptive Linear Neuron, Neurona
Lineal Adaptiva), la cual fue propuesta por Bernard Widrow en 1960. Esta neurona es
también conocida como ALC (Combinador Lineal Adaptivo). Si bien el Perceptrón,
históricamente, precede al Adaline, la última será estudiada en primer lugar en el
Capítulo 3 y posteriormente el Perceptrón en el Capítulo 4. Ello se debe a que el Adaline
cuenta en su especificación con parte de la estructura básica del Perceptrón. También
veremos que los mecanismos para entrenar a una neurona Adaline forman una serie de
preliminares para comprender mejor los procedimientos para entrenar a un Perceptrón, y
posteriormente, en el Capítulo 6, a una red formada por Perceptrones.
En las décadas de los 50s y 60s se conjeturaba que una sola neurona sería capaz de
representar una amplia gama de problemas. Desgraciadamente, veremos que una neurona,
como único elemento de Cómputo Neural, no es capaz de aprender cualquier problema y de
hecho el número de problemas que puede aprender es en realidad limitado. Sin embargo
notaremos posteriormente que estas restricciones son superadas al utilizar una Red
Neuronal. Entre los primeros problemas para los cuales se encontraron soluciones exitosas
al considerar redes de varias neuronas podemos mencionar, por ejemplo, al Modelado de
Funciones Booleanas de n variables, Reconocimiento de Patrones y Clasificación
Automática. Sin embargo, ante tales éxitos, también es natural plantearnos las siguientes
preguntas:
• ¿Qué problemas pueden ser modelados mediante una Red Neuronal?
• ¿Cuántas neuronas se requieren para garantizar que una red aprenderá un problema
dado?
• ¿Existe algún criterio que permita determinar el tiempo que requerirá el proceso de
entrenamiento de manera que se asegure el contar con un modelo apropiado del
problema y su solución?
Si bien el campo de las Redes Neuronales Artificiales ha logrado importantes
contribuciones, tal y como veremos a lo largo del texto, estas preguntas, de carácter
fundamental, aún siguen abiertas.
Las neuronas que forman parte de una red estarán interconectadas y agrupadas en
Capas. Se tendrán 3 diferentes tipos de capas:
• Capa de Entrada: el conjunto de neuronas que recibe información proveniente del
exterior.
• Capa de Salida: el conjunto de neuronas que proporciona la salida final proporcionada
por la red.
• Capas Ocultas: conjuntos de neuronas ubicadas entre las capas de entrada y salida.
Todas las neuronas, independientemente de la capa en que se encuentren, contribuyen al
Cómputo Neural. Por otro lado, es claro que el rol de las neuronas de acuerdo a su posición
17
Una Introducción al Cómputo Neuronal Artificial
en una red es consistente con la clasificación que se tiene para las neuronas biológicas en
Aferentes, Eferentes, e Interneuronas. Considérese por ejemplo la Red Neuronal presentada
en la Figura 1.6. Se tiene una red formada por 6 neuronas de tipo Adaline. Las neuronas 1,
2 y 3 forman la capa de entrada y pueden ser caracterizadas como las neuronas aferentes.
Sólo se cuenta en este caso con una neurona eferente, aquella etiquetada como la neurona 6.
De hecho, la capa de salida de la red se forma exclusivamente por esta neurona.
Finalmente, se tiene sólo una capa oculta formada por las neuronas 4 y 5. Si bien estas
neuronas funcionan como puntos de conexión entre las capas de entrada y salida, lo que las
caracterizaría como interneuronas, veremos que juegan un papel importante durante los
procesos de aprendizaje.
W1,1
Adaline 1
W 1,2
z =w +
1,1
1,0
¦
z 1,1
sign(z )
y1,1
1,1
W 4,1
W1,n
X1
W 4,2
Adaline 4
z =w +
4,1
W2,1
X2
¦
z 4,1
sign(z )
y4,1
4,1
Adaline 6
W 4,3
W 2,2
z =w +
2,1
2,0
¦
z 2,1
sign(z )
W6,1
y2,1
2,1
W 5,1
W2,n
W 5,2
Xn
4,0
Adaline 2
Adaline 5
z =w +
5,1
W3,1
Adaline 3
5,0
¦
z 5,1
sign(z )
W6,2
z =w +
6,1
6,0
¦
z 6,1
sign(z )
6,1
y 6,1
Network
output
y5,1
5,1
W 5,3
W 3,2
z =w +
3,1
3,0
¦
z 3,1
sign(z )
y3,1
3,1
W3,n
Figura 1.6. Un Red formada por 6 neuronas tipo Adaline.
•
•
•
18
Entre las Redes Neuronales más populares podemos mencionar:
Red Madaline (Many Adaline): También propuesta por Bernard Widrow en 1962. Es
una Red Neuronal basada en neuronas tipo Adaline. Esta red ha proporcionado
soluciones a problemas asociados a la Predicción de Señales y el Reconocimiento de
Patrones.
Red de Retropropagación (Back-Propagation Network): Quizás la más popular dentro
del área de las Redes Neuronales. Se trata de una red multicapa formada por
Perceptrones. Esta red, y de hecho el área misma de las Redes Neuronales Artificiales,
adquieren relevancia científica al ser presentado en 1986, por David Rumelhart,
Geoffrey Hinton y Ronald Williams, el Algoritmo de Retropropagación. Este
algoritmo describe un método eficiente para el entrenamiento de este tipo de redes. Se
tienen reportadas aplicaciones exitosas de la Red de Retropropagación en áreas
relacionadas a la Predicción de Señales, Reconocimiento de Patrones, Reconocimiento
de Caracteres Manuscritos y Búsqueda de Soluciones Aproximadas para problemas
como la Identificación de Secuencias Proteínicas y el Problema del Agente Viajero,
entre otras muchas más.
Red de Hopfield: Propuesta por John Hopfield en 1982. Es una Red Neuronal que se
diferencia de las anteriores debido a que permite retroalimentación recurrente entre
neuronas. Es decir, cada neurona cuenta con una salida que a su vez se conecta con
Capítulo 1. Introducción
•
alguna de sus propias entradas. En las áreas de Reconocimiento de Patrones,
Reconocimiento de Caracteres Manuscritos y Clasificación Automática de Imágenes es
donde la Red de Hopfield ha encontrado un nicho de aplicación.
Red de Kohonen (Kohonen Network): Una aportación del finlandés Teuvo Kohonen.
Se trata de redes basadas en aprendizaje no supervisado y cuya finalidad es resolver el
problema de la clasificación automática. Esta red ha proporcionado soluciones a
problemas asociados al Reconocimiento de Patrones, Reconocimiento de Caracteres
Manuscritos, Clasificación Automática de Imágenes y Búsqueda de Soluciones
Aproximadas para problemas como el del Agente Viajero.
La solución de un problema mediante una única neurona o bien mediante una red de
neuronas impone importantes diferencias en cuanto a los mecanismos de aprendizaje a usar.
Intuitivamente se debe entender que entrenar a una Red Neuronal requiere procedimientos
más sofisticados que aquellos para el ajuste de una única neurona, aunque no por ello éstos
últimos son menos importantes. De hecho, por ejemplo, veremos como es que el
mecanismo de aprendizaje del Perceptrón guarda una relación profunda con el mecanismo
de entrenamiento de una Red de Retropropagación. En realidad, existe una gama de
métodos de entrenamiento disponibles para redes como la Madaline o la de Perceptrones.
Entre éstos podemos mencionar:
• Aprendizaje basado en Solución por Mínimos Cuadrados
• Madaline Rule I
• Madaline Rule II
• Madaline Rule III
• Retropropagación (Back-Propagation)
En los Capítulos 2, 5 y 6 describiremos a detalle algunas de estas metodologías.
19
Una Introducción al Cómputo Neuronal Artificial
20
Una Introducción al Cómputo Neuronal Artificial
2. Preliminares
Matemáticos
Una Introducción al Cómputo Neuronal Artificial
22
Capítulo 2. Preliminares Matemáticos
El objetivo de este Capítulo es el de describir algunas de las herramientas
Matemáticas necesarias para abordar el estudio de las Redes Neuronales Artificiales. En la
Sección 2.1 efectuaremos un breve repaso relacionado con el Gradiente de una Función y
su relación con sus Máximos y Mínimos. En la Sección 2.2 comentaremos los fundamentos
del Método de Mínimos Cuadrados, una popular metodología de Regresión Lineal.
Abordaremos primero el caso del ajuste con una recta en el plano y posteriormente, en la
Sección 2.3, el ajuste con un hiperplano multidimensional. Finalmente, en la Sección 2.4
efectuaremos la demostración de la Desigualdad de Cauchy-Schwarz. Nuestro estudio de
las Redes Neuronales Artificiales iniciará formalmente a partir del Capítulo 3, por lo que
aquellos lectores que ya se encuentren familiarizados con los temas antes mencionados
pueden sin problema alguno omitir el presente Capítulo.
2.1 Gradientes y Búsquedas de Máximos y Mínimos
Consideremos una función f tal que f: \ n → \ . Es decir, nuestra función recibirá
como entrada un vector n-Dimensional y producirá como salida un escalar. El Vector
Gradiente de f en el punto (x1, …, xn), denotado por ∇f(x1, …, xn), se define como:
ªδ f º
«δ x »
« 1»
«δ f »
∇f ( x1 ,..., xn ) = «« δ x2 »»
« # »
«
»
«δ f »
«¬ δ xn »¼
(Ecuación 2.1.1)
δf
denota a la derivada parcial de f respecto a la variable xi, i = 1, 2, …, n.
δ xi
δf
no es más que la derivada “convencional”, aquella estudiada en los
Recordemos que
δ xi
Donde
cursos de Cálculo de una Única Variable, en donde las variables x1, x2, …, xn, excepto la
variable xi, son todas asumidas como constantes.
Sean e1, e2, …, en los vectores que forman la base canónica de \ n . Entonces el
vector gradiente de f puede ser descrito como la combinación lineal:
23
Una Introducción al Cómputo Neuronal Artificial
ªδ f º
«δ x »
« 1»
«δ f »
∇f ( x1 ,..., xn ) = «« δ x2 »»
« # »
«
»
«δ f »
«¬ δ xn »¼
δf
δf
δf
δf
⇔ ∇f ( x1 ,..., xn ) =
e1 +
e2 +
e3 + ... +
e
δ x1
δ x2
δ x3
δ xn n
ª1 º
«0»
δf « » δf
«0» +
=
δ x1 « » δ x2
«# »
«¬ 0 »¼
ª0 º
«1 »
« » δf
«0 » +
« » δ x3
«# »
«¬0 »¼
ª0º
«0»
« »
δf
«1 » + ... +
δ xn
« »
#
« »
«¬0 »¼
ª0 º
«0 »
« »
«0 »
« »
«# »
«¬1 ¼»
El i-ésimo componente de ∇f nos proporciona la razón de cambio de f en la dirección del
vector unitario ei, i = 1, 2, …, n.
ªδ f º
Analicemos primero el caso con n = 1. Ello implica que ∇f(x1) = «
» = [ f '( x1 ) ] .
¬ δ x1 ¼
Es decir, el único componente del gradiente de f, f: \ → \ , no es más que la derivada
“convencional”. Ese único componente nos proporciona la razón de cambio de f en la
dirección del eje X1. La evaluación de la derivada de f en el punto x0, f '( x0 ) , desde un
punto de vista geométrico, nos proporciona la pendiente de la recta tangente a f en el punto
(x0, f(x0)). Véase la Figura 2.1. El signo de la pendiente nos proporciona también
información acerca de la dirección hacia la cual f crece más rápido. Una pendiente positiva
nos informa que la función, partiendo de x0, crece más rápido en la dirección positiva del
eje X1 (Figura 2.1.a). Una pendiente negativa es indicativo de que, partiendo de x0, f
decrece en la dirección positiva del eje X1 (Figura 2.1.b). O de manera equivalente, una
pendiente negativa nos indica que f crece cuando nos movemos en la dirección negativa del
eje X1. Cuando f '( x0 ) = 0 entonces se ha encontrado un punto crítico que bien puede ser un
máximo, un mínimo, o un punto de inflexión.
24
Capítulo 2. Preliminares Matemáticos
f
f
x0
X1
x0
X1
a)
b)
Figura 2.1. Interpretación del signo de las pendientes de las Rectas Tangentes a una función f.
a) Una pendiente positiva señala la dirección de crecimiento de f.
b) Una pendiente negativa indica que f decrece en la dirección positiva del eje X1.
Ahora bien, consideremos una función f tal que f: \ 2 → \ . Por ejemplo, sea f la
función f(x1, x2) = x22 − x12 . Su vector gradiente estará dado por
ª −2 x1 º
∇f = «
»
¬ 2 x2 ¼
Al evaluar el vector gradiente en el punto (-2,3), y al expresarlo como combinación lineal
de la base canónica {e1, e2}, obtenemos:
ª 4 º ª 4 º ª0 º
∇f (−2,3) = « » = « » + « » = 4e1 + 6e2
¬ 6 ¼ ¬ 0 ¼ ¬6 ¼
El primer componente de ∇f(-2,3) nos indica que la razón de cambio en dirección
ª 4º
del vector « » , el cual es paralelo al eje X1, es 4. El segundo componente de ∇f(-2,3) nos
¬0¼
ª0º
indica que la razón de cambio en dirección del vector « » , paralelo al eje X2, es 6. De
¬6¼
hecho, las razones de cambio al ser ambas positivas denotan que la función crece al
moverse en cualquiera de esas dos direcciones partiendo del punto (-2,3). Es más, se tiene
ª0º
mayor crecimiento en la dirección « » .
¬6¼
Los dos ejemplos anteriores nos permiten observar como es que efectivamente cada
componente del vector gradiente nos informa acerca de la razón de cambio de una función
en las direcciones de los ejes principales de \ n . En el caso particular de n = 1 de hecho no
tenemos otras maneras de movernos más a que a lo largo del eje X1. Sin embargo, cuando
25
Una Introducción al Cómputo Neuronal Artificial
n > 1 es claro que podemos considerar direcciones no necesariamente paralelas a los ejes
principales. Y además, nos interesará conocer las razones de cambio de una función cuando
nos movemos a lo largo de tales direcciones. Por ejemplo, ¿qué tanto crece o decrece la
función f(x1, x2) = x22 − x12 cuando nos movemos, a partir de un punto dado, en la dirección
ª −3
del vector «
¬ 18
T
−3 º
» ?
18 ¼
Si se requiere la razón de cambio de f en la dirección del vector arbitrario y unitario
u, entonces se debe recurrir a la Derivada Direccional de f en la Dirección de u. Se le
denota por Duf(x1, …, xn) y se calcula mediante el producto punto del vector gradiente de f
(Ecuación 2.1.1) y el vector u:
Du f ( x1 ,..., xn ) = ∇f ⋅ u
ª u1 º
«u »
= ∇f ⋅ « 2 »
«#»
« »
¬un ¼
δf
δf
δf
u1 +
u2 + ... +
u
=
δ x1
δ x2
δ xn n
(Ecuación 2.1.2)
A diferencia del gradiente, la derivada direccional nos proporciona un escalar. Ello
se debe a que describe únicamente la razón de cambio de f cuando nos movemos, a partir
del punto (x1, …, xn), en la dirección del vector u (nuestro vector de dirección arbitraria). El
signo de tal escalar nos informará si la función crece o decrece al tomar la dirección u y
partiendo del punto (x1, …, xn).
Sea el vector unitario
ª
«
u1 = «
«
«
¬
−3 º
18 »
»
−3 »
18 »¼
Ahora deseamos conocer la derivada direccional de f(x1, x2) = x22 − x12 en el punto (-2,3) en
la dirección de u1. Por lo tanto, al aplicar la Ecuación 2.1.2, se tiene:
26
Capítulo 2. Preliminares Matemáticos
Du1 f (−2,3) = ∇f (−2,3) ⋅ u1
−3 º
§ −3 · § −3 ·
18 »
» = 4¨
¸ + 6¨
¸
−3 »
© 18 ¹ © 18 ¹
18 »¼
ª
ª4º «
=« »⋅«
¬6 ¼ «
«
¬
=−5 2
Ello implica que partiendo del punto (-2,3) y moviéndose en la dirección del vector u1, la
función f tiene una razón de cambio −5 2 . Tal razón, al ser negativa, nos indica que de
hecho la función decrece al moverse en esa dirección.
Consideremos el vector unitario
ª −1º
u2 = « »
¬0¼
La derivada direccional de f en el punto (-2,3) en la dirección de u2 es:
Du2 f (−2,3) = ∇f (−2,3) ⋅ u2
ª 4 º ª −1º
=« »⋅« »
¬6¼ ¬ 0 ¼
=−4
Partiendo del punto (-2,3) y moviéndose en la dirección del vector u2, la función f tiene una
razón de cambio -4. Nuevamente, la función decrece al moverse en esa dirección.
Ahora sea el vector unitario
ª
«−
u3 = «
«
«
¬
2 º
13 »
»
3 »
13 »¼
27
Una Introducción al Cómputo Neuronal Artificial
La derivada direccional de f en el punto (-2,3) en la dirección de u3 es:
Du3 f (−2,3) = ∇f (−2,3) ⋅ u3
ª
−
ª 4º «
=« »⋅«
¬6¼ «
«
¬
10
=
13
2 º
13 »
»
3 »
13 »¼
Concluimos que partiendo del punto (-2,3) y moviéndonos en la dirección u3, la función f
10
tiene una razón de cambio
. Aunque la razón es positiva, es menor que la obtenida
13
ª 4º
para la dirección « » , con valor 4. Ello implica que en la dirección dada por u3 la función
¬0¼
ª4º
crece aunque más “lento” que usando la dirección « » .
¬0¼
•
•
Plantearemos dos observaciones:
Dado un punto (x1, …, xn) es claro que es posible determinar una cantidad enorme de
derivadas direccionales de f en ese punto.
¿Cómo encontrar aquel vector cuya dirección, y partiendo del punto (x1, …, xn), nos
indique la máxima razón de cambio de f? La dirección de ese vector será también la
dirección de máximo crecimiento de f.
Por la teoría del Algebra Lineal se sabe que el producto punto entre ∇f y el vector
unitario u también puede ser expresado como:
Duf(x1, …, xn) = ∇f(x1, …, xn)⋅u
= ||∇f(x1, …, xn)|| ||u|| cos θ
= ||∇f(x1, …, xn)|| cos θ
(Por la Ecuación 2.1.2)
(recuérdese que ||u|| = 1)
(Ecuación 2.1.3)
Donde θ es el ángulo formado por los vectores ∇f y u.
El valor máximo del coseno se da cuando θ = 0. Ello implica que u y el vector
gradiente, ∇f, tienen la misma dirección. En ese caso la derivada direccional tendrá un
valor Duf(x1, …, xn) = ||∇f(x1, …, xn)||, que de hecho es también su valor máximo. Ello
implica que la dirección del vector gradiente nos indica hacia donde f tiene su máxima
razón de cambio. En este punto recalcamos que los componentes del vector gradiente, cada
uno por separado, proporcionan las razones de cambio en dirección de los ejes principales.
28
Capítulo 2. Preliminares Matemáticos
Pero en sí, el vector gradiente indica una dirección y es en esa dirección donde f tiene su
máximo crecimiento. Esta propiedad es sumamente útil si se requieren identificar máximos
en la función f.
Previamente establecimos que para f(x1, x2) = x22 − x12 su vector gradiente en el
ª 4º
punto (-2, 3) era ∇f(-2,3) = « » . La magnitud del vector gradiente está dada por:
¬6¼
||∇f(-2,3)|| =
42 + 62 = 52
ª 4º
Por lo tanto, partiendo del punto (-2, 3) y en la dirección dada por el vector « » , el vector
¬6¼
gradiente, se tiene la máxima razón de cambio de f, 52 , y en consecuencia su dirección
de máximo crecimiento. Cualquier derivada direccional en el punto (-2, 3) indicará una
razón de cambio menor o igual a la proporcionada por el vector gradiente.
Ahora nos plantearemos una nueva pregunta: ¿Cómo encontrar aquel vector cuya
dirección, y partiendo del punto (x1, …, xn), nos indique la mínima razón de cambio de f?
Sabemos por la Ecuación 2.1.3 que:
Duf(x1, …, xn) = ||∇f(x1, …, xn)|| cos θ
La función coseno tiene su valor mínimo cuando θ = π. Ello implica que los vectores u y ∇f
apuntan en direcciones opuestas. Por lo tanto, en ese caso, se tendrá que
Duf(x1, …, xn) = -||∇f(x1, …, xn)||
Entonces, es claro que la dirección opuesta a la del vector gradiente nos indica hacia donde
f tiene su mínima razón de cambio. Esta propiedad es sumamente útil si se requieren
identificar mínimos en la función f.
ª 4º
Para f(x1, x2) = x22 − x12 su vector gradiente en el punto (-2, 3) era ∇f(-2,3) = « » con
¬6¼
magnitud ||∇f(-2, 3)|| = 52 . Por lo tanto, partiendo del punto (-2, 3) y en la dirección dada
ª 4º
por el vector (-1) « » se tiene la mínima razón de cambio de f, - 52 . Cualquier otra
¬6¼
derivada direccional en el punto (-2, 3) indicará una razón de cambio mayor o igual a la
proporcionada por la dirección opuesta del vector gradiente.
29
Una Introducción al Cómputo Neuronal Artificial
2.2 Regresión Lineal
En ocasiones se requiere inferir un modelo o sistema a partir de datos
experimentales. La importancia y finalidad de tal inferencia radica en que entonces podrá
ser posible entender, predecir y controlar al sistema que generó tales datos. En esta Sección
aplicaremos razonamientos Matemáticos a fin de presentar una bien conocida metodología
de estimación: la Regresión Lineal. Primero, presentaremos el caso particular cuando los
datos son pares de la forma (x, d), donde x es la única variable de entrada y d el valor que se
espera genere el sistema para tal entrada. Posteriormente, en la Sección 2.3 discutiremos el
fundamento matemático detrás del caso general, en el cual se tienen varias variables.
Existen tres condiciones a las cuales los datos experimentales deben sujetarse y que
de hecho asumiremos se cumplen:
• Deben ser suficientes en cantidad.
• Deben capturar los principios fundamentales del sistema o modelo de origen.
• Y finalmente, deben ser libres, tanto como sea posible, de ruido.
Como ya comentamos previamente, se tendrán pares de observaciones (x1,i, di) tal
que x1,i se asume es libre de errores y di está contaminado por ruido. El objetivo es buscar
una relación lineal entre las variables x1 y d tal que
d ≈ wx1 + b
Es decir, buscaremos valores para las variables w y b de manera que contemos con un
modelo lineal tal que dado un valor para la variable x1, obtengamos, tan justa como sea
posible, la correspondiente predicción d. O de manera más específica, dado un valor de
entrada particular x1,i y el correspondiente ruido o error εi, el cual se agrega a wx1,i + b,
entonces podemos garantizar una predicción exacta di:
di = wx1,i + b + εi
(Ecuación 2.2.1)
Sea x2,i = wx1,i + b. Entonces al sustituir en la Ecuación 2.2.1 se tendrá:
di = x2,i + εi
(Ecuación 2.2.2)
Donde εi es ahora el error agregado a x2,i, w es una pendiente y b es una intersección con el
eje X2. Al valor b también se le llama sesgo. Es claro que se buscará entonces una recta en
el plano que se ajuste a las observaciones (x1,i, di). Véase la Figura 2.2. Es bien sabido que
cualquier recta se ajusta perfectamente a dos observaciones, pero ésta no necesariamente se
ajustará al resto de las observaciones. Nuestro problema a resolver se plantea en el
siguiente cuestionamiento: ¿Cuál es la mejor elección de w y b tal que la recta wx1 + b esté
tan “cerca” como sea posible a todas las observaciones?
30
Capítulo 2. Preliminares Matemáticos
(x1,i, di)
(x1,4, d4)
(x1,5, d5)
(x1,2, d2)
wx1 + b
(x1,3, d3)
(x1,1, d1)
X1
Figura 2.2. Ajuste de la recta wx1 + b.
Una solución muy popular para nuestro problema es el método de Mínimos
Cuadrados. Se trata de un método sistemático que permite determinar los mejores valores
para las constantes b y w. El método parte de la consideración de que todo di contiene
ruido, de manera que no será posible ajustar la relación sin error, por lo tanto se tiene que:
di = wx1,i + b + εi
⇔ εi = di – (wx1,i + b)
(Ecuación 2.2.3)
Sea di’ = wx1,i + b. Entonces al sustituir en la Ecuación 2.2.3:
εi = di – di’
(Ecuación 2.2.4)
Es claro que εi es el error o diferencia que existe entre el valor experimental di y el valor
predicho por la recta, es decir di’.
A fin de encontrar aquella recta que mejor se ajuste a los datos, se requerirá de un
criterio para determinar que tan bueno es un estimador lineal. Para este fin, se tiene que el
Promedio de los Errores al Cuadrado es un criterio bastante recurrido. Básicamente
considera, para cada una de las observaciones, y dada una recta candidata, la diferencia εi
entre la predicción que ésta proporciona y el valor esperado. Nótese que εi puede ser
positivo o negativo. Por ello es posible, en un caso extremo, que la suma de todas las
diferencias sea cero. Ello implica que la sola suma de diferencias puede no proporcionarnos
información real de cómo se comporta el estimador lineal con el conjunto de observaciones.
Por ello, a fin de que los signos de las diferencias no afecten la elección de la mejor recta,
31
Una Introducción al Cómputo Neuronal Artificial
es que estas diferencias son todas elevadas al cuadrado y posteriormente sumadas.
Claramente el Promedio de los Errores al Cuadrado queda definido como:
J=
1
2N
N
¦ε
2
i
(Ecuación 2.2.5)
i =1
Donde N es el número de observaciones.
J nos proporciona, para una recta candidata, el error total que ésta tiene con el
conjunto de observaciones. Ahora el objetivo será minimizar a J. La Sección anterior nos
proporcionó herramientas para lograr este objetivo. J puede ser vista como una Función de
Error para la cual se quiere determinar su mínimo global. Se garantiza la existencia de un
único mínimo ya que si se observan las Ecuaciones 2.2.3 y 2.2.5, se tiene que J describe un
paraboloide en el espacio tridimensional debido a que depende de las variables w y b. Es en
este mínimo donde el vector gradiente de J es precisamente el vector cero. Por lo tanto, el
primer paso es determinar ∇J. Ello implica encontrar las derivadas parciales de J respecto
a las variables w y b. Posteriormente, el segundo paso consistirá en igualar a las
expresiones resultantes a cero. Esto genera un sistema de ecuaciones:
­δ J
°° δ b = 0
®
°δ J = 0
°̄ δ w
La solución del sistema de ecuaciones nos proporcionará los valores óptimos de b y w de tal
forma que la función de error J sea minimizada tanto como sea posible. De esta forma,
habremos encontrado a la mejor recta para ajustar nuestros datos.
Procedamos a determinar la derivada parcial de J respecto a la variable b:
δJ δ 1 N 2
=
¦ε
δ b δ b 2 N i =1 i
1 N δ 2
=
¦ εi
2 N i =1 δ b
2
1 N δ
=
d i − wx1,i − b )
(
¦
2 N i =1 δ b
1 N
δ
=
2 ( di − wx1,i − b ) ( di − wx1,i − b )
¦
δb
2 N i =1
=
32
1
N
N
¦(d
i =1
i
− wx1,i − b ) (−1)
(Por la Ecuación 2.2.3)
(Regla de la Cadena)
§ di y wx1,i son constantes ·
¨
¸
© respecto a b
¹
Capítulo 2. Preliminares Matemáticos
=
1
N
N
¦ ( wx
1,i
i =1
+ b − di )
§ wx
b d ·
= ¦ ¨ 1,i + − i ¸
N N¹
i =1 © N
N x
N
b N d
= w¦ 1,i + ¦ − ¦ i
i =1 N
i =1 N
i =1 N
N
Por lo tanto tenemos que:
N x
N
δJ
b N d
= w¦ 1,i + ¦ − ¦ i
δb
i =1 N
i =1 N
i =1 N
(Ecuación 2.2.6)
Ahora determinaremos la derivada parcial de J respecto a la variable w:
δJ δ 1 N 2
=
¦ε
δ w δ w 2 N i =1 i
1 N δ 2
=
¦ εi
2 N i =1 δ w
2
1 N δ
di − wx1,i − b )
=
(
¦
2 N i =1 δ w
1 N
δ
2 ( di − wx1,i − b )
=
( d − wx1,i − b )
¦
2 N i =1
δw i
=
1
N
1
=
N
N
¦(d
− wx1,i − b ) (− x1,i )
i
i =1
N
¦ ( wx
2
1,i
i =1
(Por la Ecuación 2.2.3)
(Regla de la Cadena)
§ di y b son constantes ·
¨
¸
© respecto a w
¹
+ bx1,i − di x1,i )
§ wx1,2i bx1,i di x1,i ·
= ¦ ¨¨
+
−
¸
N
N ¹¸
i =1 © N
N x2
N x
N d x
= w¦ 1,i + b¦ 1,i − ¦ i 1,i
N
i =1 N
i =1 N
i =1
N
Es decir:
N x
N x
N d x
δJ
= w¦ 1,i + b¦ 1,i − ¦ i 1,i
δw
N
i =1 N
i =1 N
i =1
2
(Ecuación 2.2.7)
33
Una Introducción al Cómputo Neuronal Artificial
Ahora tanto
δJ
δJ
como
son igualadas a cero y se cuenta con el siguiente
δb
δw
sistema de ecuaciones:
­ N x1,i N b N di
+¦ −¦ = 0
° w¦
°° i =1 N i =1 N i =1 N
®
° N x2
N
N
° w¦ 1,i + b¦ x1,i − ¦ di x1,i = 0
°̄ i =1 N
N
i =1 N
i =1
(Ecuación 2.2.8)
(Ecuación 2.2.9)
Hagamos:
N
x1,i
i =1
N
x=¦
N
x1,2i
i =1
N
x2 = ¦
N
d =¦
i =1
di
N
N
di x1,i
i =1
N
xd = ¦
Entonces al sustituir en las Ecuaciones 2.2.8 y 2.2.9 el sistema se reescribe como:
­ wx + b − d = 0
°
®
° 2
¯ wx + bx − xd = 0
(Ecuación 2.2.10)
(Ecuación 2.2.11)
Procedemos a resolver el sistema de ecuaciones lineales. Para la Ecuación 2.2.10
tenemos:
wx + b − d = 0
⇔ b = d − wx
Sustituyendo el valor de b en la Ecuación 2.2.11:
wx 2 + (d − wx) x − xd = 0
()
2
⇔ wx 2 + d ⋅ x − w x − xd = 0
34
Capítulo 2. Preliminares Matemáticos
()
⇔ wx 2 − w x
⇔ w=
2
= xd − d ⋅ x
xd − d ⋅ x
()
x2 − x
(Ecuación 2.2.12)
2
Al sustituir el valor de w (Ecuación 2.2.12) en la Ecuación 2.2.10 tenemos finalmente:
b = d − wx
=d−
=d−
(
xd − d ⋅ x
=
2
x
()
x − ( x)
− ( x ) ) − xd ⋅ x + d ⋅ ( x )
x − ( x)
xd ⋅ x − d ⋅ x
d x2
=
()
x − x
2
2
2
2
2
2
2
2
d ⋅ x 2 − xd ⋅ x
()
x2 − x
2
Es decir:
b=
d ⋅ x 2 − xd ⋅ x
()
x − x
2
2
(Ecuación 2.2.13)
Las Ecuaciones 2.2.12 y 2.2.13 representan los valores óptimos para las variables w
y b respectivamente. Ello se debe a que se determinó para qué valores precisamente de w y
b el vector gradiente de la función de error J es el vector cero.
Analicemos un ejemplo práctico simple. En la Tabla 2.1 se presenta un conjunto de
observaciones para las cuales deseamos obtener un estimador lineal que se ajuste lo mejor
posible. En Figura 2.3 se puede apreciar la disposición de los puntos (x1,i, di).
35
Una Introducción al Cómputo Neuronal Artificial
Tabla 2.1. Un conjunto de 11 observaciones.
di
x1,i
-5
-10.5
-4
-8.5
-3
-4.5
-2
-2.5
-1
0.5
0
4.5
1
6.5
2
10.5
3
12.5
4
16.5
5
18.5
È
15
È
10
5È
4
2
È
È
È
È
È
È
È
È
2
4
5
10
Figura 2.3. Disposición en el plano cartesiano
de los puntos presentados en la Tabla 2.1.
•
Para el conjunto de datos en cuestión tenemos:
x=0
• x 2 = 10
• d = 3.9545
• xd = 29.8182
Que al sustituir en las Ecuaciones 2.2.12 y 2.2.13 obtenemos respectivamente:
w = 2.9818
b = 3.9545
Ello implica que la recta que mejor se ajusta a nuestro conjunto de datos está dada por:
d = 2.9818x1 + 3.9545
En la Figura 2.4 se muestra al conjunto de datos y la recta obtenida.
36
Capítulo 2. Preliminares Matemáticos
È
È
15
È
È
10
È
5È
4
2
È
2
È
È
È
È
4
5
10
Figura 2.4. La recta d = 2.9818x1 + 3.9545 como el mejor estimador lineal
para el conjunto de datos presentado en la Tabla 2.1.
Ahora bien, sustituiremos el conjunto de datos de la Tabla 2.1 en la Ecuación 2.2.5,
es decir, aquella correspondiente al Promedio de los Errores al Cuadrado:
J = 5w2 + 0.5b2 – 29.81w – 3.95b + 52.397
Como ya mencionamos, J describe un paraboloide inmerso en el espacio tridimensional. En
la Figura 2.5 se puede apreciar la gráfica de J. Cada punto sobre la superficie es de la
forma (w, b, J(w,b)) y describe el error total que se obtiene al usar los valores de w y b
como parámetros para una recta candidata. Es claro que al visualizar la superficie contamos
con una descripción gráfica del desempeño de todos los posibles estimadores lineales para
nuestro conjunto de datos. Sustituyendo w = 2.9818 y b = 3.9545, los valores encontrados
previamente, al aplicar directamente las Ecuaciones 2.2.12 y 2.2.13, obtenemos el error
total J = 0.122314. Por la Teoría antes presentada, sabemos que el punto
(w = 2.9818, b = 3.9545, J = 0.122314)
es precisamente el mínimo global de la función de error y es donde también el vector
gradiente de J es precisamente el vector cero. Es claro, observando la Figura 2.5, que
cualquier otro valor para w y b nos proporcionará un error total J mayor a 0.122314.
37
Una Introducción al Cómputo Neuronal Artificial
Figura 2.5. El paraboloide asociado a la función de error
J = 5w2 + 0.5b2 – 29.81w – 3.95b + 52.397
2.3 Regresión Lineal con Múltiples Variables
Sea el vector xi en \ P una medición libre de ruido y sea di un escalar posiblemente
P
contaminado con ruido. Sea b + ¦ wk xi ,k un hiperplano multidimensional. Este hiperplano
k =1
modelará la correlación lineal entre el vector xi y el escalar di. Sea di’ el valor
proporcionado por nuestro estimador:
P
di' = b + ¦ wk xi ,k
(Ecuación 2.3.1)
k =1
Sea εi el error que existe entre di y di’:
ε i = di − di'
P
§
·
= di − ¨ b + ¦ wk xi ,k ¸
k =1
©
¹
= di − (b + w1 xi ,1 + w2 xi ,2 + ... + wP xi , P )
(Ecuación 2.3.2)
El término b es llamado término de sesgo. A fin de incorporarlo en la sumatoria haremos
w0 = b y agregaremos un 0-ésimo componente a nuestros vectores xi de manera que xi,0 = 1.
Entonces al sustituir en la Ecuación 2.3.2 ahora tendremos:
38
Capítulo 2. Preliminares Matemáticos
P
ε i = di − ¦ wk xi ,k
(Ecuación 2.3.3)
k =0
El Promedio de los Errores al Cuadrado tiene la forma:
1
J=
2N
P
§
·
d
−
¦
¨ i ¦ wk xi ,k ¸
i =1 ©
k =0
¹
N
2
(Ecuación 2.3.4)
Donde N es el número de mediciones. J será minimizada al resolver el sistema de
ecuaciones formado precisamente al igualar a cero sus derivadas parciales respecto a las
variables w0, w1, w2, …, wP:
­ δJ
°δ w = 0
° 0
° δJ
=0
°
® δ w1
° #
°
° δJ
°δ w = 0
¯ P
Es decir, se buscará la solución de ∇J = 0.
En términos geométricos, lo que buscamos son los valores de los coeficientes w0,
w1, …, wP de manera que el hiperplano multidimensional
w0 xi ,0 + w1 xi ,1 + w2 xi ,2 + w3 xi ,3 + ... + wP xi , P
se ajuste lo mejor posible a nuestro conjunto de mediciones (xi, di), xi ∈ \ P +1 , di ∈ \ ,
i = 1, 2, 3, …, N. Por otro lado, la función de error J describe a una hipersuperficie, en
particular, un hiperparaboloide multidimensional. La ecuación de tal lugar geométrico está
dada en función de las variables w0, w1, …, wP. Por lo tanto, el hiperparaboloide asociado a
J está inmerso en un espacio Euclidiano (P+2)-Dimensional. Sin embargo, demostraremos
que, tal como sucede en el caso bidimensional (véase la Sección anterior), J cuenta con un
único mínimo. En ese punto el vector gradiente es el vector cero. Es precisamente en esa
localidad donde encontramos los valores óptimos para w0, w1, …, wP.
Considérese la j-ésima variable wj, 0 ≤ j ≤ P. Obtendremos la correspondiente
derivada parcial de la función de error J respecto a wj:
39
Una Introducción al Cómputo Neuronal Artificial
P
δJ
δ 1 N §
·
di − ¦ wk xi ,k ¸
=
¦
¨
δ w j δ w j 2 N i =1 ©
k =0
¹
·
di − ¦ wk xi , k ¸
¦
¨
i =1 δ w j ©
k =0
¹
N
1
=
2N
=
δ §
2
P
(Por la Ecuación 2.3.4)
2
P
§
· δ
2
−
d
¦
¨ i ¦ wk xi ,k ¸ δ w
i =1 ©
k =0
¹
j
N
1
2N
1
=
N
P
§
·§ δ
¦
¨ di − ¦ wk xi ,k ¸ ¨¨ − δ w
i =1 ©
k =0
¹©
j
1
=
N
P
§
·
−
d
¦
¨ i ¦ wk xi ,k ¸ ( − xi , j )
i =1 ©
k =0
¹
=−
N
P
§
·
−
d
¨ i ¦ wk xi ,k ¸
k =0
©
¹
P
¦w x
k i ,k
k =0
·
¸¸
¹
N
1
N
(di es constante respecto a w j )
§ Todas las variables wk son
¨
¨ constantes respecto a w j excepto
¨ aquella para la cual k = j
©
·
¸
¸
¸
¹
P
§
·
−
x
d
wk xi ,k ¸
¦
¦
i, j ¨ i
i =1
k =0
©
¹
N
Concretizando:
P
δJ
1 N
§
·
= − ¦ xi , j ¨ di − ¦ wk xi , k ¸
δ wj
N i =1
k =0
©
¹
(Ecuación 2.3.5)
Nótese que la Ecuación 2.3.5 define la derivada parcial de wj para todo valor de j
desde 0 hasta P. Ello implica que efectivamente hemos encontrado los valores de los
componentes del vector gradiente de J, ∇J. Como ya comentamos antes, resolver la
ecuación ∇J = 0 es equivalente a resolver el sistema de ecuaciones:
­ 1
®−
¯ N
P
§
·
x
d
−
wk xi ,k ¸ = 0
¦
¦
i, j ¨ i
i =1
k =0
©
¹
N
j = 0,1, 2,...P
Consideremos la j-ésima ecuación:
−
1
N
N
¦x
i, j
i =1
P
§
·
−
d
wk xi ,k ¸ = 0
¦
i
¨
k =0
©
¹
P
§
·
⇔ ¦ xi , j ¨ di − ¦ wk xi ,k ¸ = 0
i =1
k =0
©
¹
N
P
§
·
⇔ ¦ ¨ xi , j di − xi , j ¦ wk xi ,k ¸ = 0
i =1 ©
k =0
¹
N
40
(Al multiplicar ambos lados
por - N ).
Capítulo 2. Preliminares Matemáticos
N
N
P
§
·
⇔ ¦ xi , j di − ¦ ¨ xi , j ¦ wk xi , k ¸ = 0
i =1
i =1 ©
k =0
¹
N
N
P
§
·
⇔ ¦ xi , j di = ¦ ¨ xi , j ¦ wk xi , k ¸
i =1
i =1 ©
k =0
¹
(La sumatoria principal es
expresada como dos sumatorias)
(Ecuación 2.3.6)
Considérese el lado derecho de la Ecuación 2.3.6. En primer lugar desarrollaremos
la sumatoria principal y posteriormente cada sumatoria con índice de suma k:
P
P
P
P
P
§
·
=
+
+
+
+
x
w
x
x
w
x
x
w
x
x
w
x
...
x
¦
N , j ¦ wk xN , k
2, j ¦ k 2, k
3, j ¦ k 3, k
¨ i , j ¦ k i ,k ¸ 1, j ¦ k 1,k
i =1 ©
k =0
k =0
k =0
k =0
k =0
¹
N
P
P
P
P
k =0
k =0
k =0
k =0
= ¦ wk x1, j x1,k + ¦ wk x2, j x2, k + ¦ wk x3, j x3,k + ... + ¦ wk xN , j xN ,k
= ( w0 x1, j x1,0 + w1 x1, j x1,1 + w2 x1, j x1,2 + ... + wP x1, j x1, P
(w x
(w x
x
+ w1 x2, j x2,1 + w2 x2, j x2,2 + ... + wP x2, j x2, P
x
+ w1 x3, j x3,1 + w2 x3, j x3,2 + ... + wP x3, j x3, P
0 2, j 2,0
0 3, j 3,0
(w x
0 N, j
)+
)+
)+
#
xN ,0 + w1 xN , j xN ,1 + w2 xN , j xN ,2 + ... + wP xN , j xN , P )
Es claro que los términos entre paréntesis, con factor común xi , j , corresponden al
P
desarrollo “horizontal” de cada suma xi , j ¦ wk xi ,k . Pero nótense los recuadros punteados
k =0
que hemos agregado. Los términos en cada uno de estos recuadros pueden ser vistos como
N
el desarrollo “vertical” de una sumatoria de la forma wk ¦ xi , j xi , k , donde evidentemente sus
i =1
términos cuentan con el factor común wk. Reagrupando los términos de las sumatorias en
forma “vertical” tenemos ahora:
N
N
N
N
i =1
i =1
i =1
= w0 ¦ xi , j xi ,0 + w1 ¦ xi , j xi ,1 + w2 ¦ xi , j xi ,2 + ... + wP ¦ xi , j xi , P
i =1
P
N
k =0
i =1
= ¦ wk ¦ xi , j xi ,k
Es decir, el lado derecho de la Ecuación 2.3.6 queda ahora expresado como:
P
§
·
x
¦
¨ i , j ¦ wk xi , k ¸ =
i =1 ©
k =0
¹
N
P
N
k =0
i =1
¦ wk ¦ xi, j xi,k
(Ecuación 2.3.7)
41
Una Introducción al Cómputo Neuronal Artificial
Igualamos con el lado izquierdo de la Ecuación 2.3.6:
N
P
N
i =1
k =0
i =1
¦ xi, j di = ¦ wk ¦ xi, j xi ,k
(Ecuación 2.3.8)
Se dividen ambos lados de la Ecuación 2.3.8 por N:
N
¦ xi, j di
i =1
N
=
P
N
k =0
i =1
¦ wk ¦ xi, j xi,k
=
N
1
N
P
N
k =0
i =1
¦ wk ¦ xi, j xi,k
P
1 N
¦ xi, j xi,k
N i =1
k =0
P
1 N
1 N
⇔ ¦ xi , j di = ¦ wk ¦ xi , j xi ,k
N i =1
N i =1
k =0
= ¦ wk
(Ecuación 2.3.9)
Consideraremos ahora, del lado derecho de la Ecuación 2.3.9 la sumatoria con
1
. Sea Rk,j definido como:
índice i y su factor
N
Rk , j =
1 N
¦ xi, j xi,k
N i =1
k = 0,1, 2,..., P
j = 0,1, 2,..., P
(Ecuación 2.3.10)
Ahora, sea R la matriz de (P+1) × (P+1) dada por:
ª R0,0
«R
1,0
R=«
« #
«
¬ RP ,0
R0,1 " R0, P º
R1,1 " R1, P »»
# %
# »
»
RP ,1 " RP , P ¼
(Ecuación 2.3.11)
Sea ℘j igual al lado izquierdo de la Ecuación 2.3.9:
℘j =
42
1
N
N
¦x
i, j
i =1
di
j = 0,1, 2,..., P
(Ecuación 2.3.12)
Capítulo 2. Preliminares Matemáticos
Definimos a ℘ como un vector de P+1 elementos:
ª℘0 º
«℘ »
℘= « 1 »
« # »
« »
¬℘P ¼
(Ecuación 2.3.13)
Y sea W el vector de P+1 elementos dado por:
ª w0 º
«w »
W =« 1»
« # »
« »
¬ wP ¼
(Ecuación 2.3.14)
El sistema de ecuaciones que se obtuvo originalmente al calcular las derivadas
parciales de la función de error J
­ 1
®−
¯ N
P
§
·
x
d
−
wk xi ,k ¸ = 0
¦
¦
i, j ¨ i
i =1
k =0
©
¹
N
j = 0,1, 2,...P
Ahora puede ser reescrito como el producto matricial:
℘ = RW
(Ecuación 2.3.15)
Supongamos la existencia de la matriz inversa de R, es decir R-1, entonces tendremos
manera de determinar al vector W (Ecuación 2.3.14), cuyos componentes son precisamente
los valores de las variables w0, w1, …, wP:
℘ = RW
⇔ R-1℘ = R-1RW
⇔ R-1℘ = I W
⇔ R-1℘ = W
(I: matriz identidad)
(Ecuación 2.3.16)
La Ecuación 2.3.16 expresa de manera sumamente concreta, en términos de un
producto matricial, el procedimiento de Mínimos Cuadrados. Nótese que la existencia de la
solución depende precisamente de que se cuente con la inversa de la matriz R (Ecuación
2.3.11).
43
Una Introducción al Cómputo Neuronal Artificial
Consideremos el caso particular cuando P = 1, entonces la matriz R tendrá la forma:
ª R0,0
«R
¬ 1,0
R0,1 º
R1,1 »¼
Específicamente, por la Ecuación 2.3.10 y dado que xi,0 = 1, i = 1, 2, …, N:
ª1 N
« N ¦ xi ,0 xi ,0
i =1
R=«
«1 N
« N ¦ xi ,0 xi ,1
¬ i =1
1 N
º ª
xi ,1 xi ,0 » « 1
¦
N i =1
»=«
» «1 N
1 N
x
x
xi ,1
¦ i,1 i,1 »¼ «¬ N ¦
N i =1
i =1
1 N
º
xi ,1 »
¦
ª1
N i =1
»=«
1 N 2 » «¬ x
¦x
N i =1 i ,1 »¼
xº
»
x 2 »¼
Por las Ecuaciones 2.3.12 y 2.3.13, y haciendo xi,0 = 1, i = 1, 2, …, N, el vector ℘ estará
dado por:
ª1 N
º ª 1 N
º
x
d
di »
¦
¦
i ,0 i »
«
«
ªd º
N i =1
N i =1
ª℘ º
»=«
»=« »
℘= « 0 » = «
N
» «1 N
» ¬« xd ¼»
¬℘1 ¼ « 1
x
d
« N ¦ i ,1 i » « N ¦ xi ,1di »
¬ i =1
¼ ¬ i =1
¼
Suponiendo que el sistema ha de ser resuelto usando la Regla de Crammer, se tiene que
los valores para w0 y w1 están dados por:
w0 =
d
x
xd
x2
1
x
x
x2
1
=
d ⋅ x 2 − xd ⋅ x
()
x2 − x
2
w1 =
d
x xd
1
x
x
x2
=
xd − d ⋅ x
()
x2 − x
2
Es claro que las expresiones encontradas para w0 y w1 corresponden con las Ecuaciones
2.2.12 y 2.2.13 presentadas en la Sección anterior.
2.4 La Desigualdad de Cauchy-Schwarz
Sean u y v cualesquiera vectores en \ n . Su producto punto puede ser calculado
mediante
u ⋅ v = u ⋅ v ⋅ cos θ
44
Capítulo 2. Preliminares Matemáticos
Donde θ es el ángulo que forman u y v. Es bien sabido que cos θ ∈ [-1,1] y que por tanto el
valor absoluto aplicado sobre la función coseno hará que ésta tenga sus valores en [0, 1].
Por ello se plantea entonces la siguiente desigualdad:
u ⋅v =
u ⋅ v ⋅ cos θ ≤
u ⋅ v ⋅ cos θ
Es claro que el término |cos θ| puede interpretarse como un factor de escalamiento que
puede reducir el valor del producto de las magnitudes de u y v, u ⋅ v . Por lo tanto, se
tiene que:
u ⋅ v = u ⋅ v ⋅ cos θ ≤
u ⋅ v ⋅ cos θ
≤
u ⋅ v
Ÿ u ⋅v ≤ u ⋅ v
Precisamente la última desigualdad, u ⋅ v ≤ u ⋅ v , es conocida como la Desigualdad de
Cauchy-Schwarz.
45
Una Introducción al Cómputo Neuronal Artificial
46
Una Introducción al Cómputo Neuronal Artificial
3. La Neurona
Adaline
Una Introducción al Cómputo Neuronal Artificial
48
Capítulo 3. La Neurona Adaline
3.1 Estructura
Sea X = [x1, x2, …, xP]T un vector en \ P . La neurona Adaline procesará a X y
producirá su salida, un escalar, de la siguiente manera (véase la Figura 3.1):
P
§
·
y = sign ¨ w0 + ¦ wi xi ¸
i =1
©
¹
(Ecuación 3.1.1)
Donde:
• w0 es llamado término de Predisposición o Sesgo (Bias Term).
• wi es el peso en la entrada xi, i = 1, 2, …, P.
P
•
w0 + ¦ wi xi es llamada Sumatoria de Salida.
•
La función sign se define como (Véase la Figura 3.2):
i =1
sign : \ → {−1,1}
­−1 si
z sign( z ) = ®
¯ 1 si
z<0
z≥0
W1
#
Wi
Xi
#
P
z = w0 + ¦ wi xi
z
y
y = sign( z )
i =1
Salida
Entradas
X1
WP
XP
Figura 3.1. Representación esquemática de una neurona Adaline.
sign(z)
1
0
-1
Figura 3.2. Gráfica de la función sign.
49
Una Introducción al Cómputo Neuronal Artificial
Ahora bien, considérese un conjunto compuesto por N vectores de entrada a
presentar a la neurona:
{X1, X2, …, XN}
Como ya se comentó en la Sección 1.3, cada vector será de la forma:
ª xi ,1 º
« # »
« »
X i = « xi ,k »
« »
« # »
« xi , P »
¬ ¼
También considérese un segundo conjunto compuesto por N vectores:
{D1, D2, …, DN}
Tales vectores formaran la salida esperada para la neurona. Cada vector será de la forma:
ª di ,1 º
« # »
«
»
Di = « di ,k »
«
»
« # »
« di ,m »
¬
¼
La relación entre el conjunto de vectores de entrada y el conjunto de vectores de
salida está dada por el objetivo de que para un vector de entrada Xi se espera que la neurona
proporcione la salida Di. El entrenamiento de una neurona tipo Adaline tiene por finalidad
encontrar los pesos w0, w1, w2, …, wP tales que para todo vector de entrada Xi se
proporcione como salida un vector Si tal que Si = Di o bien la diferencia Si - Di sea
aceptable. De acuerdo a la Ecuación 3.1.1 tanto Di como Si tendrán únicamente un
componente.
•
Por ejemplo, considérese el siguiente conjunto de entrenamiento:
Se tienen los vectores de entrada:
ª0 º
ª1 º
ª0º
ª1º
X1 = « » , X 2 = « » , X 3 = « » , X 4 = « »
¬0 ¼
¬0 ¼
¬1 ¼
¬1¼
50
Capítulo 3. La Neurona Adaline
•
El conjunto de vectores de salida se forma por:
D1 = [ 0] , D2 = [1] , D3 = [1] , D4 = [1]
•
De manera que se espera que dado el vector de entrada
ª0º
o « » , la neurona proporcione [0]
¬0¼
ª1 º
o « » , la neurona proporcione [1]
¬0¼
ª0º
o « » , la neurona proporcione [1]
¬1 ¼
ª1º
o « » , la neurona proporcione [1]
¬1¼
En este punto debe ser claro que nuestro objetivo es modelar la compuerta lógica
OR. En la Figura 3.3 se presenta la correspondiente representación esquemática de la
neurona para este problema en particular. Se tendrán 2 entradas y se proporcionará un
escalar como salida. Dado que la función sign tiene por dominio el conjunto {-1, 1}
entonces el conjunto de entrenamiento, y en particular el conjunto de vectores de salida,
deberá ser ajustado de manera que sus valores estén precisamente en {-1, 1}. Es evidente
que la única modificación a aplicar tiene que ver con el valor cero y ésta no altera el
problema original:
• D1 = [ −1] , D2 = [1] , D3 = [1] , D4 = [1]
W1
2
z = w0 + ¦ wi xi
i =1
z
y = sign( z )
y
Salidas
Entradas
X1
W2
X2
Figura 3.3. Esquema de una neurona Adaline
para dar solución al modelado de la compuerta lógica OR.
Por el momento sólo verificaremos la existencia de los pesos w0, w1 y w2 de manera
que se obtienen siempre las salidas correctas. Considérense los pesos:
• w1 = 0.5
• w2 = 0.5
• w0 = -0.25
51
Una Introducción al Cómputo Neuronal Artificial
Ello implica que la Sumatoria de Salida tendrá la forma:
z = 0.5x1 + 0.5x2 – 0.25
Aplicando cada vector de entrada a la sumatoria se obtiene:
• 0.5(0) + 0.5(0) – 0.25 = -0.25
• 0.5(1) + 0.5(0) – 0.25 = 0.25
• 0.5(0) + 0.5(1) – 0.25 = 0.25
• 0.5(1) + 0.5(1) – 0.25 = 0.75
Finalmente, a cada salida z se le aplica la función sign. Con lo que se obtiene
respectivamente:
• sign(-0.25) = -1
• sign(0.25) = 1
• sign(0.25) = 1
• sign(0.75) = 1
Por lo tanto, hemos demostrado la existencia de pesos tales que una neurona
Adaline es capaz de aprender y modelar la compuerta lógica OR. Evidentemente surge la
pregunta de cómo es posible determinar tales pesos. Un mecanismo obvio, pero sumamente
ineficiente en la práctica, es mediante prueba y error. Es claro que se requiere una
metodología sistemática que nos permita encontrar los pesos. En las siguientes Secciones
presentaremos dos métodos a fin de lograr tal objetivo.
3.2 Ajuste de Pesos de la Neurona Adaline
por Mínimos Cuadrados
En la Sección 2.3 describimos al Método de Mínimos Cuadrados como una solución
al problema de la Correlación Lineal. Al observar la estructura interna de la neurona
Adaline y en particular su Sumatoria de Salida
P
w0 + ¦ wi xi
i =1
es claro que el objetivo es el ajuste de los pesos w0, w1, w2, … wP de manera que para cada
vector de entrada se obtenga la salida correcta o tan cercana como sea posible al valor
correcto. Además, tal como nos indica la misma sumatoria, el ajuste debe ser de manera
que todo valor de salida proporcionado por la neurona es una combinación lineal de su
correspondiente vector de entrada y el conjunto de pesos. Es por ello que el Método de
Mínimos Cuadrados resultará ser una primera metodología para el ajuste de pesos en una
neurona Adaline. El mismo método, y la Teoría que lo sustenta, nos garantiza que este
ajuste será el mejor posible.
52
Capítulo 3. La Neurona Adaline
Establezcamos primero puntos de conexión con la Teoría presentada en la Sección
2.3. Contaremos con N pares (Xi, di) en donde Xi es un vector en \ P+1 tal que
ª xi ,0 = 1º
« x »
« i ,1 »
X i = « xi ,2 »
«
»
« # »
« xi , P »
¬
¼
y di es un escalar que corresponde a la salida que se espera proporcione la neurona cuando
Xi le es enviado como entrada, i = 1, 2, 3, …, N.
Sea W el vector de pesos de la neurona. Éste también estará en \ P+1 :
ª w0 º
«w »
« 1»
W = « w2 »
« »
« # »
«¬ wP »¼
En este punto haremos una leve modificación a la estructura de la neurona en el
sentido de que no será requerido el uso de la función sign. Por lo tanto tendremos una
estructura neuronal como la presentada en la Figura 3.4.
W1
#
#
P
z = w0 + ¦ wk xi ,k
z
k =1
Salida
Entradas
Xi,1
WP
Xi,P
Figura 3.4. Estructura de la neurona Adaline
omitiendo el uso de la función sign.
53
Una Introducción al Cómputo Neuronal Artificial
Sea zi el escalar que produce la neurona como salida cuando se le envía como
entrada el vector Xi. De hecho:
P
zi = ¦ wk xi ,k
(Ecuación 3.2.1)
k =0
Nótese que hemos incorporado al peso w0 a la sumatoria haciendo xi,0 = 1 para todo vector
de entrada.
Se define al Error de Entrenamiento para el i-ésimo par (Xi, di) como:
εi = di - zi
(Ecuación 3.2.2)
Ahora se define al Costo de Entrenamiento para el vector de pesos W como:
J (W ) =
1
2N
N
¦ε
2
i
(Ecuación 3.2.3)
i =1
Es claro que el Costo de Entrenamiento no es más que la fórmula para el Promedio de los
Errores al Cuadrado originalmente presentada en la Sección 2.3 (Ecuación 2.3.4). Es
precisamente en este punto en que tenemos ya una conexión directa entre el objetivo de
ajustar los pesos de la neurona Adaline y el método de Mínimos Cuadrados.
Evidentemente, el costo de entrenamiento se minimiza al resolver la ecuación
matricial (Véase la Sección 2.3, Ecuación 2.3.15):
℘ = RW
El vector W contiene, una vez resuelta la ecuación, los pesos que deben ser aplicados a la
Sumatoria de Salida
P
zi = ¦ wk xi ,k
k =0
54
Capítulo 3. La Neurona Adaline
Consideremos el caso del ajuste de pesos de manera que una neurona Adaline
modele a la función Booleana presentada en la Tabla 3.1. Recuérdese que se agrega un
0-ésimo componente a los vectores de entrada: xi,0. Su valor es siempre igual a 1 y tiene la
finalidad de incorporar al peso w0 en la Sumatoria de Salida. Tenemos entonces el conjunto
de entrenamiento:
ª1 º
ª1 º
ª1 º
ª1º
«
»
«
»
«
»
• X 1 = «0 » , X 2 = «1 » , X 3 = «0 » , X 4 = ««1»»
«¬0 »¼
«¬0 »¼
«¬1 »¼
«¬1»¼
•
•
d1 = 1, d 2 = 0, d3 = 1, d 4 = 0
N=4
Tabla 3.1. Una compuerta lógica
a ser modelada por una neurona Adaline.
i xi,1 xi,2 di
1
2
3
4
0
1
0
1
0
0
1
1
1
0
1
0
Definimos en primer lugar a la matriz R. En este caso será de tamaño 3 × 3. De
acuerdo a la Ecuación 2.3.10 (Sección 2.3) sus elementos están dados por:
1 4
1 4
• R0,0 = ¦ xi ,0 xi ,0 = ¦1 = 1
4 i =1
4 i =1
1 4
1 4
1
• R0,1 = ¦ xi ,1 xi ,0 = ¦ xi ,1 =
4 i =1
4 i =1
2
4
4
1
1
1
• R0,2 = ¦ xi ,2 xi ,0 = ¦ xi ,2 =
4 i =1
4 i =1
2
1 4
1 4
1
• R1,0 = ¦ xi ,0 xi ,1 = ¦ xi ,1 =
4 i =1
4 i =1
2
4
4
1
1
1
• R1,1 = ¦ xi ,1 xi ,1 = ¦ xi2,1 =
4 i =1
4 i =1
2
1 4
1
1
• R1,2 = ¦ xi ,2 xi ,1 = ( 0 + 0 + 0 + 1) =
4 i =1
4
4
4
4
1
1
1
• R2,0 = ¦ xi ,0 xi ,2 = ¦ xi ,2 =
4 i =1
4 i =1
2
1 4
1
1
• R2,1 = ¦ xi ,1 xi ,2 = ( 0 + 0 + 0 + 1) =
4 i =1
4
4
4
4
1
1
1
• R2,2 = ¦ xi ,2 xi ,2 = ¦ xi2,2 =
4 i =1
4 i =1
2
55
Una Introducción al Cómputo Neuronal Artificial
Por lo tanto:
ª
«1
«
1
R=«
«2
«1
«
¬« 2
1
2
1
2
1
4
1º
2»
»
1»
4»
1 »»
2 »¼
La inversa de la matriz R está dada por:
ª 3 −2 −2 º
R = «« −2 4 0 »»
«¬ −2 0 4 »¼
−1
Al aplicar la Ecuación 2.3.12 (Sección 2.3) tenemos que los elementos del vector
℘ están dados por:
1 4
1 4
1
• ℘0 = ¦ xi ,0 di = ¦ di =
4 i =1
4 i =1
2
1 4
• ℘1 = ¦ xi ,1di = 0
4 i =1
1 4
1
• ℘2 = ¦ xi ,2 di =
4 i =1
4
Entonces:
ª1º
«2»
« »
℘= «0»
«1»
« »
¬4¼
Encontramos los valores del vector W mediante el producto matricial W = R-1℘
(Ecuación 2.3.16, Sección 2.3):
ª1º
−
−
3
2
2
ª
º «2» ª 1 º
« »
«
W = « −2 4 0 »» « 0 » = «« −1»»
« »
¬« −2 0 4 ¼» « 1 » ¬« 0 ¼»
¬4¼
56
Capítulo 3. La Neurona Adaline
•
•
•
Por lo tanto se han identificado los siguientes pesos:
w0 = 1
w1 = -1
w2 = 0
La Ecuación 3.2.3, correspondiente al costo de entrenamiento, describe, para este
ejemplo en particular, a un hiperparaboloide inmerso en el espacio Euclidiano
tetradimensional. La ecuación específica de tal lugar geométrico se obtiene al sustituir con
los valores del conjunto de entrenamiento:
w02 w12 w22 w0 w1 w0 w2 w1w2 w2 w0 1
J (W ) =
+
+
+
+
+
−
−
+
2
4
4
2
2
4
4
2 4
Calculemos el error de entrenamiento asociado a los pesos identificados al sustituirlos
precisamente en la ecuación anterior:
(1) 2 (−1) 2 (0) 2 (1)(−1) (1)(0) (−1)(0) 0 1 1
J (W ) =
+
+
+
+
+
− − +
2
4
4
2
2
4
4 2 4
=0
El punto (w0 = 1, w1 = -1, w2 = 0, J(W) = 0) es el único mínimo en la hipersuperficie
de nuestro hiperparaboloide, lo que nos garantiza que los pesos encontrados son los
mejores. De hecho estamos en la mejor de las situaciones al tener un error cero. Contamos
entonces con una neurona Adaline óptima para el modelado de la compuerta lógica
presentada en la Tabla 3.1.
3.3 Ajuste de Pesos de la Neurona Adaline
por Descenso Escalonado
A continuación describiremos al método de Descenso Escalonado. Se trata de un
método de búsqueda de mínimos en una función f usando información proporcionada por el
vector gradiente. Un punto interesante de esta metodología es que los gradientes usados no
necesariamente se obtienen de la función a optimizar f, sino que éstos se calculan a partir de
funciones auxiliares construidas a partir de f. Veremos que de hecho algunas definiciones
asociadas al método de Mínimos Cuadrados son el punto de partida para la definición del
Descenso Escalonado. Sin embargo, se observará que éste último proporciona un método
más eficiente en términos del número de operaciones efectuadas. En la siguiente Sección se
abordará primero el caso del Descenso Escalonado en el contexto de una neurona Adaline
con una única entrada. Posteriormente, en la Sección 3.3.2 comentaremos el caso con
múltiples entradas. En ambas situaciones se asume que la neurona proporciona como salida
un único escalar.
57
Una Introducción al Cómputo Neuronal Artificial
3.3.1 Descenso Escalonado: Caso una entrada – una salida
Sea N el número de elementos en el conjunto de entrenamiento, N > 2. Supóngase
que se cuenta con un método iterativo para el entrenamiento de la neurona Adaline de
manera que su vector de pesos es actualizado en cada iteración. Para la m-ésima iteración,
sea Wm el vector de pesos actual de la neurona. El vector Wm es entonces actualizado de
manera que se obtendrá un nuevo vector de pesos Wm+1. La actualización se efectuará
mediante la siguiente regla:
Wm+1 = Wm + Δwm
(Ecuación 3.3.1)
Donde Δwm es el llamado el Término de Variación o Cambio en Wm.
Por otro lado, la instancia particular de la Ecuación 3.2.3 que describe el error de
entrenamiento cuando se ajustan dos pesos está dada por:
J (W ) =
1
2N
N
¦ ε i2 =
i =1
1
2N
N
¦ (d
i
− ( w0 xi ,0 + w1 xi ,1 )) 2
i =1
Sabemos que la función J(W) define un paraboloide ya que sólo depende de las variables w0
y w1, y por tanto sólo tiene un mínimo. También sabemos que este mínimo puede ser
determinado por el método de Mínimos Cuadrados.
J(W)
∇J(W)
Figura 3.5. Sección transversal del paraboloide definido por J(W).
El vector gradiente nos indica la dirección de máximo crecimiento de J(W).
Ahora bien, la teoría presentada en la Sección 2.1 nos dejó claro que un vector
gradiente de J(W), es decir ∇J(W), es un vector que apunta a la dirección de máximo
crecimiento. Este vector nos indica la dirección hacia la cual el error se maximiza (Véase la
58
Capítulo 3. La Neurona Adaline
Figura 3.5 en la cual se presenta una sección transversal del paraboloide definido por
J(W)). Sin embargo, el vector gradiente ∇J(W) también puede ser usado para buscar el
mínimo de J(W). ∇J(W) puede ser calculado de manera local al ubicarnos en un punto dado
(w0, w1). Dado que la meta es alcanzar al mínimo de J(W) entonces partiendo de (w0, w1), la
dirección a tomar para efectuar la búsqueda debe ser la opuesta al gradiente, es decir, usar
la dirección dada por -∇J(W) (Véase la Figura 3.6).
-∇J(W)
∇J(W)
J(W)
Figura 3.6. Sección transversal del paraboloide definido por J(W).
La dirección opuesta del vector gradiente indica la dirección
en donde se ubica el mínimo de J(W).
Ahora conectaremos estos últimos puntos para definir de manera más precisa el
proceso iterativo que mencionamos al inicio de esta Sección y hacer uso de la Ecuación
3.3.1 para la actualización del vector de pesos de la neurona. Véase la Figura 3.7. Dado un
vector de pesos iniciales W1, se calcula el gradiente de J(W) en W1: ∇J(W1). Nótese que la
función J(W) está definida para cualquier punto, por lo tanto, W1 podría ser inicializado con
valores aleatorios. Se inicia la búsqueda del mínimo en dirección opuesta a ∇J(W1). Para
ello, se requiere que nos desplacemos a otro punto. Entonces, modificamos
proporcionalmente al vector W1 usando -∇J(W1) de tal forma que obtenemos un nuevo
vector de pesos W2. Ya ubicados en el punto W2, se calcula nuevamente el gradiente de
J(W) en W2, es decir, se obtiene ∇J(W2). Ahora debemos continuar la búsqueda en
dirección opuesta a ∇J(W2). Se modifica al vector W2 de manera proporcional usando a
∇J(W2) de tal forma que se obtiene un nuevo vector de pesos W3. Este proceso continúa de
manera iterativa de tal forma que en la m-ésima iteración estaremos ubicados en el punto
Wm. Se calcula el gradiente de J(W) en Wm: ∇J(Wm). Se continúa la búsqueda en dirección
opuesta a ∇J(Wm). Se modifica al vector Wm de manera proporcional usando -∇J(Wm) de
donde se obtiene un nuevo vector de pesos Wm+1. Este proceso terminará cuando el vector
59
Una Introducción al Cómputo Neuronal Artificial
gradiente en el punto actual sea el vector cero o esté tan cerca como sea posible al vector
cero. La idea es que en cada iteración nos acerquemos cada vez más al mínimo de la
función J(W). El punto final (w0, w1) es donde precisamente los valores de los pesos se
optimizan.
∇J(W1)
J(W)
W1
∇J(W3)
∇J(W2)
W2
W3
...
Wm+1
Wm
∇J(Wm)
Figura 3.7. Sección transversal del paraboloide definido por J(W).
Dado un (punto) vector de pesos inicial W1 y -∇J(W1) se obtiene el nuevo (punto) vector de pesos W2.
Usando a W2 y -∇J(W2) se obtiene el (punto) vector de pesos W3. Se procede de manera sucesiva hasta
obtener un vector de pesos Wm tal que ∇J(Wm) = 0 o tan cercano a éste como sea posible.
El Algoritmo 3.1 presenta la codificación del proceso que acabamos de definir.
Nuestro procedimiento recibe al conjunto de vectores de entrada en la forma de una matriz
de tamaño N × 2 de manera que la primer columna contiene únicamente el valor 1 = xi,0. En
la columna 2 se tendrán los valores xi,1, i = 1, 2, …, N. El algoritmo recibe como entrada
también 3 constantes: δ, α y maxIt. La constante δ ∈ \ + ∪ {0} representa el valor mínimo
aceptable para la magnitud del vector gradiente de la función J(W). Mientras la magnitud
de ∇J(W) sea mayor a δ el ciclo while del algoritmo seguirá efectuando iteraciones.
Mencionamos previamente que el vector de pesos actual es actualizado de manera
proporcional con el negativo del vector gradiente de J(W). La dirección opuesta del vector
gradiente nos indica hacia donde mover al vector de pesos mientras que la constante de
entrada α ∈ \ + servirá para establecer la magnitud de tal movimiento. Por lo regular, α es
un valor en el intervalo (0,1). Por último, tenemos a la constante maxIt ∈ ` . Nótese que el
número de iteraciones que efectuará el Algoritmo 3.1 depende del valor de las constantes δ
y α. En un caso ideal se haría δ = 0. Sin embargo, es posible, debido a errores de redondeo
o punto flotante, que se requiera un gran número de iteraciones para efectivamente lograr
alcanzar el punto en la función J(W) tal que el vector gradiente sea el vector cero. Por lo
tanto, maxIt simplemente indicará el número máximo de iteraciones que el algoritmo
60
Capítulo 3. La Neurona Adaline
efectuará. Si tal número de iteraciones es alcanzado entonces el algoritmo retorna como
salida al último vector de pesos calculado. Nótese que en consecuencia el Algoritmo 3.1
nos proporcionará como salida el punto donde J(W) tiene su mínimo o bien punto cercano a
éste.
Algoritmo 3.1. Cálculo del mínimo de la función J(W) mediante búsqueda del vector
gradiente ∇J(W) = 0 y actualización iterativa del vector de pesos.
Procedure FindMinimum
(Matrix x[1, …, N][0,1], Array d[1, …, N], Real δ, Real α, Integer maxIt)
// Se asignan valores aleatorios al vector de pesos iniciales.
W = new Array[0,1]
W[0] = Random( )
W[1] = Random( )
m=0
while (m < maxIt) do
// Se calcula el vector gradiente en el punto dado por W.
∇J_W = GetGradientVector(x, d, W, N)
// Se obtiene la magnitud del vector gradiente.
∇J_W[0]2 + ∇J_W[1]2
// Si la magnitud del vector gradiente es menor o igual a δ
// entonces se retorna como salida el vector de pesos actual.
if (mag ≤ δ) then
return W
end-of-if
// Se obtiene la variación o cambio a aplicar al vector de pesos W.
Δwm = new Array[0,1]
Δwm[0] = α ∗ (−1) ∗ ∇J_W[0]
Δwm[1] = α ∗ (−1) ∗ ∇J_W[1]
// Se actualiza el vector de pesos.
W[0] = W[0] + Δwm[0]
W[1] = W[1] + Δwm[1]
m=m+1
end-of-while
// Si se alcanzó el número máximo de iteraciones entonces se retorna como
// salida al último vector de pesos calculado.
return W
end-of-procedure
Real mag =
Hace falta especificar a la función GetGradientVector la cual es invocada en el
Algoritmo 3.1. Ésta recibe como entrada el conjunto de entrenamiento de la neurona y el
vector de pesos actual. Tal como indica su nombre, su objetivo es calcular al vector
61
Una Introducción al Cómputo Neuronal Artificial
gradiente en el punto dado por el vector de pesos. Ello implica que entonces implementa las
Ecuaciones 2.2.6 y 2.2.7 (Sección 2.2) que corresponden a las derivadas parciales de J(W):
N x
N
d
δ J (W )
•
= w1 ¦ 1,i + w0 − ¦ i
δ w0
i =1 N
i =1 N
N x
N x
N d x
δ J (W )
= w1 ¦ 1,i + w0 ¦ 1,i − ¦ i 1,i
δ w1
N
i =1 N
i =1 N
i =1
2
•
Nótese que las sumatorias dependen únicamente del conjunto de entrenamiento. Por lo que
éstas podrían ser precalculadas y pasadas también como entrada al Algoritmo 3.1 y en
consecuencia a la función GetGradientVector.
El procedimiento de búsqueda de mínimo que acabamos de describir e implementar
en el Algoritmo 3.1 es precisamente el método de Descenso Escalonado. La idea, como se
puede apreciar, es ir descendiendo sobre la función de error J(W) usando “pasos
escalonados” cuya dirección y longitud vienen dados por el vector de pesos actual Wm y la
dirección opuesta del vector gradiente de J(W) en el punto Wm. Se espera que por cada paso
ejecutado, el vector gradiente se acerque cada vez más al vector cero. Entre más nos
aproximemos al vector cero, el vector de pesos se aproximará cada vez más a sus valores
óptimos ubicados en el mínimo de la función J(W).
El método de Descenso Escalonado que acabamos de describir requiere contar con
el gradiente de la función J(W). Ello implica que todos los elementos del conjunto de
entrenamiento son considerados en cada iteración en la forma de las sumatorias
2
N
N d x
di N x1,i N x1,i
i 1,i
,
,
,
y
. En el caso particular que estamos tratando en esta
¦
¦
¦
¦
N
i =1 N
i =1 N
i =1 N
i =1
Sección, neurona con una entrada-una salida, pueden que se detecten situaciones con la
eficiencia si el conjunto de entrenamiento es muy grande. Sin embargo, cuando tomamos
en cuenta el caso una neurona varias entradas-una salida veremos que el cálculo del
gradiente se vuelve ineficiente debido a que se deben considerar P+1 pesos. Para cada uno
de éstos tendremos que obtener la derivada parcial de J(W) respecto al j-ésimo peso
(Ecuación 2.3.5, Sección 2.3), j = 0, 1, 2, …, P, la cual a su vez requiere tomar en cuenta a
todo el conjunto de entrenamiento para su cálculo:
P
N
P
δ J (W )
1 N
1§ N
§
·
·
= − ¦ xi , j ¨ di − ¦ wk xi ,k ¸ = − ¨ ¦ xi , j di − ¦ xi , j ¦ wk xi ,k ¸ , j = 0, 1, …, P
N i =1
N © i =1
δ wj
k =0
i =1
k =0
©
¹
¹
N
Es posible precalcular la sumatoria
¦x
i, j
di ya que únicamente depende del conjunto de
i =1
N
entrenamiento. Sin embargo no es así con la sumatoria doble
i, j
i =1
depende también de los pesos w0, w1, …, wP.
62
P
¦x ¦w x
k i ,k
k =0
debido a que
Capítulo 3. La Neurona Adaline
Toda la problemática impuesta por la cuestión de la eficiencia encuentra una
solución al simplificar los cálculos cuando consideremos en cada iteración sólo una parte
de la función J(W). Es decir, formaremos funciones auxiliares a partir de J(W) que
mejorarán la eficiencia de la búsqueda del mínimo al calcular gradientes que no dependen
de todo el conjunto de entrenamiento en cada iteración: usarán únicamente una parte de
éste.
Sea N el número de elementos en el conjunto de entrenamiento, N > 2. Nuevamente
partimos del hecho de que contamos con un método iterativo para el entrenamiento de la
neurona Adaline de manera que su vector de pesos es actualizado en cada iteración. Para la
m-ésima iteración, sea Wm el vector de pesos actual de la neurona. En esta misma iteración
se le presentará a la neurona únicamente el m-ésimo elemento del conjunto de
entrenamiento: (xm, dm), xm, dm ∈ \ . Recordemos que xm es el escalar de entrada y dm es el
escalar que se espera proporcione la neurona como salida. El vector Wm es entonces
actualizado de manera que se obtendrá un nuevo vector de pesos Wm+1. La actualización se
efectuará mediante la regla dada por la Ecuación 3.3.1:
Wm+1 = Wm + Δwm
Sin embargo el Término de Variación o Cambio del vector de pesos, Δwm, ahora estará dado
por:
Δwm = μ(-∇J(W)m)
(Ecuación 3.3.2)
Para la m-ésima iteración se tendrá la función J(W)m. A ésta se le llama Error al
Cuadrado Local y es precisamente el error que existe entre la salida esperada dm y la
salida zm proporcionada por la neurona cuando se le equipa con el vector de pesos actual
Wm y usando únicamente el m-ésimo elemento del conjunto de entrenamiento (xm, dm). El
error al cuadrado local se define entonces como:
J(W)m = (dm – zm)2 = (dm – (wm,0xm,0 + wm,1xm,1))2
(Ecuación 3.3.3)
Recordemos que wm,0 es el término de sesgo o predisposición de la neurona Adaline y que
xm,0 = 1 y xm,1 = xm, m = 1, 2, …, N. Nótese que J(W)m es también un paraboloide inmerso
en el espacio tridimensional y que por lo tanto cuenta con un único mínimo.
63
Una Introducción al Cómputo Neuronal Artificial
Ahora determinaremos al vector gradiente de la función J(W)m. Entonces
calculamos las derivadas parciales de J(W)m respecto a las variables wm,0 y wm,1:
δ J (W ) m
δ
ª(d − ( wm,0 xm ,0 + wm,1 xm ,1 )) 2 º¼
=
δ wm,0
δ wm,0 ¬ m
= 2(d m − ( wm,0 xm ,0 + wm,1 xm ,1 ))
δ
δ wm ,0
(d m − wm ,0 xm ,0 − wm,1 xm ,1 )
= 2(d m − ( wm,0 xm ,0 + wm,1 xm ,1 ))(− xm ,0 )
δ J (W ) m
δ
ª¬ (d m − ( wm ,0 xm ,0 + wm,1 xm ,1 )) 2 º¼
=
δ wm ,1
δ wm,1
= 2(d m − ( wm,0 xm ,0 + wm,1 xm ,1 ))
δ
δ wm ,1
(d m − wm ,0 xm,0 − wm,1 xm,1 )
= 2(d m − ( wm,0 xm ,0 + wm,1 xm ,1 ))(− xm ,1 )
δ J (W ) m
δ J (W ) m
y
tienen como factor común a −2(d m − ( wm,0 xm ,0 + wm,1 xm,1 ))
δ wm ,0
δ wm ,1
entonces se tendrá finalmente que el vector gradiente de J(W)m esta dado por:
Dado que
ª xm ,0 º
∇J (W ) m = −2(d m − ( wm,0 xm ,0 + wm,1 xm ,1 )) «
»
¬ xm ,1 ¼
(Ecuación 3.3.4)
Nótese que ∇J(W)m es uno de los términos presentes en la variación o cambio del
vector de pesos, Δwm, (Ecuación 3.3.2). Es claro que ∇J(W)m maximiza el error de la
función J(W)m, por lo tanto, si nuestro objetivo es buscar su mínimo, usaremos la dirección
opuesta: -∇J(W)m.
El m-ésimo término de la sumatoria presente en la función de error J(W) es
precisamente (d m − ( w0 xm,0 + w1 xm,1 ))2 . Ello implica que de hecho la función de error al
cuadrado local J(W)m puede ser vista como obtenida a partir de J(W). En consecuencia,
∇J(W)m puede ser visto también como un estimador de ∇J(W) el cual se usará para
aproximarnos también al mínimo global de J(W).
La idea ahora es reespecificar el método de Descenso Escalonado para entrenar una
neurona Adaline haciendo uso de las Ecuaciones 3.3.2 y 3.3.3. Se tendrá un proceso
iterativo en el cual por cada elemento del conjunto de entrenamiento (xm, dm) se considerará
una función de error J(W)m y el vector de pesos actual Wm. Específicamente se calculará el
vector gradiente de J(W)m en el punto dado por Wm. Nótese que el cálculo de ∇J(W)m
(Ecuación 3.3.4) es mucho más sencillo, en términos de eficiencia, que el cálculo del
64
Capítulo 3. La Neurona Adaline
vector gradiente de la función J(W) (Ecuaciones 2.2.6 y 2.2.7, Sección 2.2) precisamente
porque ∇J(W)m sólo requiere del m-ésimo par del conjunto de entrenamiento. Como ya se
comentó antes, ∇J(W)m servirá como un estimador para ∇J(W).
Algoritmo 3.2. Método de Descenso Escalonado para la
búsqueda de un mínimo: caso de una única entrada.
Procedure SteepestDescent(Matrix x[1, …, N][0,1], Array d[1, …, N], Real μ)
// Se asignan valores aleatorios al vector de pesos iniciales.
W = new Array[0,1]
W[0] = Random( )
W[1] = Random( )
for m = 1 until N do
Real ε_m = d[m] – (W[0] * x[m][0] + W[1] * x[m][1])
// Se calcula el vector gradiente de J(W)m en el punto dado por W.
∇J_Wm = new Array[0,1]
∇J_Wm[0] = -2 * ε_m * x[m][0]
∇J_Wm[1] = -2 * ε_m * x[m][1]
// Se obtiene la variación o cambio a aplicar al vector de pesos W.
Δwm = new Array[0,1]
Δwm[0] = μ ∗ (−1) ∗ ∇J_Wm[0]
Δwm[1] = μ ∗ (−1) ∗ ∇J_Wm[1]
// Se actualiza el vector de pesos.
W[0] = W[0] + Δwm[0]
W[1] = W[1] + Δwm[1]
end-of-for
// Se retorna como salida al último vector de pesos calculado.
return W
end-of-procedure
La implementación del proceso anterior requiere un vector de pesos inicial W1. Por
lo regular sus valores son inicializados aleatoriamente. Para cada iteración m,
m = 1, 2, 3, …, N, primero se selecciona al m-ésimo elemento del conjunto de
entrenamiento. Posteriormente se calcula el valor de εm = [dm – (wm,0xm,0 + wm,1xm,1)] y
entonces se obtiene el vector gradiente de J(W)m en el punto Wm mediante
ª xm ,0 º
∇J (W ) m = −2ε m «
»
¬ xm,1 ¼
Finalmente se actualiza proporcionalmente al vector de pesos Wm al sumarle el negativo de
∇J (W ) m . La proporción a aplicar viene dada por la constante μ ∈ \ + . De esta manera se
obtiene el vector de pesos actualizado Wm+1. El Algoritmo 3.2 presenta entonces el
procedimiento de entrenamiento de una neurona Adaline de una entrada y una salida
mediante el método de Descenso Escalonado. Nótese que hemos establecido que el
Algoritmo 3.2 efectúa en total N iteraciones, una por cada elemento del conjunto de
65
Una Introducción al Cómputo Neuronal Artificial
entrenamiento. Sin embargo, y dependiendo del problema que se esté modelando, es
posible que se requiera presentar en más de una ocasión al todo el conjunto de
entrenamiento. Analizaremos esta situación en los siguientes párrafos.
Considérese el conjunto de entrenamiento presentado en la Tabla 3.2. Veamos que
resultados nos proporciona el método de Descenso Escalonado usando al vector inicial de
pesos
ª0.5º
W1 = « »
¬0.5¼
y la constante μ = 0.02. Efectuaremos en total N = 11 actualizaciones del vector de pesos.
Véase la Tabla 3.3. En la iteración m = 11 se tiene el vector de pesos
ª1.2432 º
W12 = «
»
¬3.4485¼
El conjunto de entrenamiento de la Tabla 3.2 ya había sido presentado en la Sección 2.2
(Tabla 2.1) para ejemplificar el método de Mínimos Cuadrados. En ese caso se obtuvieron
los pesos finales y óptimos w0 = 3.9545 y w1 = 2.9818. Después de 11 iteraciones el método
de Descenso Escalonado nos ha proporcionado las aproximaciones w12,0 = 1.2432 y
w12,1 = 3.4485 la cuales pueden considerarse un tanto alejadas de las óptimas. Sin embargo,
comentamos previamente que es posible efectuar una presentación más del conjunto de
entrenamiento si se considerase necesario, es decir, efectuar otras 11 iteraciones. En este
caso aplicaríamos nuevamente el Algoritmo 3.2 pero usando como vector inicial W1 al
vector de pesos final que se obtuvo en la presentación anterior del conjunto de
entrenamiento, es decir, el vector W12. La Tabla 3.4 muestra los resultados obtenidos al
aplicar nuevamente el método de Descenso Escalonado usando ahora como vector inicial
ª1.2432 º
W1 = «
»
¬3.4485¼
En este caso se obtuvo la aproximación w12,0 = 2.1486 y w12,1 = 3.2661. Nótese que se ha
obtenido una mejora bastante considerable respecto a los pesos obtenidos en la primer
presentación del conjunto de entrenamiento. En realidad, es posible efectuar tantas
presentaciones sean necesarias. El Algoritmo 3.3 es una versión modificada del Algoritmo
3.2. Recibe una entrada adicional T que indica el número de veces que el conjunto de
entrenamiento será presentado. Nótese que hemos especificado que para la primer
presentación, t = 1, el vector W1 es inicializado aleatoriamente. En las posteriores
presentaciones, t ≥ 2, el vector W1 es el último vector de pesos que se obtuvo en la
presentación anterior.
66
Capítulo 3. La Neurona Adaline
Tabla 3.2. Un conjunto de entrenamiento al que se le aplicará
el método de Descenso Escalonado a fin de que una neurona Adaline lo modele.
di
i
x1,i
1
-5
-10.5
2
-4
-8.5
3
-3
-4.5
4
-2
-2.5
5
-1
0.5
6
0
4.5
7
1
6.5
8
2
10.5
9
3
12.5
10
4
16.5
11
5
18.5
Tabla 3.3.Aplicación del método de Descenso Escalonado para el ajuste de pesos
de una neurona Adaline con el conjunto de entrenamiento de la Tabla 3.2.
ª xm,0 º
Iteración m εm = [dm – (wm,0xm,0 + wm,1xm,1)] ∇J (W ) m = −2ε m «
» Wm+1 = Wm + μ(- ∇J (W ) m )
¬ xm,1 ¼
1
ε1 = −8.5
2
ε2 = 0.14
3
ε3 = 1.8672
4
ε4 = 1.667
5
ε5 = 2.0732
6
ε6 = 4.1301
7
ε7 = 4.1876
8
ε8 = 5.9078
9
ε9 = 4.3088
10
ε10 = 3.6508
11
ε11 = −0.3503
17 º
∇J (W )1 = ª«
»
¬ −85¼
−0.28º
∇J (W ) 2 = ª«
»
¬ 1.12 ¼
W2 = ª0.16 º
« 2.2 »
¬
¼
= ª 0.1656 º
W3
« 2.1776 »
¬
¼
−3.7344 º
∇J (W )3 = ª«
»
¬11.2032 ¼
−2.3335º
∇J (W ) 4 = ª«
»
¬ 4.6671 ¼
W4 = ª0.2402 º
«1.9535 »
¬
¼
−4.1464 º
∇J (W )5 = ª«
»
¬ 4.1464 ¼
−8.2602 º
∇J (W )6 = ª«
»
¬ 0 ¼
−8.3752 º
∇J (W )7 = ª«
»
¬ −8.3752 ¼
−11.8157 º
∇J (W )8 = ª«
»
¬ −23.6314 ¼
−8.6177 º
∇J (W )9 = ª«
»
−
¬ 25.8533¼
−7.3017 º
∇J (W )10 = ª«
»
¬ −29.207 ¼
0.7006 º
∇J (W )11 = ª«
»
¬3.5032 ¼
W5 = ª0.2869 º
«1.8601 »
¬
¼
= ª 0.3698 º
W6
«1.7772 »
¬
¼
W7 = ª0.5350 º
«1.7772 »
¬
¼
= ª 0.7025 º
W8
«1.9447 »
¬
¼
W9 = ª 0.9389 º
« 2.4174 »
¬
¼
= ª1.1112 º
W10
« 2.9344 »
¬
¼
W11 = ª1.2573 º
«3.5186 »
¬
¼
W12 = ª1.2432 º
«3.4485»
¬
¼
67
Una Introducción al Cómputo Neuronal Artificial
Tabla 3.4. Aplicación del método de Descenso Escalonado para el ajuste de pesos
de una neurona Adaline presentando por segunda vez el conjunto de entrenamiento de la Tabla 3.2
y usando como vector de pesos iniciales W = ª1.2432 º .
1
«3.4485»
¬
¼
Iteración m
εm = [dm – (wm,0xm,0 + wm,1xm,1)]
1
ε1 = 5.4994
2
ε2 = −0.5686
3
ε3 = 1.3784
4
ε4 = 0.5528
5
ε5 = 1.2122
6
ε6 = 2.9337
7
ε7 = 2.6348
8
ε8 = 4.1371
9
ε9 = 2.6918
10
ε10 = 2.6741
11
ε11 = −0.513
ª xm,0 º
∇J (W ) m = −2ε m «
»
¬ xm,1 ¼
−10.9988º
∇J (W )1 = ª«
»
¬ 54.9941 ¼
Wm+1 = Wm + μ(- ∇J (W ) m )
W2 = ª1.4632 º
« 2.3486 »
¬
¼
1.1372 º
∇J (W ) 2 = ª«
»
¬ −4.549 ¼
−2.7567 º
∇J (W )3 = ª«
»
¬ 8.2703 ¼
W3 = ª1.4405 º
« 2.4396 »
¬
¼
= ª1.4956 º
W4
« 2.2742 »
¬
¼
−1.1056 º
∇J (W ) 4 = ª«
»
¬ 2.2112 ¼
−2.4244 º
∇J (W )5 = ª«
»
¬ 2.4244 ¼
W5 = ª1.5177 º
« 2.23 »
¬
¼
−5.8674 º
∇J (W )6 = ª«
»
¬ 0 ¼
−5.2697 º
∇J (W )7 = ª«
»
¬ −5.2697 ¼
−8.2743 º
∇J (W )8 = ª«
»
−
¬ 16.5487 ¼
−5.3837 º
∇J (W )9 = ª«
»
¬ −16.1511¼
−5.3484 º
∇J (W )10 = ª«
»
¬ −21.3936 ¼
1.026 º
∇J (W )11 = ª«
»
¬5.1303¼
W6 = ª1.5662 º
« 2.1815»
¬
¼
= ª1.6836 º
W7
« 2.1815»
¬
¼
W8 = ª 1.789 º
« 2.2869 »
¬
¼
W9 = ª1.9544 º
« 2.6178»
¬
¼
W10 = ª 2.0621º
« 2.9409 »
¬
¼
= ª 2.1691º
W11
«3.3687 »
¬
¼
W12 = ª 2.1486 º
« 3.2661»
¬
¼
En la Tabla 3.5 se presentan los vectores de pesos W12 en la t-ésima presentación,
t = 1, 2, …, 10. Los vectores de pesos obtenidos en la primera y segunda presentación son
los mismos que se habían descrito en las iteraciones m = 11 de las Tablas 3.3 y 3.4. En la
última presentación, t = 10, se obtuvo la aproximación de pesos w12,0 = 3.7717 y
w12,1 = 2.9389. Nótese que en este punto contamos ya con valores bastante cercanos a los
óptimos w0 = 3.9545 y w1 = 2.9818. En el método de Descenso Escalonado es posible
efectuar tantas presentaciones del conjunto de entrenamiento sean requeridas. En este punto
es muy probable que no se aprecie una diferencia sustancial comparando con el método de
Mínimos Cuadrados respecto al número de operaciones efectuadas. En la siguiente Sección
se retomará este tópico, sin embargo, hemos de recalcar que parte la valía del Descenso
Escalonado radica en la simplicidad de las operaciones utilizadas.
68
Capítulo 3. La Neurona Adaline
Algoritmo 3.3. Método de Descenso Escalonado para la
búsqueda de un mínimo: caso de una única entrada y T presentaciones
del conjunto de entrenamiento.
Procedure SteepestDescent(Matrix x[1,…,N][0,1], Array d[1, …, N], Real μ, Integer T)
// Se asignan valores aleatorios al vector de pesos iniciales.
W = new Array[0,1]
W[0] = Random( )
W[1] = Random( )
for t = 1 until T do
for m = 1 until N do
Real ε_m = d[m] – (W[0] * x[m][0] + W[1] * x[m][1])
// Se calcula el vector gradiente de J(W)m en el punto dado por W.
∇J_Wm = new Array[0,1]
∇J_Wm[0] = -2 * ε_m * x[m][0]
∇J_Wm[1] = -2 * ε_m * x[m][1]
// Se obtiene la variación o cambio a aplicar al vector de pesos W.
Δwm = new Array[0,1]
Δwm[0] = μ ∗ (−1) ∗ ∇J_Wm[0]
Δwm[1] = μ ∗ (−1) ∗ ∇J_Wm[1]
// Se actualiza el vector de pesos.
W[0] = W[0] + Δwm[0]
W[1] = W[1] + Δwm[1]
end-of-for
end-of-for
return W // Se retorna como salida al último vector de pesos calculado.
end-of-procedure
3.3.2 Descenso Escalonado: Caso varias entradas – una salida
Consideremos ahora el caso de una neurona de tipo Adaline con P entradas y una
única salida. Sea N el número de elementos del conjunto de entrenamiento tal que N > P+1.
Formalmente, la neurona recibirá como entrada un vector Xm en \ P +1 , 1 ≤ m ≤ N:
ª xm,0 = 1º
« x
»
« m,1 »
X m = « xm ,2 »
«
»
« # »
« xm , P »
¬
¼
Recordemos que el componente agregado xm,0 = 1 se relacionará con el término de sesgo o
predisposición de la neurona.
69
Una Introducción al Cómputo Neuronal Artificial
Ahora retomaremos algunos conceptos ya presentados en la Sección anterior. Sea
Wm el vector de pesos obtenido al presentar a la neurona el m-ésimo par del conjunto de
entrenamiento (Xm, dm), dm ∈ \ . A partir de Wm y (Xm, dm) se actualiza al vector de pesos
mediante la regla (Ecuación 3.3.1):
Wm+1 = Wm + Δwm
Donde Δwm es el Término de Variación o Cambio en Wm dado por (Ecuación 3.3.2):
Δwm = μ(-∇J(W)m)
J(W)m es el error entre la salida proporcionada por la neurona y el valor esperado dm al usar
los pesos en Wm y el vector de entrada Xm. J(W)m se define ahora como (nótese la similitud
con la Ecuación 3.3.3):
P
§
·
J (W ) m = (d m − Wm ⋅ X m ) = ¨ d m − ¦ wm ,k xm ,k ¸
k =0
©
¹
2
2
(Ecuación 3.3.5)
Tabla 3.5. Vectores de pesos obtenidos al final de la t-ésima presentación,
t = 1, 2, …, 10, mediante Descenso Escalonado, para el conjunto
de entrenamiento de la Tabla 3.2.
Presentación t Vectores de Pesos en m = 11
ª1.2432 º
1
«3.4485»
¬
¼
ª 2.1486 º
2
« 3.2661»
¬
¼
ª 2.7364 º
3
«3.1476 »
¬
¼
ª 3.1181º
4
«3.0707 »
¬
¼
ª3.3659 º
5
«3.0207 »
¬
¼
ª3.5268º
6
« 2.9883»
¬
¼
ª3.6312 º
7
« 2.9672 »
¬
¼
ª 3.6991º
8
« 2.9535»
¬
¼
ª 3.7431º
9
« 2.9447 »
¬
¼
ª3.7717 º
10
« 2.9389 »
¬
¼
70
Capítulo 3. La Neurona Adaline
De acuerdo a la Ecuación 3.3.2, se requiere calcular el vector gradiente de J(W)m, es
decir, ∇J(W)m:
ª δ J (W ) m º
« δw
»
m ,0
«
»
« δ J (W ) m »
«
»
∇J (W ) m = « δ wm ,1 »
«
»
#
«
»
« δ J (W ) m »
« δw
»
m,P ¼
¬
(Ecuación 3.3.6)
Consideremos el j-ésimo componente de ∇J(W)m. Entonces:
P
δ J (W ) m
δ §
·
d m − ¦ wm ,k xm ,k ¸
=
¨
δ wm , j
δ wm , j ©
k =0
¹
2
P
§
· δ
= 2 ¨ d m − ¦ wm ,k xm ,k ¸
k =0
©
¹ δ wm , j
P
§
·
d
−
¨ m ¦ wm ,k xm ,k ¸
k =0
©
¹
P
δ
§
·§
= 2 ¨ d m − ¦ wm ,k xm ,k ¸ ¨ −
k =0
©
¹ ¨© δ wm, j
P
¦w
m,k
k =0
·
xm ,k ¸
¸
¹
P
·
δ
§
·§
= 2 ¨ d m − ¦ wm ,k xm ,k ¸ ¨ −
wm , j xm , j ¸
¸
k =0
©
¹ ¨© δ wm, j
¹
P
§
·
= 2 ¨ d m − ¦ wm ,k xm ,k ¸ ( − xm , j )
k =0
©
¹
= −2 xm , j (d m − Wm ⋅ X m )
Es decir:
δ J (W ) m
= −2 xm , j (d m − Wm ⋅ X m )
δ wm , j
(Ecuación 3.3.7)
71
Una Introducción al Cómputo Neuronal Artificial
Para cada m, m = 0, …, P, la Ecuación 3.3.7 nos proporciona el m-ésimo
componente de ∇J (W ) m . Es claro que todos los componentes del vector gradiente de
J (W ) m tienen el factor común −2(d m − Wm ⋅ X m ) . Por lo tanto ∇J (W ) m queda como:
ª −2 xm ,0 (d m − Wm ⋅ X m ) º
ª xm,0 º
« −2 x (d − W ⋅ X ) »
«x »
m ,1
m
m
m »
m ,1 »
«
«
∇J (W ) m =
= −2(d m − Wm ⋅ X m )
«
»
« # »
#
«
»
«
»
¬ −2 xm , P (d m − Wm ⋅ X m ) ¼
¬ xm , P ¼
(Ecuación 3.3.8)
Algoritmo 3.4. Método de Descenso Escalonado para la
búsqueda de un mínimo: caso de varias entradas y T presentaciones
del conjunto de entrenamiento.
Procedure SteepestDescent
(Matrix x[1,…,N][0,…,P], Array d[1, …, N], Real μ, Integer T)
// Se asignan valores aleatorios al vector de pesos iniciales.
W = new Array[0,…,P]
for i = 0 until P
W[i] = Random( )
end-of-for
for t = 1 until T do
for m = 1 until N do
Real ε_m = 0
for i = 0 until P
ε_m = ε_m + W[i] * x[m][i]
end-of-for
ε_m = d[m] − ε_m
// Se calcula el vector gradiente de J(W)m en el punto dado por W.
∇J_Wm = new Array[0,…,P]
for i = 0 until P
∇J_Wm[i] = -2 * ε_m * x[m][i]
end-of-for
// Se obtiene la variación o cambio a aplicar al vector de pesos W.
Δwm = new Array[0,…,P]
for i = 0 until P
Δwm[i] = μ ∗ (−1) ∗ ∇J_Wm[i]
end-of-for
for i = 0 until P
W[i] = W[i] + Δwm[i] // Se actualiza el vector de pesos.
end-of-for
end-of-for
end-of-for
return W // Se retorna como salida al último vector de pesos calculado.
end-of-procedure
72
Capítulo 3. La Neurona Adaline
Contamos ya con los elementos para definir el método de Descenso Escalonado en
el caso de una neurona con P entradas y una salida. La Ecuación 3.3.5,
J (W ) m = (d m − Wm ⋅ X m ) 2 , determina el error al cuadrado existente entre la salida actual de
la neurona y el m-ésimo elemento del conjunto de entrenamiento (Xm, dm). Es claro que la
función J (W ) m es uno de los términos que forman a la función J(W) de Costo de
Entrenamiento para el vector de pesos W (Ecuación 3.2.3):
J (W ) =
1
2N
N
¦ ε i2 =
i =1
1
2N
N
¦ (d
i
− Wi ⋅ X i ) 2
i =1
En este sentido el método de Descenso Escalonado utiliza a J (W ) m para obtener gradientes
que pueden ser vistos como estimaciones o aproximaciones de los vectores gradientes de
J(W). La ventaja es que ∇J (W ) m se calcula únicamente en función de (Xm, dm) y Wm,
mientras que el gradiente de J(W) requiere a todo el conjunto de entrenamiento (véase la
Ecuación 2.3.5).
Entonces, el procedimiento de Descenso Escalonado para actualizar a Wm es el
siguiente:
• Seleccionar al vector de entrada Xm y la salida esperada dm.
• Se calcula el error de entrenamiento para los pesos en Wm mediante
P
ε m = d m − Wm ⋅ X m = d m − ¦ wm ,k xm ,k
k =0
•
Se aplica la Ecuación 3.3.8 de manera que se obtiene:
ª xm,0 º
«x »
m ,1 »
∇J (W ) m = −2ε m «
« # »
«
»
¬ xm , P ¼
73
Una Introducción al Cómputo Neuronal Artificial
•
La dirección de ∇J (W ) m maximiza a la función de error J (W ) m , ello implica que el
cambio o variación a aplicar al vector de pesos deberá ir en el sentido contrario a
∇J (W ) m . Por lo tanto, de la Ecuación 3.3.2, tenemos:
Δwm = μ(-∇J(W)m)
Donde μ es una constante positiva que definirá la proporción de -∇J(W)m a aplicar
sobre Wm. Recordemos, por la Sección anterior, que μ determina que tanto se moverá
Wm para obtener su correspondiente versión actualizada Wm+1.
•
Por último, el vector Wm+1 es obtenido mediante (Ecuación 3.3.1):
Wm+1 = Wm + Δwm
El proceso anterior ha de ser efectuado por cada uno de los elementos en el conjunto
de entrenamiento. Ello implica que una vez terminada la presentación del conjunto de
entrenamiento se contará con un vector de pesos aproximados WN+1. Si así se requiere, es
posible efectuar más presentaciones a fin de mejorar al vector de pesos. A partir de la
segunda presentación, el vector de pesos inicial es el último que se obtuvo en la
presentación anterior.
El Algoritmo 3.4 implementa el proceso de Descenso Escalonado. Recibe como
entrada una matriz de tamaño N × (P+1) que contiene los vectores de entrada; un arreglo de
N elementos con los escalares de salida esperada; la constante positiva μ para establecer la
proporcionalidad de la actualización del vector de pesos y finalmente el número T de veces
que el conjunto de entrenamiento será presentado. Es claro que el Algoritmo 3.4 es sólo
una generalización de la especificación dada en el Algoritmo 3.3 al considerar que los
vectores de entrada son ahora de tamaño P+1. Cuando P = 1 entonces el Algoritmo 3.4
cubre la misma instancia que el Algoritmo 3.3.
Ahora efectuaremos una serie de conteos relacionados con el número de
operaciones ejecutadas por el Algoritmo 3.4. Estos conteos irán de la mano con los valores
de P (dimensionalidad de los vectores de entrada), N (número de elementos en el conjunto
de entrenamiento) y T (número de veces que el conjunto de entrenamiento será presentado).
Para calcular
P
ε m = d m − Wm ⋅ X m = d m − ¦ wm ,k xm ,k
k =0
74
Capítulo 3. La Neurona Adaline
Se requieren P + 1 multiplicaciones, P + 1 sumas y una resta. Es decir, 2P + 3 operaciones.
Por otro lado, para obtener
ª xm,0 º
«x »
m ,1 »
∇J (W ) m = −2ε m «
« # »
«
»
¬ xm , P ¼
se deben efectuar, por cada componente de ∇J (W ) m , 2 multiplicaciones. Entonces tenemos
en total 2(P+1) operaciones. Cada componente de ∇J (W ) m debe ser además multiplicado
por -1 y por la constante μ. Tenemos entonces que para calcular al Término de Variación o
Cambio Δwm = μ(-∇J(W)m) se requieren 2(P+1) operaciones. Finalmente, para la
actualización del vector de pesos
Wm+1 = Wm + Δwm
Se deberán realizar P+1 sumas. Agrupando los conteos anteriores tenemos, que para
obtener un vector de pesos actualizado, el número de operaciones requeridas en total es:
(2P+3) + 2(P+1) + 2(P+1) + (P+1) = 7P + 8
Dado que en una presentación se efectúan N actualizaciones del vector de pesos entonces
tenemos que se realizan N(7P + 8) operaciones. Por último, el conjunto de entrenamiento
completo es presentado en T ocasiones. Entonces el número total de operaciones efectuadas
por el Algoritmo 3.4 será representado por la función SDO(T, N, P) (Steepest Descent
Operations) y la cual está dada por:
SDO(T, N, P) = TN(7P + 8)
(Ecuación 3.3.9)
Ahora bien, tenemos pleno conocimiento de que el problema que estamos tratando
puede ser debidamente resuelto mediante el método de Mínimos Cuadrados. Recordemos
algunos puntos. Sea la matriz R de (P+1) × (P+1) dada por (Ecuación 2.3.11):
ª R0,0
«R
1,0
R=«
« #
«
¬ RP ,0
R0,1 " R0, P º
R1,1 " R1, P »»
# %
# »
»
RP ,1 " RP , P ¼
75
Una Introducción al Cómputo Neuronal Artificial
Donde cada uno de sus elementos está dado por (Ecuación 2.3.10):
Rk , j =
1
N
k = 0,1, 2,..., P
N
¦x
x
j = 0,1, 2,..., P
i , j i ,k
i =1
Tenemos también al vector de P+1 elementos ℘ (Ecuación 2.3.13):
ª℘0 º
«℘ »
℘= « 1 »
« # »
« »
¬℘P ¼
Donde (Ecuación 2.3.12):
℘j =
1
N
N
¦x
i, j
j = 0,1, 2,..., P
di
i =1
Por la Ecuación 2.3.15 tenemos que el método de Mínimos Cuadrados queda expresado
como el producto matricial:
℘ = RW
Donde W es precisamente nuestro vector de pesos. Dada la inversa de R, R-1, entonces la
Ecuación 2.3.16 nos dice que el vector de pesos óptimo esta dado por:
R-1℘ = W
Para abordar la búsqueda de los pesos óptimos mediante Mínimos Cuadrados y
usando el enfoque matricial es claro que tendremos tres fases:
• La fase de inicialización de la matriz R y el vector ℘.
• La fase de obtención de la matriz inversa de R.
• Y finalmente, la fase donde efectuamos el producto matricial R-1℘.
Calcularemos el número de operaciones efectuadas en cada una de estas fases. Cada
1 N
elemento de la matriz R, Rk , j = ¦ xi , j xi ,k , es calculado al ejecutar una multiplicación que
N i =1
involucra dos componentes por cada elemento del conjunto de entrenamiento. Los
resultados de estas multiplicaciones son sumados y la suma total se divide por N. Entonces
tenemos en total N multiplicaciones, N sumas y una división: 2N + 1 operaciones. Dado que
R es de tamaño (P + 1) × (P + 1) entonces en total, para inicializar a R, se efectúan
(P + 1)2(2N + 1) operaciones. Ahora bien, para inicializar al vector ℘, se debe obtener para
76
Capítulo 3. La Neurona Adaline
1 N
¦ xi, j di . Esta suma depende de
N i =1
multiplicar un componente de cada vector de entrada en el conjunto de entrenamiento por
su correspondiente escalar de salida esperada. Los resultados de cada multiplicación son
sumados y la suma total dividida por N. Entonces se efectúan N productos, N sumas y una
división: 2N + 1 operaciones. Este ultimo resultado se multiplica por (P + 1) de manera que
para inicializar al vector ℘ se requieren (P + 1)(2N + 1) operaciones. Por lo tanto, la fase
de inicialización de la matriz R y el vector ℘ requiere en total ejecutar
(P + 1)2(2N + 1) + (P + 1)(2N + 1) operaciones.
cada uno de sus P+1 componentes la suma ℘j =
Ahora bien, la segunda fase requiere encontrar la matriz inversa de R. Supongamos
que se aplica el bien conocido método de Eliminación de Gauss-Jordan. Es bien sabido que
se requieren un número de operaciones de orden cúbico, respecto al número de renglones
de la matriz, para encontrar su inversa. Tomemos tal cota justa. Por lo tanto, dado que R es
de tamaño (P + 1) × (P + 1) entonces el número total de operaciones a ejecutar para
encontrar su inversa es (P + 1)3.
Por último, debemos determinar el número de operaciones requeridas para calcular
los valores óptimos de los pesos. Estos dependen del resultado del producto matriz/vector
R-1℘. Recordando el algoritmo clásico de multiplicación matricial, cada elemento de cada
renglón de R-1 será multiplicado por cada elemento correspondiente en el vector ℘. Ello
implica que se efectuarán (P + 1)2 operaciones para finalmente obtener al vector de pesos
W. Entonces el número total de operaciones efectuadas por el método de Mínimos
Cuadrados, a fin de entrenar a una neurona Adaline, será representado por la función
LSO(N, P) (Least Squares Operations) la cual está dada por:
LSO(N, P) = (P + 1)2(2N + 1) + (P + 1)(2N + 1) + (P + 1)3 + (P + 1)2
(Ecuación 3.3.10)
Ahora efectuaremos una comparación entre el costo del entrenamiento bajo
Descenso Escalonado contra el método de Mínimos Cuadrados. De hecho, partiremos de
suponer que efectivamente el método de Descenso Escalonado es más eficiente, en
términos del número de operaciones efectuadas, que el método de Mínimos Cuadrados.
Para ello, verificaremos para qué valores de T (número de presentaciones), N (tamaño del
conjunto de entrenamiento) y P (dimensionalidad de los vectores de entrada) la siguiente
desigualdad se hace válida:
SDO(T, N, P) < LSO(N, P)
⇔ TN(7P + 8) < (P + 1)2(2N + 1) + (P + 1)(2N + 1) + (P + 1)3 + (P + 1)2
77
Una Introducción al Cómputo Neuronal Artificial
La idea ahora es acotar a T en función de N y P (lo cual en realidad será muy sencillo):
TN (7 P + 8) < ( P + 1) 2 (2 N + 1) + ( P + 1)(2 N + 1) + ( P + 1)3 + ( P + 1) 2
( P + 1) 2 (2 N + 1) + ( P + 1)(2 N + 1) + ( P + 1)3 + ( P + 1) 2
ŸT <
N (7 P + 8)
P 3 + 2 NP 2 + 5 P 2 + 6 NP + 8 P + 4 N + 4
=
7 NP + 8 N
Nótese que el denominador 7 NP + 8 N nunca se hace cero ya que N > 0 y P > 0. De hecho,
el cociente, para cualquier valor de N y P, ambos positivos, proporciona siempre un valor
positivo (todos los términos que lo conforman son positivos). Lo interesante es que
contamos con una formulación tal que dados los valores de N y P determinaremos el
número máximo de presentaciones del conjunto de entrenamiento que se deben efectuar de
manera que el número de operaciones del método de Descenso Escalonado sea
estrictamente menor al número de operaciones requeridas por el método de Mínimos
Cuadrados. Por ejemplo, supongamos que se cuenta con un conjunto de entrenamiento de
tamaño N = 100 y dimensionalidad P = 20. Entonces al sustituir en la cota superior para T
tenemos que:
(20)3 + 2(100)(20) 2 + 5(20) 2 + 6(100)(20) + 8(20) + 4(100) + 4
= 6.93
7(100)(20) + 8(100)
Ello implica que con el método de Descenso Escalonado se deben efectuar a lo más T = 6
presentaciones del conjunto de entrenamiento antes de que sea más conveniente utilizar el
método de Mínimos Cuadrados. Supongamos ahora que N = 1,000 y P continúa con su
valor 20. Nuevamente, al sustituir en la cota superior para T obtenemos:
(20)3 + 2(1, 000)(20) 2 + 5(20) 2 + 6(1, 000)(20) + 8(20) + 4(1, 000) + 4
= 6.3119
7(1, 000)(20) + 8(1, 000)
En esta situación concluimos, de nueva cuenta, que a lo más se deben efectuar T = 6
presentaciones. Ahora si N = 10,000 y P = 20:
(20)3 + 2(10, 000)(20) 2 + 5(20) 2 + 6(10, 000)(20) + 8(20) + 4(10, 000) + 4
= 6.25
7(10, 000)(20) + 8(10, 000)
Nuevamente determinamos que cómo máximo T = 6 presentaciones son las convenientes.
Surge entonces la observación de que quizás quien realmente determina el número máximo
de presentaciones del conjunto de entrenamiento es la dimensionalidad P de los vectores de
entrada. Veamos qué sucede cuando N → ∞ mientras P permanece constante. Para ello
calculamos el siguiente límite asumiendo por el momento a N y P como reales positivos:
78
Capítulo 3. La Neurona Adaline
P 3 + 2 NP 2 + 5P 2 + 6 NP + 8P + 4 N + 4
N →∞
7 NP + 8 N
(2 NP 2 + 6 NP + 4 N ) + ( P 3 + 5 P 2 + 8 P + 4)
= lim
N →∞
7 NP + 8 N
2
(2 NP + 6 NP + 4 N )
P3 + 5P 2 + 8P + 4
= lim
+ lim
N →∞
N →∞
N (7 P + 8)
N (7 P + 8)
lim
=
2P2 + 6P + 4
N P3 + 5P 2 + 8P + 4
1
lim +
lim
N →∞ N
N →∞
7P + 8 7P + 8
N
=
2P + 6P + 4
7P + 8
1
0
2
2P2 + 6P + 4
nos proporciona el número máximo
7P + 8
de veces que el conjunto de entrenamiento puede ser presentado, bajo Descenso
Escalonado, suponiendo que su tamaño N es suficientemente grande. Entonces, sea T(P)
definido como el número máximo de presentaciones de un conjunto de entrenamiento,
de tamaño suficientemente grande, y con vectores de dimensionalidad P, de manera que el
método de Descenso Escalonado requiera efectuar un número de operaciones menor que el
método de Mínimos Cuadrados:
Ello quiere decir que la expresión
« 2P2 + 6P + 4 »
T ( P) = «
»
¬ 7P + 8 ¼
(Ecuación 3.3.11)
Donde ¬«⋅»¼ denota a la Función Piso ( ¬« x ¼» = max{m ∈ ] : m ≤ x} ).
Por lo tanto, retomando nuestro ejemplo con P = 20 y aplicando la Ecuación 3.3.11:
« 2(20) 2 + 6(20) + 4 »
T (20) = «
»=6
7(20) + 8
¬
¼
Tenemos entonces que el número máximo de presentaciones a efectuar, para conjuntos de
entrenamiento de tamaño N suficientemente grande, es 6.
79
Una Introducción al Cómputo Neuronal Artificial
Supongamos, por ejemplo, que se requiere entrenar a una neurona Adaline usando
un conjunto de imágenes con resolución 320 × 240. Supongamos también, y de hecho en
ocasiones así se procede en la práctica, que tales imágenes son representadas como vectores
en \ P +1 de manera que P = 320⋅240 = 76,800. Entonces tenemos que, por la Ecuación
3.3.11, el número máximo de presentaciones a efectuar es:
« 2(76,800) 2 + 6(76,800) + 4 »
T (76,800) = «
» = 21,943
7(76,800) + 8
¬
¼
Tenemos entonces un margen bastante considerable de presentaciones a aplicar de manera
que se satisfaga la eficiencia del método de Descenso Escalonado sobre el método de
Mínimos Cuadrados, siempre y cuando se asuma al conjunto de entrenamiento como de un
tamaño suficientemente grande (N → ∞). En términos más concretos, suponiendo que se
contase con N = 1,000 imágenes y sustituyendo con P = 76,800 y T = 21,943 en las
Ecuaciones 3.3.9 y 3.3.10 tenemos:
• SDO(21943, 1000, 76800) = (21,943)(1, 000)(7(76,800) + 8) = 11,796,732,344,000
ª((76,800 + 1) 2 )(2(1, 000) + 1) + º
«
»
• LSO(1000, 76800) = «(76,800 + 1)(2(1, 000) + 1) + » = 464,811,264,618,404
«(76,800 + 1)3 + (76, 800 + 1) 2 »
¬
¼
LSO(1000, 76800)
464,811,264,618,404
=
= 39.4016
•
SDO(21943, 1000, 76800) 11,796,732,344,000
Es decir, el método de Mínimos Cuadrados, para esta situación, requiere efectuar casi 40
veces más operaciones que el método de Descenso Escalonado. Ahora bien, consideremos
el caso en que P = 1, tal como sucede con el conjunto de entrenamiento presentado en la
Sección anterior (Tabla 3.2). Tenemos entonces, por aplicación de la Ecuación 3.3.11:
« 2(1) 2 + 6(1) + 4 »
T (1) = «
»=0
7(1) + 8
¬
¼
El valor T(1) = 0 es indicativo de que de hecho, para este caso, el método de Descenso
Escalonado no es más eficiente que el método de Mínimos Cuadrados. Es más, este
comentario ya había sido hecho en su momento en la Sección anterior.
Cuando se tienen vectores de entrada de dimensionalidad P ≥ 2 se presentan los
casos en los cuales el método de Descenso Escalonado es más eficiente que el método de
Mínimos Cuadrados:
« 2(2) 2 + 6(2) + 4 »
T (2) = «
» =1
7(2) + 8
¬
¼
80
Capítulo 3. La Neurona Adaline
Recordemos que usando la desigualdad SDO(T, N, P) < LSO(N, P) acotamos el
valor de T en función de N y P. Simplemente debemos hacer la aclaración de que la
desigualdad anterior es válida para todo N y todo P positivos (P ≥ 1) mientras que T(P)
efectivamente acota a T pero bajo la suposición de que el tamaño del conjunto de
entrenamiento es suficientemente grande, o en otras palabras, cuando N → ∞. Es
precisamente por la última hipótesis que T(P) arroja valores positivos a partir de P ≥ 2
aparentemente dejando excluido el caso P = 1. Sin embargo, debe ser claro que para
algunos valores pequeños de N y con P = 1 es posible que el método de Descenso
Escalonado sea más eficiente que el método de Mínimos Cuadrados.
Por último, y para concluir esta sección, debemos hacer notar que mientras que la
Ecuación 3.3.9 nos indica el número de operaciones requeridas por el método de Descenso
Escalonado y la Ecuación 3.3.11 nos proporciona el número máximo de presentaciones del
conjunto de entrenamiento a efectuar, es importante tener en cuenta que la diferencia entre
el vector de pesos final y el vector de pesos óptimo va también en función de μ, de que tan
representativos son los elementos del conjunto de entrenamiento y del vector inicial W1.
Ello quiere decir que el efectuar T(P) presentaciones no garantiza de ninguna manera que el
vector de pesos final sea el vector óptimo o que incluso se encuentre sumamente cerca de
éste. Podemos encontrar situaciones en las cuales se requieren presentaciones adicionales
del conjunto de entrenamiento. Sin embargo, en la práctica se verá que el método de
Descenso Escalonado por nada deja de ser un muy buen mecanismo para una aproximación
rápida del vector de pesos. De hecho, es recurrente contar únicamente con un vector de
pesos lo suficientemente cercano al vector óptimo, pero que de igual manera produce una
solución bastante aceptable al problema que la correspondiente neurona Adaline esté
modelando. Por otro lado, debe ser claro que conforme la dimensionalidad P de los
vectores de entrada aumenta, la Ecuación 3.3.11 nos indica que el número de
presentaciones del conjunto de entrenamiento crece de manera significativa y satisfaciendo
el hecho de que se requieren menos operaciones que el método de Mínimos Cuadrados. En
conclusión, la eficiencia del método de Descenso Escalonado mejora conforme P → ∞.
81
Una Introducción al Cómputo Neuronal Artificial
82
Una Introducción al Cómputo Neuronal Artificial
4. El Perceptrón
Una Introducción al Cómputo Neuronal Artificial
84
Capítulo 4. El Perceptrón
4.1. Estructura Básica y Funciones de Activación
La estructura del Perceptrón se basa en la estructura fundamental de una célula
nerviosa, es decir, se cuenta con varias entradas cada una asociada a un peso y se tiene una
única salida la cual puede ser direccionada a otras neuronas (véase la Figura 4.1). Es claro
también que otras neuronas pueden conectarse a las entradas del Perceptrón.
W1
W2
n
X2
z = ¦ wi xi
i =1
z
y = f N ( z)
y
Salidas
Entradas
X1
Wn
Xn
Figura 4.1. Representación esquemática de un Perceptrón.
Considérese el Perceptrón de la Figura 4.1. Éste cuenta con n entradas cada una
asociada con su correspondiente peso wi, i = 1, 2, …, n. De acuerdo a la Figura, el escalar z
es claramente producido por la Sumatoria de Salida del Perceptrón:
n
z = ¦ wi xi
(Ecuación 4.1.1)
i =1
La Ecuación anterior puede ser escrita en forma vectorial como:
z =W ⋅ X
(Ecuación 4.1.2)
Donde:
ª w1 º
W = «« # »»
«¬ wn »¼
ª x1 º
X = «« # »»
«¬ xn »¼
Hasta este punto nótese la similitud de la estructura del Perceptrón con la de la
neurona Adaline (descrita en el Capítulo 3). La primera diferencia surge en el sentido de
que el Perceptrón no cuenta con un término de sesgo o predisposición tal como sucede en el
Adaline. La segunda diferencia es el uso, en el Perceptrón, de una Función de Activación.
85
Una Introducción al Cómputo Neuronal Artificial
Como se aprecia en la Figura 4.1 la salida final de un Perceptrón no está dada por la
ecuación z = W ⋅ X . El escalar z es sometido a la acción de una función fN cuyo resultado es
efectivamente la salida final de la neurona:
y = fN(z)
(Ecuación 4.1.3)
El objetivo de la Función de Activación es el de mantener la salida dentro de ciertos
límites: una situación, tal como se describió en el Capítulo 1, que se da, desde un principio,
en las neuronas biológicas. Es decir, la Función de Activación hará el papel de un
neurotransmisor.
Si bien mencionamos a la presencia de la Función de Activación como una
diferencia entre el Perceptrón y la neurona Adaline, es claro que ésta última cuenta de
hecho con una función que podría considerarse como de activación. En este caso, y tal
como se comentó en el Capítulo 3, se trata de la función sign. Sin embargo, veremos que
para efectos del proceso de entrenamiento del Perceptrón no se puede hacer fN(z) = sign(z)
debido a que ésta no es diferenciable de -∞ a ∞. En Secciones posteriores justificaremos el
porqué de la necesidad de que fN(z) sea diferenciable en el intervalo (-∞, ∞). De hecho,
cualquier función diferenciable en el intervalo (-∞, ∞) puede ser utilizada como Función de
Activación para el Perceptrón. Sin embargo, en la literatura son comúnmente mencionadas
cuatro funciones. En primer lugar tenemos a la Función Sigmoide la cual está dada por:
fN ( z ) =
1
=y
1 + e− z
(Ecuación 4.1.4)
Véase la Figura 4.2.a. Algunas de sus propiedades son:
• fN: \ → (0, 1)
y→0
• z → -∞ ⇔
⇔
y = 0.5
• z=0
⇔
y→1
• z→∞
• Dado que para todo z ∈ \ se tiene que e − z ≠ -1 entonces la función no se indefine en
ningún punto.
Determinemos la derivada de la Función Sigmoide:
d
d
1
fN =
dz
dz 1 + e − z
d
= (1 + e − z ) −1
dz
d
= − (1 + e − z ) −2 (1 + e − z )
dz
86
Capítulo 4. El Perceptrón
d −z
e
dz
d
= − (1 + e− z ) −2 e− z (− z )
dz
−z
e
=
(1 + e− z )2
= − (1 + e− z ) −2
Concretizando:
fN ' =
e− z
(1 + e − z ) 2
(Ecuación 4.1.5)
Nótese que e− z ≠ -1 para todo valor de z. Por lo tanto es posible calcular la derivada de fN
en cualquier punto z, con lo cual concluimos que efectivamente es diferenciable en el
intervalo (-∞, ∞).
1.0
1.0
0.8
0.5
0.6
5
5
0.4
0.5
0.2
5
1.0
5
a)
b)
1.0
1.0
0.8
0.5
0.6
10
5
5
10
0.4
0.5
0.2
1.0
10
5
5
10
c)
d)
Figura 4.2. Algunas Funciones de Activación para el Perceptrón: a) Función Sigmoide;
b) Tangente Hiperbólica con argumento z ; c) Tangente Hiperbólica; d) La función 1 + Tanh( z ) .
2
2
87
Una Introducción al Cómputo Neuronal Artificial
Otra función a considerar es la Tangente Hiperbólica con Argumento z
2
(Véase
la Figura 4.2.b):
§z·
f N ( z ) = Tanh ¨ ¸ = y
©2¹
(Ecuación 4.1.6)
La correspondiente expresión algebraica para la Ecuación 4.1.6 está dada por:
2
§z·
−1
f N ( z ) = Tanh ¨ ¸ =
−z
© 2 ¹ 1+ e
(Ecuación 4.1.7)
Al dar un vistazo a la gráfica de la Tangente Hiperbólica con argumento z
2
serán
evidentes las siguientes propiedades:
• fN: \ → (-1, 1)
• z → -∞ ⇔
y → -1
• z=0
⇔
y=0
• z→∞
⇔
y→1
−z
• e ≠ -1, ∀z ∈ \ : por lo tanto no se indefine en ningún punto.
§z·
Determinemos la derivada de la función Tanh ¨ ¸ usando su correspondiente
©2¹
expresión algebraica:
d
§z· d § 2
·
Tanh ¨ ¸ = ¨
− 1¸
−z
dz
© 2 ¹ dz © 1 + e
¹
−1
d
= 2 1 + e− z
dz
(
)
(
= 2(−1) 1 + e− z
(
=
88
−2
(1 + e )
−z
2
2e − z
(1 + e )
−z
2
−2
(
d
1 + e− z
dz
d −z
e
dz
d
e− z (− z )
dz
= − 2 1 + e− z
=
)
)
−2
)
Capítulo 4. El Perceptrón
Es decir:
fN ' =
2e− z
(1 + e )
−z
2
(Ecuación 4.1.8)
Dado que para todo valor de z se tiene que e− z ≠ -1 entonces concluimos que la función es
también diferenciable en el intervalo (-∞, ∞).
Consideremos también a la Tangente Hiperbólica junto con su correspondiente
expresión algebraica (Véase la Figura 4.2.c):
f N ( z ) = Tanh ( z ) =
1 − e −2 z
=y
1 + e−2 z
(Ecuación 4.1.9)
Algunas de sus propiedades están dadas por:
• fN: \ → (-1, 1)
• z → -∞ ⇔
y → -1
• z=0
⇔
y=0
• z→∞
⇔
y→1
−2 z
• e ≠ -1, ∀z ∈ \ .
La derivada de la Tangente Hiperbólica está dada por:
fN ' =
4e2 z
(1 + e2 z )
2
(Ecuación 4.1.10)
Tenemos que su denominador no se indefine, por lo tanto la función Tangente Hiperbólica
es diferenciable en (-∞,∞).
La Tangente Hiperbólica se puede utilizar para construir otras funciones. Tal es el
caso de la siguiente Función de Activación (Figura 4.2.d):
fN ( z ) =
1 + Tanh( z )
e2 z
=
=y
2
1 + e2 z
Haciendo referencia a su gráfica, la cual se presenta en la Figura 4.2.d, se visualizan
claramente las siguientes propiedades:
• fN: \ → (0, 1)
• z → -∞ ⇔
y→0
• z=0
⇔
y = 0.5
• z→∞
⇔
y→1
2z
• e ≠ -1, ∀z ∈ \ .
89
Una Introducción al Cómputo Neuronal Artificial
Su derivada está dada por:
fN ' =
2e2 z
(1 + e )
2z
2
(Ecuación 4.1.11)
Analizando su denominador se concluye que es ésta diferenciable en el intervalo (-∞,∞).
1 + Tanh( z )
acotan la salida del Perceptrón a
2
valores únicamente dentro del intervalo (0, 1). Por otro lado las funciones Tangente
z
Hiperbólica y Tangente Hiperbólica con argumento
restringen las salidas a valores en
2
(-1, 1). La Función de Activación a utilizar, tal como veremos en secciones posteriores,
depende del problema a modelar. De hecho, mencionamos previamente, que cualquier
función puede ser utilizada. El único requerimiento es que ésta sea diferenciable de -∞ a ∞.
Por ejemplo, es válido considerar a la Función Identidad fN(z) = z. Ésta es diferenciable en
el intervalo (-∞, ∞) y además hace que las salidas del Perceptrón se distribuyan sobre todo
el conjunto de los números reales. De alguna manera ya habíamos considerado previamente
a la Función Identidad cuando efectuamos el análisis del entrenamiento de la neurona
Adaline mediante Mínimos Cuadrados (Sección 3.2) y Descenso Escalonado (Secciones
3.3.1 y 3.3.2). De allí identificamos otro punto de similitud entre ambos tipos de neuronas.
Sin embargo, una desventaja que puede presentar la Función Identidad es que en un
momento dado, y dependiendo del problema que se trate, se pueden generan valores cuyos
valores absolutos son de gran magnitud, lo cual puede dificultar los cálculos.
Nótese que las funciones Sigmoide y
4.2 El Problema de Representación
Hicimos mención en el Capítulo 1 (Sección 1.4) que el Perceptrón fue presentado
originalmente en 1958 por el psicólogo Frank Rosenblatt. Antes de proseguir debemos
aclarar que el término Perceptrón, para Rosenblatt y algunos otros autores, puede hacer
referencia a una única neurona o bien a una Red Neuronal formada por varios Perceptrones
agrupados en capas. En nuestro caso, sólo basta aclarar que cuando hacemos referencia a un
Perceptrón nos referimos a una única neurona de ese tipo. En los siguientes Capítulos,
cuando hagamos referencia a una red formada por más de una neurona entonces haremos
mención explícita del término Red de Perceptrones.
90
Capítulo 4. El Perceptrón
En 1961, Rosenblatt publicó un texto titulado Principles of Neurodynamics en el
cual, en referencia al Perceptrón, se establece:
Un Perceptrón puede aprender (resolver) cualquier cosa que éste pueda
representar (simular).
Esta proposición de inmediato conduce a preguntarse: ¿Qué cosas puede representar, y por
tanto, aprender un Perceptrón? La respuesta a esta pregunta está bien delimitada e
identificada. De hecho el mismo Rosenblatt la abordó. En esta Sección discutiremos
precisamente qué puede ser representado o simulado en un Perceptrón.
W1
2
z = ¦ wi xi
z
i =1
= w1 x1 + w2 x2
y = f N ( z)
Salidas
Entradas
X1
y
W2
X2
Figura 4.3. Una neurona de tipo Perceptrón con dos entradas.
X2
z(x1, x2) = w1x1 + w2x2 = 0
X
1
Figura 4.4. El umbral z(x1, x2) = w1 x1 + w2 x2 = 0
asociado a un Perceptrón de 2 entradas.
Considérese el Perceptrón de la Figura 4.3. Supongamos que ya se tienen
identificados los pesos w1 y w2 para tal neurona. La Sumatoria de Salida puede ser
91
Una Introducción al Cómputo Neuronal Artificial
considerada de hecho como una función de los componentes x1 y x2 de los vectores de
entrada. Entonces tenemos que:
z(x1, x2) = w1 x1 + w2 x2
(Ecuación 4.2.1)
Desde un punto de vista geométrico, cuando z(x1, x2) = 0 se tiene una recta que pasa por el
origen del espacio Euclidiano Bidimensional. A la recta z(x1, x2) = w1x1 + w2x2 = 0 se le
llamará Umbral. Véase la Figura 4.4.
X2
ªw º
v = « 1»
¬ w2 ¼
z(x1, x2) = w1x1 + w2x2 = 0
X
1
Figura 4.5. El vector normal v del umbral z(x1, x2) = w1 x1 + w2 x2 = 0
asociado a un Perceptrón de 2 entradas. Los componentes de v son precisamente
los valores de los pesos w1 y w2.
Ahora considérese cualquier punto (x1, x2) en \ 2 . Es claro que este punto puede ser
evaluado en la función z(x1, x2). Dependiendo del signo del valor arrojado por la evaluación
es posible ubicar al punto sobre la recta o bien por “encima” o por “debajo” de ésta.
Claramente si z(x1, x2) = 0 entonces el punto forma parte de la recta. Ahora bien, sólo
tenemos que precisar la noción de “encima” o “debajo” de la recta. De la Ecuación 4.2.1
tomaremos los coeficientes de x1 y x2, es decir, los valores de los pesos w1 y w2. Usando
estos valores formaremos un vector v = [w1 w2]T, también en \ 2 , el cuál tendrá la
propiedad de ser perpendicular a la recta y de hecho es llamado su Vector Normal. La
dirección del vector normal de la recta z(x1, x2) = 0 es precisamente la referencia que
usaremos para determinar cuando un punto está por “encima” o por “debajo” de ésta. Véase
la Figura 4.5. Nótese que la evaluación w1x1 + w2x2 puede ser vista como un producto
punto entre el vector v y el punto a evaluar x = [x1 x2]T. Por lo tanto w1x1 + w2x2 = v⋅x. A su
vez, el producto punto nos permite inferir el ángulo θ que forman los vectores v y x:
w1x1 + w2x2 = v⋅x = ||v||⋅||x|| cos θ
92
(Ecuación 4.2.2)
Capítulo 4. El Perceptrón
Dado que las magnitudes de los vectores son siempre no negativas entonces únicamente
ª π·
nos concentramos en el signo de cos θ. Es claro que si cos θ > 0 entonces θ ∈ «0, ¸ y por
¬ 2¹
§ π 3π ·
otro lado, si cos θ < 0 entonces θ ∈ ¨ , ¸ . Por lo tanto diremos que si w1x1 + w2x2 > 0
©2 2 ¹
entonces el punto (x1, x2) está por encima de la recta z(x1, x2) = 0 y por otro lado si
w1x1 + w2x2 < 0 entonces el punto está por debajo de la recta. Véase la Figura 4.6.
X2
w1x1 + w2x2 > 0
ªw º
v = « 1»
¬ w2 ¼
z(x1, x2) = w1x1 + w2x2 = 0
X
w1x1 + w2x2 < 0
1
w1x1 +
w2x2 = 0
Figura 4.6. Caracterización de los puntos en el Espacio Euclidiano Bidimensional en función del signo de su
evaluación con la función z(x1, x2) = w1 x1 + w2 x2. Si w1 x1 + w2 x2 > 0 entonces el punto está en la misma
región hacia la que apunta el vector normal v. Si w1 x1 + w2 x2 < 0 entonces el punto está en la región hacia la
que apunta –v. Si w1 x1 + w2 x2 = 0 entonces el punto está sobre la recta z(x1, x2) = 0.
Los razonamientos anteriores nos permiten establecer ahora que el umbral
z(x1, x2) = 0 divide al plano en tres regiones:
• Región 1: El conjunto de puntos por encima del umbral.
o R12 = {(x1, x2): w1 x1 + w2 x2 > 0}
• Región 2: El conjunto de puntos por debajo del umbral.
o R22 = {(x1, x2): w1 x1 + w2 x2 < 0}
• Región 3: El conjunto de puntos inmersos en el umbral.
o R32 = {(x1, x2): w1 x1 + w2 x2 = 0}
Evidentemente \ 2 = R12 ∪ R22 ∪ R32 . Véase la Figura 4.7.
93
Una Introducción al Cómputo Neuronal Artificial
X2
R12
ªw º
v = « 1»
¬ w2 ¼
z(x1, x2) = w1x1 + w2x2 = 0
X
2
3
1
R
R22
Figura 4.7. Partición de \ 2 mediante el umbral z(x1, x2) = w1 x1 + w2 x2 = 0 y su vector normal v.
R12 se forma por los puntos por encima de la recta z(x1, x2) = 0. R22 se forma por los puntos debajo
de la recta z(x1, x2) = 0. R32 es el conjunto de puntos sobre la recta z(x1, x2) = 0.
W1
W2
X2
3
z = ¦ wi xi
z
i =1
= w1 x1 + w2 x2 + w3 x3
y = f N ( z)
y
Salidas
Entradas
X1
W3
X3
Figura 4.8. Una neurona de tipo Perceptrón con tres entradas.
Ahora considérese el Perceptrón de la Figura 4.8. Su Sumatoria de Salida z puede
ser considerada como una función de las variables x1, x2 y x3:
z(x1, x2, x3) = w1x1 + w2x2 + w3x3
(Ecuación 4.2.3)
Cuando se tiene z(x1, x2, x3) = 0 entonces se describe a un plano que pasa por el origen del
Espacio Euclidiano Tridimensional (Figura 4.9). A este plano también se le denomina
umbral.
94
Capítulo 4. El Perceptrón
X3
X2
z(x1,x2,x3) = w1x1 + w2x2 + w3x3 = 0
X1
Figura 4.9. El lugar geométrico asociado a z(x1, x2, x3) = 0.
Siguiendo una serie de razonamientos similares a aquellos referentes al Perceptrón
de dos entradas, tenemos que para cualquier punto (x1, x2, x3) el signo de la evaluación
w1x1 + w2x2 + w3x3 nos indica si éste está encima, debajo o inmerso en el plano
z(x1, x2, x3) = 0. Se tiene entonces que el umbral z(x1, x2, x3) = 0 divide a \ 3 en tres
regiones:
• Región 1: El conjunto de puntos por encima del umbral.
o R13 = {(x1, x2, x3): w1x1 + w2x2 + w3x3 > 0}
• Región 2: El conjunto de puntos por debajo del umbral.
o R23 = {(x1, x2, x3): w1x1 + w2x2 + w3x3 < 0}
• Región 3: El conjunto de puntos inmersos en el umbral.
o R33 = {(x1, x2, x3): w1x1 + w2x2 + w3x3 = 0}
Debe ser claro que \ 3 = R13 ∪ R23 ∪ R33 .
En general tenemos que para un Perceptrón con n entradas, el umbral
z(x1, x2,…, xn) = w1x1 + w2x2 + … + wnxn = 0
(Ecuación 4.2.4)
describirá a un hiperplano que divide al Espacio Euclidiano n-Dimensional, \ n , en tres
regiones:
• La Región 1 contendrá a todos los puntos (x1, …, xn) que están ubicados por encima del
hiperplano z(x1, …, xn) = 0:
o R1n = {(x1, …, xn): w1x1 + … + wnxn > 0}
• La Región 2 contendrá a todos los puntos (x1, …, xn) que están ubicados por debajo del
hiperplano z(x1, …, xn) = 0:
o R2n = {(x1, …, xn): w1x1 + … + wnxn < 0}
• La Región 3 contendrá a todos los puntos (x1, …, xn) inmersos en el hiperplano
z(x1, …, xn) = 0:
o R3n = {(x1, …, xn): w1x1 + … + wnxn = 0}
95
Una Introducción al Cómputo Neuronal Artificial
Ahora analizaremos la relación que existe entre las particiones del espacio \ n
inducidas por el umbral z(x1, …, xn) = 0 (Ecuación 4.2.4) y el conjunto de problemas que
pueden ser representados por el Perceptrón. Precisamente la relación se establece de
manera textual mediante el planteamiento del Problema de Representación:
El Perceptrón únicamente puede resolver aquellos problemas que pueden ser
reducidos a un Problema de Separación (Clasificación) Lineal.
Por ejemplo, considérese la tabla de verdad de la compuerta lógica AND. Véase la
Tabla 4.1.
Tabla 4.1. Tabla de verdad
de la compuerta lógica AND.
Estado x1 x2 Z
A
0 0 0
B
1 0 0
C
0 1 0
D
1 1 1
El operador AND es una función Booleana de dos variables. Ello claramente
implica que contamos con 4 posibles estados o vectores de entrada. El objetivo es
determinar si existe un umbral z(x1, x2) = 0 tal que un Perceptrón proporcione siempre la
salida correcta z. Supongamos que la Función de Activación utilizada es la función
identidad. Grafiquemos en el plano a cada una de las 4 posibles entradas (x1, x2). Nótese
que para la entrada (1, 1) esperamos la salida z(1, 1) = 1. Para el resto de las entradas se
espera la salida 0. Entonces los puntos con salida 0 serán puntos negros mientras que el
punto (1, 1) será blanco. Véase la Figura 4.10.
x2
(0,1)
(0,0)
(1,1)
x1
(1,0)
Figura 4.10. Visualización en el plano de los cuatro posibles estados
de la compuerta lógica AND (Véase el texto para detalles).
96
Capítulo 4. El Perceptrón
Si la compuerta AND ha de ser modelada mediante un Perceptrón entonces se
deberán determinar los valores de los pesos w1 y w2 de manera que se verifique la
existencia de una recta z(x1, x2) = w1x1 + w2x2 = 0 tal que ésta separe a los estados con salida
0 (A, B y C) de los estados con salida 1 (D) (véase la Tabla 4.1). Es precisamente este
punto el que caracteriza a un problema como Linealmente Separable: se tiene un problema
en el cual para una entrada formada por n escalares (x1, …, xn) se espera una salida que
únicamente puede tomar uno de dos posibles valores, digamos, α1 y α2. Entonces, para
aquellas entradas con salida α1 se espera que éstas estén inmersas en el hiperplano
z(x1, …, xn) = 0 o bien por encima de éste. Las entradas con salida esperada α2 se ubicarán
estrictamente por debajo del hiperplano z(x1, …, xn) = 0.
Es claro que el modelado de la compuerta AND es un problema Linealmente
Separable ya que efectivamente existe una recta que separa a los estados con salida
esperada 0 del estado con salida esperada 1. Véase una posible recta en la Figura 4.11. Un
comentario a hacer respecto a la recta presentada en la figura es que ésta evidentemente no
pasa por el origen y por lo tanto no se ajusta a la Sumatoria de Salida del Perceptrón
(Ecuación 4.2.1). Sin embargo, es posible considerar este tipo de rectas al agregar un
término de sesgo o predisposición, tal como sucede en la neurona Adaline. Otra opción es
simplemente trasladar a los 4 estados de manera que su centroide se ubique en el origen. El
punto importante es que hemos verificado la existencia de una recta que permite
caracterizar a nuestro problema en cuestión como linealmente separable.
x2
(0,1)
(0,0)
(1,1)
x1
(1,0)
Figura 4.11. Una recta que separa los estados con salida 0
del estado con salida 1 en la compuerta lógica AND.
Ahora considérese la tabla de verdad de la compuerta lógica XOR (OR Exclusivo).
Véase la Tabla 4.2. Se tienen nuevamente dos variables y por tanto 4 estados. Ahora véase
la Figura 4.12. Para dos de los estados se espera una salida 0 (puntos negros) mientras que
para los dos restantes una salida 1 (puntos blancos).
97
Una Introducción al Cómputo Neuronal Artificial
Tabla 4.2. Tabla de verdad
de la compuerta lógica XOR.
Estado x1 x2 Z
A
0 0 0
B
1 0 1
C
0 1 1
D
1 1 0
x2
(0,1)
(0,0)
(1,1)
x1
(1,0)
Figura 4.12. Visualización en el plano de los cuatro posibles estados
de la compuerta lógica XOR (Véase el texto para detalles).
Es claro, en términos visuales, que cualquier recta en el plano no podrá separar a los
puntos blancos de los puntos negros en la Figura 4.12. Si bien es posible hacer que los
puntos blancos (negros) queden por encima o inmersos en la recta, siempre estará un punto
negro (blanco) en esa misma región (véase la Figura 4.13). Por lo tanto, concluimos que no
existe una recta o umbral z(x1, x2) = 0 tal que los estados A y D queden separados de los
estados C y B. En consecuencia se tiene que el problema del modelado, mediante un
Perceptrón, de la función XOR no es linealmente separable.
La situación con el XOR nos conduce entonces a aceptar que existirán problemas
para los cuales el Perceptrón no proporciona una solución o modelo. El siguiente
cuestionamiento que surge es entonces aquel relacionado a determinar cuantos problemas
linealmente separables existen, o bien, de manera complementaria, determinar la cantidad
de problemas no linealmente separables. Para ello, nos concentraremos en un particular tipo
de problemas: el Modelado de Funciones Booleanas. Sabemos que una función Booleana f
es aquella para la que formalmente se tiene:
f :{0,1}n = {0,1} × {0,1} × ... × {0,1} → {0,1}
n
98
Capítulo 4. El Perceptrón
x2
x2
(0,1)
(0,0)
(1,1)
(0,1)
x1
(1,0)
(0,0)
(1,1)
x1
(1,0)
a)
b)
Figura 4.13. a) Una recta que agrupa, para la compuerta lógica XOR, a los estados con salida 0 pero que
también incluye a un estado con salida 1. b) Una recta que agrupa a los estados con salida 1 pero que también
incluye a un estado con salida 0.
Donde ⋅×⋅ denota al Producto Cartesiano de conjuntos. Es claro que las funciones AND y
XOR (Tablas 4.1 y 4.2, respectivamente) son funciones Booleanas. Es más, la cardinalidad
del dominio de una función Booleana es 2n. Ello se debe a que cada estado se forma por n
componentes y a su vez cada componente puede tomar uno de 2 posibles valores: o el valor
0 o el valor 1. Por lo tanto se tienen en total
2⋅ 2 ⋅ ... ⋅ 2 = 2n
(Ecuación 4.2.5)
n
posibles estados. Para las compuertas AND y XOR se tiene que n = 2 lo que en
consecuencia nos indica que cuentan con 22 = 4 estados. Ahora bien, cada uno de los 2n
estados de una función Booleana está asociado a una salida que la función debe
proporcionar. Esta salida puede ser 0 o 1. Ello implica que se tienen en total
2⋅ 2 ⋅ ... ⋅ 2 = 2(2
n
)
(Ecuación 4.2.6)
2n
posibles funciones Booleanas con estados formados por n componentes. Retomando el caso
n = 2, tenemos entonces que el número total de compuertas lógicas con 2 entradas es
2
2(2 ) = 24 = 16 . Entre esas 16 compuertas encontramos, como ya sabemos, a las funciones
AND y XOR, pero también a otras bien conocidas como OR, NOR, NAND, NXOR, etc.
En la década de los 60s, investigadores como R. O. Winder y Michael A. Harrison,
el primero con su Tesis Doctoral Threshold Logic (1962) y el segundo con su artículo On
the Classification of Boolean Functions by the General Linear and Affine Groups (1964),
abordan estudios relacionados con la clasificación de funciones Booleanas. Entre sus
99
Una Introducción al Cómputo Neuronal Artificial
resultados resaltan los conteos correspondientes al número de funciones Booleanas que
efectivamente son linealmente separables. En la Tabla 4.3 se presentan los conteos para las
funciones de 1 a 6 entradas. Todas las funciones de una única entrada son linealmente
separables, mientras que de aquellas con dos entradas solo 14 son linealmente separables.
Precisamente las compuertas XOR y NXOR son las no linealmente separables. Ello implica
que para n = 2 el 87.5% de las funciones son linealmente separables lo cual puede
considerarse como un número bastante aceptable de problemas factibles de ser resueltos por
el Perceptrón. Sin embargo, nótese que para n = 3 únicamente el 40.62% de las funciones
pueden ser modeladas por el Perceptrón. La situación se torna más dramática conforme el
número de entradas aumenta. Cuando n = 5 tenemos que sólo 0.0022% de las funciones son
linealmente separables y por tanto modelables por un Perceptrón. Ello nos lleva a concluir,
de manera clara y evidente, que un número sumamente limitado de las posibles
n
2(2 ) funciones Booleanas de n entradas son funciones linealmente separables. En la
práctica se puede requerir el modelado de funciones con número de entradas realmente
grande. Por tanto, el Perceptrón cuenta con una capacidad limitada para la solución de este
tipo de problemas.
Número de
entradas n
1
2
3
4
5
6
Tabla 4.3. Conteo de funciones Booleanas
de 1 a 6 entradas linealmente separables.
Funciones con Estados
Número de posibles
n
Funciones Booleanas: 2(2 ) Linealmente Separables
4
4
16
14
256
104
65,536
1,882
4,294,967,296
94,572
18,446,744,073,709,551,616
15,028,134
b)
a)
Figura 4.14. Ejemplos de regiones convexas: a) Región Convexa Cerrada;
b) Región Convexa Abierta.
Desde otro punto de vista, el Problema de Representación puede ser replanteado
como el hecho de que un único Perceptrón sólo puede resolver problemas de clasificación
de puntos que yacen en dos regiones convexas disjuntas. Recuérdese que una región es
convexa si para cualesquiera dos puntos en ésta, el segmento de recta que los une está por
completo dentro de la región (véase la Figura 4.14). Estas regiones pueden ser abiertas o
cerradas. De manera más precisa, recordemos que tenemos problemas en los cuales para
100
Capítulo 4. El Perceptrón
una entrada formada por n escalares (x1, …, xn) se espera una salida que únicamente puede
tomar uno de dos posibles valores: α1 o α2. Cuando decimos que los puntos deben yacer en
regiones convexas hacemos referencia a que los puntos con salida α1 deben formar parte de
una región y los puntos con salida α2 deben estar en la otra región. Además, el que las dos
regiones sean disjuntas implica que su intersección es vacía.
Recordemos que la compuerta lógica AND es un problema linealmente separable ya
que existe un umbral o recta z(x1, x2) = 0 tal que el conjunto de puntos negros queda
separado del conjunto de puntos blancos (véase la Figura 4.11). Ahora bien, desde el
nuevo punto de vista el problema se soluciona por un Perceptrón ya que al considerar a los
puntos negros como los vértices de un polígono, en este caso un triángulo, se tiene que éste
evidentemente describe a una región convexa cerrada (véase la Figura 4.15). El punto
blanco por si mismo es un conjunto convexo cerrado. Nótese que no hay puntos comunes
entre las dos regiones lo que las hace disjuntas.
x2
(0,1)
(0,0)
(1,1)
x1
(1,0)
Figura 4.15. Separación de los estados de la compuerta lógica AND
mediante dos regiones cerradas convexas disjuntas (véase el texto para detalles).
Ahora bien, el mismo procedimiento aplicado sobre los estados de la compuerta
XOR claramente nos permite agrupar a los puntos blancos en una región convexa y a los
puntos negros en su correspondiente región convexa, ambas cerradas. Véase la Figura
4.16. El problema que surge es que tales regiones se intersectan. Si se busca que las
regiones cuenten con intersección vacía entonces claramente habrá que definir a una de
ellas como no convexa, tal como su sucede en el ejemplo presentado en la Figura 4.17.
Esta situación hace que el XOR sea caracterizado, desde el punto de vista del uso de
regiones convexas disjuntas como un problema no modelable mediante un Perceptrón. Si se
espera que una neurona modele al XOR es entonces que habrá que considerar, por
consecuencia, la formación de umbrales no lineales o bien regiones no convexas que
agrupen adecuadamente a los estados de la función. Ambas posibilidades quedan fuera del
alcance del Perceptrón debido a que precisamente su estructura interna, y en particular su
sumatoria de salida, únicamente modelan umbrales lineales (Ecuación 4.1.1).
101
Una Introducción al Cómputo Neuronal Artificial
x2
(0,1)
(1,1)
x1
(0,0)
(1,0)
Figura 4.16. Dos regiones convexas no disjuntas que agrupan, cada una,
a los estados negros y a los estados blancos de la función XOR.
x2
(0,1)
(0,0)
(1,1)
x1
(1,0)
Figura 4.17. Separación de los estados negros y los estados blancos
de la función XOR. Se tienen dos regiones disjuntas, pero una de ellas
es no convexa.
La discusión que hemos efectuado en esta Sección puede conducir a perspectivas
pesimistas para el área de Redes Neuronales Artificiales. Sin embargo, el mismo Rosenblatt
y otros investigadores como Warren McCulloch y Walter Pitts (véase la Sección 1.2), ya
tenían conocimiento de que redes formadas por más de un Perceptrón si eran capaces de
modelar exitosamente compuertas lógicas como el XOR y de hecho otras funciones
Booleanas no linealmente separables. Sin embargo, lo que no se tenía era un mecanismo
eficiente para el ajuste de sus pesos. No fue sino hasta 1986 que David Rumelhart,
Geoffrey Hinton y Ronald Williams presentan el Algoritmo de Retropropagación, lo cual
significó un reimpulso importante para el área. En los Capítulos 5 y 6 nos concentraremos
en estudiar a las redes formadas por más de una neurona artificial, y de manera particular,
en el Capítulo 6 es donde abordaremos al Algoritmo de Retropropagación.
102
Capítulo 4. El Perceptrón
4.3 Aplicación: Identificación de Parámetros Autorregresivos
en una Señal
En las dos Subsecciones anteriores hemos discutido ya varios aspectos detrás del
Perceptrón, sin embargo, no hemos planteado una metodología para el ajuste de sus pesos.
Precisamente ese será el objetivo de esta Sección. Pero además, aplicaremos tal mecanismo
de entrenamiento en el contexto del problema de Predicción de una Señal. Mencionábamos
en el Capítulo 1 que el objetivo es modelar una serie de tiempo de manera que sea posible
determinar como se comportará en el futuro. A continuación plantearemos algunas
nociones necesarias respecto al problema en particular y posteriormente veremos como
abordarlo a fin de que un Perceptrón nos proporcione una solución.
Existen una gran cantidad de modelos matemáticos para generar series de tiempo.
En particular nosotros trabajaremos con una Serie de Tiempo de M-ésimo Orden de
Parámetros Autorregresivos. Ésta se define como:
­
ck
si n = k , k ∈ {1, 2,..., M }
°M
xn = ®
n>M
°¦ ak xn − k + noise(n) si
¯ k =1
(Ecuación 4.3.1)
Donde:
• M: Orden del modelo.
• ak: k-ésimo parámetro autorregresivo, una constante, k = 1, 2, …, M.
• ck: k-ésima muestra, una constante, de la serie de tiempo para t = k, k ∈ {1, 2, …, M}.
• xn: muestra de la serie de tiempo en t = n.
• noise(n): ruido o perturbación a aplicar a la muestra de la serie de tiempo en t = n. Se
utiliza para simular el hecho de que las muestras fueron obtenidas experimentalmente,
sin embargo, por ello mismo, las mediciones efectuadas no pueden ser libres de errores.
De acuerdo a la Ecuación 4.3.1, el valor de xn, cuando n > M, es una combinación
lineal de los M valores previos, xn-1, xn-2, …, xn-M, y los parámetros autorregresivos
a1, a2, …, aM. Cuando 1 ≤ n ≤ M entonces el valor de xn es uno de los M valores iniciales
c1, c2, …, cM (o casos base) para la serie de tiempo. Es claro que el valor de cualquier
muestra xn, n > M, tiene influencia de los valores de las muestras que le preceden y tendrá
influencia sobre los valores que le prosiguen.
103
Una Introducción al Cómputo Neuronal Artificial
Consideremos un ejemplo. Sea la serie de tiempo generada al usar los siguientes
valores:
• M=7
• a1 = -0.15
• a2 = 0.1
• a3 = -0.3
• a4 = -0.2
• a5 = -0.1
• a6 = -0.5
• a7 = 0.3
• c1 = -3
• c2 = 1
• c3 = 6
• c4 = -8
• c5 = -1
• c6 = -4
• c7 = 2
• noise(n): una función de ruido que retornará aleatoriamente números enteros en el
conjunto {-7, -6, -5, …, 5, 6, 7}.
• N = 2,000 muestras.
La Tabla 4.4 muestra la aplicación de la Ecuación 4.3.1 utilizando la configuración dada
para obtener las primeras 15 muestras de la serie de tiempo. Nótese que las primeras 7
muestras corresponden con los valores c1 a c7. A partir de la octava muestra se aplica la
función de ruido. En la Figura 4.18 se muestra la gráfica de la serie de tiempo
considerando las N = 2,000 muestras.
El problema a tratar parte de que únicamente contamos con N muestras asociadas a
una serie de tiempo. Supondremos que tal serie puede ser modelada como una serie de
tiempo de M-ésimo orden de parámetros autorregresivos, N > M, es decir, que se ajusta la
Ecuación 4.3.1. El objetivo es determinar sus correspondientes M parámetros
autorregresivos a1, a2, …, aM. A fin de buscar una solución utilizaremos un Perceptrón que
recibirá un vector en \ M . Los componentes de un vector de entrada estarán dados por:
ª xn −1 º
«x »
« n−2 »
« xn −3 »
«
»
« # »
«¬ xn − M »¼
Donde los escalares xn-1, xn-2, …, xn-M son una subsecuencia de las muestras que forman la
serie de tiempo bajo estudio.
104
Capítulo 4. El Perceptrón
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Tabla 4.4. Las primeras 15 muestras asociadas a una serie de tiempo
de 7 parámetros autorregresivos (véase el texto para detalles).
noise(n)
Muestra xn
x1 = c1 = -3
x2 = c2 = 1
x3 = c3 = 6
x4 = c4 = -8
x5 = c5 = -1
x6 = c6 = -4
x7 = c7 = 2
x8 = a1 x7 + a2 x6 + a3 x5 + a4 x4 + a5 x3 + a6 x2 + a7 x1 + noise(8)
-2
= − 2.8
x9 = a1 x8 + a2 x7 + a3 x6 + a4 x5 + a5 x4 + a6 x3 + a7 x2 + noise(9)
-7
= − 6.88
x10 = a1 x9 + a2 x8 + a3 x7 + a4 x6 + a5 x5 + a6 x4 + a7 x3 + noise(10)
3
= − 9.852
x11 = a1 x10 + a2 x9 + a3 x8 + a4 x7 + a5 x6 + a6 x5 + a7 x4 + noise(11)
-5
= − 8.2258
x12 = a1 x11 + a2 x10 + a3 x9 + a4 x8 + a5 x7 + a6 x6 + a7 x5 + noise(12)
-7
= − 0.65693
x13 = a1 x12 + a2 x11 + a3 x10 + a4 x9 + a5 x8 + a6 x7 + a7 x6 + noise(13)
2
= − 2.22364
x14 = a1 x13 + a2 x12 + a3 x11 + a4 x10 + a5 x9 + a6 x8 + a7 x7 + noise(14)
0
= 3.45319
x15 = a1 x14 + a2 x13 + a3 x12 + a4 x11 + a5 x10 + a6 x9 + a7 x8 + noise(15)
-4
= − 1.2833
El Perceptrón producirá como salida un escalar x 'n generado precisamente por su
sumatoria de salida:
M
x 'n = ¦ a 'k xn − k
N ≥n>M
(Ecuación 4.3.2)
k =1
Donde a '1 , a '2 ,..., a 'M son tanto los pesos de la neurona como los parámetros
autorregresivos que se buscarán. Dado que el escalar producido por la sumatoria es la salida
de la neurona entonces podemos considerar que la Función de Activación usada es la
Función Identidad. Claramente x 'n es un estimado que proporciona el Perceptrón para la
muestra xn dado el vector de entrada [xn-1 xn-2 … xn-M]T. Durante el entrenamiento de la
neurona se buscará ajustar los pesos a '1 , a '2 ,..., a 'M de tal forma que el error existente entre
x 'n y xn se reduzca tanto como sea posible.
105
Una Introducción al Cómputo Neuronal Artificial
xn
n
500
1000
1500
2000
Figura 4.18. Una serie de tiempo de 7 parámetros autorregresivos (véase el texto para detalles).
Plantearemos ahora un método de entrenamiento basado en Descenso Escalonado
(Sección 3.3). Sea εn la diferencia existente entre el estimado de la muestra que proporciona
la neurona y el valor esperado, es decir:
εn = xn – x 'n
N≥n>M
(Ecuación 4.3.3)
Dado que tenemos N muestras entonces los vectores de entrada estarán dados por
ª xM = cM º
«x =c »
« M −1 M −1 »
« xM − 2 = cM − 2 » ,
«
»
#
«
»
«¬ x1 = c1 ¼»
106
ª xM +1 º
« x =c »
M »
« M
« xM −1 = cM −1 » ,
«
»
#
«
»
«¬ x2 = c2 ¼»
ª xM + 2 º
« x
»
« M +1 »
« xM = cM » ,
«
»
« #
»
«¬ x3 = c3 ¼»
ª xN −1 º
ª xM +3 º
« x
»
«x »
« M +2 »
« N −2 »
« xM +1 » , ..., « xN −3 »
«
»
«
»
« # »
« # »
¬« x4 = c4 ¼»
¬« xN − M ¼»
Capítulo 4. El Perceptrón
Por lo tanto el conjunto de entrenamiento para el Perceptrón tendrá un tamaño N – M. El
promedio de los errores al cuadrado ahora estará dado por
N
1
¦ ε n2
N − M n = M +1
N
1
=
¦ ( xn − x 'n )2
N − M n = M +1
MSE =
=
1
N −M
M
§
·
−
x
¦
¨ n ¦ a 'k xn − k ¸
n = M +1 ©
k =1
¹
N
2
(Ecuación 4.3.4)
Tenemos pleno conocimiento de que es posible utilizar Mínimos Cuadrados a fin de
minimizar la Ecuación 4.3.4, sin embargo el proceso será costoso ya que se requiere
manipular todas las muestras al mismo tiempo. Para ello, definiremos a una serie de
funciones que forman parte de la función de error MSE. Se define a la función MSEn como:
MSEn = ε n2
= ( xn − x 'n ) 2
M
§
·
= ¨ xn − ¦ a 'n ,k xn − k ¸
k =1
©
¹
2
N ≥n>M
(Ecuación 4.3.5)
Claramente esta función corresponde al error al cuadrado entre la muestra xn y su valor
estimado x 'n . En este caso, a 'n ,1 , a 'n ,2 ,..., a 'n , M son los valores actuales de los pesos, y
también los parámetros autorregresivos de la señal a estimar, en el Perceptrón al presentar
el vector de entrada cuyos componentes son las muestras xn-1, xn-2, …, xn-M.
Se calculará el vector gradiente de MSEn. Es decir, buscaremos:
ª δ MSE n º
« δa' »
n ,1
«
»
« δ MSE n »
«
»
∇MSEn = « δ a 'n ,2 »
« #
»
«
»
« δ MSE n »
« δa'
»
n,M ¼
¬
107
Una Introducción al Cómputo Neuronal Artificial
Determinemos la derivada parcial de la función MSEn respecto al j-ésimo parámetro
autorregresivo a 'n , j :
M
δ MSEn
δ §
·
x
a 'n ,k xn − k ¸
=
−
¦
n
¨
δ a 'n , j δ a 'n , j ©
k =1
¹
2
M
§
· δ
= 2 ¨ xn − ¦ a 'n ,k xn − k ¸
k =1
©
¹ δ a 'n , j
(Por la Ecuación 4.3.5)
M
§
·
x
−
¨ n ¦ a 'n, k xn − k ¸
k =1
©
¹
M
δ
§
·§
= 2 ¨ xn − ¦ a 'n ,k xn − k ¸ ¨ −
¨
k =1
©
¹ © δ a 'n , j
M
¦a'
n,k
k =1
·
xn − k ¸
¸
¹
§ Aplicación de Regla de ·
¨
¸
© la cadena
¹
§ El término xn es constante ·
¨¨
¸¸
© respecto a a 'n , j
¹
§ Todos los términos de la ·
¨
¸
¨ sumatoria son constantes ¸
¨ excepto el j -ésimo
¸
©
¹
M
§
· δ
= −2 ¨ xn − ¦ a 'n ,k xn − k ¸
a 'n , j xn − j
k =1
©
¹ δ a 'n , j
= −2 ( xn − x 'n ) xn − j
(Por la Ecuación 4.3.2)
= −2ε n xn − j
(Por la Ecuación 4.3.3)
Concretizando:
δ MSEn
= −2ε n xn − j
δ a 'n , j
(Ecuación 4.3.6)
Tenemos los elementos para definir de manera precisa al vector gradiente de la
función MSEn:
ª δ MSE n º
« δa' »
n ,1
«
» ª −2ε x º
ª xn −1 º
n n −1
« δ MSE n » «
»
«x »
−2ε n xn − 2 »
«
»
∇MSEn = « δ a 'n ,2 » = «
= −2ε n « n − 2 »
«
»
« # »
#
« #
» «
»
«
»
«
» ¬ −2ε n xn − M ¼
¬ xn − M ¼
« δ MSE n »
« δa'
»
n,M ¼
¬
(Ecuación 4.3.7)
De acuerdo a la Teoría presentada en la Sección 3.3, el objetivo es minimizar a la
función de error MSE (Ecuación 4.3.4) al determinar el punto en el cual su gradiente es el
vector cero, sin embargo, utilizaremos los estimadores, los vectores gradientes,
proporcionados por las funciones MSEn. Dado que para ello se requiere minimizar a MSEn
entonces, como ya sabemos, se utilizará la dirección opuesta de su gradiente.
108
Capítulo 4. El Perceptrón
Sea a 'n el vector en \ M formado por los M pesos del Perceptrón:
ª a 'n ,1 º
«
»
a 'n ,2 »
«
a 'n =
« # »
«
»
¬« a 'n , M ¼»
(Ecuación 4.3.8)
El vector de pesos a 'n será actualizado mediante la regla:
a 'n +1 = a 'n + Δa'n
(Ecuación 4.3.9)
Donde Δa'n es el Término de Variación o Cambio en el vector de pesos a 'n y está dado
por:
ª xn −1 º
«x »
Δa'n = μ2εn « n − 2 »
« # »
«
»
¬ xn − M ¼
(Ecuación 4.3.10)
Claramente el término Δa'n nos indica la dirección de mínimo crecimiento de MSEn. La
constante μ fue introducida en la Sección 3.3 como la proporción del vector gradiente de la
función MSEn que se utilizará para actualizar al vector de pesos. Su función es la acelerar el
acercamiento del vector de pesos actual, o en términos formales su convergencia, al vector
de pesos óptimos de la función MSE (Ecuación 4.3.4). Dado que la elección de μ tiene
influencia sobre el número de iteraciones que el método de entrenamiento efectuará, es que
a partir de ahora a éste se le llamará Coeficiente de Aprendizaje. Este nombre viene del
hecho de que buena elección de μ inducirá un rápido aprendizaje por parte de la neurona,
pero por otro lado, también puede provocar que ésta aprenda muy lentamente del conjunto
de entrenamiento y por tanto requiera un número considerable de presentaciones.
En el Algoritmo 4.1 se implementa el método de Descenso Escalonado para el
entrenamiento de una neurona de tipo Perceptrón. El algoritmo recibe 6 entradas:
• Un arreglo x que contiene las N muestras asociadas a la serie de tiempo.
• Un entero M que indica el número de parámetros autorregresivos a determinar en la
serie de tiempo dada.
• El Coeficiente de Aprendizaje μ. Por lo regular es un valor en el intervalo (0, 1).
• El número T de presentaciones del conjunto de entrenamiento a efectuar.
• Un entero nInt que se usará para actualizar al Coeficiente de Aprendizaje.
109
Una Introducción al Cómputo Neuronal Artificial
Algoritmo 4.1. Implementación del método de Descenso Escalonado
para el entrenamiento de un Perceptrón y determinación de Parámetros Autorregresivos en una señal.
Procedure TrainPerceptron
(Integer N, Array x[1, …, N], Integer M, Real μ, Integer T, Integer nInt)
// Se inicializa el vector de pesos con valores aleatorios en (-1, 1).
a = new Array[1,…,M]
for i = 1 until M do
a[i] = Random( )
end-of-for
for i = 1 until T do
Integer n = M + 1
while n ≤ N do
// Se calcula el valor proporcionado por la neurona
// usando los pesos actuales y las muestras xn-1, xn-2, …, xn-M.
Real x ' = 0
for k = 1 until M do
x’ = x’ + a[k] * x[n – k]
end-of-for
Real εn = x[n] – x '
// Se calcula el cambio o variación a aplicar
// sobre el vector de pesos.
Δ = new Array[1,…,M]
for k = 1 until M do
Δ[k] = 2 * μ ∗ εn * x[n - k]
end-of-for
// Se obtiene el nuevo vector de pesos.
for k = 1 until M do
a[k] = a[k] + Δ[k]
end-of-for
// Se determina si μ debe ser actualizado.
if n mod nInt = 0 then
μ = μ / 1.01
end-of-if
n=n+1
end-of-for
110
Capítulo 4. El Perceptrón
// Se calcula MSE.
Real MSE = 0
for n = M + 1 until N do
Real x ' = 0
for k = 1 until M do
x’ = x’ + a[k] * x[n – k]
end-of-for
MSE = MSE + Pow(x[n] – x ' , 2)
end-of-for
MSE = MSE / (N – M)
Print(MSE)
Print(μ)
end-of-while
// Se retorna el vector de pesos final.
return a
end-of-procedure
Veamos como es que procede el Algoritmo 4.1. En primer lugar, se inicializa el
vector de pesos a con valores aleatorios tomados del intervalo (-1, 1). Después se tiene el
ciclo for principal que se encarga de controlar las T presentaciones del conjunto de
entrenamiento. Dentro de esta estructura de repetición encontramos un ciclo while que
controla la presentación de los vectores de entrada al Perceptrón y de la actualización del
vector de pesos a. En párrafos anteriores mencionamos que a la neurona se le presentan
vectores de entrada de tamaño M. Sin embargo, nuestra implementación, por cada iteración
del ciclo while, forma una subsecuencia de M muestras consecutivas las cuales toma del
vector de entrada x. Cada una de esas M muestras es multiplicada por su correspondiente
peso, el cual se toma del vector a. Finalmente los M productos obtenidos se suman. Es claro
que hemos implementado la Ecuación 4.3.2. Contamos entonces con la salida
proporcionada por la neurona: x’. Se calcula el error εn mediante la diferencia de la salida
de la neurona con la muestra esperada, la cual se encuentra en el arreglo de entrada x en la
posición n. Ahora se calcula el cambio o variación a aplicar sobre el vector de pesos. Para
ello se requiere usar la misma subsecuencia de M muestras que se presentaron a la neurona.
Cada uno de sus componentes es multiplicado por 2, el coeficiente de aprendizaje y el error
εn. El resultado, en la implementación, es almacenado en el arreglo Δ. Por ultimo, a cada
elemento del vector de pesos a le es sumado su correspondiente elemento del vector Δ. Con
ello se obtiene un nuevo vector de pesos.
Mencionamos que el objetivo del Coeficiente de Aprendizaje μ es el de permitir la
aceleración de la convergencia del vector de pesos. Uno de los parámetros de entrada del
Algoritmo 4.1 es precisamente μ. Este valor de entrada se considerará de hecho un
111
Una Introducción al Cómputo Neuronal Artificial
Coeficiente de Aprendizaje inicial ya que conforme avance la ejecución de algoritmo éste
se irá modificando. Las modificaciones a aplicar harán que el valor de μ disminuya
progresivamente. Justifiquemos esta manera de proceder. Recordemos primeramente que el
lugar geométrico descrito por las funciones MSEn (Ecuación 4.3.5), y de hecho también por
la función MSE (Ecuación 4.3.4), es un hiperparaboloide inmerso en el espacio
(M+1)-Dimensional. El Algoritmo 4.1 genera en primer lugar un vector de pesos inicial
con valores aleatorios. Este vector de pesos puede verse como un punto en el dominio tanto
de MSEn como de MSE. Cuando éste se evalúa es que entonces nos colocamos en algún
punto del espacio \ M +1 y que de hecho forma parte de la hipersuperficie del
hiperparaboloide. Ahora bien, estableceremos la suposición de que el punto en el que nos
encontramos se encuentra alejado del único mínimo global. A partir de este momento, se
utiliza la regla de actualización de pesos (Ecuación 4.3.9). En el momento en que el vector
de pesos es actualizado es que entonces estamos posicionados en otro nuevo punto sobre la
hipersuperficie. La idea es que mientras supongamos que estamos alejados del mínimo
global tendremos que aplicar un coeficiente de aprendizaje con un valor inicial “alto” que
nos permita acercarnos rápidamente al mínimo. Es claro que después de varias iteraciones
podríamos suponer que llegamos a una situación en la que ya nos encontramos lo
suficientemente cerca del mínimo global. Sin embargo, el seguir usando el coeficiente de
aprendizaje inicial podría ser contraproducente ya que en lugar de permitir que nos
acerquemos cada vez más, podríamos estarnos alejando. Es aquí donde se debe actualizar a
μ, con un valor más pequeño que el que tenía inicialmente, a fin de que las actualizaciones
del vector de pesos, y por lo tanto los posicionamientos sobre el hiperparaboloide, sean
cada vez más precisos en términos de su progresivo acercamiento al mínimo global. El
Algoritmo 4.1 implementa el proceso antes mencionado utilizando también el valor de
entrada nInt. Este valor determina un intervalo, de acuerdo al número de iteraciones
efectuadas por el ciclo while, en el cual el valor de μ se conserva. Después de nInt
iteraciones del ciclo while éste se actualiza. Su valor se reduce al dividirlo, en nuestra
implementación, por 1.01.
Una vez que el Algoritmo 4.1 termina la ejecución del ciclo while, se procede a
calcular el valor de la función MSE (Ecuación 4.3.4) usando los pesos actuales en el vector
a y el conjunto de entrenamiento en el vector de entrada x. Este cálculo es únicamente con
fines de medir el desempeño de la neurona una vez que se ha efectuado una presentación
del conjunto de entrenamiento. Cuando las T presentaciones del conjunto de entrenamiento
han sido ejecutadas, el Algoritmo 4.1 finaliza su ejecución retornando los últimos valores
para los pesos, los cuales se encuentran en el vector a.
Aplicaremos el método de Descenso Escalonado, implementado en el Algoritmo
4.1, para entrenar a un Perceptrón de manera que sus pesos correspondan con los 7
parámetros autorregresivos de la serie de tiempo presentada en la Figura 4.18. Como
sabemos, tal serie fue generada usando la Ecuación 4.3.1 y los siguientes valores:
112
Capítulo 4. El Perceptrón
• M=7
• a1 = -0.15
• a2 = 0.1
• a3 = -0.3
• a4 = -0.2
• a5 = -0.1
• a6 = -0.5
• a7 = 0.3
• c1 = -3
• c2 = 1
• c3 = 6
• c4 = -8
• c5 = -1
• c6 = -4
• c7 = 2
• noise(n) ∈ {-7, -6, -5, …, 5, 6, 7}
• N = 2,000 muestras.
Las 2,000 muestras serán guardadas en el arreglo de entrada x. El Perceptrón únicamente
recibirá la información asociada a tales muestras (véase la Figura 4.19). Ahora bien, para
la ejecución del Algoritmo 4.1, establecemos los siguientes valores de entrada:
• μ = 0.0003
• nInt = 500
• T = 100
Es decir, el conjunto de entrenamiento será presentado 100 veces. Se tendrá un coeficiente
de aprendizaje inicial μ = 0.0003 el cual será actualizado cada 500 iteraciones del ciclo
while en el Algoritmo 4.1. Una vez finalizada la ejecución del algoritmo esperaremos,
idealmente, que para los pesos a '1 a a '7 en la neurona se tenga:
•
a '1 ≈ a1 = -0.15
•
a '2 ≈ a2 = 0.1
•
a '3 ≈ a3 = -0.3
•
a '4 ≈ a4 = -0.2
•
a '5 ≈ a5 = -0.1
•
a '6 ≈ a6 = -0.5
•
a '7 ≈ a7 = 0.3
La Tabla 4.5, junto con las Figuras 4.20 y 4.21, describen el desempeño de la
neurona y la evolución del coeficiente de aprendizaje conforme se van efectuando las
presentaciones del conjunto de entrenamiento. Recordemos que el desempeño se mide en
función del resultado proporcionado por la función MSE (Ecuación 4.3.4). Nótese como es
que de la primer a la quinta presentación los valores de MSE son bastante altos: se inicia
113
Una Introducción al Cómputo Neuronal Artificial
con 2.90865 × 1017 y se termina en 381,223. Para este intervalo el valor de μ inició en
0.0003 (el valor de entrada) y terminó en 0.000245863. En las presentaciones del conjunto
de entrenamiento 10 a 40 el desempeño del Perceptrón mejora considerablemente ya que
MSE se ubicó entre 30 y 20. En la presentación 40 el Coeficiente de Aprendizaje μ tiene
valor 0.0000610522, es decir, es 4.9138 veces más pequeño que su valor original de
entrada. Esto viene a sustentar el hecho de que las modificaciones aplicadas a μ permiten
un ajuste cada vez más preciso del vector de pesos. A partir de la presentación 50 se
observa que el error MSE está por debajo de 20. Una vez finalizada la presentación 100 del
conjunto de entrenamiento se tiene el error final MSE = 18.5939. El Coeficiente de
Aprendizaje termina con valor final μ = 0.00000560495: el cual es 53.5231 veces más
pequeño que el valor original 0.0003.
a1'
Xn-1
a2'
Xn-2
Xn-3
a4'
Xn-4
a5'
Xn-5
7
x = ¦ ak' xn − k
'
n
k =1
xn'
Salida
Entradas
a3'
a6'
Xn-6
a7'
Xn-7
Figura 4.19. Representación esquemática del Perceptrón que se utilizará para determinar los Parámetros
Autorregresivos en una Señal de Séptimo Orden (Véase el texto para detalles).
Una vez finalizada la ejecución del Algoritmo 4.1 tenemos los siguientes pesos en
la neurona que de hecho son los parámetros autorregresivos identificados:
• a '1 = -0.165747
•
a '2 = 0.0845436
•
a '3 = -0.27829
•
a '4 = -0.17541
•
a '5 = -0.116675
•
a '6 = -0.495401
• a '7 = 0.28155
Comparémoslos ahora con los parámetros utilizados para generar la serie de tiempo de la
Figura 4.18:
114
Capítulo 4. El Perceptrón
•
a1 - a '1 = -0.15 – (-0.165747) = 0.015747
•
a2 - a '2 = 0.1 – 0.0845436 = 0.0154564
•
a3 - a '3 = -0.3 – (-0.27829) = -0.02171
•
a4 - a '4 = -0.2 – (-0.17541) = -0.02459
•
a5 - a '5 = -0.1 – (-0.116675) = 0.016675
•
a6 - a '6 = -0.5 – (-0.495401) = -0.004599
• a7 - a '7 = 0.3 – 0.28155 = 0.01845
Lo que en consecuencia nos dice que el promedio de los errores al cuadrado existente entre
los parámetros reales y aquellos identificados durante el entrenamiento del Perceptrón es
0.000314638. Ello implica que hemos obtenido aproximaciones bastante cercanas a las
esperadas.
Tabla 4.5. Desempeño del aprendizaje de un Perceptrón entrenado
mediante Descenso Escalonado y el Algoritmo 4.1 (véase el texto para detalles).
T-ésima Presentación
N
1
MSE =
ε n2
del Conjunto
μ
¦
N − M n = M +1
de Entrenamiento
0.000288294
1
2.90865 × 1017
15
0.000277045
2
1.42666 × 10
12
0.000266235
3
7.17163 × 10
0.000255846
4
2.07356 × 108
5
381,223
0.000245863
10
26.2274
0.000201496
20
22.5903
0.000135335
30
20.9588
0.0000908984
40
20.0612
0.0000610522
50
19.5134
0.0000410059
60
19.1554
0.0000275418
70
18.9167
0.0000184985
80
18.7727
0.0000124246
90
18.6672
0.00000834501
100
18.5939
0.00000560495
Los pesos identificados a '1 a a '7 se utilizan para generar la señal correspondiente.
Para este fin se utilizará la siguiente fórmula:
ck
­
°M
x 'n = ®
°¦ a 'k xn − k
¯ k =1
si n = k , k ∈ {1, 2,..., M }
si
N ≥n>M
(Ecuación 4.3.11)
Nótese la similitud de ésta con la Ecuación 4.3.1, la cual fue utilizada para generar la serie
de tiempo original (Figura 4.18). En el caso actual, las M muestras, para obtener al
estimado x 'n , son tomadas del conjunto de entrenamiento. Ello implica que de hecho la
115
Una Introducción al Cómputo Neuronal Artificial
sumatoria usada para generar a x 'n es la sumatoria de salida del Perceptrón. Por esa misma
razón hemos omitido el término de ruido o perturbación ya que la neurona fue entrenada
con muestras a las cuales ya se les había aplicado la función noise(n). Finalmente,
agregamos el hecho de que la Función de Activación utilizada fue la Función Identidad. Por
tanto, el caso cuando N ≥ n > M en la Ecuación 4.3.11 no hace más que enviar como
entrada al Perceptrón el vector [xn-1 xn-2 xn-3 … xn-M]T y obtener la salida
correspondiente x 'n . La Figura 4.22 muestra la señal generada al aplicar el Perceptrón bajo
la Ecuación 4.3.11. En la Figura 4.23 se presenta la señal generada por el Perceptrón (en
gris) sobrepuesta con la señal original (en negro). Debido a que los parámetros
autorregresivos identificados cuentan con errores respecto a los originales, es que es fácil
detectar pequeñas diferencias entre las señales. Sin embargo, es también claro que el error
es en realidad pequeño.
MSE
28
26
24
22
20
20
40
60
80
100
T
Figura 4.20. Evolución del valor MSE (Ecuación 4.3.4) a lo largo de las T = 100
presentaciones del conjunto de entrenamiento para un Perceptrón entrenado mediante
el Algoritmo 4.1 (Véase el texto para detalles).
116
Capítulo 4. El Perceptrón
μ
0.0003
0.00025
0.0002
0.00015
0.0001
0.00005
20
40
60
80
100
T
Figura 4.21. Evolución del Coeficiente de Aprendizaje μ a lo largo de las T = 100
presentaciones del conjunto de entrenamiento para un Perceptrón entrenado mediante
el Algoritmo 4.1 (Véase el texto para detalles).
En la Sección 4.2 reconocimos a las limitaciones del Perceptrón en términos del
número de problemas que es capaz de modelar y resolver. Sin embargo, esta Sección ha
presentado una aplicación interesante para la cual se ha proporcionado una solución, la cual
si bien es aproximada, es bastante cercana a la óptima. Al mismo tiempo, hemos presentado
un mecanismo de ajuste de pesos basado en el método de Descenso Escalonado. Es
evidente que las operaciones aplicadas son realmente sencillas: sumas, restas y
multiplicaciones. Por ello contamos con una unidad de cómputo neuronal cuya
implementación algorítmica es realmente simple, tal como lo muestra el Algoritmo 4.1. En
los siguientes dos Capítulos comenzaremos a considerar el uso de más de una neurona, lo
cual da a lugar a la especificación de Redes Neuronales Artificiales y la solución de
problemas mediante éstas. Será en ese punto cuando veamos que las limitaciones de una
única neurona logran ser superadas al considerar varias neuronas para la solución de un
problema.
117
Una Introducción al Cómputo Neuronal Artificial
xn
n
500
1000
1500
2000
Figura 4.22. Serie de tiempo de 7 parámetros autorregresivos
generada por un Perceptrón bajo la Ecuación 4.3.11 (véase el texto para detalles).
118
Capítulo 4. El Perceptrón
xn
n
500
1000
1500
2000
Figura 4.23. En color gris, la serie de tiempo presentada en la Figura 4.22.
En color negro, la serie de tiempo presentada en la Figura 4.18
(véase el texto para detalles).
119
Una Introducción al Cómputo Neuronal Artificial
120
Una Introducción al Cómputo Neuronal Artificial
5. La Red Madaline
Una Introducción al Cómputo Neuronal Artificial
122
Capítulo 5. La Red Madaline
La Red Madaline (Many Adaline) es una Red Neuronal Artificial formada por varias
neuronas del tipo Adaline (Capítulo 3) las cuales se encuentran agrupadas en capas. En el
Capítulo 1 comentamos que fue propuesta por Bernard Widrow en 1960. Existen varios
mecanismos para el ajuste de los pesos de las neuronas que conforman a una red Madaline.
Uno de ellos es la Madaline Rule II, la cual fue originalmente propuesta por Widrow junto
con Rodney Winter en 1988. En la Sección 5.2 haremos mención de una metodología para
el ajuste de pesos que toma algunos elementos de la Madaline Rule II. Por lo mientras, en
la siguiente Sección describiremos las bases que forman el procesamiento de un vector de
entrada para producir la correspondiente salida.
5.1 Estructura Básica
Consideremos una red Madaline formada por 5 neuronas. Véase la Figura 5.1. Tal
como comentamos previamente las neuronas estarán organizadas en capas. En el caso de la
red que hemos definido en la Figura 5.1 tenemos la siguiente estructura:
• Las neuronas 1 y 2 forman la Capa de Entrada.
• Las neuronas 3 y 4 forman una Capa Interna o Capa Oculta.
• La neurona 5 forma la Capa de Salida.
z1 = w1,0 +
x1
3
¦w
x
1,i i
i =1
Adaline 1
y1 =
sign( z1 )
z3 = w3,0
+ w3,1 y1
+ w3,2 y2
Adaline 3
y3 =
sign( z3 )
z5 = w5,0
x2
x3
+ w5,1 y3
z2 = w2,0 +
3
¦w
x
2,i i
i =1
Adaline 2
y2 =
sign( z2 )
z4 = w4,0
+ w4,1 y1
+ w4,2 y2
Adaline 4
+ w5,2 y4
Adaline 5
y5 =
sign( z5 )
y5
y4 =
sign( z4 )
Figura 5.1. Una red Madaline formada por 5 neuronas.
La red de la Figura 5.1 recibirá como entrada un vector en \ 3 : [x1 x2 x3]T. Los
escalares x1, x2 y x3 se envían tanto a la neurona 1 como a la neurona 2. Sabemos, por la
Sección 3.1, que las neuronas 1 y 2 producirán como salida los escalares y1 y y2
respectivamente. Ahora bien, los valores y1 y y2 formarán a su vez en un vector en \ 2 :
[y1 y2]T. Este vector será enviado como entrada a las dos neuronas que forman la capa
oculta. Las neuronas 3 y 4 producen entonces las salidas y3 y y4 respectivamente. De nueva
cuenta formamos un vector en \ 2 cuyos componentes son los escalares y3 y y4. El vector
[y3 y4]T es enviado como entrada a la única neurona en la capa de salida, es decir, la
neurona 5. Finalmente, la neurona 5 procesa sus entradas y produce la salida y5. Este
escalar es de hecho la salida final que proporciona la red.
El proceso que acabamos de describir, para la red de la Figura 5.1, puede ser visto
como una serie de mapeos de vectores que inicia desde la capa de entrada. Ésta recibe un
123
Una Introducción al Cómputo Neuronal Artificial
vector en \ 3 el cual es mapeado, por las neuronas 1 y 2, en un vector en \ 2 .
Posteriormente este vector es mapeado en un nuevo vector, también en \ 2 , por la acción
de las neuronas en la capa oculta. Finalmente, la única neurona en la capa de salida mapea a
su vector de entrada en un vector en \ . En general, es claro entonces que la
dimensionalidad de los mapeos va directamente en función del número de neuronas
presentes en cada capa de la red. Consideremos una red formada por m capas ocultas. Sean:
• p: número de neuronas en la capa de entrada
• nO: número de neuronas en la O-ésima capa oculta, 1 ≤ O ≤ m.
• q: número de neuronas en la capa de salida.
Suponiendo que los vectores de entrada están en \ n tenemos entonces la siguiente
secuencia de mapeos entre las capas de neuronas:
Capa
de
entrada
Primer
capa
oculta
\ n 6 \ p 6\ n1
Segunda
capa
oculta
Tercer
capa
oculta
6\ 6
n2
"
m -ésima
capa
oculta
Capa
de
salida
6 \ 6\
nm
q
Considerando únicamente la dimensionalidad de los vectores de entrada y de los vectores
en la salida final, es que se dice también que una red mapea vectores de \ n a \ q .
Esta secuencia de mapeos de vectores entre las capas también nos permite
determinar el número de conexiones existentes en la red. Dado que los n componentes del
vector de entrada se propagan todos a las p neuronas en la capa de entrada es que entonces
tenemos np conexiones. Sabemos que cada neurona en la capa de entrada contribuye con un
escalar de salida de manera que en esta capa se forma un vector de p componentes. Este
vector es propagado hacia todas las n1 neuronas que forman a la primera capa oculta. Por lo
tanto se tienen pn1 conexiones entre la capa de entrada y la primera capa oculta. La O-ésima
capa oculta se forma por nO neuronas. Las salidas de estas neuronas forman un vector de nO
componentes el cual a su vez es propagado a la siguiente capa oculta la cual se forma por
nO+1 neuronas. El número de conexiones entre estas dos capas ocultas estará dado por nO⋅nO+1.
Por último, se tiene que la última capa oculta se formará por nm neuronas. Sus salidas
forman un vector de nm componentes los cuales son todos propagados hacia las q neuronas
en la capa de salida. Se tienen entonces nmq conexiones. Sea CM(n, p, m, q, n1, …, nm) el
número de conexiones presentes en una red Madaline. De acuerdo a la descripción anterior
tendremos que:
m −1
CM ( n, p, m, q, n1 , …, nm ) = np + pn1 + ¦ nA ⋅nA +1 + nm q
(Ecuación 5.1.1)
A =1
Por ejemplo, para la red Madaline de la Figura 5.1 tenemos que la Ecuación 5.1.1
nos indica que existen 12 conexiones:
0
CM ( 3, 2,1,1, 2 ) = 3 ⋅ 2 + 2 ⋅ 2 + ¦ nA ⋅nA +1 + 2 ⋅1 = 6 + 4 + 0 + 2 = 12
A =1
124
Capítulo 5. La Red Madaline
5.2 Ajuste de Pesos en una Red Madaline
En el Sistema Nervioso Central se tiene que los seres humanos no estamos
conscientes del funcionamiento de las neuronas en las “capas ocultas” de nuestra red
neuronal en procesos, por ejemplo, como el aprendizaje. Realmente no se conocen ni se
pueden interpretar las salidas proporcionadas por tales neuronas. En realidad, solo estamos
conscientes de las entradas que recibe nuestra red, que pueden provenir de los órganos
sensoriales por ejemplo, y de las salidas que ésta proporciona y que pueden percibirse al
final como una acción ejecutada. En el caso de una Red Neuronal Artificial se presenta una
situación similar ya que el aprendizaje de una red sólo se mide en términos de las entradas
y las salidas finales. Las salidas de las neuronas en las capas de entrada y las capas ocultas
no se interpretan, aunque si son accesibles y por ello mismo se aplican modificaciones a los
pesos de estas neuronas ya que sus salidas contribuyen a los valores de las salidas finales de
la red. Esta actualización de pesos es consistente, por ejemplo, con la Ley de Aprendizaje
Hebbiano (Sección 1.2), sin embargo, desde el punto de vista biológico, realmente no
sabemos de manera precisa en qué momento se dan las modificaciones entre las conexiones
de las neuronas ni tampoco que tanto se refuerzan o debilitan éstas.
A continuación describiremos una metodología, la cual está basada en la propuesta
de Widrow y Winter para el ajuste de pesos en una red Madaline. Se trata de un método de
entrenamiento inspirado en la Madaline Rule II. Veremos que en realidad es una
metodología bastante intuitiva y por tanto fácil de comprender. Sin embargo, también
veremos que pueden existir problemas con su eficiencia. Pero no por ello nos dejará de ser
útil para comprender los retos y perspectivas presentes al momento de entrenar una red
formada por más de una neurona. Por eso mismo la metodología a detallar es una buena
introducción antes de proceder al Algoritmo de Retropropagación, el cual se discutirá en el
siguiente Capítulo.
Considérese el conjunto de entrenamiento de la Tabla 5.1. Éste será presentado a la
red Madaline de la Figura 5.2. Tal red se forma por 5 neuronas tipo Adaline. Se reciben
como entrada vectores en \ 2 . La salida final de la red está dada por un escalar. Dado que
todas las neuronas envían el resultado de sus respectivas sumatorias de salida a la función
sign, es que entonces, a partir de la capa de entrada, todos los vectores generados tienen sus
componentes en {-1, 1}.
Tabla 5.1. Conjunto de entrenamiento
a presentar a una red Madaline.
Salida
Entrada
Esperada
x1 x2
d
-2
0
1
-1
0
-1
0
1
1
1
1
-1
2
3
1
125
Una Introducción al Cómputo Neuronal Artificial
z1 = w1,0
x1
+ w1,1 x1
+ w1,2 x2
Adaline 1
y1 =
sign( z1 )
z3 = w3,0
+ w3,1 y1
+ w3,2 y2
Adaline 3
y3 =
sign( z3 )
z5 = w5,0
+ w5,1 y3
x2
z2 = w2,0
+ w2,1 x1
+ w2,2 x2
Adaline 2
y2 =
sign( z2 )
z4 = w4,0
+ w4,1 y1
+ w4,2 y2
Adaline 4
+ w5,2 y4
Adaline 5
y5 =
sign( z5 )
y5
y4 =
sign( z4 )
Figura 5.2. Una red Madaline formada por 5 neuronas que efectúa
un mapeo de vectores en \ 2 a vectores (escalares) en \ .
Tabla 5.2. Pesos iniciales de las neuronas
en la red Madaline presentada en la Figura 5.2.
w j,1
w j,2
wj,0
-0.23 -0.3
Neurona 1 0.5
Neurona 2 -0.16 -0.46 -0.26
Neurona 3 0.75 0.22 0.78
Neurona 4 0.37 -0.59 -0.28
Neurona 5 0.76 -0.96 0.38
Supongamos que las neuronas de la red de la Figura 5.2 cuentan con los pesos
iniciales mostrados en la Tabla 5.2. Veamos que sucede cuando enviamos como entrada al
primer vector en el conjunto de entrenamiento de la Tabla 5.1: x1 = -2, x2 = 0. Para éste se
espera que la red proporcione la salida final d = 1. Como sabemos, el vector es recibido
inicialmente por las neuronas en la capa de entrada, es decir, los Adalines 1 y 2.
Determinemos sus correspondientes salidas:
• Neurona 1:
o z1 = -2(-0.23) + 0(-0.3) + 0.5 = 0.96
o y1 = sign(0.96) = 1
• Neurona 2:
o z2 = -2(-0.46) + 0(-0.26) – 0.16 = 0.76
o y2 = sign(0.76) = 1
ª y º ª1º
Esto da lugar a la generación del vector « 1 » = « » . Éste ahora es enviado como entrada a
¬ y2 ¼ ¬1¼
las neuronas 3 y 4 que forman la única capa oculta:
• Neurona 3:
o z3 = 1(0.22) + 1(0.78) + 0.75 = 1.75
o y3 = sign(1.75) = 1
• Neurona 4:
o z4 = 1(-0.59) + 1(-0.28) + 0.37 = -0.5
o y4 = sign(-0.5) = -1
126
Capítulo 5. La Red Madaline
ªy º ª 1 º
Por ultimo, el vector generado por las salidas de la capa oculta, « 3 » = « » , se envía a la
¬ y4 ¼ ¬ −1¼
única neurona en la capa de salida:
• Neurona 5:
o z5 = 1(-0.96) + -1(0.38) + 0.76 = -0.58
o y5 = sign(-0.58) = -1
En este punto nos es claro que la red proporciona una salida diferente a la esperada. Se
deberá efectuar un ajuste de pesos de manera que para el vector de entrada [-2 0]T se
obtenga la salida d = 1.
Veamos como es que nuestra metodología procede para ajustar los pesos de la red
de la Figura 5.2 de tal forma que para la entrada [-2 0]T se obtenga la salida d = 1. En
primer lugar debemos considerar que las neuronas a ajustar serán aquellas en las capas
ocultas y de salida, y en particular, se inicia con las neuronas en la capa oculta.
Considérense las neuronas 3 y 4 de la Figura 5.2, suponemos que sus pesos son los
presentados en la Tabla 5.2. Sea S el conjunto dado por:
2
­
½
S = ® w j ,0 + ¦ w j ,i yi : j = 3, 4 ¾
i =1
¯
¿
(Ecuación 5.2.1)
Es decir, S se forma por los valores absolutos de las Sumatorias de Salida, sin aplicar la
función sign, de las neuronas 3 y 4. El vector que se les envía es el vector generado por la
capa de entrada una vez que ha procesado al vector de entrada en cuestión, es decir, el
vector [-2 0]T. Por lo tanto, específicamente S tendrá los siguientes valores:
S = {1.75, 0.5}
Ahora bien, se seleccionará aquella neurona, de la capa oculta, cuyo valor en S sea el más
pequeño. Tenemos que, para nuestro ejemplo, se trata de la neurona 4. La idea es ajustar
primero los pesos a las neuronas cuyos valores absolutos de sus Sumatorias de Salida sean
cercanos al cero. Debido a que las Sumatorias de Salida de estas neuronas son pequeñas en
comparación con las de las neuronas restantes en la capa, también será más sencillo
modificar sus pesos. De hecho, el objetivo es que la neurona seleccionada invierta su salida.
Si la neurona proporcionó una salida 1 (-1), entonces se espera que su contribución a la
solución del problema mejore, y en particular a obtener la salida final de la red correcta, al
hacer que su salida ahora sea -1 (1). Asignemos los siguientes nuevos pesos a la neurona 4:
• w4,0 = -0.39
• w4,1 = 0.58
• w4,2 = -0.60
Veamos en primer lugar si la salida de la neurona se invierte, para ello le enviamos el
vector generado por la capa de entrada al procesar al vector en el Conjunto de
Entrenamiento [-2 0]T:
127
Una Introducción al Cómputo Neuronal Artificial
• z4 = 1(0.58) + 1(-0.60) - 0.39 = -0.41
• y4 = sign(-0.41) = -1
Es claro que la salida no se invirtió. Se asignan los nuevos pesos:
• w4,0 = 0.9017
• w4,1 = -0.71
• w4,2 = 0.97
Se verifica si la salida se ha invertido:
• z4 = 1(-0.71) + 1(0.97) + 0.9017 = 1.1617
• y4 = sign(1.16) = 1
Los nuevos pesos efectivamente permiten que la salida de la neurona 4 ahora sea igual a 1.
Usando a éstos, se recalcula la salida final de la red y se verifica si se obtiene la salida
correcta d = 1. El vector de entrada para la neurona 5 será ahora [1 1]T cuyo segundo
componente es precisamente la nueva salida de la neurona 4:
• z5 = 1(-0.96) + 1(0.38) + 0.76 = 0.18
• y5 = sign(0.18) = 1
Con el reajuste de pesos aplicado a la neurona 4 hemos obtenido la salida esperada para el
vector de entrada x1 = -2, x2 = 0. Por lo tanto esta neurona preserva sus nuevos pesos. En la
Tabla 5.3 se presentan los pesos actuales de la red Madaline de la Figura 5.2.
Tabla 5.3. Pesos de las neuronas
en la red Madaline presentada en la Figura 5.2
una vez que se ha aplicado un ajuste sobre la neurona 4
(Véase el texto para detalles).
w j,1
w j,2
wj,0
0.5
-0.23 -0.3
Neurona 1
Neurona 2 -0.16 -0.46 -0.26
0.75
0.22 0.78
Neurona 3
Neurona 4 0.9017 -0.71 0.97
0.76
-0.96 0.38
Neurona 5
La idea ahora es presentar a la red un nuevo vector de entrada. En el caso en que
dado un vector de entrada la red proporcione la salida correcta entonces es obvio que no se
aplicará ninguna modificación. Si por otro lado, se obtiene salida final incorrecta y a todas
las neuronas en la capa oculta se les ha invertido su salida sin obtener la salida final
esperada, entonces se procede a efectuar modificaciones de pesos en las neuronas de la
siguiente capa oculta. Si todas las capas ocultas han sido procesadas sin obtener la salida
final correcta, entonces se procede a modificar los pesos de las neuronas en la capa de
salida.
Procedamos a describir el mecanismo para el entrenamiento de una red Madaline.
Sea h un índice para enumerar las capas de la red de manera que tomará valores desde 1
hasta m+1, donde m es el número de capas ocultas. Si h = m+1 entonces estamos haciendo
referencia a la capa de salida; si 1 ≤ h ≤ m entonces hacemos referencia a la
h-ésima capa oculta. Sean los vectores X1, X2, …, XN los vectores de entrada en el conjunto
de entrenamiento. Considérese al i-ésimo vector de entrada, Xi, 1 ≤ i ≤ N. Xi es presentado a
128
Capítulo 5. La Red Madaline
la red y se obtiene la correspondiente salida final. Asumamos que la salida de la red con Xi
es incorrecta. Se procede a recorrer cada una de las capas de la red comenzando desde la
primer capa oculta, h = 1, hasta la capa de salida, h = m+1. Para cada Adaline j en la
h-ésima capa de la red actualmente procesada se calcula:
A( j ) = w j ,0 + ¦ w j ,i yi
(Ecuación 5.2.2)
i =1
Ahora, sea S el conjunto de valores A(j) ordenados de manera ascendente. Procesaremos a
cada elemento de S de manera secuencial. Consideremos a la neurona Adaline asociada al
elemento A(j) de S actualmente procesado. Se modifican los pesos de la neurona de manera
que su salida se invierta. Se recalcula nuevamente la salida de la red cuando Xi le es
presentado:
• Si la salida final de la red es ahora correcta entonces se fijan los nuevos pesos a la
neurona de manera definitiva, las restantes neuronas de la capa actual y las restantes
capas de la red ya no son consideradas. Se procede a presentar al siguiente vector de
entrada: Xi+1.
• Si la salida de la red sigue siendo incorrecta entonces a la neurona actual le son
reasignados sus pesos originales. Se analizan las restantes neuronas de la capa actual y
de las siguientes capas de la red hasta encontrar una neurona que al invertir su salida
permita que la red proporcione la salida correcta.
Veamos algunas propiedades y conceptos asociados al procedimiento que acabamos
de describir. En primer lugar, aquella neurona a la cual se le ha invertido su salida, y
además hace que la red proporcione la salida final correcta, se le denotará, tal y como
establecieron Windrow y Winter en la Madaline Rule II, Neurona de Disturbancia
Mínima. Nótese que es posible que al invertir la salida de una neurona se obtenga la salida
esperada para el vector de entrada actual. Pero también es posible que debido a este cambio
otros vectores en el conjunto de entrenamiento dejen de ser reconocidos. Consideremos
nuevamente a la red presentada en la Figura 5.2. Dados los pesos iniciales de la Tabla 5.2
y el vector de entrada [-2 0]T determinamos que la neurona de disturbancia mínima era la
neurona 4 ubicada en la primer, y única, capa oculta. Al invertir la salida de esta neurona
obtuvimos la salida correcta por parte de la red. Ahora bien, de acuerdo a la Tabla 5.1 el
siguiente vector a presentar es [-1 0]T. Para éste se espera que la red proporcione como
salida d = -1. Usando los pesos de la Tabla 5.3 tenemos que la red procesa a [-1 0]T como
sigue:
•
•
Neurona 1:
o z1 = -1(-0.23) + 0(-0.3) + 0.5 = 0.73
o y1 = sign(0.73) = 1
Neurona 2:
o z2 = -1(-0.46) + 0(-0.26) – 0.16 = 0.3
o y2 = sign(0.3) = 1
129
Una Introducción al Cómputo Neuronal Artificial
•
Neurona 3:
o z3 = 1(0.22) + 1(0.78) + 0.75 = 1.75
o y3 = sign(1.75) = 1
• Neurona 4:
o z4 = 1(-0.71) + 1(0.97) + 0.9017 = 1.1617
o y4 = sign(1.1617) = 1
• Neurona 5:
o z5 = 1(-0.96) + 1(0.38) + 0.76 = 0.18
o y5 = sign(0.18) = 1
Lo cual nos indica que se tiene una salida final incorrecta. De acuerdo a la manera de
proceder previamente establecida, la primera neurona cuyos pesos se modificarán será
nuevamente la neurona 4. Su salida debe ser invertida. Consideremos los siguientes nuevos
pesos (que no son más que aquellos presentados en la Tabla 5.3 pero con signo opuesto):
• w4,0 = -0.9017
• w4,1 = 0.71
• w4,2 = -0.97
Ahora se tiene que:
• z4 = 1(0.71) + 1(-0.97) - 0.9017 = -1.1617
• y4 = sign(-1.1617) = -1
Y para la neurona en la capa de salida:
• z5 = 1(-0.96) + (-1)(0.38) + 0.76 = -0.58
• y5 = sign(-0.58) = -1
Lo cual hace que para el vector de entrada [-1 0]T ya se cuente con su correspondiente
salida correcta. El problema ahora es que para el vector [-2 0]T la red ha dejado de
proporcionar la salida esperada d = 1.
El ejemplo anterior nos proporciona evidencia de que es factible que una Neurona
de Disturbancia Mínima pueda permitir el aprendizaje de algunos vectores de entrada, pero
también puede hacer que otros vectores que ya habían sido reconocidos por la red dejen de
serlo. Para ello, es posible, una vez identificada la Neurona de Disturbancia Mínima,
presentar cada uno de los vectores en el conjunto de entrenamiento a la red y contabilizar el
número de vectores de entrada para los que se obtiene una salida incorrecta. Si el número
de vectores no reconocidos aumenta respecto al número que se tenía antes de modificar los
pesos de la neurona, entonces los pesos originales de tal neurona son restaurados y se busca
otra neurona en la capa actual y en las capas restantes, si es necesario. La idea de esta
modificación es forzar a que se busque una Neurona de Disturbancia Mínima que permita
el mayor aprendizaje posible. Sin embargo se debe aceptar entonces un compromiso
respecto a la eficiencia del algoritmo. Sea nh el número de neuronas en la capa h,
1 ≤ h ≤ m + 1. Entonces, en el peor de los casos, para la h-ésima capa se tendrían que
determinar, a lo más, nh⋅N salidas finales de la red.
Nótese que el enfoque para lograr el aprendizaje que se ha planteado se basa en la
idea de identificar a una neurona “culpable”. Se parte del principio de que existe una
neurona en las capas ocultas o de salida que hace que para el vector de entrada actual la red
130
Capítulo 5. La Red Madaline
no proporcione la salida correcta. Precisamente la neurona “culpable” es la Neurona de
Disturbancia Mínima. Sin embargo este razonamiento abre las posibilidades de considerar
la existencia de más de una neurona “culpable”. Intuitivamente se entiende que pueden
existir problemas en los cuales para algunos vectores de entrada se deban aplicar
correcciones en los pesos de dos o más neuronas al mismo tiempo. Y de hecho, es posible
modificar el proceso antes descrito a fin de que se identifiquen a la vez dos neuronas
“culpables”. Cada neurona puede estar en una capa diferente. Una vez que dos neuronas
han sido seleccionadas se modifican sus pesos de manera que se inviertan sus salidas y se
verifica la salida final de la red. Esto abre más posibilidades ya que también es posible, por
lo tanto, identificar a la vez tripletas, cuartetos, quintetos, etc. de neuronas “culpables”. El
punto fundamental, al considerar tales subconjuntos de neuronas, es que debe elegirse de
todos los posibles subconjuntos aquel que maximice el aprendizaje de la red de manera que
al modificar sus pesos el número de vectores de entrada correctamente reconocidos
aumente respecto al número que se tenia previo a la modificación. Sea M el número total de
neuronas en las capas ocultas y de salida en una red Madaline:
m
M = q + ¦ nA
(Ecuación 5.2.3)
A =1
Recordemos que q es el número de neuronas en la capa de salida y nO es el número de
neuronas en la O-ésima capa oculta, 1 ≤ O ≤ m. El número de subconjuntos de k neuronas
tomadas del conjunto formado por las M neuronas en las capas ocultas y de salida está dado
§M ·
por el bien conocido Coeficiente Binomial ¨ ¸ :
©k ¹
§M ·
M!
¨ ¸=
© k ¹ k !( M − k )!
(Ecuación 5.2.4)
Supongamos la situación extrema en que analizamos primero si una única neurona
“culpable” es la que no permite proporcionar la salida correcta final de la red. Asumamos
que no hemos logrado identificar la única Neurona de Disturbancia Mínima. Entonces
procedemos a determinar si son dos las neuronas “culpables”. Asumamos nuevamente que
la red no proporciona la salida final correcta. Ahora determinemos si son tres las neuronas
“culpables”, y así sucesivamente. Ello implica que el número total de subconjuntos a
analizar es a lo más:
§M · §M ·
§M ·
§M · M §M ·
+
+
...
+
+
...
+
¨ ¸ ¨ ¸
¨ ¸
¨ ¸ = ¦¨ ¸
©1¹ ©2¹
©k ¹
© M ¹ k =1 © k ¹
(Ecuación 5.2.5)
131
Una Introducción al Cómputo Neuronal Artificial
El Teorema del Binomio nos dice que el desarrollo de (a + b)M, donde a, b ∈ \ y
M ∈ ] + ∪ {0} está dado por:
M
§M ·
( a + b) M = ¦ ¨ ¸ a M − k b k
k =0 © k ¹
(Ecuación 5.2.6)
Haciendo a = 1 y b = 1 en el Teorema del Binomio tenemos el valor de la suma presentada
en la Ecuación 5.2.5:
§ M · § M · M § M · M −k k
M
M
¦
¨ ¸ − ¨ ¸ = ¦ ¨ ¸1 1 − 1 = (1 + 1) − 1 = 2 − 1 (Ecuación 5.2.7)
k =0 © k ¹ © 0 ¹
k =0 © k ¹
M
El índice inferior de la sumatoria asociada al Teorema del Binomio es k = 0 y por tanto el
§M ·
coeficiente binomial correspondiente es ¨ ¸ el cual evidentemente denota al número de
©0¹
subconjuntos de 0 elementos: 1. Dado que este término no nos es de utilidad es por ello que
lo restamos al formar la Ecuación 5.2.7.
Por ejemplo, si contásemos con una red Madaline con M = 16 neuronas en sus capas
ocultas y de salida entonces tendríamos que analizar a los más 2M - 1 = 65,535
subconjuntos de neuronas “culpables” a fin de hacer que el vector de entrada actual sea
reconocido correctamente sin afectar el desempeño actual de la red. En general, suponiendo
que contamos con un conjunto de entrenamiento formado por N vectores de entrada
entonces el número total de evaluaciones a efectuar durante el entrenamiento de la Red
Madaline, en el peor de los casos, sería N⋅(2M – 1). Es claro que el enfoque basado en la
determinación de un subconjunto de neuronas “culpables” nos genera un problema de
índole combinatoria.
La metodología que hemos descrito en esta Sección para el entrenamiento de una
red Madaline, y la cual toma varios elementos de la Madaline Rule II, deja claros algunos
retos que se deben superar si efectivamente se desea un ajuste bastante bueno de los pesos
de las neuronas en la red a fin de que ésta solucione y modele un problema dado. Por el
momento adelantamos, tal como se verá en el siguiente Capítulo, que una de las novedades
del Algoritmo de Retropropagación radica en no buscar un subconjunto de neuronas
“culpables”, sino que asume desde un principio que si un vector de entrada no es
reconocido correctamente ello se debe a que todas las neuronas contribuyen a esa falla de
reconocimiento. El error que existe entre la salida final de la red y la salida esperada es
entonces distribuido y usado para ajustar los pesos de todas las neuronas. Pero antes de
presentar el Algoritmo de Retropropagación, veremos, en la siguiente Sección, como es que
una red Madaline es capaz de dar solución al problema del modelado de la compuerta
XOR.
132
Capítulo 5. La Red Madaline
5.3 Modelado de Funciones Booleanas
Antes de abordar el modelado de la función XOR mediante una red Madaline,
consideremos primero un procedimiento para determinar a una función Booleana al partir
únicamente de sus estados y de los valores que ésta arroja para cada uno. Por ejemplo, sea f
una función que depende de las tres variables x1, x2 y x3. Los valores que ésta proporciona
para cada uno de sus 8 posibles estados son presentados en la Tabla 5.4.
Tabla 5.4. Estados y salidas
para una función Booleana de 3 variables.
x1 x2 x3 f(x1, x2, x3)
1 1 1
1
1 1 0
0
1 0 1
0
1 0 0
0
0 1 1
0
0 1 0
1
0 0 1
1
0 0 0
0
La pregunta a plantear ahora es: ¿cómo se expresa a f en términos de las variables
x1, x2 y x3? El procedimiento a definir permitirá determinar a f como una función de las
variables dadas y los bien conocidos conectivos de conjunción, disyunción y negación.
Nótese que son tres los estados para las cuales f proporciona como valor 1. Éstos se
presentan en la Tabla 5.5.
Tabla 5.5. Estados para los cuales
la función Booleana de la Tabla 5.4 tiene salida 1.
x1 x2 x3 f(x1, x2, x3)
1 1 1
1
0 1 0
1
0 0 1
1
De la Tabla 5.5, considérese el estado (0, 0, 1). Los siguientes razonamientos deben
ser sumamente claros:
• Si x1 = 0 entonces ¬x1 = 1.
• Si x2 = 0 entonces ¬x2 = 1.
• Si x3 = 1 entonces (obviamente) x3 = 1.
Recordemos que buscamos que con el estado (0, 0, 1) la función f proporcione el valor 1.
Por lo tanto, si x1, x2 y x3 son iguales a 0, 0 y 1, respectivamente, entonces se tiene que la
función Booleana
¬x1 ∧ ¬x2 ∧ x3
arroja el valor 1. Esta función la construimos a partir de los consecuentes de las 3
condicionales que planteamos uniéndolas mediante el operador AND. De hecho, es fácil
133
Una Introducción al Cómputo Neuronal Artificial
comprobar que con cualquier otro estado diferente de (0, 0, 1), la función anterior siempre
proporciona el valor 0.
Ahora tomemos de la Tabla 5.5 el estado (0, 1, 0):
• Si x1 = 0 entonces ¬x1 = 1.
• Si x2 = 1 entonces x2 = 1.
• Si x3 = 0 entonces ¬x3 = 1.
Tomemos los consecuentes de las tres condicionales anteriores y unámoslos mediante el
operador de conjunción. Tenemos entonces la siguiente función Booleana:
¬x1 ∧ x2 ∧ ¬x3
Tal función proporciona el valor 1 únicamente con el estado (0, 1, 0).
Finalmente, consideremos el estado (1, 1, 1) de la Tabla 5.5. Procedemos tal y
como lo hicimos con los dos estados anteriores:
• Si x1 = 1 entonces x1 = 1.
• Si x2 = 1 entonces x2 = 1.
• Si x3 = 1 entonces x3 = 1.
Construimos en consecuencia la siguiente función Booleana:
x1 ∧ x2 ∧ x3
Claramente el estado (1, 1, 1) es el único que hace que la función proporcione el valor 1.
A partir de los 3 estados con los cuales la función f de la Tabla 5.4 arroja el valor 1
hemos obtenido 3 funciones Booleanas expresadas en términos de las variables x1, x2 y x3 y
los operadores NOT y AND:
• ¬x1 ∧ ¬x2 ∧ x3
• ¬x1 ∧ x2 ∧ ¬x3
• x1 ∧ x2 ∧ x3
Ahora uniremos a esas tres funciones Booleanas utilizado el operador OR, de manera que
obtenemos una nueva función Booleana:
(¬x1 ∧ ¬x2 ∧
x3) ∨ (¬x1 ∧ x2 ∧ ¬x3) ∨ (x1 ∧ x2 ∧ x3)
Recordemos que dos funciones Booleanas son Lógicamente Equivalentes si sus
correspondientes tablas de verdad son iguales. Para la función f su tabla de verdad es
precisamente la Tabla 5.4. Ahora calcularemos la tabla de verdad de la función que
acabamos de construir. Véase la Tabla 5.6.
134
Capítulo 5. La Red Madaline
x1
x2
x3
1
1
1
1
0
0
0
0
1
1
0
0
1
1
0
0
1
0
1
0
1
0
1
0
Tabla 5.6. Tabla de verdad asociada la función Booleana
(¬x1 ∧ ¬x2 ∧ x3) ∨ (¬x1 ∧ x2 ∧ ¬x3) ∨ (x1 ∧ x2 ∧ x3).
(¬
¬x1 ∧ ¬x2 ∧ x3)
¬x1 ∧ ¬x2 ∧ x3 ¬x1 ∧ x2 ∧ ¬x3 x1 ∧ x2 ∧ x3 ∨ (¬
¬x1 ∧ x2 ∧ ¬x3)
∨ (x1 ∧ x2 ∧ x3)
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
1
0
0
1
0
0
0
0
Es claro que ambas funciones arrojan los mismos valores para los mismos estados.
Entonces podemos concluir que la función f (Tabla 5.4) es lógicamente equivalente a la
función Booleana (¬x1 ∧ ¬x2 ∧ x3) ∨ (¬x1 ∧ x2 ∧ ¬x3) ∨ (x1 ∧ x2 ∧ x3). Por lo tanto:
f(x1, x2, x3) = (¬x1 ∧ ¬x2 ∧ x3) ∨ (¬x1 ∧ x2 ∧ ¬x3) ∨ (x1 ∧ x2 ∧ x3)
(Ecuación 5.3.1)
Hemos ilustrado un procedimiento mediante el cual es posible obtener para
cualquier función Booleana, dada únicamente su tabla de verdad, aquella función Booleana
que le es lógicamente equivalente pero que estará dada en términos de sus variables
involucradas y las compuertas lógicas AND, OR y NOT. Ahora consideremos la compuerta
lógica XOR. Su correspondiente tabla de verdad se presenta en la Tabla 5.7.
Tabla 5.7. Estados y salidas
para la función Booleana XOR.
x1 x2 x1 ⊗ x 2
0 0
0
0 1
1
1 0
1
1 1
0
Determinemos su correspondiente expresión en términos de las compuertas AND,
OR y NOT. Son dos los estados para los cuales la función tiene valor 1 (Véase la Tabla
5.7):
• (0, 1): Si x1 = 0 entonces ¬x1 = 1. Si x2 = 1 entonces x2 = 1. Por lo tanto, para el estado
(0, 1) se tiene la función Booleana ¬x1 ∧ x2.
• (1, 0): Si x1 = 1 entonces x1 = 1. Si x2 = 0 entonces ¬x2 = 1. Para el estado (1, 0)
obtenemos la función Booleana x1 ∧ ¬x2.
Al conectar las dos funciones que obtuvimos mediante una disyunción se tiene:
(¬x1 ∧ x2) ∨ (x1 ∧ ¬x2)
135
Una Introducción al Cómputo Neuronal Artificial
Tal función Booleana no es más que la expresión de la compuerta XOR en términos de las
compuertas AND, OR y NOT. Por lo tanto:
x1 ⊗ x2 = (¬x1 ∧ x2) ∨ (x1 ∧ ¬x2)
(Ecuación 5.3.2)
En la Sección 4.2 comentamos que el modelado de la compuerta XOR representa el
ejemplo clásico de un problema que es caracterizado como linealmente no separable. Por
ello mismo, un único Perceptrón, e incluso una neurona tipo Adaline, no será capaz de
representarlo en términos de un umbral Z(x1, x2) = 0, geométricamente una recta en el
plano, que separe a los estados con salida 1 de los estados con salida 0. Sin embargo, la
Ecuación 5.3.2, que expresa al XOR en términos de las compuertas AND, OR y NOT es
interesante. Recordemos que las funciones Booleanas con una variable son todas
linealmente separables, mientras que de aquellas con dos variables únicamente el XOR y
XNOT no lo son. Es decir, la Ecuación 5.3.2 expresa a una compuerta lógica no
linealmente separable en términos de compuertas que si son linealmente separables. Para
tales compuertas podemos garantizar la existencia de sus correspondientes neuronas
artificiales que las modelan adecuadamente. Esto tiene como consecuencia que una función
Booleana puede ser modelada mediante una red neuronal usando neuronas que
implementen efectivamente las funciones Booleanas “básicas” AND, OR y NOT. La forma
en que se organizarán tales neuronas es especificada precisamente por el orden en que se
aplicarán las conjunciones, disyunciones y negaciones.
Ahora construiremos una red Madaline que modele a la compuerta lógica XOR. La
red recibirá un vector de entrada formado por dos componentes. El vector será enviado en
primer lugar a dos neuronas en la capa de entrada: una neurona implementa la función
Booleana ¬x1 ∧ x2 mientras que la otra implementa la función x1 ∧ ¬x2 (véase la Ecuación
5.3.2). Nótese que hemos omitido el usar neuronas que implementen el operador de
negación, sin embargo es posible hacerlo. Ahora bien, cuando las dos neuronas
proporcionan sus correspondientes salidas se forma un nuevo vector, también de dos
componentes, que es enviado a una neurona que modela al operador OR. Esta neurona de
hecho proporciona la salida final de la red. Ello implica, por un lado, que tenemos una
neurona en la capa de salida, y por otro lado, que nuestra red no cuenta con capas ocultas.
Utilizaremos entonces una red Madaline de 3 neuronas para modelar al operador XOR.
Dado que las neuronas a utilizar son de tipo Adaline, y por ende se utilizará la
función sign, entonces para los estados (x1, x2) y para las salidas proporcionadas por las
funciones Booleanas a utilizar reemplazaremos el valor 0 por el valor -1. Consideremos en
primer lugar a la función Booleana x1 ∧ ¬x2. La Tabla 5.8 muestra cada uno de los estados
de entrada y las salidas esperadas para éstos. En la Figura 5.3 se tiene la disposición de los
136
Capítulo 5. La Red Madaline
estados en el plano cuando sus valores son considerados coordenadas. Los puntos negros
representan estados con salida -1 mientras que el único punto blanco representa al estado
con salida 1. La sumatoria de salida de la neurona 1, que modelará la función x1 ∧ ¬x2, está
dada por
Z1(x1, x2) = w1,0 + x1w1,1 + x2w1,2
(Ecuación 5.3.3)
Nuestro objetivo es determinar los valores de sus pesos w1,0, w1,1 y w1,2 de tal forma que la
recta Z1(x1, x2) = 0 separe al punto blanco de los puntos negros. Además, queremos que
Z1(1, -1) sea un número positivo mientras que con el resto de los estados se obtenga un
valor negativo. Esto es con la finalidad de que al aplicar la función sign se obtengan las
salidas 1 o -1 tal como se tienen en la Tabla 5.8. En la Figura 5.3 se observa que una
opción razonable es que la recta Z1(x1, x2) = 0 sea aquella que pase por los puntos (0, -1) y
(1, 0). Por elementos bien conocidos de geometría analítica tenemos:
0 − (−1) 1(−1) − 0(0)
+
1− 0
1− 0
⇔ x2 = x1 − 1
x2 = x1
⇔ x1 − x2 − 1 = 0
(Ecuación 5.3.4)
Es decir, tenemos que los valores de los pesos de la neurona 1 están dados por w1,0 = -1,
w1,1 = 1 y w1,2 = -1. El vector normal de la recta Z1(x1, x2) = x1 − x2 − 1 = 0 es [1 -1]T. Éste
apunta precisamente al punto blanco por lo que se satisface que Z1(1, -1) > 0 mientras que
para los puntos negros se tendrá que Z1(1, -1) < 0. Contamos ya con una neurona Adaline
que modela la función Booleana x1 ∧ ¬x2.
Tabla 5.8. Estados y salidas
para la función Booleana x1 ∧ ¬x2
(el valor 0 ha sido sustituido por -1).
x1 x2 ¬x2 x1 ∧ ¬x2
-1 -1
1
-1
-1 1
-1
-1
1 -1
1
1
1 1
-1
-1
137
Una Introducción al Cómputo Neuronal Artificial
1
(-1,1)
(1,1)
-1
1
(-1,-1)
(1,-1)
-1
Z1 (x 1 , x 2 ) = 0
Figura 5.3. El umbral Z1(x1, x2) = 0 asociado a la neurona
que modelará la función Booleana x1 ∧ ¬x2.
Consideremos ahora a la función Booleana ¬x1 ∧ x2. Sus estados y salidas se
presentan en la Tabla 5.9. La Figura 5.4 presenta la disposición de los estados en plano
(puntos blancos: estados con salida 1, puntos negros: estados con salida -1). Buscaremos
los valores de los pesos para la sumatoria de salida de la neurona 2:
Z2(x1, x2) = w2,0 + x1w2,1 + x2w2,2
(Ecuación 5.3.5)
La Figura 5.4 muestra que una opción es buscar la ecuación de la recta Z2(x1, x2) = 0 que
pase por los puntos (-1, 0) y (0, 1):
0 − 1 −1(1) − 0(0)
+
−1 − 0
−1 − 0
⇔ x2 = x1 + 1
x2 = x1
⇔ x1 − x2 + 1 = 0
(Ecuación 5.3.6)
El vector normal de la recta obtenida es [1 -1]T. Éste apunta precisamente al estado (1, -1)
cuya salida es -1. Requerimos que el vector normal apunte al único estado blanco. Para ello
simplemente multiplicamos ambos lados de la ecuación de la recta por -1. Se tiene el nuevo
lugar geométrico:
− x1 + x2 − 1 = 0
(Ecuación 5.3.7)
De esta forma tenemos que los valores de los pesos de la neurona 2, que se encarga de
modelar la función Booleana ¬x1 ∧ x2, son w2,0 = -1, w2,1 = -1 y w2,2 = 1.
138
Capítulo 5. La Red Madaline
Tabla 5.9. Estados y salidas
para la función Booleana ¬x1 ∧ x2
(el valor 0 ha sido sustituido por -1).
x1 x2 ¬x1 ¬x1 ∧ x2
-1 -1
1
-1
-1 1
1
1
1 -1 -1
-1
1 1
-1
-1
1
(-1,1)
(1,1)
-1
1
(-1,-1)
(1,-1)
-1
Z 2 (x 1 , x 2) = 0
Figura 5.4. El umbral Z2(x1, x2) = 0 asociado a la neurona
que modelará la función Booleana ¬x1 ∧ x2.
Ahora requerimos una neurona Adaline que modele la compuerta lógica OR. Sus
estados y salidas se presentan en la Tabla 5.10 mientras que la Figura 5.5 muestra la
disposición de los estados en plano (puntos blancos: estados con salida 1, puntos negros:
estados con salida -1). De nueva cuenta requerimos un umbral Z3(y1, y2) que separe a los
estados blancos del único estado negro. Calculamos la ecuación de la recta que pasa por los
puntos (-1, 0) y (0, -1):
−1 − 0 0(0) − (−1)(−1)
+
0 − (−1)
0 − (−1)
⇔ y2 = − y1 − 1
y2 = y1
⇔ − y1 − y2 − 1 = 0
( Ecuación 5.3.8)
El vector normal de la recta está orientado hacia el punto negro, para el cual se desea una
salida negativa. Por lo tanto, multiplicamos la ecuación anterior por -1 y obtenemos la
139
Una Introducción al Cómputo Neuronal Artificial
orientación deseada de manera que para todo punto blanco Z3(y1, y2) proporciona un valor
positivo. Tenemos entonces que para la neurona 3 se tiene
Z3(y1, y2) = y1 + y2 + 1
(Ecuación 5.3.9)
Tabla 5.10. Estados y salidas
para la función Booleana OR
(el valor 0 ha sido sustituido por -1).
y1 y2 y1 ∨ y2
-1 -1
-1
-1 1
1
1 -1
1
1 1
1
1
(-1,1)
(1,1)
-1
1
(-1,-1)
(1,-1)
-1
Z 3 (y 1 , y 2 ) = 0
Figura 5.5. El umbral Z3(y1, y2) = 0 asociado a la neurona
que modelará la función Booleana OR.
Contamos con las tres neuronas requeridas para formar una red Madaline que
modele la compuerta XOR. En párrafos anteriores ya habíamos planteado la manera en la
cual estas deberían ser conectadas. Recordemos que x1 ⊗ x2 = (¬x1 ∧ x2) ∨ (x1 ∧ ¬x2)
(Ecuación 5.3.2). Véase la Figura 5.6. Las neuronas 1 y 2 reciben el vector de entrada
[x1 x2]T el cual es de hecho uno de los estados de la compuerta lógica. La primer neurona
calcula el valor correspondiente a x1 ∧ ¬x2 mientras que la segunda calcula ¬x1 ∧ x2. Se
tienen entonces las respectivas salidas y1 y y2. Lo único que resta es efectuar una disyunción
entre éstas. El operador OR está modelado por la neurona 3. En este punto tenemos que la
salida y3 es de hecho la salida final de la neurona.
140
Capítulo 5. La Red Madaline
Adaline 1
x1
z1 =
x1 − x2 − 1
y1 =
sign( z1 )
Adaline 3
z3 =
y1 + y2 + 1
y3 =
sign( z3 )
y3
Adaline 2
x2
z2 =
− x1 + x2 − 1
y2 =
sign( z2 )
Figura 5.6. Una red Madaline formada por 3 neuronas
que resuelve el problema del modelado de la compuerta XOR.
En la Sección 4.2 planteamos que si un problema es linealmente separable entonces
existe un umbral Z(x1, x2, …, xn) = 0 que particiona al espacio n-Dimensional en tres
regiones:
• El conjunto de puntos de \ n que están por encima del umbral.
• El conjunto de puntos de \ n que están por debajo del umbral.
• El conjunto de puntos de \ n que están sobre el umbral.
Para las tres neuronas que forman la red Madaline de la Figura 5.6 tenemos bien
identificados sus respectivos umbrales (Figuras 5.3, 5.4 y 5.5) los cuales particionan al
espacio bidimensional. En la Figura 5.7.a se muestra, en color gris, la región de \ 2 que
está por encima del umbral Z1(x1, x2) = x1 − x2 − 1 = 0. En tal región se ubica el estado (1, -1)
el cual tiene salida 1. La Figura 5.7.b muestra la región por encima del umbral
Z2(x1, x2) = − x1 + x2 − 1 = 0 . En ésta se localiza el estado (-1, 1), también con salida 1.
Finalmente, la Figura 5.7.c muestra la región por encima del umbral
Z3(y1, y2) = y1 + y2 + 1 = 0 en donde se localizan los estados de salida 1: (-1, 1), (1, 1) y
(1, -1). Lo que haremos ahora es presentar a las tres regiones que hemos descrito al mismo
tiempo en el plano. Véase la Figura 5.7.d. En esta misma figura presentamos los estados de
la compuerta XOR. La intersección entre las tres regiones, mostrada en gris obscuro en la
figura, forma dos conjuntos convexos disjuntos abiertos. El estado (-1, 1) se ubica en uno
de los conjuntos mientras que el estado (1, -1) se ubica en el otro. Ambos son estados con
salida 1. La unión de los dos conjuntos resultantes es evidentemente un conjunto no
convexo también abierto. Este conjunto en cuestión y los estados de la compuerta XOR se
presentan ahora en la Figura 5.8. En nuestra discusión respecto al Problema de
Representación (Sección 4.2) argumentábamos que si un elemento de cómputo neural daba
solución al problema del modelado de la función XOR entonces debíamos aceptar que los
estados con salida 1 deberían estar contenidos en un conjunto no convexo (abierto o
cerrado) que los separara de los estados con salida -1. Una neurona Adaline o Perceptrón no
puede generar este tipo de regiones. Pero acabamos de probar que mediante el uso de una
Red Neuronal es posible que los umbrales, y las regiones que éstos definen, den lugar
precisamente a las regiones no convexas requeridas para efectivamente dar solución al
141
Una Introducción al Cómputo Neuronal Artificial
problema en cuestión, en nuestro caso, el problema del XOR. La Figura 5.8 muestra que
los umbrales de las neuronas de la red Madaline de la Figura 5.6 permiten establecer las
condiciones bajo las cuales se particiona al plano en dos regiones no convexas.
Formalmente éstas son:
•
RC12 = {(a1 , a2 ) ∈ \ 2 : Z 3 (a1 , a2 ) ≥ 0 ∧ ( Z1 (a1 , a2 ) ≥ 0 ∨ Z 2 (a1 , a2 ) ≥ 0)}
•
RC22 = {(a1 , a2 ) ∈ \ 2 : Z 3 (a1 , a2 ) < 0 ∨ ( Z 3 (a1 , a2 ) ≥ 0 ∧ ( Z1 (a1 , a2 ) < 0 ∧ Z 2 (a1 , a2 ) < 0))}
Textualmente tenemos que un punto (a1, a2) estará en la región RC12 si en primer lugar éste
se ubica sobre o por encima del umbral Z3 (Ecuación 5.3.9). Si esta condición se cumple
entonces sólo se debe determinar si (a1, a2) satisface el estar sobre o por encima del umbral
Z1 (Ecuación 5.3.3) o bien sobre o por encima del umbral Z2 (Ecuación 5.3.5). El conjunto
de puntos que cumplen las condiciones que acabamos de describir están en la región gris de
la Figura 5.8. Es claro que los estados con salida 1 se ubicarán en la región RC12 . Por otro
lado, analizando las condiciones establecidas para que un punto (a1, a2) se ubique en la
región RC22 es claro que ésta es complementaria a la región RC12 . Aplicando Álgebra de
Conjuntos se puede demostrar sin problema que RC12 ∪ RC22 = \ 2 . Finalmente, los
estados con salida -1 estarán en RC22 .
Procedamos ahora a modelar, mediante una Red Madaline, a la función Booleana
descrita originalmente en la Ecuación 5.3.1:
f(x1, x2, x3) = (¬x1 ∧ ¬x2 ∧ x3) ∨ (¬x1 ∧ x2 ∧ ¬x3) ∨ (x1 ∧ x2 ∧ x3)
Analizaremos en primer lugar a las funciones Booleanas que la componen:
•
•
•
¬x1 ∧ ¬x2 ∧ x3
¬x1 ∧ x2 ∧ ¬x3
x1 ∧ x2 ∧ x3
La idea es que si las tres son linealmente separables entonces la capa de entrada de la
correspondiente red Madaline se formará únicamente por tres neuronas. Cada una recibirá
un vector de entrada [x1 x2 x3]T que contiene el estado a procesar. Debido al uso de la
función sign y a fin de diferenciar adecuadamente los estados y sus salidas reemplazaremos
el valor Booleano 0 por el valor -1.
142
Capítulo 5. La Red Madaline
1
(-1,1)
1
(1,1)
-1
(-1,-1)
(-1,1)
1
-1
(1,-1)
(-1,-1)
-1
(1,1)
1
(1,-1)
-1
Z 1 (x1 ,x 2)=0
Z 2 (x1 ,x 2) = 0
a)
b)
1
(-1,1)
1
(1,1)
-1
(-1,-1)
(-1,1)
1
-1
(1,-1)
(-1,-1)
-1
(1,1)
1
(1,-1)
-1
Z 3 (y1 ,y 2)=0
c)
d)
Figura 5.7. a), b) y c) En gris: Regiones del plano por encima de los umbrales asociados a las neuronas que
modelan las funciones Booleanas x1 ∧ ¬x2, ¬x1 ∧ x2 y OR. d) Las tres regiones anteriores sobrepuestas. En
gris obscuro: sus intersecciones.
1
(-1,1)
(1,1)
-1
1
(-1,-1)
(1,-1)
-1
Figura 5.8. Partición del plano inducida por la Red Neuronal
de la Figura 5.6 (Véase el texto para detalles).
143
Una Introducción al Cómputo Neuronal Artificial
Consideremos en primer lugar a la función ¬x1 ∧ ¬x2 ∧ x3. Por la forma en la que
fue construida sabemos que el único estado con el cual proporciona la salida 1 es (-1, -1, 1).
En la Figura 5.9.a se presentan los estados de esta función caracterizados de manera que
un estado negro es un estado con salida -1 y un estado blanco (el único) es de salida 1. Esta
función es claramente linealmente separable. Requerimos un plano que separe al estado
(-1, -1, 1) de los restantes. Para ello determinaremos la ecuación del plano usando los tres
puntos no colineales (-1, -1, 0), (0, -1, 1) y (-1, 0, 1). Estos puntos, también en la Figura
5.9.a, forman un triángulo, presentado en gris, inmerso en el plano considerado. La
ecuación, por elementos bien conocidos de Álgebra Lineal, se obtiene al resolver el
siguiente determinante:
x1
x2
x3 1
−1 −1 0 1
=0
0 −1 1 1
−1 0 1 1
⇔ − x1 − x2 + x3 − 2 = 0
(Ecuación 5.3.10)
Verifiquemos si el plano está bien orientado. Al sustituir el estado (-1, -1, 1) en el lado
izquierdo de la Ecuación 5.3.10 tenemos que
−(−1) − (−1) + 1 − 2 = 1 > 0
Por lo tanto el vector normal del plano apunta en dirección del estado (-1, -1, 1) lo cual
indica que se cuenta con la orientación correcta. Recordemos que la orientación es
importante ya que el valor proporcionado por Z1(x1, x2, x3) = − x1 − x2 + x3 − 2 será después
sometido a la función sign, de manera que se busca que la neurona proporcione valores tal
y como se presentan en la tabla de verdad de la función que se está modelando. Tenemos
entonces que los pesos de la neurona 1, que representa a la función ¬x1 ∧ ¬x2 ∧ x3, están
dados por: w1,1 = -1, w1,2 = -1, w1,3 = 1 y w1,0 = -2.
Para el caso de la función ¬x1 ∧ x2 ∧ ¬x3 se tiene que únicamente con el estado
(-1, 1, -1) ésta proporciona la salida 1. Véase la Figura 5.9.b. La función es evidentemente
linealmente separable. Se requiere un plano que separe al estado blanco (-1, 1, -1) de los
restantes estados negros. Usaremos de nueva cuenta tres puntos no colineales: (-1, 0, -1),
(0, 1, -1) y (-1, 1, 0):
144
Capítulo 5. La Red Madaline
x1 x2
−1 0
0
−1
1
x3 1
−1 1
=0
−1 1
1
0
1
⇔ x1 − x2 + x3 + 2 = 0
(Ecuación 5.3.11)
Veamos si el plano obtenido está correctamente orientado. Para ello sustituimos el lado
izquierdo de la Ecuación 5.3.11 con los valores (-1, 1, -1):
−1 − 1 + (−1) + 2 = −1 < 0
Se ha obtenido un número negativo, por lo tanto únicamente multiplicamos ambos lados de
la ecuación por -1 a fin de que esté orientado tal como requerimos. Se obtiene entonces la
ecuación final del plano:
− x1 + x2 − x3 − 2 = 0
(Ecuación 5.3.12)
Tenemos entonces una neurona 2 tipo Adaline que modela correctamente a la función
Booleana ¬x1 ∧ x2 ∧ ¬x3 y cuyos pesos están dados por w2,1 = -1, w2,2 = 1, w2,3 = -1 y
w2,0 = -2.
Veamos ahora el caso de la función Booleana x1 ∧ x2 ∧ x3. La Figura 5.9.c permite
apreciar claramente que es linealmente separable. Los vértices del triángulo en gris, de la
Figura 5.9.c, muestran los puntos a utilizar para definir el plano que separará al estado
blanco (1, 1, 1) de los restantes estados negros. Los tres puntos a usar son: (0, 1, 1), (1, 1, 0)
y (1, 0, 1). Entonces tenemos:
x1
x2
0
1
1
1
1
0
x3 1
1 1
=0
0 1
1 1
⇔ − x1 − x2 − x3 + 2 = 0
(Ecuación 5.3.13)
Verifiquemos si el plano está orientado correctamente:
−1 − 1 − 1 + 2 = −1 < 0
El plano requiere ser reorientado. Al multiplicar por -1 en ambos lados de la Ecuación
5.3.13 tenemos el plano final:
x1 + x2 + x3 − 2 = 0
(Ecuación 5.3.14)
145
Una Introducción al Cómputo Neuronal Artificial
Por tanto, la neurona 3 que modela la función x1 ∧ x2 ∧ x3 tendrá por pesos: w2,1 = 1,
w2,2 = 1, w2,3 = 1 y w2,0 = -2.
Tenemos ya bien definidas las 3 neuronas que formarán la capa de entrada de
nuestra red Madaline. Las neuronas 1, 2 y 3 proporcionarán respectivamente como salida
los escalares y1, y2 y y3. Estos formarán un vector de entrada para una neurona que modela a
la función y1 ∨ y2 ∨ y3. La salida de esta neurona será la salida final de la red. Por lo tanto
es claro que no requeriremos de capas ocultas. Apreciando la Figura 5.9.d se tiene que la
función y1 ∨ y2 ∨ y3 es linealmente separable. Siete de sus estados son de salida 1 (blancos)
mientras que el estado (-1, -1, -1) es el único de salida -1 (negro). Por lo tanto, usaremos los
puntos (-1, 0, -1), (-1, -1, 0) y (0, -1, -1) para encontrar la ecuación del plano que separa al
único estado negro de los estados blancos:
y1
y2
y3 1
−1 0 −1 1
=0
−1 −1 0 1
0 −1 −1 1
⇔ y1 + y2 + y3 + 2 = 0
(Ecuación 5.3.15)
Verifiquemos si el plano determinado está correctamente orientado:
−1 + (−1) + (−1) + 2 = −1 < 0
Recordemos que el estado (-1, -1, -1) es de salida -1. Por lo tanto la Ecuación 5.3.15 no
requiere modificación alguna. Tenemos que los pesos de la única neurona de salida de
nuestra red Madaline son: w2,1 = 1, w2,2 = 1, w2,3 = 1 y w2,0 = 2. En la Figura 5.10 se
presenta la red que precisamente nos permite modelar la función de la Ecuación 5.3.1.
146
Capítulo 5. La Red Madaline
x2
(-1,1,-1)
(1,1,-1)
x2
x3
(-1,1,-1)
(0,1,-1)
(1,1,-1)
x3
(-1,1,0)
(1,1,1)
(-1,1,1)
(1,1,1)
(-1,1,1)
(-1,0,-1)
x1
(-1,0,1)
(1,-1,-1)
(-1,-1,-1)
x1
(-1,-1,-1)
(1,-1,-1)
(-1,-1,0)
(-1,-1,1)
(-1,-1,1)
(1,-1,1)
(0,-1,1)
(1,-1,1)
b)
a)
x2
(-1,1,-1)
(1,1,-1)
y2
x3
(-1,1,-1)
(1,1,-1)
y3
(1,1,0)
(1,1,1)
(-1,1,1)
(-1,-1,-1)
(1,1,1)
(-1,1,1)
(0,1,1)
(-1,0,-1)
(1,0,1)
x1
y1
(-1,-1,-1)
(1,-1,-1)
(0,-1,-1)
(1,-1,-1)
(-1,-1,0)
(-1,-1,1)
(1,-1,1)
(-1,-1,1)
(1,-1,1)
c)
d)
Figura 5.9. Visualización en el espacio 3D de los estados y las salidas de las funciones Booleanas
a) ¬x1 ∧ ¬x2 ∧ x3, b) ¬x1 ∧ x2 ∧ ¬x3, c) x1 ∧ x2 ∧ x3, y d) y1 ∨ y2 ∨ y3. Los triángulos en gris están inmersos en
los planos que separan a los estados negros de los estados blancos. Sus vértices son utilizados para determinar
sus correspondientes ecuaciones y orientaciones (véase el texto para detalles).
147
Una Introducción al Cómputo Neuronal Artificial
Adaline 1
x1
z1 = − x1 − x2
+ x3 − 2
y1 =
sign( z1 )
Adaline 4
Adaline 2
x2
z2 = − x1 + x2
− x3 − 2
y2 =
sign( z2 )
z4 = y1 + y2
+ y3 + 2
y4 =
y4
sign( z4 )
Adaline 3
x3
z3 = x1 + x2
+ x3 − 2
y3 =
sign( z3 )
Figura 5.10. Red Madaline que modela a la función Booleana
f(x1, x2, x3) = (¬x1 ∧ ¬x2 ∧ x3) ∨ (¬x1 ∧ x2 ∧ ¬x3) ∨ (x1 ∧ x2 ∧ x3).
En esta Sección hemos descrito una serie de pasos a seguir a fin de que, en primer
lugar, una función Booleana, dada su tabla de verdad, sea descrita en términos de las
variables involucradas y los conectivos lógicos AND, OR y NOT. Posteriormente, en
segundo lugar, y basado en el hecho de que tales conectivos son linealmente separables, es
que hemos establecido una metodología para construir una red Madaline que dé solución al
problema del modelado de funciones Booleanas no linealmente separables como el XOR.
En la Sección 4.2 determinamos que una función Booleana de n variables tiene
exactamente 2n posibles estados. Un punto interesante es que si estos estados son
considerados puntos en el espacio n-Dimensional entonces es fácil apreciar que tales puntos
corresponden con los vértices de un Hipercubo n-Dimensional. Véase la Figura 5.11.
Cuando n = 1 se tienen funciones Booleanas de una variable con 2 estados: -1 y 1. Estos
dos puntos sobre la línea recta definen a un hipercubo unidimensional, es decir, un
segmento. Véase la Figura 5.11.a. Cuando n = 2 estamos considerando funciones Boolenas
de dos variables con 4 posibles estados: (-1, -1), (1, -1), (-1, 1) y (1, 1). Estos cuatro puntos
describen a un hipercubo bidimensional, o mejor dicho, un cuadrado centrado en el origen
(Figura 5.11.b). Si ahora consideramos a las funciones Booleanas de n = 3 variables
entonces tenemos que los estados corresponden a los 8 vértices de un cubo centrado en el
origen (Figura 5.11.c). Nótese que en párrafos anteriores utilizamos elementos visuales
para determinar de manera inmediata las rectas o planos requeridos para separar a los
estados con salida 1 de los estados con salida -1. O de manera equivalente, buscábamos
rectas o planos que nos permitieran particionar de manera adecuada a nuestros cuadrados o
cubos, respectivamente.
Ahora consideremos el caso de una función Booleana con n = 4 variables. Ello
implica que debemos tomar en cuenta 24 = 16 posibles estados. Tales estados corresponden
a los vértices de un hipercubo tetradimensional. Véase la Figura 5.11.d. Si la
correspondiente función es linealmente separable debemos determinar un hiperplano
tridimensional inmerso en el espacio de 4 dimensiones que separe apropiadamente a los
148
Capítulo 5. La Red Madaline
estados. Cuando n = 5 entonces lidiamos con una función con 5 variables y 25 = 32 estados.
El objetivo en esta instancia es encontrar un hiperplano tetradimensional inmerso en el
espacio de 5 dimensiones. La situación que claramente surge es el hecho de que el número
de estados crece de manera exponencial conforme consideramos más variables. Una
función Booleana de 10 variables cuenta con 210 = 1,024 estados que corresponden a los
vértices de un hipercubo de 10 dimensiones. Conceptualmente el problema es claro, dada
una función de n variables determinar el hiperplano (n-1)-Dimensional inmerso en \ n que
demuestre que la función es efectivamente linealmente separable. Es claro que el uso de
auxiliares visuales también se complica. Existen metodologías variadas para visualizar
espacios hiperdimensionales, sin embargo, debe entenderse que lo que se “ve” son
únicamente proyecciones, “sombras”, de los elementos inmersos en tales hiperespacios, por
lo que existirá pérdida de información. Ahora bien, es posible dejar a un lado la
visualización y concentrarnos en una búsqueda de hiperplanos basada en el hecho de que
los vértices de un hipercubo serán siempre particionados en dos conjuntos: los vértices que
corresponden a estados con salida 1 y los vértices que corresponden a estados con salida -1.
Esto en un momento puede original un problema de índole combinatoria. En \ 2 se
requieren dos puntos para definir una recta (un hiperplano unidimensional), en \ 3 se
requieren tres puntos para definir un plano (un hiperplano bidimensional), en \ 4 se
requieren cuatro puntos para determinar la ecuación de un hiperplano tridimensional. Es
claro que, en general, en \ n se requieren exactamente n puntos para definir un hiperplano
(n-1)-Dimensional. Considerando que en nuestro caso los puntos se tomarían de los 2n
vértices de nuestros hipercubos, entonces tendríamos que el número de posibilidades
analizar es a lo más
§ 2n ·
(2n )!
¨ ¸= n
© n ¹ (2 − n)!n !
(Ecuación 5.3.16)
Retomando el caso n = 10, tendríamos en consecuencia que el número de subconjuntos de
10 vértices, para formar hiperplanos candidatos, tomados del conjunto de 1,024 vértices del
hipercubo de 10 dimensiones es:
§ 210 ·
(210 )!
1, 024!
=
=
= 334,265,867,498,622,145,619,456
¨ ¸
10
(2
10)!10!
(1,
024
10)!10!
−
−
10
© ¹
En la práctica es claro que hemos de considerar el modelado de funciones con cientos de
variables de entrada.
149
Una Introducción al Cómputo Neuronal Artificial
x2
(-1,1)
-1
(1,1)
x1
x1
1
(-1,-1)
a)
(1,-1)
b)
x2
(-1,1,-1)
x3
(1,1,-1)
(1,1,1)
(-1,1,1)
x1
(-1,-1,-1)
(1,-1,-1)
(-1,-1,1)
(1,-1,1)
c)
x2
x4
(1,1,-1,-1)
(-1,1,-1,-1)
x3
(-1,1,-1,1)
(-1,1,1,-1)
(1,1,-1,1)
(1,1,1,-1)
(1,1,1,1)
(-1,1,1,1)
(-1,-1,-1,-1)
(1,-1,-1,-1)
x1
(-1,-1,-1,1)
(1,-1,-1,1)
(-1,-1,1,-1)
(1,-1,1,-1)
(-1,-1,1,1)
(1,-1,1,1)
d)
Figura 5.11. Los estados de las funciones Booleanas de 1 a 4 variables vistos como los vértices de hipercubos.
a) Un hipercubo 1D: un segmento (2 vértices/estados). b) Un hipercubo 2D: un cuadrado (4 vértices/estados).
c) Un hipercubo 3D: un cubo (8 vértices/estados). d) Un Hipercubo 4D (16 vértices/estados).
150
Capítulo 5. La Red Madaline
Los resultados anteriores vienen a establecer que la metodología presentada en esta
Sección, si bien es sumamente intuitiva e ilustrativa en lo que concierne al problema del
ajuste de pesos de una red Madaline, en la práctica puede no ser muy recomendada. Lo que
si debemos reconocer es que nos ha proporcionado elementos contundentes para verificar
que efectivamente el uso de varias neuronas permite el modelado de funciones Booleanas
no linealmente separables, tales como el XOR. También nos ha permitido visualizar, al
menos en el caso 2D, las particiones del plano que inducen los umbrales asociados a cada
neurona y las correspondientes reglas de separación entre estados con salida 1 y estados con
salida -1.
Este Capítulo nos ha planteado claramente los retos a considerar en lo que atañe a
las metodologías para el ajuste de pesos en Redes Neuronales Multicapa. En el siguiente
Capítulo presentaremos por fin al Algoritmo de Retropropagación, que representa una
solución eficiente y fácil de implementar para el ajuste de pesos en redes formadas por
neuronas del tipo Perceptrón.
151
Una Introducción al Cómputo Neuronal Artificial
152
Una Introducción al Cómputo Neuronal Artificial
6. Redes de
Perceptrones
Una Introducción al Cómputo Neuronal Artificial
154
Capítulo 6. Redes de Perceptrones
Hemos llegado al punto en el cual estamos listos para abordar el estudio de las
Redes Neuronales formadas por Perceptrones. En particular, hemos de considerar el
análisis y justificación del popular Algoritmo de Retropropagación, el cual representa una
de las opciones más eficientes y fáciles de implementar para el entrenamiento de este tipo
de Redes Neuronales. Procederemos en primer lugar al reconsiderar, en la Sección 6.1, a la
neurona de tipo Perceptrón al describir la Regla de Rosenblatt para la actualización de sus
pesos. Posteriormente, en la Sección 6.2, presentaremos la Demostración del Teorema de
Convergencia del Perceptrón. Este importante resultado servirá como punto de partida para
entender los fundamentos detrás del proceso de ajuste de pesos por parte del Algoritmo de
Retropropagación. En la Sección 6.3 describiremos el mecanismo de corrección de pesos,
propiamente por el Algoritmo de Retropropagación, en una Red compuesta por
Perceptrones bajo la suposición de que ésta se forma por una única capa oculta. También
justificaremos de manera formal las reglas de actualización establecidas y analizaremos los
aspectos relacionados con la convergencia de los pesos de las neuronas que forman la red.
En la Sección 6.4 presentaremos la versión generalizada del Algoritmo de
Retropropagación en el sentido de dar solución al problema del ajuste de pesos para redes
formadas por más de dos capas ocultas. Será hasta la Sección 6.5 en donde haremos
mención de un ejemplo de aplicación del Algoritmo de Retropropagación para la
solución/modelado de un problema mediante redes formadas por Perceptrones.
6.1 La Regla de Rosenblatt
Mencionábamos en las Secciones 1.4 y 4.2, que en 1958 el psicólogo Frank
Rosenblatt presenta a la neurona tipo Perceptrón. De hecho, en ese mismo año, Rosenblatt
introdujo un mecanismo de aprendizaje, un algoritmo de entrenamiento, para el Perceptrón
que hoy en día se conoce como Regla de Rosenblatt. El punto fundamental es que la Regla
viene acompañada con un Teorema que sustenta el hecho de que los pesos correctos de la
neurona serán siempre encontrados bajo el supuesto de que efectivamente existen tales
pesos para resolver el problema dado. Planteamos en primer lugar la Regla de Rosenblatt y
posteriormente, en la siguiente Sección, efectuaremos la demostración de tal Teorema.
Considérese un Perceptrón que recibe como entrada un vector E en \ n dado por:
ª I1 º
«I »
E = « 2»
«#»
« »
¬ In ¼
(Ecuación 6.1.1)
Supongamos que la neurona proporciona como salida un escalar O ∈ \ . Sea g una función
continua y diferenciable en (-∞, ∞). Se tiene que g es de hecho la Función de Activación
(Véase la Sección 4.1). Cada uno de los componentes del vector de entrada E estará
155
Una Introducción al Cómputo Neuronal Artificial
asociado a un único peso de la neurona. La relación entre el vector E y los pesos, de manera
que se produce a partir de éstos un escalar ent, está dada por la ya conocida Sumatoria de
Salida del Perceptrón:
n
ent = ¦ w j I j
(Ecuación 6.1.2)
j =1
La salida O del Perceptrón se produce al aplicar la Función de Activación g sobre el escalar
ent:
§ n
·
O = g(ent) = g ¨ ¦ w j I j ¸
© j =1
¹
(Ecuación 6.1.3)
La Figura 6.1 presenta esquemáticamente a todos los elementos del Perceptrón que hemos
descrito.
W1
W2
I2
n
ent = ¦ w j I j
ent
j =1
In
O = g (ent )
O
Salida
Entradas
I1
Wn
Figura 6.1. Representación Esquemática de un Perceptrón.
Sea T la salida que se espera proporcione el Perceptrón para el vector de entrada E.
Sabemos que el proceso de ajuste de los pesos wj de la neurona busca minimizar la
diferencia entre la salida proporcionada por ésta y la salida esperada. Es decir, se busca
optimizar:
§ n
·
Err = T – O = T – g ¨ ¦ w j I j ¸
© j =1
¹
(Ecuación 6.1.4)
Ahora bien, definamos los elementos detrás de la Regla de Rosenblatt.
Primeramente, se debe contar con un conjunto de pesos iniciales para la neurona. Por lo
regular éstos son inicializados con valores aleatorios, comúnmente en el intervalo (-1, 1)
(Sección 4.3). Tenemos que el proceso de aprendizaje se dividirá en Épocas. En cada
Época se presentan a la neurona todos los vectores de entrada en el conjunto de
entrenamiento. Es claro que la noción de Época es la misma que la de Presentación del
156
Capítulo 6. Redes de Perceptrones
Conjunto de Entrenamiento que planteamos desde la Sección 3.3.1. Por cada vector de
entrada E, se determina la diferencia entre la salida generada por el Perceptrón O y la salida
esperada T (Ecuación 6.1.4). De acuerdo a esa diferencia es que los pesos son actualizados.
Nótese que el valor de Err = T – O puede ser positivo o negativo. Es claro que si el
error, Err, es positivo entonces la salida O de la neurona debe ser incrementada. Por otro
lado, si el error es negativo entonces la salida O de la neurona debe reducirse. De manera
más específica, y observando la Ecuación 6.1.2, se tiene que el escalar de entrada Ij se
multiplica con el j-ésimo peso wj. Tenemos entonces el siguiente par de observaciones:
• Si Ij es positivo y el peso wj aumenta su valor entonces la salida O también aumentará
su valor.
• Si Ij es negativo y el peso wj aumenta su valor entonces la salida O disminuirá su valor.
En ambos casos podemos concluir que para obtener el ajuste apropiado del peso wj se tiene
que precisamente el valor de wj debe ser incrementado. Esto es interesante porque ya sea
que la salida O se requiera aumentar o reducir, los pesos deben ser actualizados mediante
una suma. Para tal efecto Rosenblatt propuso la siguiente regla de actualización de pesos:
wj = wj + α⋅Err⋅Ij
j = 1, 2, …, n
(Ecuación 6.1.5)
Donde α es la bien conocida constante positiva denominada, en la Sección 4.3, Coeficiente
de Aprendizaje. La Ecuación 6.1.5 es de hecho la Regla de Rosenblatt. Nótese su similitud
con la regla de actualización presentada en la Sección 4.3 la cual estaba basada en
búsqueda del vector gradiente mediante Descenso Escalonado.
El Algoritmo 6.1 es una implementación de la Regla de Rosenblatt. Éste recibe
cuatro entradas:
• Una matriz E de tamaño N × n, donde N es el número de vectores de entrada en el
conjunto de entrenamiento y n su dimensionalidad. Cada renglón de la matriz es
precisamente un vector de entrada.
• Un arreglo T de N elementos. Contiene los escalares que se espera la neurona
proporcione como salida (dados los correspondientes vectores de entrada).
• El coeficiente de aprendizaje α.
• Un entero L que indica el número de épocas, o presentaciones del conjunto de
entrenamiento, que el algoritmo efectuará.
El Algoritmo 6.1 efectúa los procedimientos antes mencionados al inicializar un vector de
pesos W con valores aleatorios. Posteriormente, en cada presentación del conjunto de
entrenamiento, cada vector de entrada en la matriz E es enviado a la neurona donde se
calcula el valor de su sumatoria de salida el cual es guardado en la variable ent. Se invoca
entonces a la Función de Activación g la cual debe ser continua y diferenciable en (-∞, ∞)
por razones que clarificaremos en las siguientes Secciones. Se tiene entonces la salida O de
la neurona. Se aplica la Ecuación 6.1.4 para obtener el error existente entre la salida O y la
salida esperada T. Por último, se tiene la actualización del vector de pesos W haciendo uso
del valor actual en la variable Err, el coeficiente de aprendizaje α y cada uno de los
componentes del vector de entrada actual.
157
Una Introducción al Cómputo Neuronal Artificial
Algoritmo 6.1. Implementación de la Regla de Rosenblatt
para el entrenamiento de un Perceptrón.
Procedure RosenblattRule
(Matrix E[1, …, N][1, …, n], Array T[1, …, N], Real α, Integer L)
// Se asignan valores aleatorios en (-1, 1) al vector de pesos.
W = new Array[1,…,n]
for j = 1 until n do
W[j] = Random( )
end-of-for
// Se lleva a efecto la t-ésima época.
for t = 1 until L do
for k = 1 until N do
// El k-ésimo vector de entrada es enviado a la neurona.
Real ent = 0
for j = 1 until n do
ent = ent + W[j] * E[k][j]
end-of-for
// Se aplica la función de activación
// y se obtiene la salida de la neurona.
Real O = g(ent)
// Se calcula el error entre la salida esperada
// y la salida de la neurona.
Real Err = T[k] – O
// Se actualiza el vector de pesos.
for j = 1 until n do
W[j] = W[j] + α * Err * E[k][j]
end-of-for
end-of-for
end-of-for
// Se retorna como salida el vector de pesos obtenido.
return W
end-of-procedure
Como se podrá observar, la Regla de Rosenblatt es, desde el punto de vista
algorítmico, muy simple. Pero es más interesante el hecho de que precisamente Rosenblatt
demostró que un Perceptrón convergerá a un conjunto de pesos que modela adecuadamente
a los elementos del conjunto de entrenamiento siempre y cuando éstos representen una
función linealmente separable. A tal proposición se le conoce como el Teorema de
Convergencia del Perceptrón. En la siguiente Sección abordaremos precisamente la
demostración del enunciado.
158
Capítulo 6. Redes de Perceptrones
6.2 Teorema de Convergencia del Perceptrón
Teorema:
Si existe un vector de pesos W* tal que para todo vector de entrada E y su correspondiente
salida T, en el conjunto de entrenamiento, se tiene que g(W*⋅E) = T
entonces
para cualquier vector inicial de pesos se tiene que la regla de aprendizaje del Perceptrón
convergerá a un vector de pesos (no necesariamente W*) tal que la neurona proporcionará
la salida correcta para todo vector de entrada en el conjunto de entrenamiento. Además, la
convergencia se tendrá en un número finito de pasos.
El enunciado establece en primer lugar que debemos suponer la existencia de un
vector de pesos W* tal que mediante éste el Perceptrón siempre proporcionará la salida
correcta para todo vector de entrada en el conjunto de entrenamiento. Ahora bien, debemos
demostrar que para cualquier vector de pesos inicial W, y al aplicar la Regla de Rosenblatt
tal como lo especifica el Algoritmo 6.1, encontraremos un vector de pesos tal que con éste
la neurona proporcionará siempre la salida correcta para todo vector de entrada en el
conjunto de entrenamiento. También debemos probar que el número de pasos requeridos,
para encontrar a tal vector de pesos, es finito.
El enunciado nos dice también que el vector de pesos que encontremos no
necesariamente es igual al vector de pesos W* que presuponemos existe. Esto implica que
de hecho los vectores de pesos que se obtienen mediante la Regla de Rosenblatt no son
únicos, y en consecuencia, pueden existir vectores de pesos diferentes que nos permiten
resolver el mismo problema. Esto es consistente con el hecho de que los problemas con los
cuales puede lidiar un Perceptrón son únicamente los linealmente separables.
Efectivamente, esta es una presuposición que debemos tomar en cuenta ya que aunque no
se menciona de manera explícita en el enunciado del Teorema, si la requeriremos para
efectuar su demostración. La sumatoria de salida del Perceptrón, en términos geométricos,
describe a un hiperplano que separará a los vectores de entrada en dos conjuntos. En este
sentido, por ejemplo, vale la pena recordar el modelado de funciones Booleanas
linealmente separables. Nuestros hiperplanos separaban a los vectores de entrada que
correspondían a los estados con salida 1 de los vectores de entrada que correspondían a los
estados con salida -1. Nos debe ser claro entonces que es posible la existencia de diferentes
hiperplanos, y en consecuencia diferentes vectores de pesos, que nos permitan cumplir con
este mismo fin haciendo que la neurona proporcione siempre las salidas correctas.
Habiendo efectuado la mención de las consideraciones a tomar en cuenta, ahora
procederemos a demostrar el Teorema de Convergencia del Perceptrón.
159
Una Introducción al Cómputo Neuronal Artificial
En primer lugar asumamos que los vectores de entrada para la neurona fueron
originados por dos clases linealmente separables. Llamemos a estas clases C1 y C2. Sea χ1
el subconjunto de los vectores de entrada que pertenecen a la clase C1 y sea χ2 el
subconjunto de los vectores de entrada que pertenecen a la clase C2. Es claro que el
conjunto de entrenamiento estará dado por χ1 ∪ χ2.
Dados los conjuntos χ1 y χ2 para entrenar al Perceptrón, se tiene que el
entrenamiento se encarga de ajustar su vector de pesos W tal que C1 y C2 sean linealmente
separables, o en otras palabras, el hiperplano asociado a la sumatoria de salida de
Perceptrón separe apropiadamente a C1 y C2.
Se espera que, una vez finalizado el entrenamiento, el vector de pesos W, para todo
vector de entrada E, satisfaga las siguientes dos condiciones:
•
•
Si E ∈ C1 entonces W⋅E > 0.
Si E ∈ C2 entonces W⋅E < 0.
Es decir, que los vectores en la clase C1 serán aquellos hacia los cuales apunte el vector
normal del hiperplano definido por la sumatoria de salida del Perceptrón. O bien, los
vectores de entrada en C1 estarán por encima del hiperplano, y en consecuencia, los
vectores en C2 estarán por debajo de tal hiperplano.
Nótese que hemos establecido las propiedades que deberá cumplir el vector de
pesos W una vez finalizado el entrenamiento. Ahora se debe establecer una metodología
para su construcción. Considérese el siguiente procedimiento:
a) Sea Wk el vector de pesos que actualmente tiene la neurona.
b) Considérese al k-ésimo vector de entrada, Ek, en el conjunto de entrenamiento. Si Ek es
correctamente clasificado ello implica que la neurona determinó acertadamente que
Ek ∈ χ1 o bien que Ek ∈ χ2. Por lo tanto, se aplicará una “corrección” a Wk y se obtendrá
el vector de pesos “actualizado” Wk+1:
b.1) Wk+1 = Wk
c) De lo contrario, si Ek fue clasificado de manera incorrecta por el Perceptrón, entonces el
vector de pesos Wk debe ser apropiadamente corregido y se obtiene por lo tanto el
nuevo vector de pesos Wk+1. Debemos manejar dos posibilidades de acuerdo al signo de
la sumatoria de salida Wk⋅Ek:
c.1) Ek ∈ χ2 pero Wk⋅Ek > 0, lo que implica que el vector fue incorrectamente
ubicado en χ1. Entonces aplicamos la corrección:
ƒ Wk+1 = Wk – Ek
c.2) Ek ∈ χ1 pero Wk⋅Ek < 0, lo que implica que el vector fue incorrectamente
ubicado en χ2. Entonces:
ƒ Wk+1 = Wk + Ek
160
Capítulo 6. Redes de Perceptrones
Asúmase, sin pérdida de generalidad, que se tiene el vector inicial de pesos W1 = 0,
es decir, el vector cero. Es claro que para todo vector de entrada Ek,
k = 1, 2, 3, …, Card(χ1), contenido precisamente en la clase χ1, se tiene que el Perceptrón,
equipado con los pesos en W1, clasifica incorrectamente a los vectores en χ1 ya que para
todos éstos se esperaría que W1⋅Ek > 0, lo cual evidentemente no se cumple (lo mismo
sucede con los vectores en la clase χ2). Nótese que de hecho W1⋅E1 = 0, pero sabemos en
que clase E1 debe ser ubicado. Usaremos entonces la regla de corrección Wk+1 = Wk + Ek.
Lo que haremos es que a partir del vector de pesos inicial W1 = 0 obtendremos, usando los
vectores de entrada en χ1, un vector Wk+1 que permita que la neurona los clasifique
correctamente. El vector Wk+1 se obtiene de manera iterativa:
•
•
•
•
•
•
•
W1 = 0
W2
= W1 + E1
W3
= W2 + E2
W4
= W3 + E3
…
(k-1)-ésima corrección: Wk
= Wk-1 + Ek-1
k-ésima corrección:
Wk+1 = Wk + Ek
Vector de pesos inicial:
Primer corrección:
Segunda corrección:
Tercer corrección:
= (0) + E1 = E1
= (E1) + E2
= (E1 + E2) + E3
= (E1 + E2 + … + Ek-2) + Ek-1
= (E1 + E2 + … + Ek-2 + Ek-1) + Ek
Recordemos que se presupone la existencia del vector de pesos W* el cual garantiza
que la neurona clasificará correctamente a todos los vectores de entrada y que se asume que
las clases C1 y C2 son linealmente separables. Entonces, se tiene que para todo vector Ek en
el conjunto de entrenamiento el vector W* efectivamente satisface las siguientes dos
condiciones:
•
•
Si Ek ∈ χ1 entonces W*⋅Ek > 0.
Si Ek ∈ χ2 entonces W*⋅Ek < 0.
En un problema linealmente separable tenemos que las salidas del Perceptrón deben
permitir inferir a cual de las dos clases, C1 o C2, pertenece un vector de entrada. Por ello
mismo, la salida de la neurona nos dice si un vector E está en χ1 ⊂ C1 o bien si está en
χ2 ⊂ C2. En este punto cabe hacer la aclaración de que C1 y C2 son particiones del espacio
n-Dimensional de tal forma que cuentan con un número infinito de elementos. C1 es el
conjunto de todos los puntos en \ n que están por encima del umbral definido por la
sumatoria de salida del Perceptrón, y por otro lado, C2 es el conjunto de todos los puntos
que están por debajo del umbral. De allí que hemos establecido, incluso en párrafos
anteriores, que χ1 ⊂ C1 y χ2 ⊂ C2.
Ahora definamos al conjunto χ'2 de la siguiente manera:
χ'2 = {(-1)E ∈ \ n : E ∈ χ2}
161
Una Introducción al Cómputo Neuronal Artificial
Es claro que χ'2 se conforma por todos los vectores en χ2 pero con dirección opuesta. Es
entonces evidente que los vectores en χ'2 están en C1 (los vectores en χ2 están en C2). Esto
tiene como consecuencia que el conjunto de entrenamiento del Perceptrón puede ser
redefinido como:
χ1 ∪ χ'2
Recordemos que el vector pesos W* satisface las condiciones:
• W*⋅Ek > 0 si Ek ∈ χ1
• W*⋅Ek < 0 si Ek ∈ χ2
Pero ahora, con la redefinición del conjunto de entrenamiento como χ1 ∪ χ'2 tenemos
entonces que las condiciones anteriores son equivalentes a la única condición:
• W*⋅Ek > 0 si Ek ∈ χ1 ∪ χ'2
Ello se debe a que si Ek está en χ'2 entonces W*⋅Ek > 0, pero Ek = (-1)E’k donde E’k está en
χ2 y por tanto W*⋅E’k < 0. Entonces tenemos que únicamente se requiere una sola regla de
actualización, expresada en términos de una suma, para efectuar correcciones asociadas a
vectores ubicados en χ1 o bien en χ2. El objetivo del conjunto χ'2 es únicamente el de
permitir unificar las reglas de corrección especificadas en los pasos c.1 y c.2 del
procedimiento de actualización del vector de pesos presentado previamente. A partir de este
punto supondremos que todos los vectores de entrada están en χ1 ∪ χ'2.
Se usará al vector de pesos W* para asegurar que la regla de actualización de pesos,
efectivamente permite encontrar un vector de pesos tal que la neurona clasifique
correctamente a todos los vectores de entrada del conjunto de entrenamiento. Sea γ1
definido como:
γ 1 = min {W * ⋅Ek }
(Ecuación 6.2.1)
Es decir, γ1 es el mínimo escalar elegido a partir de todos los productos punto entre W* y
cada vector de entrada Ek en el conjunto de entrenamiento.
Previamente se verificó que dado el vector de pesos inicial W1 = 0 el vector Wk+1
estaba dado por:
Wk+1 = Wk + Ek = (E1 + E2 + … + Ek-1) + Ek
(Ecuación 6.2.2)
Al efectuar un producto punto con el vector W* en ambos lados de la Ecuación 6.2.2 se
tiene:
W*⋅Wk+1 = W*⋅(E1 + E2 + … + Ek-1 + Ek)
162
(Ecuación 6.2.3)
Capítulo 6. Redes de Perceptrones
En el lado derecho de la Ecuación 6.2.3 haremos uso de la propiedad distributiva del
producto punto de vectores. Por lo tanto obtenemos:
W*⋅Wk+1 = W*⋅E1 + W*⋅E2 + … + W*⋅Ek-1 + W*⋅Ek
(Ecuación 6.2.4)
Por la definición de γ1 (Ecuación 6.2.1) se tiene que:
W*⋅Wk+1 = W*⋅E1 + W*⋅E2 + … + W*⋅Ek-1 + W*⋅Ek ≥ γ1k
⇔ W*⋅Wk+1 ≥ γ1k
Ello se debe a que cada término del lado derecho de la Ecuación 6.2.4 es mayor o igual a
γ1. Se tienen en total k términos y en consecuencia W*⋅Wk+1 ≥ γ1k. Si elevamos al cuadrado
ambos lados de la desigualdad tenemos que ésta claramente se preserva:
W * ⋅W
k +1
≥ γ 1k
⇔ (W * ⋅W k +1 ) ≥ γ 12 k 2
2
Ahora bien, por la desigualdad de Cauchy-Schwarz (Sección 2.4) tenemos que:
||W*||2⋅||Wk+1||2 ≥ (W*⋅Wk+1)2
Entonces:
W * ⋅ W k +1 ≥ (W * ⋅W k +1 ) ≥ γ 12 k 2
2
2
2
Al aplicar la propiedad transitiva del operador ≥ relacionamos directamente al extremo
izquierdo con el extremo derecho de la desigualdad:
W * ⋅ W k +1 ≥ γ 12 k 2
2
2
Nótese que el vector de pesos W* es diferente del vector cero. De lo contrario, con
cualquier vector de entrada E se tendría que W*⋅E = 0, lo que contradice los supuestos
establecidos respecto a W* en párrafos anteriores. De la desigualdad anterior multiplicamos
1
ambos lados por
y obtenemos:
2
W*
2
W k +1 ≥
γ 12 k 2
W*
2
163
Una Introducción al Cómputo Neuronal Artificial
Esta desigualdad nos indica que la magnitud al cuadrado del vector de pesos que se está
calculando crece con un factor k2, donde k es el número de veces que éste ha sido
actualizado. La misma desigualdad es también una Cota Inferior. Ésta nos dice que una vez
efectuadas k actualizaciones del vector de pesos, su magnitud al cuadrado será mayor o
γ 2k 2
igual al cociente 1 2 .
W*
Ahora se debe establecer una Cota Superior para el vector de pesos a fin de verificar
que los valores de sus componentes no crecen indefinidamente. De la Ecuación 6.2.2
tenemos que, dado el vector de pesos inicial W1 = 0, el vector Wk+1 esta dado por:
Wk+1 = (E1 + E2 + … + Ek-1) + Ek
⇔ Wk+1 = Wk + Ek
Sabemos que Wk+1 surge de aplicar una corrección al vector de pesos Wk. Ello implica que
con el vector de entrada Ek se obtuvo Wk⋅Ek < 0 (recuérdese que si el vector hubiese sido
clasificado correctamente se habría obtenido Wk⋅Ek > 0). Tenemos entonces que:
Wk+1 = Wk + Ek
⇔ ||Wk+1||2 = ||Wk + Ek||2
⇔ ||Wk+1||2 = ||Wk||2 + 2Wk⋅Εk + ||Εk||2
(Ecuación 6.2.5)
La Ecuación 6.2.5 surge del hecho de que para cualesquiera vectores u y v en \ n el
cuadrado de la magnitud de su suma, ||u + v||2 es igual a ||u||2 + 2u⋅v + ||v||2 (nótese la
analogía existente entre esta expresión con el desarrollo del binomio
(a + b)2 = a2 + 2ab + b2, a, b ∈ \ ). Dado que presuponemos que Wk⋅Εk < 0 entonces es
claro que -2Wk⋅Εk > 0. Al sumar precisamente -2Wk⋅Εk en ambos lados de la Ecuación 6.2.5
se obtiene:
||Wk+1||2 - 2Wk⋅Εk = ||Wk||2 + ||Εk||2
(Ecuación 6.2.6)
Recalcamos que - 2Wk⋅Εk es un número positivo. Entonces debe ser claro que:
||Wk+1||2 ≤ ||Wk+1||2 - 2Wk⋅Εk = ||Wk||2 + ||Εk||2
Y por transitividad se tiene la siguiente desigualdad:
||Wk+1||2 ≤ ||Wk||2 + ||Εk||2
Recordemos que el vector Wk surge de la corrección aplicada al vector de pesos Wk-1 con el
vector de entrada Ek-1. Es más, Wk-1 surge de actualizar al vector Wk-2 con el vector de
entrada Ek-2, y así sucesivamente hasta llegar a la actualización del vector de pesos inicial
164
Capítulo 6. Redes de Perceptrones
W1 usando el vector de entrada E1. Tomando esto en cuenta, desarrollemos el lado derecho
de la desigualdad anterior:
Wk
2
+ Ek
2
2
2
= Wk −1 + Ek −1 + Ek
(Wk = Wk −1 + Ek −1 )
2
2
= Wk −1 + 2Wk −1 ⋅ Ek −1 + Ek −1 + Ek
2
2
2
= Wk − 2 + Ek − 2 + 2Wk −1 ⋅ Ek −1 + Ek −1 + Ek
2
2
2
(Wk −1 = Wk − 2 + Ek − 2 )
2
= Wk − 2 + 2Wk − 2 ⋅ Ek − 2 + Ek − 2 + 2Wk −1 ⋅ Ek −1 + Ek −1 + Ek
=
2
"
#
2
= W2 + E2 + ... +
2
2
2
2
2
2
2
2
2
2
Wk − 2 + 2Wk − 2 ⋅ Ek − 2 + Ek − 2 + 2Wk −1 ⋅ Ek −1 + Ek −1 + Ek
2
(W3 = W2 + E2 )
2
= W2 + 2W2 ⋅ E2 + E2 + ... +
2
2
Wk − 2 + 2Wk − 2 ⋅ Ek − 2 + Ek − 2 + 2Wk −1 ⋅ Ek −1 + Ek −1 + Ek
2
2
= W1 + E1 + 2W2 ⋅ E2 + E2 + ... +
2
2
Wk − 2 + 2Wk − 2 ⋅ Ek − 2 + Ek − 2 + 2Wk −1 ⋅ Ek −1 + Ek −1 + Ek
2
2
(W2 = W1 + E1 )
2
= W1 + 2W1 ⋅ E1 + E1 + 2W2 ⋅ E2 + E2 + ... +
2
2
Wk − 2 + 2Wk − 2 ⋅ Ek − 2 + Ek − 2 + 2Wk −1 ⋅ Ek −1 + Ek −1 + Ek
k −1
k
j =1
j =1
= W1 + ¦ 2W j ⋅ E j + ¦ E j
2
k −1
k
j =1
j =1
= ¦ 2W j ⋅ E j + ¦ E j
2
2
(Dado que W1 = 0)
Concretizando:
Wk
2
+ Ek
2
k −1
k
j =1
j =1
= ¦ 2W j ⋅ E j + ¦ E j
2
(Ecuación 6.2.7)
Ahora bien, supongamos que para todo vector de pesos Wj, j = 1, …, k, se obtuvo que éste
clasificaba incorrectamente al vector Ej, es decir, en su momento se detectó que Wj⋅Ej < 0
(si el vector hubiese sido clasificado correctamente se habría obtenido Wj⋅Ej > 0). Ello
165
Una Introducción al Cómputo Neuronal Artificial
implica por un lado que tuvo que aplicarse una corrección a Wj a fin de obtener su versión
actualizada Wj+1. Pero por otro lado tenemos que entonces en la Ecuación 6.2.7 la suma
k −1
¦ 2W
⋅ Ej
j
j =1
es de hecho un número negativo. Recordemos que la Ecuación 6.2.7 es el lado derecho de
la desigualdad:
||Wk+1||2 ≤ ||Wk||2 + ||Εk||2
2
⇔ Wk +1 ≤ Wk
2
2
+ Ek
k −1
k
= ¦ 2W j ⋅ E j + ¦ E j
j =1
j =1
k −1
k
j =1
j =1
⇔ Wk +1 ≤ ¦ 2W j ⋅ E j + ¦ E j
2
2
2
Ahora bien, incorporando la observación de que Wj⋅Ej < 0 para j = 1, 2, …, k, entonces
podemos establecer:
Wk +1
2
k −1
k
¦ 2W j ⋅ E j + ¦ E j
≤
j =1
2
j =1
≤
k
¦
Ej
2
j =1
Y aplicando la propiedad transitiva del operador ≤ tenemos:
k
Wk +1 ≤ ¦ E j
2
2
j =1
Sea γ2 una constante positiva definida como:
{
γ 2 = max Ek
2
}
(Ecuación 6.2.8)
Es decir, γ2 es la mayor magnitud al cuadrado presente en los vectores de entrada del
conjunto de entrenamiento.
La siguiente desigualdad es claramente evidente:
Wk +1
2
k
≤ ¦ Ei
≤ kγ 2
i =1
⇔ Wk +1
166
2
2
≤ kγ 2
Capítulo 6. Redes de Perceptrones
Tenemos entonces que la magnitud al cuadrado del vector de pesos Wk+1 crece linealmente
2
con el número de iteraciones. Y en otras palabras, tenemos que Wk +1 está acotada
superiormente por el producto kγ 2 . Dado que γ2 depende directamente de los vectores de
entrada y k es el número de iteración, entonces hemos demostrado que la magnitud del
vector de pesos no diverge y en consecuencia sus componentes tampoco divergen.
Contamos ya con una Cota Superior y una Cota Inferior para el vector de pesos del
Perceptrón en la k-ésima iteración:
k 2γ 12
W*
≤ Wk +1 ≤ kγ 2
2
2
La Cota Inferior nos dice el valor mínimo esperado para la magnitud al cuadrado del vector
k 2γ 12
. Mientras que la Cota Superior nos dice que el vector de
de pesos. En este caso es
2
W*
pesos no crece de manera indefinida y que de hecho su magnitud al cuadrado es a lo más
kγ 2 .
El último punto de la demostración de nuestro Teorema requiere determinar el
número de iteraciones k necesarias para que la magnitud al cuadrado del vector de pesos
del Perceptrón sea igual tanto a su Cota Superior como a su Cota Inferior. ¿Por qué
buscamos igualar a las Cotas? Ello se debe a que queremos encontrar en que iteración los
pesos han convergido. Si el número k existe entonces hemos probado que el entrenamiento
de la neurona requiere de un número finito de iteraciones de tal forma que se tiene la
convergencia del vector de pesos de manera que se da solución al correspondiente
problema linealmente separable. Para tal efecto sea k = k . Por lo tanto, al igualar las Cotas
2
Superior e Inferior para Wk +1 se tiene:
(k ) γ
2
W*
2
1
2
= kγ 2
(Ecuación 6.2.9)
Realmente sólo se requieren unas manipulaciones simples para encontrar el valor de k :
167
Una Introducción al Cómputo Neuronal Artificial
(k )
2
γ 12
W*
⇔
2
= kγ2
k γ 12
W*
2
= γ2
γ W*
⇔k = 2 2
γ1
2
(Ecuación 6.2.10)
Por la Ecuación 6.2.1 tenemos que γ 1 = min {W * ⋅Ek } . Sabemos que el producto punto si
puede proporcionar en un momento dado el valor 0. Sin embargo, en el inicio de nuestra
demostración planteamos la suposición de que el vector W*, que presuponemos existe,
corresponde a un hiperplano que está colocado de manera tal que W*⋅Ek > 0 si Ek ∈ C1 o
bien que W*⋅Ek < 0 si Ek ∈ C2. Por lo tanto podemos garantizar que para todo vector en el
conjunto de entrenamiento W*⋅Ek ≠ 0 y en consecuencia γ1 ≠ 0. Entonces, la Ecuación
6.2.10 nos indica el número de iteraciones requerido de manera que el vector de pesos
resultante permita que el Perceptrón proporcione la salida correcta para todo vector de
entrada en el conjunto de entrenamiento. Con este punto ya validado tenemos debidamente
probado el Teorema de Convergencia del Perceptrón.
6.2.1 Discusión
La Regla de Rosenblatt descrita en la Sección 6.1, y expresada en la Ecuación
6.1.5, nos dice que el j-ésimo peso de un Perceptrón, wj, debe ser actualizado en función de:
• Un Coeficiente de Aprendizaje α;
• El error Err existente entre la salida O proporcionada por la neurona y la salida T
esperada;
• Y finalmente, por el j-ésimo componente del vector de entrada E: Ij.
Es decir:
wj = wj + α⋅Err⋅Ij
j = 1, 2, …, n
O en términos vectoriales, donde W es el vector de pesos de la neurona:
W = W + α⋅Err⋅E
Donde, por la Ecuación 6.1.4, Err = T – O y a su vez, por la Ecuación 6.1.3, la salida O
está dada por:
O = g (W ⋅ E )
La Función de Activación g se asume continua y diferenciable en (-∞, ∞).
168
Capítulo 6. Redes de Perceptrones
Ahora bien, consideremos algunos puntos que se establecen en el Teorema de
Convergencia y que, de primera vista, pueden contrastar con lo previamente mencionado:
• El Teorema hace alusión a la Función de Activación g únicamente en su enunciado,
pero no la utilizamos en la demostración.
• Tampoco se hace mención del error existente entre la salida de la neurona y la salida
esperada, es decir, el valor Err.
• Nunca se menciona al Coeficiente de Aprendizaje α. Ni en el enunciado ni en la
demostración.
• El enunciado del Teorema establece que la convergencia se debe garantizar para
cualquier vector de pesos inicial, sin embargo, en la demostración utilizamos
únicamente como vector de pesos inicial a W1 = 0 (el vector cero).
El objetivo de esta Sección es el de analizar uno a uno los puntos antes enunciados a fin de
clarificar las aparentes diferencias entre lo que se enuncia y demuestra en el Teorema de
Convergencia y lo establecido por la Regla de Rosenblatt.
Analicemos en primer lugar la aparente ausencia de la Función de Activación g en
la demostración del Teorema de Convergencia. En la Sección 4.1 comentamos que el rol de
la Función de Activación es el de mantener las salidas de las neuronas dentro de ciertos
límites. O desde otra perspectiva, la Función de Activación simplemente aplica un
escalamiento al valor de W⋅E. Recordemos que el Perceptrón solo es capaz de resolver
problemas de clasificación binaria: el vector de entrada forma parte de una clase A o de una
clase B, donde A y B son disjuntas. El valor de W⋅E se debe interpretar de manera que se
determine en qué clase ha ubicado la neurona a su vector de entrada. Si la función g aplica
un escalamiento sobre W⋅E entonces el valor escalado, g(W⋅E), debe interpretarse también
de manera pueda inferirse correctamente a que clase pertenece el vector de entrada. La
elección de g depende del problema en consideración. Y de hecho g podría ser la Función
Identidad en donde tenemos que no se aplica escalamiento alguno al valor de W⋅E. En este
sentido, la demostración del Teorema podría asumirse que trabaja específicamente usando
como Función de Activación a la Función Identidad. Dado que el Teorema utiliza el signo
de W⋅E para decidir si un vector de entrada fue correctamente clasificado, entonces si se
deseara incorporar una Función de Activación g diferente a la Identidad simplemente habría
que considerar el rango de valores arrojados por g(W⋅E) y establecer los intervalos bajo los
cuales se determina una clasificación correcta o incorrecta del vector de entrada E.
Ahora veamos la razón por la cual la Ecuación 6.1.4, Err = T – O, no es
mencionada. El Teorema de Convergencia parte de la suposición de que el problema a
resolver es efectivamente linealmente separable. Por ello mismo se asume la existencia de
un vector de pesos W* que permite la separación lineal efectiva de los elementos del
conjunto de entrenamiento en dos clases. Recordemos, tal como se estableció en la Sección
6.1, que el valor de Err = T – O puede ser positivo o negativo. Si el error, Err, es positivo
entonces la salida O de la neurona debe ser incrementada. Por otro lado, si el error es
negativo entonces la salida O de la neurona debe reducirse. En concreto, el objetivo del
valor Err es simplemente indicarnos como deberán ser modulados los pesos de la neurona:
169
Una Introducción al Cómputo Neuronal Artificial
si éstos se aumentan o se reducen. En la demostración del Teorema de Convergencia
tenemos que precisamente por contar con el vector de pesos W* es que podemos determinar
si el vector de pesos actual W en el Perceptrón clasifica correcta o incorrectamente. De
acuerdo a la demostración tenemos que si, dado el vector de entrada E, W⋅E > 0 pero
W*⋅E < 0 o bien, en el otro caso posible, si W⋅E < 0 pero W*⋅E > 0, entonces un ajuste de
pesos era requerido. El ajuste simplemente consistía en aumentar o reducir los pesos.
Tenemos entonces que el vector W* hace precisamente la función del valor Err: nos indica
el criterio de actualización de pesos a utilizar. En la práctica realmente nunca contamos con
el vector de pesos W*, de lo contrario, no se requeriría entrenar al Perceptrón porque
precisamente ya contamos con su vector de pesos óptimo. Al no contar con W* es que
requerimos de un criterio para determinar si los pesos deben ser aumentados o reducidos
durante el entrenamiento y ese es precisamente el papel de la Ecuación 6.1.4. Para efectos
de la demostración del Teorema, y para enfatizar el hecho de que se están tratando
problemas linealmente separables, es que se presupone la existencia de W*, pero hemos
visto que su papel es equivalente al del valor Err.
¿Por qué está ausente el Coeficiente de Aprendizaje α en la demostración del
Teorema de Convergencia? Primeramente veamos algunas propiedades de la Regla de
Rosenblatt, tal como la planteamos en la Sección 6.1. Vectorialmente, ésta está dada por:
W = W + α⋅Err⋅E
Ya habíamos hecho patente la similitud de esta regla de actualización con la presentada en
la Sección 4.3, la cual estaba basada en búsqueda de vector gradiente mediante Descenso
Escalonado. Para la Regla de Rosenblatt consideremos la siguiente Función de Error:
ME =
1
N
N
¦ (T
k
− Ok ) 2
(Ecuación 6.2.11)
k =1
Donde Tk es la salida esperada para el k-ésimo vector de entrada Ek y Ok es la salida
proporcionada por la neurona al presentarle precisamente Ek. Nótese que el lugar
geométrico descrito por la Ecuación 6.2.11 es también dependiente de la Función de
Activación utilizada. Si g es la Función Identidad entonces sabemos que ME es un
hiperparaboloide. A partir de la función ME podemos obtener funciones de error que no
dependen de todo el conjunto de entrenamiento (formado por N vectores de entrada). Es
decir, y tal como lo hicimos en el método de Descenso Escalonado, podemos considerar
únicamente el k-ésimo término de la sumatoria de la Ecuación 6.2.11:
§
§ n
··
MEk = (Tk - Ok) = ¨ Tk − g ¨ ¦ w j I j ¸ ¸
¨
¸
© j =1
¹¹
©
2
170
2
(Ecuación 6.2.12)
Capítulo 6. Redes de Perceptrones
Donde los escalares wj e Ij forman parte del vector de pesos actual W y del vector de
entrada Ek, respectivamente. Es claro que la Ecuación 6.2.12 no es más que el cuadrado de
la función Err presentada originalmente en la Ecuación 6.1.4. La función MEk, o de
manera equivalente, Err2, es un estimador para la función ME (Ecuación 6.2.11). Por lo
tanto, la minimización de Err2 = MEk es también un estimador para la minimización de ME.
Ahora requerimos el vector gradiente de Err2. El vector gradiente, como bien sabemos, nos
indica la dirección para maximizar a Err2. En consecuencia, nos movemos en la dirección
opuesta para minimizarla. La Regla de Rosenblatt como tal no calcula un vector gradiente
para determinar hacia que región, del lugar geométrico asociado a la función ME, nos
debemos mover. Pero es claro que la interpretación que se da al signo de la función Err nos
indica precisamente como debemos movernos. Si Err > 0 entonces debemos movernos de
manera que la salida de la neurona aumente. Si Err < 0 entonces nos movemos de tal forma
que el valor de salida de la neurona se reduce. Ahora bien, Err es un escalar, mientras que
el gradiente es un vector. Tal vector, en el método de Descenso Escalonado, está dado, en
parte, en función del vector de entrada actual Ek. Por lo tanto, tenemos que el valor de Err
para tal fin, en la Regla de Rosenblatt, es multiplicado por el vector de entrada actual. Al
final es claro que el vector Err⋅E cumple con la misma función que el vector gradiente de
Err2. Ahora bien, en el entrenamiento del Perceptrón mediante Descenso Escalonado
(Sección 4.3) establecimos que la función del Coeficiente de Aprendizaje es la de
establecer la velocidad de aprendizaje por parte de la neurona. Sabemos que la elección de
este valor influye sobre el número de iteraciones que el método de entrenamiento efectuará.
Un número reducido de iteraciones puede verse como un rápido aprendizaje. En términos
geométricos, el Coeficiente de Aprendizaje define, en parte, el tamaño del desplazamiento
que efectuará el vector de pesos actual cuando es actualizado y por tanto colocado en otra
región del lugar geométrico definido por la función de error ME. El valor del Coeficiente
influye en gran medida en que tan rápido nos acercaremos, o alejaremos inclusive (si éste
fue mal elegido), de manera progresiva a la minimización de la función ME. Debe ser claro
que la función del Coeficiente α es la misma en la Regla de Rosenblatt: permitir la
aceleración de la convergencia del vector de pesos. Por tanto, hemos posicionado a la Regla
como un método de minimización de la función ME (Ecuación 6.2.11). La Regla no
calcula vectores gradientes a lo largo de la búsqueda pero se puede apreciar que el término
de actualización α⋅Err⋅E cumple precisamente con la función de ir dirigiéndola.
Ahora bien, retomemos el punto referente al rol del Coeficiente del Aprendizaje en
el Teorema de Convergencia. En párrafos anteriores mencionamos que en la práctica, a
diferencia de las presuposiciones del Teorema, sólo contamos con un vector de pesos
inicial, que por lo general es inicializado de manera aleatoria. Nótese que por lo regular
tampoco analizamos las propiedades geométricas y topológicas asociadas al lugar
geométrico relacionado con la función ME: la función que precisamente buscamos
minimizar. El Coeficiente de Aprendizaje representa un parámetro que se nos proporciona
para acelerar la convergencia de los pesos y también para modular la precisión con que se
explora a la función ME. El Teorema de Convergencia, contando ya desde un principio con
existencia del vector de pesos óptimo W*, únicamente establece que efectivamente se
puede lograr la convergencia del vector de pesos, y que el número de iteraciones requerido
171
Una Introducción al Cómputo Neuronal Artificial
es finito. El Teorema no considera el problema de minimizar tal número de iteraciones. Es
decir, no lidia con la cuestión de la velocidad de aprendizaje. Sin embargo, nótese que es
posible asumir que el Coeficiente de Aprendizaje utilizado en la demostración es α = 1. En
conclusión debemos entender que el rol del Coeficiente de Aprendizaje queda fuera de los
objetivos del Teorema de Convergencia, pero su importancia en la práctica se hace evidente
cuando se entrena al Perceptrón a fin de modelar problemas particulares.
Por último, hagamos mención de la cuestión relacionada al vector de pesos inicial.
El enunciado del Teorema indica claramente que la convergencia se alcanza partiendo de
cualquier vector de pesos inicial. Sin embargo, la demostración establece que el vector de
pesos inicial utilizado es W1 = 0: el vector cero. Pero precisamente al establecer el uso del
vector cero se hace mención que esta aplicación no produce pérdida de generalidad en la
demostración del Teorema. El vector cero, como vector de pesos inicial, permite que la
identificación de las cotas Superior e Inferior para el vector de pesos en la k-ésima iteración
sean fáciles de calcular e interpretar. Gracias a ello sabemos, por la Cota Inferior, que la
magnitud al cuadrado del vector de pesos crece con un factor k2, mientras que por otro lado,
la Cota Superior nos dice que el vector de pesos no crece de manera indefinida y que de
hecho su magnitud al cuadrado es a lo más kγ 2 . Si la prueba fuese efectuada considerando
cualquier vector de pesos W1, y debido a que W2 = W1 + E1, donde, recalcamos, W1 no
necesariamente es el vector cero, entonces la Ecuación 6.2.4 tendría la siguiente forma:
W*⋅Wk+1 = W*⋅W1 + W*⋅E1 + W*⋅E2 + … + W*⋅Ek-1 + W*⋅Ek
(Ecuación 6.2.13)
Nótese que γ1k sigue acotando inferiormente a la suma
W*⋅E1 + W*⋅E2 + … + W*⋅Ek-1 + W*⋅Ek
Por lo tanto ahora tendríamos:
W*⋅Wk+1 = W*⋅W1 + W*⋅E1 + W*⋅E2 + … + W*⋅Ek-1 + W*⋅Ek ≥ W*⋅W1 + γ1k
⇔ W*⋅Wk+1 ≥ W*⋅W1 + γ1k
Por la desigualdad de Cauchy-Schwarz:
W * ⋅ W k +1 ≥ (W * ⋅W k +1 ) ≥ ( γ 1 k + W * ⋅W1 )
2
2
2
⇔ W * ⋅ W k +1 ≥ ( γ 1 k + W * ⋅W1 )
2
⇔ W k +1
172
2
(γ
≥
1
k + W * ⋅W1 )
W*
2
2
2
=
2
2
γ 12 k 2 + 2γ 1 k (W * ⋅W1 ) + (W * ⋅W1 )
W*
2
2
Capítulo 6. Redes de Perceptrones
Se ha obtenido entonces la Cota Inferior para el cuadrado de la magnitud del vector de
pesos en la k-ésima iteración y partiendo de cualquier vector de pesos inicial W1. Es claro
que cuando W1 = 0 entonces
γ 12 k 2 + 2γ 1 k (W * ⋅0 ) + (W * ⋅0 )
W*
2
2
=
γ 12 k 2
W*
2
Que es precisamente la Cota Inferior presentada en la demostración del Teorema de
Convergencia. Es evidente que esta Cota Inferior, considerando cualquier vector de pesos
inicial, es tan válida como la que se proporcionó en la demostración del Teorema de
Convergencia. De manera similar podemos obtener la correspondiente Cota Superior. Pero
debe apreciarse que éstas, al contar con más términos, puede que dificulten su
manipulación y hagan que la demostración se extienda de manera innecesaria sobre todo si
se requiere que las cotas sean tan ajustadas como sea posible. Finalmente, ya sea que se use
únicamente el vector de pesos inicial W1 = 0 o bien que éste sea cualesquiera, se llega a la
misma conclusión: se tiene probada la convergencia de los pesos de la neurona, que éstos
están debidamente acotados para cada iteración y que el número de iteraciones requeridas
para alcanzar la convergencia es finito.
6.3 Retropropagación
El lector se debe estar cuestionando acerca de la razón para revisitar al Perceptrón al
considerar la Regla de Rosenblatt para su entrenamiento y su correspondiente Teorema de
Convergencia. La razón es sencilla: la Regla de Rosenblatt representa el punto de partida
para los fundamentos a adoptar en el Algoritmo de Retropropagación en lo que respecta al
ajuste de pesos en una red formada por Perceptrones. Contrastemos este punto con el
mecanismo de ajuste de pesos para una red Madaline presentado en la Sección 5.2. En tal
procedimiento establecimos el principio de búsqueda de una neurona o neuronas
“culpables”. Si éstas existían entonces modificábamos de manera “abrupta” sus pesos de tal
forma que su salidas permitan que la salida final de la red sea la correcta, es decir, la
esperada. ¿Qué queremos decir cuando usamos el término “abrupto”? Nos referimos a que
los pesos originales de una neurona eran desechados por completo y sustituidos por otros
nuevos. Sin embargo, la Regla de Rosenblatt, y también el método de Descenso Escalonado
(Sección 4.3), realizan una actualización de pesos, pero ésta es gradual. Los pesos
originales son en parte conservados al serles aplicada una modificación que no los
reemplaza por completo por otros. Dado que esta modificación se aplica por cada vector de
entrada en el conjunto de entrenamiento, es que entonces la modificación es gradual.
Precisamente el principio del ajuste gradual de pesos fue adoptado por Rumelhart,
Hinton y Williams al presentar, en 1986, al Algoritmo de Retropropagación
(Back-Propagation Algorithm). Como a cualquier otro método de entrenamiento, se le
presenta a la red un vector del conjunto de entrenamiento. Si ésta calcula una salida que
coincida con la esperada entonces no se hace nada. Pero, si existen diferencias entre la
173
Una Introducción al Cómputo Neuronal Artificial
salida de la red y la salida esperada entonces los pesos deben ser ajustados de manera que el
error sea disminuido. Pero Rumelhart y compañía dieron un paso más que resulta ser una de
las novedades del algoritmo. Cuando un error entre la salida de la red y la esperada ha sido
identificado, entonces éste se distribuye y se utiliza para ajustar a todos los pesos de todas
las neuronas que forman las capas ocultas y de salida de la red. El ajuste aplicado en ese
momento busca hacer más pequeño el error entre la salida esperada y la salida producida
por la red, pero tampoco busca eliminarlo por completo en ese momento. Es decir, se tiene
por un lado un ajuste gradual de pesos que en consecuencia también reduce gradualmente
los errores, y por otro lado, no se busca identificar una sola o varias neuronas culpables: a
todas las neuronas se les atribuye una contribución al error generado y es por ello que a
todas se les deben ajustar sus respectivos pesos.
Al mecanismo de entrenamiento se le llama de Retropropagación debido a que
inicialmente el error de salida de la red es identificado a nivel de su capa de salida. Se dice
entonces que las salidas de las neuronas en esta capa se interpretan al compararlas con las
salidas esperadas. Por ello mismo los pesos en la capa de salida son los primeros en ser
modificados. Previamente mencionamos que las salidas de las capas ocultas realmente no
se pueden interpretar, aunque si son accesibles y también contribuyeron en su momento a la
salida errónea de la red. Por ello mismo una vez modificados los pesos en la capa de salida
se procede a modificar los pesos en las neuronas de la última capa oculta, posteriormente
los pesos de las neuronas en la penúltima capa oculta y así sucesivamente hasta llegar a la
modificación de pesos en la primera capa oculta. Es decir, a diferencia de la propagación de
un vector de entrada de la capa de entrada hacia las ocultas y finalmente a la de salida, la
actualización de pesos implica una Retropropagación, que va en el sentido opuesto.
Analizaremos en primer lugar, en la siguiente Sección, la instancia del Algoritmo de
Retropropagación bajo redes de Perceptrones formadas únicamente por una única capa
oculta. Posteriormente, en la Sección 6.4, veremos el caso general con varias capas ocultas.
6.3.1 Retropropagación en una Red de una Sola Capa Oculta
Considérese la Red de Perceptrones, de una sola capa oculta, presentada en la
Figura 6.2. Sean:
• n1: el número de neuronas en la capa de entrada.
• n2: el número de neuronas en la capa oculta.
• n3: el número de neuronas en la capa de salida.
Por la Figura 6.2 es claro que la red recibirá un vector de entrada X en \ n1 y proporcionará
como salida un vector en \ n3 . Sea g la función de activación utilizada en todas las
neuronas. Se asume que ésta es continua y diferenciable en (-∞, ∞). En nuestro caso,
supondremos que el número de neuronas en la capa de entrada es el mismo que de
componentes de los vectores de entrada: n1. Nótese también que cada neurona en la capa de
entrada recibe únicamente un componente del vector de entrada y que la salida de cada una
de estas neuronas se propaga a todas las neuronas de la capa oculta. Debe ser claro que las
neuronas que forman la capa de entrada contarán con un único peso el cual se multiplica
por el único escalar que reciben y el resultado es sometido a la Función de Activación g.
174
Capítulo 6. Redes de Perceptrones
Por lo general, el rol de las neuronas de la capa de entrada es el de simplemente recibir su
correspondiente escalar y propagarlo de manera inmediata a todas las neuronas de la capa
oculta. Ello quiere decir que podría considerarse que el valor de su único peso es igual a 1 y
que estas neuronas, en particular, cuentan con la Función Identidad como Función de
Activación. Por lo mismo de que su función es la de recibir y propagar el vector de entrada,
sin alterar los valores de sus componentes, es que estas neuronas no serán consideradas en
el proceso de ajuste de pesos. Realmente nos interesará ajustar los pesos de las neuronas en
las capas oculta y de salida que son las que se encargan de dar solución al problema que se
esté considerando. Finalmente, y como bien sabemos, la salida de cada neurona en la capa
oculta se propaga a todas las neuronas en la capa de salida.
x1
I1
o1
ajj
oi
an2
o n3
I2
x2
Ik
xk
xn
a1
1
In1
Figura 6.2. Una red de Perceptrones con una única capa oculta
(Véase el texto para detalles).
Sea T un vector en \ n3 . El vector T será de hecho un vector de salida esperada, en
donde Ti será su i-ésimo componente. Sea Oi la salida proporcionada por la i-ésima neurona
en la capa de salida de la red.
Como ya mencionamos en la Sección anterior, la Retropropagación, para el ajuste
de los pesos, en este tipo de red comprende dos fases:
•
•
Fase 1: Actualización de los pesos en las Neuronas en la Capa de Salida.
Fase 2: Actualización de los pesos en las Neuronas en la Capa Oculta.
175
Una Introducción al Cómputo Neuronal Artificial
Describamos en primer lugar el ajuste de pesos en las Neuronas de la Capa de
Salida. Considérese a la i-ésima neurona en esta capa, i = 1, 2, …, n3. Dado que ésta es una
neurona de tipo Perceptrón tenemos que su Sumatoria de Salida está dada por:
n2
enti = ¦ w j ,i a j
(Ecuación 6.3.1)
j =1
Nótese que esta neurona recibe como entrada un vector de n2 componentes que se forma
precisamente por las salidas de las neuronas en la capa oculta (Véase la Figura 6.2). Por lo
tanto, cada j-ésimo peso de nuestra i-ésima neurona en consideración, wj,i, se multiplicará
por el j-ésimo componente del vector de entrada, es decir, por la salida generada por la
j-ésima neurona en la capa oculta: aj. La salida final Oi está dada por la aplicación de la
función de activación g sobre el valor enti de la Sumatoria de Salida:
Oi = g(enti)
(Ecuación 6.3.2)
Ahora bien, suponiendo que debemos aplicar una corrección a nuestro Perceptrón, tenemos
entonces que aplicar la siguiente regla a cada uno de sus n2 pesos. Es decir, la actualización
del j-ésimo peso, wj,i, j = 1, 2, …, n2, estará dada por:
wj,i = wj,i + α⋅aj⋅Δi
(Ecuación 6.3.3)
Donde:
• wj,i: j-ésimo peso de la i-ésima neurona de la capa de salida.
• α: Coeficiente de aprendizaje.
• aj: Salida de la j-ésima neurona en la capa oculta.
A Δi, llamado el Término de Variación o Cambio de la i-ésima neurona de la Capa de
Salida, se le define de la siguiente manera:
Δi = Erri ⋅ g’(enti)
(Ecuación 6.3.4)
Erri es la diferencia entre el i-ésimo componente del vector de salida esperada y la salida
proporcionada por la i-ésima neurona en la capa de salida. Es decir:
Erri = Ti - Oi
176
(Ecuación 6.3.5)
Capítulo 6. Redes de Perceptrones
Por otro lado, g’ no es más que la derivada de la función de activación. Dado que g se
asume continua y diferenciable en cualquier punto, es que g’ no tendrá problemas de
indefinición y por tanto el ajuste de pesos será posible para cualquier neurona de cualquier
capa. En particular, g’ será evaluada, en el caso de las neuronas en la capa de salida, tal
como lo indica la Ecuación 6.3.4, con el valor de la Ecuación 6.3.1:
§ n2
·
g '(enti ) = g ' ¨ ¦ w j ,i a j ¸
© j =1
¹
(Ecuación 6.3.6)
Ahora procedamos a describir la manera en que los pesos de las neuronas en la capa
oculta son actualizados. Consideremos a la j-ésima neurona en la capa oculta, 1 ≤ j ≤ n2.
Véase la Figura 6.2. Ahora bien, la actualización del k-ésimo peso en la j-ésima neurona,
wk,j, de la capa oculta se da mediante la aplicación de la regla:
wk,j = wk,j + α⋅Ik⋅Δj
(Ecuación 6.3.7)
Donde Ik es la salida de la k-ésima neurona en la capa de entrada y α es el Coeficiente de
aprendizaje (el mismo utilizado para actualizar a las neuronas en la capa de salida).
Recordemos que, en base a lo establecido en párrafos anteriores, el valor Ik no es más que el
valor del k-ésimo componente del vector de entrada X. Es decir, Ik = xk (véase la Figura
6.2). El término Δj, denominado Término de Variación o Cambio de la j-ésima neurona
en la Capa Oculta, está dado por:
n3
Δ j = g '(ent j ) ⋅ ¦ w j ,i Δ i
(Ecuación 6.3.8)
i =1
Se requiere la derivada de la Función de Activación g, es decir, g’. Está será evaluada con
el valor proporcionado por la sumatoria de salida de la neurona que se está actualizado:
n1
ent j = ¦ wk , j I k
(Ecuación 6.3.9)
k =1
Tomando como referencia a la Figura 6.2, la sumatoria se conforma por n1 términos debido
a que cada uno de éstos es la salida que proporciona cada una de las neuronas en la capa de
entrada. Es decir, cada neurona en la capa oculta recibe un vector de entrada en \ n1 . Ahora
bien, en Secciones y párrafos anteriores mencionábamos que uno de los principios del
Algoritmo de Retropropagación es el de distribuir el error de la red entre todas las neuronas
que la conforman y utilizarlo para el ajuste de sus pesos. Previamente vimos como tal error
era utilizado para actualizar los pesos de las neuronas en la capa de salida (Ecuaciones
6.3.3 a 6.3.5). Ahora debemos ver como es que el error de la red es también utilizado para
actualizar los pesos de las neuronas en la capa oculta. Es claro que para toda neurona en la
capa oculta su salida, el escalar aj, es enviado a todas las neuronas en la capa de salida
177
Una Introducción al Cómputo Neuronal Artificial
(véase la Figura 6.2) y en particular se relacionará específicamente con su j-ésimo peso:
w j ,i . Al final, el producto w j ,i ⋅ a j contribuye al valor de la Sumatoria de Salida de las
neuronas en la capa de salida (véase la Ecuación 6.3.1), y en consecuencia, a la salida final
de la red. Por tanto, es claro que las neuronas en la capa oculta son en parte responsables
por el error que se produce en cada uno de los Perceptrones de salida con los que se
conectan. Ahora observemos la sumatoria presente en el término Δj (Ecuación 6.3.8):
n3
¦w
j ,i
Δi
i =1
Δi es precisamente el Término de Variación o Cambio que se utilizó para actualizar a la
i-ésima neurona en la capa de salida y a su vez, tal como lo muestra la Ecuación 6.3.4,
cuenta con el error existente entre la salida Oi proporcionada por la neurona y la salida Ti
esperada. Es claro que entonces parte de la actualización, o corrección, aplicada sobre las
neuronas en la capa de salida será también aplicada a las neuronas en la capa oculta. Esto
también tiene como consecuencia que para aplicar la regla de actualización de la Ecuación
3.6.7 se requiere haber actualizado primeramente a las neuronas en la capa de salida
mediante la Ecuación 6.3.3 y preservar los valores Δi. De allí el término Retropropagación.
Dado que las Ecuaciones 6.3.4 y 6.3.8 requieren que la Función de Activación sea
continua y diferenciable en (-∞, ∞), resulta obvio que funciones como sign (Sección 3.1)
no pueden ser consideradas. En la Sección 4.1 comentamos que por lo regular se usan las
siguientes funciones y sus correspondientes derivadas:
•
Función Sigmoide:
•
Función
1 + Tanh( z )
:
2
•
Función Tanh(z/2):
•
Función Tanh(z):
g ( z) =
1
,
1 + e− z
e2 z
,
1 + e2 z
2
g ( z) =
−1 ,
1 + e− z
g ( z) =
g ( z) =
1 − e −2 z
,
1 + e −2 z
g '( z ) =
e− z
(1 + e − z ) 2
g '( z ) =
2e 2 z
(1 + e 2 z ) 2
2e − z
g '( z ) =
(1 + e − z ) 2
g '( z ) =
4e 2 z
(1 + e 2 z ) 2
Debido a que el Algoritmo de Retropropagación requiere en primer lugar obtener la
salida producida por la red cuando un vector de entrada le es presentado, entonces es que
debemos implementar el mecanismo mediante el cual precisamente tal vector de entrada es
procesado. El Algoritmo 6.2 implementa la propagación de un vector de entrada hacia cada
una de las capas de la red. El algoritmo recibe como entrada 6 parámetros:
178
Capítulo 6. Redes de Perceptrones
•
•
•
•
Tres enteros n1, n2 y n3 que denotan, respectivamente, el número de neuronas en la capa
de entrada, el número de neuronas en la capa oculta y el número de neuronas en la capa
de salida.
Una matriz W_hidden de tamaño n2 × n1. Esta matriz contiene los pesos de las neuronas
en la capa oculta. Recordemos que tal capa se forma por n2 neuronas y cada una de
estas cuenta con n1 pesos. Por ello mismo, la información referente a la j-esima neurona
está contenida en el j-ésimo renglón de la matriz.
Una matriz W_output de tamaño n3 × n2. Contiene la información referente a las n3
neuronas que forman la capa de salida. Los n2 pesos del i-ésimo Perceptrón están
localizados precisamente en el i-ésimo renglón de esta matriz.
Un vector X en \ n1 . Es el vector de entrada que se presentará a la red.
El Algoritmo 6.2 procede de la siguiente manera:
•
•
Cada componente del vector de entrada X es enviado a su respectiva neurona en la capa
de entrada. Dado que estamos considerando el hecho de que el rol de estas neuronas es
el de simplemente propagar a X hacia la capa oculta, entonces en consecuencia
tendremos que el vector I generado por la capa de salida no es más que una copia del
vector de entrada X.
El vector I es presentado a las neuronas en la capa oculta. Para la j-ésima neurona en
esta capa, j = 1, …, n2:
n1
o Se calcula su sumatoria de salida: ent j = ¦ wk , j I k .
k =1
o Se determina su salida aj = g(entj).
•
Las salidas de las neuronas en la capa oculta forman un vector a de n2 componentes.
Ahora el vector a será enviado como entrada a las neuronas en la capa de salida. Para la
i-ésima neurona en la capa de salida, i = 1, …, n3:
n2
o Se calcula su sumatoria de salida: enti = ¦ w j ,i a j .
j =1
o Se determina su salida Oi = g(enti).
•
Las salidas de las neuronas en la capa de salida forman un vector O de n3 componentes.
Este vector es precisamente la salida final que la red proporciona.
El Algoritmo 6.2 proporciona como salida el vector O y también al vector a, el vector
generado por la capa oculta, debido a que éste último es requerido por el Algoritmo de
Retropropagación. Nótese que nuestro algoritmo invoca a un procedimiento g, que no es
más que la implementación de la Función de Activación.
179
Una Introducción al Cómputo Neuronal Artificial
Algoritmo 6.2. Propagación de un vector de entrada
en una red de Perceptrones con una única capa oculta.
Procedure Propagation
(Integer n1, Integer n2, Integer n3, Matrix W_hidden[1,…,n2][1,…,n1],
Matrix W_output[1,…,n3][1,…,n2], Array X[1,…,n1])
I = new Array[1,…,n1]
a = new Array[1,…,n2]
O = new Array[1,…,n3]
// Cada componente del vector de entrada es enviado a su respectiva neurona
// en la capa de entrada.
for k = 1 until n1 do
I[k] = X[k]
end-of-for
// El vector I es enviado como entrada a cada neurona en la capa oculta.
for j = 1 until n2 do
n1
// Se calcula, para la j-ésima neurona en la capa oculta, ent j = ¦ wk , j I k .
k =1
Real ent_j = 0
for k = 1 until n1 do
ent_j = ent_j + W_hidden[j][k] * I[k]
end-of-for
// Se obtiene, para la j-ésima neurona en la capa oculta,
// su salida aj = g(entj).
a[j] = g(ent_j)
end-of-for
// El vector a es enviado como entrada a cada neurona en la capa de salida.
for i = 1 until n3 do
n2
// Se calcula, para la i-ésima neurona en la capa de salida, enti = ¦ w j ,i a j .
j =1
Real ent_i = 0
for j = 1 until n2 do
ent_i = ent_i + W_output[i][j] * a[j]
end-of-for
// Se obtiene, para la i-ésima neurona en la capa de salida,
// su salida Oi = g(enti).
O[i] = g(ent_i)
end-of-for
// Se retornan como salida el vector a generado por las salidas de las neuronas
// en la capa oculta y el vector O que corresponde a la salida final de la red.
return {a, O}
end-of-procedure
180
Capítulo 6. Redes de Perceptrones
El Algoritmo 6.3 representa la implementación del método de Retropropagación
para el entrenamiento de una red de Perceptrones con una única capa oculta. Se reciben en
total 8 entradas:
• Un entero N: el número de elementos en el conjunto de entrenamiento.
• Tres enteros n1, n2 y n3 que denotan, respectivamente, el número de neuronas en la capa
de entrada, el número de neuronas en la capa oculta y el número de neuronas en la capa
de salida.
• Un entero L: el número de veces que el conjunto de entrenamiento será presentado a la
red. O en otras palabras, el número de épocas a aplicar.
• Un número real positivo α: el Coeficiente de Aprendizaje.
• Una matriz X de N × n1: contiene los N vectores de entrada del conjunto de
entrenamiento. Cada vector cuenta con n1 componentes. Por tanto, el n-ésimo vector de
entrada estará localizado en el renglón n de X.
• Una matriz T de N × n3: contiene los vectores que se espera la red proporcione.
El n-ésimo vector de salida esperada se ubica en el renglón n de la matriz T y cuenta
con n3 componentes.
En esencia, y de acuerdo al mecanismo de Retropropagación descrito en los párrafos
anteriores, el Algoritmo 6.3 funciona de la siguiente manera:
• Se inicializan los pesos de todas las neuronas en las capas oculta y de salida. Por lo
regular los valores iniciales asignados están en el intervalo (-1, 1).
• Repetir en L ocasiones:
o Para cada vector X en el conjunto de entrenamiento:
ƒ Se obtiene el vector de salida O de la red al presentarle X.
ƒ Se obtiene el vector de salida esperada T asociado al vector X.
ƒ Para cada neurona i en la capa de salida, i = 1, 2, …, n3:
• Se calcula Erri = Ti - Oi.
n2
•
Se calcula la sumatoria de salida enti = ¦ w j ,i a j .
•
Se obtiene el término Δi = Erri ⋅ g’(enti). El valor de Δi deberá estar
disponible para la actualización de las neuronas en la capa oculta.
Para cada peso j en la neurona i, j = 1, 2, …, n2, se aplica la actualización:
j =1
•
wj,i = wj,i + α⋅aj⋅Δi
ƒ
Para cada neurona j en la capa oculta, j = 1, …, n2:
•
n1
Se calcula su sumatoria de salida: ent j = ¦ wk , j I k .
k =1
•
n3
Se obtiene el término Δ j = g '(ent j ) ⋅ ¦ w j ,i Δ i
i =1
•
Para cada peso k en la neurona j, k = 1, 2, …, n3, se usa la actualización:
wk,j = wk,j + α⋅ak⋅Δj
181
Una Introducción al Cómputo Neuronal Artificial
El Algoritmo 6.3 requiere la derivada de la Función de Activación evaluada en enti o entj,
dependiendo de la capa de neuronas procesada. Para ello se invoca a la función
g_derivative que precisamente implemente la derivada requerida. Por otro lado, dado que se
requiere el vector de salida O proporcionado por la red usando los pesos actuales, es que
entonces se invoca al Algoritmo 6.2 que se encarga de presentar al vector de entrada actual
a la red y obtener la correspondiente salida. El Algoritmo 6.2 también retorna el vector a
que se forma con las salidas de las n2 neuronas en la capa oculta. Recordemos que este
vector es requerido para el cálculo de las sumatorias de salida de las neuronas en la capa de
salida. El último punto a considerar es el relacionado a los valores de salida proporcionados
por las neuronas en la capa de entrada. Tal como comentamos previamente, estas neuronas
reciben únicamente un componente del vector de entrada actual. También sabemos que a
esta capa se le puede especificar o no un procesamiento de tales entradas. En nuestro caso,
vemos a la capa de entrada con la única función de recibir el vector de entrada y propagar
sus componentes, sin alterarlos, a todas las neuronas de la capa oculta. Es por ello que en la
especificación del Algoritmo 6.3, y particularmente al calcular las sumatorias de salida de
las neuronas de la capa oculta y al aplicar la regla de actualización sobre sus pesos, se usará
al k-ésimo componente del n-ésimo vector de entrada como el valor del término Ik.
Algoritmo 6.3. Método de Retropropagación para el entrenamiento
de una Red de Perceptrones con una única capa oculta.
Procedure BackPropagation
(Integer N, Integer n1, Integer n2, Integer n3, Integer L, Real α,
Matrix X[1,…,N][1,…,n1], Matrix T[1,…,N][1,…,n3])
W_hidden = new Matrix[1,…,n2][1,…,n1]
W_output = new Matrix[1,…,n3][1,…,n2]
Δ = new Array[1,…,n3]
// Los pesos de las neuronas en la capa oculta se inicializan
// aleatoriamente en (-1, 1).
for j = 1 until n2 do
for k = 1 until n1 do
W_hidden[j][k] = Random( )
end-of-for
end-of-for
// Los pesos de las neuronas en la capa de salida se inicializan
// aleatoriamente en (-1, 1).
for i = 1 until n3 do
for j = 1 until n2 do
W_output[i][j] = Random( )
end-of-for
end-of-for
182
Capítulo 6. Redes de Perceptrones
// Se efectuarán en total L épocas o presentaciones del conjunto de entrenamiento.
for t = 1 until L do
for n = 1 until N do
// El n-ésimo vector de entrada, Xn, es enviado a la red.
// Se utilizarán los pesos actuales de las neuronas.
{a, O} = Propagation(n1, n2, n3, W_hidden, W_output, X[n])
// El vector a corresponde a las salidas de las neuronas
// en la capa oculta, el vector O es la salida de las neuronas
// en la capa de salida.
for i = 1 until n3 do
// Se procede a actualizar los pesos de la i-ésima neurona
// de la capa de salida.
// Se obtiene la diferencia entre la salida esperada y la salida
// proporcionada por la neurona.
Real Err_i = T[n][i] – O[i]
n2
// Se calcula enti = ¦ w j ,i a j .
j =1
Real ent_i = 0
for j = 1 until n2 do
ent_i = ent_i + W_output[i][j] * a[j]
end-of-for
// Se obtiene el término Δi = Erri ⋅ g’(enti).
Δ[i] = Err_i * g_derivative(ent_i)
// Se aplica la regla de actualización wj,i = wj,i + α⋅aj⋅Δi
// a cada peso de la neurona.
for j = 1 until n2 do
W_output[i][j] = W_output[i][j] + α * a[j] * Δ[i]
end-of-for
end-of-for
for j = 1 until n2 do
// Se procede a actualizar los pesos de la j-ésima neurona
// de la capa oculta.
n1
// Se calcula ent j = ¦ wk , j I k .
k =1
Real ent_j = 0
for k = 1 until n1 do
ent_j = ent_j + W_hidden[j][k] * X[n][k]
end-of-for
n3
// Se calcula Δ j = g '(ent j ) ⋅ ¦ w j ,i Δ i .
i =1
Real Δ_j = 0
183
Una Introducción al Cómputo Neuronal Artificial
for i = 1 until n3 do
Δ_j = Δ_j + W_output[i][j] * Δ[i]
end-of-for
Δ_j = Δ_j * g_derivative(ent_j)
// Se aplica la regla de actualización wk,j = wk,j + α⋅Ik⋅Δj
// a cada peso de la neurona.
for k = 1 until n1 do
W_hidden[j][k] = W_hidden[j][k] + α * X[n][k] * Δ_j
end-of-for
end-of-for
end-of-for
end-of-for
// Se retornan como salida los pesos de las neuronas en las capas oculta
// y de salida.
return {W_output, W_hidden}
end-of-procedure
6.3.2 Justificación del Algoritmo de Retropropagación
La Sección anterior tuvo el objetivo de plantear algorítmicamente al método de
Retropropagación para el entrenamiento de una Red de Perceptrones con una única capa
oculta. Ahora proporcionaremos las bases Matemáticas que sustentan al Algoritmo de
Retropropagación. De hecho, lo ubicaremos como un método de búsqueda de vector
gradiente, y específicamente, como un método de Descenso Escalonado.
El Algoritmo de Retropropagación constituye un procedimiento para el cálculo del
vector gradiente de la siguiente Función de Error:
1 n3
E = ¦ (Ti − Oi ) 2
2 i =1
(Ecuación 6.3.10)
Cada término de la sumatoria en la Ecuación 6.3.10 contiene la diferencia entre la salida Oi
proporcionada por la i-ésima neurona de la capa de salida y el i-ésimo escalar, Ti, del vector
de salida esperada. Es claro que la función E calcula únicamente la suma de las diferencias
al cuadrado existentes entre los correspondientes escalares de un vector de salida esperada
particular y las salidas de las neuronas en la capa de salida. Nótese que esta función no
considera en su totalidad al conjunto de entrenamiento, el cual se forma por N elementos.
Únicamente considera al A -ésimo elemento, 1 ≤ A ≤ N, es decir, la pareja formada por el
184
Capítulo 6. Redes de Perceptrones
A -ésimo vector de entrada y su correspondiente vector de salida esperada. Es posible
definir a la Función de Error en términos de todo el conjunto de entrenamiento.
Propiamente tendríamos en esta instancia la suma de todos los errores al cuadrado, SSE
(Sum of Squared Errors), producidos por la red al presentarle todo el conjunto de
entrenamiento:
N
§ n3
·
SSE = ¦ ¨ ¦ (Ti ,A − Oi ,A ) 2 ¸
A =1 © i =1
¹
(Ecuación 6.3.11)
Donde Ti ,A es el i-ésimo escalar del A -ésimo vector de salida esperada y Oi ,A es la salida de
la i-ésima neurona en la capa de salida cuando se presenta a la red el A -ésimo vector de
entrada del conjunto de entrenamiento. Sin embargo, tenemos conocimiento de que si bien
es posible abordar la minimización de esta función, es claro que tendremos un proceso
ineficiente, dado que precisamente se requiere en todo momento considerar al conjunto de
entrenamiento por completo. Es claro que la función E de la Ecuación 6.3.10 forma parte
de la función SSE ya que calcula una suma de errores al cuadrado específica. Por lo tanto,
la función E puede verse como un estimador para la función SSE. Y en consecuencia, como
bien sabemos, el vector gradiente de la función E es a su vez un estimador para el vector
gradiente de la función SSE. La ventaja esencial de trabajar con la Ecuación 6.3.10 radica
en el número reducido de operaciones a efectuar comparado con el número de operaciones
requeridas al manipular la función SSE.
Dado que Oi = g(enti), por la Ecuación 6.3.2, entonces tenemos que la Función de
Error ahora tiene la forma:
E=
=
1 n3
¦ (Ti − Oi )2
2 i =1
1 n3
¦ (Ti − g (enti ))2
2 i =1
(Ecuación 6.3.12)
Dado que enti es la Sumatoria de Salida de la i-ésima neurona de la capa de salida ahora se
obtiene al aplicar la Ecuación 6.3.1 sobre la Ecuación 6.3.12:
§ n2
··
1 n3 §
E = ¦ ¨ Ti − g ¨ ¦ w j ,i a j ¸ ¸
¸
2 i =1 ¨©
© j =1
¹¹
2
(Ecuación 6.3.13)
Donde, como ya sabemos, g es la Función de Activación, wj,i es el j-ésimo peso de la
i-ésima neurona de la capa de salida y aj es la salida proporcionada por la j-ésima neurona
en la capa oculta. Podemos sustituir al término aj por la aplicación de la Función de
Activación g sobre entj, la sumatoria de salida de la j-ésima neurona en la capa oculta
(Ecuación 6.3.9). Sin embargo, por el momento debe ser claro que la Función de Error
185
Una Introducción al Cómputo Neuronal Artificial
tiene como variables a optimizar precisamente a todos los pesos de todas las neuronas que
conforman a nuestras capas de salida y oculta. El objetivo, como siempre, es minimizarla:
encontrar los valores de los pesos que hagan tan pequeño como sea posible el error
existente entre el vector de salida O y el vector de salida esperada T.
Ahora determinaremos al vector gradiente de la Función de Error. Recordemos que
los componentes de tal vector serán sus derivadas parciales respecto a cada una de sus
variables involucradas: los pesos en las neuronas de salida y los pesos en las neuronas en la
capa oculta. Sea wj,i el j-ésimo peso de la i-ésima neurona en la capa de salida. Inicialmente
∂E
calcularemos
:
∂w j , i
∂E
∂ 1 n3
=
¦ (Ti − Oi )2
∂w j ,i ∂w j ,i 2 i =1
La sumatoria considera a todas las neuronas en la capa de salida. Sin embargo, es sólo una,
en particular la i-ésima neurona, la que cuenta con el peso wj,i. Por lo tanto, todos los
términos de la suma, excepto el i-ésimo, son eliminados por ser constantes respecto a wj,i:
=
∂ 1
(Ti − Oi ) 2
∂w j ,i 2
=
2
∂ 1
Ti − g ( enti ) )
(
∂w j ,i 2
(Por la Ecuación 6.3.2)
2
§ n2
··
∂ 1§
=
−
T
g
¨¨ i
¨ ¦ w j ,i a j ¸ ¸¸
∂w j ,i 2 ©
© j =1
¹¹
n
2
ª
§
·º ∂ §
§ n2
··
T
g
= «Ti − g ¨ ¦ w j ,i a j ¸ »
−
¨¨ i
¨ ¦ w j ,i a j ¸ ¸¸
«¬
© j =1
¹ »¼ ∂w j ,i ©
© j =1
¹¹
n
n
2
2
ª
§
·º §
§
··
∂
g ¨ ¦ w j ,i a j ¸ ¸
= «Ti − g ¨ ¦ w j ,i a j ¸ » ¨ −
¨
¸
«¬
© j =1
¹ »¼ © ∂w j ,i © j =1
¹¹
ª
§ n2
·º
= «Ti − g ¨ ¦ w j ,i a j ¸ » ⋅
«¬
© j =1
¹ »¼
ª
§ n2
· ∂
« − g ' ¨ ¦ w j ,i a j ¸
© j =1
¹ ∂w j ,i
¬«
186
n2
¦w
j =1
º
a
j ,i j »
¼»
(Por la Ecuación 6.3.1)
§ Aplicación de la ·
¨
¸
© Regla de la Cadena ¹
(Ti es constante respecto a wj,i)
§ Aplicación de la ·
¨
¸
© Regla de la Cadena ¹
Capítulo 6. Redes de Perceptrones
ª
§ n2
·º
= «Ti − g ¨ ¦ w j ,i a j ¸ » ⋅
«¬
© j =1
¹ »¼
ª
º
§ n2
· ∂
w1,i a1 + ... + w j ,i a j + ... + wn2 ,i an2 »
« − g ' ¨ ¦ w j ,i a j ¸
«¬
»¼
© j =1
¹ ∂w j ,i
§ Todos los términos de la
¨
º
ª
§ n2
·º ª
§ n2
· ∂
¨ última sumatoria son
= «Ti − g ¨ ¦ w j ,i a j ¸ » « − g ' ¨ ¦ w j ,i a j ¸
w j ,i a j »
¨ constantes respecto a
«¬
© j =1
¹ »¼ ¬«
© j =1
¹ ∂w j ,i
¼»
¨¨
© w j ,i excepto el j -ésimo
(
)
·
¸
¸
¸
¸¸
¹
ª
§ n2
·º ª
§ n2
· º
= «Ti − g ¨ ¦ w j ,i a j ¸ » « − g ' ¨ ¦ w j ,i a j ¸ a j »
© j =1
¹ ¼» ¬«
© j =1
¹ ¼»
¬«
= ª¬Ti − g ( enti ) º¼ ª¬ − g ' ( enti ) a j º¼
= [Ti − Oi ] ª¬ − g ' ( enti ) a j º¼
= Erri ª¬ − g ' ( enti ) a j º¼
= −a j Δi
(Por la Ecuación 6.3.1)
(Por la Ecuación 6.3.2)
(Por la Ecuación 6.3.5)
(Por la Ecuación 6.3.4)
Concretizando tenemos entonces que:
∂E
= −a j Δi
∂w j ,i
(Ecuación 6.3.14)
Se ha obtenido la dirección de máximo crecimiento de la función de error E respecto a la
variable (peso) wj,i.
Sea wk,j el k-ésimo peso de la j-ésima neurona en la capa oculta. Ahora
procederemos a calcular la derivada parcial de la función E, Ecuación 6.3.10, respecto a
wk,j:
∂E
∂ 1 n3
=
(Ti − Oi ) 2
¦
∂wk , j ∂wk , j 2 i =1
Recordemos que cada término de la sumatoria corresponde al error producido por cada
neurona en la capa de salida. Ahora bien, obsérvese la Figura 6.2. El peso respecto al cual
estamos derivando a la función E está contenido únicamente en la j-ésima neurona de la
capa oculta. Sin embargo, este mismo peso es propagado hacia todas las neuronas en la
capa de salida. Ello se debe a que forma parte del j-ésimo escalar del vector producido
como salida en la capa oculta y el cual, a su vez, es enviado como entrada a todas las
187
Una Introducción al Cómputo Neuronal Artificial
neuronas en la capa de salida. Por lo tanto, el peso wk,j está presente en todos los términos
de la sumatoria que forma a la función E. Eso quiere decir que entonces ninguno de los
términos de tal sumatoria puede ser visto como constante respecto a wk,j:
=
1 n3 ∂
(Ti − Oi ) 2
¦
2 i =1 ∂wk , j
n3
= ¦ (Ti − Oi )
i =1
∂
(Ti − Oi )
∂wk , j
n3
= −¦ (Ti − Oi )
i =1
n3
= −¦ (Ti − Oi )
i =1
(Aplicación de la Regla de la Cadena)
∂
Oi
∂wk , j
(Ti es constante respecto a wk,j)
§ n2
·
∂
g ¨ ¦ w j ,i a j ¸
∂wk , j © j =1
¹
(Por la Ecuación 6.3.2)
n3
§ n2
· ∂ n2
(Aplicación de la Regla de la Cadena)
= −¦ (Ti − Oi )g ' ¨ ¦ w j ,i a j ¸
w j ,i a j
¦
∂
w
1
1
=
=
i =1
j
j
,
k
j
©
¹
n3
n2
§
· ∂
= −¦ (Ti − Oi )g ' ¨ ¦ w j ,i a j ¸
w1,i a1 + ... + w j ,i a j + ... + wn2 ,i an2
i =1
© j =1
¹ ∂wk , j
(
)
n2
El término
¦w
j ,i
a j corresponde a la Sumatoria de Salida de la i-ésima neurona de la capa
j =1
de salida. Para esta neurona en particular se tiene que la variable wk,j aparece únicamente en
uno de sus términos. Tal término es el que corresponde a la salida proporcionada, aj, por la
j-ésima neurona de la capa oculta, que es precisamente la neurona que nos interesa por
contener al peso wk,j (Véase la Figura 6.2). Por lo tanto, todos los términos de la sumatoria
n2
¦w
j ,i
a j son constantes respecto a wk,j excepto el j-ésimo. Ahora bien, recordemos que la
j =1
sumatoria con índice i es la que se encarga de procesar una a una las neuronas en la capa de
salida. En consecuencia, se garantiza que para toda neurona en la capa de salida el j-ésimo
término de su sumatoria de salida es debidamente preservado y el resto eliminado por ser
constante respecto a wk,j:
n3
§ n2
· ∂
= −¦ (Ti − Oi )g ' ¨ ¦ w j ,i a j ¸
w j ,i a j
i =1
© j =1
¹ ∂wk , j
n3
§ n2
·
= −¦ (Ti − Oi )g ' ¨ ¦ w j ,i a j ¸ w j ,i ⋅
i =1
© j =1
¹
§ n1
·
∂
g ¨ ¦ wk , j I k ¸
∂wk , j © k =1
¹
188
§
§ n1
··
Dado
que
a
=
g
¨¨
¨ ¦ wk , j I k ¸ ¸¸
j
© k =1
¹¹
©
Capítulo 6. Redes de Perceptrones
n3
§ n2
·
= −¦ (Ti − Oi )g ' ¨ ¦ w j ,i a j ¸ w j ,i ⋅
i =1
© j =1
¹
n1
§
· ∂ n1
g ' ¨ ¦ wk , j I k ¸
¦ wk , j I k
© k =1
¹ ∂wk , j k =1
§ Aplicación de la regla ·
¨
¸
© de la cadena
¹
n3
§ n2
·
= −¦ (Ti − Oi )g ' ¨ ¦ w j ,i a j ¸ w j ,i ⋅
i =1
© j =1
¹
n1
§
· ∂
g ' ¨ ¦ wk , j I k ¸
w1, j I1 + ... + wk , j I k + ... + wn1 , j I n1
© k =1
¹ ∂wk , j
(
n3
§ n2
·
= −¦ (Ti − Oi )g ' ¨ ¦ w j ,i a j ¸ w j ,i ⋅
i =1
© j =1
¹
)
§ Todos los términos de la
¨
¨ última sumatoria son
¨ constantes respecto a
¨¨
© wk , j excepto el k -ésimo
§ n1
· ∂
g ' ¨ ¦ wk , j I k ¸
wk , j I k
© k =1
¹ ∂wk , j
·
¸
¸
¸
¸¸
¹
n3
§ n2
·
§ n1
·
= −¦ (Ti − Oi )g ' ¨ ¦ w j ,i a j ¸ w j ,i ⋅ g ' ¨ ¦ wk , j I k ¸ I k
i =1
© k =1
¹
© j =1
¹
n3
§ n1
·
= −¦ Erri ⋅g ' ( enti ) w j ,i ⋅ g ' ¨ ¦ wk , j I k ¸ I k
i =1
© k =1
¹
§ Por la Ecuación 6.3.5, Erri , ·
¨
¸
© y la Ecuación 6.3.1, enti
¹
n3
§ n1
·
= −¦ Δ i ⋅w j ,i ⋅ g ' ¨ ¦ wk , j I k ¸ I k
i =1
© k =1
¹
(Por la Ecuación 6.3.4)
n3
= −¦ Δ i ⋅w j ,i ⋅ g ' ( ent j ) I k
(Por la Ecuación 6.3.9)
= −Δ j ⋅ I k
(Por la Ecuación 6.3.8)
i =1
En resumen tenemos:
∂E
= −Δ j ⋅ I k
∂wk , j
(Ecuación 6.3.15)
Esta derivada parcial representa la dirección de máximo crecimiento de la función E
respecto a wk,j.
189
Una Introducción al Cómputo Neuronal Artificial
Las derivadas parciales de la función E (Ecuación 6.3.10) forman los componentes
de su vector gradiente:
ª δE º
« δw »
1,1
«
»
« # »
«
»
« δE »
« δ wn ,1 »
2
«
»
#
«
»
« δE »
«
»
« δ w1,n3 »
«
»
« # »
« δE »
«
»
« δ wn2 ,n3 »
∇E = «
δ E »»
«
« δ w1,1 »
«
»
« # »
« δE »
«
»
« δ wn1 ,1 »
« # »
«
»
« δE »
« δw »
« 1, n2 »
« # »
«
»
« δE »
« δ wn , n »
¬
1 2 ¼
½
° Derivadas parciales respecto
°°
¾ a los pesos de la primer
° neurona en la capa de salida
°
°¿
½
° Derivadas parciales respecto
°°
¾ a los pesos de la n3 -ésima
° neurona en la capa de salida
°
°¿
½
° Derivadas parciales respecto
°°
¾ a los pesos de la primer
° neurona en la capa oculta
°
°¿
(Ecuación 6.3.16)
½
° Derivadas parciales respecto
°°
¾ a los pesos de la última
° neurona en la capa oculta
°
°¿
Es precisamente su posición en el vector ∇E la que claramente nos indica si un componente
está asociado a una neurona en la capa de salida o pertenece a una neurona en la capa
oculta. Al sustituir en ∇E con las Ecuaciones 6.3.14 y 6.3.15 se obtiene:
190
Capítulo 6. Redes de Perceptrones
ª −a1Δ1 º
« # »
«
»
« − an2 Δ1 »
«
»
« # »
« −a Δ »
« 1 n3 »
« # »
«
»
« −an2 Δ n3 »
∇E = «
»
« − I1Δ1 »
« # »
«
»
« − I n1 Δ1 »
« # »
«
»
« − I1Δ n2 »
«
»
« # »
« −I Δ »
¬ n1 n2 ¼
(Ecuación 6.3.17)
El vector gradiente representa la dirección de máximo crecimiento de la función E.
Entonces, para actualizar adecuadamente los pesos de todas las neuronas en la capa de
salida y la capa oculta se requiere utilizar la dirección opuesta de ∇E tal que el error se
minimice, es decir, requerimos a -∇E.
Recordemos que las reglas de actualización de pesos wj,i = wj,i + α⋅aj⋅Δi y
wk,j = wk,j + α⋅Ik⋅Δj hacen que nos movamos a una posición en el dominio de la función E.
Tal dominio se forma por todos posibles valores que pueden tomar los pesos. Dado que en
cada actualización nos movemos en dirección contraria a la del gradiente de E, entonces el
objetivo es acercarnos cada vez más a aquella región, del lugar geométrico descrito por la
función E, en donde los pesos minimizan el error de la red tanto como sea posible. El
tamaño de los desplazamientos efectuados va también en función del Coeficiente de
Aprendizaje α. Por ello, su elección de es vital importancia. Sabemos que es una constante
positiva con valor por lo regular en (0, 1). Sin embargo, éste influye sobre la rapidez con la
que nos acerquemos, o alejemos inclusive, de las regiones de E en donde los pesos
permiten un buen aprendizaje.
Ahora bien, tenemos bien claro que el objetivo del Algoritmo de Retropropagación
es el de determinar aquellos pesos con que deben ser equipadas las neuronas que forman
una Red de Perceptrones a fin de que un problema dado sea modelado tan bien como sea
posible. El cuestionamiento que nos plantearemos ahora tiene que ver con determinar si
tales pesos existen o bien si es posible encontrarlos. En el caso de la neurona Adaline
(Capítulo 3), la función a optimizar describía, desde el punto de vista geométrico, a un
hiperparaboloide. La buena noticia era que para este lugar geométrico podíamos garantizar
191
Una Introducción al Cómputo Neuronal Artificial
la existencia de un único mínimo global. Por lo tanto, los pesos que optimizaban a la
neurona, de manera que se obtenía el mejor aprendizaje, existen. Realmente el problema, en
el caso de la neurona Adaline, era contar con una buena elección de pesos iniciales y un
buen coeficiente de aprendizaje. En las Secciones 6.1 y 6.2 analizamos como es que el
Teorema de Convergencia del Perceptrón nos garantiza que es posible encontrar un
conjunto de pesos, precisamente para el Perceptrón, de manera que un problema
linealmente separable es efectivamente modelado por la neurona. Ahora nos preguntamos:
¿existirá algún resultado similar para el caso de una Red de Perceptrones entrenada
mediante el Algoritmo de Retropropagación?
Consideremos a la más pequeña de todas las Redes de Perceptrones con una capa
oculta. Véase la Figura 6.3. Es claro que para esta red tenemos que n1 = n2 = n3 = 1. Por
ello mismo, solo debemos considerar el ajuste de dos pesos: el peso de la única neurona en
la capa de salida y el peso de la única neurona en la capa oculta. Como siempre, asumimos
que la función de la neurona en la capa de entrada es la de simplemente enviar el único
escalar de entrada, sin modificarlo, a la neurona de la capa oculta.
x1
I1
a1
o1
Figura 6.3. Una Red de Perceptrones de una sola capa oculta con
una neurona en cada una de sus capas.
Ahora procederemos a desarrollar tanto como sea posible a la Ecuación 6.3.10
considerando nuestra red de la Figura 6.3 (para distinguir al peso de la neurona en la capa
de salida del peso de la neurona en la capa oculta usaremos la notación w para la primera y
w para la segunda):
E=
1 1
(Ti − Oi ) 2
¦
2 i =1
§ Dado que únicamente se
·
¨
¸
¨ tiene una neurona en la capa ¸
¨ de salida
¸
©
¹
1
= (T1 − O1 ) 2
2
§ 1
··
1§
= ¨ T1 − g ¨ ¦ w j ,1a j ¸ ¸
¸
2 ¨©
© j =1
¹¹
(
2
(
192
§ Sólo se tiene una neurona ·
¨
¸
© en la capa oculta
¹
)
2
1
T1 − g ( w1,1a1 )
2
1
= T1 − g w1,1 ⋅ g ( w1,1 I1 )
2
=
(Por la Ecuación 6.3.2)
(
))
2
( Dado que a
1
= g ( w1,1 I1 )
)
Capítulo 6. Redes de Perceptrones
(
(
1
= T1 − g w1,1 ⋅ g ( w1,1 x1 )
2
))
§ I1 = x1 dado que la neurona en ·
¨
¸
¨ la capa de entrada no efectúa ¸
¨ ningun procesamiento
¸
©
¹
2
(
)
(
)
2
1
= ¨§ T12 − 2 ⋅ T1 ⋅ g w1,1 ⋅ g ( w1,1 x1 ) + ª g w1,1 ⋅ g ( w1,1 x1 ) º ·¸
¬
¼ ¹
2©
Resumiendo, tenemos para la red de la Figura 6.3:
(
)
(
)
2
1
E = ¨§ T12 − 2 ⋅ T1 ⋅ g w1,1 g ( w1,1 x1 ) + ª g w1,1 g ( w1,1 x1 ) º ·¸
¬
¼ ¹
2©
(Ecuación 6.3.18)
En este punto tenemos que el lugar geométrico descrito por la Ecuación 6.3.18 está en
relación directa con la Función de Activación g que se utilice. Por ejemplo, sea g = Tanh,
entonces la Ecuación 6.3.18 toma la forma:
(
)
(
)
2
1
E = §¨ T12 − 2 ⋅ T1 ⋅ g w1,1 g ( w1,1 x1 ) + ª g w1,1 g ( w1,1 x1 ) º ·¸
¬
¼ ¹
2©
(
§ T 2 − 2 ⋅ T1 ⋅ Tanh w1,1 ⋅ Tanh ( w1,1 x1 )
1¨ 1
=
2
2 ¨¨ + ªTanh w ⋅ Tanh ( w x ) º
1,1
1,1
1
¼
© ¬
(
)
−2( w1,1x1 ) ·
§
1− e
§
¸ ·
−2¨ w1,1 ⋅
−2 ( w1,1x1 ) ¸
¨
+
1
e
¨
©
¹ ¸
1− e
¨ T12 − 2 ⋅ T1 ⋅
¸
−2 ( w1,1x1 ) ·
§
1− e
¸ ¸
¨
−2¨ w1,1 ⋅
2
(
−
w
x
)
1,1 1 ¸
¨
¹ ¸
1 + e © 1+ e
1¨
¸
= ¨
2
−2 ( w1,1x1 ) ·
§
1− e
2¨ ª
¸
¸ º
−2¨ w1,1 ⋅
−2( w1,1x1 ) ¸
¨
¹ »
¨ «1 − e © 1+ e
¸
»
¨+«
¸
2(
)
w
x
−
1,1 1 ·
§
1− e
¸ »
−2¨ w1,1 ⋅
¨ «
¸
−2 ( w1,1x1 ) ¸
¨
¹ »
¨ «1 + e © 1+ e
¸
¼
© ¬
¹
) ·¸
¸
¸
¹
(Por la Ecuación 4.1.9)
(Ecuación 6.3.19)
Recordemos que para evaluar a la función E requerimos de un vector de entrada y su
correspondiente vector de salida esperada en el conjunto de entrenamiento. Por la estructura
193
Una Introducción al Cómputo Neuronal Artificial
de la red sabemos que el vector de entrada tiene sólo un componente, así también el vector
de salida esperada. Supongamos que para el vector de entrada x1 = 0.2 se espera que la red
proporcione la salida T1 = 0.5. Sustituyendo tales valores en la Ecuación 6.3.19 tenemos:
2
−2( w1,1⋅0.2 ) ·
−2( w1,1⋅0.2 ) ·
§
§
§
·
1− e
1− e
ª
¸
¨ w1,1 ⋅
¸ º
−2¨ w1,1 ⋅
−
2
−2( w1,1⋅0.2 ) ¸
−2( w1,1⋅0.2 ) ¸
¨
¨
¨
¸
¹
¹ »
«1 − e © 1+ e
1¨
1 − e © 1+ e
2
» ¸
E = (0.5) − 2 ⋅ (0.5) ⋅
+«
−2 ( w1,1⋅0.2) ·
−2 ( w1,1⋅0.2) ·
§
§
1− e
1− e
2¨
¸
¸ » ¸
−2¨ w1,1 ⋅
−2¨ w1,1 ⋅
«
−2 ( w1,1⋅0.2) ¸
−2 ( w1,1⋅0.2) ¸
¨
¨
1+ e
1+ e
¨
©
¹
©
¹
«¬1 + e
»¼ ¸
1+ e
©
¹
(Ecuación 6.3.20)
La Figura 6.4 muestra la correspondiente gráfica de la función E para el caso de la red de
la Figura 6.3 y con el vector de entrada x1 = 0.2 y con salida esperada T1 = 0.5.
Visualmente, debe ser evidente que no se aprecia un punto sobre la superficie que tenga la
propiedad de ser un único mínimo global. Mencionábamos previamente que la presencia de
un único mínimo global era una propiedad sumamente valiosa de las funciones de error
asociadas, por ejemplo, a la neurona Adaline.
Figura 6.4. Gráfica de la función de Error asociada a
la red de Perceptrones de la Figura 6.3 (véase el texto para detalles).
194
Capítulo 6. Redes de Perceptrones
Reconsideremos la Ecuación 6.3.18. Sustituyamos en ella a la Función Identidad.
Por lo tanto obtendremos:
(
)
(
)º¼
(
)
(
)º¼
1
E = ¨§ T12 − 2 ⋅ T1 ⋅ g w1,1 g ( w1,1 x1 ) + ª g w1,1 g ( w1,1 x1 )
¬
2©
1
= §¨ T12 − 2 ⋅ T1 ⋅ι w1,1 ⋅ι ( w1,1 x1 ) + ªι w1,1 ⋅ι ( w1,1 x1 )
¬
2©
2
1
= T12 − 2T1w1,1w1,1 x1 + ª¬ w1,1w1,1 x1 º¼
2
1
2
2 2
w1,1
x1 )
= (T12 − 2T1w1,1w1,1 x1 + w1.1
2
(
)
2
2
·
¸
¹
·
¸
¹
(Ecuación 6.3.21)
Utilizando nuevamente el vector de entrada x1 = 0.2 y la salida esperada T1 = 0.5 tenemos:
1
2
2
0.25 − 0.2w1,1w1,1 + 0.04w1.1
w1,1
(
)
2
2
2
= 0.125 − 0.1w1,1w1,1 + 0.02 w1.1
w1,1
E=
(Ecuación 6.3.22)
La gráfica de la Ecuación 6.3.22 se presenta en la Figura 6.5. Es claro que, al menos en
términos visuales, no se aprecia un punto sobre la función E que corresponda a un mínimo
global. Sin embargo, la ventaja de utilizar a la Función Identidad como Función de
Activación es que podemos manipular de manera más sencilla a la función de error y por
tanto analizar si este punto existe o no y si es el caso, determinar si es único.
2
2
Figura 6.5. Gráfica de la Ecuación E = 0.125 − 0.1w1,1w1,1 + 0.02w1.1
.
w1,1
195
Una Introducción al Cómputo Neuronal Artificial
Procedamos a calcular las dos derivadas parciales de la función E (Ecuación
6.3.22):
δE
δ
2
2
=
0.125 − 0.1w1,1w1,1 + 0.02 w1,1
w1,1
(
)
δ w1,1 δ w1,1
=
δ
δ w1,1
= − 0.1
( −0.1w
1,1
δ
δ w1,1
2
2
w1,1 + 0.02w1,1
w1,1
)
w1,1w1,1 + 0.02
δ
δ w1,1
2
2
w1,1
w1,1
2
= − 0.1w1,1 + 0.04 w1,1w1,1
(Ecuación 6.3.23)
δE
δ
=
( 0.125 − 0.1w1,1w1,1 + 0.02w1,12 w1,12 )
δ w1,1 δ w1,1
=
δ
δ w1,1
= − 0.1
( −0.1w
1,1
δ
δ w1,1
2
2
w1,1 + 0.02w1,1
w1,1
)
w1,1w1,1 + 0.02
δ
δ w1,1
2
2
w1,1
w1,1
2
= − 0.1w1,1 + 0.04 w1,1
w1,1
(Ecuación 6.3.24)
Las Ecuaciones 6.3.23 y 6.3.24 forman precisamente los componentes del vector gradiente
de la función de error E. Nuestro objetivo, y también el del algoritmo de Retropropagación,
es determinar aquellos valores de los pesos que hacen que el vector gradiente sea el vector
cero (o tan cerca como sea posible a éste). Por lo tanto, al igualar las derivadas parciales,
previamente obtenidas, a cero tenemos el siguiente sistema de ecuaciones no lineales:
2
­°−0.1w1,1 + 0.04 w1,1w1,1
=0
®
2
°̄−0.1w1,1 + 0.04 w1,1w1,1 = 0
Una solución obvia e inmediata es w1,1 = w1,1 = 0 . Al sustituir tales valores en la Ecuación
6.3.22 tenemos:
E (0, 0) = 0.125 − 0.1(0)(0) + 0.02(0) 2 (0) 2 = 0.125
196
Capítulo 6. Redes de Perceptrones
Veamos que de hecho la solución w1,1 = w1,1 = 0 no es la única. Nótese en el sistema que el
peso w1,1 puede ser expresado en términos del peso w1,1 usando la primer ecuación:
2
−0.1w1,1 + 0.04 w1,1w1,1
=0
2
⇔ 0.04 w1,1w1,1
= 0.1w1,1
⇔ w1,1 =
2.5
, w1,1 ≠ 0
w1,1
(Ecuación 6.3.25)
De hecho, si despejamos a w1,1 de la Ecuación 6.3.25 obtenemos la misma expresión que si
hubiésemos manipulado desde un principio la segunda ecuación de nuestro sistema:
2
−0.1w1,1 + 0.04w1,1
w1,1 = 0
2
⇔ 0.04 w1,1
w1,1 = 0.1w1,1
⇔ w1,1 =
2.5
, w1.1 ≠ 0
w1,1
(Ecuación 6.3.26)
En cualquier caso, hemos verificado que el conjunto de puntos, en los cuales la función E
tiene a su vector gradiente igual a cero, es infinito. Usemos la Ecuación 6.3.26 para generar
algunos pesos. Por ejemplo, sea w1,1 = 1, entonces w1,1 = 2.5. Al evaluar el punto (1, 2.5) en
la Ecuación 6.3.22, la función de error, se obtiene:
E (1, 2.5) = 0.125 − 0.1(1)(2.5) + 0.02(1) 2 (2.5) 2 = 0.125 − 0.25 + 0.125 = 0
Si w1,1 = -1 entonces w1,1 = -2.5 y la función E nos proporciona:
E (−1, −2.5) = 0.125 − 0.1(−1)(−2.5) + 0.02(−1) 2 (−2.5) 2 = 0.125 − 0.25 + 0.125 = 0
Se nos ha presentado una situación interesante para meditar. Previamente, con el
punto (0, 0) la función E nos proporcionó el valor 0.125. Sin embargo, acabamos de
encontrar dos puntos para los cuales la función E proporciona el valor cero. Los tres puntos
tienen la propiedad de que los correspondientes vectores gradientes son cero. Por la
comparación anterior podríamos hipotetizar entonces que el punto (0, 0) es en realidad un
mínimo local. Sin embargo, para caracterizarlo como tal, y de manera contundente, es que
tendríamos que recurrir al bien conocido análisis de puntos críticos. Del estudio, sabemos
que el punto además de poder ser caracterizado como mínimo local también podría ser un
máximo o inclusive un punto de ensilladura. Las tres caracterizaciones tienen en común que
el vector gradiente es el vector cero.
197
Una Introducción al Cómputo Neuronal Artificial
Ahora bien, por la manera en la que el método de Descenso Escalonado procede, y
en consecuencia también el algoritmo de Retropropagación, tenemos que si el punto (0, 0)
fuese caracterizado como mínimo local entonces es posible que el algoritmo dirija la
búsqueda hacia éste y que de hecho allí finalice. Ello se debe a que, bajo la suposición de
que (0, 0) fuese un mínimo local, es claro que dentro de cierta vecindad de este punto los
vectores gradientes apuntaran en dirección opuesta a éste, buscando maximizar a la función
E. Pero dado que utilizamos, para movernos sobre la función, a la dirección opuesta del
gradiente, es que entonces nos acercaremos más a (0, 0) el cual suponemos es un mínimo.
Claramente estamos minimizando a la función E, pero no de manera óptima. Esta
afirmación se sustenta en el hecho de que hemos demostrado que existen al menos otros
dos puntos, (1, 2.5) y (-1, -2.5), para los cuales la función puede ser minimizada aún más.
La Figura 6.6 muestra la grafica de la Ecuación 6.3.26 sobrepuesta en la superficie
definida por la Ecuación 6.3.22 (hemos resaltado también al punto (0, 0) para el cual
sabemos que E(0,0) = 0.25). Este es el conjunto de puntos, o más bien pesos, para los
cuales la función de error E retornará el valor cero. Ello se verifica algebraicamente al
§ 2.5
·
, w1,1 ¸ en la Ecuación 6.3.22:
sustituir con el punto ¨
¨w
¸
© 1,1
¹
2
§ 2.5
·
§ 2.5 · 2
2.5
, w1,1 ¸ = 0.125 − 0.1
E¨
w1,1 + 0.02 ¨
w
¨w
¸
¨ w ¸¸ 1,1
w
1,1
1,1
1,1
©
¹
©
¹
= 0.125 − 0.25 + 0.125
=0
Ello implica que entonces el algoritmo de Retropropagación debería dirigir su búsqueda a
alguno de estos pesos, y no hacia el punto (0, 0), ya que es en éstos donde precisamente se
tendrá el mejor aprendizaje posible.
Hemos señalado entonces un posible problema que se podría presentar durante el
ajuste de pesos mediante el algoritmo de Retropropagación: que éste se quede “estancado”
o “atrapado” en un mínimo local. Debe apreciarse con claridad que la función de error, y en
consecuencia su geometría y topología, dependen en gran medida de la red de Perceptrones
asociada. El número de neuronas en las capas oculta y de salida determina el número de
pesos a ajustar. Ello quiere decir que podemos contar con una amplísima variedad de
funciones de error, en muchas de las cuales es sumamente probable que exista más de un
mínimo local. Es también posible que las funciones cuenten con más de un mínimo global,
como es el caso de la Ecuación 6.3.22. Sin embargo, el problema radica en que la presencia
de mínimos locales aumenta la probabilidad de que los pesos se ajusten en términos de
éstos y no en términos de un mínimo global. También se debe tomar en cuenta que los
valores iniciales de los pesos, en el algoritmo de Retropropagación, establecen el punto de
partida de la búsqueda a efectuar sobre la función de error. Valores iniciales de pesos que
sean cercanos a un mínimo local también aumentan las expectativas de que éste sea
alcanzado. Pero también debe ser claro que valores iniciales de pesos que estén alejados de
198
Capítulo 6. Redes de Perceptrones
un mínimo local no garantizan que éste no sea alcanzado ya que entonces entra en
consideración la elección del Coeficiente de Aprendizaje. Recordemos que el coeficiente
define el tamaño de las traslaciones, o “saltos”, que efectuaremos sobre la función de error
y en consecuencia puede que nos lleve al mínimo local, o lo suficientemente cerca de éste,
para que la búsqueda sea atraída hacia él.
Figura 6.6. El conjunto de puntos, resaltados en negro, para los cuales el vector gradiente
2
2
de la función E = 0.125 − 0.1w1,1w1,1 + 0.02w1.1
es el vector cero.
w1,1
Sabemos que el lugar geométrico descrito por la Función de Error va en relación
directa con la dimensionalidad de los vectores de entrada y de los vectores de salida
esperada en el conjunto de entrenamiento, el número de neuronas en la capa oculta, la
Función de Activación elegida, y por último, los valores específicos de los componentes de
los vectores que forman al conjunto de entrenamiento. Entonces, es lógico suponer que
podemos encontrar un muy variado conjunto de posibles lugares geométricos asociados a
las Funciones de Error cada uno con sus propiedades particulares respecto a sus puntos
críticos: mínimos, máximos, puntos de ensilladura. Sin embargo, es también posible que
algunos de tales lugares geométricos no cuenten con puntos críticos, y de nuestro interés
particular, se tenga ausencia de mínimos. Por ejemplo, recordemos que la Función de Error
asociada a nuestra red con una única neurona en cada capa (Figura 6.3) y usando la
Función Identidad como Función de Activación está dada por la Ecuación 6.3.21:
E=
1 2
2
2 2
T1 − 2T1w1,1w1,1 x1 + w1,1
w1,1
x1 )
(
2
199
Una Introducción al Cómputo Neuronal Artificial
Ahora bien, si consideramos al vector de entrada x1 = 0 y a la salida esperada T1 = 1
entonces la Ecuación 6.3.21 toma la siguiente forma:
E=
1
2
La cual es evidentemente un plano. De manera inmediata se puede apreciar que su vector
gradiente en cualquier punto es precisamente el vector cero. Sin embargo, ninguno de sus
puntos es un punto crítico en el sentido de que no puede ser caracterizado como un mínimo,
máximo o punto de ensilladura. Aunque también debe ser claro que cualquier punto sobre
el plano sirve para minimizar de manera óptima a la Función de Error para los elementos en
consideración del conjunto de entrenamiento. En este sentido la búsqueda por Descenso
Escalonado, no importa hacia donde se mueva, siempre encontrará un punto que permite
minimizar a la Función de Error. Ahora consideremos la situación en la cual el lugar
geométrico descrito por la Función de Error es similar al presentado en la Figura 6.7.
Supongamos que el punto marcado es el único punto crítico, un máximo, con el que se
cuenta. Ahora bien, precisamente por esta última propiedad es que no importa en donde se
ubiquen los pesos iniciales ( w1,1 , w1,1 ) porque el Descenso Escalonado procederá
efectuando la búsqueda siempre en dirección contraria al máximo global dado que nuestro
objetivo es minimizar a la función. Por cada par de nuevos pesos encontrados se
determinará que el valor de E se reduce. El problema es que esta búsqueda no garantiza una
convergencia de los pesos. Ello se debe precisamente a que por cada nuevo par de pesos se
encontrará que es posible minimizar aún más a la Función de Error. Si se estableciera que
el algoritmo de Retropropagación itere sucesivamente y además que se detenga una vez que
un vector gradiente de valor cero haya sido encontrado, entonces tendremos que
teóricamente el algoritmo tendrá una ejecución que requerirá un número infinito de pasos.
Recordemos que la función de la Figura 6.7 si cuenta con un punto en donde el gradiente
es el vector cero, pero se trata de un máximo y por nuestra manera de proceder siempre nos
alejaremos de éste. Los puntos anteriores dan lugar a una segunda observación respecto al
ajuste de pesos mediante el algoritmo de Retropropagación. Es posible que regiones en las
funciones de error no cuenten con puntos críticos, y en particular que no tengan valores
mínimos. Hemos visto que existen casos de Funciones de Error en donde las búsquedas de
pesos conducirán a una situación en la cual precisamente los pesos no convergerán y el
Algoritmo de Retropropagación efectuará una búsqueda que en teoría podría no terminar.
En esta Sección hemos establecido, por un lado, los fundamentos detrás del
Algoritmo de Retropropagación para el ajuste de pesos en una red de Perceptrones. Pero
por otro lado, también hemos señalado los posibles problemas que se pueden presentar y
que en conjunto permiten establecer que la convergencia de los pesos de las neuronas, y en
específico, la convergencia hacia un mínimo global que permita obtener el mejor ajuste
posible, no está garantizada. En un caso es posible que los pesos obtenidos correspondan a
un mínimo local. En otro caso es probable que la función de error a optimizar, debido a sus
propiedades geométricas y topológicas, hagan que los pesos se ajusten continuamente de
200
Capítulo 6. Redes de Perceptrones
manera que no se tenga la convergencia. Estos dos escenarios deben ser tomados siempre
en cuenta al momento de entrenar a una red neuronal. Es por ello mismo que por lo regular
el ajuste de pesos se efectúa asignando pesos iniciales aleatorios y con un número fijo de
presentaciones del conjunto de entrenamiento. Una vez que tal número de presentaciones
ha sido alcanzado se evalúa a todo el conjunto de entrenamiento y se calcula el error total
de aprendizaje de la red. A este proceso se le llama Corrida. La idea es que una vez que
una corrida ha sido finalizada, se efectúe una nueva inicialización aleatoria de pesos y se
ejecuten las presentaciones establecidas del conjunto de entrenamiento con el
correspondiente cálculo del error total del aprendizaje de la red. Es decir, efectuar una
nueva corrida. Se procede de manera que se efectúan varias corridas y de todas éstas se
elige aquella que reporte el menor error total de aprendizaje. El fundamento detrás de este
proceder se sustenta en que por cada corrida se explora una región diferente de la Función
Error. El objetivo es que mediante estas exploraciones se pueda determinar, de manera
empírica, cuales corridas corresponden a ajustes basados en mínimos locales o qué corridas
corresponden a potenciales ajustes que no convergerán. Se espera que aquella corrida con el
menor error de aprendizaje sea la que más cerca está de un mínimo global.
Figura 6.7. Una Función de Error E con un único punto crítico:
un máximo (punto remarcado).
6.4 Retropropagación en una Red con Múltiples Capas Ocultas
Ahora consideraremos el caso del ajuste de pesos, mediante el Algoritmo de
Retropropagación, para una red de Perceptrones formada por dos o más capas ocultas.
Como veremos más adelante el principio para el ajuste de pesos sigue la misma idea para el
caso con una única capa oculta, ya que se ajustan en primer lugar los pesos de las neuronas
en la capa de salida. Posteriormente se ajustan los pesos de las neuronas en la última capa
oculta. Dado que estas neuronas son responsables por el error producido en la capa de
201
Una Introducción al Cómputo Neuronal Artificial
salida es que parte del ajuste aplicado en la capa de salida también les es aplicado. Después
se efectúa el ajuste de pesos en las neuronas en la penúltima capa oculta. Es claro que las
salidas de estas neuronas influyen sobre el error producido por las salidas de las neuronas
en la última capa oculta. Por lo tanto, parte del ajuste aplicado en la última capa oculta, y en
consecuencia también parte de la corrección efectuada en la capa de salida, es también
aplicado sobre las neuronas en la penúltima capa oculta. Se procede de esta forma hasta
considerar por último el ajuste de pesos en la primera capa oculta. Se deben tomar también
en cuenta las correcciones efectuadas a los pesos en las restantes capas ocultas ya que éstas
son aplicadas a estas neuronas. En concreto, tenemos que los errores producidos por la red,
y los ajustes de pesos aplicados, son distribuidos entre todas las neuronas en las capas
ocultas y de salida. El objetivo como siempre es minimizar el error tanto como sea posible.
x1
I1
x2
I2
a 1,1
Ik
xp
Ip
a m,1
O1
O2
a1,k1
xk
a O,1
a O,k O
a m,k m
Oi
a 1,n1
a O,n O
a m,n m
Oq
Figura 6.8. Una de red de Perceptrones formada por m capas ocultas, m ≥ 2
(Véase el texto para detalles).
A fin de establecer las reglas de actualización de pesos a utilizar para las neuronas
en cada capa hemos de introducir notación apropiada. En primer lugar consideremos los
términos básicos. Véase la Figura 6.8. Sean:
• p: número de neuronas en la capa de entrada.
• m: número de capas ocultas.
• nO: número de neuronas en la O-ésima capa oculta, 1 ≤ O ≤ m.
• q: número de neuronas en la capa de salida.
• Ik: salida de la k-ésima neurona en la capa de entrada, 1 ≤ k ≤ p.
• aA ,kA : salida de la kO -ésima neurona en la O-ésima capa oculta, 1 ≤ O ≤ m, 1 ≤ kO ≤ nO.
• Oi: salida de la i-ésima neurona en la capa de salida, 1 ≤ i ≤ q.
De acuerdo a la Figura 6.8, tenemos que el papel de las neuronas en la capa de entrada
sigue siendo el mismo que el que les dimos en las dos Secciones anteriores: simplemente
202
Capítulo 6. Redes de Perceptrones
cada una recibe un componente del vector de entrada y se encarga de propagarlo a todas las
neuronas en la primer capa oculta. Por ello mismo tenemos que estas neuronas pueden tener
a su único peso igualado a uno y como Función de Activación a la Función Identidad. Bajo
esta última suposición, la cual consideraremos también en esta Sección, el proceso de
actualización de pesos no considera a las neuronas en la capa de entrada. Por la notación
establecida tenemos que nuestra red recibirá un vector de entrada en \ p . Las neuronas en
la capa de entrada propagan sus componentes a todas las neuronas en la primera capa
oculta. En este punto se produce como salida un vector en \ n1 . Todos sus componentes son
propagados hacia todas las neuronas en la segunda capa oculta. Esta capa produce entonces
un vector de salida en \ n2 . Se prosigue de esta manera al propagar todos los componentes
del vector de salida en \ nA , producido por la O-ésima capa oculta, hacia todas las neuronas
de la (O +1)-ésima capa oculta. La última capa oculta producirá un vector en \ nm cuyos
componentes son enviados a todas las neuronas en la capa de salida. Finalmente esta capa
produce la salida de la red: un vector en \ q . Tenemos entonces la secuencia de mapeos:
Capa
de
entrada
Primer
capa
oculta
\ p 6 \ p 6\ n1
Segunda
capa
oculta
Tercer
capa
oculta
( A +1)ésima
capa
oculta
A -ésima
capa
oculta
Última
capa
oculta
Capa
de
salida
6 \ 6 " 6 \ 6 " 6\ 6\
n2
nA
nm
q
Como ya tenemos conocimiento, las salidas producidas por las capas ocultas, aunque son
accesibles, no se les puede dar una interpretación. Por ello, también se dice que
simplemente la red neuronal efectúa un mapeo de un vector en \ p hacia un vector en \ q .
Ahora redefinamos algunas notaciones previamente establecidas a fin de que éstas
reflejen el hecho de que se está bajo el contexto de una red neuronal formada por más de
una capa oculta. Sean:
• wkm ,i : km -ésimo peso de la i-ésima neurona en la capa de salida, 1 ≤ i ≤ q, 1 ≤ km ≤ nm.
•
Sea wkA−1 , kA ,A el kO-1-ésimo peso de la kO-ésima neurona en la O-ésima capa oculta,
1 ≤ kO-1 ≤ nO-1, 1 ≤ kO ≤ nO, 1 < O ≤ m.
En el caso de los pesos en las capas ocultas, tenemos que el uso de la notación en el primer
índice ( kA −1 ) obedece a que toda neurona en la O-ésima capa oculta recibe en sus entradas las
salidas de las neuronas en la capa oculta que le precede, la capa O-1. El número de tales
entradas está dado por el número de neuronas en la capa O-1: nO-1. Nótese la restricción
establecida para el tercer índice, O, ya que éste debe ser estrictamente mayor a 1. Ello se
debe a que la notación es válida para cualquier capa oculta excepto la primera. Esto es
porque estas neuronas reciben sus entradas provenientes no de una capa oculta sino de la
capa de entrada. Por lo tanto, para estas neuronas en particular tendremos:
• wk , k1 ,1 : el k-ésimo peso de la k1-ésima neurona en la primera capa oculta, 1 ≤ k ≤ p,
1 ≤ k1 ≤ n1.
203
Una Introducción al Cómputo Neuronal Artificial
La Sumatoria de Salida de la i-ésima neurona en la capa de salida está dada por:
enti =
nm
¦w
km =1
km ,i
⋅ am , k m
(Ecuación 6.4.1)
Por lo tanto, la salida de la i-ésima neurona en la capa de salida, Oi, ahora se define de
manera precisa como:
§ nm
·
Oi = g (enti ) = g ¨ ¦ wkm ,i ⋅ am ,km ¸
© km =1
¹
(Ecuación 6.4.2)
Donde g es la Función de Activación continua y diferenciable en (-∞, ∞). Por otro lado, la
Sumatoria de Salida de la kA -ésima neurona en la O-ésima capa oculta 1 ≤ kA ≤ nA , 1 < A ≤ m ,
estará dada por:
entkA ,A =
nA −1
¦w
kA−1 =1
kA−1 , kA ,A
⋅ aA −1, kA .−1
(Ecuación 6.4.3)
En consecuencia, la salida de la kA -ésima neurona en la O-ésima capa oculta, aA ,kA , donde
1 ≤ kA ≤ nA y 1 < A ≤ m , estará dada por:
§ nA−1
·
aA , kA = g (entkA ,A ) = g ¨ ¦ wkA−1 ,kA ,A ⋅ aA −1,kA−1 ¸
© kA−1 =1
¹
(Ecuación 6.4.4)
Nótese que la Ecuación 6.4.3 es válida para cualquier neurona en cualquier capa oculta
excepto la primera (y por instancia también la Ecuación 6.4.4) De allí la condición de que
1 < A ≤ m . Ello se debe, tal como comentamos previamente, a que estas neuronas en
particular reciben entradas provenientes de la capa de entrada. Para estas neuronas
manejamos su caso especial. La Sumatoria de Salida de la k1-ésima neurona en la primera
capa oculta está dada por:
p
entk1 ,1 = ¦ wk ,k1 ,1 ⋅ I k
(Ecuación 6.4.5)
k =1
Donde Ik es la salida de la k-ésima neurona en la capa de entrada. Finalmente tenemos que
la salida de la k1-ésima neurona en la primer capa oculta, a1,k1 , 1 ≤ k1 ≤ n1 , se define como:
§ p
·
a1,k1 = g (entk1 ,1 ) = g ¨ ¦ wk ,k1 ,1 ⋅ I k ¸
© k =1
¹
204
(Ecuación 6.4.6)
Capítulo 6. Redes de Perceptrones
Consideremos ahora a la siguiente Función de Error (la cual es prácticamente la
presentada en la Ecuación 6.3.10, excepto por la modificación en el índice superior de la
sumatoria, para hacerla consistente con la notación introducida en párrafos anteriores):
q
E = ¦ (Ti − Oi )
2
(Ecuación 6.4.7)
i =1
Ti es el i-ésimo componente del vector de salida esperada T y Oi es la salida de la
i-ésima neurona en la capa de salida cuando el vector de entrada asociado a T es presentado
a la red. Recordemos que esta función sólo nos proporciona el error respecto a un elemento
del conjunto de entrenamiento. La idea sigue siendo el efectuar la corrección de pesos al
considerar únicamente a un elemento del conjunto de entrenamiento a la vez. Esto con la
finalidad de simplificar los cálculos.
Como ya comentamos antes, la actualización de pesos inicia con la corrección a las
neuronas en la capa de salida. Posteriormente se efectúa la corrección de pesos en las
neuronas en la última capa oculta y así sucesivamente hasta efectuar la corrección de pesos
en las neuronas de la primera capa oculta. En consecuencia, cada componente del vector
gradiente de la función de error está asociado a cada peso de cada neurona en cada capa
considerada. Además, la actualización de los pesos en las neuronas de una capa oculta
requiere que también se le aplique parte de la corrección efectuada en las neuronas de las
capas que le siguen. En base a todo esto vamos a definir las reglas de actualización de pesos
en el siguiente orden:
• Etapa 1: Actualización de los pesos de las neuronas en la capa de salida.
• Etapa 2: Actualización de los pesos de las neuronas en la última capa oculta.
• Etapa 3: Actualización de los pesos de las neuronas en la O-ésima capa oculta, 1 < O < m.
• Etapa 4: Actualización de los pesos de las neuronas en la primer capa oculta.
x1
I1
x2
I2
a1,1
Ik
xp
Ip
am,1
O1
O2
a1,k1
xk
a O,1
aO,k O
am,k m
Oi
a1,n1
aO,n O
am,n m
Oq
Figura 6.9. En color gris se muestran las neuronas involucradas en la actualización del peso wk ,i .
m
Tal peso se encuentra únicamente en la i-ésima neurona de la capa de salida.
205
Una Introducción al Cómputo Neuronal Artificial
Determinemos entonces el valor de la derivada parcial de E, Ecuación 6.4.7,
respecto a wkm ,i , el km-ésimo peso de la i-ésima neurona en la capa de salida (Véase la
Figura 6.9):
δE
δ wk
=
m ,i
δ
δ wk
m ,i
1 q
2
(Ti − Oi )
¦
2 i =1
1 δ
=
2 δ wkm ,i
q
¦ (T − O )
i
(Por la Ecuación 6.4.7)
2
i
i =1
En este punto nótese que el peso wkm ,i está contenido únicamente en la i-ésima neurona de
la capa de salida. Por lo tanto, todos los términos de la sumatoria, excepto el i-ésimo, son
constantes respecto a wkm ,i :
=
1 δ
2
(Ti − Oi )
2 δ wkm ,i
= (Ti − Oi )
δ
δ wk
= − (Ti − Oi )
(Ti − Oi )
(Regla de la Cadena)
m ,i
δ
δ wk
Oi
(Ti es constante respecto a wkm ,i )
m ,i
§ nm
·
g ¨ ¦ wkm ,i ⋅ am, km ¸
δ wkm ,i © km =1
¹
nm
§
·
= − (Ti − Oi ) g ' ¨ ¦ wkm ,i ⋅ am ,km ¸ ⋅
© km =1
¹
= − (Ti − Oi )
δ
δ
δ wk
nm
¦w
k =1
m ,i m
k m ,i
(Por la Ecuación 6.4.2)
(Regla de la Cadena)
⋅ am,km
La i-ésima neurona en la capa de salida cuenta con nm pesos, uno de los cuales es
precisamente wkm ,i . Por lo tanto, todos los pesos, excepto el km-ésimo, son constantes
respecto a wkm ,i :
§ nm
· δ
= − (Ti − Oi ) g ' ¨ ¦ wkm ,i ⋅ am, km ¸
wkm ,i ⋅ am, km
δ
w
=
1
k
,
k
i
m
©
¹
m
206
Capítulo 6. Redes de Perceptrones
§ nm
·
= − (Ti − Oi ) g ' ¨ ¦ wkm ,i ⋅ am ,km ¸ am ,km
© km =1
¹
= − (Ti − Oi ) g ' ( enti ) am,km
(Por la Ecuación 6.4.1)
En concreto tenemos:
δE
δ wk
= − (Ti − Oi ) g ' ( enti ) am,km
(Ecuación 6.4.8)
m ,i
Sea Erri la diferencia existente entre la salida proporcionada por la i-ésima neurona
en la capa de salida y el i-ésimo componente, Ti, del vector de salida esperada:
§ nm
·
Erri = Ti − Oi = Ti − g ¨ ¦ wkm ,i ⋅ am,km ¸
© km =1
¹
(Ecuación 6.4.9)
Es claro que esta definición para Erri inicialmente coincide con la definición dada
originalmente en la Ecuación 6.3.5. La diferencia ahora es que estamos considerándola
bajo el contexto de una red de Perceptrones con al menos dos capas ocultas. El contraste
con la Ecuación 6.3.5 se hace claro al sustituir Oi por la Ecuación 6.4.2. Algo similar
sucede al definir inicialmente al Término de Variación o Cambio, Δ i , asociado a la i-ésima
neurona en la capa de salida, ya que éste lo establecemos como el producto entre Erri y
g’(enti). En este caso, la expresión resultante es igual a la presentada en la Ecuación 6.3.4,
la cual esta asociada al caso de una red con una única capa oculta. Sin embargo las
diferencias surgen al sustituir Erri y enti con las Ecuaciones 6.4.9 y 6.4.1, respectivamente:
§
§ nm
· · § nm
·
Δ i = Erri ⋅ g '(enti ) = ¨ Ti − g ¨ ¦ wkm ,i ⋅ am ,km ¸ ¸ ⋅ g ' ¨ ¦ wkm ,i ⋅ am,km ¸
¨
¸
© km =1
¹ ¹ © km =1
¹
©
(Ecuación 6.4.10)
Finalmente, tenemos los elementos para expresar de manera concisa a la derivada
parcial de la función de error E respecto a wkm ,i . Por la Ecuación 6.4.8 sabemos que:
δE
δ wk
= − (Ti − Oi ) g ' ( enti ) am,km
m ,i
Ahora, la sustituir con la Ecuación 6.4.10 tenemos finalmente:
δE
δ wk
= −Δ i ⋅ am ,km
(Ecuación 6.4.11)
m ,i
207
Una Introducción al Cómputo Neuronal Artificial
x1
I1
x2
I2
a1,1
a O,1
Ik
xp
Ip
am,1
O1
O2
a1,k1
xk
am-1,1
aO,k O
am-1,k m
m-1
am,k m
Oi
a1,n1
aO,n O
a
m-1,n m-1
am,n m
Oq
Figura 6.10. En color gris se muestran las neuronas involucradas en la actualización del peso wk ,k ,m el cual
m−1 m
reside en la km-ésima neurona de la última capa oculta. Las actualizaciones aplicadas sobre las neuronas en la
capa de salida influyen también en la actualización del peso wk ,k ,m .
m−1
m
El siguiente paso en que nos concentraremos es el determinar la derivada parcial de
la función de error E respecto a wkm−1 ,km , m . Es decir, respecto al km-1-ésimo peso de la
km-ésima neurona en la última capa oculta. Véase la Figura 6.10. Suponemos que el
número de capas ocultas en la red es al menos 2, es decir, asumimos m ≥ 2.
δE
δ wk
=
m−1 , k m , m
=
δ
δ wk
m−1 , km , m
1 q
2
(Ti − Oi )
¦
2 i =1
1
δ
2 δ wkm−1 , km , m
q
¦ (T − O )
i
(Por la Ecuación 6.4.7)
2
i
i =1
Recordemos que el peso wkm−1 ,km ,m está ubicado en la km-ésima neurona en la última capa
oculta. La salida de esta neurona es propagada hacia todas las neuronas en la capa de salida.
Por lo tanto, el peso wkm−1 ,km ,m forma parte de la salida de todas las neuronas en esa capa.
Ello implica que entonces todos los términos de la sumatoria deben ser considerados:
1 q
δ
2
= ¦
(Ti − Oi )
2 i =1 δ wkm−1 ,km , m
δ
q
= ¦ (Ti − Oi )
i =1
δ wk
δ
q
= − ¦ (Ti − Oi )
i =1
208
(Ti − Oi )
(Regla de la Cadena)
m−1 , km , m
δ wk
m −1 , k m , m
Oi
§ El término Ti es constante ·
¨
¸
© respecto a wkm−1 , km , m .
¹
Capítulo 6. Redes de Perceptrones
§ nm
·
g ¨ ¦ wkm ,i ⋅ am, km ¸
δ wkm−1 ,km ,m © km =1
i =1
¹
nm
q
§
·
= − ¦ (Ti − Oi )g ' ¨ ¦ wkm ,i ⋅ am, km ¸ ⋅
i =1
© km =1
¹
δ
q
= − ¦ (Ti − Oi )
δ
δ wk
nm
La sumatoria
¦w
k m ,i
km =1
nm
¦w
k =1
m−1 , k m , m m
km ,i
(Por la Ecuación 6.4.2)
(Regla de la Cadena)
⋅ am ,km
⋅ am ,km es precisamente la Sumatoria de Salida de cada una de las
neuronas en la capa de salida (Ecuación 6.4.1). De sus nm términos realmente sólo nos
ocupa aquel que se relaciona con la neurona en la última capa oculta que contiene al peso
de interés wkm−1 ,km ,m . Por lo tanto, todos los términos de la sumatoria son constantes respecto
wkm−1 ,km ,m excepto el antes mencionado:
q
§ nm
·
= − ¦ (Ti − Oi )g ' ¨ ¦ wkm ,i ⋅ am,km ¸ ⋅
i =1
© km =1
¹
δ
δ wk
wkm ,i ⋅ am ,km
m−1 , k m , m
q
§ nm
·
= − ¦ (Ti − Oi )g ' ¨ ¦ wkm ,i ⋅ am, km ¸ ⋅
i =1
© km =1
¹
wkm ,i
δ
δ wk
§ El término wkm ,i es constante
¨¨
© respecto a wkm−1 , km , m .
⋅ am ,km
m−1 , k m , m
q
§ nm
·
= − ¦ Erri ⋅g ' ¨ ¦ wkm ,i ⋅ am, km ¸ ⋅
i =1
© km =1
¹
wkm ,i
δ
δ wk
(Por la Ecuación 6.4.9)
⋅ am ,km
m−1 , km , m
δ
q
= − ¦ Erri ⋅g ' ( enti ) wkm ,i
i =1
δ
q
= − ¦ Δ i ⋅wkm ,i
i =1
·
¸¸
¹
δ wk
δ wk
⋅ am , k m
(Por la Ecuación 6.4.1)
m−1 , k m , m
⋅ am,km
(Por la Ecuación 6.4.10)
m −1 , k m , m
209
Una Introducción al Cómputo Neuronal Artificial
q
= − ¦ Δ i wkm ,i ⋅
i =1
§
·
g ¨ ¦ wkm−1 ,km , m ⋅ am −1,km−1 ¸
δ wkm−1 ,km ,m © km−1 =1
¹
q
§ nm−1
·
= − ¦ Δ i wkm ,i g ' ¨ ¦ wkm−1 , km ,m ⋅ am −1, km−1 ¸ ⋅
i =1
© km−1 =1
¹
δ
nm−1
δ
δ wk
nm−1
m−1 , k m , m
¦w
⋅ am −1,km−1
km−1 , km , m
⋅ am −1,km−1 corresponde a la neurona en la última capa
¦w
km−1 =1
(Regla de la Cadena)
km−1 , km , m
km−1 =1
nm−1
La Sumatoria de Salida
§ Por la Ecuación 6.4.4, ·
¨
¸
© haciendo A = m
¹
oculta en la cual está contenido el peso que nos interesa: wkm−1 ,km ,m . Ello implica que
respecto a wkm−1 ,km , m todos los términos son constantes excepto el km −1 -ésimo:
q
§ nm−1
·
= − ¦ Δ i wkm ,i g ' ¨ ¦ wkm−1 , km ,m ⋅ am −1, km−1 ¸ ⋅
i =1
© km−1 =1
¹
δ
δ wk
wkm−1 , km ,m ⋅ am −1,km−1
m −1 , k m , m
q
§ nm−1
·
= − ¦ Δ i wkm ,i g ' ¨ ¦ wkm−1 , km ,m ⋅ am −1, km−1 ¸ am −1,km−1
i =1
© km−1 =1
¹
q
(
§ Por la Ecuación 6.4.3, ·
¨
¸
© haciendo A = m
¹
)
= − ¦ Δ i wkm ,i g ' entkm ,m am −1, km−1
i =1
Resumiendo:
δE
δ wk
q
m−1 , k m , m
(
)
= −¦ Δ i wkm ,i g ' entkm , m am −1, km−1
i =1
(Ecuación 6.4.12)
Definamos ahora al Término de Variación o Cambio Asociado a la km-ésima
Neurona en la Última Capa Oculta como:
q
(
Δ km ,m = ¦ Δ i ⋅ wkm ,i ⋅ g ' entkm , m
i =1
)
(Ecuación 6.4.13)
El término Δ km ,m hace explícito el hecho de que los cambios o correcciones aplicados a las
neuronas en la capa de salida, el primer conjunto de neuronas ajustadas por el Algoritmo de
210
Capítulo 6. Redes de Perceptrones
Retropropagación, también influyen sobre las correcciones a aplicar sobre la km-ésima
neurona en la última capa oculta, 1 ≤ km ≤ nm.
Sustituyendo la Ecuación 6.4.13 sobre la Ecuación 6.4.12 tenemos entonces
expresada de manera concisa la derivada parcial de la Función de Error E respecto al
km-1-ésimo peso en la km-ésima neurona de la última capa oculta:
δE
δ wk
x1
I1
x2
I2
a1,1
Ik
xp
Ip
(Ecuación 6.4.14)
a O-1,1
a O,1
aO+1,1
am,1
O1
O2
a1,k1
xk
= −Δ km ,m ⋅ am −1, km−1
m−1 , km , m
a O-1,kO-1
aO ,kO
a O+1,kO+1
am,k m
Oi
a1,n1
a O-1,nO-1
aO,n O
a O+1,nO+1
am,n m
Oq
Figura 6.11. En color gris se presentan a las neuronas involucradas en la actualización del peso wk ,k ,A .
A−1 A
Éste se encuentra localizado específicamente en la kO-ésima neurona en la O-ésima capa oculta.
Las actualizaciones aplicadas sobre las neuronas en las capas ocultas O+1, O+2, …, m y la capa de
salida influyen sobre la actualización de wk ,k ,A .
A−1 A
Procedamos a determinar el valor de la derivada parcial de la Función de Error E
respecto al kO-1-ésimo peso de la kO-ésima neurona en O-ésima capa oculta, es decir, wkA−1 , kA ,A .
Suponemos que este peso corresponde a una neurona ubicada en cualquier capa oculta
excepto la primera y la última: 1 < O < m. Véase la Figura 6.11. Como en los casos
anteriores, partimos de la Ecuación 6.4.7:
δE
δ wk
A −1 , kA , A
=
δ
δ wk
A −1 , kA , A
1 q
2
(Ti − Oi )
¦
2 i =1
Recordemos que el peso wkA−1 , kA ,A es propagado, por medio de la salida de su neurona
correspondiente, hacia todas las neuronas en la (O+1)-ésima capa oculta. A su vez, este
mismo peso es propagado hacia todas las neuronas en la (O+2)-ésima capa oculta. Tal
propagación continúa hasta llegar a las neuronas en la capa de salida. En concreto, tenemos
que el peso wkA−1 ,kA ,A está presente en todas las neuronas de la red, excepto aquellas en la
211
Una Introducción al Cómputo Neuronal Artificial
capa de entrada, y las capas ocultas 1 a O-1. De la capa oculta O sólo nos interesa la kO-ésima
q
neurona. Por lo tanto, tenemos que para la sumatoria
¦ (T − O )
i
i
2
, que considera a todas
i =1
las neuronas en la capa de salida, ninguno de sus términos es constante respecto a wkA−1 ,kA ,A ,
por lo tanto éstos se preservan:
=
1 q
δ
2
(Ti − Oi )
¦
2 i =1 δ wkA−1 ,kA ,A
δ
q
= ¦ (Ti − Oi )
i =1
δ wk
A −1 , kA , A
δ
q
= −¦ (Ti − Oi )
i =1
(Ti − Oi )
δ wk
§ Ti es constante ·
¨
¸
© respecto a wkA−1 , kA ,A ¹
Oi
A−1 , kA , A
§ nm
·
g ¨ ¦ wkm ,i ⋅ am, km ¸
δ wkA−1 ,kA ,A © km =1
i =1
¹
nm
q
§
·
= −¦ (Ti − Oi ) ⋅ g ' ¨ ¦ wkm ,i ⋅ am, km ¸ ⋅
i =1
© km =1
¹
δ
q
= −¦ (Ti − Oi )
δ
δ wk
nm
¦w
km ,i
k =1
A −1 , kA , A m
(Regla de la Cadena)
(Por la Ecuación 6.4.2)
(Regla de la Cadena)
⋅ am ,km
q
= −¦ Erri ⋅ g ' ( enti ) ⋅
i =1
δ
δ wk
i =1
¦w
k m ,i
k =1
A −1 , kA , A m
δ
q
= −¦ Δ i
nm
δ wk
⋅ am ,km
nm
A −1 , kA , A
¦w
km =1
km ,i
⋅ am , k m
§ Por la Ecuación 6.4.9,
¨
¨ Erri , y por la Ecuación
¨ 6.4.1, ent
i
©
·
¸
¸
¸
¹
(Por la Ecuación 6.4.10)
Nótese que los pesos de las neuronas en la capa de salida, wkm ,i , son constantes respecto al
peso que nos ocupa, wkA−1 , kA ,A y además éste último forma parte de las salidas, am,km , de las
neuronas en la última capa oculta:
q
nm
i =1
km =1
= −¦ Δ i ¦ wkm ,i
212
δ
δ wk
A −1 , kA , A
am ,km
Capítulo 6. Redes de Perceptrones
q
nm
i =1
km =1
= −¦ Δ i ¦ wkm ,i ⋅
§ Por la Ecuación 6.4.4, ·
¨
¸
© haciendo A = m
¹
§ nm−1
·
g ¨ ¦ wkm−1 ,km ,m ⋅ am −1, km−1 ¸
δ wkA−1 ,kA ,A © km−1 =1
¹
nm
q
§ nm−1
·
= −¦ Δ i ¦ wkm ,i g ' ¨ ¦ wkm−1 ,km , m ⋅ am −1,km−1 ¸ ⋅
i =1
km =1
© km−1 =1
¹
δ
δ
δ wk
nm−1
A −1 , kA , A
q
nm
i =1
km =1
¦w
km−1 =1
km−1 , km , m
(
(Regla de la Cadena)
⋅ am −1,km−1
)
= −¦ Δ i ¦ wkm ,i g ' entkm , m ⋅
δ
δ wk
nm−1
¦w
k =1
A −1 , kA , A m−1
km−1 , km , m
§ Por la Ecuación 6.4.3, ·
¨
¸
© haciendo A = m
¹
⋅ am −1, km−1
Supongamos que existe más de una capa entre la última capa oculta y la capa en donde la
neurona con el peso wkA−1 , kA ,A reside. Por lo tanto, los pesos de todas las neuronas en la
última capa oculta son constantes respecto al peso en consideración wkA−1 , kA ,A ya que no
existen conexiones directas con la neurona que precisamente contiene a wkA−1 ,kA ,A . Pero el
peso wkA−1 , kA ,A está contenido en las salidas de las neuronas de la (m-1)-ésima capa oculta. En
nm−1
consecuencia, todos los términos de la sumatoria
¦w
km−1
q
nm
i =1
km =1
(
km−1 , km , m
⋅ am −1,km−1 se conservan:
)
= −¦ Δ i ¦ wkm ,i g ' entkm , m ⋅
nm−1
¦w
km−1 =1
nm
= − ¦ Δ km , m
km−1 , km , m
nm
nm−1
km−1 , km , m
¦w
km−1 =1
δ
δ wk
δ wk
¦w
km−1 =1
km =1
δ
nm−1
km =1
= − ¦ Δ km , m
⋅
A −1 , kA , A
km−1 , km , m
am −1, km−1
A −1 , kA , A
⋅
δ
δ wk
A −1 , kA , A
am −1, km−1
⋅
§ nm−2
·
g ¨ ¦ wkm−2 ,km−1 , m −1 ⋅ am − 2, km−2 ¸
© km−2 =1
¹
(Por la Ecuación 6.4.13)
§ Por la Ecuación 6.4.4, ·
¨
¸
© haciendo A = m − 1
¹
213
Una Introducción al Cómputo Neuronal Artificial
nm
= − ¦ Δ km , m
km =1
nm−1
¦w
km−1 =1
km−1 , km , m
⋅
§ nm−2
·
g ' ¨ ¦ wkm−2 ,km−1 ,m −1 ⋅ am − 2,km−2 ¸ ⋅
© km−2 =1
¹
δ
δ wk
nm−2
¦
=1
k
A−1 , kA , A m− 2
nm
= − ¦ Δ km , m
km =1
nm−1
δ
δ wk
wkm−2 ,km−1 , m −1 ⋅ am − 2,km−2
¦w
km−1 =1
km−1 , km , m
nm−2
¦
=1
k
A −1 , kA , A m− 2
(Regla de la Cadena)
(
)
⋅g ' entk m−1, m −1 ⋅
wkm−2 ,km−1 ,m −1 ⋅ am − 2,km−2
§ Por la Ecuación 6.4.3, ·
¨
¸
© haciendo A = m − 1
¹
Los pesos de todas las neuronas en la (m-1)-ésima capa oculta son todos constantes
respecto al peso wkA−1 , kA ,A ya que no existen conexiones directas con la neurona que
precisamente contiene a wkA−1 ,kA ,A . Pero el peso wkA−1 ,kA ,A está contenido en las salidas de las
neuronas de la (m-2)-ésima capa oculta. De nueva cuenta tenemos que todos los términos
nm−2
de la sumatoria
¦
km−2 =1
nm
= − ¦ Δ km , m
km =1
nm−2
¦
km−2 =1
wkm−2 , km−1 , m −1 ⋅ am − 2, km−2 se preservan:
nm−1
¦w
km−1 =1
km−1 , km , m
wkm−2 , km−1 ,m −1 ⋅
(
)
⋅ g ' entk m−1 ,m −1 ⋅
δ
δ wk
A −1 , kA , A
am − 2,km−2
En ese punto haremos una pausa ya que conviene introducir nueva notación.
Reconsideremos al Término de Variación o Cambio asociado a la km-ésima neurona en la
última capa oculta, presentado originalmente en la Ecuación 6.4.13:
q
Δ km ,m = ¦ Δ i ⋅ wkm ,i ⋅ g '(entkm ,m )
i =1
Este término representa parte de la corrección a aplicar a las neuronas en la última capa
oculta. Dado que las salidas de estas neuronas influyen sobre el error que tuvieron en su
momento las neuronas en la siguiente capa, en este caso la capa de salida, es que entonces
parte de la corrección que se les aplicó a éstas últimas también debe ser aplicada a la última
214
Capítulo 6. Redes de Perceptrones
capa oculta, de allí la presencia de los términos Δ i y wkm ,i . Ahora bien, obsérvense los
(
términos Δ km ,m , wkm−1 ,km , m y g ' entk m−1,m −1
)
en la última expresión que obtuvimos para la
derivada parcial de la Función de Error E respecto a wkA−1 , kA ,A :
δE
δ wk
nm
A −1 , kA , A
= − ¦ Δ km , m
km =1
nm−1
¦
km−1 =1
(
)
nm−2
wkm−1 ,km , m ⋅ g ' entk m−1,m −1 ⋅ ¦ wkm−2 ,km−1 ,m −1 ⋅
km−2 =1
δ
δ wk
A −1 , kA , A
am − 2,km−2
Recordemos que en este punto estamos procesando a las neuronas que forman a la
(m-1)-ésima capa oculta. Las salidas de estas neuronas influyen en el error que en su
momento tuvieron las salidas de la siguiente capa, es decir, las salidas de las neuronas en la
m-ésima capa oculta, la última capa oculta de hecho. Las neuronas de la última capa fueron
corregidas en su momento al usar su correspondiente Término de Variación o Cambio:
Δ km ,m . Además de Δ km ,m , debe ser claro que para corregir a las neuronas de la capa actual,
la (m-1)-esima, también requerimos de los pesos wkm−1 ,km , m (los cuales residen en la siguiente
(
)
capa) y de g ' entk m−1,m −1 . Todos estos términos pueden ser agrupados bajo la sumatoria
con índices inferior km y superior nm. Es decir tendríamos la sumatoria:
nm
¦Δ
km =1
km , m
(
⋅ wkm−1 , km ,m ⋅ g ' entk m−1, m −1
)
Nótese la similitud de ésta con la sumatoria de la Ecuación 6.4.13. Así como la sumatoria
q
¦Δ ⋅w
i
i =1
k m ,i
⋅ g '(entkm ,m ) se definió como el Término de Variación o Cambio Δ km ,m para la
km-ésima neurona en la última capa oculta, ahora podemos definir a la sumatoria
nm
¦Δ
km =1
km , m
(
)
⋅ wkm−1 ,km , m ⋅ g ' entk m−1 ,m −1 como el Término de Variación o Cambio Δ km−1 ,m −1 para la
km-1-ésima neurona en la penúltima capa oculta. Pero como veremos más adelante,
tendremos que definir para cada neurona en cada capa oculta su correspondiente Término
de Variación o Cambio. La buena noticia es que las expresiones que se obtienen serán
similares a las que hemos obtenido para Δ km−1 ,m−1 y para Δ km ,m . Por ello mismo, definiremos
al Término de Variación o Cambio para la kO-ésima Neurona en la O-ésima Capa
Oculta, 1 ≤ O < m, como:
nA +1
Δ kA ,A = g '(entkA ,A ) ¦ Δ kA+1,A +1 ⋅ wkA ,kA+1 ,A +1
(Ecuación 6.4.15)
kA+1 =1
215
Una Introducción al Cómputo Neuronal Artificial
El caso cuando O = m ya está cubierto por la Ecuación 6.4.13. Teniendo ya a la mano esta
nueva definición, podemos proseguir con nuestra derivada parcial de la Función de Error E
respecto al peso wkA−1 , kA ,A . Aplicaremos la Ecuación 6.4.15 cuando sea requerido:
δE
δ wk
A −1 , kA , A
nm
= − ¦ Δ km , m
km =1
nm−2
¦
km−2 =1
nm−1
¦w
km−1 , km , m
km−1 =1
wkm−2 , km−1 , m −1 ⋅
nm−1
nm−2
km−1 =1
km−2 =1
= − ¦ Δ km−1 ,m −1
δ
δ wk
A −1 , kA , A
¦
nm−2
km−1 =1
km−2 =1
δ
δ wk
A −1 , kA , A
¦
δ
δ wk
A −1 , kA , A
am − 2, km−2
wkm−2 ,km−1 ,m −1 ⋅
§ Por la Ecuación 6.4.15, ·
¨
¸
© haciendo A = m − 1
¹
wkm−2 , km−1 ,m −1 ⋅
§ nm−3
·
g ¨ ¦ wkm−3 ,km−2 , m − 2 ⋅ am −3,km−3 ¸
© km−3 =1
¹
nm−1
nm−2
km−1 =1
km−2 =1
= − ¦ Δ km−1 ,m −1
)
am − 2,km−2
nm−1
= − ¦ Δ km−1 ,m −1
(
⋅ g ' entk m−1 ,m −1 ⋅
¦
wkm−2 ,km−1 ,m −1 ⋅
§ nm−3
·
g ' ¨ ¦ wkm−3 ,km−2 ,m − 2 ⋅ am −3,km−3 ¸ ⋅
© km−3 =1
¹
δ
δ wk
nm−3
¦w
k =1
A −1 , kA , A m−3
nm−1
nm−2
km−1 =1
km−2 =1
= − ¦ Δ km−1 ,m −1
δ
δ wk
¦
§ Por la Ecuación 6.4.4, ·
¨
¸
© haciendo A = m − 2
¹
km−3 , km−2 , m − 2
(Regla de la Cadena)
⋅ am −3, km−3
(
)
wkm−2 ,km−1 ,m −1 ⋅g ' entkm−2 , m − 2 ⋅
nm−3
¦w
k =1
A −1 , kA , A m−3
km−3 , km−2 , m − 2
⋅ am −3,km−3
§ Por la Ecuación 6.4.3, ·
¨
¸
© haciendo A = m − 2
¹
Los pesos de todas las neuronas en la (m-2)-ésima capa oculta son todos constantes
respecto al peso wkA−1 ,kA ,A ya que no existen conexiones directas con la neurona que
precisamente contiene a wkA−1 , kA ,A . Pero el peso wkA−1 , kA ,A está contenido en las salidas de las
neuronas de la (m-3)-ésima capa oculta. De nueva cuenta, todos los términos de la
nm−3
sumatoria
¦w
km−3 =1
216
km−3 , km−2 , m − 2
⋅ am −3,km−3 se preservan:
Capítulo 6. Redes de Perceptrones
nm−1
nm−2
km−1 =1
km−2 =1
= − ¦ Δ km−1 ,m −1
¦
(
δ
nm−3
¦w
km−3 =1
=−
nm−2
¦
km−2 =1
k m −3 , k m − 2 , m − 2
Δ km −2 , m − 2
δ
δ wk
=−
nm−2
¦
km−2 =1
A −1 , kA , A
Δ k m− 2 , m − 2
δ
δ wk
=−
A −1 , kA , A
nm−2
¦Δ
km−2 =1
δ wk
A −1 , kA , A
nm−3
¦w
km−3 , km−2 , m − 2
km−3 =1
am −3,km−3
⋅
§ Por la Ecuación 6.4.15, ·
¨
¸
© haciendo A = m − 2
¹
am −3,km−3
nm−3
¦w
km−3 , km−2 , m − 2
km−3 =1
⋅
§ Por la Ecuación 6.4.4, ·
¨
¸
© haciendo A = m − 3
¹
§ nm−4
·
g ¨ ¦ wkm−4 ,kk −3 , m −3 ⋅ am − 4, km−4 ¸
© km−4 =1
¹
nm−3
km −2 , m − 2
)
wkm−2 , km−1 ,m −1 ⋅ g ' entkm−2 ,m − 2 ⋅
¦w
km−3 , km−2 , m − 2
km−3 =1
⋅
§ nm−4
·
g ' ¨ ¦ wkm−4 ,kk −3 ,m −3 ⋅ am − 4,km−4 ¸ ⋅
© km−4 =1
¹
δ
δ wk
=−
nm−2
¦
km−2 =1
¦
=1
k
A −1 , kA , A m− 4
Δ k m−2 , m − 2
δ
δ wk
nm−4
wkm−4 ,kk −3 ,m −3 ⋅ am − 4, km−4
nm−3
¦w
km−3 , km−2 , m − 2
km−3 =1
nm−4
¦
=1
k
A −1 , kA , A m− 4
(Regla de la Cadena)
(
)
⋅g ' entkm−3 ,m −3 ⋅
wkm−4 ,kk −3 ,m −3 ⋅ am − 4,km−4
§ Por la Ecuación 6.4.3, ·
¨
¸
© haciendo A = m − 3
¹
Los pesos de todas las neuronas en la (m-3)-ésima capa oculta son todos constantes
respecto al peso wkA−1 , kA ,A ya que asumimos no existen conexiones directas con la neurona
que contiene a wkA−1 ,kA ,A . Pero el peso wkA−1 ,kA ,A está contenido en las salidas de las neuronas de
la (m-4)-ésima capa oculta. Tal como hemos procedido en párrafos anteriores, todos los
nm−4
términos de la sumatoria
¦
km−4 =1
wkm−4 , kk −3 , m −3 ⋅ am − 4,km−4 se preservan:
217
Una Introducción al Cómputo Neuronal Artificial
=−
nm−2
¦Δ
km−2 =1
nm−3
k m−2 , m − 2
nm−4
¦
km−4 =1
=−
nm−3
¦
km−3 =1
km−3 , km−2 , m − 2
wkm−4 ,kk −3 ,m −3 ⋅
Δ km−3 ,m −3
δ
δ wk
¦w
km−3 =1
A −1 , kA , A
nm−4
¦
km−4 =1
δ
δ wk
(
)
⋅ g ' entkm−3 ,m −3 ⋅
A −1 , kA , A
am − 4,km−4
wkm−4 ,km−3 ,m −3 ⋅
§ Por la Ecuación 6.4.15, ·
¨
¸
© haciendo A = m − 3
¹
am − 4,km−4
En este punto de nuestro desarrollo debe ser claro que mientras la capa oculta que contiene
a la neurona en donde reside el peso wkA−1 ,kA ,A no haya sido alcanzada aún tendremos la
secuencia de aplicaciones de la Ecuación 6.4.4, Regla de la Cadena, Ecuación 6.4.3, Regla
de la Derivada de una Suma, y finalmente Ecuación 6.4.15 donde obtenemos el Término
de Variación o Cambio asociado a cada neurona en la capa oculta actualmente procesada.
Supongamos que la capa oculta donde se encuentra el peso wkA−1 ,kA ,A está suficientemente
alejada de la última capa oculta de la red. Por lo tanto, la secuencia de aplicaciones antes
descrita nos lleva a obtener una expresión que contiene los Términos de Variación o
Cambio asociados a la (m-4)-ésima capa oculta:
="
=−
nm−4
¦
km−4 =1
Δ k m− 4 , m − 4
nm−5
¦
km−5 =1
wkm−5 ,km−4 ,m − 4 ⋅
δ
δ wk
A −1 , kA , A
am −5, km−5
Nuevamente aplicamos a la expresión anterior, en este orden, la Ecuación 6.4.4, Regla de
la Cadena, Ecuación 6.4.3, Regla de la Derivada de una Suma y finalmente Ecuación
6.4.15. Por lo tanto obtenemos:
="
=−
nm−5
¦
km−5 =1
218
Δ k m −5 , m − 5
nm−6
¦
km−6 =1
wkm−6 ,km−5 ,m −5 ⋅
δ
δ wk
A −1 , kA , A
am −6,km−6
Capítulo 6. Redes de Perceptrones
Debe ser claro que cada vez estamos más cerca de la capa oculta en cuestión: aquella que
contiene al peso wkA−1 ,kA ,A . Supongamos que aplicamos sucesivamente la secuencia de pasos
antes mencionada hasta que llegamos al punto en donde estamos procesando a las neuronas
en la (O+1)-ésima capa oculta. Es decir, tenemos la siguiente expresión:
="
nA+2
= − ¦ Δ kA + 2 , A + 2
kA+ 2 =1
nA+1
¦w
kA+1 =1
kA+1 , kA+2 , A + 2
⋅
δ
δ wk
A −1 , kA , A
aA +1,kA+1
Tenemos entonces:
nA+ 2
= − ¦ Δ kA + 2 , A + 2
kA+2 =1
nA+1
¦w
kA+1 =1
δ
δ wk
A −1 , kA , A
nA+ 2
= − ¦ Δ kA + 2 , A + 2
kA+2 =1
kA+1 , kA+2 ,A + 2
⋅
§ Por la Ecuación 6.4.4, ·
¨
¸
¨ para la (A +1)-ésima ¸
¨ capa oculta
¸
©
¹
§ nA
·
g ¨ ¦ wkA , kA+1 ,A +1 ⋅ aA , kA ¸
© kA =1
¹
nA+1
¦w
kA+1 =1
kA+1 , kA+2 ,A + 2
⋅
§ nA
·
g ' ¨ ¦ wkA , kA+1 ,A +1 ⋅ aA ,kA ¸ ⋅
© kA =1
¹
δ
δ wk
nA
A −1 , kA , A
nA+2
= − ¦ Δ kA + 2 , A + 2
kA+ 2 =1
¦w
kA+1 =1
¦w
kA =1
⋅ aA ,kA
A −1 , kA , A
kA+1 , kA+2 , A + 2
nA
¦w
kA =1
nA
La sumatoria
kA , kA+1 , A +1
nA+1
δ
δ wk
¦w
kA =1
kA , kA+1 , A +1
kA , kA+1 , A +1
(Regla de la Cadena)
(
)
⋅g ' entkA+1 , A +1 ⋅
⋅ aA , kA
§ Por la Ecuación 6.4.3, ·
¨
¸
¨ para la (A +1)-ésima ¸
¨ capa oculta
¸
©
¹
⋅ aA ,kA considera a todas las neuronas en la O-ésima capa oculta. Sin
embargo, es sólo una la neurona la que contiene a nuestro peso de interés wkA−1 , kA ,A . Por lo
tanto, todos los términos de la sumatoria son constantes respecto a wkA−1 , kA ,A excepto el
kO-ésimo:
219
Una Introducción al Cómputo Neuronal Artificial
nA+ 2
= − ¦ Δ kA + 2 , A + 2
kA+2 =1
nA+1
δ
δ wk
A−1 , kA , A
kA+1 =1
kA+1 , kA+2 , A + 2
(
)
⋅ g ' entkA+1 ,A +1 ⋅
wkA ,kA+1 ,A +1 ⋅ aA , kA
δ
nA+1
= − ¦ Δ kA+1 ,A +1
¦w
kA+1 =1
δ wk
A −1 , kA , A
δ
nA+1
= − ¦ Δ kA+1 ,A +1wkA ,kA+1 ,A +1
kA+1 =1
wkA , kA+1 ,A +1aA ,kA
δ wk
A −1 , kA , A
aA ,kA
§ Por la Ecuación 6.4.15, ·
¨
¸
¨ para la (A +1)-ésima
¸
¨ capa oculta
¸
©
¹
§ El peso wkA , kA+1 ,A +1 es constante ·
¨¨
¸¸
© respecto a wkA−1 ,kA ,A
¹
nA+1
= − ¦ Δ kA+1 ,A +1wkA ,kA+1 ,A +1 ⋅
kA+1 =1
δ
δ wk
A −1 , kA , A
§ nA−1
·
g ¨ ¦ wkA−1 , kA ,A ⋅ aA −1, kA−1 ¸
© kA−1 =1
¹
( Por la Ecuación 6.4.4 )
nA+1
= − ¦ Δ kA+1 ,A +1wkA ,kA+1 ,A +1 ⋅
kA+1 =1
§ nA−1
·
g ' ¨ ¦ wkA−1 , kA ,A ⋅ aA −1,kA−1 ¸ ⋅
© kA−1 =1
¹
δ
δ wk
nA−1
¦w
k =1
A −1 , kA , A A −1
(Regla de la Cadena)
kA−1 , kA ,A
⋅ aA −1, kA−1
(
)
nA+1
= − ¦ Δ kA+1 ,A +1wkA ,kA+1 ,A +1 ⋅ g ' entkA ,A ⋅
kA+1 =1
δ
δ wk
A −1 , kA , A
wkA−1 ,kA ,A ⋅ aA −1, kA−1
nA+1
(
( Por la Ecuación 6.4.3 )
)
= − ¦ Δ kA+1 ,A +1wkA ,kA+1 ,A +1 ⋅ g ' entkA ,A ⋅ aA −1, kA−1
kA+1 =1
= −Δ kA ,A aA −1, kA−1
(Por la Ecuación 6.4.15)
Finalmente, y después de un largo camino, tenemos que:
δE
δ wk
220
A −1 , kA , A
= −Δ kA ,A aA −1,kA−1
1< A < m
(Ecuación 6.4.16)
Capítulo 6. Redes de Perceptrones
Nótese que la notación impuesta por los Términos de Variación o Cambio permite que las
derivadas parciales puedan ser expresadas de manera sumamente concisa. Sin embargo,
debe tenerse en cuenta, sobre todo al momento de la implementación algorítmica, que para
poder obtener el valor del término Δ kA ,A se requiere conocer al término Δ kA+1 ,A +1 . A su vez,
para conocer el valor del término Δ kA+1 ,A +1 se requiere conocer a Δ kA+2 ,A + 2 , y así
sucesivamente hasta llegar a requerir al término Δ km ,m y finalmente a Δi . Ello implica que
conforme estos términos son calculados, es sumamente conveniente guardarlos ya que
serán requeridos para la actualización de las capas ocultas que preceden a sus capas
correspondientes.
x1
I1
x2
I2
a1,1
Ik
xp
Ip
a O,1
am,1
O1
O2
a1,k1
xk
a 2,1
a 2,k2
aO ,kO
am,k m
Oi
a1,n1
a 2,n2
aO,n O
am,n m
Oq
Figura 6.12. En color gris se muestran las neuronas involucradas en la actualización del peso wk ,k ,1 .
1
Este peso se ubica específicamente en la k1-ésima neurona de la primera capa oculta.
Las correcciones aplicadas sobre todas las neuronas de la red, a excepción de las neuronas en la capa
de entrada y de las neuronas en la primera capa oculta (salvo la k1-ésima), influyen sobre la actualización
del peso wk ,k ,1 .
1
Abordemos el último paso concerniente a la determinación de las derivadas
parciales de la Función de Error E para la situación de una red de Perceptrones con al
menos 2 capas ocultas. Requerimos ahora conocer el valor de la derivada parcial de E
respecto al k-ésimo peso de la k1-ésima neurona en la primer capa oculta. Es decir,
δE
. Véase la Figura 6.12. Debe ser claro que la neurona que contiene al
buscaremos
δ wk ,k1 ,1
peso wk ,k1 ,1 únicamente envía sus salidas de manera directa a las neuronas en la segunda
capa oculta. Obviamente está desconectada del resto de las capas ocultas y la capa de
salida. Sin embargo, el peso wk ,k1 ,1 formará parte de todas las sumatorias de salida asociadas
a las neuronas en tales capas incluyendo también a la segunda capa oculta. Esta propiedad
es importante ya que por un lado nos dice que la manera de proceder para encontrar la
derivada parcial es, en un principio, la misma que se aplicó para encontrar, tal como lo
221
Una Introducción al Cómputo Neuronal Artificial
hicimos previamente, el valor de
δE
δ wk
(Ecuación 6.4.16). Esto tiene como
A −1 , kA , A
consecuencia que todos los términos de las sumatorias obtenidas deberán ser preservados.
La concisión en las expresiones que encontremos se da al utilizar las Ecuaciones 6.4.3 y
6.4.15. Sin embargo, por otro lado, la diferencia de proceder se da hasta el momento en que
nos ubiquemos en la segunda capa oculta, que es cuando tendremos acceso directo a las
neuronas en la primera capa oculta. Sabemos que tal acceso se expresa a través de una
sumatoria en la cual cada término está asociado a cada neurona de la primera capa oculta.
Dado que de todas estas neuronas sólo nos interesa la k1-ésima es que los demás términos
de la sumatoria son eliminados. Finalmente, nos encontraremos con la sumatoria de salida
de la neurona de interés, en la cual todos sus términos, excepto el k-ésimo, son eliminados
por ser constantes respecto a wk ,k1 ,1 .
Aplicaremos los pasos descritos anteriormente. Iniciaremos como siempre con la
1 q
2
sustitución de E por ¦ (Ti − Oi ) . Tal como se comentó previamente, se aplicarán las
2 i =1
derivaciones y Ecuaciones requeridas, de manera similar a como se hizo en la
δE
determinación de
(Ecuación 6.4.16). Para este conjunto de operaciones el lector
δ wkA−1 ,kA ,A
puede hacer referencia a los párrafos anteriores. Sin embargo, volveremos a ser específicos
al momento en que se llegue a la tercera capa oculta, donde efectuaremos las operaciones a
detalle.
δE
δ wk ,k ,1
1
=
δ
δ wk ,k ,1
1
1 q
2
(Ti − Oi )
¦
2 i =1
(Por la Ecuación 6.4.7)
= ...
δ
n3
= − ¦ Δ k3 ,3
k3 =1
n2
¦w
δ wk ,k ,1 k =1
1
k2 , k3 ,3
⋅ a2,k2
2
Recordemos que los pesos de todas las neuronas en la tercera capa oculta son constantes
respecto al peso wk , k1 ,1 ya que no existen conexiones directas con las neuronas en la primera
capa oculta. Pero el peso wk ,k1 ,1 está contenido en las salidas de las neuronas de la
segunda capa oculta:
222
Capítulo 6. Redes de Perceptrones
n3
n2
k3 =1
k2 =1
n3
n2
k3 =1
k2 =1
= − ¦ Δ k3 ,3 ¦ wk2 ,k3 ,3 ⋅
δ
δ wk ,k ,1
a2,k2
1
= − ¦ Δ k3 ,3 ¦ wk2 ,k3 ,3 ⋅
§ n1
·
g ¨ ¦ wk1 ,k2 ,2 ⋅ a1,k1 ¸
δ wk ,k1 ,1 © k1 =1
¹
n3
n2
§ n1
·
= − ¦ Δ k3 ,3 ¦ wk2 ,k3 ,3 ⋅ g ' ¨ ¦ wk1 ,k2 ,2 ⋅ a1,k1 ¸
k3 =1
k2 =1
© k1 =1
¹
δ
δ
n1
¦w
δ wk ,k ,1 k =1
1
n3
n2
k3 =1
k2 =1
k1 , k2 ,2
⋅ a1,k1
(
n1
¦w
δ wk ,k ,1 k =1
1
k2 =1
k1 , k2 ,2
)
⋅ a1,k1
§ Por la Ecuación 6.4.3 ·
¨
¸
© haciendo A = 2
¹
1
δ
n2
= − ¦ Δ k2 ,2
(Regla de la Cadena)
1
= − ¦ Δ k3 ,3 ¦ wk2 ,k3 ,3 ⋅ g ' entk2 ,2
δ
§ Por la Ecuación 6.4.4 ·
¨
¸
© haciendo A = 2
¹
n1
¦w
δ wk ,k ,1 k =1
k1 , k2 ,2
⋅ a1,k1
1
1
§ Por la Ecuación 6.4.15, ·
¨
¸
© haciendo A = 2
¹
Nótese que el peso wk ,k1 ,1 estará contenido únicamente en la salida de la k1-ésima neurona
n1
en la primera capa oculta. Por lo tanto, todos los términos de la sumatoria
¦w
k1 =1
k1 , k2 ,2
⋅ a1,k1
son constantes, excepto el k1-ésimo, respecto a wk ,k1 ,1 :
δ
n2
= − ¦ Δ k2 ,2 wk1 ,k2 ,2 ⋅
k2 =1
δ wk ,k ,1
a1,k1
1
δ
n2
= − ¦ Δ k2 ,2 wk1 ,k2 ,2 ⋅
k2 =1
δ wk ,k ,1
1
§ p
·
g ¨ ¦ wk , k1 ,1 ⋅ I k ¸
© k =1
¹
§
·
= − ¦ Δ k2 ,2 wk1 ,k2 ,2 ⋅ g ' ¨ ¦ wk ,k1 ,1 ⋅ I k ¸
k2 =1
© k =1
¹
n2
§ Por la Ecuación 6.4.6 ·
¨
¸
© haciendo A = 1
¹
p
δ
p
δ wk ,k ,1
1
¦w
k =1
k , k1 ,1
(Regla de la Cadena)
⋅ Ik
223
Una Introducción al Cómputo Neuronal Artificial
De todos los términos en la Sumatoria de Salida de la k1-ésima neurona en la primera capa
oculta únicamente nos interesa el k-ésimo, que es precisamente wk ,k1 ,1 ⋅ I k :
§ p
·
= − ¦ Δ k2 ,2 wk1 ,k2 ,2 ⋅ g ' ¨ ¦ wk , k1 ,1 ⋅ I k ¸ ⋅
k2 =1
© k =1
¹
n2
δ
δ wk ,k ,1
wk ,k1 ,1 ⋅ I k
1
n2
§ p
·
= − ¦ Δ k2 ,2 wk1 ,k2 ,2 ⋅ g ' ¨ ¦ wk , k1 ,1 ⋅ I k ¸ ⋅ I k
k2 =1
© k =1
¹
n2
(
)
= − ¦ Δ k2 ,2 wk1 ,k2 ,2 ⋅ g ' entk1 ,1 ⋅ I k
(Por la Ecuación 6.4.5)
= −Δ k1 ,1 ⋅ I k
§ Por la Ecuación 6.4.15, ·
¨
¸
© haciendo A = 1
¹
k2 =1
Concretizando:
δE
δ wk ,k ,1
= −Δ k1 ,1 ⋅ I k
(Ecuación 6.4.17)
1
Por fin, y después de un largo viaje matemático, contamos con las derivadas
parciales que forman al vector gradiente de la Función de Error E. Suponemos que el
número de capas ocultas es al menos 2, es decir, m ≥ 2:
•
•
•
•
δE
δ wk
= −Δ i ⋅ am, km
m ,i
δE
δ wk
= −Δ km ,m ⋅ am −1, km−1
m−1 , km , m
δE
δ wk
A −1 , kA , A
δ
δ wk ,k ,1
= −Δ kA ,A aA −1, kA−1 , 1 < A < m
= −Δ k1 ,1 ⋅ I k
1
Sabemos que estas derivadas parciales representan las direcciones de máximo crecimiento
de la Función de Error E. Por lo tanto, para actualizar los pesos de las neuronas en la capa
de salida y en las capas ocultas se requiere la dirección opuesta del gradiente a fin de
minimizar el error. En consecuencia tendremos las siguientes reglas de actualización, o
corrección, de pesos:
224
Capítulo 6. Redes de Perceptrones
•
Para los pesos de las neuronas en la capa de salida:
wkm ,i = wkm ,i + α⋅Δi⋅ am,km
•
Para los pesos de las neuronas en la última capa oculta:
wkm−1 ,km , m = wkm−1 ,km , m + α⋅ Δ km ,m ⋅ am −1, km−1
•
(Ecuación 6.4.19)
Para los pesos de las neuronas en la O-ésima capa oculta, 1 < O < m:
wkA−1 , kA ,A = wkA−1 , kA ,A + α⋅ Δ kA ,A ⋅ aA −1,kA−1
•
(Ecuación 6.4.18)
(Ecuación 6.4.20)
Para los pesos de las neuronas en la primera capa oculta:
wk ,k1 ,1 = wk ,k1 ,1 + α⋅ Δ k1 ,1 ⋅Ιk
(Ecuación 6.4.21)
Donde α es nuestro bien conocido Coeficiente de Aprendizaje.
Realmente lo que nos queda por hacer es especificar al Algoritmo de
Retropropagación para el ajuste de pesos en una Red Neuronal de Perceptrones con al
menos 2 capas ocultas. Como ya mencionamos al inicio de esta Sección, el proceso de
ajuste de los pesos se dividirá en 4 fases. Dado un vector de entrada, tenemos en primer
lugar que se ajustarán los pesos de las neuronas en la capa de salida, aplicando la Ecuación
6.4.18. Una vez finalizada esta etapa se procederá al ajuste de los pesos en las neuronas en
la última capa oculta. Se deberá utilizar la Ecuación 6.4.19. La fase 3 comprende el ajuste
de los pesos de las neuronas en las capas ocultas intermedias, comenzando a partir de la
penúltima capa oculta y terminando en la segunda capa oculta. Las neuronas de cada capa
son procesadas y actualizadas haciendo uso de la regla presentada en la Ecuación 6.4.20.
Por último, en la cuarta fase tendremos que ajustar los pesos de las neuronas en la primera
capa oculta aplicando la Ecuación 6.4.21. Como ya se comentó con anterioridad, es
sumamente importante, a fin de no afectar la eficiencia del Algoritmo de Retropropagación,
el guardar, conforme se van calculado, los valores de:
• Δi: al actualizar los pesos de las neuronas en la capa de salida.
• Δ km ,m : al actualizar los pesos de las neuronas en la última capa oculta.
•
Δ kA ,A : al actualizar los pesos de las neuronas en las capas ocultas intermedias, 1 < O < m.
Ya que, como se ha visto, éstos son requeridos para la actualización de los pesos en las
capas ocultas. Las 4 fases descritas se ejecutan por cada elemento del conjunto de
entrenamiento. A su vez, el conjunto de entrenamiento es presentado tantas veces se
requiera. Otra opción es establecer una Función de Error que permita medir el desempeño
de la red una vez que se ha efectuado una presentación del conjunto de entrenamiento y si
el error obtenido es menor o igual a un error mínimo aceptable entonces se finaliza el
entrenamiento.
225
Una Introducción al Cómputo Neuronal Artificial
De manera más específica tenemos entonces que la secuencia de pasos a efectuar
por el Algoritmo de Retropropagación es la siguiente:
•
•
Inicializar los pesos de todas las neuronas de manera aleatoria con valores en (-1, 1).
Repetir hasta que la red proporcione salidas con un error aceptable o bien hasta que el
número requerido de presentaciones del conjunto de entrenamiento haya sido
alcanzado:
o Para cada vector χ en el conjunto de entrenamiento:
ƒ
ƒ
ƒ
Obtener la correspondiente salida O de la red.
Obtener el vector de salida esperada T asociado al vector de entrada χ.
Para i = 1 hasta q:
• Calcular Erri = Ti – Oi
ƒ
Fase 1 - Actualización de pesos en las neuronas de la capa de salida:
• Para cada neurona i en la capa de salida, i = 1, 2, …, q:
o Obtener Δi.
o Para km = 1 hasta nm:
ƒ wkm ,i = wkm ,i + α⋅Δi⋅ am,km
ƒ
Fase 2 - Actualización de pesos en las neuronas de la última capa oculta:
• Para cada neurona km en la última capa oculta, km = 1, 2, …, nm:
o Obtener Δ km ,m .
o Para km-1 = 1 hasta nm-1:
ƒ wkm−1 ,km , m = wkm−1 ,km , m + α⋅ Δ km ,m ⋅ am −1, km−1
ƒ
Fase 3 - Actualización de pesos en las neuronas en la (m-1)-ésima capa oculta
hasta la segunda capa oculta:
• Para O = m-1 hasta 2:
o Para cada neurona kOen la O-ésima capa oculta, kO = 1, 2, …, nO:
ƒ Obtener Δ kA ,A .
ƒ
ƒ
226
Para kO-1 = 1 hasta nO-1:
• wkA−1 ,kA ,A = wkA−1 ,kA ,A + α⋅ Δ kA ,A ⋅ aA −1,kA−1
Fase 4 - Actualización de pesos en las neuronas de la primer capa oculta:
• Para cada neurona k1 en la primer capa oculta, k1 = 1, 2, …, n1:
o Para k = 1 hasta p:
ƒ wk , k1 ,1 = wk , k1 ,1 + α⋅ Δ k1 ,1 ⋅Ιk
Capítulo 6. Redes de Perceptrones
Sabemos que cuando el Algoritmo de Retropropagación ha finalizado es que se
cuenta con una Corrida. Debe tenerse en consideración, tal como comentamos en la
Sección anterior, que no es posible, aún en el caso de 2 o más capas ocultas, garantizar el
aprendizaje óptimo en términos de que los pesos encontrados efectivamente minimizan a
nuestra función de error. Es posible que éstos correspondan a un mínimo local. Otra
situación que puede presentarse es que el lugar geométrico descrito por la función de error
carezca de puntos críticos y en particular de mínimos. En este sentido la convergencia de
los pesos nunca tendrá lugar. Por ello mismo, es que por lo regular se recomienda efectuar
más de una corrida. La idea detrás de este proceder, como ya comentamos antes, es la de
efectuar una exploración en diferentes regiones de la función de error. Aunque ello no
garantiza que se encontrarán los pesos óptimos, es una manera empírica de identificar si los
resultados obtenidos para una corrida, es decir los pesos encontrados, corresponden a
mínimos locales o globales.
6.5 Aplicación: Predicción de Señales
Recordemos que en los Capítulos 1 y 4 establecimos al problema de la Predicción
de Señales como el modelado de una serie de tiempo de manera que sea posible determinar
cómo se comportará en el futuro. En la Sección 4.3 este problema fue abordado como una
aplicación de la Neurona tipo Perceptrón. En ese caso se asumía que la señal se ajustaba a
un modelo de Serie de Tiempo de M-ésimo Orden de Parámetros Autorregresivos. El
objetivo era determinar a los M parámetros que definían a la señal. Tales parámetros, como
se recordará, estaban representados por los pesos de la neurona. Una vez que se finalizaba
el entrenamiento es que recurríamos a inspeccionar tales pesos y éstos se utilizaban para
generar una nueva señal, junto con los vectores en el conjunto de entrenamiento, y
determinar si la aproximación obtenida era lo suficientemente buena al compararla con la
señal original. En esta Sección veremos como es que una Red de Perceptrones puede
proporcionarnos una solución interesante pero ahora partiremos de una suposición
diferente: no tenemos conocimiento alguno respecto a qué modelo se ajusta la señal. Sólo
contamos con las muestras que la forman y nada más. En particular, trabajaremos con un
Red formada por exactamente dos capas ocultas. En primer lugar recordaremos algunos
conceptos planteados en la Sección 4.3. Posteriormente aplicaremos las reglas de
actualización definidas en la Sección anterior, pero las haremos instancias de nuestro caso
con m = 2 capas ocultas. Definiremos entonces al Algoritmo de Retropropagación
específico para el entrenamiento de una Red formada por dos capas ocultas y lo
aplicaremos a fin de que nuestra red modele la señal dada.
Sea K el número de muestras que conforman a nuestra señal. Cada muestra es de
hecho un número xn que es el valor de la señal en el momento n. Supondremos que el valor
de cualquier muestra xn tiene influencia de los valores de las muestras que le preceden y
tendrá influencia sobre los valores que le prosiguen. Sabemos que este razonamiento parte
de hecho de que los elementos de una serie de tiempo no son independientes entre sí. Por
ejemplo, el comportamiento actual de la Bolsa de Valores depende en gran medida de los
comportamientos de la misma en días previos. O bien, tenemos conocimiento que por lo
227
Una Introducción al Cómputo Neuronal Artificial
regular un sismo de gran magnitud en un día dado incide sobre la actividad sísmica en días
posteriores, de donde se tienen las llamadas Réplicas. En este sentido tenemos que las K
muestras, a fin de formar el conjunto de entrenamiento, serán usadas para formar
subsecuencias de la serie de tiempo. Tales subsecuencias serán de tamaño M ≥ 1 y cada una
dará lugar a un vector de entrada para nuestra red neuronal:
ª xn −1 º
«x »
« n −2 »
« xn −3 »
«
»
« # »
«¬ xn − M »¼
La idea ahora es que dado un vector de entrada formado por la subsecuencia xn-M, …, xn-2,
xn-1, la Red Neuronal proporcione como salida un estimado para la muestra xn. A tal
estimado lo denotaremos por xn’. La idea, como siempre, es ajustar los pesos de la red de tal
forma que la diferencia entre xn y xn’ sea tan pequeña como sea posible.
Dado que tenemos K muestras entonces los vectores de entrada, en \ M , estarán
dados por:
ª xM º ª xM +1 º ª xM + 2 º
ª xK −1 º
«x » « x » «x »
«x »
« M −1 » « M » « M +1 »
« K −2 »
« xM − 2 » , « xM −1 » , « xM » , ! , « xK −3 »
«
» «
» «
»
«
»
« # » « # » « # »
« # »
«¬ x1 »¼ «¬ x2 »¼ «¬ x3 »¼
«¬ xK − M »¼
Los respectivos vectores de salida esperada, en este caso en \ , serán entonces:
[ xM +1 ] , [ xM +2 ] , [ xM +3 ] , ! , [ xK ]
La señal con la que trabajaremos se conforma por K = 2,000 muestras. Véase la
Figura 6.13. Dado que K = 2,000 entonces podemos formar K – M vectores de entrada. En
nuestro caso trabajaremos con M = 7. Ello implica que contaremos con 1,993 vectores de
entrada, pero nuestro conjunto de entrenamiento se conformará únicamente por los
primeros 1,000 vectores. Los restantes 993 vectores serán utilizados, una vez finalizado el
entrenamiento, como Conjunto de Evaluación. Un conjunto de evaluación es un conjunto
de vectores los cuales se “ocultan” a la red y que se utiliza para medir su desempeño
usando entradas que no fueron presentadas durante su entrenamiento. Para estas entradas
tenemos también identificadas las salidas esperadas. La idea es determinar la robustez de
nuestra red cuando información nueva le sea proporcionada. También sirve para establecer
si el ajuste pesos no se sesgó a favor de una simple “memorización” de los vectores en el
conjunto de entrenamiento. Véase entonces en la Figura 6.14 la sección de la señal que se
presentará a la red durante el entrenamiento y la sección que se utilizará para efectos de
evaluación.
228
Capítulo 6. Redes de Perceptrones
1.2
xn
1
0.8
0.6
0.4
0.2
n
0
0
200
400
600
800
1000
1200
1400
1600
1800
2000
1800
2000
Figura 6.13. Una serie de tiempo formada por K = 2,000 muestras.
1.2
xn
1
0.8
0.6
0.4
0.2
n
0
0
200
400
600
800
1000
1200
1400
1600
Figura 6.14. La serie de tiempo originalmente presentada en la Figura 6.13.
En color negro, las muestras utilizadas para formar el conjunto de entrenamiento.
En color gris, las muestras que conformarán al conjunto de evaluación.
229
Una Introducción al Cómputo Neuronal Artificial
Concentrémonos ahora en los aspectos particulares del Algoritmo de
Retropropagación bajo una red con dos capas ocultas. En primer lugar requerimos del
procedimiento para que, dado un vector de entrada, la red proporcione, utilizando los pesos
actuales, la salida correspondiente. Sabemos que entonces simplemente tenemos un proceso
de propagación. El vector de entrada se presenta a la capa de entrada la cual meramente
distribuye sus p componentes a la primer capa oculta. Las n1 neuronas en la primer capa
oculta procesan entonces su vector de entrada y producen como salida un vector en \ n1 .
Este nuevo vector es enviado como entrada a las n2 neuronas que forman a la segunda capa
oculta, produciéndose como salida un vector en \ n2 . Finalmente este vector es llevado a las
q neuronas que forman la capa de salida produciendo entonces la salida final de la red: un
vector en \ q . Este proceso es implementado de manera directa en el Algoritmo 6.4. El
procedimiento, aparte del vector de entrada X, recibe otras 7 entradas:
• p: dimensionalidad de los vectores de entrada.
• n1: número de neuronas en la primer capa oculta.
• n2: número de neuronas en la segunda capa oculta.
• q: número de neuronas en la capa de salida.
• W_HLayer1: una matriz de tamaño n1 × p que contiene los pesos de las neuronas en la
primer capa oculta.
• W_HLayer2: una matriz de tamaño n2 × n1 que contiene los pesos de las neuronas en la
segunda capa oculta.
• W_Output: una matriz de tamaño q × n2 que contiene los pesos de las neuronas en la
capa de salida.
El Algoritmo 6.4 retorna como salida 3 vectores: el vector a1 que corresponde a la salida
producida por la primer capa oculta, el vector a2 que corresponde a la salida producida por
la segunda capa oculta y el vector O que es la salida final de la red. Como bien sabemos
todos estos vectores son requeridos por el Algoritmo de Retropropagación.
Algoritmo 6.4. Propagación de un vector de entrada en una red de Perceptrones con dos capas ocultas.
Procedure TwoLayerPropagation(Integer p, Integer n1, Integer n2, Integer q,
Matrix W_HLayer1[1,…,n1][1,…,p], Matrix W_HLayer2[1,…,n2][1,…,n1],
Matrix W_Output[1,…,q][1,…,n2], Array X[1,…,p])
I = new Array[1,…,p]
a1 = new Array[1,…,n1]
a2 = new Array[1,…,n2]
O = new Array[1,…,q]
// Se obtiene la salida de la capa de entrada. El vector X se copia al arreglo I.
for k = 1 until p do
I[k] = X[k]
end-of-for
// El vector I es enviado como entrada a las neuronas en la primer capa oculta.
// Se produce como salida el vector a1.
230
Capítulo 6. Redes de Perceptrones
for k1 = 1 until n1 do
// Se procesa a la k1-ésima neurona.
p
// Se calcula entk1 ,1 = ¦ wk ,k1 ,1 ⋅ I k .
k =1
Real ent_k1_1 = 0
for k = 1 until p do
ent_k1_1 = ent_k1_1 + W_HLayer1[k1][k] * I[k]
end-of-for
// Se aplica la función de activación y se obtiene la salida.
a1[k1] = g(ent_k1_1)
end-of-for
// El vector a1 es enviado como entrada a las neuronas en la segunda capa oculta.
// Se produce como salida el vector a2.
for k2 = 1 until n2 do
// Se procesa a la k2-ésima neurona.
n1
// Se calcula entk2 ,2 = ¦ wk1 ,k2 ,2 ⋅ a1, k1 .
k1 =1
Real ent_k2_2 = 0
for k1 = 1 until n1 do
ent_k2_2 = ent_k2_2 + W_HLayer2[k2][k1] * a1[k1]
end-of-for
// Se aplica la función de activación y se obtiene la salida.
a2[k2] = g(ent_k2_2)
end-of-for
// El vector a2 es enviado como entrada a las neuronas en la capa de salida.
// Se produce como salida final de la red el vector O.
for i = 1 until q do
// Se procesa a la i-ésima neurona.
n2
// Se calcula enti = ¦ wk2 ,i ⋅ a2,k2
k2 =1
Real ent_i = 0
for k2 = 1 until n2 do
ent_i = ent_i + W_Output[i][k2] * a2[k2]
end-of-for
// Se aplica la función de activación y se obtiene la salida.
O[i] = g(ent_i)
end-of-for
// Se retornan los vectores a1, a2 y O.
return {a1, a2, O}
end-of-procedure
231
Una Introducción al Cómputo Neuronal Artificial
Veamos ahora la instancia del Algoritmo de Retropropagación bajo una red con dos
capas ocultas. Es claro que haremos referencia a las Ecuaciones presentadas en la Sección
anterior. Primero describamos textualmente los pasos que deberán ser efectuados:
• Inicializar los pesos de todas las neuronas de manera aleatoria con valores en (-1, 1).
• Repetir hasta que la red proporcione salidas con un error aceptable o bien hasta que el
número requerido de presentaciones del conjunto de entrenamiento haya sido alcanzado:
o Para cada vector χ en el conjunto de entrenamiento:
ƒ Obtener la correspondiente salida O de la red.
ƒ Obtener el vector de salida esperada T asociado al vector de entrada χ.
ƒ Para i = 1 hasta q:
• Calcular Erri = Ti – Oi
ƒ Fase 1 - Actualización de pesos en las neuronas de la capa de salida:
• Para cada neurona i en la capa de salida, i = 1, 2, …, q:
o Calcular (Ecuación 6.4.10, haciendo m = 2):
§
§ n2
· · § n2
·
Δ i = Erri ⋅ g '(enti ) = ¨ Ti − g ¨ ¦ wk2 ,i ⋅ a2,k2 ¸ ¸ ⋅ g ' ¨ ¦ wk2 ,i ⋅ a2,k2 ¸
¨
¸
© k2 =1
¹ ¹ © k2 =1
¹
©
o Para k2 = 1 hasta n2:
ƒ wk2 ,i = wk2 ,i + α⋅Δi⋅ a2,k2
(Ecuación 6.4.18, m = 2)
ƒ
Fase 2 - Actualización de pesos en las neuronas de la segunda capa oculta:
• Para cada neurona k2 en la segunda capa oculta, k2 = 1, 2, …, n2:
o Calcular (Ecuación 6.4.13, haciendo O = 2, m = 2)
q
q
§ n1
·
Δ k2 ,2 = ¦ Δi ⋅ wk2 ,i ⋅ g ' entk2 ,2 = ¦ Δ i ⋅ wk2 ,i ⋅ g ' ¨ ¦ wk1 ,k2 ,2 ⋅ a1,k1 ¸
i =1
i =1
© k1 =1
¹
o Para k1 = 1 hasta n1:
ƒ wk1 ,k2 ,2 = wk1 ,k2 ,2 + α⋅ Δ k2 ,2 ⋅ a1,k1
(Ecuación 6.4.19, m = 2)
(
ƒ
ƒ
)
(Fase 3 - Actualización de pesos en las neuronas en las capas ocultas
intermedias)
Fase 4 - Actualización de pesos en las neuronas de la primer capa oculta:
• Para cada neurona k1 en la primer capa oculta, k1 = 1, 2, …, n1:
o Calcular (Ecuación 6.4.15, haciendo O = 1)
n2
n2
§ p
·
Δ k1 ,1 = ¦ Δ k2, 2 ⋅ wk1 ,k2 ,2 ⋅ g '(entk1 ,1 ) = ¦ Δ k2, 2 ⋅ wk1 ,k2 ,2 ⋅ g ' ¨ ¦ wk ,k1 ,1 ⋅ I k ¸
k2 =1
k2 =1
© k =1
¹
o Para k = 1 hasta p:
ƒ wk , k1 ,1 = wk , k1 ,1 + α⋅ Δ k1 ,1 ⋅Ιk
(Ecuación 6.4.21)
De acuerdo al procedimiento de Retropropagación descrito en la Sección anterior tenemos
que considerar 4 fases: (1) actualización de los pesos la neuronas en la capa de entrada, (2)
actualización de los pesos en la última capa oculta, (3) actualización de los pesos en las
neuronas de las capas ocultas intermedias, y (4) actualización de los pesos en la primer capa
oculta. En la instancia para una red de dos capas ocultas hemos hecho mención de la fase 3,
sólo por consistencia con la Sección anterior, aunque es claro que realidad no se hace nada.
232
Capítulo 6. Redes de Perceptrones
Contamos ya con los elementos para presentar la instancia específica del Algoritmo
de Retropropagación para una Red de Perceptrones formada por dos capas ocultas. Véase el
Algoritmo 6.5. Nuestro procedimiento recibe 8 entradas:
•
•
•
•
•
•
•
•
Un entero N que denota al tamaño del conjunto de entrenamiento.
Un entero p que indica la dimensionalidad de los vectores de entrada.
Un entero n1 que corresponde al número de neuronas en la primer capa oculta.
Un entero n2 que corresponde al número de neuronas en la segunda capa oculta.
Un entero q que denota al número de neuronas en la capa de salida.
Una matriz X de tamaño N × p que contiene a los vectores de entrada.
Una matriz T de tamaño N × q que contiene a los vectores de salida esperada.
Un entero L que indica el número de presentaciones del conjunto de entrenamiento.
Nótese que el Algoritmo 6.5 no recibe un Coeficiente de Aprendizaje. Ello se debe a que
utilizaremos un coeficiente que cambiará a lo largo del tiempo y en función de la
presentación del conjunto de entrenamiento que se esté efectuando. La fórmula que
utilizaremos para obtener a nuestro coeficiente será:
α (t ) =
1
1+ t
(Ecuación 6.5.1)
Ello implica que en la primer presentación del conjunto (t = 1) el coeficiente a utilizar será
1 , en la segunda presentación (t = 2) tendremos α (2) = 1 y así sucesivamente. La
2
3
Figura 6.15 muestra la evolución del Coeficiente de Aprendizaje para una situación en la
que se efectúan 500 presentaciones del conjunto de entrenamiento. El Algoritmo 6.5
retorna como salida tres matrices:
•
•
•
W_HLayer1: una matriz de n1 × p que contiene los pesos de las neuronas en la primer
capa oculta.
W_HLayer2: una matriz de n2 × n1 que contiene los pesos de las neuronas en la segunda
capa oculta.
W_Output: una matriz de q × n2 que contiene los pesos de las neuronas en la capa de
salida.
Algoritmo 6.5. Entrenamiento por Retropropagación
para una Red de Perceptrones con dos capas ocultas.
Procedure TwoLayerPropagation(Integer N, Integer p, Integer n1, Integer n2, Integer q,
Matrix X[1,…,N][1,…,p], Matrix T[1,…,N][1,…q], Integer L)
W_HLayer1 = new Matrix[1,…,n1][1,…,p]
W_HLayer2 = new Matrix[1,…,n2][1,…,n1]
W_Output = new Matrix[1,…,q][1,…,n2]
233
Una Introducción al Cómputo Neuronal Artificial
// Los pesos de todas las neuronas se inicializan con valores aleatorios en (-1,1).
// Se inicializan los pesos de las neuronas en la capa de salida.
for i = 1 until q do
for k2 = 1 until n2 do
W_Output[i][k2] = Random( )
end-of-for
end-of-for
// Se inicializan los pesos de las neuronas en la segunda capa oculta.
for k2 = 1 until n2 do
for k1 = 1 until n1 do
W_HLayer2[k2][k1] = Random( )
end-of-for
end-of-for
// Se inicializan los pesos de las neuronas en la primer capa oculta.
for k1 = 1 until n1 do
for k = 1 until p do
W_HLayer1[k1][k] = Random( )
end-of-for
end-of-for
Δ_i = new Matrix[1,…,q]
Δ_k2_2 = new Matrix[1,…,n2]
Err = new Array[1,…,q]
for t = 1 until L do
// Se efectúa la t-ésima presentación del conjunto de entrenamiento.
// Se actualiza el coeficiente de aprendizaje.
Real α = 1 / (1 + t)
for m = 1 until N do
// Se envía a la red al m-ésimo vector de entrada.
{a1, a2, O} = TwoLayerPropagation
(p, n1, n2, q, W_HLayer1, W_HLayer2, W_Output, X[m])
// a1 es el vector de salida de la primer capa oculta.
// a2 es el vector de salida de la segunda capa oculta.
// O es el vector de salida final de la red.
// Se determina al error entre la salida esperada y la salida
// proporcionada por la red.
for i = 1 until q do
Err[i] = T[m][i] – O[i]
end-of-for
234
Capítulo 6. Redes de Perceptrones
// Se actualizan los pesos en las neuronas de la capa de salida.
for i = 1 until q do
// Se procesa a la i-ésima neurona.
n2
// Se calcula enti =
¦w
k2 =1
k 2 ,i
⋅ a2,k2 .
Real ent_i = 0
for k2 = 1 until n2 do
ent_i = ent_i + W_Output[i][k2] * a2[k2]
end-of-for
// Se calcula Δi = Erri ⋅ g '(enti ) .
Δ_i[i] = Err[i] * g_derivative(ent_i)
// Se actualiza cada peso de la i-ésima neurona.
for k2 = 1 until n2 do
W_Output[i][k2] = W_Output[i][k2] +
α * Δ_i[i] * a2[k2]
end-of-for
end-of-for
// Se actualizan los pesos en las neuronas de la segunda capa oculta.
for k2 = 1 until n2 do
// Se procesa a la k2-ésima neurona.
n1
// Se calcula entk2 ,2 = ¦ wk1 ,k2 ,2 ⋅ a1, k1 .
k1 =1
Real ent_k2_2 = 0
for k1 = 1 until n1 do
ent_k2_2 = ent_k2_2 + W_HLayer2[k2][k1] * a1[k1]
end-of-for
q
(
)
// Se calcula Δ k2 ,2 = ¦ Δ i ⋅ wk2 ,i ⋅ g ' entk2 ,2 .
i =1
Δ_k2_2[k2] = 0
for i = 1 until q do
Δ_k2_2[k2] = Δ_k2_2[k2] + Δ_i[i] * W_Output[i][k2]
end-of-for
Δ_k2_2[k2] = Δ_k2_2[k2] * g_derivative(ent_k2_2)
// Se actualiza cada peso de la k2-ésima neurona.
for k1 = 1 until n1 do
W_HLayer2[k2][k1] = W_HLayer2[k2][k1] +
α * Δ_k2_2[k2] * a1[k1]
end-of-for
end-of-for
235
Una Introducción al Cómputo Neuronal Artificial
// Se actualizan los pesos en las neuronas de la primer capa oculta.
for k1 = 1 until n1 do
// Se procesa a la k1-ésima neurona.
p
// Se calcula entk1 ,1 = ¦ wk ,k1 ,1 ⋅ I k .
k =1
Real ent_k1_1 = 0
for k = 1 until p do
ent_k1_1 = ent_k1_1 + W_HLayer1[k1][k] * X[m][k]
end-of-for
n2
// Se calcula Δ k1 ,1 = ¦ Δ k2, 2 ⋅ wk1 , k2 ,2 ⋅ g '(entk1 ,1 ) .
k2 =1
Real Δ_k1_1 = 0
for k2 = 1 until n2 do
Δ_k1_1 = Δ_k1_1 + Δ_k2_2[k2] * W_HLayer2[k2][k1]
end-of-for
Δ_k1_1 = Δ_k1_1 * g_derivative(ent_k1_1)
// Se actualiza cada peso de la k1-ésima neurona.
for k = 1 until p do
W_HLayer1[k1][k] = W_HLayer1[k1][k] +
α * Δ_k1_1 * X[k]
end-of-for
end-of-for
end-of-for
// Se determina el error global de la red.
// Se calcula el promedio de las distancias Euclidianas entre los vectores
// de salida esperada y los vectores proporcionados por la red.
Real error = 0
for m = 1 until N do
// Se envía a la red al m-ésimo vector de entrada.
{a1, a2, O} = TwoLayerPropagation
(p, n1, n2, q, W_HLayer1, W_HLayer2, W_Output, X[m])
Real d = 0
for i = 1 until q do
d = d + Pow(T[m][i] – O[i], 2)
end-of-for
error = error + d
end-of-for
error = error / N
Print(error)
end-of-for
// Se retornan como salida los pesos encontrados.
return {W_HLayer1, W_HLayer2, W_Output}
end-of-procedure
236
Capítulo 6. Redes de Perceptrones
α
1.2
1
0.8
0.6
0.4
0.2
0
1
50
100
150
200
250
300
350
400
450
500
t
Figura 6.15. Evolución del Coeficiente de Aprendizaje α (t ) = 1 a lo largo
1+ t
de 500 presentaciones del conjunto de entrenamiento. En la última instancia se tiene α(500) ≈ 0.0019.
Una inspección de la codificación del Algoritmo 6.5 permitirá apreciar que se
calcula un Error Global una vez que se ha efectuado una presentación del conjunto de
entrenamiento. El cálculo de este error requiere que se presente a todos los vectores en el
conjunto de entrenamiento utilizando los pesos actuales de las neuronas pero sin
modificarlos. Utilizando el Algoritmo 6.4, cada vector de entrada es presentado y se
obtiene el correspondiente vector de salida O proporcionada por la red. Posteriormente se
calcula la Distancia Euclidiana entre el vector O y el correspondiente vector T de salida
esperada. La idea es que si el error es mínimo entonces las distancias serán pequeñas. Las
distancias se suman y finalmente se dividen entre el tamaño N del conjunto del
entrenamiento. Es decir, nuestro Error Global no es mas que el promedio de las Distancias
Euclidianas entre de los vectores de salida esperada y los vectores proporcionados por la
red. Esta función de error se utiliza para medir el aprendizaje de la red conforme el proceso
de entrenamiento se efectúa.
Retornemos a nuestro caso de estudio, es decir, el modelado de la señal presentada
en la Figura 6.13. Sabemos que ésta se conforma por K = 2,000 muestras. El tamaño de las
subsecuencias a considerar, para formar los vectores de entrada, es M = 7. Ya comentamos
que tendremos un conjunto de entrenamiento formado por N = 1,000 vectores de entrada y
un conjunto de evaluación compuesto por 993 vectores. La estructura de la red que
237
Una Introducción al Cómputo Neuronal Artificial
consideraremos se presenta en la Figura 6.16. Tenemos p = 7 neuronas de entrada, las
cuales sabemos no efectúan ningún procesamiento y cuya finalidad es la de distribuir a los
vectores de entrada hacia todas las neuronas en la primer capa oculta. Se tienen n1 = 8
neuronas en la primer capa oculta y n2 = 5 neuronas en la segunda capa oculta. Recordemos
que la red recibirá un vector en \ 7 que contiene una subsecuencia de la señal
[xn-1 xn-2 xn-3 xn-4 xn-5 xn-6 xn-7]T y proporcionará como salida un escalar que corresponde
a la predicción xn’ para la muestra xn. Por ello mismo tendremos sólo una neurona en la
capa de salida, q = 1. Nótese como es que todos los valores de la señal se encuentran dentro
del intervalo [0, 1]. Por lo tanto la Función de Activación que utilizaremos será la Función
Sigmoide (Ecuación 4.1.4), la cual, como apreciamos en el Capítulo 4, tiene su codominio
en (0,1):
1
g ( z) =
1 + e− z
a1,1
x1
I1
x2
I2
x3
I3
x4
I4
a1,2
a2,1
a1,3
a2,2
a1,4
a2,3
O1
a1,5
x5
I5
x6
I6
x7
I7
a2,4
a1,6
a2,5
a1,7
a1,8
Figura 6.16. Una Red de Perceptrones con dos capas ocultas.
Se utilizará para modelar a la serie de tiempo presentada en la Figura 6.13.
Al aplicar el Algoritmo 6.5 con L = 500 presentaciones del conjunto de
entrenamiento se obtuvieron los pesos presentados en la Tabla 6.1. En la Figura 6.17 se
presenta una gráfica con la evolución del Error Global de la red conforme el entrenamiento
avanzaba. Nótese como es que en las primeras 50 presentaciones del conjunto de
entrenamiento se tuvieron los cambios más drásticos en cuanto a los errores obtenidos. Una
vez efectuada la primer presentación (t = 1) el error global fue de 0.1059. Después de la
segunda presentación (t = 2) éste fue de 0.0685. Recordemos que el Coeficiente de
238
Capítulo 6. Redes de Perceptrones
1
1
y , respectivamente. En la tercer presentación
2
3
(t = 3) del conjunto de entrenamiento se tuvo un error global de 0.0547. Al presentar al
conjunto por décima ocasión (t = 10) se contó con un error 0.0496. En la presentación
t = 20 el error fue de 0.0488. En la presentación t = 50, con un Coeficiente de Aprendizaje
1
α = ≈ 0.0196 , el error global obtenido fue de 0.0478. El error Global Final, una vez
51
efectuadas las 500 presentaciones del conjunto de entrenamiento, fue de 0.0458.
Recordemos que durante el entrenamiento, a la red le fue presentada únicamente
información referente a las primeras 1,000 muestras de 2,000 que forman la señal.
Aprendizaje en estos dos casos fue de
Tabla 6.1. Pesos asociados a la Red de Perceptrones de la Figura 6.16 una vez que se aplicó
el Algoritmo de Retropropagación con 500 presentaciones del conjunto de entrenamiento.
Pesos Neuronas Primer Capa Oculta
Neurona a1,1
w1,1,1 = -0.4341
w2,1,1 = -0.2744
w3,1,1 = 0.5131
w4,1,1 = -0.9535
w5,1,1 = 0.9207
w6,1,1 = 0.5544
w7,1,1 = 0.2594
Neurona a1,5
w1,5,1 = -0.5186
w2,5,1 = -0.1219
w3,5,1 = -0.9797
w4,5,1 = -0.8753
w5,5,1 = -0.7295
w6,5,1 = -0.7908
w7,5,1 = 0.42148
Neurona a1,2
w1,2,1 = 0.0079
w2,2,1 = 0.9458
w3,2,1 = -0.3605
w4,2,1 = 0.9001
w5,2,1 = -0.5173
w6,2,1 = 0.7269
w7,2,1 = 0.9532
Neurona a1,6
w1,6,1 = -0.5679
w2,6,1 = 0.7864
w3,6,1 = 0.8
w4,6,1 = -0.2862
w5,6,1 = -0.1438
w6,6,1 = 0.9134
w7,6,1 = 0.051
Neurona a1,3
w1,3,1 = 0.8405
w2,3,1 = 0.5505
w3,3,1 = 0.8631
w4,3,1 = -0.801
w5,3,1 = 0.8127
w6,3,1 = -0.2181
w7,3,1 = -0.8438
Neurona a1,7
w1,7,1 = 0.2224
w2,7,1 = 0.8087
w3,7,1 = -0.5434
w4,7,1 = -0.7691
w5,7,1 = 0.8699
w6,7,1 = 0.0232
w7,7,1 = -0.1974
Neurona a1,4
w1,4,1 = 0.9602
w2,4,1 = -0.6138
w3,4,1 = 0.943
w4,4,1 = -0.2488
w5,4,1 = 0.8756
w6,4,1 = -0.6935
w7,4,1 = 0.6746
Neurona a1,8
w1,8,1 = 0.1796
w2,8,1 = -0.771
w3,8,1 = -0.0713
w4,8,1 = -0.7065
w5,8,1 = 0.3666
w6,8,1 = -0.3936
w7,8,1 = 0.5881
Pesos Neuronas Segunda Capa Oculta
Neurona a2,1
w1,1,2 = -0.7518
w2,1,2 = 0.9695
w3,1,2 = -0.7666
w4,1,2 = 0.0777
w5,1,2 = 0.2479
w6,1,2 = -0.68
w7,1,2 = 0.2831
w8,1,2 = -0.0803
Neurona a2,2
w1,2,2 = 0.4526
w2,2,2 = 0.6757
w3,2,2 = -0.7583
w4,2,2 = 0.7111
w5,2,2 = 0.1109
w6,2,2 = 0.8059
w7,2,2 = 0.7904
w8,2,2 = 0.4877
Neurona a2,3
w1,3,2 = -0.8859
w2,3,2 = 0.8004
w3,3,2 = 0.9212
w4,3,2 = 0.5105
w5,3,2 = 0.1298
w6,3,2 = -0.6075
w7,3,2 = -0.5820
w8,3,2 = 0.2346
Neurona a2,4
w1,4,2 = 0.1984
w2,4,2 = 0.9973
w3,4,2 = 0.297
w4,4,2 = 0.2689
w5,4,2 = -0.1319
w6,4,2 = -0.119
w7,4,2 = -0.9137
w8,4,2 = -0.2268
Neurona a2,5
w1,5,2 = -0.9319
w2,5,2 = -0.6094
w3,5,2 = -0.8472
w4,5,2 = -0.506
w5,5,2 = -0.8761
w6,5,2 = -0.7347
w7,5,2 = -0.7275
w8,5,2 = 0.143
Pesos Neurona Capa de Salida
Neurona O1:
w1,1 = 0.3026
w2,1 = 0.0804
w3,1 = -0.0936
w4,1 = 0.5123
w5,1 = -0.1862
239
Una Introducción al Cómputo Neuronal Artificial
Error
0.12
0.1
0.08
0.06
0.04
0.02
0
1
50
100
150
200
250
300
350
400
450
500
t
Figura 6.17. Evolución del Error Global de la Red de Perceptrones de la Figura 6.16
durante la aplicación del Algoritmo de Retropropagación. Se efectuaron 500 presentaciones
del conjunto de entrenamiento.
El siguiente paso consiste en evaluar el desempeño de la red considerando a todos
los vectores disponibles: 1,000 de éstos forman el conjunto de entrenamiento mientras que
los restantes 993 forman el conjunto de evaluación. El desempeño lo mediremos utilizando
nuevamente nuestra Función de Error Global: el promedio de las Distancias Euclidianas
entre los vectores proporcionados por la red y los vectores de salida esperada. Para contar
con una apreciación visual es que con las salidas proporcionadas por la red formaremos una
serie de tiempo que no es más que el estimado proporcionado por nuestra red de
Perceptrones. En la Figura 6.18 se muestran tanto la serie de tiempo generada por la red
(en color gris) sobrepuesta a la serie de tiempo original (en color negro). El Error Global
que se obtuvo, considerando ya la totalidad de los 1,993 vectores de entrada, fue de 0.0895.
Si bien es mayor al Error Global que se obtuvo únicamente con el conjunto de
entrenamiento, después de 500 presentaciones, es claro que es menor que el Error Global
obtenido al haber efectuado sólo una presentación (t = 1): 0.1059. Apreciando visualmente,
en la Figura 6.18, es claro que nuestra Red de Perceptrones ha sido capaz de capturar en
gran medida las propiedades y comportamiento de la señal original. En áreas como la
Economía, las Ciencias de la Salud y Sismología es donde se cuenta con fuentes de señales
para las cuales se busca una solución que las pueda modelar, y más importante aún, que
permita efectuar predicciones de gran precisión. En la práctica, se tiene un gran nicho de
aplicación e Investigación de las redes formadas por Perceptrones en este contexto.
240
Capítulo 6. Redes de Perceptrones
xn
1.2
1
0.8
0.6
0.4
0.2
n
0
1
200
400
600
800
1000
1200
1400
1600
1800
2000
Figura 6.18. En color gris, serie de tiempo producida por la Red de Perceptrones de la Figura 6.16.
En color negro, la serie de tiempo original. La recta punteada separa las muestras que conformaron
al conjunto de entrenamiento (n = 1, …, 1000) de las muestras que dieron lugar al conjunto
de evaluación (n = 1001, …, 2000).
241
Una Introducción al Cómputo Neuronal Artificial
242
Una Introducción al Cómputo Neuronal Artificial
7. Redes de Kohonen
Una Introducción al Cómputo Neuronal Artificial
244
Capítulo 7. Redes de Kohonen
7.1 Redes Neuronales Auto-Organizadas
Una de las principales desventajas de las Redes Neuronales Supervisadas yace en el
hecho de que en algunos problemas las salidas correctas esperadas no pueden ser definidas
a priori. En consecuencia, únicamente se cuenta con el Conjunto de Vectores de Entrada.
Por lo tanto, en estos casos, no es posible medir numéricamente la magnitud del error de
aprendizaje. Recordemos que esta magnitud es esencial para el control del aprendizaje en
algoritmos como el de Retropropagación.
En una Red Neuronal Auto-Organizada el Conjunto de los Vectores de Entrada
constituyen lo que es llamado el Espacio o Ambiente de la Red. Con cada uno de estos
vectores de entrada es que se producirá una adaptación de los parámetros internos de la red,
es decir, un ajuste apropiado de los pesos de sus neuronas. Si tal adaptación es controlada
correctamente entonces la red producirá su Representación Interna del Espacio o
Ambiente. En este sentido, uno de los modelos más populares de Redes Neuronales
Auto-Organizadas es el propuesto por el finlandés Teuvo Kohonen.
De acuerdo a la Teoría planteada por Kohonen, si un espacio o ambiente será
procesado entonces el factor fundamental a tomar en cuenta, durante el proceso de
entrenamiento, es el relacionado a identificar la Estructura del Espacio. Por ejemplo,
considérese un conjunto no vacío A. De hecho, el conjunto A es el espacio o ambiente de la
red. Supongamos que A es particionado en 20 regiones disjuntas: a1, a2, …, a20. Véase la
Figura 7.1. La idea es que el conjunto A puede ser “cubierto” por una Red de Kohonen de
tal forma que cuando un vector de entrada inmerso, por ejemplo, en la región a1 es
evaluado con la red, entonces una y sólo una de sus neuronas se activará. Si un vector de
entrada sobre la región a13 es evaluado, entonces una neurona diferente se ha de activar.
Debido a que en nuestro ejemplo se particionó al conjunto A en 20 regiones, es que en
consecuencia nuestra Red de Kohonen debería contar con al menos 20 neuronas. Cada
neurona se especializará en una y sólo una región. Entendamos este proceso como el hecho
de que la Red de Kohonen actúa como una función f cuyo dominio es precisamente el
conjunto A. La función en sí toma forma cuando cada elemento del conjunto de vectores de
entrada es debidamente mapeado a la subregión que le corresponde. Dado que cada región
está asociada a una neurona, que es la que proporciona la salida final, es que entonces
tenemos un mapeo que va de un vector de entrada a una neurona correspondiente en la red.
En términos concretos, la función f, o mejor dicho, la Red de Kohonen, efectúan una tarea
de clasificación de los vectores de entrada. Las clases se conforman por las regiones
definidas. Estas clases precisamente definen una representación de la estructura del espacio
que forman los vectores de entrada. Obsérvese, en la Figura 7.1, que las clases a1 a a20
forman una malla sobre el conjunto A. Esta malla es llamada propiamente Mapa o
Esquema del Espacio. El punto importante a estudiar en este Capítulo es que una Red de
Kohonen es capaz de construir mapas para sus espacios o ambientes al utilizar un
mecanismo de entrenamiento no supervisado.
245
Una Introducción al Cómputo Neuronal Artificial
a1 a2
A
a4
a5
a6
a7 a8
a9
a10
a11
a12
a13
a 14
a16
a17
a3
f
a 15
a18
a19 a20
Figura 7.1. El conjunto A es particionado en 20 regiones. Una Red de Kohonen implementa
a la función f de manera que los vectores en el conjunto A son asociados a su correspondiente clase.
7.2 La Corteza Cerebral
Las Redes de Kohonen tienen su inspiración en bases neurofisiológicas. Es bien
sabido que muchas de las estructuras neuronales en los cerebros de los mamíferos tienen
topologías lineales (1D) o planares (2D). Entiéndase esto como que el hecho de que se
tienen identificados conjuntos de neuronas que se conectan de manera que se forma arreglo
unidimensional, o bien de manera que forma una superficie, un elemento bidimensional.
Estas importantes estructuras neuronales se localizan en la Corteza Cerebral. La corteza
cerebral es una capa de tejido nervioso que cubre exteriormente al cerebro. Esta formada
por interneuronas, dentritas y núcleos de neuronas eferentes; y axones de neuronas
aferentes. La corteza es la parte que se encarga de examinar, administrar, comparar y
seleccionar la información proveniente del exterior y que es capturada en mayor parte por
lo sentidos. La corteza ocupa una superficie de aproximadamente medio metro cuadrado y
está completamente contenida en el cráneo gracias a que está plegada en una serie de
Circunvoluciones. Además, su superficie está dividida en varias zonas las cuales se
diferencian por cortes o hendiduras.
Para su estudio, la corteza cerebral es dividida en cuatro regiones principales que
toman su nombre de la porción del cráneo que la cubre:
• Lóbulo Frontal
• Dos Lóbulos Parietales
• Lóbulo Occipital
• Dos Lóbulos Temporales
El Lóbulo Frontal se encarga de la actividad mental relacionada con la personalidad y la
inteligencia. También tiene a su cargo del control de los movimientos voluntarios tales
como las acciones de correr, caminar, sujetar algo, etc. En los Lóbulos Parietales se recibe
toda la información relacionada con el tacto y es en esta región donde se efectúan los
procesos de orientación espacial. En el Lóbulo Occipital se procesan todas las sensaciones
y señales provenientes de los ojos. Finalmente, en los Lóbulos Temporales se recoge toda
la información concerniente al sentido del oído. Estas regiones de ninguna manera se
246
Capítulo 7. Redes de Kohonen
encuentran aisladas ya que las Áreas de Asociación son los puntos en los cuales las
diferentes partes de la corteza intercambian información a fin de completar una visión
global de lo que ocurre en el exterior del cuerpo.
Como hicimos mención con anterioridad, muchas de las estructuras contenidas
precisamente en los lóbulos presentan organizaciones lineales (1D) o planares (2D). Sin
embargo, la experiencia sensorial es de hecho una experiencia multidimensional. Por
ejemplo, la percepción de color se basa en la interacción entre tres diferentes tipos de
receptores de luz. Pero además, es bien conocido que nuestros ojos también capturan
información adicional acerca de la textura, estructura y posición de los objetos. Es decir,
tenemos información que se transmite por el nervio óptico mediante una señal que contiene
información referente a al menos 6 propiedades. Esta señal llega, como ya comentamos
antes, a la corteza cerebral y en particular al lóbulo occipital donde se ubica la corteza
visual, la cual se sabe es una estructura 2D. La señal multidimensional es entonces
procesada y se generan las acciones o razonamientos correspondientes. Surgen de
inmediato dos preguntas fundamentales (y para las cuales aún estamos en búsqueda de la
respuesta):
• ¿Qué mecanismo
multidimensionales
bidimensionales?
utiliza
sobre
la corteza cerebral para proyectar tales señales
sus estructuras neuronales unidimensionales o
• ¿Qué mecanismo utilizan las estructuras neuronales lineales o planares en la corteza para
procesar las señales multidimensionales provenientes de los sentidos y proporcionar sus
salidas correspondientes?
Hemos también de considerar algunas propiedades sumamente interesantes
referentes a la relación entre la información multidimensional que llega a la corteza y las
neuronas involucradas en su procesamiento. Por ejemplo, en la primera mitad del Siglo XX
el neurólogo Gordon Morgan Holmes identificó algunas relaciones entre el campo visual,
lo que vemos con los ojos, y la corteza visual, la unidad de procesamiento de la
información visual:
• Regiones vecinas en el campo visual son procesadas por regiones también vecinas,
formadas por neuronas, en la corteza visual.
• Las señales provenientes del centro del campo visual son procesadas, por la corteza
visual, con mayor detalle y con mayor resolución que las señales provenientes de la
periferia del campo visual. Ello implica que la agudeza visual se incrementa de la
periferia hacia el centro del campo visual.
Es posible encontrar en la corteza cerebral otras representaciones topológicas ordenadas
para las sensaciones provenientes de órganos aparte del sistema ocular. Las áreas que son
responsables de procesar señales están distribuidas de manera que la topología del cuerpo
humano es debidamente preservada. Por ejemplo, la región responsable de procesar las
señales provenientes de un brazo será vecina de la región responsable de procesar las
247
Una Introducción al Cómputo Neuronal Artificial
señales provenientes de una mano. El punto interesante es que las relaciones espaciales
entre las partes que componen al cuerpo humano se conservan tanto como es posible en la
corteza cerebral. En concreto, la corteza cerebral cuenta, nada más y nada menos, con una
representación interna que describe un esquema de su espacio o ambiente, donde tal espacio
es precisamente el cuerpo humano.
El Modelo Auto-Organizado de Kohonen se sustenta en todos los elementos antes
descritos y establece tres puntos a tomar en cuenta para su implementación:
• Es posible definir a la vecindad de una neurona. Tal vecindad se compone por otras
neuronas.
• Las neuronas dentro de una vecindad tendrán conexiones con otras neuronas que
forman parte de la misma vecindad.
• Las Redes de Kohonen son de hecho arreglos de neuronas con topologías
unidimensionales, bidimensionales, o inclusive, multidimensionales. Por lo regular sólo
se implementan las versiones 1D o 2D de las Redes de Kohonen.
7.3 El Modelo de Kohonen
Consideremos el problema del mapeo de un Espacio n-Dimensional utilizando una
Red Unidimensional de Kohonen. Tenemos que las neuronas que forman a la red serán
enumeradas de 1 a m. Cada neurona recibirá un vector de entrada X conformado por n
componentes:
ª x1 º
«x »
X = « 2»
«#»
« »
¬ xn ¼
(Ecuación 7.3.1)
A la j-ésima neurona, j = 1, 2, …, m, le será asociado un vector de pesos Wj en \ n . Este
vector será utilizado para calcular la correspondiente salida de la neurona. Véase la Figura
7.2. El objetivo detrás del proceso de mapeo considera la especialización de cada neurona
al asignarle una región específica del espacio o ambiente de la Red. Recordemos que este
espacio se conforma por todos los vectores de entrada en el conjunto de entrenamiento. La
región que se asigna a cada neurona es, como comentamos en la Sección 7.1, una clase o
partición dentro del espacio de entrada. Se espera que al presentar un vector de entrada a la
red, la correspondiente neurona, asociada a la clase a la que pertenece el vector dado,
proporcione la salida con valor mínimo de entre todas las salidas proporcionadas por las
neuronas restantes. A esta neurona se le denomina Neurona Ganadora. Las regiones o
clases en que se particionará el espacio de la red son disjuntas, por lo tanto dado un vector
de entrada únicamente se tendrá a una única Neurona Ganadora. Esta propiedad es
conocida como “El ganador se lo lleva todo” (“The winner takes all”).
248
Capítulo 7. Redes de Kohonen
Neurona 1
Neurona 2
w1
w2
x1
Neurona j
Neurona 3
...
w3
x2
x3
Neurona m
wj
...
...
wm
xn
Figura 7.2. Una Red Unidimensional de Kohonen para la clasificación de vectores en \ n .
Ahora bien, tenemos que especificar de manera precisa cómo es que un vector de
entrada y una neurona son asociados. Comentamos previamente que cada neurona contará
con un vector de pesos. Tanto el vector de entrada como el vector de pesos están en \ n y
ambos representan posiciones en el espacio. Al vector de pesos Wj se le denomina Centro
de Gravedad de la región de \ n asociada a la j-ésima neurona en la red. Eso quiere decir
que todos los vectores de pesos son de hecho puntos esparcidos sobre el espacio de la red.
Para definir la asociación de un vector de entrada X con su correspondiente región
simplemente, y es parte de la genialidad del modelo de Kohonen, se calcula la Distancia
Euclidiana entre X y cada uno de los vectores de pesos. Aquella neurona cuyo vector de
pesos sea el más cercano al vector X es la Neurona Ganadora. De allí el tener que
identificar a la neurona con la salida mínima. En este sentido, la Distancia Euclidiana
funciona como un criterio de comparación entre el vector de entrada y el vector de pesos.
Decimos entonces que X y Wj son cada más parecidos, o similares, conforme su Distancia
Euclidiana se acerque a cero. Por otro lado, si el valor de la distancia aumenta entonces
tenemos que se presentarán cada vez más diferencias entre los vectores.
Ya tenemos conocimiento de cómo es que una Red de Kohonen nos ayudará a
resolver el problema de la clasificación y mapeo de un conjunto vectores de entrada, ahora
debemos abordar la situación referente al proceso de su entrenamiento. Para ello será
necesario introducir algunos conceptos a fin de que se presenten, tanto como sea posible,
relaciones de vecindad entre las regiones asociadas a las neuronas, y de hecho entre las
neuronas mismas, tal como sucede con las regiones vecinas que conforman a la corteza
cerebral. Definimos a una Vecindad de Radio r Asociada a la k-ésima Neurona,
1 ≤ k ≤ m, como el conjunto de neuronas localizadas hasta r posiciones de la neurona k
tanto hacia la izquierda como hacia la derecha (recordemos que estamos en el caso de una
Red Unidimensional, posteriormente definiremos la noción de vecindad para Redes de
Kohonen Multidimensionales). Véase la Figura 7.3. Aquellas neuronas localizadas en los
extremos de la red, y dependiendo del valor del radio r, contarán con vecindades
asimétricas. Sea ϕ(j, k, r) una función con codominio en [0, 1], que denota a la Fuerza de
Enlace entre la neurona j y la neurona k a lo largo del proceso de entrenamiento. Un punto
importante es que ϕ(j, k, r) será diferente de cero sí y sólo si j se encuentra dentro de la
249
Una Introducción al Cómputo Neuronal Artificial
vecindad de radio r de la neurona k. En caso contrario se tendrá que ϕ(j, k, r) = 0. Es
posible tener “vecindades” de radio r = 0. Ello implica que ϕ(j, k, 0) = 0 para todas las
neuronas en la red excepto cuando j = k.
r
r
neurona k-r
...
wk-r
...
neurona k-1
neurona k
neurona k+1
wk-1
wk
wk+1
neurona k+r
...
wk+r
...
Figura 7.3. La vecindad de radio r para la k-ésima neurona en una Red de Kohonen 1D.
La vecindad se extiende r posiciones hacia la izquierda y r posiciones hacia la derecha.
El método de entrenamiento está dado por el siguiente procedimiento:
• Se inicializan los pesos de todas las neuronas con valores aleatorios.
• Se efectúa un número dado de presentaciones del conjunto de entrenamiento.
o Para cada vector de entrada E en el conjunto de entrenamiento:
ƒ Se identifica a la neurona k con la salida mínima. O en otras palabras, se identifica
aquella neurona cuya distancia entre su vector de pesos y el vector E sea la menor de
todas.
ƒ Cada vector de pesos Wj, j = 1, 2, 3, …, m, es actualizado de acuerdo a la siguiente
regla:
Wj = Wj + α⋅ϕ(j, k, r)⋅(E – Wj)
(Ecuación 7.3.2)
La constante positiva α no es más que nuestro bien conocido coeficiente de
aprendizaje. Por lo regular α ∈ (0, 1). Tiene el mismo rol, por ejemplo, que en el Algoritmo
de Retropropagación: controlar la magnitud de la actualización de los pesos. La regla de
actualización de pesos presentada en la Ecuación 7.3.2, y específicamente el término
(E – Wj), tiene el objetivo de atraer a los vectores de pesos hacia el vector de entrada E. Al
repetir la actualización de los pesos en varias presentaciones del conjunto de entrenamiento,
se espera que los vectores de pesos se distribuyan uniformemente en el espacio o ambiente
de la red. En la práctica, que se obtenga tal distribución uniforme depende del conjunto de
entrenamiento y en particular de los vectores de entrada.
Ahora bien, nótese que el procedimiento antes descrito aplica una actualización a
todos los vectores de pesos, no sólo a la neurona ganadora. La idea es la siguiente: cuando
la neurona ganadora ha sido actualizada aquellas neuronas dentro de su vecindad de radio r
son también actualizadas. En particular se busca que si el vector de pesos de la neurona
ganadora es atraído hacia una región en el espacio de la red entonces los vectores de pesos
de sus neuronas vecinas sean también atraídos, pero con menor intensidad. Previamente
mencionamos que la función ϕ(j, k, r) tiene su codominio en el intervalo [0, 1]. Por lo tanto,
y de acuerdo a lo previamente establecido, ϕ(j, k, r) = 1 sí y sólo si j = k, ya que la máxima
Fuerza de Enlace entre dos neuronas se dará cuando éstas sean ambas la neurona ganadora.
Conforme una neurona dentro de la vecindad se aleje de la neurona ganadora k es que
250
Capítulo 7. Redes de Kohonen
entonces se espera que ϕ(j, k, r) → 0. Esta propiedad viene a sustentar la aseveración de
que los vectores de pesos de las neuronas vecinas a la ganadora son también atraídas hacia
E salvo que con menor intensidad. Ahora bien, estrictamente hablando no todos los
vectores de pesos son actualizados. Es el caso cuando nos referimos a las neuronas que
están fuera de la vecindad de radio r de la neurona ganadora. En esta situación ϕ(j, k, r) = 0.
Aunque el procedimiento especificado se aplica a todos los vectores de pesos, en esta
instancia tenemos que realmente no se efectúa modificación alguna. Debe ser claro que
entonces el ajuste de pesos en una Red Unidimensional de Kohonen no es más que un
proceso en el que se trasladan sucesivamente a los vectores de pesos a regiones del espacio
de la red. La magnitud de tales traslaciones depende del coeficiente de aprendizaje α y de la
función ϕ(j, k, r). Mencionábamos en Capítulos anteriores que el Coeficiente de
Aprendizaje α puede tomar un valor en función de la iteración que actualmente se esté
aplicando. Por ejemplo, sabemos que podemos iniciar el entrenamiento con un coeficiente
inicial α0 y que éste vaya disminuyendo conforme un cierto número de iteraciones se hayan
efectuado. La idea es suponer que los pesos cada vez están más cerca de un estado óptimo y
por tanto las actualizaciones requeridas deben ser de magnitud pequeña para asegurar la
precisión y no alejarnos de tal punto de optimalidad. Esta misma idea puede aplicarse al
entrenar a una Red de Kohonen. Pero además, también puede ser aplicada sobre la función
ϕ de Fuerza de Enlace. Es posible hacer que el radio r de una vecindad sea gradualmente
reducido conforme el proceso de entrenamiento avance. La idea es que inicialmente la
neurona ganadora tenga influencia fuerte sobre su vecindad, pero que ésta gradualmente se
vaya reduciendo a fin de no hacer que un peso asociado a una neurona vecina sea
desplazado de su posición óptima debido a la actualización de la neurona ganadora.
Algoritmo 7.1. Entrenamiento de una Red de Kohonen Unidimensional.
Procedure TrainKohonenNetwork1D(Integer N, Integer n, Matrix E[1,…,N][1,…,n],
Real α, Integer m, Integer r, Integer L)
W = new Matrix[1,…,m][1,…,n]
// Se asignan valores aleatorios a los vectores de pesos.
for j = 1 until m do
for i = 1 until n do
W[j][i] = Random( )
end-of-for
end-of-for
// Se lleva a efecto la t-ésima presentación del conjunto de entrenamiento.
for t = 1 until L do
for k = 1 until N do
// El k-ésimo vector de entrada es enviado a cada neurona.
// Las variables minD y minN se utilizan para identificar
// a la distancia mínima y a la neurona ganadora respectivamente.
Real minD = ∞
Integer minN = -1
251
Una Introducción al Cómputo Neuronal Artificial
for j = 1 until m do
// Se calcula la Distancia Euclidiana entre el k-ésimo vector
// de entrada y el vector de pesos de la j-ésima neurona.
Real d = 0
for i = 1 until n do
d = d + Pow(E[k][i] – W[j][i], 2)
end-of-for
d= d
if (minD > d) then
minD = d
minN = j
end-of-if
end-of-for
// minN contiene el índice de la Neurona Ganadora.
Integer winnerNeuron = minN
// Se actualizan los pesos de las neuronas.
// El valor de ϕ determina qué vectores de pesos se actualizan.
for j = 1 until m do
for i = 1 until n do
W[j][i] = W[j][i] +
α * ϕ(j, winnerNeuron, r) * (E[k][i] – W[j][i])
end-of-for
end-of-for
end-of-for
end-of-for
// Se retornan como salida los pesos identificados.
return W
end-of-procedure
El Algoritmo 7.1 corresponde a la implementación del entrenamiento para una Red
de Kohonen 1D. El Algoritmo recibe las siguientes entradas:
• Un entero N que denota al número de vectores de entrada.
• Un entero n que corresponde a la dimensionalidad de los vectores de entrada.
• Una matriz E de tamaño N × n que contiene a los vectores en el conjunto de
entrenamiento. Entonces es claro que el k-ésimo vector de entrada y sus n componentes
podrán localizarse precisamente en el k-ésimo renglón de la matriz E.
• Una constante α ∈ (0, 1) correspondiente al Coeficiente de Aprendizaje.
• Un entero m que indica el número de neuronas en la red.
• Un entero L que denota el número de veces que el conjunto de entrenamiento será
presentado.
En un principio el algoritmo inicializa una matriz W de tamaño m × n. Es en esta matriz
donde los vectores de pesos de las neuronas estarán contenidos. El j-ésimo vector de pesos
252
Capítulo 7. Redes de Kohonen
estará entonces localizado en el j-ésimo renglón de W. Los valores de los pesos son
inicialmente números aleatorios. Posteriormente se tiene que efectúan una a una las
presentaciones del conjunto de entrenamiento. Cada vector de entrada es presentado a todas
las neuronas en la red. A través de la Mínima Distancia Euclidiana es que se identifica a la
Neurona Ganadora. En este punto tenemos que se invoca a la función de Fuerza de Enlace
ϕ la cual se presupone está implementada. Recordemos que esta función deberá cumplir
con retornar ϕ(j, winnerNeuron, r) = 1 cuando j corresponde a la Neurona Ganadora. Por
otro lado, ϕ(j, winnerNeuron, r) ∈ (0, 1] para las neuronas que se encuentren dentro de la
vecindad de radio r de la Neurona Ganadora. Finalmente, ϕ(j, winnerNeuron, r) = 0 para
las neuronas que se encuentran fuera de la vecindad de la Neurona Ganadora. Sabemos que
r debe ser un entero no negativo. En el caso cuando r = 0 entonces tendremos que
ϕ(j, winnerNeuron, r) = 0 para toda neurona excepto cuando j = winnerNeuron. A final de
cuentas el valor de la Función de Enlace determinará que vectores de pesos son
actualizados. El Algoritmo termina su ejecución una vez que retorna como salida a la
matriz W que contiene los pesos identificados para las m neuronas.
Algoritmo 7.2. Determinando la neurona asociada a un vector de entrada E
en una Red de Kohonen Unidimensional.
Procedure QueryKohonenNetwork1D
(Integer n, Integer m, Array E [1,…,n], Matrix W[1,…,m][1,…,n])
// El vector de entrada E es enviado a cada neurona.
// Las variables minD y minN se utilizan para identificar
// a la distancia mínima y a la neurona ganadora respectivamente.
Real minD = ∞
Integer minN = -1
for j = 1 until m do
// Se calcula la Distancia Euclidiana entre el vector de entrada E
// y el vector de pesos de la j-ésima neurona.
Real d = 0
for i = 1 until n do
d = d + Pow(E[i] – W[j][i], 2)
end-of-for
d= d
if (minD > d) then
minD = d
minN = j
end-of-if
end-of-for
// minN contiene el índice de la Neurona Ganadora, este valor se retorna.
return minN
end-of-procedure
253
Una Introducción al Cómputo Neuronal Artificial
El Algoritmo 7.2 representa la implementación del proceso de consulta a una Red
de Kohonen 1D. Es decir, una vez que ya se cuenta con los pesos de las neuronas, al haber
aplicado el Algoritmo 7.1, es que entonces se procede a invocar a la red para determinar,
dado un vector de entrada E, cual es su región del espacio, o mejor dicho clase,
correspondiente. En este sentido el Algoritmo 7.2 recibe como parámetros los valores de n
y m, es decir, la dimensionalidad de los vectores y el número de neuronas en la red,
respectivamente. Se recibe también un arreglo E de n elementos que es precisamente el
vector de entrada. La matriz W de m × n contiene a los vectores de pesos. Nuestro
Algoritmo simplemente calcula la Distancia Euclidiana del vector de entrada E con todos
los vectores de pesos. Se identifica a la Neurona Ganadora, cuya distancia es la mínima, y
se retorna su correspondiente índice como salida.
...
...
...
...
...
...
...
...
X = [x 1 x 2 x 3 ... x n] T
Figura 7.4. Una Red de Kohonen Bidimensional para la clasificación de puntos en \ n . Las neuronas son
posicionadas en renglones y columnas. El vector de entrada X es enviado a todas las neuronas.
Ahora consideremos la cuestión del problema de mapear un Espacio n-Dimensional
utilizando una Red de Kohonen Bidimensional (Véase la Figura 7.4). La red 2D tendrá
ahora las siguientes propiedades:
• Cada neurona recibirá un vector de entrada X en \ n .
• Cada neurona cuenta con un vector de pesos también en \ n .
• La salida de cada neurona está dada por la Distancia Euclidiana entre el vector de
entrada X y su vector de pesos. La Neurona Ganadora es aquella cuyo vector de pesos
cuenta con la menor distancia con el vector X.
• Se tiene una función ϕ(j, k, r) que describe la fuerza de enlace entre dos neuronas.
Bajo estos criterios es natural preguntarse cuál es la diferencia con la Red Unidimensional.
En realidad las diferencias entre el caso 1D y el 2D yacen en la función ϕ(j, k, r). Ello se
debe a que en el caso 2D se deberá considerar una vecindad bidimensional. Una vecindad
de radio r para la neurona k en una red 2D se forma por el conjunto de neuronas localizadas
hasta r posiciones a la derecha, a la izquierda, por arriba y por debajo de la neurona k. Es
254
Capítulo 7. Redes de Kohonen
decir, la vecindad de la neurona k es una porción cuadrangular de la red (Véase la Figura
7.5). Respecto al mecanismo de entrenamiento se tiene que es el mismo que hemos descrito
con anterioridad. El siguiente paso lógico debe ser obvio: una Red de Kohonen
m-Dimensional es una red en la cual las neuronas están posicionadas en un arreglo de m
dimensiones. Cada neurona cuenta con su vector de pesos, recibe al vector de entrada y se
determina a la Neurona Ganadora mediante el uso de la Mínima Distancia Euclidiana. La
función de Fuerza de Enlace deberá describir vecindades que no son más que porciones
hipercúbicas m-Dimensionales de la red. Es claro que en realidad para los casos
multidimensionales de las Redes de Kohonen debemos tomar atención únicamente de la
función ϕ.
r
...
...
...
...
...
...
...
...
r
r
...
r
...
r
...
k
...
...
...
...
...
...
...
...
...
r
r
r
Figura 7.5. La vecindad bidimensional de radio r para la k-ésima neurona en una Red de Kohonen 2D.
La vecindad se extiende r posiciones cubriendo una región cuadrangular. Todas las neuronas dentro
de esta región son vecinas de la neurona k.
Abordemos ahora un par de ejemplos a fin de apreciar, desde un punto de vista
visual, cómo es que la regla de actualización definida en la Ecuación 7.3.2 efectivamente
permite obtener una partición, en clases, del ambiente de la red. Esta partición es apropiada
para efectos de tareas de clasificación de los elementos en el conjunto de entrenamiento.
Veamos primero el caso referente al uso de una Red de Kohonen 1D para el mapeo de la
región en el plano [0, 1] × [0, 1]. Se cuenta con un conjunto de entrenamiento formado por
100 vectores de entrada distribuidos en la región dada (los componentes de los vectores
están en [0, 1]). Comentamos en párrafos anteriores que los vectores de pesos deben ser
inicializados con valores aleatorios, pero a fin de apreciar con mayor claridad el ajuste, los
pesos serán inicializados todos con el valor 0.5, es decir, los centros de gravedad de las
clases a obtener se ubican en el punto (0.5, 0.5). Supongamos que deseamos particionar el
espacio [0, 1] × [0, 1] en 10 clases. Por lo tanto nuestra red se formada precisamente por 10
neuronas. Utilizaremos un coeficiente de aprendizaje α = 0.01 el cual se mantendrá
constante durante todo el entrenamiento. Por otro lado, el radio de las vecindades a
considerar será r = 0. Ello implica que la Ecuación 7.3.2 será aplicada únicamente a la
Neurona Ganadora sin influir de ninguna manera en sus neuronas vecinas en la red.
Efectuaremos en total 100 presentaciones del conjunto de entrenamiento. Procederemos tal
255
Una Introducción al Cómputo Neuronal Artificial
como lo indica el Algoritmo 7.1. En la Figura 7.6 podemos apreciar visualmente la fase de
inicialización cuando t = 0 (la 0-ésima presentación). En la misma Figura, en la
presentación t = 2, se puede comenzar a apreciar como es que algunos vectores de pesos
comienzan a desplazarse. Se pueden observar en este punto 4 vectores ya con coordenadas
diferentes de (0.5, 0.5). En la presentaciones t = 4, 6, 8 vemos como es que este
desplazamiento aleja cada vez más a los mismos cuatro vectores de pesos del centro del
espacio. Es en la presentación t = 10 cuando claramente se aprecia un quinto vector de
pesos que comienza a alejarse del centro de [0, 1] × [0, 1]. Ahora véase la Figura 7.7. En la
presentación t = 20 seis vectores de pesos se alejan del punto (0.5, 0.5). Recordemos que
las traslaciones aplicadas a estos vectores van en función de su cercanía con los vectores en
el conjunto de entrenamiento. En la presentación t = 40 ya es posible observar a siete
vectores de pesos en movimiento, mientras que en t = 50 tenemos a ocho vectores de pesos
con componentes diferentes de 0.5. Es en la presentación t = 80 que ya es posible apreciar a
los diez vectores de pesos distribuidos a lo largo del ambiente de la red. Nótese como es
que en la presentación t = 90 aún se siguen efectuado desplazamientos, aunque también
éstos ya son claramente dentro de regiones bien definidas. Llegamos a la presentación
t = 100 con la que la ejecución del Algoritmo 7.1 finaliza.
Ahora bien, comentábamos en párrafos anteriores que los vectores de pesos son los
centros de gravedad de las clases en que hemos particionado, durante el entrenamiento de la
red, a la región [0, 1] × [0, 1]. El punto ahora es identificar a las subregiones que forman a
tales clases. Para ello haremos uso del Algoritmo 7.2 utilizando los pesos encontrados
previamente. Recordemos que este Algoritmo, dado un vector de entrada, retorna como
salida el índice asociado a la Neurona Ganadora. Ese índice lo utilizaremos ahora para
enumerar a nuestras diez clases. Cada elemento del conjunto de entrenamiento será enviado
al Algoritmo 7.2 a fin de determinar de qué clase es miembro. Una vez identificadas todas
las membresías es que podremos acotar a las subregiones definidas por cada clase. La
Tabla 7.1 describe un resumen de este análisis de membresía. También se presentan las
coordenadas de los centros de gravedad de las clases, que no son más que los pesos
identificados. Véase en la Tabla, por ejemplo, que 8 elementos del conjunto de
entrenamiento fueron agrupados en la Clase 3. Esto quiere decir que tales vectores son los
más similares al correspondiente vector de pesos. Pero además, al estar en la misma clase
se dice que los 8 vectores comparten características comunes. Lo mismo se puede concluir,
en otro caso, con los 13 vectores contenidos en la clase 8. Estos 13 vectores son los más
similares al vector de pesos [0.17727, 0.26008]T y además, por formar parte de la misma
clase, comparten similitudes entre sí. Es posible que una vez finalizado un entrenamiento se
encuentre que existen clases con cero miembros. Ello quiere decir, por un lado, que ningún
elemento del conjunto de entrenamiento se relacionó con el correspondiente vector de
pesos, y por otro lado, que la correspondiente neurona puede ser omitida de la red sin
afectar la partición del espacio que se obtuvo durante el entrenamiento. En la Figura 7.8 se
muestra la partición del espacio de la red inducida por las 10 clases identificadas durante la
aplicación del Algoritmo 7.1. Se pueden apreciar tanto los elementos del conjunto de
entrenamiento, ya con sus correspondientes membresías, así como las posiciones finales de
los centros de gravedad (vectores de pesos) de las clases.
256
Capítulo 7. Redes de Kohonen
X2
(1,1)
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
X2
È
È È
È È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È È
È
È
È
È
È
È
È
Ô
Ô
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
(0,0)
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
ÈÈ
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
ÔÔ
ÈÈ
È
Ô
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
(0,0)
È
È
È
È
È
X1
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È È
È
È
È
È
È
È
È
È
È
ÈÈ
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
X1
È
È
È
È
(1,1)
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
ÈÈ
È
È
X2
È
È È
È
È
(0,0)
È
È
È
t=6
È
È
È
È
È
È
È
È
Ô
È
È
(1,1)
È
È
È
È
È
È
X2
È
È
È
t=4
È
È
È
È
X1
È
È
È
È
È
(0,0)
È
È
È
È
Ô
È
È
È
È
È
È
ÈÈ
È
È
Ô
È
È
È
È
ÈÈ
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È È
È È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
ÈÈ
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
Ô
Ô
Ô
È
È
È
È
È
È
(1,1)
È
È
È
È
ÈÈ
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
X1
È
È
È
È
È
È
È
È
t=2
È
È
È
È
È
È
È
(1,1)
È
È
È
È
X2
È
È
È
È
È
È
Ô
È
È
(0,0)
È
È
È
È
È
È
È
È
(0,0)
X1
t = 0 (fase de inicialización de pesos)
È
È
È
È
È
È
Ô
Ô
Ô
ÈÈ
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
ÈÈ
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
ÈÈ
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È È
È È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È È
È È
È
È
È
È
È
(1,1)
È
È
È
È
È
X2
È
È
È
È
È
ÈÈ
È
È
È
È
X1
t=8
t = 10
Figura 7.6. Evolución del ajuste de pesos para una Red de Kohonen 1D en la primeras 10 presentaciones del
conjunto de entrenamiento. Los triángulos denotan las posiciones de los Centros de Gravedad
(vectores de pesos) asociados a las neuronas que forman la red (véase el texto para detalles).
257
Una Introducción al Cómputo Neuronal Artificial
X2
(1,1)
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
Ô
È
È
(1,1)
È
È
Ô
È
È È
È
È
È
È
È
È
Ô
È
È
È
È
È
Ô
ÔÔ
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
Ô
È
È
È
Ô
Ô
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
ÈÈ
È
È
È
È
È
È
Ô
È
X1
(0,0)
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
Ô
È
È
È
Ô
ÈÈ
È
È
È
È
È
È
È
È
È
È
È
È
Ô
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
Ô
È È
È
È
È
È
È
È
È
È
È È
È
È
È
ÈÈ
È
È
Ô
È
È
È
Ô
È
È
(0,0)
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
(1,1)
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È È
È
È
X1
È
È
È
È
È
X2
È
È È
È
È
È
ÈÈ
È
È
(0,0)
È
È
Ô
È
t = 80
È
È
È
È
È
È
È
È
Ô
È
È
(1,1)
È
È
È
È
È
È
X2
È
È
È
t = 50
È
È
È
È
È
È
X1
È
È
È
È
(0,0)
È
È
È
È
È
Ô
È
È
È
È
È
Ô
Ô Ô
ÈÈ
È
È
Ô
È
È
È
È
È
È
È
ÈÈ
È
È
È
È
È
È
È
È
È
Ô
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È È
È
È
È
È
È
È
È
È
È
È
È
Ô
È
È È
È
È
È
ÈÈ
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
(1,1)
È
È
È
È
È
È
È
È
È
È È
È
È
X1
È
È
È
È
ÈÈ
È
È
X2
È
È
È
È
È
Ô
(0,0)
È
È
È
È
t = 40
X2
È
È
È
È
È
t = 20
È
È
È
È
X1
È
È
È
È
È
(0,0)
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
Ô
È
È
È
ÈÈ
È
È
Ô
Ô
È
È
È
È
Ô
È
È
È
È
ÈÈ
È
È
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È È
Ô
È
È
È
È
È È
È
È
ÈÈ
È
È
È
È
È
È
ÔÔ
È
È
È
È
È
È
È
Ô
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È
È È
È È
È
È
È
È
È
(1,1)
È
È
È
È
È
X2
È
È
È
È
È
È
È
ÈÈ
È
È
È
È
X1
t = 90
t = 100
Figura 7.7. Algunas fases de la evolución del ajuste de pesos para una Red de Kohonen 1D. Los triángulos
denotan las posiciones de los Centros de Gravedad (vectores de pesos) asociados a las neuronas que forman
la red (véase el texto para detalles).
258
Capítulo 7. Redes de Kohonen
Tabla 7.1. Distribución de los 100 elementos del conjunto de entrenamiento en las 10 clases obtenidas
mediante una Red de Kohonen 1D. Se muestran también las coordenadas finales de los centros
de gravedad de cada clase una vez efectuadas 100 presentaciones del conjunto de entrenamiento
(véase el texto para detalles).
Centro de Gravedad (Vector de Pesos)
Clase (Neurona)
X1
X2
Miembros
1
0.48833
0.53633
2
2
0.42424
0.43497
3
3
0.62508
0.43863
8
4
0.56403
0.80818
10
5
0.20741
0.54386
12
6
0.60624
0.16832
12
7
0.86220
0.72777
12
8
0.17727
0.26008
13
9
0.16455
0.84476
14
10
0.91601
0.26776
14
X2
(1,1)
(0,0)
X1
Figura 7.8. Partición de la región [0, 1] × [0, 1] inducida por los centros de gravedad
(vectores de pesos, triángulos en la figura) asociados a las 10 neuronas que conforman
a una Red de Kohonen 1D. La región ha sido subdividida en 10 clases después de 100 presentaciones
del conjunto de entrenamiento (véase el texto para detalles).
259
Una Introducción al Cómputo Neuronal Artificial
(1,1,1)
(1,1,1)
X3
X3
(0,0,0)
(0,0,0)
X1
X1
t = 0 (fase de inicialización de pesos)
t=2
(1,1,1)
(1,1,1)
X3
X3
(0,0,0)
(0,0,0)
X1
X1
t=4
t=6
(1,1,1)
(1,1,1)
X3
X3
(0,0,0)
(0,0,0)
X1
X1
t=8
t = 10
Figura 7.9. Evolución del ajuste de pesos para una Red de Kohonen 1D en la primeras 10 presentaciones
de un conjunto de entrenamiento inmerso en un cubo unitario [0, 1] × [0, 1] × [0, 1]. Los círculos mayores
denotan las posiciones de los Centros de Gravedad (vectores de pesos) asociados a las neuronas que forman
la red (véase el texto para detalles).
260
Capítulo 7. Redes de Kohonen
(1,1,1)
(1,1,1)
X3
X3
(0,0,0)
(0,0,0)
X1
X1
t = 20
t = 30
(1,1,1)
(1,1,1)
X3
X3
(0,0,0)
(0,0,0)
X1
X1
t = 50
t = 60
(1,1,1)
(1,1,1)
X3
X3
(0,0,0)
(0,0,0)
X1
X1
t = 80
t = 100
Figura 7.10. Algunas fases de la evolución del ajuste de pesos para una Red de Kohonen 1D. Se mapea
un conjunto de entrenamiento inmerso en un cubo unitario [0, 1] × [0, 1] × [0, 1]. Los círculos mayores
denotan las posiciones de los Centros de Gravedad (vectores de pesos) asociados a las neuronas que forman
la red (véase el texto para detalles).
261
Una Introducción al Cómputo Neuronal Artificial
Veamos ahora el caso referente al uso de una Red de Kohonen 1D para el mapeo de
la región en el espacio [0, 1] × [0, 1] × [0, 1]. Este subespacio 3D corresponde a un cubo
unitario. Tenemos ahora 100 vectores de entrada distribuidos a lo largo de nuestro cubo.
Los condiciones de entrenamiento son las mismas que establecidos para el caso del mapeo
2D: 10 neuronas, 100 vectores de entrada, 100 presentaciones del conjunto de
entrenamiento, Coeficiente de Aprendizaje α = 0.01, el cual es constante durante todo el
proceso de ajuste de pesos, y vecindades de radio r = 0. Los vectores de pesos de las
neuronas tendrán, obviamente, 3 componentes. Todos los componentes son inicializados
con el valor 0.5. La Figura 7.9 muestra el ajuste de pesos desde la inicialización (t = 0)
hasta la décima presentación del conjunto de entrenamiento (t = 10). Nótese como es que
en esta fase se pueden apreciar al menos 5 vectores de pesos con posiciones diferentes a
[0.5 0.5 0.5]T. La Figura 7.10 muestra el resto del entrenamiento. En la presentaciones
t = 20 y t = 30 son al menos seis vectores de pesos los que se alejan de la posición
[0.5 0.5 0.5]T. En t = 60 tenemos a 9 vectores de pesos ya alejados de la posición central
del cubo. Estos desplazamientos continúan en t = 80. En la última presentación del
conjunto de entrenamiento, t = 100, tenemos a los diez vectores de pesos en sus posiciones
finales. De hecho, y como se puede apreciar en la Tabla 7.2, todas sus posiciones son
diferentes de [0.5 0.5 0.5]T. La misma Tabla nos presenta la distribución de los 100
vectores de entrada en las 10 clases definidas. La clase 1 cuenta con sólo un miembro,
mientras que la clase 8 cuenta con 18. La Tabla 7.2 así como la Figura 7.10, en particular
en el estado t = 100, nos muestran, de manera visual, como es que los vectores de pesos
terminaron con una buena distribución dentro del cubo [0, 1] × [0, 1] × [0, 1].
Tabla 7.2. Distribución de los 100 elementos del conjunto de entrenamiento, inmerso en un cubo unitario
[0, 1] × [0, 1] × [0, 1], en las 10 clases obtenidas mediante una Red de Kohonen 1D. Se muestran también
las coordenadas finales de los centros de gravedad de cada clase una vez efectuadas 100 presentaciones
del conjunto de entrenamiento (véase el texto para detalles).
Centro de Gravedad (Vector de Pesos)
Clase (Neurona)
X1
X2
X3
Miembros
1
0.45305
0.47843
0.47249
1
2
0.29893
0.45176
0.70130
11
3
0.47045
0.64149
0.43975
6
4
0.18590
0.77053
0.32384
16
5
0.44663
0.17516
0.38233
7
6
0.37887
0.91071
0.82416
8
7
0.85845
0.29124
0.66388
12
8
0.82900
0.76613
0.37098
18
9
0.18899
0.09757
0.78948
10
10
0.26443
0.29779
0.10249
11
7.4 Aplicación: Clasificación Automática de Imágenes
Una de las aplicaciones más populares de las Redes de Kohonen es en la
clasificación no supervisada de datos. En particular, en esta Sección haremos una breve
visita a lo que es la Clasificación No Supervisada de Imágenes. Esta aplicación juega un rol
importante en áreas como Visión por Computadora en donde se requiere que imágenes con
262
Capítulo 7. Redes de Kohonen
características similares sean agrupadas en clases. Algunas de las tareas de procesamiento e
indexación de imágenes dependen en gran medida de cómo éstas se encuentran agrupadas.
Como mencionábamos previamente, en esta Sección mostraremos como es que el
entrenamiento de una Red de Kohonen 1D proporciona una solución al Problema de la
Clasificación Automática de Imágenes. Algunos métodos y procedimientos que se
describirán a continuación fueron originalmente presentados y discutidos en las siguientes
publicaciones por algunos muy distinguidos y apreciados colegas junto con el Autor:
• Pérez-Aguila, Ricardo; Gómez-Gil, Pilar & Aguilera, Antonio. One-Dimensional
Kohonen Networks and Their Application to Automatic Classification of Images.
International Seminar on Computational Intelligence 2006, pp. 95-99. IEEE – CIS
Chapter Mexico. October 9 to 11, 2006. Tijuana, México.
• Pérez-Aguila, Ricardo, Gómez-Gil, Pilar & Aguilera, Antonio. Non-Supervised
Classification of 2D Color Images Using Kohonen Networks and a Novel Metric. 10th
Iberoamerican Congress on Pattern Recognition, CIARP 2005; Lecture Notes in
Computer Science, Vol. 3773, pp. 271-284. La Havana, Cuba.
• Pérez-Aguila, Ricardo. Automatic Segmentation and Classification of Computed
Tomography Brain Images: An Approach Using One-Dimensional Kohonen Networks.
IAENG International Journal of Computer Science, Vol. 37, Issue 1, pp. 27-35.
International Association of Engineers (IAENG), February 2010.
7.4.1 Redistribución del Conjunto de Entrenamiento
En Secciones anteriores mencionábamos que el mecanismo de ajuste de pesos para
una Red de Kohonen asume que los elementos del conjunto de entrenamiento se encuentran
uniformemente distribuidos en el espacio o ambiente de la red. Sin embargo, y en función
de la naturaleza de los vectores de entrada, esto no siempre se puede garantizar. Por
ejemplo, considérese un conjunto de vectores distribuidos en el subespacio 3D definido por
el cubo unitario [0,1] × [0,1] × [0,1]. Además, asúmase que este conjunto de vectores está
inmerso en una subregión delimitada por el cubo [0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6]. Véase la
Figura 7.11. Debido a que los puntos no están uniformemente distribuidos en el cubo
[0,1] × [0,1] × [0,1], el espacio de la red, es que entonces podemos esperar importantes
repercusiones durante el proceso de clasificación, es decir, en el entrenamiento. Ello se
debe a que los vectores de pesos no tendrán “suficiente” espacio para moverse ya que el
hecho de que los vectores de entrada se encuentren “anidados” en una subregión hará que
no sea clara la identificación de similitudes y diferencias entre los elementos del conjunto
de entrenamiento. En consecuencia, podemos esperar vectores de pesos cuyos componentes
casi coinciden con los de otros vectores de pesos, o por otro lado, vectores de pesos, que si
bien se han desplazado, no tendrán elementos asociados del conjunto de entrenamiento, es
decir, describen clases sin miembros.
Veamos una solución para el problema que acabamos de plantear. Considérese un
Hipercubo unitario n-Dimensional H, es decir:
H = [0,1] × [0,1] × ... × [0,1]
(Ecuación 7.4.1)
n
263
Una Introducción al Cómputo Neuronal Artificial
X3
(1,1,1)
(0.3, 0.3, 0.3)
(0.6, 0.6, 0.6)
(0,0,0)
X2
X1
Figura 7.11. Un conjunto de vectores inmersos en el cubo
[0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6] ⊆ [0,1] × [0,1] × [0,1].
Supongamos ahora que tenemos un conjunto de vectores E1, E2, E3, …, EN, inmersos
también en un Hipercubo n-Dimensional h, pero con la propiedad de que h está contenido
en H, es decir, h ⊆ H (en el ejemplo que planteábamos anteriormente tenemos que n = 3,
H = [0,1] × [0,1] × [0,1] y h = [0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6]). Ahora bien, con los
vectores inmersos en h formaremos dos nuevos vectores: Pmin y Pmax. Pmin es el vector cuyo
i-ésimo componente, ximin , está dado por:
min
xi
­
½
ª # º
°
°
«
»
= min ® x j ,i : E j = « x j ,i » , j = 1, 2,..., N ¾
°
°
«¬ # »¼
¯
¿
(Ecuación 7.4.2)
Es decir, de los i-ésimos componentes de cada uno de los vectores E1, E2, E3, …, EN se elije
al menor. En consecuencia el vector Pmin está dado por:
Pmin
264
ª x1min º
« min »
x
=« 2 »
« # »
« min »
¬« xn ¼»
(Ecuación 7.4.3)
Capítulo 7. Redes de Kohonen
Es claro entonces que el vector Pmin se conforma por los componentes mínimos tomados de
los vectores E1, E2, E3, …, EN. Por otro lado, y de manera similar, tenemos que el vector
Pmax está dado por:
Pmax
ª x1max º
« max »
x
=« 2 »
« # »
« max »
¬« xn ¼»
(Ecuación 7.4.4)
Donde:
max
xi
­
½
ª # º
°
°
«
»
= max ® x j ,i : E j = « x j ,i » , j = 1, 2,..., N ¾
°
°
«¬ # »¼
¯
¿
(Ecuación 7.4.5)
Resulta claro que el vector Pmax se conforma por los componentes máximos tomados de los
vectores E1, E2, E3, …, EN. Los vectores Pmin y Pmax describen entonces la diagonal
principal del Hipercubo h (en nuestro ejemplo anterior, con n = 3, tendríamos que
Pmin = [0.3 0.3 0.3]T y Pmax = [0.6 0.6 0.6]T, véase la Figura 7.12).
X3
(1,1,1)
P max =
(0.6, 0.6, 0.6)
X2
P min =
(0.3, 0.3, 0.3)
(0,0,0)
X1
Figura 7.12. La diagonal principal asociada
al cubo [0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6].
265
Una Introducción al Cómputo Neuronal Artificial
A cada uno de los vectores Ej = [xj,1 xj,2 … xj,n]T, j = 1, 2, …, N, y también a los
vectores Pmin y Pmax, se les aplicará ahora una traslación. Esta traslación, definida en
función de Pmin, producirá un nuevo conjunto de vectores y está dada por:
ª x j ,1 º ª x1min º ª x ' j ,1 º
» «
« » «
»
E j ' = E j − Pmin = « # » − « # » = « # »
« x j ,n » « xnmin » « x ' j ,n »
¬ ¼ ¬
¼
¼ ¬
max
min
ª x1 º ª x1 º ª x1max 'º
«
» «
» «
»
Pmax ' = Pmax − Pmin = « # » − « # » = « # »
« xnmax » « xnmin » « xnmax '»
¬
¼ ¬
¼ ¬
¼
Pmin ' = Pmin − Pmin
(Ecuación 7.4.6)
(Ecuación 7.4.7)
ª x1min º ª x1min º ª0 º
«
» «
»
= « # » − « # » = «« # »»
« xnmin » « xnmin » «¬0 »¼
¬
¼ ¬
¼
(Ecuación 7.4.8)
La Ecuación 7.4.8 es obvia, pero nos indica claramente que la traslación aplicada hace que
se cuente ahora con un Hipercubo h’, aún inmerso en el Hipercubo H, en el cual uno de sus
vértices es precisamente el vector cero, o bien, el origen. La diagonal principal de h’ está
escrita por Pmin ' = 0 y Pmax ' . El conjunto de vectores, trasladados, E1 ', E2 ',..., EN ' está
claramente contenido en h’ (Véase la Figura 7.13 donde se aplica la traslación a nuestro
caso ejemplificado con n = 3).
X3
(1,1,1)
P max' =
(0.3, 0.3, 0.3)
X2
P min' =
(0, 0, 0)
X1
Figura 7.13. Traslación de los vectores originalmente inmersos en el cubo
[0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6] de manera que Pmin ' es ahora el origen del espacio 3D.
266
Capítulo 7. Redes de Kohonen
La segunda parte del procedimiento de redistribución del conjunto de entrenamiento
consiste ahora en la extensión del Hipercubo h’ a fin de ocupe por completo el espacio
definido por el Hipercubo H. Para ello requerimos aplicar un escalamiento a todos nuestros
vectores. Es bien sabido que el escalamiento se da al multiplicar a todos los componentes
de un vector por los factores S1, S2, …, Sn, donde el i-ésimo factor, Si, se relacionará
únicamente con el i-ésimo componente del vector. Dado que nuestro objetivo es extender a
h’, y a los vectores E1 ', E2 ',..., EN ' , de manera que ahora ocupen a todo el Hipercubo H,
entonces tenemos que el escalamiento deberá mapear al vector Pmax ' en el vector
[1 1 … 1]T. En consecuencia se debe dar solución al conjunto de n ecuaciones:
ximax '⋅ Si = 1, i = 1, 2,..., n
(Ecuación 7.4.9)
Lo cual es en realidad muy sencillo y la solución nos proporciona los factores de
escalamiento a aplicar:
Si =
1
max
i
x
'
, i = 1, 2,..., n
(Ecuación 7.4.10)
(Retomando nuestro ejemplo con n = 3 tenemos que en la Figura 7.14 se puede apreciar el
resultado de aplicar el mencionado escalamiento).
X3
(1,1,1)
X2
(0,0,0)
X1
Figura 7.14. Aplicación de factores de escalamiento de manera que el conjunto
de vectores originalmente inmerso en el cubo [0.3, 0.6] × [0.3, 0.6] × [0.3, 0.6] (Figura 7.11)
se redistribuya a lo largo del cubo [0, 1] × [0, 1] × [0, 1].
267
Una Introducción al Cómputo Neuronal Artificial
En la práctica nuestro método asume que efectivamente el conjunto de
entrenamiento está inmerso en el Hipercubo H pero que necesita ser redistribuido.
Entonces, realmente solo se requieren identificar a Pmin y Pmax (Ecuaciones 7.4.3 y 7.4.4) y
aplicar de manera directa las Ecuaciones 7.4.6 y 7.4.10. Con lo que se tiene una fórmula
que engloba a todos los pasos antes mencionados:
ª x j ,1 º
« »
Ej = « # »
« x j ,n »
¬ ¼
→
ª
·º
1
min §
« ( x j ,1 − x1 ) ¨ max
min ¸ »
© x1 − x1 ¹ »
«
ª x*j ,1 º «
»
#
« » «
»
#
« » «
»
§
·
1
E j * = « x*j ,i » = « ( x j ,i − ximin ) ¨ max
min ¸ »
« » «
© xi − xi ¹ »
« # » «
»
#
« x* » «
»
j
n
,
¬ ¼
·»
«
1
min §
« ( x j ,n − xn ) ¨ x max x min ¸ »
© n − n ¹¼
¬
(Ecuación 7.4.11)
Donde E1*, E2 *,...EN * son los vectores en el conjunto de entrenamiento pero redistribuidos
× [0,1] × ... × [0,1] .
de manera que ocupan por completo el espacio [0,1]
n
7.4.2. Clasificación de Imágenes mediante
una Red de Kohonen 1D
Sean m1 (renglones) y m2 (columnas) las dimensiones de una imagen bidimensional.
Sea n = m1 ⋅ m2. Sabemos que el j-ésimo píxel en la imagen, j = 1, 2, …, n, tendrá asociado
un vector en \ 3 dado por [xj,1 xj,2 Gj]T, donde xj,1 y xj,2 son sus respectivos renglón y
columna en la imagen, mientras que Gj es su valor en el conjunto {0, 1, 2, …, 255}, el cual
representa su intensidad bajo escala de grises. En primer lugar tenemos que los valores de
intensidad de los píxeles deberán ser normalizados de manera que éstos se encuentren en el
intervalo [0, 1]. Tal normalización es en realidad simple y se implementa mediante:
G normalized
=
j
Gj
255
(Ecuación 7.4.12)
Ahora bien, sabemos que una imagen por lo regular es representada mediante una
matriz de píxeles. Sin embargo, nótese que hemos introducido a n y j para denotar al
número total de píxeles en una imagen y para referirnos mediante un único índice a un
píxel, respectivamente. Y es que básicamente lo que haremos será definir a un vector en el
Espacio n-Dimensional al concatenar a los m1 renglones en la imagen. Cada renglón
contiene los valores de intensidad de sus correspondientes píxeles. A fin de asegurarnos que
268
Capítulo 7. Redes de Kohonen
el vector se encuentre dentro del Hipercubo H = [0,1]
× [0,1] × ... × [0,1] (Ecuación 7.4.1) es
n
que consideraremos sus valores de intensidad normalizados (Ecuación 7.4.12). De esta
manera una imagen estará ahora asociada a un vector.
Consideraremos un conjunto de 340 imágenes en escala de grises. Estas imágenes
corresponden a secciones cerebrales capturadas mediante Tomografía Computada. Las
imágenes están asociadas a 5 pacientes, cuentan todas con una resolución de 512 × 512
píxeles y fueron capturadas utilizando el mismo equipo y bajo las mismas condiciones de
contraste y configuración. Véase en la Figura 7.15 una de las imágenes bajo consideración.
Figura 7.15. Una imagen correspondiente a una sección cerebral
capturada mediante Tomografía Computada.
Nuestras 340 imágenes son en primer representadas mediante vectores inmersos en
un Espacio conformado por n = 512 × 512 = 262,144 dimensiones. Además, mediante la
aplicación de la Ecuación 7.4.12 tenemos asegurado que nuestros vectores estarán
inmersos en el Hipercubo unitario [0,1] × [0,1] × ... × [0,1] . Estos 340 vectores formarán
262,144
precisamente el conjunto de entrenamiento. A este conjunto también se le aplicó la
Ecuación 7.4.11 a fin de asegurar que se encuentre completamente distribuido a lo largo de
nuestro Hipercubo.
Utilizaremos a una Red de Kohonen 1D a fin de obtener una clasificación para las
340 imágenes. Nótese que entonces efectuaremos un mapeo de un Espacio de 262,144
dimensiones hacia un arreglo de neuronas unidimensional. Consideraremos una partición
en 20 clases. Por lo tanto nuestra red se conformará por 20 neuronas. El vector de pesos en
cada neurona tendrá 262,144 componentes inicializados todos con valor 0.5. Tal como en
los ejemplos presentados en la Sección 7.3, utilizaremos vecindades de radio
r = 0. Por lo que nuestra función de Fuerza de Enlace tendrá valor 1 únicamente para la
269
Una Introducción al Cómputo Neuronal Artificial
Neurona Ganadora y cero para las restantes neuronas en la red. Ello también tiene como
consecuencia que la actualización de pesos será aplicada sólo a la Neurona Ganadora.
Consideraremos 30 presentaciones del conjunto de entrenamiento. Finalmente, sólo nos
basta establecer a nuestro Coeficiente de Aprendizaje α. En este caso utilizaremos:
α (t ) =
1
t +1
(Ecuación 7.4.13)
Donde t es la actual presentación del conjunto de entrenamiento. Ello quiere decir que en la
1
primer presentación (t = 1) tendremos un coeficiente α (1) = , en la segunda presentación
2
1
(t = 2) se usará α (2) = , y así sucesivamente. En la última presentación (t = 30) tendremos
3
1
≈ 0.0322. La idea, como siempre, es la de iniciar
un Coeficiente de Aprendizaje α (30) =
31
el entrenamiento con actualizaciones que nos permitan explorar inicialmente el Espacio de
la Red con “pasos”, propiamente ajustes de pesos, de tamaño “grande”. Posteriormente,
asumimos que mientras el entrenamiento avanza los pesos se acercarán cada vez más a sus
posiciones óptimas. Ello implica que en estas fases requeriremos “pasos” de tamaño
“pequeño” con el fin de asegurar la mayor precisión posible en los posicionamientos finales
de los vectores de pesos. El Algoritmo 7.1, encargado del entrenamiento de la red, recibe
como entrada nuestro conjunto de entrenamiento así como los parámetros apropiados.
Debemos simplemente tomar en cuenta que el Algoritmo debe ajustarse apropiadamente
para considerar nuestra función de Fuerza de Enlace y el Coeficiente de Aprendizaje tal y
como los hemos establecido.
Una vez efectuadas las 30 presentaciones de nuestro conjunto de entrenamiento
aplicamos el Algoritmo 7.2 a fin de determinar la membresía de cada una de las 340
imágenes. Véase la Tabla 7.3. El primer punto interesante surge del hecho de que la
neurona asociada a la clase 20 no cuenta con miembros. Ello quiere decir que en realidad,
bajo los parámetros de entrenamiento que establecimos, 19 clases son suficientes. La clase
5 es la que más miembros tiene: 43. Por otro lado tenemos que la clase 9 únicamente cuenta
con dos miembros. En este punto será natural preguntarse que tienen en común las
imágenes dentro de cada clase. Para ello véase, en primer lugar, la Tabla 7.4. Esta Tabla
muestra a los 16 miembros de la clase 17. Inicialmente tenemos que estas imágenes
agrupan secciones correspondientes a dos pacientes. Lo interesante es que tales secciones
corresponden a prácticamente las mismas regiones craneales. Recordemos que el
entrenamiento de la Red de Kohonen utiliza a la Distancia Euclidiana para determinar la
similitud entre los vectores de entrada. Es claro entonces que para esta clase los vectores
asociados a las imágenes correspondientes fueron caracterizados como los más similares
entre sí. Ahora véase la Tabla 7.5. En ésta tenemos a los 25 miembros que conforman a la
clase 12. Las imágenes están asociadas a 3 diferentes pacientes y corresponden a secciones
cerebrales donde se aprecia claramente, y únicamente, materia blanca, materia gris y la
porción ósea del cráneo que protege a esa región del cerebro.
270
Capítulo 7. Redes de Kohonen
Tabla 7.3. Clasificación de las 340 imágenes en el conjunto
de entrenamiento de acuerdo a una Red de Kohonen 1D
con 20 neuronas (véase el texto para detalles).
Clase Miembros Clase Miembros
4
27
1
11
8
25
2
12
28
12
3
13
15
14
4
14
43
17
5
15
12
21
6
16
4
16
7
17
30
38
8
18
2
19
9
19
5
0
10
20
Tabla 7.4. Los 16 miembros de la clase 17 asociada a un conjunto de entrenamiento
formado por 340 imágenes y clasificado mediante una Red de Kohonen 1D.
271
Una Introducción al Cómputo Neuronal Artificial
Tabla 7.5. Los 25 miembros de la clase 12 asociada a un conjunto de entrenamiento
formado por 340 imágenes y clasificado mediante una Red de Kohonen 1D.
272
Capítulo 7. Redes de Kohonen
Contamos con una Red de Kohonen 1D que nos ha proporcionado una solución al
Problema de la Clasificación Automática de Imágenes. En este punto es conveniente
establecer, y como ya debe ser claro, que la clasificación es estructurada únicamente por la
Red de Kohonen durante el proceso de entrenamiento el cual es un mecanismo no
supervisado. Ello quiere decir, por un lado, que no existe un “maestro” u “orientador” que
le indique a la red la existencia de un porcentaje de error o desacierto como sucede en, por
ejemplo, el Algoritmo de Retropropagación. Es la Red misma la que forma su propia
estructura de clasificación. Esta propiedad es sumamente atractiva, ya que hemos venido
mencionado que existen una gran variedad de aplicaciones en las cuales únicamente
contamos con el conjunto de vectores de entrada y nada más. Por lo tanto, modelos de
Redes No Supervisadas como el de Kohonen pueden llegar a ser muy útiles a fin de
determinar automáticamente una estructura o partición para tales conjuntos de vectores.
Pero por otro lado, debemos tomar en cuenta que la clasificación que nos proporciona una
Red de Kohonen puede llegar a ser puesta a prueba en términos de su utilidad. Las Tablas
7.4 y 7.5 nos proporcionan evidencia de una “buena” clasificación por parte de la Red para
nuestras imágenes. Pero por lo regular, una vez que se cuenta con una clasificación, ésta es
evaluada por un experto quien decide si es útil o no o bien si ha ayudado a encontrar
patrones y propiedades que no eran visibles a simple vista. En el contexto de la aplicación
que estamos presentando, un Médico Especialista es quien debería juzgar si la clasificación
es apropiada o no. Por ejemplo, se podría requerir que la clasificación proporcione un
mecanismo para agrupar casos médicos con diagnósticos y procedimientos comunes. De
manera que cuando un nuevo caso se presente se recurra a la Red Neuronal a fin de
determinar la clase que le corresponde y utilizar a los casos miembros de esa clase, y que en
consecuencia son similares, como una guía a fin de proceder apropiadamente con el
tratamiento del paciente. Si el Médico Especialista determina que la clasificación no es
apropiada entonces es que se recurre a utilizar otros parámetros de entrenamiento: se
modifican la inicialización de pesos, el número de clases, el número de presentaciones, el
coeficiente de aprendizaje, etc. Esto con el fin de obtener una nueva clasificación y
determinar si es útil o no.
Ahora bien, hemos establecido la posible necesidad de recurrencia a un experto para
determinar la utilidad de la clasificación. Pero también hemos mencionado que se busca
que los vectores de pesos, una vez terminado el entrenamiento, se encuentren
uniformemente distribuidos a lo largo del espacio de la red. Esta propiedad es también un
parámetro a tomar en cuenta para determinar si la clasificación fue apropiada o no. En la
Sección 7.3 vimos ejemplos de mapeos de espacios de 2 y 3 dimensiones. La ventaja era
que podíamos analizar la relación entre el conjunto de entrenamiento y los vectores de
pesos finales, y su distribución, mediante elementos visuales. El problema que tenemos
ahora tiene que ver con el hecho de que hemos trabajado con un conjunto de entrenamiento
formado por 340 vectores inmersos en un espacio de n = 262,144 dimensiones. ¿Cómo
podemos determinar o inferir si efectivamente los vectores de pesos están uniformemente
distribuidos? Para ello, debemos recurrir al uso de otras herramientas. Sabemos que existe
273
Una Introducción al Cómputo Neuronal Artificial
una relación directa entre los vectores de entrada y los vectores de pesos: ambos tienen el
mismo número de componentes y sus valores están en el intervalo [0, 1]. Existe una
relación uno a uno entre una imagen 2D y su correspondiente vector de entrada. Por lo
tanto, podemos pensar en que un vector de pesos es la representación de una imagen. Tal
imagen se forma poco a poco conforme el proceso de entrenamiento avanza y además
debería considerar las características que tienen en común las imágenes que se agrupan en
su correspondiente clase. Esta última aseveración tiene sustento en el hecho de que un
vector de pesos es actualizado utilizando a la imagen actualmente procesada. El punto
ahora es simplemente considerar que todo vector de pesos puede ser expresado como una
imagen en escala de grises. Visualizando todas las imágenes formadas, y asociadas a los
vectores de pesos, es que podremos apreciar que tan diferentes, o similares, son entre sí. De
esta manera podemos contar con un parámetro para inferir que tan bien distribuidos están
los pesos en el Espacio de la red. La Tabla 7.6 muestra precisamente las 20 imágenes
descritas por nuestros vectores de pesos. Mencionamos antes que la clase 20 no contaba
con miembros. Véase en la Tabla como es que su imagen correspondiente no contiene
información visual alguna. De hecho, todos sus componentes tienen valor 0.5, indicando
que durante el entrenamiento la neurona asociada nunca fue caracterizada como Ganadora.
Por otro lado, obsérvense las imágenes asociadas a los vectores de pesos para las clases 12
y 17. Este par de imágenes guardan una gran similitud con sus correspondientes imágenes
en el conjunto de entrenamiento (Tablas 7.4 y 7.5).
Como hemos podido apreciar, las Redes de Kohonen usan como parte fundamental
de su proceso de entrenamiento y clasificación a la Distancia Euclidiana sobre el espacio
n-Dimensional. Debido a que cada uno de los vectores de pesos asociados a las clases son
precisamente vectores en \ n , entonces es que podemos determinar también la Distancia
Euclidiana entre cualquier par de vectores de pesos. La idea ahora es definir un Mapa de
Falso Color que representará la distribución de los vectores de pesos en el subespacio
[0,1] × [0,1] × ... × [0,1] . Es claro que la Distancia Euclidiana máxima entre dos vectores será
n
dmax = n , mientras que la Distancia Euclidiana mínima será, obviamente, dmin = 0. Toda
Distancia Euclidiana d entre dos vectores de pesos será asociada con una intensidad G en la
escala de grises mediante:
« d
»
⋅ 255»
GW = «
¬ d max
¼
(Ecuación 7.4.14)
De esta manera si d = 0 entonces se tendrá asociada la intensidad correspondiente al color
negro. Por otro lado, si d = dmax = n entonces se tendrá al color blanco.
274
Capítulo 7. Redes de Kohonen
Tabla 7.6. Visualización de las imágenes asociadas a los vectores de pesos
de una Red de Kohonen 1D formada por 20 neuronas (Véase el texto para detalles).
Clase 1
Clase 2
Clase 3
Clase 4
Clase 5
Clase 6
Clase 7
Clase 8
Clase 9
Clase 10
Clase 11
Clase 12
Clase 13
Clase 14
Clase 15
Clase 16
Clase 17
Clase 18
Clase 19
Clase 20
275
Una Introducción al Cómputo Neuronal Artificial
Consideremos a nuestra Red de Kohonen 1D. En la Figura 7.16 se presenta el
Mapa de Falso Color asociado a las distancias entre nuestros 20 vectores de pesos.
Tenemos entonces una representación visual y planar de cómo es que están distribuidos los
vectores de pesos una vez finalizado el entrenamiento de la red. La diagonal principal tiene
asociado el color negro debido a que la distancia de un vector de pesos consigo mismo es
cero. Realmente son las regiones restantes del mapa las que nos interesan. Intuitivamente,
concluiríamos que la distribución es buena si los colores asociados a las distancias tienden
hacia el blanco. ¿Cómo deberíamos interpretar al mapa de manera más objetiva? Para ello
tendríamos que recurrir a los valores de las distancias.
Distancia Euclidiana Mínima
Distancia Euclidiana Máxima
Figura 7.16. Mapa de Falso Color que muestra las distancias entre los vectores
de pesos asociados a una Red de Kohonen 1D formada por 20 neuronas.
Consideremos únicamente las distancias que tienen los vectores de pesos asociados
a las clases 12 (Tabla 7.5) y 17 (Tabla 7.4) con todos los demás vectores de pesos. Véase
la Tabla 7.7. Veamos primero el caso de las distancias que tiene el vector de pesos
asociado a la clase 12. Evidentemente la distancia de un vector de pesos consigo mismo es
cero y por esa razón omitiremos esa instancia. La distancia mínima que tiene este vector es
con el vector de pesos asociado a la clase 8 (111.6704); mientras que la máxima es con el
vector correspondiente a la clase 10 (173.0801). En promedio se tiene una distancia de
132.7726. Son 15 los vectores de pesos con los que se tiene una distancia por encima del
promedio. Ahora bien, analicemos de igual forma al vector de pesos asociado a la clase 17.
La distancia máxima se da con el vector de pesos correspondiente a la clase 8 (159.4698);
mientras que la mínima se presenta con el vector de pesos asociado a la clase 19
276
Capítulo 7. Redes de Kohonen
(108.6999). El promedio de las distancias que tiene nuestro vector con los restantes es de
127.0818. Se tienen 16 vectores de pesos cuyas distancias están por encima de este valor.
Utilizando estas observaciones podemos entonces establecer que aquellos vectores de pesos
cuyas distancias estén por debajo del promedio sean caracterizados como los vectores más
similares, mientras que aquellos que estén por encima del promedio se les ha de denotar
como con los que más diferencias se tienen. Lo interesante es que para ambas clases bajo
estudio, la 12 y 17, tenemos que más del 75 % de los vectores de pesos que conforman a la
red presentan diferencias notables. Desde un punto de vista geométrico podemos decir
entonces que los vectores de pesos asociados a las clases 12 y 17 se encuentran bien
colocados en el espacio de la red. Si la mayoría de las clases para nuestra Red de Kohonen
hubiesen sido caracterizadas como similares a nuestros vectores de pesos, debido a que sus
distancias son menores a la distancia promedio, entonces hubiésemos podido inferir que el
vector de pesos bajo estudio está demasiado cerca de otros y por tanto no se logra
diferenciar adecuadamente, impactando con ello la partición obtenida para el Espacio de la
red. Finalmente, este tipo de análisis tienen el objetivo de proporcionar elementos para
establecer si la clasificación es apropiada. Pero como ya comentamos antes, la utilidad de la
clasificación también va en función del contexto del problema que se esté tratando.
Tabla 7.7. Distancias que tienen los vectores de pesos asociados a las clases 12 y 17
con todos los demás vectores de pesos que conforman a una Red de Kohonen 1D.
Clase 12
Clase 17
168.3854
139.3557
Clase 1
151.5977
141.7146
Clase 2
167.1622
158.2210
Clase 3
170.0472
150.0269
Clase 4
138.8657
146.1057
Clase 5
148.1818
127.6880
Clase 6
169.6480
143.1229
Clase 7
111.6704
159.4698
Clase 8
164.2003
144.7317
Clase 9
173.0801
148.6562
Clase 10
128.3436
110.4572
Clase 11
0.0
146.3194
Clase 12
131.3029
119.8285
Clase 13
138.4280
131.3952
Clase 14
133.6582
144.6634
Clase 15
138.4936
157.2248
Clase 16
146.3194
0.0
Clase 17
116.2553
136.6072
Clase 18
147.5144
108.6999
Clase 19
145.0719
154.4305
Clase 20
277
Una Introducción al Cómputo Neuronal Artificial
278
Una Introducción al Cómputo Neuronal Artificial
Referencias
Libros de Texto
•
Inteligencia Artificial: Sistemas Inteligentes con C#.
Nicolás Arrioja Landa Cosio.
Gradi, 2007.
•
Introduction to Algorithms.
Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest y Clifford Stein.
MIT Press, Segunda Edición, 2001.
•
Neural Networks.
Eric Davalo y Patrick Naïm.
The Macmillan Press Ltd, 1992.
•
Principles of Artificial Neural Networks.
Daniel Graupe.
Advanced Series on Circuits and Systems, Vol. 6. World Scientific, Segunda Edición,
2007.
•
Elementary Linear Algebra.
Stanley I. Grossman.
Brooks Cole, Quinta Edición, 1994.
•
Neural Networks: A Comprehensive Foundation.
Simon Haykin.
Prentice Hall; Segunda Edición, 1998.
•
Redes Neuronales Artificiales.
José Hilera y Victor Martínez.
Editorial Alfaomega, 2000.
•
Linear Algebra and Its Applications.
David C. Lay.
Addison Wesley, Tercera Edición, 2005.
•
Fuzzy-Neuro Approach to Agent Applications.
Raymond S. T. Lee.
Springer-Verlag Berlin Heidelberg, 2006.
279
Una Introducción al Cómputo Neuronal Artificial
•
La Mente Humana
C. Rayner
Ediciones Orbis, 1985.
•
El Cuerpo Humano (Tomos I y II)
C. Rayner
Ediciones Orbis, 1985.
•
Neural Computation and Self-Organizing Maps, An Introduction.
Helge Ritter, Thomas Martinetz y Klaus Schulten.
Addison-Wesley Publishing Company, 1992.
•
Neural Networks: A Systematic Introduction.
Raul Rojas.
Springer-Verlag, Berlin, New-York, 1996.
•
Artificial Intelligence: A Modern Approach.
Stuart Russell y Peter Norvig.
Prentice Hall Series in Artificial Intelligence, Segunda Edición, 2002.
•
Calculus On Manifolds: A Modern Approach To Classical Theorems Of Advanced
Calculus.
Michael Spivak.
Westview Press, 1971.
•
Calculus.
Michael Spivak.
Publish or Perish, Segunda Edición, 1980.
•
Calculus.
James Stewart.
Brooks/Cole Publishing Company, Tercera Edición, 1995.
Artículos
•
280
Automatic Segmentation and Classification of Computed Tomography Brain Images:
An Approach Using One-Dimensional Kohonen Networks.
Ricardo Pérez-Aguila.
IAENG International Journal of Computer Science, Vol. 37, Issue 1, pp. 27-35.
ISSN: 1819-9224 (online version), 1819-656X (print version).
International Association of Engineers (IAENG), February 2010.
Una Introducción al Cómputo Neuronal Artificial
•
Brain Tissue Characterization Via Non-Supervised One-Dimensional Kohonen
Networks.
Ricardo Pérez-Aguila.
Proceedings of the XIX International Conference on Electronics, Communications and
Computers CONIELECOMP 2009, pp. 197-201.
ISBN: 978-0-7685-3587-6.
IEEE Computer Society, February, 2009.
•
One-Dimensional Kohonen Networks and Their Application to Automatic
Classification of Images.
Ricardo Pérez-Aguila, Pilar Gómez-Gil y Antonio Aguilera.
Proceedings of International Seminar on Computational Intelligence 2006, pp. 95-99.
IEEE – CIS Chapter Mexico. Tijuana Institute of Technology.
October, 2006.
•
Non-Supervised Classification of 2D Color Images Using Kohonen Networks and a
Novel Metric.
Ricardo Pérez-Aguila, Pilar Gómez-Gil y Antonio Aguilera.
Progress in Pattern Recognition, Image Analysis and Applications; 10th Iberoamerican
Congress on Pattern Recognition, CIARP 2005; Proceedings. Lecture Notes in
Computer Science, Vol. 3773, pp. 271-284.
ISBN: 3-540-29850-9.
Springer-Verlag Berlin Heidelberg, 2005.
281
Descargar