Sesión 12 “Aprendizaje neuronal” - Grupo de Inteligencia Artificial

Anuncio
Inteligencia Artificial
Sesión 12
“Aprendizaje neuronal”
Ing. Sup. en Informática, 4º
Curso académico: 2010/2011
Profesores: Sascha Ossowski y Matteo Vasirani
Aprendizaje
Resumen:
3. Aprendizaje automático
3.1 Introducción al aprendizaje automático
3.2
Algoritmos genéticos
3.3
Aprendizaje por refuerzo
3.4
Árboles de decisión
3.5
Redes neuronales
Cerebro humano
• Célula nerviosa o neurona:
–
–
–
–
cada célula contiene un cuerpo (soma), varias fibras (dentridas) y una fibra larga (axón)
cada neurona se conecta con otras (entre 10 y 100.000) (conexión: sinapsis)
neuronas propagan señales mediante reacciones electroquímicas
las señales:
• controlan la actividad del cerebro (pensamiento)
• permiten establecer cambios de posición y conectividad de las neuronas (aprendizaje)
Sinapsis
Axon
Dendritas
Sinapsis
Soma
Axon
Soma
Dendritas
Sinapsis
Cerebro humano
• Funcionamiento de una neurona:
– las dentridas reciben las señales de (muchas) otras neuronas (entradas)
– la influencia colectiva de todas sus entradas pueden activar una neurona
– una neurona activada transporta una señal a las neuronas con las que está
conectada (salida)
• En este procedimiento:
– la neurona sólo se activa si la influencia colectiva de todas sus entradas
supera un nivel mínimo de potencial eléctrico
– las sinapsis influyen de forma distinta en la activación de la neurona
• algunas refuerzan la activación (con diferentes grados)
• otras inhiben la activación (con diferentes grados)
– la salida de una neurona es, a su vez, la entrada para muchas otras neuronas
• Variabilidad de las sinapsis
– el grado de influencia de una sinapsis puede cambiar con el tiempo
– incluso, se crean nuevas sinapsis
• Se cree que esta variabilidad es la base del aprendizaje humano.
Neuronas artificiales
Señales Entrada
Pesos
Señales de salida
x1
Y
w1
x2
w2
Neurona
Y
Y
g
wn
Y
xn
•
•
•
•
x1,…,xn – entradas
w1,…,wn – pesos
Y – salida
g función de activación: g(x1,…,xn)=Y
Funciones más comunes de activación
x1
w1
w2
x2
n
Y
en = ∑ wi ⋅ xi
g
i =1
xn
wn
Función Umbral
Y
1
Función Signo
Función Sigmoide
Y
1
0 U
-1
en
1, si en > U
Y =
0, en caso contrario
Y
1
0 U
-1
1, si en > U
Y =
− 1, en caso contrario
Y
1
0
-1
en
Y=
Función Lineal
1
1 + e − en
0
-1
en
Y = en
en
Red neuronal biológico y artificial
Red Biológica
Red Artificial
Soma
Neurona
Dendrita
Entrada
Axon
Salida
Sinapsis
Peso
Reacción electroquímica en la célula
Función de activación
Input Signals
Dendrites
Sinapsis
Axon
Axon
Soma
Out put Signals
Sinapsis
Soma
Dendrites
Sinapsis
Middle Layer
Output Layer
Input Layer
Neurona más simple: el perceptrón
• Neurona artificial con una función de activación umbral
n

1, si ∑ wi xi > U
Y =
i =1
0, en caso contrario

x1
w1
U
w2
x2
• Entradas y salidas binarias
• El perceptrón para clasificación:
– puede representar una función booleana de sus entradas
– Ejemplos:
x1
1
1,5
x2
Y
x1
0,5
x2
1
AND
1
1
OR
Y
Y
Red Perceptrón
• Varias perceptrones componen una red neuronal simple (de una capa)
x1
Salida:
- codificación
de las clases
x2
x3
x4
Pesos
Perceptrones:
- determinan las salidad
Entradas:
- codificación binaria
de los casos
2
• Ejemplo: reconocimiento de números:
– cada pixel representa una entrada xi
– o bien 4 neuronas (salidas: 0000, 0001, 0010, 0011,…)
– o 9 neuronas (salidas: 000000000, 000000001, 0000000010, …)
Aprendizaje de perceptrónes
• Suponemos un perceptrón de n entradas (x1,x2,…,xn) y una salida y
• xi e y son binarios
• Suponiendo un conjunto de ejemplos de entrenamiento:
{ (X1,y1), (X2,y2), …} con Xi=(xi1,xi2,…,xin)
• Objetivo:
– aprender un perceptrón que concuerde con los ejemplos, es decir, que
implementa la función booleana: f (x1,x2,…,xn)=Y
x1
w1
…
xn
U
Y
wn
– Para ello hay que aprender los pesos w1,…,wn y el umbral U
– En el caso de una red, se considera cada perceptrón por separado
Aprendizaje de perceptrónes
• Idea:
– Se presenta los ejemplos de entrenamiento de forma iterativa al perceptrón
– Para cada ejemplo, se compara el resultado de la clasificación del perceptron
con el resultado deseado
– Si hay diferencias, se realizan pequeños ajustes en los pesos de las entradas
para reducir estas diferencia
– Se repite este procedimiento hasta que los resultados convergen (el
perceptrón haya aprendido)
x1
…
xn
w1
Y
U
wn
Aprendizaje de perceptrónes
• Pasos en la iteración i con ejemplo de entrenamiento ((xi1,xi2,…,xin),yi)
1. Clasificar el ejemplo (xi1,xi2,…,xin) con el perceptrón:
• se obtiene el valor de clasificación actual yiactual
2. Compara el valor actual con el valor deseado:
•
Calcular el Error: e(i)= yi- yiactual
3. Calcular la corrección de pesos con la regla delta:
•
∆wj=α ⋅ xij ⋅ e(i) , para j=1,…n (α es una constante de aprendizaje)
4. Actualizar los pesos (w1,…,wn):
•
wj(i+1) = wj(i) + ∆wj , para j=1,…n
Ejemplo i ((xi1,…,xin),yi) :
xi1
x1
…
…
xin
xn
w1(i+1)=w1(i)+∆w1
w1
U
wn
Y
yiactual
wn(i+1)=wn(i)+∆wn
∆w1=α ⋅ xi1 ⋅ e(i)
e(i)= yi- yiactual
∆wn=α ⋅ xin ⋅ e(i)
Aprendizaje de perceptrónes
Análisis de situaciones:
• Caso 1: yi = yiactual (ambos tienen o valor 0 o valor 1)
– e(i)= yi- yiactual=0
– ∆wj=α ⋅ xij ⋅ e(i)=α ⋅ xij ⋅ 0 = 0
– no se modifican los pesos wj(i+1) = wj(i)
Ejemplo: (Xi,yi)= ((0,1,1),0)
x1=0
√
1
0,5
x2=1
0,2
x3=1
0,2
n

1, si ∑ wi xi > U
Y =
=0
i =1
0, en caso contrario

Aprendizaje de perceptrónes
Análisis de situaciones:
• Caso 2: yi = 1 e yiactual=0 (clasificado como negativo cuando debe ser positivo)
–
–
–
–
e(i)= yi- yiactual=1
∆wj=α ⋅ xij ⋅ e(i)=α ⋅ xij
se aumentan los pesos de entradas activas: si xij=1 entonces wj(i+1) = wj(i)+ α
aumentando los pesos de las entradas positivas se aumenta la posibilidad de que la
salida sea positiva
– no se modifican los pesos de entradas negativas (si xij=0 entonces wj(i+1) = wj(i))
Ejemplo: (Xi,yi)= ((0,1,1),1) con α=0,1
x1=0
1
0,5
x2=1
0,2
x3=1
0,2
y=0
×
x1=0
1
x2=1
0,3
x3=1
0,3
y=1
0,5
√
Aprendizaje de perceptrónes
Análisis de situaciones:
• Caso 3: yi = 0 e yiactual=1 (clasificado como positivo cuando debe ser negativo)
–
–
–
–
–
e(i)= yi- yiactual=-1
∆wj=α ⋅ xij ⋅ e(i)=-α ⋅ xij
se disminuyen los pesos de entradas activas: si xij=1 entonces wj(i+1) = wj(i)- α
no se modifican los pesos de entradas negativas (si xij=0 entonces wj(i+1) = wj(i))
disminuyendo los pesos de las entradas positivas se aumenta la posibilidad de que
la salida sea negativa
Ejemplo: (Xi,yi)= ((0,1,1),0) con α=0,1
x1=0
1
0,5
x2=1
0,4
x3=1
0,4
y=1
×
x1=0
y=1
1
0,5
x2=1
0,3
x3=1
0,3
×
Aprendizaje de perceptrónes
Algoritmo de aprendizaje:
1. Inizializacion: Fijar los pesos iniciales w1,…, wn y el umbral U aleatoriamente
en el rango [−0.5, 0.5].
2. Dado el ejemplo de entrenamiento ((xi1,xi2,…,xin),yi) realiza los pasos:
1.
2.
3.
4.
Clasificar el ejemplo (xi1,xi2,…,xin)
Calcular el error e(i)= yi-yiactual
Calcular la corrección de pesos con la regla delta ∆wj=α ⋅ xij ⋅ e(i)
Actualizar los pesos wj(i+1) = wj(i) + ∆wj
3. Repite el paso 2 con el siguiente ejemplo hasta que el algoritmo converge
Un criterio de convergencia habitual:
• el número de errores entre los últimos n ejemplos es menor que un determinado
umbral
Ejercicio
Aprendizaje de un perceptrón:
Realiza el aprendizaje de un perceptrón con tres entradas y una salida (vea el
dibujo) y con los siguientes ejemplos de entrenamiento:
{((0,1,0),1),((1,0,0),0), ((1,1,0),1),((0,0,1),0)}
Supón que los pesos y el umbral están inicializados a 0,2 y que el parámetro α
tiene el valor 0,3.
x1
0,2
0,2
x2
0,2
x3
0,2
y
Análisis perceptrón
•
El objetivo del perceptron es clasificar entradas, (x1, . . ., xn), en dos clases,
por ejemplo A1 y A2.
•
La clasificación se realiza según la siguiente regla de decisión:
n
Si ∑ xi wi − U > 0 entonces devuelve A1.
i =1
•
En realidad, el perceptrón divide el espacio n-dimensional de entradas en
dos regiones.
•
La división viene dada por el hiperplano definido por:
n
∑w x
j =1
j
j
−U = 0
Análisis perceptrón
•
En dos dimensiones:
En tres dimensiones:
x1
x1
Región A1
x3
1
1
Región A2
0
Región A2
1
x2
Región A1
1
0
1
x2
hiperplano
hiperplano
•
•
•
El hiperplano es un separador lineal
Hay clases que no se pueden separar con
separadores lineales
Ejemplo: XOR (inténtelo en un
ejercicio)
x1
??
1
0
1
x2
Redes perceptones de una capa: comentarios
• Buenos para problemas sencillos
• Como red neuronal, bueno cuando las entradas y salidas son
subsimbolicas
–
–
–
–
–
entradas y salidas binarias
no existen atributos claramente diferenciados y identificados
Ejemplos: reconocimiento de patrones
Es capaz de tratar ruido
Apto para aprender funciones aparentemente independientes de los valores
concretos de los atributos (p.e.: función mayoría)
• Problemas:
– No puede representar cualquier función lógica (XOR)
– No funciona con atributos de “alto nivel” (requiere la traducción de los
casos a valores binarios)
Redes neuronales para clases no linealmente
separables
Redes multicapa:
x1
x2
…
x3
Capa de salida
x4
una o varias capas ocultas
Entradas
Pesos
•
el funcionamiento de cada neurona es igual que en el caso de la red de una
capa
Representabilidad de funciones con redes
multicapa
• Ejemplo: XOR
a1
x1
-1
-0,5
1
-1
-1,5
y
-1
x2
-0,5
1
a2
-1
x1
x2
a1
a2
y
0
0
1
1
0
0
1
0
1
1
1
0
1
0
1
1
1
1
1
0
• Teorema:
Con una única capa oculta (suficientemente grande) es posible representar
cualquier función continua de las entradas con una precisión arbitraria.
Aprendizaje en redes multicapa
• Idea:
– Igual que en el caso del perceptrón simple: ajustar pesos para minimizar el
error (diferencias entre salidas actuales y deseadas)
• Pero:
– Hay varias salidas posibles
– Se saben los errores de la capa de salida, pero no los errores de las capas
ocultas (no sabemos que valor han de tomar los nodos ocultos)
w1,1,1
x1
…
O1
w1,1,k
…w2,k,1
w1,n,1
xn
w2,1,1
Ok
w1,n,k
S1
y1
…
w2,1,j
Sj
yj
w2,k,j
– Solución: propagación hacia atrás del error
Aprendizaje en redes multicapa
• Pasos (con una capa oculta):
– Para la capa de salida (w2,r,s):
• Calcular el error para cada salida: e2,s=ys – ys_actual
• Actualizar los pesos: w2,r,s ←w2,r,s+ α ⋅ Or ⋅ e2,s
(Or es la salida de la neurona oculta Or)
– Para la capa oculta (w1,r,s):
• Propagar el error hacia atrás: e =
1, s
• Actualizar los pesos: w1,r,s
x1
…
xn
w1,1,1
w1,1,k
w1,n,1
O1
w1,n,k
j =1
e
2, s , j 2, j
←w1,r,s+ α ⋅ xr ⋅ e1,s
w2,1,1
…w2,k,1
Ok
n
∑w
S1
…
w2,1,j
Sj
w2,k,j
y1
yj
Cada nodo oculto es
“responsable” de una
fracción de los errores
cometidos por los nodos de
salida.
Redes multi-capa: resumen
• Teorema:
Con una única capa oculta (suficientemente grande) es posible representar
cualquier función continua de las entradas con una precisión arbitraria.
• Problema:
– no se sabe la estructura (de la red) óptima para cada problema
– Idea: aprender la estructura y los pesos
• Sólo hemos visto redes muy simples.
– Existen otros enfoques para:
• la propagación de los errores
• el ajuste de los pesos
• En general son útiles para tareas donde no se dispone de atributos
claramente identificados (p.e. reconocimiento escritura)
Descargar