Aprendizaje: Perceptrón multi-capa

Anuncio
Técnicas de inteligencia artificial
Asignatura troncal: 4.5cr , 4ºCurso Ing Inf
Aprendizaje:
Perceptrón multi-capa
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 1
Indice
ƒ Regla delta
¾ Modelo computacional
¾ Neuronas e hiperplanos
¾ Entrenamiento como ajuste supervisado
¾ No-separabilidad lineal
ƒ ‘Backpropagation’
¾ Perceptrones multi-capa
¾ Funciones de activación derivables
¾ ‘Backpropagation’: explicación heurística
¾ ‘Backpropagation’: derivación matemática
¾ Aplicaciones y consideraciones prácticas
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 2
1
Indice
ƒ Regla delta
¾ Modelo computacional
¾ Neuronas e hiperplanos
¾ Entrenamiento como ajuste supervisado
¾ No-separabilidad lineal
ƒ ‘Backpropagation’
¾ Perceptrones multi-capa
¾ Funciones de activación derivables
¾ ‘Backpropagation’: explicación heurística
¾ ‘Backpropagation’: derivación matemática
¾ Aplicaciones y consideraciones prácticas
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 3
Bibliografía
ƒ Escolano et al. Inteligencia Artificial. ThomsonParaninfo 2003. Capítulo 4.
ƒ Mitchell, Machine Learning. McGraw Hill,
Computer Science Series. 1997
ƒ Reed, Marks, Neural Smithing. MIT Press, CA
Mass 1999
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 4
2
Modelo computacional
ƒ
Neurona biológica:
1.
2.
Entradas: dendritas.
Integración: en el soma. Dispositivos
“todo-o-nada” (solo se dispara salida
si las entradas superan un nivel
(umbral)
Salidas: el axón transporta la señal de
salida a otras neuronas. Conecta con
sus dendritas a través de sinapsis.
3.
ƒ
Neurona computacional:
1.
2.
Entradas: Números reales.
Integración: suma ponderada (net)
por los pesos sinápticos seguida de
una función de activación f(net)
Salida: resultado y=f(net)
3.
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 5
Neuronas e hiperplanos
ƒ
Función de activación
“umbral”:
ƒ
Interpretación geométrica:
Considerando que el umbral
es un peso más con entrada
fija de -1, la neurona define
un hiperplano de forma que
los ejemplos etiquetados con
y=1 caen al lado positivo y los
etiquetados con y=0 al lado
negativo:
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 6
3
Entrenamiento
ƒ
ƒ
Ajuste de hiperplanos: Dados
dos conjuntos de ejemplos
correspondientes a dos clases,
buscaremos su separación por
un hiperplano
Regla delta:
¾ Permite ajustar iterativamente
el hiperplano.
¾ Se asume que el incremento de
los pesos es proporcional a la
disparidad entre la salida
observada y la salida deseada.
¾ Dicha proporcionalidad viene
modulada por la constante de
aprendizaje:
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 7
No-separabilidad lineal
ƒ
Única neurona:
¾ Existen situaciones en donde
un único hiperplano no puede
separar los datos.
¾ P.e. cuando la frontera de
decisión es curva.
ƒ
Problemas de paridad:
¾ Suponiendo entradas binarias
(secuencias de 0s y 1s), la
neurona debería etiquetar con
1 aquellas secuencias con un
número impar de 1s y con 0
aquellas con un número par.
¾ Ej: Problema de la XOR.
¾ Para resolver estos problemas
es preciso incorporar una capa
adicional de neuronas.
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 8
4
Indice
ƒ Regla delta
¾ Modelo computacional
¾ Neuronas e hiperplanos
¾ Entrenamiento como ajuste supervisado
¾ No-separabilidad lineal
ƒ ‘Backpropagation’
¾ Perceptrones multi-capa
¾ Funciones de activación derivables
¾ ‘Backpropagation’: explicación heurística
¾ ‘Backpropagation’: derivación matemática
¾ Aplicaciones y consideraciones prácticas
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 9
Perceptrones multi-capa
ƒ
Estructura y capacidad:
¾ La capa adicional se denomina
capa oculta.
¾ Se demuestra que un
perceptrón con dos capas
ocultas puede aproximar
cualquier función.
ƒ
Interpretación geométrica:
¾ Problemas con regiones de
decisión más complejas exigen
distintas estrategias de
separación.
¾ Dichas estrategias las
proporcionan las capas ocultas.
¾ En la época en que se
desarrolló esta teoría no existía
un algoritmo práctico que
permitiese encontrar los pesos
asociados a todas y cada una de
las neuronas.
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 10
5
Funciones de activación derivables
ƒ Para aplicar el algoritmo de entrenamiento multicapa es
necesario que la función de activación sea derivable
ƒ Buscamos funciones derivables con forma similar al escalón
del perceptrón de una sola capa
Sigmoide
Derivada
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 11
Backpropagation: explicación heurística
ƒ Supongamos que al clasificar un ejemplo una neurona de la última capa
tiene una salida yk, siendo la deseada dk
ƒ Dicha neurona es responsable de un error
ƒ La regla de actualización de los pesos de la última capa será similar a la
regla delta ya vista
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 12
6
Error (delta) en capas intermedias
ƒ Una neurona de una capa
intermedia contribuye en
los δ de las de la capa
siguiente
ƒ Por tanto, para calcular su
δ necesitamos estos
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 13
Backpropagation: algoritmo
ƒ Se aplica para cada
ejemplo del conj. de
entrenamiento. Se itera
hasta que el error baje de
un umbral
ƒ Fases:
¾ Hacia delante: cálculo de la
salida de la red (los yk).
Cálculo de los δ en la última
capa
¾ Hacia atrás. Cálculo de los δ
de la capa en función de los
de la siguiente
¾ Finalmente, actualización de
los pesos de todas las capas
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 14
7
Backpropagation: derivación matemática
ƒ El algoritmo es un descenso por
gradiente (de ahí que
necesitemos una función de
activación derivable)
ƒ Minimización del error que se
produce al clasificar un ejemplo
(encontrar los wi óptimos). Dicho
error se puede formular como
ƒ Habrá que modificar los wi en la
dirección opuesta al gradiente,
esto es
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 15
Derivación backpropagation: última capa
ƒ Para un peso wjk de la última capa (aplicando la regla de la
cadena, ya que E depende de netk que a su vez depende de
wjk)
ƒ Escribiendo
como δ, tenemos una fórmula equiv. a la
regla delta del perceptrón de 1 capa:
ƒ Para calcular δk, aplicamos de nuevo la regla de la cadena
(netk → yk → E)
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 16
8
Derivación backpropagation: capas anteriores
ƒ Para un peso wij de una capa anterior, el razonamiento
inicial es el mismo que antes y nos lleva a
ƒ Aplicando la regla de la cadena para calcular δ
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 17
Convergencia de backpropagation
ƒ Ajuste de la constante η
¾ Valores muy pequeños: convergencia lenta
¾ Valores grandes: riesgo de overshooting (saltarnos el
mínimo)
ƒ Momento: en el cambio actual influye una fracción del
anterior. Mejora la convergencia evitando oscilaciones
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 18
9
Ejemplo de convergencia
Error cuadrático medio
Prob. de convergencia
ƒ Problema del XOR
η
iteraciones
© 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla
Perceptrón 19
10
Descargar