UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO CENTRO UNIVERSITARIO UAEM ATLACOMULCO REPORTE DE INVESTIGACION DANIEL STEVEN CARDENAS ALVA OSCAR VELAZQUEZ LONGINOS ROGELIO VALDEZ SANCHEZ Página 1 de 6 RESUMEN Las redes neuronales pueden contribuir con la clasificación de patrones de entrada, para obtener una salida que sea factible y deseada, existen varios tipos de redes neuronales, un ejemplo de ello pueden ser el perceptron, la red adaline, red madaline entre otros, teniendo en cuenta que su proceso de aprendizaje puede variar dependiendo de cómo puede aprender la red, en esta investigación se hablara de una red backpropagation o red de propagación hacia atrás, y su funcionamiento con y sin la presencia de una variable de aceleramiento del aprendizaje, el momento puede ser de gran ayuda para dar una estabilidad y evitar los mínimos locales en el que puede caer la red. Además de encontrar como aplicar esta variable a la función de aprendizaje de la red. INTRODUCCION El método backpropagation (propagación del error hacia atrás), basado en la generalización de la regla delta, a pesar de sus limitaciones, ha ampliado de forma considerable el rango de aplicaciones de las redes neuronales. El funcionamiento de la red backpropagation (BPN) consiste en el aprendizaje de un conjunto predefinido de pares de entradas-salidas. Primero se aplica un patrón de entrada como estímulo para la primera capa de las neuronas de la red, se va propagando a través de todas las capas superiores hasta generar una salida, se compara el resultado en las neuronas de salida con la salida que se desea obtener y se calcula un valor de error para cada neurona de salida. Posteriormente, estos errores se transmiten hacia atrás, partiendo de la capa de salida hacia todas las neuronas de la capa intermedia que contribuyan directamente a la salida. Este proceso se repite, capa por capa, hasta que todas las neuronas de la red hayan recibido un error que describa su aportación relativa al error total. Basándose en el valor del error recibido, se reajustan los pesos de conexión de cada neurona, de manera que en la siguiente vez que se presente el mismo patrón, la salida esté más cercana a la deseada. La importancia de la red backpropagation consiste en su capacidad de autoadaptar los pesos de las neuronas de las capas intermedias para aprender la relación que existe ente un conjunto de patrones de entrada y sus salidas correspondientes. En una red Backpropagation existe una capa de entrada con n neuronas y una capa de salida con m neuronas y al menos una capa oculta de neuronas internas. Cada neurona de una capa (excepto las de entrada) recibe entradas de todas las neuronas de la capa anterior y envía su salida a todas las neuronas de la capa posterior (excepto las de salida). No hay conexiones hacia atrás feedback ni laterales entre las neuronas de la misma capa. La técnica Backpropagation requiere el uso de neuronas cuya función de activación sea continua, y por lo tanto, diferenciable. Generalmente, la función utilizada será del tipo sigmoidal. Página 2 de 6 Momento El elegir un incremento adecuado influye en la velocidad con la que converge el algoritmo, se sabe que con este control se puede realizar mediante el parámetro denominado ganancia, normalmente se le asigna un valor pequeño, para asegurar que la red llegue asentarse en una solución. [1] Esta variante añade un término que controla la velocidad de acercamiento al mínimo, acelerándola cuando se está lejos del mínimo y deteniéndola cuando se está cerca (influye en la velocidad del aprendizaje) y está dado por la expresión: El cambio en el peso es proporcional al gradiente del error, siendo α (tasa de aprendizaje) la constante de proporcionalidad – Si α es grande, el error puede oscilar alrededor del mínimo – Si α es pequeña, la convergencia de más lenta Donde es el incremento que sufrió el parámetro w en la Iteración anterior y n es un numero positivo que controla la importancia dada al Incremento anterior y se denomina momento. Aplicación la regla de obtiene: se Este método trata de ser más estable ya que si la derivada parcial del error respecto al peso tiene el mismo signo en iteraciones consecutivas, la utilización del momento procura un cambio mayor en el peso, acelerando así la convergencia del algoritmo, presenta problemas en proximidades del mínimo. [2] Las mayores tasas de convergencia suelen lograrse para valores grandes tanto de h (siempre que el aumento en dicho valor no produzca inestabilidades) como el momento m. La elección de los pesos iniciales es también importante, ya que la función de error para el PMC puede tener varios mínimos locales, y el punto final de convergencia depende de las condiciones iniciales. Típicamente, dicho problema se resuelve aplicando el algoritmo de retro propagaciones varias veces con diferentes pesos iniciales hasta que se encuentra una solución adecuada. Página 3 de 6 Gradiente descendiente con momento El momento permite a la red responder no solo al gradiente local sino también a las tendencias más recientes en la superficie de error. Actuando como un filtro pasa bajos el omento permite a la red ignorar las pequeñas imperfecciones de la superficie de error [3], sin un momento la red puede atascarse en un mínimo local impidiendo su labor. El momento puede añadirse al aprendizaje con retro propagación realizando cambios en los pesos iguales a la suma de la fracción del último cambio de pesos y el nuevo cambio sugerido por la regla de retro propagación. La magnitud del efecto que último cambio de pesos permite tener es mediada por una constante de momento, mc, que puede ser cualquier número entre 0 y 1. Cuando la constante de momento es 0, el cambio de pesos es basado únicamente en la gradiente. Cuando la constante de momento es 0, el nuevo cambio de pesos se iguala al último cambio de pesos y el gradiente se ignora simplemente. Después de calcular todos los valores de delta de ponderación y sesgo, se puede actualizar cada ponderación y sesgo, al sumar el valor de delta asociado. Pero se ha demostrado que, con ciertos conjuntos de datos, el algoritmo de propagación inversa puede oscilar y pasar de largo y quedar corto repetidas veces del valor esperado, sin converger jamás en un conjunto final de valores de ponderación y sesgo. Una técnica para reducir esta tendencia consiste en agregar a cada ponderación y sesgo nuevo un término adicional llamado momento. El momento de una ponderación (o sesgo) es simplemente un valor pequeño (como 0,4 en el programa de demostración), multiplicado por el valor del último delta de la ponderación. [5] Página 4 de 6 FORMULA DEL PROCESO DE APRENDIZAJE CON MOMENTO CONCLUSION Para un red neuronal backpropagation, un problema son los mínimos locales, puesto que cuando se obtienen los máximos y mínimos, más en este último hay un error en donde la red neuronal termina las iteraciones, sin saber que aún hay más datos, la red se vuelve inestable y los datos no son los deseados, para evitar este problema se agrega una nueva variable en la ecuación a la función de transferencia que es el momento, es muy similar al de la taza de aprendizaje pero en cambio esta lo que hace es mostrar los mínimos de la red neuronal, Contrarresta las posibles inestabilidades que se crean en la variación de los pesos, y es importante porque reduce la posibilidad de caer en un mínimo local, además puede acelerar enormemente el proceso de aprendizaje. Página 5 de 6 BIBLIOGRAFIA [1] Freeman“Tema 4: Perceptron Multicapa”Sistemas Conexionistas 1 Pagina 14. [2] “algoritmos de apredizaje en retropropagacion para perceptron multicapa” FTP:http://es.scrib.com/doc/98659734/Algoritmos-de-Aprendizaje-enRetropropagacion-para-Perceptron-Multicapa [3] J.A.J. “Apuntes de inteligencia artificial”, “Tesis” pontificia universidad católica del ecuador, facultad de ingeniería Pagina 9 [5] James McCaffrey “Propagacion inversa en redes neuronales para programadores” “Publicacion” FTP:http:// http://msdn.microsoft.com/eses/magazine/jj658979.aspx Página 6 de 6