UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO CENTRO UNIVERSITARIO UAEM ATLACOMULCO REPORTE DE INVESTIGACION SESGO DANIEL STEVEN CARDENAS ALVA OSCAR VELAZQUEZ LONGINOS ROGELIO VALDEZ SANCHEZ REDES NEURONALES Página 1 de 7 Resumen El funcionamiento de la red consiste en un aprendizaje de un conjunto predefinido de pares de entradas-salidas dados como ejemplo, empleando un ciclo propagación-adaptación de dos fases: Se aplica un patrón de entrada como estímulo para la primera capa de las neuronas de la red, se va propagando a través de todas las capas superiores hasta generar una salida, se compara el resultado obtenido en las neuronas de salida con la salida que se desea obtener y se calcula un valor del error para cada neurona de salida. Estos errores se transmiten hacia atrás, partiendo de la capa de salida, hacia todas las neuronas de la capa intermedia que contribuyan directamente a la salida, recibiendo el porcentaje de error aproximado a la participación de la neurona intermedia en la salida original. Este proceso se repite, capa por capa, hasta que todas las neuronas de la red hayan recibido un error que describa su aportación relativa al error total. Basándose en el valor del error recibido, se reajustan los pesos de conexión de cada neurona, de manera que en la siguiente vez que se presente el mismo patrón, la salida esté más cercana a la deseada, es decir, que el error disminuya. El sesgo tiene la función de hacer que el resultado varié , que este mismo comience a acercarse más a cualquiera de los patrones de entrada que se necesiten separar hablamos de el sego comola varianza en cada red neuronal, este mismo provocara que la línea que grafica el resultado sea elevada conforme a los valores del vías haciendo el deslizamiento de esta misma sobre el eje de las “y´s”,o moviéndose por cada uno de los cuadrantes dados los valores de las ordenadas que el resultado maneje,un nombre con el cual es mas conocido es por el bias este mismo desempeñando un rol principal dentro de una red neuronal logrando este efecto en la salida asi como colaborando para que este resultado sea favorable. Página 2 de 7 INTRODUCCIÓN La regla de aprendizaje del Perceptrón de Rosenblatt y el algoritmo LMS de Widrow y Hoff fueron diseñados para entrenar redes de una sola capa. Estas redes tienen la desventaja que solo pueden resolver problemas linealmente separables, fue esto lo que llevo al surgimiento de las redes multicapa para sobrepasar esta dificultad en las redes hasta entonces conocidas. El primer algoritmo de entrenamiento para redes multicapa fue desarrollado por Paul Werbos en 1974, este se desarrolló en un contexto general, para cualquier tipo de redes, siendo las redes neuronales una aplicación especial, razón por la cual el algoritmo no fue aceptado dentro de la comunidad de desarrolladores de redes neuronales. Fue solo hasta mediados de los años 80 cuando el algoritmo Backpropagation o algoritmo de propagación inversa fue redescubierto al mismo tiempo por varios investigadores, David Rumelhart, Geoffrey Hinton y Ronal Williams, David Parker y Yann Le Cun. El algoritmo se popularizó cuando fue incluido en el libro "Parallel Distributed Processing Group" por los psicólogos David Rumelhart y James McClelland. La publicación de este libro trajo consigo un auge en las investigaciones con redes neuronales, siendo la Backpropagation una de las redes más ampliamente empleadas, aun en nuestros días. El análisis sesgo-varianza es una herramienta fundamental para comprender el comportamiento de cualquier algoritmo de estimación. Dicho análisis resulta una técnica natural en el problema de regresión con pérdida cuadrática debido a las propiedades de esta pérdida. En relación con el problema de clasificación con pérdida 0-1, se han propuesto diferentes descomposiciones del error de predicción tratando de emular la descomposición sesgo-varianza del problema de regresión mínimo cuadrática. Sin embargo, sólo recientemente ha surgido una propuesta unificadora inspirada en la filosofía utilizada por la descomposición tradicional. Página 3 de 7 SESGO: El algoritmo Backpropagation emplea un ciclo propagación – adaptación de dos fases. Una vez que se ha aplicado un patrón a la entrada de la red como estímulo, este se propaga desde la primera capa a través de las capas superiores de la red, hasta generar una salida. La señal de salida se compara con la salida deseada y se calcula una señal de error para cada una de las salidas. Las salidas de error se propagan hacia atrás, partiendo de la capa de salida, hacia todas las neuronas de la capa oculta que contribuyen directamente a la salida. Sin embargo las neuronas de la capa oculta solo reciben una fracción de la señal total del error, basándose aproximadamente en la contribución relativa que haya aportado cada neurona a la salida original. Este proceso se repite, capa por capa, hasta que todas las neuronas de la red hayan recibido una señal de error que describa su contribución relativa al error total. Basándose en la señal de error percibida, se actualizan los pesos de conexión de cada neurona, para hacer que la red converja hacia un estado que permita clasificar correctamente todos los patrones de entrenamiento. La importancia de este proceso consiste en que, a medida que se entrena la red, las neuronas de las capas intermedias se organizan a sí mismas de tal modo que las distintas neuronas aprenden a reconocer distintas características del espacio total de entrada. Después del entrenamiento, cuando se les presente un patrón arbitrario de entrada que contenga ruido o que esté incompleto, las neuronas de la capa oculta de la red responderán con una salida activa si la nueva entrada contiene un patrón que se asemeje a aquella característica que las neuronas individuales hayan aprendido a reconocer durante su entrenamiento. Y a la inversa, las unidades de las capas ocultas tienen una tendencia a inhibir su salida si el patrón de entrada no contiene la característica para reconocer, para la cual han sido entrenadas, el sesgo para una backpropagation se denota conforme a los siguientes pasos: Sea el problema de clasificación con dos clases con codificación Y = {−1, 1} y con pérdida 0-1, (y, g(x)) = 1{y6=g(x)} y riesgo R(g(x)) = EY/x[(Y/x, g(x))], en el cuál, la predicción óptima viene dada por la regla de Bayes: g(x) = arg inf g(x){R(g(x)) = EY/x[(Y/x, g(x))]} TEOREMA 1: En el problema de clasificación anterior, si D es un conjunto de muestras aleatorias de entrenamiento obtenidas de la distribución PX,Y, y ˆgn es el estimador obtenido a partir de una muestra aleatoria Zn = (Z1, ..., Zn), con Zi = (Xi,Yi), i = 1 : n, se verifica la siguiente descomposición de la esperanza del error Página 4 de 7 de predicción: MPE(ˆgn(x)) = EZn,Y/x[(Y/x, ˆgn(x))] = c1σ2(Y/x) + Sesgo(ˆgn(x)) + c2 Var(ˆgn(x)) (1) donde: c1 = c1(x) = 2PZn[ˆgn(x) = g(x)] − 1 c2 = c2(x) =½+1 si ˆg D (x) = g(x) −1 en otro caso son constantes dependientes de x (y también del algoritmo), y: Sesgo (ˆgn(x)).=(g(x), ˆg D(x)) Var(ˆgn(x)) .=EZn [(ˆg D(x), ˆgn(x)] σ2(Y/x).=EY/x[(Y/x, g(x))] donde ˆg D es la predicción principal en D definida como: ˆg D (x)= argming(x) EZn [(g(x), ˆgn(x))] que, en el problema de clasificación, es la moda de las predicciones de las hipótesis entrenadas con muestras de D. Análogamente, puede definirse: ME (ˆgn(x)) = Sesgo (ˆgn(x)) + c2 Var(ˆgn(x)) (3) y su correspondiente valor medio (análogamente para MPE): ME (ˆgn) = EX [ME(ˆgn(X))] = EX[Sesgo(ˆgn(X))] + EX[c2(X)Var(ˆgn(X))] (4) A diferencia de la descomposición en regresión, el término de varianza, puede resultar negativo debido a que c2(x) = −1 en los puntos donde existe sesgo: Sesgo (ˆgn(x)) =(g(x), ˆg D(x)) = 1. Ello significa que en estos puntos, cuanto más varianza menor error de generalización. Claramente, esto no ocurre en el caso de regresión con pérdida cuadrática. Por otra parte, es peculiar el término del ruido, pero su expresión sigue rigurosamente el paralelismo con la descomposición con pérdida cuadrática, [Domingos, 2000]. Para la regla de Bayes, su valor resulta intuitivo al ser el riesgo de Bayes en x: c1(x)EY/x[(Y/x, g(x))] = (2PZn [g(x) = g(x)] − 1)EY/x[(Y/x, g(x))] = EY/x[(Y/x, g(x))] Sin embargo, para cualquier otro algoritmo entrenado con muestras de D, dicho valor resulta menor que dicho riesgo si PZn[ˆgn(x) = g(x)] < 1 e, incluso negativo, si PZn[ˆgn(x) = g(x)] < 0.5 con lo que, además, depende del algoritmo utilizado. Así, si el estimador está lejos de ser óptimo, cuanto mayor ruido, mejor es su comportamiento. Página 5 de 7 [Domingos, 2000] estudia el comportamiento de su propuesta de descomposición con árboles de regresión (regression trees) y con clasificadores k-nearest neighbors, y anima a estudiar dicho comportamiento con otros estimadores. ANEXOS: Las siguientes graficas muestran los resultados que arroja el calculo de la varianza en cada una de las iteraciones de una red neuronal observando cada uno de los desplazamientos que realiza dicho sesgo: Página 6 de 7 CONCLUCIONES: El desplazamiento de una salida en forma de representación gráfica, el bias será el encargado en marcar este intervalo de desplazamiento en el espacio en donde estén ubicados los patrones, ubicándose conforme cada iteración lo marque y dependiendo de la salida de los pesos, este sesgo juega un papel muy importante ya que será el encargado en darle un patrón de entrada más en la red backpropagation y en cualquier red de manera general haciendo que el resultado cuente con una separabilidad donde l RNA tiene que arrojar su principal punto inicial, esta investigación ayudará a comprender mejor las salidas en las presentes redes neuronales que se han ido programando. Las variaciones del número de iteraciones será en parte marcada por el cálculo de la varianza en cada una de estas mismas, para realizar una codificación entorno a los errores y así disminuirlos ya que en cada iteración arroja un valor cuadrático el cual es necesario el decremento conforme la red lo requiera. REFERENCIAS [1] Chen, S., Billings, S. A., Luo. W. (1989). “Backpropagation". Int. J. Control,pp 1114. [2] Domingos, P. (2000). " Bias-Varianza su Descomposición y sus Aplicaciones". Morgan Kauffman, pp 231-238. Página 7 de 7