V JORNADAS ASEPUMA APLICACIONES DE REDES NEURONALES EN ECONOMÍA Aragón Torre, Alberto1 Calzada Arroyo, J.María García Güemes, Alfredo Pacheco Bonrostro, Joaquín Resumen La metodología de las Redes Neuronales Artificiales, está siendo usada con profusión, dentro del campo de la Economía, hasta tal punto que existe una publicación bimensual, que trata específicamente estas aplicaciones a los mercados financieros: Neurove$t Journal. En este trabajo, se presentan las principales líneas de investigación existentes, a continuación la que nosotros estamos siguiendo, con algunos resultados iniciales, para finalizar con las líneas a seguir y una selección bibliográfica. 1. PRINCIPALES LINEAS DE INVESTIGACIÓN EN LA LITERATURA Las Redes Neuronales se están utilizando, tanto de forma individual, como unidas a otros métodos2 en múltiples campos, como pueden ser la Ingeniería, Física, Biología, … Sin pretender, por motivos obvios, hacer un survey de las aplicaciones de las Redes Neuronales dentro del campo económico, sino solo un breve resumen, decir que se están utilizando fundamentalmente en una doble dirección: predicción y clasificación, siendo respectivamente el perceptrón multicapa y los mapas auto-organizativos, los tipos de Redes más utilizadas para estos propósitos. Comenzando con las cuestiones relativas a los problemas de predicción de magnitudes económicas, casi todos los trabajos, se centran en los mercados financieros: tipos de interés, tipos de cambio, índices bursátiles de distintos países,.. Creemos que existen al menos tres motivos, por los cuales, se están utilizando estos modelos frente a otro tipo de metodologías como pueden ser los modelos ARIMA. 1 2 Universidad de Burgos. Fundamentalmente: lógica borrosa, algoritmos genéticos y temple simulado. 1 García Güemes, A. y otros El primer motivo surge del hecho de que en las primeras simulaciones efectuadas, la metodología de las Redes se mostraba superior a las series temporales clásicas, cuando estas series no tenían un fuerte componente estacionario; se pensó que eso mismo podría ocurrir con los mercados financieros. Así mismo, las Redes Neuronales permiten trabajar en principio más cómodamente con modelos multiperiodo y multivariable , sin tener que preocuparse de problemas como la multicolinealidad , ni tener la necesidad de especificar previamente el tipo de relación funcional entre variables. Para terminar, en los modelos de Redes se pueden introducir fácilmente indicadores tanto chartistas como fundamentales. En definitiva, se ha recurrido a las Redes Neuronales, ante el fracaso del análisis clásico de las series temporales para este tipo de predicciones. También indicar que no se han obtenido buenos resultados en las predicciones a corto plazo en mercados financieros, ni parece muy posible que se logre. Además de lograrse, dudo mucho que el autor lo publique, en lugar de utilizar sus resultados para hacerse rico. Mejores resultados, se han obtenido en la predicción de quiebra de empresas, en este caso utilizando tanto la red de propagación hacia atrás, como mapas autoorganizativos. En nuestro país, además de trabajos relativos a predicción en mercados financieros, se han utilizado las Redes Neuronales, en predicción de precios, demanda de turismo, predicción del paro… En cuanto a los problemas de clasificación, las Redes representan una alternativa al análisis Cluster, y se utilizan fundamentalmente los mapas autoorganizativos. El caso más interesante que hemos visto para un caso español, es una organización de todos los bancos, de forma que se pudo prever la quiebra de alguno de ellos. 2. UNOS RESULTADOS PREVIOS Desde hace un par de años, venimos trabajando en la Metodología de las Redes Neuronales, y como suele ser habitual, para utilizarlas en la predicción dentro del mercado financiero, en concreto en el IBEX-35, comenzando con predicciones a muy corto plazo, concretamente a un día. Los resultados obtenidos, en principio parecían esperanzadores, sin embargo al hacer simulaciones considerando los costes de intermediación, se comprobó la imposibilidad de intervenir en el mercado a tan corto plazo. Además existe una variable que no fué considerada y que posiblemente es la más importante: la evolución de la bolsa de N.Y. durante los primeros 10 minutos. 2 V JORNADAS ASEPUMA Usamos en un principio dos arquitecturas distintas: la clásica en este tipo de estudios, como es el preceptrón multicapa y una máquina de Boltzmann de entrada y salida. Con esta última arquitectura, se pretendía, en virtud de la salida de un vector de componentes dicotómicas, predecir señales de compra y de venta. La proporción de aciertos en este caso, fué de algo más del 60%, sin embargo, nuevamente los costes de intermediación impiden entrar en el mercado. Volviendo a las bases de la metodología, se estudiaron dos cuestiones que resultaban importantes para nuestro estudio. Por una parte, comprobar si la utilización de diferentes funciones de transferencia, podían dar lugar a distintos resultados y en que sentido. Por otra, tratar de resolver la polémica acerca de las variables de entrada, en cuanto a su número y relación. En lo que respecta a las funciones de transferencia se llegó a la conclusión, que si la relación entre la entrada y la salida es lineal, o aproximadamente lineal, la función identidad tiene un mejor comportamiento, al utilizar un tiempo de computación menor, con un error cuadrático medio ligeramente más pequeño. Ahora bien, para todas las relaciones no lineales, entre las entradas y las salidas, el comportamiento de la sigmoide asimétrica resultó ser mejor. La función identidad terminaba el aprendizaje en mínimos locales peores que la sigmoide, utilizando un tiempo de computación incluso mayor. En cuanto al segundo punto, existe una polémica entre distintos autores, relativa a la multicolinealidad y en general a la relación entre los componentes de los vectores de entrada. Algunos indican que se pueden presentar graves problemas, en cuanto a tiempo de computación y memorización de la Red, además de la necesidad de disponer de series más largas; estos autores, propugnan reducir el número de variables de entrada, cuando se presenten estas circunstancias, bien eliminando directamente una de cada dos que presentes una elevada correlación, bien utilizando la técnica de Componentes Principales. Por su parte otros, creen que los problemas son de índole menor y que en cualquier caso, es mejor utilizar todas las variables disponibles, pues al no perderse información, si bien el tiempo de computación puede aumentar, el error cometido será más pequeño. Las pruebas que hemos realizado al respecto, indican que cuando existe multicolinealidad perfecta, como era de esperar, es mejor eliminar variables, al ser el tiempo de computación menor, para el mismo error cuadrático medio. En todos los demás casos, aún cuando se penalice el tiempo de computación en el aprendizaje, los resultados son mejores manteniendo todas las variables, tanto cuando las relaciones entre ellas son 3 García Güemes, A. y otros lineales como cuando no lo son. Bien es cierto, que las pruebas se han realizado simulando vectores de entrada y salida, con lo que se podían generar todos los que fueran precisos. En este sentido, creemos que si se dispone de un número pequeño de datos (en relación al número de variables explicativas), puede hacerse necesario eliminar alguna de ellas. Como quiera que se pueden introducir, tantas variables de entrada como se desee, siempre que se disponga del número de vectores de entrenamiento necesarios, y por otra parte, cuando las relaciones entre las entradas y las salidas son lineales, se muestra superior la función de transferencia identidad, hemos comenzado a utilizar Redes de Expansión, para aprovechar estas dos circunstancias. El funcionamiento de este tipo de redes, es el siguiente: A partir de las variables de entrada, se generan con ellas un importante número de funciones no lineales, de modo que los valores de estas funciones, sean a su vez valores de entrada en la Red. Esto hace que el número de nodos de entrada, aumente extraordinariamente. Sin embargo, si se han utilizado las funciones adecuadas, es muy posible, que exista prácticamente una combinación lineal, entre las entradas y las salidas. Si existe esa cuasi-combinación lineal, se puede eliminar la capa oculta de forma, que se pueden atenuar significativamente los problemas derivados de la memorización, o de la necesidad de disponer de un número muy elevado de vectores de aprendizaje. Gráficamente, la arquitectura de la red sería la siguiente: O1 OK 1 1 K L J FUNCTIONAL 1 M EXPANSION. I X1 OL N XI 4 XN V JORNADAS ASEPUMA 3. MIRANDO AL FUTURO PRÓXIMO En estos momentos, estamos trabajando en un proyecto subvencionado por la Junta de Castilla y León, con el título: Aplicaciones de las Redes Neuronales Artificiales en la Predicción del IBEX-35. Otras Aplicaciones: subIbex, Optimización de Rutas de Transporte y Predicción de Ventas. Por tanto, el trabajo fundamental se centrará en el estudio del IBEX-35 a corto plazo, ampliando los estudios disponibles hasta ahora, considerando más variables e introduciendo la variación de Dow-Jones durante los diez primeros minutos tras la apertura de N.Y., si bien no creemos que pueda intervenirse en el mercado, con los resultados que se obtengan. Por tal motivo, nos centraremos en el estudio de la evolución de la volatilidad, que al fin y al cabo es la principal variable en el mercado de derivados. (Hay autores que indican que lo que cotiza es la volatilidad). Para este estudio, habida cuenta de que disponemos de series muy largas de datos, utilizaremos una red de expansión, quizá sin capa oculta, en función del número de variables originales que se tomen. Consideremos I, variables originales. Si expandimos completamente la red con las funciones habituales3, y añadimos un nodo con entrada constante igual a 14, el número de nodos de entrada a la red será de: Tasa_de_reparto Nivel_de_inventario_farmacéutico Producción Ventas consumo_medio_enfermo tasa_real_consumo Productividad_empleado Diferencia inventario_deseado Empleados Contratación_despido tasa_de_gasto_ID demanda Gastos_en_ID N= TIEMPO_RETARDO tasa_mortandad_enfermedad infectados_por_contacto tiempo_de_incubación muertos_por_enfermedad incubados contagiados enfermos recuperados desarrollados tasa_de_contacto tasa_de_recuperación sanos población_total nacimientos tasa_de_nacimientos muertos tasa_mortandad_natural Para utilizar esta red, hay que ser extraordinariamente cuidadoso en las variables que se elijan, pues al aumentar su número, la red puede tener tantos nodos de entrada, que sea imposible realizar un aprendizaje. En concreto para 5 variables originales, el número de nodos de entrada debe de ser de 102. Más optimistas nos mostramos, con la utilización de la máquina de Boltzmann, la cual creemos que puede ofrecer señales de compra o de venta a medio plazo, con lo cual si los resultados son satisfactorios creemos que puede ser útil como una herramienta más para los analistas financieros. Indicar que no hemos encontrado ninguna referencia bibliográfica, utilizando esta red, en la predicción de alguna variable financiera. Otro trabajo previsto, es la obtención de un índice que replique al IBEX-35, con un pequeño número de valores, lo que facilitaría también el trabajo de gestión de una cartera individual. En efecto manejar 35 valores con sus proporciones correspondientes es 3 Las funciones que aparecen en la literatura, son el sen (xi), sen (2xi), sen (3xi), cos (xi), cos (2xi), cos (3xi), xi sen (xj), xi cos (xj), xi xj, xi xj xk,…, x1 x2… xI. 5 García Güemes, A. y otros bastante complejo para carteras personales, además de que los gastos de mantenimiento se elevan considerablemente. Para la obtención de este sub-IBEX, está previsto utilizar un mapa autoorganizativo, de forma que obtengamos distintos conjuntos de valores de comportamiento parecido. Una vez se disponga de estos conjuntos, su número indicará cuantos valores tienen que pertenecer al sub-Ibex y habrá que elegir un valor de cada grupo, en la proporción adecuada, con lo que el problema se simplificará considerablemente. Se pretende también aplicarlas en marketing, concretamente en el estudio de franquicias con capital español. Deseamos que se pueda conocer a priori, en función de las características de la franquicia, cuantos establecimientos deben de franquiciarse y cuantos deben de ser explotados directamente por la propia empresa. Para ello se dispone de 16 variables de las 221 empresas de franquicia existentes a finales de 1996, que dividimos en 14 de entrada y dos de salida. Dado que el aprendizaje puede ser supervisado, parece en principio que una red de propagación puede ser la adecuada. Como quiera que el establecimiento de franquicias, exige un tiempo, las dividiremos en función del número de años que lleva funcionando, de forma que pueda establecerse si es posible, el número de establecimientos que deben de explotarse en propiedad y cuantos en franquicia, para cada año. Para finalizar y aún cuando la metodología de las Redes Neuronales, no parece que esté ofreciendo resultados especialmente eficaces, en problemas de Optimización, es nuestra intención utilizarlas para optimizar rutas de transporte. 4. BIBLIOGRAFÍA 1. ABECASIS S.M. AND LAPENTA E.S.(1996).Nonstationary Time-Series Forecasting Withing a Neural Network Framework.. Neurove$t Journal. vol 4 nº 4. pp 9-16 2. ANTHONY M. Y BIGGS N.L. (1995). A computational learning theory view of economic forecasting whit neural networks. Ed. Refenes A.P. John Wiley & Sons. Chichester. 3. ARAGÓN TORRE, A. Y GARCÍA GÜEMES A. (1996). Prediction of the Ibex-35 index using neural network methodology. International Conference on intelligent Technologies. Proceeedings. vol. I pp. 444-449. 4. ARAGÓN TORRE A. Y GARCÍA GÜEMES A. (1997). El problema de la relación entre variables de entrada en las redes neuronales. XI Reunión Asepelt-España. Bilbao. 4 Se hará para considerar la posible existencia de un término independiente. 6 V JORNADAS ASEPUMA 5. ARAGÓN TORRE A. Y GARCÍA GÜEMES A.(1997). Some considerations of expansion neural network. N'GUS 97 Bilbao. 6. BAESTAENS D.E. Y BERGH W.M. (1995). Tracking the Amsterdam stock index using neural networks. Ed. Refenes A.P. John Wiley & Sons. Chichester. 7. CALDWELL R.B. (1994). Design of Neural Network- Based Financial Forecasting Systems: Data Selection and Data Process. Neurove$t Journal. vol 2 nº 5. pp 12-20 8. COLEMAN, K., GRAETTINGER,T. Y LAWRENCE W. (1993). Neural networks for bankruptcy prediction: The power to solve financial problems.. AI Review July/August 9. FLANAGAN J.A.(1996). Self-organisation in Kohonen's SOM. Neural Networks vol 9 nº 7. pp. 1185-1197 10. FREEMAN J.A. Y SKAPURA D.M. (1993). Redes neuronales, algoritmos, aplicaciones y técnicas de programación. Addison-Wesley Iberoamericana. Wilmington, Delaware.E.U.A. 11. FUENTE D., PINO R. SUAREZ C. Y MAYO J.L. (1996). Análisis comparativo de los métodos de previsión univariante, Box-Jenkins, redes neuronales artificiales y espacios de estado. Estudios de Economía Aplicada nº 5. pp.5-32 12. GALACHE,T. VICO F.J. Y GONZALEZ PAREJA A. (1992). Aplicación de redes neuronales a la predicción de ventas ante situaciones fluctuantes de los precios. Comunicación VI reunión ASEPELT-ESPAÑA. Granada. 13. GARCÍA GÜEMES A. y PACHECO BONROSTRO J.(1996). Prediction of the tendency of the Ibex-35 using the Boltzmann machine. International Conference on intelligent Technologies. Proceeedings vol. I pp. 437-442 14. HAMPTON J.(1997). Market Volatility as a Leading Indicator. Neurove$t Journal vol 5, nº 4. pp 27-29 15. KOHONEN T. (1989). Self organization and associative memory. Springer Werlag. Berlín 16. LAJBCYGIER P., FLITMAN A. SWAN A. AND HYNDMAN R. (1997). The Pricing and Trading of Options Using A Hybrid Neural Network Model with Historical Volatility.Neurove$t Journal vol. 5, nº 1. pp 27-41 17. MARTIN DEL BRIO B. Y SERRANO CINCA C.(1995). Self-organizing neural networks: the financial state of spanish companies. Ed. Refenes A.P. John Wiley & Sons. Chichester. 18. OTERO J.M. Y TRUJILLO F. (1992). Predicción multivariante y multiperiodo mediante una red neuronal: estudio de un caso. Comunicación VI reunión ASEPELTESPAÑA. Granada. 7 García Güemes, A. y otros 19. OTERO J.M. Y TRUJILLO F. (1993). Predicción multivariante y multiperiodo de una serie temporal económica mediante una red neuronal.. Estadística española. vol 35, nº 133 20. PACHECO BONROSTRO J. Y DELGADO SERNA C. (1997). Modificaciones en el aprendizaje de la red de propagación hacia atrás. XI Reunión Asepelt-España. Bilbao. 21. PARGA, J. (1994). Inteligencia artificial en mercados financieros. Bolsa de Madrid. nº 23- Junio 22. RAHIMIAN E. SINGH S. THAMMACHOTE T. Y VIRMANI R. (1993). Bankruptcy prediction by neural network.. Ed. Trippi y Turban. Probus Publising Company. Chicago. 23. REFENES A.P., ZAPRANIS A.D. y FRANCIS G. (1994). Stock Perfomance modeling using neural networks: A comparative study with regression models. Neural Networks vol.7 nº 2. 24. SERRANO CINCA C. (1995). Las redes neuronales artificiales en el análisis financiero. Tesis doctoral. Zaragoza. 25. SERRANO CINCA C. Y MARTIN DEL BRIO B. Predicción de la quiebra bancaria mediante el empleo de redes neuronales artificiales. Revista Española de financiación y contabilidad. vol XXIII. 26. YAO J., LI Y. AND LIM TAN C. (1997). Forecasting the CHF-USD Exchange Rates using Neural Networks. Neurove$t Journal vol 5, nº 2. pp 7-13 27. YASER S.A. (1995). Financial market applications of learning from hints.. Ed. Refenes A.P. John Wiley & Sons. Chichester. 8