APLICACIONES DE REDES NEURONALES EN ECONOMÍA

Anuncio
V JORNADAS ASEPUMA
APLICACIONES DE REDES NEURONALES EN ECONOMÍA
Aragón Torre, Alberto1
Calzada Arroyo, J.María
García Güemes, Alfredo
Pacheco Bonrostro, Joaquín
Resumen
La metodología de las Redes Neuronales Artificiales, está siendo usada con
profusión, dentro del campo de la Economía, hasta tal punto que existe una publicación
bimensual, que trata específicamente estas aplicaciones a los mercados financieros:
Neurove$t Journal. En este trabajo, se presentan las principales líneas de investigación
existentes, a continuación la que nosotros estamos siguiendo, con algunos resultados
iniciales, para finalizar con las líneas a seguir y una selección bibliográfica.
1. PRINCIPALES LINEAS DE INVESTIGACIÓN EN LA LITERATURA
Las Redes Neuronales se están utilizando, tanto de forma individual, como unidas
a otros métodos2 en múltiples campos, como pueden ser la Ingeniería, Física, Biología, …
Sin pretender, por motivos obvios, hacer un survey de las aplicaciones de las
Redes Neuronales dentro del campo económico, sino solo un breve resumen, decir que se
están utilizando fundamentalmente en una doble dirección: predicción y clasificación,
siendo respectivamente el perceptrón multicapa y los mapas auto-organizativos, los tipos
de Redes más utilizadas para estos propósitos.
Comenzando con las cuestiones relativas a los problemas de predicción de
magnitudes económicas, casi todos los trabajos, se centran en los mercados financieros:
tipos de interés, tipos de cambio, índices bursátiles de distintos países,..
Creemos que existen al menos tres motivos, por los cuales, se están utilizando
estos modelos frente a otro tipo de metodologías como pueden ser los modelos ARIMA.
1
2
Universidad de Burgos.
Fundamentalmente: lógica borrosa, algoritmos genéticos y temple simulado.
1
García Güemes, A. y otros
El primer motivo surge del hecho de que en las primeras simulaciones efectuadas,
la metodología de las Redes se mostraba superior a las series temporales clásicas, cuando
estas series no tenían un fuerte componente estacionario; se pensó que eso mismo podría
ocurrir con los mercados financieros.
Así mismo, las Redes Neuronales permiten trabajar en principio más
cómodamente con modelos multiperiodo y multivariable , sin tener que preocuparse de
problemas como la multicolinealidad , ni tener la necesidad de especificar previamente el
tipo de relación funcional entre variables.
Para terminar, en los modelos de Redes se pueden introducir fácilmente
indicadores tanto chartistas como fundamentales.
En definitiva, se ha recurrido a las Redes Neuronales, ante el fracaso del análisis
clásico de las series temporales para este tipo de predicciones. También indicar que no se
han obtenido buenos resultados en las predicciones a corto plazo en mercados financieros,
ni parece muy posible que se logre. Además de lograrse, dudo mucho que el autor lo
publique, en lugar de utilizar sus resultados para hacerse rico.
Mejores resultados, se han obtenido en la predicción de quiebra de empresas, en
este caso utilizando tanto la red de propagación hacia atrás, como mapas
autoorganizativos.
En nuestro país, además de trabajos relativos a predicción en mercados
financieros, se han utilizado las Redes Neuronales, en predicción de precios, demanda de
turismo, predicción del paro…
En cuanto a los problemas de clasificación, las Redes representan una alternativa
al análisis Cluster, y se utilizan fundamentalmente los mapas autoorganizativos. El caso
más interesante que hemos visto para un caso español, es una organización de todos los
bancos, de forma que se pudo prever la quiebra de alguno de ellos.
2. UNOS RESULTADOS PREVIOS
Desde hace un par de años, venimos trabajando en la Metodología de las Redes
Neuronales, y como suele ser habitual, para utilizarlas en la predicción dentro del
mercado financiero, en concreto en el IBEX-35, comenzando con predicciones a muy
corto plazo, concretamente a un día. Los resultados obtenidos, en principio parecían
esperanzadores, sin embargo al hacer simulaciones considerando los costes de
intermediación, se comprobó la imposibilidad de intervenir en el mercado a tan corto
plazo. Además existe una variable que no fué considerada y que posiblemente es la más
importante: la evolución de la bolsa de N.Y. durante los primeros 10 minutos.
2
V JORNADAS ASEPUMA
Usamos en un principio dos arquitecturas distintas: la clásica en este tipo de
estudios, como es el preceptrón multicapa y una máquina de Boltzmann de entrada y
salida.
Con esta última arquitectura, se pretendía, en virtud de la salida de un vector de
componentes dicotómicas, predecir señales de compra y de venta. La proporción de
aciertos en este caso, fué de algo más del 60%, sin embargo, nuevamente los costes de
intermediación impiden entrar en el mercado.
Volviendo a las bases de la metodología, se estudiaron dos cuestiones que
resultaban importantes para nuestro estudio. Por una parte, comprobar si la utilización de
diferentes funciones de transferencia, podían dar lugar a distintos resultados y en que
sentido. Por otra, tratar de resolver la polémica acerca de las variables de entrada, en
cuanto a su número y relación.
En lo que respecta a las funciones de transferencia se llegó a la conclusión, que si
la relación entre la entrada y la salida es lineal, o aproximadamente lineal, la función
identidad tiene un mejor comportamiento, al utilizar un tiempo de computación menor,
con un error cuadrático medio ligeramente más pequeño. Ahora bien, para todas las
relaciones no lineales, entre las entradas y las salidas, el comportamiento de la sigmoide
asimétrica resultó ser mejor. La función identidad terminaba el aprendizaje en mínimos
locales peores que la sigmoide, utilizando un tiempo de computación incluso mayor.
En cuanto al segundo punto, existe una polémica entre distintos autores, relativa a
la multicolinealidad y en general a la relación entre los componentes de los vectores de
entrada. Algunos indican que se pueden presentar graves problemas, en cuanto a tiempo
de computación y memorización de la Red, además de la necesidad de disponer de series
más largas; estos autores, propugnan reducir el número de variables de entrada, cuando se
presenten estas circunstancias, bien eliminando directamente una de cada dos que
presentes una elevada correlación, bien utilizando la técnica de Componentes Principales.
Por su parte otros, creen que los problemas son de índole menor y que en
cualquier caso, es mejor utilizar todas las variables disponibles, pues al no perderse
información, si bien el tiempo de computación puede aumentar, el error cometido será
más pequeño.
Las pruebas que hemos realizado al respecto, indican que cuando existe
multicolinealidad perfecta, como era de esperar, es mejor eliminar variables, al ser el
tiempo de computación menor, para el mismo error cuadrático medio. En todos los demás
casos, aún cuando se penalice el tiempo de computación en el aprendizaje, los resultados
son mejores manteniendo todas las variables, tanto cuando las relaciones entre ellas son
3
García Güemes, A. y otros
lineales como cuando no lo son. Bien es cierto, que las pruebas se han realizado
simulando vectores de entrada y salida, con lo que se podían generar todos los que fueran
precisos. En este sentido, creemos que si se dispone de un número pequeño de datos (en
relación al número de variables explicativas), puede hacerse necesario eliminar alguna de
ellas.
Como quiera que se pueden introducir, tantas variables de entrada como se desee,
siempre que se disponga del número de vectores de entrenamiento necesarios, y por otra
parte, cuando las relaciones entre las entradas y las salidas son lineales, se muestra
superior la función de transferencia identidad, hemos comenzado a utilizar Redes de
Expansión, para aprovechar estas dos circunstancias.
El funcionamiento de este tipo de redes, es el siguiente:
A partir de las variables de entrada, se generan con ellas un importante número de
funciones no lineales, de modo que los valores de estas funciones, sean a su vez valores
de entrada en la Red. Esto hace que el número de nodos de entrada, aumente
extraordinariamente. Sin embargo, si se han utilizado las funciones adecuadas, es muy
posible, que exista prácticamente una combinación lineal, entre las entradas y las salidas.
Si existe esa cuasi-combinación lineal, se puede eliminar la capa oculta de forma,
que se pueden atenuar significativamente los problemas derivados de la memorización, o
de la necesidad de disponer de un número muy elevado de vectores de aprendizaje.
Gráficamente, la arquitectura de la red sería la siguiente:
O1
OK
1
1
K
L
J
FUNCTIONAL
1
M
EXPANSION.
I
X1
OL
N
XI
4
XN
V JORNADAS ASEPUMA
3. MIRANDO AL FUTURO PRÓXIMO
En estos momentos, estamos trabajando en un proyecto subvencionado por la
Junta de Castilla y León, con el título: Aplicaciones de las Redes Neuronales Artificiales
en la Predicción del IBEX-35. Otras Aplicaciones: subIbex, Optimización de Rutas de
Transporte y Predicción de Ventas.
Por tanto, el trabajo fundamental se centrará en el estudio del IBEX-35 a corto
plazo, ampliando los estudios disponibles hasta ahora, considerando más variables e
introduciendo la variación de Dow-Jones durante los diez primeros minutos tras la
apertura de N.Y., si bien no creemos que pueda intervenirse en el mercado, con los
resultados que se obtengan. Por tal motivo, nos centraremos en el estudio de la evolución
de la volatilidad, que al fin y al cabo es la principal variable en el mercado de derivados.
(Hay autores que indican que lo que cotiza es la volatilidad).
Para este estudio, habida cuenta de que disponemos de series muy largas de datos,
utilizaremos una red de expansión, quizá sin capa oculta, en función del número de
variables originales que se tomen.
Consideremos I, variables originales. Si expandimos completamente la red con
las funciones habituales3, y añadimos un nodo con entrada constante igual a 14, el
número de nodos de entrada a la red será de:
Tasa_de_reparto
Nivel_de_inventario_farmacéutico
Producción
Ventas
consumo_medio_enfermo
tasa_real_consumo
Productividad_empleado
Diferencia
inventario_deseado
Empleados
Contratación_despido
tasa_de_gasto_ID
demanda
Gastos_en_ID
N=
TIEMPO_RETARDO
tasa_mortandad_enfermedad
infectados_por_contacto
tiempo_de_incubación
muertos_por_enfermedad
incubados
contagiados
enfermos
recuperados
desarrollados
tasa_de_contacto
tasa_de_recuperación
sanos
población_total
nacimientos
tasa_de_nacimientos
muertos
tasa_mortandad_natural
Para utilizar esta red, hay que ser extraordinariamente cuidadoso en las variables
que se elijan, pues al aumentar su número, la red puede tener tantos nodos de entrada, que
sea imposible realizar un aprendizaje. En concreto para 5 variables originales, el número
de nodos de entrada debe de ser de 102.
Más optimistas nos mostramos, con la utilización de la máquina de Boltzmann, la
cual creemos que puede ofrecer señales de compra o de venta a medio plazo, con lo cual
si los resultados son satisfactorios creemos que puede ser útil como una herramienta más
para los analistas financieros. Indicar que no hemos encontrado ninguna referencia
bibliográfica, utilizando esta red, en la predicción de alguna variable financiera.
Otro trabajo previsto, es la obtención de un índice que replique al IBEX-35, con
un pequeño número de valores, lo que facilitaría también el trabajo de gestión de una
cartera individual. En efecto manejar 35 valores con sus proporciones correspondientes es
3
Las funciones que aparecen en la literatura, son el sen (xi), sen (2xi), sen (3xi), cos (xi), cos (2xi),
cos (3xi), xi sen (xj), xi cos (xj), xi xj, xi xj xk,…, x1 x2… xI.
5
García Güemes, A. y otros
bastante complejo para carteras personales, además de que los gastos de mantenimiento
se elevan considerablemente. Para la obtención de este sub-IBEX, está previsto utilizar un
mapa autoorganizativo, de forma que obtengamos distintos conjuntos de valores de
comportamiento parecido.
Una vez se disponga de estos conjuntos, su número indicará cuantos valores
tienen que pertenecer al sub-Ibex y habrá que elegir un valor de cada grupo, en la
proporción adecuada, con lo que el problema se simplificará considerablemente.
Se pretende también aplicarlas en marketing, concretamente en el estudio de
franquicias con capital español. Deseamos que se pueda conocer a priori, en función de
las características de la franquicia, cuantos establecimientos deben de franquiciarse y
cuantos deben de ser explotados directamente por la propia empresa. Para ello se dispone
de 16 variables de las 221 empresas de franquicia existentes a finales de 1996, que
dividimos en 14 de entrada y dos de salida. Dado que el aprendizaje puede ser
supervisado, parece en principio que una red de propagación puede ser la adecuada.
Como quiera que el establecimiento de franquicias, exige un tiempo, las
dividiremos en función del número de años que lleva funcionando, de forma que pueda
establecerse si es posible, el número de establecimientos que deben de explotarse en
propiedad y cuantos en franquicia, para cada año.
Para finalizar y aún cuando la metodología de las Redes Neuronales, no parece
que esté ofreciendo resultados especialmente eficaces, en problemas de Optimización, es
nuestra intención utilizarlas para optimizar rutas de transporte.
4. BIBLIOGRAFÍA
1. ABECASIS S.M. AND LAPENTA E.S.(1996).Nonstationary Time-Series Forecasting
Withing a Neural Network Framework.. Neurove$t Journal. vol 4 nº 4. pp 9-16
2. ANTHONY M. Y BIGGS N.L. (1995). A computational learning theory view of
economic forecasting whit neural networks. Ed. Refenes A.P. John Wiley & Sons.
Chichester.
3. ARAGÓN TORRE, A. Y GARCÍA GÜEMES A. (1996). Prediction of the Ibex-35
index using neural network methodology. International Conference on intelligent
Technologies. Proceeedings. vol. I pp. 444-449.
4. ARAGÓN TORRE A. Y GARCÍA GÜEMES A. (1997). El problema de la relación
entre variables de entrada en las redes neuronales. XI Reunión Asepelt-España. Bilbao.
4
Se hará para considerar la posible existencia de un término independiente.
6
V JORNADAS ASEPUMA
5. ARAGÓN TORRE A. Y GARCÍA GÜEMES A.(1997). Some considerations of
expansion neural network. N'GUS 97 Bilbao.
6. BAESTAENS D.E. Y BERGH W.M. (1995). Tracking the Amsterdam stock index
using neural networks. Ed. Refenes A.P. John Wiley & Sons. Chichester.
7. CALDWELL R.B. (1994). Design of Neural Network- Based Financial Forecasting
Systems: Data Selection and Data Process.
Neurove$t Journal. vol 2 nº 5. pp 12-20
8. COLEMAN, K., GRAETTINGER,T. Y LAWRENCE W. (1993). Neural networks for
bankruptcy prediction: The power to solve financial problems.. AI Review July/August
9. FLANAGAN J.A.(1996). Self-organisation in Kohonen's SOM. Neural Networks vol 9
nº 7. pp. 1185-1197
10. FREEMAN J.A. Y SKAPURA D.M. (1993). Redes neuronales, algoritmos,
aplicaciones y técnicas de programación. Addison-Wesley Iberoamericana. Wilmington,
Delaware.E.U.A.
11. FUENTE D., PINO R. SUAREZ C. Y MAYO J.L. (1996). Análisis comparativo de los
métodos de previsión univariante, Box-Jenkins, redes neuronales artificiales y
espacios de estado. Estudios de Economía Aplicada nº 5. pp.5-32
12. GALACHE,T. VICO F.J. Y GONZALEZ PAREJA A. (1992). Aplicación de redes
neuronales a la predicción de ventas ante situaciones fluctuantes de los precios.
Comunicación VI reunión ASEPELT-ESPAÑA. Granada.
13. GARCÍA GÜEMES A. y PACHECO BONROSTRO J.(1996). Prediction of the
tendency of the Ibex-35 using the Boltzmann machine. International Conference on
intelligent Technologies. Proceeedings vol. I pp. 437-442
14. HAMPTON J.(1997). Market Volatility as a Leading Indicator. Neurove$t Journal vol 5,
nº 4. pp 27-29
15. KOHONEN T. (1989). Self organization and associative memory. Springer Werlag.
Berlín
16. LAJBCYGIER P., FLITMAN A. SWAN A. AND HYNDMAN R. (1997). The Pricing and
Trading
of
Options
Using
A
Hybrid
Neural
Network
Model
with
Historical
Volatility.Neurove$t Journal vol. 5, nº 1. pp 27-41
17. MARTIN DEL BRIO B. Y SERRANO CINCA C.(1995). Self-organizing neural
networks: the financial state of spanish companies. Ed. Refenes A.P. John Wiley &
Sons. Chichester.
18. OTERO J.M. Y TRUJILLO F. (1992). Predicción multivariante y multiperiodo
mediante una red neuronal: estudio de un caso. Comunicación VI reunión ASEPELTESPAÑA. Granada.
7
García Güemes, A. y otros
19. OTERO J.M. Y TRUJILLO F. (1993). Predicción multivariante y multiperiodo de una serie
temporal económica mediante una red neuronal.. Estadística española. vol 35, nº 133
20. PACHECO BONROSTRO J. Y DELGADO SERNA C. (1997). Modificaciones en el
aprendizaje de la red de propagación hacia atrás. XI Reunión Asepelt-España. Bilbao.
21. PARGA, J. (1994). Inteligencia artificial en mercados financieros. Bolsa de Madrid. nº
23- Junio
22. RAHIMIAN E. SINGH S. THAMMACHOTE T. Y VIRMANI R. (1993). Bankruptcy
prediction by neural network.. Ed. Trippi y Turban. Probus Publising Company.
Chicago.
23. REFENES A.P., ZAPRANIS A.D. y FRANCIS G. (1994). Stock Perfomance modeling
using neural networks: A comparative study with regression models. Neural Networks
vol.7 nº 2.
24. SERRANO CINCA C. (1995). Las redes neuronales artificiales en el análisis financiero.
Tesis doctoral. Zaragoza.
25. SERRANO CINCA C. Y MARTIN DEL BRIO B. Predicción de la quiebra bancaria
mediante el empleo de redes neuronales artificiales. Revista Española de financiación y
contabilidad. vol XXIII.
26. YAO J., LI Y. AND LIM TAN C. (1997). Forecasting the CHF-USD Exchange Rates
using Neural Networks. Neurove$t Journal vol 5, nº 2. pp 7-13
27. YASER S.A. (1995). Financial market applications of learning from hints.. Ed. Refenes
A.P. John Wiley & Sons. Chichester.
8
Descargar