DATA MINING EN ECONOMÍA. UNA APLICACIÓN AL COMERCIO EXTERIOR. Mauricio BELTRÁN PASCUAL Junta de Castilla y León, Consejería de Hacienda, D.G. de Estadística Email: mauriciobeltrán@wanadoo.es Catalina BOLANCÉ LOSILLA Departamento de Econometría, estadística y economía española; Facultad de Ciencias Económicas y Empresariales. Universidad de Barcelona Email: bolance@ub.edu Alex COSTA SÁENZ DE SAN PEDRO Responsable de Área de Estadísticas Económicas Instituto de Estadística de Catalunya Email: acosta@idescat.es Montserrat GUILLEN ESTANY Departamento de Econometría, Estadística y Economía Española Universidad de Barcelona Email: guillen@eco.ub.es Resumen: En la sociedad actual, que muchos han denominado sociedad de la información, se genera una ingente cantidad de datos que no siempre pueden tratarse a través de métodos estadísticos convencionales. Las técnicas y algoritmos incluidos en Data Mining (minería de datos) tienen como objetivo descubrir estructuras subyacentes en los datos y detectar patrones, perfiles y tendencias significativas ocultas en los mismos. El Data Mining, en el ámbito de los negocios, responde a múltiples preguntas, como por ejemplo: quiénes son mis mejores clientes, cómo aumentar la cuota de mercado o cómo conseguir clientes fieles. En este trabajo se precisa el concepto de Data Mining y sus aplicaciones en el campo económico. También se ofrece una breve descripción de las principales técnicas que se engloban en Data Mining: reglas de asociación, redes neuronales, árboles de decisión, algoritmos genéticos, etcétera. Por último, aplicando el algoritmo a priori a datos de comercio exterior se obtienen diferentes reglas de asociación entre distintos productos. La importancia comercial de estas asociaciones de productos es muy interesante en el sentido de que, al poderse establecer en qué países se están produciendo estas asociaciones y en qué países no, se está en condiciones de mejorar las estrategias comerciales lo que, sin duda, implicará un aumento de las exportaciones. 1. Conceptos y definiciones de Data Mining. La gran cantidad de datos que se crean en las actividades que desarrollamos como seres humanos se encuentran almacenados en grandes bases datos y se multiplican rápidamente. Esto es cierto para casi todos los sectores de la actividad pero, aún es más cierto, en las empresas tanto públicas como privadas, locales o multinacionales. Sin embargo, se puede afirmar que este incremento espectacular de datos almacenados no ha supuesto un significativo aumento de la información disponible para la empresa (el bosque no deja ver los árboles) ni, en general, se ha traducido en un incremento de la rentabilidad de las compañías. 1 Con el objetivo de optimizar todo el conocimiento existente en la información disponible, hay que utilizar un conjunto de técnicas que se han resumido en la literatura en el concepto de minería de datos o Data Mining. El término Data Mining engloba un conjunto de algoritmos con un objetivo común, identificar de una forma automática patrones que proporcionen información relevante y útil contenida en una gran cantidad de datos. La minería de datos es una parte de un proceso más general que se denomina Descubrimiento de conocimiento en las bases de datos (Knowledge Discovery in Databases o KDD), concepto que proviene de la inteligencia artificial, si bien, en la mayor parte de la bibliografía sobre el tema el concepto de Data Mining toma el significado global del proceso. Una definición más general de la minería de datos es referirse a ella como la extracción no trivial de la información implícita, previamente desconocida y potencialmente útil, a partir de los datos. El Data Mining siempre intenta descubrir los patrones, perfiles y tendencias presentes y significativas ocultas en los datos trabajando con tecnologías de reconocimientos de patrones, como las redes neuronales, máquinas de aprendizaje, algoritmos genéticos, etcétera. El Data Mining puede dar respuesta a múltiples preguntas vitales que se plantean muy a menudo en los negocios: ¿quiénes son mis mejores clientes y cómo puedo fidelizarlos ?, ¿qué estrategias puedo diseñar para aumentar mi cuota de mercado?, ¿cómo optimizar mi inventario?, ¿quiénes son los visitantes de mi sitio Web?, y otras muchas más preguntas importantes relativas al mundo de la gestión empresarial. La relaciones del Data Mining con la estadística, la inteligencia artificial y las bases de datos son evidentes. Muchos de sus algoritmos, procedimientos, técnicas y metodología son iguales en esencia, aunque, muchas veces, se denominen con otros nombres. No obstante, el Data Mining presenta características útiles e interesantes que lo hacen atractivo. De forma general, se puede afirmar que para la resolución de problemas, muy a menudo complejos, se utilizan varios procedimientos dada la complementariedad de las técnicas en la solución de los mismos. La importancia del Data Mining se pone de manifiesto al echar un vistazo, desde varias perspectivas, a los movimientos que se observan. Desde que se celebró el primer congreso dedicado a este campo del conocimiento en 1995, en Montreal (Canadá) con el nombre “The First International Conference on Knowledge Discovery and Data Mining”, han aumentado las reuniones internacionales y se han promovido nuevas conferencias que muestran el increíble auge que está teniendo esta filosofía de trabajo. Por otra parte, la proliferación de paquetes de software informático estadístico por parte de las principales casa comerciales: SAS, SPSS, ORACLE, IBM, MATHWORK Y MICROSOFT, principalmente, han impulsado la utilización de las técnicas que se engloban en Data Mining. También existen múltiples recursos gratuitos en la red. Otros hechos significativos que se pueden observar son: la proliferación de páginas Web, el incremento en el número de artículos y de revistas que tratan estos temas, la incorporación de algunas de las técnicas de Data Mining en algunos manuales de estadística multivariante, un mayor número de tesis doctorales que resuelven problemas utilizando las técnicas que promueve el Data Mining y la proliferación de cursos de postgrado y masters relacionados con esta disciplina, entre otros hechos, que indican la utilidad del Data Mining. 2. Aplicaciones en Economía. Entre los usuarios más destacados del Data Mining están los bancos y otros agentes financieros y las grandes empresas, en especial las industrias de telecomunicaciones, pero el conjunto de sectores que utiliza estas herramientas es muy amplio. Las áreas donde se han desarrollado diferentes técnicas son muchas: ventas e ingresos, gestión de abandonos, (deslealtad), procedimientos de reclamaciones, análisis de impagos, marketing relacional y dirigido, perfilados de clientes, retención de clientes, comercio electrónico, detección del fraude, análisis de la cesta de la compra, desarrollo de nuevos productos, control de procesos, control de calidad, gestión de almacén (merchandansing), etcétera. 2 A continuación, se ofrecen unas breves pinceladas para describir someramente los trabajos más significativos y los problemas que se han abordado a través de las técnicas y herramientas empleadas en Data Mining. En relación al marketing y su tarea de clasificar y entender los diversos aspectos del nuevo consumidor podemos afirmar que cada vez es más compleja. Seleccionar el mercado y segmentarlo es una ardua tarea. Se han aplicado con éxito las reglas de asociación, los árboles de decisión y clasificación, así como las redes neuronales y otras técnicas en la segmentación de mercados para detectar tendencias de abandono de clientes, en el descubrimiento de transacciones fraudulentas, en el análisis de la cesta de la compra para determinar los patrones de comportamiento, en la búsqueda de perfiles de clientes, en el análisis de la pérdida de clientes, etcétera. En los últimos años se ha desarrollado el concepto de CRM (Customer Relationship Management, Gestión de la Relación con el Cliente), tanto en su forma analítica como operacional. El Data Mining optimiza y se integra en el sistema de CRM aumentando el beneficio de las compañías que lo implementan. Respecto a los temas de predicción de variables económicas, son casi ya innumerables los investigadores que han utilizado las redes neuronales para compararlas con otros métodos de predicción, generalmente los modelos ARIMA, consiguiendo excelentes resultados. Entre otros trabajos podemos citar a Serrano y Martín del Brío (1993), Pacheco y Delgado (1990), Otero y Trujillo (1993) y Palmer et al. (2003). Los análisis de solvencia se han estudiado siguiendo dos caminos. Uno, a través de aproximaciones simbólico/algorítmicas simulando el razonamiento lógico, siendo los métodos más utilizados los algoritmos de inducción de reglas y los árboles de decisión. La otra vía de investigación se ha dirigido a intentar reproducir el comportamiento de la vida biológica, creando estructuras que se organizan y aprenden. Desde esta perspectiva, las redes neuronales y los algoritmos genéticos aportan excelentes resultados. El prototipo de arquitectura de la red neuronal artificial más empleado para determinar la salud financiera de las empresas es el perceptrón multicapa. Estos sistemas expertos, según diversos autores, son adecuados para estudiar los múltiples aspectos implicados en la solvencia empresarial: evaluación de la gestión de la empresa, vigilancia de la situación financiera, relación de la empresa con su entorno, etcétera. El estudio de las quiebras empresariales ha sido ampliamente tratado y se pueden encontrar excelentes trabajos. Estos estudios se basan en la aplicación de diversas arquitecturas de redes neuronales utilizando un conjunto de ratios contables que caracterizan la actividad económica de las empresas: ratios de liquidez, de autofinanciación de la empresa, de beneficio, de ventas y de cash flow. Puede ampliarse esta información en Laffarga, Martín y Vázquez (1986), Mar Molinero y Serrano (2001), Serrano (1997) y Elorduy Trifoll (2001). Otros trabajos aparecidos en la literatura económica, o que están en proyecto, van encaminados al estudio de los comportamientos en los mercados financieros. Reseñamos, entre varios trabajos, dos estudios: la predicción de estos mercados en el corto plazo a través del IBEX -35 (Aragón et al., 1997 y García Estévez, 2002). También se han llevado a cabo trabajos de predicción del rendimiento de carteras mediante redes neuronales (García Estévez, 2002). Los sistemas expertos antes aludidos, especialmente las redes neuronales artificiales, de las que se nutre el Data Mining, también se han aplicado a otros campos de la economía como por ejemplo a problemas de transporte (Masson y Wang, 1990), a la aproximación de funciones de producción (Joerding et al., 1994) y a la planificación de la producción (Sastri, 1994). 3. Técnicas, métodos y algoritmos utilizados en Data Miming. Las técnicas de Data Mining están muy extendidas en la solución de problemas de predicción y clasificación de datos. El proceso de Data Mining puede ser desglosado en varias fases. Una primera prepara y analiza los datos, la segunda se corresponde con la modelización y 3 contrastación de modelos alternativos, la tercera evalúa el modelo óptimo y la cuarta se corresponde con la generalización del mismo. Diversas casas comerciales han presentado metodologías para el desarrollo del Data Mining. Una de las más conocidas es la metodología, CRISP-DM (Cross – Industry Standard Process for Data Mining). El CRISP-DM es un proyecto fundado por la Comisión Europea en colaboración con varias empresas (SPSS, Daimler – Bentz, etc..). Define un modelo universal para aplicar proyectos de Data Mining (algo parecido a un AENOR para el Data Mining). También la empresa SAS ofrece su proceso metodológico de aplicación de Data Mining (SEMMA) que, en este caso, está constituido por cinco etapas: muestreo (Sampling), exploración (Exploration), modificación (Modification), modelado (Modeling), evaluación (Assessment). El conjunto de problemas que aborda el Data Mining se pueden solucionar con diversas técnicas que se agrupan en los siguientes seis grandes grupos: Técnicas descriptivas, resúmenes e informes, segmentación, descripción de conceptos y clases, clasificación, predicción y análisis de dependencia. A continuación, y a modo de resumen, se enumeran las técnicas más habituales que se utilizan en Data Mining, algunas de las cuales se describirán posteriormente: • Descripción de los datos del Data Mining Resúmenes y gráficos Clustering Análisis de enlaces • Predicción Data Mining Reglas de asociación Clasificación Regresión Series temporales • Modelos de Data Mining y algoritmos Redes neuronales Árboles de decisión Regresión multivariante adaptativa (Sistema Bayesiano) Inducción de reglas K-nearest neighbor and memory-based reasoning (MBR) (Cluster) Regresión logística Análisis discriminante Modelos generalizados aditivos (Modelo ANOVA) Boosting Métodos de búsqueda aleatoria: Algoritmos genéticos, algoritmos evolutivos y el recocido simulado. Como se ha puesto de manifiesto en el apartado anterior existen múltiples técnicas relacionadas con la minería de datos. En este trabajo se describen brevemente cuatro técnicas ampliamente utilizadas: los árboles de decisión, dos modelos de redes neuronales, los algoritmos genéticos y las reglas de asociación. Para el caso de la obtención de reglas de asociación entre productos se realiza una descripción más detallada, en concreto, se describe el algoritmo utilizado, el cual se denomina a priori, además, se ilustra su aplicación con un ejemplo aplicado al comercio exterior. Árboles de decisión Los árboles de decisión son particiones secuenciales de un conjunto de datos que maximizan las diferencias de la variable dependiente. Ofrecen una forma concisa de definir grupos que son consistentes en sus atributos pero que varían en términos de la variable dependiente. Esta herramienta puede emplearse tanto para la resolución de problemas de clasificación como de regresión: árboles de clasificación y árboles de regresión. 4 Mediante esta técnica se representan de forma gráfica un conjunto de reglas sobre las decisiones que se deben de tener en cuenta para asignar un determinado elemento a una clase (valor de salida). En los árboles de decisión se encuentran los siguientes componentes: nodos, ramas y hojas. Los nodos son las variables de entrada, las ramas representan los posibles valores de la variable de entrada y las hojas son los posibles valores de la variable de salida. Como primer elemento de un árbol de decisión se tiene el llamado nodo raíz que va a representar a la variable de mayor relevancia en el proceso de clasificación. Los múltiples algoritmos de los que se dispone, o bien solos o bien integrados en diferentes paquetes informáticos, son los que determinan o generan el procedimiento de cálculo que establece el orden de importancia de las variables en cada interacción. También se pueden imponer ciertas limitaciones en el número de ramas en que se divide cada nodo. Los algoritmos más utilizados son los siguientes: CART, acrónimo de Classification And Regression Trees (Árboles de decisión y de regresión), CHAID, acrónimo de Chi-squared Automatic Interaction Detection (detector automático de interacciones mediante Ji cuadrado), QUEST, que al igual que los dos anteriores están implementados en el Answer Tree y es el acrónimo de Quick, Unbiased, Efficient Statistical Tree (árbol estadístico eficiente, insesgado y rápido) y el C5.0, que está basado en el concepto de “ganancia de información”. Redes neuronales Las redes neuronales tratan de emular el comportamiento cerebral. Existen actualmente más de 40 paradigmas de redes neuronales artificiales Se estima que tan sólo cuatro arquitecturas: el modelo perceptrón multicapa (MLP), los mapas autoorganizados de Kohonen, (SOFM), el vector de cuantificación (LVQ) y las redes de base radial (RBF) cubren, aproximadamente, el 90% de las aplicaciones prácticas de redes neuronales. El modelo más utilizado es el perceptrón multicapa, que abarca el 70%, dado que este modelo es un aproximador universal de funciones (Funahashi 89) Una red neuronal puede describirse mediante cuatro conceptos: el tipo de modelo de red neuronal; las unidades de procesamiento que recogen información, la procesan y arrojan un valor; la organización del sistema de nodos para transmitir las señales desde los nodos de entrada a los nodos de salida y, por último, la función de aprendizaje a través de la cual el sistema se retroalimenta. El elemento básico de una red neuronal es un nodo. Es la unidad de procesamiento que actúa en paralelo con otros nodos de la red. Es similar a la neurona del cerebro humano: acepta inputs y genera outputs. Los nodos aceptan input de otros nodos. La primera tarea del nodo es procesar los datos de entrada creando un valor resumen que es la suma de todas las entradas multiplicadas por sus ponderaciones. Este valor resumen se procesa a continuación mediante una función de activación para generar un salida que se envía al siguiente nodo del sistema. Las funciones de activación más utilizadas son: la función escalón, la función identidad, la función sigmoide o logística y la tangente hiperbólica Se considera una red neuronal la ordenación secuencial de tres tipos básicos de nodos o capas: nodos de entrada, nodos de salida y nodos intermedios (capa oculta o escondida). Los nodos de entrada se encargan de recibir los valores iniciales de los datos de cada caso para transmitirlos a la red. Los nodos de salida reciben entradas y calculan el valor de salida (no van a otro nodo). En casi todas las redes existe una tercera capa denominada oculta, Este conjunto de nodos utilizados por la red neuronal, junto con la función de activación posibilita a las redes neuronales representar fácilmente las relaciones no lineales, que poseen mayor dificultad para las técnicas multivariantes. 5 Se puede decir que una red neuronal tiene tres ventajas que le hacen muy atractiva en el tratamiento de los datos: aprendizaje adaptativo a través de ejemplos, robustez en el tratamiento de información redundante e imprecisa y paralelismo masivo. El método más utilizado en las aplicaciones prácticas de redes neuronales es el perceptrón multicapa, que fue popularizado por Rumelhart, Hinton y Willians (1986). Este modelo de red es conocido también como backpropagation error (propagación del error hacia atrás), también denominado método del gradiente decreciente. La razón de su tremenda utilidad radica en su capacidad de organizar una representación interna del conocimiento en las capas ocultas de neuronas a fin de aprender la relación entre un conjunto de datos de entrada y salida. El perceptrón multicapa es un aproximador universal de funciones. La red backpropagation, conteniendo al menos una capa oculta, es capaz de aprender cualquier tipo de función o relación continua. Esta propiedad convierte a esta red en una herramienta de propósito general. Los mapas autoorganizativos de Kohonen Teuvo Kohonen en 1982 presenta un modelo de red denominado mapas autoorganizativos basándose en ciertas evidencias encontradas en el cerebro humano. Este tipo de red se caracteriza por poseer un aprendizaje no supervisado competitivo. Es decir, la red tiene que descubrir por si misma rasgos, peculiaridades, correlaciones o categorías que se encuentren en los datos. El objetivo de esta red es clusterizar los datos que se presentan a la red a través de las correlaciones. La utilidad de este sistema es que es capaz de realizar análisis cluster, representar funciones de densidad asociadas a distribuciones de probabilidad y proyectar un espacio de alta dimensión en otro más reducido. La arquitectura de la red se basa en dos capas de neuronas, la capa de entrada se encarga de recibir y de transmitir a la capa de salida la información procedente del exterior. Las neuronas de la capa de salida se organizan de forma bidimensional (plano), tridimensional, (paralelepípedo) o de sólo una dimensión (cadena lineal de neurona). Aunque las redes resuelven múltiples problemas y son capaces de encontrar soluciones en muchas situaciones, no son la panacea que lo resuelve todo. El campo de las redes neuronales artificiales es todavía reciente y aún quedan problemas sin resolver: se trata de un método de resolución de problemas demasiado creativo, es difícil en muchas situaciones averiguar porque no funciona la red y no es fácil interpretar su comportamiento. Algoritmos genéticos Estos algoritmos se originaron en los intentos de imitar el comportamiento de las especies (Holland, 1975), a través de ecuaciones matemáticas. Los algoritmos genéticos están inspirados en la solución de problemas que la naturaleza emplea en la evolución de los seres vivos sometiéndolos a diferentes hábitats. Son algoritmos de búsqueda que se basan en el proceso de selección natural y de la genética natural, combinando la supervivencia de los individuos más aptos entre las cadenas de estructuras con un intercambio de información aleatorio. El proceso de optimización del algoritmo comienza con la generación de una población de individuos. Sobre estos individuos se realizan unas definiciones: genoma (todos los parámetros que definen a los individuos de la población), genotipo (la parte del genoma que define a un individuo concreto), fenotipo (es la expresión de un genotipo) y gen (cada uno de los parámetros que define a un individuo). La fase siguiente del proceso es la evaluación en la cual se deja que cada uno de los controladores que constituyen la población actúe controlando el sistema. En la siguiente fase, la selección, se simula el proceso natural de los individuos en cada generación. A esta fase le sigue una secuencia de operadores genéticos que simulan el proceso de reproducción de los seres vivos. Con el genoma final se expresa un fenotipo y se reconstruye 6 cada controlador de la población y se procede a una nueva evaluación. El proceso se repite un número determinado de veces hasta que la evaluación se estabiliza. Los algoritmos genéticos se han utilizado, entre otros temas, en la resolución de problemas relacionados con rutas de transporte, en la gestión de carteras comerciales, en la búsqueda del número ideal de neuronas de la capa oculta en la estructura de una red neuronal y, en general, en problemas de optimización de sistemas, estando especializados en problemas de optimización con restricciones. 4. Reglas de asociación. El algoritmo a priori. Entre todo el conjunto de técnicas que se incluyen dentro del término Data Mining, en esta sección nos centramos en los algoritmos de asociación. El objetivo de dichos algoritmos es encontrar distintas reglas de asociación entre ítems, los cuales, comúnmente, se corresponderán con distintos tipos de productos. Las reglas de asociación nos permitirán predecir patrones de comportamiento futuros sobre ocurrencias simultáneas de productos. El algoritmo a priori que introducen Agrawal, Imielinski y Swami (1993) permite la obtención de dichas reglas de forma eficiente en término de número de operaciones en el ordenador. Como su propio nombre indica, el objetivo de una regla de asociación es detectar ítems que, por algún motivo, se dan de forma conjunta. Un ejemplo comúnmente utilizado se centra en el análisis de las reglas de asociación entre los productos de consumo frecuente que se adquieren en un establecimiento comercial, sea éste un pequeño comercio, un supermercado o un hipermercado. En este contexto, el algoritmo a priori permite predecir de un modo eficiente qué productos se compran conjuntamente y qué productos influyen significativamente en la adquisición de otros complementarios. Como se mostrará posteriormente en la quinta sección, este ejemplo puede generalizarse al comercio exterior, concretamente, para analizar cuáles son las reglas de asociación entre los productos que se exportan desde Cataluña. Una regla de asociación está formada por uno o más antecedentes y una consecuencia. Siendo m el número de antecedentes, en general, una regla de asociación puede representarse del siguiente modo: Consecuencia⇐Antecedente 1 Antecedente 2 … Antecedente m. Por ejemplo, sean A y B dos productos antecedente y C la consecuencia, la regla de asociación equivale a: C⇐A B, que implicaría que la compra de A y B (antecedentes) supone que un número elevado de veces también se compre C (consecuencia). Para evaluar la capacidad predictiva de una regla de asociación existen varias medidas, las dos más comunes son el soporte y la confianza. El primero equivale al porcentaje de veces que se adquieren de forma conjunta los productos antecedentes (A y B) sobre el total de compras. La confianza de una regla se calcula como cociente entre el soporte de todos los productos implicados en la regla (A, B y C) y el soporte de los productos antecedentes (A y B) multiplicado por 100.1 El soporte es una medida de significación estadística de la regla, sin embargo, la confianza mide en que medida se cumple dicha regla de asociación. La representación de la regla de asociación anterior se amplia del siguiente modo: C⇐A B (Soporte% Confianza). Por ejemplo, si se supone que el soporte de la regla es del 50% y su confianza equivale al 95%, la regla de asociación anterior queda del siguiente modo: C⇐A B (50% 0,95). 1 Agrawal et al. (1993) definen el soporte como el porcentaje de veces que se dan de forma conjunta los productos antecedentes y la consecuencia (A, B y C). Sin embargo, para facilitar la interpretación de otras medidas alternativas a la confianza, los programas estadísticos existentes denominan soporte al porcentaje de veces que se dan de forma conjunta los productos antecedentes (A y B). 7 En este caso, la interpretación que se realiza es la siguiente: “El 50% de los individuos compran conjuntamente los productos A y B y, además, el 95% de estos individuos también adquieren C. También, como 0,50×0,95=0,475, se sabe que el 47,5% de los individuos compran A, B y C de forma conjunta”. En la práctica, suelen fijarse unos valores mínimos del soporte y la confianza, para posteriormente obtener todas aquellas reglas de asociación con soporte y confianza iguales o superiores a los mínimos establecidos. La base de datos utilizada para el implementar el algoritmo a priori debe contener dos tipos de información, una identifica al individuo (o al país, en nuestra aplicación) que realiza la compra y la otra identifica los distintos productos. Las formas en las que se presenta la base de datos pueden ser dos. Por un lado, puede trabajarse con dos variables (columnas), una que identifique al individuo o al país y la otra que identifique al producto, por tanto, cada registro (fila) se corresponde con un individuo o país y con uno de los productos que éste adquiere. Cada individuo o país tendrá asociadas tantas filas de la base de datos como número de productos compre. Por otro lado, la base de datos puede presentarse con tantas variables como productos y tantos registros como individuos o países, cada una de estas variables tomará valor 1 si el individuo compra el producto y cero en caso contrario. Es sabido que el número de tipos de producto que pueden adquirirse en un establecimiento comercial o ser importados por un determinado país es muy elevado y, por tanto, existen un gran número de combinaciones entre productos, las cuales podrían valorarse para encontrar las distintas reglas de asociación. El algoritmo a priori funciona de un modo eficiente en la obtención de las reglas de asociación, en el sentido de que no necesita evaluar todas las combinaciones posibles entre productos. En Agrawal et al. (1993) se describe el funcionamiento de dicho algoritmo, el cual se resume a continuación. El algoritmo a priori se inicia fijando un valor para el soporte de la regla, sea s dicho soporte.2 En una primera etapa se seleccionan aquellos productos cuya frecuencia de compra iguala o supera el soporte s. Los productos resultantes son los aspirantes a ser unidos a otros productos. Posteriormente, en una segunda etapa, los productos aspirantes se combinan de dos en dos, seleccionando aquellos pares de productos cuyo soporte iguala o supera el valor s. Las combinaciones de dos productos seleccionadas son las aspirantes a ser ampliadas a tres. Así, sucesivamente, hasta alcanzar el número límite de productos fijado para formar una regla de asociación. En el caso de que no se fije dicho límite, el algoritmo se repite hasta que ninguna de las combinaciones de m productos resulte aspirante a ser ampliada. Las reglas de asociación se forman entre los productos que intervienen en las combinaciones resultantes. Seguidamente, se muestra el funcionamiento del algoritmo a priori con un ejemplo numérico. Supongamos una muestra de 10 individuos los cuales disponen de 5 tipos de producto para adquirir. En la tabla 1 se señala, para cada individuo, cuáles son los productos que compra. Además, se supone un soporte mínimo s=30%. Tabla 1: Datos simulados. Producto Individuo A 1 2 X 3 4 5 6 7 8 9 10 2 B C X X X X X X X X X X D X X E X X X X X X X X X X X X Al igual que en el software Clementine, en este trabajo el soporte de la regla está ligado a los antecedentes de la misma. Es decir, es igual al porcentaje de individuos o países que adquieren dichos antecedentes de forma conjunta. 8 Tras analizar cada uno de los productos individualmente, se determina que A posee un soporte del 10%, que es inferior a s, lo que implica que sea eliminado del análisis y no vuelva a considerarse en las combinaciones posteriores. El resto de productos poseen soporte superior al 30%, es decir, son consumidos por más del 30% de los individuos. En una segunda etapa se analizar las combinaciones de productos 2 a 2, las combinaciones resultantes son: {B C}, {B D}, {B E}, {C D}, {C E} y {D E}, todas ellas poseen soporte superior igual o superior al 30%. A continuación, se muestran algunas de las reglas de asociación resultantes con un único antecedente, su soporte y su confianza: C⇐B (40% 0,75), B⇐C (70% 0,43), D⇐B (40% 0,75), B⇐D (70% 0,43), E⇐B (40% 0,75), B⇐E (60% 0,50), D⇐C (70% 0,71), C⇐D (70% 0,71), E⇐C (70% 0,57), C⇐E (60% 0,67), E⇐D (70% 0,71) y D⇐E (60% 0,83) En una tercera etapa se analizan las combinaciones de productos tres a tres, estas son: {B C D}, {B C E}, {B D E} y {C D E}, la primera combinación posee soporte 30% y las dos siguientes poseen soporte 20% y la última 40%. Las reglas de asociación con 2 antecedentes son: D⇐B C (30% 1,00), E⇐B C (30% 0,67), C⇐B D (30% 1,00) E⇐B D (30% 0,67), C⇐B E (30% 0,67), D⇐B E (30% 0,67) B⇐C D (50% 0,40), B⇐C E (40% 0,50) y B⇐D E (50% 0,40) E⇐C D (50% 0,80), D⇐C E (40% 1,00) y C⇐D E (50% 0,80) Finalmente, las combinaciones {B C E} y {B D E} posen soporte inferior al 30% la combinación con cuatro productos {B C D E} ya no se analiza, dado que también poseerá soporte inferior al 30%. Por lo tanto, teniendo en cuenta el criterio del soporte igual o superior a s=30%, no se encuentran reglas de asociación con tres antecedentes. Además del soporte y la confianza, existen otras medidas alternativas que pueden utilizarse para valorar estadísticamente la regla de asociación. Algunas de estas medidas se describen a continuación: Diferencia absoluta entre confianzas: Mide la diferencia entre una regla de asociación y la misma ampliada con un antecedente más. En el ejemplo anterior, pueden compararse las confianzas de las reglas C⇐B y C⇐B D, en este caso la diferencia es 1,00-0.75=0.25. Puede considerarse que si la confianza de una regla varía con el número de antecedentes, es interesante analizar la regla ampliada (en este caso C⇐B D) en caso contrario no. Diferencia entre el cociente de confianzas y 1: Mide la diferencia entre el cociente de dos confianzas y 1. En el cociente se compara la confianza de una regla de asociación con la de la misma ampliada. Cuanto más alejado esté el cociente de uno más interés posee el análisis de ambas reglas de asociación. En el caso de que el cociente esté próximo a uno únicamente tiene interés el análisis de una de las reglas. Diferencia entre criterios de información: Se trata de una medida de ganancia de información estadística (entropía). Para un determinado suceso con probabilidad p y su contrario, la distribución posee una entropía igual a: H = p log p − (1 − p )log(1 − p ) . En el contexto de la reglas de asociación se puede calcular, por ejemplo, la entropía asociada a la regla C⇐B, que equivale a: H = P (C | B )log P (C | B ) − P (C | B )log P (C | B ) , donde C es el contrario de C, y compararla con la entropía asociada a C⇐B D, que se expresa como: H = P (C | B, D )log P (C | B, D ) − P (C | B, D )log P (C | B, D ) . Medida χ2 normalizada: Equivale del estadístico χ2, que mide el grado de asociación entre dos variables discretas. Este estadístico se normaliza dividiéndolo entre el número de casos, de forma que no dependa del número de individuos o países que intervienen en el cálculo. La medida resultante toma valores entre 0 y 1. Cuanto más próxima al 1 esté la χ2 normalizada mayor será el grado de asociación. Por ejemplo, para la regla de asociación C⇐B D las dos variables discretas que se comparan son dos: la primera toma dos valores según se compre C o no y, la segunda, también toma dos valores según se compren B y D conjuntamente o no. 9 A continuación, en el siguiente apartado se ejemplifica la aplicación del algoritmo a-priori a datos sobre exportaciones de productos desde Cataluña al exterior de España. 5. Ejemplo con datos de comercio exterior. El objetivo del análisis es encontrar distintas reglas de asociación entre los diversos productos textiles que se exportan desde Cataluña al exterior de España. Para ello, se ha utilizado el algoritmo a priori descrito en el apartado anterior, el cual puede ejecutarse con el software Clementine. Se analizan las reglas de asociación entre partidas de la TARIC.3 Las reglas muestran asociaciones entre productos textiles y, también, entre estos productos y otros pertenecientes a otros sectores. Los datos utilizados son todas las exportaciones realizadas en el año 2000. Inicialmente, la base de datos utilizada contiene 1.267.366 registros, que se corresponden con todas las exportaciones realizadas desde Cataluña en el año 2000. Cada uno de estos registros se corresponde con una partida de la TARIC a ocho dígitos que representa una exportación desde Cataluña a un determinado país de destino. A continuación, se describen el proceso que se ha seguido para la búsqueda de las reglas de asociación y, posteriormente, se muestran, a modo de ejemplo, los resultados obtenidos para algunos de los productos textiles considerados. El análisis parte de la selección de una serie de partidas de la TARIC a dos dígitos las cuales se corresponden con productos textiles, éstas van desde la 50 a la 63, ambas incluidas. En una primera etapa se han seleccionado aquellos países que importan alguno de los productos incluidos entre las partidas textiles. Considerando estos países con todas sus importaciones llegadas desde Cataluña, la base de datos queda formada por 1.254.560 registros, que se corresponden con 150 países de destino. Para el análisis de cada partida se ha depurado la información inicial. En primer lugar, se elimina de la base de datos aquella información irrelevante para las reglas de asociaciones de interés y facilitar así su búsqueda, es decir, se eliminan de la base de datos aquellos registros que se corresponden con códigos de la TARIC no definidos y muy poco frecuentes. En segundo lugar, se seleccionan los países de interés según el código de la TARIC y el nivel de desagregación. Este segundo proceso de filtrado se describe, a continuación, para un producto en particular. Por ejemplo, si se desea analizar las asociaciones a cuatro dígitos cuya consecuencia coincide con la partida 6110 (suéteres y jerséis de punto), en primer lugar, se buscan las reglas de asociación entre partidas a dos dígitos, posteriormente se seleccionan aquellos registros cuyo código de la TARIC a 2 dígitos coincide con el 61 (piezas y complementos de vestir de punto) o con aquellos sectores que aparecen como antecedente en las asociaciones con consecuencia 61. Seguidamente, para analizar las asociaciones a 6 dígitos cuya consecuencia es la partida 611020 (suéteres y jerséis de punto de algodón), el proceso es similar, en este caso se seleccionan aquellos registros cuyo código a 4 dígitos coincide con el 6110 o con todos aquellos que aparecen como antecedentes de éste. Finalmente, para el estudio de las asociaciones a 8 dígitos cuya consecuencia es el código de la TARIC 61102099 (suéteres y jerséis de punto de algodón para mujeres y niñas), se seleccionan aquellos registros cuyo código de la TARIC a 6 dígitos coincide con el 611020 o con sus antecedentes. Tras realizar los distintos procesos de filtrado en la base de datos inicial, aunque el número de registros vaya siendo inferior a 1.254.560, los países que se estudian siempre coinciden con los 150 importadores de alguno de los productos textiles. En este punto cabe advertir que, aunque puede establecerse una jerarquía entre las partidas de la TARIC a 4, 6 y 8 dígitos, es decir, las partidas a 6 dígitos están incluidas dentro de las partidas a 4 dígitos y, también, las expresadas en 8 dígitos se incluyen en las partidas a 6 3 La TARIC es una nomenclatura administrativa que presenta la información según el arancel comunitario integrado. 10 dígitos, no se suele encontrar dicha jerarquía entre reglas de asociación. Esto significa que, normalmente, las reglas de asociación a 4 dígitos no se repiten en las asociaciones encontradas a 6 dígitos. Este hecho indica que las conclusiones extraídas de los resultados deben enmarcarse en un nivel de desagregación determinado. Además, no suelen encontrarse asociaciones entre partidas a ocho dígitos. Tras realizar distintas pruebas con los valores de diversos criterios de asociación (soporte, precisión, confianza y χ2 normalizada), se han seleccionado aquellas reglas que cumplen las siguientes condiciones: 4 • El soporte de la regla o porcentaje de casos en los que aparecen los productos antecedentes de forma conjunta es igual o superior al 20%. • El valor para la Ji-cuadrado estandarizada es igual o superior a 0,5. • La precisión de la regla es igual o superior al 80%. • Confianza de la regla igual o superior a 0,9. • El número de productos antecedentes se limita a un máximo de 2 productos. En la tabla 2 se describen las partidas de la TARIC sobre las cuales se realiza el análisis de las asociaciones, este análisis consiste en obtener aquellas reglas cuya consecuencia coincide con la partida a la que se hace referencia en esta tabla. Tras obtener las reglas de asociación e interpretarlas, se plantea realizar una serie de análisis a posteriori que complementan los resultados. En concreto, para cada regla de asociación se estudian cuáles son los países mayores importadores del producto consecuencia y, posteriormente, se analiza en que medida estos países cumplen la regla de asociación. Para ordenar los países según sus importaciones se utiliza el valor estadístico de las mismas, se considera que son principales importadores de un producto aquellos países cuyo valor estadístico se sitúa en el último cuartil de la variable.5 Tabla 2: Partidas analizadas. Código de la Descripción TARIC 61 Piezas y complementos de vestir, de punto 6110 Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto 611020 Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto, de algodón 62 Piezas y complementos de vestir, excluidos los de punto. 6204 Todo tipo de ropa de vestir para mujeres y niñas, excluyendo la de baño 620462 Todo tipo de pantalones de vestir, excluido los de baño, de algodón, que no sean de punto, para mujeres y niñas Se han obtenido 704 reglas de asociación en las cuales el código de la TARIC 6110 es consecuencia, 7 de las cuales poseen un único antecedente y las 697 restantes dos. Los productos antecedentes son de distinta naturaleza y se sitúan dentro del sector textil o en otros sectores totalmente distintos. Entre todas las reglas de asociación encontradas se seleccionan dos para analizar, ambas con dos antecedentes. La primera es la que posee mayor soporte o, lo que es lo mismo, mayor número de países que importan ambos antecedentes. La segunda regla de asociación se caracteriza por tener confianza 100% además, entre todas las que poseen esta confianza máxima, se ha seleccionado la de mayor soporte y con ambos antecedentes pertenecientes al sector textil. Las dos reglas de asociación seleccionadas son las que se presentan en la tabla 3. 4 La precisión de una regla es una medida relacionada con la eficiencia del algoritmo a-priori y equivale al porcentaje de asociaciones que cumplen el resto de criterios establecidos sobre el total de reglas evaluadas. 5 El valor estadístico es el importe monetario de las exportaciones en la aduana del país de origen. 11 Tabla 3: Reglas de asociación seleccionadas para analizar. REGLA Consecuencia Antecedentes Número Soporte 1 4202 6104 65 43,3% 6110 ⇐ 2 6104 6211 58 38,7% 6110 ⇐ Confianza 95,4% 100% Los productos que son antecedentes en las dos reglas de asociación anteriores son: 4202 Bolsos, maletas y maletines, incluidos los neceseres y porta documentos, carteras de mano, fundas para gafas, cámaras, instrumentos de música o armas, sacos de viaje, mochilas, bolsas para la compra, bolsas de deporte, etcétera de cuero natural, artificial o regenerado, de plástico, textiles, fibra o cartón, o cubiertos totalmente o mayoritariamente con estos materiales 6104 Trajes de sastre, conjuntos, chaquetas, vestidos, faldas, faldas pantalón, pantalones, pantalones de pitillo, calzones y pantalones cortos (menos los de baño), de punto, para mujeres o niñas 6211 Piezas de vestir para deportes (de entrenamiento), monos y conjuntos de esquí y trajes y pantalones de baño; otras piezas de vestir Según el valor estadístico de sus compras, los principales importadores de los productos incluidos dentro del código de la TARIC 6110 son (número de pedidos entre paréntesis): Italia (306), Portugal (1371), Francia (1342), Alemania (382), Bélgica (422), Países Bajos (384), Reino Unido (322), Venezuela (107), Arabia Saudita (471), Austria (129), Estados Unidos (77), Kuwait (228), Suiza (553), Hong Kong (173), Marruecos (425), Grecia (176) y Andorra (352). Entre todos estos países, existen cuatro que no cumplen la primera regla de asociación descrita en la tabla 3 (6110 ⇐ 4202 6104) con una confianza superior al 95%, estos países son: Alemania, Italia, Grecia y Austria, cuya confianza, aunque inferior al 95%, supera el 50%. Todos los países principales importadores de los productos 6110 según TARIC a cuatro dígitos cumplen la segunda regla de asociación (6110 ⇐ 6104 6211) con una confianza superior al 95%. Se desprende que las exportaciones de bolsos y maletas conjuntamente con la indumentaria descrita inducen a la exportación de jerséis de punto (jerséis y suéters). En un nivel más detallado, se han obtenido 277 reglas de asociación en las cuales el código de la TARIC 611020 es consecuencia. Se han encontrado cuatro reglas con un solo antecedente y el resto con dos. Los productos antecedentes son de distinta naturaleza y se sitúan dentro del sector textil o en otros totalmente distintos. Se han seleccionado dos reglas de asociación para analizar, que se describen en la tabla 4. Tabla 4: Reglas de asociación seleccionadas para analizar. REGLA Consecuencia Antecedentes Número Soporte 1 610910 420310 52 34,7% 611020 ⇐ 2 620630 620610 38 25,3% 611020 ⇐ Confianza 90,4% 100% Los productos que son antecedentes en las dos reglas de asociación anteriores son: 610910 Camisetas de punto, de algodón 420310 Piezas de vestir de cuero natural o de cuero artificial o regenerado 620630 Camisas, blusas y blusas camiseras, de algodón, que no sea de punto, para mujeres y niñas 620610 Camisas, blusas y blusas camiseras, de seda, que no sean de punto, para mujeres y niñas Los países considerados principales importadores de los productos agrupados en el código de la TARIC 611020 son (número de pedidos entre paréntesis): Italia (104), Portugal (498), Francia (562), Bélgica (145), Alemania (151), Países Bajos (137), Reino Unido (87), Arabia Saudita (64), Andorra (73), Austria (34), Grecia (53), Israel (38) y Dinamarca (26). 12 Entre todos los países principales importadores existen tres en los que la confianza de la primera regla de asociación (611020 ⇐ 610910 420310) no supera el 50%, estos países son: Andorra, Israel y Arabia Saudita. Por lo que respecta a la segunda regla de asociación (611020 ⇐ 620630 620610) todos los países citados en el párrafo anterior la cumplen con confianza superior al 95%. Por lo tanto, se observa una correlación entre camisas y blusas (que no sean de punto) y suéters de punto de algodón, todo ello para mujeres y niñas. Se han obtenido 48 reglas de asociación en las cuales el código de la TARIC 6204 es consecuencia, las dos primeras poseen un único antecedente y las 46 reglas restantes se han formado con dos antecedentes. Entre todas las reglas de asociación encontradas se seleccionan dos para analizar. Ambas asociaciones se describen en la tabla 5. La primera posee los dos productos antecedentes dentro del sector 61 “Ropa y complementos de vestir, de punto”. La segunda regla de asociación seleccionada es la que posee mayor soporte o número de países que la cumplen. Tabla 5: Reglas de asociación seleccionadas para analizar. REGLA Consecuencia Antecedentes Número Soporte 1 6110 6104 62 41,3% 6204 ⇐ 2 9401 8207 77 51,3% 6204 ⇐ Confianza 98,4% 90,9% Los productos que son antecedentes en las dos reglas de asociación anteriores son: 6110 Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto 6104 Trajes de sastre, conjuntos, chaquetas, vestidos, faldas, faldas pantalón, pantalones, pantalones de pitillo, calzones y pantalones cortos (menos los de baño), de punto, para mujeres o niñas 9401 Asientos (menos los de profesionales: médicos, peluqueros, etcétera), incluso los transformables en cama, y sus componentes 8207 Útiles intercambiables para herramientas de mano, incluso mecánicas, o para máquinas herramienta como las de hacer embutidos, estampar, enroscar, etcétera. Los principales importadores de los productos incluidos dentro del código de la TARIC 6204 son (número de pedidos entre paréntesis): Portugal (2308), Francia (1552), Alemania (953), Italia (497), Reino Unido (4830), Bélgica (965), Arabia Saudita (1217), Méjico (477), Países Bajos (738), Austria (277), Suiza (749), Irlanda (984), Grecia (439), Israel (1275), Estados Unidos de América (136), Japón (392), Kuwait (407), Venezuela (254), Andorra (406) y Chile (51). Todos ellos cumplen las dos reglas de asociación descritas en la Tabla 18 con una confianza superior al 95%. De este análisis se desprende que los países que importan asientos y útiles para herramientas son los que tienen mayor propensión a la compra de ropa de vestir femenina. Se han obtenido 842 reglas de asociación entre códigos a seis dígitos donde el 620462 de la TARIC es consecuencia. Entre todas las asociaciones 16 tienen un único antecedente, el resto poseen dos. De nuevo se han seleccionado dos asociaciones para analizar detalladamente, la primera ya se daba entre códigos a cuatro dígitos (6204 ⇐ 6110 6104), la segunda se caracteriza por poseer dos productos antecedentes incluidos en el código 6204 de la TARIC. Ambas reglas de asociación se describen en la tabla 6. Tabla 6: Reglas de asociación seleccionadas para analizar. REGLA Consecuencia Antecedentes Número Soporte 1 611030 610443 42 28,0% 620462 ⇐ 2 620453 620452 47 31,3% 620462 ⇐ Confianza 100,0% 93,6% 13 Los productos que son antecedentes en la regla de asociación anterior son: 611030 Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto, de fibras sintéticas o artificiales 610443 Trajes de punto, para mujeres o niñas, de fibras sintéticas o artificiales 620453 Faldas y faldas pantalón, para mujeres o niñas, de fibras sintéticas o artificiales, que no sean de punto 620452 Faldas y faldas pantalón, para mujeres o niñas, de algodón, que no sean de punto Los países considerados mayores importadores de los productos incluidos dentro del código de la TARIC 620462 son: Portugal (233), Francia (263), Bélgica (59), Italia (52), Reino Unido (109). Alemania (156), Méjico (129), Austria (36), Arabia Saudita (234), Grecia (62), Países Bajos (76), Suecia (59), Venezuela (54) e Irlanda (50). Todos estos países cumplen las dos reglas de asociación descritas en la Tabla 20, con una confianza superior al 95%. En la primera regla de asociación se observa como la exportación de suéteres y artículos similares de fibra sintética conjuntamente con trajes de punto sintético induce la exportación de pantalones para mujeres y niñas, de algodón y que no sean de punto. La segunda regla indica que la exportación de faldas que no sean de punto (tanto de algodón como de fibras sintéticas) induce la exportación de pantalones de algodón que no sean de punto. 6. Conclusiones. El trabajo ha permitido evaluar el potencial de las técnicas de Data Mining en economía, y concretamente en el análisis de los datos de comercio exterior. Se ha realizado un estudio para la comunidad autónoma de Cataluña, respecto a las exportaciones desde dicha comunidad a países extranjeros en el año 2000. La valoración de algunos resultados muestra una vinculación entre el mercado textil de punto confeccionado y otra ropa de vestir. Esta relación podría esperarse ya que en ambos casos se trata de prendas e indumentarias de vestuario. Además de la anterior relación, se ha detectado una fuerte asociación entre las exportaciones de punto confeccionado y los productos de equipaje, como maletas y bolsos. En este caso se trata de productos que no pertenecen al mismo grupo. Al realizar un análisis más detallado de los correspondientes códigos TARIC más detallados se observa una asociación entre la exportación de camisetas de punto y de piezas de vestir confeccionadas en cuero o material artificial similar. Ello podría explicar la vinculación de la producción de ropa de punto, con el mercado de las prendas de cuero y, consecuentemente con la exportación de suministros de equipaje. Otra de las conclusiones extraídas del análisis de las exportaciones detecta que los envíos de maquinaria (útiles intercambiables para herramientas) están fuertemente asociados a exportaciones de asientos y ropa de vestir. Dichas relaciones no parecerían evidenciarse de un análisis descriptivo de tipo generalista, pero sí son obtenidos a través de los algoritmos utilizados. Como conclusión fundamental del análisis empírico se ha podido identificar qué productos están más relacionados con el mercado textil. Por ejemplo, cambios en el sector de fabricación de bolsos y maletas así con herramientas intercambiables o asientos, pueden determinar inflexiones e incluso anticipar transformaciones en las exportaciones de ropa de vestir, ya que se ha detectado una fuerte asociación entre ambos productos. 14 Bibliografía. Agrawal, R y Srikant, R. (1994) “Fast Algorithms for Mining association Rules”. Paper presented at the 20th Internacional Conference on Very Large Databases, Santiago, Chile. Agrawal, R., Imielienski, T. y Swami, A. (1993) “Mining Association Rules between Sets of Items in Large Databases. En: Processes and Conferences on Management of Data, ed. ACM Press, New York, pp. 207-216. Aragón, A., Calzada, J.M., García, A. y Pacheco, J.A. (1997) “Aplicaciones de redes neuronales en economía”. V Jornadas de ASEPUMA, España. Bigus, J.P. (1996) Data mining with neural networks: solving business problems from application development to decision support, ed. McGraw-Hill, New York. Bonchi, F., Giannotti, F., Mainetto, G. y Pedreschi, D. (1999) “Using Data Mining Techniques in Fiscal Fraud Detection”. Paper presented at the First International Conference on Data Warehousing and Knowledge Discovery (DaWak’99). Florence, Italy. Breiman, L., Friedman, Jh., Olshen, R.A. y Stone, C.J. (1984) Classification and regression trees. Monterey, ed. Wadsworth & Brooks/Cole Advanced Book & Software. Cajal, B., Jiménez, R., Montaño, J.J., Palmer, A., Sesé, A. y Sospedra, M.J. (2001) “Modelo Lineal Generalizado, Redes Neuronales Artificiales y Aprendizaje Automático: un estudio comparativo”. Comunicación presentada en la VIII Conferencia Española de Biometría, Pamplona, España. De la Fuente, D., Pino, R., Suárez, C. y Mayo, J.L. (1996) “Análisis comparativo de los métodos de previsión univariante, Box-Jenkins, Redes Neuronales artificiales y espacios de Estado”. Revista de Estudios de Economía Aplicada, 5, pp. 5-33. Elorduy Trifoll, J. (2001) Las redes neuronales como herramienta de predicción de quiebra, Tesis Doctoral, Universidad Nacional de Educación a Distancia. España. Hand, D.J. (1999) “Statistics and Data Mining: Intersecting disciplines”. SIGKDD Explorations, 1, pp. 16-19. García Estévez, P. (2002) “Modelo de predicción del rendimiento de una cartera mediante una Red Neuronal”. Análisis Financiero, 87, pp. 52-59. García Estévez, P. (2002) “Aplicaciones de las Redes Neuronales en finanzas”. Documentos de Trabajo de la Facultad de Ciencias Económicas y Empresariales. Universidad Complutense. España Gondar Nores, J.E, (2003) Técnicas estadísticas aplicadas a las ciencias bancarias, Data Mining Institute, España. Gondar Nores, J.E, (2003) CRM y Data Mining, Data Mining Institute, España. Hand, D.J.(2000) “Data Mining. New Challenges for Statisticians”. Social Science Computer Review, 18, pp. 442-449. Holland, J.H. (1975) Adaptation in Natural and Artificial Systems. University of Michigan Press, Ann Arbor, Estados Unidos. Joerding, W., Li, Y., Hu, S., y Meador, J.(1994) “Approximating production technologies with feedforward neural networks”, en Johnson, J.D. y Whinston, A.B. (eds.) Advances in Artificial Intelligence in Economics, Finance and Management, pp.211-216. Kaastra I. y Boyd, M. (1996) Designing a neural network for forecasting financial and economic time series, Ed. Neurocomputing 10, Elsevier, Estados Unidos. Laffarga, J, Martín, J.L. y Vázquez, M.J. (1986) “El pronóstico a corto plazo del fracaso en las instituciones bancarias: propuesta de una metodología y aplicaciones de la banca española”. Esic-Market, 53, pp. 59-116. Levi, J.P, Sulé Alonso, M.A. y Solazar Clavel, J. (2002) “La predicción y la clasificación de datos en Marketing. Un estudio comparativo mediante técnicas multivariantes, árboles jerárquicos y redes neuronales”. Revista ciencia Ergo Sum, 9, nº 1, Méjico. López González, E. y Flórez López, R. (1999) “El análisis de solvencia empresarial utilizando redes neuronales auto asociativas: el modelo Kohonen”. Proceedings of the VI International Meeting on Advances in Computational Management, Reus, España. Luan, J y Willet, T. (2001) “Data Mining and Knowledge management”. Paper presented at the Association of Institutional Research Conference, Long Beach, CA. Mar Molinero, C. y Serrano, C. (2001) “Bank Failure: A Multidimensional Scaling Approach”. European Journal of Finance, 7, pp. 165-183. Martín del Brío, B. y Sanz Molina, A. (2001) Redes Neuronales y Sistemas Borrosos, ed. Ra-ma, España. 15 Masson, E. y Wang, Y. (1990) “ Introduction to computation and learning in artificial neural networks”. European Journal of Operational Research, 47, pp. 1-28. Montaño, J.J., Palmer, A., Sesé, A. y Beltrán, M. (2003) “Redes Neuronales Artificiales aplicadas al análisis de datos turísticos”. En Técnicas y métodos estadísticos aplicados al sector turístico, ed. Govern de las Illes Balears, España. Otero, J.M y Trujillo, F. (1993) “Predicción Multivariante y multiperiodo de una serie temporal económica mediante una red neuronal”. Revista de Estadística Española, 35, pp. 345375. Pacheco, J.A. y Delgado, C. (1990) “Utilización de las redes neuronales artificiales en el análisis y predicción del IPC Regional”. II Congreso de Economía de Castilla y León, España. Palmer, A., Beltrán, M., Montaño, J.J., Jimenez, R., Sesé, A. y Franconetti, J. (2003) “Minería de datos en Economía. Aplicaciones de redes neuronales artificiales a datos de la Encuesta de gasto turístico de las Islas Baleares”. I Congreso de Economía de las Illes Balears, España. Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colinshearer y Rüdiger Wirth (2000) CRISP-DM 1.0 Step-by-step Data Mining guide. Pitarque, A., Roy, J.F. y Ruiz, J.C. (1998) “Redes neurales vs Modelos estadísticos: Simulaciones sobre tareas de predicción y clasificación”. Psicológica, 19, pp. 387-400. Prado Lorenzo, J.M. (1991) La aplicación de sistemas expertos al análisis de estados financieros. En memoria de Mª Angeles Gil Luezas, ed. AC, Madrid, España. Quinlan, J.R. (1986) “Induction of decision trees”, Machine Learning, 1, pp. 81-106. Rodríguez Marín, P. (1991) “Sistemas expertos en la gestión empresarial”. Dirección y Progreso, 119, pp. 42-47. Rumelhart, D.E., Hinton, G.E. y Willians, R.J. (1986) “Learning representations by backpropagating errors”. Nature, 323, pp. 533-536. Santín, D., Delgado, F.J. y Valiño, A. (2001) “Measuring Technical Efficiency whith neural networks: a review”. The Efficiency Series Papers. Permanebte Seminar on Efficiency. Efficiency Group at the Departament of Economics in Oviedo, Spain. Sastri, T. (1994) “A neural network production planning system”, en Johnson, J.D. y Whinston, A.B. (eds.) Advances in Artificial Intelligence in Economics, Finance and Management, pp. 113-124. Serrano, C. (1995) “Las redes neuronales autoorganizadas: aplicaciones en la gestión empresarial”. En Sierra Molina, G. y Bonsón Ponte, E. (Eds.) Artificial Intelligence in Accounting, Finance and Tax, pp. 287-310. Serrano, C. (1997) “Feedforward Neural Network in the Classification of Financial Iformation”. European Journal of Finance, 3, pp. 183-202. Serrano, C. y Martín del Brío, B. (1993) “Predicción de la quiebra bancaria mediante el empleo de redes neuronales artificiales”. Revista Española de Financiación y Contabilidad, 22, pp. 153-176. SPSS Inc. (2001) Clementine 6.0 User’s Guide. Varetto, F. (1998) “Genetic algorithms applications in the analysis of insolvency risk”. Journal of Banking and Finance, 22, pp. 1421-1439. Warren, S. (1994) Neural Network and Statistica Models, SAS Institute Inc. 16