TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN DEL LAVADO DE ACTIVOS Y LA FINANCIACIÓN DEL TERRORISMO (LA/FT) DOCUMENTOS UIAF Bogotá D.C. 2014 /1 Técnicas de minería de datos para la detección y prevención del lavado de activos y la financiación del terrorismo (LA/FT) 2014 Esta publicación fue realizada por la Unidad de Información y Análisis Financiero (UIAF), Unidad Administrativa Especial adscrita al Ministerio de Hacienda y Crédito Público. DIRECTOR GENERAL Unidad de Información y Análisis Financiero Luis Edmundo Suárez Soto EQUIPO DE PRODUCCIÓN /2 Unidad de Información y Análisis Financiero Este documento fue desarrollado por servidores públicos de la UIAF, con el soporte de un equipo interno de coordinación editorial y bajo la dirección del Director General y el Subdirector de Análisis Estratégico. CORRECCIÓN DE ESTILO, DISEÑO, DIAGRAMACIÓN E IMPRESIÓN García Solano y Compañía SAS - Caliche Impresores Impresores Molher LTDA De acuerdo con lo previsto en el Artículo 91 de la Ley 23 de 1982, los derechos de autor del presente documento pertenecen a la Unidad de Información y Análisis Financiero (UIAF). Queda prohibida cualquier reproducción, parcial o total, del contenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis contenidos son de carácter general y no hacen referencia ni constituyen prueba sobre vínculos ciertos y permanentes de individuos con actividades asociadas al lavado de activos y financiación del terrorismo. /3 La UIAF no se responsabiliza por el uso (acción u omisión) que haga cualquier persona o grupo de personas de la información (total o parcial) contenida en el texto. ISBN: 978-958-58578-5-8 Primera edición© 2014, UIAF /4 TABLA DE CONTENIDO INTRODUCCIÓN pag 8 1 2 3 EL MODELO SAB Y LA MINERÍA DE DATOS pag 10 PROCESO DE GENERACIÓN DE CONOCIMIENTO O KDD /5 pag 13 APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN DEL LA/FT pag 20 CONCLUSIONES pag 30 /6 TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN DEL LAVADO DE ACTIVOS Y LA FINANCIACIÓN DEL TERRORISMO (LA/FT) “Puedes utilizar todos los datos cuantitativos a tu alcance; aun así, debes desconfiar de ellos y utilizar tu propia inteligencia y juicio” (Alvin Toffler, escritor y doctor en Letras, Leyes y Ciencias, 1928 - presente). /7 INTRODUCCIÓN /8 El lavado de activos consiste en ocultar, manejar, invertir o aprovechar, en cualquier forma, dinero u otros bienes provenientes de actividades delictivas, o para dar apariencia de legalidad a las transacciones y fondos vinculados con las mismas, actividad que con el tiempo ha trascendido del sector financiero a diferentes entornos de la economía, donde contamina y desestabiliza los mercados, poniendo en riesgo los pilares económicos, políticos y sociales de la democracia (Blanco, 1997). La inteligencia financiera y económica juega un papel fundamental en ese contexto, dado que a través del análisis y conocimiento que produce, busca prevenir y detectar muchas de las actividades ilícitas antes descritas y, así mismo, contener sus impactos. Ante un creciente volumen de información por centralizar y estudiar, y en aras de desempeñar una labor más efectiva, se hace necesario emplear técnicas de análisis de datos más complejas y dinámicas a la estadística, para lograr, finalmente, la extracción de conocimiento no implícito. Concretamente, se trata de herramientas como la minería de datos, la cual apoya el proceso de Knowledge Discovery in Data Bases (KDD), que consiste en analizar grandes volúmenes de datos para generar conocimiento útil a favor de la toma de decisiones. El objetivo de este documento es presentar las principales técnicas de minería de datos (MD) utilizadas para describir, clasificar y detectar irregularidades a partir de la creación de perfiles “normales” transaccionales, facilitando el hallazgo de patrones o reglas generales (incluye métodos de agrupación) en el registro histórico de las transacciones. En contraste, los procedimientos de predicción describen las proyecciones obtenidas a partir de diversas metodologías1 para pronosticar el comportamiento futuro de las transacciones realizadas. En la actualidad se utilizan las siguientes: Redes Neuronales, Árboles de Decisión y Bayes; así mismo, se emplean sistemas de aprendizaje autónomo para reconocimiento de patrones que parten de eventos históricos. desarrollo tecnológico de la UIAF, desde la implementación del modelo de gestión Sistémico, Amplio y Bidireccional (SAB), en los últimos casi cuatro años; continúa, con una presentación del proceso de generación de conocimiento KDD, que abarca desde la obtención de información hasta la aplicación del conocimiento adquirido para la toma de decisiones, seguida por una explicación de la aplicación de técnicas de minería de datos para la detección y prevención del lavado de activos (LA) y la financiación del terrorismo (FT); y, finalmente, ofrece unas conclusiones generales. Este documento consta de cuatro secciones: primero, una contextualización sobre la aplicación de técnicas de minería de datos2 en el 1 Cárdenas Rojas, Liliam (2010). Análisis Predictivo para la Prevención de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la droga y el delito, Cámara de Comercio de Bogotá, Embajada Británica. http://incp.org.co/Site/info/archivos/bancolombia.pdf. 2 Para conocer el contexto histórico de la minería de datos, consultar, (2014) Aplicabilidad de la Minería de Datos y el Análisis de Redes Sociales en la Inteligencia Financiera. Bogotá: Unidad de Información y Análisis Financiero. /9 /10 01 EL MODELO SAB Y LA MINERIA DE DATOS Con el diseño y aplicación en la UIAF del modelo de gestión Sistémico, Amplio y Bidireccional (SAB)3, se han potencializado las capacidades de análisis y respuesta del Sistema Nacional Antilavado de Activos y Contra la Financiación del Terrorismo (ALA/CFT). En particular, su componente “Amplio”, al incorporar nuevas fuentes de información, propende por la creación de más y mejores sensores que aporten datos sobre la evolución de las diferentes actividades económicas en el país, requiriendo, así mismo, una mayor capacidad de análisis. En este contexto, bajo el modelo SAB, la UIAF crea la Plataforma de Inteligencia Económica (PIE), basada en un conjunto de hardware y software, que se potencializa gracias a la integración de un equipo humano con las capacidades necesarias para utilizar estas herramientas, implementando metodologías provenientes de las Matemáticas, Estadística, Economía, Finanzas y otras ciencias, con el fin de mejorar el entendimiento de la amenaza y producir mejores resultados en el Sistema ALA/CFT. En particular, las herramientas de minería de datos, objeto de este documento, facilitan la identificación de patrones y tendencias. Así mismo, permiten identificar transacciones atípicas, posiblemente relacionadas con los delitos mencionados. La aplicación de estas técnicas le ha permitido a la UIAF optimizar tiempo y recursos en el desarrollo de la inteligencia financiera y, principalmente, robustecer la información y análisis que produce en apoyo a las autoridades competentes, (como fuerzas del orden, Fiscalía General de la Nación), entre otros agentes, de acuerdo con las posibilidades y restricciones legales de cada uno. Lo anterior reafirma el carácter Amplio y Bidireccional del modelo SAB, al fortalecer la articulación entre los agentes del sistema, para mejorar la efectividad de sus resultados. La estructura del modelo SAB, desde la perspectiva de la recolección y procesamiento de información, se resume en la Figura 1; tener este contexto presente, ayudará a ilustrar la utilidad de las técnicas de minería de datos abordadas en el 3 Para conocer el contexto histórico, la estructura y los componentes del modelo SAB, consultar. Suárez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia Financiera y el Sistema Antilavado de Activos y Contra la Financiación del Terrorismo. Un Nuevo Modelo de Gestión: Sistémico, Amplio y Bidireccional. Segunda edición. Bogotá: Unidad de Información y Análisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569 /11 presente documento, el cual busca ofrecer una perspectiva detallada sobre la aplicación de las mismas y servir como punto de referencia de especialistas del sistema nacional e internacional ALA/CFT (especial- mente, pero no exclusivamente, otras Unidades de Inteligencia Financiera - UIF), para quienes el conocimiento aquí desarrollado puede aportar a sus propias labores y efectividad. Figura 1. Modelo SAB – recolección, manejo y procesamiento de información Plataforma de Inteligencia Económica Más y Mejores Sensores /12 Reportantes *Entidades del estado *Gremios *Organismos internacionales *Centros académicos Base de Datos Politemáticas *Volumen *Velocidad *Variedad *Veracidad Mejoras en la Calidad de dos Reportes: Crecimiento Continuo del Sistema ALA/CFT Inteligencia Financiera y Económica *Análisis financiero *Análisis económico *Análisis matemático y Estadístico *Análisis visual Mejor Entendimiento de la Amenaza *Entender el Pasado *Monitorear el Presente *Anticipar el Futuro Más Capacidades de Detección y Judicialización: Mejores Resultados /13 02 PROCESO DE GENERACIÓN DE CONOCIMIENTO O KDD El proceso de Knowledge Discovery in DataBases (KDD) surte cuatro pasos para la generación de conocimiento. Estas etapas pueden ser recursivas, es decir, que se retorna a ellas una y otra vez (proceso iterativo) a medida que se obtienen resultados preliminares que requieren replantear las variables iniciales. A continuación se expone una forma de representar el proceso que puede ser empleado por cualquier unidad de inteligencia financiera para la generación de conocimiento sobre posibles operaciones de LA/FT (ver Figura 2). Figura 2. Proceso de KDD Interpretación y resultados Minería de datos Transformación /14 Procesamiento Generación de conocimiento Patrones Selección Datos Transformados Limpieza base de datos Datos Preprocesados Selección de atributos Nueva base de datos Bases de datos En adelante se describen cada una de las etapas del proceso. 1. Selección de los datos 2. Pre procesamiento de datos Es la etapa más dispendiosa (requiere cerca del 90% del tiempo), como se describe en Fayyad et. al. (1996), ya que consiste en la recolección y preparación de los datos. En este proceso se comprende la problemática asociada a la base de datos y se establecen objetivos. A la vez, se identifican las variables que serán consideradas para la construcción del modelo de minería de datos (MD). Integración de datos: Se analiza si la base de datos requiere incluir o integrar información o variables que reposan en otras bases de datos, y que será relevante para el modelo de minería de datos. Si es necesario, se realiza un modelo de entidad-relación entre tablas, el cual permite representar las entidades relevantes (representaciones gráficas y lingüísticas) de un sistema, así como sus propiedades e interrelaciones (Ávila, 2005). De acuerdo con el origen de cada tabla(s) de datos, se establece el mecanismo que se utilizará para extraer la información requerida por el modelo; también incide la opinión del experto, quien puede sugerir las series que explican parcialmente la variable objetivo (clase). Reconocimiento y limpieza: Se depura el conjunto de datos respecto a valores atípicos, faltantes y erróneos (eliminación de ruido e inconsistencias). /15 3. Selección de características /16 Exploración y limpieza de datos: Aplicando técnicas de análisis exploratorio de datos (estadístico, gráfico, entre otros), se busca identificar la distribución de los datos, simetría, pruebas de normalidad y correlaciones existentes entre los datos. En esta etapa es útil el análisis descriptivo del conjunto de datos (clustering y segmentación, escalamiento, reglas de asociación y dependencia, reducción de la dimensión), identificación de datos nulos, ruido y outliers, así como el uso de matrices de correlación (si las variables son numéricas), diagramas (barras, histogramas, caja y bigotes), entre otras técnicas adecuadas de muestreo. Transformación: Se estandariza o normaliza la información (colocarla en los mismos términos de formato y forma). La selección de la técnica a aplicar dependerá del algoritmo que se utilizará para la generación de conocimiento. Las técnicas comúnmente utilizadas son: discretización, esca- lado (simple y multidimensional) y estandarización. Reducción de datos: Se disminuye el tamaño de los datos mediante la eliminación de características redundantes. Selección/extracción de atributos: Se realiza un proceso de identificación y selección de variables relevantes. Entre las técnicas más utilizadas para este proceso se encuentran, métodos basados en filtros y en wrappers (seleccionan los atributos en función de la calidad del modelo de MD asociado a los atributos utilizados). Construcción de atributos: En caso que los datos se encuentren asociados a patrones complejos, se construye un atributo sencillo que facilite la interpretación del algoritmo. Se puede recurrir a diferentes técnicas, como la construcción guiada por los datos, el modelo o el conocimiento; finaliza cuando se han analizado y seleccionado las técnicas de extracción de conocimiento que mejor se adapten al lote de datos. 4. Minería de Datos La minería de datos según Esteban (2008) et. al. (1991 / 1995), se puede definir como un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos, que a su vez, facilita la toma de decisiones y emplea técnicas de aprendizaje supervisado y no-supervisado. En la fase se define el tipo de investigación a realizar de acuerdo con las características de los atributos que conforman la base de datos, que pueden ser de tipo descriptivo4 y/o predictivo. El siguiente paso es la elección y aplicación de métodos de extracción de conocimiento y la selección de medidas de validación para evaluar el rendimiento y la precisión del(os) método(s) escogido(s) por el analista de MD. A continuación se presentan las técnicas empleadas, las cuales pueden ser de tipo supervisado o no supervisado. 4 • Identificación: Evidenciar la existencia de objetos, eventos y actividades en el conjunto de datos (análisis factorial, discriminante, regresivo, de correlaciones). • Clasificación: Particionar los datos de acuerdo a las clases o etiquetas asignadas al conjunto de datos (ej: tablas de decisión, reglas de decisión, clasificadores basados en casos, redes neuronales, clasificadores bayesianos y clasificadores basados en acoplamientos). • Agrupación: Permitir la maximización de similitudes y minimización de diferencias entre objetos, mediante la aplicación de algún criterio de agrupación. • Asociación: Tener presente que las reglas de asociación buscan descubrir conexiones existentes entre objetos identificados. • Predicción: Descubrir el comportamiento de ciertos atributos en el futuro. (Regresión y series temporales, análisis discriminante, métodos bayesianos, algoritmos genéricos, árboles de decisión, redes neuronales). Identifica elementos comunes en los individuos analizados y determinan agrupaciones que surgen de manera natural, dados los datos disponibles. /17 /18 El proceso más importante en minería de datos es el proceso de limpieza de los datos y definición de las variables. Si los datos no son correctos el modelo creado no servirá. Del mismo modo, la validez de los patrones descubiertos depende de cómo se apliquen al mundo real o a las circunstancias. Aunque integra el conocimiento de diferentes fuentes como la Biología, Matemáticas, Estadística, Ciencias Sociales, entre otras, la minería de datos presenta diferencias importantes, por ejemplo, respecto a la estadística, la cual plantea una hipótesis y usa datos para probarla o refutarla. La eficacia de este enfoque se ve limitada por la creatividad del usuario para desarrollar las diversas hipótesis, así como por la estructura del software que utiliza; por el contrario, la minería de datos emplea una aproximación de descubrimiento para examinar simultáneamente varias relaciones en bases de datos multidimensionales, identificando aquellas que se presentan con frecuencia (2008). 5. Interpretación y Resultados Se analizan los resultados de los patrones obtenidos en la fase de MD, mediante técnicas de visualización y de representación, con el fin de generar conocimiento que aporte mayor valor a los datos. En esta fase se evalúan los resultados con los expertos y, si es necesario, se retorna a las fases anteriores para una nueva iteración. Las actividades mencionadas anteriormente se resumen en la Figura 3. Figura 3. Proceso de generación de conocimiento automático Comprensión y analisis de información Transformación de datos (discretizacion, normalización otros depende del conjunto de datos) Evaluación Reducción de datos Eliminación de datos redundantes, selección de atributos, clases y conjuntos. Construcción de atributos. Resultados de Data-set vs. algoritmos de validación (cross validation, split validation, otros) Preprocesamiento Modelación Integración reconocimiento y limpieza de datos (analisis exploratorio y estadístico) Selección de técnicas de MD: Det. Algoritmica y análisis de resultados parciales. Despliegue Consolidación de conocimiento Patrones de conocimiento /19 /20 03 APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN DEL LA/FT Durante la última década, el crecimiento de las bases de datos (BD) ha traído consigo la dificultad para analizar la información, lo que ha llevado a desarrollar herramientas de análisis cada vez más sofisticadas y potentes que permitan la exploración y análisis de información, generando patrones de conocimiento no trivial válidos, útiles y comprensibles. Uno de estos casos es el de la información respecto a actividades criminales como el tráfico de drogas, soborno y contrabando, delitos que generan cuantiosas ganancias y derivan en un alto volumen de transacciones, realizadas con un creciente nivel de complejidad para esconder el origen ilícito de los recursos, dificultando así la detección de los entes de control. En este sentido, diversos países desarrollados han avanzado significativamente en emplear sistemas de monitoreo online para la detección de operaciones de lavado de activos y financiación del terrorismo (LA/FT). El Financial Artificial Intelligence System (FAIS) del Financial Crime Enforcement Network (FinCEN) de Estados Unidos, integra el criterio de expertos con herramien- tas tecnológicas para identificar operaciones potencialmente relacionadas con LA, configurando así un sistema antilavado automático (ALM) (Senator et. al., 1995), el cual se entiende como una inversión a largo plazo para prevenir el ingreso de dinero de origen ilícito a la economía legal. Varias técnicas de aprendizaje automático han sido implementadas para la detección de fraude y de lavado de activos, cuya tasa de clasificación ha sido alta (verdaderos positivos y falsos positivos bajos), comparados con técnicas tradicionales (Maimon et.al., 2003/2007/2010). Tomando el caso de los Sistemas Antilavado de Activos y Contra la Financiación del Terrorismo (ALA/ CFT), los procedimientos aplicados más conocidos son: • Algoritmos de agrupación: También denominados procedimientos de clustering, buscan generar nuevos conjuntos a partir de los datos analizados, tales que los individuos en un mismo grupo sean lo más parecidos posible y que, simultáneamente, cada grupo sea lo más diferente posible. Estos /21 métodos trabajan con la distancia que hay entre cada elemento y el centro de cada uno de los grupos, asignando el individuo al grupo al cual se encuentre más cerca. /22 La complejidad de estos algoritmos radica en la definición de un criterio para establecer distancias o similitudes y el procedimiento recursivo que se sigue para conformar cada uno de los grupos hasta satisfacer los criterios establecidos. Entre estos métodos se encuentran los jerárquicos, de partición, basados en densidades, modelos y cuadrículas y los computacionales (Maimon y Rokach, 2010). Ejemplo: para la detección de outliers. Sin embargo, estos métodos no pueden identificar tendencias de comportamiento sospechoso. • Reglas de asociación: Examinan todas las posibles combinaciones de características contenidas en una base de datos y determinan la probabilidad de configuración de estos rasgos. Ejemplo: un individuo se puede definir de acuerdo con el tipo de persona (natural o jurídica), sector económico, grupo de frecuencia de transacciones y relación con una investigación de inteligencia eco- nómica. Las reglas de asociación evalúan todas las posibles combinaciones de estas características y determinan las configuraciones más probables (Maimon y Rokach, 2010). Los modelos predictivos de MD buscan obtener los valores adquiridos por una variable de interés en situaciones no observadas (ej: el futuro), en función de los valores que toman otras series relacionadas. En el contexto de la lucha ALA/ CFT, este tipo de algoritmos permite establecer los comportamientos del individuo relacionados con su judicialización por una actividad delictiva, o su inclusión en un caso de inteligencia financiera o reporte de operación sospechosa (ROS). A continuación se describen algunos métodos principales: • Árboles de decisión: Un árbol de decisión es un modelo de clasificación que divide un conjunto de análisis, buscando el mayor grado de pureza entre los grupos resultantes5 . En todo árbol hay un nodo inicial denominado raíz, que contiene la totalidad de la información. Este grupo se subdivide en dos o más grupos denominados como internos, si continúan sub- Pureza se entiende como la presencia representativa de una de las características que toma la variable de interés (junto con la participación insignificante de la otra categoría). 5 dividiéndose, o terminales u hojas, si no enfrentan más segmentación (Maimon y Rokach, 2010). una de las categorías que toma la variable de interés. Se dispone de varios algoritmos para la generación de árboles de decisión, entre los cuales se cuentan ID3 (introducido por Quinlan en 1986), C4.5 o J486 , CART, CHAID Random Tree y QUEST (Safavin y Landgrebe, 1991). En la Figura 4 se presenta un ejemplo de la aplicación del C4.5. En un árbol de clasificación cada nodo interno se parte de acuerdo a una función discreta sobre las variables utilizadas para el análisis, hasta llegar a los nodos terminales donde se tiene la proporción de individuos ubicados en cada Figura 4. Ejemplo de aplicación de C4.5 a3 > 2.450 > 1.750 < 2.450 /23 a4 Iris Virginica Iris-setosa < 1.750 > 5.350 a3 < 5.350 Iris Virginica a3 < 4.950 > 4.950 a4 > 1.550 Iris Versicolor Iris Versicolor < 1.550 Iris Virginica 6 Dependiendo del lenguaje de desarrollo empleado para la construcción del algoritmo, se denota su nombre. El C4.5 fue desarrollado en C++, mientras que J48 fue desarrollado en Java. • Redes neuronales artificiales (RNA): Son un sistema de aprendizaje y procesamiento automático inspirado en la forma como funciona el sistema nervioso animal, que parte de la interconexión de neuronas que colaboran entre sí para generar un resultado. Esta salida o resultado proviene de tres funciones (Maimon y Rokach, 2010): /24 1. Propagación (función de excitación): Es la sumatoria de cada entrada multiplicada por el peso de su interconexión (valor neto). Si el peso es positivo, la conexión se denomina excitatoria, y si es negativo, se denomina inhibitoria. 2. Activación (modifica a la función anterior): su existencia no es obligatoria, siendo en este caso la salida, la misma función de propagación. 3. Transferencia: se aplica al valor devuelto por la función de activación. Se utiliza para acotar la salida de la neurona y generalmente viene dada por la interpretación que se desee dar a dichas salidas. Algunas de las más utilizadas son la función sigmoidea (para obtener valores en el intervalo [0,1]) y la tangente hiperbólica (para obtener valores en el intervalo [-1,1]). Las RNA usualmente implementadas dependen del patrón de conexiones que representan. Existen varias formas de clasificarlas. Por topología se definen dos tipos básicos: 1. Feed-forward Neural Net (FNN): Redes de propagación progresivas o acíclicas, en las que las señales avanzan desde la capa de entrada hacia la salida, sin presentar ciclos ni conexiones entre neuronas de la misma capa. Pueden ser de dos tipos: monocapa (ej. perceptrón, Adaline) y multicapa (ej. Perceptrón multicapa. Ver Figura 5). 2. Recurrent Neural Network (RNN): Redes neuronales recurrentes, que presentan al menos un ciclo cerrado de activación neuronal (ej. Elman, Hopfield, máquina de Boltzmann). Figura 5. RNA perceptrón multicapa Capa de entrada Capa oculta Capa de salida Entrada 1 1 1 Entrada 2 Entrada 3 2 2 1 Salida 3 m /25 Entrada n n Una segunda clasificación es en función del tipo de aprendizaje: 1. Supervisado: Requieren un conjunto de datos de entrada previamente clasificado. Tal es el caso del perceptrón simple, la red Adaline, el perceptrón multicapa, red backpropagation, y la memoria asociativa bidireccional. 2. No supervisado o autoorganizado: No necesitan de un conjunto previamente clasificado. Tal es el caso de las memorias asociativas, las redes de Hopfield, la máquina de Boltzmann y la máquina de Cauchy, las redes de aprendizaje competitivo, las redes de Kohonen o mapas autoorganizados y las redes de resonancia adaptativa (ART). 3. Redes híbridas: Son un enfoque mixto en el que se utiliza una función de mejora para facilitar la convergencia. Ej: redes de base radial. 4. Reforzado: Se sitúa a medio camino entre el supervisado y el autoorganizado. Una tercera clasificación está en función del tipo de entrada: 1. Redes analógicas: Procesan datos de entrada con valores continuos que normalmente son acotados. Ej. Hopfield, Kohonen y las redes de aprendizaje competitivo. /26 2. Redes discretas: Procesan datos de entrada de naturaleza discreta (habitualmente valores lógicos booleanos). Ej: máquinas de Boltzmann y Cauchy, y la red discreta de Hopfield. • Naive Bayes: Este tipo de algoritmo comparte elementos de la biología, inteligencia artificial y estadística. Están definidos por un grafo donde existen nodos que representan variables aleatorias junto con sus enlaces, los cuales hacen referencia a dependencias entre las mismas. El éxito de las redes bayesianas se debe a su ha- bilidad para manejar modelos probabilísticos complejos al descomponerlos en componentes más pequeños y digeribles. Se utilizan para investigar relaciones entre variables y para predecir y explicar su comportamiento al calcular la distribución de probabilidad condicional de una variable, dados los valores de otras series de interés (Maimon y Rokach, 2010). • Máquinas de soporte vectorial (MSV): Son un conjunto de algoritmos de aprendizaje supervisado, relacionados con problemas de clasificación y regresión. En este contexto, el aprendizaje se relaciona con la estimación de funciones a partir de un conjunto de entrenamiento, que permite etiquetar las clases y entrenar una MSV para construir un modelo que prediga la clase de una nueva muestra. La MSV construye un hiperplano(s) en un espacio hiperdimensional de máxima distancia respecto a los puntos que estén más cerca del mismo. Estos modelos están estrechamente relacionados con las RNA e incorpora la función de Kernel (ej. radial, polinomial, neural, anova, epachnenikov, combinación gaussiana y multicuadrática). Ver Figura 6. Figura 6. MSV Las MSV y las RNA obtienen un mejor resultado pero su costo computacional es muy alto, lo que se suma a la complejidad asociada a su interpretación y al entrenamiento requerido para obtener un buen resultado (LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006). A continuación, un comparativo entre las RNA y MSV (ver tabla 1): x2 Hi pe rp la no Óp tim o Margen máximo x1 Tabla 1 RNA Las capas ocultas transforman a espacios de cualquier dimensión. El espacio de búsqueda tiene múltiples mínimos locales. El entrenamiento es costoso. Se establece el número de nodos y capas ocultas. Alto funcionamiento en problemas típicos. MSV Kernels Transforma a espacios de dimensión muy alta. El espacio de búsqueda tiene un mínimo global. El entrenamiento es altamente eficiente Se diseña la función de kernel y el parametro de coste C. Muy buen funcionamiento en problemas tipicos. Extremadamente robusto para generalización. Menos necesidad de emplear heurísticos en el entrenamiento. Fuente: LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006 /27 /28 • Reglas de inducción: Considerando que los patrones ocultos en grandes bases de datos suelen expresarse como un conjunto de reglas, aquellas de inducción se adaptan a los objetivos de la MD aun cuando son una de las técnicas más representativas del aprendizaje de máquina. Aquí, una regla suele consistir de instrucciones del tipo Si (característica 1, atributo 1) y Si (característica 2, atributo 2) y… y Si (característica n, atributo n) entonces (decisión, valor), aunque se pueden encontrar reglas más complejas. La información utilizada por este algoritmo es de carácter categórico, lo cual facilita en gran medida el procesamiento de los datos y el entendimiento de los resultados. Los algoritmos utilizados por las reglas de inducción son LEM1, LEM2 y AQ. A continuación se documentan los resultados presentados en (Wang y Yang, 2007), para dar mayor claridad al uso de las herramientas de minería de datos en la detección de operaciones de LA o FT. Los autores emplean el método de árboles de decisión para obtener reglas que determinen el riesgo que tienen los diferentes tipos de clientes, de un banco comercial en un determinado país, de estar involucrados en una operación de lavado de activos7. Los datos utilizados corresponden a una muestra aleatoria de 28 individuos provenientes de un universo de 160 mil clientes, para los cuales se utilizan cuatro de 52 variables disponibles: industria, localización, tamaño del negocio y productos abiertos con el banco. Las categorías de cada variable se califican en tres niveles de acuerdo con el riesgo de LA que perciben los gerentes de oficina: L (riesgo bajo), M (riesgo medio) y H (riesgo alto). Por ejemplo, para la variable industria: Tabla 2 Industria Manufacturera / Riesgo LA L Química L Comercio doméstico M Medicina M Tecnología M Comercio internacional H Comercio al por menor H Publicidad H Venta de Automóviles H Este enfoque difiere de otros más tradicionales donde el análisis se centra en las transacciones. Los autores utilizan el algoritmo ID3 sobre una muestra de entrenamiento de 21 individuos y prueban la validez de los resultados sobre los 7 individuos restantes. La representación gráfica de los resultados obtenidos es la que se muestra en la Figura 7. En este caso, se evidencia que la industria es la variable más relevante en la determinación del riesgo de LA del cliente (se ubica al principio del árbol de decisión), seguida por localización y tamaño del negocio. tenecen a una industria con bajo riesgo de LA (rama marcada como L originada en industria, número 1 en la figura) y una localización con bajo o mediano riesgo (ramas marcadas como L y M, números 2 y 3 en la figura) tienen un bajo riesgo de estar involucradas en LA. Por el contrario, un individuo de una industria con alto riesgo (rama marcada como H originada en industria, número 1 en la figura) y tamaño de bajo riesgo (rama marcada como L originada en tamaño del negocio, número 4 en la figura), en realidad tienen un alto riesgo de LA. Al observar el árbol de decisión se observa que los clientes que per- Figura 7. Resultados presentados en Wang y Yang, 2007. 1 Industry L M 2 3 Location L Low M Bussines Size H Low H 4 Middle L Middle L Low M Bank products M Middle Bussines Size H Middle L Middle Bank products High H L Middle L High M M Location M Middle H High H Middle H High /29 CONCLUSIONES /30 Dado el incremento del volumen de la información reportada a las Unidades de Inteligencia Financiera (UIF) y la complejidad de su análisis, son fundamentales las herramientas computacionales robustas, que permitan extraer conocimiento no trivial y faciliten la identificación de señales de alerta y construcción y seguimiento de perfiles por sector, respecto a casos atípicos u outliers. Específicamente, los resultados obtenidos mediante la selección y aplicación de técnicas de minería de datos pueden contribuir al proceso de toma de decisiones en entidades especializadas en prevención, detección y/o administración del riesgo de LA/FT. Experiencias nacionales e internacionales demuestran que la adopción de técnicas de minería de datos para la prevención y detección de delitos ha arrojado importantes resultados respecto al hallazgo de patrones de comportamiento de anomalías. BIBLIOGRAFÍA FUENTES ACADÉMICAS Ávila Flores, José Salvador (2005). Sistema de Administración de Red (S.A.R.) Versión 1.0. Universidad Autónoma del Estado de Hidalgo. Instituto de Ciencias Básicas e Ingeniería. México. Blanco Cordero, Isidoro (1997). El delito de blanqueo de capitales. Edit. Aranzadi. Fayyad, Usama, Piatetsky-Shapiro, Gregory and Smyth, Padhraic (1996). From Data Mining to Knowledge Discovery in Databases. American Association for Artificial Intelligence. Esteban Talaya, Águeda (2008). Principios de marketing. ESIC Editorial. Tercera edición. LiuXuan, Zhang Pengzhu (2007). An agent based Anti-Money Laundering system architecture for financial supervision. International Conference on Wireless Communications, Networking and Mobile Computing, Septiembre, pp: 54725475. /31 Maimon, Oded and Rokach, Lior (2010). Data Mining and Knowledge Discovery Handbook. Second Edition. Springer. Ramírez Quintana, María José y Hernández Orallo, José (2003). “Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software”. España. Safavin, S.R., Landgrebe, D (1991). A survey of decision tree classifier methodology [J]. IEEE Transactions on Systems, Man and Cybernetics, Vol.21, No.3, pp.660-667. /32 Anti-money Laundering System. International Conference on Service Operation and Loqistics, and Informatics, SOLI’06, IEEE. pp: 851856. Sudjianto, A., Nair, S., Yuan, M., Zhang, A., Kern, D., Cela-Díaz, F. (2010). Statistical Methods for Fighting Financial Crimes. Technometrics 52(1) 5–19. Virseda Benito, Fernando y Román Carrillo, Javier (sin año). “Minería de datos y aplicaciones”. Universidad Carlos III. Senator, Ted E., Goldberg, Henry G. y Wooton, Jerry (1995). The financial crimes enforcement network AI system (FAIS) identifying potential money laundering from reports of large cash transactions[J], AI Magazine, Vol.16, No.4, pp. 21-39. Wang, Su-Nan and Yang, Jian-Gang (2007). A money Laundering Risk Evaluation Method Based on Decision Tree. Proceedings of the sixth international conference on Machine Learning and Cybernetics, Hong Kong. Shijia Gao, Dongming Xu (2007). Conceptual modeling and development of an intelligent agent-assisted decision support system for anti-money laundering. Expert System with Applications, doi:10.1016/j.eswa. Yue, D., Wu, X. y Wang, Y. (2007). A Review of Data Mining-Based Financial Fraud Detection Research. In: 2007 Wireless Comm., Networking and Mobile Computing, IEEE. , Huaiqing Wang, Yingfeng Wang (2006). Intelligent Zhang, Z. y Salerno, J. (2003). Applying data mining in investigating money laundering crimes. Discovery and data mining (Mlc) 747. FUENTES INSTITUCIONALES Asobancaria (2011). Banco Central Rumiñahui. Construcción y calibración de un índice multicriterio para la detección de Lavado de Activos. FUENTES ELECTRÓNICAS q=isbn:8497324927. Consultado el 14 de agosto de 2014. Cruz Arrela, Liliana (2010). Minería de datos con aplicaciones. Universidad Nacional Autónoma de México. http://132.248.9.195/ptd2010/ abril/0656187/0656187_A1.pdf. Consultado el 14 de agosto de 2014. Artículos estadísticos. http://www. estadistico.com/arts.html. Consultado el 14 de agosto de 2014. Cárdenas Rojas, Liliam (2010). Análisis Predictivo para la Prevención de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la droga y el delito, Cámara de Comercio de Bogotá, Embajada Británica. http://incp.org.co/Site/info/archivos/bancolombia.pdf. Consultado el 14 de agosto de 2014. Pérez López, Cesar y Santín González, Daniel (2007). Minería de datos: conceptos, técnicas y sistemas. https://www.google.com.co/ search?hl=es&tbo=p&tbm=bks&- /33 TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN DEL LAVADO DE ACTIVOS Y LA FINANCIACIÓN DEL TERRORISMO (LA/FT) DOCUMENTOS UIAF Bogotá D.C. 2014