técnicas de minería de datos para la detección y prevención del

Anuncio
TÉCNICAS DE MINERÍA
DE DATOS PARA LA
DETECCIÓN Y PREVENCIÓN
DEL LAVADO DE ACTIVOS
Y LA FINANCIACIÓN
DEL TERRORISMO (LA/FT)
DOCUMENTOS UIAF
Bogotá D.C.
2014
/1
Técnicas de minería de datos
para la detección y prevención
del lavado de activos y la financiación
del terrorismo (LA/FT)
2014
Esta publicación fue realizada por la Unidad de
Información y Análisis Financiero (UIAF), Unidad
Administrativa Especial adscrita al Ministerio de
Hacienda y Crédito Público.
DIRECTOR GENERAL
Unidad de Información y Análisis Financiero
Luis Edmundo Suárez Soto
EQUIPO DE PRODUCCIÓN
/2
Unidad de Información y Análisis Financiero
Este documento fue desarrollado por servidores
públicos de la UIAF, con el soporte de un equipo interno de coordinación editorial y bajo la dirección
del Director General y el Subdirector de Análisis Estratégico.
CORRECCIÓN DE ESTILO, DISEÑO,
DIAGRAMACIÓN E IMPRESIÓN
García Solano y Compañía SAS - Caliche Impresores
Impresores Molher LTDA
De acuerdo con lo previsto en el Artículo 91 de la Ley 23 de 1982, los derechos
de autor del presente documento pertenecen a la Unidad de Información y
Análisis Financiero (UIAF).
Queda prohibida cualquier reproducción, parcial o total, del contenido de este documento sin la
autorización previa y escrita de la
UIAF. Los análisis contenidos son
de carácter general y no hacen referencia ni constituyen prueba sobre vínculos ciertos y permanentes
de individuos con actividades asociadas al lavado de activos y financiación del terrorismo.
/3
La UIAF no se responsabiliza por el
uso (acción u omisión) que haga
cualquier persona o grupo de personas de la información (total o
parcial) contenida en el texto.
ISBN:
978-958-58578-5-8
Primera edición© 2014, UIAF
/4
TABLA DE CONTENIDO
INTRODUCCIÓN
pag 8
1
2
3
EL MODELO SAB Y LA MINERÍA DE
DATOS
pag 10
PROCESO DE GENERACIÓN DE
CONOCIMIENTO O KDD
/5
pag 13
APLICACIÓN DE TÉCNICAS
DE MINERÍA DE DATOS PARA LA
DETECCIÓN Y PREVENCIÓN DEL LA/FT
pag 20
CONCLUSIONES
pag 30
/6
TÉCNICAS DE MINERÍA DE DATOS
PARA LA DETECCIÓN Y PREVENCIÓN
DEL LAVADO DE ACTIVOS Y LA FINANCIACIÓN
DEL TERRORISMO (LA/FT)
“Puedes utilizar todos los datos cuantitativos a tu alcance; aun así, debes
desconfiar de ellos y utilizar tu propia inteligencia y juicio” (Alvin Toffler,
escritor y doctor en Letras, Leyes y Ciencias, 1928 - presente).
/7
INTRODUCCIÓN
/8
El lavado de activos consiste en
ocultar, manejar, invertir o aprovechar, en cualquier forma, dinero u otros bienes provenientes de
actividades delictivas, o para dar
apariencia de legalidad a las transacciones y fondos vinculados con
las mismas, actividad que con el
tiempo ha trascendido del sector
financiero a diferentes entornos
de la economía, donde contamina y desestabiliza los mercados,
poniendo en riesgo los pilares económicos, políticos y sociales de la
democracia (Blanco, 1997).
La inteligencia financiera y económica juega un papel fundamental
en ese contexto, dado que a través
del análisis y conocimiento que
produce, busca prevenir y detectar
muchas de las actividades ilícitas
antes descritas y, así mismo, contener sus impactos. Ante un creciente volumen de información por
centralizar y estudiar, y en aras de
desempeñar una labor más efectiva, se hace necesario emplear
técnicas de análisis de datos más
complejas y dinámicas a la estadística, para lograr, finalmente, la
extracción de conocimiento no
implícito. Concretamente, se trata
de herramientas como la minería
de datos, la cual apoya el proceso
de Knowledge Discovery in Data Bases (KDD), que consiste en analizar
grandes volúmenes de datos para
generar conocimiento útil a favor
de la toma de decisiones.
El objetivo de este documento es
presentar las principales técnicas
de minería de datos (MD) utilizadas
para describir, clasificar y detectar
irregularidades a partir de la creación de perfiles “normales” transaccionales, facilitando el hallazgo de patrones o reglas generales
(incluye métodos de agrupación)
en el registro histórico de las transacciones. En contraste, los procedimientos de predicción describen
las proyecciones obtenidas a partir
de diversas metodologías1 para
pronosticar el comportamiento
futuro de las transacciones realizadas. En la actualidad se utilizan
las siguientes: Redes Neuronales,
Árboles de Decisión y Bayes; así
mismo, se emplean sistemas de
aprendizaje autónomo para reconocimiento de patrones que parten de eventos históricos.
desarrollo tecnológico de la UIAF,
desde la implementación del modelo de gestión Sistémico, Amplio
y Bidireccional (SAB), en los últimos casi cuatro años; continúa,
con una presentación del proceso
de generación de conocimiento
KDD, que abarca desde la obtención de información hasta la aplicación del conocimiento adquirido
para la toma de decisiones, seguida por una explicación de la aplicación de técnicas de minería de
datos para la detección y prevención del lavado de activos (LA) y la
financiación del terrorismo (FT); y,
finalmente, ofrece unas conclusiones generales.
Este documento consta de cuatro
secciones: primero, una contextualización sobre la aplicación de
técnicas de minería de datos2 en el
1
Cárdenas Rojas, Liliam (2010). Análisis Predictivo para la Prevención de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la droga y el delito,
Cámara de Comercio de Bogotá, Embajada Británica. http://incp.org.co/Site/info/archivos/bancolombia.pdf.
2
Para conocer el contexto histórico de la minería de datos, consultar, (2014) Aplicabilidad de la Minería de Datos y el Análisis de Redes Sociales en la Inteligencia
Financiera. Bogotá: Unidad de Información y Análisis Financiero.
/9
/10
01
EL MODELO SAB
Y LA MINERIA DE DATOS
Con el diseño y aplicación en la
UIAF del modelo de gestión Sistémico, Amplio y Bidireccional
(SAB)3, se han potencializado las
capacidades de análisis y respuesta del Sistema Nacional Antilavado
de Activos y Contra la Financiación
del Terrorismo (ALA/CFT). En particular, su componente “Amplio”, al
incorporar nuevas fuentes de información, propende por la creación
de más y mejores sensores que
aporten datos sobre la evolución
de las diferentes actividades económicas en el país, requiriendo, así
mismo, una mayor capacidad de
análisis.
En este contexto, bajo el modelo SAB, la UIAF crea la Plataforma
de Inteligencia Económica (PIE),
basada en un conjunto de hardware y software, que se potencializa gracias a la integración de un
equipo humano con las capacidades necesarias para utilizar estas
herramientas,
implementando
metodologías provenientes de las
Matemáticas, Estadística, Economía, Finanzas y otras ciencias, con
el fin de mejorar el entendimiento
de la amenaza y producir mejores
resultados en el Sistema ALA/CFT.
En particular, las herramientas de
minería de datos, objeto de este
documento, facilitan la identificación de patrones y tendencias. Así
mismo, permiten identificar transacciones atípicas, posiblemente
relacionadas con los delitos mencionados.
La aplicación de estas técnicas le
ha permitido a la UIAF optimizar
tiempo y recursos en el desarrollo
de la inteligencia financiera y, principalmente, robustecer la información y análisis que produce en apoyo a las autoridades competentes,
(como fuerzas del orden, Fiscalía
General de la Nación), entre otros
agentes, de acuerdo con las posibilidades y restricciones legales de
cada uno. Lo anterior reafirma el
carácter Amplio y Bidireccional del
modelo SAB, al fortalecer la articulación entre los agentes del sistema, para mejorar la efectividad de
sus resultados.
La estructura del modelo SAB, desde la perspectiva de la recolección
y procesamiento de información,
se resume en la Figura 1; tener este
contexto presente, ayudará a ilustrar la utilidad de las técnicas de
minería de datos abordadas en el
3
Para conocer el contexto histórico, la estructura y los componentes del modelo SAB, consultar. Suárez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia
Financiera y el Sistema Antilavado de Activos y Contra la Financiación del Terrorismo. Un Nuevo Modelo de Gestión: Sistémico, Amplio y Bidireccional. Segunda
edición. Bogotá: Unidad de Información y Análisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569
/11
presente documento, el cual busca
ofrecer una perspectiva detallada
sobre la aplicación de las mismas y
servir como punto de referencia de
especialistas del sistema nacional
e internacional ALA/CFT (especial-
mente, pero no exclusivamente,
otras Unidades de Inteligencia Financiera - UIF), para quienes el conocimiento aquí desarrollado puede aportar a sus propias labores y
efectividad.
Figura 1. Modelo SAB –
recolección, manejo y procesamiento de información
Plataforma de
Inteligencia
Económica
Más y Mejores
Sensores
/12
Reportantes
*Entidades del estado
*Gremios
*Organismos internacionales
*Centros académicos
Base de Datos
Politemáticas
*Volumen
*Velocidad
*Variedad
*Veracidad
Mejoras en la Calidad de dos Reportes:
Crecimiento Continuo del Sistema ALA/CFT
Inteligencia
Financiera y
Económica
*Análisis financiero
*Análisis económico
*Análisis matemático
y Estadístico
*Análisis visual
Mejor
Entendimiento de
la Amenaza
*Entender el Pasado
*Monitorear el Presente
*Anticipar el Futuro
Más Capacidades
de Detección y
Judicialización:
Mejores
Resultados
/13
02
PROCESO
DE GENERACIÓN
DE CONOCIMIENTO O KDD
El proceso de Knowledge Discovery in DataBases (KDD) surte cuatro pasos para la generación de
conocimiento. Estas etapas pueden ser recursivas, es decir, que se
retorna a ellas una y otra vez (proceso iterativo) a medida que se obtienen resultados preliminares que
requieren replantear las variables
iniciales.
A continuación se expone una forma de representar el proceso que
puede ser empleado por cualquier
unidad de inteligencia financiera
para la generación de conocimiento sobre posibles operaciones de
LA/FT (ver Figura 2).
Figura 2. Proceso de KDD
Interpretación y
resultados
Minería
de datos
Transformación
/14
Procesamiento
Generación
de conocimiento
Patrones
Selección
Datos
Transformados
Limpieza base
de datos
Datos
Preprocesados
Selección de
atributos
Nueva
base de datos
Bases de datos
En adelante se describen cada una
de las etapas del proceso.
1. Selección de los
datos
2. Pre procesamiento de datos
Es la etapa más dispendiosa (requiere cerca del 90% del tiempo),
como se describe en Fayyad et. al.
(1996), ya que consiste en la recolección y preparación de los datos.
En este proceso se comprende la
problemática asociada a la base
de datos y se establecen objetivos.
A la vez, se identifican las variables
que serán consideradas para la
construcción del modelo de minería de datos (MD).
Integración de datos: Se
analiza si la base de datos requiere
incluir o integrar información o variables que reposan en otras bases
de datos, y que será relevante para
el modelo de minería de datos. Si
es necesario, se realiza un modelo
de entidad-relación entre tablas,
el cual permite representar las entidades relevantes (representaciones gráficas y lingüísticas) de un
sistema, así como sus propiedades
e interrelaciones (Ávila, 2005).
De acuerdo con el origen de cada
tabla(s) de datos, se establece el
mecanismo que se utilizará para
extraer la información requerida
por el modelo; también incide la
opinión del experto, quien puede sugerir las series que explican
parcialmente la variable objetivo
(clase).
Reconocimiento y limpieza: Se depura el conjunto de
datos respecto a valores atípicos,
faltantes y erróneos (eliminación
de ruido e inconsistencias).
/15
3. Selección de
características
/16
Exploración y limpieza
de datos: Aplicando técnicas de
análisis exploratorio de datos (estadístico, gráfico, entre otros), se
busca identificar la distribución
de los datos, simetría, pruebas de
normalidad y correlaciones existentes entre los datos. En esta
etapa es útil el análisis descriptivo
del conjunto de datos (clustering
y segmentación, escalamiento, reglas de asociación y dependencia,
reducción de la dimensión), identificación de datos nulos, ruido y
outliers, así como el uso de matrices de correlación (si las variables
son numéricas), diagramas (barras,
histogramas, caja y bigotes), entre
otras técnicas adecuadas de muestreo.
Transformación: Se estandariza o normaliza la información (colocarla en los mismos
términos de formato y forma). La
selección de la técnica a aplicar dependerá del algoritmo que se utilizará para la generación de conocimiento. Las técnicas comúnmente
utilizadas son: discretización, esca-
lado (simple y multidimensional) y
estandarización.
Reducción de datos: Se
disminuye el tamaño de los datos
mediante la eliminación de características redundantes.
Selección/extracción de atributos:
Se realiza un proceso de identificación y selección de variables
relevantes. Entre las técnicas más
utilizadas para este proceso se encuentran, métodos basados en filtros y en wrappers (seleccionan los
atributos en función de la calidad
del modelo de MD asociado a los
atributos utilizados).
Construcción de atributos:
En caso que los datos se encuentren asociados a patrones complejos, se construye un atributo sencillo que facilite la interpretación
del algoritmo. Se puede recurrir a
diferentes técnicas, como la construcción guiada por los datos, el
modelo o el conocimiento; finaliza
cuando se han analizado y seleccionado las técnicas de extracción
de conocimiento que mejor se
adapten al lote de datos.
4. Minería
de Datos
La minería de datos según Esteban
(2008) et. al. (1991 / 1995), se puede
definir como un proceso no trivial
de identificación válida, novedosa,
potencialmente útil y entendible
de patrones comprensibles que se
encuentran ocultos en los datos,
que a su vez, facilita la toma de
decisiones y emplea técnicas de
aprendizaje supervisado y no-supervisado. En la fase se define el
tipo de investigación a realizar de
acuerdo con las características
de los atributos que conforman la
base de datos, que pueden ser de
tipo descriptivo4 y/o predictivo. El
siguiente paso es la elección y aplicación de métodos de extracción
de conocimiento y la selección de
medidas de validación para evaluar el rendimiento y la precisión
del(os) método(s) escogido(s) por
el analista de MD.
A continuación se presentan las
técnicas empleadas, las cuales
pueden ser de tipo supervisado o
no supervisado.
4
•
Identificación: Evidenciar la existencia de objetos, eventos y actividades en el conjunto de
datos (análisis factorial, discriminante, regresivo, de correlaciones).
•
Clasificación: Particionar
los datos de acuerdo a las clases o
etiquetas asignadas al conjunto de
datos (ej: tablas de decisión, reglas
de decisión, clasificadores basados
en casos, redes neuronales, clasificadores bayesianos y clasificadores basados en acoplamientos).
•
Agrupación: Permitir la
maximización de similitudes y minimización de diferencias entre
objetos, mediante la aplicación de
algún criterio de agrupación.
•
Asociación: Tener presente que las reglas de asociación
buscan descubrir conexiones existentes entre objetos identificados.
•
Predicción: Descubrir el
comportamiento de ciertos atributos en el futuro. (Regresión y series
temporales, análisis discriminante,
métodos bayesianos, algoritmos
genéricos, árboles de decisión, redes neuronales).
Identifica elementos comunes en los individuos analizados y determinan agrupaciones que surgen de manera natural, dados los datos disponibles.
/17
/18
El proceso más importante en minería de datos es el proceso de
limpieza de los datos y definición
de las variables. Si los datos no son
correctos el modelo creado no servirá. Del mismo modo, la validez de
los patrones descubiertos depende de cómo se apliquen al mundo
real o a las circunstancias. Aunque
integra el conocimiento de diferentes fuentes como la Biología,
Matemáticas, Estadística, Ciencias
Sociales, entre otras, la minería de
datos presenta diferencias importantes, por ejemplo, respecto a la
estadística, la cual plantea una hipótesis y usa datos para probarla
o refutarla. La eficacia de este enfoque se ve limitada por la creatividad del usuario para desarrollar
las diversas hipótesis, así como por
la estructura del software que utiliza; por el contrario, la minería de
datos emplea una aproximación
de descubrimiento para examinar
simultáneamente varias relaciones
en bases de datos multidimensionales, identificando aquellas que
se presentan con frecuencia (2008).
5. Interpretación y
Resultados
Se analizan los resultados de los
patrones obtenidos en la fase de
MD, mediante técnicas de visualización y de representación, con el
fin de generar conocimiento que
aporte mayor valor a los datos. En
esta fase se evalúan los resultados
con los expertos y, si es necesario,
se retorna a las fases anteriores
para una nueva iteración. Las actividades mencionadas anteriormente se resumen en la Figura 3.
Figura 3. Proceso de generación de conocimiento automático
Comprensión y
analisis de
información
Transformación de
datos (discretizacion,
normalización otros
depende del conjunto
de datos)
Evaluación
Reducción de datos
Eliminación de datos
redundantes, selección
de atributos, clases y
conjuntos.
Construcción de
atributos.
Resultados de
Data-set
vs. algoritmos de
validación (cross
validation, split
validation, otros)
Preprocesamiento
Modelación
Integración
reconocimiento y
limpieza de datos
(analisis exploratorio
y estadístico)
Selección de
técnicas de
MD:
Det. Algoritmica y
análisis de
resultados parciales.
Despliegue
Consolidación de
conocimiento Patrones de
conocimiento
/19
/20
03
APLICACIÓN DE TÉCNICAS
DE MINERÍA DE DATOS
PARA LA DETECCIÓN Y PREVENCIÓN
DEL LA/FT
Durante
la última década, el
crecimiento de las bases de datos
(BD) ha traído consigo la dificultad para analizar la información, lo
que ha llevado a desarrollar herramientas de análisis cada vez más
sofisticadas y potentes que permitan la exploración y análisis de
información, generando patrones
de conocimiento no trivial válidos,
útiles y comprensibles. Uno de estos casos es el de la información
respecto a actividades criminales
como el tráfico de drogas, soborno
y contrabando, delitos que generan cuantiosas ganancias y derivan
en un alto volumen de transacciones, realizadas con un creciente
nivel de complejidad para esconder el origen ilícito de los recursos,
dificultando así la detección de los
entes de control.
En este sentido, diversos países desarrollados han avanzado significativamente en emplear sistemas de
monitoreo online para la detección
de operaciones de lavado de activos y financiación del terrorismo
(LA/FT). El Financial Artificial Intelligence System (FAIS) del Financial
Crime Enforcement Network (FinCEN) de Estados Unidos, integra el
criterio de expertos con herramien-
tas tecnológicas para identificar
operaciones potencialmente relacionadas con LA, configurando así
un sistema antilavado automático
(ALM) (Senator et. al., 1995), el cual
se entiende como una inversión a
largo plazo para prevenir el ingreso
de dinero de origen ilícito a la economía legal.
Varias técnicas de aprendizaje automático han sido implementadas para la detección de fraude y
de lavado de activos, cuya tasa de
clasificación ha sido alta (verdaderos positivos y falsos positivos
bajos), comparados con técnicas tradicionales (Maimon et.al.,
2003/2007/2010).
Tomando el caso de los Sistemas
Antilavado de Activos y Contra la
Financiación del Terrorismo (ALA/
CFT), los procedimientos aplicados
más conocidos son:
•
Algoritmos de agrupación: También denominados procedimientos de clustering, buscan
generar nuevos conjuntos a partir
de los datos analizados, tales que
los individuos en un mismo grupo
sean lo más parecidos posible y
que, simultáneamente, cada grupo
sea lo más diferente posible. Estos
/21
métodos trabajan con la distancia
que hay entre cada elemento y el
centro de cada uno de los grupos,
asignando el individuo al grupo al
cual se encuentre más cerca.
/22
La complejidad de estos algoritmos radica en la definición de un
criterio para establecer distancias
o similitudes y el procedimiento
recursivo que se sigue para conformar cada uno de los grupos hasta
satisfacer los criterios establecidos.
Entre estos métodos se encuentran los jerárquicos, de partición,
basados en densidades, modelos y
cuadrículas y los computacionales
(Maimon y Rokach, 2010). Ejemplo:
para la detección de outliers. Sin
embargo, estos métodos no pueden identificar tendencias de comportamiento sospechoso.
•
Reglas de asociación:
Examinan todas las posibles combinaciones de características contenidas en una base de datos y
determinan la probabilidad de
configuración de estos rasgos.
Ejemplo: un individuo se puede
definir de acuerdo con el tipo de
persona (natural o jurídica), sector
económico, grupo de frecuencia de
transacciones y relación con una
investigación de inteligencia eco-
nómica. Las reglas de asociación
evalúan todas las posibles combinaciones de estas características
y determinan las configuraciones
más probables (Maimon y Rokach,
2010).
Los modelos predictivos de MD
buscan obtener los valores adquiridos por una variable de interés
en situaciones no observadas (ej:
el futuro), en función de los valores
que toman otras series relacionadas. En el contexto de la lucha ALA/
CFT, este tipo de algoritmos permite establecer los comportamientos
del individuo relacionados con su
judicialización por una actividad
delictiva, o su inclusión en un caso
de inteligencia financiera o reporte
de operación sospechosa (ROS). A
continuación se describen algunos
métodos principales:
•
Árboles de decisión: Un
árbol de decisión es un modelo de
clasificación que divide un conjunto de análisis, buscando el mayor
grado de pureza entre los grupos
resultantes5 . En todo árbol hay un
nodo inicial denominado raíz, que
contiene la totalidad de la información. Este grupo se subdivide en
dos o más grupos denominados
como internos, si continúan sub-
Pureza se entiende como la presencia representativa de una de las características que toma la variable de interés (junto con la participación insignificante
de la otra categoría).
5
dividiéndose, o terminales u hojas,
si no enfrentan más segmentación
(Maimon y Rokach, 2010).
una de las categorías que toma la
variable de interés. Se dispone de
varios algoritmos para la generación de árboles de decisión, entre
los cuales se cuentan ID3 (introducido por Quinlan en 1986), C4.5
o J486 , CART, CHAID Random Tree
y QUEST (Safavin y Landgrebe,
1991). En la Figura 4 se presenta un
ejemplo de la aplicación del C4.5.
En un árbol de clasificación cada
nodo interno se parte de acuerdo
a una función discreta sobre las
variables utilizadas para el análisis,
hasta llegar a los nodos terminales donde se tiene la proporción
de individuos ubicados en cada
Figura 4. Ejemplo de aplicación de C4.5
a3
> 2.450
> 1.750
< 2.450
/23
a4
Iris Virginica
Iris-setosa
< 1.750
> 5.350
a3
< 5.350
Iris Virginica
a3
< 4.950
> 4.950
a4
> 1.550
Iris Versicolor
Iris Versicolor
< 1.550
Iris Virginica
6
Dependiendo del lenguaje de desarrollo empleado para la construcción del algoritmo, se denota su nombre. El C4.5 fue desarrollado en C++, mientras que
J48 fue desarrollado en Java.
•
Redes neuronales artificiales (RNA): Son un sistema
de aprendizaje y procesamiento
automático inspirado en la forma
como funciona el sistema nervioso animal, que parte de la interconexión de neuronas que colaboran
entre sí para generar un resultado.
Esta salida o resultado proviene de
tres funciones (Maimon y Rokach,
2010):
/24
1. Propagación (función de excitación): Es la sumatoria de cada entrada multiplicada por el peso de
su interconexión (valor neto). Si el
peso es positivo, la conexión se denomina excitatoria, y si es negativo,
se denomina inhibitoria.
2. Activación (modifica a la función anterior): su existencia no es
obligatoria, siendo en este caso la
salida, la misma función de propagación.
3. Transferencia: se aplica al valor
devuelto por la función de activación. Se utiliza para acotar la salida de la neurona y generalmente
viene dada por la interpretación
que se desee dar a dichas salidas.
Algunas de las más utilizadas son
la función sigmoidea (para obtener valores en el intervalo [0,1]) y la
tangente hiperbólica (para obtener
valores en el intervalo [-1,1]).
Las RNA usualmente implementadas dependen del patrón de conexiones que representan. Existen
varias formas de clasificarlas. Por
topología se definen dos tipos básicos:
1. Feed-forward Neural Net (FNN):
Redes de propagación progresivas
o acíclicas, en las que las señales
avanzan desde la capa de entrada
hacia la salida, sin presentar ciclos
ni conexiones entre neuronas de
la misma capa. Pueden ser de dos
tipos: monocapa (ej. perceptrón,
Adaline) y multicapa (ej. Perceptrón multicapa. Ver Figura 5).
2. Recurrent Neural Network (RNN):
Redes neuronales recurrentes, que
presentan al menos un ciclo cerrado de activación neuronal (ej. Elman, Hopfield, máquina de Boltzmann).
Figura 5. RNA perceptrón multicapa
Capa de
entrada
Capa
oculta
Capa de
salida
Entrada 1
1
1
Entrada 2
Entrada 3
2
2
1
Salida
3
m
/25
Entrada n
n
Una segunda clasificación es en
función del tipo de aprendizaje:
1. Supervisado: Requieren un conjunto de datos de entrada previamente clasificado. Tal es el caso
del perceptrón simple, la red Adaline, el perceptrón multicapa, red
backpropagation, y la memoria
asociativa bidireccional.
2. No supervisado o autoorganizado: No necesitan de un conjunto
previamente clasificado. Tal es el
caso de las memorias asociativas,
las redes de Hopfield, la máquina de Boltzmann y la máquina de
Cauchy, las redes de aprendizaje
competitivo, las redes de Kohonen o mapas autoorganizados y
las redes de resonancia adaptativa
(ART).
3. Redes híbridas: Son un enfoque
mixto en el que se utiliza una función de mejora para facilitar la convergencia. Ej: redes de base radial.
4. Reforzado: Se sitúa a medio camino entre el supervisado y el autoorganizado.
Una tercera clasificación está en
función del tipo de entrada:
1. Redes analógicas: Procesan datos de entrada con valores continuos que normalmente son acotados. Ej. Hopfield, Kohonen y las
redes de aprendizaje competitivo.
/26
2. Redes discretas: Procesan datos
de entrada de naturaleza discreta (habitualmente valores lógicos
booleanos). Ej: máquinas de Boltzmann y Cauchy, y la red discreta de
Hopfield.
•
Naive Bayes: Este tipo de
algoritmo comparte elementos de
la biología, inteligencia artificial
y estadística. Están definidos por
un grafo donde existen nodos que
representan variables aleatorias
junto con sus enlaces, los cuales
hacen referencia a dependencias
entre las mismas. El éxito de las
redes bayesianas se debe a su ha-
bilidad para manejar modelos probabilísticos complejos al descomponerlos en componentes más
pequeños y digeribles. Se utilizan
para investigar relaciones entre
variables y para predecir y explicar
su comportamiento al calcular la
distribución de probabilidad condicional de una variable, dados los
valores de otras series de interés
(Maimon y Rokach, 2010).
•
Máquinas de soporte
vectorial (MSV): Son un conjunto de algoritmos de aprendizaje
supervisado, relacionados con
problemas de clasificación y regresión. En este contexto, el aprendizaje se relaciona con la estimación
de funciones a partir de un conjunto de entrenamiento, que permite etiquetar las clases y entrenar
una MSV para construir un modelo que prediga la clase de una
nueva muestra. La MSV construye
un hiperplano(s) en un espacio
hiperdimensional de máxima distancia respecto a los puntos que
estén más cerca del mismo. Estos
modelos están estrechamente relacionados con las RNA e incorpora la función de Kernel (ej. radial,
polinomial, neural, anova, epachnenikov, combinación gaussiana y
multicuadrática). Ver Figura 6.
Figura 6. MSV
Las MSV y las RNA obtienen un mejor resultado pero su costo computacional es muy alto, lo que se
suma a la complejidad asociada a
su interpretación y al entrenamiento requerido para obtener un buen
resultado (LiuXuan, 2007; Shijia
Gao, 2007; Shijia Gao y Huaiqing
Wang, 2006). A continuación, un
comparativo entre las RNA y MSV
(ver tabla 1):
x2
Hi
pe
rp
la
no
Óp
tim
o
Margen
máximo
x1
Tabla 1
RNA
Las capas ocultas transforman a
espacios de cualquier dimensión.
El espacio de búsqueda tiene
múltiples mínimos locales.
El entrenamiento es costoso.
Se establece el número de nodos
y capas ocultas.
Alto funcionamiento en
problemas típicos.
MSV
Kernels Transforma a espacios de
dimensión muy alta.
El espacio de búsqueda tiene
un mínimo global.
El entrenamiento es
altamente eficiente
Se diseña la función de kernel y el
parametro de coste C.
Muy buen funcionamiento en problemas tipicos.
Extremadamente robusto para generalización.
Menos necesidad de emplear heurísticos en el entrenamiento.
Fuente: LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006
/27
/28
•
Reglas de inducción:
Considerando que los patrones
ocultos en grandes bases de datos
suelen expresarse como un conjunto de reglas, aquellas de inducción
se adaptan a los objetivos de la MD
aun cuando son una de las técnicas más representativas del aprendizaje de máquina. Aquí, una regla
suele consistir de instrucciones del
tipo Si (característica 1, atributo 1)
y Si (característica 2, atributo 2) y…
y Si (característica n, atributo n) entonces (decisión, valor), aunque se
pueden encontrar reglas más complejas. La información utilizada por
este algoritmo es de carácter categórico, lo cual facilita en gran medida el procesamiento de los datos
y el entendimiento de los resultados. Los algoritmos utilizados por
las reglas de inducción son LEM1,
LEM2 y AQ.
A continuación se documentan los
resultados presentados en (Wang y
Yang, 2007), para dar mayor claridad al uso de las herramientas de
minería de datos en la detección
de operaciones de LA o FT. Los
autores emplean el método de árboles de decisión para obtener reglas que determinen el riesgo que
tienen los diferentes tipos de clientes, de un banco comercial en un
determinado país, de estar involucrados en una operación de lavado
de activos7. Los datos utilizados
corresponden a una muestra aleatoria de 28 individuos provenientes
de un universo de 160 mil clientes,
para los cuales se utilizan cuatro de
52 variables disponibles: industria,
localización, tamaño del negocio y
productos abiertos con el banco.
Las categorías de cada variable se
califican en tres niveles de acuerdo
con el riesgo de LA que perciben
los gerentes de oficina: L (riesgo
bajo), M (riesgo medio) y H (riesgo
alto). Por ejemplo, para la variable
industria:
Tabla 2
Industria
Manufacturera
/
Riesgo LA
L
Química
L
Comercio doméstico
M
Medicina
M
Tecnología
M
Comercio internacional
H
Comercio al por menor
H
Publicidad
H
Venta de Automóviles
H
Este enfoque difiere de otros más tradicionales donde el análisis se centra en las transacciones.
Los autores utilizan el algoritmo
ID3 sobre una muestra de entrenamiento de 21 individuos y prueban
la validez de los resultados sobre
los 7 individuos restantes. La representación gráfica de los resultados
obtenidos es la que se muestra en
la Figura 7. En este caso, se evidencia que la industria es la variable
más relevante en la determinación
del riesgo de LA del cliente (se ubica al principio del árbol de decisión), seguida por localización y
tamaño del negocio.
tenecen a una industria con bajo
riesgo de LA (rama marcada como
L originada en industria, número 1
en la figura) y una localización con
bajo o mediano riesgo (ramas marcadas como L y M, números 2 y 3
en la figura) tienen un bajo riesgo
de estar involucradas en LA. Por
el contrario, un individuo de una
industria con alto riesgo (rama
marcada como H originada en industria, número 1 en la figura) y
tamaño de bajo riesgo (rama marcada como L originada en tamaño
del negocio, número 4 en la figura),
en realidad tienen un alto riesgo de
LA.
Al observar el árbol de decisión se
observa que los clientes que per-
Figura 7. Resultados presentados en Wang y Yang, 2007.
1
Industry
L
M
2
3
Location
L
Low
M
Bussines Size
H
Low
H
4
Middle
L
Middle
L
Low
M
Bank
products
M
Middle
Bussines Size
H
Middle
L
Middle
Bank
products
High
H
L
Middle
L
High
M
M
Location
M
Middle
H
High
H
Middle
H
High
/29
CONCLUSIONES
/30
Dado el incremento del volumen
de la información reportada a las
Unidades de Inteligencia Financiera (UIF) y la complejidad de su
análisis, son fundamentales las
herramientas
computacionales
robustas, que permitan extraer conocimiento no trivial y faciliten la
identificación de señales de alerta
y construcción y seguimiento de
perfiles por sector, respecto a casos atípicos u outliers.
Específicamente, los resultados
obtenidos mediante la selección y
aplicación de técnicas de minería
de datos pueden contribuir al proceso de toma de decisiones en entidades especializadas en prevención, detección y/o administración
del riesgo de LA/FT.
Experiencias nacionales e internacionales demuestran que la adopción de técnicas de minería de datos para la prevención y detección
de delitos ha arrojado importantes
resultados respecto al hallazgo de
patrones de comportamiento de
anomalías.
BIBLIOGRAFÍA
FUENTES
ACADÉMICAS
Ávila Flores, José Salvador (2005).
Sistema de Administración de Red
(S.A.R.) Versión 1.0. Universidad
Autónoma del Estado de Hidalgo.
Instituto de Ciencias Básicas e Ingeniería. México.
Blanco Cordero, Isidoro (1997). El
delito de blanqueo de capitales.
Edit. Aranzadi.
Fayyad, Usama, Piatetsky-Shapiro, Gregory and Smyth, Padhraic (1996). From Data Mining to
Knowledge Discovery in Databases. American Association for Artificial Intelligence.
Esteban Talaya, Águeda (2008).
Principios de marketing. ESIC Editorial. Tercera edición.
LiuXuan, Zhang Pengzhu (2007).
An agent based Anti-Money Laundering system architecture for financial supervision. International
Conference on Wireless Communications, Networking and Mobile
Computing, Septiembre, pp: 54725475.
/31
Maimon, Oded and Rokach, Lior
(2010). Data Mining and Knowledge Discovery Handbook. Second
Edition. Springer.
Ramírez Quintana, María José y
Hernández Orallo, José (2003).
“Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software”. España.
Safavin, S.R., Landgrebe, D (1991).
A survey of decision tree classifier
methodology [J]. IEEE Transactions on Systems, Man and Cybernetics, Vol.21, No.3, pp.660-667.
/32
Anti-money Laundering System.
International Conference on Service Operation and Loqistics, and
Informatics, SOLI’06, IEEE. pp: 851856.
Sudjianto, A., Nair, S., Yuan, M.,
Zhang, A., Kern, D., Cela-Díaz, F.
(2010). Statistical Methods for Fighting Financial Crimes. Technometrics 52(1) 5–19.
Virseda Benito, Fernando y Román
Carrillo, Javier (sin año). “Minería
de datos y aplicaciones”. Universidad Carlos III.
Senator, Ted E., Goldberg, Henry G.
y Wooton, Jerry (1995). The financial crimes enforcement network AI
system (FAIS) identifying potential
money laundering from reports of
large cash transactions[J], AI Magazine, Vol.16, No.4, pp. 21-39.
Wang, Su-Nan and Yang, Jian-Gang
(2007). A money Laundering Risk
Evaluation Method Based on Decision Tree. Proceedings of the sixth
international conference on Machine Learning and Cybernetics, Hong
Kong.
Shijia Gao, Dongming Xu (2007).
Conceptual modeling and development of an intelligent agent-assisted decision support system
for anti-money laundering. Expert System with Applications,
doi:10.1016/j.eswa.
Yue, D., Wu, X. y Wang, Y. (2007). A
Review of Data Mining-Based Financial Fraud Detection Research.
In: 2007 Wireless Comm., Networking and Mobile Computing, IEEE.
, Huaiqing Wang,
Yingfeng Wang (2006). Intelligent
Zhang, Z. y Salerno, J. (2003). Applying data mining in investigating
money laundering crimes. Discovery and data mining (Mlc) 747.
FUENTES
INSTITUCIONALES
Asobancaria (2011). Banco Central
Rumiñahui. Construcción y calibración de un índice multicriterio para
la detección de Lavado de Activos.
FUENTES
ELECTRÓNICAS
q=isbn:8497324927. Consultado el
14 de agosto de 2014.
Cruz Arrela, Liliana (2010). Minería
de datos con aplicaciones. Universidad Nacional Autónoma de México.
http://132.248.9.195/ptd2010/
abril/0656187/0656187_A1.pdf.
Consultado el 14 de agosto de
2014.
Artículos estadísticos. http://www.
estadistico.com/arts.html. Consultado el 14 de agosto de 2014.
Cárdenas Rojas, Liliam (2010). Análisis Predictivo para la Prevención
de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la
droga y el delito, Cámara de Comercio de Bogotá, Embajada Británica.
http://incp.org.co/Site/info/archivos/bancolombia.pdf. Consultado
el 14 de agosto de 2014.
Pérez López, Cesar y Santín González, Daniel (2007). Minería de datos:
conceptos, técnicas y sistemas.
https://www.google.com.co/
search?hl=es&tbo=p&tbm=bks&-
/33
TÉCNICAS DE MINERÍA
DE DATOS PARA LA
DETECCIÓN Y PREVENCIÓN
DEL LAVADO DE ACTIVOS
Y LA FINANCIACIÓN
DEL TERRORISMO (LA/FT)
DOCUMENTOS UIAF
Bogotá D.C.
2014
Descargar