Implementación de support vector machines para reconocimiento

Anuncio
UNIVERSIDAD SIMÓN BOLÍVAR
Decanato de Estudios Profesionales
Coordinación de Ingeniería Electrónica
IMPLEMENTACIÓN DE SUPPORT VECTOR MACHINES PARA
RECONOCIMIENTO DE SEGMENTOS DE LA POBLACIÓN
Por
Rubén Alfredo Marrero Guerrero
Sartenejas, Noviembre de 2005
UNIVERSIDAD SIMÓN BOLÍVAR
Decanato de Estudios Profesionales
Coordinación de Ingeniería Electrónica
IMPLEMENTACIÓN DE SUPPORT VECTOR MACHINES PARA
RECONOCIMIENTO DE SEGMENTOS DE LA POBLACIÓN
Por
Rubén Alfredo Marrero Guerrero
Realizado con la Asesoría de
Ing. Gerardo Fernández
Ing. Samuel Cohen
INFORME FINAL DE GRADO
Presentado ante la Ilustre Universidad Simón Bolívar
como requisito parcial para optar al título de Ingeniero Electrónico
Sartenejas, Noviembre de 2005
UNIVERSIDAD SIMÓN BOLÍVAR
Decanato de Estudios Profesionales
Coordinación de Ingeniería Electrónica
IMPLEMENTACIÓN DE SUPPORT VECTOR MACHINES PARA
RECONOCIMIENTO DE SEGMENTOS DE LA POBLACIÓN
INFORME FINAL DE GRADO presentado por
Rubén Alfredo Marrero Guerrero - Carnet: 0033035
REALIZADO CON LA ASESORIA DE: Ing. Gerardo Fernández, Ing. Samuel Cohen
RESUMEN
Este proyecto fue realizado en la sede principal de Procter & Gamble Servicios
Latinoamérica con la finalidad de explorar el potencial de Support Vector Machines como
herramienta en la identificación de segmentos de la población basados en patrones de
consumo y características psicográficas. Inicialmente se llevó a cabo una investigación sobre
ésta herramienta y técnicas de Minería de Datos. Se contó con una base de datos de los
resultados de un estudio realizado sobre la población mexicana, el cual fue utilizado como
base para la segmentación a través de Agrupamiento, seguido de una reducción de parámetros
con un análisis de Componentes Principales. Los parámetros resultantes fueron utilizados
como señales de entrada en la creación de modelos de Support Vector Machines, alcanzando
un promedio de validación cruzada superior al 99% de efectividad, luego de iterar en la
creación de un espacio característico que separase los datos. Dicho resultado se obtuvo con un
espacio característico resultante de una regresión con normalización exponencial, empleando
el Kernel RBF con parámetros de generalización gamma=100 y de dispersión sigma=0,4. Se
concluyó que Support Vector Machines proporciona excelentes resultados en ésta aplicación,
aunque se evidenció el rol protagónico de los espacios característicos, los cuales no poseen un
estándar para su creación.
PALABRAS CLAVES: Support Vector Machines, Minería de Datos, Inteligencia
Artificial, Aprendizaje Automático.
Sartenejas, Noviembre de 2005
i
ÍNDICE GENERAL
CAPÍTULO 1: INTRODUCCIÓN..............................................................................................1
CAPÍTULO 2: DESCRIPCIÓN DE LA EMPRESA ..................................................................3
2.1 RESEÑA HISTÓRICA .....................................................................................................3
2.2 PROPÓSITO .....................................................................................................................5
2.3 VALORES Y PRINCIPIOS ..............................................................................................5
2.4 ESTRUCTURA ORGANIZACIONAL ............................................................................6
CAPÍTULO 3: OBJETIVOS .......................................................................................................8
3.1 OBJETIVOS GENERALES .............................................................................................8
3.2 OBJETIVOS ESPECÍFICOS ............................................................................................8
CAPÍTULO 4: MARCO TEÓRICO ...........................................................................................9
4.1 MÁQUINAS DE APRENDIZAJE....................................................................................9
4.2 MINERÍA DE DATOS ...................................................................................................12
4.2.1 Técnicas ....................................................................................................................13
4.2.1.1 Agrupamiento ....................................................................................................14
4.2.1.2 Componentes Principales ..................................................................................16
4.3 SUPPORT VECTOR MACHINES.................................................................................17
4.3.1 Clasificadores Lineales.............................................................................................17
4.3.2 Dominios característicos y Kernels ..........................................................................22
4.3.3 Teoría de Generalización..........................................................................................25
4.3.4 Teoría de Optimización ............................................................................................28
4.3.5 Clasificadores Support Vector..................................................................................29
4.3.6 Aplicaciones de Support Vector Machines ..............................................................32
4.4 MERCADEO...................................................................................................................32
CAPÍTULO 5: MARCO METODOLÓGICO ..........................................................................35
5.1 REVISIÓN BIBLIOGRÁFICA.......................................................................................35
5.2 DESARROLLO DEL PROYECTO................................................................................35
5.2.1 Entendimiento del negocio .......................................................................................36
5.2.2 Entendimiento de los datos.......................................................................................37
ii
5.2.3 Preparación de los datos ...........................................................................................38
5.2.4 Modelado ..................................................................................................................38
5.2.5 Evaluación ................................................................................................................39
5.2.6 Despliegue ................................................................................................................39
CAPÍTULO 6: SOFTWARE UTILIZADO ..............................................................................40
6.1 MATLAB ........................................................................................................................40
6.1.1 LS-SVM toolbox ......................................................................................................41
6.2 SPSS ................................................................................................................................42
6.3 QUANVERT ...................................................................................................................43
CAPÍTULO 7: RESULTADOS OBTENIDOS.........................................................................45
7.1 REVISION BIBLIOGRAFICA.......................................................................................45
7.2 DESARROLLO DEL PROYECTO................................................................................45
7.2.1 Entendimiento del negocio .......................................................................................45
7.2.2 Entendimiento de los datos.......................................................................................48
7.2.3 Preparación de los datos ...........................................................................................51
7.2.4 Modelado ..................................................................................................................58
7.2.5 Evaluación ................................................................................................................69
7.2.6 Despliegue ................................................................................................................70
CAPÍTULO 8: CONCLUSIONES Y RECOMENDACIONES ...............................................71
CAPÍTULO 9: REFERENCIAS BIBLIOGRÁFICAS .............................................................73
iii
ÍNDICE DE TABLAS
Tabla 7.1 Matriz de componentes para cada conglomerado (primeros 30 atributos)................56
Tabla 7.2 Componentes de los atributos seleccionados para cada conglomerado ....................57
Tabla 7.3 Matriz de correlaciones bivariadas (Continuación)...................................................58
Tabla 7.4 Componentes de los atributos para cada conglomerado............................................60
Tabla 7.5 Resultados de la validación cruzada para el Kernel RBF con espacio característico
de regresión con normalización exponencial.............................................................................69
iv
ÍNDICE DE FIGURAS
Figura 2.1 Valores de Procter & Gamble ....................................................................................5
Figura 4.1 Un sistema de Inteligencia Artificial .......................................................................10
Figura 4.2 Métodos de medición de distancia entre datos.........................................................15
Figura 4.3 Ejemplo de Dendograma..........................................................................................16
Figura 4.4 Hiperplano (w, b) separando una data de entrenamiento bidimensional .................18
Figura 4.5 Márgenes para dos puntos para un hiperplano.........................................................19
Figura 4.6 Margen del conjunto de entrenamiento....................................................................20
Figura 4.7 Margen estacionario de dos puntos ..........................................................................20
Figura 4.8 Ejemplo del uso de dominios característicos ...........................................................22
Figura 4.9 Ejemplo de RBF unidimensional .............................................................................25
2
Figura 4.10 Tres puntos en R quebrantados por líneas orientadas .........................................26
Figura 4.11 Ejemplo de Clasificadores Support Vector para cierta data de entrenamiento......30
Figura 4.12 Estimación del error de clasificación con la técnica “Holdout” ............................31
Figura 4.13 Estimación del error de clasificación con la técnica de validación cruzada ..........31
Figura 4.14 Posicionamiento por calidad versus precio percibido............................................34
Figura 5.1 Fases del modelo de referencia CRISP-DM ............................................................36
Figura 6.1 Ejemplo de vista del programa MATLAB...............................................................40
Figura 6.2 Ejemplo de clasificación binaria con toolbox LS-SVM ..........................................41
Figura 6.3 Ejemplo de vista de datos con valores categóricos y escalares en SPSS .................42
Figura 6.4 Ejemplo de vista del programa Quanvert.................................................................44
Figura 7.1 Estadísticos descriptivos de los datos disponibles (primeros 7 atributos) ...............50
Figura 7.2 Dendograma de los datos (parte final) .....................................................................52
Figura 7.3 Resultados del agrupamiento K-promedios No. 1 ...................................................53
Figura 7.4 Resultado del agrupamiento K-promedios No. 2.....................................................53
Figura 7.5 Centros de cada conglomerado para cada atributo evaluado (primeros 9) ..............54
Figura 7.6 Pertenencia a los conglomerados de cada fuente de datos (primeros 30) ................55
Figura 7.7 Resultados obtenidos con distintos Kernel y parámetros sobre los datos de prueba59
v
Figura 7.8 Distribución de los datos en el espacio característico de componentes principales61
Figura 7.9 Resultados obtenidos con espacio característico de componentes principales con
distintos Kernel y parámetros sobre los datos de prueba ..........................................................62
Figura 7.10 Distribución de los datos en el espacio característico de componentes principales
con normalización lineal a 1......................................................................................................63
Figura 7.11 Distribución de los datos en el espacio característico de componentes principales
con normalización exponencial a 1 ...........................................................................................63
Figura 7.12 Distribución de los datos en el espacio característico de regresión lineal ............65
Figura 7.13 Resultados obtenidos con espacio característico de regresión con distintos Kernel
y parámetros sobre los datos de prueba .....................................................................................66
Figura 7.14 Distribución de los datos en el espacio característico de regresión lineal con
normalización exponencial ........................................................................................................67
Figura 7.15 Resultados obtenidos con espacio característico de regresión con normalización
exponencial para distintos Kernel y parámetros sobre los datos de prueba ..............................68
vi
GLOSARIO
Agrupamiento: técnica de Minería de Datos que busca definir grupos con características
similares.
Aprendizaje Automático: es una rama de la Inteligencia Artificial cuyo objetivo es
desarrollar técnicas que permitan a las computadoras aprender.
Atributos: grupo de datos que representan las entradas que alimentan una Máquina de
Aprendizaje.
Capacidad: habilidad de una Máquina de Aprendizaje de aprender de la data de
entrenamiento sin ningún error.
Clasificador Lineal: aquel cuya frontera de decisión es determinada por una función lineal.
Componentes Principales: técnica de Minería de Datos cuyo fin es la síntesis de
información, o reducción de la dimensión (número de variables).
CRISP-DM: Proceso Estándar para Minería de Datos en Industrias Varias (Cross Industry
Standard Process for Data Mining). Modelo de referencia para el desarrollo de proyectos de
Minería de Datos.
Dimensión VC (Vapnik Chervonenkis): para un grupo de funciones se define como el
número máximo de puntos de entrenamiento que pueden ser quebrantados por las mismas.
Dominios o Espacios Característicos: representación alternativa de los datos a través de la
transformación de las variables o atributos de un dominio a otro.
Generalización: capacidad de una Máquina de Aprendizaje de clasificar de forma correcta
datos distintos a los contenidos en la data de entrenamiento, a través de la flexibilización de
sus fronteras de decisión.
Inteligencia Artificial (IA): inteligencia exhibida por artefactos creados por humanos, es
decir, artificial.
Kernel: representación dual del producto interno de los atributos originales de un clasificador
lineal que contiene implícito un dominio característico.
Máquinas de Aprendizaje: área de investigación que desarrolla de métodos y algoritmos que
permiten a un sistema computarizado tomar decisiones en base a experiencias pasadas.
vii
Margen: para un punto específico como la distancia mínima de dicho punto al hiperplano o
frontera de decisión.
Mercadeo: toda acción que promueve una actividad, desde la concepción de la idea, hasta el
momento en que el producto o servicio es adquirido por los clientes.
Metodología del Aprendizaje: técnica de usar ejemplos en el entrenamiento de una máquina
para la obtención de un programa que resuelva un problema planteado.
Minería de Datos: proceso analítico diseñado para explorar grandes volúmenes de datos con
el objeto de descubrir patrones y modelos de comportamiento o relaciones entre diferentes
variables.
Support Vector Machines: algoritmo de Aprendizaje Automático que permite la
clasificación binaria de datos, a través de clasificadores lineales que actúan sobre mapeos no
lineales, a espacios característicos n-dimensionales.
CAPÍTULO 1: INTRODUCCIÓN
En las últimas décadas, la evolución de las computadoras y su masificación a nivel
global, han permitido el desarrollo de una gran cantidad de recursos tecnológicos que
proporcionan herramientas para la optimización de casi cualquier proceso. El Aprendizaje
Automático, como rama de la Inteligencia Artificial, ha tomado auge en los últimos años
gracias a dicha evolución, proponiendo metodologías muy distintas a las técnicas de
programación tradicionales. Debido a la naturaleza de la Metodología del Aprendizaje
utilizada en el Aprendizaje Automático, en la que se le “enseña” a la máquina a través de
ejemplos, el número de posibles aplicaciones promete ser muy amplio.
Support Vector Machines surge como un algoritmo de Aprendizaje Automático
alternativo, ofreciendo características de generalización y optimización robustas. Debido a su
reciente desarrollo, sus aplicaciones probadas son escasas, y en su mayoría experimentales.
El mercadeo constituye actualmente un elemento fundamental en el comercio, y la
investigación de mercado se ha convertido en una herramienta primordial en la optimización
de recursos invertidos en sus actividades. Una de sus funciones es enfocar los esfuerzos
(inversión) en un grupo de la población con características específicas para aumentar la
eficacia, pero dicho grupo, al no estar aislado no puede ser identificado con facilidad de forma
consistente.
La necesidad de la identificación consistente de un segmento de la población con
características determinadas, que permitiese realizar estudios de mercado para entender, y en
lo posible satisfacer sus necesidades, llevó a la búsqueda de soluciones inteligentes. En ésta
búsqueda, Support Vector Machines surge como una herramienta vanguardista con resultados
prometedores en otras aplicaciones experimentales, lo que llevó a la realización de éste
proyecto.
Un estudio cuantitativo realizado sobre una muestra representativa de la población
mexicana, en el cual se determinó características psicográficas y patrones de consumo, se
2
llevado a cabo con la finalidad de segmentar dicha población y definir el grupo más propenso
a comprar los productos de pastas de dientes de la empresa. Los atributos más influyentes de
la segmentación serían luego utilizados como señales de entrada para la creación de un modelo
de Support Vector Machines que reconociese a que grupo pertenece cada individuo.
La importancia de la identificación inicial del grupo mencionado, y sus consecuentes
reconocimientos con fines de investigación de mercado, radica en que la cantidad de dinero
que suele invertirse en mercadeo, cuya cifra puede llegar a ser 30% de los ingresos de la
compañía, puede ser optimizada de forma tal que, con mucha menos inversión se obtengan
mejores resultados. Además, la exploración de una aplicación sin precedentes aparentes para
Support Vector Machines, utilizando valores reales de consumo y características psicográficas,
constituye un importante valor agregado para el proyecto.
En los próximos capítulos se describen los detalles de la realización de éste proyecto,
iniciando con la descripción de la empresa donde se desarrolló, seguida de los objetivos
establecidos, una compilación de los temas necesarios para la comprensión del mismo, la
metodología empleada, una breve descripción del software utilizado, finalizando con la
exposición de los resultados obtenidos y las conclusiones correspondientes. Además, se
incluye una lista con las referencias bibliográficas citadas en este informe.
CAPÍTULO 2: DESCRIPCIÓN DE LA EMPRESA
En este capítulo presenta una breve descripción de la empresa donde fue desarrollado
este proyecto, incluyendo una reseña histórica, su propósito, valores y principios, así como su
estructura organizacional.
2.1 RESEÑA HISTÓRICA
Procter&Gamble fue fundada por William Procter y James Gamble el 12 de Abril de
1837 en Cincinatti, Ohio, Estados Unidos, al fusionar la fábrica de velas del primero junto con
la fábrica de jabones del segundo. Ambos fundadores crearon un esquema sencillo, lo cual
aseguró su fortalecimiento y crecimiento hasta lo que actualmente se conoce como P&G con
mas de 30 marcas registradas de jabones en el mundo. La buena calidad de sus productos hizo
que cada día su demanda fuera aumentando, lo cual comprobaba que el esquema de ventas
creado por el Sr. Procter, y el de fabricación creado por el Sr. Gamble, funcionaban.
Con esto fueron expandiéndose a otras regiones de Estados Unidos y en 1915 abrieron
su primera fábrica en Canadá, lo cual marca su apertura al mercado internacional.
Poco a poco fueron creciendo hasta llegar a conquistar el mercado Latinoamericano
abriendo las primeras subsidiarias ubicadas en Puerto Rico en 1947 y México en 1948. Para el
año de 1950, expande sus mercados a Francia, con lo cual marca su presencia en Europa. En el
mismo año, inicia operaciones en Venezuela, actuando como distribuidora de productos
importados. Dos años después, instala su primera planta en La Yaguara, Caracas para la
fabricación de Ace para luego, en 1954 incorporar a la línea de producción el jabón Camay.
En 1955 incorporó la crema dental Crest y posteriormente otros productos como Ariel, Drene
y Safeguard, los que pasaron a formar parte de la familia venezolana desde ese entonces hasta
la actualidad.
Para el año de 1980, la demanda de sus productos era tal que para poder cubrirla
tuvieron la necesidad de construir una segunda planta, la cual ubicaron en Barquisimeto, Edo.
4
Lara, donde luego, en los años 90, consolidan todas las actividades de producción de la
compañía en el territorio Venezolano.
En 1987, The Procter & Gamble Co. traslada a Caracas, Venezuela la gerencia de las
operaciones en Latinoamericanas, (Headquarter Latinoamericano), lo que significaría un
importante impulso a las actividades de la compañía en la Región, pues desde entonces, todas
las operaciones de la empresa con el mercado Latinoamericano se gerencian desde Venezuela.
Todo esto se vió respaldado por la inauguración de la nueva sede de P&G en Caracas, en el
edificio Sorokaima, en 1997, y con la incorporación del R&D (Centro de Desarrollo del
Producto Latinoamericano). En la actual sede, además del funcionamiento del R&D, también
funcionan unidades globales de negocio y la Organización de Desarrollo del Mercado (MDO).
Cabe destacar que en el mismo año se llevó a cabo la apertura del depósito de Barquisimeto,
con 10 mil metros cuadrados de planta y los sistemas más modernos para el manejo de
inventarios de productos terminados.
En Octubre de 1988 se asocia a Industrias Mammi, la cual era una empresa nacional
que para ese momento era la líder en lo que respecta a pañales y toallas sanitarias. La
adquisición total llegaría dos años más tarde.
En Enero del 2002, adquiere la industria Clairol, (tanto planta como centro de
distribución ubicado en Cagua), con lo cual adquiere la línea de productos y tintes para el
cabello conformado por Herbal Essences, Final Net , Infussium 23, Miss Clairol y MUM. Con
esto P&G de Venezuela terminaría por configurar lo que actualmente conforma su estructura
de almacenaje y distribución.
En Venezuela, Procter & Gamble desde sus inicios comercializa productos que han
llegado a formar parte de la vida diaria de los hogares venezolanos, los cuales incluyen
reconocidas marcas como Pantene, Pert Plus, Head&Shoulders, Herbal Essences, Ariel, Ace,
Rindex, Old Spice, Camay, Safeguard, Monclear, Secret, Pampers, Tess, Always, MUM,
Vicks, entre muchas otras.
5
2.2 PROPÓSITO
El propósito fundamental de la empresa es ofrecer productos de calidad y valor
superiores que mejoren la vida de los consumidores del mundo entero, por lo cual esperan
como resultado ser recompensados por los consumidores con liderazgo en ventas y
crecimiento de utilidades, permitiendo a su gente, sus accionistas y las comunidades en las
cuales viven y trabajan prosperen [P&G, 2005].
2.3 VALORES Y PRINCIPIOS
El principal valor de Procter & Gamble a lo largo de toda su historia ha sido su gente,
alrededor del cual giran todos los demás. La actitud del recurso humano de la compañía debe
orientarse por una serie de valores, que se relacionan entre sí y que confluyen en un personal
valioso, tal como lo representa la Figura 2.1. Los mismos incluyen liderazgo, integridad,
confianza, sentido de propiedad de la empresa, y pasión por el éxito.
LIDERAZGO
GENTE
PROPIEDAD
PASIÓN
POR
GANAR
INTEGRIDAD
CONFIANZA
Figura 2.1 Valores de Procter & Gamble
Fuente: [P&G, 2005]
Los principios fundamentales de la compañía y del personal que labora en ella son:
•
Demostrar respeto por todos los individuos.
•
Los intereses de la compañía y los del individuo son inseparables.
•
Tener un enfoque estratégico en el trabajo.
•
La innovación es la piedra angular del éxito.
6
•
Estar enfocados hacia el exterior de la empresa.
•
Valorar la maestría personal.
•
Buscar ser los mejores.
•
La interdependencia mutua como forma de vida.
[P&G, 2005]
2.4 ESTRUCTURA ORGANIZACIONAL
La Empresa posee una estructura organizacional dividida en cuatro pilares principales:
•
Unidades Globales de Negocio (Global Business Units—GBUs): Estas estructuras
centran su atención en el producto, al desarrollo de marcas. Deben garantizar su éxito
en el mercado a través del conocimiento del cliente, sus necesidades, sus quejas,
preferencias, etc; valiéndose a la vez políticas adecuadas de precios, control de costos,
garantía de calidad y suministro, etc.
Esta estructura, conformada por equipos
multidisciplinarios, vela por el crecimiento de las marcas basándose en la innovación;
pero no trabajan solos, siempre necesitan de la colaboración de otras áreas de la
organización para poder lograr un trabajo excelente. Existen cinco unidades de negocio
principales: Cuidado del Bebé, Femenino y de la Familia, Cuidado de la Belleza,
Cuidado del Hogar, Cuidado de la Salud y Comidas y Bebidas.
•
Organizaciones de Desarrollo del Mercado (Marketing Development Organization—
MDO): Su objetivo es garantizar la competitividad de la empresa en cada uno de los
mercados en los que esta participa. Para poder alcanzar los objetivos planteados, no
solo es necesario que la empresa cree relaciones con instituciones y con el entorno, si
no que también haga el reclutamiento y la capacitación del personal más calificado y
con las destrezas necesarias para así poder impulsar el desarrollo regional de la
compañía. Las Organizaciones de Desarrollo del Mercado responden a un criterio
geográfico siendo ocho en su totalidad: Norte América, Asia/ India/ Australia, Japón/
Corea, China, Europa Occidental, Oriente Medio/ África, Europa Central y Oriental, y
América Latina.
7
•
Servicios Globales de Negocio (Global Business Services—GBS): Proporcionan a
toda la organización una serie de procesos y servicios compartidos por toda la
Compañía haciendo uso de las economías de escala para garantizar calidad, costos y
rapidez de los recursos solicitados. Entre estas actividades destacan contabilidad y
tecnología de información.
•
Funciones Corporativas (Corporate Functions-CF): Su objetivo es garantizar que la
organización esté alineada en torno a su estrategia y a los objetivos que ha delimitado;
por lo tanto, está en su responsabilidad la divulgación de las normas y procedimientos,
así como velar por su cumplimiento.
[P&G, 2005]
En cada una de las unidades descritas trabajan grupos multifuncionales para lograr sus
objetivos. Estos grupos están liderizados por el departamento de Mercadeo, el cual se apoya en
Finanzas, Investigación de Mercado, Suministro de Productos, Ventas, Tecnologías de
Información, Desarrollo de Productos y Legal para crecer el negocio.
CAPÍTULO 3: OBJETIVOS
Este capítulo expone los objetivos generales y específicos que enmarcan al proyecto.
3.1 OBJETIVOS GENERALES
Explorar el potencial de Support Vector Machines como herramienta en la
identificación de segmentos de la población basados en patrones de consumo y características
psicográficas, con el fin de maximizar las ganancias de la empresa al diseñar productos e
implementar políticas de mercadeo dirigidos a los mismos.
3.2 OBJETIVOS ESPECÍFICOS
•
Estudiar las técnicas ampliamente utilizadas en Minería de Datos
•
Estudiar las bases teóricas detrás de Support Vector Machines
•
Investigar aplicaciones de Support Vector Machines
•
Conocer, describir y caracterizar las bases de datos disponibles y sus orígenes
•
Identificar e implementar las herramientas de Minería de Datos óptimas para la
segmentación y reducción de los datos
•
Generar distintos modelos de clasificación basados en Support Vector
Machines
•
Evaluar el desempeño de los modelos de clasificación creados
CAPÍTULO 4: MARCO TEÓRICO
El presente capítulo enmarca la información necesaria para la comprensión de los
temas, términos y métodos empleados en la ejecución del proyecto. Incluye una introducción a
las Máquinas de Aprendizaje como rama de la Inteligencia Artificial, seguido de una
descripción de los métodos de Minería de Datos utilizados, finalizando con el desarrollo
teórico, características y aplicaciones de Support Vector Machines. Por último, concluye con
un acercamiento al Mercadeo y a la Investigación de Mercados dada su importancia en el
contexto del proyecto.
4.1 MÁQUINAS DE APRENDIZAJE
Durante las últimas dos décadas, la acelerada evolución de la capacidad de
procesamiento de las computadoras ha traído consigo un sinfín de aplicaciones nuevas,
haciendo posible el desarrollo de teorías que, con las herramientas informáticas de la época,
eran imposibles de implementar.
Entre estas aplicaciones se encuentra el Aprendizaje
Automático que, de la misma forma en que los zoólogos y sociólogos estudian el aprendizaje
en animales y el hombre, estudia el aprendizaje en las máquinas.
El Aprendizaje Automático surge como una rama de la Inteligencia Artificial (IA) que,
uniendo fundamentos y herramientas de áreas del conocimiento tan disímiles como las que se
enumeran a continuación, busca desarrollar técnicas que permitan a las máquinas aprender:
•
Psicología: no se pueden separar los términos inteligencia y aprendizaje-
adaptación.
•
Biología: la adaptación, en todas sus vertientes, no se puede separar de nosotros
•
Artes: permite nuevas formas de creación.
•
Matemáticas: estadística e inducción son dos formas clásicas de análisis de
datos y generalización.
•
Ingeniería: realimentación.
10
•
Informática: Inteligencia Artificial como generadora de nuevas soluciones.
[NRL, 2005]
El Aprendizaje Automático generalmente provoca cambios en los sistemas que
realizan tareas asociadas con IA (ver Figura 4.1), al integrar los métodos y técnicas para lograr
juicio en tareas como reconocimiento, planificación, clasificación y predicción. “A partir de
un conjunto de datos, se realiza el proceso de aprendizaje automático el cual adquiere el
conocimiento que luego puede expresar” [Aguilar, 2002].
Figura 4.1 Un sistema de Inteligencia Artificial
Fuente: [Aguilar, 2002]
La construcción de máquinas capaces de aprender a través de experiencias pasadas, ha
sido un tema de debate desde hace mucho tiempo por el escepticismo de muchos. La
importancia estratégica de estos modelos radica en que actualmente los algoritmos clásicos de
programación, presentes en los modelos matemáticos, no son capaces de resolver múltiples
tareas. Muestra de esto son los caracteres escritos a mano, de los cuales hay innumerables
ejemplos, pero no existe un algoritmo programable capaz de reconocerlos [Cristianini y
Shawe-Taylor, 2000]. De esta forma, las Máquinas de Aprendizaje intentan simular el modo
de aprendizaje del ser humano; un niño al ser expuesto a distintos tipos de automóviles, con el
entrenamiento de sus padres u otro agente que le enseña a qué grupo pertenecen,
11
eventualmente será capaz de diferenciar correctamente un carro deportivo que jamás ha visto,
asociando sus características (posiblemente inarticulables) con experiencias pasadas.
A la técnica de usar ejemplos en el entrenamiento de una máquina para la obtención de
un programa que resuelva un problema planteado, se le conoce como “metodología del
aprendizaje”. Ésta contempla dos tipos:
•
Aprendizaje supervisado: el algoritmo produce una función que establece una
correspondencia entre las entradas y las salidas deseadas del sistema a partir de los
ejemplos proporcionados o data de entrenamiento.
•
Aprendizaje no supervisado: todo el proceso de modelado se lleva a cabo sobre un
conjunto de ejemplos constituido tan sólo por entradas al sistema. No se tiene información
sobre las categorías de esos ejemplos y el objetivo es entender mejor la data.
Otra forma de dividir los métodos de aprendizaje es de acuerdo a la forma en que la
data de entrenamiento es proporcionada: si toda la data es suministrada al inicio del
aprendizaje, se conoce como aprendizaje en lote. Si se proporciona un ejemplo a la vez, dando
una salida estimada a la entrada antes de recibir la salida verdadera, actualizando el modelo
con cada ejemplo, se denomina aprendizaje en línea.
En los primeros intentos de Máquinas de Aprendizaje, el objetivo era lograr modelar
una función conocida a través del entrenamiento aplicado, por lo que su eficiencia se medía en
qué tan buena era la función obtenida por la máquina. En la actualidad, las aplicaciones para
las cuales se intentan emplear dichas máquinas son mucho más complicadas: además de no
conocer de antemano la función que relaciona a las entradas y salidas de los ejemplos, estos
últimos pueden tener ruido inherente. Gracias a esto, el nuevo objetivo se centra en clasificar
de forma correcta data que no era parte de los ejemplos empleados en el entrenamiento, lo cual
es conocido como generalización.
La obtención de un buen desempeño de la generalización de una Máquina de
Aprendizaje, a partir de un número finito de ejemplos, depende de un buen balance entre la
capacidad de la máquina (habilidad de aprender de la data de entrenamiento sin ningún error)
y la exactitud de la data de entrenamiento [Burgues, 1998]. En este sentido, una máquina con
12
mucha capacidad es, como en el caso de los automóviles deportivos, aquel niño que tiene
memoria fotográfica y al presentarle un deportivo con número de placa distinto a los que se le
mostró en el entrenamiento, lo declara no deportivo; mientras que una máquina con poca
capacidad es como el niño despistado que declara cualquier cosa que tenga neumáticos como
deportivo.
Una de las características que hacen sumamente atractiva a la metodología del
aprendizaje, consiste en su gran cantidad de aplicaciones: éstas van desde un mejor
entendimiento del comportamiento humano, lo cual inspiró los primeros trabajos en redes
neuronales, hasta la posibilidad de evitar engorrosos procesos de diseño y programación de
soluciones para los problemas tradicionales, con el simple entrenamiento a través de ejemplos
etiquetados. [Cristianini y Shawe-Taylor, 2000]
El concepto detrás de la metodología del aprendizaje es bastante asimilable y
entendible dentro del paradigma del aprendizaje humano, pero esto no debe disfrazar la
complejidad del tema a la hora de llevarlo a la práctica. Al final todo se resume en las
matemáticas (las computadoras sólo entienden números), las cuales han proporcionado
grandes avances en las técnicas empleadas. Sin embargo, asuntos como la selección del tipo de
función a través de la cual se efectúa el mapeo de las entradas a las salidas proporcionadas y
otros parámetros de ajuste, son hasta ahora resueltas por ensayo y error para cada aplicación
especifica.
4.2 MINERÍA DE DATOS
Con el advenimiento de los avances tecnológicos, la información se ha convertido en
una herramienta muy valiosa. No obstante, la capacidad para recolectar y almacenar grandes
cantidades de datos ha generado la necesidad de técnicas y procesos para la optimización de su
uso. Lo anterior es conocido como el proceso de descubrimiento de conocimiento, e incluye
las siguientes etapas:
•
Determinación de objetivos
•
Preparación de datos
•
Transformación de datos
13
•
Minería de Datos
•
Análisis de resultados
•
Asimilación del conocimiento
La Minería de Datos surge como parte del proceso de descubrimiento de conocimiento,
buscando predecir y describir procesos a través de la síntesis y análisis de datos. Puede
considerarse el núcleo fundamental de la ingeniería del conocimiento, constituyendo el
“proceso de exploración y análisis de grandes cantidades de datos de forma automática o
semiautomática para descubrir patrones y reglas y poder utilizarlos en la toma de decisiones”
[Aguilar, 2002].
4.2.1 Técnicas
En el desarrollo de Máquinas de Aprendizaje, el manejo de grandes cantidades de
información se torna una necesidad, siendo la Minería de Datos quien proporciona técnicas de
tratamiento de información para aprendizaje supervisado (predicción, estimación y
clasificación) y no supervisado (agrupamiento y análisis de asociación) que se describen a
continuación:
•
Clasificación: consiste en designar un elemento a una clase predefinida, de
acuerdo a ciertas características proporcionadas. Generalmente los datos se separan
en atributos que representan características, donde la clase suele estar como un
atributo adicional en la data de entrenamiento.
•
Estimación: determina el valor de una variable continua, de acuerdo a los valores
de las entradas. Se basa en la clasificación añadiendo la base probabilística.
•
Predicción: puede ser considerado estimación o clasificación según sea el caso,
pero la diferencia radica en el énfasis sobre el tipo de resultado obtenido, el cual, al
proporcionar un valor futuro, no se puede verificar hasta que los hechos ocurran.
•
Agrupamiento: consiste en segmentar un conjunto de datos en grupos con
características similares que, a diferencia de la clasificación, no son conocidos
previamente.
14
•
Análisis de asociación: determina las relaciones que existen entre los elementos
de un conjunto de acuerdo a sus características.
A continuación se dará una explicación más detallada sobre Agrupamiento y
Componentes Principales, formando este último parte de los análisis de asociación. La
clasificación será discutida más adelante dentro del marco de Support Vector Machines.
4.2.1.1 Agrupamiento
El Agrupamiento es una técnica de análisis exploratorio de datos que busca definir
grupos con características similares. La misma sugiere varios resultados, que deben ser
verificados y afinados de forma tal que tengan sentido dentro del contexto en el que se
enmarcan los datos.
Los grupos son definidos bajo el criterio de distancia entre los datos. De esta forma,
aquellos que se encuentren distanciados pertenecerán a grupos distintos, mientras que si ocurre
lo contrario serán etiquetados dentro del mismo grupo.
Existen básicamente dos tipos de Agrupamiento: jerárquico y no jerárquico. En el
primero las características que hayan resultado en un grupo deben permanecer juntas; no
siendo así en el segundo.
Dentro del Agrupamiento jerárquico existen varias formas de medir la distancia entre
los datos (ver Figura 4.2). A continuación se numeran los más empleados:
•
Vecino más próximo: calcula la distancia entre dos grupos como la menor
distancia entre todos los pares de puntos de cada grupo.
•
Vecino más lejano: calcula la distancia entre dos grupos como la mayor entre
todos los pares de puntos de cada grupo.
•
Centroide: calcula la distancia entre dos grupos como la distancia entre los
promedios de puntos de cada grupo.
•
Promedio de relación entre grupos: calcula la distancia entre dos grupos como el
promedio de las distancias entre todos los pares de puntos de cada grupo.
15
a. Vecino más próximo
b. Vecino más lejano
c. Centroide
d. Promedio de relación entre grupos
Figura 4.2 Métodos de medición de distancia entre datos
Fuente: [SPSS, 2002]
El Agrupamiento jerárquico proporciona como resultado una especie de árbol
genealógico de grupos, en el cual cada grupo se subdivide en un mayor número de
conglomerados de menor tamaño. La representación gráfica de lo anterior se denomina
dendrograma, el cual incluye las distancias entre las subdivisiones, así como el número de
casos resultantes en cada subgrupo (ver Figura 4.3).
16
Figura 4.3 Ejemplo de Dendograma
Fuente: [SPSS, 2002]
El Agrupamiento no jerárquico se emplea cuando se tiene un conocimiento previo de
los datos que permitan estimar el número de grupos en que se divide la data, ya que debe ser
proporcionado al inicio del análisis. Su método más comúnmente empleado es el algoritmo de
agrupamiento K-medias, el cual basa sus mediciones de distancias en el centroide descrito
anteriormente.
El lector interesado en profundizar sobre Agrupamiento, ver [Politécnico de Milano,
2005].
4.2.1.2 Componentes Principales
El método de tratamiento de los datos conocido como Componentes Principales se
utiliza generalmente con el fin de reducir el número de parámetros o características empleadas
para tomar decisiones. En muchas aplicaciones se utilizan variables que están altamente
correlacionadas entre si, o poco correlacionadas con una variable dependiente de interés. Al
17
realizar un estudio de componentes principales, se discriminan características innecesarias o
redundantes de forma para simplificar el modelo.
Una componente principal es una combinación lineal de variables observadas,
independiente (ortogonal) de otras componentes. La primera componente principal considera
la mayor cantidad de varianza en la data de entrada; la segunda componente considera la
mayor cantidad de varianza restante en la data, y así sucesivamente. Cabe acotar que el hecho
de que sean componentes ortogonales implica que no están correlacionadas, lo que facilita la
interpretación.
El lector interesado en profundizar sobre Componentes Principales, ver [Smith, 2002].
4.3 SUPPORT VECTOR MACHINES
Support Vector Machines es una nueva generación de sistemas de aprendizaje,
producto de grandes avances en la teoría de aprendizaje estadístico en las últimas dos décadas,
desarrollado principalmente por Vapnik y sus colaboradores. Desde sus orígenes a principios
de los años noventa, han probado ser muy útiles en la solución de problemas del mundo real,
tales como reconocimiento de escritura a mano, clasificación de imágenes, análisis de
secuencias de ADN, etc. Es por ello que hoy en día es considerada una herramienta con
inmenso potencial en las áreas de Máquinas de Aprendizaje y Minería de Datos, tanto para
clasificación como para regresión.
A continuación se describen las características que forman Support Vector Machines,
haciendo énfasis en su aplicación como clasificador. Se inicia con un estudio más profundo de
clasificadores lineales, seguido de la introducción a los dominios característicos (feature
spaces) y su relación con los Kernels, la Teoría de Generalización y la Teoría de
Optimización, finalizando con sus aplicaciones en Clasificadores Support Vector.
4.3.1 Clasificadores Lineales
En aprendizaje supervisado, como se explicó anteriormente, se le proporciona a la
máquina de aprendizaje un grupo de ejemplos (entradas) con sus correspondientes etiquetas o
grupo al que pertenecen (salidas). Luego de tener estos vectores de entradas y salidas, se
18
puede elegir una serie de hipótesis referente al tipo de clasificador que puede separarlos de
forma óptima. Debido a su simpleza, los clasificadores lineales son utilizados como base para
otros más complejos, siendo el caso de la clasificación binaria su forma elemental.
La clasificación binaria se lleva a cabo generalmente con una función real
, siendo la entrada x=(x1, …,xn)´ asignada a la clase positiva si f ( x) ≥ 0 y a la
f:
negativa en caso contrario. La función f (x) es una función lineal de x ∈ X , que puede ser
escrita como:
f ( x) = w ⋅ x + b
n
= ∑ wi xi + b ,
i =1
donde w y b ∈
son los parámetros de control vector de peso y polarización
respectivamente, determinados a través del los datos de entrenamiento. La función de decisión
es signo( f (x) ), donde por convención signo(0) = 1. La representación gráfica de lo anterior
se muestra en la Figura 4.4, en donde un hiperplano separa a dos clases de datos.
Figura 4.4 Hiperplano (w, b) separando una data de entrenamiento bidimensional
Fuente: [Cristianini y Shawe-Taylor, 2000]
19
Desde hace más de cuatro décadas, existen muchos algoritmos para la separación de
dos clases de datos por medio de un hiperplano. Los más conocidos son el Perceptrón de
Rosenblatt y Mínimos Cuadrados, a través de los cuales se minimiza una denominada función
de costo para hallar una solución. El problema del primero radica en que, dependiendo del
orden de los datos de entrenamiento, el resultado puede variar no asegurando de esta manera
una solución óptima.
El algoritmo de Mínimos Cuadrados se encarga de minimizar la siguiente función de
costo denominada función cuadrática de pérdida:
l
L( w, b) = ∑ ( yi − w ⋅ xi − b) 2 .
i =1
Al obtener los valores del vector de peso y la polarización que minimicen la función
cuadrática de costo, se consigue el hiperplano con el máximo margen, el cual se define para un
punto específico como la distancia mínima de dicho punto al hiperplano de decisión (ver
Figura 4.5). Dicho margen máximo se conoce como el margen del conjunto de entrenamiento,
y se muestra en la Figura 4.6.
Figura 4.5 Márgenes para dos puntos para un hiperplano
Fuente: [Cristianini y Shawe-Taylor, 2000]
20
Figura 4.6 Margen del conjunto de entrenamiento
Fuente: [Cristianini y Shawe-Taylor, 2000]
Otro concepto importante es el de margen estacionario, definido para un punto
ejemplo como la distancia por la cual dicho punto fracasa en tener un margen determinado.
Esto es, para un punto que se encuentra ubicado del lado opuesto a su clase (por ende
clasificado erróneamente por el hiperplano), la distancia que lo separa de cierto margen,
pudiéndose observar geométricamente en la Figura 4.7.
Figura 4.7 Margen estacionario de dos puntos
Fuente: [Cristianini y Shawe-Taylor, 2000]
21
Una importante propiedad de los clasificadores lineales, explotada ampliamente por
Support Vector Machines, es su forma dual. Esta es el resultado de reescribir la función de
decisión como sigue:
h( x) = sgn ( w ⋅ x + b )
⎛
= sgn ⎜⎜
⎝
l
⎞
i =1
⎠
∑α i yi xi ⋅ x + b ⎟⎟
⎛ l
⎞
= sgn ⎜ ∑ α i yi xi ⋅ x + b ⎟ .
⎝ i =1
⎠
Para esto, se parte de la suposición de que
l
w = ∑ α i y i xi .
i =1
Lo anterior resulta de asumir que el vector de peso al inicio del algoritmo es el vector
cero, por lo que la hipótesis final será una combinación lineal de los puntos de entrenamiento
dada por el vector α . Sus beneficios serán evidentes en la siguiente sección, cuando se
introduzca el concepto de Kernel.
Para el caso de clasificación multi-clase, cuyo dominio de salida es Y = {1, 2, …, m},
es asignado un vector de peso y una polarización para cada una de las m clases, siendo la
función de decisión
c( x) = max( wi ⋅ x + bi ) .
1≤i ≤ m
Lo anterior equivale geométricamente a asociar un hiperplano a cada clase, y asignar
un punto nuevo x a la clase que tenga el hiperplano más lejano.
22
4.3.2 Dominios característicos y Kernels
En general, los problemas de la vida real son mucho más complejos para ser
solucionados con funciones lineales: la solución debería ser una combinación lineal de sus
atributos, cosa que rara vez ocurre. Además, la forma en que los datos son presentados a la
máquina de aprendizaje determina la complejidad de la función de decisión óptima buscada, lo
cual determina a su vez la dificultad del aprendizaje.
Los dominios o espacios característicos pueden definirse como la representación de los
datos en una forma más simple para el aprendizaje por parte de la máquina. Esto se logra al
trasladar las variables o atributos de un dominio X,
a un nuevo dominio F (dominio
característico) a través de una transformación de la forma:
x = ( x1 ,..., xn ) a φ ( x ) = (φ1 ( x ),..., φ N ( x )) ,
donde F = Φ( x) | x ∈ X. Para una mejor ilustración, puede verse la Figura 4.8, en donde antes
de la transformación los datos no eran separables por un clasificador lineal, pero luego si.
Figura 4.8 Ejemplo del uso de dominios característicos
Fuente: [Cristianini y Shawe-Taylor, 2000]
Aunque existen distintas opiniones en cuanto a los pasos a seguir para la creación del
espacio característico, esto dependerá básicamente de los datos, pudiendo llegar a convertirse
en un proceso iterativo.
23
Un primer paso, sugerido en [Cristianini y Shawe-Taylor, 2000], puede ser la reducción
de dimensionalidad, que consiste básicamente en identificar la menor cantidad de
características que sigan conteniendo la información esencial de los atributos originales, de la
siguiente forma:
x = ( x1 ,..., x n ) a φ ( x ) = (φ1 ( x ),..., φ d ( x )), d < n .
La reducción de dimensionalidad, además de simplificar los datos reduciendo la
complejidad computacional, permite mejorar la generalización de la máquina de aprendizaje,
ya que empeora al aumentar el número de características (maldición de dimensionalidad).
Otro paso para la creación de un espacio característico óptimo puede incluir la detección
de características irrelevantes y su eliminación; el análisis de componentes principales, al
determinar la varianza de cada característica y por ende su influencia sobre los resultados,
permite no sólo eliminar aquellas que aparentemente no son relevantes, sino que “proporciona
una transformación de los datos a un espacio característico en el cual las nuevas
características son funciones lineales de los atributos originales y están ordenados por la
cantidad de varianza que los datos muestran en cada dirección” [Cristianini y Shawe-Taylor,
2000]. De esta forma, el análisis de componentes principales además de ayudar en la detección
y eliminación de características irrelevantes, puede reducir la dimensionalidad creando un
espacio característico.
Una vez obtenido el dominio característico, la función de decisión resultante y su
representación dual son de la forma:
N
N
i =1
i =1
f ( x ) = ∑ wiφi ( x ) + b =∑ α i yi φ ( xi ) ⋅ φ ( x ) + b .
Debido a que la representación dual permite calcular el producto interno
< Φ ( x i ) ⋅ Φ ( x) > como función de los atributos originales, se puede construir una máquina de
aprendizaje no lineal en un sólo paso, utilizando un clasificador lineal con un espacio
24
característico K que haga, tanto la transformación no lineal, como el producto interno de la
forma:
K ( x, z ) = φ ( x ) ⋅ φ ( z )
,
donde x, z ∈ X y la función K es denominada Kernel. Al usar la representación dual, la
dimensión del dominio característico no influye en la intensidad del cálculo computacional;
esto es por que no se representan los vectores característicos de forma explícita sino a través
del producto interno. De esta forma, el número de operaciones es limitado por el tamaño del
conjunto de entrenamiento, sin influir la asunción sobre el valor inicial del vector de peso
descrita en la sección anterior.
Existen varios enfoques en cuanto al uso de Kernels; al abordar el problema buscando
un Kernel que contenga de forma implícita la transformación de los datos al dominio
característico, se evita la búsqueda de dicha función, mientras que al analizar los datos de
forma intensiva se puede obtener un Kernel más apropiado al crear una transformación
óptima. El primer acercamiento se emplea generalmente cuando se posee experiencia sobre el
tipo de datos, pero se debe comprobar la validez del la transformación implícita al satisfacer
ciertas condiciones dadas por el teorema de Mercer detallado en [Cristianini y Shawe-Taylor,
2000].
Se pueden mencionar tres Kernels reconocidos por ser muy efectivos en aplicaciones
diversas:
• Kernel Lineal:
K (xi , x j ) = xiT x j
• Kernel Polinomial:
(
)
K (xi , x j ) = xiT x j + 1
d
25
• Kernel RBF (Radial Basis Function):
K (x i , x j ) = e
−
xi x j
2
σ2
Los Lineal y Polinomial son los más básicos y generales, empleados usualmente
cuando los datos de cada grupo están muy concentrados alrededor de cierto valor. El RBF por
su parte “es por mucho la alternativa más popular de tipos de Kernels usados en Support
Vector Machines” [Sutton y Barto, 1998]; esto se debe principalmente por su excelente
desempeño en todo el rango de los números reales, aplicando separación de gaussianas con
parámetro de dispersión
σ (ver Figura 4.9). Cabe acotar que este último presenta resultados
opuestos cuando se trata de datos de valores no continuos.
Figura 4.9 Ejemplo de RBF unidimensional
Fuente: [Sutton y Barto, 1998]
4.3.3 Teoría de Generalización
La importancia de la generalización de una máquina de aprendizaje fue expuesta en
secciones anteriores, pero la introducción de los Kernels hace aún más importante su control.
Esto se debe a que con la libertad en cuanto al número de dimensiones proporcionado por los
Kernels, se puede tender a ser demasiado específico en cuanto a las características
(overfitting), que es lo contrario al concepto de generalización.
Las investigaciones de Vapnik y Chervonenkis han arrojado varios límites
matemáticos sobre la generalización de clasificadores lineales, los cuales indican cómo
controlar la complejidad de las soluciones, siendo ésta la base de Support Vector Machines. Su
26
Teorema principal indica que, con probabilidad 1- δ , cualquier hipótesis h ∈ H que es
consistente con los datos de entrenamiento presenta un error
2⎛
2el
2⎞
+ log ⎟ ,
err (h ) ≤ ε (l, H , δ ) = ⎜ d ⋅ log
d
δ⎠
l⎝
siendo H un dominio de hipótesis de soluciones con dimensión VC d para l ejemplos
aleatorios, siempre y cuando d ≤ l y l > 2 / ε .
La dimensión VC es una medida de la capacidad de la máquina y “para un grupo de
funciones { f (α )} se define como el número máximo de puntos de entrenamiento que pueden
ser quebrantados por { f (α )} ” [Burges, 1998], entendiéndose por quebrantar el hecho de
separar mediante hiperplanos cierto número de puntos de todas las formas posibles. Un
ejemplo de esto se observa en la Figura 4.10 para el caso de R 2 . En general, la dimensión VC
de un grupo de hiperplanos orientados en R n es n + 1.
Figura 4.10 Tres puntos en R quebrantados por líneas orientadas
2
Fuente: [Burgues, 1998]
Otros límites importantes se relacionan con los márgenes definidos en secciones
anteriores, y son derivados del Teorema de Vapnik- Chervonenkis. El primero se conoce como
27
el Limite de Margen Máximo según el cual, con probabilidad 1- δ , cierta hipótesis f ∈ L con
margen mayor o igual que γ , presenta un error
2 ⎛ 64 R 2
elγ
128lR 2
4⎞
⎟
err ( f ) ≤ ε (l, L , δ , γ ) = ⎜⎜ 2 log
log
log
+
l⎝ γ
4R
γ2
δ ⎟⎠ ,
siendo L un dominio de funciones lineales reales, l el número de ejemplos aleatorios y R la
distancia radial que encierra a todos los puntos, siempre y cuando 64 R 2 / γ 2 < l y l > 2 / ε .
El segundo es el Límite de Margen Flexible según el cual, bajo los mismos parámetros
del límite anterior, y con margen estacionario ξ , existe un parámetro c tal que el error de la
hipótesis f es
2
c ⎛⎜ R + ξ
err ( f ) ≤
l⎜ γ2
⎝
2
1 ⎞⎟
log l + log
δ ⎟⎠ .
2
La importancia del Límite de Margen Máximo radica en su independencia de la
dimensión de los datos de entrada, pero a su vez necesita que los datos sean separables con
cierto margen γ . En los casos de la vida real, los datos generalmente contienen ruido que
puede hacer que no sean completamente separables, caso en el que este límite no proporciona
ninguna información.
Para solventar el problema del caso no separable, surge el Límite de Margen Flexible,
el cual toma en cuenta la cantidad por la que los puntos fallan en tener cierto margen γ . Este
límite sugiere minimizar dicha cantidad para optimizar el desempeño de la máquina, lo cual no
necesariamente implica minimizar el número de clasificaciones incorrectas, que implicaría un
mayor esfuerzo computacional.
28
4.3.4 Teoría de Optimización
Luego de presentar la Teoría de Generalización, es claro que el problema de
aprendizaje de la máquina se ha convertido en un problema de minimización de funciones de
costo, sujetas a ciertos límites. La Teoría de Optimización es la rama de las matemáticas que
se encarga de caracterizar las soluciones a este tipo de problemas, desarrollando algoritmos
efectivos para hallarlas.
Para entrenar un Support Vector Machine, el problema planteado se limita a la
solución de funciones cuadráticas y convexas, siendo estas últimas aquellas que poseen un
solo mínimo local (por ende es mínimo global). El método empleado para la minimización de
este tipo de funciones es el de los multiplicadores de Lagrange, que, para la optimización de
una función f (w) con restricciones hi(w) = 0, utiliza el Lagrangiano:
m
L(w, β ) = f (w) + ∑ β i hi (w) ,
i =1
donde los coeficientes βi se llaman multiplicadores de Lagrange. El Teorema de Lagrange
especifica que para obtener el mínimo de la función f (w), se deben cumplir las siguientes
condiciones:
∂L(w, β )
=0
∂w
∂L(w, β )
=0.
∂β
Luego, al generalizar en cuanto a las restricciones impuestas sobre w añadiendo
gi(w) ≤ 0, se obtiene el Lagrangiano generalizado:
k
m
i =1
i =1
L(w,α , β ) = f (w) + ∑ α i g i (w) + ∑ β i hi (w)
29
= f (w) + α ' g (w) + β ' h(w) .
El Teorema de Kuhn-Tucker expone que dado el Lagrangiano generalizado, la
optimización se consigue al obtener α * , β * tales que
∂L(w,α , β )
=0,
∂w
∂L(w,α , β )
=0,
∂β
α i g i (w) = 0 , i = 1,..., k ,
g i (w) ≤ 0 , i = 1,..., k ,
α i ≥ 0 , i = 1,..., k .
La última relación es conocida como la condición complementaria de Karush-KuhnTucker, e implica que sólo cierto número de variables de los datos de entrenamiento tendrán
valores de α no nulos. Dichos puntos son denominados vectores de soporte, ya que son los
que determinan la función de decisión, siendo la razón del nombre Support Vector Machines.
4.3.5 Clasificadores Support Vector
Las secciones anteriores describen cómo controlando la capacidad de la máquina con
base en la Teoría de Generalización y empleando las técnicas matemáticas descritas en la
Teoría de Optimización, un clasificador Support Vector “aprende” hiperplanos óptimos,
aprovechando las ventajas del uso de Kernels con dominio característico implícito.
Dependiendo del límite utilizado en la Teoría de Generalización, existen varios
clasificadores Support Vector. Los dos más importantes son el Clasificador de Margen
30
Máximo por razones históricas, y el Clasificador de Margen Flexible, cuyos límites empleados
fueron descritos en la sección 4.3.3 (Limite de Margen Máximo y Limite de Margen Flexible,
respectivamente). Debido a las características de dichos límites, el primero sólo funciona en
datos separables, mientras que el segundo procura una mejor generalización, permitiendo la
clasificación incorrecta de ciertos datos de entrenamiento como se muestra en el ejemplo de la
Figura 4.11.
a. Clasificador de Margen Máximo
b. Clasificador de Margen Flexible
Figura 4.11 Ejemplo de Clasificadores Support Vector para cierta data de entrenamiento
Fuente: [Cristianini y Shawe-Taylor, 2000]
Existen varios métodos para estimar los errores en los clasificadores, pero los
ampliamente aceptados son los siguientes:
• Técnica “Holdout” (retener fuera): utiliza una porción del total de registros disponibles
como conjunto de entrenamiento, y el resto como conjunto de prueba, con el cual se
calcula el error de clasificación (ver Figura 4.12).
31
Figura 4.12 Estimación del error de clasificación con la técnica “Holdout”
Fuente: [Aguilar, 2002]
• Técnica de validación cruzada: el conjunto total de registros es dividido en k grupos
aleatorios mutuamente excluyentes, de aproximadamente el mismo tamaño. Luego se
realizan k entrenamientos, seleccionando un conjunto de prueba distinto, siendo el error
estimado la media de los k errores obtenidos (ver Figura 4.13).
Figura 4.13 Estimación del error de clasificación con la técnica de validación cruzada
Fuente: [Aguilar, 2002]
32
4.3.6 Aplicaciones de Support Vector Machines
El número de aplicaciones de esta herramienta crecen cada día, y como se expuso
anteriormente, las áreas en donde es utilizada son muy variadas. A continuación se presenta
parte de una lista disponible y detallada en [ClopiNet, 2005], que contabiliza algunas de las
aplicaciones dadas a Support Vector Machines por investigadores alrededor del mundo:
•
Clasificación de expresiones faciales
•
Clasificación de textura a través de imágenes
•
Aprendizaje en línea (e-learning)
•
Clasificación de texto
•
Agrupamiento de imágenes
•
Reconocimiento de voz
•
Teoría del caos
•
Predicción de velocidad de tráfico y tiempo de viaje
•
Estructura de proteínas
•
Identificación de exones alternativos en secuencias de ADN
•
Detección de intrusos en redes de computadoras
•
Efectos de la quimioterapia en probabilidades de sobrevivir al cáncer de mama
•
Identificación de Quarks y partículas en física energética avanzada
•
Reconocimiento de objetos 3-D
4.4 MERCADEO
El mercadeo se entiende por la actividad que lleva a cabo una compañía para vender los
productos/servicios que manufactura/presta, comprendiendo cuatro componentes principales:
• Productos y Servicios: establece una estrategia en cuanto al producto o servicio a
vender, la cual define el tipo del mismo (especializado, de alta calidad, versiones,
etc.).
33
• Promoción: define la estrategia de publicidad e interacción con los consumidores,
la cual debido a los elevados costos de espacios en medios de comunicación masivos,
deben ser optimizados para tener un buen retorno de inversión (ROI).
• Precio: establece la estrategia a tomar en cuanto al precio del producto, tomando en
cuenta que mayor precio implica menor volumen en ciertos casos, pero en otros se
traduce en el resultado opuesto (elasticidad negativa).
• Distribución: define en que tipo de locales y canales va a estar disponible el
producto, así como las zonas geográficas de los mismos.
Bajo una buena gerencia, las estrategias adoptadas en cada uno de los componentes
descritos están orientadas a convencer a los consumidores a probar o seguir usando un
producto específico. Para determinar la combinación óptima de los mismos se deben llevar a
cabo las siguientes tareas:
1. Segmentación de Mercado: “es la división del mercado en grupos homogéneos
de consumidores, cada uno de ellos reaccionando diferente ante promociones,
comunicación, precio y otras variables de las componentes del mercadeo” [Recklies,
2001a]. La idea de dirigir los esfuerzos para la venta de un producto a toda la
población es poco eficiente por sus elevados costos (bajo ROI); la segmentación se
encarga de diferenciar varios grupos de consumidores cuyas características tengan
sentido práctico a la hora de diferenciarlos entre sí. Dichas características
regularmente se refieren a geográficas (país o región, área metropolitana o rural),
demográficas (edad, sexo, estado civil, ingreso económico, religión, raza, educación,
ocupación), psicográficas (estatus social, estilo de vida) y de comportamiento
(intensidad de uso del producto, lealtad a cierta marca, lugar de compra).
2. Identificación de Mercados Blanco (targeting): luego de tener los grupos
diferenciados por la etapa anterior, se evalúa cuál o cuáles de ellos presenta
características más afines con el producto. “Es importante asegurar que el target
seleccionado genere suficiente volumen para obtener ganancias” [Bucherer y
Robinson, 2003].
3. Posicionamiento: finalmente se decide de qué forma se presentará el producto al
target elegido, atendiendo sus necesidades y expectativas. Se trata de “una imagen
34
para un producto en las mentes de los consumidores” [Recklies, 2001b], la cual
incluye precio, calidad, valor, y confiabilidad, entre otros, no necesariamente siendo
los reales. Es importante escoger una imagen que diferencie el producto de la
competencia, de forma tal que resulte atractivo para el consumidor. En la Figura 4.14
se muestra uno de los elementos más importantes del posicionamiento, que es la
relación entre precio percibido y calidad; mientras más arriba y a la izquierda de la
diagonal trazada por la mayoría de los productos, mejor posicionamiento se tiene.
Figura 4.14 Posicionamiento por calidad versus precio percibido
Fuente: [Recklies, 2001b]
Para lograr obtener buenos resultados en dichas tareas surge la Investigación de
Mercado, rama del mercadeo que se encarga entre muchas cosas de:
•
Entender el potencial del mercado (tamaño)
•
Analizar el comportamiento del mercado (tendencias)
•
Entendimiento de los consumidores
•
Definición de consumidor blanco (target)
•
Analizar a la competencia y sus participaciones en las ventas de la categoría de
interés
CAPÍTULO 5: MARCO METODOLÓGICO
Este capítulo describe la metodología utilizada para la realización del proyecto, la cual
incluye una revisión bibliográfica inicial, seguida de la etapa de desarrollo que abarca todos
los pasos de un proyecto de Minería de Datos.
5.1 REVISIÓN BIBLIOGRÁFICA
Debido a la complejidad teórica del proyecto y a su avanzado nivel, una investigación
bibliográfica exhaustiva fue requerida. Esta incluyó libros, publicaciones en medios
especializados (papers) y páginas web.
5.2 DESARROLLO DEL PROYECTO
A lo largo del la etapa de desarrollo del proyecto se siguió la metodología sugerida por
el modelo de referencia CRISP-DM, cuyas siglas significan Proceso Estándar para Minería de
Datos en Industrias Varias (Cross Industry Standard Process for Data Mining). Cabe acotar
que dicho modelo incluye muchas etapas del proceso de descubrimiento de conocimiento
discutido en el marco teórico.
Este modelo consiste en seis fases mostradas en la Figura 5.1 en las cuales, como
indican las flechas, se avanza o retrocede dependiendo de los resultados obtenidos en cada una
de ellas. La flecha exterior simboliza en ciclo natural de la Minería de Datos, no terminando el
mismo cuando una solución es obtenida, ya que ésta puede traer consigo nuevas y mejor
enfocadas interrogantes sobre el tema en el que se enmarcan.
36
Figura 5.1 Fases del modelo de referencia CRISP-DM
Fuente: [Chapman et al., 1999]
5.2.1 Entendimiento del negocio
La fase inicial se enfoca en entender los objetivos de negocio, los objetivos del
proyecto y los requisitos para lograrlo, para luego convertir este conocimiento en un problema
de Minería de Datos e incluye:
• Antecedentes: provee una visión del contexto del proyecto y contiene el área en
el que se desarrolla, problemas identificados y razones por las cuales la Minería de
Datos puede proveer una solución.
• Objetivos de negocio y criterio de éxito: describe las metas que se esperan
alcanzar desde el punto de vista del negocio, así como medidas que determinen el
éxito de los resultados.
37
• Inventario de recursos: busca identificar recursos disponibles para el buen
desenvolvimiento del proyecto, incluyendo personal, fuentes de datos, locaciones,
entre otros.
• Requerimientos, suposiciones y limitaciones: describe requisitos para realizar
el proyecto, así como asunciones y condiciones necesarias para lograrlo.
• Riesgos: describe posibles problemas a encontrar durante el desarrollo del
proyecto, y sus posibles soluciones o medidas a tomar.
• Costos y beneficios: el desembolso dinerario del proyecto y su posibles aportes
(tangibles o no).
• Objetivos de la Minería de Datos y criterio de éxito: manifiesta los resultados
del proyecto que permitirán el alcance de los objetivos de negocio, así como
medidas que determinen el éxito de los resultados en términos de Minería de Datos.
• Plan de proyecto: indica las etapas del proyecto, junto con una duración
tentativa que debe tomar en cuenta la cualidad iterativa de la Minería de Datos.
• Apreciación inicial de herramientas y técnicas: describe los instrumentos que
probablemente sean utilizados.
5.2.2 Entendimiento de los datos
Esta fase comienza con la obtención de los datos, seguido de ciertas actividades para
familiarizarse e identificar problemas en los mismos. Se divide en las siguientes etapas:
•
Reporte inicial de recolección de datos: especifica el origen de los datos,
método de extracción de los mismos y problemas encontrados durante el proceso.
•
Reporte de descripción de datos: abarca la descripción específica de los datos,
incluyendo unidades utilizadas, códigos, etc.
•
Reporte de exploración de datos: explica cualquier evento u observación
relevante después de hacer una exploración inicial a los datos.
•
Reporte de calidad de los datos: describe que tan completa y precisa es la base
de datos.
38
5.2.3 Preparación de los datos
Generalmente, la herramienta de modelado a utilizar necesita los datos en cierto
formato distinto al original y con la mínima cantidad de errores posible, por lo cual deben ser
pre-procesados para obtener resultados óptimos. En esta fase se describen los pasos tomados
para la preparación de los datos y la descripción de sus resultados, incluyendo objetivos del
pre-procesamiento, acciones dirigidas a resolver problemas de calidad de los datos, razones
para la inclusión o exclusión de atributos y otros descubrimientos obtenidos en el proceso.
5.2.4 Modelado
Describe la técnica de modelaje seleccionada y aplicada, así como la calibración de sus
parámetros hasta obtener valores óptimos. Generalmente en esta etapa dicha técnica es
seleccionada entre las muchas que hay, teniendo que retroceder a la etapa anterior para
satisfacer los requisitos de la misma; en el caso de este proyecto ya esta definida en sus
objetivos (Support Vector Machines) por lo cual dicho retroceso no fue necesario. Sus pasos
se pueden resumir en:
•
Asunciones del modelado: define explícitamente las asunciones acerca de los
datos y la herramienta de modelado utilizados.
•
Diseño de prueba: especifica cómo los modelos son creados, probados y
evaluados, para poder cumplir con los objetivos de la Minería de Datos planteados.
•
Descripción del modelo: para cada modelo desarrollado se especifican los
parámetros, condiciones y otras características bajo las cuales fue creado, así como
los resultados obtenidos y su relación con los objetivos propuestos.
•
Apreciación del modelo: describe los resultados obtenidos al aplicar la prueba
especificada anteriormente, a los distintos modelos.
Las últimas dos fases fueron implementadas de forma iterativa, hasta obtener
resultados satisfactorios.
39
5.2.5 Evaluación
Para esta etapa se debe tener un modelo (o modelos) creado que aparentemente posea
alta calidad desde el punto de vista de análisis de datos. Antes de continuar a la etapa de
despliegue, es importante asegurar que los procedimientos seguidos en la obtención de dicho
modelo fueron los adecuados para lograr los objetivos, así como debe revisarse si hubo algún
objetivo importante que no haya sido suficientemente considerado.
Finalmente se concluye si los resultados de la Minería de Datos realizada serán
utilizados, incluyendo recomendaciones en cuanto a próximos pasos a seguir.
5.2.6 Despliegue
El despliegue depende principalmente de las características del proyecto y puede ser,
como en este caso, la redacción de un reporte con los resultados obtenidos a lo largo del
proceso, que puedan ser utilizados cuanto antes para obtener beneficios en el negocio.
CAPÍTULO 6: SOFTWARE UTILIZADO
El presente capítulo describe el software informático empleado en el desarrollo del
proyecto.
6.1 MATLAB
MATLAB es un lenguaje de alto desempeño desarrollado por The MathWorks Inc,
integrando cómputo, visualización y programación en un ambiente matemático. Es empleado
en desarrollo de algoritmos computacionales, adquisición de datos, modelaje, simulación,
análisis de datos, desarrollo de aplicaciones gráficas, entre otros.
Su nombre proviene de “Matrix Laboratory” (laboratorio de matrices), ya que
originalmente fue diseñado para facilitar el manejo de matrices. En la actualidad esa es solo un
pequeño atributo del programa, siendo complementado por extensiones llamadas “toolbox”
que no son mas que secuencias de funciones de MATLAB para resolver problemas
específicos. Existe una gran variedad de áreas que poseen toolbox disponible, incluyendo
procesamiento se señales, sistemas de control, redes neurales, lógica difusa, entre otros. La
Figura 6.1 muestra una vista del programa.
Figura 6.1 Ejemplo de vista del programa MATLAB
41
6.1.1 LS-SVM toolbox
Desarrollado por el grupo KULeuven-ESAT-SCD, el toolbox LS-SVM de MATLAB
es una programación de la metodología de aprendizaje de Support Vector Machines, enfocada
en mínimos cuadrados. Dicho enfoque permite resolver problemas con la condición de
Karush-Kuhn-Tucker (KKT) de forma tal que solo un reducido número de datos de
entrenamiento determinen los márgenes (vectores de soporte).
Permite realizar clasificaciones y regresiones basadas en Support Vector Machines,
ofreciendo características gráficas y de optimización que no están desarrolladas en su totalidad
(no soportan casos de múltiples clases). Además, permite su uso a través de la interfaz
orientada a objetos así como la tradicional interfaz funcional. En la Figura 6.2 se muestra una
gráfica de un ejemplo de clasificación binaria de datos con dos dimensiones.
Figura 6.2 Ejemplo de clasificación binaria con toolbox LS-SVM
42
6.2 SPSS
SPSS es una herramienta estadística desarrollada por SPSS Inc. que permite realizar
una gran variedad de análisis de datos, a la vez permitiendo modificarlos, transformarlos y
graficarlos. Dichos datos conforman una matriz con valores, ya sean categóricos (nominales u
ordinales) o escalares, como se muestra en las Figuras 6.3 (variables región y ventas96
respectivamente).
Figura 6.3 Ejemplo de vista de datos con valores categóricos y escalares en SPSS
Entre los análisis más importantes que provee SPSS se encuentran los siguientes:
• Análisis Factorial: intenta identificar variables subyacentes o factores, que
expliquen la configuración de las correlaciones dentro de un conjunto de
variables. Se suele utilizar en la reducción de los datos para identificar un
pequeño número de factores que explique la mayoría de la varianza observada en
un número mayor de variables manifiestas.
• Análisis de Conglomerados Jerárquico: este procedimiento intenta identificar
grupos relativamente homogéneos basándose en las características seleccionadas,
mediante un algoritmo que comienza con cada caso (o cada variable) en un
conglomerado diferente y combina los conglomerados hasta que sólo queda uno.
43
• Análisis de Conglomerados de K-medias: intenta identificar grupos de casos
relativamente homogéneos basándose en características seleccionadas, utilizando
un algoritmo que puede gestionar un gran número de casos, aunque requiere que
el usuario especifique el mismo. Además se puede especificar los centros
iniciales de los conglomerados si se conoce de antemano dicha información.
• Procedimiento MLG Multivariante: proporciona un análisis de regresión y un
análisis de varianza para variables dependientes múltiples por una o más
covariables o variables de factor.
• Análisis de regresión: estima la relación lineal entre una variable dependiente y
una o más variables independientes.
• Análisis de varianza o ANOVA: comparación de la varianza muestral estimada
a partir de las medias de los grupos respecto a la estimada dentro de dichos
grupos.
6.3 QUANVERT
Quanvert es un software desarrollado por SPSS Inc. que permite la tabulación de datos,
y es empleado para proporcionar los resultados de una investigación cuantitativa. Además,
posee la capacidad de exportar los mismos a SPSS ya que son hechos por la misma compañía.
La Figura 6.4 muestra una vista del programa en la cual se puede apreciar del lado derecho la
lista de variables medidas en el estudio, y en el izquierdo las especificaciones de la tabulación.
44
Figura 6.4 Ejemplo de vista del programa Quanvert
CAPÍTULO 7: RESULTADOS OBTENIDOS
En este capítulo se exponen y discuten los resultados obtenidos al llevar a cabo la
metodología descrita en el Capítulo V.
7.1 REVISION BIBLIOGRAFICA
Luego de investigar a profundidad el sistema de aprendizaje Support Vector Machines,
así como su rol en la creación de máquinas de aprendizaje, se obtuvo el conocimiento
necesario para llevar a cabo el proyecto. Además se estudió las técnicas de minería de datos
necesarias para la preparación de los datos disponibles. En el Capítulo IV se expuso un
resumen del conocimiento adquirido en esta etapa, la cual tuvo una duración de
aproximadamente 7 semanas.
7.2 DESARROLLO DEL PROYECTO
Una vez familiarizado con el tema se siguió el modelo CRISP-DM descrito
anteriormente para el desarrollo del proyecto. Las etapas con sus frutos se presentan a
continuación.
7.2.1 Entendimiento del negocio
Desde el año 2003, la unidad de Cuidado Bucal de Procter & Gamble Servicios
Latinoamérica ha tenido un gran auge en el segmento de pastas dentales en México bajo su
marca principal Crest, en un mercado ampliamente dominado por Colgate. Esto ha sido el
resultado de varios esfuerzos de mercadeo para renovar la imagen de la marca e innovar en la
creación de productos que, siguiendo los lineamientos y propósitos de la compañía, ayuden a
mejorar la vida de los consumidores los cuales recompensarán dicho esfuerzo comprando los
productos.
Hasta la fecha, las iniciativas de nuevos productos de la marca Crest en México se han
basado en el desempeño de los mismos y su aceptación por parte de los consumidores, la cual
46
es capturada a través de estudios realizados por el departamento de Investigación de Mercado.
Además, la publicidad y distribución de los mismos no han sido optimizadas por la falta de un
mercado blanco (target) a quien dirigir los esfuerzos realizados. Esto implica un mal uso de
los fondos destinados a dichas áreas, así como un enfoque fuera de lo deseado al no estar
completamente centrado en el consumidor.
Los objetivos de negocio planteados ante la situación descrita son:
•
Producir dentífricos diseñados para una población específica, la cual al verse
identificada y satisfecha con los mismos procederán a adquirirlos.
•
Aumentar en índice de retorno de inversión ROI, a través de la optimización
de los gastos en publicidad y distribución.
•
Determinar la combinación óptima de las componentes del mercadeo para ser
más eficientes.
•
Lograr un posicionamiento sólido en el mercado de pastas de dientes en
México, atrayendo a la mayor cantidad de consumidores que actualmente
compran Colgate.
Al cumplir con dichos objetivos de negocio, se espera que las ventas de productos
Crest así como sus márgenes de ganancia aumenten. Cabe acotar que por razones de
confidencialidad de la empresa, las medidas precisas de éxito de los objetivos expuestos no
pueden ser divulgadas.
Para alcanzar dichos objetivos, el departamento de Investigación de Mercado de la
unidad de Cuidado Bucal decidió llevar a cabo la segmentación del mercado de pastas
dentales, utilizando una serie de 295 atributos provistos por la unidad de Cuidado Bucal del
GBU de Norte América. Dichos atributos son preguntas que determinan características
psicográficas, demográficas, actitudinales y emocionales de los consumidores, y se incluyeron
en una encuesta realizada entre una muestra representativa de la población mexicana en Mayo
del 2005 de 895 personas. Los resultados de dicho estudio constituyen el recurso principal
para la realización del proyecto, además del personal perteneciente al departamento de
Investigación de Mercado.
47
Cabe destacar que regularmente en los estudios realizados por el departamento de
Investigación de Mercado, el número de entrevistas sobre una muestra representativa de la
población es de 300, pero dada la importancia estratégica de este proyecto se decidió triplicar
dicha cifra para obtener resultados más precisos.
El éxito del proyecto depende altamente de la suposición de que los datos
proporcionados por los consumidores a través de las encuestas son verídicos. Al mismo
tiempo debe tomarse en cuenta la limitación de que dichos datos serán válidos por un tiempo
determinado (generalmente 2 a 3 años), ya que las variables medidas tienden a cambiar en la
población.
El costo monetario constituye información confidencial, pero sus beneficios son
considerables al aumentar las ganancias del negocio, tanto por volumen de ventas, como por
optimización de recursos empleados para lograr las mismas.
La Minería de Datos, como herramienta para el procesamiento de datos y parte del
proceso de descubrimiento de conocimiento, fue planteada como instrumento para lograr los
siguientes objetivos:
•
Lograr una segmentación efectiva de la población, entendiéndose por efectiva
que tengan sentido en el contexto de mercadeo.
•
Utilizar los resultados de dicha segmentación como base para la creación de un
método que permita identificar a los distintos grupos en futuros estudios del
departamento de Investigación de Mercado.
El principal problema para lograr el segundo objetivo es que en futuros estudios, cuyos
propósitos ya no serán la segmentación de la población (ej. calificación de nuevos productos),
no será posible añadir la gran cantidad de atributos utilizados por este proyecto a las preguntas
concernientes a la nueva investigación. Además, para lograr la clasificación de entrevistados
con combinaciones de características no vistas en la segmentación inicial, es necesario la
utilización de un sistema de aprendizaje con buenas propiedades de generalización.
48
El criterio de éxito propuesto es obtener la aprobación de los expertos de mercadeo en
cuanto a la coherencia de la segmentación de la población, así como lograr la clasificación de
datos no utilizados en el entrenamiento del sistema de aprendizaje a modelar, a partir de
menos de 15 atributos, con un más de 95% de efectividad. Para lograr esto, se propuso el
siguiente plan basado en la metodología expuesta en el Capítulo V:
•
Entendimiento de los datos (1 semana): familiarización con los datos
resultantes del estudio realizado, así como la descripción de sus valores y
unidades.
•
Preparación de los datos (4 semanas): dado que la segmentación especificada
en los objetivos será utilizada para el modelado del sistema de aprendizaje, fue
considerada parte de esta etapa, siendo un sub-problema de Minería de Datos a
través de la técnica de agrupamiento. Además, para lograr disminuir la cantidad
de variables empleadas, el análisis de componentes principales fue considerado
de forma similar en esta fase.
•
Modelado (5 semanas): creación de un modelo de Support Vector Machines
para la clasificación de los datos, partiendo de los kernels más exitosos en áreas
diversas.
•
Evaluación (1 semana): revisión exhaustiva de los métodos empleados y sus
resultados, involucrando a expertos de Investigación de Mercado y Mercadeo
de la empresa.
•
Despliegue (2 semanas): elaboración del informe con los resultados obtenidos,
correspondiente al presente libro final del proyecto de pasantía.
Las técnicas y herramientas empleadas fueron descritas en el Capítulo IV.
7.2.2 Entendimiento de los datos
La fuente principal de datos para la realización del proyecto son los resultados de las
895 entrevistas realizadas por el departamento de Investigación de mercado, constituyendo
cada una de ellas una fuente puntual de información.
49
Los datos fueron proporcionados en formato Quanvert (extensión pkd). Este programa
permite elaborar tablas con los resultados pero no posibilita el tratamiento de los datos, por lo
que se utilizó su propiedad de exportación a SPSS.
Una vez en formato SPSS, se pudo apreciar las siguientes características de los datos:
•
Corresponden a medidas ordinales de tipo numérico.
•
Sus valores válidos, con su correspondiente significado ante preguntas de
conformidad son: -2,00 “Fuertemente en desacuerdo”, -1,00 “En desacuerdo”,
,00 “Ni de acuerdo ni en desacuerdo”, 1,00 “De acuerdo” y 2,00 “Fuertemente
de acuerdo”.
•
Los valores -9901,00 y -99,99 corresponden a datos perdidos o no contestados
por los entrevistados, considerados como inválidos.
•
Cada atributo posee un nombre código así como una etiqueta. Este último
corresponde a la pregunta explicita realizada en el estudio, siendo la primera
una abreviación de la misma. Por razones de confidencialidad de la empresa,
estos no podrán ser asentados en este informe y en lo sucesivo serán
distorsionadas las imágenes que los contengan.
En la Figura 7.1 se puede apreciar parte del análisis de estadísticos descriptivos
realizado, el cual incluye para cada atributo el número de casos válidos (N), mínimo, máximo,
media, desviación estándar o típica y varianza. Solo se muestra una parte debido a la gran
cantidad de atributos.
50
Figura 7.1 Estadísticos descriptivos de los datos disponibles (primeros 7 atributos)
Este análisis permitió observar las medias y desviaciones estándares de cada atributo,
proporcionando una exploración de los resultados arrojados por el estudio, así como junto a la
varianza, se pudo tener un primer acercamiento en cuanto a cuales características podrían ser
discriminantes al momento de separar grupos y cuales no. Debido a la gran cantidad de
atributos que presentaron poca varianza en relación a un grupo de aproximadamente 30 que
desatacó con valores superiores, se concluyó que el análisis de componentes principales
planteado en el plan propuesto tenía altas probabilidades de éxito.
La calidad de los datos, tomando en cuenta las suposiciones expuestas anteriormente,
se pudo valorar a través de la cantidad de casos válidos. En promedio, cada atributo cuenta con
mas del 99.7% de datos válidos, pero al investigar más a fondo solo el 79% de los individuos
51
entrevistados poseen datos válidos para todos los atributos. Esta última cifra representa mas
adecuadamente la calidad de los datos tomando en cuenta los objetivos del proyecto, ya que
para realizar una segmentación efectiva de personas deben tomarse en cuenta todas las
características medidas, por lo que la ausencia de una de ellas representa un problema.
7.2.3 Preparación de los datos
Debido a la elevada cantidad de entrevistas con datos inválidos descubiertos en la
etapa anterior, y tomando en cuenta que la cantidad total de entrevistas realizadas es tres veces
mayor que lo usual, se decidió utilizar solo aquellas que fueran completamente válidas para
asegurar una segmentación efectiva. Con esto se eliminaron 192 fuentes puntuales de datos,
quedando 703 restantes para las siguientes etapas.
Una vez solventado el problema de la calidad de los datos, se continuó a la etapa de
segmentación a través de la técnica de agrupamiento. Utilizando el programa estadístico SPSS
se realizaron varios análisis de agrupamiento jerárquico para obtener una idea de la cantidad
de grupos separables en los datos.
Se utilizaron los métodos de medición de distancia por centroide y por promedio de
relación entre grupos, para evitar en lo posible la influencia de datos aislados. No se obtuvo
diferencia entre ambos resultados y el dendograma resultante se muestra en la Figura 7.2 (solo
la parte final ya que completo son 16 páginas). Este muestra como existen 4 grupos
principales, siendo uno de ellos demasiado pequeño (menos del 0,5% de las fuentes de datos).
52
Figura 7.2 Dendograma de los datos (parte final)
Luego de eliminar el insignificante grupo hallado (restando 700 fuentes de datos), y
tomando en cuenta que la solución aparente es de 3 grupos, se realizó un agrupamiento Kpromedios ya que proporciona más información que el jerárquico pero necesita el número de
conglomerados. El mismo fue repetido hasta alcanzar el número de iteraciones en el cual las
53
distancias entre los centros de los conglomerados no cambiasen, obteniéndose otra fuente de
datos extraordinario que no permitía la separación de los 3 grupos deseados (Figura 7.3).
Figura 7.3 Resultados del agrupamiento K-promedios No. 1
Se identificó y eliminó el caso problemático y se repitió el análisis. El resultado de
número de casos en cada conglomerado se muestra en la Figura 7.4, y son muy similares a los
tamaños sugeridos por el agrupamiento jerárquico; la pequeña diferencia se puede explicar por
la exclusión de los 4 casos considerados como ruido.
Figura 7.4 Resultado del agrupamiento K-promedios No. 2
54
Utilizando los centros de los conglomerados finales (parte de la cual se muestra en la
Figura 7.5), se elaboró un reporte con las características principales de cada grupo en cuanto a
los atributos evaluados, el cual fue discutido con el departamento de Mercadeo. Se concluyó
que los grupos poseen características suficientemente diferentes y aprovechables, por lo que
fue validado.
Figura 7.5 Centros de cada conglomerado para cada atributo evaluado (primeros 9)
55
Con esto se obtuvo una lista final de pertenencia de cada caso o fuente de datos a cada
grupo con sus respectivas distancias a los centros de los mismos, parte de la cual se muestra en
la Figura 7.6. A partir de ésta se creó una variable de pertenencia de conglomerado para
utilizarse en la siguiente etapa.
Figura 7.6 Pertenencia a los conglomerados de cada fuente de datos (primeros 30)
La variable de pertenencia de conglomerados fue utilizada como variable dependiente
en el análisis de componentes principales, el cual al definir la combinación de los atributos que
56
abarcan la mayor cantidad de varianza sobre cada conglomerado determina cuales tienen
mayor influencia. En la Tabla 7.1 se muestran parte de los resultados para cada conglomerado.
Grupo 1
atributo 1
atributo 2
atributo 3
atributo 4
atributo 5
atributo 6
atributo 7
atributo 8
atributo 9
atributo 10
atributo 11
atributo 12
atributo 13
atributo 14
atributo 15
atributo 16
atributo 17
atributo 18
atributo 19
atributo 20
atributo 21
atributo 22
atributo 23
atributo 24
atributo 25
atributo 26
atributo 27
atributo 28
atributo 29
atributo 30
Grupo 2
Bruta
Reescalada
,381
,368
,165
,180
,093
,277
,105
,400
,161
,244
,241
,351
,457
,358
,223
,299
,168
,235
,146
,094
,225
,330
,256
,179
,323
,268
,208
,282
,238
,139
,381
,361
,187
,211
,127
,340
,145
,410
,197
,292
,281
,401
,491
,396
,277
,312
,209
,271
,173
,129
,304
,379
,302
,241
,344
,280
,219
,297
,274
,158
Bruta
,060
,254
,183
,096
,061
,200
,328
,094
,256
,298
,112
,159
,112
,242
,354
,047
,160
-,208
,331
,382
,138
,128
,087
,252
-,012
-,054
,487
,347
,331
,281
Grupo 3
Reescalada
,098
,324
,199
,095
,066
,255
,411
,112
,301
,398
,114
,181
,153
,283
,435
,055
,162
-,243
,339
,388
,142
,178
,110
,305
-,016
-,088
,480
,362
,394
,374
Bruta
Reescalada
,111
-,085
,051
,014
,103
,131
,215
-,014
,290
,286
,126
,174
-,050
,153
,204
-,057
,009
-,114
,143
,257
,207
-,080
,169
,231
-,078
-,170
,311
,085
,209
,220
,137
-,094
,057
,015
,117
,169
,291
-,015
,323
,378
,145
,191
-,061
,184
,242
-,064
,010
-,127
,155
,325
,246
-,095
,199
,310
-,096
-,196
,369
,097
,234
,227
Tabla 7.1 Matriz de componentes para cada conglomerado (primeros 30 atributos)
Al analizar la matriz de componentes se seleccionaron 18 atributos que sobresalieron
por tener alta influencia sobre los grupos establecidos en la segmentación (los 6 mayores de
cada grupo) y se muestran en la Tabla 7.2.
57
Grupo 1
,491
,476
,472
,438
,435
,435
,364
,399
,188
,219
,277
,122
,369
,297
,225
,315
,196
,288
atributo 13
atributo 56
atributo 50
atributo 36
atributo 45
atributo 107
atributo 31
atributo 68
atributo 94
atributo 27
atributo 15
atributo 288
atributo 87
atributo 86
atributo 89
atributo 121
atributo 95
atributo 125
Grupo 2
,153
,109
,283
,203
,093
,101
,489
,486
,481
,480
,435
,427
,405
,184
,176
,384
,362
,263
Grupo 3
-,061
-,188
,045
,218
-,019
,152
,184
,219
,358
,369
,242
,380
,438
,428
,425
,421
,415
,395
Tabla 7.2 Componentes de los atributos seleccionados para cada conglomerado
Al hacer un estudio de correlaciones bivariadas (Tabla 7.3) se determinó que sólo 15
atributos eran independientes (correlación < 0,3 en relación a los otros atributos), eliminando
el 50, 87 y 94. Además se decidió prescindir del atributo 13 por tener 4 correlaciones mayores
a 0,2.
Atributos
13
15
27
31
36
45
50
56
68
86
87
89
94
95
107
121
125
288
13
1,000
,176
,098
,140
,214
,160
,266
,239
,105
,029
,041
,032
,053
,013
,258
,004
,083
-,006
15
27
31
36
45
50
56
68
1,000
,187
,154
,083
,036
,060
,078
,069
,099
,129
,156
,089
,060
,097
,130
,127
,092
1,000
,218
,114
,192
,169
,057
,196
,170
,214
,076
,235
,154
,160
,164
,185
,160
1,000
,120
,172
,190
,125
,197
,064
,109
,038
,133
,054
,214
,102
,097
,080
1,000
,149
,205
,126
,104
,096
,137
,122
,096
,021
,169
,093
,053
,012
1,000
,240
,183
,147
-,007
,074
,057
,110
,041
,213
,001
,045
,025
1,000
,336
,196
,090
,083
,035
,153
-,017
,303
,057
,109
,059
1,000
,178
,080
-,049
,048
,083
-,109
,214
-,048
-,009
,093
1,000
,130
,142
,124
,193
,106
,141
,122
,125
,067
58
Tabla 7.3 Matriz de correlaciones bivariadas (Continúa en la siguiente página)
Atributos
13
15
27
31
36
45
50
56
68
86
87
89
94
95
107
121
125
288
86
87
89
94
95
107
121
125
288
1,000
,313
,128
,100
,125
,083
,139
,137
,143
1,000
,229
,141
,221
,080
,330
,251
,200
1,000
,220
,150
,060
,195
,077
,098
1,000
,414
,109
,146
,119
,173
1,000
-,021
,197
,148
,157
1,000
,080
,106
,102
1,000
,213
,149
1,000
,140
1,000
Tabla 7.3 Matriz de correlaciones bivariadas (Continuación)
Con lo anterior se cumplió con la selección de menos de 15 atributos a tratar en el
modelado, como se había planteado.
7.2.4 Modelado
En esta etapa se utilizó el toolbox de Matlab LS-SVMlab para crear un modelo de
Support Vector Machines que separase los 3 grupos. Para lograrlo se empleó inicialmente la
técnica “Holdout” por ser computacionalmente menos exigente y por ende, más apropiada
para esta etapa (por basarse en la iteración), utilizando los primeros 500 casos para entrenar a
la maquina de aprendizaje con distintos valores de gamma (factor de generalización), para
luego evaluar el desempeño de cada modelo con los 199 casos restantes.
Inicialmente se modeló empleando distintos kernels reconocidos por ser exitosos en
distintas aplicaciones, utilizando cada atributo como una dimensión y valores de gamma y
sigma que pudiesen arrojar diferencias significativas entre si (con valor máximo de gamma
100 ya que valores superiores implican tiempos de procesamiento no meritorios). La Figura
7.7 muestra los resultados obtenidos, destacando aquellos arrojados al utilizar el Kernel Lineal
59
con 77,4% de efectividad sin importar el nivel de generalización. A su vez se comprobó el
pobre desempeño del Kernel RBF con datos no continuos con poco más de 60% de eficacia en
el mejor de sus casos. El Kernel Polinomial (resultados no mostrados en la Figura 7.7), resultó
ser el menos eficiente, al clasificar a todos los casos como pertenecientes al grupo 1,
mostrando su inhabilidad de distinguir los grupos en el entrenamiento.
Resultados obtenidos con distintos Kernel y
parámetros sobre los datos de prueba
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
LIN g=0.1
LIN g=1
LIN g=10
LIN g=100
RBF sig=0.2 g=0.1
RBF sig=0.2 g=1
RBF sig=0.2 g=10
RBF sig=0.2 g=100
RBF sig=0.4 g=0.1
RBF sig=0.4 g=1
RBF sig=0.4 g=10
RBF sig=0.4 g=100
0.0%
Correctas
Incorrectas
No clasificados
Figura 7.7 Resultados obtenidos con distintos Kernel y parámetros sobre los datos de prueba
Al obtener los resultados presentados para los Kernels comúnmente utilizados en el
sistema de aprendizaje de Support Vector Machines, se clarificó la necesidad de crear un
espacio característico que lograse separar efectivamente los datos correspondientes a grupos
distintos, ya que los objetivos planteados no fueron alcanzados. Para lograrlo, se probaron
distintas funciones que modificasen los datos originales, cuyos los resultados fueron
empleados como datos de entrada en la creación del modelo. De esta forma se pudo iterar con
menor complejidad en la creación de dicha función a sabiendas que requeriría mayor esfuerzo
60
computacional, ya que no se poseía la experiencia necesaria con el tipo de datos para la
creación de un Kernel que tuviese implícita la transformación.
Inicialmente se realizó un análisis de componentes principales utilizando solo los 14
atributos determinados, siendo la variable de pertenencia de conglomerado la variable de
selección. Este proporcionaría la influencia de cada atributo en la pertenencia a cierto
conglomerado, con lo cual se ponderarían los resultados como se sugiere en [Cristianini y
Shawe-Taylor, 2000]. El resultado del análisis de componentes principales se muestra en la
Tabla 7.4.
Atributos
Finales
Grupo 1
Grupo 2
Grupo 3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
-0,0784
0,4081
0,5100
0,5242
0,2193
0,3951
0,5725
0,1673
-0,1112
0,4147
0,1769
-0,3403
0,4944
-0,1960
0,2503
-0,0595
0,2593
-0,1528
0,1875
0,6121
0,1403
0,3362
-0,2341
0,4515
0,5975
0,3383
0,5820
-0,2584
0,5075
0,2398
0,3063
0,2325
0,2457
0,3330
0,3719
0,4291
0,3611
0,6336
0,6984
0,4909
0,5948
0,4767
Tabla 7.4 Componentes de los atributos para cada conglomerado
Al ponderar para cada conglomerado el valor de cada atributo y sumarlos se
obtuvieron las 3 dimensiones utilizadas para modelar varias SVM con los mismos parámetros
que en el caso anterior. En la Figura 7.8 se muestran la distribución de los datos en el espacio
característico creado, en el cual se pueden observar los 3 conglomerados con cierto grado de
separación.
61
Figura 7.8 Distribución de los datos en el espacio característico de componentes principales
En la Figura 7.9 se grafican los resultados obtenidos con los datos de prueba,
manifestando un mejor desempeño del Kernel RBF sobre datos reales, especialmente para una
dispersión sig=0,2 y una generalización gamma=10 (78,4%), y 0,4 y 100 respectivamente
(76,4%). La razón de la equivalencia de los 2 casos anteriores se debe a que la segunda amplía
el tamaño de la distribución gaussiana pero es menos exigente con los límites. Cabe destacar
que ambas soluciones presentan menos del 1% de casos no clasificables, que a pesar de ser
insignificante no es nula. El Kernel Lineal desmejora significativamente sus resultados con
este espacio característico presentando 40,7% de eficacia y más de 13% de casos no
clasificables. Por su parte el Kernel Polinomial falló de nuevo en poder discriminar los
conglomerados.
62
Resultados obtenidos con especio característico de
componentes principales con distintos Kernel y
parámetros sobre los datos de prueba
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
LIN g=0.1
LIN g=1
LIN g=10
LIN g=100
RBF sig=0.2 g=0.1
RBF sig=0.2 g=1
RBF sig=0.2 g=10
RBF sig=0.2 g=100
RBF sig=0.4 g=0.1
RBF sig=0.4 g=1
RBF sig=0.4 g=10
RBF sig=0.4 g=100
0.0%
Correctas
Incorrectas
No clasificados
Figura 7.9 Resultados obtenidos con espacio característico de componentes principales con distintos Kernel y
parámetros sobre los datos de prueba
Se llevaron a cabo varios intentos de mejorar la separación de los datos en este espacio
característico, incluyendo normalizaciones lineales y exponenciales. La primera se empleó ya
que al analizar los datos procesados por el espacio característico, fue evidente que no existía
relación alguna entre cada uno de los casos tal que se pudiese observar un patrón; para
resolverlo se normalizaron las dimensiones para que su suma fuese 1. Esto no logró llevar todo
a una misma base como se muestra en la Figura 7.10, debido a que al haber valores negativos
no existían límites para que la suma fuese 1. Es por lo anterior que se empleó la normalización
exponencial (la suma de las exponenciales de cada dimensión igual 1 para cada caso), con la
cual se obtendrían datos más separados dentro de un rango establecido (todos los valores
positivos), logrando la distribución de la Figura 7.11. Si bien para en caso de las componentes
principales no hubo mejora alguna con estas modificaciones, se mencionan por su importancia
en espacios característicos creados posteriormente.
63
Figura 7.10 Distribución de los datos en el espacio característico de componentes principales con normalización
lineal a 1
Figura 7.11 Distribución de los datos en el espacio característico de componentes principales con normalización
exponencial a 1
64
El espacio característico creado a partir de las componentes principales, si bien es
cierto que mejoró significativamente el desempeño del Kernel RBF, no logró superar de forma
contundente el resultado anterior del Kernel Lineal y mucho menos alcanzar el objetivo de
95% de eficacia. Por dicho motivo se iteró en la búsqueda de un Kernel que lo lograse,
haciendo uso de análisis de componentes principales desde 2 hasta 6 componentes por
conglomerado, ponderación por el inverso de la distancia al promedio de los conglomerados,
regresiones lineales, logarítmicas, entre otros.
Todos los anteriores fallaron en lograr una mejora excepto por la regresión lineal; la
misma se llevó a cabo para cada conglomerado, asignando el valor 1 a la función a aproximar
si el caso perteneciese a ese grupo y 0 en caso contrario. Es importante señalar que para dicha
regresión sólo se utilizaron los casos pertenecientes a los datos de entrenamiento, para de esta
forma comprobar su validez sobre casos no estudiados.
A partir de dicho análisis se obtuvo 3 dimensiones con componentes para cada
atributo, además de una constante. Los valores obtenidos no se muestran por razones de
confidencialidad de los datos de la empresa.
Con los componentes obtenidos a raíz de dicha regresión se logró la distribución de los
datos de la Figura 7.12, en la cual se observan los conglomerados aún mas separados que con
el espacio característico de componentes principales.
65
Figura 7.12 Distribución de los datos en el espacio característico de regresión lineal
Con este espacio característico se modelaron las SVM con los mismos parámetros
usados anteriormente para establecer comparaciones. Los resultados se muestran en la Figura
7.13 revelando que se obtuvo modelos que superaron el 90% de clasificaciones correctas, y
específicamente para valores de gamma=1 y sigma=0,4, se obtuvo 94,5% de eficiencia con
0,5% de casos no clasificados. Nuevamente se hizo evidente la superioridad en desempeño del
Kernel RBF sobre el lineal para datos con valores reales, así como sobre el polinomial que
presentó el mismo problema de los espacios característicos anteriores. Los modelos RBF más
exitosos sobre los datos de prueba fueron aquellos con poca generalización (gamma 1 y 10),
reflejando que los datos se encuentran lo suficientemente separados como para prescindir de
una generalización computacionalmente demandante como lo es gamma=100 (tiempo de
procesamiento elevado), pero a la vez no suficiente para prescindir completamente de ella
(gamma=0,1).
66
Resultados obtenidos con especio característico de
regresión con distintos Kernel y parámetros sobre los
datos de prueba
100.0%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
LIN g=0.1
LIN g=1
LIN g=10
LIN g=100
RBF sig=0.2 g=0.1
RBF sig=0.2 g=1
RBF sig=0.2 g=10
RBF sig=0.2 g=100
RBF sig=0.4 g=0.1
RBF sig=0.4 g=1
RBF sig=0.4 g=10
RBF sig=0.4 g=100
0.0%
Correctas
Incorrectas
No clasificados
Figura 7.13 Resultados obtenidos con espacio característico de regresión con distintos Kernel y parámetros sobre
los datos de prueba
Finalmente se trataron los datos con la normalización exponencial mencionada
anteriormente, obteniendo la distribución de la Figura 7.14. En la misma se observa una
evidente separación de los grupos, lo cual pudiese augurar un mejor desempeño de los
clasificadores.
67
Figura 7.14 Distribución de los datos en el espacio característico de regresión lineal con normalización
exponencial
La Figura 7.15 revela los resultados del modelaje de varias SVM utilizando el espacio
característico de regresión lineal con normalización exponencial. En ella se observa que el
desempeño tanto del Kernel RBF como el Lineal, supera el objetivo de 95% de clasificaciones
correctas. Cabe acotar que los modelos resultantes del Kernel Lineal presentaron un 1,5% de
casos no clasificados, mientras que para el RBF existieron 5 casos con 99,5% de efectividad y
ningún caso no clasificable (sigma=0,2 con gamma 1 y 10, sigma 0,4 con gamma 1, 10 y 100).
68
Resultados obtenidos con especio característico de
regresión normalizado EXPONENSIALcon distintos
Kernel y parámetros sobre los datos de prueba
100.0%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
LIN g=0.1
LIN g=1
LIN g=10
LIN g=100
RBF sig=0.2 g=0.1
RBF sig=0.2 g=1
RBF sig=0.2 g=10
RBF sig=0.2 g=100
RBF sig=0.4 g=0.1
RBF sig=0.4 g=1
RBF sig=0.4 g=10
RBF sig=0.4 g=100
0.0%
Correctas
Incorrectas
No clasificados
Figura 7.15 Resultados obtenidos con espacio característico de regresión con normalización exponencial para
distintos Kernel y parámetros sobre los datos de prueba
A partir de los 5 casos en los que se obtuvo la mayor tasa de clasificaciones correctas
sin casos no clasificables, se llevó a cabo una validación cruzada para determinar cual era el
más óptimo. La misma consistió en entrenar a la SVM con los mismos parámetros pero con
distintos grupos de datos de entrenamiento y de prueba. Como los resultados obtenidos hasta
este punto estaban basados en los primeros 500 casos como data de entrenamiento y los
restantes 199 de prueba, se realizaron 2 nuevos análisis utilizando los primeros 199 casos
como data de prueba y el resto de entrenamiento, al igual que con los segundos 199 casos. En
la Tabla 7.5 se muestran los resultados de las 3 validaciones y el promedio para cada caso (no
se muestran las tasas de no clasificados por ser inexistentes en todos), el cual establece que los
valores óptimos del Kernel RBF para los datos procesados por el espacio característico de
regresión lineal con normalización exponencial son gamma=100 y sigma=0,4, con un
promedio de 99,16% de clasificaciones correctas y 0% de datos no clasificados.
69
Kernel RBF
Validación 1
Validación 2
Validación 3
Promedio
sigma=0,2
gamma=1 gamma=10
99,50%
99,50%
95,98%
98,99%
95,48%
96,98%
96,98%
98,49%
gamma=1
99,50%
97,99%
96,98%
98,16%
sigma=0,4
gamma=10 gamma=100
99,50%
99,50%
98,99%
98,99%
97,99%
98,99%
98,83%
99,16%
Tabla 7.5 Resultados de la validación cruzada para el Kernel RBF con espacio característico de regresión con
normalización exponencial
Cabe acotar que aunque para los 5 casos estudiados en la validación cruzada todos
cumplieron con el criterio de éxito propuesto para medir el alcance de los objetivos de la
Minería de Datos planteados, el que aplicaba mayormente la generalización asumiendo una
distribución gaussiana no tan estrecha de los datos fue el que tuvo mejor desempeño. Lo
anterior pone de manifiesto la importancia de la generalización como característica
fundamental de Support Vector Machines.
Finalmente se entrenó a la máquina con los 699 casos con los parámetros y espacios
característicos, obteniendo una SVM con valores de polarización (b) y vector α con los
cuales se clasificarán a las personas en futuros estudios de mercado. Dichos valores no se
muestran por razones de confidencialidad de la empresa.
7.2.5 Evaluación
En la sección anterior se mostró como se obtuvo un modelo óptimo para la
clasificación de la población a partir de pocos parámetros. Al revisar los procedimientos
empleados se concluye que los mismos, si bien tuvieron características iterativas por la poca
información disponible sobre el procedimiento más adecuado, se llevaron a cabo con el
cuidado debido de no alterar la esencia de los datos, así como de asegurar su aplicabilidad
sobre combinaciones de atributos distintas a las tratadas en este proyecto. Además se
considera que los objetivos de la minería de datos planteados fueron alcanzados, así como se
proporcionan las herramientas para lograr los objetivos de negocio.
Los próximos pasos a seguir constituyen desde el punto de vista de la Minería de datos
la creación de un Kernel que contenga implícito el espacio característico creado, evitando el
efecto de la dimensionalidad y concentrando el esfuerzo computacional sólo en el producto
70
interno, además de la programación de una representación gráfica de los resultados. Desde el
punto de vista del Negocio son el enfoque de las estrategias de mercadeo sobre el grupo de la
población más susceptible a cambiarse de su marca de pasta de dientes tradicional (Colgate),
determinado por las características de los 3 conglomerados resultantes de este proyecto, así
como el diseño de nuevos productos diseñados para cubrir las necesidades de los mismos.
7.2.6 Despliegue
El despliegue de los resultados obtenidos con el desarrollo de éste proyecto fueron la
exposición de los mismos a los directivos de Investigación de Mercado de la unidad de
Cuidado Bucal de Procter & Gamble Servicios Latinoamérica, así como la creación de este
informe. A raíz del primero, dicho departamento incluirá el grupo preguntas determinantes
sugeridas en sus próximos estudios cuantitativos, para llevar a cabo la validación de la
metodología en cuanto a impacto en el negocio.
CAPÍTULO 8: CONCLUSIONES Y RECOMENDACIONES
Este capítulo enmarca las experiencias adquiridas a través de la realización del
proyecto, así como a la vez expone la aplicabilidad de los resultados obtenidos. Además,
finaliza con sugerencias para futuros trabajos en el área.
Luego de finalizado el proyecto de Implementación de Support Vector Machines para
reconocimiento de segmentos de la población basados en patrones de consumo y
características psicográficas, se concluye que los todos los objetivos planteados fueron
alcanzados y superados. No solo se exploraron las técnicas de Minería de Datos y las bases
teóricas de Support Vector Machines, sino que se implementaron sobre los datos
suministrados por la empresa, logrando un modelo robusto de reconocimiento.
Específicamente se concluye que:
•
La metodología CRISP-DM empleada proporcionó una clara y profunda visión
del proyecto y sus etapas, tomando en cuenta no solo los pasos necesarios para
el tratamiento de datos, sino también el aspecto gerencial contenidos en los
objetivos de negocio que se desean alcanzar.
•
El análisis de componentes principales proporcionó una reducción significativa
del número de variables necesarias para la identificación de segmentos
homogéneos de datos.
•
El Kernel Lineal posee gran aplicabilidad en la clasificación de datos discretos,
debido a la superioridad demostrada sobre los datos categóricos ordinales
originales en comparación con el RBF y el Polinomial. Lo mismo ocurre para
el Kernel RBF sobre datos continuos (escalares).
•
Los Kernel comúnmente empleados en el modelaje de Support Vector
Machines (Lineal, RBF y Polinomial), no son lo suficientemente efectivos en la
clasificación de los datos originales utilizados en este proyecto. Por esto, la
creación de un dominio característico que ayudase a cumplir los objetivos
planteados fue necesaria.
72
•
La creación de un dominio característico a partir del análisis de componentes
principales que ayudase a cumplir con los objetivos establecidos, fracasó.
•
Los objetivos fueron alcanzados a través de la creación de un dominio
característico de regresión lineal con normalización exponencial, con un
promedio de validación cruzada superior al 99% de efectividad, empleando el
Kernel RBF con parámetros de generalización gamma=100 y de dispersión
sigma=0,4.
•
Se comprobó el alto potencial de Support Vector Machines en el
reconocimiento de segmentos de la población a través de patrones de consumos
y características psicográficas, al obtener más de 95% de efectividad, pero a la
vez evidenciando el rol protagónico de los espacios característicos en dichos
resultados.
•
Se demostró la importancia de la generalización como elemento fundamental
de Support Vector Machines, al tener un importante y generalmente positivo
impacto en los resultados de los modelos generados.
Es importante resaltar que, debido a los excelentes resultados obtenidos ante la
aplicación de la metodología presentada sobre datos reales provenientes de encuestas, sin
precedentes aparentes, la publicación del trabajo realizado se encuentra bajo consideración.
Para trabajos futuros se recomienda:
•
Emplear el modelo CRISP-DM en trabajos que involucren Minería de Datos,
por los motivos expuestos anteriormente.
•
Diseñar una metodología genérica para la creación espacios característicos,
debido a que estos permiten la expansión de las áreas de aplicación de Support
Vector Machines.
•
Evaluar la aplicabilidad de la rama de regresión de Support Vector Machines en
la predicción de consumos de mercados, dadas ciertas características
influyentes
como
macroeconómicos, etc.
publicidad,
distribución,
promociones,
elementos
CAPÍTULO 9: REFERENCIAS BIBLIOGRÁFICAS
[Aguilar, 2002]
R. Aguilar, “Minería de Datos: Fundamentos,
Técnicas y Aplicaciones”, Reprografía Signo,
Salamanca, España (2002)
[Bucherer y Robinson, 2003]
J. Bucherer y L. Robinson, “Effective Targeting:
Unifying Segmentation and Market Structure”,
www.acnielsen.com (2003)
[Burgues, 1998]
C. Burgues, “A tutorial on Support Vector
Machines for Pattern Recognition”, Data Mining
and Knowledge Discovery 2, 121-167 (1998)
[Chapman et al., 1999]
P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T.
Reinartz, C. Shearer y R. Wirth, “CRISP-DM 1.0
step-by-step
data
mining
guide”,
www.crisp-dm.org (1999)
[ClopiNet, 2005]
ClopiNet
Consulting
Company,
www.clopinet.com, “SVM Application List”.
Consultado en mayo de 2005.
[Cristianini y Shawe-Taylor, 2000]
N. Cristianini y J. Shawe-Taylor, “An Introduction
to
Support
Vector
Machines”,
Cambridge
University Press, Cambridge, EUA (2000)
[NRL, 2005]
U.S.
Naval
www.nrl.navy.mil,
Research
“Automatic
Laboratory,
Learning”.
Consultada en abril de 2005)
[P&G, 2005]
Procter & Gamble, www.pg.com, Página principal
de Procter & Gamble. Consultado en septiembre
de 2005.
[Politécnico de Milano, 2005]
Politécnico de Milano, www.elet.polimi.it, “A
Tutorial on Clustering Algorithms”. Consultado
en abril de 2005.
74
[Recklies, 2001a]
D. Recklies, “Why Segmentation?”,
www.themanager.org (2001)
[Recklies, 2001b]
D. Recklies, “Positioning as a Strategic Marketing
Decision”, www.themanager.org (2001)
[Smith, 2002]
L. Smith, “A tutorial on Principal Components
Analysis”, www.kybele.psych.cornell.edu (2002)
[SPSS, 2002]
“Data Analysis with SPSS”, SPSS Inc. (2002)
[Sutton y Barto, 1998]
R. Sutton y S. Barto, “Reinforcement Learning:
An Introduction”, MIT Press, Cambridge, EUA
(1998)
Descargar