Subido por Pablo Molina

Monografia Data Mining

Anuncio
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
1
TECNICATURA UNIVERSITARIA
EN INFORMATICA
Base De Datos
Equipo de catedra
Ing. Rearte Emilio
Lic. Stubbia Roberto
Molina Rodríguez, Pablo José
2019
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
2
Índice
Introducción .................................................................................................................. 3
Historia del Data Mining ................................................................................................ 3
¿Qué es el Data Mining? .............................................................................................. 3
Principales características y objetivos ........................................................................... 4
Procesos de la minería de datos ................................................................................... 4
Selección del conjunto de datos .................................................................................. 4
Análisis de las propiedades de los datos....................................................................... 4
Transformación del conjunto de datos de entrada.......................................................... 5
Seleccionar y aplicar la técnica de minería de datos ...................................................... 5
Extracción de conocimiento ....................................................................................... 5
Interpretación y evaluación de datos ........................................................................... 5
Técnicas que se utilizan en la minería de datos ............................................................ 5
Herramientas de data mining ........................................................................................ 6
¿Por qué es importante la minería de datos? ............................................................... 7
¿A qué tipo de información se le puede hacer minería de datos? ................................. 7
Diferencia entre Data mining y Big data ........................................................................ 7
Su implementación en diversos campos de estudios .................................................... 8
Ventajas y desventajas ............................................................................................... 11
Ventajas .................................................................................................................. 11
Desventajas ............................................................................................................ 11
Conclusión .................................................................................................................. 11
Bibliografía .................................................................................................................. 12
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
3
Introducción
La realización de base de datos se ha vuelto una acción fundamental para las
empresas, ya que les permiten crear estrategias para conseguir nuevos clientes o
fidelizar a los habituales. Pero a consecuencia de la generación masiva de datos, nos
encontramos frente a un problema, la infoxicación, disponemos de tanta información,
que a veces es imposible organizarla con efectividad. Por ello, la clave está en
descubrir patrones o algoritmos para sacarle el máximo partido, y aquí es donde entra
en juego el Data Mining o minería de datos.
Historia del Data Mining
La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos
manejaban términos como data fishing, data mining o data archaeology con la idea de
encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A
principios de los años ochenta, científicos informáticos empezaron a consolidar los
términos de data mining y KDD.
Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al
ámbito académico y al de los negocios.
¿Qué es el Data Mining?
El Data Mining es un conjunto de técnicas y tecnologías que permiten explorar
grandes bases de datos, de manera automática o semiautomática, con el objetivo de
encontrar patrones repetitivos que expliquen el comportamiento de estos datos. Surgió
con la intención o el objetivo de ayudar a comprender una enorme cantidad de datos, y
que estos, pudieran ser utilizados para extraer conclusiones para contribuir en la
mejora y crecimiento de las empresas, sobre todo, por lo que hace a las ventas o
fidelización de clientes.
Su principal finalidad es explorar, mediante la utilización de distintas técnicas y
tecnologías, bases de datos enormes de manera automática con el objetivo de
encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento
de los datos que se han ido recopilando con el tiempo. Estos patrones pueden
encontrarse utilizando estadísticas o algoritmos de búsqueda próximos a la
Inteligencia Artificial y a las redes neuronales.
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
Principales características y objetivos
Explorar los datos que se encuentran en las profundidades de las bases de datos (por
ejemplo los Almacenes de Datos), que algunas veces contienen información
almacenada durante varios años.
En algunos casos, los datos se consolidan en un almacén de datos y en mercados de
datos; en otros, se mantienen en servidores de Internet e Intranet.
El entorno de la minería de datos suele tener una Arquitectura Cliente Servidor.
Las herramientas de la minería de datos ayudan a extraer el mineral de la información
registrado en archivos corporativos o en registros públicos, archivados.
El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programación, facultado por barrenadoras de datos y otras poderosas herramientas
indagatorias, para efectuar preguntas ad-hoc y obtener rápidamente respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e
inesperados.
Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse
y procesarse rápidamente.
Debido a la gran cantidad de datos, algunas veces resulta necesario usar
procesamiento en paralelo para la minería de datos.
La minería de datos produce cinco tipos de información:
⮚ Asociaciones.
⮚ Secuencias.
⮚ Clasificaciones.
⮚ Agrupamientos.
⮚ Pronósticos.
Procesos de la minería de datos
Un proceso típico de minería de datos consta de los siguientes pasos generales:
Selección del conjunto de datos: tanto en lo que se refiere a las variables objetivo
(aquellas que se quiere predecir, calcular o inferir), como a las variables
independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al
muestreo de los registros disponibles.
Análisis de las propiedades de los datos: en especial los histogramas, diagramas de
dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
4
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
Transformación del conjunto de datos de entrada: se realizará de diversas formas
en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de
minería de datos que mejor se adapte a los datos y al problema, a este paso también
se le conoce como pre procesamiento de los datos.
Seleccionar y aplicar la técnica de minería de datos: se construye el modelo
predictivo, de clasificación o segmentación.
Extracción de conocimiento: mediante una técnica de minería de datos, se obtiene
un modelo de conocimiento, que representa patrones de comportamiento observados
en los valores de las variables del problema o relaciones de asociación entre dichas
variables. También pueden usarse varias técnicas a la vez para generar distintos
modelos, aunque generalmente cada técnica obliga a un preprocesador diferente de
los datos.
Interpretación y evaluación de datos: una vez obtenido el modelo, se debe proceder
a su validación comprobando que las conclusiones que arroja son válidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante
el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se
ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados,
debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
Técnicas que se utilizan en la minería de datos
Redes neuronales: Son un paradigma de aprendizaje y procesamiento automático
inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de
un sistema de interconexión de neuronas en una red que colabora para producir un
estímulo de salida.
Regresión lineal: Es la más utilizada para formar relaciones entre datos. Rápida y
eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse
más de 2 variables.
Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el
ámbito de la inteligencia artificial, dada una base de datos se construyen estos
diagramas de construcciones lógicas, muy similares a los sistemas de predicción
basados en reglas, que sirven para representar y categorizar una serie de condiciones
que suceden de forma sucesiva, para la resolución de un problema.
Modelos estadísticos: Es una expresión simbólica en forma de igualdad o ecuación
que se emplea en todos los diseños experimentales y en la regresión para indicar los
diferentes factores que modifican la variable de respuesta
5
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
Agrupamiento o Clustering: Es un procedimiento de agrupación de una serie de
vectores según criterios habitualmente de distancia; se tratará de disponer los vectores
de entrada de forma que estén más cercanos aquellos que tengan características
comunes.
Herramientas de data mining
Para conocer mejorar y disponer de estadísticas sobre preferencias, datos de
consumo o patrones de comportamiento es necesario analizar los datos. Para ello,
disponemos de herramientas de Data Mining que harán la tarea mucho más sencilla.
RapidMiner
Con un lenguaje de programación Java, RapidMiner permite realizar un análisis
avanzado de los datos, a través de plantillas, además, dispone de la funcionalidad de
pre-procesamiento y visualización de datos, análisis predictivo y modelos estadísticos,
así como evaluación y despliegue de la información. Esta herramienta ofrece un
servicio excelente, ocupando la primera posición entre las mejores herramientas de
data mining.
Python
Sabemos que Python es un lenguaje de código abierto gratuito que puede
descargarse e instalarse en tu ordenador de forma rápida y sencilla.
Python es comparado con R por su facilidad de uso. Solo que, a diferencia de R, la
curva de aprendizaje de Python tiende a ser más corta. Muchos usuarios aprenden a
crear toda clase de conjuntos de datos y a realizar análisis de afinidad complejos en
cuestión de minutos.
Todo esto la hace una herramienta de minería de datos extremadamente efectiva y
eficiente. Visita el curso análisis de datos con python para aprender cómo hacer data
mining con python.
Orange
Este es sin duda un gran ejemplo de lo que Python puede crear. Orange es un
software de aprendizaje automático y de procesos de manipulación de datos. Orange
es una de las mejores herramientas gratuitas para hacer Data Mining debido a la
visualización interactiva que puede ser creada por cualquier persona, principiante o
avanzado. Los usuarios avanzados de Orange también pueden usarlo como una
biblioteca de Python para la manipulación de datos y la modificación de widgets.
Orange incluso puede aprender de tus preferencias mientras lo estas usando.
6
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
KNIME
KNIME cuenta con una serie de cursos cortos para comprender mejor la ciencia de la
información y cómo usar la plataforma de manera efectiva. Todo el software es
bastante sencillo de manipular. Desde luego no es la primera opción de la lista pero es
una de las mejores gracias a su práctico diseño de tablas y gráficos interactivos.
Spark
Spark es excelente en la minería de minería de datos de código abierto gracias a que
puede tratar con grandes cantidades de datos. Spark se distingue de otras
herramientas de minería de datos debido a su simplicidad, velocidad y compatibilidad
con una gran cantidad de lenguajes de programación que incluyen Python, R, Java y
Scala.
¿Por qué es importante la minería de datos?
Los datos no estructurados por sí solos conforman el 90% del universo digital. Pero
más información no significa necesariamente más conocimientos.
La minería de datos le permite:
●
Filtrar todo el ruido caótico y repetitivo en sus datos.
●
Entender qué es relevante y luego hacer un buen uso de esa información para
evaluar resultados probables.
●
Acelerar el ritmo de la toma de decisiones informadas.
¿A qué tipo de información se le puede hacer
minería de datos?
El data mining se puede aplicar a cualquier tipo de información, desde simples
medidas numéricas y documentos de texto, hasta información más compleja como
datos espaciales, multimedia y archivos planos.
Diferencia entre Data mining y Big data
Big Data y Data Mining son dos conceptos diferentes, Big data es un término que se
refiere a una gran cantidad de datos, mientras que la minería de datos se refiere a un
impulso profundo en los datos para extraer el conocimiento / Patrón / Información
clave de una pequeña o gran cantidad de datos.
La minería de datos se diferencia entonces del Big Data en prácticamente todo a nivel
de funciones y objetivos, porque este consiste en almacenar los datos en masa y en
trazar patrones que permitan encontrar después patrones repetitivos en ellos. Lo que
7
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
hace el Data Mining es trabajar más el detalle dentro de la base de datos en cuestión,
ya que extrae lo que considera más relevante, descartando una gran cantidad de
información que el Big Data ha recopilado y de la que ha extraído previamente los
patrones.
El Data Mining, como casi todo lo que tiene que ver con las nuevas disciplinas de la
tecnología, requiere un trabajo muy estructurado por fases para poder alcanzar el
éxito. Es necesario en primer lugar que el sistema sepa qué tiene que buscar y para
qué para poder ser efectivo en la segunda fase, que es la del procesamiento y
selección de los datos ya explicada anteriormente, algo que sin unos objetivos previos
marcados no conseguirá hacer de forma efectiva.
Su implementación en diversos campos de estudios
Negocios
La minería de datos puede contribuir significativamente en las aplicaciones de
Administración Empresarial basada en la relación con el cliente. En lugar de contactar
con el cliente de forma indiscriminada a través de un centro de llamadas o enviando
cartas, sólo se contactará con aquellos que se perciba que tienen una mayor
probabilidad de responder positivamente a una determinada oferta o promoción.
Por lo general, las empresas que emplean minería de datos ven rápidamente el
retorno de la inversión, pero también reconocen que el número de modelos predictivos
desarrollados puede crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa
podría construir modelos separados para cada región y/o para cada tipo de cliente.
También puede querer determinar qué clientes van a ser rentables durante una
ventana de tiempo (una quincena, un mes, ...) y sólo enviar las ofertas a las personas
que es probable que sean rentables. Para mantener esta cantidad de modelos, es
necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo
más automatizada posible.
Patrones de fuga
Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas
industrias —como la banca, las telecomunicaciones, entre otras— existe un
comprensible interés en detectar cuanto antes, aquellos clientes que puedan estar
pensando en prescindir sus contratos para posiblemente pasarse a la competencia. A
8
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
estos clientes —y en función de su valor— se les podrían hacer ofertas
personalizadas, ofrecer promociones especiales, etc., con el objetivo último de
retenerlos.
La minería de datos ayuda a determinar qué clientes son los más proclives a darse de
baja estudiando sus patrones de comportamiento y comparándolos con muestras de
clientes que efectivamente, se dieron de baja en el pasado.
Recursos humanos
La minería de datos también puede ser útil para los departamentos de recursos
humanos, en la identificación de las características de sus empleados de mayor éxito.
La información obtenida puede ayudar a la contratación de personal, centrándose en
los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la
ayuda ofrecida por las aplicaciones para dirección estratégica en una empresa se
traducen en la obtención de ventajas a nivel corporativo; tales como mejorar el margen
de beneficios o compartir objetivos y en la mejora de las decisiones operativas, como
por ejemplo el desarrollo de planes de producción o gestión de mano de obra.
Comportamiento en Internet
También es un área en boga el del análisis del comportamiento de los visitantes —
sobre todo cuando son clientes potenciales— en una página de Internet, así como
también, la utilización de la información sobre ellos para ofrecerles propaganda
adaptada específicamente a su perfil; o para una vez que adquieren un determinado
producto, conocer inmediatamente qué otro ofrecerle, teniendo en cuenta la
información histórica disponible acerca de los clientes que han comprado el primero.
Terrorismo
La minería de datos ha sido citada como el método por el cual la unidad Able Danger
del Ejército de los Estados Unidos había identificado al líder de los atentados del 11 de
septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11-S", como
posibles miembros de una célula de Al Qaeda; que operaban en los EE.UU más de un
año antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia
(CIA) y su homóloga canadiense, Servicio de Inteligencia y Seguridad Canadiense,
han empleado este método.
Juegos
Desde comienzos de la década de 1960, con la disponibilidad de oráculos para
determinados juegos combinacionales, también llamados finales de juego de tablero
(por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuración
de inicio, se ha abierto una nueva área en la minería de datos que consiste en la
9
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
extracción de estrategias utilizadas por personas para estos oráculos. Los
planteamientos actuales sobre reconocimiento de patrones, no parecen poder
aplicarse con éxito al funcionamiento de estos oráculos. En su lugar, la producción de
patrones perspicaces se basa en una amplia experimentación con bases de datos
sobre esos finales de juego, combinado con un estudio intensivo de los propios finales
de juego en problemas bien diseñados y con conocimiento de la técnica (datos previos
sobre el final del juego). Ejemplos notables de investigadores que trabajan en este
campo son Elwyn Berlekamp en el juego de puntos y cajas (o Timbiriche) y John Nunn
en finales de ajedrez.
Ciencia e ingeniería
En los últimos años la minería de datos se está utilizando ampliamente en diversas
áreas relacionadas con la ciencia y la ingeniería. Algunos ejemplos de aplicación en
estos campos son:
Genética
En el estudio de la genética humana, el objetivo principal es entender la relación
cartográfica entre las partes y la variación individual en las secuencias del ADN
humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más
llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo
afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer).
Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento
de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta
tarea se conoce como "reducción de dimensionalidad multifactorial".
Ingeniería eléctrica
En el ámbito de la ingeniería eléctrica, las técnicas de minería de datos han sido
ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta
tensión. La finalidad de esta monitorización es obtener información valiosa sobre el
estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el análisis
de los cambios de carga en transformadores se utilizan ciertas técnicas para
agrupación de datos (clustering) tales como: los Mapas Auto-Organizativos (en inglés:
SOM, Self-organizing map). Estos mapas sirven para detectar condiciones anormales
y para estimar la naturaleza de dichas anomalías.
Análisis de gases
También se han aplicado técnicas de minería de datos para el análisis de gases
disueltos (DGA, Dissolved gas analysis) en transformadores eléctricos. El análisis de
gases disueltos se conoce desde hace mucho tiempo como herramienta para
diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan para
10
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
analizar datos y determinar tendencias que podrían pasarse por alto utilizando las
técnicas clásicas DGA
Ventajas y desventajas
Ventajas
El Data Mining descubre información que no se esperaba obtener.
Como muchos modelos diferentes son validados, algunos resultados inesperados
tienden a aparecer.
En muchos estudios, se ha descubierto que combinaciones particulares de factores
entregan efectos inesperados que entregan valor a la compañía.(Pañales y cerveza)
Los Modelos Son Confiables.
Los modelos se construyen de manera rápida
Desventajas
Dificultad de recopilación de los datos. Dependiendo del tipo de datos que se quieran
recopilar puede conllevar mucho trabajo.
El pre procesamiento de datos puede llevar demasiado tiempo
No está asegurada la obtención de un modelo válido
Conclusión
En conclusión, la aplicación del Data Mining en diferentes ámbitos, permite tener
asertivas a problemas, o para formular estrategias de mejora. Es importante tener en
cuenta el Data Mining para cualquier estudio de información, así como estar en
constante evolución, ya que la información varia con el transcurso del tiempo, y los
patrones pueden cambiar.
11
Universidad Nacional de La Rioja
Departamento de Ciencias Exactas, Físicas y Naturales
12
Bibliografía
CulturaCM. (10 de Junio de 2019). Data Mining. Obtenido de CulturaCM:
https://culturacrm.com/data-mining/cinco-herramientas-data-mining
Garcia, D. (02 de Noviembre de 2018). Herramientas gratuitas para hacer Data Mining.
Obtenido de Inteldig: https://www.inteldig.com/2018/11/herramientas-gratuitasdata-mining/
Ku Canul, J. G. (07 de Mayo de 2017). Historia Datamining. Obtenido de SCRIBD:
https://es.scribd.com/document/347636418/Historia-Datamining
Landa, J. (16 de Febrero de 2016). ¿Qué es KDD y Minería de Datos? Obtenido de
http://fcojlanda.me/es/ciencia-de-los-datos/kdd-y-mineria-de-datos-espanol/
Mata, R. (13 de Enero de 2017). Minería de datos: qué es, cómo es el proceso y a qué
áreas se puede aplicar. Obtenido de ICMD: https://www.icemd.com/digitalknowledge/articulos/mineria-datos-proceso-areas-se-puede-aplica/
Muy interesante. (22 de Enero de 2017). ¿Qué es la mineria de datos? Obtenido de
Muy interesante: https://www.muyinteresante.es/tecnologia/preguntasrespuestas/que-es-la-mineria-de-datos-311477406441#
SAS - The power to Know. (07 de Mayo de 2015). Mineria de datos. Obtenido de SAS:
https://www.sas.com/es_mx/insights/analytics/data-mining.html
ventics.com. (15 de Marzo de 2015). Técnicas de minería de datos o Data Mining.
Obtenido de ventics.com: http://www.ventics.com/tecnicas-de-mineria-de-datoso-data-mining/
Descargar