Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales 1 TECNICATURA UNIVERSITARIA EN INFORMATICA Base De Datos Equipo de catedra Ing. Rearte Emilio Lic. Stubbia Roberto Molina Rodríguez, Pablo José 2019 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales 2 Índice Introducción .................................................................................................................. 3 Historia del Data Mining ................................................................................................ 3 ¿Qué es el Data Mining? .............................................................................................. 3 Principales características y objetivos ........................................................................... 4 Procesos de la minería de datos ................................................................................... 4 Selección del conjunto de datos .................................................................................. 4 Análisis de las propiedades de los datos....................................................................... 4 Transformación del conjunto de datos de entrada.......................................................... 5 Seleccionar y aplicar la técnica de minería de datos ...................................................... 5 Extracción de conocimiento ....................................................................................... 5 Interpretación y evaluación de datos ........................................................................... 5 Técnicas que se utilizan en la minería de datos ............................................................ 5 Herramientas de data mining ........................................................................................ 6 ¿Por qué es importante la minería de datos? ............................................................... 7 ¿A qué tipo de información se le puede hacer minería de datos? ................................. 7 Diferencia entre Data mining y Big data ........................................................................ 7 Su implementación en diversos campos de estudios .................................................... 8 Ventajas y desventajas ............................................................................................... 11 Ventajas .................................................................................................................. 11 Desventajas ............................................................................................................ 11 Conclusión .................................................................................................................. 11 Bibliografía .................................................................................................................. 12 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales 3 Introducción La realización de base de datos se ha vuelto una acción fundamental para las empresas, ya que les permiten crear estrategias para conseguir nuevos clientes o fidelizar a los habituales. Pero a consecuencia de la generación masiva de datos, nos encontramos frente a un problema, la infoxicación, disponemos de tanta información, que a veces es imposible organizarla con efectividad. Por ello, la clave está en descubrir patrones o algoritmos para sacarle el máximo partido, y aquí es donde entra en juego el Data Mining o minería de datos. Historia del Data Mining La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, científicos informáticos empezaron a consolidar los términos de data mining y KDD. Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al ámbito académico y al de los negocios. ¿Qué es el Data Mining? El Data Mining es un conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos. Surgió con la intención o el objetivo de ayudar a comprender una enorme cantidad de datos, y que estos, pudieran ser utilizados para extraer conclusiones para contribuir en la mejora y crecimiento de las empresas, sobre todo, por lo que hace a las ventas o fidelización de clientes. Su principal finalidad es explorar, mediante la utilización de distintas técnicas y tecnologías, bases de datos enormes de manera automática con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos que se han ido recopilando con el tiempo. Estos patrones pueden encontrarse utilizando estadísticas o algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales. Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales Principales características y objetivos Explorar los datos que se encuentran en las profundidades de las bases de datos (por ejemplo los Almacenes de Datos), que algunas veces contienen información almacenada durante varios años. En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minería de datos suele tener una Arquitectura Cliente Servidor. Las herramientas de la minería de datos ayudan a extraer el mineral de la información registrado en archivos corporativos o en registros públicos, archivados. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias, para efectuar preguntas ad-hoc y obtener rápidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. La minería de datos produce cinco tipos de información: ⮚ Asociaciones. ⮚ Secuencias. ⮚ Clasificaciones. ⮚ Agrupamientos. ⮚ Pronósticos. Procesos de la minería de datos Un proceso típico de minería de datos consta de los siguientes pasos generales: Selección del conjunto de datos: tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles. Análisis de las propiedades de los datos: en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos). 4 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales Transformación del conjunto de datos de entrada: se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como pre procesamiento de los datos. Seleccionar y aplicar la técnica de minería de datos: se construye el modelo predictivo, de clasificación o segmentación. Extracción de conocimiento: mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesador diferente de los datos. Interpretación y evaluación de datos: una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Técnicas que se utilizan en la minería de datos Redes neuronales: Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Regresión lineal: Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Modelos estadísticos: Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta 5 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales Agrupamiento o Clustering: Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Herramientas de data mining Para conocer mejorar y disponer de estadísticas sobre preferencias, datos de consumo o patrones de comportamiento es necesario analizar los datos. Para ello, disponemos de herramientas de Data Mining que harán la tarea mucho más sencilla. RapidMiner Con un lenguaje de programación Java, RapidMiner permite realizar un análisis avanzado de los datos, a través de plantillas, además, dispone de la funcionalidad de pre-procesamiento y visualización de datos, análisis predictivo y modelos estadísticos, así como evaluación y despliegue de la información. Esta herramienta ofrece un servicio excelente, ocupando la primera posición entre las mejores herramientas de data mining. Python Sabemos que Python es un lenguaje de código abierto gratuito que puede descargarse e instalarse en tu ordenador de forma rápida y sencilla. Python es comparado con R por su facilidad de uso. Solo que, a diferencia de R, la curva de aprendizaje de Python tiende a ser más corta. Muchos usuarios aprenden a crear toda clase de conjuntos de datos y a realizar análisis de afinidad complejos en cuestión de minutos. Todo esto la hace una herramienta de minería de datos extremadamente efectiva y eficiente. Visita el curso análisis de datos con python para aprender cómo hacer data mining con python. Orange Este es sin duda un gran ejemplo de lo que Python puede crear. Orange es un software de aprendizaje automático y de procesos de manipulación de datos. Orange es una de las mejores herramientas gratuitas para hacer Data Mining debido a la visualización interactiva que puede ser creada por cualquier persona, principiante o avanzado. Los usuarios avanzados de Orange también pueden usarlo como una biblioteca de Python para la manipulación de datos y la modificación de widgets. Orange incluso puede aprender de tus preferencias mientras lo estas usando. 6 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales KNIME KNIME cuenta con una serie de cursos cortos para comprender mejor la ciencia de la información y cómo usar la plataforma de manera efectiva. Todo el software es bastante sencillo de manipular. Desde luego no es la primera opción de la lista pero es una de las mejores gracias a su práctico diseño de tablas y gráficos interactivos. Spark Spark es excelente en la minería de minería de datos de código abierto gracias a que puede tratar con grandes cantidades de datos. Spark se distingue de otras herramientas de minería de datos debido a su simplicidad, velocidad y compatibilidad con una gran cantidad de lenguajes de programación que incluyen Python, R, Java y Scala. ¿Por qué es importante la minería de datos? Los datos no estructurados por sí solos conforman el 90% del universo digital. Pero más información no significa necesariamente más conocimientos. La minería de datos le permite: ● Filtrar todo el ruido caótico y repetitivo en sus datos. ● Entender qué es relevante y luego hacer un buen uso de esa información para evaluar resultados probables. ● Acelerar el ritmo de la toma de decisiones informadas. ¿A qué tipo de información se le puede hacer minería de datos? El data mining se puede aplicar a cualquier tipo de información, desde simples medidas numéricas y documentos de texto, hasta información más compleja como datos espaciales, multimedia y archivos planos. Diferencia entre Data mining y Big data Big Data y Data Mining son dos conceptos diferentes, Big data es un término que se refiere a una gran cantidad de datos, mientras que la minería de datos se refiere a un impulso profundo en los datos para extraer el conocimiento / Patrón / Información clave de una pequeña o gran cantidad de datos. La minería de datos se diferencia entonces del Big Data en prácticamente todo a nivel de funciones y objetivos, porque este consiste en almacenar los datos en masa y en trazar patrones que permitan encontrar después patrones repetitivos en ellos. Lo que 7 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales hace el Data Mining es trabajar más el detalle dentro de la base de datos en cuestión, ya que extrae lo que considera más relevante, descartando una gran cantidad de información que el Big Data ha recopilado y de la que ha extraído previamente los patrones. El Data Mining, como casi todo lo que tiene que ver con las nuevas disciplinas de la tecnología, requiere un trabajo muy estructurado por fases para poder alcanzar el éxito. Es necesario en primer lugar que el sistema sepa qué tiene que buscar y para qué para poder ser efectivo en la segunda fase, que es la del procesamiento y selección de los datos ya explicada anteriormente, algo que sin unos objetivos previos marcados no conseguirá hacer de forma efectiva. Su implementación en diversos campos de estudios Negocios La minería de datos puede contribuir significativamente en las aplicaciones de Administración Empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción. Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente. En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente. También puede querer determinar qué clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ...) y sólo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo más automatizada posible. Patrones de fuga Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como la banca, las telecomunicaciones, entre otras— existe un comprensible interés en detectar cuanto antes, aquellos clientes que puedan estar pensando en prescindir sus contratos para posiblemente pasarse a la competencia. A 8 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales estos clientes —y en función de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que efectivamente, se dieron de baja en el pasado. Recursos humanos La minería de datos también puede ser útil para los departamentos de recursos humanos, en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo; tales como mejorar el margen de beneficios o compartir objetivos y en la mejora de las decisiones operativas, como por ejemplo el desarrollo de planes de producción o gestión de mano de obra. Comportamiento en Internet También es un área en boga el del análisis del comportamiento de los visitantes — sobre todo cuando son clientes potenciales— en una página de Internet, así como también, la utilización de la información sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil; o para una vez que adquieren un determinado producto, conocer inmediatamente qué otro ofrecerle, teniendo en cuenta la información histórica disponible acerca de los clientes que han comprado el primero. Terrorismo La minería de datos ha sido citada como el método por el cual la unidad Able Danger del Ejército de los Estados Unidos había identificado al líder de los atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11-S", como posibles miembros de una célula de Al Qaeda; que operaban en los EE.UU más de un año antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia (CIA) y su homóloga canadiense, Servicio de Inteligencia y Seguridad Canadiense, han empleado este método. Juegos Desde comienzos de la década de 1960, con la disponibilidad de oráculos para determinados juegos combinacionales, también llamados finales de juego de tablero (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuración de inicio, se ha abierto una nueva área en la minería de datos que consiste en la 9 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales extracción de estrategias utilizadas por personas para estos oráculos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen poder aplicarse con éxito al funcionamiento de estos oráculos. En su lugar, la producción de patrones perspicaces se basa en una amplia experimentación con bases de datos sobre esos finales de juego, combinado con un estudio intensivo de los propios finales de juego en problemas bien diseñados y con conocimiento de la técnica (datos previos sobre el final del juego). Ejemplos notables de investigadores que trabajan en este campo son Elwyn Berlekamp en el juego de puntos y cajas (o Timbiriche) y John Nunn en finales de ajedrez. Ciencia e ingeniería En los últimos años la minería de datos se está utilizando ampliamente en diversas áreas relacionadas con la ciencia y la ingeniería. Algunos ejemplos de aplicación en estos campos son: Genética En el estudio de la genética humana, el objetivo principal es entender la relación cartográfica entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer). Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se conoce como "reducción de dimensionalidad multifactorial". Ingeniería eléctrica En el ámbito de la ingeniería eléctrica, las técnicas de minería de datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta tensión. La finalidad de esta monitorización es obtener información valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el análisis de los cambios de carga en transformadores se utilizan ciertas técnicas para agrupación de datos (clustering) tales como: los Mapas Auto-Organizativos (en inglés: SOM, Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalías. Análisis de gases También se han aplicado técnicas de minería de datos para el análisis de gases disueltos (DGA, Dissolved gas analysis) en transformadores eléctricos. El análisis de gases disueltos se conoce desde hace mucho tiempo como herramienta para diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan para 10 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales analizar datos y determinar tendencias que podrían pasarse por alto utilizando las técnicas clásicas DGA Ventajas y desventajas Ventajas El Data Mining descubre información que no se esperaba obtener. Como muchos modelos diferentes son validados, algunos resultados inesperados tienden a aparecer. En muchos estudios, se ha descubierto que combinaciones particulares de factores entregan efectos inesperados que entregan valor a la compañía.(Pañales y cerveza) Los Modelos Son Confiables. Los modelos se construyen de manera rápida Desventajas Dificultad de recopilación de los datos. Dependiendo del tipo de datos que se quieran recopilar puede conllevar mucho trabajo. El pre procesamiento de datos puede llevar demasiado tiempo No está asegurada la obtención de un modelo válido Conclusión En conclusión, la aplicación del Data Mining en diferentes ámbitos, permite tener asertivas a problemas, o para formular estrategias de mejora. Es importante tener en cuenta el Data Mining para cualquier estudio de información, así como estar en constante evolución, ya que la información varia con el transcurso del tiempo, y los patrones pueden cambiar. 11 Universidad Nacional de La Rioja Departamento de Ciencias Exactas, Físicas y Naturales 12 Bibliografía CulturaCM. (10 de Junio de 2019). Data Mining. Obtenido de CulturaCM: https://culturacrm.com/data-mining/cinco-herramientas-data-mining Garcia, D. (02 de Noviembre de 2018). Herramientas gratuitas para hacer Data Mining. Obtenido de Inteldig: https://www.inteldig.com/2018/11/herramientas-gratuitasdata-mining/ Ku Canul, J. G. (07 de Mayo de 2017). Historia Datamining. Obtenido de SCRIBD: https://es.scribd.com/document/347636418/Historia-Datamining Landa, J. (16 de Febrero de 2016). ¿Qué es KDD y Minería de Datos? Obtenido de http://fcojlanda.me/es/ciencia-de-los-datos/kdd-y-mineria-de-datos-espanol/ Mata, R. (13 de Enero de 2017). Minería de datos: qué es, cómo es el proceso y a qué áreas se puede aplicar. Obtenido de ICMD: https://www.icemd.com/digitalknowledge/articulos/mineria-datos-proceso-areas-se-puede-aplica/ Muy interesante. (22 de Enero de 2017). ¿Qué es la mineria de datos? Obtenido de Muy interesante: https://www.muyinteresante.es/tecnologia/preguntasrespuestas/que-es-la-mineria-de-datos-311477406441# SAS - The power to Know. (07 de Mayo de 2015). Mineria de datos. Obtenido de SAS: https://www.sas.com/es_mx/insights/analytics/data-mining.html ventics.com. (15 de Marzo de 2015). Técnicas de minería de datos o Data Mining. Obtenido de ventics.com: http://www.ventics.com/tecnicas-de-mineria-de-datoso-data-mining/