ELECTIVA III TALLER N°1 ENTREGADO POR: JUAN CARLOS VELANDIA GUERRERO UNIVERSIDAD DE CUNDINAMARCA. FACULTAD DE INGENIERIA. INGENIERIA DE SISTEMAS. ELECTIVA III. 2022. ELECTIVA III TALLER N°1 ENTREGADO POR: JUAN CARLOS VELANDIA GUERRERO ENTREGADO A: YESID JAVIER REINA CLAVIJO UNIVERSIDAD DE CUNDINAMARCA. FACULTAD DE INGENIERIA. INGENIERIA DE SISTEMAS. ELECTIVA III. 2022 Contenido LA MINERIA DE DATOS COMO SOPORTE A LA TOMA DE DESICIONES EMPRESARIALES ............................................................................................................................ 4 1. ¿Qué es un Data Warehouse? .......................................................................................................... 7 2. ¿Qué es el 'Data Mining'? ................................................................................................................ 7 3. Distribuciones Heterogéneas ........................................................................................................ 8 4. Bases de Datos Transaccionales ................................................................................................... 8 5. Base de Datos Espacial.................................................................................................................. 9 6. Qué hace el data Mining en la actualidad y cuándo es recomendable utilizar un data Mining. ............................................................................................................................................... 9 7. Que es KDD ................................................................................................................................... 9 8. En que consiste la KDD (Knowledge Discovery in Databases) cite un proceso que realice este procedimiento. .......................................................................................................................... 10 9. Cuáles son las faces a tener en cuenta al momento de implementar el Data Mining explíquelos........................................................................................................................................ 10 10. Que es vulnerabilidad ............................................................................................................... 11 11. Que es owasp .............................................................................................................................. 11 WEBGRAFIA.................................................................................................................................. 13 LA MINERIA DE DATOS COMO SOPORTE A LA TOMA DE DESICIONES EMPRESARIALES La minería de datos se conoce como el estudio de fallas o anomalías en un gran conjunto de datos para dar resultados, donde se utiliza una variedad de técnicas las cuales permiten utilizar la información para incrementar los ingresos, recortar los costos y mejorar la atención con los clientes, y reducir riesgos. Su importancia reca en que se a podido apreciar los números asombrosos, y el volumen de datos producidos que se duplican al pasar de los años, pero los datos que no están estructurados por si solos forman el 90% del universo digital. La minería de datos permite; -permite filtrar ruidos y repeticiones en los datos, -entender que es relevante y luego hacer uso adecuado de la información para evaluar resultados probables, y acelerar el ritmo en la toma de decisiones informadas. La minería de datos resulta ser la piedra analítica, ayuda en el desarrollo de nuevos de modelos que ayudan a descubrir conexiones dentro de millones de registros. Dentro de la tarea en la mejora del acceso a la información, la cual cada vez está tomando más fuerza principalmente en los nuevos negocios, en los cuales ser requiere el acceso a la información de manera automatizada y reutilizable, de esta manera se describirán técnicas y herramientas que emergen en esas áreas de investigación, la cual contribuye a un mayor entendimiento y alcance de la limitación de la minería de datos en la toma de decisiones empresariales. Los beneficios que ofrece es la elevación de niveles de competencia de los negocios, ya que la rapidez de identificar, procesa y extraer la información que es importante para la empresa, descubriendo el conocimiento y patrones en la base de datos y por su facilidad de uso hace que se pueda desarrollar en cualquier área del conocimiento. Tomando en cuenta, en la actualidad la mayoría de las organizaciones suelen utilizar estructuras con cambios continuos, debido a esto las empresas publicas y privadas deben tener una capacidad de adaptabilidad, de solucionar problemas y generar nuevos conocimientos. “Las aplicaciones necesarias para gestionar el flujo de información en las actividades de negocio se pueden clasificar en dos importantes categorías: las aplicaciones que manejan las transacciones y las estadísticas que ayudan a convertir los datos en información útil para la toma de decisiones. Además, está el sistema de indicadores, formado por las bases de datos donde se almacenan los datos importantes para evaluar y mejorar el funcionamiento de las actividades que componen la cadena de suministro y por aplicaciones de análisis que facilitan la comprensión de las tendencias y patrones presentes en los datos. El sistema de indicadores se considera como un instrumento de integración básico a través de la comunicación y diálogo que se establece, en base a los datos, entre los diferentes actores del proceso”. También el tratamiento de los datos en las decisiones de los negocios, desde un punto de vista practico y asociarlo directamente a las actividades, la minera de datos es el conjunto de metodologías, estas permiten reunir, depurar y transformar datos de los sistemas transaccionales e información no estructural. “Piatesky-Shapiro (1991) destacan que, desde un punto de vista más teórico, la Minería de Datos se define como el proceso completo de extracción de información, que se encarga además de la preparación de los datos y de la interpretación de los resultados obtenidos, a través de grandes cantidades de datos, posibilitando de esta manera el encuentro de relaciones o patrones entre los datos procesados. Por su parte, Molina y García (2004) explican que los datos tal cual se almacenan en las bases de datos no suelen proporcionar beneficios directos; su valor real reside en la información que podamos extraer de ellos, es decir, información que nos ayude a tomar decisiones o a mejorar la comprensión de los fenómenos que nos rodean. Ejemplos de ello pueden ser: contrastar que todo va bien, analizar diferentes aspectos de la evolución de la empresa, presentar información de forma más intuitiva, comparar información en diferentes períodos de tiempo, comparar resultados con previsiones, identificar comportamientos y evoluciones excepcionales, confirmar o descubrir tendencias e interrelaciones, entre otras acciones.” Los indicadores de bondad de resultado tratan de portan una idea acerca del error que se tiene a la hora de emplear un modelo para realizar una tarea, es una medida de la fortaleza estadística del resultado en este se utiliza las siguientes medidas; “La precisión se utiliza cuando el resultado se presenta en forma de clasificación o estimación, la cual se mide a través del porcentaje de predicciones que son correctas. Para efectos de la clasificación, se emplea el porcentaje de casos bien clasificados y para la estimación del porcentaje de registros, se emplea una estimación que el decisor considere correcta. Para medir la precisión se puede emplear el coeficiente de confianza, el cual no es más que la probabilidad condicionada de un hecho con respecto a otro.” Esta se dispone de variables continuas y numéricas, utilizando la raíz cuadrada de las distancias de cada eje; los indicadores de relevancia del resultado, en este se usa el grupo de coberturas, coeficiente de apoyo y significación, estos están ligados a la importancia del resultado arrojado en las prácticas de minería, el coeficiente cobertura mide el porcentaje de los resultados. Los indicadores de novedad cuando la información es excesivamente abundante y obvia, existe un coeficiente de novedad el cual indica si una regla es interesante o no en función del numero de reglas ya generas para un área del conocimiento en concreto; los indicadores de aplicabilidad las dinámicas de las organizaciones actuales demandan cada vez más, son tiempos de respuestas rápidas es importante la creación o generación de modelos como resultados del mismo. La rentabilidad es innegable ya que las organizaciones comerciales, entidades de crédito y demás usuarios especializados, solicitan información sobre la rentabilidad de las actividades del negocio, en este se resalta la minería de datos o la explotación de datos ha evolucionado y potenciado las bases de datos tradicionales, identificar mediante las aplicaciones automática de algoritmos recursivos de las variables más relevantes estos métodos se han convertido en retos tecnológicos para procesar los datos por ultimo la influencia de la tecnología, se consideras que el auge que adquirido el Data Mining es debido a que en el presente nos encontramos con un gran flujo de datos y la necesidad de información útil y conocimiento: en este orden de ideas se resalta la importancia de otras tecnologías en los procesos de minería de datos, resaltando la importancia que han tenido en la integración de estas con la administración de datos. “Autores como Molina y García (2004) explican cada una de las técnicas que ayudan a la resolución de problemas particulares de la organización, basándose en los datos que éstos poseen. Estas técnicas son: Razonamiento estadístico, Visualización, Procesamiento paralelo, Aprendizaje automático y Apoyo en la toma de decisiones.” Para concluir la minería de datos es importante para las empresas ya que facilita y agiliza de una manera fácil y rápida la información a la mano de las personas y de una manera actualizada con el pasar de los años, donde se convierte en una estrategia que eleva los niveles de competencia en este cambiante mundo de la tecnología, mostrando sus capacidades para almacenar datos exponencialmente, la cual ha tenido una buena entrada en los nuevos negocios empresariales. Con esta facilitando su uso y la aplicabilidad del conocimiento con distintos algoritmos y que es elemento esencial en una toma de decisión acertada, al convertir dichos datos en información evaluada y conocimiento para la acción, y aunque falta mucho trabajo para hacer en esta temática se necesitan mejores procesos para generar mejores procesos en la minería de datos. http://ve.scielo.org/scielo.php?script=sci_arttext&pid=S1012-15872007000100008 1. ¿Qué es un Data Warehouse? Un data warehouse es un repositorio unificado para todos los datos que recogen los diversos sistemas de una empresa. El repositorio puede ser físico o lógico y hace hincapié en la captura de datos de diversas fuentes sobre todo para fines analíticos y de acceso. Tomando como ejemplo un Data warehouse de una institución educativa, en donde se almacenan los datos y de donde se podrán analizar y reestructurar la información 2. ¿Qué es el 'Data Mining'? La minería de datos o data Mining es un proceso técnico, automático o semiautomático, que analiza grandes cantidades de información dispersa para darle sentido y convertirla en conocimiento. Busca anomalías, patrones o correlaciones entre millones de registros para predecir resultados, como indica el SAS Institute, uno de los referentes mundiales en analítica de negocios. Ventajas • Creación de estrategias de marketing • Mejora de la marca • Encontrar clientes ideales • Empoderamiento de la gestión empresarial • Ayuda en el análisis de datos Desventajas • Es un proceso costoso • Necesidad de ser exactos • Habilidades técnicas requeridas • Los datos pueden ser mal utilizados Ejemplos: • Marketing • Comercio minorista • Banca • Medicina • Televisión y radio 3. Distribuciones Heterogéneas Las BD’s Heterogéneas o Multibase de Datos son aquellas donde Sitios diferentes utilizan diferentes DBMS’s, siendo cada uno esencialmente autónomo. Es posible que algunos sitios no sean conscientes de la existencia de los demás y quizás proporcionen facilidades limitadas para la cooperación en el procesamiento de transacciones Ejemplos: una base de datos que tenga soporte de páginas web y distintas plataformas, una base de datos que soporte juegos y datos de empresas. 4. Bases de Datos Transaccionales Las bases de datos transaccionales son bases de datos que tiene como fin el envío y recepción de datos a gran velocidad. Están destinadas generalmente al entorno de análisis de calidad, datos de producción e industrial, y su objetivo principal es asegurar las transacciones dentro de una base de datos relacional o, en caso de que no se puedan asegurar, revertirlas, de manera que evitan que las transacciones queden incompletas, es decir, o se realiza la transacción o no pasa nada (vuelve al estado original). Ejemplos: una empresa, un banco, un ente gubernamental 5. Base de Datos Espacial Una base de datos espacial (spatial database) es un sistema administrador de bases de datos que maneja datos existentes en un espacio o datos espaciales. En este tipo de bases de datos es imprescindible establecer un cuadro de referencia (un SRE, Sistema de Referencia Espacial) para definir la localización y relación entre objetos, ya que los datos tratados en este tipo de bases de datos tienen un valor relativo, no es un valor absoluto. Los sistemas de referencia espacial pueden ser de dos tipos: georreferenciados (aquellos que se establecen sobre la superficie terrestre. Son los que normalmente se utilizan, ya que es un dominio manipulable, perceptible y que sirve de referencia) y no georreferenciados (son sistemas que tienen valor físico, pero que pueden ser útiles en determinadas situaciones). Ejemplos: ciudades, ríos, rutas, áreas montañosas 6. Qué hace el data Mining en la actualidad y cuándo es recomendable utilizar un data Mining. Se trata de un proceso por medio del cual nos es posible encontrar, dentro de grandes volúmenes de datos, patrones, anomalías y correlaciones. Encontrarlos nos permite predecir resultados y eso es lo que constituye un diferencial clave en cualquier empresa, organización o sector en el que nos desempeñamos profesionalmente. E la actualidad el data Mining es muy importante en la actualidad y a nivel empresarial, es muy recomendable usarlo si mi empresa manejo mucho flujo e información. 7. Que es KDD Cuando hablamos de grandes cantidades de datos, el Descubrimiento de Conocimiento en Bases de Datos o KDD se refiere al proceso de identificar patrones válidos, novedosos, potencialmente útiles y principalmente entendibles. Es probable que no hayas escuchado anteriormente el concepto de KDD. También es probable que te suene más conocido el término Minería de Datos, ¿cierto? Sin embargo, la Minería de Datos es solamente uno de los pasos en ese camino más amplio hacia el descubrimiento del conocimiento latente en tus datos. 8. En que consiste la KDD (Knowledge Discovery in Databases) cite un proceso que realice este procedimiento. El proceso consiste en extraer patrones en forma de reglas o funciones, a partir de los datos, para que el usuario los analice. Ejemplos: - analizar los datos recolectados de clientes de determinada marca se necesita de una preparación previa en todo lo que respecta a ellos. Esto comprende el comportamiento, necesidades, costumbres, etc. - detección de fraudes. - telecomunicaciones. 9. Cuáles son las faces a tener en cuenta al momento de implementar el Data Mining explíquelos Se trata de identificar qué se pretende conseguir. ¿Qué problema se está tratando de resolver? ¿Cómo adquirir nuevos clientes? ¿Cómo retener a los que ya tenemos? ¿Cómo reducir determinados costes en la empresa? Estos son algunos ejemplos de lo que se podría estudiar con el Big data. En función a lo que nos preguntemos y su respuesta detectaremos qué conjuntos de datos pueden ser necesarios. Fase 2 de la minería de datos: Identificando los datos requeridos Una vez completado el primer paso hay que recopilar los datos necesarios y comprenderlos. Fase 3 del data Mining: Preparación y preprocesamiento. En este punto en dónde empieza realmente el proceso de data Mining. Se seleccionan los datos requeridos de todos los que tenemos disponibles, procedemos a su «limpieza» y formateo de manera apropiada, si es necesario. Posiblemente en este proceso nos demos cuenta de que quizás necesitemos solo datos parciales, o por el contrario que nos sea necesario integrar múltiples fuentes de datos o que necesitemos datos externos a la empresa o nuestras fuentes para completar el procesamiento. Fase 4 del data Mining: Modelado. La parte de minería real de la «minería de datos» comenzará con este paso. Seleccionamos los algoritmos apropiados para la tarea requerida y los parámetros necesarios. Seleccionaremos una herramienta o herramientas que nos sirva para construir, el modelo y evalúe los resultados iniciales. Dado que el objetivo final de la minería de datos es predecir, los resultados en algunos momentos pueden invalidar las suposiciones previas si las predicciones están fuera de la hipótesis anterior. Fase 5 de la minería de datos: Entrenamiento y pruebas Evaluamos los resultados preliminares y probamos el modelo en diferentes conjuntos de datos de nuestra muestra y revisamos los resultados. ¿Se correlacionan estos resultados a través de diferentes muestras? ¿Hay alguna inconsistencia? Sigue repitiendo el proceso hasta que estés satisfecho con la consistencia de los resultados. Fase 6 de la minería de datos: Verificar, desplegar y conocimiento. Y llegamos a la última fase. En ella verificamos el modelo final, reportamos nuestros «hallazgos» y comenzamos con el plan de implementación en función de los datos obtenidos. 10. Que es vulnerabilidad Básicamente, una vulnerabilidad es una debilidad presente en un sistema operativo, software o sistema que le permite a un atacante violar la confidencialidad, integridad, disponibilidad, control de acceso y consistencia del sistema o de sus datos y aplicaciones. 11. Que es owasp OWASP (acrónimo de Open Web Application Security Project, en inglés ‘Proyecto abierto de seguridad de aplicaciones web’) es un proyecto de código abierto dedicado a determinar y combatir las causas que hacen que el software sea inseguro. La Fundación OWASP es un organismo sin ánimo de lucro que apoya y gestiona los proyectos e infraestructura de OWASP. La comunidad OWASP está formada por empresas, organizaciones educativas y particulares de todo mundo. Juntos constituyen una comunidad de seguridad informática que trabaja para crear artículos, metodologías, documentación, herramientas y tecnologías que se liberan y pueden ser usadas gratuitamente por cualquiera. WEBGRAFIA https://es.wikipedia.org/wiki/Base_de_datos_espacial https://studylib.es/doc/6675702/base-de-datos-heterogéneas https://ayudaleyprotecciondatos.es/bases-de-datos/transaccionales https://www.obsbusiness.school/blog/data-mining-o-mineria-de-datos-su-importancia-enlos-tiempos-que-corren https://mnrva.io/kdd-platform.html https://ediciones.ucc.edu.co/index.php/ucc/catalog/download/36/40/230?inline=1#:~:text=E l%20Descubrimiento%20de%20conocimiento%20en,que%20el%20usuario%20los%20ana lice. https://es.wikipedia.org/wiki/Open_Web_Application_Security_Project