PONTIFICIA UNIVERSIDAD JAVERIANA Anexo 11. Manual de Administración Para mantenimiento a los modelos y código fuente Alex Arias 28/05/2014 El presente documento muestra los requerimientos necesarios para realizar cambios o una extensión del prototipo de alertas tempranas. Contenido 1. Requerimientos del Equipo ................................................................................................... 2 2. Requerimientos del Sistema .................................................................................................. 2 3. Arquitectura de Microsoft aplicada a las técnicas de Clustering y Clasificación ................ 3 3.1 Creación del Origen de datos .............................................................................................. 4 3.2 Creación Vista del Origen de Datos .................................................................................... 4 3.3 Creación de una Estructura de Minería de Datos ................................................................ 5 3.3.1 Selección de la técnica de minería de datos ................................................................. 6 3.3.2 Creación de conjuntos de Entrenamiento y Prueba ...................................................... 6 4. Descargas .............................................................................................................................. 7 5. Compilación y ejecución ....................................................................................................... 7 1. Requerimientos del Equipo Las características que se muestran a continuación son las mínimas que debe tener el equipo para utilizar las fuentes de la aplicación: Procesador X86: 1.0 GHz, X64: 1.4 GHz. Disco duro con al menos 6 GB de espacio libre. Memoria RAM de 1 GB Monitor VGA (800 x 600) Teclado y Ratón. 2. Requerimientos del Sistema Para el mantenimiento de la aplicación y los modelos se requieren tener lo siguiente: Java SE Development Kit 7 SQL Server Managment Studio 2012. SQL Server Data Tools 2010 Weka 3.6 Se recomienda el uso de: Add In de Minería de datos para Excel 2010. NetBeans 7.4: IDE Dropbox o Google drive Es necesario tener y cargar al ambiente de desarrollo las siguientes librerías: Jcommon-1.0.21.jar Jfreechart-1.0.17.jar Skinlf.jar Sqljdbc4.jar 3. Arquitectura de Microsoft aplicada a las técnicas de Clustering y Clasificación Para crear un modelo de minería de datos utilizando la herramienta SLQ Server Data Tools 2010, es necesario conocer la arquitectura que provee la herramienta y a su vez el procedimiento que se debe realizar: Ilustración 1 Arquitectura para la creación de modelos en Microsoft Fuente: Autor Esta arquitectura que se presenta en la ilustración 1 fue utilizada en este trabajo de grado con el fin de modelar y ejecutar algoritmos pertenecientes a las técnicas de Clasificación y Clustering para los dos atributos objetivo (𝑃𝑀10 𝑦 𝑂3 ). Para aplicar esta arquitectura se utilizaron las herramientas de Microsoft SQL Managment Studio 2012 y Visual Studio Data tolos 2010 y además porque estas herramientas proporcionan una visualización de los resultados más fácil de interpretar por parte de los involucrados ya que tiene diversas opciones para ver los resultados ya sea por perfiles, arboles genéticos o el detalle de cada componente del modelo. Además gracias a sus características de implementación robustas tiene opciones para realizar consultas a los modelos y exportar la base de conocimiento a la herramienta SQL Server 2012, esta base de conocimiento como ya se mencionó en la memoria de grado busca ser implementada en un lenguaje de programación para realizar consultas predictivas. En esta sección se pretende explicar el procedimiento que se realizó para la selección y ejecución de los algoritmos pertenecientes a las técnicas de clasificación y Clustering. A continuación se presenta el procedimiento para satisfacer la arquitectura de Microsoft para proyectos de inteligencia de negocios definida en la ilustración 1. Para que este proceso se explique en detalle se utilizó el proceso hecho para el desarrollo del modelo CO3 que utiliza técnicas de Clustering, sin embargo este proceso sirve para los modelos de clasificación. 3.1 Creación del Origen de datos Este módulo crea la conexión de Visual Studio con SQL Server que es la que tiene la base de datos que contiene la vista minable. Una vez creada la conexión, el módulo de origen de datos tiene acceso directo a la base de datos que contiene la información. A continuación se presenta el proceso de creación del módulo origen de datos: Ilustración 2 Conexión con el servidor que contiene los datos Fuente: Herramienta Visual Studio Data Tools 2012 La base de datos “BD Puente Aranda”, contiene las vistas minables, una normalizada y la otra con procesos de discretización preparadas para entrenar el modelo de minería, por ende es importante probar la conexión con el fin de tener acceso más adelante a la base de datos. 3.2 Creación Vista del Origen de Datos La vista del origen de datos se crea a partir de las tablas y las vistas de una base de datos, las vistas de datos se caracterizan por el almacenamiento en cache de los metadatos, agregación de relaciones, la configuración de claves lógicas y para este caso la vista de la tabla que contiene los registros históricos, al crear la vista de origen de datos fue necesario conectarse localmente con la fuente de datos que fue el modulo anterior y este módulo proveyó el acceso a las tablas que contenía esa base de datos, de allí se escogió la tabla o vista a la que se necesita aplicar las técnicas. El visor de visual representa gráficamente la vista de origen de datos creada con los atributos que tiene el conjunto de datos a tratar: Ilustración 3 Visualización de la vista de origen de datos creada Fuente: Herramienta Visual Studio Data Tools 2012 Como se puede observar en la imagen anterior la vista de origen de datos se representa como un cubo en el cual por la parte interior se encuentran todos los atributos que contiene la tabla a utilizar, con esta vista se pueden crear cubos, dimensiones y la estructura de minería de datos, pero para este caso solo se utiliza la estructura. 3.3 Creación de una Estructura de Minería de Datos La estructura de minería de datos como se observó en la arquitectura utilizada, tiene herramientas potentes que permiten escoger la técnica de minería que se necesite y así la creación de un nuevo modelo de minería de datos. Esta estructura de datos representa los conocimientos obtenidos del análisis de datos relacionales. La creación de la estructura de minería, quizá es uno de los pasos más importantes ya que en este se selecciona la técnica a utilizar, el algoritmo, los datos de entrada, el dato predictivo y la partición del conjunto de datos (una parte para conjunto de prueba y la otra para entrenamiento). A continuación se muestra el proceso paso a paso de la creación de la estructura de minería de datos. 3.3.1 Selección de la técnica de minería de datos Ilustración 4 Interfaz para la selección de la técnica de Minería de Datos Fuente: Herramienta Visual Studio Data Tools 2012 A partir de que se elija la técnica de minería de datos, los procesos de configuración y selección de algoritmos son distintos, así que en las secciones posteriores se presenta el proceso en detalle. 3.3.2 Creación de conjuntos de Entrenamiento y Prueba Con el fin de validar el modelo generado de minería de datos y conocer su precisión, es importante crear dos conjuntos de datos, uno de entrenamiento que es el encargado de preparar los modelos y el otro el conjunto de prueba el cual es una muestra aleatoria simple del conjunto de datos original con el fin de probar la precisión de cada modelo creado con el conjunto de datos de entrenamiento. Esta creación de los conjuntos de datos se hace por medio de la herramienta Analysis Services de SQL, donde se presentó la siguiente interfaz en cada uno de los procesos de la creación de la estructura de las técnicas de Minería de Datos: Ilustración 5 Visualización de la Interfaz para la Creación del Conjunto de Pruebas Fuente: Herramienta Visual Studio Data Tools 2012 4. Descargas Para conocer o realizar cambios al prototipo o los modelos de minería, en el siguiente enlace puede descargar el código fuente: http://pegasus.javeriana.edu.co/~CIS1410IS02/prototipo.html Cuyo archivo se encuentra comprimido con el nombre Prototipo Funcional Alertas Tempranas.rar Para descargar los archivos fuentes de los modelos, diríjase al siguiente enlace: http://pegasus.javeriana.edu.co/~CIS1410IS02/entregables.html El archivo tiene el nombre de Modelos de Mineria.rar Para descargar la base de conocimientos, descargue el script de su creación en el mismo enlace anterior con el nombre Base de Conocimiento.sql. 5. Compilación y ejecución Para compilar y/o ejecutar la aplicación de alertas tempranas, realice los siguientes pasos: Abra el proyecto preferiblemente en el ambiente de desarrollo NetBeans 7.4 Cargue las librerías mencionadas anteriormente a las librerías del proyecto. Ejecute el script de la base de conocimiento en la herramienta SQL Managment Studio 2012. Configure el usuario de conexión en el código fuente para conectarse a la base de conocimiento previamente creada. Para esto diríjase al paquete Conexión y abra la clase Conexión.java. Compile el proyecto.