CLEMENTINE 9.0 Autores: Sandra Milena Gómez Sandoval Oscar Ricardo Castillo Blanco Director Unidad Informática: Henry Martínez Sarmiento Tutor Investigación: Álvaro Enrique Palacios Coordinadores: Leydi Diana Rincón Luis Alfonso Nieto Coordinador Servicios Web: Miguel Ibañez Analista de Infraestructura y Comunicaciones: Adelaida Amaya Analista de Sistemas de Información: Álvaro Enrique Palacios Villamil UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES BOGOTÁ D.C. DICIEMBRE DE 2006 CLEMENTINE 9.0 Director Unidad Informática: Tutor Investigación: Henry Martínez Sarmiento Álvaro Enrique Palacios Auxiliares de Investigación: ANDREA PATRICIA GARZON ANGELA ARAUJO FANDIÑO DIANA CAROLINA ROA PAULA ALEJANDRA RODRÍGUEZ ROBERTO MAURICIO SÁNCHEZ ALEJANDRA TELLEZ LEIDI CAROLINA RINCON JAVIER MAURICIO NIÑO ANGÉLICA RODRÍGUEZ CRISTIAN CAMILO IBAÑEZ DANIEL HERNÁN SANTIAGO CRISTIAN GERARDO GIL JOHN FREDY ARIAS SIDNEY MAGNOLIA CUBIDES SANDRA MILENA GOMEZ NATALIA CUESTAS MONDRAGÓN DIANA KATHERINE SANCHEZ VIVIANA BERNAL LOPEZ DANIEL ERNESTO CABEZAS SANDRA PAOLA RAMIREZ DANIEL QUINTERO JORGE ELIECER ROJAS DIEGO FELIPE CORTES CAMILO ERNESTO LOPEZ ELKIN GIOVANNI CALDERÓN JEISON OSWALDO BERNAL HENRY ALEXANDER RINCON HOOVER QUITIAN REYES SERGIO ALEJANDRO PIÑEROS PAULA CATALINA PARRA BRAYAN RICARDO ROJAS SANDRA LILIANA BARRIOS OSCAR RICARDO CASTILLO ALVARO ESNEYDER RONCANCIO EDSSON DIRCEU RODRIGUEZU Este trabajo es resultado del esfuerzo de todo equipo perteneciente a la Unidad de Informática. el Esta obra esta bajo una licencia de reconocimiento-no comercial 2.5 Colombia de creativecommons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/2.5/co/ o envié una carta a creative commons, 171second street, suite 30 San Francisco, California 94105, USAPlataformas colaborativas. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES BOGOTÁ D.C. DICIEMBRE DE 2006 CLEMENTINE 9.0 TABLA DE CONTENIDO TABLA DE CONTENIDO ................................................................................................................... 3 INTRODUCCION ................................................................................................................................. 5 OBJETIVO GENERAL ........................................................................................................................... 5 OBJETIVOS ESPECIFICOS ................................................................................................................... 6 RESUMEN ................................................................................................................................................ 7 ABSTRACT .............................................................................................................................................. 8 PARA QUE CLEMENTINE Y QUIEN LO USA .............................................................................. 9 INSTALACION CLEMENTINE 9.0 .................................................................................................... 9 ENTORNO CLEMENTINE ............................................................................................................... 20 COMO INGRESAR A CLEMENTINE ............................................................................................ 22 VENTANAS DE CLEMENTINE ....................................................................................................... 22 1. Lienzo de rutas ....................................................................................................................... 23 2. Paletas ....................................................................................................................................... 23 a) Favoritos .............................................................................................................................. 23 b) Orígenes .............................................................................................................................. 24 c) Gráficos ............................................................................................................................... 24 d) Operaciones con registros .............................................................................................. 25 e) Operaciones con campos ................................................................................................ 26 f) Modelado............................................................................................................................. 26 g) Resultado ............................................................................................................................. 27 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 3 CLEMENTINE 9.0 3. Administradores ..................................................................................................................... 27 4. Proyectos ................................................................................................................................. 28 5. Informe y Estado .................................................................................................................... 28 6. Barras de Herramientas ....................................................................................................... 29 7. Barra De Menús ..................................................................................................................... 31 a) Menú Archivo ..................................................................................................................... 31 b) Edicion.................................................................................................................................. 32 c) Insertar................................................................................................................................. 32 d) Ver ........................................................................................................................................ 33 e) Herramientas ...................................................................................................................... 33 f) Supernodo ........................................................................................................................... 33 g) Ventana ................................................................................................................................ 34 h) Ayuda ................................................................................................................................... 34 USO DE TECLAS DEL TECLADO ABREVIADO ....................................................................... 35 IMPORTACION DE DATOS EN CLEMENTINE ........................................................................ 36 LA MINERIA DE DATOS CON CLEMENTINE .......................................................................... 55 TECNICAS DE MODELADO EN CLEMENTINE ....................................................................... 88 EJERCICIO PRÁCTICO ..................................................................................................................... 97 CONCLUSIONES ............................................................................................................................. 119 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 4 CLEMENTINE 9.0 INTRODUCCION Clementine es un programa de minería de datos de SPSS, este programa permite realizar modelos predictivos para ayudar a la toma de decisiones de las empresas. Utiliza técnicas analíticas que ayudan a conseguir resultados medibles y tangibles, aportando una comprensión más clara de los datos. Lo que se busca con la implementación de este software es utilizar los datos que manejan las empresas como consecuencia de sus operaciones y combinarlos con los conocimientos empresariales, en este caso se quiere aprovechar los datos de la UIFCE para descubrir nuevas maneras de enfocar los problemas e identificar nuevas o mejores oportunidades para optimizar los servicios ofrecidos por la Unidad. Su aplicación en la facultad se puede dar para las tres carreras puesto que en todas manejamos diferentes volúmenes de datos con diferentes variables que nos podrían dar mayor flujo de información como herramientas de análisis. OBJETIVO GENERAL UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 5 CLEMENTINE 9.0 Descubrir las principales ventajas y aplicaciones que Clementine brinda para implementarlo en la facultad. Clementine es un programa de minería de datos de SPSS, este programa permite realizar modelos predictivos para ayudar a la toma de decisiones de las empresas. Utiliza técnicas analíticas que ayudan a conseguir resultados medibles y tangibles, aportando una comprensión más clara de los datos. Lo que se busca con la implementación de este software es utilizar los datos que manejan las empresas como consecuencia de sus operaciones y combinarlos con los conocimientos empresariales, en este caso se quiere aprovechar los datos de la UIFCE para descubrir nuevas maneras de enfocar los problemas e identificar nuevas o mejores oportunidades para optimizar los servicios ofrecidos por la Unidad. Dentro de las cualidades más importantes del programa se pueden resaltar la ejecutabilidad de procesos para descubrir patrones y tendencias ocultas en grandes conjuntos de datos con el fin de proporcionarnos el conocimiento necesario para la toma correcta de decisiones. Su aplicación en la facultad se puede dar para las tres carreras puesto que en todas manejamos diferentes volúmenes de datos con diferentes variables que nos podrían dar mayor flujo de información como herramientas de análisis. OBJETIVOS ESPECIFICOS Analizar el software para encontrar ventajas y aplicaciones Evaluar la aplicabilidad que tiene a las distintas materias que se dictan en la facultad. Los campos de desarrollo en las carreras serian los siguientes: Administración de Empresas: En donde más se podría dar el desarrollo del programa, puesto que se puede utilizar en diferentes áreas de conocimiento UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 6 CLEMENTINE 9.0 de la carrera, se pueden procesar datos para inducir a nuevas o mejoras en la utilización de los recursos para las actividades económicas, orientadas siempre a crear una mejor estructura para la producción, transformación, circulación, administración o custodia de bienes o para la prestación de servicios. Contaduría Publica: Se puede llevar un registro con mejor información de los procesos contables y de La información financiera, además de que se podrían comparar la información de la empresas frente a su sector industrial, o en bases de datos en la cámara de comercio, la DIAN o el DANE Economía: La medición de datos se hace para saber los comportamientos de los agentes en el mercado, su influencia en la economía y la relación que puede existir entre sí, ya sea a nivel micro y/o macroeconómico, modelos econométricos, entre otros. Realizar un ejercicio de análisis de datos, tomando como base los datos que nos ofrece el WebSiui, ya sea en cuanto a turnos de usuarios, cursos libres, etc. Determinar la pertinencia de adquirirlo para que sea utilizado como una herramienta en algunas asignaturas ofrecidas por la facultad de ciencias económicas y para ajustarlo a un curso libre. RESUMEN Este manual contiene las principales características de Clementine. Como aplicación de minería de datos, Clementine ofrece un método estratégico para encontrar relaciones útiles entre grandes conjuntos de datos. Al contrario que los métodos estadísticos más tradicionales, no es necesario saber lo que se está buscando al comenzar. Puede explorar los datos, mediante el ajuste de diferentes modelos y la investigación de diferentes relaciones, hasta que encuentre la información que resulte útil. Clementine ofrece plantillas para muchas de estas aplicaciones de minería de datos. Las plantillas de aplicaciones de Clementine, también denominadas CAT, están disponibles para los siguientes tipos de actividades: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 7 CLEMENTINE 9.0 Minería Web Detección de fraude CRM analítico CRM analítico de telecomunicaciones Análisis de micromatriz Detección y prevención de delitos Clementine es un conjunto de técnicas avanzadas para la extracción de información escondida en grandes bases de datos. Esta precisamente es la finalidad de la minería de datos, ya que las bases de datos actuales han acumulado una gran variedad y cantidad de datos, estadísticas, índices, etc. en los cuales la información útil no es fácil de encontrar o inferir a simple vista. ABSTRACT This manual contains Clementine's principal characteristics. As application of data mining, Clementine offers a strategic method to find useful relations between(among) big sets of information. Unlike the most traditional statistical methods, it is not necessary to know what is looked on having begun. It(he,she) can explore the information, by means of the adjustment of different models and the investigation(research) of different relations, until he(she) finds the information that turns out to be useful. Clementine offers insoles(staff) for many of these applications of data mining. The insoles(staff) of Clementine's applications, also named CAT, are available for the following types of activities: · Mining industry Web · Detection of fraud · analytical CRM · analytical CRM of telecommunications · Analysis of microcounterfoil · Detection and prevention of crimes Clementine is a set of technologies(skills) advanced for the extraction of information hidden in big databases. This one precisely is the purpose of the data mining, since the current databases have accumulated a great variety and quantity of information, statistics, indexes, etc. In which the useful information is not easy to find or infer to simple sight. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 8 CLEMENTINE 9.0 PARA QUE CLEMENTINE Y QUIEN LO USA Este programa busca convertir los datos sin procesar que maneja una empresa en información estratégica para la compañía. Al evaluar correctamente los datos y cuantificarlos se puede establecer patrones y tendencias dándole un mejor uso a la información sin procesar. La información de los datos es tomada como punto de referencia para mejorar el desempeño de corto y largo plazo de una empresa, al identificar patrones dentro de la organización se puede dar mejor uso a la información y de esta manera optimizar los procesos. Dentro de las técnicas analíticas que le permiten transformar datos sin procesar en herramientas para la toma de decisiones encontramos la correlación entre variables, las reglas de asociación (a priori), la segmentación, los patrones secuenciales. INSTALACION CLEMENTINE 9.0 Al insertar el respectivo CD de instalación de Clementine 9.0 nos encontramos con la siguiente ventana: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 9 CLEMENTINE 9.0 En donde escogemos la opción Instalar Clementine 9.0 y nos lleva a la siguiente ventana: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 10 CLEMENTINE 9.0 Seleccionamos Licencia personal, y aceptamos los términos del contrato: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 11 CLEMENTINE 9.0 Damos clic en siguiente y nos aparece el siguiente cuadro de dialogo: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 12 CLEMENTINE 9.0 Al dar clic en siguiente nos pregunta la ubicación en la cual queremos que queden almacenados los archivos del programa, escogemos la ubicación y damos clic en Siguiente: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 13 CLEMENTINE 9.0 Al dar clic en siguiente nos pregunta en que idioma queremos que aparezca la documentación del programa, seleccionamos español y damos clic en siguiente: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 14 CLEMENTINE 9.0 Antes de la instalacion nos aparece la siguiente ventana: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 15 CLEMENTINE 9.0 Damos clic en Instalar y comienza la instalación del programa en nuestro equipo, así : UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 16 CLEMENTINE 9.0 Una vez terminado este proceso aparecerá: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 17 CLEMENTINE 9.0 Una vez aparezca esta ventana damos clic en finalizar y hemos terminado el respectivo proceso de instalacion. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 18 CLEMENTINE 9.0 Para ingresar al programa vamos al menú Inicio – Todos los programas – Clementine Y ya ingresamos a nuestro programa para comenzar a trabajar. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 19 CLEMENTINE 9.0 ENTORNO CLEMENTINE Dentro de las cualidades más importantes del programa se pueden resaltar la ejecutabilidad de procesos para descubrir patrones y tendencias ocultas en grandes conjuntos de datos con el fin de proporcionarnos el conocimiento necesario para la toma correcta de decisiones. El entorno Clementine está basado en nodos que se van disponiendo y conectando para formar una ruta, estas rutas se pueden organizar en proyectos que se pueden abrir y modificar. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 20 CLEMENTINE 9.0 Una ruta es la ejecución de algunos nodos que se encuentran interconectados. Los enlaces entre nodos que se observan en la grafica indican la dirección del flujo de los datos, las series de nodos representan las operaciones que van a realizarse con los mismos. Para crear una ruta lo primero que se debe hacer es añadir los nodos a utilizar en el lienzo de rutas, conectar los nodos para formar una ruta, especificar cualquier opción del nodo o de la ruta y por ultimo ejecutar la ruta. Podemos decir entonces que para trabajar con Clementine hay que seguir tres pasos, primero leer los datos en Clementine, segundo realizar una serie de manipulaciones con ellos y el tercero, enviar los datos a un destino o salida. Precisamente esta secuencia que siguen los datos es a lo que se le denomina Ruta de datos y cada operación que se realiza con los datos se representa con un nodo. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 21 CLEMENTINE 9.0 COMO INGRESAR A CLEMENTINE Para ingresar al programa Clementine vamos al menú Inicio – Programas – Clementine. Otra forma de ingresar al programa es dando doble clic en el icono de acceso directo que aparece en el escritorio. VENTANAS DE CLEMENTINE UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 22 CLEMENTINE 9.0 La ventana de Clementine consta de varias partes: 1. Lienzo de rutas El lienzo de ruta es el área de trabajo de Clementine, donde se generan los nodos y rutas de datos. 2. Paletas En la parte inferior de la ventana de Clementine encontramos las Paletas. Cada una de estas paletas contiene un grupo de nodos. Las paletas disponibles en el programa son: a) Favoritos UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 23 CLEMENTINE 9.0 En esta paleta de favoritos se encuentran los nodos que son mas utilizados por los usuarios. Base de datos: Esta opción nos permite obtener datos a través de una base de datos ODBC. Archivo Var: Permite importar datos que tienen un tamaño de caracteres variable por registro. Seleccionar: Permite seleccionar filas imponiéndoles condiciones de inclusión o exclusión. b) Orígenes En la paleta orígenes se encuentran los nodos utilizados para introducir los datos a Clementine, estos nodos son: Base de datos: Esta opción nos permite obtener datos a través de una base de datos ODBC. Archivo Var: Permite importar datos que tienen un tamaño de caracteres variable por registro. Archivo Fijo: Este nodo nos permite importar datos que tienen un tamaño fijo de caracteres por campo. Archivo SPSS: Permite importar datos desde un archivo SPSS. Archivo SAS: Este nodo permite la importación de datos desde un archivo SAS. Datos Usuario: Este nodo permite acceder los datos manualmente. Se usa en casos en los cuales no se tenga un archivo de datos ya creado. c) Gráficos UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 24 CLEMENTINE 9.0 Esta paleta contiene los nodos relacionados con la creación de gráficos en Clementine, estos son: Grafico: Representa las relaciones entre variables. Histograma: Permite representar un histograma de la distribución de los datos numéricos. Distribución: Representa un histograma de la distribución de los datos no numéricos. Malla: Este nodo nos permite apreciar las asociaciones entre los campos y hacia que dirección se dirigen. Graficas Múltiples: Este nodo permite definir varios campos Y respecto a unos campos X. Es decir variables endógenas y exógenas. Evaluación: Permite realizar la evaluación de los posibles comportamientos del modelo. d) Operaciones con registros Esta paleta llamada operaciones con registros contiene los siguientes módulos: Seleccionar: Permite seleccionar filas imponiéndoles condiciones de inclusión o exclusión. Muestrear: Permite realizar una muestra de los datos, ya sea aleatoreamente o tomándolos salteados. Equilibrar: El nodo equilibrar permite realizar una especie de sobre muestreo, para aumentar o disminuir la proporción de registros. Agregar: El nodo agregar permite usar algunas funciones de agregación a los datos, por ejemplo sumar, contar, etc. Ordenar: Este nodo permite ordenar los registros de una tabla. Fundir: Este nodo permite combinar dos tablas, o si se prefiere crear una tabla nueva seleccionando un conjunto de campos a unir en una sola tabla. Añadir: El nodo añadir permite realizar la unión de dos o mas fuentes de datos. Distinguir: Este nodo verifica que los registros no estén repetidos y si encuentra repeticiones las elimina. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 25 CLEMENTINE 9.0 e) Operaciones con campos En la paleta operaciones con campos se encuentran los siguientes nodos: Tipo: El nodo tipo permite asignar el tipo a los campos. Filtro: El nodo filtro permite identificar algunos grupos de datos Derivar: Este nodo permite derivar nuevos campos a partir de la combinación de otros. Rellenar: Permite rellenar o sustituir campos faltantes siguiendo determinados parámetros. Marcas: El nodo marcas permite generar nuevos campos de un valor discreto a nuevos campos boléanos. Histórico: El nodo histórico permite generar campos acumulados, parciales, en general campos con memoria. f) Modelado En la paleta modelado podemos encontrar los siguientes módulos: Red Neural: El nodo red neural permite clasificar e interpolar datos. C.S.G: El nodo C.S.G permite realizar árboles de decisión. Árbol C & R: Este nodo permite realizar regresión y clasificación en árboles. Quest: El nodo Quest es un nodo que permite realizar un analisis mas afondo de lo que lo permite el Arbol C & R. Chaid: El nodo Chaid es un nodo basado en la chi-cuadrado, es muy similar al nodo C & R. Kohonen: El nodo Kohonen es un algoritmo, que agrupa los datos y distribuye las caracterisiticas de una forma gradual. Regresión: El nodo regresión arroja la regresión lineal de los datos introducidos. Secuencia: Este nodo permite realizar reglas de asociación secuenciales. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 26 CLEMENTINE 9.0 g) Resultado En la paleta resultados se encuentran los siguientes módulos: Tabla: Este nodo es muy útil en clementine ya que permite visualizar los datos de una ruta en forma de tabla. Matriz: El nodo matriz genera una matriz de ocurrencias para los valores de dos campos. Analisis: Este nodo permite analizar la valides de los datos. Auditar datos: Este nodo se utiliza para generar estadísticos y gráficos, generalmente en la fase inicial de exploración de los datos para dar una mirada general al comportamiento de los datos. Estadísticos: Genera los principales estadísticos de los atributos de los datos. Calidad: Este nodo nos permite generar un informe de los datos faltantes por cada campo. Informes: El nodo informes genera informes combinando los diferentes resultados de una ruta. Bases de datos: El nodo bases de datos permite exportar datos con el ODBC. Archivo plano: Este nodo permite exportar datos a un archivo plano. 3. Administradores UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 27 CLEMENTINE 9.0 Estas fichas de administradores se utilizan para mostrar y administrar los diferentes tipos de objetos correspondientes. En la ficha rutas se almacenan las diferentes rutas con las que se este trabajando. En la ficha Resultados estarán los resultados obtenidos durante los procesos ejecutados y por ultimo en la ficha Modelos se encontraran los distintos modelos elaborados. 4. Proyectos En esta ventana se encuentra información útil para organizar el proceso de minería de datos en Clementine. 5. Informe y Estado Estas ventanas muestran algunos comentarios sobre el progreso de las distintas UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 28 CLEMENTINE 9.0 operaciones que esta ejecutando el programa e indican cuando son necesarios los comentarios del usuario. 6. Barras de Herramientas Crear una nueva ruta Guardar la ruta actual Abrir plantillas de aplicaciones Copiar la selección al portapapeles Abrir una ruta existente Imprimir una ruta actual Cortar y mover una selección al portapapeles Pegar el contenido del portapapeles en la selección UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 29 CLEMENTINE 9.0 Deshacer la última acción Editar las propiedades de la ruta Ejecutar selección Añadir supernodo Alejar supernodo Rehacer la última acción Ejecutar la ruta actual Detener la ejecución de la ruta actual Acercar supernodo UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 30 CLEMENTINE 9.0 7. Barra De Menús a) Menú Archivo El menú archivo contiene las siguientes opciones: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 31 CLEMENTINE 9.0 b) Edicion c) Insertar UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 32 CLEMENTINE 9.0 d) Ver e) Herramientas f) Supernodo UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 33 CLEMENTINE 9.0 g) Ventana h) Ayuda UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 34 CLEMENTINE 9.0 USO DE TECLAS DEL TECLADO ABREVIADO UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 35 CLEMENTINE 9.0 IMPORTACION DE DATOS EN CLEMENTINE Para comenzar a trabajar con Clementine es necesario ingresar los datos con los cuales vamos a trabajar. Clementine cuenta con un sistema que le permite importar datos de distintas bases de datos (mediante el ODBC) o de archivos. Las clases de archivos que nos permite importar Clementine son: 1. Bases de datos Para importar una base de datos vamos al menú insertar – orígenes – bases de datos. También podemos ir a la paleta orígenes y damos clic en bases de datos. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 36 CLEMENTINE 9.0 Nos aparece el siguiente grafico: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 37 CLEMENTINE 9.0 Damos doble clic sobre el cuadro que aparece en la ventana Bases de datos, y obtenemos este cuadro de dialogo: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 38 CLEMENTINE 9.0 Desplegamos la pestaña de origen de datos Aparece este nuevo cuadro de dialogo en donde seleccionamos el origen de los datos, luego le decimos conectar y por ultimo aceptar. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 39 CLEMENTINE 9.0 Volvemos al primer cuadro de dialogo en donde vamos a la opción seleccionar y aparece: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 40 CLEMENTINE 9.0 Aquí seleccionamos la tabla a utilizar y le damos clic en aceptar, retornamos de nuevo al primer cuadro de dialogo donde podemos observar las pestañas Datos, Filtro, Tipos y Anotaciones: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 41 CLEMENTINE 9.0 Por ultimo damos clic en aplicar y luego en aceptar. Y así hemos concluido la importación de nuestra base de datos. Para visualizar los datos que acabamos de importar, vamos a el menú insertar – resultado – tabla: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 42 CLEMENTINE 9.0 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 43 CLEMENTINE 9.0 Cuando aparece el grafico de tabla en nuestra ventana de trabajo, vamos al grafico región (que es el titulo de nuestra base de datos) y utilizamos el botón central de Mouse para hacer clic sostenido sobre ella y así lo arrastramos hacia el grafico tabla. Si lo realizamos correctamente nos aparece una flecha que comunica los dos gráficos. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 44 CLEMENTINE 9.0 Por ultimo vamos hacemos clic sobre el icono Ejecutar de la barra de herramientas y nos aparece la tabla de datos que importamos. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 45 CLEMENTINE 9.0 2. Archivo SPSS Para importar una base de datos vamos al menú insertar – orígenes – Archivo SPSS. También podemos ir a la paleta orígenes y damos clic en Archivo SPSS. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 46 CLEMENTINE 9.0 Hacemos doble clic sobre el grafico Archivo SPSS y nos aparece el siguiente cuadro de dialogo: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 47 CLEMENTINE 9.0 Damos clic en la opción importar archivo y seleccionamos la ubicación del archivo de SPSS que vamos a importar: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 48 CLEMENTINE 9.0 Volvemos al primer cuadro de dialogo, y observamos el contenido de las pestañas filtro, tipos y anotaciones: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 49 CLEMENTINE 9.0 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 50 CLEMENTINE 9.0 Damos clic entonces en aplicar, y luego en aceptar. Ahora para visualizar los datos en forma de tabla, vamos al menú Insertar – Resultado – Tabla: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 51 CLEMENTINE 9.0 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 52 CLEMENTINE 9.0 Cuando aparece el grafico de tabla en nuestra ventana de trabajo, vamos al grafico región (que es el titulo de nuestro archivo de SPSS) y utilizamos el botón central de Mouse para hacer clic sostenido sobre ella y así lo arrastramos hacia el grafico tabla. Si lo realizamos correctamente nos aparece una flecha que comunica los dos gráficos. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 53 CLEMENTINE 9.0 Por ultimo vamos hacemos clic sobre el icono Ejecutar de la barra de herramientas y nos aparece la tabla de datos que importamos. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 54 CLEMENTINE 9.0 LA MINERIA DE DATOS CON CLEMENTINE Data Mining es el proceso para descubrir patrones y tendencias ocultas en grandes conjuntos de datos con el fin de proporcionarnos el conocimiento necesario para la toma de decisiones en la organización. La transformación de una organización mediante la información es un proceso, y cada paso del mismo proporciona mayor valor a la toma de decisiones. A medida que se han ido implantando las distintas fases del proceso de Business Intelligence las empresas se han dado cuenta que los sistemas ERP mejoran la eficiencia de las operaciones pero no proporcionan información estratégica para el crecimiento de la empresa. Los Data Warehouse almacenan datos pero carecen de las herramientas para analizarlos. Reporting y los productos OLAP responden a cuestiones del tipo ¿Qué?, como por ejemplo, qué región vende más, qué clientes son los más rentables, etc. Mientras que las técnicas de Data Mining responden a cuestiones estratégicas como ¿por qué las ventas están bajando?, ¿por qué los clientes se van a otras compañías?, es decir, nos proporcionan UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 55 CLEMENTINE 9.0 información, conocimiento valioso con el que poder diseñar nuestra política de ventas, marketing, etc. Entre las técnicas más utilizadas en el proceso de Data Mining podemos destacar las técnicas exploratorias de análisis gráfico, árboles de decisión y redes neuronales. Como complemento a las técnicas de Data Mining antes comentadas, SPSS también proporciona otras técnicas llamadas confirmatorias como Regresión, Modelos ARIMA, ANOVA, etc., las cuales entran dentro de la categoría de Análisis de datos y están incluidas en módulos como SPSS Base, Modelos de Regresión, Modelos Avanzados, Tendencias, etc1 Como aplicación de minería de datos, Clementine ofrece un método estratégico para encontrar relaciones útiles entre grandes conjuntos de datos. Al contrario que los métodos estadísticos más tradicionales, no es necesario saber lo que se está buscando al comenzar. Puede explorar los datos, mediante el ajuste de diferentes modelos y la investigación de diferentes relaciones, hasta que encuentre la información que resulte útil. Clementine ofrece plantillas para muchas de estas aplicaciones de minería de datos. Las plantillas de aplicaciones de Clementine, también denominadas CAT, están disponibles para los siguientes tipos de actividades: Minería Web Detección de fraude CRM analítico CRM analítico de telecomunicaciones Análisis de micromatriz Detección y prevención de delitos Clementine es un conjunto de técnicas avanzadas para la extracción de información escondida en grandes bases de datos. Esta precisamente es la finalidad de la minería de datos, ya que las bases de datos actuales han acumulado una gran variedad y cantidad de datos, estadísticas, índices, etc. en 1 http://www.spss.com/la/soluciones/data-mining2.htm UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 56 CLEMENTINE 9.0 los cuales la información útil no es fácil de encontrar o inferir a simple vista. La Minería de Datos en Clementine es una combinación de procesos como: Visualización, que permite obtener una visión general de los datos. Puede crear gráficos para explorar las relaciones entre los campos del conjunto de datos y generar hipótesis para explorarlas durante el modelado. Manipulación, que permite limpiar y preparar los datos para el modelado. Puede ordenar datos o añadirlos, filtrar campos, descartar valores que falten o sustituirlos, y derivar nuevos campos. Modelado, que ofrece la visión más amplia de las relaciones entre campos de datos. Los modelos realizan una serie de tareas, como pronosticar resultados, detectar secuencias y agrupar similitudes. Estos ayudan al crecimiento de la organización, simplifican procesos, detectan fraudes y retiene a los clientes más valiosos. Para comenzar a observar las bondades que nos brinda clementine, vamos a trabajar con el archivo DATOS de Excel. Para comenzar hagamos la respectiva importación de los datos a clementine, así como lo explicamos anteriormente. Este archivo contiene los siguientes campos: Id turno: Este campo contiene un número consecutivo de los turnos que se asignan en las salas Id persona: Documento de Identificación del usuario, puede ser tarjeta de Identidad o Cedula de Ciudadanía. Fecha: Corresponde a la fecha en que fue asignado el turno Hora: Corresponde a la hora en la que se pide el turno de sala. Duración: El tiempo en que el usuario utilizo el servicio de la sala. Id salón : Sala de la Unidad en la cual fue asignado el turno UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 57 CLEMENTINE 9.0 Id equipo: Computador en el cual el usuario utiliza el servicio en la sala Estado: Esta categorizado de la siguiente manera: 1. Programado 2. Entrado 3. Salido 4. Cancelado H_entrada: Hora en la que el usuario hace efectiva su reservación de equipo H_salida: Hora en la que termina de utilizar el servicio el usuario Cancelación: si una reserva se cancela antes de que comience la hora solicitada Tmod: Es la fecha y hora de creación del registro. 1. Nodo seleccionar Este nodo selecciona registros del nodo actual. Este nos permite seleccionar filas imponiéndoles condiciones de inclusión o exclusión. Por ejemplo: Vamos a la paleta de Operaciones con registros y buscamos el nodo seleccionar, lo conectamos con la base de datos y lo conectamos de una vez con un nodo tabla. Ahora resulta que nosotros necesitamos únicamente la información de sala 3, entonces, damos clic en el nodo seleccionar y damos clic en el generador de expresiones. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 58 CLEMENTINE 9.0 Estando en el generador de expresiones seleccionamos el campo idsalon y escribimos que queremos que sea igual a ‘SALA3’. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 59 CLEMENTINE 9.0 Damos clic en comprobar para verificar que la expresión introducida no contenga errores y luego damos clic en aceptar. El resultado nos arroja la siguiente tabla, en donde están consignados los turnos que fueron asignados en sala 3. 2. Nodo tipo El nodo tipo permite asignar el tipo a los campos. El tipo de datos se usa para describir características de los datos en un campo determinado. Si se conocen todos los detalles de un campo, éste se denomina completamente instanciado. El tipo de un campo difiere del almacenamiento de un campo, lo cual indica si los datos están almacenados como cadenas, números enteros, números reales, fechas, horas o marcas de tiempo. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 60 CLEMENTINE 9.0 Clementine maneja los siguientes tipos de datos: Rango. Se usa para describir valores numéricos, como el rango de 0 a 100 o de 0,75 a 1,25. Los números de los rangos pueden ser un número entero, un número real o la fecha/hora. Discreto. Se utiliza en el caso de los valores de cadena, cuando se desconoce un número exacto de valores distintos. Se trata de un tipo de datos sin instanciar, lo que significa que toda la información posible acerca del almacenamiento y utilización de los datos aún no se conoce. Una vez leídos los datos, el tipo será una marca o un conjunto, o no tendrá tipo, dependiendo del tamaño del conjunto máximo especificado en el cuadro de diálogo de propiedades de la ruta. Marca. Se usa para datos con dos valores distintos, como Sí y No o 1 y 2. Los números pueden representarse como texto, número entero, número real o fecha/hora. Nota: la fecha/hora hace referencia a tres tipos de almacenamiento: hora, fecha o marca de tiempo. Conjunto. Se usa para describir datos con varios valores distintos, cada uno tratado como un miembro de un conjun a de). En esta versión de Clementine los conjuntos pueden tener cualquier almacenamiento: numérico, de cadena o de fecha/hora. Tenga en cuenta que, al definir un tipo en Conjunto, no se cambian automáticamente los valores a valores de cadena. Conjunto ordenado. Se usa para describir datos con múltiples valores distintos que tienen un orden inherente. Por ejemplo, las categorías salariales o los rangos de satisfacción pueden escribirse como un conjunto ordenado. El orden de un conjunto ordenado en Clementine viene definido por el orden de clasificación natural o por sus elementos. Por ejemplo, 1, 3, 5 es el orden de clasificación por defecto de un conjunto de números enteros, mientras que ALTO, BAJO, NORMAL (orden alfabético ascendente) es el orden de un conjunto de cadenas. El tipo de conjunto ordenado permite definir un conjunto de datos categóricos como datos ordinales para la visualización, generación de modelos (C5.0, Árbol C&R, Bietápico), y la exportación a otras aplicaciones como SPSS, que reconoce los datos ordinales como un tipo distinto. Puede utilizar un campo de conjunto ordenado en cualquier lugar donde se pueda utilizar un campo de este tipo. Además, los campos de cualquier tipo de almacenamiento (real, entero, cadena, fecha, hora, etc.) pueden definirse como un conjunto ordenado. Nota: al trabajar con datos de SPSS, las variables definidas como ordinales en la versión 8.0 o posterior de SPSS se escribirán como un conjunto ordenado en UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 61 CLEMENTINE 9.0 Clementine. De igual manera, al exportar datos a SPSS, los conjuntos ordenados se volverán a escribir como ordinales en el archivo .sav exportado. Sin tipo. Se usa en el caso de los datos que no se ajustan a ninguno de los tipos anteriores o con los tipos de conjuntos con demasiados miembros. Resulta útil con los casos en los que, de lo contrario, el tipo sería un conjunto con demasiados miembros (como un número de cuenta). Cuando se selecciona Sin tipo para un campo, el papel se define directamente en Ninguno. El tamaño máximo por defecto de los conjuntos es de 250 valores únicos. Este número puede ajustarse o desactivarse en el cuadro de diálogo de propiedades de la ruta. Para nuestro ejercicio, ingresemos un nodo tipo a nuestro lienzo de rutas, de la siguiente forma: Ahora demos doble clic en el nodo tipo y asegurémonos por favor que los campos que contiene la tabla tengan el siguiente el tipo de dato al que corresponde, de la siguiente manera: Id turno: Rango Id persona: Rango Fecha: Rango Hora: Rango Duración: Rango Id salón: Conjunto Id equipo: Conjunto Estado: Rango H_entrada: Marcas UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 62 CLEMENTINE 9.0 H_salida: Marcas Cancelación: Marcas Tmod: Rango Ahora decimos aplicar y aceptar. 3. Nodo tabla UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 63 CLEMENTINE 9.0 El nodo Tabla permite crear una tabla a partir de los datos, que se puede mostrar en la pantalla o escribir en un archivo. Esto es útil en cualquier momento en que necesite inspeccionar sus valores de datos o exportarlos en un formato fácilmente legible. El nodo tabla nos permite apreciar en forma de tabla los resultados que nos ofrece clementine. Con este nodo ya estamos mas familiarizados ya que en los dos anteriores ejemplos lo hemos utilizado. El nodo tabla se encuentra en la paleta de resultados. Conectemos a nuestros nodos base de datos y tipo el nodo tabla, de esta forma: Luego vamos al menú herramientas – ejecutar. utilizando el botón O si no lo podemos hacer . UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 64 CLEMENTINE 9.0 El resultado es el siguiente: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 65 CLEMENTINE 9.0 4. Nodo ordenar Los nodos Ordenar se pueden usar para organizar registros en orden ascendente o descendente atendiendo a los valores de uno o varios campos. Por ejemplo, los nodos Ordenar se usan con frecuencia para ver y seleccionar registros con los valores de datos más comunes. Generalmente, primero se añaden los datos usando el nodo Agregar y, a continuación se usa el nodo Ordenar para organizar los datos añadidos en el orden descendente del recuento de registros. Si se muestran estos resultados en una tabla, se facilita la exploración de los datos y la toma de decisiones, como la selección de registros de los 10 mejores clientes. Ordenar por. Todos los campos seleccionados como claves de ordenación se muestran en una tabla. Un campo clave funciona mejor en la ordenación si es numérico. Para añadir campos a esta lista, utilice el botón de selección de campos de la parte derecha. Seleccione un orden pulsando en las flechas Ascendente o Descendente de la columna Orden de la tabla. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 66 CLEMENTINE 9.0 Elimine campos usando el botón de eliminación rojo. Ordene directivas usando los botones de flecha arriba y abajo. Orden de clasificación por defecto. Seleccione Ascendente o Descendente para determinar el orden de clasificación por defecto cuando se añadan nuevos campos a la tabla. Ingresemos un nodo ordenar a nuestra ruta, de la siguiente manera: Demos doble clic sobre dicho nodo y aparece la siguiente ventana: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 67 CLEMENTINE 9.0 Demos clic en el botón Seleccionar del conjunto de campos disponibles y seleccionamos el campo fecha de la siguiente forma: Por ultimo damos clic en aceptar y el resultado lo podemos ver al generar la ruta, en la tabla ya nos muestran los datos organizados por fecha: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 68 CLEMENTINE 9.0 5. Nodo filtro Los nodos Filtro tienen tres funciones: Filtrar o descartar campos de registros que pasan por ellos. Por ejemplo, como investigador médico, es posible que no esté interesado en el nivel de potasio (datos de nivel de campo) de los pacientes (datos de nivel de registro); por ello, puede filtrar el campo K (potasio). Cambiar el nombre de los campos. Establecer correspondencias de campos entre un nodo de origen y otro. Consulte Correspondencia de rutas de datos si desea obtener más información. El nodo filtro permite identificar algunos grupos de datos, o también nos da la posibilidad de importar ciertos campos de una base de datos sin necesidad de importar todos los campos de la base. Insertemos en nuestro lienzo de rutas el nodo filtro, de la siguiente forma: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 69 CLEMENTINE 9.0 Ahora demos doble clic en el nodo filtro, nos aparece la siguiente ventana: Ahora demos clic sobre los campos idequipo e idsalon, ya que estos campos no estamos interesados en visualizarlos. Al dar clic sobre la flecha que se encuentra al frente de estos campos aparece una cruz roja tachando dicha flecha. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 70 CLEMENTINE 9.0 Por ultimo damos clic en aplicar y en aceptar. El resultado podemos visualizarlo si generamos la ruta y en la tabla nos muestra todos los campos a excepcion de idsalon e idequipo. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 71 CLEMENTINE 9.0 6. Nodo Añadir Los nodos Añadir se pueden usar para concatenar conjuntos de registros. A diferencia con los nodos Fundir, que une registros de diferentes orígenes, los nodos Añadir leen y pasan a la parte de abajo todos los registros de un único origen hasta que no quede ninguno. A continuación, los registros procedentes del siguiente origen se leen usando la misma estructura de datos (número de registros, número de campos, etc.) que la entrada primera (o primaria). Cuando el origen primario contiene más campos que otro registro de entrada, se usa la cadena de valor nulo del sistema ($null$) para los valores incompletos. Los nodos Añadir son útiles para combinar conjuntos de datos con estructuras similares pero datos diferentes. por ejemplo, podría tener datos de transacción almacenados en diferentes archivos para diferentes períodos (un archivo de datos de venta para el mes de marzo y otro para el mes de abril, por ejemplo). Suponiendo que tengan la misma estructura (los mismos campos en el mismo orden), el nodo Añadir los une en un archivo de gran tamaño que se puede analizar. Este nodo nos permite añadir dos tablas de datos. Por ejemplo queremos unir la tabla de turnos con la tabla personas. Esta tabla contiene la identificación de la UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 72 CLEMENTINE 9.0 persona y su respectivo código. Para ello vamos a ingresar la tabla turnos y la tabla persona_estudiante, tambien vamos a insertar el nodo añadir y el nodo tabla de la siguiente manera. Ahora damos doble clic en el nodo añadir y aparece el siguiente cuadro en el que seleccionamos la casilla etiquetar registros incluyendo el conjunto de datos de origen del campo, de la siguiente forma: Ahora damos clic en aceptar. Y ejecutamos la ruta para ver los resultados. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 73 CLEMENTINE 9.0 El resultado que obtenemos es la unión de las dos tablas pero de forma que una se encuentra encima de la otra, es decir, la tabla turnos quedo en la parte de arriba y la tabla personas quedo en la parte de abajo. 7. Nodo Fundir La función de un nodo Fundir es tomar varios registros de entrada para crear un registro de salida que contenga todos o algunos de los campos de entrada. Se trata de una operación útil cuando se desean fusionar datos de diferentes orígenes, como datos de clientes internos y datos demográficos adquiridos. Existen dos modos de fusionar datos en Clementine: Fusionar por orden: concatena registros correspondientes procedentes de todos los orígenes en el orden de entrada hasta vaciar el origen de datos más pequeño. Si se usa esta opción, es importante haber ordenado previamente los datos con un nodo Ordenar. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 74 CLEMENTINE 9.0 Fusionar usando un campo clave, como el ID de cliente, para especificar cómo relacionar los registros procedentes de un origen de datos con los procedentes de otros. Clementine ofrece varias posibilidades de unión, incluidas la unión interior, la exterior, la exterior parcial y la anti-unión. Consulte Tipos de uniones si desea obtener más información. Este nodo nos permite unir dos tablas, pero a diferencia del nodo añadir, este nos permite agregar los campos de las dos tablas en una sola. Veamos el siguiente ejemplo: Insertemos las tablas turnos y personas, al igual que el nodo Fundir y el nodo tabla de la siguiente forma: Ahora damos doble clic sobre el nodo fundir y tenemos este cuadro de dialogo: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 75 CLEMENTINE 9.0 Ahora le damos aplicar, luego aceptar. Y por ultimo le damos ejecutar a nuestra ruta, el resultado que obtenemos es el siguiente: 8. Nodo Agregar El nodo Agregar se puede usar para reemplazar una secuencia de registros de entrada con registros de salida agregados de resumen. Este nodo nos permite realizar un conteo de los registros, para ello vamos a insertar el nodo en nuestra ruta de datos de la siguiente forma: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 76 CLEMENTINE 9.0 Ahora vamos a darle doble clic al nodo agregar y seleccionamos como campo clave idpersona, en la parte de agregar campos selecciono éxito, selecciono la casilla suma y también la casilla incluir recuento de registros en campo. Ahora le damos aplicar, aceptar. Y generamos nuestra ruta, el resultado que nos arroja es el siguiente: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 77 CLEMENTINE 9.0 Esta tabla nos indica que la persona identificada como 53105017 solicito turno en total 53 veces y solamente obtuvo el turno respectivo 25 veces. Es decir que de 53 veces que solicito turno solamente 25 veces lo consiguió. 9. Nodo Distinguir Los nodos Distinguir se pueden usar para eliminar registros duplicados pasando el primero de los registros distintos a la ruta de datos o descartando el primer registro y pasando cualquier duplicado a la ruta de datos en su lugar. Esta operación resulta útil si se desea tener un único registro para cada elemento de los datos, como clientes, cuentas o productos. Por ejemplo, los nodos Distinguir pueden ser útiles para buscar registros duplicados en una base de datos de clientes o para obtener un índice de todos los ID de producto de la base de datos. Modo. Especifique si desea incluir o excluir (descartar) el primer registro. Incluir. Seleccione esta opción para incluir el primer registro distinto en la ruta de datos. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 78 CLEMENTINE 9.0 Descartar. Seleccione esta opción para descartar el primer registro distinto detectado y pasar cualquier duplicado a la ruta de datos en su lugar. Esta opción resulta útil para buscar duplicados en los datos con el fin de examinarlos posteriormente en la ruta. Campos. Enumera los campos utilizados para determinar si los registros son idénticos. Para añadir campos a esta lista, utilice el botón de selección de campos de la parte derecha. Elimine campos usando el botón de eliminación rojo. 10. Nodo derivar Una de las funciones más eficaces de Clementine es la capacidad de modificar valores de datos y derivar campos nuevos a partir de datos existentes. Durante proyectos minería de datos de larga duración, es común realizar varias derivaciones, como extraer un ID de cliente a partir de una cadena de datos del registro Web o crear un valor de por vida de clientes basado en los datos demográficos y de transacción. Todas estas transformaciones pueden realizarse en Clementine, utilizando diversos nodos de operaciones con campos. Al utilizar el nodo Derivar, puede crear seis tipos de campos nuevos desde uno o más campos existentes: Fórmula. El campo nuevo es el resultado de una expresión CLEM arbitraria. Marca. El campo nuevo es una marca que representa una condición especificada. Conjunto. El campo nuevo es un conjunto, lo cual supone que sus miembros conforman un grupo de valores especificados. Estado. El campo nuevo es uno de dos estados. El cambio entre estos estados los desencadena una condición especificada. Recuento. El campo nuevo está basado en el número de veces que una condición es verdadera. Condicional. El campo nuevo es el valor de una de las dos expresiones, dependiendo del valor de una condición. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 79 CLEMENTINE 9.0 Cada uno de estos nodos contiene un conjunto de opciones especiales en el cuadro de diálogo del nodo Derivar. Estas opciones se describen en los siguientes temas. 11. Nodo reclasificar El nodo Reclasificar permite la transformación desde un conjunto de valores discretos a otro. La reclasificación es útil para contraer categorías o reagrupar datos para su análisis. Por ejemplo, se pueden reclasificar los valores Producto en tres grupos, como por ejemplo Utensilios de cocina, Baño y ropa de cama y Electrodomésticos. A menudo, esta operación se realiza directamente desde un nodo de distribución agrupando valores y generando un nodo Reclasificar. Consulte Utilización de un gráfico de distribución si desea obtener más información. La reclasificación puede realizarse mediante uno o varios campos simbólicos. También puede sustituir los nuevos valores por el campo existente o generar un campo nuevo. 12. Nodo Intervalos El nodo Intervalos permite crear automáticamente conjuntos de campos nuevos basándose en los valores de uno o varios campos de rangos numéricos existentes. Por ejemplo, puede transformar un campo de ingresos de escala en un campo categórico nuevo que contenga grupos de ingresos como desviaciones desde la media. Una vez creados los intervalos para el campo nuevo, puede generar un nodo Derivar basado en los puntos de corte. 13. Nodo de partición Los nodos de partición se utilizan para generar un campo de partición que divide los datos en subconjuntos o muestras independientes para las fases de UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 80 CLEMENTINE 9.0 entrenamiento, comprobación y validación en la generación del modelo. Al usar una muestra para generar el modelo y otra muestra independiente para comprobarla, puede obtener una buena indicación de lo bien que generará el modelo conjuntos de datos de mayor tamaño similares a los datos actuales. El nodo de partición genera un campo de conjunto con la dirección establecida en Partición. Si lo prefiere, en el caso de que un campo adecuado ya exista en los datos, puede designarse como una partición utilizando un nodo Tipo. En este caso no se requiere ningún nodo de partición independiente. Se puede utilizar cualquier campo de conjunto instanciado con dos o tres valores. Consulte Configuración de la dirección del campo si desea obtener más información. En una ruta se pueden definir múltiples campos de partición pero, de hacerlo, será necesario seleccionar un campo de partición simple en la ficha Campos de cada nodo de modulado que utilice la partición. (Si sólo hay una partición, se usará automáticamente siempre que se active la partición.) Activación de la partición. Para utilizar la partición en un análisis, ésta debe estar activada en la ficha Opciones de modelo en el nodo Análisis o la generación de modelos adecuada. Si se anula esta opción, se posibilita la desactivación de la partición sin eliminar el campo. 14. Nodo Marcas El nodo Marcas se utiliza para derivar varios campos de marcas basándose en los valores simbólicos definidos para uno o más campos de conjuntos. Por ejemplo, puede haber adquirido datos de varios productos que se pueden comprar en distintos departamentos de una tienda. Actualmente, los datos constan de un producto por compra e incluyen el código de producto y el código del departamento (un conjunto) como dos atributos. Para manejar los datos de una forma más sencilla, puede crear un campo de marcas para cada departamento, que indicará si el producto se compró en ese departamento. 15. Nodo Histórico UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 81 CLEMENTINE 9.0 Los nodos Histórico se suelen utilizar para los datos secuenciales, como los datos de series temporales. Se utilizan para crear campos nuevos que contienen datos de los campos de registros anteriores. Al utilizar un nodo Histórico, es posible que desee tener los datos ordenados previamente por un campo determinado. Puede utilizar un nodo Ordenar para hacerlo. 16. Nodo Reorg. campos El nodo Reorg. campos permite definir el orden natural utilizado para mostrar campos en la parte posterior de la ruta. Este orden afecta a la visualización de campos en diversas ubicaciones, como las tablas, las listas y el selector campos. Esta operación resulta útil, por ejemplo, al trabajar con conjuntos datos amplios que hacen más visibles los campos de interés. los los de de 17. Nodo Equilibrar Los nodos Equilibrar se pueden usar para corregir los desequilibrios de los conjuntos de datos de modo que cumplan determinados criterios de comprobación. Por ejemplo, imagine que un conjunto de datos contiene sólo dos valores, bajo o alto, y que el 90% de los casos es bajo y sólo el 10% de ellos es alto. Muchas técnicas de modelado presentan problemas con estos datos sesgados, puesto que tenderán a aprender sólo el resultado bajo y omitirán el valor alto, puesto que es más inusual. Si los datos están bien balanceados con aproximadamente el mismo número de resultados de bajo y alto, los modelos tendrán más posibilidades de encontrar patrones que hagan la distinción entre los dos grupos. En este caso, un nodo Equilibrar resulta útil para la creación de una directiva de equilibrado que reduzca los casos con un resultado bajo. El equilibrado se lleva a cabo mediante el duplicado y posterior descarte de registros basándose en las condiciones que se especifiquen. Los registros para los que no se establece ninguna condición siempre se pasan. Como este proceso funciona duplicando y descartando registros, la secuencia original de los datos se pierde en las operaciones efectuadas más abajo. Asegúrese de derivar cualquier valor relacionado con la secuencia antes de añadir un nodo Equilibrar a la ruta de datos. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 82 CLEMENTINE 9.0 Nota: los nodos Equilibrar se pueden generar de forma automática desde histogramas y gráficos de distribución. 18. Nodo Gráfico Los nodos Gráfico muestran la relación entre los campos numéricos. Puede crear un gráfico con puntos (también denominado diagrama de dispersión) o puede utilizar líneas. Puede crear tres tipos de gráficos de líneas especificando un valor de Modo para X en el cuadro de diálogo. Modo para X = Ordenar Al establecer el Modo para X en Ordenar, los datos se clasifican por valores en el campo representado por el eje x. Así se ejecuta una sola línea de izquierda a derecha en el gráfico. Al utilizar una variable de conjunto como una superposición, se producen varias líneas de diferentes tonos que se ejecutan de izquierda a derecha en el gráfico. Modo para X = Superponer Al establecer el Modo para X en Superponer, se crean varios gráficos de línea en el mismo gráfico. Los datos no se ordenan en el caso de un gráfico de superposición; siempre que los valores del eje x aumenten, los datos se representarán en una sola línea. Si los valores disminuyen, comienza una línea nueva. Por ejemplo, si x se mueve de 0 a 100, los valores de y se representarán en una sola línea. Cuando x cae por debajo de 100, se representa una línea nueva además de la primera. El gráfico terminado puede tener numerosos gráficos que resultan útiles para comparar varias series de valores de y. El tipo de gráfico es útil para los datos con un componente temporal periódico, como una demanda de electricidad en períodos sucesivos de 24 horas. Modo para X = Como se lee Al establecer el Modo para X en Como se lee, los valores de x e y se representan como se leen desde el origen de datos. Esta opción es útil para los datos con un componente de serie temporal donde el interés recae sobre tendencias o patrones que dependen del orden de los datos. Puede que sea necesario ordenar los datos antes de crear este tipo de gráfico. También puede ser útil comparar dos gráficos similares con el Modo para X establecido en Ordenar y Como se lee para determinar hasta qué punto el patrón depende del orden. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 83 CLEMENTINE 9.0 19. Nodo G. múltiple Un gráfico múltiple es un tipo especial de gráfico que muestra varios campos Y sobre un sólo campo X. Los campos Y están trazados como líneas coloreadas y cada uno equivale a un nodo Gráfico con el estilo establecido en Línea y Modo para X establecido en Ordenar. Los gráficos múltiples son útiles cuando se tienen datos de una secuencia temporal y se desea explorar la fluctuación de diversas variables durante un período de tiempo. 20. Nodo Distribución Los gráficos de distribución muestran la ocurrencia de valores simbólicos (no numéricos), como un género o un tipo de hipoteca, en un conjunto de datos. El uso habitual del nodo de distribución consiste en mostrar los desequilibrios de los datos que pueden rectificarse mediante el nodo Equilibrar antes de crear un modelo. Puede generar automáticamente un nodo Equilibrar mediante el menú Generar en una ventana de gráfico de distribución. 21. Nodo Histograma Los nodos Histograma muestran ocurrencia de valores de los campos numéricos. Se suelen utilizar para explorar los datos antes de las manipulaciones y la generación de modelos. Al igual que con el nodo Distribución, con frecuencia los nodos de histogramas se utilizan para detectar desequilibrios en los datos. Nota: para mostrar la ocurrencia de valores para campos simbólicos, se debe utilizar un nodo Distribución. Campo. Permite seleccionar un campo numérico para el que se va a mostrar la distribución de los valores. Sólo aparecen en la lista los campos que no se han definido específicamente como simbólicos (categóricos). UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 84 CLEMENTINE 9.0 Superponer. Permite seleccionar un campo simbólico con objeto de mostrar categorías de valores para el campo seleccionado con anterioridad. Al seleccionar un campo de superposición, el histograma se convierte en un gráfico apilado donde los colores representan distintas categorías del campo de superposición. Existen tres tipos de superposiciones para los histogramas: Color. Permite seleccionar un campo para ilustrar las categorías de los valores de datos usando un color diferente para cada valor. Panel. Permite seleccionar un conjunto o campo de marcas para marcar un gráfico independiente para cada categoría. Los gráficos aparecerán "panelados" o juntos en una ventana de resultados. Animación. Permite seleccionar un conjunto o campo de marcas para ilustrar las categorías de los valores de datos creando una serie de gráficos secuenciados mediante la animación. 22. Nodo Colección Las colecciones son similares a los histogramas salvo por el hecho de que las colecciones muestran la distribución de los valores de un campo numérico relativo a los valores de otro, en lugar de la ocurrencia de los valores de un solo campo. Las colecciones son útiles para ilustrar una variable o un campo cuyos valores cambian con el tiempo. Con los gráficos 3D también puede incluir un eje simbólico que muestra las distribuciones por categoría. Recolectar. Permite seleccionar un campo cuyos valores se recopilarán y mostrarán en el rango de valores para el campo especificado a continuación en Sobre. Sólo se enumeran los campos definidos como simbólicos. Sobre. Permite seleccionar un campo cuyos valores se utilizan para mostrar el campo de colección especificado antes. Por. Activada al crear un gráfico 3D, esta opción permite seleccionar un conjunto o un campo de marcas utilizado para mostrar el campo de colección por categorías. Operación. Permite seleccionar lo que representa cada barra o bucket del gráfico de colección. Las opciones son Suma, Media, Máx, Mín y Desviación típica. Superponer. Permite seleccionar un campo simbólico con objeto de mostrar categorías de valores para el campo seleccionado con anterioridad. Al seleccionar UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 85 CLEMENTINE 9.0 un campo de superposición, la colección se convierte y se crean múltiples barras de distintos colores para cada categoría. Existen tres tipos de superposiciones para las colecciones: Color. Permite seleccionar un campo para ilustrar las categorías de los valores de datos usando un color diferente para cada valor. Panel. Permite seleccionar un conjunto o campo de marcas para marcar un gráfico independiente para cada categoría. Los gráficos aparecerán "panelados" o juntos en una ventana de resultados. Animación. Permite seleccionar un conjunto o campo de marcas para ilustrar las categorías de los valores de datos creando una serie de gráficos secuenciados mediante la animación. 23. Nodo Malla Los nodos Malla muestran la fuerza de las relaciones entre los valores de dos o más campos simbólicos. El gráfico muestra las conexiones usando varios tipos de líneas para indicar la fuerza de conexión. Puede utilizar un nodo Malla, por ejemplo, para explorar las relaciones existentes entre la compra de varios artículos en un sitio de comercio electrónico o un punto de venta al por menor tradicional. Mallas direccionales Los nodos de mallas direccionales son similares a los nodos Mallas en cuanto a que muestran la fuerza de las relaciones entre campos simbólicos. Sin embargo, los gráficos de mallas direccionales muestran sólo las conexiones de uno o más campos de origen (Desde) con un único campo de destino (Hacia). Las conexiones son unidireccionales en el sentido de que son conexiones de una sola dirección. A semejanza de los nodos Malla, el gráfico muestra las conexiones usando varios tipos de líneas para indicar la fuerza de conexión. Puede utilizar un nodo de malla direccional, por ejemplo, para explorar las relaciones entre el género y una propensión a ciertos artículos de compra. 24. Nodo de diagrama Evaluación UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 86 CLEMENTINE 9.0 El nodo de diagrama Evaluación ofrece una forma sencilla de evaluar y comparar modelos predictivos para elegir el mejor modelo para su aplicación. Los diagramas de evaluación muestran el comportamiento de los modelos pronosticando determinados resultados. Funcionan ordenando los registros basándose en el valor pronosticado y confianza del pronóstico, dividiendo los registros en grupos de igual tamaño (cuantiles), y a continuación, dibujando el valor del criterio de negocios de cada cuantil, del más alto al más bajo. El gráfico muestra múltiples modelos como líneas independientes. Los resultados se gestionan definiendo un valor o rango de valores específicos como un acierto. Los aciertos suelen indicar algún tipo de éxito (como una venta a un cliente) o un evento de interés (como un diagnóstico médico específico). Puede definir criterios de aciertos en la ficha Opciones del cuadro de diálogo. También puede utilizar los criterios de aciertos por defecto como se indica a continuación: Los campos de salida de marcas son directos; los aciertos corresponden a valores verdaderos. Par los campos de salida de conjuntos, el primer valor del conjunto define un acierto. Para los campos de salida de rango, los aciertos equivalen a valores mayores que el punto medio del rango del campo. Existen cinco tipos de diagramas de evaluación, cada uno de ellos con el énfasis puesto en un criterio de evaluación diferente. Ganancias Las ganancias se definen como la proporción de aciertos totales que se produce en cada cuantil. Las ganancias se calculan como el resultado de: (número de aciertos en cuantil / número total de aciertos) × 100%. Elevación La elevación compara el porcentaje de registros de cada cuantil que supone aciertos con el porcentaje global de aciertos de los datos de entrenamiento. Se calcula como el resultado de: (aciertos del cuantil / registros del cuantil) / (aciertos totales / registros totales). Respuesta UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 87 CLEMENTINE 9.0 La respuesta es sencillamente el porcentaje de registros del cuantil que son aciertos. La respuesta se calcula como el resultado de: (aciertos del cuantil / registros del cuantil) × 100%. Beneficio El beneficio es igual a los ingresos de cada registro menos el coste del registro. Los beneficios de un cuantil son la suma de los beneficios de todos los registros del cuantil. Se asume que los beneficios se aplican sólo a los aciertos, pero los costes se aplican a todos los registros. Los beneficios y los costes se pueden fijar o estar definidos por campos en los datos. Los beneficios se calculan como el resultado de: (suma de los ingresos de los registros del cuantil – suma de los costes de los registros del cuantil). Rentabilidad de la inversión La rentabilidad de la inversión (ROI, del inglés 'Return On Investment') es similar al beneficio en cuanto a que implica la definición de ingresos y costes. La rentabilidad de la inversión compara los beneficios con los costes del cuantil. La rentabilidad de la inversión se calcula como el resultado de: (beneficios del cuantil/costes del cuantil) × 100%. Los diagramas de evaluación también pueden ser acumulados, de forma que cada punto equivalga al valor del cuantil correspondiente más todos los cuantiles mayores. Los gráficos acumulados suelen mostrar mejor el rendimiento global de modelos, mientras que los gráficos no acumulados suelen ser mejores para indicar determinadas áreas de problemas para los modelos. TECNICAS DE MODELADO EN CLEMENTINE Clementine brinda varias técnicas de análisis de datos, estas están concentradas en los nodos ubicados en la paleta Modelado. Los nodos de modelado son las herramientas fundamentales del proceso de minería de datos. Los métodos disponibles en estos nodos permiten derivar nueva información procedente de los datos y desarrollar modelos predictivos. Cada método tiene ciertos puntos fuertes y es más adecuado para determinados tipos de problemas. Dentro de las aplicaciones más importantes de Clementine vamos a resaltar en el modelado del programa las siguientes: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 88 CLEMENTINE 9.0 Los métodos de modelado predictivo contienen: 1. Árboles de decisión Los árboles de decisiones permiten desarrollar sistemas de clasificación que pronostican o clasifican observaciones futuras basándose en un conjunto de reglas de decisión. Si dispone de datos divididos en clases que le interesan (por ejemplo, préstamos de alto riesgo frente a préstamos de bajo riesgo, suscriptores frente a no suscriptores, votantes frente a no votantes o tipos de bacterias), puede usar los datos para generar reglas que pueda usar para clasificar casos antiguos o recientes con la máxima precisión. Por ejemplo, podría generar un árbol que clasificara el riesgo de crédito o la intención de compra basándose en la edad y otros factores. En segundo lugar, el proceso incluirá automáticamente en su regla únicamente los atributos que realmente importan en la toma decisiones. Los atributos que no contribuyan a la precisión del árbol se omiten. La presentación del árbol de decisión resulta útil cuando se desea ver el modo en que los atributos de los datos pueden dividir o particionar la población en subconjuntos relevantes para el problema. La presentación del conjunto de reglas resulta de utilidad si se desea ver el modo en que determinados grupos de elementos se vinculan a una conclusión particular. Algoritmos de generación de árboles Existen cuatro algoritmos disponibles para realizar análisis de segmentación y clasificación. Todos estos algoritmos son básicamente similares: examinan todos los campos de la base de datos para detectar los que proporcionan la mejor clasificación o pronóstico dividiendo los datos en subgrupos. El proceso se aplica de forma recursiva, dividiendo los subgrupos en unidades cada vez más pequeñas hasta completar el árbol (según defina determinados criterios de parada). Los campos objetivo y de entrada utilizados en la generación del árbol pueden ser intervalos numéricos o categóricos, según el algoritmo que se utilice. Si se usa un objetivo de rango, se genera un árbol de regresión; si se usa un objetivo categórico, se genera un árbol de clasificación. El nodo de árbol de clasificación y regresión genera un árbol de decisión que permite pronosticar o clasificar observaciones futuras. El método utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos minimizando las zas ca a as , s c s a“ ” si el 100% de los casos del nodo corresponden a una categoría específica del campo objetivo. Los campos objetivo UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 89 CLEMENTINE 9.0 y predictor pueden ser de rango o categóricos. Todas las divisiones son binarias (sólo se crean dos subgrupos). El nodo CHAID genera árboles de decisión utilizando estadísticos de de chi-cuadrado para identificar las divisiones óptimas. A diferencia de los nodos C&RT y QUEST, CHAID puede generar árboles no binarios, lo que significa que algunas divisiones tendrán más de dos ramas. Los campos objetivo y predictor pueden ser de rango o categóricos. CHAID exhaustivo es una modificación de CHAID que examina con mayor precisión todas las divisiones posibles, aunque necesita más tiempo para realizar los cálculos. El nodo QUEST proporciona un método de clasificación binario para generar árboles de decisión, diseñado para conseguir la reducción del tiempo de procesamiento necesario para los análisis de C&RT y reducir la tendencia de los métodos de clasificación de árboles para favorecer a los predictores que permiten realizar más divisiones. Los campos predictores pueden ser rangos numéricos, sin embargo el campo objetivo debe ser categórico. Todas las divisiones son binarias. El nodo C5.0 genera un árbol de decisión o un conjunto de reglas. El modelo divide la muestra basándose en el campo que ofrece la máxima ganancia de información en cada nivel. El campo objetivo debe ser categórico. Se permiten varias divisiones en más de dos subgrupos. Usos generales del análisis basado en árboles A continuación se detallan algunos usos generales del análisis basado en árboles: Segmentación. Identifica personas con probabilidad de pertenecer a una determinada clase. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 90 CLEMENTINE 9.0 Estratificación. Asigna casos en una o varias categorías, como grupos de alto, medio y bajo riesgo. Pronóstico. Crea reglas y las usa para pronosticar eventos futuros. Los pronósticos también pueden significar intentos de relacionar atributos predictivos con valores de una variable continua. Reducción de datos y filtrado de variables. Selecciona un subconjunto útil de predictores de un gran conjunto de variables para usarlo en la creación de un modelo paramétrico formal. Identificación de interacción. Identifica las relaciones que pertenecen sólo a subgrupos determinados y las especifica en un modelo paramétrico formal. Fusión de categorías y unión de variables continuas. Recodifica categorías de un predictor de grupos y variables continuas con una pérdida mínima de información. 2. Red Neuronal El nodo Red neuronal (anteriormente denominado "Entrenar red") se utiliza para crear y entrenar una red neuronal. Las redes neuronales son modelos simples que mulan el funcionamiento del sistema nervioso. Las unidades básicas son las neuronas, que generalmente se organizan en capas, como se muestra en la siguiente ilustración. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 91 CLEMENTINE 9.0 Una red neuronal, a menudo denominada perceptrón multicapa, es básicamente un modelo simplificado del modo en que el cerebro humano procesa la información. Funciona simultaneando un número elevado de unidades simples de procesamiento interconectadas que parecen versiones abstractas de neuronas. Las unidades de procesamiento se organizan en capas. Existen, generalmente, tres capas en una red neuronal: una capa de entrada, con unidades que representan los campos de entrada; una o varias capas ocultas; y una capa de salida, con unidades que representan los campos de salida. Las unidades se conectan con fuerzas de conexión variables, o ponderaciones. Los datos de entrada se presentan en la primera capa y los valores se propagan desde cada neurona hasta cada neurona de la capa siguiente. al final, se envía un resultado desde la capa de salida. La red aprende examinando los registros individuales, generando un pronóstico para cada registro y realizando ajustes a las ponderaciones cuando realiza un pronóstico incorrecto. Este proceso se repite muchas veces y la red sigue mejorando sus pronósticos hasta haber alcanzado uno o varios criterios de parada. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 92 CLEMENTINE 9.0 Al principio, todas las ponderaciones son aleatorias y las respuestas que resultan de la red son, posiblemente, disparatadas. La red aprende a través del entrenamiento. Continuamente se presentan a la red ejemplos para los que se conoce el resultado, y las respuestas que proporciona se comparan con los resultados conocidos. La información procedente de esta comparación se pasa hacia atrás a través de la red, cambiando las ponderaciones gradualmente. A medida que progresa el entrenamiento, la red se va haciendo cada vez más precisa en la replicación de resultados conocidos. Una vez entrenada, la red se puede aplicar a casos futuros en los que se desconoce el resultado. Requisitos: No se aplican restricciones a los tipos de campo. Los nodos Red neuronal pueden gestionar entradas y salidas numéricas, simbólicas o de marcas. El nodo Red neuronal espera uno o varios campos con dirección Entrada y uno o varios campos con dirección Salida. Se ignorarán los campos establecidos en Ambos o Ninguno. Los tipos de campo deben estar completamente instanciados al ejecutar el nodo. Puntos fuertes: Las redes neuronales son dispositivos eficaces de cálculo de funciones generales. Por lo general, realizan al menos las tareas de pronóstico y otras técnicas, y su rendimiento puede mejorar significativamente en determinadas ocasiones. También se precisa un conocimiento matemático o estadístico mínimo para entrenarlas o aplicarlas. Clementine incorpora varias funciones para evitar algunos problemas comunes de las redes neuronales. Entre ellas se incluyen el análisis de sensibilidad para facilitar la interpretación de la red, la poda y la validación para evitar el sobreentrenamiento, y las redes dinámicas para buscar automáticamente arquitecturas de red adecuadas2. 3. Modelos estadísticos. 2 Tomado de el tutorial Clementine. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 93 CLEMENTINE 9.0 Los modelos estadísticos utilizan ecuaciones matemáticas para codificar información extraída de los datos. Existen varios nodos de modelado estadístico. La regresión lineal es una técnica estadística común utilizada para resumir datos y realizar pronósticos ajustando una superficie o línea recta que minimice las discrepancias existentes entre los valores de salida reales y los pronosticados. En múltiples estudios estadísticos, aparece como una gran necesidad practica, el considerar simultáneamente dos o más variables, con el fin de analizar si entre ellas existe alguna relación, si se puede formalizar y que tan intensa es la misma. Los métodos estadísticos utilizados para estos análisis son conocidos como métodos de regresión. El objetivo de este tipo de procesos es tratar de estimar valores de las variables explicadas. Para poder alcanzar el objeto citado, es necesario darle alguna forma funcional a la relación, lo cual se logra mediante un ajuste de funciones estadístico – matemáticas, a tales funciones se les denomina Modelos de regresión. Estos modelos manejan una componente aleatoria que solo se puede manejar por medio de la probabilidad, por lo cual en la práctica no se puede incluir en el modelo, lo que imposibilita el poder determinar valores de las variables explicadas, limitándose el proceso a la estimación de las mismas. La natural diferencia entre los verdaderos valores de las variables explicadas y los que se estiman por medio del modelo, constituye la llamada variable aleatoria error y el principio fundamental para construir un modelo indica que este debe ser tal, que minimice la suma de los cuadrados de tal variable, principio que es entonces denominado como de mínimos cuadrados. El error del modelo son valores debidos a factores o condiciones externas que no controlamos. Hay que plantear UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 94 CLEMENTINE 9.0 modelos que garanticen que el error sea el mínimo. Volviendo a Clementine el nodo de regresión lineal genera un modelo de regresión lineal. Este modelo estima la ecuación lineal más adecuada para pronosticar el campo de salida, según los campos de entrada. La ecuación de regresión representa un plano o línea recta que minimiza las diferencias al cuadrado entre los valores de salida pronosticados y los reales. Ésta es una técnica estadística muy común para resumir los datos y realizar pronósticos. Requisitos: Sólo se pueden utilizar campos numéricos en un modelo de regresión. Debe tener exactamente un campo de Salida y uno o más de Entrada. Los campos que tengan dirección Ambas o Ninguna se ignoran, ya que no son campos numéricos. Puntos fuertes: Los modelos de regresión son relativamente simples y proporcionan una fórmula matemática fácil de interpretar para la creación de pronósticos. Debido a que el modelado de regresión es un procedimiento estadístico consolidado desde hace tiempo, las propiedades de estos modelos se conocen con mucho detalle. Normalmente, los modelos de regresión se entrenan muy rápidamente. El nodo Regresión lineal proporciona métodos para la selección automática de campos con el fin de eliminar de la ecuación los campos de entrada que no alcancen la significación3. La regresión logística es una técnica estadística para clasificar los registros en función los valores de los campos de entrada. Es análoga a la regresión lineal pero toma un campo 3 Tomado de el tutorial Clementine UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 95 CLEMENTINE 9.0 objetivo categórico en lugar de uno numérico. La regresión logística, también denominada regresión nominal, es una técnica estadística para clasificar los registros según los valores de los campos de entrada. Es análoga a la regresión lineal pero utiliza un campo objetivo simbólico en lugar de uno numérico. La regresión logística trabaja creando un conjunto de ecuaciones que relacionan los valores de los campos de entrada con las probabilidades asociadas a cada una de las categorías de los campos de salida. Una vez se ha generado el modelo, se puede utilizar para estimar las probabilidades de datos nuevos. Para cada registro, se calcula una probabilidad de pertenencia a cada categoría posible de salida. La categoría objetivo con la probabilidad más alta se asigna como el valor de salida pronosticado para cada registro. Requisitos: Para crear un modelo de regresión logística, se precisan uno o varios campos de Entrada y exactamente un campo simbólico de Salida. Se ignorarán los campos establecidos en Ambos o Ninguno. Los tipos de los campos utilizados en el modelo deben estar completamente instanciados. Puntos fuertes: Los modelos de regresión logística suelen ser bastante exactos. Pueden gestionar campos de entrada simbólicos y numéricos. Pueden proporcionar probabilidades pronosticadas para todas las categorías objetivo, de forma que el "segundo mejor pronóstico" sea fácil de identificar. También pueden realizar una selección automática de campos para el modelo logístico. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 96 CLEMENTINE 9.0 Al procesar conjuntos grandes de datos, puede mejorar sensiblemente el rendimiento desactivando el contraste sobre el cociente de verosimilitudes, una opción avanzada de los resultados. El nodo PCA/Factorial proporciona técnicas eficaces de reducción de datos para reducir la complejidad de los datos. Análisis de componentes principales (PCA) busca combinaciones lineales de los campos de entrada que realizan el mejor trabajo a la hora de capturar la varianza en todo el conjunto de campos, en el que los componentes son ortogonales (perpendiculares) entre ellos. Análisis factorial intenta identificar factores subyacentes que expliquen el patrón de correlaciones dentro de un conjunto de campos observados. Para los dos métodos, el objetivo es encontrar un número pequeño de campos derivados que resuman de forma eficaz la información del conjunto original de campos. Los modelos estadísticos llevan algún tiempo entre nosotros y se entienden relativamente bien, matemáticamente hablando. Representan modelos básicos que asumen tipos bastante simples de relaciones en los datos. En algunos casos pueden proporcionar modelos adecuados muy rápidamente. Incluso en el caso de problemas en los que técnicas más flexibles de aprendizaje de las máquinas (como redes neuronales) pueden ofrecer a la postre mejores resultados, es posible usar modelos estadísticos como modelos predictivos de línea base para juzgar el rendimiento de técnicas avanzadas. EJERCICIO PRÁCTICO4 Imagine que es un investigador médico que está recompilando datos para un estudio. Ha recopilado información sobre un conjunto de pacientes, de los cuales 4 Este ejercicio fue tomado del tutorial Clementine 9.0 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 97 CLEMENTINE 9.0 todos sufrieron la misma enfermedad. Durante el curso del tratamiento, cada paciente respondió a un medicamento de un total de cinco. Parte de su trabajo consiste en utilizar la minería de datos para averiguar qué medicamento es el adecuado para un futuro paciente con la misma enfermedad. Los campos de datos que se utilizan en esta demostración son: Edad (número) Sexo MoF PS Presión sanguínea: ALTO, NORMAL o BAJO Colesterol Colesterol en sangre: NORMAL o ALTO Na Concentración de sodio en sangre K Concentración de potasio en sangre Droga Medicamento prescrito al que respondió un paciente 1. Etapa de exploración de los datos: El primer paso es agregar un nodo Archivo Var para ingresar los datos a Clementine. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 98 CLEMENTINE 9.0 Ahora damos doble clic sobre el nodo y aparece el siguiente cuadro de dialogo en donde vamos a especificar el archivo que vamos a importar, de la siguiente forma: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 99 CLEMENTINE 9.0 En la pestaña filtro observamos los campos del archivo que van a ser ingresados a Clementine, para nuestro caso vamos a dar clic sobre el campo sexo, esto quiere decir que no necesitamos importar dicho campo a nuestro trabajo. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 100 CLEMENTINE 9.0 Ahora observemos la pestaña Filtro, aquí podemos establecer el respectivo tipo de datos con los que vamos a trabajar: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 101 CLEMENTINE 9.0 Luego de haber configurado nuestros datos para ser importados a Clementine damos aplicar y por ultimo aceptar. Ahora agreguemos un nodo distribución a nuestro lienzo de rutas y conectémoslo con nuestro nodo de origen. En seguida damos doble clic sobre el nodo distribución y aparece el siguiente cuadro en el que vamos a establecer el campo droga por el cual vamos a realizar la distribución. En la pestaña resultados podemos seleccionar la forma en la cual queremos que aparezca el resultado, esta puede ser por pantalla, o archivo. Para nuestro ejemplo marquemos la salida por pantalla. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 102 CLEMENTINE 9.0 Ahora damos clic en aplicar y luego en ejecutar. Aparece el respectivo grafico de la distribución. Ahora vamos a adjuntar un nodo Auditar y lo conectamos con nuestro nodo origen, este nodo nos permitirá obtener una vista rápida de las distribuciones e histogramas de todos los campos a la vez. Igual que con el nodo anterior le damos clic en ejecutar y observamos el siguiente resultado. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 103 CLEMENTINE 9.0 Otra operación que se puede realizar con Clementine es crear un diagrama de dispersión de sodio frente a potasio utilizando las categorías de medicamento como una superposición de colores aprovechando que estos datos son numéricos. Entonces adjuntemos un nodo Grafico y conectarlo con el nodo de origen. Dar doble clic sobre el nodo para abrir el siguiente cuadro de dialogo donde seleccionamos Na como el campo X, K como el campo Y y Droga como el campo de superposición. Luego clic en ejecutar. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 104 CLEMENTINE 9.0 El resultado se puede observar de la siguiente forma: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 105 CLEMENTINE 9.0 Este grafico nos muestra un umbral sobre el cual el medicamento correcto siempre es el medicamento Y, y por debajo de el el medicamento correcto nunca es el medicamento Y. Este umbral es un cociente entre sodio (Na) y potasio (K). Para finalizar esta primera etapa eliminemos los nodos Grafico, distribución y tabla para limpiar un poco el espacio de trabajo. 2. Etapa de manipulación de los datos: Tenemos el nodo de origen de los datos y ahora insertemos un nodo Derivar para derivar un nuevo campo. Dar doble clic sobre el nodo y completar los campos, UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 106 CLEMENTINE 9.0 nombre: Na_K que es el nombre al nuevo campo que vamos a crear. Formula: Na/K. El resultado lo podemos observar con el nodo tabla. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 107 CLEMENTINE 9.0 Ahora conectemos al nodo derivar un nodo Histograma para revisar la distribución del campo resultante. Demos doble clic sobre dicho nodo y completemos los campos como se muestra a continuación: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 108 CLEMENTINE 9.0 El resultado lo podemos observar al dar clic en el botón ejecutar: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 109 CLEMENTINE 9.0 Entonces se puede concluir que cuando el valor Na_to_K es aproximadamente 15 o mayor, el medicamento Y es el que se debe elegir. Con el análisis que hemos realizado hasta el momento el cociente sodio-potasio en sangre parece que influye en la elección del medicamento. Sin embargo, aún no se pueden explicar todas las relaciones. Conectemos ahora un nodo de malla al origen para poder trabajar con los datos simbólicos. Demos doble clic sobre el y completemos los campos como se muestra a continuación: El resultado que obtenemos es: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 110 CLEMENTINE 9.0 Vemos ahora cómo afecta la presión sanguínea en la elección del medicamento. Con este grafico se puede ver claramente que sólo los medicamentos A y B están asociados a la presión sanguínea alta. Sólo los medicamentos C y X están asociados a la presión sanguínea baja. Y la presión sanguínea normal está asociada únicamente al medicamento X. 3. Etapa de Modelado Hasta el momento, hemos visto surgir algunos patrones al explorar y manipular los datos. El cociente sodio-potasio en sangre parece influir en la elección del medicamento, al igual que la presión sanguínea. Sin embargo, aún no se pueden explicar todas las relaciones. El siguiente paso consiste en intentar ajustar un modelo a los datos. En este caso, se utilizará un modelo que crea reglas, el C5.0. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 111 CLEMENTINE 9.0 Primero para preparar los datos insertemos un nodo filtro para filtrar la salida de los campos originales de la siguiente forma: Ahora insertemos un nodo tipo en donde establezcamos los siguientes valores: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 112 CLEMENTINE 9.0 Ahora insertemos un nodo C5 y conectémoslo al nodo tipo. Demos clic en el botón de ejecutar y enseguida aparece lo siguiente: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 113 CLEMENTINE 9.0 Como podemos observar se genera un modelo representado por un icono con forma de gema. Para examinar las reglas generadas por el modelo demos clic derecho sobre el icono de la gema y seleccione examinar en el menú desplegable que aparece. Aparece entonces la siguiente ventana: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 114 CLEMENTINE 9.0 Esta ventana se llama examinador de reglas, allí se encuentran consignadas las reglas generadas por el nodo en un árbol de decisión. Demos clic en la etiqueta todos para ver el árbol completo. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 115 CLEMENTINE 9.0 Ahora vamos a la pestaña visor para ver de forma grafica el arbol: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 116 CLEMENTINE 9.0 Aquí se puede observar más fácilmente el número de casos para cada categoría de presión sanguínea así como el porcentaje de casos. Para evaluar la precisión del modelo conectemos un nodo analisis a la gema C5. Por ultimo ejecute la ruta. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 117 CLEMENTINE 9.0 Al ejecutar la ruta el resultado es el siguiente: UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 118 CLEMENTINE 9.0 Este análisis nos dice que el modelo tiene una precisión del 99.5%. Esto nos indica que el modelo es casi 100% confiable para la elección del medicamento para cada registro del conjunto de datos. CONCLUSIONES Dentro de las cualidades más importantes del programa se pueden resaltar la ejecutabilidad de procesos para descubrir patrones y tendencias ocultas en grandes conjuntos de datos con el fin de proporcionarnos el conocimiento necesario para la toma correcta de decisiones. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 119 CLEMENTINE 9.0 Aplicaciones típicas: Éstas son algunas de las aplicaciones típicas de técnicas de minería de datos de Clementine: Correo directo. Determine qué grupos demográficos tienen una tasa de respuesta mayor. Utilice esta información para maximizar la respuesta a futuras campañas de correos. Puntuación del crédito. Utilice un historial de crédito individual para realizar las decisiones de crédito. Recursos humanos. Comprender los procedimientos de contratación anteriores y crear reglas de decisión a fin de hacer más eficiente el proceso de contratación. Investigación médica. Cree reglas de decisión que sugieran procedimientos adecuados basados en comprobaciones médicas. Análisis de mercado. Determine qué variables (como, por ejemplo, geografía, precio y características de los clientes) están asociadas con las ventas. Control de calidad. Analice los datos procedentes de la manufactura del producto e identifique las variables que determinan los defectos de éste. Estudio de la política. Utilice los datos de la encuesta para formular la política mediante las reglas de decisión a fin de seleccionar las variables más importantes. Atención médica. Puede combinar las encuestas al usuario con los datos clínicos a fin de descubrir las variables que contribuyen a la salud. La aplicación de Clementine en la facultad se puede dar para las tres carreras puesto que en todas manejamos diferentes volúmenes de datos con diferentes variables que nos podrían dar mayor flujo de información como herramientas de análisis. Los campos de desarrollo en las carreras serian los siguientes: Administración de Empresas: En donde más se podría dar el desarrollo del programa, puesto que se puede utilizar en diferentes áreas de conocimiento de la carrera, se pueden procesar datos para inducir a nuevas o mejoras en la utilización de los recursos para las actividades económicas, orientadas siempre a crear una mejor estructura para la producción, transformación, circulación, administración o custodia de bienes o para la prestación de UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 120 CLEMENTINE 9.0 servicios. Contaduría Publica: Se puede llevar un registro con mejor información de los procesos contables y de La información financiera, además de que se podrían comparar la información de la empresas frente a su sector industrial, o en bases de datos en la cámara de comercio, la DIAN o el DANE Economía: La medición de datos se hace para saber los comportamientos de los agentes en el mercado, su influencia en la economía y la relación que puede existir entre sí, ya sea a nivel micro y/o macroeconómico, modelos econométricos, entre otros. Con esta investigación se obtuvieron bastantes resultados positivos, ya que gracias a ella comprendimos la importancia que tiene difundir el manejo de esta herramienta tan útil, por eso hay que utilizar al máximo las ventajas que este software brinda, aplicándolo a las materias que tienen relación con el tema y que son dictadas en la facultad. En la facultad las materias de Producción, Mercados, Estadística, Econometria, Auditoria Financiera I, Auditoria Financiera II, Auditoria de sistemas, entre otras pueden utilizar este software. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 121