Practica 2 : Analytics con lenguaje R Objetivo general : En ésta prática ejercitaremos el uso del lenguaje R para realizar analisis de datos sobre una plataforma cloud Objetivos particulares : • Practicar el uso de BlueMix como plataforma para acceder a servicios de data-warehouse que tienen soporte para lenguaje R para poder realizar analítica de datos (50 puntos) • Modificar el script de muestra en R y generar un reporte personalizado aplicando los conocimientos adquiridos en lenguaje R (50 puntos) Outline de la práctica 1. Parte 1 : Trabajar con un script de R en la plataforma de R Studio para hace análisis estadístico de los datos de un cliente (25 puntos) 1. Agregar el servicio dashDB analytics data warehouse a una aplicación en blueMix. Si no existe la aplicación aún, crear una usando el framework de Node.js 2. Si asi es solicitado, reiniciar la aplicación 3. Seleccionar la instancia de dashDB en la aplicación para acceder a la consola 4. Hacer click en Launch para abrir la consola. En dashDB se puede trabajar con datos nativos, hojas de Excel, Cognos y scripts en R 5. Desde la consola, en el menú Analytics seleccionar Develop R Scripts 6. El servicio de Analytics warehouse incluye a su vez un servicio de Rstudio en la nube mediante el cual se puede programar en R. Hay que seleccionar R Studio después del paso 5 7. Cuando R Studio pida usuario y contraseña, hay que untroducir los que nos aparecen en la consola del DataWarehouse. Ir a Setup → Connect Applications y obtener el UserID y el Password 8. Desde Rstudio, ir a File → New Project 9. Seleccionar New Directory → empty project y elegir el nombre para el proyecto. Seleccionar Create project 10. Importar el script disponible desde este link https://www.ibm.com/developerworks/community/groups/service/html/communityview? communityUuid=18b8491b-bc76-469d-806de6982265ace7#fullpageWidgetId=W273fd64f1ecb_4104_a0aa_8946ed9765b0&file=943a1 83a-8645-4c02-a369-2c4b49662988 y descargarlo a su computadora 11. Hacer click en Upload en la barra del explorador de archivos de R Studio 12. Elegir Browse y buscar el script descargado en el paso 10 13. Repetir los pasos 10, 11 y 12 con este link : https://www.ibm.com/developerworks/community/groups/service/html/communityview? communityUuid=18b8491b-bc76-469d-806de6982265ace7#fullpageWidgetId=W273fd64f1ecb_4104_a0aa_8946ed9765b0&file=9aabb 2f3-4d41-472f-b392-4b088394ad67 para descargar la informacion del cliente sobre la cual se hará analytics 14. Seleccionar el archivo CSV y abrirlo en el editor de R Studio. Comprobar que el archivo contiene datos separados por comas 15. Para ejecutar el Script en R, hacer click en el script y luego hacer click en Run . Si se está en modo single-step test, se tiene que hacer click en Run para que avance el script paso a paso. 16. El área de Environment se irá cargando con los datos que se van obteniendo a medida que el script en R se va ejecutando 17. Verificar las estructuras que se cargan con los siguientes comandos en R: 1. mydata <- read.csv("customer_data.csv") 2. mylogit <- glm(CENSOR ~ AVG_SPENT_RETAIN_PM ............................ 3. newdata2 <- with(mydata, data.frame(DURATION .......................... 18. Al hacer doble click sobre el objeto generado, se abre una ventana donde se puede observar el contenido completo del mismo: 19. En la ventana del proyecto en la esquina inferior derecha iran apareciendo los archivos generados por el script. Para este ejercicio se debe de generar un archivo CSV, una gráfica en forma de archivo de imagen y un archivo PDF correspondiente. 20. Comprobar el contenido de los 3 archivos 2. Cargar y ejecutar analytics desde el DashDB data warehouse directamente (25 puntos) 1. Desde la consola del data warehouse, seleccionar Manage → Load Data 2. Usar la opcion Quick Load y seleccionar el archivo CSV con los datos del cliente dejando las demás opciones con los valores default 3. Hacer click en Load y después en Next 4. En la siguiente pestaña, seleccionar Create new table and load y hacer click en Next 5. En la siguiente pestaña, en el nombre de la tabla, agregar Customer_DATA y dejar las demás opciones con sus valores default 6. Debe de haber un mensaje indicando que la tabla se importó exitosamente 7. Desde la consola, seleccionar Manage → Work with tables 8. Seleccionar Customer_DATA que se acaba de cargar 9. En la pestaña Develop R Scripts , seleccionar Import → Import from local filesystem → Browse y seleccionar el script R que se descargó a la computadora local anteriormente. El script se debe de cargar en el editor 10. Editar el script para no usar los datos desde un archivo CSV si no desde una tabla que existe en dashDB: 1. Agregar el caracter de gato (#) en la linea que indica que los datos se leen desde un archivo csv : # mydata <- read.csv(“customer_data.csv”) 2. Descomentar las lineas que indican que se debe de establecer una conexion con dashDB: con <- idaConnect("BLUDB","","") // son 4 lineas hasta CUSTOMER_DATA",as.is=F) 3. Ir al final del script y descomentar la linea que cierra la conexion con la base de datos : idaClose(con) 11. Hacer click en Save y darle un nombre al script 12. Hacer click en Submit para ejecutar el script. 3. Personalizar el script para realizar operaciones adicionales con R y preparar un archivo de salida generado por el mismo script (50 puntos) 1. Usar al menos 3 funciones de R diferentes a las definidas en el Script 2. Generar un data-set con las funciones nuevas 3. Generar una gráfica 4. Subir el codigo junto con la gráfica generada al foro