Taller de software analítico I: parte I APSV 2016/2017 En esta serie de talleres sobre software analítico vamos a conocer el proceso completo que se realiza en un proyecto de Ciencia de Datos (Data Science) para resolver un problema o contestar a una pregunta, apoyándonos en el paquete estadístico R. R es una adaptación del lenguaje S, creado en los laboratorios Bell en 1976 para sustituir a Fortran como entorno de ejecución de análisis estadístico. En 1993, Ross Ihaka y Robert Gentleman lo adaptaron a código abierto, llamándolo R, y fue rápidamente adoptado por la comunidad académica estadística. En la actualidad R ha superado ampliamente a S en popularidad. Existen dos grandes grupos demográficos que utilizan este lenguaje: • La vieja guardia: todos los miembros de departamentos de Ciencias Sociales y Estadística que llevan usando R para hacer sus cálculos 15 años y ahora se sorprenden de la cantidad de gente nueva que se acerca al lenguaje como si fuera un tesoro escondido. • Los recién llegados: aquí estamos la mayoría. Con el auge de las técnicas de Aprendizaje Automático (Machine Learning), el Big Data y su aplicación empresarial ha habido un boom en el uso de R en estos ámbitos. Los usos principales de R son dos: cálculos estadísticos y modelado mediante técnicas de Estadística Inferencial y Aprendizaje Automático. Por supuesto, también es posible realizar una miríada más de actividades: visualización de datos, generación automatizada de informes, visualización de grafos. . . Incluso la creación de webapps. Este primer taller está dividido en dos partes bien diferenciadas: primero, veremos la sintaxis básica de R, sus tipos de datos y estructuras de datos más comunes y algunas funciones útiles. Después, hablaremos de la carga de datos y exploración inicial de estos en R como el principio de nuestro propio proyecto de Data Science. Para la realización de este taller será necesaria la instalación de R y (opcionalmente pero muy recomendado) el IDE Rstudio. Adicionalmente, se utilizarán paquetes no estándares en el desarrollo de la sesión. Todo el software necesario ya está instalado en los ordenadores de los laboratorios. Si se prefiere realizar la práctica con un ordenador personal, está permitido pero no se dará soporte. Instalación de R y Rstudio (si no se van a usar los ordenadores del laboratorio) Para instalar R se puede ir al siguiente enlace: http://cran.es.r-project.org/ y descargar el paquete correcto para el sistema operativo que se esté utilizando. Posteriormente debe descargarse Rstudio (el IDE que utilizaremos) desde https://www.rstudio.com/products/rstudio/download/, una vez más eligiendo el enlace adecuado al sistema operativo que se use. Una vez estén ambos instalados y con la finalidad de poder seguir de manera completa el código debería instalarse varios paquetes adicionales: en la consola (ventana en la parte izquierda) ejecutar el siguiente comando: install.packages(c("plyr", "dplyr", "ggplot2")). Rstudio cuenta con una interfaz que será muy familiar a cualquiera que haya utilizado antes Matlab o algún software similar. El layout por defecto de la aplicación cuenta con tres vistas: • Consola: parte izquierda, terminal interactiva similar a la consola de Python. • Entorno e historial: esquina superior derecha, pestañas que muestran las variables presentes en el entorno y los comandos ejecutados, respectivamente. • Explorador: esquina inferior derecha, cuenta con pestañas para explorar el entorno de trabajo, las gráficas generadas, los paquetes disponibles, ficheros de ayuda y un visor. 1 Si se crea un archivo de script nuevo, haciendo click en el icono en la parte superior izquierda de la barra de tareas (un folo en blanco con un símbolo + en color verde) y clickando en “R script”, se abrirá una cuarta vista: el editor de texto, divisible en pestañas, donde se puede visualizar el conjunto de scripts que se están utilizando. Por último, nos gustaría comentar una combinación de teclas que será muy útil para el desarrollo de la práctica: ctrl + Enter (cmd + Enter en OS X) cuando el prompt está situado en una línea concreta del editor de texto ejecuta ese comando en la consola. Esto permite escribir un script e ir ejecutándolo progresivamente sin tener que cambiar entre vistas constantemente. 2