Subido por alsanchez3333

guión I psv

Anuncio
Taller de software analítico I: parte I
APSV
2016/2017
En esta serie de talleres sobre software analítico vamos a conocer el proceso completo que se realiza en
un proyecto de Ciencia de Datos (Data Science) para resolver un problema o contestar a una pregunta,
apoyándonos en el paquete estadístico R. R es una adaptación del lenguaje S, creado en los laboratorios
Bell en 1976 para sustituir a Fortran como entorno de ejecución de análisis estadístico. En 1993, Ross
Ihaka y Robert Gentleman lo adaptaron a código abierto, llamándolo R, y fue rápidamente adoptado por la
comunidad académica estadística. En la actualidad R ha superado ampliamente a S en popularidad. Existen
dos grandes grupos demográficos que utilizan este lenguaje:
• La vieja guardia: todos los miembros de departamentos de Ciencias Sociales y Estadística que llevan
usando R para hacer sus cálculos 15 años y ahora se sorprenden de la cantidad de gente nueva que se
acerca al lenguaje como si fuera un tesoro escondido.
• Los recién llegados: aquí estamos la mayoría. Con el auge de las técnicas de Aprendizaje Automático
(Machine Learning), el Big Data y su aplicación empresarial ha habido un boom en el uso de R en estos
ámbitos.
Los usos principales de R son dos: cálculos estadísticos y modelado mediante técnicas de Estadística
Inferencial y Aprendizaje Automático. Por supuesto, también es posible realizar una miríada más de
actividades: visualización de datos, generación automatizada de informes, visualización de grafos. . . Incluso
la creación de webapps.
Este primer taller está dividido en dos partes bien diferenciadas: primero, veremos la sintaxis básica de R,
sus tipos de datos y estructuras de datos más comunes y algunas funciones útiles. Después, hablaremos de
la carga de datos y exploración inicial de estos en R como el principio de nuestro propio proyecto de Data
Science.
Para la realización de este taller será necesaria la instalación de R y (opcionalmente pero muy recomendado)
el IDE Rstudio. Adicionalmente, se utilizarán paquetes no estándares en el desarrollo de la sesión. Todo el
software necesario ya está instalado en los ordenadores de los laboratorios. Si se prefiere realizar la práctica
con un ordenador personal, está permitido pero no se dará soporte.
Instalación de R y Rstudio (si no se van a usar los ordenadores del
laboratorio)
Para instalar R se puede ir al siguiente enlace: http://cran.es.r-project.org/ y descargar el paquete correcto
para el sistema operativo que se esté utilizando. Posteriormente debe descargarse Rstudio (el IDE que
utilizaremos) desde https://www.rstudio.com/products/rstudio/download/, una vez más eligiendo el enlace
adecuado al sistema operativo que se use. Una vez estén ambos instalados y con la finalidad de poder seguir
de manera completa el código debería instalarse varios paquetes adicionales: en la consola (ventana en la
parte izquierda) ejecutar el siguiente comando: install.packages(c("plyr", "dplyr", "ggplot2")).
Rstudio cuenta con una interfaz que será muy familiar a cualquiera que haya utilizado antes Matlab o algún
software similar. El layout por defecto de la aplicación cuenta con tres vistas:
• Consola: parte izquierda, terminal interactiva similar a la consola de Python.
• Entorno e historial: esquina superior derecha, pestañas que muestran las variables presentes en el
entorno y los comandos ejecutados, respectivamente.
• Explorador: esquina inferior derecha, cuenta con pestañas para explorar el entorno de trabajo, las
gráficas generadas, los paquetes disponibles, ficheros de ayuda y un visor.
1
Si se crea un archivo de script nuevo, haciendo click en el icono en la parte superior izquierda de la barra de
tareas (un folo en blanco con un símbolo + en color verde) y clickando en “R script”, se abrirá una cuarta
vista: el editor de texto, divisible en pestañas, donde se puede visualizar el conjunto de scripts que se están
utilizando.
Por último, nos gustaría comentar una combinación de teclas que será muy útil para el desarrollo de la
práctica: ctrl + Enter (cmd + Enter en OS X) cuando el prompt está situado en una línea concreta del editor
de texto ejecuta ese comando en la consola. Esto permite escribir un script e ir ejecutándolo progresivamente
sin tener que cambiar entre vistas constantemente.
2
Descargar