UNIVERSIDAD CATÓLICA DE CUENCA SEDE AZOGUES UNIDAD ACADÉMICA DE SALUD Y BIENESTAR MEDICINA INVESTIGACIÓN 3 INFORMÁTICA APLICADA II NOMBRE: MARÍA JOSÉ VÁZQUEZ VIVANCO CURSO: 10MO ‘’A’’. DOCENTE: ING. DIEGO VERDUGO FECHA DE PRESENTACIÓN: 20/05/2022 TEMA:SOFTWARE R PROJECT AZOGUES-CAÑAR-ECUADOR. Tabla de contenido 1. OBJETIVOS ........................................................................................................................ 4 2. MARCO TEORICO ........................................................................................................... 5 2.1. ¿ Que es el Software R? .............................................................................................. 5 2.2. Historia ......................................................................................................................... 5 2.3. Ventajas ........................................................................................................................ 5 2.4. ¿Qué puedo hacer con R? ........................................................................................... 6 2.5. Características ............................................................................................................. 6 2.6. Componentes ............................................................................................................... 7 2.7. Como funciona R ......................................................................................................... 7 2.8. Instalación ..................................................................................................................... 9 2.9. Apariencia del programa......................................................................................... 10 3. CONCLUSIONES ............................................................................................................. 11 4. RECOMENDACIONES ................................................................................................... 11 5. BIBLIOGRAFIA ............................................................................................................... 12 1. OBJETIVOS 1.1. OBJETIVO GENERAL Proporcionar una revisión bibliográfica que examine los aspectos esenciales del uso y funcionamiento del Software R Project, con el objeto de que se pueda usar de manera básica. 1.2. OBJETIVOS ESPECIFICOS - Dar a conocer que es el Software R, para que se usa en la actualidad y sus principales ventajas. - Definir las principales características del lenguaje o entorno de programación asociadas al Software R. - Sintetizar el funcionamiento de Software R. - Indicar la forma adecuada de instalar esta herramienta informática, en los distintos sistemas operativos, y la forma de presentación del mismo. 2. MARCO TEORICO 2.1. ¿ Que es el Software R? R es un entorno de software libre para computación estadística y gráficos. Compila y se ejecuta en una amplia variedad de plataformas UNIX, Windows y MacOS. Es Un lenguaje para el análisis estadístico y gráfico. R es un ambiente de programación formado por un conjunto de herramientas muy flexibles que pueden ampliarse fácilmente mediante paquetes, librerías o definiendo nuestras propias funciones. Además, es gratuito y de código abierto, un Open Source parte del proyecto GNU, como Linux o Mozilla Firefox (1)(2). Fig. 1. Visualización Software R. Fuente: Oasis HUB, 2020 2.2. Historia R se presentó al mercado en 1993 de la mano de sus creadores Robert Gentleman y Ross Ihaka, que desarrollaron la herramienta en el Departamento de Estadística de la Universidad de Auckland. Sin embargo, la base de sus orígenes se encuentra en el desarrollo del lenguaje S. Inicialmente el lenguaje se usó para apoyar los cursos que tenían a su cargo los profesores, pero luego de ver la utilidad de la herramienta desarrollada, decidieron colocar copias de R en StatLib. A partir de 1995 el código fuente de R está disponible bajo licencia GNU GPL para sistemas operativos Windows, Macintosh y distribuciones Unix/Linux. La comunidad de usuarios de R en el mundo es muy grande y los usuarios cuentan con diferentes espacios para interactuar (3). Fig. 2. Robert Gentleman, y Ross Ihaka Fuente: Oasis HUB, 2020 2.3. Ventajas R proporciona un amplio abanico de herramientas estadísticas (modelos lineales y no lineales, test estadísticos, análisis de series temporales, algoritmos de clasificación yagrupamiento, etc.) y gráficas (3). Cualquier usuario puede descargar y crear su código de manera gratuita, sin restricciones de uso, la única regla es que la distribución siempre sea libre (GPL). Gracias a que puede accederse libremente a su código. R software no tiene limitadas sus funciones, al contrario de lo que sucede con otras herramientas estadísticas comerciales como Statistica, SPSS, etc. (4). 2.4. ¿Qué puedo hacer con R? Puedes: estudiar correlaciones, ajustar modelos, crear gráficos 3D de altísima calidad, aplicar árboles de decisión, realizar análisis clúster, análisis de componentes principales, crear redes neuronales de predicción, etc. La lista de posibilidades es muy pero que muy extensa y se adapta a todo tipo de necesidades para el análisis complejo de datos(4)(5). 2.5. Características Entre otras características dispone de: Almacenamiento y manipulación efectiva de datos, Operadores para cálculo sobre variables indexadas (arrays), en particular matrices, Una amplia, coherente e integrada colección de herramientas para análisis de datos, Posibilidades gráficas para análisis de datos, que funcionan directamente sobre pantalla o impresora, y Un lenguaje de programación bien desarrollado, simple y efectivo, que incluye condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. (debe destacarse que muchas de las funciones suministradas con el sistema están escritas en el lenguaje r)(5). El término “entorno” lo caracteriza como un sistema completamente diseñado y coherente, antes que como una agregación incremental de herramientas muy específicas e inflexibles, como ocurre frecuentemente con otros programas de análisis de datos(6) Al igual que S, se trata de un lenguaje de programación, lo que permite que los usuarios lo extiendan definiendo sus propias funciones. De hecho, gran parte de las funciones de R están escritas en el mismo R, aunque para algoritmos computacionalmente exigentes es posible desarrollar bibliotecas en C, C++ o Fortran que se cargan dinámicamente. Los usuarios más avanzados pueden también manipular los objetos de R directamente desde código desarrollado en C. R también puede extenderse a través de paquetes desarrollados por su comunidad de usuarios (6)(7). R hereda de S su orientación a objetos. La tarea de extender R se ve facilitada por supermisiva política de lexical scoping (6). Además, R puede integrarse con distintas bases de datos y existen bibliotecas que facilitan su utilización desde lenguajes de programación interpretados como Perl y Python (6). Otra de las características de R es su capacidad gráfica, que permite generar gráficos con alta calidad. R posee su propio formato para la documentación basado en LaTeX(6). R también puede usarse como herramienta de cálculo numérico, campo en el que puede ser tan eficaz como otras herramientas específicas tales como GNU Octave y su equivalente privativo: MATLAB (6). 2.6. Componentes El sistema R esta dividido en dos partes conceptuales: 1) El sistema base de R, que es el que puedes bajar de CRAN3 ; y, 2) en todo lo demás. La funcionalidad de R consta de paquetes modulares. El sistema base de R contiene el paquete básico que se requiere para su ejecución y la mayoría fundamentales. de Los las funciones otros paquetes contenidos en la “base” del sistema incluye a utils, stats, datasets, graphics, grDevices, grid, tools, parallel, compiler, splines, tcltk, stats4 (6). Figura 3. Regresión y su análisis somero en R versión 3.2.2 y en el sistema operativo Windows (6). 2.7. Como funciona R R es un lenguaje Orientado a Objetos: bajo este complejo término se esconde la simplicidad y flexibilidad de R. El hecho que R es un lenguaje de programación puede desaminar a muchos usuarios que piensan que no tienen “alma de programadores”. Esto no es necesariamente cierto por dos razones. - Primero R es un lenguaje interpretado (como Java) y no compilado (como C, C++, Fortran, Pascal), lo cual significa que los comandos escritos en el teclado son ejecutados directamente sin necesidad de construir ejecutables. - Como segunda medida, la sintaxis de R es muy simple e intuitiva. Por ejemplo, una regresión lineal se puede ejecutar con el comando lm(y ˜x). Para que una función sea ejecutada en R debe estar siempre acompañada de paréntesis, inclusive en el caso que no haya nada dentro de los mismos (por ej., ls()). Si se escribe el nombre de la función sin los paréntesis, R mostrar a el contenido (código) mismo de la función(7). Orientado a Objetos significa que las variables, datos, funciones, resultados, etc., se guardan en la memoria activa del computador en forma de objetos con un nombre específico. El usuario puede modificar o manipular estos objetos con operadores (aritméticos, lógicos, y comparativos) y funciones (que a su vez son objetos). El uso y funcionamiento de los operadores es relativamente intuitivo(7). Una función en R se puede delinear de la siguiente manera: Los argumentos pueden ser objetos (“datos”, formulas, expresiones, . . . ), algunos de los cuales ´ pueden ser definidos por defecto en la función; sin embargo, estos argumentos pueden ser modificados por el usuario con opciones(7). Una función en R puede carecer totalmente de argumentos, ya sea porque todos están definidos por defecto (y sus valores modificados con opciones), o porque la función realmente no tiene argumentos. Todas las acciones en R se realizan con objetos que son guardados en la memoria activa del ordenador, sin usar archivos temporales. La lectura y escritura de archivos solo se realiza para la entrada y salida de datos y resultados (graficas, . . . ). El usuario ejecuta las funciones con la ayuda de comandos definidos. Los resultados se pueden visualizar directamente en la pantalla, guardar en un objeto o escribir directamente en el disco (particularmente para gráficos). Debido a que los resultados mismos son objetos, pueden ser considerados como datos y analizados como tal. Archivos que contengan datos pueden ser leídos directamente desde el disco local o en un servido remoto a través de la red(7). Las funciones disponibles están guardadas en una librería localizada en el directorio R HOME/library (R HOME es el directorio donde R está instalado). Este directorio contiene paquetes de funciones, las cuales a su vez están estructuradas en directorios. El paquete denominado base constituye el núcleo de R y contiene las funciones básicas del lenguaje para leer y manipular datos, algunas funciones gráficas y algunas funciones estadísticas (regresión lineal y análisis de varianza). Cada paquete contiene un directorio denominado R con un archivo con el mismo nombre del paquete (por ejemplo, para el paquete base, existe el archivo R HOME/library/base/R/base). Este archivo está en formato ASCII y contiene todas las funciones del paquete. El comando más simple es escribir el nombre de un objeto para visualizar su contenido. Por ejemplo, si un objeto n contiene el valor 10: > n [1] 10(7). El dígito 1 indica que la visualización del objeto comienza con el primer elemento de n. Este comando constituye un uso implícito de la función print, y el ejemplo anterior es similar a print(n) (en algunas situaciones la función print debe ser usada explícitamente, como por ejemplo dentro de una función o un bucle). El nombre de un objeto debe comenzar con una letra (A-Z and a-z) y puede incluir letras, dígitos (0-9), y puntos (.). R discrimina entre letras mayúsculas y minúsculas para el nombre de un objeto, de tal manera que x y X se refiere a objetos diferentes (inclusive bajo Windows)(7). 2.8. Instalación Para realizar la instalación de R usted debe visitar la página del CRAN (Comprehensive R Archive Network). Una vez ingrese a la página encontrará un cuadro similar al mostrado en la siguiente figura donde encontrará los enlaces de la instalación para los sistemas operativos Linux, Mac y Windows (8). Supongamos que se desea instalar R en Windows, para esto se debe dar clic sobre el hiperenlace Download R for Windows. Una vez hecho esto se abrirá una página con el contenido mostrado en la siguiente figura. Luego se debe dar clic sobre el hiperenlace install R for the first time (8). Luego de esto se abrirá otra página con un encabezado similar al mostrado en la siguiente figura. Al momento de capturar la figura la versión actual de R era 3.2.5 pero con certeza usted tendrá disponible la versión actualizada. Una vez allí uste debe dar clic sobre Download R 3.2.5 for Windows como es señalado por la flecha verde. Luego de esto se descargará el instalador R en el computador el cual deberá ser instalado con las opciones que vienen por defecto(8). Fig. 5. Instalador y ejecutador del programa R Project (2). 2.9. Apariencia del programa Una vez que esté instalado R en su computador, usted podrá acceder a él por la lista de programas o por medio del acceso directo que quedó en el escritorio, en la siguiente figura se muestra la apariencia del acceso directo para ingresar a R(8)(9). Al abrir R aparecerá en la pantalla de su computador algo similar a lo que está en la siguiente figura. La ventana izquierda se llama consola y es donde se ingresan las instrucciones, una vez que se construye un gráfico se activa otra ventana llamada ventana gráfica. Cualquier usuario puede modificar la posición y tamaños de estas ventanas, puede cambiar el tipo y tamaño de las letras en la consola, para hacer esto se deben explorar las opciones de editar en la barra de herramientas(8)(9). 3. CONCLUSIONES Teniendo como base a la investigación de varias fuentes bibliográficas anteriormente expuesta, podemos concluir que el software R, es uno de los más completos y se diferencia del resto al poseer: código libre, ser gratuito, por su soporte a librerías especializadas disponible para los múltiples sistemas operativos. El uso de software de distribución libre, tales como R, propician una verdadera democratización del conocimiento, pues permiten que los investigadores mismos puedan realizar este tipo de análisis en particular y otros más, sin las limitaciones que acarrean los factores económicos o la hiperespecialización en el manejo de plataformas de software más sofisticadas. EL lenguaje R se está volviendo popular como otros lenguajes a pesar de que es un lenguaje de dominio específico para estadísticas. Esto no solo muestra el creciente interés en R como lenguaje de programación, sino también en campos como la ciencia de datos y el aprendizaje automático. Muchos gigantes tecnológicos han adoptado el lenguaje R para la toma de decisiones y el análisis de datos por la potencialidad y el poder de realizar un análisis rápido y es demasiado simple. 4. RECOMENDACIONES Para un mejor dominio de este software R existen ciertas claves como contar con un guía experto que nos asesore y muestre paso a paso el funcionamiento de R y de sus posibilidades, además es importante que adoptemos un enfoque pragmático, en el que sea esencial la practica con códigos de ejemplo y casos reales. Podemos valernos de los recursos brindados por internet muchos de ellos gratuitos, la uncia limitación es el idioma ya que muchos manuales, tutoriales o webinars se encuentran en inglés, pero que a la final son muy fructíferos ya que permiten la resolución de problemas de análisis de datos en la práctica profesional, pues resulta es importante conocer las bases para aplicarlas en un estudio de titulación para poder tabular o realizar estadísticas en base a un estudio epidemiológico, entre otras. Deberían ser reconocidas y ampliamente utilizadas en las universidades para impulsar al conocimiento y la investigación científica, para lo que está destinada la educación del futuro, garantizando su accesibilidad. 5. BIBLIOGRAFIA 1. Hernández F, Usuga O. 1 Introducción | Manual de R [Internet]. Github.io. 2021 [cited 2022 Jun 19]. Available from: https://fhernanb.github.io/Manual-deR/intro.html#or%C3%ADgenes 2. German DM, Adams B, Hassan AE. The Evolution of the R Software Ecosystem. 2013 17th European Conference on Software Maintenance and Reengineering [Internet]. 2013 Mar [cited 2022 Jun 19]; Available from: https://ieeexplore.ieee.org/abstract/document/6498472 3. Lafaye P, Rémy Drouilhet, Benoit Liquet. The R Software. SpringerLink [Internet]. 2013 [cited 2022 Jun 19]; Available from: https://link.springer.com/book/10.1007/978-1-4614-9020-3?noAccess=true 4. The (R) Evolution of social media in software engineering | Future of Software Engineering Proceedings [Internet]. ACM Conferences. 2014 [cited 2022 Jun 19]. Available from: https://dl.acm.org/doi/epdf/10.1145/2593882.2593887 5. Paradis E, Ahumada J. R para Principiantes [Internet]. Available from: https://cran.r-project.org/doc/contrib/rdebuts_es.pdf 6. Introducción a R [Internet]. Available from: https://cran.r- project.org/doc/contrib/R-intro-1.1.0-espanol.1.pdf 7. R-project. R-project para Windows [Internet]. Softonic. 2020 [cited 2022 Jun 19]. Available from: https://r-project.softonic.com/ 8. Qué es R Software [Internet]. Máxima Formación. 2022 [cited 2022 Jun 19]. Available from: https://www.maximaformacion.es/blog-dat/que-es-r-software/ 9. Fabricio Bolaños Guerrero. R Project: su aplicación como software libre para análisis en componentes principales [Internet]. ResearchGate. Universidad de Costa Rica; 2011 [cited 2022 Jun 19]. Available from: https://www.researchgate.net/publication/280962033_R_Project_su_aplicacion_ como_software_libre_para_analisis_en_componentes_principales/link/55f11612 08ae0af8ee1d41b9/download