M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Práctica 1: Comenzando con R y R-Commander es software libre y puede ser obtenido en CRAN (Comprehensive R Archive Network) (sitio al que también se puede acceder desde la página org/). http://www.r-project. Es una implementación libre del lenguaje S, muy similar al popular programa comercial S-PLUS, y se distribuye bajo los términos GNU (General Public License). Es un riquísimo entorno estadístico que incluye un lenguaje de programación, un intérprete interactivo y una extensa capacidad para mostrar grácos. Y lo que es más importante, R viene con una espectacular colección de funciones para manipulaciones matemáticas y estadísticas y todavía hay más posibilidades si se hace uso de paquetes opcionales. Además, ofrece la posibilidad tanto de usar rutinas o métodos preexistentes como de modicar métodos existentes, e implementar y desarrollar nuevos métodos. R-Commander es una Interfaz Gráca de Usuario que permite acceder a muchas capacidades del entorno estadístico R sin que el usuario tenga que conocer el lenguaje de comandos propio de este entorno. 1. Inicio de sesión con R-Commander Tras arrancar R aparece una ventana titulada Consola R con una barra de menús entre los que se encuentra el denominado Paquetes. Dentro de este menú seleccionamos Cargar paquete y a continuación cargamos R-Commander mediante la opción Rcmdr. Aparece entonces una interfaz gráca que permite acceder a muchas de las órdenes de gestión y análisis de datos del lenguaje R. Las partes de la ventana de R-Commander son: Menús En la parte superior de la ventana de R-Commander aparece una barra que con- sta de una serie de menús (Archivo, Editar, Datos, Estadísticos, Grácas, Modelos, Distribuciones, Herramientas, Ayuda ), cada uno de los cuales contiene a su vez una serie de opciones para cargar datos, hacer grácas, realizar análisis estadísticos, etc. Banco de datos activo Se encuentra justo debajo de los menús y nos muestra el nom- bre del banco de datos activo y el que R-Commander usará por defecto. Ventana de instrucciones Muestra los comandos correspondientes a las órdenes que hemos ido ejecutando a través de los menús. También permite introducir órdenes para ser ejecutadas mediante los comandos de R. Ventana de resultados Mensajes Muestra los resultados de las órdenes que hemos ejecutado. Muestra determinados mensajes relacionados con la ejecución de comandos, como errores, etc. Práctica 1 Curso 2011-12 Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Práctica 1.1 (R en R-Commander) Universidad de Murcia En esta práctica vamos a ver cómo podríamos usar R-Commander si conociéramos el lenguaje de comandos de R. Como éste no es el objetivo del curso, únicamente se verán ejemplos muy sencillos. A continuación se citan algunas órdenes muy básicas. Escribe la primera de ellas en la ventana de instrucciones y a continuación pincha con el ratón en el botón Ejecutar. El resultado de dicha orden se verá en la ventana de resultados. Continúa haciendo lo mismo con el resto de órdenes. 2+3 # R puede ejercer de simple calculadora sqrt(2011) # R puede ejercer de simple calculadora x<-c(1,3,5,7,9) x+3 # Guarda en el objeto x los números impares del 1 al 5 # Suma 3 a cada dato guardado en el objeto x sum(x) # Suma todos los valores guardados en x prod(x) # Multiplica todos los valores guardados en x mean(x) # Multiplica todos los valores guardados en x seq(1:10) # Genera la sucesión desde 1 hasta 10 a intervalos de 1. seq(1,10) # Genera la misma sucesión. seq(1,10,0.1) # Genera la sucesión desde 1 hasta 10 a intervalos de 0.1. rep(seq(1,10,0.1),3) # Genera la sucesión desde 1 hasta 10 a intervalos de 0.1 repeti- da 3 veces. runif(100)->y Práctica 1 # Genera 100 números al azar entre 0 y 1 y los guarda en el objeto Curso 2011-12 y. Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos y # Si se ejecuta round(y,2) y Universidad de Murcia se imprime el contenido del objeto. # Si se ejecuta y se imprime el contenido del objeto pero con valores re- dondeados a 2 cifras decimales. c(x,y) # une los vectores x e y en un solo vector. 2. Menú Datos En el menú Datos se nos ofrece una serie de opciones para leer, manejar y almacenar los datos necesarios en un determinado análisis. De forma esquemática, las opciones son las siguientes: Nuevo conjunto de datos Importar datos para introducir nuevos datos mediante el teclado. para leer datos contenidos en un chero, soportando distintos tipos de formato. Datos activos para seleccionar, actualizar, guardar y gestionar en general el conjunto de datos activo. Modicar variables de los datos activo Para transformar, tipicar, codicar, renom- brar y gestionar en general el conjunto de variables. Práctica 2.1 (Crear un chero de datos) La siguiente tabla contiene los datos de dos características de casas, concretamente los metros cuadrados útiles (área) y los precios de compra en miles de euros (precio). área 69 90 80 135 71 96 82 71 101 88 79 69 77 100 119 precio 192 215 210 274 112 185 212 220 276 260 221 255 260 293 375 1. Mediante la opción Nuevo conjunto de datos crea un chero de datos llamado Casas e introduce dos o tres las del mismo. Las las han de representar a los individuos de la muestra (casas, en este caso) mientras que las columnas han de representar a las variables (área y precio, en este caso). Cierra el editor. 2. Comprueba que el conjunto de datos activo es el chero Casas. Guarda el mismo en una unidad de disco adecuada. La opción de menú conjunto de datos activo. guardar se encuentra dentro del 3. Mediante la opción Editar do datos en el chero conjunto de datos puedes continuar introducien Casas. Si abandonas R-Commander no olvides volver a guardar el conjunto de datos activo. Práctica 2.2 (Cargar chero de datos) Mediante la opción Cargar fichero de datos podemos hacer que los datos activos sean los que se encuentran en un chero creado anteriormente mediante el editor de datos de R-Commander o que se haya importado a R-Commander y se haya guardado con este formato. Todos ellos llevarán por extensión .rda. Práctica 1 Curso 2011-12 Página: 3 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos 1. Cargar el chero Casas.rda Universidad de Murcia para que estos sean los datos activos. Añadir más casos al chero. Volver a guardar. 2. Cargar el chero Mundo.rda. Observar que podemos seleccionar el chero de datos activos cuando hemos cargado más de uno. Práctica 2.3 (Importar datos de un chero externo) R y R-Commander admite cheros que han sido creados con otra aplicación informática, como SPSS o Minitab, además de admitir cheros de texto. En esta práctica vamos a ver cómo importar en R-Commander un chero de texto. 1. Mediante la opción Importar datos es posible convertir cheros de texto u otros formatos a cheros de formato R (con extensión .rda). Si seleccionamos la primera opción se abrirá un cuadro de diálogo para indicar el nombre que daremos al chero importado y otras opciones, como el signo para indicar el carácter decimal (punto o coma). 2. En el directorio Datos de contenidos de SUMA se encuentra el chero de texto Empleados.txt que contiene, entre otras variables, datos sobre salarios y antigüedad de los empleados de una gran empresa. Descarga dicho chero en un directorio adecuado e importa éste en R-Commander. Las opciones ofrecidas por defecto en Leer fichero de texto, portapapeles o URL son adecuadas para el chero Empleados.txt, aunque es recomendable usar un nombre especíco, por ejemplo Empleados o cualquier otro. la opción 3. Guarda el chero Empleados.txt en formato R (Empleados.rda) en una unidad de disco adecuada. 4. Si pinchamos con el ratón encima de Datos o del nombre del chero que esté activo, se abre un directorio con todos los cheros generados en la sesión. Esta acción nos permite pasar de un conjunto de datos activo a otro. Práctica 2.4 (Usar datos incluidos en R) R incluye en su distribución una colec- ción importante de datos de todo tipo. Mediante la opción Listar del menú Datos Práctica 1 en paquetes datos en paquetes podemos ver una descripción de los cheros de datos Curso 2011-12 Página: 4 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia disponibles. Si queremos usar alguno de ellos podemos cargarlo usando la opción Leer datos de paquete adjunto. Así mismo R-Commander permite exportar un chero con extensión .rda a un chero de texto, mediante la opción Exportar el fichero de datos activo del menú Conjunto de datos activo. 1. Cargar el chero de datos Iris.rda del paquete datasets y visualizar su con- tenido. 2. Exportar el chero anterior a formato texto y guarda éste con el nombre Iris.txt. 3. Modicar variables del conjunto de datos activo El menú Modificar variables del conjunto de datos activo permite varios tipos de acciones y operaciones para modicar el chero de datos a nuestro objetivos y propósitos. Vamos a usar algunas de estas opciones con el chero Mundo.rda que contiene, entre otras, las siguientes variables que se observan o miden sobre una muestra de países: DENS: Número de habitantes por kilómetro cuadrado. URBANA: Porcentaje de la población que vive en ciudades ESPFEM: Esperanza de vida femenina ESPMAS: Esperanza de vida masculina ALFAB: Porcentaje de la población alfabetizada MORTINF: PIB: Tasa de mortalidad infantil Producto interior bruto per cápita NATAL: FERT: Tasa de natalidad Tasa de fertilidad POBLACION: CLIMA: Población, en millones de habitantes Tipo de clima. REGION: Zona o región. Las opciones más importantes son: Recodificar variables⇒ Permite la creación de una nueva variable cualitativa a partir de una variable cuantitativa, donde las modalidades son clases de intervalo. Práctica 3.1 ALFAB en 3 categorías, de la siguALFAB2, por ejemplo, con tres BAJA, MEDIA y ALTA. Vamos a recodicar la variable iente forma: Creamos una nueva variable llamada modalidades, que vamos a llamar Práctica 1 Curso 2011-12 Página: 5 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Todos los países con tasa de alfabetización menor que 60 serán etiquetados con la modalidad BAJA Todos los países con tasa de alfabetización mayor que 60 y menor o igual que 90 serán etiquetados con la modalidad Universidad de Murcia MEDIA Todos los países con tasa de alfabetización mayor que 90 serán etiquetados con la modalidad ALTA. La gura 1 contiene la operación que hay que llevar a cabo para nuestro propósito Figura 1: Recodicación de variables Visualizar la nueva variable que se ha generado en el chero. No olvidar guardar el chero de datos activo si se quiere que permanezcan los cambios. Calcular una nueva variable⇒ Permite la creación de nuevas variables a partir de variables cuantitativas y la aplicación de ciertas operaciones sobre los datos de éstas. Práctica 3.2 Por ejemplo, vamos a calcular una nueva variable que indique el PIB en miles de dólares y vamos a redondear cada valor con 2 cifras decimales. La gura 2 indica la operación a realizar. Figura 2: Calcular nueva variable Visualizar la nueva variable que se ha generado en el chero. No olvidar guardar el chero de datos activo si se quiere que permanezcan los cambios. Práctica 1 Curso 2011-12 Página: 6 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Añadir números de observaciones al conjunto de datos⇒ Añade una nue- va columna al chero con el número de observación de cada la. Ejecutar esa acción y visualizar de nuevo el chero. Tipificar variables⇒ Permite crear variables de media cero y desviación típica uno. Una de las ventajas de trabajar con variables tipicadas es que un valor por encima de cero indica que el valor original está por encima de la media y si, por el contrario, es negativo indica que el valor original está por debajo de la media. Además, los datos cuyo valor absoluto es superior a 2 indica que pueden ser valores atípicos por alejarse mucho respecto a su media, tanto por grandes (los positivos) como por pequeños (los negativos). Práctica 3.3 Vamos a crear una nueva variable que resulte de tipicar la vari- ableFERT. La información que contiene esta nueva variable es la misma que la original, salvo que el valor central de la muestra lo situamos en el cero y la dispersión de la muestra la jamos en uno. De esa forma, los datos de dos variables tipicadas pueden ser comparados. Tipicar la variable FERT. Observar los datos y en particular el dato de España que es la observación nº 37. Mediante la opción Calcular una nueva variable crear una nueva vari- able llamada, por ejemplo, ZFERT con los valores de la variable anterior redondeada con 2 cifras decimales. Convertir variable numérica en factor⇒ Permite indicar a R-Commander qué variables deben ser consideradas como factores, es decir, variables que pueden ser usadas para clasicar datos. Práctica 3.4 Las variables CLIMA y REGION están codicadas con números pero realmente son variables cualitativas. Hemos de indicarle este extremo a RCommander para poder usarlas como tales, en particular para clasicar datos. Podemos hacerlo de varias formas, incluso podemos dejar los mismos números como etiquetas y con el mismo nombre de variable, sin embargo es más adecuado usar otro tipo de etiquetas que describa la modalidad y otro nombre para la variable. La gura 3 indica la operación realizada para la creación de la variable CLIMA2 a partir de la variable CLIMA donde la etiqueta 1 la llamamos A, la 2 la llamamos B, la 3 la llamamos C y la 4 la llamamos D. Segmentar variable numérica⇒ Es una recodicación automática de datos de una variable cuantitativa. Esta opción hace lo mismo que la primera salvo con procedimientos automáticos según distintos criterios. Es más sencilla de usar que la primera opción y con más criterios de agrupamiento de datos. Práctica 1 Curso 2011-12 Página: 7 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Figura 3: Convertir variable numérica en factor Práctica 3.5 En la imagen 4 aparece las operaciones realizadas para volver a recodicar la variable ALFAB, donde hemos elegido hacer 3 clases de intervalo mediante el criterio de k-medias (opción más recomendable). A los tres niveles se les ha puesto las mismas etiquetas que a la variable ALFAB2 y el resultado lo hemos guardado en la variable ALFAB3. Figura 4: Convertir variable numérica en factor Reordenar niveles de factor⇒ Si queremos indicar cierto orden en las modalidades o niveles de un factor. Práctica 3.6 Las etiquetas o niveles de un factor son ordenados para construir tablas o grácos según el orden alfabético, que puede no ser el adecuado. Si queremos indicar a R-Commader que para la variable ALFAB2 el orden de las etiquetas ha de ser BAJA, MEDIA, ALTA; en vez de ALTA, BAJA, MEDIA, realizamos la op- eración que aparece en la gura 5. En esta ocasión no hemos considerado oportuno crear una variable nueva para esta operación, por lo que se sobreescribe la anterior con niveles ordenados. Eliminar variables del conjunto de datos⇒ Práctica 3.7 Para eliminar variables. Vamos a eliminar la variable PIB y CLIMA por contener infor- mación ya existente en el chero. Únicamente hay que señalar las variables que deseamos eliminar del chero de datos. Práctica 1 Curso 2011-12 Página: 8 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Figura 5: Reordenar niveles de un factor Renombrar variables⇒ Práctica 3.8 Para cambiar el nombre a las variables. Vamos a renombrar las variable PIB2 y CLIMA2 con los nombres PIB y CLIMA, respectivamente. 4. Prácticas adicionales Las siguientes prácticas han de ser resueltas cada alumno de forma individual para contrastar la adquisición de conocimientos. 1. Calcula la suma de los valores comprendidos entre -2 y 40 y que disten entre dos cualquiera de ellos 0.15. 2. Genera un chero de datos llamado Amigos en el que introduzcas la información de 10 personas respecto a las variables Nombre, Altura en metros, Peso en kilos y Sexo con modalidades 1 (si es hombre) y 2 (si es mujer). Los datos, evidentemente, pueden ser cticios. a ) Sabiendo que el índice de masa corporal se dene como el cociente entre el peso (en kilos) y la altura (en metros) al cuadrado, calcula una nueva variable, de nombre ICM, que indique el índice de masa corporal para cada individuo de la muestra. b ) Tipicar la variable anterior. Visualizar la nueva columna; ¾podría haber algún dato atípico?. c ) Convertir la variable Sexo en factor, recodicando 1 en la modalidad H y 2 en la modalidad M. Renombrar la variable. d ) Segmentar la variable ICM en 3 clases que se correspondan con 3 intervalos de igual amplitud de valores. e ) Guarda el chero de datos con el nombre 3. Cargar el chero amigos.rda. Alimentos.rda. La matriz contiene información de 150 porciones de 100 gramos de distintos alimentos (en la imagen las primeras 30 las). En cada una de dichas porciones, que aquí son los individuos de la muestra, se observan Práctica 1 Curso 2011-12 Página: 9 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia las siguientes características: el nivel calórico con modalidades bajo, medio y alto (NIVEL), las calorías que contiene (CALORIAS), el grupo al que pertenecen (GRUPO) con modalidades Frutas, Vegetales, Cereales y Azúcares, el estado en que se presenta (ESTADO) con modalidades Cocido, Crudo y Enlatado, la cantidad de gramos de carbohidratos (CARBOH), el índice glucémico (INDICEG) que es un indicador de la velocidad de asimilación del azúcar y el número de micronutrientes que contiene (MICRO). a ) Calcula una nueva variable recodicada de la variable CARBOH, con el nombre que desees, que clasique todos los alimentos de la muestra en 3 clases, los que tienen menos de 30 gramos, los que tienen entre 30 y 60 gramos y los que tienen más de 60 gramos. b ) Guarda el chero resultante con el mismo nombre. 4. Crea un chero de datos (3 o 4 columnas con 4 o 5 las) con el bloc de notas y guarda éste con el nombre que desees, con extensión chero a R y guarda éste con extensión .rda .txt o .dat. Importa el 5. Bibliografía Introducción al uso de R-Commander. Autor: Angelo Santana (En Campus Virtual) Capítulos 1, 2 y 3 del texto Métodos Estadísticos con R y R-Commander . Autor: Antonio José Sáez Castillo (En Campus Virtual) Práctica 1 Curso 2011-12 Página: 10