1. Inicio de sesión con R-Commander - OCW

Anuncio
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Práctica 1:
Comenzando con R y R-Commander
es software libre y puede ser obtenido en CRAN (Comprehensive R Archive Network) (sitio al que también se puede acceder desde la página
org/).
http://www.r-project.
Es una implementación libre del lenguaje S, muy similar al popular programa
comercial S-PLUS, y se distribuye bajo los términos GNU (General Public License).
Es un riquísimo entorno estadístico que incluye un lenguaje de programación, un
intérprete interactivo y una extensa capacidad para mostrar grácos. Y lo que es más
importante, R viene con una espectacular colección de funciones para manipulaciones
matemáticas y estadísticas y todavía hay más posibilidades si se hace uso de paquetes
opcionales. Además, ofrece la posibilidad tanto de usar rutinas o métodos preexistentes
como de modicar métodos existentes, e implementar y desarrollar nuevos métodos.
R-Commander es una Interfaz Gráca de Usuario que permite acceder a muchas
capacidades del entorno estadístico R sin que el usuario tenga que conocer el lenguaje
de comandos propio de este entorno.
1. Inicio de sesión con R-Commander
Tras arrancar R aparece una ventana titulada Consola R con una barra de menús
entre los que se encuentra el denominado Paquetes. Dentro de este menú seleccionamos
Cargar paquete y a continuación cargamos R-Commander
mediante la opción Rcmdr.
Aparece entonces una interfaz gráca que permite acceder a muchas de las órdenes de
gestión y análisis de datos del lenguaje R.
Las partes de la ventana de R-Commander son:
Menús
En la parte superior de la ventana de R-Commander aparece una barra que con-
sta de una serie de menús (Archivo, Editar, Datos, Estadísticos, Grácas, Modelos,
Distribuciones, Herramientas, Ayuda ), cada uno de los cuales contiene a su vez
una serie de opciones para cargar datos, hacer grácas, realizar análisis estadísticos,
etc.
Banco de datos activo
Se encuentra justo debajo de los menús y nos muestra el nom-
bre del banco de datos activo y el que R-Commander usará por defecto.
Ventana de instrucciones
Muestra los comandos correspondientes a las órdenes que
hemos ido ejecutando a través de los menús. También permite introducir órdenes
para ser ejecutadas mediante los comandos de R.
Ventana de resultados
Mensajes
Muestra los resultados de las órdenes que hemos ejecutado.
Muestra determinados mensajes relacionados con la ejecución de comandos,
como errores, etc.
Práctica 1
Curso 2011-12
Página: 1
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Práctica 1.1 (R en R-Commander)
Universidad de Murcia
En esta práctica vamos a ver cómo podríamos
usar R-Commander si conociéramos el lenguaje de comandos de R. Como éste no es el
objetivo del curso, únicamente se verán ejemplos muy sencillos.
A continuación se citan algunas órdenes muy básicas. Escribe la primera de ellas en
la ventana de instrucciones y a continuación pincha con el ratón en el botón Ejecutar.
El resultado de dicha orden se verá en la ventana de resultados. Continúa haciendo lo
mismo con el resto de órdenes.
2+3
# R puede ejercer de simple calculadora
sqrt(2011)
# R puede ejercer de simple calculadora
x<-c(1,3,5,7,9)
x+3
# Guarda en el objeto x los números impares del 1 al 5
# Suma 3 a cada dato guardado en el objeto x
sum(x)
# Suma todos los valores guardados en x
prod(x)
# Multiplica todos los valores guardados en x
mean(x)
# Multiplica todos los valores guardados en x
seq(1:10)
# Genera la sucesión desde 1 hasta 10 a intervalos de 1.
seq(1,10)
# Genera la misma sucesión.
seq(1,10,0.1)
# Genera la sucesión desde 1 hasta 10 a intervalos de 0.1.
rep(seq(1,10,0.1),3)
# Genera la sucesión desde 1 hasta 10 a intervalos de 0.1 repeti-
da 3 veces.
runif(100)->y
Práctica 1
# Genera 100 números al azar entre 0 y 1 y los guarda en el objeto
Curso 2011-12
y.
Página: 2
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
y
# Si se ejecuta
round(y,2)
y
Universidad de Murcia
se imprime el contenido del objeto.
# Si se ejecuta
y
se imprime el contenido del objeto pero con valores re-
dondeados a 2 cifras decimales.
c(x,y)
# une los vectores
x
e
y
en un solo vector.
2. Menú Datos
En el menú Datos se nos ofrece una serie de opciones para leer, manejar y almacenar
los datos necesarios en un determinado análisis. De forma esquemática, las opciones son
las siguientes:
Nuevo conjunto de datos
Importar datos
para introducir nuevos datos mediante el teclado.
para leer datos contenidos en un chero, soportando distintos tipos
de formato.
Datos activos
para seleccionar, actualizar, guardar y gestionar en general el conjunto
de datos activo.
Modicar variables de los datos activo
Para transformar, tipicar, codicar, renom-
brar y gestionar en general el conjunto de variables.
Práctica 2.1 (Crear un chero de datos)
La siguiente tabla contiene los datos de
dos características de casas, concretamente los metros cuadrados útiles (área) y los precios de compra en miles de euros (precio).
área
69
90
80
135
71
96
82
71
101
88
79
69
77
100
119
precio
192
215
210
274
112
185
212
220
276
260
221
255
260
293
375
1. Mediante la opción Nuevo
conjunto de datos
crea un chero de datos llamado
Casas e introduce dos o tres las del mismo. Las las han de representar a los
individuos de la muestra (casas, en este caso) mientras que las columnas han de
representar a las variables (área y precio, en este caso). Cierra el editor.
2. Comprueba que el conjunto de datos activo es el chero Casas. Guarda el mismo
en una unidad de disco adecuada. La opción de
menú conjunto
de datos activo.
guardar
se encuentra dentro del
3. Mediante la opción Editar
do datos en el chero
conjunto de datos puedes continuar introducien Casas. Si abandonas R-Commander no olvides volver a
guardar el conjunto de datos activo.
Práctica 2.2 (Cargar chero de datos)
Mediante la opción Cargar
fichero de datos
podemos hacer que los datos activos sean los que se encuentran en un chero creado anteriormente mediante el editor de datos de R-Commander o que se haya importado a
R-Commander y se haya guardado con este formato. Todos ellos llevarán por extensión
.rda.
Práctica 1
Curso 2011-12
Página: 3
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
1. Cargar el chero
Casas.rda
Universidad de Murcia
para que estos sean los datos activos. Añadir más
casos al chero. Volver a guardar.
2. Cargar el chero
Mundo.rda.
Observar que podemos seleccionar el chero de datos
activos cuando hemos cargado más de uno.
Práctica 2.3 (Importar datos de un chero externo)
R y R-Commander admite
cheros que han sido creados con otra aplicación informática, como
SPSS
o
Minitab,
además de admitir cheros de texto. En esta práctica vamos a ver cómo importar en
R-Commander un chero de texto.
1. Mediante la opción Importar
datos
es posible convertir cheros de texto u otros
formatos a cheros de formato R (con extensión
.rda). Si seleccionamos la primera
opción se abrirá un cuadro de diálogo para indicar el nombre que daremos al chero
importado y otras opciones, como el signo para indicar el carácter decimal (punto
o coma).
2. En el directorio Datos de contenidos de SUMA se encuentra el chero de texto
Empleados.txt que contiene, entre otras variables, datos sobre salarios y antigüedad
de los empleados de una gran empresa. Descarga dicho chero en un directorio
adecuado e importa éste en R-Commander. Las opciones ofrecidas por defecto en
Leer fichero de texto, portapapeles o URL son adecuadas para el
chero Empleados.txt, aunque es recomendable usar un nombre especíco, por
ejemplo Empleados o cualquier otro.
la opción
3. Guarda el chero
Empleados.txt
en formato R (Empleados.rda) en una unidad
de disco adecuada.
4. Si pinchamos con el ratón encima de
Datos
o del nombre del chero que esté
activo, se abre un directorio con todos los cheros generados en la sesión. Esta
acción nos permite pasar de un conjunto de datos activo a otro.
Práctica 2.4 (Usar datos incluidos en R)
R incluye en su distribución una colec-
ción importante de datos de todo tipo. Mediante la opción Listar
del menú Datos
Práctica 1
en paquetes
datos en paquetes
podemos ver una descripción de los cheros de datos
Curso 2011-12
Página: 4
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
disponibles. Si queremos usar alguno de ellos podemos cargarlo usando la opción Leer
datos de paquete adjunto. Así mismo R-Commander permite exportar un chero
con extensión .rda a un chero de texto, mediante la opción Exportar el fichero de
datos activo del menú Conjunto de datos activo.
1. Cargar el chero de datos
Iris.rda
del paquete datasets y visualizar su con-
tenido.
2. Exportar el chero anterior a formato texto y guarda éste con el nombre
Iris.txt.
3. Modicar variables del conjunto de datos activo
El menú
Modificar variables del conjunto de datos activo permite varios tipos
de acciones y operaciones para modicar el chero de datos a nuestro objetivos y propósitos.
Vamos a usar algunas de estas opciones con el chero
Mundo.rda que contiene, entre
otras, las siguientes variables que se observan o miden sobre una muestra de países:
DENS:
Número de habitantes por kilómetro cuadrado.
URBANA:
Porcentaje de la población que vive en ciudades
ESPFEM:
Esperanza de vida femenina
ESPMAS:
Esperanza de vida masculina
ALFAB:
Porcentaje de la población alfabetizada
MORTINF:
PIB:
Tasa de mortalidad infantil
Producto interior bruto per cápita
NATAL:
FERT:
Tasa de natalidad
Tasa de fertilidad
POBLACION:
CLIMA:
Población, en millones de habitantes
Tipo de clima.
REGION:
Zona o región.
Las opciones más importantes son:
Recodificar variables⇒
Permite la creación de una nueva variable cualitativa
a partir de una variable cuantitativa, donde las modalidades son clases de intervalo.
Práctica 3.1
ALFAB en 3 categorías, de la siguALFAB2, por ejemplo, con tres
BAJA, MEDIA y ALTA.
Vamos a recodicar la variable
iente forma: Creamos una nueva variable llamada
modalidades, que vamos a llamar
Práctica 1
Curso 2011-12
Página: 5
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
ˆ
Todos los países con tasa de alfabetización menor que 60 serán etiquetados
con la modalidad
ˆ
BAJA
Todos los países con tasa de alfabetización mayor que 60 y menor o igual que
90 serán etiquetados con la modalidad
ˆ
Universidad de Murcia
MEDIA
Todos los países con tasa de alfabetización mayor que 90 serán etiquetados
con la modalidad
ALTA.
La gura 1 contiene la operación que hay que llevar a cabo para nuestro propósito
Figura 1: Recodicación de variables
Visualizar la nueva variable que se ha generado en el chero. No olvidar guardar
el chero de datos activo si se quiere que permanezcan los cambios.
Calcular una nueva variable⇒ Permite la creación de nuevas variables a partir
de variables cuantitativas y la aplicación de ciertas operaciones sobre los datos de
éstas.
Práctica 3.2
Por ejemplo, vamos a calcular una nueva variable que indique el
PIB en miles de dólares y vamos a redondear cada valor con 2 cifras decimales.
La gura 2 indica la operación a realizar.
Figura 2: Calcular nueva variable
Visualizar la nueva variable que se ha generado en el chero. No olvidar guardar
el chero de datos activo si se quiere que permanezcan los cambios.
Práctica 1
Curso 2011-12
Página: 6
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Añadir números de observaciones al conjunto de datos⇒
Añade una nue-
va columna al chero con el número de observación de cada la. Ejecutar esa acción
y visualizar de nuevo el chero.
Tipificar variables⇒ Permite crear variables de media cero y desviación típica
uno. Una de las ventajas de trabajar con variables tipicadas es que un valor por
encima de cero indica que el valor original está por encima de la media y si, por
el contrario, es negativo indica que el valor original está por debajo de la media.
Además, los datos cuyo valor absoluto es superior a 2 indica que pueden ser valores
atípicos por alejarse mucho respecto a su media, tanto por grandes (los positivos)
como por pequeños (los negativos).
Práctica 3.3
Vamos a crear una nueva variable que resulte de tipicar la vari-
ableFERT. La información que contiene esta nueva variable es la misma que la
original, salvo que el valor central de la muestra lo situamos en el cero y la dispersión de la muestra la jamos en uno. De esa forma, los datos de dos variables
tipicadas pueden ser comparados.
ˆ
ˆ
Tipicar la variable FERT. Observar los datos y en particular el dato de
España que es la observación nº 37.
Mediante la opción
Calcular una nueva variable
crear una nueva vari-
able llamada, por ejemplo, ZFERT con los valores de la variable anterior
redondeada con 2 cifras decimales.
Convertir variable numérica en factor⇒
Permite indicar a R-Commander
qué variables deben ser consideradas como factores, es decir, variables que pueden
ser usadas para clasicar datos.
Práctica 3.4
Las variables CLIMA y REGION están codicadas con números
pero realmente son variables cualitativas. Hemos de indicarle este extremo a RCommander para poder usarlas como tales, en particular para clasicar datos.
Podemos hacerlo de varias formas, incluso podemos dejar los mismos números
como etiquetas y con el mismo nombre de variable, sin embargo es más adecuado
usar otro tipo de etiquetas que describa la modalidad y otro nombre para la variable.
La gura 3 indica la operación realizada para la creación de la variable CLIMA2 a
partir de la variable CLIMA donde la etiqueta 1 la llamamos A, la 2 la llamamos
B, la 3 la llamamos C y la 4 la llamamos D.
Segmentar variable numérica⇒
Es una recodicación automática de datos de
una variable cuantitativa.
Esta opción hace lo mismo que la primera salvo con procedimientos automáticos
según distintos criterios. Es más sencilla de usar que la primera opción y con más
criterios de agrupamiento de datos.
Práctica 1
Curso 2011-12
Página: 7
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Figura 3: Convertir variable numérica en factor
Práctica 3.5
En la imagen 4 aparece las operaciones realizadas para volver a
recodicar la variable ALFAB, donde hemos elegido hacer 3 clases de intervalo
mediante el criterio de k-medias (opción más recomendable). A los tres niveles se
les ha puesto las mismas etiquetas que a la variable ALFAB2 y el resultado lo
hemos guardado en la variable ALFAB3.
Figura 4: Convertir variable numérica en factor
Reordenar niveles de factor⇒ Si queremos indicar cierto orden en las modalidades o niveles de un factor.
Práctica 3.6
Las etiquetas o niveles de un factor son ordenados para construir
tablas o grácos según el orden alfabético, que puede no ser el adecuado. Si queremos indicar a R-Commader que para la variable ALFAB2 el orden de las etiquetas
ha de ser
BAJA, MEDIA, ALTA;
en vez de
ALTA, BAJA, MEDIA,
realizamos la op-
eración que aparece en la gura 5. En esta ocasión no hemos considerado oportuno
crear una variable nueva para esta operación, por lo que se sobreescribe la anterior
con niveles ordenados.
Eliminar variables del conjunto de datos⇒
Práctica 3.7
Para eliminar variables.
Vamos a eliminar la variable PIB y CLIMA por contener infor-
mación ya existente en el chero. Únicamente hay que señalar las variables que
deseamos eliminar del chero de datos.
Práctica 1
Curso 2011-12
Página: 8
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Figura 5: Reordenar niveles de un factor
Renombrar variables⇒
Práctica 3.8
Para cambiar el nombre a las variables.
Vamos a renombrar las variable PIB2 y CLIMA2 con los nombres
PIB y CLIMA, respectivamente.
4. Prácticas adicionales
Las siguientes prácticas han de ser resueltas cada alumno de forma individual para
contrastar la adquisición de conocimientos.
1. Calcula la suma de los valores comprendidos entre -2 y 40 y que disten entre dos
cualquiera de ellos 0.15.
2. Genera un chero de datos llamado Amigos en el que introduzcas la información
de 10 personas respecto a las variables
Nombre,
Altura en metros, Peso en kilos y
Sexo con modalidades 1 (si es hombre) y 2 (si es mujer). Los datos, evidentemente,
pueden ser cticios.
a ) Sabiendo que el índice de masa corporal se dene como el cociente entre el
peso (en kilos) y la altura (en metros) al cuadrado, calcula una nueva variable,
de nombre ICM, que indique el índice de masa corporal para cada individuo
de la muestra.
b ) Tipicar la variable anterior. Visualizar la nueva columna; ¾podría haber
algún dato atípico?.
c ) Convertir la variable Sexo en factor, recodicando 1 en la modalidad H y 2
en la modalidad M. Renombrar la variable.
d ) Segmentar la variable ICM en 3 clases que se correspondan con 3 intervalos
de igual amplitud de valores.
e ) Guarda el chero de datos con el nombre
3. Cargar el chero
amigos.rda.
Alimentos.rda. La matriz contiene información de 150 porciones
de 100 gramos de distintos alimentos (en la imagen las primeras 30 las). En cada
una de dichas porciones, que aquí son los individuos de la muestra, se observan
Práctica 1
Curso 2011-12
Página: 9
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
las siguientes características: el nivel calórico con modalidades bajo, medio y
alto (NIVEL), las calorías que contiene (CALORIAS), el grupo al que pertenecen
(GRUPO) con modalidades Frutas, Vegetales, Cereales y Azúcares, el estado
en que se presenta (ESTADO) con modalidades Cocido, Crudo y Enlatado, la
cantidad de gramos de carbohidratos (CARBOH), el índice glucémico (INDICEG) que es un indicador de la velocidad de asimilación del azúcar y el número de
micronutrientes que contiene (MICRO).
a ) Calcula una nueva variable recodicada de la variable CARBOH, con el nombre que desees, que clasique todos los alimentos de la muestra en 3 clases,
los que tienen menos de 30 gramos, los que tienen entre 30 y 60 gramos y los
que tienen más de 60 gramos.
b ) Guarda el chero resultante con el mismo nombre.
4. Crea un chero de datos (3 o 4 columnas con 4 o 5 las) con el bloc de notas y
guarda éste con el nombre que desees, con extensión
chero a R y guarda éste con extensión
.rda
.txt
o
.dat.
Importa el
5. Bibliografía
Introducción al uso de R-Commander. Autor: Angelo Santana (En Campus Virtual)
Capítulos 1, 2 y 3 del texto Métodos Estadísticos con R y R-Commander . Autor:
Antonio José Sáez Castillo (En Campus Virtual)
Práctica 1
Curso 2011-12
Página: 10
Descargar