1. Variables Cualitativas (Atributos) - OCW

Anuncio
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Práctica 2:
Descripción unidimensional de datos
En primer lugar hemos de insistir que la Estadística Descriptiva dispone de un abanico de procedimientos que deben ser usados según el objetivo que tengamos y la naturaleza
de la variable que ha generado los datos de la muestra. Una clasicación sintética de
estos procedimientos aparece en la siguiente tabla.
Tipo de
variable
Cualitativa
Tablas
Tabla
de
absolutas
NO
Cuantitativa
discreta
Cuantitativa
continua
Frecuencias
y
Procedimientos
Grácos
Estadísticos
Diagrama de sectores
Moda y medidas por-
relativas
acumuladas
de
centuales
las
modalidades observadas
Tabla con todas las fre-
Diagramas de barras y
Mediana,
cuencias de valores aisla-
Diagrama de Tallo y
rango y rango inter-
cuantiles,
dos
Hojas
cuartílico
Tabla con todas las fre-
Histogramas
Todos los estadísticos
cuencias de valores agru-
y además el Diagrama
pados en clases de inter-
de Caja y bigotes
valo
1.
Variables Cualitativas (Atributos)
Normalmente, la descripción de datos comienza con la tabulación de estos. El objetivo
de las tablas de frecuencias es ordenar y clasicar los datos observados. Estas tablas
permiten, además de sintetizar la información contenida en los datos, extraer de forma
rápida una descripción básica de la muestra; como la moda o modalidad de mayor
frecuencia o el número de modalidades distintas observadas.
El gráco que usamos comúnmente para representar datos cualitativos se llaman
Diagramas de Sectores. Cada sector tiene un área proporcional a la frecuencia que representa. También es posible llevar a cabo el diagrama de barras, aunque éste último se
reserva más para aquellas variables cuyas modalidades se hallan ordenadas en alguna
escala.
Práctica 1.1 (Convertir variable numérica en factor)
En muchas ocasiones una
variable cualitativa se halla codicada con números de forma que R-Commander la entiende por numérica. En estos casos, las opciones para ejecutar los procedimientos de
descripción de variables cualitativas, como la tabla de frecuencia y los diagramas de barras y de sectores, no se encuentran activos. La forma de activarlos es modicar dicha
variable para que R-Commander entienda que es cualitativa. Para hacer esto último
Práctica 2
Curso 2010-11
Página: 1
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
seleccionamos Modificar
Datos y a continuación
El chero
Pulse.TXT
variables en el conjunto de datos activo del menú
la opción Convertir variable numérica en factor.
contiene, entre otras variables cuantitativas, los valores de
las pulsaciones de 91 individuos antes y después del ejercicio físico, y varias variables
cualitativas, como el tipo de actividad física que realiza (Activity), el sexo (Sex), o si
fuma (Smokes), sin embargo, en el momento que ellas fueron creadas en el chero de
datos, aparecen como si fueran de tipo numérico.
Llevar a cabo la operación de Convertir
variable numérica en factor
para las
variables Sex y Activity del chero Pulse.TXT.
Práctica 1.2
Construir la tabla de frecuencias, el diagrama de barras y el diagrama de
sectores de la variable cualitativa
Activity.
Hay variables cualitativas cuyas modalidades pueden ser ordenadas según cierta escala y que se llaman
ordinales. Estas variables son de uso muy frecuente en encuestas
sociológicas cuando se quiere investigar el grado o nivel con que cierto fenómeno se presenta en un conjunto de individuos. Algunos ejemplos pueden ser los siguientes: nivel
de estudios, nivel de aceptación de cierta medida del gobierno o nivel de satisfacción
con la labor docente de un profesor. Las modalidades de este tipo de variables suelen
estar codicadas mediante números; por ejemplo, si nos referimos a la variable nivel de
satisfacción con la labor docente de un profesor, la modalidad nada satisfecho puede
codicarse con el valor 1, poco satisfecho con un 2, bastante satisfecho con un 3,
muy satisfecho con un 4 y totalmente satisfecho con un 5. Estas variables, con ciertas
precauciones a la hora de interpretar resultados, pueden ser tratadas usando además los
procedimientos para variables cuantitativas discretas, que se describen a continuación.
2.
Variables Cuantitativas Discretas
Se trata ahora de describir variables numéricas que toman valores enteros. Si con
variables cualitativas las frecuencias se han calculado para cada modalidad aisladamente,
ahora, además, también podemos calcular frecuencias acumuladas. La diferencia con la
situación anterior es que ahora las clases son numéricas y podemos ordenar en la escala
de los números enteros. Una frecuencia acumulada de una clase es la suma de frecuencias
de la propia clase y de las clases inferiores a ella. Es por lo que carece de sentido calcular
frecuencias acumuladas en variables cualitativas.
R-Commander presenta una limitación en el tratamiento de este tipo de variables,
pues no distingue entre variables cuantitativas discretas y continuas. Puede tratarlas
como cualitativas (de convertirla a factor, como los casos anteriores) y en este caso
podría ofrecernos la tabla de frecuencias y el diagrama de barras o como cuantitativas
continuas y ofrecernos algunos estadísticos y el histograma. De tenernos que decantar por
una de las dos alternativas, es preferible la primera pues el histograma construye clases
de intervalo y cada una de estas clases contendría más de un valor de la variable. Esto
no interesa puesto que se reduce la información de forma innecesaria cuando el número
de valores distintos de la variable es relativamente bajo. Sin embargo, en ocasiones
podremos tratar con variables discretas pero que una muestra grande posea un número
también grande de valores distintos observados. En esos casos será mejor optar por un
tratamiento numérico como si se tratase de una variable continua.
Práctica 2
Curso 2010-11
Página: 2
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Otra posibilidad, la mejor, es usar la ventana de instrucciones de R-Commander para
ejecutar las órdenes precisas en cada caso.
Si nuestro chero de datos lleva por nombre
Datos,
algunos comandos útiles para
estos casos son las siguientes:
names(Datos)# ofrece el listado de todas las variables del chero
attach(Datos) # pone a disposición de R todas las variables. Supongamos que una de
ellas lleva por nombre Var1
table(Var1) # ofrece la tabla de frecuencias de la variable Var1
table(Var1)->x # guarda la tabla de frecuencias en el objeto x
length(Var1) # ofrece el número de observaciones de la variable Var1
length(Var1)->n # guarda el tamaño de muestra en el objeto n
table(Var1)/length(Var1) # ofrece la tabla de frecuencias relativas. También podríamos haber hecho prop.table(table(Var1)) o bien prop.table(x) si en x se ha
guardado el contenido de table(Var1)
cumsum(table(Var1)) # ofrece la tabla de frecuencias acumuladas. También podríamos
haber hecho cumsum(x) si se creó el objeto x
cumsum(table(Var1))/length(Var1) # ofrece la tabla de frecuencias relativas acumuladas. También podríamos haber hecho cumsum(x)/n si se crearon los objetos x y n.
barplot(table(Var1)) # ofrece el diagrama de barras de la variable Var1. También
podíamos haber hecho barplot(x) o barplot(cumsum(x)) si queremos hacer el diagrama de barras de frecuencias acumuladas.
Si no hacemos
attach(Datos)
es posible usar cualquier función sobre el objeto
indicando el nombre de chero que lo contiene; así:
Datos$Var1
Var1
Práctica 2.1 (Tratamiento de una variable discreta mediante instrucciones de R)
El chero
houses.TXT
contiene la información de 150 casas vendidas en el último
trimestre en cierta región. La variable
Baths
informa del número de baños que con-
tiene cada una y la variable Rooms del número total de habitaciones.
Siguiendo las instrucciones de arriba, realiza las tablas de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas para la variable discreta Rooms
del chero
Houses.TXT.
Realiza los correspondientes diagramas de barras. ¾Cuál es la
moda?. ¾Y el recorrido de la variable?.
2.1.
Variables Cuantitativas Continuas
Este tipo de variables pueden presentar en una muestra muchos valores distintos por
lo que la tabla de valores aislados o el diagrama de barras se hacen ilegibles y poco
operativos. La alternativa es agrupar dichos valores en clases de intervalo, bien para
realizar una tabla de frecuencias en clases de intervalo, bien para realizar un histograma.
Pero tampoco podemos olvidar que cuando hacemos una tabla en clases de intervalos o un
histograma perdemos información acerca de los valores concretos que se han observado.
Un procedimiento gráco muy útil para evitar esta pérdida de información es el Diagrama
de Tallo y Hojas. El Diagrama de Tallo y Hojas es otra forma de representar una tabla
de frecuencias, cuando ésta es muy extensa por el número de clases distintas observadas,
y además tiene la ventaja de ofrecer todo el conjunto de valores observados. El número
Práctica 2
Curso 2010-11
Página: 3
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
a la izquierda de la barra es el tallo, que hay que unir a cada hoja, representadas a la
derecha de la barra, para conocer cada una de las observaciones.
Práctica 2.2 (Tratamiento de una variable continua)
Realiza los siguientes pro-
cedimientos:
1. Realiza el histograma de la variable
Area del chero Houses.TXT. Intenta describir
los aspectos más relevantes de la muestra.
2. Lleva a cabo el diagrama de tallo y hojas, que se halla en el menú de
de la variable
Area
del chero
Houses.TXT.
Gráficas
¾Cuál es el recorrido de la variable?.
¾Cual es la mediana?.
3. Calcular los estadísticos básicos mediante la opción
menú
Estadísticos.
Resúmenes numéricos
4. Realiza el diagrama de caja y bigotes que se encuentra en el menú de
del
Gráficas para
situar los estadísticos calculados y entender mejor cómo se comporta la muestra.
¾Hay valores atípicos?.
Pero para que vayamos aprendiendo algo más de R
stem.leaf(Var1) # ofrece el diagrama de tallo y hojas
summary(Var1) # ofrece los estadísticos básicos de la variable Var1
boxplot(Var1) # ofrece el diagrama de caja y bigotes de la variable Var1
Práctica 2.3 (Aprendiendo algo más de R)
Realiza la misma práctica anterior us-
ando los comandos de R anteriormente descritos.
Práctica 2.4 (Describiendo otra variable continua)
del chero
Houses.TXT
Transforma la variable
Price
en miles de euros. Lleva a cabo el histograma, los estadísticos
básicos y el diagrama de caja y bigotes de la variable transformada. Discute las características más signicativas de la muestra, respecto a sus parámetros de centralización,
de dispersión y de forma.
3.
Bibliografía
Introducción al uso de R-Commander. Autor: Angelo Santana (En SUMA)
Capítulos 1, 2 y 3 del texto Métodos Estadísticos con R y R-Commander. Autor:
Antonio José Sáez Castillo (En SUMA)
Práctica 2
Curso 2010-11
Página: 4
Descargar