M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Práctica 2: Descripción unidimensional de datos En primer lugar hemos de insistir que la Estadística Descriptiva dispone de un abanico de procedimientos que deben ser usados según el objetivo que tengamos y la naturaleza de la variable que ha generado los datos de la muestra. Una clasicación sintética de estos procedimientos aparece en la siguiente tabla. Tipo de variable Cualitativa Tablas Tabla de absolutas NO Cuantitativa discreta Cuantitativa continua Frecuencias y Procedimientos Grácos Estadísticos Diagrama de sectores Moda y medidas por- relativas acumuladas de centuales las modalidades observadas Tabla con todas las fre- Diagramas de barras y Mediana, cuencias de valores aisla- Diagrama de Tallo y rango y rango inter- cuantiles, dos Hojas cuartílico Tabla con todas las fre- Histogramas Todos los estadísticos cuencias de valores agru- y además el Diagrama pados en clases de inter- de Caja y bigotes valo 1. Variables Cualitativas (Atributos) Normalmente, la descripción de datos comienza con la tabulación de estos. El objetivo de las tablas de frecuencias es ordenar y clasicar los datos observados. Estas tablas permiten, además de sintetizar la información contenida en los datos, extraer de forma rápida una descripción básica de la muestra; como la moda o modalidad de mayor frecuencia o el número de modalidades distintas observadas. El gráco que usamos comúnmente para representar datos cualitativos se llaman Diagramas de Sectores. Cada sector tiene un área proporcional a la frecuencia que representa. También es posible llevar a cabo el diagrama de barras, aunque éste último se reserva más para aquellas variables cuyas modalidades se hallan ordenadas en alguna escala. Práctica 1.1 (Convertir variable numérica en factor) En muchas ocasiones una variable cualitativa se halla codicada con números de forma que R-Commander la entiende por numérica. En estos casos, las opciones para ejecutar los procedimientos de descripción de variables cualitativas, como la tabla de frecuencia y los diagramas de barras y de sectores, no se encuentran activos. La forma de activarlos es modicar dicha variable para que R-Commander entienda que es cualitativa. Para hacer esto último Práctica 2 Curso 2010-11 Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia seleccionamos Modificar Datos y a continuación El chero Pulse.TXT variables en el conjunto de datos activo del menú la opción Convertir variable numérica en factor. contiene, entre otras variables cuantitativas, los valores de las pulsaciones de 91 individuos antes y después del ejercicio físico, y varias variables cualitativas, como el tipo de actividad física que realiza (Activity), el sexo (Sex), o si fuma (Smokes), sin embargo, en el momento que ellas fueron creadas en el chero de datos, aparecen como si fueran de tipo numérico. Llevar a cabo la operación de Convertir variable numérica en factor para las variables Sex y Activity del chero Pulse.TXT. Práctica 1.2 Construir la tabla de frecuencias, el diagrama de barras y el diagrama de sectores de la variable cualitativa Activity. Hay variables cualitativas cuyas modalidades pueden ser ordenadas según cierta escala y que se llaman ordinales. Estas variables son de uso muy frecuente en encuestas sociológicas cuando se quiere investigar el grado o nivel con que cierto fenómeno se presenta en un conjunto de individuos. Algunos ejemplos pueden ser los siguientes: nivel de estudios, nivel de aceptación de cierta medida del gobierno o nivel de satisfacción con la labor docente de un profesor. Las modalidades de este tipo de variables suelen estar codicadas mediante números; por ejemplo, si nos referimos a la variable nivel de satisfacción con la labor docente de un profesor, la modalidad nada satisfecho puede codicarse con el valor 1, poco satisfecho con un 2, bastante satisfecho con un 3, muy satisfecho con un 4 y totalmente satisfecho con un 5. Estas variables, con ciertas precauciones a la hora de interpretar resultados, pueden ser tratadas usando además los procedimientos para variables cuantitativas discretas, que se describen a continuación. 2. Variables Cuantitativas Discretas Se trata ahora de describir variables numéricas que toman valores enteros. Si con variables cualitativas las frecuencias se han calculado para cada modalidad aisladamente, ahora, además, también podemos calcular frecuencias acumuladas. La diferencia con la situación anterior es que ahora las clases son numéricas y podemos ordenar en la escala de los números enteros. Una frecuencia acumulada de una clase es la suma de frecuencias de la propia clase y de las clases inferiores a ella. Es por lo que carece de sentido calcular frecuencias acumuladas en variables cualitativas. R-Commander presenta una limitación en el tratamiento de este tipo de variables, pues no distingue entre variables cuantitativas discretas y continuas. Puede tratarlas como cualitativas (de convertirla a factor, como los casos anteriores) y en este caso podría ofrecernos la tabla de frecuencias y el diagrama de barras o como cuantitativas continuas y ofrecernos algunos estadísticos y el histograma. De tenernos que decantar por una de las dos alternativas, es preferible la primera pues el histograma construye clases de intervalo y cada una de estas clases contendría más de un valor de la variable. Esto no interesa puesto que se reduce la información de forma innecesaria cuando el número de valores distintos de la variable es relativamente bajo. Sin embargo, en ocasiones podremos tratar con variables discretas pero que una muestra grande posea un número también grande de valores distintos observados. En esos casos será mejor optar por un tratamiento numérico como si se tratase de una variable continua. Práctica 2 Curso 2010-11 Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Otra posibilidad, la mejor, es usar la ventana de instrucciones de R-Commander para ejecutar las órdenes precisas en cada caso. Si nuestro chero de datos lleva por nombre Datos, algunos comandos útiles para estos casos son las siguientes: names(Datos)# ofrece el listado de todas las variables del chero attach(Datos) # pone a disposición de R todas las variables. Supongamos que una de ellas lleva por nombre Var1 table(Var1) # ofrece la tabla de frecuencias de la variable Var1 table(Var1)->x # guarda la tabla de frecuencias en el objeto x length(Var1) # ofrece el número de observaciones de la variable Var1 length(Var1)->n # guarda el tamaño de muestra en el objeto n table(Var1)/length(Var1) # ofrece la tabla de frecuencias relativas. También podríamos haber hecho prop.table(table(Var1)) o bien prop.table(x) si en x se ha guardado el contenido de table(Var1) cumsum(table(Var1)) # ofrece la tabla de frecuencias acumuladas. También podríamos haber hecho cumsum(x) si se creó el objeto x cumsum(table(Var1))/length(Var1) # ofrece la tabla de frecuencias relativas acumuladas. También podríamos haber hecho cumsum(x)/n si se crearon los objetos x y n. barplot(table(Var1)) # ofrece el diagrama de barras de la variable Var1. También podíamos haber hecho barplot(x) o barplot(cumsum(x)) si queremos hacer el diagrama de barras de frecuencias acumuladas. Si no hacemos attach(Datos) es posible usar cualquier función sobre el objeto indicando el nombre de chero que lo contiene; así: Datos$Var1 Var1 Práctica 2.1 (Tratamiento de una variable discreta mediante instrucciones de R) El chero houses.TXT contiene la información de 150 casas vendidas en el último trimestre en cierta región. La variable Baths informa del número de baños que con- tiene cada una y la variable Rooms del número total de habitaciones. Siguiendo las instrucciones de arriba, realiza las tablas de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas para la variable discreta Rooms del chero Houses.TXT. Realiza los correspondientes diagramas de barras. ¾Cuál es la moda?. ¾Y el recorrido de la variable?. 2.1. Variables Cuantitativas Continuas Este tipo de variables pueden presentar en una muestra muchos valores distintos por lo que la tabla de valores aislados o el diagrama de barras se hacen ilegibles y poco operativos. La alternativa es agrupar dichos valores en clases de intervalo, bien para realizar una tabla de frecuencias en clases de intervalo, bien para realizar un histograma. Pero tampoco podemos olvidar que cuando hacemos una tabla en clases de intervalos o un histograma perdemos información acerca de los valores concretos que se han observado. Un procedimiento gráco muy útil para evitar esta pérdida de información es el Diagrama de Tallo y Hojas. El Diagrama de Tallo y Hojas es otra forma de representar una tabla de frecuencias, cuando ésta es muy extensa por el número de clases distintas observadas, y además tiene la ventaja de ofrecer todo el conjunto de valores observados. El número Práctica 2 Curso 2010-11 Página: 3 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia a la izquierda de la barra es el tallo, que hay que unir a cada hoja, representadas a la derecha de la barra, para conocer cada una de las observaciones. Práctica 2.2 (Tratamiento de una variable continua) Realiza los siguientes pro- cedimientos: 1. Realiza el histograma de la variable Area del chero Houses.TXT. Intenta describir los aspectos más relevantes de la muestra. 2. Lleva a cabo el diagrama de tallo y hojas, que se halla en el menú de de la variable Area del chero Houses.TXT. Gráficas ¾Cuál es el recorrido de la variable?. ¾Cual es la mediana?. 3. Calcular los estadísticos básicos mediante la opción menú Estadísticos. Resúmenes numéricos 4. Realiza el diagrama de caja y bigotes que se encuentra en el menú de del Gráficas para situar los estadísticos calculados y entender mejor cómo se comporta la muestra. ¾Hay valores atípicos?. Pero para que vayamos aprendiendo algo más de R stem.leaf(Var1) # ofrece el diagrama de tallo y hojas summary(Var1) # ofrece los estadísticos básicos de la variable Var1 boxplot(Var1) # ofrece el diagrama de caja y bigotes de la variable Var1 Práctica 2.3 (Aprendiendo algo más de R) Realiza la misma práctica anterior us- ando los comandos de R anteriormente descritos. Práctica 2.4 (Describiendo otra variable continua) del chero Houses.TXT Transforma la variable Price en miles de euros. Lleva a cabo el histograma, los estadísticos básicos y el diagrama de caja y bigotes de la variable transformada. Discute las características más signicativas de la muestra, respecto a sus parámetros de centralización, de dispersión y de forma. 3. Bibliografía Introducción al uso de R-Commander. Autor: Angelo Santana (En SUMA) Capítulos 1, 2 y 3 del texto Métodos Estadísticos con R y R-Commander. Autor: Antonio José Sáez Castillo (En SUMA) Práctica 2 Curso 2010-11 Página: 4