Revisado_agosto 2015_LWB/RS CLAVE - Laboratorio 2: Manejo de datos – Gráficos I Planes de muestreo Repaso de métodos de muestreo: Muestreo Aleatorio Estratificado: -requiere información sobre otra variable en la población (aparte de la variable bajo estudio) para dividir la población en estratos o subpoblaciones (p. ej. por edad, sexo, ingreso, región, tamaño de finca, etc.) Muestreo Aleatorio Conglomerado: -Se divide la población en grupos o conglomerados. Se toma una muestra aleatoria de los grupos y se toman datos dentro de los grupos seleccionados. Ejemplo de muestreo estratificado vs. conglomerado #1 - Se dividen los municipios de la isla (la población) en 3 estratos (subpoblaciones): área este, central y oeste y se recogen datos dentro de cada estrato. Esto sería un ejemplo de un muestreo estratificado. #2 - Se seleccionan (al azar) 15 de los 78 municipios en la isla y se recolectan datos dentro de los 15 municipios seleccionados. Esto sería un ejemplo de muestreo conglomerado (los municipios son los conglomerados). Para cada uno de los siguientes planes de muestreo, identifique el nombre del plan de muestreo que se está usando e indique cuál es la unidad (o unidades) de muestreo. 1. Se desea estimar el daño por roya (una enfermedad) de café en una finca. Para ello se lleva a cabo el siguiente plan de muestreo: Caminando a lo largo de la primera hilera en la finca, se elige aleatoriamente un árbol entre los primeros 20 árboles. Luego de realizar esta evaluación se continúa caminando y se evalúa cada árbol ubicado en la posición número 20 (es decir, se cuentan los árboles a partir del que se ha evaluado y se evalúa cada 20 árboles). Como hay aproximadamente 600 árboles en la finca, se espera muestrear alrededor de 30 árboles. A cada árbol se le realiza una evaluación visual del daño por roya en las hojas (escala 1 a 5, con 1 representando “sin daño” y 5 representando “mayoría de hojas completamente dañadas”). Éste es un plan de muestreo sistemático con arranque aleatorio. La unidad de muestreo es el árbol 2. Para estudiar la prevalencia de mastitis en Puerto Rico (definida aproximadamente como el porcentaje de animales enfermos) se eligen 15 vaquerías aleatoriamente de la lista de vaquerías registradas en el Departamento de Agricultura. En cada vaquería se examinan 12 vacas aleatoriamente elegidas. AGRO 5005 – CLAVE Lab 2 Page 1 Revisado_agosto 2015_LWB/RS Éste es un plan de muestreo por conglomerado (o en dos etapas). Los conglomerados (grupos) son las vaquerías en la lista en el Dept. de Agric. (La vaquería es la unidad primaria de muestreo). En la 2nda etapa, aleatoriamente seleccionamos 15 conglomerados (vaquerías) de la lista. La unidad secundaria (sobre la que efectuamos nuestra observación) es la vaca. 3. Se interesa realizar un estudio de capacidad de secuestro de carbono por bosques secundarios del área central de Puerto Rico. La región de interés consiste de tres zonas ecológicas: (1) zona 1 que cubre el área más extensiva (70% del área total), (2) zona 2 que cubre menos área (20% del área total), y (3) zona 3 que cubre un área limitado (10% del área total). En cada una de las tres zonas identificadas se elegirán al azar varias parcelas de 0.5 hectáreas, y se registrarán las variables de interés: altura y diámetro de todos los árboles de la parcela. La cantidad de parcelas a elegir en cada zona ecológica es proporcional al área que esa zona representa respecto al área total de la zona central de Puerto Rico. Éste es un plan de muestreo aleatorio estratificado. La unidad de muestreo es la parcela. (Observe que estudiamos todos los árboles en la parcela elegida, por lo que el árbol no es la unidad de muestreo.) Si hay n=100 parcelas en total, se escogerían 70 parcelas de zona 1, 20 parcelas de zona 2 y 10 parcelas de zona 3. Manejo de datos en Infostat Para manejar datos en Infostat se puede trabajar con el menú Datos. Este menú permite crear nuevas filas, insertar o eliminar filas, activar/desactivar casos (filas), crear/insertar/eliminar columnas, poner etiquetas (nombres a las columnas), definir el tipo de datos en una columna, la cantidad de decimales a mostrar, ordenar, crear categorías, transformar y aplicar fórmulas. En este laboratorio vamos a trabajar con los datos de café entrados en la última clase y con otros conjuntos de datos que ya están en Infostat. Los archivos que ya están en Infostat se acceden con el menú “Archivo, abrir datos de prueba”. Para usar el menú de gráficos debemos tener la tabla de datos abierta. Hay dos ventanas relacionadas: Herramientas gráficas y Gráficos. Vamos a preparar distintos gráficos con los datos provistos y aprenderemos las herramientas básicas sobre los ejemplos. Es muy importante que practiquen distintas alternativas, opciones, etc. hasta lograr el gráfico deseado. Una vez que está el gráfico completo podemos hacer copia del mismo para ponerlo, por ejemplo, en Word o PowerPoint. En el manual de Infostat (menú Ayuda>Manual) se describen todas las opciones gráficas disponibles. Es importante recordar que Infostat solamente guarda los cambios efectuados en la tabla de datos abierta, es decir, no guarda ni gráficos ni la salida mostrada en la ventana “Resultados”. Si queremos guardar los gráficos tenemos dos opciones: o los copiamos en un documento (por ejemplo en Word), o los guardamos como gráficos de Infostat. La última opción nos permitirá cambiarlos en el futuro, mientras que si queremos cambiar un gráfico que ya está pegado en Word debemos rehacerlo en Infostat. AGRO 5005 – CLAVE Lab 2 Page 2 Revisado_agosto 2015_LWB/RS 4. Realice un gráfico de barras para ver la altura promedio de árboles sanos y enfermos (datos de café usados en el laboratorio 1). Use como variable a graficar la altura (en metros), y como criterio de clasificación la variable enfermo. Las opciones que puede usar son “media, medidas de confianza, ninguna”. a. Considere la salida original (sin arreglar las escales, etc.,): i. ¿Qué estadística está representada por la altura de las barras? La media ii. ¿Parece haber una diferencia en la altura promedio de árboles enfermos y no enfermos? Usando la salida original, las barras parecen tener alturas muy distintas. La razón es porque se está comparando solamente una pequeña parte de la escala (la escala esta amplificada) b. Cambie la escala de Y a un mínimo de 0 y un máximo de 3.5. Arregle los “ticks” (divisiones en la escala) y los decimales. Haga los otros arreglos necesarios para que se pueda apreciar bien lo que se quiere mostrar. i. Después de realizar los cambios, ¿Parece haber una diferencia en la altura promedio de árboles enfermos y no enfermos? Ahora, se nota que las alturas de las dos barras son casi iguales. Árboles enfermos y no enfermos tienen más o menos la misma altura. Aquí se entra la variable del eje Y: Típicamente una cantidad, %, total, etc. AGRO 5005 – CLAVE Lab 2 Aquí entramos el nombre de la variable categórica (cualitativa). Los datos de una variable categórica son categorías o clases (en este ejemplo los datos son “si” o “no”) Page 3 Revisado_agosto 2015_LWB/RS Salida que inicialmente sale en InfoStat: Salida modificada (mejorada): Altura promedio de árboles de cafe enfermos y no enfermos Título 3.5 3.03 3.0 2.5 Altura (m) altura 3.00 2.97 2.0 1.5 1.0 2.95 0.5 0.0 2.92 no no si si árbol enfermo? enfermo El propósito del grafico es informar el lector sobre como compara el número de árboles de café que están enfermos versos los que están sanos. Si no se modifica el gráfico, da la impresión de que hay mucha diferencia de altura entre los árboles enfermos y no enfermos. A cambiar la escala, se ve que los promedios son muy parecidos. 5. Grafique los siguientes datos, referidos a la distribución porcentual del gasto de alimento anual en distintas categorías. (% = porcentaje de los gastos anuales en alimentos). Realice un gráfico de barras y luego un gráfico de sectores. Para el gráfico de barras, la “variable a graficar” es “%” y el “criterio de clasificación” es “alimento” (las categorías en el eje X). Para el gráfico de sectores entramos “alimento” en la ventanilla de “clases (sectores de la torta)” y “%” en “frecuencia”. Haga los otros arreglos necesarios para que se pueda apreciar bien lo que se quiere mostrar. Para arreglar las barras en orden de mayor a menor: en el eje X selecciona la categoría que desea mover, y utilice “Ctrl + flecha” para mover la categoría al lugar deseado. ¿Qué gráfico le gusta más? (ambas opciones son válidas) Categoría Productos lácteos Cereal y panificados Bebidas sin alcohol Pescados y aves Frutas y vegetales Carne Otras AGRO 5005 – CLAVE Lab 2 % 13.4 12.6 8.9 7.5 15.6 24.5 17.5 Page 4 Revisado_agosto 2015_LWB/RS OPCIÓN A Aquí, no se permite que se entra una variable categórica (porque corresponde al eje Y, que tiene que ser una variable cuantitativa) AGRO 5005 – CLAVE Lab 2 Page 5 Revisado_agosto 2015_LWB/RS Distribución de gastos de alimento 25 20 15 10 otros carne frutas y vegetables pescados y aves bebidas sin alcohol 0 cereal y panificados 5 productos lácteos % del gasto anual en alimentos 30 Alimento OPCION B (gráfico de sectores donde los % ya están calculados) Si se entran los datos como en la tabla abajo, las categorías están en diferentes FILAS (no columnas). AGRO 5005 – CLAVE Lab 2 Page 6 Revisado_agosto 2015_LWB/RS Distribución porcentual de gastos de alimento productos lácteos (13% ) otros (17% ) cereal y panificados (13% ) carne (24% ) bebidas sin alcohol (9% ) pescados y aves (7% ) frutas y vegetables (16% ) 6. Los siguientes datos representan los gastos (en dólares/mes) de familias urbanas y rurales en distintos rubros. Familia Urbana Rural alimentación serv. e imp. educación otros 300 500 90 50 120 50 100 100 a. Para las familias rurales y urbanas, calcule (a mano) el porcentaje de los gastos mensuales (totales) por categoría de gastos. Familia Urbana Rural alimentación serv. e imp. educación otros GASTOS TOTALES (por tipo de familia) 300 (49.2%) 500 (71.4%) 90 (14.8%) 50 (7.1%) 120 (19.6%) 50 (7.1%) 100 (16.4%) 100 (14.3%) 610 700 b. A mano y en Infostat, haga un gráfico de sectores para las familias urbanas mostrando los gastos proporcionales en las distintas categorías. Haga otro gráfico para familias rurales. Compare sus gráficos con gráficos de sectores hechos con AGRO 5005 – CLAVE Lab 2 Page 7 Revisado_agosto 2015_LWB/RS InfoStat (ayuda: las categorías están en columnas, “familia” en “criterios de clasificación”) Los archivos para los siguientes ejercicios se encuentran en el menú “Archivo, abrir datos de prueba”: Ejercicio 6. OPCIÓN A Si se entran los datos en la misma forma como la tabla original, entonces cada categoría tiene sus datos en una columna aparte. Por esta razón, se selecciona la opción de “categorías en columnas” Los distintos rubros son las clases de los sectores de la torta, e InfoStat genera una torta aparte para cada tipo de familia (urbana y rural) AGRO 5005 – CLAVE Lab 2 Page 8 Revisado_agosto 2015_LWB/RS Gastos de familias urbanas y rurales en distintos rubros Familia Urbana Otros Educacion Alimentacion Serv. e imp. Familia Rural Otros Educacion Serv. e imp. Alimentacion En estos gráficos de torta, se nota claramente que las familias urbanas gastan proporcionalmente menos en la compra de alimentos comparadas con familias rurales (casi 50% vs. aprox. 70%), y dedican más de sus recursos a la educación (casi 20% vs. 7%). Pero un gráfico de torta no nos dice nada sobre la cantidad de dinero gastado. OPCIÓN B Otra opción es usar un gráfico de barras adyacentes. ESTA OPCION NO ES LA PREFERIBLE si el objetivo es comparar PORCENTAJES O PORCIONES DE UN TOTAL!! Pero al contrario de la opción A (gráfico de torta), aquí se nota la cantidad de dinero gastado en cada categoría (si esto fuera un manuscrito, uno utilizaría la tabla de datos o el gráfico, no ambos – dan exactamente la misma información). AGRO 5005 – CLAVE Lab 2 Page 9 Revisado_agosto 2015_LWB/RS Gastos de Familias Urbanas vs. Rural en Distintos Rubros 600 Gastos en distintos rubros ($/mes) 500 400 Hay opciones en InfoStat para modificar la tipografía – p. ej. Para hacer este título con letras más grandes – un “click” derecho generalmente abre opciones en InfoStat 300 200 100 0 Urbana Rural Familia Alimentacion Serv. e imp. Educacion Otros a. Realice un gráfico de barras apiladas (con familia en “criterios de clasificación”), seleccionando la opción de “apilar proporciones”. Como compara la información presentada en este gráfico con la de la parte b? Una tercera opción para graficar estos datos es la de barras apiladas, con totales ($/mes) o con proporciones, dependiendo lo que el investigador le interesa presentar (objetivo del estudio) AGRO 5005 – CLAVE Lab 2 Page 10 Revisado_agosto 2015_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 11 Revisado_agosto 2015_LWB/RS Gastos de familias urbanas y rurales en distintos rubros 1.00 Gastos en distintos rubros (Proporciones acumuladas) 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 Urbana Rural Familia Alimentacion Serv. e imp. Educacion Otros NOTA: en el caso donde el eje Y representa proporciones (como aquí), un gráfico de barras apiladas es en realidad un tipo de gráfico de torta. 7. Con el objetivo de estudiar la relación entre el peso (Y) y el perímetro (X) de cabezas de ajo, prepare los diagramas de dispersión indicados utilizando los datos de Ajoblanc (datos del perímetro (cm) y el peso (g) de la cabeza de 1600 ajos de cosechas de 1998 y 1999 [Fuente: Software InfoStat]). a. Haga un gráfico con ambos años juntos. ¿Hay una relación entre el perímetro y el peso? Si su respuesta es sí, describa la relación. b. Utilizando la opción de “particiones”, haga un gráfico que identifique el año con colores diferentes. ¿Hay diferencias entre años? Relación entre perímetro y peso en cabezas de ajo 160 140 peso (g) 120 100 80 60 40 20 0 0 5 10 15 20 25 30 perímetro (cm) AGRO 5005 – CLAVE Lab 2 Page 12 Revisado_agosto 2015_LWB/RS Para hacer un gráfico con los años separados, entra “año” en particiones y asegure que “particiones en el mismo gráfico” esta seleccionado En esta salida, vemos una de las “particularidades” de Infostat. Al pedir la leyenda, la rotulación que sale dice “peso-1998” y “peso-1999” en vez de simplemente “1998” o “1999” (que sería preferible). Utilizando “herramientos gráficas”, se puede modificar estas rotulaciones (en “series” – haciendo un doble click sobre las etiquetas) Título 160 peso (g) 120 80 40 0 0 8 15 23 30 perímetro (cm) peso-1998 peso-1999 8. Utilizando el conjunto de datos CapacidadRespiratoria (un estudio realizado por una compañía farmacéutica para examinar los efectos de tres drogas sobre la capacidad respiratoria de pacientes de asma [Fuente: Software InfoStat]), prepare un gráfico de barras de manera que pueda comparar cómo cambia con el tiempo la capacidad respiratoria promedio bajo los distintas drogas. “Hora” = número de horas después de administrar la droga [Ayuda: Querremos “hora” en el eje X (“criterios de clasificación”), y droga en “particiones” (para tener barras adyacentes). Luego de “aceptar” por 1era vez, seleccione la opción de “particiones en el mismo gráfico” y “medidas de confianza, ninguna”, seguido por “aceptar” de nuevo). AGRO 5005 – CLAVE Lab 2 Page 13 Revisado_agosto 2015_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 14 Revisado_agosto 2015_LWB/RS Título Cap_Respirat-P 4.00 3.00 2.00 1.00 0.00 1 2 3 4 5 6 7 8 Hora Cap_Respirat-A Cap_Respirat-B Cap_Respirat-P Título Cap_Respirat-P 4.00 3.00 2.00 1.00 0.00 1 2 3 4 5 6 7 8 Hora Droga A Droga B Droga P En “series”, se puede modificar los nombres de las etiquetas en la leyenda (para mejorar la apariencia de gráfico) AGRO 5005 – CLAVE Lab 2 Page 15