Lab2 - Uprm

Anuncio
Revisado_agosto 2015_LWB/RS
CLAVE - Laboratorio 2: Manejo de datos – Gráficos I
Planes de muestreo
Repaso de métodos de muestreo:
Muestreo Aleatorio Estratificado:
-requiere información sobre otra variable en la población (aparte de la variable bajo
estudio) para dividir la población en estratos o subpoblaciones (p. ej. por edad, sexo,
ingreso, región, tamaño de finca, etc.)
Muestreo Aleatorio Conglomerado:
-Se divide la población en grupos o conglomerados. Se toma una muestra aleatoria de los
grupos y se toman datos dentro de los grupos seleccionados.
Ejemplo de muestreo estratificado vs. conglomerado
#1 - Se dividen los municipios de la isla (la población) en 3 estratos (subpoblaciones): área
este, central y oeste y se recogen datos dentro de cada estrato. Esto sería un ejemplo de un
muestreo estratificado.
#2 - Se seleccionan (al azar) 15 de los 78 municipios en la isla y se recolectan datos dentro
de los 15 municipios seleccionados. Esto sería un ejemplo de muestreo conglomerado (los
municipios son los conglomerados).
Para cada uno de los siguientes planes de muestreo, identifique el nombre del plan de muestreo
que se está usando e indique cuál es la unidad (o unidades) de muestreo.
1.
Se desea estimar el daño por roya (una enfermedad) de café en una finca. Para ello se lleva a
cabo el siguiente plan de muestreo: Caminando a lo largo de la primera hilera en la finca, se
elige aleatoriamente un árbol entre los primeros 20 árboles. Luego de realizar esta
evaluación se continúa caminando y se evalúa cada árbol ubicado en la posición número 20
(es decir, se cuentan los árboles a partir del que se ha evaluado y se evalúa cada 20 árboles).
Como hay aproximadamente 600 árboles en la finca, se espera muestrear alrededor de 30
árboles. A cada árbol se le realiza una evaluación visual del daño por roya en las hojas
(escala 1 a 5, con 1 representando “sin daño” y 5 representando “mayoría de hojas
completamente dañadas”).
Éste es un plan de muestreo sistemático con arranque aleatorio. La unidad de muestreo es
el árbol
2.
Para estudiar la prevalencia de mastitis en Puerto Rico (definida aproximadamente como el
porcentaje de animales enfermos) se eligen 15 vaquerías aleatoriamente de la lista de
vaquerías registradas en el Departamento de Agricultura. En cada vaquería se examinan 12
vacas aleatoriamente elegidas.
AGRO 5005 – CLAVE Lab 2
Page 1
Revisado_agosto 2015_LWB/RS
Éste es un plan de muestreo por conglomerado (o en dos etapas). Los conglomerados
(grupos) son las vaquerías en la lista en el Dept. de Agric. (La vaquería es la unidad
primaria de muestreo). En la 2nda etapa, aleatoriamente seleccionamos 15 conglomerados
(vaquerías) de la lista. La unidad secundaria (sobre la que efectuamos nuestra observación)
es la vaca.
3.
Se interesa realizar un estudio de capacidad de secuestro de carbono por bosques
secundarios del área central de Puerto Rico. La región de interés consiste de tres zonas
ecológicas: (1) zona 1 que cubre el área más extensiva (70% del área total), (2) zona 2 que
cubre menos área (20% del área total), y (3) zona 3 que cubre un área limitado (10% del área
total). En cada una de las tres zonas identificadas se elegirán al azar varias parcelas de 0.5
hectáreas, y se registrarán las variables de interés: altura y diámetro de todos los árboles de
la parcela. La cantidad de parcelas a elegir en cada zona ecológica es proporcional al área
que esa zona representa respecto al área total de la zona central de Puerto Rico.
Éste es un plan de muestreo aleatorio estratificado. La unidad de muestreo es la parcela.
(Observe que estudiamos todos los árboles en la parcela elegida, por lo que el árbol no es la
unidad de muestreo.) Si hay n=100 parcelas en total, se escogerían 70 parcelas de zona 1,
20 parcelas de zona 2 y 10 parcelas de zona 3.
Manejo de datos en Infostat
Para manejar datos en Infostat se puede trabajar con el menú Datos. Este menú permite crear
nuevas filas, insertar o eliminar filas, activar/desactivar casos (filas), crear/insertar/eliminar
columnas, poner etiquetas (nombres a las columnas), definir el tipo de datos en una columna, la
cantidad de decimales a mostrar, ordenar, crear categorías, transformar y aplicar fórmulas. En
este laboratorio vamos a trabajar con los datos de café entrados en la última clase y con otros
conjuntos de datos que ya están en Infostat. Los archivos que ya están en Infostat se acceden con
el menú “Archivo, abrir datos de prueba”.
Para usar el menú de gráficos debemos tener la tabla de datos abierta. Hay dos ventanas
relacionadas: Herramientas gráficas y Gráficos. Vamos a preparar distintos gráficos con los datos
provistos y aprenderemos las herramientas básicas sobre los ejemplos. Es muy importante que
practiquen distintas alternativas, opciones, etc. hasta lograr el gráfico deseado. Una vez que está
el gráfico completo podemos hacer copia del mismo para ponerlo, por ejemplo, en Word o
PowerPoint. En el manual de Infostat (menú Ayuda>Manual) se describen todas las opciones
gráficas disponibles.
Es importante recordar que Infostat solamente guarda los cambios efectuados en la tabla de datos
abierta, es decir, no guarda ni gráficos ni la salida mostrada en la ventana “Resultados”. Si
queremos guardar los gráficos tenemos dos opciones: o los copiamos en un documento (por
ejemplo en Word), o los guardamos como gráficos de Infostat. La última opción nos permitirá
cambiarlos en el futuro, mientras que si queremos cambiar un gráfico que ya está pegado en
Word debemos rehacerlo en Infostat.
AGRO 5005 – CLAVE Lab 2
Page 2
Revisado_agosto 2015_LWB/RS
4. Realice un gráfico de barras para ver la altura promedio de árboles sanos y enfermos (datos
de café usados en el laboratorio 1). Use como variable a graficar la altura (en metros), y
como criterio de clasificación la variable enfermo. Las opciones que puede usar son “media,
medidas de confianza, ninguna”.
a. Considere la salida original (sin arreglar las escales, etc.,):
i. ¿Qué estadística está representada por la altura de las barras?
La media
ii. ¿Parece haber una diferencia en la altura promedio de árboles enfermos y
no enfermos?
Usando la salida original, las barras parecen tener alturas muy
distintas. La razón es porque se está comparando solamente una
pequeña parte de la escala (la escala esta amplificada)
b. Cambie la escala de Y a un mínimo de 0 y un máximo de 3.5. Arregle los “ticks”
(divisiones en la escala) y los decimales. Haga los otros arreglos necesarios para
que se pueda apreciar bien lo que se quiere mostrar.
i. Después de realizar los cambios, ¿Parece haber una diferencia en la altura
promedio de árboles enfermos y no enfermos?
Ahora, se nota que las alturas de las dos barras son casi iguales.
Árboles enfermos y no enfermos tienen más o menos la misma altura.
Aquí se entra la variable del eje Y:
Típicamente una cantidad, %, total,
etc.
AGRO 5005 – CLAVE Lab 2
Aquí entramos el nombre de la variable
categórica (cualitativa). Los datos de una
variable categórica son categorías o clases (en
este ejemplo los datos son “si” o “no”)
Page 3
Revisado_agosto 2015_LWB/RS
Salida que inicialmente sale en InfoStat:
Salida modificada (mejorada):
Altura promedio de árboles de cafe enfermos y no enfermos
Título
3.5
3.03
3.0
2.5
Altura (m)
altura
3.00
2.97
2.0
1.5
1.0
2.95
0.5
0.0
2.92
no
no
si
si
árbol enfermo?
enfermo
El propósito del grafico es informar el lector sobre como compara el número de árboles de café
que están enfermos versos los que están sanos.
Si no se modifica el gráfico, da la impresión de que hay mucha diferencia de altura entre
los árboles enfermos y no enfermos. A cambiar la escala, se ve que los promedios son muy
parecidos.
5. Grafique los siguientes datos, referidos a la distribución porcentual del gasto de alimento
anual en distintas categorías. (% = porcentaje de los gastos anuales en alimentos). Realice un
gráfico de barras y luego un gráfico de sectores. Para el gráfico de barras, la “variable a
graficar” es “%” y el “criterio de clasificación” es “alimento” (las categorías en el eje X).
Para el gráfico de sectores entramos “alimento” en la ventanilla de “clases (sectores de la
torta)” y “%” en “frecuencia”. Haga los otros arreglos necesarios para que se pueda apreciar
bien lo que se quiere mostrar. Para arreglar las barras en orden de mayor a menor: en el eje X
selecciona la categoría que desea mover, y utilice “Ctrl + flecha” para mover la categoría al
lugar deseado. ¿Qué gráfico le gusta más? (ambas opciones son válidas)
Categoría
Productos lácteos
Cereal y panificados
Bebidas sin alcohol
Pescados y aves
Frutas y vegetales
Carne
Otras
AGRO 5005 – CLAVE Lab 2
%
13.4
12.6
8.9
7.5
15.6
24.5
17.5
Page 4
Revisado_agosto 2015_LWB/RS
OPCIÓN A
Aquí, no se permite que se entra una variable categórica (porque corresponde al eje Y, que
tiene que ser una variable cuantitativa)
AGRO 5005 – CLAVE Lab 2
Page 5
Revisado_agosto 2015_LWB/RS
Distribución de gastos de alimento
25
20
15
10
otros
carne
frutas y vegetables
pescados y aves
bebidas sin alcohol
0
cereal y panificados
5
productos lácteos
% del gasto anual en alimentos
30
Alimento
OPCION B (gráfico de sectores donde los % ya están calculados)
Si se entran los datos como en la tabla abajo, las categorías están en diferentes FILAS (no
columnas).
AGRO 5005 – CLAVE Lab 2
Page 6
Revisado_agosto 2015_LWB/RS
Distribución porcentual de gastos de alimento
productos lácteos (13% )
otros (17% )
cereal y panificados (13% )
carne (24% )
bebidas sin alcohol (9% )
pescados y aves (7% )
frutas y vegetables (16% )
6. Los siguientes datos representan los gastos (en dólares/mes) de familias urbanas y rurales en
distintos rubros.
Familia
Urbana
Rural
alimentación
serv. e imp.
educación
otros
300
500
90
50
120
50
100
100
a. Para las familias rurales y urbanas, calcule (a mano) el porcentaje de los gastos
mensuales (totales) por categoría de gastos.
Familia
Urbana
Rural
alimentación
serv. e imp.
educación
otros
GASTOS
TOTALES
(por tipo de
familia)
300 (49.2%)
500 (71.4%)
90 (14.8%)
50 (7.1%)
120 (19.6%)
50 (7.1%)
100 (16.4%)
100 (14.3%)
610
700
b. A mano y en Infostat, haga un gráfico de sectores para las familias urbanas
mostrando los gastos proporcionales en las distintas categorías. Haga otro gráfico
para familias rurales. Compare sus gráficos con gráficos de sectores hechos con
AGRO 5005 – CLAVE Lab 2
Page 7
Revisado_agosto 2015_LWB/RS
InfoStat (ayuda: las categorías están en columnas, “familia” en “criterios de
clasificación”)
Los archivos para los siguientes ejercicios se encuentran en el menú “Archivo, abrir datos
de prueba”:
Ejercicio 6.
OPCIÓN A
Si se entran los datos en la misma forma como la tabla original, entonces cada categoría
tiene sus datos en una columna aparte. Por esta razón, se selecciona la opción de
“categorías en columnas”
Los distintos rubros son las clases de los sectores de la torta, e InfoStat genera una torta
aparte para cada tipo de familia (urbana y rural)
AGRO 5005 – CLAVE Lab 2
Page 8
Revisado_agosto 2015_LWB/RS
Gastos de familias urbanas y rurales en distintos rubros
Familia Urbana
Otros
Educacion
Alimentacion
Serv. e imp.
Familia Rural
Otros
Educacion
Serv. e imp.
Alimentacion
En estos gráficos de torta, se nota claramente que las familias urbanas gastan
proporcionalmente menos en la compra de alimentos comparadas con familias rurales (casi
50% vs. aprox. 70%), y dedican más de sus recursos a la educación (casi 20% vs. 7%).
Pero un gráfico de torta no nos dice nada sobre la cantidad de dinero gastado.
OPCIÓN B
Otra opción es usar un gráfico de barras adyacentes. ESTA OPCION NO ES LA
PREFERIBLE si el objetivo es comparar PORCENTAJES O PORCIONES DE UN
TOTAL!! Pero al contrario de la opción A (gráfico de torta), aquí se nota la cantidad de
dinero gastado en cada categoría (si esto fuera un manuscrito, uno utilizaría la tabla de
datos o el gráfico, no ambos – dan exactamente la misma información).
AGRO 5005 – CLAVE Lab 2
Page 9
Revisado_agosto 2015_LWB/RS
Gastos de Familias Urbanas vs. Rural en Distintos Rubros
600
Gastos en distintos rubros ($/mes)
500
400
Hay opciones en InfoStat para
modificar la tipografía – p. ej. Para
hacer este título con letras más
grandes – un “click” derecho
generalmente abre opciones en
InfoStat
300
200
100
0
Urbana
Rural
Familia
Alimentacion
Serv. e imp.
Educacion
Otros
a. Realice un gráfico de barras apiladas (con familia en “criterios de clasificación”),
seleccionando la opción de “apilar proporciones”. Como compara la información
presentada en este gráfico con la de la parte b?
Una tercera opción para graficar estos datos es la de barras apiladas, con totales ($/mes) o
con proporciones, dependiendo lo que el investigador le interesa presentar (objetivo del
estudio)
AGRO 5005 – CLAVE Lab 2
Page 10
Revisado_agosto 2015_LWB/RS
AGRO 5005 – CLAVE Lab 2
Page 11
Revisado_agosto 2015_LWB/RS
Gastos de familias urbanas y rurales en distintos rubros
1.00
Gastos en distintos rubros (Proporciones acumuladas)
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.00
Urbana
Rural
Familia
Alimentacion
Serv. e imp.
Educacion
Otros
NOTA: en el caso donde el eje Y representa proporciones (como aquí), un gráfico de
barras apiladas es en realidad un tipo de gráfico de torta.
7. Con el objetivo de estudiar la relación entre el peso (Y) y el perímetro (X) de cabezas de ajo,
prepare los diagramas de dispersión indicados utilizando los datos de Ajoblanc (datos del
perímetro (cm) y el peso (g) de la cabeza de 1600 ajos de cosechas de 1998 y 1999 [Fuente:
Software InfoStat]).
a. Haga un gráfico con ambos años juntos. ¿Hay una relación entre el perímetro y el
peso? Si su respuesta es sí, describa la relación.
b. Utilizando la opción de “particiones”, haga un gráfico que identifique el año con
colores diferentes. ¿Hay diferencias entre años?
Relación entre perímetro y peso en cabezas de ajo
160
140
peso (g)
120
100
80
60
40
20
0
0
5
10
15
20
25
30
perímetro (cm)
AGRO 5005 – CLAVE Lab 2
Page 12
Revisado_agosto 2015_LWB/RS
Para hacer un gráfico con los años separados, entra “año” en particiones y asegure que
“particiones en el mismo gráfico” esta seleccionado
En esta salida, vemos una de las “particularidades” de Infostat. Al pedir la leyenda, la
rotulación que sale dice “peso-1998” y “peso-1999” en vez de simplemente “1998” o “1999”
(que sería preferible). Utilizando “herramientos gráficas”, se puede modificar estas
rotulaciones (en “series” – haciendo un doble click sobre las etiquetas)
Título
160
peso (g)
120
80
40
0
0
8
15
23
30
perímetro (cm)
peso-1998
peso-1999
8. Utilizando el conjunto de datos CapacidadRespiratoria (un estudio realizado por una
compañía farmacéutica para examinar los efectos de tres drogas sobre la capacidad
respiratoria de pacientes de asma [Fuente: Software InfoStat]), prepare un gráfico de barras
de manera que pueda comparar cómo cambia con el tiempo la capacidad respiratoria
promedio bajo los distintas drogas. “Hora” = número de horas después de administrar la
droga [Ayuda: Querremos “hora” en el eje X (“criterios de clasificación”), y droga en
“particiones” (para tener barras adyacentes). Luego de “aceptar” por 1era vez, seleccione la
opción de “particiones en el mismo gráfico” y “medidas de confianza, ninguna”, seguido por
“aceptar” de nuevo).
AGRO 5005 – CLAVE Lab 2
Page 13
Revisado_agosto 2015_LWB/RS
AGRO 5005 – CLAVE Lab 2
Page 14
Revisado_agosto 2015_LWB/RS
Título
Cap_Respirat-P
4.00
3.00
2.00
1.00
0.00
1
2
3
4
5
6
7
8
Hora
Cap_Respirat-A
Cap_Respirat-B
Cap_Respirat-P
Título
Cap_Respirat-P
4.00
3.00
2.00
1.00
0.00
1
2
3
4
5
6
7
8
Hora
Droga A
Droga B
Droga P
En “series”, se puede modificar los nombres de las etiquetas en la leyenda (para mejorar la
apariencia de gráfico)
AGRO 5005 – CLAVE Lab 2
Page 15
Descargar