Laboratorio 1: Introducción

Anuncio
AGRO 5005: BIOMETRÍA
LABORATORIOS
Laboratorio 1: Introducción ................................................................................................ 2
Laboratorio 2: Manejo de datos – Gráficos I ...................................................................... 6
Laboratorio 3: Resumen gráfico de la información II ........................................................ 9
Laboratorio 4: Estadísticos descriptivos .......................................................................... 11
Laboratorio 5: Probabilidad y Distribución Binomial ...................................................... 14
Laboratorio 6: Distribución Normal ................................................................................. 17
Laboratorio 7: Distribuciones Muestrales ......................................................................... 20
Laboratorio 8: Intervalos de Confianza y Pruebas de Hipótesis ....................................... 22
Laboratorio 9: Pruebas t para una y dos muestras independientes ................................... 24
Laboratorio 10: Pruebas t para muestras pareadas ............................................................ 27
Laboratorio 11: Análisis de la Varianza ........................................................................... 29
Laboratorio 12: Tablas de Contingencia ........................................................................... 31
Laboratorio 13: Regresión y correlación lineal ................................................................ 33
Laboratorio 14: Diseño en bloques completos aleatorizados ........................................... 35
1
Laboratorio 1: Introducción
( x a )( xb )  x a b
( xy )a  x a y a
( x a ) / ( x b )  x a b
n !  n(n  1)(n  2) 1
( x a )b  x ab
0!  1
x1  x
x0  1
(1) Simplifique y evalúe las siguientes expresiones:
a. 102 x 105 = __________
b. (106)/(105) = ________
c. 23 x 32 = __________
d. (33)3 = ____________
e. 7! = _______________
f. 2-5 x 23 = __________
g. 42/22 = ___________
h. (5 x 3)2 = __________
i. (0.012)/(0.0012) = ________
j. (6!)/(3!) = __________
(2) Notación sumatoria. Escriba los sumandos de cada una de las sumas siguientes:
4
X
Ejemplo:
i 1
i
 X1  X 2  X 3  X 4
4
a.  ( X i  a)  
i 1
6
b.
X Y 
i 1
i i
3
c.
X
j 1
j

4
d. a X i 
i 1
(3) Para la muestra de tamaño n=5 presentada abajo, evalúe las siguientes sumatorias.
Use las funciones en su calculadora que le permitan simplificar los cálculos.
X1  119, X2  98, X3  79, X4  89, X5  95
5
a.
X
i 1
i
5
b.
X
i 1
i

/5 
2
5
c.
(X
i 1
i
 96) 
i
 96)2 
5
d.
 (X
i 1
5
e.
X
2
i
i 1
 ( X i ) 2 / 5 
(4) Identifique las posiciones en la matriz y evalúe las sumatorias. Recuerde que el
primer subíndice indica la fila, y el segundo la columna. (Ejemplo: en la fila 2 y columna
3, el valor numérico 5 puede ser identificado como X 2,3 )
 1

5 
2 

1
4
a.
X
i ,2

4, j

2
1, j

i 1
4
b.
X
j 1
4
c.
X
j 1
4,4
d.

i 1, j 1
X
i 1
3
7
3
2




X i, j 
4
e.




i ,i

3
2
5
3
1




3
6
4
2

 



(5) Cierto tipo de desperdicios contaminantes (como excrementos de ganado lechero)
puede traer problemas serios de contaminación por nitratos a los acuíferos. Para
estudiar este problema se escogieron 80 muestras aleatorias de agua en los acuíferos
del área norte de Puerto Rico.
a. Identifique la población de interés.
b. Identifique la muestra.
c. ¿Qué características de la población le interesaría medir para estudiar el
problema?
d. ¿Cómo resumiría la información obtenida en la muestra?
(6) Se desea estudiar la capacidad respiratoria (VO2MAX) de estudiantes universitarios.
Para ello se escogen 100 estudiantes al azar en el RUM y a cada uno se le medirá la
capacidad respiratoria. Además se registrará el sexo, la edad, el nivel de actividad
física, y otras características.
a.
b.
c.
d.
Identifique la población de interés.
Identifique la muestra.
¿Cómo podríamos seleccionar esta muestra?
¿Qué preguntas de investigación podrían formularse con la información
disponible en los estudiantes estudiados en la muestra?
Infostat es un programa en español que permite realizar la mayoría de los cálculos
estadísticos, tiene capacidades gráficas bastante avanzadas y un manejo de datos similar a
otros programas de bases de datos. La mayoría de los cálculos de resumen y de los
gráficos también pueden realizarse en Excel, pero los análisis estadísticos normalmente
no se pueden hacer en Excel sin programas adicionales.
En este ejemplo vamos a entrar datos que trabajaremos en los próximos laboratorios.
Representan una muestra aleatoria simple de 40 árboles de café. Los datos representan
presencia de roya (una enfermedad), altura (m) y diámetro (cm) de cada árbol.
4
Árbol
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Enfermo
no
si
no
no
no
no
si
no
no
no
si
no
no
no
no
no
no
no
si
no
no
no
no
no
no
no
no
no
no
si
si
no
si
si
no
no
si
no
no
si
Altura
3.17
3.27
2.60
2.24
3.58
2.89
3.00
3.74
2.83
2.13
2.83
4.23
3.24
3.22
2.23
2.62
3.31
2.95
2.48
2.59
2.61
2.71
2.61
4.96
2.05
3.97
2.73
3.09
3.48
2.57
3.17
2.34
3.23
3.62
3.55
2.67
3.41
2.43
0.96
2.67 5
Diámetro
11
9
10
18
6
14
11
9
11
8
6
10
12
8
8
12
11
5
8
7
13
2
5
9
14
15
13
10
12
8
5
10
7
11
5
6
10
14
10
(7) Usando el menú “datos, fórmulas”, transformar los datos de altura (m) a altura (pies)
y colocarlos en una nueva columna. (1m=3.28ft)
(8) Usando el menú “datos, acciones sobre las columnas, categorizar, por intervalos,
personalizado”, crear las siguientes 4 categorías de diámetro: hasta 5cm, más de 5cm
hasta 9cm, más de 9cm hasta 12cm, más de 12cm.
(9) Usando el menú “datos, ordenar”, contar cuántos árboles están enfermos.
5
Laboratorio 2: Manejo de datos – Gráficos I
Planes de muestreo
Para cada uno de los siguientes planes de muestreo, identifique el nombre del plan de
muestreo que se está usando e indique cuál es la unidad (o unidades) de muestreo.
1.
Se desea estimar el daño por roya (una enfermedad) de café en una finca. Para ello se
lleva a cabo el siguiente plan de muestreo: Caminando a lo largo de la primera hilera
en la finca, se elige aleatoriamente un árbol entre los primeros 20 árboles. Luego de
realizar esta evaluación se continúa caminando y se evalúa cada árbol ubicado en la
posición número 20 (es decir, se cuentan los árboles a partir del que se ha evaluado y
se evalúa cada 20 árboles). Como hay aproximadamente 600 árboles en la finca, se
espera muestrear alrededor de 30 árboles. A cada árbol se le realiza una evaluación
visual del daño por roya en las hojas (escala 1 a 5, con 1 representando “sin daño” y
5 representando “mayoría de hojas completamente dañadas”).
2.
Para estudiar la prevalencia de mastitis (definida aproximadamente como el
porcentaje de animales enfermos) en hatos lecheros en Puerto Rico se eligen 15
vaquerías aleatoriamente de la lista de vaquerías registradas en el Departamento de
Agricultura. En cada vaquería se examinan 12 vacas aleatoriamente elegidas.
3.
En un estudio de capacidad de secuestro de carbono por bosques secundarios, se va
a determinar la altura y el diámetro de todos los árboles en parcelas escogidas
aleatoriamente del área central de Puerto Rico. En cada una de las tres zonas
ecológicas identificadas en mapas se elegirán al azar parcelas de 0.5 hectáreas, y se
registrarán las variables de interés en todos los árboles de la parcela. La cantidad de
parcelas a elegir en cada zona ecológica es proporcional al área que esa zona
representa respecto al área total de la zona central de Puerto Rico.
Manejo de datos en Infostat
Para manejar datos en Infostat se puede trabajar con el menú Datos. Este menú permite
crear nuevas filas, insertar o eliminar filas, activar/desactivar casos (filas),
crear/insertar/eliminar columnas, poner etiquetas (nombres a las columnas), definir el
tipo de datos en una columna, la cantidad de decimales a mostrar, ordenar, crear
categorías, transformar y aplicar fórmulas. En este laboratorio vamos a trabajar con los
datos de café entrados en la última clase y con otros conjuntos de datos que ya están en
Infostat. Los archivos de Infostat se acceden con el menú “Datos, abrir datos de prueba”.
6
Descripción de algunos de los conjuntos de datos
 Atriplex: representa los datos de porcentaje de germinación, peso seco, plántulas
normales, tamaño y color de semillas, se cuenta con 27 registros (Fuente: Software
InfoStat)
 Hembras: se muestran medidas (diámetro del cuerpo, longitud de cola, longitud del
cuerpo, etc.) tomadas en hembras de una especie de nematodo que creció a distintas
temperaturas (Fuente: Software InfoStat)
 Ajo Blanco: se muestran 1600 datos de perímetro y el peso de la cabeza de 1600 ajos
de las cosechas de 1998 y 1999 (Fuente: Software InfoStat)
 Capacidad Respiratoria: Se muestran datos de un estudio realizado por una
compañía farmacéutica para examinar los efectos de tres drogas sobre la capacidad
respiratoria de pacientes de asma (Fuente: Software InfoStat)
Para usar el menú de gráficos debemos tener la tabla de datos abierta. Hay dos ventanas
relacionadas: Herramientas gráficas y Gráficos. Vamos a preparar distintos gráficos con
los datos provistos y aprenderemos las herramientas básicas sobre los ejemplos. Es muy
importante que practiquen distintas alternativas, opciones, etc. hasta lograr el gráfico
deseado. Una vez que está el gráfico completo podemos hacer copia del mismo para
ponerlo, por ejemplo, en Word o PowerPoint. En el manual de Infostat (menú
Ayuda>Manual) se describen todas las opciones gráficas disponibles.
Es importante recordar que Infostat solamente guarda los cambios efectuadas en la tabla
de datos abierta, es decir, no guarda ni gráficos ni la salida mostrada en la ventana
“Resultados”. Si queremos guardar los gráficos tenemos dos opciones: o los copiamos en
un documento (por ejemplo en Word), o los guardamos como gráficos de Infostat. La
última opción nos permitirá cambiarlos en el futuro, mientras que si queremos cambiar un
gráfico que ya está pegado en Word debemos rehacerlo en Infostat.
4. Realice un gráfico de barras para ver la altura promedio de árboles sanos y enfermos
(datos de café usados en el laboratorio 1). Use como variable a graficar la altura, y
como criterio de clasificación la variable enfermo. Las opciones que puede usar son
“media, ninguna medida de variabilidad”. Una vez obtenida arregle las escalas, los
ejes, etc. de manera que se pueda apreciar bien lo que se quiere mostrar.
5. Grafique los siguientes datos, referidos a la distribución porcentual del gasto de
alimento en distintas categorías.
Categoría
%
Productos lácteos
13.4
Cereal y panificados
12.6
Bebidas sin alcohol
8.9
Pescados y aves
7.5
Frutas y vegetales
15.6
Carne
24.5
Otras
17.5
7
6. Grafique los siguientes datos, que representan los gastos de familias urbanas y rurales
en distintos rubros, mediante un gráfico apropiado (Ayuda: dos gráficos de sectores, o
uno de barras adyacentes podrían usarse):
Familia
Urbana
Rural
alimentación
serv. e imp.
educación
otros
300
500
90
50
120
50
100
100
7. Prepare un diagrama de dispersión para los datos de ajo blanco, ya que deseamos
estudiar la relación entre el peso (Y) y el perímetro (X). Haga un gráfico con ambos
años juntos y otro gráfico que identifique el año con colores diferentes. ¿Hay
diferencias entre años?
8. Prepare un gráfico de barras para el conjunto de datos “capacidad respiratoria”, de
manera que pueda comparar cómo cambia con el tiempo la capacidad respiratoria
promedio bajo los distintas drogas (Ayuda: particiones por droga, y ubique las
particiones en el mismo gráfico).
8
Laboratorio 3: Resumen gráfico de la información II
1. Prepare el siguiente gráfico, presentado en las notas de clase (página 9) a partir de los
datos de Atriplex (porcentaje de germinación vs. tamaño, en barras adyacentes por
color):
% Germinación
100
75
50
25
0
chicas
medianas grandes
Tam año
PG-claro
PG-rojizo
PG-oscuro
2. Usando los datos de Atriplex, prepare un gráfico de puntos para graficar PS (peso de
semillas) en el eje vertical y color (episperma) en el eje horizontal. ¿Deberían usarse
conectores para unir las medias de PS en cada color?
3. Usando los datos de café, construya una tabla de frecuencias para la variable altura
(en metros) usando InfoStat (menú Estadísticas>Tablas de Frecuencias). Escoja
“número de clases personalizado”, con valor mínimo de .905, máximo de 5.105 y 7
clases (verificar que esto les da un ancho de clase de 0.6, como deseamos). Ahora
prepare un histograma de frecuencias absolutas a mano (usando la tabla de
frecuencias como base) y en Infostat (menú Gráficos>Histograma, use las mismas
clases que usó para la tabla de frecuencias: comience con 0.905m (como extremo
inferior de la primera clase) y use un ancho de clase de 0.6 m.
Tanto para tablas de frecuencias como para histogramas, en InfoStat se puede indicar
qué tipo de tabla/gráfica se desea (límites de clase, marca de clase, frecuencia
absoluta, frecuencia relativa, frecuencia absoluta acumulada y frecuencia relativa
acumulada).
4. Usando los datos del archivo salinidad, construya un histograma y una ojiva para
biomasa. Usando la ojiva, ¿qué porcentaje de las observaciones tienen biomasa menor
de 1000?, ¿y mayor de 2000?
5. Use los datos de ajo blanco. Construya un histograma de frecuencias relativas y un
polígono de frecuencias acumuladas para la variable perímetro. Aproximadamente,
¿qué porcentaje de las observaciones tienen perímetros mayores de 20?
9
6. En las siguientes gráficas, indique el nombre de cada gráfica, mencione cuáles
gráficas están correctas y cuáles podrían inducir a interpretaciones erróneas o falaces.
Justifique brevemente.
10
Laboratorio 4: Estadísticos descriptivos
Calcule los estadísticos indicados utilizando los datos de café. Realice los cálculos usando
Infostat y calculadora. Utilice las reglas de redondeo discutidas.
Diámetro (en cm) de árboles enfermos:
n
Yi  ______
i 1
s 2  _____
Md  _____
n
Y
i 1
2
i
 _____
s  _____
Q1  _____
Y  _____
n  _____
C.V .  _____
Q3  _____ IQR=_____
Altura (en m) de árboles (todos juntos):
n
n
Y  ______ Y
i 1
i
s 2  _____
Md  _____
i 1
i
2
 _____
s  _____
Q1  _____
Y  _____
n  _____
C.V .  _____
Q3  _____ IQR=_____
2. Determine el porcentaje de árboles cuyas alturas están dentro de los intervalos siguientes:
(a) Y  s : _____
(b) Y  2s : _____
(c) Y  3s : _____
(d) ¿Están de acuerdo estos porcentajes con aquellos que se esperarían en una
distribución normal? Justifique su respuesta.
3. La edad media de 5 personas en una habitación es de 20 años. Una persona de 26 años entra a
la habitación. ¿Cuál es ahora la edad media de las 6 personas?
4. Considere los datos de Hembras de nemátodos. Nos interesa estudiar si la longitud de la cola
(lcola) depende de la temperatura. Calcule estadísticos descriptivos que le permitan estudiar esta
relación. Indique sus conclusiones.
5. El siguiente gráfico representa los datos de biomasa estudiados en el laboratorio 3. Usando esta
gráfica indique los valores aproximados de la mediana, los cuartiles y el recorrido intercuartílico.
Calcule los mismos estadísticos usando Infostat y compare los resultados.
11
Polígono de frecuencias acumuladas
1.00
0.95
0.90
0.85
0.80
frec. rel. acumulada
0.75
0.70
0.65
0.60
0.55
0.50
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
200
400
300
600
500
800
700
1000 1200 1400
1600 1800 2000 2200 2400
900
1100
1300 1500 1700 1900
2100 2300 2500
Biomasa
7. Gráficas de caja.
Usando los datos de capacidad respiratoria base, realice gráficas de caja que le
permitan comparar las capacidades respiratorias bases de los pacientes sometidos a
las tres drogas diferentes.
8. Considere los datos de ajo blanco.
a. Calcule la media, mediana y cuartiles de los datos de peso y perímetro
clasificados por año.
b. Construya gráficos de caja para peso (clasificado por año)
c. Construya gráficos de caja para perímetro (clasificado por año).
d. ¿Cuál de las distribuciones de datos es más simétrica: las de pesos o las de
perímetros? Justifique su respuesta usando tanto los resultados de la parte (a)
como los gráficos.
12
REGLAS DE REDONDEO



Utilice un dígito decimal adicional a la cantidad de decimales presentados en las
observaciones originales.
Redondee su respuesta final, y no los cálculos intermedios (por ejemplo, no use una
varianza redondeada para calcular la desviación estándar).
Cuando un 5 (exactamente un 5) tiene que ser redondeado: redondee hacia arriba cuando
el dígito previo es impar, y redondee hacia abajo si el dígito previo es par.
Ejemplo 1 (datos originales son enteros).
Valor calculado
58.4500
58.3500
58.4506
58.3512
58.4219
58.4780
58.9981
58.0136
Valor redondeado
58.4
58.4
58.5
58.4
58.4
58.5
59.0
58.0
Ejemplo 2 (datos originales tienen un
decimal)
Valor calculado
1.5650
1.5550
1.2135
1.3765
1.7051
1.9921
1.9962
1.0028
Valor redondeado
1.56
1.56
1.21
1.38
1.71
1.99
2.00
1.00
13
Laboratorio 5: Probabilidad y Distribución Binomial
1. Para el experimento aleatorio de arrojar 3 monedas diferentes (una de $0.05, una
de $0.10 y una de $0.25), realice una lista con los 8 resultados igualmente
probables.
a. Calcule P(A=observar menos de 2 caras).
b. Calcule P(B=observar 1 o más caras).
c. Calcule P(C=exactamente 3 caras).
d. ¿Son A y B mutuamente excluyentes?
e. ¿Son A y C mutuamente excluyentes?
f. ¿Son B y C mutuamente excluyentes?
g. Calcule P( A  B), P( A  C), P(C ).
2. Considere nuevamente el experimento de arrojar tres monedas diferentes, y defina
la variable aleatoria Y = cantidad de caras que se obtienen.
a. ¿Es ésta una variable aleatoria discreta o continua?
b. Realice una lista de los posibles valores de Y, y calcule las probabilidades de
cada uno de ellos.
c. Grafique la distribución de probabilidad calculada en la parte (b).
3. La tabla siguiente representa los resultados de un estudio para comparar un
tratamiento nuevo para prevenir el resfrío común. Trescientos pacientes fueron
tratados, mientras que 200 pacientes comparables no se trataron. Los resultados
indican la cantidad de pacientes que no tuvieron ningún resfrío, un resfrío o más
de un resfrío durante la temporada invernal.
Pacientes
Tratados
No tratados
No
145
80
Resfríos
Uno
80
70
Total
Más de uno
75
50
300
200
Si un paciente se escoge al azar de entre los 500 pacientes del estudio,
a. ¿cuál es la probabilidad de que haya sido tratado y no haya tenido resfríos?
b. ¿cuál es la probabilidad de que no haya sido tratado y haya tenido uno o más
resfríos?
Si un paciente se escoge al azar de entre los 300 pacientes tratados,
c. ¿cuál es la probabilidad de que no haya tenido resfríos?
d. ¿cuál es la probabilidad de que haya tenido más de un resfrío?
Si un paciente se escoge al azar de entre los 200 pacientes no tratados,
e. ¿cuál es la probabilidad de que no haya tenido resfríos?
f. ¿cuál es la probabilidad de que haya tenido más de un resfrío?
g. Comparando sus respuestas a las preguntas (c) y (e), ¿podría afirmar que el
tratamiento parece efectivo?
14
4. En estudios ecológicos nos interesa estudiar cómo dos especies de árboles se
mezclan o se separan en un bosque. Supongamos que estamos estudiando dos
especies, A y B. Un método para medir su asociación es muestrear aleatoriamente
un árbol, ver de qué especie es, y entonces observar la especie del árbol vecino
más cercano. Este proceso se repite para muchos árboles. Se muestran los datos
obtenidos para dos bosques.
Árbol
muestreado
Bosque I
A
B
Total
A
30
10
40
B
5
55
60
Total
35
65
100
Bosque II
Árbol
muestreado
Vecino más cercano
Vecino más cercano
A
B
Total
A
5
35
40
B
30
30
60
Total
35
65
100
a. Para un árbol elegido al azar en el bosque I, encuentre la probabilidad que,
1. Sea de la especie A.
2. Tenga un vecino de la especie A, dado que se observó que el árbol
muestreado era de la especie A.
3. Tanto el árbol muestreado como su vecino sean de la especie A.
4. Tanto el árbol muestreado como su vecino sean de la misma especie.
b. Responda las preguntas anteriores para un árbol elegido al azar en el bosque II.
c. ¿Qué probabilidad podría usarse como medida de asociación entre especies?
d. ¿Cuál de los bosques parece tener mayor separación de las especies? ¿Por qué?
15
Distribución binomial. Para calcular probabilidades de la distribución binomial (y otras)
en Infostat se puede usar el menú Estadísticas > Probabilidades y cuantiles.
5. Suponga que solamente el 30% de los estudiantes en una escuela se ejercitan lo
suficiente. Si se obtiene una muestra aleatoria de 10 estudiantes de esa escuela,
a. ¿cuál es la probabilidad que ninguno de los estudiantes en la muestra se
ejerciten lo suficiente?
b. ¿Cuál es la probabilidad que 3 o menos de los estudiantes en la muestra se
ejerciten lo suficiente?
6. Los entomólogos están a menudo interesados en estudiar el efecto de atrayentes
químicos (feromonas) sobre los insectos. Una técnica común es liberar varios
insectos a una distancia igual de la feromona bajo estudio y de una sustancia sin
efecto (control). Si la feromona tiene efecto, más insectos se dirigirán hacia ella
en vez de dirigirse hacia el control. Si no hay ningún efecto, un insecto se dirigirá
hacia una de las dos posibilidades con igual probabilidad (es decir, la probabilidad
que el insecto se dirija hacia la feromona es 0.5). En un experimento 5 insectos se
liberan. Calcule las siguientes probabilidades suponiendo que la feromona no
tiene ningún efecto.
a. P(los cinco insectos se dirijan hacia la feromona)
b. P(exactamente cuatro insectos se dirijan hacia la feromona)
c. P(al menos 1 insecto se dirija hacia la feromona)
7. Una profesora de biometría va a dar un quiz con 10 preguntas “cierto-falso”.
Supongamos que un estudiante adivina cada respuesta independientemente (es
decir, no tiene idea del tema).
a. ¿Cuál es la probabilidad que el estudiante acierte las 10 preguntas?
b. ¿Cuál es la probabilidad que el estudiante acierte al menos 8 preguntas?
c. ¿Cuál es la probabilidad que el estudiante acierte no más de 6 preguntas?
d. Si la profesora decide que aprobarán el quiz todos los estudiantes que
contesten correctamente por lo menos 6 de las 10 preguntas, ¿qué porcentaje
de los estudiantes que adivinan cada respuesta pasarán el quiz?
8. Se conoce que sólo el 35% de las semillas de una planta en peligro de extinción
son capaces de germinar bajo condiciones de invernadero. Se sembrarán 20
semillas.
a. ¿Cuál es la probabilidad que germinen al menos la mitad de ellas?
b. ¿Cuál es la probabilidad que germinen 5 o menos semillas?
c. Si observamos que ninguna de las semillas ha germinado, ¿es razonable
pensar que el porcentaje de germinación en la población es del 35%?
Explique.
16
Laboratorio 6: Distribución Normal
La tabla 1 del texto presenta la probabilidad de que un valor aleatorio de Z = (Y-µ)/ sea menor
que el valor tabulado z (área bajo la curva entre menos infinito y z). Para realizar lo mismo en
InfoStat se puede usar el menú Estadísticas > Probabilidades y Cuantiles. Recuerde redondear
probabilidades a cuatro lugares decimales.
1.
Use la tabla e Infostat para determinar las probabilidades siguientes:
a. P(Z<-2)=
b. P(Z>2.56)=
c. P(Z<-1.23)=
d. P(Z<2.25)=
e. P(-1.63<Z<2.57)=
f. P(-1.70<Z<-0.25)=
g. P(1.42<Z<1.89)=
2. Encuentre el valor de a tal que la probabilidad sea la especificada. Incluya un diagrama
en cada caso. Use la tabla e Infostat.
a. P(Z<a)=.84
b. P(Z>a)=.19
c. P(Z<a)=.23
d. P(Z>a)=.65
e. P(-a<Z<a)=.90
3. Otra alternativa en Infostat es usar el menú Aplicaciones > Didácticas > Gráficos de
funciones de densidad continuas. Aquí no sólo obtenemos las probabilidades sino
también las gráficas. Para superponer varias gráficas es posible usar la opción clonar
(herramientas gráficas). Se obtendrá una copia (clon) de la serie gráfica original. Si
seleccionamos esta nueva serie podemos cambiar sus parámetros y comparar ambas
distribuciones. Grafique en un mismo gráfico las funciones correspondientes a tres
distribuciones normales:
   10,  2  1 ,    10,  2  3 ,    9,  2  3 .
4. Usando la definición de cuartiles (valores de la variable que dejan un 25% o un 75% de la
distribución a la izquierda), calcule los valores de Q1 y Q3 en la distribución normal
estandarizada. ¿Cuál es el valor de RIC (recorrido intercuartílico)? Use la tabla e Infostat.
17
Para encontrar probabilidades asociadas con una distribución normal general se debe transformar
el valor de Y en Z y usar la tabla. Ejemplo: Dado Y ~ N ( ,  2 ) , calcular P(Y<115): P(Y<115) =
P(Z<(115-100)/6) = P(Z<2.50) = 0.9938. El problema inverso (encontrar un valor de Y que
acumule cierta probabilidad) se resuelve calculando primero el valor de Z y después resolviendo
la ecuación z 
y

. Ejemplo: Encontrar a tal que P(Y<a)=0.6591. A partir de las tablas de Z,
P(Z<.41)=.6591. Entonces .41=(a-100)/6, por lo que a=102.46. No olvide que para encontrar el
valor de a primero tenemos que expresar la probabilidad como P(Y<a), es decir no podemos ir a
la tabla directamente con P(Y>a).
5. Para Y ~ N (  100,  2  36) , calcule las siguientes probabilidades. Incluya un
diagrama en cada caso. Use tablas e InfoStat.
a. P(93<Y<102)=
b. P(90<Y<95)=
c. P(Y>103)=
d. P(Y<98)=
6. Para la misma situación Y ~ N (  100,  2  36) , calcular los valores de a. Incluya un
diagrama en cada caso. Use tablas e InfoStat.
a. P(Y>a)= .25
b. P(Y<a)= .08
c. P(Y>a)= .72
d. P(Y<a)= .995
7. Un programa de selección en maíz trata de obtener plantas no demasiado altas. Suponga
que la altura de las plantas sigue una distribución normal con media 160 cm y desviación
estándar 21 cm.
a.
¿Qué proporción de las plantas van a ser eliminadas si se decide descartar todas
las plantas cuya altura exceda 180 cm?
b.
¿A partir de qué altura se deberían descartar las plantas si se desea eliminar un
20% del lote?
8. La cantidad de oxígeno disuelta en el agua de ríos depende de la temperatura, la cantidad
de materia orgánica en descomposición, de la presencia de contaminantes, etc. El Council
of Environmental Quality (CEQ) considera que un contenido de oxígeno disuelto menor
de 5 mg/l es indeseable porque no sería capaz de sustentar la vida acuática. Suponga que
una planta industrial descarga sus residuos en el río y las mediciones de oxígeno disuelto
corriente abajo de la descarga tienen una distribución normal con media de 6.5 mg/l y
desviación estándar de 0.6 mg/l.
a.
¿Qué proporción de los días será el contenido de oxígeno disuelto considerado
indeseable por el CEQ?
b.
¿Hasta qué valor podría caer el contenido de oxígeno disuelto? (ayuda: ¿entre
qué valores de la variable Ud. espera encontrar virtualmente todas las
observaciones?)
18
9. La longitud del caparazón del langostino Thenus orientalis, encontrado comúnmente en
los mercados de Singapur, tiene una distribución aproximadamente normal, con una
media de 59.5 mm y una desviación estándar de 4.6 mm.
a. Si va a seleccionar aleatoriamente un langostino de esta población, ¿qué probabilidad
tiene de que éste tenga una longitud menor de 55mm?
b. Si el gobierno decretara que todos los langostinos que se vendan en el mercado deben
tener una longitud mínima de 50mm, ¿qué proporción de los langostinos serán de un
tamaño ilegal para la venta?
c. Un comerciante tiene una anuncio que dice “Nosotros garantizamos que los todos los
langostinos que vendemos en este negocio son los más grandes disponibles”. ¿Qué
longitud mínima deberían tener para asegurarnos que esto langostinos están en el 10%
superior de la población?
19
Laboratorio 7: Distribuciones Muestrales
La siguiente es una población (artificial) con 10 individuos (elementos). Tenemos aquí
los valores de cada elemento (supongamos, p.ej., que son diámetros de árboles). Los
parámetros de esta población son   2.5,  2  1.45.
Población original
frecuencia absoluta
4
3
2
1
0
1
1
2
3
4
5
6
Columna4
1. Generar en Infostat todas las muestras posibles de tamaño n=2 y n=5 (se puede usar el
menú Aplicaciones>Didácticas>Todas las muestras posibles). Calcular la media de cada
muestra y guardar estas medias en dos columnas de datos (usar copiar/pegar). Graficar la
distribución muestral de la media para ambos tamaños usando la misma escala horizontal.
a. ¿Cuál de las dos distribuciones tiene menos variabilidad?
b. ¿Cómo se comparan las medias de ambas distribuciones?
c. ¿Son suficientemente grandes los tamaños de estas muestras como para que las
distribuciones parezcan normales?
2. El archivo zanahoria.idb contiene los pesos de 144 zanahorias (en g).
a. Calcule la media y la varianza de la población.
b. Prepare un histograma de frecuencias relativas con las observaciones en esta
población (use para el eje horizontal un valor mínimo de 0 y un máximo de 1200).
3. Para verificar las propiedades de la distribución muestral de la media, vamos a tomar
muestras con reemplazo de la población de zanahorias descripta en la parte2. Use el
menú Aplicaciones>Didácticas>Muestreo-Remuestreo.
20
a. Escoja 1000 muestras con reposición de tamaño n=4 y use la opción de guardar la
media muestral.
b. Calcule la media y la varianza poblacionales de la población de 1000 medias de
tamaño n=4.
c. Prepare un histograma de frecuencias relativas de la población de 1000 medias de
tamaño 4. (Use para el eje horizontal un valor mínimo de 0 y un máximo de
1200.)
d. Repita las partes a, b y c para tamaño de muestra n=16.
e. Comparar las medidas de resumen de la población original, de la población de
medias de n=4, y de la población de medias de n=16.
f. Comparar los histogramas de la población original, de la población de medias de
n=4, y de la población de medias de n=16.
4. La distribución del porcentaje de grasa láctea en ganado Holstein durante la década de
1970 era aproximadamente normal con una media de 3.4 y una desviación estándar de
0.3.
(a) ¿Qué porcentaje de las vacas producían leche con menos de 3 de grasa?
(b) ¿Qué porcentaje de las vacas producían leche con más de 4 de grasa?
(c) Calcule el percentil 95 de la distribución de grasa láctea. Interprete este valor.
5. Supongamos que una muestra aleatoria de n  25 vacas Holstein se selecciona de la
población mencionada en el problema 4. A cada vaca se le mide el porcentaje de grasa en
su leche, y se calcula la media muestral.
(a) ¿Cómo sería la distribución de los valores posibles de Y ?
(b) Compare la forma de la distribución de Y con la forma de la distribución de Y (el
porcentaje de grasa láctea en cada vaca).
(c) Calcule la probabilidad que una muestra aleatoria de tamaño 25 tenga una media muestral
menor de 3. Compare este resultado con el de 4.
21
Laboratorio 8: Intervalos de Confianza y Pruebas de Hipótesis
1. Usando Infostat, genere 100 intervalos de confianza del 90% y calcule el porcentaje que
no cubren a la media verdadera (use el menú Aplicaciones>Didácticas>Intervalos de
confianza). Realice esto para datos de una distribución normal con   20,  2  9 y
tamaños de muestra n=5, n=20, n=50.
a. ¿Cambian significativamente los porcentajes de cobertura según cambia el
tamaño muestral?
b. ¿Cómo se comparan los anchos de estos intervalos? Grafíquelos en la misma
escala.
2. Determine el tamaño de muestra si se sabe que 2=100 y que los L.C. del 95% son 17.2 y
22.8. Realícelo a mano y usando Infostat (Estadísticas>Cálculo de tamaño muestral>Para
estimar una media con una precisión dada).
3. Un biólogo desea estimar el efecto de un antibiótico sobre el crecimiento de una bacteria.
Experiencias anteriores indican que la desviación estándar del crecimiento (medido en
cm2) en placas de Petri con antibiótico añadido es 13 cm2. Determine el número de placas
que tiene que preparar para estimar el crecimiento promedio con un error de no más de 3
cm2 (esto es, se desea que la media poblacional de crecimiento no esté a una distancia
mayor que 3 de la media muestral). Use un nivel de confianza del 99%. Verifique sus
resultados con Infostat.
4. Se desea llevar a cabo un estudio sobre el peso promedio de chillos de tamaño comercial
en el área de La Parguera. Estudios previos realizados hace varios años indican que la
varianza del peso de chillos es de 1.6 lb2.Determine el tamaño de muestra que se
requeriría si se va a estimar el peso promedio con un error de  0.5 lb (y una confianza
del 95%). Verifique sus resultados con Infostat.
5. Para la situación anterior, ¿cómo se podría aproximar la varianza si no se tuviera
información previa?
6. Se desea probar que, luego de un tratamiento para un problema cardíaco, los pacientes
pueden ejercitarse más de 2 minutos. Se registró el incremento en la capacidad de realizar
ejercicios (en minutos) para 90 pacientes adultos. La media muestral fue de 2.2 minutos,
y la desviación estándar de 1.05. Use estos datos para probar la hipótesis nula H0: =2
versus Ha: >2. Use =.05 e indique sus conclusiones en términos de este problema.
7. Calcule el nivel de significancia observado de la prueba realizada en la parte 6 (“valor p”)
y úselo en vez de la región de rechazo para probar las hipótesis. Presente un gráfico en
Infostat (Aplicaciones >Didácticas> Gráfico de funciones de densidad continuas)
22
8. Se sospecha que las vacas en Puerto Rico están más infestadas por garrapatas (Boophilus
microplus) que en el resto del Caribe (donde la infestación promedio es 130
garrapatas/vaca). Una muestra aleatoria de 80 vacas en Puerto Rico presentó un promedio
de 134.1 garrapatas por vaca, con una varianza de 50.
Calcule el intervalo de confianza del 90% para , el promedio de garrapatas por vaca
en Puerto Rico.
b. Formule y pruebe las hipótesis de interés (=.05).
a.
23
Laboratorio 9: Pruebas t para una y dos muestras
independientes
Pruebas de hipótesis para una media usando la distribución t. Ejemplo resuelto en Infostat
Se ha realizado un estudio para determinar si cerdos alimentados con una dieta reformulada aumentan
más de 20 lbs (en promedio) durante un periodo de alimentación de un mes. Para ello se usaron 12 cerdos,
cuyos aumentos de peso se presentan a continuación:
17, 22, 20, 19, 53, 21, 25, 40, 30, 19, 11, 16
H0 :   20
Ha :   20
Y  0 24.417  20
Estadístico de la prueba: t 

 1.313
s
11.650
n
12
Región de rechazo:
t  t0.05,11gl  1.796
Hipótesis
Conclusiones:
No se rechaza H0 .
24
1. Calcule las siguientes probabilidades usando la tabla t e InfoStat. Incluya un diagrama en
cada caso.
a. P(T>1.356) si gl=12
b. P(T<2.101) si gl=18
c. P(T<-1.319) si gl=23
d. P(T<-1.711) si gl=24
e. P(T<.697) si gl=11
2. Determine los valores críticos (valores en la tabla) de t, haga un diagrama de la
distribución y lleve a cabo las pruebas indicadas. Calcule los valores p usando el
calculador de probabilidad de Infostat (o el graficador).
a.
H0 :   30, Ha :   30, n  16, Y  32, s2  25,   0.05
b.
H0 :   58, Ha :   58, n  18, Y  57, s2  100,   0.05
c.
H0 :   25, Ha :   25, n  25, Y  9, s2  20,   0.05
d.
H0 :   430, Ha :   430, n  10, Y  400, s2  14,   0.01
3. Los rendimientos de 7 plantas de piña aleatoriamente escogidas, variedad “Cabezona”, fueron
4.2, 5.6, 4.3, 4.8, 5.7, 5.5 y 4.9 kg/planta.
(a) Construya un intervalo de confianza del 95% para la media poblacional.
(b) Pruebe H0: =4.5, Ha: 4.5 usando =.05.
(c) Repita los pasos 1 y 2 usando InfoStat.
25
4. Se condujo un experimento para examinar la susceptibilidad de raíces de cierta variedad de
limonero a una larva específica con el objetivo de probar si la cantidad de larvas en las raíces era
menor en esta variedad que lo que normalmente se encuentran en las variedades tradicionales.
Cuarenta y un plantas se expusieron a la larva, y se examinaron luego de cierto tiempo. La
respuesta de interés es el logaritmo del número de larvas por gramo encontradas en cada raíz.
Para las 41 plantas estudiadas, la media muestral fue 9.02 y la desviación estándar 1.12.
(a)
Pruebe la hipótesis que =10 versus <10 usando =.01.
(b)
Calcule el valor p usando InfoStat.
(c)
Construya un intervalo de confianza del 95% para la susceptibilidad media de las raíces.
5. En una compañía farmacéutica se desea comparar la presión arterial sistólica de empleadas que
usan anticonceptivos orales que no usan anticonceptivos orales (todas entre 30 y 35 años de
edad). Se obtuvieron dos muestras aleatorias: una de 8 empleadas que usan anticonceptivos orales
y otra de 21 empleadas que no usan anticonceptivos orales, y se les midió la presión arterial (mm
Hg). Los resultados fueron los siguientes:
Usan anticonceptivos orales:
n=8, Y = 132.8 mm Hg, s=15.3 mm Hg
No usan anticonceptivos orales:
n=21, Y = 127.4 mm Hg, s=18.2 mm Hg
(a) Conduzca una prueba para determinar si hay diferencias significativas entre las medias. Use
=.05.
(b) Pruebe si las empleadas que usan anticonceptivos orales tienen una presión arterial sistólica
mayor (en promedio) que las no los usan. Use =.05.
6. Un inspector de control de contaminación sospechaba que una comunidad ribereña estaba
descargando aguas servidas no-tratadas en el río y eso cambiaba el nivel de oxígeno disuelto en el
río. Para probar esto, obtuvo 5 muestras aleatorias de agua del río en una zona río arriba del
pueblo, y otras 5 muestras en una zona río abajo del pueblo. Se midieron los niveles de oxígeno
disuelto, en ppm. ¿Proveen los datos evidencia de un contenido menor de oxígeno río abajo? Use
=.05.
Río arriba: 4.8, 5.2, 5.0, 4.9, 5.1
Río abajo: 5.0, 4.7, 4.9, 4.8, 4.9
7. Un estudio se realizó en 16 vacas lecheras. Ocho vacas fueron asignadas aleatoriamente a un
régimen de líquidos de agua solamente (grupo 1), y las otras recibieron suero líquido solamente
(grupo 2). Además, a cada animal se le dio 7.5 kg de grano por día, y se le permitió comer heno a
voluntad. Se registró, entre otras cosas, la cantidad de heno (en kg/vaca) consumido diariamente.
Grupo 1: 15.1, 14.9, 14.8, 14.2, 13.1, 12.8, 15.5, 15.9
Grupo 2: 6.8, 7.5, 8.6, 8.4, 8.9, 8.1, 9.2, 9.5
(a) Pruebe la hipótesis que hay diferencias entre los consumos diarios promedios de heno en los dos
grupos con =.01.
(b) Construya un intervalo de confianza del 99% para la verdadera diferencia entre la medias de
ambos grupos. El intervalo obtenido, ¿contiene el valor 0? ¿Qué relación tiene esto con sus
conclusiones en la parte a?
(c) ¿Cuáles son los supuestos necesarios para las pruebas realizadas en la parte a? Comente sobre su
validez en este caso (grafique los datos si fuese necesario).
26
Laboratorio 10: Pruebas t para muestras pareadas
PARTE I. Incluya en cada caso todos los pasos necesarios para probar las hipótesis correspondientes,
una gráfica con ttab, cálculo del valor p, conclusiones e interpretaciones. A menos que esté especificado de
otra manera, use =.05.
1. Se desean comparar los rendimientos de dos nuevas variedades de maíz. Debido a que existe una gran
variabilidad en los rendimientos en distintas fincas, se escogieron 7 fincas al azar, y se plantó una
parcela con cada una de las variedades en cada finca. Los resultados del experimento son los
siguientes (en ton/ha):
Finca
1
2
3
4
5
6
7
Variedad A
4.82 4.46
4.97
4.05
5.46
4.71
5.14
Variedad B
4.15
4.01
4.40
4.12
4.98
4.17
4.68
(a) Pruebe la hipótesis de igualdad en los rendimientos de las dos variedades versus la alternativa a
dos colas. Use =.05.
(b) Construya un intervalo de confianza del 95% para 1-2, la verdadera diferencia entre los
rendimientos de las variedades A y B. . El intervalo obtenido, ¿contiene el valor 0? ¿Qué relación
tiene esto con sus conclusiones en la parte a?
2. Los datos siguientes son logaritmos de recuentos de bacterias en siete botellas de leche (escogidas
aleatoriamente), tomados antes y después de un tratamiento térmico. Se desea conocer si el
tratamiento reduce el número de bacterias. Formule y pruebe las hipótesis de interés usando =.05.
Botella
Antes Después
1
6.98
6.95
2
7.08
6.94
3
8.34
7.17
4
5.30
5.15
5
6.26
6.28
6
6.77
6.81
7
5.45
5.36
3. Se tomaron 11 hojas, una de cada una de 11 plantas de tabaco. Cada hoja se dividió en dos mitades.
Una de las mitades se eligió al azar y se trató con preparación I y la otra mitad se trató con
preparación II. El objetivo del experimento era comparar los efectos de las dos preparaciones del
virus del mosaico sobre el número de lesiones después de un cierto período de tiempo. Los datos se
presentan en la siguiente tabla:
Planta Prep. I
1
18
2
20
3
9
4
14
5
38
6
26
7
15
8
10
9
25
10
7
11
13
Prep. II
14
15
6
12
32
30
9
2
18
3
6
27
PARTE II: Trabajando en grupos de 2-3 estudiantes, decida cuál de las pruebas t (para muestras
independientes o para datos pareados) usaría Ud. en cada una de las siguientes situaciones.
Presente las hipótesis nula y alternativa. Justifique brevemente.
4. Una corporación petrolera está interesada en realizar algunas pruebas preliminares para
comparar una nueva mezcla de gasolina con otra actualmente en el mercado. Diez
automóviles idénticos se asignaron aleatoriamente, 5 a una gasolina y 5 a la otra gasolina.
Cada automóvil se llenó con 10 galones de gasolina y se condujo en una pista de pruebas
hasta que la gasolina se agotó. El resultado fueron las millas recorridas en cada caso.
5. Una compañía tiene una política muy generosa (pero muy complicada) para ofrecer el bono
de navidad al personal gerencial de menor rango. El factor clave en la decisión es un juicio
subjetivo de la "contribución a los objetivos de la corporación". Un encargado de personal
tomó muestras de 20 gerentes mujeres y 20 gerentes hombres para ver si había diferencias
entre los bonos. Las observaciones se registraron como un porcentaje del salario anual.
6. En un estudio de los posibles factores que influyen en la frecuencia de pájaros embestidos
por aviones (que, irónicamente, se ve como un peligro para los aviones), el nivel de ruido de
varios aviones se midió dos segundos después del despegue (momento en que las ruedas
dejan de tocar tierra). Veintidós jets de cabina ancha y 10 jets de cabina angosta se midieron
y sus niveles de ruido se compararon.
7. Dos aleaciones se usan en la fabricación de barras de acero. Se desea comparar la resistencia
de las barras hechas con cada aleación. Se toman muestras aleatorias de 9 barras de la
aleación A y de 15 barras de la aleación B.
8. Con el objeto de estudiar el crecimiento de bacterias bajo dos dosis distintas de un cierto
bactericida, se prepararon 20 placas de Petri. En 10 de ellas se colocaron 200 ppm del
bactericida en el medio de cultivo, y en las otras 10, 1000 ppm. Luego de inocular las placas
con las bacterias, se colocaron en una cámara en forma completamente aleatoria, y al cabo de
cierto tiempo se midió el crecimiento radial de las bacterias.
9. Para estudiar el efecto de la exposición de flores de alfalfa a diferentes condiciones
ambientales se escogieron 10 plantas vigorosas con flores expuestas libremente en la parte
alta, y flores escondidas en la parte basal. Se determinó el número de semillas producidas por
10 vainas en cada ubicación (parte superior y parte inferior).
10. Con el objeto de evaluar si una nueva formulación permite obtener mayores aumentos de
peso, una muestra de 8 novillos es alimentada con la ración regular, y otra muestra de 8
novillos es alimentada con la ración reformulada. Se analizan los pesos de los novillos luego
de un año.
11. Para estudiar el efecto de un tratamiento con fungicidas (usado para eliminar hongos) a
plantas de geranio, se registró la densidad de esporas del hongo Phytium sp. antes de aplicar
un tratamiento a 15 tiestos con plantas de geranio. A los 10 días de aplicar el tratamiento, los
mismos tiestos se evaluaron nuevamente y se registró la densidad de esporas del mismo
hongo.
28
Laboratorio 11: Análisis de la Varianza
1. Se está diseñando un experimento para comparar 4 variedades de habichuela. Se usarán 6
parcelas con cada una de las variedades en un diseño completamente aleatorizado en un área
experimental homogénea rectangular de 8x3 parcelas.
a. Prepare un mapa del área experimental con la asignación de los distintos tratamientos
(=variedades) a cada una de las parcelas.
b. Prepare un esquema de la tabla de ANOVA indicando fuentes de variación y grados de
libertad.
2. Se condujo un experimento para comparar el contenido de almidón en plantas de tomate bajo
distintos nutrientes (control, A o B). Doce plántulas se seleccionaron para el estudio,
asignándose cuatro a cada uno de los tratamientos aleatoriamente. Cada planta se colocó en
un tiesto con el nutriente correspondiente, y se ubicaron al azar en un invernadero. El
contenido de almidón en los tallos se determinó 25 días después (en g/mg).
Control
Nutriente A
Nutriente B
21
12
7
18
14
9
16
15
6
14
10
7
a. Formule y pruebe las hipótesis de interés usando =.05 (use InfoStat y verifique sus
resultados con las fórmulas de trabajo presentadas en la conferencia).
b. Realice todas las comparaciones de a pares usando el método de DMS de Fisher. Use
=.05 (use InfoStat y verifique sus resultados con las fórmulas de trabajo presentadas en
la conferencia).
c. Construya un intervalo de confianza del 95% para la diferencia entre las medias del
nutriente A y el control.
d. Construya un intervalo de confianza del 99% para la media del nutriente B.
3. Se condujo un experimento para probar los efectos de 5 dietas diferentes en pavos. Seis
pavos se asignaron aleatoriamente a cada uno de los 5 dietas, y se alimentaron por un período
fijo de tiempo. Los resultados (libras de aumento de peso) se presentan a continuación. Use
Infostat para resolver este ejercicio.
Grupo
Control
Control+Dosis 1 del aditivo A
Control+Dosis 2 del aditivo A
Control+Dosis 1 del aditivo B
Control+Dosis 2 del aditivo B
Aumento de peso (lbs)
4.1, 3.3, 3.1, 4.2, 3.6, 4.4
5.2, 4.8, 4.5, 6.8, 5.5, 6.2
6.3, 6.5, 7.2, 7.4, 7.8, 6.7
6.5, 6.8, 7.3, 7.5, 6.9, 7.0
9.5, 9.6, 9.2, 9.1, 9.8, 9.1
29
a. Pruebe las hipótesis de interés usando =.05.
b. Realice todas las comparaciones de a pares (Prueba DMS de Fisher).
c. Grafique sus resultados. Incluya líneas (“bigotes”) sobre las barras que representen el
valor del DMS.
d. Construya un intervalo de confianza del 90% para la media del grupo control.
4. Se probaron 5 métodos para empacar y congelar yuca. De un grupo de 25 yucas homogéneas
se escogieron 5 aleatoriamente y se procesaron con el método I. Otras 5 se procesaron con el
método II, y así sucesivamente. La respuesta de interés es el rendimiento (en % del peso
inicial obtenidos luego del proceso) obtenido al final del proceso.
Método
I
II
III
IV
V
Rendimientos
60, 52, 56, 52, 65
64, 74, 66, 64, 67
55, 66, 68, 57, 55
55, 56, 70, 59, 62
71, 65, 60, 69, 62
a. ¿Existen diferencias significativas entre los rendimientos promedio de los diferentes
métodos? Pruebe usando =.05.
b. Realice una prueba de DMS e indique claramente sus conclusiones.
c. Grafique sus resultados. Incluya líneas (“bigotes”) sobre las barras que representen el
valor del DMS.
5. Se desea saber si existen diferencias entre tres grupos de pacientes asmáticos en cuanto a su
reacción al SO2 (cm H2O/s). Los grupos se definieron por su función pulmonar: grupo A,
FEV1/FVS<75%; grupo B, FEV1/FVS entre 75% y 85%; grupo C, FEV1/FVS>85%.
Grupo
A
B
Reacción bronquial al SO2
20.8, 4.1, 30.0, 24.7, 13.8
7.5, 7.5, 11.9, 4.5, 3.1, 8.0,
4.7, 28.1, 10.3, 10.0, 5.1, 2.2
9.2, 2.0, 2.5, 6.1, 7.5
C
a. ¿Existen diferencias significativas entre las reacciones al SO2 en los diferentes grupos?
Pruebe usando =.05.
b. Realice una prueba de DMS e indique claramente sus conclusiones.
c. Grafique sus resultados. Incluya líneas (“bigotes”) sobre las barras que representen el
valor del DMS.
30
Laboratorio 12: Tablas de Contingencia
1. Los siguientes datos provienen de un experimento para estudiar el efecto del tratamiento de
frío a plantas de azalea. Se escogieron plantas al azar de azalea, y se mantuvieron durante 30
días con el tratamiento correspondiente (frío / no frío). Luego de tratadas se contaron las
yemas abiertas y cerradas en cada grupo de plantas. Los datos se presentan a continuación.
Tratamiento
Frío
No Frío
Yemas
abiertas
143
116
Yemas
cerradas
129
214
a. Calcule las frecuencias esperadas en cada celda bajo el supuesto que la proporción de
yemas abiertas es la misma en ambos tratamientos (esto es, si la proporción de yemas
abiertas es independiente del tratamiento).
b. Calcule el estadístico 2 para probar la hipótesis de independencia. Indique sus
conclusiones usando =.05.
c. Grafique estos datos para apoyar sus conclusiones.
2. Los siguientes datos provienen de un estudio para comparar la opinión de agricultores
respecto a una nueva política de importación de vegetales frescos. Se entrevistaron 230
agricultores y se clasificaron de acuerdo al tamaño de la finca (grande, mediana, pequeña) y a
la opinión (1, completamente de acuerdo; 2, parcialmente de acuerdo; 3, parcialmente en
desacuerdo y 4, completamente en desacuerdo).
Tamaño |
Chico
Mediano
Grande
Opinión
1
1
1
2
2
19
10
5
3
30
25
33
4
50
44
10
a. Calcule el estadístico 2 para probar la hipótesis de independencia entre el tamaño de la
finca y la opinión respecto a la nueva política. Indique sus conclusiones usando =.05.
b. Grafique estos datos para apoyar sus conclusiones.
31
3. La siguiente tabla proviene de un estudio de factores que afectan la elección de alimento en
caimanes. Se usan datos de 219 caimanes capturados en cuatro lagos de Florida. La variable de
respuesta es el tipo de alimento primario (en volumen) encontrado en el estómago del caimán.
Esta respuesta tiene cinco categorías: (1) peces, (2) invertebrados, (3) reptiles, (4) aves y (5)
otros. La categoría “otros” incluye anfibios, mamíferos, material vegetal, piedras, o la no
existencia de un tipo dominante de alimento.
Tamaño
Hasta 2.3m
Más de 2.3 m
Total
1
49
45
94
2
45
16
61
Alimento
3
6
13
19
4
5
8
13
5
19
13
32
Total
124
95
219
a. El tipo de alimento dominante encontrado en el estómago, ¿depende del tamaño del
animal? Formule y pruebe la hipótesis correspondiente usando =.01.
b. Grafique sus datos e indique sus conclusiones. Interprete claramente sus conclusiones en
términos de las categorías de alimento encontradas en cada tamaño de animal.
4. La tabla siguiente representa los resultados de un estudio para comparar un tratamiento
nuevo para prevenir el resfrío común. Trescientos pacientes fueron tratados, mientras que
200 pacientes comparables no se trataron. Los resultados indican la cantidad de pacientes
que no tuvieron ningún resfrío, un resfrío o más de un resfrío durante la temporada
invernal.
Pacientes
Tratados
No tratados
No
145
80
Resfríos
Uno
80
70
Total
Más de uno
75
50
300
200
a. Calcule el estadístico 2 para probar la hipótesis de que la cantidad de resfríos no
depende del tratamiento. Indique sus conclusiones usando =.05.
b. Grafique estos datos para apoyar sus conclusiones.
32
Laboratorio 13: Regresión y correlación lineal
1. Se condujo un experimento para examinar el efecto de diferentes concentraciones de pectina
sobre la firmeza de batata enlatada. Se usaron tres concentraciones (0%, 1.5% y 3% de pectina).
Se prepararon 6 latas con batatas en una solución de 25% de azúcar. Dos latas se asignaron
aleatoriamente a cada una de las concentraciones de pectina, agregándose la concentración
correspondiente de pectina antes de enlatar. Las latas se sellaron y almacenaron a 25C durante
30 días. Al cabo de este tiempo las latas se abrieron y se determinó la firmeza del contenido de
cada lata. Los datos fueron los siguientes:
Pectina:
Firmeza:
0%
50.5, 46.8
1.5%
62.3, 67.7
3%
80.1, 79.2
a. ¿Cuál es la ecuación lineal estimada? De acuerdo al gráfico, ¿sería razonable usar una línea
recta para estos datos?
b. Formule y pruebe las hipótesis de interés usando =.05.
c. ¿Es posible predecir la firmeza promedio que se obtendría usando 2% de pectina?, ¿y usando
6% de pectina? Si su respuesta es afirmativa, obtenga el valor predicho. De lo contrario,
justifique.
d. Construya un intervalo de confianza del 90% para 0. Interprete este intervalo en términos del
problema.
2. A efectos de estimar la productividad de un bosque, se desea estudiar la relación entre el área
basal de un árbol (x, en m2) y el volumen maderable del mismo (y, en m3). Se obtuvo una muestra
aleatoria de 12 árboles y para cada árbol se midió el área basal y el volumen maderable luego de
cortado.
X
Y
.3
6
.5
9
.4
7
.9
19
.7
15
.2
5
.6
12
.5
9
.8
20
.4
9
.8
18
.6
13
a. Indique e interprete el coeficiente de correlación lineal.
b. Conduzca un análisis de regresión lineal. Interprete (si fuese posible) los estimadores del
intercepto y de la pendiente en términos de este problema. Formule y pruebe las hipótesis de
interés usando =.01. Indique sus conclusiones.
3. En el archivo de InfoStat reglin (que lo encontrará en Program Files>InfoStat>Datos) se
encuentran datos que estudian la relación entre el pH del medio de cultivo y la biomasa producida
(en g).
a.
b.
c.
d.
Grafique los datos.
Estime la ecuación de regresión.
Formule y pruebe las hipótesis apropiadas de regresión lineal.
Interprete, si fuese posible, los estimadores del intercepto y de la pendiente en términos de
este problema.
e. Construya un intervalo de confianza del 99% para 1.
33
4. Generalmente se considera que las personas más altas son mejores jugadores de baloncesto
porque son más capaces de introducir la bola en la canasta. Los datos que aparecen en la tabla
basquetbol (en la página del curso) muestran las alturas de 25 atletas que no son jugadores de
baloncesto y el número de bolas que pudieron colocar en un periodo de 60 segundos.
a. Conduzca un análisis de regresión lineal que permita corroborar o no esta afirmación.
b. Interprete (si fuese posible) los estimadores del intercepto y de la pendiente en términos de
este problema.
c. Formule y pruebe las hipótesis de interés usando =.01. Indique sus conclusiones.
d. Prediga, si es posible, la cantidad de bolas que colocaría un jugador de 60” de altura y uno de
77” de altura.
34
Laboratorio 14: Diseño en bloques completos aleatorizados
1. Se condujo un experimento para comparar los efectos de tres diferentes insecticidas en
habichuela. Se usaron cuatro bloques, cada uno con 3 hileras (= unidades experimentales)
a una distancia adecuada. Cada hilera se plantó con 100 semillas y se mantuvo bajo uno
de los tratamientos con insecticida. Los insecticidas se asignaron aleatoriamente a las
hileras de forma tal que cada insecticida se aplicó a una hilera de cada bloque. La
respuesta de interés fue el número de plántulas emergidas en cada hilera.
Insecticida
A
B
C
Bloque 1
56
84
80
Bloque 2
49
78
72
Bloque 3
65
94
83
Bloque 4
60
93
85
a. Prepare una tabla de ANOVA en InfoStat.
b. Formule y pruebe las hipótesis de interés. Use α=0.05. Indique sus conclusiones en
términos de este problema.
c. ¿Cómo se hubiese realizado la asignación de los tratamientos a las unidades
experimentales si el diseño hubiese sido completamente aleatorizado? Describa
brevemente.
d. Realice, de ser necesario, una prueba de DMS para comparar los tratamientos. Use
α=0.05. Indique sus conclusiones.
e. Grafique los resultados.
f. Construya un intervalo de confianza para la media del tratamiento A.
35
2. Se desea estudiar el efecto de cuatro nematicidas sobre el rendimiento de plátano. Para
ello se dispone de 16 parcelas que están dispuestas en el campo de la siguiente manera:
Se espera que las parcelas que estén más abajo reciban más humedad en el suelo que las que
estén más arriba (por ejemplo, las parcelas 9-12 van a tener más humedad que las parcelas 1-4).
a. ¿Qué diseño experimental recomendaría para este experimento? Justifique brevemente.
b. Asigne los nematicidas a las parcelas aleatoriamente (de acuerdo al diseño escogido en a).
Escriba el código de tratamiento asignado (N1, N2, N3 o N4) dentro de cada parcela.
c. Presente una tabla con las fuentes de variación y los grados de libertad (en números).
3. Para comparar cuatro preparaciones diferentes realizadas con harina de ñame, un panel de
12 jueces realizará una evaluación sensorial de los alimentos ofrecidos. Cada juez
probará las cuatro preparaciones, en un orden aleatoriamente escogido (diferente para
cada juez). Luego de probar el alimento, el juez le da un score entre 1 y 10. Los datos
están disponibles en la página del curso.
Juez
1
1
1
1
2
…
12
12
Prep
4
3
1
2
4
…
1
2
Score
4
4
4
5
5
…
9
8
a. Prepare una tabla de ANOVA en InfoStat.
b. Formule y pruebe las hipótesis de interés. Use α=0.05. Indique sus conclusiones en
términos de este problema.
36
Documentos relacionados
Descargar