Laboratorio 1: Introducción

Anuncio
Laboratorio 1 – rev. 2014 - LWB
AGRO 5005: BIOMETRÍA
LABORATORIOS
Contents
Laboratorio 1: Introducción ............................................................................................................ 2
Laboratorio 2: Manejo de datos – Gráficos I .................................................................................. 6
Laboratorio 3: Resumen gráfico de la información II .................................................................... 9
Laboratorio 4: Estadísticos descriptivos ....................................................................................... 11
Laboratorio 5: Probabilidad y Distribución Binomial .................................................................. 15
Laboratorio 6: Distribución Normal ............................................................................................. 20
Laboratorio 7: Distribuciones Muestrales ..................................................................................... 23
Laboratorio 8: Intervalos de Confianza y Pruebas de Hipótesis ................................................... 25
Laboratorio 9: Pruebas t para una y dos muestras independientes ............................................... 27
Laboratorio 10: Pruebas t para muestras pareadas ........................................................................ 30
Laboratorio 11: Análisis de la Varianza ....................................................................................... 33
Laboratorio 12: Tablas de Contingencia ....................................................................................... 35
Laboratorio 13: Regresión y correlación lineal ............................................................................ 37
Laboratorio 14: Diseño en bloques completos aleatorizados ....................................................... 39
Laboratorio 1 – rev. 2014 - LWB
Laboratorio 1: Introducción
( x a )( xb )  x a b
( xy )a  x a y a
( x a ) / ( x b )  x a b
n !  n(n  1)(n  2) 1
( x a )b  x ab
0!  1
x1  x
x0  1
(1) Simplifique y evalúe las siguientes expresiones:
a. 102 x 105 = __________
b. (106)/(105) = ________
c. 23 x 32 = __________
3 3
d. (3 ) = ____________
e. 7! = _______________
f. 2-5 x 23 = __________
g. 42/22 = ___________
h. (5 x 3)2 = __________
2
2
i. (0.01 )/(0.001 ) = ________
j. (6!)/(3!) = __________
(2) Notación sumatoria. Escriba los sumandos de cada una de las sumas siguientes:
4
X
Ejemplo:
i 1
i
 X1  X 2  X 3  X 4
4
a.  ( X i  a)  
i 1
6
X Y 
b.
i 1
i i
3
c.
X
j 1
j

4
d. a X i 
i 1
(3) Para la muestra de tamaño n=5 presentada abajo, evalúe las siguientes sumatorias. Use las
funciones en su calculadora que le permitan simplificar los cálculos.
X1  119, X2  98, X3  79, X4  89, X5  95
5
a.
X
i 1
i
5
b.
X
i 1
i

/5 
Laboratorio 1 – rev. 2014 - LWB
5
c.
(X
i 1
i
 96) 
i
 96)2 
5
d.
 (X
i 1
5
e.
X
2
i
i 1
 ( X i ) 2 / 5 
(4) Identifique las posiciones en la matriz y evalúe las sumatorias. Recuerde que el primer
subíndice indica la fila, y el segundo la columna. (Ejemplo: en la fila 2 y columna 3, el valor
numérico 5 puede ser identificado como X 2,3 )
 1

5 
2 

1
4
a.
X
i ,2
i 1




3
7
3
2




2
5
3
1




3
6
4
2

 




(ayuda: los posibles valores de Xi2 son X12, X22, X32 y X42)
4
b.
X
j 1
4, j

2
1, j

4
c.
X
j 1
(ayuda: elevar al cuadrado cada observación antes de sumar las observaciones)
4,4
d.

i 1, j 1
X i, j 
4
e.
X
i 1
i ,i

Laboratorio 1 – rev. 2014 - LWB
(5) Cierto tipo de desperdicios contaminantes (como excrementos de ganado lechero) puede traer
problemas serios de contaminación por nitratos a los acuíferos. Para estudiar este problema
se escogieron 80 muestras aleatorias de agua en los acuíferos del área norte de Puerto Rico.
a.
b.
c.
d.
Identifique la población de interés.
Identifique la muestra.
¿Qué características de la población le interesaría medir para estudiar el problema?
¿Cómo resumiría la información obtenida en la muestra?
(6) Se desea estudiar la capacidad respiratoria (VO2MAX) de estudiantes universitarios. Para
ello se escogen 100 estudiantes al azar en el RUM y a cada uno se le medirá la capacidad
respiratoria. Además se registrará el sexo, la edad, el nivel de actividad física, y otras
características.
a.
b.
c.
d.
Identifique la población de interés.
Identifique la muestra.
¿Cómo podríamos seleccionar esta muestra?
¿Qué preguntas de investigación podrían formularse con la información disponible en los
estudiantes estudiados en la muestra?
Infostat es un programa en español que permite realizar la mayoría de los cálculos estadísticos,
tiene capacidades gráficas bastante avanzadas y un manejo de datos similar a otros programas de
bases de datos. La mayoría de los cálculos de resumen y de los gráficos también pueden
realizarse en Excel, pero los análisis estadísticos normalmente no se pueden hacer en Excel sin
programas adicionales.
Utilizando el menú “Archivo, Nueva tabla”, entre las 4 columnas de datos (incluyendo “árbol”)
que se encuentran en la próxima página. Guarde sus datos en un “jump drive” utilizando la
opción de “Archivo, Guardar tabla como”. Vamos a utilizar estos datos para hacer varios
ejercicios durante el día de hoy y en los próximos laboratorios. Los datos representan una
muestra aleatoria simple de 40 árboles de café. Las variables medidas incluyen presencia de roya
(una enfermedad), altura (m) y diámetro (cm) de cada árbol. Después de entrar los datos, favor
continuar con los próximos ejercicios en InfoStat:
(7) Infostat nos provee la opción de crear una nueva variable que se define utilizando una o más
variables previamente definidas. Por ejemplo, digamos que queremos transformar los datos
de altura (m) a altura (pies). En el menú “Datos, Fórmulas” se entra el nombre de la nueva
variable (digamos Altura_pies), y se define Altura_pies en términos de una o más variables
ya existentes (una lista de variables aparecerá en una ventanilla a la derecha; operadores
aparecerán en una ventana). Después de definir la fórmula y oprimir “calcular”, InfoStat
colocará los valores de Altura_pies en una nueva columna. Utilice el menú “Datos, Fórmula”
para transformar altura en metros a altura en pies (1m=3.28ft).
(8) Nos interesa categorizar nuestros árboles de acuerdo con los siguientes 4 categorías de
diámetros: hasta 5cm, más de 5cm hasta 9cm, más de 9cm hasta 12cm, más de 12cm.
Seleccione la columna “Diámetro” y haga un “click” derecho. Usando el menú “Categorizar,
Asignar categorías por intervalos, Personalizado”, crear 4 clases de diámetro. Defina el límite
Laboratorio 1 – rev. 2014 - LWB
superior (LS) de cada clase. Por ejemplo, el LS1 es 5. InfoStat automáticamente apuntará el
LS de la última clase. En “Editar categorías” escriba las descripciones correspondientes. (No
es recomendable utilizar la opción de dejar las categorías definidas como “C1”, etc. Varios
meses después de categorizar sus datos es muy posible que no recuerde su sistema de
clasificación!
(9) Usando el menú “datos, ordenar”, contar cuántos árboles están enfermos.
(10) Seleccione todas las filas de datos enfermo = sí. Utilizando un “click” derecho, se
desactivan estos casos. Ahora mueva su cursor a otra parte de la página. Los datos sombrados
en color rosado no pueden ser utilizados en ningún análisis hasta que no sean archivados
nuevamente. Repita el proceso para reactivar los datos (verifique que se quitó el color
rosado)
Árbol
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Enfermo
no
si
no
no
no
no
si
no
no
no
si
no
no
no
no
no
no
no
si
no
no
no
no
no
no
no
no
no
no
si
si
no
si
si
no
no
si
no
no
si
Altura
3.17
3.27
2.60
2.24
3.58
2.89
3.00
3.74
2.83
2.13
2.83
4.23
3.24
3.22
2.23
2.62
3.31
2.95
2.48
2.59
2.61
2.71
2.61
4.96
2.05
3.97
2.73
3.09
3.48
2.57
3.17
2.34
3.23
3.62
3.55
2.67
3.41
2.43
0.96
2.67 5
Diámetro
11
9
10
18
6
14
11
9
11
8
6
10
12
8
8
12
11
5
8
7
13
2
5
9
14
15
13
10
12
8
5
10
7
11
5
6
10
14
10
Laboratorio 2 – rev. 2014 - LWB
Laboratorio 2: Manejo de datos – Gráficos I
Planes de muestreo
Para cada uno de los siguientes planes de muestreo, identifique el nombre del plan de muestreo
que se está usando e indique cuál es la unidad (o unidades) de muestreo.
1.
Se desea estimar el daño por roya (una enfermedad) de café en una finca. Para ello se lleva a
cabo el siguiente plan de muestreo: Caminando a lo largo de la primera hilera en la finca, se
elige aleatoriamente un árbol entre los primeros 20 árboles. Luego de realizar esta
evaluación se continúa caminando y se evalúa cada árbol ubicado en la posición número 20
(es decir, se cuentan los árboles a partir del que se ha evaluado y se evalúa cada 20 árboles).
Como hay aproximadamente 600 árboles en la finca, se espera muestrear alrededor de 30
árboles. A cada árbol se le realiza una evaluación visual del daño por roya en las hojas
(escala 1 a 5, con 1 representando “sin daño” y 5 representando “mayoría de hojas
completamente dañadas”).
2.
Para estudiar la prevalencia de mastitis (definida aproximadamente como el porcentaje de
animales enfermos) en hatos lecheros en Puerto Rico se eligen 15 vaquerías aleatoriamente
de la lista de vaquerías registradas en el Departamento de Agricultura. En cada vaquería se
examinan 12 vacas aleatoriamente elegidas.
3.
En un estudio de capacidad de secuestro de carbono por bosques secundarios, se va a
determinar la altura y el diámetro de todos los árboles en parcelas escogidas aleatoriamente
del área central de Puerto Rico. En cada una de las tres zonas ecológicas identificadas en
mapas se elegirán al azar parcelas de 0.5 hectáreas, y se registrarán las variables de interés
en todos los árboles de la parcela. La cantidad de parcelas a elegir en cada zona ecológica es
proporcional al área que esa zona representa respecto al área total de la zona central de
Puerto Rico.
Manejo de datos en Infostat
Para manejar datos en Infostat se puede trabajar con el menú Datos. Este menú permite crear
nuevas filas, insertar o eliminar filas, activar/desactivar casos (filas), crear/insertar/eliminar
columnas, poner etiquetas (nombres a las columnas), definir el tipo de datos en una columna, la
cantidad de decimales a mostrar, ordenar, crear categorías, transformar y aplicar fórmulas. En
este laboratorio vamos a trabajar con los datos de café entrados en la última clase y con otros
conjuntos de datos que ya están en Infostat. Los archivos que ya están en Infostat se acceden con
el menú “Archivo, abrir datos de prueba”.
Para usar el menú de gráficos debemos tener la tabla de datos abierta. Hay dos ventanas
relacionadas: Herramientas gráficas y Gráficos. Vamos a preparar distintos gráficos con los datos
provistos y aprenderemos las herramientas básicas sobre los ejemplos. Es muy importante que
practiquen distintas alternativas, opciones, etc. hasta lograr el gráfico deseado. Una vez que está
el gráfico completo podemos hacer copia del mismo para ponerlo, por ejemplo, en Word o
Laboratorio 2 – rev. 2014 - LWB
PowerPoint. En el manual de Infostat (menú Ayuda>Manual) se describen todas las opciones
gráficas disponibles.
Es importante recordar que Infostat solamente guarda los cambios efectuadas en la tabla de datos
abierta, es decir, no guarda ni gráficos ni la salida mostrada en la ventana “Resultados”. Si
queremos guardar los gráficos tenemos dos opciones: o los copiamos en un documento (por
ejemplo en Word), o los guardamos como gráficos de Infostat. La última opción nos permitirá
cambiarlos en el futuro, mientras que si queremos cambiar un gráfico que ya está pegado en
Word debemos rehacerlo en Infostat.
4. Realice un gráfico de barras para ver la altura promedio de árboles sanos y enfermos (datos
de café usados en el laboratorio 1). Use como variable a graficar la altura (en metros), y
como criterio de clasificación la variable enfermo. Las opciones que puede usar son “media,
medidas de confianza, ninguna”.
a. Considere la salida original (sin arreglar las escales, etc.,):
i. ¿Qué estadística está representada por la altura de las barras?
ii. ¿Parece haber una diferencia en la altura promedio de árboles enfermos y
no enfermos?
b. Cambie la escala de Y a un mínimo de 0 y un máximo de 3.5. Arregle los “ticks”
(divisiones en la escala) y los decimales. Haga los otros arreglos necesarios para
que se pueda apreciar bien lo que se quiere mostrar.
i. Después de realizar los cambios, ¿Parece haber una diferencia en la altura
promedio de árboles enfermos y no enfermos?
5. Grafique los siguientes datos, referidos a la distribución porcentual del gasto de alimento
anual en distintas categorías. (% = porcentaje de los gastos anuales en alimentos). Realice un
gráfico de barras y luego un gráfico de sectores. Para el gráfico de barras, la “variable a
graficar” es “%” y el “criterio de clasificación” es “alimento” (las categorías en el eje X).
Para el gráfico de sectores entramos “alimento” en la ventanilla de “clases (sectores de la
torta)” y “%” en “frecuencia”. Haga los otros arreglos necesarios para que se pueda apreciar
bien lo que se quiere mostrar. Para arreglar las barras en orden de mayor a menor: en el eje X
selecciona la categoría que desea mover, y utilice “Ctrl + flecha” para mover la categoría al
lugar deseado. ¿Qué gráfico le gusta más?
Categoría
Productos lácteos
Cereal y panificados
Bebidas sin alcohol
Pescados y aves
Frutas y vegetales
Carne
Otras
%
13.4
12.6
8.9
7.5
15.6
24.5
17.5
Laboratorio 2 – rev. 2014 - LWB
6. Los siguientes datos representan los gastos (en dólares/mes) de familias urbanas y rurales en
distintos rubros.
Familia
Urbana
Rural
alimentación
serv. e imp.
educación
otros
300
500
90
50
120
50
100
100
a. Para las familias rurales y urbanas, calcule (a mano) el porcentaje de los gastos
mensuales (totales) que se debe a los costos de cada categoría de gastos.
b. A mano, haga un gráfico de sectores para las familias urbanas mostrando los
gastos proporcionales en los distintos. Haga otro gráfico para familias rurales.
Compare sus gráficos con gráficos de sectores hechos con InfoStat (ayuda: las
categorías están en columnas, “familia” en “criterios de clasificación”)
c. Realice un gráfico de barras apiladas (con familia en “criterios de clasificación”),
seleccionando la opción de “apilar proporciones”. Como compara la información
presentada en este gráfico con la de la parte b?
Los archivos para los siguientes ejercicios se encuentran en el menú “Archivo, abrir datos
de prueba”:
7. Con el objetivo de estudiar la relación entre el peso (Y) y el perímetro (X) de cabezas de ajo,
prepare los diagramas de dispersión indicados utilizando los datos de Ajoblanc (datos del
perímetro (cm) y el peso (g) de la cabeza de 1600 ajos de cosechas de 1998 y 1999 [Fuente:
Software InfoStat]).
a. Haga un gráfico con ambos años juntos. ¿Hay una relación entre el perímetro y el
peso? Si su respuesta es sí, describa la relación.
b. Utilizando la opción de “particiones”, haga un gráfico que identifique el año con
colores diferentes. ¿Hay diferencias entre años?
8. Utilizando el conjunto de datos CapacidadRespiratoria (un estudio realizado por una
compañía farmacéutica para examinar los efectos de tres drogas sobre la capacidad
respiratoria de pacientes de asma [Fuente: Software InfoStat]), prepare un gráfico de barras
de manera que pueda comparar cómo cambia con el tiempo la capacidad respiratoria
promedio bajo los distintas drogas. “Hora” = número de horas después de administrar la
droga [Ayuda: Querremos “hora” en el eje X (“criterios de clasificación”), y droga en
“particiones” (para tener barras adyacentes). Luego de “aceptar” por 1era vez, seleccione la
opción de “particiones en el mismo gráfico” y “medidas de confianza, ninguna”, seguido por
“aceptar” de nuevo).
Laboratorio 3 – rev. 2014 - LWB
Laboratorio 3: Resumen gráfico de la información II
1. Utilizando los datos de prueba Atriplex, prepare el siguiente gráfico de barras que presenta
el porcentaje de germinación en semilla de diferentes tamaños, con color de episperma en
barras adyacentes. (ayuda: utilice las opciones de “medidas de confianza, ninguna” y
“particiones en el mismo gráfico”)
% Germinación
100
75
50
25
0
chicas
medianas
grandes
Tamaño de Semilla
episperma claro
epispera oscuro
episperma rojizo
2. Usando los datos de Atriplex, prepare un gráfico de puntos para graficar PS (peso de
semillas) en el eje vertical y color (episperma) en el eje horizontal. ¿Deberían usarse
conectores para unir las medias de PS en cada color?
3. Usando los datos de café, construya una tabla de frecuencias para la variable altura (en
metros) usando InfoStat (menú Estadísticas>Tablas de Frecuencias). Escoja “número de
clases personalizado”, con valor mínimo de .905, máximo de 5.105 y 7 clases (verificar que
esto les da un ancho de clase de 0.6, como deseamos). Ahora prepare un histograma de
frecuencias absolutas a mano (usando la tabla de frecuencias como base) y en Infostat (menú
Gráficos>Histograma, use las mismas clases que usó para la tabla de frecuencias: comience
con 0.905m (como extremo inferior de la primera clase) y use un ancho de clase de 0.6 m.
Tanto para tablas de frecuencias como para histogramas, en InfoStat se puede indicar qué
tipo de tabla/gráfica se desea (con límites de clase o marca de clase en el eje X; frecuencia
absoluta, frecuencia relativa, frecuencia absoluta acumulada o frecuencia relativa acumulada
en el eje Y). Practica el cálculo a mano de valores como límites de clase, marca de clase,
frecuencias absolutas, etc.
4. Usando los datos del archivo salinidad, construya un histograma y una ojiva para biomasa.
Use la ojiva para contestar las siguientes preguntas:
(a) ¿Qué porcentaje de las observaciones tienen biomasa menor de 1000?
Laboratorio 3 – rev. 2014 - LWB
(b) ¿Qué porcentaje de las observaciones tienen biomasa mayor de 2000?
(c) 60% de las observaciones tienen biomasa menor de ________.
(d) 35% de las observaciones tienen biomasa mayor de ___________.
5. Use los datos de ajo blanco. Construya un histograma de frecuencias relativas y un polígono
de frecuencias acumuladas para la variable perímetro. Aproximadamente, ¿qué porcentaje de
las observaciones tienen perímetros mayores de 20?
6. En las gráficas en la próxima página, indique el nombre de cada gráfica, mencione cuáles
gráficas están correctas y cuáles podrían inducir a interpretaciones erróneas o falaces.
Justifique brevemente.
Laboratorio 4 – rev. 2014 - LWB
Laboratorio 4: Estadísticos descriptivos
1. Calcule los estadísticos indicados utilizando los datos de café. Realice los cálculos usando
Infostat (“Medidas Resumen”) y su calculadora. Utilice las reglas de redondeo discutidas en la
última página de este laboratorio.
En InfoStat (“Estadísticas/Medidas Resumen”):
Var(n-1) = varianza muestral (s2)
Var(n) = varianza poblacional (2)
D.E. = desviación estándar muestral
Suma = Y
Suma Cuad. = Y2
SCC* = “suma de cuadrados corregida” (fórmula teórica: (Y- 𝑌)2; fórmula de trabajo: Y2 – [(Y)2/n])
*en anova, InfoStat usa las siglas “SC”
S.C./(n-1) = varianza
Esta parte de la ecuación de la S.C.
(=SCC) se llama el “factor de
corrección”
a) Diámetro (en cm) de árboles enfermos (ayuda: ordenar los datos por “enfermo”, seleccionar
las filas con enfermo = no, y desactivar los casos seleccionados con click derecho, “desactivar
caso”; luego se puede activar los casos de nuevo)
n
Yi  ______
i 1
s 2  _____
Md  _____
n
Y
i 1
2
i
 _____
s  _____
Q1  _____
Y  _____
n  _____
C.V .  _____
Q3  _____ IQR=_____
b) Altura (en m) de árboles (todos juntos):
n
Yi  ______
i 1
s 2  _____
Md  _____
n
Y
i 1
i
2
 _____
s  _____
Q1  _____
Y  _____
n  _____
C.V .  _____
Q3  _____ IQR=_____
2. Utilizando la media y desviación estándar muestral calculados en la parte 1.b, determine el
porcentaje de árboles de café cuyas alturas están dentro de los intervalos en la tabla en la
próxima página. ¿Están de acuerdo estos porcentajes con aquellos que se esperarían de acuerdo a
la regla empírica? Justifique su respuesta.
Laboratorio 4 – rev. 2014 - LWB
Intervalo
Límite
Inferior del
intervalo
Límite
Superior del
intervalo
Número de
observaciones
en el intervalo
Porcentaje de
observaciones
en el
intervalo
Porcentaje de
observaciones en el
intervalo de acuerdo
con la regla empírica
𝑌- s
𝑌 – 2s
𝑌 – 3s
3. La edad media de 5 personas en una habitación es de 20 años. Una persona de 26 años entra a
la habitación. ¿Cuál es ahora la edad media de las 6 personas?
4. Considere los datos de prueba Hembras. Nos interesa estudiar si la longitud de la cola de
nemátodos (lcola) depende de la temperatura ambiental. ¿Qué estadístico descriptivo (medida
resumen) le permite estudiar esta relación? Utilizando InfoStat, prepare una tabla con este
estadístico descriptivo para cada temperatura. Indique sus conclusiones.
5. El siguiente gráfico representa los datos de biomasa estudiados en el laboratorio 3. Usando
esta gráfica indique los valores aproximados de la mediana, los cuartiles y el recorrido
intercuartílico y apunte sus contestaciones en la tabla en la próxima página. Calcule los mismos
estadísticos usando Infostat y compare los resultados.
Polígono de frecuencias acumuladas
1.00
0.95
0.90
0.85
0.80
frec. rel. acumulada
0.75
0.70
0.65
0.60
0.55
0.50
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
200
400
300
600
500
800
700
1000 1200 1400
1600 1800 2000 2200 2400
900
1100
1300 1500 1700 1900
2100 2300 2500
Biomasa
Laboratorio 4 – rev. 2014 - LWB
Valores aproximados usando
la ojiva arriba
Valores calculados en
InfoStat
Mediana (=Q2)
Q1
Q3
Recorrido Intercuartílico
(IQR)
6. Usando los datos del archivo CapacidadRespiratoria, realice un gráfico de caja que le
permita comparar las capacidades respiratorias bases de los pacientes sometidos a las tres drogas
diferentes.
Un supuesto del experimento es que los pacientes asignados a los tres tratamientos diferentes
iniciaron el experimento con capacidades respiratorias bases similares. ¿Existe evidencia de que
se cumplió con este supuesto? Entre drogas, ¿Cómo comparan las distribuciones de las
capacidades respiratorias bases? ¿Son parecidas o diferentes?
7. Usando los datos de café, realice gráficos de caja para altura de árboles enfermos y no
enfermos. Conteste las siguientes preguntas:
a. Entre los árboles enfermos, el 50% de los árboles miden menos de __________ metros.
b. Entre los árboles no enfermos, el 50% de los árboles miden menos de
__________metros.
c. Entre los árboles enfermos, el 75% de los árboles miden más de ___________metros.
d. Entre los árboles no enfermos, el 25% de los árboles más bajos miden menos de
___________metros.
e. Los árboles enfermos que tienen alturas entre Q1 y Q3 representan _______% de la
distribución y sus valores están entre ______ metros y _______ metros
f. La media de altura para árboles no enfermos es aproximadamente _________metros.
g. La mediana de altura para árboles no enfermos es aproximadamente _________metros.
h. ¿Cuál muestra de árboles tiene mayor variabilidad? ¿Por qué?
Comente sobre la simetría de las dos distribuciones. (¿Cuál es más simétrica y porque?)
(Reglas de redondeo – próxima página)
Laboratorio 4 – rev. 2014 - LWB
REGLAS DE REDONDEO
1. Utilice un dígito decimal adicional a la cantidad de decimales presentados en las observaciones
originales.
2. Redondee su respuesta final, y no los cálculos intermedios (por ejemplo, no use una varianza
redondeada para calcular la desviación estándar).
3. Cuando un 5 (exactamente un 5) tiene que ser redondeado: redondee hacia arriba cuando el dígito
previo es impar, y redondee hacia abajo si el dígito previo es par.
Ejemplo 1. Los datos originales son enteros (se redondea a un lugar decimal).
¿Cómo se redondean los siguientes valores calculados? 58.4780, 58.4500, 58.4219, 58.3750,
y 58.3500
-----------------
58.5
58.4780 = 58.5 (valor calculado está más cercano a 58.5 que a 58.4)
58.4500 = 58.4 (valor calculado es exactamente un 5 en medio de 58.4 y 58.5)
Dígito previo es par; se redondea hacia abajo
58.4219 = 58.4 (valor calculado está más cercano a 58.4 que a 58.5)
58.4
58.3750 = 58.4 (valor calculado está más cercano a 58.4 que a 58.3)
58.3500 = 58.4 (valor calculado es exactamente un 5 en medio de 58.3 y 58.4)
Dígito previo es impar; se redondea hacia arriba
58.3
Ejemplo 2 (datos originales son enteros).
Valor calculado
Valor redondeado
58.4500
58.4
58.3500
58.4
58.4506
58.5
58.3512
58.4
58.4219
58.4
58.4780
58.5
58.9981
59.0
58.0136
58.0
Ejemplo 3 (datos originales tienen un decimal)
Valor calculado
Valor redondeado
1.5650
1.56
1.5550
1.56
1.2135
1.21
1.3765
1.38
1.7051
1.71
1.9921
1.99
1.9962
2.00
1.0028
1.00
Laboratorio 5 – rev. 2014 - LWB
Laboratorio 5: Probabilidad y Distribución Binomial
1. Para el experimento aleatorio de arrojar 3 monedas diferentes (una de $0.05, una de $0.10
y una de $0.25), realice una lista con los 8 resultados igualmente probables. (cara = C ;
cruz = X).
Resultado $0.05
1
C
2
3
4
5
6
7
8
$0.10
C
$0.25
C
Espacio de trabajo
a. Calcule P(A=observar menos de 2 caras). (ayuda: en el espacio de trabajo arriba,
entre “A” para cada resultado que cumple con “menos de 2 caras”; por ejemplo, el
primer resultado no cumple)
b. Calcule P(B=observar 1 o más caras).
c. Calcule P(C=exactamente 3 caras).
d. ¿Son A y B mutuamente excluyentes?
e. ¿Son A y C mutuamente excluyentes?
f. ¿Son B y C mutuamente excluyentes?
g. Calcule P(A ∩ B)
h. Calcule P(A ∪ C)
i. Calcule P(C̅)
2. Considere nuevamente el experimento de arrojar tres monedas diferentes, y defina la variable
aleatoria Y = cantidad de caras que se obtienen.
a. ¿Es ésta una variable aleatoria discreta o continua?
15
Laboratorio 5 – rev. 2014 - LWB
b. Realice una lista de los posibles valores de Y, y calcule las probabilidades de cada
uno de ellos.
Y
P(Y)
0
1
2
3
c. Usando InfoStat (gráfico de barras), grafique la distribución de probabilidad
calculada en la parte (b).
3. La tabla siguiente representa los resultados de un estudio para comparar un tratamiento
nuevo para prevenir el resfrío común. Trescientos pacientes fueron tratados, mientras que
200 pacientes comparables no se trataron. Los resultados indican la cantidad de pacientes que
no tuvieron ningún resfrío, un resfrío o más de un resfrío durante la temporada invernal.
Pacientes
Tratados
No tratados
Total
No
145
80
225
Resfríos
Uno
80
70
150
Total
Más de uno
75
50
125
300
200
500
a. Si un paciente se escoge al azar de entre los 500 pacientes del estudio,
i.
¿cuál es la probabilidad de que haya sido tratado y no haya tenido resfríos?
ii.
¿cuál es la probabilidad de que no haya sido tratado y haya tenido uno o más
resfríos?
b. Si un paciente se escoge al azar de entre los 300 pacientes tratados,
i.
¿cuál es la probabilidad de que no haya tenido resfríos?
ii.
¿cuál es la probabilidad de que haya tenido más de un resfrío?
c. Si un paciente se escoge al azar de entre los 200 pacientes no tratados,
i.
¿cuál es la probabilidad de que no haya tenido resfríos?
ii.
¿cuál es la probabilidad de que haya tenido más de un resfrío?
d. Comparando sus respuestas a las preguntas (c) y (e), ¿podría afirmar que el
tratamiento parece efectivo?
16
Laboratorio 5 – rev. 2014 - LWB
4. En estudios ecológicos nos interesa estudiar cómo dos especies de árboles se mezclan o se
separan en un bosque. Supongamos que estamos estudiando dos especies, A y B. Un método
para medir su asociación es muestrear aleatoriamente un árbol, ver de qué especie es, y
entonces observar la especie del árbol vecino más cercano. Este proceso se repite para
muchos árboles. Se muestran los datos obtenidos para dos bosques.
Árbol
muestreado
Bosque I
A
B
Total
A
30
10
40
B
5
55
60
Total
35
65
100
Bosque II
Árbol
muestreado
Vecino más cercano
Vecino más cercano
A
B
Total
A
5
35
40
B
30
30
60
Total
35
65
100
a. Para un árbol elegido al azar en el bosque I, encuentre la probabilidad que,
i.
Sea de la especie A.
ii.
Tenga un vecino de la especie A, dado que se observó que el árbol muestreado era
de la especie A.
iii.
Tanto el árbol muestreado como su vecino sean de la especie A.
iv.
Tanto el árbol muestreado como su vecino sean de la misma especie.
b. Responda las preguntas anteriores para un árbol elegido al azar en el bosque II.
v.
Sea de la especie A.
vi.
Tenga un vecino de la especie A, dado que se observó que el árbol muestreado era
de la especie A.
vii.
Tanto el árbol muestreado como su vecino sean de la especie A.
viii.
Tanto el árbol muestreado como su vecino sean de la misma especie.
17
Laboratorio 5 – rev. 2014 - LWB
c. ¿Cuál de los bosques parece tener mayor separación entre las especies (mayor separación
entre especies)? ¿Por qué?
Distribución binomial. Para calcular probabilidades de la distribución binomial (y otras) en
Infostat se puede usar el menú Estadísticas > Probabilidades y cuantiles, seleccionando la opción
de distribución binomial. Favor de redondear tus contestaciones a cuatro lugares decimales. La
salida de InfoStat utiliza la fórmula binomial para calcular varias probabilidades, como ilustrado
en el ejemplo abajo:
Valor deprobablidad de éxito)
Valor de y (# de éxitos en n ensayos)
La probabilidad de que la variable aleatoria
Y sea menor o igual (< = ) a y (el valor
especificado). Por ejemplo, aquí 0.3633 es
la probabilidad de que Y sea menor o igual a
3 (= P(3) + P(2) + P(1) + P(0)]
La probabilidad de que la variable
aleatoria Y sea mayor que y. Aquí
0.6367 es la probabilidad de que Y
sea mayor que 3 [= P(4) + P(5) +
P(6) + P(7) + P(8)]
Probabilidad de que Y sea exactamente 3
1. Suponga que solamente el 30% de los estudiantes en una escuela se ejercitan lo
suficiente. Si se obtiene una muestra aleatoria de 10 estudiantes de esa escuela,
a. ¿cuál es la probabilidad que ninguno de los estudiantes en la muestra se ejerciten lo
suficiente?
b. ¿Cuál es la probabilidad que 3 o menos de los estudiantes en la muestra se ejerciten lo
suficiente?
2. Los entomólogos están a menudo interesados en estudiar el efecto de atrayentes químicos
(feromonas) sobre los insectos. Una técnica común es liberar varios insectos a una
distancia igual de la feromona bajo estudio y de una sustancia sin efecto (control). Si la
feromona tiene efecto, más insectos se dirigirán hacia ella en vez de dirigirse hacia el
control. Si no hay ningún efecto, un insecto se dirigirá hacia una de las dos posibilidades
18
Laboratorio 5 – rev. 2014 - LWB
con igual probabilidad (es decir, la probabilidad que el insecto se dirija hacia la feromona
es 0.5). En un experimento 5 insectos se liberan. Calcule las siguientes probabilidades
suponiendo que la feromona no tiene ningún efecto.
a. P(los cinco insectos se dirijan hacia la feromona)
b. P(exactamente cuatro insectos se dirijan hacia la feromona)
c. P(al menos 1 insecto se dirija hacia la feromona)
3. Una profesora de biometría va a dar un quiz con 10 preguntas “cierto-falso”.
Supongamos que un estudiante adivina cada respuesta independientemente (es decir, no
tiene idea del tema, = 0.5).
a. ¿Cuál es la probabilidad que el estudiante acierte las 10 preguntas?
b. ¿Cuál es la probabilidad que el estudiante acierte al menos 8 preguntas?
c. ¿Cuál es la probabilidad que el estudiante acierte no más de 6 preguntas?
d. Si la profesora decide que aprobarán el quiz todos los estudiantes que contesten
correctamente por lo menos 6 de las 10 preguntas, ¿qué porcentaje de los estudiantes
que adivinan cada respuesta pasarán el quiz?
4. De estudios previos, se conoce que sólo el 35% de las semillas de una planta en peligro
de extinción son capaces de germinar bajo condiciones de invernadero. Se sembrarán 20
semillas.
a. ¿Cuál es la probabilidad que germinen al menos la mitad de ellas?
b. ¿Cuál es la probabilidad que germinen 5 o menos semillas?
c. Si observamos que ninguna de las semillas ha germinado, ¿es razonable pensar que
esta muestra vino de una población donde el porcentaje de germinación es 35%?
Explique.
19
Laboratorio 6 – rev. 2014 - LWB
Laboratorio 6: Distribución Normal
1. La tabla 1 del texto presenta la probabilidad de que un valor aleatorio de Z = (Y-µ)/ sea menor que
el valor tabulado z (área bajo la curva entre menos infinito y z). Use la tabla de z para determinar las
probabilidades siguientes. Incluya un gráfico en cada caso, sombrando la probabilidad (área) que se
busca.
a. P(Z<-2)=
b. P(Z>2.56)=
c. P(Z<-1.23)=
d. P(Z<2.25)=
e. P(-1.63<Z<2.57)=
f. P(-1.70<Z<-0.25)=
g. P(1.42<Z<1.89)=
2. En InfoStat, se puede usar el menú Estadisticas>Probablidades y Cuantiles para calcular
probabilidades en la distribución normal. Use InfoStat para determinar las probabilidades siguientes y
compare sus resultados con el ejercicio 1.
a. P(Z<-2)=
b. P(Z>2.56)=
c. P(-1.63<Z<2.57)=
d. P(-1.70<Z<-0.25)=
e. P(1.42<Z<1.89)=
3. Use la tabla de z para encontrar el valor de a tal que la probabilidad sea la especificada. Incluya un
diagrama en cada caso. (ayuda: la dirección de la flecha indica el lado de la distribución de ser
sombrada. Esta área sombrada corresponde a la probabilidad indicada)
a. P(Z<a)=.84
b. P(Z>a)=.19 (ayuda: es la misma a de P(Z< a)=0.81)
c. P(Z<a)=.23
d. P(Z>a)=.65 (ayuda: es la misma a de P(Z< a)=0.35)
e. P(-a<Z<a)=.90
4. Use InfoStat para encontrar el valor de a tal que la probabilidad sea la especificada. Compare sus
resultados con el ejercicio 3.
a. P(Z<a)=.84
b. P(Z>a)=.19
c. P(-a<Z<a)=.90
5. Otra alternativa para buscar probabilidades en Infostat es usar el menú Aplicaciones > Didácticas >
Gráficos de funciones de densidad continuas. Aquí no sólo obtenemos las probabilidades sino
también las gráficas. Para superponer varias gráficas es posible usar la opción clonar (herramientas
gráficas). Se obtendrá una copia (clon) de la serie gráfica original. Si seleccionamos esta nueva serie
podemos cambiar sus parámetros y comparar ambas distribuciones. Grafique en un mismo gráfico las
funciones correspondientes a los siguientes tres distribuciones normales:
   10,  2  1 ,    10,  2  3 ,    9,  2  3 .
20
Laboratorio 6 – rev. 2014 - LWB
6. Usando la definición de cuartiles (valores de la variable que dejan un 25% o un 75% de la
distribución a la izquierda), calcule los valores de Q1 y Q3 en la distribución normal estandarizada.
¿Cuál es el valor de RIC (recorrido intercuartílico)? Use la tabla e Infostat.
Para encontrar probabilidades asociadas con una distribución normal general se debe transformar el valor
de Y en Z usando la fórmula abajo, y luego usar la tabla de z.
z
y

Ejemplo:
P(Y<115) = P(Z < [115-100)/6] )= P(Z<2.50) = 0.9938.
El problema inverso (encontrar un valor de Y que acumule cierta probabilidad) se resuelve calculando
primero el valor de Z y después resolviendo la ecuación z 
y

en la siguiente manera:
y = z + 
Ejemplo: Dado Y ~ N(100, 36), Encontrar a tal que P(Y<a)=0.6591:
A partir de las tablas de Z, vemos que P(Z<.41)=.6591. Entonces a = (.41)(6) + 100 = 102.46.
7. Para Y ~ N (  100,   36) , calcule las siguientes probabilidades. Incluya un diagrama en cada
caso. Use tablas e InfoStat.
a. P(93<Y<102)=
b. P(90<Y<95)=
c. P(Y>103)=
d. P(Y<98)=
2
8. Para la misma situación Y ~ N (  100,   36) , calcular los valores de a. Incluya un diagrama en
cada caso. Use tablas e InfoStat.
a. P(Y>a)= .25
b. P(Y<a)= .08
c. P(Y>a)= .72
d. P(Y<a)= .995
2
21
Laboratorio 6 – rev. 2014 - LWB
9. Un programa de selección en maíz trata de obtener plantas no demasiado altas. Suponga que la altura
de las plantas sigue una distribución normal con media 160 cm y desviación estándar 21 cm.
a. ¿Qué proporción de las plantas van a ser eliminadas si se decide descartar todas las
plantas cuya altura exceda 180 cm? (ayuda: P(Y>180) =?)
b. ¿A partir de qué altura se deberían descartar las plantas si se desea eliminar el 20% del
lote con las plantas más altas? (ayuda: P(Y>a) = 0.20)
10. La cantidad de oxígeno disuelta en el agua de ríos depende de la temperatura, la cantidad de materia
orgánica en descomposición, de la presencia de contaminantes, etc. El Council of Environmental
Quality (CEQ) considera que un contenido de oxígeno disuelto menor de 5 mg/l es indeseable porque
no sería capaz de sustentar la vida acuática. Suponga que una planta industrial descarga sus residuos
en el río y las mediciones de oxígeno disuelto corriente abajo de la descarga tienen una distribución
normal con media de 6.5 mg/l y desviación estándar de 0.6 mg/l.
a. ¿Qué proporción de los días será el contenido de oxígeno disuelto considerado indeseable
por el CEQ?
b. ¿Hasta qué valor podría caer el contenido de oxígeno disuelto? (ayuda: ¿entre qué valores
de la variable Ud. espera encontrar virtualmente todas las observaciones?)
11. La longitud del caparazón del langostino Thenus orientalis, encontrado comúnmente en los mercados
de Singapur, tiene una distribución aproximadamente normal, con una media de 59.5 mm y una
desviación estándar de 4.6 mm.
a. Si va a seleccionar aleatoriamente un langostino de esta población, ¿qué probabilidad tiene de
que éste tenga una longitud menor de 55mm?
b. Si el gobierno decretara que todos los langostinos que se vendan en el mercado deben tener
una longitud mínima de 50mm, ¿qué proporción de los langostinos serán de un tamaño ilegal
para la venta?
c. Un comerciante tiene una anuncio que dice “Nosotros garantizamos que los todos los
langostinos que vendemos en este negocio son los más grandes disponibles”. ¿Qué longitud
mínima deberían tener para asegurarnos que esto langostinos están en el 10% superior de la
población?
22
Laboratorio 7 – rev. 2014-LWB
Laboratorio 7: Distribuciones Muestrales
La siguiente es la distribución de una población (artificial) con 10 individuos (elementos). A la
derecha tenemos los valores de cada elemento (supongamos, p.ej., que son diámetros de árboles).
Los parámetros de esta población son   2.5,  2  1.45.
Población original
frecuencia absoluta
4
3
2
1
0
1
1
2
3
4
5
6
Columna4
1. Generar en Infostat todas las muestras posibles de tamaño n=2 y n=5 (se puede usar el
menú Aplicaciones>Didácticas>Todas las muestras posibles). Calcular la media de cada
muestra y guardar estas medias en dos columnas de datos (usar copiar/pegar). Graficar la
distribución muestral de la media para ambos tamaños usando la misma escala horizontal
(0 a 0.70).
a. ¿Cuál de las dos distribuciones tiene menos variabilidad?
b. ¿Cómo se comparan las medias de ambas distribuciones?
c. ¿Son suficientemente grandes los tamaños de estas muestras como para que las
distribuciones parezcan normales?
2. El archivo zanahoria.idb contiene los pesos de 144 zanahorias (en g).
a. Calcule la media y la varianza de la población.
b. Prepare un histograma de frecuencias relativas con las observaciones en esta
población (use para el eje horizontal un valor mínimo de 0 y un máximo de 1200).
3. Para verificar las propiedades de la distribución muestral de la media, vamos a tomar
muestras con reemplazo (“aleatorio con reposición”) de la población de zanahorias
descripta en la parte2. Use el menú Aplicaciones>Didácticas>Muestreo-Remuestreo.
23
Laboratorio 7 – rev. 2014-LWB
a. Escoja 1000 muestras con reposición de tamaño n=4 y use la opción de guardar la
media muestral.
b. Calcule la media y la varianza poblacionales de la población de 1000 medias de
tamaño n=4.
c. Prepare un histograma de frecuencias relativas de la población de 1000 medias de
tamaño 4. (Use para el eje horizontal un valor mínimo de 0 y un máximo de 1200
con 9 ticks y para el eje vertical 0 a 0.35 con 8 ticks.)
d. Repita las partes a, b y c para tamaño de muestra n=16.
e. Comparar las medidas de resumen de la población original, de la población de
medias de n=4, y de la población de medias de n=16.
f. Comparar los histogramas de la población original, de la población de medias de
n=4, y de la población de medias de n=16.
4. La distribución del porcentaje de grasa láctea en ganado Holstein durante la década de
1970 era aproximadamente normal con una media de 3.4 y una desviación estándar de
0.3.
(a) ¿Qué porcentaje de las vacas producían leche con menos de 3 de grasa?
(b) ¿Qué porcentaje de las vacas producían leche con más de 4 de grasa?
(c) Calcule el percentil 95 de la distribución de grasa láctea. Interprete este valor.
5. Supongamos que una muestra aleatoria de n  25 vacas Holstein se selecciona de la
población mencionada en el problema 4. A cada vaca se le mide el porcentaje de grasa en
su leche, y se calcula la media muestral.
(a) ¿Cómo sería la distribución de los valores posibles de Y ?
(b) Compare la forma de la distribución de Y con la forma de la distribución de Y (el
porcentaje de grasa láctea en cada vaca).
(c) Calcule la probabilidad que una muestra aleatoria de tamaño 25 tenga una media muestral
menor de 3. Compare este resultado con el de 4a.
24
Laboratorio 8
Laboratorio 8: Intervalos de Confianza y Pruebas de Hipótesis
1. Usando Infostat, genere 100 intervalos de confianza del 90% y calcule el porcentaje que
no cubren a la media verdadera (use el menú Aplicaciones>Didácticas>Intervalos de
confianza). Realice esto para datos de una distribución normal con   20,  2  9 y
tamaños de muestra n=5, n=20, n=50.
a. ¿Cambian significativamente los porcentajes de cobertura según cambia el
tamaño muestral?
b. ¿Cómo se comparan los anchos de estos intervalos? Grafíquelos en la misma
escala.
2. Determine el tamaño de muestra si se sabe que 2=100 y que los L.C. del 95% son 17.2 y
22.8. Realícelo a mano y usando Infostat (Estadísticas>Cálculo de tamaño muestral>Para
estimar una media con una precisión dada).
3. Un biólogo desea estimar el efecto de un antibiótico sobre el crecimiento de una bacteria.
Experiencias anteriores indican que la desviación estándar del crecimiento (medido en
cm2) en placas de Petri con antibiótico añadido es 13 cm2. Determine el número de placas
que tiene que preparar para estimar el crecimiento promedio con un error de no más de 3
cm2 (esto es, se desea que la media poblacional de crecimiento no esté a una distancia
mayor que 3 de la media muestral). Use un nivel de confianza del 99%. Verifique sus
resultados con Infostat.
4. Se desea llevar a cabo un estudio sobre el peso promedio de chillos de tamaño comercial
en el área de La Parguera. Estudios previos realizados hace varios años indican que la
varianza del peso de chillos es de 1.6 lb2.Determine el tamaño de muestra que se
requeriría si se va a estimar el peso promedio con un error de  0.5 lb (y una confianza
del 95%). Verifique sus resultados con Infostat.
5. Para la situación anterior, ¿cómo se podría aproximar la varianza si no se tuviera
información previa?
6. Se desea probar que, luego de un tratamiento para un problema cardíaco, los pacientes
pueden ejercitarse más de 2 minutos. Se registró el incremento en la capacidad de realizar
ejercicios (en minutos) para 90 pacientes adultos. La media muestral fue de 2.2 minutos,
y la desviación estándar de 1.05. Use estos datos para probar la hipótesis nula H0: =2
versus Ha: >2. Use =.05 e indique sus conclusiones en términos de este problema.
7. Calcule el nivel de significancia observado de la prueba realizada en la parte 6 (“valor p”)
y úselo en vez de la región de rechazo para probar las hipótesis. Presente un gráfico en
Infostat (Aplicaciones >Didácticas> Gráfico de funciones de densidad continuas)
8. Se sospecha que las vacas en Puerto Rico están más infestadas por garrapatas (Boophilus
microplus) que en el resto del Caribe (donde la infestación promedio es 130
25
Laboratorio 8
garrapatas/vaca). Una muestra aleatoria de 80 vacas en Puerto Rico presentó un promedio
de 134.1 garrapatas por vaca, con una varianza de 50.
Calcule el intervalo de confianza del 90% para , el promedio de garrapatas por vaca
en Puerto Rico.
b. Formule y pruebe las hipótesis de interés (=.05).
a.
26
Laboratorio 9
Laboratorio 9: Pruebas t para una y dos muestras
independientes
Pruebas de hipótesis para una media usando la distribución t. Ejemplo resuelto en Infostat
Se ha realizado un estudio para determinar si cerdos alimentados con una dieta reformulada aumentan
más de 20 lbs (en promedio) durante un periodo de alimentación de un mes. Para ello se usaron 12 cerdos,
cuyos aumentos de peso se presentan a continuación:
17, 22, 20, 19, 53, 21, 25, 40, 30, 19, 11, 16
Hipótesis
H0 :   20
Ha :   20
Región de rechazo:
Y  0 24.417  20

 1.313
s
11.650
n
12
t  t0.05,11gl  1.796
Conclusiones:
No se rechaza H0 .
Estadístico de la prueba: t 
27
Laboratorio 9
1. Calcule las siguientes probabilidades usando la tabla t e InfoStat. Incluya un diagrama en
cada caso.
a. P(T>1.356) si gl=12
b. P(T<2.101) si gl=18
c. P(T<-1.319) si gl=23
d. P(T<-1.711) si gl=24
e. P(T<.697) si gl=11
2. Determine los valores críticos (valores en la tabla) de t, haga un diagrama de la
distribución y lleve a cabo las pruebas indicadas. Calcule los valores p usando el
calculador de probabilidad de Infostat (o el graficador).
a.
H0 :   30, Ha :   30, n  16, Y  32, s2  25,   0.05
b.
H0 :   58, Ha :   58, n  18, Y  57, s2  100,   0.05
c.
H0 :   25, Ha :   25, n  25, Y  9, s2  20,   0.05
d.
H0 :   430, Ha :   430, n  10, Y  400, s2  14,   0.01
3. Los rendimientos de 7 plantas de piña aleatoriamente escogidas, variedad “Cabezona”, fueron
4.2, 5.6, 4.3, 4.8, 5.7, 5.5 y 4.9 kg/planta.
(a) Construya un intervalo de confianza del 95% para la media poblacional.
(b) Pruebe H0: =4.5, Ha: 4.5 usando =.05.
(c) Repita los pasos 1 y 2 usando InfoStat.
4. Se condujo un experimento para examinar la susceptibilidad de raíces de cierta variedad de
limonero a una larva específica con el objetivo de probar si la cantidad de larvas en las raíces era
menor en esta variedad que lo que normalmente se encuentran en las variedades tradicionales.
28
Laboratorio 9
Cuarenta y un plantas se expusieron a la larva, y se examinaron luego de cierto tiempo. La
respuesta de interés es el logaritmo del número de larvas por gramo encontradas en cada raíz.
Para las 41 plantas estudiadas, la media muestral fue 9.02 y la desviación estándar 1.12.
(a)
Pruebe la hipótesis que =10 versus <10 usando =.01.
(b)
Calcule el valor p usando InfoStat.
(c)
Construya un intervalo de confianza del 95% para la susceptibilidad media de las
raíces.
5. En una compañía farmacéutica se desea comparar la presión arterial sistólica de empleadas que
usan anticonceptivos orales que no usan anticonceptivos orales (todas entre 30 y 35 años de
edad). Se obtuvieron dos muestras aleatorias: una de 8 empleadas que usan anticonceptivos orales
y otra de 21 empleadas que no usan anticonceptivos orales, y se les midió la presión arterial (mm
Hg). Los resultados fueron los siguientes:
Usan anticonceptivos orales:
n=8, Y = 132.8 mm Hg, s=15.3 mm Hg
No usan anticonceptivos orales:
n=21, Y = 127.4 mm Hg, s=18.2 mm Hg
(a) Conduzca una prueba para determinar si hay diferencias significativas entre las medias. Use
=.05.
(b) Pruebe si las empleadas que usan anticonceptivos orales tienen una presión arterial sistólica
mayor (en promedio) que las no los usan. Use =.05.
6. Un inspector de control de contaminación sospechaba que una comunidad ribereña estaba
descargando aguas servidas no-tratadas en el río y eso cambiaba el nivel de oxígeno disuelto en el
río. Para probar esto, obtuvo 5 muestras aleatorias de agua del río en una zona río arriba del
pueblo, y otras 5 muestras en una zona río abajo del pueblo. Se midieron los niveles de oxígeno
disuelto, en ppm. ¿Proveen los datos evidencia de un contenido menor de oxígeno río abajo? Use
=.05.
Río arriba: 4.8, 5.2, 5.0, 4.9, 5.1
Río abajo: 5.0, 4.7, 4.9, 4.8, 4.9
7. Un estudio se realizó en 16 vacas lecheras. Ocho vacas fueron asignadas aleatoriamente a un
régimen de líquidos de agua solamente (grupo 1), y las otras recibieron suero líquido solamente
(grupo 2). Además, a cada animal se le dio 7.5 kg de grano por día, y se le permitió comer heno a
voluntad. Se registró, entre otras cosas, la cantidad de heno (en kg/vaca) consumido diariamente.
Grupo 1: 15.1, 14.9, 14.8, 14.2, 13.1, 12.8, 15.5, 15.9
Grupo 2: 6.8, 7.5, 8.6, 8.4, 8.9, 8.1, 9.2, 9.5
(a) Pruebe la hipótesis que hay diferencias entre los consumos diarios promedios de heno en los dos
grupos con =.01.
(b) Construya un intervalo de confianza del 99% para la verdadera diferencia entre la medias de
ambos grupos. El intervalo obtenido, ¿contiene el valor 0? ¿Qué relación tiene esto con sus
conclusiones en la parte a?
(c) ¿Cuáles son los supuestos necesarios para las pruebas realizadas en la parte a? Comente sobre su
validez en este caso (grafique los datos si fuese necesario).
29
Laboratorio 10
Laboratorio 10: Pruebas t para muestras pareadas
PARTE I. Incluya en cada caso todos los pasos necesarios para probar las hipótesis correspondientes,
una gráfica con ttab, cálculo del valor p, conclusiones e interpretaciones. A menos que esté especificado de
otra manera, use =.05.
1. Se desean comparar los rendimientos de dos nuevas variedades de maíz. Debido a que existe una gran
variabilidad en los rendimientos en distintas fincas, se escogieron 7 fincas al azar, y se plantó una
parcela con cada una de las variedades en cada finca. Los resultados del experimento son los
siguientes (en ton/ha):
Finca
1
2
3
4
5
6
7
Variedad A
4.82 4.46
4.97
4.05
5.46
4.71
5.14
Variedad B
4.15
4.01
4.40
4.12
4.98
4.17
4.68
(a) Pruebe la hipótesis de igualdad en los rendimientos de las dos variedades versus la alternativa a
dos colas. Use =.05.
(b) Construya un intervalo de confianza del 95% para 1-2, la verdadera diferencia entre los
rendimientos de las variedades A y B. . El intervalo obtenido, ¿contiene el valor 0? ¿Qué relación
tiene esto con sus conclusiones en la parte a?
2. Los datos siguientes son logaritmos de recuentos de bacterias en siete botellas de leche (escogidas
aleatoriamente), tomados antes y después de un tratamiento térmico. Se desea conocer si el
tratamiento reduce el número de bacterias. Formule y pruebe las hipótesis de interés usando =.05.
Botella
1
2
3
4
5
6
7
Antes Después
6.98
6.95
7.08
6.94
8.34
7.17
5.30
5.15
6.26
6.28
6.77
6.81
5.45
5.36
3. Se tomaron 11 hojas, una de cada una de 11 plantas de tabaco. Cada hoja se dividió en dos mitades.
Una de las mitades se eligió al azar y se trató con preparación I y la otra mitad se trató con
preparación II. El objetivo del experimento era comparar los efectos de las dos preparaciones del
virus del mosaico sobre el número de lesiones después de un cierto período de tiempo. Los datos se
presentan en la siguiente tabla:
30
Laboratorio 10
Planta Prep. I
1
18
2
20
3
9
4
14
5
38
6
26
7
15
8
10
9
25
10
7
11
13
Prep. II
14
15
6
12
32
30
9
2
18
3
6
PARTE II: Trabajando en grupos de 2-3 estudiantes, decida cuál de las pruebas t (para muestras
independientes o para datos pareados) usaría Ud. en cada una de las siguientes situaciones.
Presente las hipótesis nula y alternativa. Justifique brevemente.
4. Una corporación petrolera está interesada en realizar algunas pruebas preliminares para
comparar una nueva mezcla de gasolina con otra actualmente en el mercado. Diez
automóviles idénticos se asignaron aleatoriamente, 5 a una gasolina y 5 a la otra gasolina.
Cada automóvil se llenó con 10 galones de gasolina y se condujo en una pista de pruebas
hasta que la gasolina se agotó. El resultado fueron las millas recorridas en cada caso.
5. Una compañía tiene una política muy generosa (pero muy complicada) para ofrecer el bono
de navidad al personal gerencial de menor rango. El factor clave en la decisión es un juicio
subjetivo de la "contribución a los objetivos de la corporación". Un encargado de personal
tomó muestras de 20 gerentes mujeres y 20 gerentes hombres para ver si había diferencias
entre los bonos. Las observaciones se registraron como un porcentaje del salario anual.
6. En un estudio de los posibles factores que influyen en la frecuencia de pájaros embestidos
por aviones (que, irónicamente, se ve como un peligro para los aviones), el nivel de ruido de
varios aviones se midió dos segundos después del despegue (momento en que las ruedas
dejan de tocar tierra). Veintidós jets de cabina ancha y 10 jets de cabina angosta se midieron
y sus niveles de ruido se compararon.
7. Dos aleaciones se usan en la fabricación de barras de acero. Se desea comparar la resistencia
de las barras hechas con cada aleación. Se toman muestras aleatorias de 9 barras de la
aleación A y de 15 barras de la aleación B.
8. Con el objeto de estudiar el crecimiento de bacterias bajo dos dosis distintas de un cierto
bactericida, se prepararon 20 placas de Petri. En 10 de ellas se colocaron 200 ppm del
bactericida en el medio de cultivo, y en las otras 10, 1000 ppm. Luego de inocular las placas
con las bacterias, se colocaron en una cámara en forma completamente aleatoria, y al cabo de
cierto tiempo se midió el crecimiento radial de las bacterias.
9. Para estudiar el efecto de la exposición de flores de alfalfa a diferentes condiciones
ambientales se escogieron 10 plantas vigorosas con flores expuestas libremente en la parte
31
Laboratorio 10
alta, y flores escondidas en la parte basal. Se determinó el número de semillas producidas por
10 vainas en cada ubicación (parte superior y parte inferior).
10. Con el objeto de evaluar si una nueva formulación permite obtener mayores aumentos de
peso, una muestra de 8 novillos es alimentada con la ración regular, y otra muestra de 8
novillos es alimentada con la ración reformulada. Se analizan los pesos de los novillos luego
de un año.
11. Para estudiar el efecto de un tratamiento con fungicidas (usado para eliminar hongos) a
plantas de geranio, se registró la densidad de esporas del hongo Phytium sp. antes de aplicar
un tratamiento a 15 tiestos con plantas de geranio. A los 10 días de aplicar el tratamiento, los
mismos tiestos se evaluaron nuevamente y se registró la densidad de esporas del mismo
hongo.
32
Laboratorio 11
Laboratorio 11: Análisis de la Varianza
1. Se está diseñando un experimento para comparar 4 variedades de habichuela. Se usarán 6
parcelas con cada una de las variedades en un diseño completamente aleatorizado en un área
experimental homogénea rectangular de 8x3 parcelas.
a. Prepare un mapa del área experimental con la asignación de los distintos tratamientos
(=variedades) a cada una de las parcelas.
b. Prepare un esquema de la tabla de ANOVA indicando fuentes de variación y grados de
libertad.
2. Se condujo un experimento para comparar el contenido de almidón en plantas de tomate bajo
distintos nutrientes (control, A o B). Doce plántulas se seleccionaron para el estudio,
asignándose cuatro a cada uno de los tratamientos aleatoriamente. Cada planta se colocó en
un tiesto con el nutriente correspondiente, y se ubicaron al azar en un invernadero. El
contenido de almidón en los tallos se determinó 25 días después (en g/mg).
Control
Nutriente A
Nutriente B
21
12
7
18
14
9
16
15
6
14
10
7
a. Formule y pruebe las hipótesis de interés usando =.05 (use InfoStat y verifique sus
resultados con las fórmulas de trabajo presentadas en la conferencia).
b. Realice todas las comparaciones de a pares usando el método de DMS de Fisher. Use
=.05 (use InfoStat y verifique sus resultados con las fórmulas de trabajo presentadas en
la conferencia).
c. Construya un intervalo de confianza del 95% para la diferencia entre las medias del
nutriente A y el control.
d. Construya un intervalo de confianza del 99% para la media del nutriente B.
3. Se condujo un experimento para probar los efectos de 5 dietas diferentes en pavos. Seis
pavos se asignaron aleatoriamente a cada uno de los 5 dietas, y se alimentaron por un período
fijo de tiempo. Los resultados (libras de aumento de peso) se presentan a continuación. Use
Infostat para resolver este ejercicio.
Grupo
Control
Control+Dosis 1 del aditivo A
Control+Dosis 2 del aditivo A
Control+Dosis 1 del aditivo B
Control+Dosis 2 del aditivo B
Aumento de peso (lbs)
4.1, 3.3, 3.1, 4.2, 3.6, 4.4
5.2, 4.8, 4.5, 6.8, 5.5, 6.2
6.3, 6.5, 7.2, 7.4, 7.8, 6.7
6.5, 6.8, 7.3, 7.5, 6.9, 7.0
9.5, 9.6, 9.2, 9.1, 9.8, 9.1
33
Laboratorio 11
a. Pruebe las hipótesis de interés usando =.05.
b. Realice todas las comparaciones de a pares (Prueba DMS de Fisher).
c. Grafique sus resultados. Incluya líneas (“bigotes”) sobre las barras que representen el
valor del DMS.
d. Construya un intervalo de confianza del 90% para la media del grupo control.
4. Se probaron 5 métodos para empacar y congelar yuca. De un grupo de 25 yucas homogéneas
se escogieron 5 aleatoriamente y se procesaron con el método I. Otras 5 se procesaron con el
método II, y así sucesivamente. La respuesta de interés es el rendimiento (en % del peso
inicial obtenidos luego del proceso) obtenido al final del proceso.
Método
I
II
III
IV
V
Rendimientos
60, 52, 56, 52, 65
64, 74, 66, 64, 67
55, 66, 68, 57, 55
55, 56, 70, 59, 62
71, 65, 60, 69, 62
a. ¿Existen diferencias significativas entre los rendimientos promedio de los diferentes
métodos? Pruebe usando =.05.
b. Realice una prueba de DMS e indique claramente sus conclusiones.
c. Grafique sus resultados. Incluya líneas (“bigotes”) sobre las barras que representen el
valor del DMS.
5. Se desea saber si existen diferencias entre tres grupos de pacientes asmáticos en cuanto a su
reacción al SO2 (cm H2O/s). Los grupos se definieron por su función pulmonar: grupo A,
FEV1/FVS<75%; grupo B, FEV1/FVS entre 75% y 85%; grupo C, FEV1/FVS>85%.
Grupo
A
B
Reacción bronquial al SO2
20.8, 4.1, 30.0, 24.7, 13.8
7.5, 7.5, 11.9, 4.5, 3.1, 8.0,
4.7, 28.1, 10.3, 10.0, 5.1, 2.2
9.2, 2.0, 2.5, 6.1, 7.5
C
a. ¿Existen diferencias significativas entre las reacciones al SO2 en los diferentes grupos?
Pruebe usando =.05.
b. Realice una prueba de DMS e indique claramente sus conclusiones.
c. Grafique sus resultados. Incluya líneas (“bigotes”) sobre las barras que representen el
valor del DMS.
34
Laboratorio 12
Laboratorio 12: Tablas de Contingencia
1. Los siguientes datos provienen de un experimento para estudiar el efecto del tratamiento de
frío a plantas de azalea. Se escogieron plantas al azar de azalea, y se mantuvieron durante 30
días con el tratamiento correspondiente (frío / no frío). Luego de tratadas se contaron las
yemas abiertas y cerradas en cada grupo de plantas. Los datos se presentan a continuación.
Tratamiento
Frío
No Frío
Yemas
abiertas
143
116
Yemas
cerradas
129
214
a. Calcule las frecuencias esperadas en cada celda bajo el supuesto que la proporción de
yemas abiertas es la misma en ambos tratamientos (esto es, si la proporción de yemas
abiertas es independiente del tratamiento).
b. Calcule el estadístico 2 para probar la hipótesis de independencia. Indique sus
conclusiones usando =.05.
c. Grafique estos datos para apoyar sus conclusiones.
2. Los siguientes datos provienen de un estudio para comparar la opinión de agricultores
respecto a una nueva política de importación de vegetales frescos. Se entrevistaron 230
agricultores y se clasificaron de acuerdo al tamaño de la finca (grande, mediana, pequeña) y a
la opinión (1, completamente de acuerdo; 2, parcialmente de acuerdo; 3, parcialmente en
desacuerdo y 4, completamente en desacuerdo).
Tamaño |
Chico
Mediano
Grande
Opinión
1
1
1
2
2
19
10
5
3
30
25
33
4
50
44
10
a. Calcule el estadístico 2 para probar la hipótesis de independencia entre el tamaño de la
finca y la opinión respecto a la nueva política. Indique sus conclusiones usando =.05.
b. Grafique estos datos para apoyar sus conclusiones.
35
Laboratorio 12
3. La siguiente tabla proviene de un estudio de factores que afectan la elección de alimento en
caimanes. Se usan datos de 219 caimanes capturados en cuatro lagos de Florida. La variable de
respuesta es el tipo de alimento primario (en volumen) encontrado en el estómago del caimán.
Esta respuesta tiene cinco categorías: (1) peces, (2) invertebrados, (3) reptiles, (4) aves y (5)
otros. La categoría “otros” incluye anfibios, mamíferos, material vegetal, piedras, o la no
existencia de un tipo dominante de alimento.
Tamaño
Hasta 2.3m
Más de 2.3 m
Total
1
49
45
94
2
45
16
61
Alimento
3
6
13
19
4
5
8
13
5
19
13
32
Total
124
95
219
a. El tipo de alimento dominante encontrado en el estómago, ¿depende del tamaño del
animal? Formule y pruebe la hipótesis correspondiente usando =.01.
b. Grafique sus datos e indique sus conclusiones. Interprete claramente sus conclusiones en
términos de las categorías de alimento encontradas en cada tamaño de animal.
4. La tabla siguiente representa los resultados de un estudio para comparar un tratamiento
nuevo para prevenir el resfrío común. Trescientos pacientes fueron tratados, mientras que
200 pacientes comparables no se trataron. Los resultados indican la cantidad de pacientes
que no tuvieron ningún resfrío, un resfrío o más de un resfrío durante la temporada
invernal.
Pacientes
Tratados
No tratados
No
145
80
Resfríos
Uno
80
70
Total
Más de uno
75
50
300
200
a. Calcule el estadístico 2 para probar la hipótesis de que la cantidad de resfríos no
depende del tratamiento. Indique sus conclusiones usando =.05.
b. Grafique estos datos para apoyar sus conclusiones.
36
Laboratorio 13
Laboratorio 13: Regresión y correlación lineal
1. Se condujo un experimento para examinar el efecto de diferentes concentraciones de pectina
sobre la firmeza de batata enlatada. Se usaron tres concentraciones (0%, 1.5% y 3% de pectina).
Se prepararon 6 latas con batatas en una solución de 25% de azúcar. Dos latas se asignaron
aleatoriamente a cada una de las concentraciones de pectina, agregándose la concentración
correspondiente de pectina antes de enlatar. Las latas se sellaron y almacenaron a 25C durante
30 días. Al cabo de este tiempo las latas se abrieron y se determinó la firmeza del contenido de
cada lata. Los datos fueron los siguientes:
Pectina:
Firmeza:
0%
50.5, 46.8
1.5%
62.3, 67.7
3%
80.1, 79.2
a. ¿Cuál es la ecuación lineal estimada? De acuerdo al gráfico, ¿sería razonable usar una línea
recta para estos datos?
b. Formule y pruebe las hipótesis de interés usando =.05.
c. ¿Es posible predecir la firmeza promedio que se obtendría usando 2% de pectina?, ¿y usando
6% de pectina? Si su respuesta es afirmativa, obtenga el valor predicho. De lo contrario,
justifique.
d. Construya un intervalo de confianza del 90% para 0. Interprete este intervalo en términos del
problema.
2. A efectos de estimar la productividad de un bosque, se desea estudiar la relación entre el área
basal de un árbol (x, en m2) y el volumen maderable del mismo (y, en m3). Se obtuvo una muestra
aleatoria de 12 árboles y para cada árbol se midió el área basal y el volumen maderable luego de
cortado.
X
Y
.3
6
.5
9
.4
7
.9
19
.7
15
.2
5
.6
12
.5
9
.8
20
.4
9
.8
18
.6
13
a. Indique e interprete el coeficiente de correlación lineal.
b. Conduzca un análisis de regresión lineal. Interprete (si fuese posible) los estimadores del
intercepto y de la pendiente en términos de este problema. Formule y pruebe las hipótesis de
interés usando =.01. Indique sus conclusiones.
3. En el archivo de InfoStat reglin (que lo encontrará en Program Files>InfoStat>Datos) se
encuentran datos que estudian la relación entre el pH del medio de cultivo y la biomasa producida
(en g).
a.
b.
c.
d.
Grafique los datos.
Estime la ecuación de regresión.
Formule y pruebe las hipótesis apropiadas de regresión lineal.
Interprete, si fuese posible, los estimadores del intercepto y de la pendiente en términos de
este problema.
e. Construya un intervalo de confianza del 99% para 1.
37
Laboratorio 13
4. Generalmente se considera que las personas más altas son mejores jugadores de baloncesto
porque son más capaces de introducir la bola en la canasta. Los datos que aparecen en la tabla
basquetbol (en la página del curso) muestran las alturas de 25 atletas que no son jugadores de
baloncesto y el número de bolas que pudieron colocar en un periodo de 60 segundos.
a. Conduzca un análisis de regresión lineal que permita corroborar o no esta afirmación.
b. Interprete (si fuese posible) los estimadores del intercepto y de la pendiente en términos de
este problema.
c. Formule y pruebe las hipótesis de interés usando =.01. Indique sus conclusiones.
d. Prediga, si es posible, la cantidad de bolas que colocaría un jugador de 60” de altura y uno de
77” de altura.
38
Laboratorio 14
Laboratorio 14: Diseño en bloques completos aleatorizados
1. Se condujo un experimento para comparar los efectos de tres diferentes insecticidas en
habichuela. Se usaron cuatro bloques, cada uno con 3 hileras (= unidades experimentales)
a una distancia adecuada. Cada hilera se plantó con 100 semillas y se mantuvo bajo uno
de los tratamientos con insecticida. Los insecticidas se asignaron aleatoriamente a las
hileras de forma tal que cada insecticida se aplicó a una hilera de cada bloque. La
respuesta de interés fue el número de plántulas emergidas en cada hilera.
Insecticida
A
B
C
Bloque 1
56
84
80
Bloque 2
49
78
72
Bloque 3
65
94
83
Bloque 4
60
93
85
a. Prepare una tabla de ANOVA en InfoStat.
b. Formule y pruebe las hipótesis de interés. Use α=0.05. Indique sus conclusiones en
términos de este problema.
c. ¿Cómo se hubiese realizado la asignación de los tratamientos a las unidades
experimentales si el diseño hubiese sido completamente aleatorizado? Describa
brevemente.
d. Realice, de ser necesario, una prueba de DMS para comparar los tratamientos. Use
α=0.05. Indique sus conclusiones.
e. Grafique los resultados.
f. Construya un intervalo de confianza para la media del tratamiento A.
39
Laboratorio 14
2. Se desea estudiar el efecto de cuatro nematicidas sobre el rendimiento de plátano. Para
ello se dispone de 16 parcelas que están dispuestas en el campo de la siguiente manera:
Se espera que las parcelas que estén más abajo reciban más humedad en el suelo que las que
estén más arriba (por ejemplo, las parcelas 9-12 van a tener más humedad que las parcelas 1-4).
a. ¿Qué diseño experimental recomendaría para este experimento? Justifique brevemente.
b. Asigne los nematicidas a las parcelas aleatoriamente (de acuerdo al diseño escogido en a).
Escriba el código de tratamiento asignado (N1, N2, N3 o N4) dentro de cada parcela.
c. Presente una tabla con las fuentes de variación y los grados de libertad (en números).
3. Para comparar cuatro preparaciones diferentes realizadas con harina de ñame, un panel de
12 jueces realizará una evaluación sensorial de los alimentos ofrecidos. Cada juez
probará las cuatro preparaciones, en un orden aleatoriamente escogido (diferente para
cada juez). Luego de probar el alimento, el juez le da un score entre 1 y 10. Los datos
están disponibles en la página del curso.
Juez
1
1
1
1
2
…
12
12
Prep
4
3
1
2
4
…
1
2
Score
4
4
4
5
5
…
9
8
a. Prepare una tabla de ANOVA en InfoStat.
b. Formule y pruebe las hipótesis de interés. Use α=0.05. Indique sus conclusiones en
términos de este problema.
40
Descargar