Taller 2

Anuncio
TALLER #1: BIOESTADÍSTICA II
ANOVA
INTRODUCCIÓN: Supuestos del análisis de varianza
TABLA DE ANOVA
Fuente
de
Variación
(FdeV)
Ttos
Grados
de
Libertad
(GL)
t-1
Suma
de
Cuadrados
(SC)
t

i1
Error
n–t
ó
(n-1)-(t-1)
Total
n-1
y
r
y 
2
i.
Cuadrados
Medios
(CM)
2
..

n
i
Por diferencia=
SC Tot – SC Ttos
SC
GL
SC
GL
Ttos
Ttos
F
Calculada
(FC)
CM
CM
Ttos
Error
Error
Error
y 
2
t
r
  y
i1
j 1
2
ij

..
n
EJERCICIOS
2.57
II. Un grupo de estudiantes está interesado medir la cantidad en μg de NPDR, una
enzima requerida para la biosíntesis de las bases nitrogenadas, en 4 especies
distintas de microorganismos; en el laboratorio se obtuvieron los siguientes
resultados:
ESPECIE 1
0.23
0.32
0.21
0.28
0.24
0.33
ESPECIE 2
0.33
0.40
0.29
0.27
0.22
0.28
ESPECIE 3
0.25
0.32
0.27
0.31
0.30
0.23
ESPECIE 4
0.33
0.28
0.23
0.29
0.40
0.21
¿Qué conclusiones puede sacarse acerca de las 4 especies, con un nivel de
significancia del 1%?
TALLER #2: BIOESTADÍSTICA II
DISEÑO COMPLETAMENTE AL AZAR
INTRODUCCIÓN: Ventajas y desventajas del DCA
EJERCICIOS
1. En un tratamiento contra la hipertensión se seleccionaron 40 enfermos de
características similares. A cada enfermo se le administró uno de los fármacos
P, A, B, AB, al azar, formando 4 grupos. El grupo P tomó placebo (fármaco
inocuo), el grupo A tomó un fármaco "A", el grupo B un fármaco "B" y el grupo
AB una asociación entre "A" y "B". Para valorar la eficacia de los tratamientos,
se registró el descenso de la presión diastólica desde el estado basal (inicio del
tratamiento) hasta el estado al cabo de una semana de tratamiento. Los
resultados, después de registrarse algunos abandonos, fueron los siguientes.
P: 10, 0, 15, -20, 0,15, -5.
A: 20, 25, 33, 25, 30,18, 27, 0, 35, 20.
B: 15, 10,25, 30, 15, 35, 25, 22, 11, 25.
AB: 10, 5, -5, 15, 20, 20, 0,10.
¿Tenemos diferencias entre los tratamientos? Use α= 0.05
2. Una fábrica de refrigeradoras tiene tres plantas de producción y desea probar si
existe diferencia en por lo menos dos promedios de producción de dichas
plantas. Para ello, se recolectaron las producciones (cantidad de refrigeradoras
que se fabrican diariamente) y se presentaron los siguientes resultados:
Producción de la planta de San José: 12, 17, 15, 15, 18, 12, 13, 14, 14
Producción de la planta de Heredia: 15, 17, 18, 12, 13, 11, 12, 11, 12
Producción de la planta de Alajuela: 10, 12, 15, 18, 9, 17, 15, 12, 18
Realice la prueba respectiva utilizando un nivel de significancia del 5%
TALLER #3: BIOESTADÍSTICA II
PRUEBAS DE COMPARACIÓN DE MEDIAS
RESUMEN E INTRODUCCIÓN



Criterios para la elección del tipo de prueba a usar en un diseño
experimental
Tabla de valores críticos para cada prueba
Contrastes
EJERCICIOS
1. Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la
hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se
seleccionan al azar 25 hipertensos y se distribuyen aleatoreamente en 5 grupos.
Al primero de ellos no se le suministra ningún tratamiento, al segundo una dieta
con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco
a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las
presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos son:
Grupo
1
180
173
175
182
181
2
172
158
167
160
175
3
163
170
158
162
170
4
158
146
160
171
155
5
147
152
143
155
160
La tabla de Anova es:
Fuente de variación
Tratamiento
Error
GL
4
20
SC
2010,64
894,4
Total
24
2905,04
CM
502,66
44,72
F
11,24
Aplique la prueba de comparación de medias que considere más pertinente para
este caso. Use α=0.05
2. En un experimento se comparó el rendimiento de seis variedades de maíz bajo
el diseño experimental de completamente al azar con cinco repeticiones. El
análisis de varianza demostró que existen diferencias significativas entre los
tratamientos, con una varianza del error (CMerror) de 47.16. Realizar la
comparación múltiple de medias de acuerdo al criterio de Tukey
para
seleccionar la (o las) mejor (es) variedades.
Teniendo en cuenta que las tres primeras variedades son de la región andina,
las variedades D y E son de la costa atlántica y la variedad F de los llanos
orientales plantee y evalúe posibles contrastes
Los rendimientos promedio (expresados en kg/parcela) se presentan a
continuación:
Variedad A
48.0
Variedad B
29.2
Variedad C
37.4
Variedad D
57.6
Variedad E
26.6
Variedad F
39.8
3. Aplicar la prueba de Duncan y LSD para analizar un experimento donde se
empleó un diseño completamente al azar para evaluar la eficiencia de un
antibiótico en el tratamiento de un hongo. El análisis de varianza demostró alta
significancia de acuerdo a la prueba de F, con un CMerror de 0.041. Los
promedios de los tratamientos aplicados a 4 repeticiones (expresados en mm)
son:
Tratamiento A
6.30
Tratamiento B
7.40
Tratamiento C
8.75
Tratamiento D
7.66
Tratamiento E
6.22
4. Elabore la tabla de resumen correspondiente a los siguientes datos :
1=2
2 = 3
3 = 4
4 = 5
1 3
2 = 4
3  5
4  6
1  4
2  5
3  6
1  5
2  6
1  6
56
TALLER #4: BIOESTADÍSTICA II
DISEÑO DE BLOQUES AL AZAR
INTRODUCCIÓN


Características, ventajas y desventajas del DBA
Tabla de Anova
EJERCICIOS
1. Una empresa agrícola se encuentra interesada en determinar si existe diferencia
entre el crecimiento de árboles jóvenes aplicando diferentes abonos. Sin
embargo, el asesor de la empresa sugiere considerar la condición del suelo
(arenoso, arcilloso, rocoso) ya que
puede influir en el crecimiento, a
continuación se presentan los diámetros obtenidos para cada una de las cuatro
fórmulas, considerando los tres tipos de suelo citados:
Pruebe la hipótesis de que al menos dos promedios del crecimiento de los
árboles son diferentes, considerando el efecto del tipo del suelo. Use un nivel se
significancia del 10%.
2. Se quiere llevar a cabo un experimento para medir el efecto de la densidad de
plantación sobre el área foliar de una variedad de papa criolla. Se tiene
suficiente material para hacer cinco repeticiones de cada tratamiento y para
realizar las prácticas agronómicas homogéneamente en todas las parcelas. Se
quieren ensayar 5 diferentes densidades de plantación. El terreno a sembrar
tiene una pendiente del 40% y se considera de mayor fertilidad en la zona baja,
sin embargo, el investigador asegura que no es una causa de variación a
controlar. En algunas horas del día, árboles sembrados en la parte superior del
terreno proporcionan cierto grado de sombrío gradual sobre parte del terreno y
se considera que este factor puede afectar el tamaño de la hoja.
a) ¿Es posible aplicar el diseño de bloques completos al azar para realizar este
experimento? Especifique que fuentes de variación se controlarían.
b) ¿Cómo sortearía los tratamientos?
c) Escriba el modelo correspondiente al diseño recomendado.
d) ¿cuántas observaciones tiene la base de datos?
Elabore una tabla de análisis de varianza escribiendo solamente las fuentes de
variación y los grados de libertad de acuerdo al diseño recomendado.
3. Un instituto se encuentra muy interesado en conocer sobre las actividades que
realizan las personas con edades superiores a los 14 años. Por ello realizó una
encuesta donde se recolectó la cantidad de horas que dedican las personas en
las siguientes actividades.
Pruebe la hipótesis de que al menos dos promedios del tiempo que dedican a dichas
actividades, son diferentes considerando el efecto de la edad. Use un nivel se
significancia del 5%.
TALLER #5: BIOESTADÍSTICA II
ARREGLOS FACTORIALES (con 2 factores)
INTRODUCCIÓN


Características de los arreglos factoriales (resumen)
Análisis de varianza para arreglos factoriales
EJERCICIOS
1. En una zona árida de la Guajira se quiere ensayar dos tipos de riego (por goteo
y por aspersión), sobre el rendimiento del cultivo de ají. A su vez, se quiere
probar 3 densidades de plantación: 10, 15 Y 20 mil plantas por ha. La unidad
experimental es una parcela de 30 metros de largo por 6 de ancho. Se tiene
dispuesto hacer solo tres repeticiones de cada tratamiento. Hasta donde sea
posible, la cantidad de agua suministrada por los dos sistemas será igual y su
aplicación se hará periódicamente.
a. ¿Qué diseño experimental recomendaría? Justifique su respuesta.
b. Escriba una tabla de análisis mostrando solamente las fuentes de variación y los
grados de libertad.
c. ¿Si el investigador está interesado en conocer la densidad que le produce el
máximo rendimiento, que tiene que hacer?
Para los ejercicios 2 y 3, analice los datos con α=0.05
2. Se quieren analizar los efectos de tres dosis de cierto medicamento sobre el
tiempo de reacción y se piensa que existe una relación entre los tres niveles de
dosis del medicamento y la edad de las personas que lo toman, por que se
decide estudiar dos niveles de edad: “jóvenes” (menores de 65 años) y “viejos”
(65 años y más). El efecto se mide en términos de la reducción en el tiempo de
reacción a cualquier estímulo (milisegundos) y las medias son las que se
muestran:
EDAD
Jóvenes
1
23
20
21
Viejos
24
25
22
DOSIS DEL MEDICAMENTO
2
3
22
19
19
18
20
21
22
20
19
20
19
22
3. Un ingeniero diseña una batería para su uso en un dispositivo que será
sometido a ciertas variaciones extremas de temperatura. El único parámetro de
diseño que él puede seleccionar en este punto es el material de la cubierta de la
batería, y tiene tres alternativas. Cuando el dispositivo se manufactura y se
envía al campo, el ingeniero no tiene control sobre los extremos de las
temperaturas a que será expuesto el dispositivo, y sabe por experiencia que es
probable que la temperatura influye sobre la duración de la batería.- Sin
embargo, sí es posible controlar la temperatura en el laboratorio de desarrollo
de productos para los fines del ensayo.
El ingeniero decide probar los tres materiales de la cubierta a tres niveles de
temperaturas (15, 70 y 125
) consistentes en el entorno de su uso final del
producto. Se prueban cuatro baterías a cada combinación del material de
cubierta y temperatura, y las 36 pruebas se ejecutan al azar. La siguiente tabla
muestra los datos resultantes de la duración (en días) observada de las
baterías.
Temperatura
Tipo de
15
70
125
material
130
155 34
40
20 70
74
180 80
75
82 58
150
188 126 122 25 70
159
126 106 115 58 45
138
110 174 120 96 104
168
160 150 139 82 60
1
2
3
TALLER #6: BIOESTADÍSTICA II
ARREGLOS FACTORIALES (3 factores)
EJERCICIOS
Nota: use α=0.05 para desarrollar los ejercicios 1 y 2
1. Se estudiaron en semilla de dos procedencias (Campeche y Quintana Roo) de
Swietenia macrophylla King tres factores (contenido de humedad, envase y
almacenamiento) que podrían afectar su viabilidad, para tal fin se registró el
porcentaje de germinación por plato.
Los tratamientos aplicados fueron: a) contenido de humedad de la semilla, con
tres niveles (14, 12 y 10%), en base a Priestley (1986) que dice que para evitar
la formación de cristales en las células de la semilla y prolongar su longevidad,
el contenido de humedad no se debe rebasar 14%; b) almacenamiento con dos
niveles, cámara fría y ambiente natural. c) tipo de envase con tres niveles,
contenedores de metal (latas), bolsas de plástico e icopor.
Humedad
Almacenamiento
Envase
14
14
14
14
14
14
12
12
12
12
12
12
10
10
10
10
10
10
Cámara fría
Cámara fría
Cámara fría
Ambiente natural
Ambiente natural
Ambiente natural
Cámara fría
Cámara fría
Cámara fría
Ambiente natural
Ambiente natural
Ambiente natural
Cámara fría
Cámara fría
Cámara fría
Ambiente natural
Ambiente natural
Ambiente natural
lata
bolsa
icopor
lata
bolsa
icopor
lata
bolsa
icopor
lata
bolsa
icopor
lata
bolsa
icopor
lata
bolsa
icopor
Procedencia
Campeche
Quintana roo
38
34
31
23
43
37
40
34
51
39
30
26
42
38
31
34
43
37
41
35
56
39
45
29
40
47
34
25
46
41
52
35
29
34
47
36
Realice el Anova correspondiente e interprete los resultados.
2. Un agrónomo quiso evaluar el efecto de la distancia entre plantas dentro de las
hileras (0.2; 0.4; 0.6), el número de plantas por sitio de siembra (1.0; 2.0; 3.0)
y el sistema de siembra (directo, transplante) sobre la producción fríjol, así que
aplicó un DCA con 5 repeticiones para cada tratamiento y el obtuvo la siguiente
tabla de cuadrados medios.
Fuente de variación
Distancia (D)
Número de plantas (N)
Sistema de siembra (S)
D*N
D*S
N*S
D*N*S
ERROR
CM
0.9
56.03
1.753
1.235
0.456
0.681
1.341
0.409
¿Qué se puede concluir a partir de los datos anteriores?
TALLER #8: BIOESTADISTICA II
PARCELAS DIVIDIDAS
INTRODUCCIÓN

Características y Anova.
EJERCICIO
1. Un experimento para probar el efecto de tres cultivos de abono vegetal sobre la
producción subsecuente de remolacha azucarera, con dos niveles de fertilización
de nitrógeno, fue planificado con un diseño de parcelas divididas. Las parcelas
principales corresponden a dos niveles de fertilización de nitrógeno (0y 120
Libras/acre), aplicados a la remolacha en poco tiempo y repetidos tres veces en
una distribución completamente al azar. Las subparcelas fueron los abonos
vegetales que crecieron durante el otoño y el invierno anteriores a la siembra de
remolacha azucarera. Los tratamientos de abono vegetal fueron cebada (C),
vicia (V), cebada y vicia creciendo juntas (CV) y barbecho (B). Las producciones
(en tons/acre) de las parcelas de remolacha azucarera subsecuentes a los
abonos vegetales se muestran en la siguiente tabla:
NITROGENO
(Libras/acre)
B
C
V
CV
0
13.8
15.5
21.0
18.9
13.5
15.0
22.7
18.3
13.2
15.2
22.3
19.6
19.3
22.2
25.3
25.9
18.0
24.2
24.8
26.7
20.5
25.4
28.4
27.6
120
Analice los datos con un nivel de significancia del 5% y concluya al respecto.
TALLER #9: BIOESTADISTICA II
CORRELACIÓN
INTRODUCCIÓN


Interpretación del coeficiente de correlación lineal (Pearson, Spearman)
Supuestos
EJERCICIOS
1. Se realiza un estudio para determinar la asociación entre la concentración de
nicotina en sangre de un individuo y el contenido en nicotina de un cigarrillo,
obteniéndose la siguiente información:
X
Y
Concentración de Nicotina en sangre
(nmol/litro)
Contenido de Nicotina por cigarrillo
(mg)
185.7
1.51
197.3
0.96
204.2
1.21
199.9
1.66
199.1
1.11
192.8
0.84
207.4
1.14
183.0
1.28
234.1
1.53
196.5
0.76
Calcular el coeficiente de correlación de Pearson e interpretar su valor.
2. La siguiente tabla muestra las ofertas y precios del cerdo desde 1950 hasta
1959.
AÑO
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
X
CERDOS VENDIDOS
(millones)
73
79
80
69
66
75
78
74
74
84
Y
PRECIO POR ANIMAL
(dólares)
18.0
20.0
17.8
21.4
21.6
15.0
14.4
17.8
19.6
14.1
Hallar el coeficiente de correlación de Spearman y concluir al respecto
TALLER # 10: BIOESTADÍSTICA II
REGRESIÓN SIMPLE
INTRODUCCIÓN
 Supuestos, Anova, coeficiente de determinación.
 Intervalos de confianza para , para la recta y para la predicción.
EJERCICIOS
1) Un hipermercado ha decidido ampliar el negocio. Decide estudiar de forma
exhaustiva el número de cajas registradoras que va a instalar, para evitar
grandes colas. Para ello, se obtuvieron los siguientes datos procedentes de
otros establecimientos similares acerca del número de cajas registradoras y del
tiempo medio de espera (min).
Nº de cajas registradoras
Tiempo medio de espera
9
10
12
14
12
18
20
59
56
51
42
32
26
22
Examinar si el tiempo de espera medio depende linealmente del número de cajas
registradoras, si hay tal dependencia entonces analizar:



¿Cómo varía el tiempo medio de espera por cada unidad de caja adicional?
Si se instalaran 17 cajas registradoras, ¿Cuál sería el tiempo medio de
espera? ¿Es fiable dicho dato?
Construir el intervalo de confianza del 95% para la recta (media) con 17
cajas e interpretar dicho cálculo.
TALLER # 11: BIOESTADÍSTICA II
REGRESIÓN MÚLTIPLE
EJERCICIO
Dada una muestra hipotética de 20 pacientes en los que se ha recogido los
siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad
(en años), consumo de grasas saturadas (en g/semana) y minutos de ejercicio
diarios.
Procesando los datos en SAS se obtiene:
Paciente Colesterol Edad Grasas Ejercicio
1
350
80
35
10
2
190
30
40
40
3
263
42
15
17
4
320
50
20
0
5
280
45
35
20
6
198
35
50
30
7
232
18
70
120
8
320
32
40
45
9
303
49
45
25
10
220
35
35
15
11
405
50
50
0
12
190
20
15
40
13
230
40
20
15
14
227
30
35
20
15
440
30
80
35
16
318
23
40
60
17
212
35
40
20
18
340
18
80
90
19
195
22
15
45
20
223
41
34
25
Analysis of Variance
DF
Sum of
Squares
Mean
Square
Model
3
Error
16
Corrected Total
19
Root MSE
Dependent Mean
Coeff Var
51265
52121
103385
57.07479
272.80000
20.92184
17088
3257.53134
Source
R-Square
Adj R-Sq
F Value
Pr > F
5.25
0.0103
0.4959
0.4013
The REG Procedure
Model: MODEL1
Dependent Variable: y
Parameter Estimates
Variable
Intercept
x1
x2
x3
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
1
1
1
1
121.71671
1.76277
2.72229
-0.62178
63.14511
1.26876
0.82865
0.73607
1.93
1.39
3.29
-0.84
0.0719
0.1838
0.0047
0.4107
1. Evaluar la significancia del modelo que involucra las tres variables planteadas. Y
en caso de ser posible, interprete los coeficientes de regresión dados.
2. ¿Es la edad una variable significativa para el modelo?
3. Hacen los minutos diarios de ejercicio y el consumo de grasa saturadas, como
conjunto, un aporte significativo al modelo.
Descargar