TALLER #1: BIOESTADÍSTICA II ANOVA INTRODUCCIÓN: Supuestos del análisis de varianza TABLA DE ANOVA Fuente de Variación (FdeV) Ttos Grados de Libertad (GL) t-1 Suma de Cuadrados (SC) t i1 Error n–t ó (n-1)-(t-1) Total n-1 y r y 2 i. Cuadrados Medios (CM) 2 .. n i Por diferencia= SC Tot – SC Ttos SC GL SC GL Ttos Ttos F Calculada (FC) CM CM Ttos Error Error Error y 2 t r y i1 j 1 2 ij .. n EJERCICIOS 2.57 II. Un grupo de estudiantes está interesado medir la cantidad en μg de NPDR, una enzima requerida para la biosíntesis de las bases nitrogenadas, en 4 especies distintas de microorganismos; en el laboratorio se obtuvieron los siguientes resultados: ESPECIE 1 0.23 0.32 0.21 0.28 0.24 0.33 ESPECIE 2 0.33 0.40 0.29 0.27 0.22 0.28 ESPECIE 3 0.25 0.32 0.27 0.31 0.30 0.23 ESPECIE 4 0.33 0.28 0.23 0.29 0.40 0.21 ¿Qué conclusiones puede sacarse acerca de las 4 especies, con un nivel de significancia del 1%? TALLER #2: BIOESTADÍSTICA II DISEÑO COMPLETAMENTE AL AZAR INTRODUCCIÓN: Ventajas y desventajas del DCA EJERCICIOS 1. En un tratamiento contra la hipertensión se seleccionaron 40 enfermos de características similares. A cada enfermo se le administró uno de los fármacos P, A, B, AB, al azar, formando 4 grupos. El grupo P tomó placebo (fármaco inocuo), el grupo A tomó un fármaco "A", el grupo B un fármaco "B" y el grupo AB una asociación entre "A" y "B". Para valorar la eficacia de los tratamientos, se registró el descenso de la presión diastólica desde el estado basal (inicio del tratamiento) hasta el estado al cabo de una semana de tratamiento. Los resultados, después de registrarse algunos abandonos, fueron los siguientes. P: 10, 0, 15, -20, 0,15, -5. A: 20, 25, 33, 25, 30,18, 27, 0, 35, 20. B: 15, 10,25, 30, 15, 35, 25, 22, 11, 25. AB: 10, 5, -5, 15, 20, 20, 0,10. ¿Tenemos diferencias entre los tratamientos? Use α= 0.05 2. Una fábrica de refrigeradoras tiene tres plantas de producción y desea probar si existe diferencia en por lo menos dos promedios de producción de dichas plantas. Para ello, se recolectaron las producciones (cantidad de refrigeradoras que se fabrican diariamente) y se presentaron los siguientes resultados: Producción de la planta de San José: 12, 17, 15, 15, 18, 12, 13, 14, 14 Producción de la planta de Heredia: 15, 17, 18, 12, 13, 11, 12, 11, 12 Producción de la planta de Alajuela: 10, 12, 15, 18, 9, 17, 15, 12, 18 Realice la prueba respectiva utilizando un nivel de significancia del 5% TALLER #3: BIOESTADÍSTICA II PRUEBAS DE COMPARACIÓN DE MEDIAS RESUMEN E INTRODUCCIÓN Criterios para la elección del tipo de prueba a usar en un diseño experimental Tabla de valores críticos para cada prueba Contrastes EJERCICIOS 1. Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoreamente en 5 grupos. Al primero de ellos no se le suministra ningún tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos son: Grupo 1 180 173 175 182 181 2 172 158 167 160 175 3 163 170 158 162 170 4 158 146 160 171 155 5 147 152 143 155 160 La tabla de Anova es: Fuente de variación Tratamiento Error GL 4 20 SC 2010,64 894,4 Total 24 2905,04 CM 502,66 44,72 F 11,24 Aplique la prueba de comparación de medias que considere más pertinente para este caso. Use α=0.05 2. En un experimento se comparó el rendimiento de seis variedades de maíz bajo el diseño experimental de completamente al azar con cinco repeticiones. El análisis de varianza demostró que existen diferencias significativas entre los tratamientos, con una varianza del error (CMerror) de 47.16. Realizar la comparación múltiple de medias de acuerdo al criterio de Tukey para seleccionar la (o las) mejor (es) variedades. Teniendo en cuenta que las tres primeras variedades son de la región andina, las variedades D y E son de la costa atlántica y la variedad F de los llanos orientales plantee y evalúe posibles contrastes Los rendimientos promedio (expresados en kg/parcela) se presentan a continuación: Variedad A 48.0 Variedad B 29.2 Variedad C 37.4 Variedad D 57.6 Variedad E 26.6 Variedad F 39.8 3. Aplicar la prueba de Duncan y LSD para analizar un experimento donde se empleó un diseño completamente al azar para evaluar la eficiencia de un antibiótico en el tratamiento de un hongo. El análisis de varianza demostró alta significancia de acuerdo a la prueba de F, con un CMerror de 0.041. Los promedios de los tratamientos aplicados a 4 repeticiones (expresados en mm) son: Tratamiento A 6.30 Tratamiento B 7.40 Tratamiento C 8.75 Tratamiento D 7.66 Tratamiento E 6.22 4. Elabore la tabla de resumen correspondiente a los siguientes datos : 1=2 2 = 3 3 = 4 4 = 5 1 3 2 = 4 3 5 4 6 1 4 2 5 3 6 1 5 2 6 1 6 56 TALLER #4: BIOESTADÍSTICA II DISEÑO DE BLOQUES AL AZAR INTRODUCCIÓN Características, ventajas y desventajas del DBA Tabla de Anova EJERCICIOS 1. Una empresa agrícola se encuentra interesada en determinar si existe diferencia entre el crecimiento de árboles jóvenes aplicando diferentes abonos. Sin embargo, el asesor de la empresa sugiere considerar la condición del suelo (arenoso, arcilloso, rocoso) ya que puede influir en el crecimiento, a continuación se presentan los diámetros obtenidos para cada una de las cuatro fórmulas, considerando los tres tipos de suelo citados: Pruebe la hipótesis de que al menos dos promedios del crecimiento de los árboles son diferentes, considerando el efecto del tipo del suelo. Use un nivel se significancia del 10%. 2. Se quiere llevar a cabo un experimento para medir el efecto de la densidad de plantación sobre el área foliar de una variedad de papa criolla. Se tiene suficiente material para hacer cinco repeticiones de cada tratamiento y para realizar las prácticas agronómicas homogéneamente en todas las parcelas. Se quieren ensayar 5 diferentes densidades de plantación. El terreno a sembrar tiene una pendiente del 40% y se considera de mayor fertilidad en la zona baja, sin embargo, el investigador asegura que no es una causa de variación a controlar. En algunas horas del día, árboles sembrados en la parte superior del terreno proporcionan cierto grado de sombrío gradual sobre parte del terreno y se considera que este factor puede afectar el tamaño de la hoja. a) ¿Es posible aplicar el diseño de bloques completos al azar para realizar este experimento? Especifique que fuentes de variación se controlarían. b) ¿Cómo sortearía los tratamientos? c) Escriba el modelo correspondiente al diseño recomendado. d) ¿cuántas observaciones tiene la base de datos? Elabore una tabla de análisis de varianza escribiendo solamente las fuentes de variación y los grados de libertad de acuerdo al diseño recomendado. 3. Un instituto se encuentra muy interesado en conocer sobre las actividades que realizan las personas con edades superiores a los 14 años. Por ello realizó una encuesta donde se recolectó la cantidad de horas que dedican las personas en las siguientes actividades. Pruebe la hipótesis de que al menos dos promedios del tiempo que dedican a dichas actividades, son diferentes considerando el efecto de la edad. Use un nivel se significancia del 5%. TALLER #5: BIOESTADÍSTICA II ARREGLOS FACTORIALES (con 2 factores) INTRODUCCIÓN Características de los arreglos factoriales (resumen) Análisis de varianza para arreglos factoriales EJERCICIOS 1. En una zona árida de la Guajira se quiere ensayar dos tipos de riego (por goteo y por aspersión), sobre el rendimiento del cultivo de ají. A su vez, se quiere probar 3 densidades de plantación: 10, 15 Y 20 mil plantas por ha. La unidad experimental es una parcela de 30 metros de largo por 6 de ancho. Se tiene dispuesto hacer solo tres repeticiones de cada tratamiento. Hasta donde sea posible, la cantidad de agua suministrada por los dos sistemas será igual y su aplicación se hará periódicamente. a. ¿Qué diseño experimental recomendaría? Justifique su respuesta. b. Escriba una tabla de análisis mostrando solamente las fuentes de variación y los grados de libertad. c. ¿Si el investigador está interesado en conocer la densidad que le produce el máximo rendimiento, que tiene que hacer? Para los ejercicios 2 y 3, analice los datos con α=0.05 2. Se quieren analizar los efectos de tres dosis de cierto medicamento sobre el tiempo de reacción y se piensa que existe una relación entre los tres niveles de dosis del medicamento y la edad de las personas que lo toman, por que se decide estudiar dos niveles de edad: “jóvenes” (menores de 65 años) y “viejos” (65 años y más). El efecto se mide en términos de la reducción en el tiempo de reacción a cualquier estímulo (milisegundos) y las medias son las que se muestran: EDAD Jóvenes 1 23 20 21 Viejos 24 25 22 DOSIS DEL MEDICAMENTO 2 3 22 19 19 18 20 21 22 20 19 20 19 22 3. Un ingeniero diseña una batería para su uso en un dispositivo que será sometido a ciertas variaciones extremas de temperatura. El único parámetro de diseño que él puede seleccionar en este punto es el material de la cubierta de la batería, y tiene tres alternativas. Cuando el dispositivo se manufactura y se envía al campo, el ingeniero no tiene control sobre los extremos de las temperaturas a que será expuesto el dispositivo, y sabe por experiencia que es probable que la temperatura influye sobre la duración de la batería.- Sin embargo, sí es posible controlar la temperatura en el laboratorio de desarrollo de productos para los fines del ensayo. El ingeniero decide probar los tres materiales de la cubierta a tres niveles de temperaturas (15, 70 y 125 ) consistentes en el entorno de su uso final del producto. Se prueban cuatro baterías a cada combinación del material de cubierta y temperatura, y las 36 pruebas se ejecutan al azar. La siguiente tabla muestra los datos resultantes de la duración (en días) observada de las baterías. Temperatura Tipo de 15 70 125 material 130 155 34 40 20 70 74 180 80 75 82 58 150 188 126 122 25 70 159 126 106 115 58 45 138 110 174 120 96 104 168 160 150 139 82 60 1 2 3 TALLER #6: BIOESTADÍSTICA II ARREGLOS FACTORIALES (3 factores) EJERCICIOS Nota: use α=0.05 para desarrollar los ejercicios 1 y 2 1. Se estudiaron en semilla de dos procedencias (Campeche y Quintana Roo) de Swietenia macrophylla King tres factores (contenido de humedad, envase y almacenamiento) que podrían afectar su viabilidad, para tal fin se registró el porcentaje de germinación por plato. Los tratamientos aplicados fueron: a) contenido de humedad de la semilla, con tres niveles (14, 12 y 10%), en base a Priestley (1986) que dice que para evitar la formación de cristales en las células de la semilla y prolongar su longevidad, el contenido de humedad no se debe rebasar 14%; b) almacenamiento con dos niveles, cámara fría y ambiente natural. c) tipo de envase con tres niveles, contenedores de metal (latas), bolsas de plástico e icopor. Humedad Almacenamiento Envase 14 14 14 14 14 14 12 12 12 12 12 12 10 10 10 10 10 10 Cámara fría Cámara fría Cámara fría Ambiente natural Ambiente natural Ambiente natural Cámara fría Cámara fría Cámara fría Ambiente natural Ambiente natural Ambiente natural Cámara fría Cámara fría Cámara fría Ambiente natural Ambiente natural Ambiente natural lata bolsa icopor lata bolsa icopor lata bolsa icopor lata bolsa icopor lata bolsa icopor lata bolsa icopor Procedencia Campeche Quintana roo 38 34 31 23 43 37 40 34 51 39 30 26 42 38 31 34 43 37 41 35 56 39 45 29 40 47 34 25 46 41 52 35 29 34 47 36 Realice el Anova correspondiente e interprete los resultados. 2. Un agrónomo quiso evaluar el efecto de la distancia entre plantas dentro de las hileras (0.2; 0.4; 0.6), el número de plantas por sitio de siembra (1.0; 2.0; 3.0) y el sistema de siembra (directo, transplante) sobre la producción fríjol, así que aplicó un DCA con 5 repeticiones para cada tratamiento y el obtuvo la siguiente tabla de cuadrados medios. Fuente de variación Distancia (D) Número de plantas (N) Sistema de siembra (S) D*N D*S N*S D*N*S ERROR CM 0.9 56.03 1.753 1.235 0.456 0.681 1.341 0.409 ¿Qué se puede concluir a partir de los datos anteriores? TALLER #8: BIOESTADISTICA II PARCELAS DIVIDIDAS INTRODUCCIÓN Características y Anova. EJERCICIO 1. Un experimento para probar el efecto de tres cultivos de abono vegetal sobre la producción subsecuente de remolacha azucarera, con dos niveles de fertilización de nitrógeno, fue planificado con un diseño de parcelas divididas. Las parcelas principales corresponden a dos niveles de fertilización de nitrógeno (0y 120 Libras/acre), aplicados a la remolacha en poco tiempo y repetidos tres veces en una distribución completamente al azar. Las subparcelas fueron los abonos vegetales que crecieron durante el otoño y el invierno anteriores a la siembra de remolacha azucarera. Los tratamientos de abono vegetal fueron cebada (C), vicia (V), cebada y vicia creciendo juntas (CV) y barbecho (B). Las producciones (en tons/acre) de las parcelas de remolacha azucarera subsecuentes a los abonos vegetales se muestran en la siguiente tabla: NITROGENO (Libras/acre) B C V CV 0 13.8 15.5 21.0 18.9 13.5 15.0 22.7 18.3 13.2 15.2 22.3 19.6 19.3 22.2 25.3 25.9 18.0 24.2 24.8 26.7 20.5 25.4 28.4 27.6 120 Analice los datos con un nivel de significancia del 5% y concluya al respecto. TALLER #9: BIOESTADISTICA II CORRELACIÓN INTRODUCCIÓN Interpretación del coeficiente de correlación lineal (Pearson, Spearman) Supuestos EJERCICIOS 1. Se realiza un estudio para determinar la asociación entre la concentración de nicotina en sangre de un individuo y el contenido en nicotina de un cigarrillo, obteniéndose la siguiente información: X Y Concentración de Nicotina en sangre (nmol/litro) Contenido de Nicotina por cigarrillo (mg) 185.7 1.51 197.3 0.96 204.2 1.21 199.9 1.66 199.1 1.11 192.8 0.84 207.4 1.14 183.0 1.28 234.1 1.53 196.5 0.76 Calcular el coeficiente de correlación de Pearson e interpretar su valor. 2. La siguiente tabla muestra las ofertas y precios del cerdo desde 1950 hasta 1959. AÑO 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 X CERDOS VENDIDOS (millones) 73 79 80 69 66 75 78 74 74 84 Y PRECIO POR ANIMAL (dólares) 18.0 20.0 17.8 21.4 21.6 15.0 14.4 17.8 19.6 14.1 Hallar el coeficiente de correlación de Spearman y concluir al respecto TALLER # 10: BIOESTADÍSTICA II REGRESIÓN SIMPLE INTRODUCCIÓN Supuestos, Anova, coeficiente de determinación. Intervalos de confianza para , para la recta y para la predicción. EJERCICIOS 1) Un hipermercado ha decidido ampliar el negocio. Decide estudiar de forma exhaustiva el número de cajas registradoras que va a instalar, para evitar grandes colas. Para ello, se obtuvieron los siguientes datos procedentes de otros establecimientos similares acerca del número de cajas registradoras y del tiempo medio de espera (min). Nº de cajas registradoras Tiempo medio de espera 9 10 12 14 12 18 20 59 56 51 42 32 26 22 Examinar si el tiempo de espera medio depende linealmente del número de cajas registradoras, si hay tal dependencia entonces analizar: ¿Cómo varía el tiempo medio de espera por cada unidad de caja adicional? Si se instalaran 17 cajas registradoras, ¿Cuál sería el tiempo medio de espera? ¿Es fiable dicho dato? Construir el intervalo de confianza del 95% para la recta (media) con 17 cajas e interpretar dicho cálculo. TALLER # 11: BIOESTADÍSTICA II REGRESIÓN MÚLTIPLE EJERCICIO Dada una muestra hipotética de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad (en años), consumo de grasas saturadas (en g/semana) y minutos de ejercicio diarios. Procesando los datos en SAS se obtiene: Paciente Colesterol Edad Grasas Ejercicio 1 350 80 35 10 2 190 30 40 40 3 263 42 15 17 4 320 50 20 0 5 280 45 35 20 6 198 35 50 30 7 232 18 70 120 8 320 32 40 45 9 303 49 45 25 10 220 35 35 15 11 405 50 50 0 12 190 20 15 40 13 230 40 20 15 14 227 30 35 20 15 440 30 80 35 16 318 23 40 60 17 212 35 40 20 18 340 18 80 90 19 195 22 15 45 20 223 41 34 25 Analysis of Variance DF Sum of Squares Mean Square Model 3 Error 16 Corrected Total 19 Root MSE Dependent Mean Coeff Var 51265 52121 103385 57.07479 272.80000 20.92184 17088 3257.53134 Source R-Square Adj R-Sq F Value Pr > F 5.25 0.0103 0.4959 0.4013 The REG Procedure Model: MODEL1 Dependent Variable: y Parameter Estimates Variable Intercept x1 x2 x3 DF Parameter Estimate Standard Error t Value Pr > |t| 1 1 1 1 121.71671 1.76277 2.72229 -0.62178 63.14511 1.26876 0.82865 0.73607 1.93 1.39 3.29 -0.84 0.0719 0.1838 0.0047 0.4107 1. Evaluar la significancia del modelo que involucra las tres variables planteadas. Y en caso de ser posible, interprete los coeficientes de regresión dados. 2. ¿Es la edad una variable significativa para el modelo? 3. Hacen los minutos diarios de ejercicio y el consumo de grasa saturadas, como conjunto, un aporte significativo al modelo.