ANÁLISIS AVANZADO DE DATOS Analice la figura en la que aparecen los gráficos Box−Plot para la Variable producción, en dos cultivos A y B y a partir de ese análisis responda a las siguientes preguntas. 1.− El valor mediano es el mismo en ambos cultivos. 2.−La distribución de la variable producción en el cultivo A es simétrica. 3.−La variable producción en el cultivo A, presenta mayor dispersión que en el cultivo B. 4.−En el cultivo B el 25% de los datos toman valores entre 14 y 15 aproximadamente. 5.−Al menos el 25% de los datos del cultivo B son mayores que cualquiera (el 100%) de los datos del cultivo A. −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 6.−La media aritmética no se ve afectada por los valores más extremos de la distribución. 7.−La suma de frecuencias absolutas coincide con el tamaño de la muestra. 8.−La frecuencia absoluta es un valor acotado entre cero y uno. 9.−La mediana está afectada por valores extremos de la variable. 10.−La desviación típica muestral sirve para valorar la dispersión de los datos en torno al valor central de la muestra. 11.−El error estándar de la media sirve para valorar la variabilidad de la media en el muestreo. 12.−La varianza es una medida de dispersión que presenta la ventaja de venir expresada en las mismas unidades que la variable. 13.−La desviación típica muestral y el error estándar de la media proporcionan la misma información, por eso es indiferente utilizar una u otra en una publicación científica. 14.−Cuando tenemos una distribución asimétrica utilizaremos la mediana en lugar de la media como medida de tendencia central. 15.−El coeficiente de variación es una medida de dispersión adimensional. 16.−En una distribución simétrica la media y la mediana coinciden. 17.−Una medida de tendencia central irá siempre acompañada de una medida de dispersión. 18.−Por riesgo tipo I entendemos la probabilidad de aceptar la hipótesis alternativa indebidamente. 19.−Por riesgo tipo II entendemos la probabilidad de rechazar la hipótesis nula indebidamente. 1 20.−Por potencia del contraste entendemos la probabilidad de aceptar la hipótesis nula cuando es verdadera. 21.−La potencia del contraste es 1−ð donde ð es la probabilidad de cometer un error de tipo II. 22.−En un contraste de comparación de medias la hipótesis nula depende del propósito del investigador. 23.−En un contraste para comparación de dos medias, la hipótesis nula es: Ho: x1 = x2 24.−En un contraste bilateral para comparación de dos medias, la hipótesis alternativa es: Ha: x1 = x2 La tabla siguiente muestra el análisis de la varianza para la comparación de la temperatura media del agua en cuatro semanas diferentes: SEMANA RESIDUAL DF SUM OF SQUARES 3 24 64,777 127,417 MEAN SQUARE 21,592 5,309 F−VALUE P−VALUE 4,067 0,181 Y las correspondientes medias para las semanas son Count 7 7 7 7 Mean 6,886 7,857 9,171 10,943 Std.Dev. 0,694 1,277 2,052 3,862 Std Error. 0,262 0,482 0,775 1,460 25.−La hipótesis nula es Ho: ð1= ð2 = ð3 = ð4 = ð5 26.− La hipótesis alternativa correspondiente es: Ha: ð1 = ð2 = ð3 =ð4 27.−El contraste es significativo. 28.−No es necesario realizar un contraste de hipótesis ya que las medias muestrales son claramente diferentes. 29.−Basándonos en el p−valor es claro que las diferencias observadas en la medias pueden ser debidas al azar. 30.−El contraste es altamente significativo. 31.−El p−valor de un contraste es la probabilidad de encontrar valores más extremos que los encontrados para nuestra muestra particular. 32.−Si el p−valor correspondiente a un contraste es menor de 0.5 rechazaremos la hipótesis nula. 33.−Rechazaremos la hipótesis nula si el p−valor es menor que el nivel de significación ð. 34.−En este caso aceptamos la hipótesis alternativa. 2 El gráfico siguiente muestra las medias de las semanas con los respectivos intervalos de confianza: 35.−El gráfico con los intervalos de confianza es una primera aproximación a la comparación de medias. 36.−Un intervalo de confianza para un nivel de significación, será tanto más preciso cuanta más amplitud tenga. 37.− Para que la estimación de un parámetro mediante un intervalo de confianza sea más precisa (diferencia entre el estimador y el verdadero parámetro poblacional más pequeña), podemos aumentar el nivel de confianza. 38.−Para que la estimación de un parámetro mediante un intervalo de confianza sea más precisa, podemos aumentar el nivel de significación. 39.−La precisión de la estimación aumenta con el tamaño muestral. 40.−En este caso, todos los intervalos se cruzan por lo que no se detectan diferencias claras en las semanas. 41.−La contradicción entre en ANOVA y el gráfico se debe a que este último no tiene en cuenta simultáneamente la información de todas las semanas. La tabla siguiente muestra el test LSD para la comparación de las medias. Mean diff. −0,971 −2,286 −4,057 −1,314 −3,086 −1,771 Crit.Diff 2,542 2,542 2,542 2,542 2,542 2,542 P−value 0,4380 0,0758 0,0031 0,2965 0,0194 0,1633 42.−Se detectan diferencias significativas entre todas las parejas salvo la (1,4) y la (2,4). 43.−Parece que hay una contradicción ya que si el ANOVA ha resultado significativo, todas las medias poblacionales son distintas. 44.−El ANOVA requiere que las poblaciones sean normales y homoscedasticas. 45.−El test LSD está protegido frente al riesgo tipo I por lo que se puede encontrar más diferencias de las que realmente existen en los datos. 46.−El test LSD para la comparación de medias por parejas es el más conservador. La tabla siguiente muestra el test de Bonferroni para la comparación de las medias por parejas: 1,2 1,3 1,4 2,3 Mean diff. −0,971 −2,286 −4,057 −1,314 Crit. Diff 3,541 3,541 3,541 3,541 P−value 0,4380 0,0758 0,0031 0,2965 3 2,4 3,4 −3,086 −1,771 3,541 3,541 0,0194 0,1633 Comparisons in this table are not significant unless the corresponding p−value is less than 0,0083. 47.−La prueba de Bonferroni permite llevar a cabo cualquier tipo de comparaciones por parejas, manteniendo el riesgo Tipo I por debajo de uno prefijado. 48.− La prueba de Bonferroni se puede utilizar con tamaños demuestras iguales o diferentes. 49.− Para este caso solamente se detectan diferencias significativas entre las semanas 1 y 4. 50.−Si utilizáramos la prueba de Tukey para la comparación de las semanas 1 y 2, el contraste sería no significativo. 51.−Si utilizáramos la prueba Tukey para la comparación de las semanas 1 y 4, el contraste sería significativo. 52.−No tenemos información suficiente para contestar las preguntas 50 y 51. 53.−Cuando intervienen en el contraste más de dos tratamientos los valores críticos de Tukey son mayores que los de Student para un mismo nivel de significación. 54.−Cuando intervienen en el contraste más de dos tratamientos los valores críticos de Bonferroni son mayores que los de Student para un mismo nivel de significación. 55.−Cuando intervienen en el contraste más de dos tratamientos los valores críticos de Bonferroni son menores que los de Tukey par un mismo nivel de significación. 56.− Si se comparan 4 grupos, es decir se pueden llevar a cabo 6 comparaciones por parejas, con un nivel de significación global de 0.05; el nivel de significación para cada comparación utilizando la aproximación de Bonferroni es 0.0083. Se desean comparar el porcentaje de mejora que producen 3 tipos de droga (A, B, C) en dos tipos de pacientes (esquizofrénicos y depresivos), para lo cual se realiza un diseño factorial con dos réplicas por casilla, obteniéndose los siguientes resultados para el Análisis de la varianza. Drogas Enfermedad D*E Residual DF SUM OF SQUARES 2 1 2 6 0,040 3,333E−5 0,086 0,005 MEAN SQUARE 0,20 3,333E−5 0,043 0,001 F−VALUE P−VALUE 26,130 0,043 56,130 0,0011 0,8417 0,0001 57.−En el análisis de la varianza de dos vías tenemos tres hipótesis a contrastar, dos para los efectos principales y una para la interacción. 58.−En general, el análisis de la varianza no detecta significación si la variabilidad entre grupos es más pequeña que la variabilidad dentro de los grupos. 59.−En principio se detectan diferencias significativas entre drogas pero no entre tipos de pacientes. 4 60.−Se detectan una interacción significativa entre drogas y tipos de pacientes. 61.−Si en un ANOVA de dos factores con interacción no se detectan diferencias entre los niveles de los factores principales pero se detecta interacción, la conclusión es que los factores no influyen en la respuesta. 62.− Si en un ANOVA de dos factores con interacción no se detectan diferencias entre los niveles de los factores principales pero se detecta interacción, la conclusión es que cada uno de los factores influye en la respuesta de manera diferente en cada uno de los niveles del otro factor. 63.−Si en un ANOVA dos factores con interacción se detecta una interacción significativa, las conclusiones obtenidas a partir de los contrastes para los factores principales pueden ser erróneas. 64.−En un ANOVA de dos factores con interacción sólo sacaremos conclusiones a partir de los contrastes para los factores principales si la interacción es significativa. 65.− En el ejemplo anterior, no podemos saber si hay diferencias entre enfermedades ya que éstas dependen de las drogas. 66.− Para que un experimento esté correctamente diseñado los tratamientos han de seleccionarse al azar sobre unidades experimentales homogéneas. 67.−La aleatorización puede introducir errores sistemáticos en las observaciones que aumentan el error experimental. 68.−Los modelos de diseño experimental tienen una parte controlada y una parte no controlada que mide la variabilidad intrínseca del material experimental. 69.−Para que un experimento esté diseñado es necesario que las unidades experimentales difieran de forma sistemática. 70.−La precisión de un diseño experimental es mayor cuanto más pequeño sea el tamaño muestral. 71.−Los diseños factoriales permiten controlar todas las combinaciones de niveles de los factores. 72.−El diseño en bloques permite controlar la variabilidad experimental procedente de la heterogeneidad de las observaciones. 73.−En un diseño factorial se prueban todas las combinaciones de niveles de los factores. 74.−El término de error en un modelo de diseño experimental recoge la variabilidad intrínseca de las unidades experimentales. 75.−Los efectos de los tratamientos se estiman a partir de las medias de las observaciones que recibieron cada uno de ellos. 76.−La parte que depende sólo de la unidad experimental se estima como la observación menos la media de tratamiento que se le aplicó. 77.−La normalidad de las poblaciones estudiadas no es necesaria par la aplicación correcta de los métodos de diseño experimental. 78.−Sólo es posible aislar la interacción cuando se prueban varias réplicas de cada tratamiento. 5 79.−Cuando existe interacción se dice que el modelo es aditivo. 80.−El modelo para un experimento con bloques al azar es xij = ð + ði + ðij 81.−El modelo para un experimento factorial con dos factores de variación considerando la interacción es xij = ð + ði + ðj + (ðð)ij + ðij 82.−La suma de cuadrados dentro de los grupos en el análisis de la varianza de 1 vía se calcula como: QE = 83.−La suma de cuadrados entre grupos mide la variabilidad controlada. 84.−La suma de cuadrados entre grupos mide la variabilidad no controlada en un análisis de la varianza. 85.−Todos los factores no controlados aumentan la variabilidad intrínseca de las observaciones y por tanto la variabilidad residual en el análisis de la varianza. 86.−Es más fácil detectar significación en las diferencias entre tratamientos cuanto mayor sea la variabilidad residual. 87.−Cuando dos factores no interactúan se dice que sus efectos son aditivos. 88.− En un gráfico de interacción, las líneas que representan a los niveles de uno de los factores son paralelas cuando la interacción resultó significativa en el análisis de la varianza. 89.−En un análisis de la varianza de dos vías con interacción se contrastan tres hipótesis distintas. 90.−Cuando en un experimento factorial se detecta interacción se dice que el modelo es multiplicativo. 6