La ejercitación presentada en esta guía tiene como finalidad la... Inferencia Estadística ESTADISTICA Y BIOMETRIA

Anuncio
ESTADISTICA Y BIOMETRIA
Guía de
Ejercitación 2
La ejercitación presentada en esta guía tiene como finalidad la revisión de conceptos en el marco de
la Inferencia Estadística como lo son los intervalos de confianza, los contrastes de hipótesis
referidos a parámetros de una o dos distribuciones, el error de tipo II y la potencia de una prueba de
hipótesis, usando como soporte computacional el software estadístico InfoStat. Las salidas
obtenidas desde el computador se discutirán en clase destacando cómo analizar los resultados y la
importancia de los mismos en el contexto de las situaciones planteadas a continuación y de otras
situaciones problemáticas similares, comunes en el ámbito de las ciencias agropecuarias. Recuerde
llevar a la clase una copia de los resultados obtenidos.
Para realizar los ejercicios lea atentamente los enunciados y consignas. Recuerde que el programa
estadístico posee una versión electrónica del Manual de usuario en donde se explican y detallan
todos los procedimientos estadísticos disponibles.
Problema 1:
Utilice los datos registrados en un experimento sobre ajo blanco para estimar los parámetros
distribucionales de la variable perímetro (perim) de las cabezas de ajo. Para abrir el archivo se
debe seguir la siguiente secuencia C:\Archivos de programas\ InfoStat\ Datos\ Ajoblanc.idb.
Recuerde copiar los resultados y/o gráficos que obtenga en cada ejercicio, pegándolos en un
documento Word. Guarde ese documento en un diskette.
Ejercicio 1: Utilizando el menú Estadísticas> Inferencia basada en una muestra > Intervalos de
confianza, obtenga:
a) Un intervalo de confianza al 95% para el perímetro promedio de las cabezas de ajo.
b) Un intervalo de confianza al 99% para el perímetro promedio de las cabezas de ajo.
Ejercicio 2: Compare los intervalos anteriores y discuta acerca del efecto del cambio de la
confianza (1-) sobre la amplitud de un intervalo de confianza.
Ejercicio 3: Suponga que los datos del archivo Ajoblanc.idb corresponden a una población de la
cual Ud. extrae una muestra conformada por los 200 primeros datos. En base a dicha muestra
obtenga un intervalo de confianza al 95% para la media de la variable perímetro de las cabezas de
ajo.
Nota: Recuerde desactivar los casos a partir del caso 201.
Ejercicio 4: Al igual que en el ejercicio 3 trabaje con una muestra pero ahora conformada por los
primeros 500 datos. Obtenga un intervalo de confianza al 95% para la media de la variable
perímetro de las cabezas de ajo.
Nota: Recuerde activar todos los casos y luego desactivar los casos a partir del caso 501.
Ejercicio 5: Compare los intervalos logrados en los ejercicios 1-a, 3 y 4. Discuta sobre el efecto del
tamaño muestral sobre la amplitud del intervalo.
Ejercicio 6: Utilice el menú Aplicaciones > Didácticas > Intervalos de confianza para representar
conceptos relacionados a la construcción de intervalos de confianza. Para ello, suponga que la
distribución de la variable perímetro de las cabezas de ajo blanco es normal con media 17.2 y
varianza 10.7. Cuando complete la información solicitada por el procedimiento aparecerá un
gráfico con los intervalos construidos y la ventana de Herramientas gráficas mediante la cual se
pueden introducir modificaciones al gráfico. En la solapa Series, de la ventana Herramientas
1
ESTADISTICA Y BIOMETRIA
Guía de
Ejercitación 2
gráficas, la opción Tamaño permite aumentar el tamaño del punto central de cada intervalo de
confianza. Trabaje con diferentes tamaños de muestra (opción Tamaño muestral) y con distintos
niveles de confianza (opción Confianza), para estudiar su influencia.
Problema 2:
En un experimento se observó, entre otras variables, el porcentaje de germinación (PG) en semillas
del arbusto forrajero Atriplex cordobensis. Se trabajó con semillas clasificadas por tamaño
(grandes, medianas y chicas) y color de episperma (claro, oscuro y rojizo). Los datos se encuentran
en el archivo Atriplex.idb en la carpeta Datos de InfoStat. Para abrir el archivo se debe seguir la
siguiente secuencia C:\Archivos de programas\ InfoStat\ Datos\ Atriplex.idb.
Es de interés para el investigador saber si el PG promedio sería superior al 50% en cada uno de los
tamaños de semilla. Para poder resolver la cuestión realice los siguientes ejercicios.
Recuerde copiar los resultados y/o gráficos que obtenga en cada ejercicio, pegándolos un
documento Word. Guarde ese documento en un diskette.
Ejercicio 1: Teniendo en cuenta el interés del investigador y trabajando con una confianza del
95%, obtenga un intervalo de confianza unilateral izquierdo para el PG promedio de cada tamaño
de semilla. Utilice el menú Estadísticas > Inferencia basada en una muestra > Intervalos de
confianza.
Nota: Recuerde declarar la variable Tamaño como Partición.
Ejercicio 2: Interprete cada uno de los intervalos obtenidos en el ejercicio anterior. Según estos
resultados ¿bajo qué tamaño/s de semilla esperaría obtener un porcentaje de germinación promedio
superior al 50%?.
Ejercicio 3: En cada tamaño de semilla realice una prueba de hipótesis para saber si el PG
promedio es superior a 50% . Para ello, utilice el menú Estadísticas > Inferencia basada en una
muestra > Prueba T para un parámetro.
Tenga en cuenta:
 Declarar la variable Tamaño como Partición
 Ingresar el valor del parámetro bajo la hipótesis nula, ya que por defecto valdrá 0
 Que el valor p permite rechazar la H0 interpretándose de la siguiente manera: si p es mayor
que el nivel de significación fijado para la prueba () no se rechaza la hipótesis nula; si p es
menor o igual que  se rechaza la hipótesis nula.
Ejercicio 4: Discuta acerca de las relaciones entre la información que resulta de los intervalos de
confianza y de las pruebas de hipótesis.
Problema 3:
En un laboratorio un investigador conduce un ensayo para estudiar características del hongo
Phytophtora infestans. Los siguientes estadísticos corresponden a una muestra de 20 colonias del
hongo, donde se midió la longitud de esporas (en micrones): x =40 y S=6.
Se desea estimar por intervalo de confianza la longitud media de las esporas, de modo que la
amplitud del intervalo represente un 10% de la media muestral. ¿Qué número de colonias se
deberían tomar al construir el intervalo para μ con una confianza del 90%?
Ejercicio 1: Para responder al interés del investigador, utilice el menú Estadísticas > Cálculo del tamaño
muestral > Para estimar una media con una precisión deseada.
2
ESTADISTICA Y BIOMETRIA
Guía de
Ejercitación 2
Tenga en cuenta:
 En la ventana Tamaño muestral para..., se debe activar la solapa Estimar una media
 En el panel Criterio para la obtención del tamaño muestral se deberá activar la opción
correspondiente al criterio que se desea usar, elegir el nivel de confianza para el intervalo e
ingresar el valor de referencia para el criterio indicado.
 En Cota superior para la varianza, se debe ingresar el valor de varianza para la variable en
estudio.
 Luego de ingresar los valores requeridos, se debe pulsar la tecla <Enter>.
 Completada la información en el campo Tamaño muestral requerido aparecerá el cálculo de
“n”.
Problema 4:
Considere la siguiente situación: al probar si la media de una variable aleatoria en una población
era 50 (H0: =50), dicha hipótesis fue aceptada cuando en realidad la verdadera media era 52.
Suponga que se conoce que la variable aleatoria se distribuye normal con varianza 2=100 y que se
trabajó con una muestra aleatoria de tamaño 25.
Para calcular la probabilidad del Error de tipo II (no rechazar una hipótesis nula falsa) previamente
se debe delimitar la región de no rechazo bajo la hipótesis nula (H0: =50) y luego calcular el área
correspondiente a dicha zona bajo la distribución con =52 (que es la distribución correcta).
Realice las dos actividades presentadas a continuación, que tienen como finalidad ejercitar al
alumno en la obtención del error de tipo II:
1) Graficación de la distribución de X y delimitación de la región de rechazo
La región de rechazo queda definida por los valores de X c, donde c es el punto crítico elegido de
manera tal que P( X c| =50)=; esto es, la probabilidad de observar valores de medias muestrales
mayores o iguales al punto crítico cuando la H0 es verdadera (es decir =50) es igual a . Tomando
=0.05, el punto crítico (c) puede ser obtenido en InfoStat de la siguiente manera:
En el menú Aplicaciones  Didácticas  Gráficos de funciones de densidad continuas, generar
la distribución del estadístico X bajo la hipótesis nula. Esto es una normal con media=50 y
varianza=4.
Nota: si X se distribuye normal media=50 (como se postula en la H0) y varianza=100, por el
Teorema Central del Límite sabemos que el estadístico X se distribuirá normal con media =50 y
varianza 100/25=4.
Para delimitar la región de rechazo en El evento está definido por valores... activar la opción
Mayores o iguales que..., aparecerá automáticamente el punto crítico c, ya que InfoStat reporta por
defecto el cuantil 0.95 de la distribución al activar dicha opción. Luego, para estos datos, c=53.28
es el punto crítico que delimita las regiones de rechazo y aceptación. Al aceptar se visualizará la
distribución y el área sombreada correspondiente a la probabilidad del evento rechazar H0
verdadera. Así, en este ejemplo la región crítica corresponde a los puntos muestrales para los cuales
X 53.28.
Nota: si se desean obtener regiones críticas de otro tamaño (un  distinto al 5%) se deberá primero
utilizar el menú Probabilidades y cuantiles para los puntos críticos (cuantiles) que necesita ingresar
en El evento está definido por valores....
3
ESTADISTICA Y BIOMETRIA
Guía de
Ejercitación 2
2) Cálculo del Error de tipo II
Considerar ahora el problema de calcular , asumiendo H0: =50 y H1: >50, n=25, varianza 100 y
=0.05 para una prueba unilateral. Recordar que =P( X  región de aceptación de H0| H1
verdadera), esto es la probabilidad asociada al evento “el estadístico pertenece a la región de
aceptación dado que la hipótesis alternativa es verdadera”.
Luego, en este ejemplo, =P( X  53.28|=52). Para obtener el valor de  en InfoStat se podrían
seguir los siguientes pasos:
Sobre la gráfica anterior generar la distribución del estadístico X bajo la hipótesis alternativa. Es
decir graficar una densidad normal con parámetros media=52 y varianza=4. Para lograr esto se
deberá Clonar la serie gráfica existente y cambiar el parámetro media ingresando 52, tarea
realizada desde la ventana Herramientas gráficas.
En Evento activar la opción <= y en el campo escribir 53.28. La porción sombreada de esta
distribución corresponde a . Se puede leer debajo del título del gráfico, el valor de la probabilidad
de error de tipo II como p(evento)=0.7405.
Ejercicio 1: Se cree que la ganancia de peso promedio bajo una dieta experimental es de 140
gramos. Si se prueba la siguiente hipótesis: H0: =140 y H1: ≠140, usando una muestra de 36
individuos y sabiendo que la desviación estándar es de 15 gramos,
 ¿Cuál es la probabilidad de aceptar la hipótesis nula cuando en realidad el aumento de peso
promedio es de 143 gramos?. Utilice un =0.05.
 Realice el cálculo de error de tipo II para las siguientes hipótesis H0: =140 y H1: >140.
Utilice un =0.05.
 Compare los resultados obtenidos.
Problema 5: prueba T para observaciones independientes
En un estudio para analizar la evolución de tubérculos almacenados, se deseaba comparar dos
épocas de cosecha: Abril y Agosto, las que determinan diferentes periodos de almacenamiento. La
variable en estudio fue la pérdida de peso por deshidratación (en gr). El archivo Epoca.idb contiene
las observaciones del estudio.
Utilice el menú Estadísticas  Inferencia basada en dos muestras  Prueba T para realizar el
contraste de las siguientes hipótesis: H0: Abril = Agosto versus H1: Abril ≠ Agosto
Nota: Al invocar esta prueba, en el selector de variables de la ventana Prueba T para muestras
independientes se deberá especificar la variable respuesta en la subventana Variables, (en este
caso el peso) y la variable que será usada para identificar ambas muestras en la subventana Criterio
de Clasificación (época). La ventana Prueba T para muestras independientes que se visualiza al
Aceptar permite especificar el tipo de Prueba (bilateral, unilateral izquierda o unilateral derecha).
En cuanto a la información que se desea visualizar como resultado, el campo Inter conf. permite
solicitar la construcción de un intervalo de confianza para la diferencia de medias poblacionales
con coeficiente de confianza indicado por el usuario; los campos T, gl y p, cuando son activados,
permiten la visualización del estadístico de la prueba, los grados de libertad de la distribución del
mismo y el valor p de la prueba de hipótesis realizada.
En este menú se puede realizar la prueba de homogeneidad de varianzas (H0: 12 =  22 versus H1:
 12   22 ) cuyo valor p se informará en la salida como p(Var.Hom.). InfoStat seleccionará el
estadístico T para varianzas heterogéneas o para varianzas homogéneas según el resultado de la
prueba. Se podrá especificar el nivel de significación a usar en la prueba de homogeneidad de
varianzas.
4
ESTADISTICA Y BIOMETRIA
Guía de
Ejercitación 2
Interprete los resultados obtenidos.
Nota: recuerde que el valor p permite rechazar la H0 interpretándose de la siguiente manera: si p es
mayor que el nivel de significación fijado para la prueba () no se rechaza la hipótesis nula; si p
es menor o igual que  se rechaza la hipótesis nula.
Problema 6: prueba T para observaciones apareadas
Para estudiar el efecto de la polinización sobre el peso promedio de las semillas obtenidas, se
efectuó un experimento sobre 10 plantas. La mitad de cada planta fue polinizada y la otra mitad no.
Se pesaron las semillas de cada mitad por separado, registrándose de cada planta un par de
observaciones. El archivo Poliniza.idb contiene los valores registrados en el estudio, en la forma en
que debieran ser ingresados en InfoStat.
Utilice el menú Estadísticas  Inferencia basada en dos muestras  Prueba T apareada para
realizar el contraste de las siguientes hipótesis:
H0: Polinizadas = NoPolinizadas versus H1: Polinizadas ≠ NoPolinizadas
Nota: en el selector de variable de InfoStat se deberá elegir como variables aquellas que identifican
las dos columnas del archivo.
Interprete los resultados obtenidos.
5
Descargar