La ejercitación propuesta en esta guía tiene como finalidad la... Inferencia Estadística

Anuncio
ESTADISTICA Y BIOMETRIA - Laboratorio 4 - 2006
La ejercitación propuesta en esta guía tiene como finalidad la revisión de conceptos en el marco de
la Inferencia Estadística como lo son los intervalos de confianza, los contrastes de hipótesis
referidos a parámetros de una o dos distribuciones, el error de tipo II y la potencia de una prueba de
hipótesis, usando como soporte computacional el software estadístico InfoStat.
Problema 1: Aplicaciones sobre intervalos de confianza
Se dispone de observaciones de perímetro de cabezas de ajo blanco, para bulbos obtenidos en dos
campañas (1998 y 1999). Se desean estimar los parámetros distribucionales del variable diámetro
(calibre) ya que dicha variable es utilizada en la clasificación de los ajos. La clasificación tipifica 3
tamaños: Grande, si el calibre es mayor que 7, Mediano si el calibre está entre 5 y 6, y Chico para
calibres menores a 4. El perímetro es igual al producto del diámetro por el número = 3.1416.
Utilice los datos registrados, disponibles en el archivo Ajoblanc.idb, y realice las siguientes
actividades:
Actividades
a. Realice una estadística descriptiva para el calibre para las campañas 1988 y 1999.
b. Compare mediante un diagrama de densidad de puntos la distribución de calibres en ambas
campañas.
c. Utilizando el menú Estadísticas> Inferencia basada en una muestra > Intervalos de
confianza, obtenga los intervalos de confianza para la media en ambas campañas.
d. Utilizando el menú Estadísticas> Inferencia basada en dos muestras > prueba T, Compare
los valores medios poblaciones del calibre entre el año 1988 y 1999. De acuerdo a estos
resultado ¿hubo un cambio significativo de tamaño de un año a otro?.
e. Utilizando el menú Datos> Categorizar genere una variable que indique a que categoría de
ajo pertenece cada caso según los criterios de clasificación enunciados en la presentación
del problema.
f. Utilizando el menú Estadísticas> Datos categorizados>Tablas de contingencia, genere una
tabla de clasificación cruzada que muestre las frecuencias de las categorías de tamaño en los
distintos años. Utilizando las opciones de tablas de contingencias genere porcentajes de
cada categoría por año.
g. Grafique, mediante un diagrama de tortas los porcentajes en que cada categoría de tamaño
esta representada en cada año.
1
ESTADISTICA Y BIOMETRIA - Laboratorio 4 - 2006
Problema 2: Aplicación sobre el cálculo del tamaño de muestra
En un laboratorio un investigador conduce un ensayo para estudiar características del hongo
Phytophtora infestans. Los siguientes estadísticos corresponden a una muestra de 20 colonias del
hongo, donde se midió la longitud de esporas (en micrones): x =40 y S=6.
Se desea estimar por intervalo de confianza la longitud media de las esporas, de modo que la
amplitud del intervalo represente un 10% de la media muestral. ¿Qué número de colonias se
deberían tomar al construir el intervalo para μ con una confianza del 90%?
Para responder al interés del investigador, utilice el menú Estadísticas > Cálculo del tamaño muestral >
Para estimar una media con una precisión deseada.
Tenga en cuenta:
 En la ventana Tamaño muestral para..., se debe activar la solapa Estimar una media
 En el panel Criterio para la obtención del tamaño muestral se deberá activar la opción
correspondiente al criterio que se desea usar, elegir el nivel de confianza para el intervalo e
ingresar el valor de referencia para el criterio indicado.
 En Cota superior para la varianza, se debe ingresar el valor de varianza para la variable en
estudio.
 Luego de ingresar los valores requeridos, se debe pulsar la tecla <Enter>.
 Completada la información en el campo Tamaño muestral requerido aparecerá el cálculo de
“n”.
Problema 3: Aplicación sobre el cálculo de la probabilidad del error de tipo II
Se cree que la ganancia de peso promedio bajo una dieta experimental es de 140 gramos. Si se
prueba la siguiente hipótesis: H0: =140 y H1: ≠140, usando una muestra de 36 individuos y
sabiendo que la desviación estándar es de 15 gramos,
Actividad
a. Obtenga la probabilidad de aceptar la hipótesis nula cuando en realidad el aumento de peso
promedio es de 143 gramos. Utilice un =0.05.
b. Realice el cálculo de error de tipo II para el siguiente contraste H0: =140 y H1: >140.
Utilice un =0.05.
c. Compare los resultados obtenidos anteriormente y escriba una conclusión.
2
ESTADISTICA Y BIOMETRIA - Laboratorio 4 - 2006
Nota: a continuación se da un ejemplo para el cálculo de la probabilidad asociada a un error de tipo
II, utilizando aplicaciones del software InfoStat.
Suponga el contraste de hipótesis H0: = 50 H1: > 50, y que dicha hipótesis fue aceptada cuando
en realidad la verdadera media era 52. Este resultado conduce a pensar en la probabilidad de
cometer un error de tipo II.
Suponga conocer que la variable aleatoria estudiada, se distribuye como una normal con varianza
2=100 y que se trabajó con una muestra aleatoria de tamaño 25.
Para calcular la probabilidad del Error de tipo II, previamente se debe delimitar la región de no
rechazo bajo la hipótesis nula (H0: =50) y luego calcular el área correspondiente a dicha zona bajo
la distribución con =52 (que es la distribución correcta). Para ello se pueden utilizar los siguientes
procedimientos:
1) Graficación de la distribución de X y delimitación de la región de rechazo
La región de rechazo queda definida por los valores de X c, donde c es el punto crítico elegido de
manera tal que P( X c| =50)=; esto es, la probabilidad de observar valores de medias muestrales
mayores o iguales al punto crítico cuando la H0 es verdadera (es decir =50), es igual a .
Tomando =0.05, el punto crítico (c) puede ser obtenido en InfoStat de la siguiente manera:
En el menú Aplicaciones  Didácticas  Gráficos de funciones de densidad continuas, generar
la distribución del estadístico X bajo la hipótesis nula. Esto es, una normal con media = 50 y
varianza = 4.
(Nota: si X se distribuye normal media = 50 (como se postula en la H0) y varianza = 100, por el
Teorema Central del Límite sabemos que el estadístico X se distribuirá normal con media =50 y
varianza 100/25=4).
Para delimitar la región de rechazo en El evento está definido por valores... activar la opción
Mayores o iguales que..., aparecerá automáticamente el punto crítico c, ya que InfoStat reporta por
defecto el cuantil 0.95 de la distribución al activar dicha opción. Luego, para estos datos, c=53.28
es el punto crítico que delimita las regiones de rechazo y aceptación. Al presionar aceptar se
visualizará la distribución y el área sombreada correspondiente a la probabilidad del evento
rechazar H0 verdadera. Así, en este ejemplo la región crítica corresponde a los puntos muestrales
para los cuales X 53.28.
3
ESTADISTICA Y BIOMETRIA - Laboratorio 4 - 2006
(Nota: si se desean obtener regiones críticas de otro tamaño (un  distinto al 5%) se deberá primero
utilizar el menú Probabilidades y cuantiles para obtener los puntos críticos (cuantiles) que necesita
ingresar en El evento está definido por valores...).
2) Cálculo del Error de tipo II
Considere ahora el problema de calcular , asumiendo H0: =50 y H1: >50, n=25, varianza 100 y
=0.05 para una prueba unilateral. Recordar que =P( X  región de aceptación de H0| H1
verdadera), esto es la probabilidad asociada al evento “el estadístico pertenece a la región de
aceptación dado que la hipótesis alternativa es verdadera”.
Luego, en este ejemplo, =P( X  53.28|=52). Para obtener el valor de  en InfoStat se podrían
seguir los siguientes pasos:
Sobre la gráfica anterior generar la distribución del estadístico X bajo la hipótesis alternativa. Es
decir graficar una densidad normal con parámetros media = 52 y varianza = 4. Para lograr esto se
deberá Clonar la serie gráfica existente y cambiar el parámetro media ingresando 52, tarea
realizada desde la ventana Herramientas gráficas.
En Evento activar la opción <= y en el campo escribir 53.28. La porción sombreada de esta
distribución corresponde a . Se puede leer debajo del título del gráfico, el valor de la probabilidad
de error de tipo II como p(evento)=0.7405.
Problema 4: Aplicación de la prueba T para observaciones independientes
En un estudio para analizar la evolución de tubérculos almacenados, se deseaba comparar dos
épocas de cosecha: Abril y Agosto, las que determinan diferentes periodos de almacenamiento. La
variable en estudio fue la pérdida de peso por deshidratación (en gr). El archivo Epoca.idb contiene
las observaciones del estudio.
Actividad
a. Realice el contraste de las hipótesis: H0: Abril = Agosto versus H1: Abril ≠ Agosto Utilice el menú
Estadísticas  Inferencia basada en dos muestras  Prueba T: Interprete los resultados
obtenidos.
Nota: Al invocar esta prueba, en el selector de variables de la ventana Prueba T para muestras
independientes se deberá especificar la variable respuesta en la subventana Variables, (en este
4
ESTADISTICA Y BIOMETRIA - Laboratorio 4 - 2006
caso el peso) y la variable que será usada para identificar ambas muestras en la subventana Criterio
de Clasificación (en este ejemplo, época). La ventana Prueba T para muestras independientes
que se visualiza al Aceptar permite especificar el tipo de Prueba (bilateral, unilateral izquierda o
unilateral derecha). En cuanto a la información que se desea visualizar como resultado, el campo
Inter conf. permite solicitar la construcción de un intervalo de confianza para la diferencia de
medias poblacionales con coeficiente de confianza indicado por el usuario; los campos T, gl y p,
cuando son activados, permiten la visualización del estadístico de la prueba, los grados de libertad
de la distribución del mismo y el valor p de la prueba de hipótesis realizada.
En este menú se puede realizar la prueba de homogeneidad de varianzas (H0: 12 =  22 versus H1:
 12   22 ) cuyo valor p se informará en la salida como p(Var.Hom.). InfoStat seleccionará el
estadístico T para varianzas heterogéneas o para varianzas homogéneas, según el resultado de la
prueba. Se podrá especificar el nivel de significación a usar en la prueba de homogeneidad de
varianzas.
Recuerde que el valor p permite tomar una decisión sobre la H0.
Problema 6: Aplicación de la prueba T para observaciones apareadas
Para estudiar el efecto de la polinización artificial sobre el peso promedio de las semillas obtenidas,
se efectuó un experimento sobre 10 plantas. La mitad de cada planta fue polinizada artificialmente
y la otra mitad no. Se pesaron las semillas de cada mitad por separado, registrándose de cada planta
un par de observaciones. El archivo Poliniza.idb contiene los valores registrados en el estudio.
Actividad:
a. Realice un contraste que permita comparar las medias bajo ambos tratamientos
b. Interprete los resultados obtenidos y concluya sobre recomendar o no el uso de
la
polinización artificial.
Nota: Observe el formato del archivo en que debieran ser ingresados los datos en InfoStat cuando
se desea trabajar con muestras obtenidas de a pares..Utilice el menú Estadísticas  Inferencia
basada en dos muestras  Prueba T apareada y en el selector de variables elija como variables
aquellas que identifican las dos columnas del archivo.
.
5
Descargar