1. Intervalos y test (dos muestras) - OCW

Anuncio
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Práctica 8: Intervalos de conanza
y contrastes de hipótesis II
1. Intervalos y test (dos muestras)
Vamos a llevar a cabo intervalos y test para dos muestras. Concretamente para los
siguientes parámetros:
Diferencia de medias para muestras relacionadas cuando los datos se estructuran por parejas y donde una pareja concreta representa a un mismo individuo, por
ejemplo, si tenemos un conjunto de individuos a los que se les somete a una dieta
de adelgazamiento y disponemos de sus respectivos pesos antes y después de la
dieta.
Diferencia de medias para muestras independientes cuando los datos se clasican en función de una variable dicotómica y las muestras, posiblemente de diferente
tamaño, surgen de dicha clasicación, por ejemplo, si sólo tenemos una muestra de
pesos pero disponemos de la información del sexo de cada individuo, tendremos dos
muestras independientes cuando clasicamos cada dato de la variable peso según
el sexo al que pertenece el correspondiente individuo.
Diferencia de dos proporciones para dos muestras independientes cuando se dispone del número de individuos que presentan cierto carácter en dos muestras independientes, por ejemplo si queremos estimar la diferencia de la proporción de
hombres fumadores con la de mujeres fumadoras.
En el uso de las funciones implementadas en R-Commander en las opciones:
Estadísticos->Medias->Test t para muestras independientes
Estadísticos->Medias->Test t para datos relacionados
Estadísticos->Proporciones->Test de proporciones para dos muestras
nos serán útiles los siguientes comentarios.
1. El valor de defecto de la hipótesis nula es cero para diferencia de medias y proporciones, es decir H0 : µ1 − µ2 = 0 y H0 : p1 − p2 = 0, respectivamente. La hipótesis
alternativa puede ser bilateral (6= 0) o unilateral (> 0 o < 0)
2. La regla de decisión, al igual que en el caso de una muestra, es aceptar H0 si
P-value > α o equivalentemente 0 ∈Intervalo de confianza al nivel de conanza 1 − α. En otro caso se rechazará H0 para aceptar H1 .
3. Puesto que aceptar H0 sería aceptar que las medias poblacionales (respectivamente
proporciones) son iguales, diremos que las medias muestrales observadas no acusan diferencias signicativas; en el caso contrario, cuando se rechaza H0 diremos
que las medias muestrales (respectivamente proporciones) sí son signicativamente
distintas.
Práctica 8
Página: 1
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
4. En el caso de contrastes de diferencias de medias para muestras independientes
cualquera se debe de especicar si se consideran las varianzas iguales o diferentes.
La opción de defecto es diferentes, si bien los intervalos de conanza son de menor
amplitud bajo la suposición de que las varianzas son iguales (error de estimación
más pequeño) y por lo tanto esta situación es más recomendable que la de varianzas
distintas.
5. La especicación anterior proviene de llevar a cabo un test bilateral para la igualdad de varianzas, mediante la opción
Estadísticos->Varianzas->Test F para dos varianzas
Cuando P-valor>α aceptamos varianzas iguales, en caso contrario aceptamos varianzas distintas.
La siguiente tabla recoge las pruebas de hipótesis y los intervalos de conanza a
partir de los cuales podremos aceptar o rechazar la hipótesis nula. Pero recordemos
que también podremos llegar a una conclusión a partir del P-valor. De nuevo, de forma
esquemática:
Regla de decisión
Rechazamos H0 (Existen diferencias signicativas entre las medias o proporciones muestrales) si P − valor < α ⇔ Aceptamos H0 si P − valor ≥ α
Regla alternativa:
Rechazamos H0 si el correspondiente intervalo de conanza NO CONTIENE EL CERO
⇔ Aceptamos H0 si el correspondiente intervalo de conanza CONTIENE AL CERO
Parámetro
H0
Dif. de medias
Datos relacionadas
µ1 − µ2 = 0
H1
Intervalo de Conanza
µ1 − µ2 6= 0
SD
(D ± z1−α/2 √
)
n
µ1 − µ2 > 0
SD
, ∞)
(D − z1−α √
n
µ1 − µ2 > 0
SD
(−∞, D + z1−α √
)
nr
n > 30
Dif. de medias
muestras indep.
µ1 − µ2 6= 0
µ1 − µ2 = 0
µ1 − µ2 > 0
n > 30
µ1 − µ2 > 0
Diferencia de
proporciones
p1 − p2 6= 0
p1 − p2 = 0
p1 − p2 > 0
n > 30
p1 − p2 < 0
Práctica 8
S12 S22
(x1 − x2 ± z1−α/2
+ )
r 2n1 2n2
S1
S
(x1 − x2 − z1−α
+ 2 , ∞)
n1 r n2
S12 S22
(−∞, x1 − x2 + z1−α
+ )
n1
n2
r
pb1 (1 − pb1 ) pb2 (1 − pb2 )
(b
p1 − pb2 ± z1−α/2
+
)
n1
n2
r
pb1 (1 − pb1 ) pb2 (1 − pb2 )
(b
p1 − pb2 − z1−α
+
, ∞)
n2
rn1
pb1 (1 − pb1 ) pb2 (1 − pb2 )
(−∞, pb1 − pb2 + z1−α
+
)
n1
n2
Página: 2
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Ejemplo 1 Vamos a usar de nuevo el chero Pulse.TXT para plantear algunas situaciones que pueden resolverse mediante técnicas como las anteriores.
1. Supongamos que queremos analizar si, después de realizar la actividad física, el
número de pulsaciones es signicativamente mayor.
Mediante la opción Estadísticos->Medias->Test t para datos relacionados
Señalamos en la primera ventana la variable Pulse2 y en la segunda ventana
Pulse1. En alternativa señalamos la opción Diferencia >0 y podemos dejar el
nivel de conanza como 0.95.
Como P −valor = 1.012e−06 decidimos rechazar H0 y aceptar que hay un aumento
signicativo de las pulsaciones después del ejercicio físico.
También podemos comprobar que el intervalo de conanza es (4.796501, +∞) que
no contiene al cero. Es más, podemos que la elevación de las pulsaciones es signicativamente superior a 4.7.
2. Vamos a contrastar ahora si los hombres son signicativamente más altos que las
mujeres, usando la variable Height.
Previamente se realiza el test bilateral de igualdad de varianzas mediante la secuencia de órdenes Estadísticos->Varianzas->Test F para dos varianzas,
seleccionando Sexo como variable de agrupación y Height como variable de interés. Una vez realizada la prueba con las opciones de defecto (bilateral) resulta
p − value = 0.9796 lo que nos lleva a aceptar que las varianzas son iguales.
A continuación hacemos la correspondiente prueba de diferencias de medias mediante la secuencia Estadísticos->Medias->Test t para muestras independientes,
seleccionando las variables de interés y la alternativa > 0 resulta p − value =
6.534e−16 lo que nos lleva a rechazar la hipótesis nula y a aceptar que los hombres
son signicativamente más altos al nivel de signicación α = 0.05. El intervalo de
conanza IC = (4.435314, ∞) conrma esta conclusión pues no contiene al cero.
3. En la siguiente sesión hemos calculado el intervalo de conanza de la diferencia de
proporciones entre hombres fumadores y mujeres fumadoras y llevado a cabo un test
bilateral. Dado que 0 ∈ (−0.06398087, 0.30859240) decimos que no existen diferencias signicativas entre las propociones observadas pb1 = 0.3508772, pb2 = 0.2285714
y que dichas diferencias se deben exclusivamente al azar. También llegamos a lo
mismo observando el P-valor=0.2158.
Recordemos que para usar las variables dicotómicas Sex y Smokes con RCommander es necesario primero transformar éstas a factores cualitativos.
Nota:
2. Gráco de medias
En el gráco de medias representamos el intervalo de conanza de cada media, cuando
clasicamos los datos de una variable según las modalidades de una variable cualitativa.
La opción se encuentra en Gráficas->Gráficas de medias. Este procedimiento nos
permite analizar cada grupo respecto a sus valores medios.
Práctica 8
Página: 3
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Ejemplo 2 Los siguientes ejemplos muestran el gráco de medias para la variable Height
en función de Sexo y Pulse1 en función de Fuma. En el primer caso los intervalos no
comparten valores comunes por lo que se puede armar que la altura de los hombres
es signicativamente mayor. En el segundo caso si se comparten valores comunes, por
lo que no podemos llegar a la misma conclusión. En este caso no existen diferencias
signicativas entre los valores medios de pulsaciones de fumadores y no fumadores.
Plot of Means
160
80
Plot of Means
76
74
●
72
mean of Pulso$Pulse1
150
140
130
mean of Pulso$Weight
78
●
●
120
70
●
Hombre
Mujer
Pulso$Sexo
Si
No
Pulso$Fuma
3. Prácticas
1. Encontrar el intervalo de conanza (bilateral) de la media de la variable Índice
corporal para hombres y mujeres al nivel de conanza 1 − α = 0.95, mediante el
gráfico de medias, haciendo previamente las siguientes transformaciones:
Peso<-Weight * 0.46 en en kilos
Altura<-Height * 2.54/100 en metros
IMC<-Peso/Altura∧ 2 índice de masa corporal
2. Estudia si la media de la variable Pulse2 es signicativamente mayor en las personas fumadoras que en las no fumadoras, haciendo previamente el test para las
varianzas, al nivel de signicación α = 0.05.
3. Estudia si las personas fumadoras tienen en media más peso que las que no fuman,
haciendo previamente el test para las varianzas. Utiliza varios niveles de signicación y dí cómo afecta en este caso disminuir el riesgo α. Por ejemplo, usa α = 0.05,
α = 0.01 y α = 0.001.
4. Resuelve una prueba de diferencia de proporciones para contrastar si la proporción
de hombres corredores (variable Ran) es distinta a la de mujeres corredodas.
Práctica 8
Página: 4
Descargar