Pruebas de hipotesis - Centro de Geociencias ::.. UNAM

Anuncio
Pruebas de hipótesis para
dos muestras.
Prueba de Hipótesis para dos muestras grandes, desviaciones
estándar de las poblaciones desiguales.
Las propiedades de la Distribución Normal son también sumamente útiles
cuando queremos encontrar si dos conjuntos de observaciones provienen
de la misma población o si hay diferencias entre dos procesos aplicados a
los mismos datos o individuos.
individuos
Lo que intentamos probar comúnmente es si la diferencia entre dos medias
es igual a cero, pero como en general no vamos a encontrar que la
diferencia de dos medias muestrales sea cero, aún cuando provengan de la
misma población, tenemos que buscar la forma de cuantificar qué tan
seguros estamos de que la diferencia es significativa.
Para ello usamos:
Donde
z=
x1 − x 2
s1 2 s 2 2
+
n1
n2
x 1 y x 2 son las medias de nuestras observaciones
s1
y
s2
son las desviaciones estándar muestrales
n1
y
n2
son los tamaños de cada muestra.
Por ejemplo, para un nivel de confianza del 99% (o un nivel de
significancia del 1% ) si se quiere probar únicamente si hay diferencia:
|Z| > 2.57 Tenemos el 99% de confianza en que la diferencia existe
es decir que las muestras provienen de poblaciones
diferentes
|Z| < 2.57 Tenemos el 99% de confianza en que la diferencia NO
existe es decir que las muestras provienen de la misma
población
Para otros niveles de confianza se requiere usar el valor z crítico
correspondiente.
El caso anterior se trata de una prueba de dos colas, pues sólo consiste en
probar si EXISTE la diferencia (es igual o no es igual a cero). En caso de
que se trate de probar si la diferencia puede ser mayor o menor que el
postulado, se requiere de una prueba de una cola, derecha o izquierda.
Prueba de Hipótesis para dos muestras, desviaciones estándar de
las poblaciones desconocidas y no iguales
En este caso
empleamos
siendo
s1
y
s2
t=
x1 − x 2
2
2
s1
s2
+
n1
n2
las desviaciones estándar de las muestras
El valor de t para comparar y tomar la decisión se obtiene de la tabla con
el nivel de confianza (o significancia) dado y los grados de libertad se
calculan por medio de:
2
⎛ s12 s22 ⎞
⎜⎜ + ⎟⎟
n n
ν = ⎝ 12 2 ⎠ 2
⎛ s12 ⎞
⎛ s22 ⎞
⎜⎜ ⎟⎟
⎜⎜ ⎟⎟
n
⎝ 1 ⎠ + ⎝ n2 ⎠
n1 − 1 n2 − 1
Prueba de Hipótesis para dos muestras, desviaciones estándar de
las poblaciones desconocidas pero iguales
Existe la posibilidad de que las desv. est.
de las poblaciones sean iguales, ya sea
que se sepa de antemano o se haga una
prueba F, en este caso se usa
donde:
s12 ( n1 − 1) + s22 ( n2 − 1)
sp =
n1 + n2 − 2
x1 − x 2
t=
sp
1
1
+
n1 n2
que es una forma de estimar la
desviación poblacional
El valor de t para comparar y tomar la decisión se obtiene de la tabla con
el nivel de confianza o de significancia dado y los grados de libertad están
dados por:
ν = n1 + n2 − 2
NOTA: En general, este caso se puede evitar, pues siempre es posible
hacer una prueba suponiendo desviaciones desconocidas y no iguales, y se
pierde poco (el resultado es un poco más conservador que en el dado caso
de que realmente fueran iguales).
Prueba de Hipótesis para dos muestras dependientes. Muestras
pareadas.
En este caso se trata de dos muestras que pueden contener los mismos
individuos en dos condiciones que se trata de diferenciar, para ello se usa:
t=
donde
d
sd
n
d
es la media de las diferencias entre los valores de las muestras
sd
es la desviación estándar de las diferencias.
El valor de t para comparar y tomar la decisión se obtiene de la tabla con
el nivel de confianza o de significancia dado y los grados de libertad son
iguales a
ν = n −1
Ejemplos :
1. Una compañía desea comparar el aumento de peso en bebés que
consumen su producto contra los que consumen el competidor. Una
muestra de 40 bebés de usan la 1ª marca reveló un aumento de peso de
3.2 kg en los primeros tres meses después de nacidos con 1.2 kg de desv
est. Una muestra de 55 bebés que usan la 2ª marca indica un aumento de
4.2 kg con desviación estándar de 1.4 kg. Con un nivel de significancia de
0.05 ¿Es posible concluir que los bebés que consumieron el producto de la
marca 2 ganaron más peso ? (μ1 - μ2 sería negativo)
Se usa la fórmula para desviaciones estándar desiguales.
Ho: μ1 - μ2 ≥ 0
H1: μ1 - μ2 < 0
t=
x1 − x 2
2
2
s1
s2
+
n1
n2
x 1 = 3.2
x 2 = 4.2
s1 = 1.2
s 2 = 1.4
n1 = 40
n2 = 55
Notar que decir μ1 - μ2 ≥ 0 es equivalente a μ1 ≥ μ2
Asi como μ1 - μ2 = 0 es equivalente a μ1 = μ2
Valores críticos.
Se calculan los grados de libertad:
Distribution Plot
T, df=90
0.4
2
0.3
Density
⎛ 1.22 1.42 ⎞
+
⎜
⎟
40
55 ⎠
⎝
= 90
ν=
2 2
2 2
⎛ 1.2 ⎞ ⎛ 1.4 ⎞
⎜
⎟ ⎜
⎟
40
55
⎝
⎠ +⎝
⎠
40 − 1
55 − 1
0.2
0.1
0.05
0.0
-1.66
0
X
y se busca el valor crítico para α = 0.05
(es de una cola) tc = -1.66
t=
3.2 − 4.2
2
2
= − 3.74
1.2
1.4
+
40
55
Como el valor de t calculado -3.74 cae en la región de rechazo de Ho, se
rechaza la posibilidad de que la diferencia sea nula (o mayor que cero) y
se acepta que los bebés que consumen la marca 1 ganan menos peso que
los que consumen la marca 2 (diferencia negativa).
2. Diez hombres se sometieron a una dieta especial registrando sus pesos
antes de comenzarla y después de un mes de estar en ella. Los resultados
de los pesos, en libras, se muestran a continuación:
Probar si la dieta logró alguna diferencia, , ya sea positiva o negativa con
α = 0.05. Calcule el valor de P.
Solución:
Se usa la prueba de diferencia de medias para datos pareados porque son
los mismos individuos.
Distribution Plot
T, df=9
0.4
Hipótesis
Ho : μ1 = μ2
H1 : μ1 ≠ μ2
Density
0.3
0.2
0.1
0.025
0.025
0.0
Valores críticos
-2.26
0
X
2.26
Se procede a calcular las diferencias de cada par:
Al calcular la media de las diferencias obtenemos d = 2 , con una sd = 3.53
Calculamos el valor de t
d
2
t=
=
= 1.79
sd
3.53
10
n
Decisión y Justificación:
Como 1.79 está entre los dos valores críticos de –2.262 y 2.262, por lo tanto
no se rechaza Ho, y se concluye con un α = 0.05 que no existe evidencia
estadística que apoye la efectividad de la dieta para variar el peso.
Prueba de Hipótesis para dos proporciones
Existen casos en donde queremos saber si dos muestras de proporciones
provienen de dos poblaciones diferentes o si hay diferencia estadística
entre ellas. En este caso empleamos:
z=
p1 − p2
pc (1 − pc ) pc (1 − pc )
+
n1
n2
ya que no se conoce la
proporción de las poblaciones
El valor del denominador se usa para estimar la desviación estándar de la
población, donde pc (proporción conjunta) está dado por:
pc =
x1 + x 2
n1 + n2
x1 = número de casos favorables de la primera muestra
x2 = número de casos favorables de la segunda muestra
n1 = número de eventos de la primera muestra
n2 = número de eventos de la segunda muestra
Ejemplo :
Los hombres y mujeres adultos radicados en una ciudad grande del norte
difieren en sus opiniones sobre la promulgación de la pena de muerte para
personas culpables de asesinato. Se preguntó a dos muestras aleatorias de
100 hombres y 100 mujeres su opinión sobre la promulgación de la pena
de muerte, y el 12% de los hombres adultos están a favor de la pena de
muerte, mientras que sólo 10% de las mujeres adultas lo están. Con un
nivel de significancia de 0.05 ¿Se puede afirmar que hay evidencia
estadística de que las opiniones difieren entre hombres y mujeres?
H o:
P1 = P2
H 1:
P1 ≠ P2
z=
pc =
x1 + x2
12 + 10
=
= 0.11
n1 + n2 100 + 100
0.12 − 0.10
0.11(0.89) 0.11(0.89)
+
100
100
= 0.45
Valores Críticos :
Distribution Plot
Normal, Mean=0, StDev=1
0.4
Density
0.3
0.2
0.1
0.025
0.0
0.025
-1.96
0
X
1.96
Como -1.96 < 0.45 < 1.96, es decir que 0.45 cae en la zona de no
rechazo de Ho (zona blanca de la figura), se puede afirmar que no hay
evidencia estadística de que las opiniones difieran (NO se rechaza la
Hipótesis nula).
Descargar