Contrast

Anuncio
272
Bioestadı́stica: Métodos y Aplicaciones


 H0 : La variable X se distribuye igualmente en ambas poblaciones

 H : La distribución no es homogénea
1
Para ello escribimos la que serı́a la distribución de frecuencias esperadas.
Éstas se calculan a partir de las frecuencias marginales de la distribución
de frecuencias esperadas:
Frec. Esp.
Muestra 1
Muestra 2
A
91,58
198,42
290
B
82,11
177,89
260
AB
110,53
239,47
350
0
15,79
34,21
50
300
650
950
El estadı́stico del contraste mide las discrepancia entre las observaciones
observadas y esperadas:
χ2exp =
2 X
4
2
X
Oij
i=1 j=1
Eij
− 950 =
902
302
+ ··· +
− 950 = 1, 76
91, 58
34, 21
Los valores crı́ticos están a la derecha del percentil 95 del la distribución
χ2(2−1)×(4−1) = χ23 , que es χ2teo = χ23;0,95 = 2, 35. Por tanto de dichas muestras no se obtiene evidencia estadı́stica suficiente en contra de que exista
una distribución homogénea del grupo sanguı́neo en ambas poblaciones.
10.5.
Contraste de independencia de variables cualitativas
A partir de una población se toma mediante muestreo aleatorio simple
una muestra de tamaño n. En cada observación se analizan dos caracterı́sticas cualitativas A y B ( o cuantitativas agrupadas en intervalos), las cuales
presentan r y s modalidades respectivamente. Deseamos contrastar si las
dos variables son independientes, o sea, queremos realizar un test de significación para las hipótesis:
10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS273


 H0 : Las caracterı́sticas A y B son independientes

 H : Las caracterı́sticas A y B están asociadas
1
Este test puede ser enunciado de forma equivalente ordenando la muestra
en una tabla de doble entrada denominada tabla de contingencia, muy
parecida a la de la sección anterior:
B
A
A1
A2
...
Ai
...
Ar
B1
B2
...
Bj
...
Bs
n11
n21
...
ni1
...
nr1
n•1
n12
n22
...
ni2
...
nr2
n•2
...
...
...
...
...
...
...
n1j
n2j
...
nij
...
nrj
n•j
...
...
...
...
...
...
...
n1p
n2p
...
nip
...
nrp
n•p
n 1•
n 2•
...
ni•
...
nr •
n••
Aunque sobre la población las siguientes probabilidades sean desconocidas,
introducimos la siguiente notación
pij
→ Probabilidad de una observación del tipo (Ai , Bj );
pi• → Probabilidad de una observación de Ai ;
p•j
→ Probabilidad de una observación de Bj ;
(10.3)
Recordando el concepto de independencia entre variables bidimensionales cualitativas, otro modo de escribir el contraste a realizar lo obtenemos
basándonos en la relación (??):


 H0 : ∀ i = 1, . . . , r ∀ j = 1, . . . , s
pij = pi• p•j

 H : ∃ i = 1, . . . , r ∃ j = 1, . . . , s
1
pij 6= pi• p•j
274
Bioestadı́stica: Métodos y Aplicaciones
La idea para realizar este contraste consiste en comparar como en los casos anteriores las frecuencias esperadas bajo la hipótesis H0 , Eij = n•• pi• p•j ,
con las obtenidas en la muestra, Oij = nij . Como las cantidades pi y pj no
son en principio conocidas, han de ser estimadas a partir de las frecuencias
observadas

ni•


 p̂i• = n
••


 p̂ = n•j
•j
=⇒ Eij = n•• p̂i• p̂•j =
ni• n•j
n••
n••
lo que nos hace perder (r − 1) + (s − 1) grados de libertad adicionales al
estadı́stico del contraste:
χ2exp
=
r X
s
X
(nij − Eij )2
i=1 j=1
Ei j
≈
; χ2(r−1)×(s−1)
Luego rechazamos H0 si χ2exp > χ2(r−1)×(s−1),1−α .
Observación
Aunque el contraste de homogeneidad de muestras es conceptualmente
diferente al de independencia de variables cualitativas, obsérvese la analogı́a
existente entre los criterios de aceptación o rechazo de ambas hipótesis.
Ejemplo
500 niños de escuela primaria se clasificaron de acuerdo con el grupo
socioeconómico y la presencia o ausencia de cierto defecto en la pronunciación, los resultados son los siguientes:
Con defecto
Sin defecto
Total
Superior
8
42
50
Grupo socioeconómico
Medio–Superior Medio–Inferior
24
32
121
138
145
170
Inferior
27
108
135
Total
91
409
500
10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS275
¿Son compatibles estos datos con la hipótesis de que el defecto en la pronunciación, no está relacionado con el grupo socioeconómico?
Solución: En forma de contraste de hipótesis, se ha de realizar el siguiente:


 H0 : Son independientes el nivel socioeconómico y el defecto de pronunciación

 H : No son independientes ambas cuestiones.
1
Para ver si H0 puede considerarse cierta, o si por el contrario hay una fuerte
evidencia a favor de H1 , fijamos un nivel de significación α = 0, 05, y analizamos gracias al estadı́stico χ2 , las diferencias existentes entre los valores
esperados y los observados, de suponer H0 cierta, es decir, las diferencias
entre las cantidades
Oij
Eij
= nij
ni• · n•j
=
n••
276
Defecto
Si
No
Total
Bioestadı́stica: Métodos y Aplicaciones
Superior
Medio
superior
Grupo socioeconómico
Medio
inferior
Inferior
O11 = 8
O12 = 24
O13 = 32
O14 = 27
E11 = 9, 1
E12 = 26, 39
E13 = 30, 94
E14 = 24, 57
2
O11
E11
2
O12
E12
2
O13
E13
2
O14
E14
= 7, 033
= 21, 82
= 33, 096
O22 = 121
O23 = 138
O24 = 108
E21 = 40, 9
E22 = 118, 61
E23 = 139, 06
E24 = 110, 43
2
O21
E21
2
O22
E22
2
O23
E23
2
O24
E24
n•1 = 50
= 123, 438
n•2 = 145
= 136, 948
n•3 = 170
n•4 = 135
χ2teo = χgl,1−α = χ3,00 95 = 70 81.
Calculemos χ2exp :
X (Oij − Eij )2
i,j
Eij
=
2
X Oij
i,j
Eij
n2• = 409
= 105, 623
El número de grados de libertad del estadı́stico del contraste es gl = (2 −
1) × (4 − 1) = 3. Luego de ser H0 cierta, la cantidad χ2exp no deberı́a superar
el valor teórico. que se muestra en la Figura 10.4:
χ2exp =
n1• = 91
= 29, 67
O21 = 42
= 43, 130
Total
− n•• = 500, 758 − 500 = 0, 758
En consecuencia, no existe evidencia significativa a favor de la hipótesis alternativa, o sea, no se rechaza la independencia entre el defecto de
pronunciación de los niños de la población y el nivel socioeconómico de su
familia.
n•• = 500
10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS277
Figura 10.4: Comparación del valor teórico con el experimental.
Descargar