272 Bioestadı́stica: Métodos y Aplicaciones H0 : La variable X se distribuye igualmente en ambas poblaciones H : La distribución no es homogénea 1 Para ello escribimos la que serı́a la distribución de frecuencias esperadas. Éstas se calculan a partir de las frecuencias marginales de la distribución de frecuencias esperadas: Frec. Esp. Muestra 1 Muestra 2 A 91,58 198,42 290 B 82,11 177,89 260 AB 110,53 239,47 350 0 15,79 34,21 50 300 650 950 El estadı́stico del contraste mide las discrepancia entre las observaciones observadas y esperadas: χ2exp = 2 X 4 2 X Oij i=1 j=1 Eij − 950 = 902 302 + ··· + − 950 = 1, 76 91, 58 34, 21 Los valores crı́ticos están a la derecha del percentil 95 del la distribución χ2(2−1)×(4−1) = χ23 , que es χ2teo = χ23;0,95 = 2, 35. Por tanto de dichas muestras no se obtiene evidencia estadı́stica suficiente en contra de que exista una distribución homogénea del grupo sanguı́neo en ambas poblaciones. 10.5. Contraste de independencia de variables cualitativas A partir de una población se toma mediante muestreo aleatorio simple una muestra de tamaño n. En cada observación se analizan dos caracterı́sticas cualitativas A y B ( o cuantitativas agrupadas en intervalos), las cuales presentan r y s modalidades respectivamente. Deseamos contrastar si las dos variables son independientes, o sea, queremos realizar un test de significación para las hipótesis: 10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS273 H0 : Las caracterı́sticas A y B son independientes H : Las caracterı́sticas A y B están asociadas 1 Este test puede ser enunciado de forma equivalente ordenando la muestra en una tabla de doble entrada denominada tabla de contingencia, muy parecida a la de la sección anterior: B A A1 A2 ... Ai ... Ar B1 B2 ... Bj ... Bs n11 n21 ... ni1 ... nr1 n•1 n12 n22 ... ni2 ... nr2 n•2 ... ... ... ... ... ... ... n1j n2j ... nij ... nrj n•j ... ... ... ... ... ... ... n1p n2p ... nip ... nrp n•p n 1• n 2• ... ni• ... nr • n•• Aunque sobre la población las siguientes probabilidades sean desconocidas, introducimos la siguiente notación pij → Probabilidad de una observación del tipo (Ai , Bj ); pi• → Probabilidad de una observación de Ai ; p•j → Probabilidad de una observación de Bj ; (10.3) Recordando el concepto de independencia entre variables bidimensionales cualitativas, otro modo de escribir el contraste a realizar lo obtenemos basándonos en la relación (??): H0 : ∀ i = 1, . . . , r ∀ j = 1, . . . , s pij = pi• p•j H : ∃ i = 1, . . . , r ∃ j = 1, . . . , s 1 pij 6= pi• p•j 274 Bioestadı́stica: Métodos y Aplicaciones La idea para realizar este contraste consiste en comparar como en los casos anteriores las frecuencias esperadas bajo la hipótesis H0 , Eij = n•• pi• p•j , con las obtenidas en la muestra, Oij = nij . Como las cantidades pi y pj no son en principio conocidas, han de ser estimadas a partir de las frecuencias observadas ni• p̂i• = n •• p̂ = n•j •j =⇒ Eij = n•• p̂i• p̂•j = ni• n•j n•• n•• lo que nos hace perder (r − 1) + (s − 1) grados de libertad adicionales al estadı́stico del contraste: χ2exp = r X s X (nij − Eij )2 i=1 j=1 Ei j ≈ ; χ2(r−1)×(s−1) Luego rechazamos H0 si χ2exp > χ2(r−1)×(s−1),1−α . Observación Aunque el contraste de homogeneidad de muestras es conceptualmente diferente al de independencia de variables cualitativas, obsérvese la analogı́a existente entre los criterios de aceptación o rechazo de ambas hipótesis. Ejemplo 500 niños de escuela primaria se clasificaron de acuerdo con el grupo socioeconómico y la presencia o ausencia de cierto defecto en la pronunciación, los resultados son los siguientes: Con defecto Sin defecto Total Superior 8 42 50 Grupo socioeconómico Medio–Superior Medio–Inferior 24 32 121 138 145 170 Inferior 27 108 135 Total 91 409 500 10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS275 ¿Son compatibles estos datos con la hipótesis de que el defecto en la pronunciación, no está relacionado con el grupo socioeconómico? Solución: En forma de contraste de hipótesis, se ha de realizar el siguiente: H0 : Son independientes el nivel socioeconómico y el defecto de pronunciación H : No son independientes ambas cuestiones. 1 Para ver si H0 puede considerarse cierta, o si por el contrario hay una fuerte evidencia a favor de H1 , fijamos un nivel de significación α = 0, 05, y analizamos gracias al estadı́stico χ2 , las diferencias existentes entre los valores esperados y los observados, de suponer H0 cierta, es decir, las diferencias entre las cantidades Oij Eij = nij ni• · n•j = n•• 276 Defecto Si No Total Bioestadı́stica: Métodos y Aplicaciones Superior Medio superior Grupo socioeconómico Medio inferior Inferior O11 = 8 O12 = 24 O13 = 32 O14 = 27 E11 = 9, 1 E12 = 26, 39 E13 = 30, 94 E14 = 24, 57 2 O11 E11 2 O12 E12 2 O13 E13 2 O14 E14 = 7, 033 = 21, 82 = 33, 096 O22 = 121 O23 = 138 O24 = 108 E21 = 40, 9 E22 = 118, 61 E23 = 139, 06 E24 = 110, 43 2 O21 E21 2 O22 E22 2 O23 E23 2 O24 E24 n•1 = 50 = 123, 438 n•2 = 145 = 136, 948 n•3 = 170 n•4 = 135 χ2teo = χgl,1−α = χ3,00 95 = 70 81. Calculemos χ2exp : X (Oij − Eij )2 i,j Eij = 2 X Oij i,j Eij n2• = 409 = 105, 623 El número de grados de libertad del estadı́stico del contraste es gl = (2 − 1) × (4 − 1) = 3. Luego de ser H0 cierta, la cantidad χ2exp no deberı́a superar el valor teórico. que se muestra en la Figura 10.4: χ2exp = n1• = 91 = 29, 67 O21 = 42 = 43, 130 Total − n•• = 500, 758 − 500 = 0, 758 En consecuencia, no existe evidencia significativa a favor de la hipótesis alternativa, o sea, no se rechaza la independencia entre el defecto de pronunciación de los niños de la población y el nivel socioeconómico de su familia. n•• = 500 10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS277 Figura 10.4: Comparación del valor teórico con el experimental.