Muestreo por Conglomerados. 1.-Introducción: Para aplicar este diseño, se precisa que la población esté dividida en subpoblaciones, conglomerados, que no se solapen. Se selecciona una muestra probabilística de conglomerados y se mide la variable de interés en todos los individuos de los conglomerados elejidos. Cuestiones técnicas que plantea este muestreo: i) Construcción de Conglomerados: Los conglomerados deben estar constituidos por unidades lo más heterogéneas posibles; Sin embargo, los conglomerados deben ser homogeneos entre ellos. ii) Una vez seleccionado un conglomerado se mide la respuesta de todos los individuos que lo constituyen. iii) Si los conglomerados se toman con m.a.s., a la hora de realizar las estimaciones lo único que hay que tener en consideración es identificar el conglomerado como individuo. Ejemplo: Población: Todos los pacientes ingresados en un hospital público de Castilla y León el 23 de Octubre de 2002. Parámetro: Costo medio del paciente en esta Comunidad Autónoma: Conglomerado: Hospitales; Discusión, en una situación real, podríamos tomar todos los hospitales de la Comunidad? Individuo: Paciente ingresado en esa fecha; Variable de interes: Coste diario de atención del paciente. Notación: N I : Número de conglomerados en que está dividida la población y n I : Número de conglomerados tomado en la muestra. k : Respuesta total a la variable de interés de todos los individuos que conforman el k_ésimo conglomerado. 2.- Muestreo Aleatorio Simple de n I conglomerados 2.1.- Caso N i N j M N NI : Nota: En este apartado se resuelven simultánemanete dos situaciones, la primera en la que exactamente todos los conglomerados tienen el mismo número de individuos y la segunda en la que aun no coincidiendo, el número de individuos entre conglomerados es aproximadamente el mismo. Si el número de individuos N i no es exactamente el mismo entre conglomerados pero sí NI ∑N k muy próximo, se toma M c NI nI k1 NI ∑ k, k∈s I Var c N 2I 1−f I nI ∗2 UI , ∗2 UI ∑ 2 k − U I k∈U I N I −1 ; fI nI NI N 2I 1−f I nI Var c ∗2 ∗2 UI S sI S ∗2 sI ; ∑ 2 k − s I k∈s I n I −1 Coeficiente de correlación intraconglomerados: Sea y ij , y iz uno de los posibles pares de observaciones de la variable de interés del i-ésimo conglomerado En cada conglomerado de M elementos se pueden tomar M2 pares de valores Para los N I conglomerados se tienen N I M2 pares posibles El coeficiente de correlación intraconglomerados se define como el coeficiente de correlación lineal entre todos los pares especificados anteriormente, de tal forma que dicho coeficiente será una "medida de homogeneidad" dentro de los conglomerados NI Covy ij ,y iz y ij y iz Covy ij ,y iz 2 1 NI M 2 M ∑∑y ij −yy iz −y i1 jz 2 A partir de diversos cálculos, se puede expresar la varianza del estimador de la media poblacional en función del coeficiente de corrrelación intraconglomerados: NI Var 1 − f ∗ Por tanto: ∗2 nIM M ∑∑y ij −y 2 1 M − 1; ∗2 Var cong Var mas 1 M − 1 : i1 j N−1 Si 0 conglomerados peor que m.a.s Si 0 conglomerados igual que m.a.s Si 0 conglomerados mejor que m.a.s Estimación del coeficiente de correlación intraconglomerados: nI M nI M ∗2 S ∗2 2 b −S 1 1 ∗2 ∗2 M−1S ∗2 ; S b n I −1 ∑∑ y i − y y S n M−1 ∑∑ y ij − y 2 I i1 j1 i1 j1 Estimación de la varianza del estimador: ∗2 Var 1 − f ∗ nS M 1 M − 1 I Obtención del número de conglomerados n I fijados B y k: n I ≥ n0n 0 NI 1 : n0 k 2 ∗2 UI B2 N 2I k 2 ∗2 UI : n0 B2 Una forma de actuar es tomar una muestra previa de n ∗I conglomerados con el mismo diseño y estimar ∗2 UI ∑ 2 ∑ k − U I k∈U I N I −1 ; 2.2 Caso N i ≠ N j : nI ∑ i c i1 nI ∑N i i1 ; ∗2 ∗2 UI S sI k∈s ∗ I 2 k − s I n ∗I −1 Var c ∑ k − c N k 2 1−f I ; fI k∈s I n I −1 2 M nI nI NI i) Si N conocido: c N c ; Var c N 2 Var c ii) Si N desconocido: nI ∑ k nI ∑ k− 2 k1 nI k1 c ∑ k; NI nI Var c N 2I 1−f I nI n I −1 k∈s I nI ∑A i Pc i1 nI ∑N i ; / A i : Número de individuos en el conglomerado i-ésimo con la i1 nI característica de interés. VarP c 1−f I ∑ A k −P c N k 2 k1 2 M nI n I −1 Obtención del número de conglomerados n I fijado B y k i) Parámetro de interés : Var c ∑ k − c N i 2 1−f I k∈s I n I −1 2 M nI ∑ k − c N i 2 k∈s I B k 2 estimado con la muestra previa n I −1 / Habría que despejar n I de la fórmula ii) Parámetro de interés con N conocido: Var c N 2 1−f I ∑ k − c N i 2 k∈s I n I −1 2 M nI ∑ k − c N i 2 k∈s I B k 2 / n I −1 estimado con muestra previa Habría que despejar n I de la fórmula iii) Parámetro de interés con N desconocido: nI ∑ k nI ∑ k− 2 k1 nI k1 Var c N 2I 1−f I nI 2 nI ∑ k nI ∑ n I −1 k− k1 nI k1 B k 2 estimado con la muestra previa n I −1 / Habría que despejar n I de la fórmula iv) Parámetro de interés P: n n I I ∑A i Pc i1 nI ∑ ; 1−f I VarP c 2 M nI Ni ∑ A k −P c N i 2 k1 n I −1 i1 nI ∑ A k −P c N i k1 B k 2 / n I −1 2 estimado con la muestra previa Habría que despejar n I de la fórmula 3.- Ejemplo: Un fabricante de sierras de cinta quiere estimar el costo medio mensual de reparación para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener el costo de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Por tanto decide usar muestreo por conglomerados, tomando cada industria como un conglomerado. El fabricante selecciona una muestra aleatoria simple de n I 20 de N I 96 industrias a las que da servicio. Los datos muestrales sobre costo total de reparaciones de todas las sierras por industria, en dólares, y el número de sierras por industria se presentan en la tabla siguiente: Industria: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Nº Sierras: 3 7 11 9 2 12 14 3 5 9 8 6 3 2 1 4 12 18 19 6 5 Coste Total: 50 110 230 140 60 280 240 45 60 230 140 130 70 50 10 60 280 150 1 a) Estimar el costo promedio de reparación por sierra para el mes pasado, y calcular un intervalo de confianza del 95%. b) Estimar la cantidad total gastada por las 96 industrias en la reparación de sierras. c) Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido un total de 710 sierras a esas industrias. Usando esta información adicional, estimar la cantidad total gastada en reparación de sierras por estas industrias y calcular un intervalo de confianza del 95%. d) El fabricante quiere ahora estimar el costo de reparación promedio por sierra para el mes siguiente. ¿Cuántos conglomerados debe seleccionara en la muestra si quiere que el límite para el error de estimación sea menor que 10 $ (con una confianza del 95%)?. Solución: (datos sierras.mat) Apartado a): muc 19.7308 icmuc 17.9863, 21.4753 Apartado b): tc 12312 ictc 1.0e004 *[ 0.9200, 1.5424] Apartado c): tc2 1.4009e004 ictc2 1.0e004 *[ 1.2770, 1.5247] Apartado d): nIest 24.2707