Muestreo por Conglomerados.

Anuncio
Muestreo por Conglomerados.
1.-Introducción:
Para aplicar este diseño, se precisa que la población esté dividida en subpoblaciones,
conglomerados, que no se solapen. Se selecciona una muestra probabilística de
conglomerados y se mide la variable de interés en todos los individuos de los
conglomerados elejidos.
Cuestiones técnicas que plantea este muestreo:
i) Construcción de Conglomerados: Los conglomerados deben estar constituidos por
unidades lo más heterogéneas posibles; Sin embargo, los conglomerados deben ser
homogeneos entre ellos.
ii) Una vez seleccionado un conglomerado se mide la respuesta de todos los individuos
que lo constituyen.
iii) Si los conglomerados se toman con m.a.s., a la hora de realizar las estimaciones lo
único que hay que tener en consideración es identificar el conglomerado como
individuo.
Ejemplo:
Población: Todos los pacientes ingresados en un hospital público de Castilla y León el
23 de Octubre de 2002.
Parámetro: Costo medio del paciente en esta Comunidad Autónoma:
Conglomerado: Hospitales; Discusión, en una situación real, podríamos tomar todos
los hospitales de la Comunidad?
Individuo: Paciente ingresado en esa fecha;
Variable de interes: Coste diario de atención del paciente.
Notación:
N I : Número de conglomerados en que está dividida la población y n I : Número de
conglomerados tomado en la muestra.
 k : Respuesta total a la variable de interés de todos los individuos que conforman el
k_ésimo conglomerado.
2.- Muestreo Aleatorio Simple de n I
conglomerados
2.1.- Caso N i  N j  M 
N
NI
:
Nota: En este apartado se resuelven simultánemanete dos situaciones, la primera en la que
exactamente todos los conglomerados tienen el mismo número de individuos y la segunda
en la que aun no coincidiendo, el número de individuos entre conglomerados es
aproximadamente el mismo.
Si el número de individuos N i no es exactamente el mismo entre conglomerados pero sí
NI
∑N k
muy próximo, se toma M 
c 
NI
nI
k1
NI
∑ k,
k∈s I
Var c  
N 2I 1−f I 
nI
 ∗2
UI ,
 ∗2
UI 
∑
2
 k − U I
k∈U I
N I −1
; fI 
nI
NI
N 2I 1−f I 
nI
Var c  
∗2
 ∗2
UI  S sI 
S ∗2
sI ;
∑
2
 k − s I
k∈s I
n I −1
Coeficiente de correlación intraconglomerados:
Sea y ij , y iz  uno de los posibles pares de observaciones de la variable de interés del i-ésimo
conglomerado
En cada conglomerado de M elementos se pueden tomar M2 pares de valores
Para los N I conglomerados se tienen N I M2 pares posibles
El coeficiente de correlación intraconglomerados se define como el coeficiente de
correlación lineal entre todos los pares especificados anteriormente, de tal forma que dicho
coeficiente será una "medida de homogeneidad" dentro de los conglomerados
NI

Covy ij ,y iz 
y ij y iz 
Covy ij ,y iz 

2

1
NI M
2
M
∑∑y ij −yy iz −y
i1 jz
2
A partir de diversos cálculos, se puede expresar la varianza del estimador de la media
poblacional en función del coeficiente de corrrelación intraconglomerados:
NI

Var  1 − f ∗
Por tanto:
 ∗2
nIM
M
∑∑y ij −y 2
1  M − 1;  ∗2 


Var cong   Var mas 1  M − 1 :
i1
j
N−1
Si   0 conglomerados peor que m.a.s
Si   0 conglomerados igual que m.a.s
Si   0 conglomerados mejor que m.a.s
Estimación del coeficiente de correlación intraconglomerados:
nI M
nI M
∗2

S ∗2
2
b −S
1
1
∗2
∗2
  M−1S ∗2 ; S b  n I −1 ∑∑ y i − y y S  n M−1 ∑∑ y ij − y 2
I
i1 j1
i1 j1
Estimación de la varianza del estimador:

∗2

Var  1 − f ∗ nS M 1  M − 1 
I
Obtención del número de conglomerados n I fijados B y k:
n I ≥ n0n 0
NI
1

 : n0 
k 2  ∗2
UI
B2
N 2I k 2  ∗2
UI
 : n0 
B2
Una forma de actuar es tomar una muestra previa de n ∗I conglomerados con el mismo
diseño y estimar
 ∗2
UI 
∑
2
∑
 k − U I
k∈U I
N I −1
;
2.2 Caso N i ≠ N j :
nI
∑ i

c 
i1
nI
∑N i
i1
;
∗2
 ∗2
UI  S sI 
k∈s ∗
I
2
 k − s I
n ∗I −1

Var c  
∑ k − c N k  2
1−f I 
; fI 
k∈s I
n I −1
2
M nI
nI
NI
i) Si N conocido:


 c  N c ;
Var c   N 2 Var c 
ii) Si N desconocido:
nI
∑ k
nI
∑
k−
2
k1
nI
k1
c 
∑ k;
NI
nI
Var c  
N 2I 1−f I 
nI
n I −1
k∈s I
nI
∑A i
Pc 
i1
nI
∑N i
; / A i : Número de individuos en el conglomerado i-ésimo con la
i1
nI
característica de interés. VarP c  
1−f I 
∑
A k −P c N k
2
k1
2
M nI
n I −1
Obtención del número de conglomerados n I fijado B y k
i) Parámetro de interés  :

Var c  
∑ k − c N i  2
1−f I 

k∈s I
n I −1
2
M nI
∑ k − c N i  2
k∈s I

B
k
2
estimado con la muestra previa
n I −1
/
Habría que despejar n I de la fórmula
ii) Parámetro de interés  con N conocido:
Var c   N 2
1−f I 
∑ k − c N i  2
k∈s I
n I −1
2
M nI

∑ k − c N i  2
k∈s I

B
k
2
/
n I −1
estimado con muestra previa
Habría que despejar n I de la fórmula
iii) Parámetro de interés  con N desconocido:
nI
∑ k
nI
∑
k−
2
k1
nI
k1
Var c  
N 2I 1−f I 
nI
2
nI
∑ k
nI
∑

n I −1
k−
k1
nI
k1

B
k
2
estimado con la muestra previa
n I −1
/
Habría que despejar n I de la fórmula
iv) Parámetro
de interés P:
n
n
I
I
∑A i
Pc 
i1
nI
∑
;
1−f I 
VarP c  
2
M nI
Ni
∑
A k −P c N i
2
k1
n I −1

i1
nI
∑
A k −P c N i
k1

B
k
2
/
n I −1
2
estimado con la muestra previa
Habría que despejar n I de la fórmula
3.- Ejemplo:
Un fabricante de sierras de cinta quiere estimar el costo medio mensual de reparación
para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener el costo
de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y
el número de sierras que tiene cada industria. Por tanto decide usar muestreo por
conglomerados, tomando cada industria como un conglomerado. El fabricante selecciona
una muestra aleatoria simple de n I  20 de N I  96 industrias a las que da servicio. Los
datos muestrales sobre costo total de reparaciones de todas las sierras por industria, en
dólares, y el número de sierras por industria se presentan en la tabla siguiente:
Industria:
1 2
3
4
5 6
7
8 9 10 11 12 13 14 15 16 17
Nº Sierras:
3
7
11
9
2
12
14
3
5
9
8
6
3
2
1
4
12
18
19
6
5
Coste Total: 50 110 230 140 60 280 240 45 60 230 140 130 70 50 10 60 280 150 1
a) Estimar el costo promedio de reparación por sierra para el mes pasado, y calcular un
intervalo de confianza del 95%.
b) Estimar la cantidad total gastada por las 96 industrias en la reparación de sierras.
c) Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido
un total de 710 sierras a esas industrias. Usando esta información adicional, estimar la
cantidad total gastada en reparación de sierras por estas industrias y calcular un intervalo de
confianza del 95%.
d) El fabricante quiere ahora estimar el costo de reparación promedio por sierra para el mes
siguiente. ¿Cuántos conglomerados debe seleccionara en la muestra si quiere que el límite
para el error de estimación sea menor que 10 $ (con una confianza del 95%)?.
Solución: (datos sierras.mat)
Apartado a):
muc  19.7308
icmuc  17.9863, 21.4753
Apartado b):
tc  12312
ictc  1.0e004 *[ 0.9200, 1.5424]
Apartado c):
tc2  1.4009e004
ictc2  1.0e004 *[ 1.2770, 1.5247]
Apartado d):
nIest  24.2707
Descargar