Dos nuevos resultados en la estrategia mixta muestral de Sánchez

Anuncio
ESTADISTiCA ESPAÑtJLA
Vol. 31, Núm. 120, 19$9, págs. 109 a 1 18
Dos nuevos resultados en la estrategia mixta
muestral de Sánchez - Crespo y Gabeiras
por
J. L. SANCH EZ-CR ESPO
RESUMEN
Utilizando un modelo de superpoblación se demuestra que,
bajo ciertas condiciones, la estrategia mixta de muestreo de
Sánchez-Crespo y G abeiras puede ser preferible a la estrategia
basada en el muestreo sin reposición.
Se presenta un estimador insesgado y no negativo para la
varianza total en el muestreo polietápico, que es relativamente
fácil de calcular, así como estirnadores para sus componentes.
Palabras clave.• Muestreo con probabilidades desiguales. Modelos
de superpoblación. Estrategias muestrales de Hansen-Hurwitz
y Horvitz-Thompson.
C/asificación A MS.• 6 2 D 0 5.
1.
INTRODUCCION
Los resu Itados presentados en este artícu lo tienen su origen en los
siguientes comentarios al esquema mixto de muestreo de Sánchez-Crespo
y G abeiras (1987 }:
EI primer comentario se refiere a la posición de! mencianado esquema
con reiación al muestreo con y sin reposición; "how far it does lie along the
spectrum between sampling with and without replacement"' ( K.R.W. Brewer. Australia).
i io
ESTADISTI('A ESPA:^ínLA
E! segundo comentario se centra en e! problema de la estimación de la
varianza total, en los diseños poliet^picos; " I# unbiased, non negative variance estimates are easy to compute in a multistage design, there may be
considerable potencial for the authors'scheme". ( B. A. Bailar. USA).
En relación con el primer comentario, partiremos de los resultados que
figuran en Rao y Bayless { 1969}, y Bayless y Rao { 1970) limiténdonos a
las varianzas esperadas con las estrategias básicas de muestreo debidas a
Hansen y Hurwitz (1943), y Horvitz y Thompson (1 952). Esta última solo
seré considerada con las probabilidades de inclusión n; = n P; propuestas por
Brewer { 1963}, Durbin ( 1967}, Fellegi ( 1963), y otros. Serán representados
con la letra B. Así, por ejemplo, V(X^,T/B) indica la varianza del estimador
de Horvitz y Thompson (HT) para el total, condicionada a un método B..
A
Se ha utilizado el siguiente modelo de superpoblación:
X,. -^3 M; + E;
con
i=1, 2, .... N
E* (E;/M;) -- 0, E* (E?/M;} = a. M9= V(E;) ,
E* {^, ^;1M;, M;y = o i ^^
donde: E* (./M;} representa un operador para la esperanza condicionada, o
media sobre todas las poblaciones finitas que podrían obtenerse del modelo de superpoblación para un conjunto fijo de las M; .^
Los mencionad©s resultados pueden escribirse:
E* (^ (^HT}
) = a M9 . ^ \ ^ - 1t;) • 1L^' / /"19
i
E* (V(XHH) } = aM9 . É^ (1 - ,c^;/n) ^u^' / n9
( ^)
(2)
donde M; es una medida de tamaño para la unidad i-ésima con
M,+M2+...+M,,,=M, ^; es la probabilidad de inclusión de u; en una muestra de
n unidades, ^c;=nP; es el número esperado de apariciones de u; en la
muestra ( ver Brewer y Hanif, 1 983, pág. 61 }, a es una constante positiva, ^;
^
es una variable aleatoria, X; es la variable de interés, V(XHT) es la varianza,
del estimador del tota! X, con la estrategia HT, y V(XHHy es la correspondiente varianza con la estrategia de Hansen y Hurwitz. EI valor de g, en la
mayoría de los casos prácticos, está comprendido entre uno y dos.
Para la estrategia mixta tenemos;
V (Xscc) _ ( ( M -nb) / ( M -b) i . V (XHH) con b=mín . M; / (n-1 )
(3 )
D(JS til'EVOS RESISLTADOS EN LA ESTRATEGI,A MIXTA MUESTRAL
2.
111
RAZONES DE VARIANZAS ESPERADAS
A partir de las expresiones (1 }, (2) y 13) podemos definir las razones
siguientes:
Para g - 1:
E* V (X
HT /B} / E* (V (X
HH ) = R
12_
! N-n
N-1
E„ V(X
} = R 13
= IN-n) . {M-b}
HT /B } / E*V(XSCG
(N-1) . (M-nb)
y para g=2 :
R12 = (1 -n ^ P?) / (1 - ^ P?}
,
,
R13 = Rf2 .
M-b
M-nb
3.
GANANCIA RELATIVA EN VARIANZAS ESPERADAS
Definiremos la ganancia relativa de la estrategia 1 respecto de la estrategia j, en varianzas esperadas, mediante la expresión:
G,^= 1 - R,^
Sustituyendo en ella los valores de las razones obtenidas en la sección
anterior tenemos:
Caso g=1:
G,2= 1 - R,2= (n-1) / (N-1)
G,3 = 1 - R13 = (n-1 ) {M-Nb) / (N-1) {M-nb)
de donde se deduce:
Gf2/G,3=((M-nb)/1M-Nb))=t > 1
(4j
Cuando t>^ y M es grande con relación a nb, la estrategia SCG podría
resultar más próxima a la HT que a la H H, como puede deducirse de la
tabla siguiente en la que figuran los valores de t y los aproximados del
11?
E^ST 4DtST 1(: ,^ £SP^tiO1_.^
indicador del ahorro potencial, en varianza esperada, que definiremos mediante e^ cociente G321G,2 en la forma siguiente:
(G3z^G^^}=[(b(N-1} /(NI-b}}^=p
(5}
de donde
(G3z/G,2} _ (b(N-1 } / {M-b} } = P
Este indicador varía entre cero y uno, correspondiendo los extremos a
casos degenerados.
A partir de las expresiones (4) y(5) se puede obtener:
(1 - p} t= (1
^ó
M
1/l1 - b }
M
que para M grande con relación a nb, daría los siguientes valores aproximados:
p ^ 0,50 0,75 0,80 0,90
t
I 2
4
10
5
Puede verse en Sánchez-Crespo y Gabeiras ( 1987) que la ganancia
potencial máxirna que podría obtenerse con el procedimiento SCG es, para
n=2, la misma que se obtendría, en el caso de probabilidades iguales, con
el rnuestreo sin reposición respecto al muestreo con reposición. Esta ganancia coincide con la obtenida con probabilídades desiguales al utilizar ei
modelo de superpoblacián.
, Na obstante las ganancias que figuran en el artículo de 1987, para otros
valores de n, como por ejemplo para n=3 un 49%, podrían hacer considerar
a la estrategia SCG superior a la HT, si la facilidad de aplicación y estimación de varianzas compesaran la posible pérdida en varianza esperada. A
este respecto conviene también recordar que el caso n=2 es de gran
importancia por permitir la máxima estratificación compatible con una estimación insesgada de la varianza. ( En la EPA canadiense se utilizan dos
unidades primarias por estrato).
Caso g=2:
G12 = 1 - R;2 = (n-1 ) ( ^ P?} / i1 - ^ P?y
;
;
N
G13 = 1 - R;3 -
(n-1 ) • ( M ^ P?- b)
,
(M-nb} • (1 -
^ P?)
;
^ ^^
[X)S til'E^"OS RESI.'L_TAD(_)S E`^ LA ESTR,^TE(^IA ti11!ír^^ ti1l'ESTR,^L
y por consiguiente:
N
(Gíz/Gí3)=^l(M-nb)/(M-b))/(^P?)]=t'> 1
,
4.
EJEMPLO ILUSTRATIVO
Consideraremos el conjunto formado por los siguientes valores de M;:
(60, 62, 65, 67, 69, 71, 73, ^4, 76, 7 7, 80, 83, 85, 88, 92) con n=2,
P^=
M^/M,
N=15, M=1.122, ^ P?= 0,0677.
,
,
Los valores de las ganancias esperadas son en este caso:
G,2 = 0,0714
de donde (Gf2/G,^) = 4,5
5.
G,3 = 0,0158
G í2 = 0,0?26
G í3 = 0,0171
{G',2/G'f3) = 4,2
OTRAS CONSIDERACiONES
En la comparación de dos estrategias, además de las varianzas esperadas, debería tenerse en cuenta si los procedimientos de selección y estimación son fáciles de, aplicar, y en particular en el muestreo polietápico si
resulta comparativamente fácil el cálculo de una estimación insesgada y no
negativa de la varianza total y sus componentes.
En este trabajo hemos considerado valores esperados con un modelo de
superpoblación condicionado a un conjunto fijo de los valores de M;. Pero
para un conjunto específico de valores X; Ivariable de interés) la varianza
V(Xscc) Podría ser igual o inciuso menor que V(XHr/B).
Así por ejemplo, si M;(3; 5; 7), X;(1; 3; 4) tenemos:
V(XHH) = 1,1428
6.
V(XHT/B) = 0,9286
U(Xscc) = 0,8571
MUESTREO POLIETÁPICO
EI comentario de B. A. Bailar, ya mencionado en la introducción, constituye la idea básica recogida en esta sección.
Consideraremos una estrategia polietápica en la que los procesos de
selección y estimación son realizados independientemente, en las diversas
etapas, y en la primera se sigue la estrategia del esquema mixto.
114
EST ADISTI( A ESPAtiOL,A
Representaremos el estimador del total X por:
r,.
n ,.
X scG =^ X; / n P;
^
donde X; es un estimador insesgado de X; basado en las etapas posteriores
a la primera, dentro de la unidad i-ésima de primera etapa.
Sabemos que la varianza total de muestreo del estimador es:
VCX
)+W
SCG)=V()^ SCG )+^V(X)/nP=V(X
^
2^
SCG
r
..
donde V2(X;) es la varianza, en las etapas posteriores a la primera, del
estimador insesgado de X; .
6.1 Estimador insesgado y no negativo de la varianza total y sus componentes
A continuación demostraremos que la expresión:
A
M - nb
^
V ( X scG ) _
M
^ [ { X; %r P; } - X scG ) ^
;
n.(n-1 )
nb
1-
M
n
^ ^
n V2(%t;}
}
,^
2 ;
(^}
P?
donde W= É V2(X;) / n2 P? y V2(X;) son estimadores insesgados de W
^
y V2(X;} respectivamente, es un estimador insesgado y no negativo de
^
V (X scG}•
Demostración
Consideremos la siguiente identidad
n
^
^[ (X;/P;} - XscG )2 = ^[ ( (X;/P;) - X} - {XscG-X} ]2 =
;
;
^
_ ^[ (X;/P;) - X]2 - n(X scG-X)2 =
;
^
_ ^( (X;/P;) - X + (X;/P;) - (X;/P;) ]2 - n (X scG-X)2
^
Tomando esperanzas tenemos:
^
^
^
E ( ^r ( (X;/P^} - X scG}2 ) = n ( ^i ( (X;/P;) - X)2 P; + E^ (V2(X;11 P;) - V (X scG) ] _
= n [n [V (XHH) + W] - V (XS
G} ^
DOS NLIEVOS RESL:LTAC)C)S EN L:4 ESTRATEGIA MIXTA Ml.,'ESTRAL
115
y como se verifica
V(XHH) =
M-b • V(X
SCG)
M - nb
tenemos
,.
E [ ^; ( (X ./
^ P ^)
^ - X scG )2 ^ = n ^n •
-b • V (X
X + W^] =
seG ) + nW( - (VscG)
M -nb
^
M -b
= n [V (XscG) ^ [n •
- 1] +W(n-1) ] _
M-nb
Mn(n-1 ) , V (X
scG) + n(n-1) W
M -nb
de donde
M-nb
M
^
(()C;/P;) - X scc)2
n
E[ ^
'
^
j--V(XscG)+
M-nb
n (n-1)
•W-
M
= V(XscG^ +W - n
M
^
W= V(X
SCG )- nb W
(2)
M
y de (1) y (2 ) se deduce
El V(X
V(X SCG )SCG)=
^ [
nb W+
nb W= V (X SCG)
^
M
M
quedando demostrado que la expresión
n
,. ^
V X scc) _
IV1 - nb
.
M
^
^[ ( X;/P;) - Xscc]2
;
n • (n-1)
+
nb
M
^
es un estimador insesgado y no negativo de V(XscG)
1
„
^
n2 '
V21X;)
P?
,
^ ^ f^
E^,ST-^t^t^^r ^c^^^ E.ti^.^tic^t..^^,
6.2
Casos particulares del caso general
6.2.1 Muestreo en una etapa
a)
W=0 b > 1
b)
W=0 b-1
C)
W=o r6=0
V (Xscci = Í ( M -nbi /M y ^^ ( {X;/P;) - Xsccl2jn (n-11
V(XSC1 = 1{ M-n)/M 1^((X;/ P;) - Xscf 2/n (n-1)
r
V(XHH) _^((X;/P; ^ - XHHi2/n{n-1)
,
6.2.2. Muestreo po/ietápico
A
A
a) W > 0 b > 1
V {Xscc^ _ ( ( M -nb)/M ^ [ ^ ( (x;/P;) - X scc^2/n (n-1) ] + n
M
'
para la varianza total.
W = ^V2(X;) / (nP,)2
,
para la segunda etapa y posteriores.
A
A
A
A
v(Xscc} - W Para la c©mponente de primera etapa.
A
b) W > o b=1
}2/n (n_ 1 ^ ^ + nWb
V (X Sc} _ ( Í M -nl/M ) [ ^ ( (X;/P;) - X sc
'
M
A
c) W > 0 6=0 V (XHH) _ ^ ( (X;/P;) - X Sc) ^/n (n-1 ^
;
6.3
Expresión aproximada de la varianza
Si en Ios casos b> 1 y 6=1 de 6.2.2 se utiliza la expresión aproximada:
^
A
V(xscc^ _ ( {M -nb1 /M1 ^{
(X;/P;i
X
sc`21nI n-1 i
;
se cometería un sesgo igual -nbW/M que resultaría despreciable en la
mayor parte de las situaciones prácticas.
[)Oti \t E^O^ fZEtiE l.f ^[)O^E` L.^ E^Tft^1E<^11^ ^11^i ^^1l f^fFt^l
^ ^!
RECONOCIMIENTO
Deseo expresar mi gratitud a R. K. W. Brewer y a B. A. Bailar por sus
comentarios, que han originado este trabajo.
REFERENCIAS
BAYLESS, D. L. and RAO, J. N. K. (1970). An empirical study of the stabilities
of estimators and variance estimators in unequal probability samp/ing.
Journal of the American Statistical Association, 65, 1.645-1.667.
BREWER, K. R. W. and HAN^F, M. (1 983). Sampling with unequaJ probabilitíes.
New York: Springer-Verlag.
COCHRAN, W. G. SAMPLING TECHNIQUES (1 977). New York. W^LEY & SONS.
D U R B I N, J. (1 9 6 7). Design of mu/tistage surveys for estimation of sampling
errors. Applied Statistics, 16, 1 52-164.
F ELLEG I, I. P. (19 63 ). Sampling with varying probabilities without replacement.^
rotating and non-rotating sarnp/es. Journal of the American Statistical
Association, 58, 183-201.
HANSEN, M. H. and HuRw^TZ, W. N. (1943). on the theory of sampling from a
finite population. Annals of Mathematical Statistics. 14, 33 5-362.
H^ORVITZ, D. G. and THOMPSON, D. J. (1952). A generali.zation of sampling
without replacement from a finite universe. Journal of the American Statistical Association. 47, 663-685.
RAO, J. N. K. and BAYLESS, D. L. (1 969). An empirical study of the stabilities
of estimators and variance estimators in pps sampling. Journal of the
American Statistical Association, 64, 540-549.
RAO, J. N. K., HARTLEY, H. O., and COCH RAN, W. G. (1 962 ). on a sirnple
procedure of unequal probability sampling without replacement. J ou rn a I af
the Royal Statistical Society. S. B., 24, 484-491.
SÁNCHEZ-CRESPO, J. L. (1977). A new sampling scheme.^ selection with graduated variable probabilities without replacement. Proc. 41 yt I.S.I. Session,
New Delhi.
SÁNCHEZ-CRESPO, J. L. y GABEIRAS, J. ( 1 987). Un esquema mixto de muestreo con probabilidades desiguales. Estadística Española. Vol. 1 1 5. I N E.
M adrid.
I ^ K
f tiT ^[)I^7 I( ^ E^f' ^^c11 ^^
SUMMARY
TWO NEW RESULTS IN THE MIXED SAMPLING
STRATEGY OF SANCHEZ-CRESPO AND GABEIRAS
Using a superpopulation model it is shown that, the mixed
sampling strategy due to Sánchez-Crespo and Gabeiras could
be, under certain conditions, closer to sampling without replacement than to sampling with replacement. Also an unbiased and
no negative estimator for the total variance, in multistage sampling, relatively easy to compute is presented.
Key
words.^ Unequal probability sampling. Superpopulation
models. Sampling strategies of Hansen and Hurwitz, and
Horvitz and Thompson.
Descargar