ESTADISTiCA ESPAÑtJLA Vol. 31, Núm. 120, 19$9, págs. 109 a 1 18 Dos nuevos resultados en la estrategia mixta muestral de Sánchez - Crespo y Gabeiras por J. L. SANCH EZ-CR ESPO RESUMEN Utilizando un modelo de superpoblación se demuestra que, bajo ciertas condiciones, la estrategia mixta de muestreo de Sánchez-Crespo y G abeiras puede ser preferible a la estrategia basada en el muestreo sin reposición. Se presenta un estimador insesgado y no negativo para la varianza total en el muestreo polietápico, que es relativamente fácil de calcular, así como estirnadores para sus componentes. Palabras clave.• Muestreo con probabilidades desiguales. Modelos de superpoblación. Estrategias muestrales de Hansen-Hurwitz y Horvitz-Thompson. C/asificación A MS.• 6 2 D 0 5. 1. INTRODUCCION Los resu Itados presentados en este artícu lo tienen su origen en los siguientes comentarios al esquema mixto de muestreo de Sánchez-Crespo y G abeiras (1987 }: EI primer comentario se refiere a la posición de! mencianado esquema con reiación al muestreo con y sin reposición; "how far it does lie along the spectrum between sampling with and without replacement"' ( K.R.W. Brewer. Australia). i io ESTADISTI('A ESPA:^ínLA E! segundo comentario se centra en e! problema de la estimación de la varianza total, en los diseños poliet^picos; " I# unbiased, non negative variance estimates are easy to compute in a multistage design, there may be considerable potencial for the authors'scheme". ( B. A. Bailar. USA). En relación con el primer comentario, partiremos de los resultados que figuran en Rao y Bayless { 1969}, y Bayless y Rao { 1970) limiténdonos a las varianzas esperadas con las estrategias básicas de muestreo debidas a Hansen y Hurwitz (1943), y Horvitz y Thompson (1 952). Esta última solo seré considerada con las probabilidades de inclusión n; = n P; propuestas por Brewer { 1963}, Durbin ( 1967}, Fellegi ( 1963), y otros. Serán representados con la letra B. Así, por ejemplo, V(X^,T/B) indica la varianza del estimador de Horvitz y Thompson (HT) para el total, condicionada a un método B.. A Se ha utilizado el siguiente modelo de superpoblación: X,. -^3 M; + E; con i=1, 2, .... N E* (E;/M;) -- 0, E* (E?/M;} = a. M9= V(E;) , E* {^, ^;1M;, M;y = o i ^^ donde: E* (./M;} representa un operador para la esperanza condicionada, o media sobre todas las poblaciones finitas que podrían obtenerse del modelo de superpoblación para un conjunto fijo de las M; .^ Los mencionad©s resultados pueden escribirse: E* (^ (^HT} ) = a M9 . ^ \ ^ - 1t;) • 1L^' / /"19 i E* (V(XHH) } = aM9 . É^ (1 - ,c^;/n) ^u^' / n9 ( ^) (2) donde M; es una medida de tamaño para la unidad i-ésima con M,+M2+...+M,,,=M, ^; es la probabilidad de inclusión de u; en una muestra de n unidades, ^c;=nP; es el número esperado de apariciones de u; en la muestra ( ver Brewer y Hanif, 1 983, pág. 61 }, a es una constante positiva, ^; ^ es una variable aleatoria, X; es la variable de interés, V(XHT) es la varianza, del estimador del tota! X, con la estrategia HT, y V(XHHy es la correspondiente varianza con la estrategia de Hansen y Hurwitz. EI valor de g, en la mayoría de los casos prácticos, está comprendido entre uno y dos. Para la estrategia mixta tenemos; V (Xscc) _ ( ( M -nb) / ( M -b) i . V (XHH) con b=mín . M; / (n-1 ) (3 ) D(JS til'EVOS RESISLTADOS EN LA ESTRATEGI,A MIXTA MUESTRAL 2. 111 RAZONES DE VARIANZAS ESPERADAS A partir de las expresiones (1 }, (2) y 13) podemos definir las razones siguientes: Para g - 1: E* V (X HT /B} / E* (V (X HH ) = R 12_ ! N-n N-1 E„ V(X } = R 13 = IN-n) . {M-b} HT /B } / E*V(XSCG (N-1) . (M-nb) y para g=2 : R12 = (1 -n ^ P?) / (1 - ^ P?} , , R13 = Rf2 . M-b M-nb 3. GANANCIA RELATIVA EN VARIANZAS ESPERADAS Definiremos la ganancia relativa de la estrategia 1 respecto de la estrategia j, en varianzas esperadas, mediante la expresión: G,^= 1 - R,^ Sustituyendo en ella los valores de las razones obtenidas en la sección anterior tenemos: Caso g=1: G,2= 1 - R,2= (n-1) / (N-1) G,3 = 1 - R13 = (n-1 ) {M-Nb) / (N-1) {M-nb) de donde se deduce: Gf2/G,3=((M-nb)/1M-Nb))=t > 1 (4j Cuando t>^ y M es grande con relación a nb, la estrategia SCG podría resultar más próxima a la HT que a la H H, como puede deducirse de la tabla siguiente en la que figuran los valores de t y los aproximados del 11? E^ST 4DtST 1(: ,^ £SP^tiO1_.^ indicador del ahorro potencial, en varianza esperada, que definiremos mediante e^ cociente G321G,2 en la forma siguiente: (G3z^G^^}=[(b(N-1} /(NI-b}}^=p (5} de donde (G3z/G,2} _ (b(N-1 } / {M-b} } = P Este indicador varía entre cero y uno, correspondiendo los extremos a casos degenerados. A partir de las expresiones (4) y(5) se puede obtener: (1 - p} t= (1 ^ó M 1/l1 - b } M que para M grande con relación a nb, daría los siguientes valores aproximados: p ^ 0,50 0,75 0,80 0,90 t I 2 4 10 5 Puede verse en Sánchez-Crespo y Gabeiras ( 1987) que la ganancia potencial máxirna que podría obtenerse con el procedimiento SCG es, para n=2, la misma que se obtendría, en el caso de probabilidades iguales, con el rnuestreo sin reposición respecto al muestreo con reposición. Esta ganancia coincide con la obtenida con probabilídades desiguales al utilizar ei modelo de superpoblacián. , Na obstante las ganancias que figuran en el artículo de 1987, para otros valores de n, como por ejemplo para n=3 un 49%, podrían hacer considerar a la estrategia SCG superior a la HT, si la facilidad de aplicación y estimación de varianzas compesaran la posible pérdida en varianza esperada. A este respecto conviene también recordar que el caso n=2 es de gran importancia por permitir la máxima estratificación compatible con una estimación insesgada de la varianza. ( En la EPA canadiense se utilizan dos unidades primarias por estrato). Caso g=2: G12 = 1 - R;2 = (n-1 ) ( ^ P?} / i1 - ^ P?y ; ; N G13 = 1 - R;3 - (n-1 ) • ( M ^ P?- b) , (M-nb} • (1 - ^ P?) ; ^ ^^ [X)S til'E^"OS RESI.'L_TAD(_)S E`^ LA ESTR,^TE(^IA ti11!ír^^ ti1l'ESTR,^L y por consiguiente: N (Gíz/Gí3)=^l(M-nb)/(M-b))/(^P?)]=t'> 1 , 4. EJEMPLO ILUSTRATIVO Consideraremos el conjunto formado por los siguientes valores de M;: (60, 62, 65, 67, 69, 71, 73, ^4, 76, 7 7, 80, 83, 85, 88, 92) con n=2, P^= M^/M, N=15, M=1.122, ^ P?= 0,0677. , , Los valores de las ganancias esperadas son en este caso: G,2 = 0,0714 de donde (Gf2/G,^) = 4,5 5. G,3 = 0,0158 G í2 = 0,0?26 G í3 = 0,0171 {G',2/G'f3) = 4,2 OTRAS CONSIDERACiONES En la comparación de dos estrategias, además de las varianzas esperadas, debería tenerse en cuenta si los procedimientos de selección y estimación son fáciles de, aplicar, y en particular en el muestreo polietápico si resulta comparativamente fácil el cálculo de una estimación insesgada y no negativa de la varianza total y sus componentes. En este trabajo hemos considerado valores esperados con un modelo de superpoblación condicionado a un conjunto fijo de los valores de M;. Pero para un conjunto específico de valores X; Ivariable de interés) la varianza V(Xscc) Podría ser igual o inciuso menor que V(XHr/B). Así por ejemplo, si M;(3; 5; 7), X;(1; 3; 4) tenemos: V(XHH) = 1,1428 6. V(XHT/B) = 0,9286 U(Xscc) = 0,8571 MUESTREO POLIETÁPICO EI comentario de B. A. Bailar, ya mencionado en la introducción, constituye la idea básica recogida en esta sección. Consideraremos una estrategia polietápica en la que los procesos de selección y estimación son realizados independientemente, en las diversas etapas, y en la primera se sigue la estrategia del esquema mixto. 114 EST ADISTI( A ESPAtiOL,A Representaremos el estimador del total X por: r,. n ,. X scG =^ X; / n P; ^ donde X; es un estimador insesgado de X; basado en las etapas posteriores a la primera, dentro de la unidad i-ésima de primera etapa. Sabemos que la varianza total de muestreo del estimador es: VCX )+W SCG)=V()^ SCG )+^V(X)/nP=V(X ^ 2^ SCG r .. donde V2(X;) es la varianza, en las etapas posteriores a la primera, del estimador insesgado de X; . 6.1 Estimador insesgado y no negativo de la varianza total y sus componentes A continuación demostraremos que la expresión: A M - nb ^ V ( X scG ) _ M ^ [ { X; %r P; } - X scG ) ^ ; n.(n-1 ) nb 1- M n ^ ^ n V2(%t;} } ,^ 2 ; (^} P? donde W= É V2(X;) / n2 P? y V2(X;) son estimadores insesgados de W ^ y V2(X;} respectivamente, es un estimador insesgado y no negativo de ^ V (X scG}• Demostración Consideremos la siguiente identidad n ^ ^[ (X;/P;} - XscG )2 = ^[ ( (X;/P;) - X} - {XscG-X} ]2 = ; ; ^ _ ^[ (X;/P;) - X]2 - n(X scG-X)2 = ; ^ _ ^( (X;/P;) - X + (X;/P;) - (X;/P;) ]2 - n (X scG-X)2 ^ Tomando esperanzas tenemos: ^ ^ ^ E ( ^r ( (X;/P^} - X scG}2 ) = n ( ^i ( (X;/P;) - X)2 P; + E^ (V2(X;11 P;) - V (X scG) ] _ = n [n [V (XHH) + W] - V (XS G} ^ DOS NLIEVOS RESL:LTAC)C)S EN L:4 ESTRATEGIA MIXTA Ml.,'ESTRAL 115 y como se verifica V(XHH) = M-b • V(X SCG) M - nb tenemos ,. E [ ^; ( (X ./ ^ P ^) ^ - X scG )2 ^ = n ^n • -b • V (X X + W^] = seG ) + nW( - (VscG) M -nb ^ M -b = n [V (XscG) ^ [n • - 1] +W(n-1) ] _ M-nb Mn(n-1 ) , V (X scG) + n(n-1) W M -nb de donde M-nb M ^ (()C;/P;) - X scc)2 n E[ ^ ' ^ j--V(XscG)+ M-nb n (n-1) •W- M = V(XscG^ +W - n M ^ W= V(X SCG )- nb W (2) M y de (1) y (2 ) se deduce El V(X V(X SCG )SCG)= ^ [ nb W+ nb W= V (X SCG) ^ M M quedando demostrado que la expresión n ,. ^ V X scc) _ IV1 - nb . M ^ ^[ ( X;/P;) - Xscc]2 ; n • (n-1) + nb M ^ es un estimador insesgado y no negativo de V(XscG) 1 „ ^ n2 ' V21X;) P? , ^ ^ f^ E^,ST-^t^t^^r ^c^^^ E.ti^.^tic^t..^^, 6.2 Casos particulares del caso general 6.2.1 Muestreo en una etapa a) W=0 b > 1 b) W=0 b-1 C) W=o r6=0 V (Xscci = Í ( M -nbi /M y ^^ ( {X;/P;) - Xsccl2jn (n-11 V(XSC1 = 1{ M-n)/M 1^((X;/ P;) - Xscf 2/n (n-1) r V(XHH) _^((X;/P; ^ - XHHi2/n{n-1) , 6.2.2. Muestreo po/ietápico A A a) W > 0 b > 1 V {Xscc^ _ ( ( M -nb)/M ^ [ ^ ( (x;/P;) - X scc^2/n (n-1) ] + n M ' para la varianza total. W = ^V2(X;) / (nP,)2 , para la segunda etapa y posteriores. A A A A v(Xscc} - W Para la c©mponente de primera etapa. A b) W > o b=1 }2/n (n_ 1 ^ ^ + nWb V (X Sc} _ ( Í M -nl/M ) [ ^ ( (X;/P;) - X sc ' M A c) W > 0 6=0 V (XHH) _ ^ ( (X;/P;) - X Sc) ^/n (n-1 ^ ; 6.3 Expresión aproximada de la varianza Si en Ios casos b> 1 y 6=1 de 6.2.2 se utiliza la expresión aproximada: ^ A V(xscc^ _ ( {M -nb1 /M1 ^{ (X;/P;i X sc`21nI n-1 i ; se cometería un sesgo igual -nbW/M que resultaría despreciable en la mayor parte de las situaciones prácticas. [)Oti \t E^O^ fZEtiE l.f ^[)O^E` L.^ E^Tft^1E<^11^ ^11^i ^^1l f^fFt^l ^ ^! RECONOCIMIENTO Deseo expresar mi gratitud a R. K. W. Brewer y a B. A. Bailar por sus comentarios, que han originado este trabajo. REFERENCIAS BAYLESS, D. L. and RAO, J. N. K. (1970). An empirical study of the stabilities of estimators and variance estimators in unequal probability samp/ing. Journal of the American Statistical Association, 65, 1.645-1.667. BREWER, K. R. W. and HAN^F, M. (1 983). Sampling with unequaJ probabilitíes. New York: Springer-Verlag. COCHRAN, W. G. SAMPLING TECHNIQUES (1 977). New York. W^LEY & SONS. D U R B I N, J. (1 9 6 7). Design of mu/tistage surveys for estimation of sampling errors. Applied Statistics, 16, 1 52-164. F ELLEG I, I. P. (19 63 ). Sampling with varying probabilities without replacement.^ rotating and non-rotating sarnp/es. Journal of the American Statistical Association, 58, 183-201. HANSEN, M. H. and HuRw^TZ, W. N. (1943). on the theory of sampling from a finite population. Annals of Mathematical Statistics. 14, 33 5-362. H^ORVITZ, D. G. and THOMPSON, D. J. (1952). A generali.zation of sampling without replacement from a finite universe. Journal of the American Statistical Association. 47, 663-685. RAO, J. N. K. and BAYLESS, D. L. (1 969). An empirical study of the stabilities of estimators and variance estimators in pps sampling. Journal of the American Statistical Association, 64, 540-549. RAO, J. N. K., HARTLEY, H. O., and COCH RAN, W. G. (1 962 ). on a sirnple procedure of unequal probability sampling without replacement. J ou rn a I af the Royal Statistical Society. S. B., 24, 484-491. SÁNCHEZ-CRESPO, J. L. (1977). A new sampling scheme.^ selection with graduated variable probabilities without replacement. Proc. 41 yt I.S.I. Session, New Delhi. SÁNCHEZ-CRESPO, J. L. y GABEIRAS, J. ( 1 987). Un esquema mixto de muestreo con probabilidades desiguales. Estadística Española. Vol. 1 1 5. I N E. M adrid. I ^ K f tiT ^[)I^7 I( ^ E^f' ^^c11 ^^ SUMMARY TWO NEW RESULTS IN THE MIXED SAMPLING STRATEGY OF SANCHEZ-CRESPO AND GABEIRAS Using a superpopulation model it is shown that, the mixed sampling strategy due to Sánchez-Crespo and Gabeiras could be, under certain conditions, closer to sampling without replacement than to sampling with replacement. Also an unbiased and no negative estimator for the total variance, in multistage sampling, relatively easy to compute is presented. Key words.^ Unequal probability sampling. Superpopulation models. Sampling strategies of Hansen and Hurwitz, and Horvitz and Thompson.