Inferencia estadística sobre poblaciones finitas con muestras

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 48, Núm. 162, 2006, págs. 295 a 331
Inferencia estadística sobre
poblaciones finitas con muestras
intencionales
por
JULIO MIRÁS
Instituto Galego de Estatística
RESUMEN
En un contexto de muestreo intencional, con el conocimiento previo de una magnitud auxiliar, se buscan estrategias más eficientes
que la formada por el estimador de razón con una muestra equilibrada
en media, tanto en el caso de que en presencia de la relación estocástica: Yi = a + bXi ; b>0; E(εi ) = 0 , V(ε i ) = KX i , ∀ i ; E(εiε j ) = 0 , ∀ i ≠ j ,
sea a=0 (modelo M1) como a ≠ 0 (modelo M2).
Palabras clave: muestreo intencional, modelos de superpoblación.
Clasificación AMS: 62D05
1. INTRODUCCIÓN
1.1. Elementos previos
El trabajo que se presenta en este artículo tiene como objetivo el estudio de estrategias de inferencia en poblaciones finitas cuando se utiliza una muestra intencional, no aleatoria, convenientemente elegida por el investigador. Denotamos las
unidades de la población finita objeto de estudio por i ∈ {1,...,N} = U ; el tamaño de la
296
ESTADÍSTICA ESPAÑOLA
población se denota por N y una muestra de tamaño n entendida como un subconjunto de n unidades de U se denota por ω . El conjunto de las Combinat(N;n)
muestras posibles se denotará por Ω .
En situación de muestreo intencional no existe la denominada probabilidad P
debida al muestreo, por lo que efectuaremos el análisis del proceso inferencial
suponiendo que existe una relación estocástica ξ , entre la magnitud objetivo:
Y= {Yi ; i = 1,...,N} y la magnitud auxiliar o tamaño: X= {Xi ; i = 1,...,N} cuyos valores
son números positivos conocidos a priori. El cálculo de valores esperados y varianzas de un estimador θ̂ de una magnitud poblacional θ , se realiza para una muestra fijada, de acuerdo con las especificaciones del modelo probabilístico que describe la relación entre X e Y. En consecuencia, al contrario de lo que ocurre en el
contexto de la teoría del muestreo aleatorio, el valor esperado y la varianza de un
estimador serán funciones de la muestra elegida; por esta razón cuando sea necesario precisar este hecho denotaremos un estimador por θˆ (ω) y utilizaremos la
notación simplificada θ̂ cuando por el contexto del discurso no haya lugar a dudas.
Junto con la identificación de las unidades, la información a priori, está formada
exclusivamente por el tamaño de la población, el tamaño de la muestra y los valores de la magnitud tamaño. Puesto que N y n son constantes la información previa
se denotará simplificadamente por el vector X. Por muestreo intencional entendemos la operación que consiste en la aplicación de un regla de decisión D, no
aleatoria, que en función de la información previa, conduce a la elección de una
muestra ω . Por estrategia de muestreo intencional entendemos el par θ̂ ; D
formado por un estimador y una regla de decisión para elegir la muestra.
{ }
Estamos interesados en el uso de estimadores insesgados y en la comparación
de distintas estrategias alternativas para estimar el total Y de la magnitud Y en la
población finita cuando se dispone como información a priori del conocimiento del
vector X. Para ello adoptamos la siguiente definición:
1.1.1.- Definición
{
} {
}
Sean Ŷ1; D1 y Ŷ2 ; D2 dos estrategias para estimación del total Y =
∑ Y , tai
i∈U
les que: cualquiera que sea la muestra ω1 elegida con la regla D1 y la muestra ω2
elegida con la regla D2 , los estimadores
Ŷ1 (ω1) y Ŷ2 (ω2 ) son insesgados, con
varianzas: v(Ŷ1 (ω1)) y v(Ŷ2 (ω2 )) . En estas condiciones:
{
}
Decimos que la estrategia Ŷ1; D1 es mejor, más eficiente o preferible, que la
estrategia Ŷ2 ; D2 y escribimos Ŷ1; D1 f Ŷ2 ; D2 si se cumple:
{
}
{
} {
}
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
297
(a) v(Ŷ1 (ω1)) ≤ v(Ŷ2 (ω2 )) , cualquiera que sea el vector de tamaños X de la población finita.
(b) Existe al menos un X para el que se cumple:
v(Ŷ1 (ω1)) < v(Ŷ2 (ω2 )) .
1.2. Modelos, estimadores insesgados y muestras equilibradas
Un primer modelo ξ desarrollado desde el punto de vista de la teoría de la predicción por Royall (1970), con el antecedente de Brewer (1963), e intensamente
estudiado en años posteriores junto con varios colaboradores en relación con la
eficiencia del estimador de razón, que denotamos como modelo M1, es el siguiente
modelo lineal homogéneo heteroscedástico:
Yi = bXi + εi
[1.1]
con las especificaciones:
E(εi ) = 0 ; V(ε i ) = E(ε i2 ) = K X i ,
i=1,…,N; E(εiεj) = 0,
i≠j
donde b>0 es un parámetro y K>0 una constante.
En estas condiciones el estimador lineal insesgado de mínima varianza (BLU)
del total poblacional Y =
∑ Y , habiendo elegido y observado una muestra ω , es
i
i∈U
el estimador de razón Ŷraz (ω) =
X
y , y su varianza como estimador de Y es:
x
v(Ŷraz (ω)) = V(Ŷraz (ω) − Y) = K
X(X − x)
x
[1.2]
donde x e y denotan totales de la muestra ω y X denota total de la población.
Es conocido que, en general, la aceptación de un modelo estocástico de superpoblación conduce a la existencia de al menos una muestra en la que un determinado estimador insesgado presenta la menor varianza en torno al total Y que se
desea estimar; en consecuencia la estrategia óptima consiste en utilizar dicha
muestra. Madow, W. G. (1978) hace una interesante formalización de este asunto
en su comentario a los artículos de Basu y de Royall y Cumberland. De [1.2] resulta
que bajo el modelo M1 la estrategia óptima, en el sentido de estimación lineal
insesgada de mínima varianza, conduce a elegir una muestra que presente el
mayor valor del total muestral x y aplicar el estimador por razón.
298
ESTADÍSTICA ESPAÑOLA
También es conocido que si la relación entre las magnitudes presenta una ordenada en el origen no nula; esto es, estamos en presencia del modelo no homogéneo, heteroscedástico M2:
Yi = a + bX i + ε i
[1.3]
con las mismas especificaciones estocásticas:
V(εi ) = E(εi2 ) = K X i , i=1,…,N; E(εi ε j ) = 0, i ≠ j
donde a, b>0 son parámetros y K>0 una constante, el estimador por razón es
X−x
sesgado y este sesgo es: B(Ŷraz (ω)) = E(Ŷraz (ω) − Y) = N a (
) . En consecuencia,
x
para anular el sesgo se recomienda el uso de una muestra intencional tal que la
media muestral de los valores X coincida con la media poblacional (muestra equilibrada en media que denotaremos por ω e ); en esta situación el estimador por
razón (que ahora coincide con el estimador de expansión simple Ŷexp =
N
y ) es
n
insesgado, y su varianza es:
v(Ŷraz ( ω e)) = v(Ŷexp (ω e)) = K
X(N − n)
n
[1.4]
Respecto de la falta de robustez del estimador de razón Royall y Herson (1973)
reconocen que si estamos en presencia del modelo M2 ( a ≠ 0 ) y la muestra no está
bien equilibrada el sesgo del estimador de razón puede ser importante. Asimismo
Royall y Eberhardt (1975) recomiendan el uso de muestras equilibradas en la
mayoría de los problemas y sugieren el rechazo de las muestras mal equilibradas.
Royall y Herson (1973) también recomiendan el empleo de muestras equilibradas
por estratos en cuyo caso el estimador de razón separado es más eficiente que
aplicado a la población sin estratificar.
Es conocido, Royall (1988), que si en el modelo lineal no homogéneo ( a ≠ 0 ) la
varianza de los residuos aleatorios es constante, modelo homoscedástico
V(εi ) = K , el predictor lineal insesgado de mínima varianza se obtiene eligiendo una
muestra intencional equilibrada en media y dicho predictor es el estimador de
expansión Ŷexp = N y , pero nosotros estamos interesados en el modelo lineal no
homogéneo heteroscedástico con V(εi) = K Xi como alternativa al modelo heteroscedástico M1.
Por otra parte cumple decir que el uso de muestras equilibradas se ha reconocido como deseable desde hace más tiempo, por ejemplo Yates (1949); y de hecho,
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
299
antes del célebre artículo de Neyman (1934) que supone la aceptación general del
muestreo aleatorio, la muestra intencional equilibrada era el paradigma defendido
por los pioneros del muestreo. En aquellos años, esta opción quedó relegada en la
práctica ante la teoría del muestreo aleatorio elegantemente expuesta por Neyman
y apoyada por su teoría de intervalos de confianza y por la ausencia de una fundamentación teórica sólida, junto con la experiencia de Gini y Galvani (1929) con una
muestra intencional seleccionada del Censo de Población de Italia de 1921, que si
bien produjo buenas estimaciones de algunas variables no resultó igualmente
exitosa para otras.
Los modelos de superpoblación en un principio se emplearon para evaluar la
eficiencia de las estrategias de muestreo aleatorio en poblaciones finitas, ante
distintas poblaciones generadas por un proceso estocástico, por ejemplo Cochran,
W. G. (1946), Madow, W. G. (1953). Posteriormente se han empleado como elemento base del proceso inferencial en las denominadas estrategias de inferencia
asistidas por modelo, siendo el libro de Särndal, Swensson y Wretman (1992) una
referencia ya clásica en esta materia, y en la teoría de la predicción cuya referencia
más importante es el libro de Valliant, Dorfman y Royal (2000). Una buena parte de
los resultados que aquí estudiamos son conocidos en este contexto, pero hacemos
un análisis específicamente dirigido al uso de muestras intencionales con la advertencia previa, por otra parte obvia, de que las conclusiones son válidas bajo las
hipótesis de los modelos que las sustentan.
1.3. Planteamiento y contenido
Estamos interesados en la búsqueda de estrategias mejores que el uso de
muestras equilibradas con el estimador de razón u otras igualmente eficientes,
cuando estamos en presencia del modelo heteroscedástico M2 ( a ≠ 0 ) como
alternativa al modelo M1. Esta búsqueda se justifica por alguno de los siguientes
motivos:
a) Tenemos evidencias procedentes de estudios previos que la relación entre
las magnitudes X e Y responde a un modelo lineal M2 con a ≠ 0 .
b) La relación entre X e Y plausiblemente responde a un modelo M1 con a=0
pero no tenemos evidencias al respecto y deseamos proteger la robustez del
estimador ante la contingencia de que realmente sea a ≠ 0 .
c) Deseamos estimar los totales de varias magnitudes Y1, Y2 ,..., Yk , utilizando la
misma magnitud auxiliar, tales que si bien algunas responden al modelo M1 (a=0),
no podemos razonablemente aceptar la misma hipótesis para las restantes, aceptando como alternativa el modelo M2.
300
ESTADÍSTICA ESPAÑOLA
En la sección §2 se determina el estimador BLU del total Y, denotado por ŶM ,
bajo el modelo M2. En la sección §3 se establecen y comparan varias estrategias
que utilizan estimadores lineales insesgados tanto bajo la hipótesis del modelo M2
como del modelo M1. En la sección §4 se obtienen los estimadores BLU de los
parámetros a, b del modelo M2. La sección §5 se dedica a la estimación de la
constante K del modelo y de la varianza de los estimadores. En la sección §6 se
comprueba que el estimador BLU, ŶM , puede expresarse como predictor BLU y de
esta nueva expresión se obtiene una fórmula alternativa de su varianza en función
de los parámetros K, a, b del modelo. La sección §7 se dedica al estudio de algunos aspectos de la aplicación del muestreo intencional con estratificación de la
población.
2. ESTIMADORES LINEALES DEL TOTAL EN EL MODELO M2
En los siguientes apartados de la presente sección 2 consideramos el proceso
inferencial bajo el modelo estocástico lineal M2, establecido en [1.3]. Notemos que:
(a) Empleamos una muestra fija, intencional, denotada por ω , y los cálculos de
esperanzas y varianzas se refieren a la probabilidad establecida en el modelo
estocástico, usualmente denominada probabilidad ξ para distinguirla de probabilidad P que estaría presente en el caso de muestreo aleatorio.
(b) Estamos interesados en estimadores lineales del Total: Ŷ(ω) =
∑C Y ,
i
i
i∈ω
donde los coeficientes Ci ; i ∈ ω , no dependen de los valores Yi ni de los parámetros
desconocidos, estando totalmente determinados por la muestra ω que vamos a
observar y por los N valores conocidos Xi ; i=1,...,N, de la magnitud auxiliar X .
2.1. Valor esperado y Varianza de una realización particular del proceso
estocástico
El total de la magnitud objetivo en una realización particular del proceso, un
censo según modelo, es una variable aleatoria:
N
Y=
∑
N
Yi = Na + bX +
i=1
∑ε
i
, cuyo valor esperado es:
i=1
E(Y) = Na + bX
y su varianza:
[2.1]
301
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
N
N
∑ ε ) =K∑ X
V(Y) = V(
i
i=1
2.2.
=KX
i
[2.2]
i=1
Valor esperado y Varianza de un estimador lineal
El valor esperado y la varianza de un estimador lineal Ŷ(ω) =
∑ C Y , considei
i
i∈ω
rado como variable aleatoria según las especificaciones del modelo estocástico, son:
∑ C Y ) = a∑ C + b∑ C X
E(Ŷ(ω)) = E(
i
i
i
i∈ω
i
i∈ω
[2.3]
i
i∈ω
∑ C Y ) = ∑ C V(ε ) = K∑ C X
V(Ŷ(ω)) = V(
2
i
i i
i∈ω
2.3.
2
i
i
i∈ω
i
[2.4]
i∈ω
Estimadores insesgados del total
El error puntual de Ŷ como estimador de Y , es Ŷ − Y y su sesgo, teniendo en
cuenta [2.1] y [2.3], es:
∑ C − N) + b(∑ C X − X)
B(Ŷ(ω)) = E(Ŷ(ω) − Y) = a(
i
i
i∈ω
i
[2.5]
i∈ω
y es inmediato ver que el sesgo se anula, cualquiera que sea la muestra elegida y
cualesquiera que sean los valores de los parámetros desconocidos del modelo, si y
solo si se cumplen las condiciones:
(a)
∑C = N ; (b) ∑C X = X
i
i
2.4.
[2.6]
i
i∈ω
i∈ω
Varianza del estimador lineal insesgado como estimador del total
Utilizamos la notación v(Ŷ(ω)) = V(Ŷ(ω) − Y) para la varianza de un estimador
lineal del total actual Y, y reservamos la notación V(Ŷ(ω)) = E(Ŷ(ω) − E(Ŷ(ω)))2 para la
varianza de Ŷ considerado como estadístico. Así tenemos:
∑
v(Ŷ(ω)) = V(Ŷ − Y) = V(
i∈ω
N
CiYi −
∑ Y ) = V(∑(C − 1)Y − ∑ Y ) =
i
i =1
i
i∈ω
i
i
i∉ω
302
ESTADÍSTICA ESPAÑOLA
y teniendo en cuenta la covarianza entre los dos sumandos es nula, por ser
E(εiε j ) − E(εi )E(ε j ) = 0 ; si i ≠ j , resulta:
=
∑ (C − 1) V(Y ) + V(∑ Y ) . Sustituyendo V(Y ) = KX , tenemos:
2
i
i
i
i∈ω
i
i
i∉ω
∑ (C − 1) X + ∑ X ) y teniendo en cuenta que un estimador insesgado cumple
2
K(
i
i
i∈ω
i
i∉ω
[2.6b]:
∑ C X − X)
v(Ŷ(ω)) = V(Ŷ(ω) − Y) = K(
2
i
[2.7]
i
i∈ω
Esta varianza se puede expresar como el producto:
v(Ŷ(ω)) = K H(Ŷ(ω)) ; con: H(Ŷ(ω)) =
∑C X − X
2
i
i
[2.8]
i∈ω
siendo H(Ŷ(ω)) una cantidad que para un estimador y una muestra dados, está
determinada antes de observar las unidades muestrales (no depende de las Yi ni
de los parámetros desconocidos).
Por otra parte conviene notar que teniendo en cuenta [2.4] y [2.7], para un estimador lineal insesgado del total, se cumple:
v(Ŷ(ω)) = V(Ŷ(ω)) − K X
[2.9]
2.5- Estimadores lineales insesgados de mínima varianza (BLU)
Sea θˆ =
∑ α Y , donde los coeficientes α
i
i i
no dependen de las Yi , ni de los pa-
i∈ω
rámetros desconocidos, un estimador lineal de una magnitud o parámetro poblacional θ . Puesto que su valor esperado es: E(θˆ ) = a
αi + b
αiXi , para que sea
∑
i∈ω
insesgado se debe cumplir: θ = a
∑
i∈ω
∑ α + b ∑ α X . Consideremos tres parámetros
i
i∈ω
i
i
i∈ω
en los que estamos interesados:
a) θ = aN + b X ; debe ser:
∑ α =N, y ∑ α X = X .
i
i
i∈ω
i∈ω
i
[2.10a]
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
∑ α = 1, y ∑ α X = 0 .
[2.10b]
∑α = 0 , y ∑α X = 1 .
[2.10c]
b) θ = a ; debe ser:
i
i
i∈ω
c) θ = b ; debe ser:
303
i
i∈ω
i
i
i
i∈ω
i∈ω
que se resumen en la forma general: θ = a L + b M , dando al par (L,M) los valores
(N, X), (1,0) y (0,1) respectivamente.
Teniendo en cuenta que bajo el modelo M2: 1) la varianza del estimador lineal
αi2Xi ; 2) K es una constante y 3) V(Yi ) = K Xi , para determinar los
es: V(θˆ ) = K
∑
i∈ω
coeficientes que definen el estimador BLU de θ , elegida una muestra ω , buscamos la solución que hace mínimo el valor de la función de Lagrange:
φ=
∑ α X + λ(L − ∑ α ) + μ(M − ∑ α X )
2
i
i
i
i∈ω
i
i∈ω
i
[2.11]
i∈ω
en la que el segundo y tercer término expresan las condiciones para que el estimador sea insesgado cualesquiera que sean los valores de los parámetros del modelo. Resolviendo el sistema de ecuaciones que se obtiene al igualar a cero las
derivadas parciales de φ respecto de αi ; λ; μ , la solución es:
(M x (−1) − L n) (L x − Mn)
+
; i∈ ω
Δ
Δ Xi
αi* =
donde: Δ = x x (−1) − n2 ; con la notación: x (−1) =
∑X
1
i∈ω
[2.12]
.
i
2.5.1.- Estimador BLU del total Y para una muestra dada
Haciendo en [2.12]: L=N y M=X , obtenemos el estimador BLU para el total Y.
Denotaremos por ŶM(ω) =
∑C Y
*
i i
este estimador que queda definido por los
i∈ω
coeficientes:
Ci* =
(X x(−1) − Nn) (N x − X n)
+
;
Δ
Δ Xi
que también se pueden escribir como:
i∈ ω
[2.13]
304
ESTADÍSTICA ESPAÑOLA
Ci* =
N X − xa ( x − X)xa
(
+
);
n x − xa (x − xa ) Xi
i∈ ω
[2.14]
donde: xa = n / x(−1) es la media armónica de los tamaños de las unidades de la
muestra.
En resumen: Fijada una muestra ω , bajo el modelo M2, el estimador BLU del
total es: ŶM (ω) =
∑C Y
*
i i
con Ci* ; i ∈ ω dados en [2.13]=[2.14] y de acuerdo con
i∈ω
[2.7] y [2.8], su varianza es:
∑C
v(ŶM(ω)) = K(
*2
i Xi
− X) ∝ H(ŶM(ω))
[2.15]
i∈ω
Si n>1 y no todas las unidades de la muestra tienen el mismo tamaño, la media
aritmética es siempre mayor que la media armónica, en consecuencia Δ >0 y
siempre existe la solución [2.13] =[2.14] cualquiera que sea la muestra elegida. No
obstante puede ocurrir que para alguna muestra, alguno de los coeficientes Ci* sea
negativo. En este caso que se presenta en muestras muy desproporcionadas, por
ejemplo la formada por las n mayores unidades o por las n menores, tal muestra
debe ser rechazada ya que en ella el estimador presenta una varianza extraordinariamente elevada.
La fórmula [2.15] expresa que la varianza del estimador BLU es proporcional a
la cantidad H(ŶM (ω)) que puede ser evaluada a priori para cualquier muestra, dado
X. Esto permite decidir si una muestra es más conveniente que otra.
3. COMPARACIÓN DE ESTRATEGIAS BAJO LOS MODELOS M2 Y M1
3.1. Estrategias particulares objeto de estudio
Se observa inmediatamente en [2.14] que si la muestra es equilibrada en media,
y la denotamos por ω e , tenemos:
Ci* = N / n = X / x; i ∈ ω e
[3.1]
en consecuencia, en este caso: el estimador BLU ŶM (ω e) , coincide con el estimador de razón Ŷraz (ω e) y con el estimador de expansión simple Ŷexp (ω e) . Los tres
son insesgados y su varianza, sustituyendo [3.1] en [2.7], es:
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
v(ŶM (ω e)) = v(Ŷraz (ω e)) = v(Ŷexp (ω e)) = K X(
N−n
)
n
305
[3.2]
También se observa inmediatamente en [2.14] que si la muestra cumple la condición: x a = X , media armónica de los tamaños muestrales igual a la media aritmética de la población, en cuyo caso la denotamos por ω a , tenemos:
Ci* =
X
; i ∈ ωa
nXi
[3.3]
en consecuencia, en este caso: el estimador BLU ŶM(ω a) coincide con el estimador
ŶPX (ω a) =
∑ nX Y , que se forma con coeficientes inversamente proporcionales al
X
i
i
i∈ω
tamaño de las unidades de la muestra. Los dos son insesgados y su varianza,
sustituyendo en [3.3] en [2.7], es:
v(ŶM (ω a)) = v(ŶPX (ω a)) = K X(
En lo sucesivo utilizaremos la notación H0 = X(
N−n
)
n
[3.4]
N−n
) de modo que las variann
zas [3.2] y [3.4] son iguales a K H0 .
3.2.
Conclusiones
Para una determinada población finita, dada una magnitud auxiliar X, denotamos por De la regla que elige una muestra equilibrada en media y por Da la regla
que elige una muestra equilibrada en media armónica. Se cumple:
(a).- Las tres estrategias:
{Ŷ
raz ; De
}, {Ŷ
exp ; De
}, {Ŷ
PX ; Da
} conducen a estimado-
res BLU con la misma varianza [3.2] = [3.4]; además las dos primeras estrategias
son iguales.
{
}{
}
(b).- Las estrategias ŶM ; De , ŶM ; Da conducen a estimadores BLU y con la
misma varianza que las tres del apartado (a); además la primera de ellas es igual a
las dos primeras de (a) y la segunda es igual a la tercera.
3.2.1.- Observación
Cuando la relación entre la magnitud auxiliar y la magnitud objetivo presenta
una ordenada en el origen no nula, además de la estrategia tradicionalmente
recomendada Ŷraz ; De , existe al menos otra estrategia distinta pero igualmente
{
}
306
ESTADÍSTICA ESPAÑOLA
{
}
eficiente que es ŶPX ; Da . La diferencia práctica es que si bien en el primer caso,
en general, es relativamente fácil encontrar muestras que cumplan con buena
aproximación el equilibrio en media aritmética, en el segundo caso pudiera ocurrir
que no existan muestras con la condición xa ≅ X (en particular si el cociente n / N
es próximo a 1). Además, en el uso práctico es más sencillo el estimador de razón
puesto que emplea un único coeficiente (X/x) igual para todas las unidades muestrales.
{
}
Por estas razones en lo que sigue prescindiremos de la estrategia ŶPX ; D a .
También prescindiremos de la estrategia Ŷexp ; De puesto que es igual a la
Ŷraz ; De .
{
3.3.
}
{
}
Estrategia óptima bajo el modelo M2
{
}
Entendemos por estrategia óptima y la denotamos por ŶM ; D * , la formada
por el estimador BLU bajo el modelo M2 , y la regla de decisión D* que consiste en
elegir la muestra ω ∈ Ω , que haga mínimo el valor de H(ŶM(ω)) =
∑C
*2
i Xi
− X , o lo
i∈ω
que es lo mismo mínima la varianza del estimador ŶM(ω) . Denotamos por ω * esta
muestra, o una cualquiera de ellas si existe más de una.
Desconocemos una solución analítica para este problema pero en cada caso
particular, dado el vector de valores de la magnitud auxiliar puede resolverse
investigando cada una de las muestras ω ∈ Ω .
No obstante, la aplicación de un algoritmo para este proceso de búsqueda puede resultar excesivamente onerosa incluso para valores moderados de N y n, por lo
que en el siguiente apartado damos una regla empírica que determina una muestra
que si bien no es la óptima, ofrece una solución útil en la práctica.
3.4.- Estrategia seudo-óptima bajo el modelo M2
Para un tamaño de muestra dado n ≥ 2, sea Ω^ ⊂ Ω el subconjunto de muestras formadas con: n1 = 1,2,...,n − 1 unidades que presenten los n1 menores tamaños y n2 = n − n1 unidades que presenten los n2 mayores tamaños. Las experiencias prácticas que he realizado indican que, como alternativa a la investigación de
todas las muestras posibles, una solución práctica que denomino muestra seudoóptima, se encuentra buscando la muestra que hace mínimo H(ŶM (ω)) en Ω ^ .
Denotaremos por ω^∈ Ω^ esta muestra, o una cualquiera de ellas si existe más
de una, tal que cumple:
H(ŶM(ω^)) = Mín. H(ŶM(ω))
ω∈Ω^
[3.5]
307
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
Se trata de un método basado exclusivamente en experiencias prácticas y aunque pueden encontrase ejemplos en los que esta regla no determina la muestra
óptima, proporciona una solución que debe investigarse antes de adoptar la muestra equilibrada en media.
{
}
Definimos y denotamos por ŶM ; D^ la estrategia seudo-óptima como la formada por el estimador BLU bajo el modelo M2, y la siguiente regla regla D^ para la
elección de la muestra:
D^ : Si H(ŶM(ω^)) < H0 , elegimos la muestra seudo-óptima ω^ ; en caso contrario
elegimos la muestra equilibrada en media ω e .
3.5.
Comparación de estrategias
Teniendo en cuenta el resultado sintetizado en la fórmula [2.8] resulta que para
comparar dos estrategias que utilicen estimadores lineales insesgados, en presencia del modelo M2 podemos prescindir de la constante K. En consecuencia, de
acuerdo con la definición §1.1.1, Ŷ1; D 1 f Ŷ2 ; D 2 si se cumple:
{
} {
}
(a).- H(Ŷ1( ω1)) ≤ H(Ŷ2 ( ω2 )) , cualquiera que sea el vector de tamaños X de la población finita.
(b).- Existe al menos un X para el que se cumple:
H(Ŷ1 ( ω1)) < H(Ŷ2 ( ω2 )) .
Para un X dado, como medida de la eficiencia relativa de la primera respecto de
la segunda, utilizaremos: G = 100 H(Ŷ1 ( ω1)) / H(Ŷ2 ( ω2 ) ) que expresa la desviación
típica del estimador que corresponde a la primera estrategia como porcentaje de la
desviación típica del segundo. Cuanto menor o mayor que 100 sea G, más o menos
preferible será la primera a la segunda.
3.6.
Eficiencia de la estrategia seudo-óptima
{
}
{
}
La estrategia ŶM ; D^ es más más eficiente que la estrategia Ŷraz ; D e .
Veamos: En primer lugar, por la definición de D^ , bajo el modelo M2, teniendo
en cuenta §3.2(b), la estrategia ŶM ; D^ es al menos igualmente eficiente que
{Ŷ
raz ; D e
{
}
} . Es necesario entonces probar la condición §3.5(b); para ello vemos en
el siguiente apartado diversos ejemplos en los que existe X tal que H(ŶM ( ω^)) es
estrictamente menor que H0. Quedará así probado el enunciado.
308
3.6.1.
ESTADÍSTICA ESPAÑOLA
Ejemplos
En todos los casos suponemos que se conoce una magnitud X y se desea estimar el total de una magnitud Y relacionada con X según el modelo M2. En cada
ejemplo: 1) determinamos la muestra seudo-óptima ω^ ; 2) calculamos:
N−n
H0 = X(
) , H(ŶM(ω^)) y el valor de G . En todos los ejemplos G es estrictamenn
te menor que 100, o lo que es lo mismo: H(ŶM(ω^)) < H0 .
Ejemplo 1. Población: N=78, Concejos de Asturias. Magnitud X: Número de
Hectáreas de Superficie Agrícola Utilizada según datos de 1986, cuyo total es
X=215.692. Tamaño de la muestra: n=24. Resultados: H0 =485.307. Muestra
seudo-óptima: n1=6 menores concejos y n2=18 mayores. H(ŶM (ω^)) =210.456 <H0 .
(G=66).
Ejemplo 2. Población: N=52, Provincias de España incluyendo Ceuta y Melilla.
Magnitud X: Plantilla, en Número de personas, de las Direcciones Provinciales del
INS (Instituto Nacional de la Seguridad Social) en 1997, cuyo total es X=12.198.
Tamaño de la muestra: n=18. Resultados: H0 = 23.041. Muestra seudo-óptima: n1=5
menores provincias y n2=13 mayores. H(ŶM (ω^)) =13.593<H0 . (G=77).
Ejemplo 3. Población: N= 129, Principales empresas de carpinteria metálica en
Galicia. Magnitud X: Facturación en miles de euros en el año 2000, cuyo total es
X=178.101. Tamaño de la muestra n=27. Resultados: H0 = 672.826. Muestra seudo-óptima: n1=16 menores empresas y n2=11 mayores. H(ŶM(ω^)) = 404.370<H0 .
(G=78).
Ejemplo 4. Población: N=54, Empresas de conservas de pescado y frutos de
mar en Galicia. Magnitud X: Facturación en miles de euros en 2000, cuyo total es
X=837.577. Tamaño de la muestra: n=18. Resulta: H0 = 1.675.154. Muestra seudoóptima: n1=5 menores y n2=13 mayores. H(ŶM (ω^)) =284.044<H0 . (G=41).
Ejemplo 5. Población: N= 109, Municipios de Granada mayores de 1000 habitantes. Magnitud X: Población en el año 2003, cuyo total es X=793.952. Tamaño de
la muestra n=21. Resultados: H0 = 3.327.037. Muestra seudo-óptima: n1=13 menores municipios y n2=8 mayores. H(ŶM (ω^)) =1.113.692<H0 . (G=58).
Ejemplo 6. Población: N= 304, Condados, tomada del apéndice B.3 del libro de
Valliant, Dorfman y Royal (2000). Magnitud X: Número de hogares en 1960, cuyo
total es X=2.715.075. Tamaño de la muestra: n=36. Resultados: H0 = 20.212.225.
Muestra seudo-óptima: n1=15 menores condados y n2=21 mayores.
H(ŶM (ω^)) =7.575.595<H0 . (G=61).
Ejemplo 7. Población: N= 284, Municipios de Suecia, tomada del apéndice B
del libro de Särndal, Swensson y Wretman (1992). Magnitud X: Número de emplea-
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
309
dos municipales en 1984 (ME84), cuyo total es X=505.256. Tamaño de la muestra
n=33. Resultados: H0 = 3.843.008. Muestra seudo-óptima: n1=18 menores municipios y n2=15 mayores. H(ŶM(ω^)) =1.331.359<H0 . (G=59).
Ejemplo 8. Población: N=45, Cajas de Ahorros Confederadas en España, año
2002. Magnitud X: Número de oficinas cuyo total es X=20.205. Tamaño de la
muestra: n=14. Resulta: H0 = 44.740. Muestra seudo-óptima: n1=3 menores y n2=11
mayores. H(ŶM(ω^)) =15.336<H0 . (G=59).
3.7.
Análisis bajo el Modelo M1
Los siguientes resultados se obtienen inmediatamente teniendo en cuenta que
el modelo M1 es formalmente un caso particular del modelo M2 en que el parámetro a de la recta de regresión no existe.
3.7.1.
Estimadores insesgados bajo el Modelo M1
Teniendo en cuenta que ahora el valor esperado del total que se desea estimar
es: E(Y)1 = b X , donde el subíndice 1 indica que estamos en el modelo M1, la
condición para que un estimador lineal del total: Ŷ =
∑C Y sea insesgado es:
i
i
i∈ω
X=
∑C X , que equivale a la condición [2.6b] del modelo M2. Se comprueba
i
i
i∈ω
inmediatamente que bajo el modelo M1:
El estimador de razón Ŷraz es insesgado cualquiera que sea la muestra elegida.
El estimador de expansión Ŷexp , tiene un sesgo: B(Ŷexp ) = Nb(x − X) , que se
anula si se elige una muestra equilibrada en media.
El estimador ŶPX =
∑ nX Y
X
i
i∈ω
es insesgado cualquiera que sea la muestra elegida.
i
El estimador ŶM es insesgado cualquiera que sea la muestra elegida.
3.7.2.- Varianza de los estimadores insesgados bajo el Modelo M1
Las especificaciones estocásticas del modelo M1 son las mismas que las de
M2, por lo que es aplicable el desarrollo formal efectuado en §2.4. Así tenemos la
misma fórmula general para la varianza de un estimador lineal insesgado:
∑C
v(Ŷ(ω))1 = K1 (
2
i
i∈ω
Xi − X) = K1 H(Ŷ(ω))
[3.1]
310
ESTADÍSTICA ESPAÑOLA
con la advertencia de que el subíndice 1 expresa que la fórmula se refiere al modelo M1 y que, incluso para una misma población, al cambiar la hipótesis acerca del
modelo debemos de cambiar el valor de la constante K. Sin embargo el valor de
H(Ŷ(ω)) para un mismo estimador Ŷ =
∑C X , es el mismo en ambos modelos
i
i
i∉ω
(no depende ni de K ni de a ni de b).
3.7.3.
Conclusiones.
Los cuatro estimadores lineales Ŷraz (ω e) , Ŷexp (ω e) , ŶPX (ω a) y ŶM(ω^ ) son insesgados tanto en el modelo M2 como en el modelo M1. la varianza de los tres
N−n
) y la
primeros estimadores es proporcional a la misma cantidad: H0 = X(
n
varianza de ŶM (ω^) es proporcional a: H(ŶM(ω^)) =
∑C
*2
i
Xi − X .
i∈ω^
Por las razones ya indicadas en la observación §3.2.1, en el siguiente apartado
prescindimos de los estimadores Ŷexp (ω e) y ŶPX (ω a) , centrándonos en la comparación de estrategias que emplean Ŷraz (ω e) o ŶM(ω^) .
3.8. Comparación de las estrategias en ambiente de incertidumbre respecto de
los dos modelos M1 y M2
Denotemos por H1 la hipotésis según la cual en nuestro problema de inferencia
se cumple el modelo M1 y denotemos por H2 la hipótesis según la cual se cumple el
modelo M2. Supongamos que:
(a) Se cumple una de las dos hipótesis H1 o H2 pero no sabemos cúal de ellas.
(b) Ante esta situación de incertidumbre, para evitar el sesgo bajo H2 , del estimador que es óptimo bajo H1 (estimador de razón y uso de la muestra formada por
las n mayores unidades), decidimos utilizar estimadores lineales que sean insesgados bajo ambas hipótesis.
{Ŷ
{
}
En estas condiciones: La estrategia ŶM ; D^ es más eficiente que la estrategia
} con independencia de que se cumpla H o H .
Veamos: En §3.6 hemos visto que bajo H , {Ŷ ; D } es más eficiente que la estrategia {Ŷ ; D } y teniendo en cuenta las conclusiones §3.7.3 , también es más
raz ; D e
1
2
^
2
raz
M
e
eficiente bajo H1 ya que los estimadores y las cantidades H0 y H(Ŷ(ω^)) que se
comparan son las mismas bajo ambas hipótesis (no dependen de K ni de a ni de b).
Todos los ejemplos de §3.6.1 son igualmente válidos si se supone que deseamos
311
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
estimar el total de una magnitud Y relacionada con X de acuerdo con el modelo M1
(en vez de con el modelo M2 como se supuso antes).
4. ESTIMADORES BLU DE LOS PARÁMETROS A Y B DEL MODELO M2
La estimación de los parámetros de la recta de regresión permite la estimación
de la constante K del modelo, que se utilizará para estimar la varianza del estimador BLU del total. Además permite efectuar la predicción del valor de la magnitud
objetivo en las unidades de la población que no están presentes en la muestra; lo
que por ejemplo, permitiría en un censo imputar un valor no observado por falta de
respuesta u otras causas. Otra aplicación es la estimación del modelo cuando se
conocen los datos censales que se realiza como análisis previo con el fin de decidir
si el modelo es útil para el empleo de muestras intencionales en estimaciones
futuras.
4.1.
Estimador BLU de a
Los coeficientes de ponderación que definen el estimador BLU: â =
∑A Y
i i
pa-
i∈ω
ra el parámetro a del modelo, elegida una muestra ω , se obtienen inmediatamente
de [2.12] sustituyendo: L=1;M=0 , de acuerdo con [2.10b]. Resultan ser:
Ai = (
Su varianza: V(â) = K
∑A X
2
i
−n
x
+
); i ∈ ω
Δ Δ Xi
[4.1]
[4.2]
i
i∈ω
4.2.
Estimador BLU de b
Análogamente, los coeficientes de ponderación que definen el estimador BLU:
b̂ =
∑B Y
i i
para el parámetro b del modelo, elegida una muestra ω , se obtienen
i∈ω
sustituyendo: L=0;M=1, de acuerdo con [2.10c]. Resultan ser:
Bi = (
Su varianza: V(b̂) = K
∑B X
2
i
i∈ω
i
x(−1)
n
−
); i∈ ω
Δ
Δ Xi
[4.3]
[4.4]
312
ESTADÍSTICA ESPAÑOLA
4.3.
Covarianza entre â y b̂
Las varianzas de â y b̂ se han dado en [4.2] y [4.4]; un sencillo ejercicio bajo
las hipótesis del modelo M2 permite calcular la covarianza entre estos estadísticos.
Esta es:
Cov(â , b̂) = K
∑A B X
i
i
i
[4.5]
i∈ω
5. ESTIMACIÓN DE K Y DE LA VARIANZA DE LOS ESTIMADORES
5.1.
Estimación de K
Proponemos la siguiente estimación de K :
K̂ =
∑
i∈ω
(Yi − â − b̂Xi )2
(n − 2)Xi
[5.1]
donde â y b̂ son los estimadores BLU de a y b. Su justificación es la siguiente: Si
los parámetros son conocidos, tendríamos
∑
E(
i∈ω
εi2
(Yi − a − bXi )2
) = E(
) = K , y obtenemos [5.1] sustituyendo a y b por sus
nXi
nXi
i∈ω
∑
estimadores BLU, reduciendo en 2 el número de grados de libertad de la forma
cuadrática.
5.2.
Estimación de las varianzas
Las siguientes estimaciones de las varianzas se obtienen inmediatamente sustituyendo la estimación (5.1) de K:
∑C
v̂(ŶM ) = K̂(
*2
i Xi
− X)
[5.2]
i
[5.3]
i∈ω
V̂(â) = K̂
∑A X
2
i
i∈ω
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
V̂(b̂) = K̂
∑B X
2
i
i
313
[5.3]
i∈ω
5.3.
Ejemplos
En los siguientes ejemplos se utiliza el estimador BLU, ŶM , con la muestra seudo-óptima. Los datos corresponden a los mismos ejemplos de §3.6.1 y van igualmente numerados de 1 a 8.
Ejemplo 1. Se estima el Número de cabezas de ganado vacuno, que es
Y=379.137. Resultados:
Estimación del total: ŶM (ω^) = 358.976; Error cometido = -5,3%.
Estimación de parámetros: K̂ =806; â =79,43; b̂ =1,64.
Estimación de la desviación típica en % : DT^( ŶM (ω^) )=3,6%.
Ejemplo 2. Se estima el Número total de pensiones que gestionan las delegaciones provinciales del INSS en 1997, que es Y=7.364.232. Resultados:
Estimación del total: ŶM(ω^) = 7.433.149; Error cometido= 0,9%.
Estimación de los parámetros: K̂ =2.889.671; â =-15.775; b̂ =677.
Estimación de la desviación típica en %: DT^( ŶM(ω^ ) )=2,7%.
Ejemplo 3. Se estima el Valor añadido en 2001, que es Y=61.631 miles de euros.
Resultados:
Estimación del total: ŶM(ω^) = 60.322; Error cometido= -2,1%.
Estimación de los parámetros: K̂ =15,50; â = 33,99; b̂ =0,31.
Estimación de la desviación típica en %: DT^( ŶM(ω^ ) )=4,2%.
Ejemplo 4. Se estima el Valor añadido en 2001, que es Y=147.649 miles de euros.
Resultados:
Estimación del total: ŶM(ω^) = 142.301; Error cometido = -3,6%.
Estimación de los parámetros: K̂ =114,4; â = 161,91; b̂ =0,16.
Estimación de la desviación típica en %: DT^( ŶM(ω^ ) )=4,0%.
Ejemplo 5. Se estima el Total de superficie del comercio minorista, que es
Y=1.667.423 metros cuadrados. Resultados:
314
ESTADÍSTICA ESPAÑOLA
Estimación del total: ŶM(ω^ ) = 1.732.388; Error cometido = 3,9%.
Estimación de los parámetros: K̂ =1.246; â = -1.991; b̂ =2,46.
Estimación de la desviación típica en %: DT^( ŶM(ω^) )=2,8%.
Ejemplo 6. Se estima la Población en 1970, que es Y=11.243.111 habitantes.
Resultados:
Estimación del total: ŶM(ω^ ) = 11.441.222; Error cometido = 1,8%.
Estimación de los parámetros: K̂ =13.291; â = -479; b̂ =4,27.
Estimación de la desviación típica en %: DT^( ŶM(ω^) )=2,8%.
Ejemplo 7. Se estima el total de rentas de los Impuestos municipales, que es
Y=69.605 millones de coronas suecas. Resultados:
Estimación del total: ŶM(ω^ ) = 69.768; Error cometido = 0,2%.
Estimación de los parámetros: K̂ =0,4198; â = -0,7804; b̂ = 0,1385.
Estimación de la desviación típica en %: DT^( ŶM(ω^) )=1,1%.
Ejemplo 8. Se estima el total de cuatro magnitudes poblacionales:
8.1. Número de empleados, que es Y=107.052 . Resultados:
Estimación del total: ŶM(ω^ ) = 104.508; Error cometido = -2,4%.
Estimación de los parámetros: K̂ =623; â =4,69; b̂ = 5,16.
Estimación de la desviación típica en %: DT^( ŶM(ω^ ) )=3,0%.
8.2. Número de cajeros automáticos, que es Y=27.863. Resultados:
Estimación del total: ŶM(ω^ ) = 28.401; Error cometido = 1,9%.
Estimación de los parámetros: K̂ =96,1; â =-19,37; b̂ = 1,45.
Estimación de la desviación típica en %: DT^( ŶM(ω^ ) )=4,3%.
8.3. Número de cuentas de acreedores, que es Y=50.146.361. Resultados:
Estimación del total: ŶM(ω^ ) = 49.246.521; Error cometido = -1,8 %.
Estimación de los parámetros: K̂ =216.735.815; â = 3720; b̂ = 2429.
Estimación de la desviación típica en %: DT^( ŶM(ω^) )=3,7%.
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
315
8.4. Total de activos en millones de euros, que es Y=486.767. Resultados:
Estimación del total: ŶM (ω^) = 498.714; Error cometido = 2,5 %.
Estimación de los parámetros: K̂ =53.159; â = -286,6; b̂ = 25,3.
Estimación de la desviación típica en %: DT^( ŶM(ω^) )=5,7%.
6. PREDICCIÓN Y ESTIMACIÓN BLU DEL TOTAL
La teoría de la predicción lineal en poblaciones finitas parte de la siguiente idea:
Puesto que después de haber observado una muestra conocemos el total muestral
de la magnitud objetivo, la estimación del total poblacional se reduce a predecir el
total de la parte de la población no observada. Se dice entonces que un predictor
lineal insesgado del total se forma como suma del total observado en las unidades
muestrales y un predictor lineal insesgado del total no observado.
A continuación vemos que el estimador BLU, ŶM del total poblacional Y, que
hemos determinado en §2.5.1 bajo el modelo M2, se puede expresar como predictor BLU de Y.
6.1.- Expresión alternativa del estimador BLU como predictor
Dada una muestra, podemos construir un predictor insesgado según modelo, de
la magnitud objetivo para cada unidad de la población; éste es: ŶMi (ω) = â + b̂Xi .
Veamos en primer lugar que:
6.1 (a). El estimador BLU del total se puede escribir como suma de los predictores individuales de los N valores de la población:
∑
N
Ci* Yi =
i∈ω
∑ Ŷ
Mi
[6.1]
i =1
6.1 (b). El total observado en la muestra es igual a la suma de los predictores de
las unidades muestrales.
∑ Y = ∑ Ŷ
i
i∈ω
Mi
[6.2]
i∈ω
El segundo miembro de [6.1] es igual a N â + X b̂ , sustituyendo ahora [4.1] y
[4.3] en â y b̂ respectivamente, es igual a:
316
ESTADÍSTICA ESPAÑOLA
(
X x(−1) − Nn
Nx −nX
Yi
)y +(
)
Δ
Δ
X
i
i∈ω
∑
que coincide con el primer miembro:
∑ C Y , sustituyendo en éste los coeficientes C
*
i i
*
i
del estimador BLU determinados
i∈ω
en [2.13]. Análogamente para probar 6.1(b) , sustituyendo â y b̂ en el segundo
miembro de [6.2], se obtiene: n â + x b̂ = y =
∑Y .
i
i∈ω
En consecuencia, utilizando [6.1] y [6.2] podemos escribir el estimador BLU en
la forma de predictor BLU del total poblacional Y:
ŶM =
∑C Y =∑ Y + ∑ Ŷ = ∑ Y +(N − n)â + (X − x)b̂
*
i i
i∈ω
6.2.
i
i∈ω
Mi
i∉ω
[6.3]
i
i∈ω
Expresión alternativa de la varianza del estimador BLU
La varianza de ŶM , considerado como estimador, o predictor, del total poblacional Y, teniendo en cuenta los resultados anteriores, es:
v(Ŷ) = V(Ŷ − Y) = V((N − n)â + (X − x)b̂ −
∑Y) =
i
i∉ω
{
}
K (N − n)2 V(â) + (X − x)2 V(b̂) + 2(N − n)(X − x)Cov(â, b̂) + (X − x)
Otra forma más simple de expresar esta varianza es la siguiente. Teniendo en
cuenta que la varianza de ŶM , considerado como estadístico, es:
V(ŶM) = K(N2V( â) + X2 V( b̂) + 2 N X Cov(â, b̂)) y la relación [2.9], válida para cualquier
estimador lineal insesgado del total, resulta:
v(ŶM ) = K(N2 V( â) + X 2 V( b̂) + 2 N X Cov(â, b̂) − X)
[6.4]
7. ESTRATIFICACIÓN
Sea L el número de estratos en que se ha particionado la población finita, cada
∑N . Denotemos el
, siendo n = ∑ n . Si denota-
uno denotado por h=1,...,L, y sean Nh sus tamaños, con N =
h
h
tamaño de la nuestra fijado en cada estrato por nh
h
h
317
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
mos por ωh la muestra elegida en el h-ésimo estrato, la muestra conjunta será
ω = ∪ ωh . Si la muestra del estrato h es equilibrada se denota por ωh e ; si es
h
seudo-óptima se denota por ω^h .
El estimador del total poblacional Y =
∑Y
h
, que resulta de aplicar el estimador
h
BLU del total de cada estrato por separado lo denotamos por ŶM.str =
∑ Ŷ
. Si
M.h
h
en la población se cumple el modelo M2 para la relación entre la magnitud objetivo
y la magnitud auxiliar, ŶM.str es insesgado con varianza:
v(ŶM.str (ω)) =
∑ v(Ŷ
M.h (ωh ))
h
=K
∑H(Ŷ
[7.1]
− Xh
[7.2]
M.h (ωh ))
h
siendo, de acuerdo con [2.8]:
H(ŶM.h (ωh )) =
∑C
*2
ih Xih
i∈ωh
y Ci*h los coeficientes del estimador BLU en el h-ésimo estrato de acuerdo con la
fórmula [2.13]=[2.14] aplicada por separado a cada estrato. Si la población cumple
el modelo M1 , la fórmula [7.1] se convierte en:
v(ŶM.str (ω)) =
∑ v(Ŷ
M.h (ωh ))
h
= K1
∑H(Ŷ
M.h (ωh ))
[7.3]
h
que solo se diferencia de [7.1] en el valor de la constante K, que ahora denotamos
por K1
7.1.
Comparación de estrategias con estratificación
Formalmente la estratificación es una partición de la población finita en L clases
disjuntas realizada a priori (antes de proceder a la selección de la muestra). Suponemos que en general el investigador establece el número de estratos y el reparto
de las unidades de la población a cada uno de ellos teniendo en cuenta el conocimiento del vector de valores de la magnitud auxiliar. Sean entonces Ŷ1; D1 str y
{Ŷ ;D }
2
2 str
{
}
dos estrategias con estratificación de la población finita para estimación
del total Y =
∑ Y , tales que: cualquiera que sea la muestra estratificada
i
ω1
i∈U
elegida con la regla D1 y la muestra estratificada ω2 elegida con la regla D2, los
318
ESTADÍSTICA ESPAÑOLA
estimadores estratificados Ŷ1 (ω1)str y Ŷ2 (ω2 )str son insesgados, con varianzas:
{
{Ŷ ;D }
}
v(Ŷ1 (ω1)str ) y v(Ŷ2 (ω2 ) str ) . Decimos entonces que la estrategia Ŷ1; D1 str es mejor,
más
eficiente
o
{Ŷ ;D } f {Ŷ ;D }
1
1 str
2
preferible,
2 str
que
la
estrategia
2
2 str
y
escribimos
si se cumple:
(a). v(Ŷ1 (ω1)str ) ≤ v(Ŷ2 (ω2 )str ) , cualquiera que sea el vector de tamaños X de la
población finita y la estratificación establecida en la población finita.
(b). Existe al menos un X y una estratificación para los que se cumple:
v(Ŷ1 (ω1)str ) < v(Ŷ2 (ω2 )str ) .
7.2.
Estimador de razón y muestras equilibradas por estratos
Para remediar la pérdida de robustez del estimador de razón si en el modelo es
a ≠ 0 (modelo M2), Royall y Herson (1973) también recomiendan la partición de la
población finita en estratos, elegiendo una muestra equilibrada en cada uno de los
estratos, con afijación óptima del tamaño muestral. En estas condiciones, denotando por ω e.str una muestra equilibrada en media en cada estrato, el estimador
separado de razón:
L
Ŷraz.str (ω e.str) =
∑ Ŷ
L
raz.h
h =1
=
∑x
Xh
h =1
L
yh =
h
∑n
Nh
yh
h
h =1
es insesgado. Su varianza es:
v(Ŷraz.str (ω e.str)) = K
∑
h
siendo H0.h =
Xh (Nh − nh )
=K
nh
∑H
0.h
[7.3]
h
Xh (Nh − nh )
, h=1,...,L .
nh
La afijación óptima, que hace mínima esta varianza para un tamaño total de
muestra dado igual a n, es:
nh =
∑
h
Nh Xh
(NhXh )
n
[7.4]
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
319
de modo que, sustituyendo [7.4] en [7.3], los citados autores obtienen para la
varianza del estimador estratificado de razón con muestras equilibradas en cada
estrato y afijación óptima, la fórmula:
⎧⎪ 1
v(Ŷraz.str.opt (ω e.str)) = K ⎨ (
⎪⎩ n
∑
h
⎫⎪
NhXh )2 − X ⎬
⎪⎭
[7.5]
y demuestran que es menor que la varianza del estimador de razón aplicado a una
muestra del mismo tamaño, equilibrada en media en el conjunto de la población sin
estratificar; abreviadamente:
v(Ŷraz.str.opt ( ω e.str)) < v(Ŷraz (ω e))
[7.6]
Denotando ahora por De. str la regla que elige una muestra equilibrada en cada
estrato, como resumen del apartado §7.1 , para el estimador de razón se cumple:
{Ŷ
raz. str.opt. ;
} {
D e. str. f Ŷraz ; D e
}
[7.7]
7.2.1. Comparación con la estrategia seudo-óptima estratificada
Nos proponemos ahora la comparación de la estrategia de razón estratificada
con afijación óptima: Ŷraz. str.opt. ; De. str. con la estrategia ŶM.str ; D^str seudo-óptima
{
}
{
}
estratificada en la que la regla de elección de la muestra D^str se define como:
D^str : En cada estrato, si H(ŶM.h(ω^h)) <H0.h se elige la muestra seudo-óptima
ω^h , y en caso contrario se elige la muestra equilibrada en media ω he .
Tanto en presencia del modelo M2 o del M1 se cumple:
Utilizando el criterio de comparación de estrategias §7.1 , se cumple la siguiente
relación de preferencia entre las dos estrategias:
{Ŷ
^
M.str ; Dstr
}f {Ŷ
raz. str.opt ; De. str
}
[7.8]
Veamos: Por definición de D^str cualquiera que sea X y la clasificación de las
unidades de la población en estratos, teniendo en cuenta que los estimadores de
cada estrato: ŶM.h e Ŷraz.h son iguales cuando se utiliza la muestra equilibrada, la
primera estrategia de [7.8] es al menos igualmente eficiente que la segunda; por
otra parte, los ocho ejemplos que vemos a continuación en §7.2.2 prueban que
320
ESTADÍSTICA ESPAÑOLA
existen casos de magnitud auxiliar X y estratificación en que la varianza del estimador utilizado por la primera estrategia es estrictamente menor que la del estimador
utilizado por la segunda.
7.2.2. Ejemplos
En las ocho poblaciones consideradas en los ejemplos anteriores establecemos
una estratificación, función de X, como es lo habitual en la práctica, y tomamos
como afijación de la muestra la que es óptima para el estimador de razón.
Los estratos se han formado ordenando las unidades de cada población de menor a mayor tamaño (valor de la magnitud auxiliar) de forma que en el estrato h=1
se incluyen las N1 primeras unidades, en el estrato h=2 , las N2 siguientes y así
sucesivamente hasta el estrato h=L en el que se incluyen las NL mayores unidades.
Fijado el número de estratos, el reparto de las unidades de la población los estratos
se ha hecho de modo que sea NhXh = cte.; h = 1,...,L (con la aproximación posible);
de esta forma la afijación óptima [7.4] para el estimador de razón estratificado es
igual en todos los estratos: nh = n / L ; h = 1,...,L . En los ocho ejemplos que vamos a
ver se han formado tres estratos, L=3 , excepto en los ejemplos nº 4 y nº 8 que se
han formado dos estratos, L=2.
En todos los ejemplos se cumple:
v(ŶM (ω^)) < v(ŶM. str. (ω^ str)) < v(Ŷraz.str.opt. (ω e.str)) < v(Ŷraz (ω e ))
[7.9]
teniendo en cuenta que la relación entre las dos últimas varianzas de [7.9] se
cumple siempre por lo dicho en §7.2. Notemos que en los ocho ejemplos que
analizamos, en todos los estratos la regla D^str elige siempre la muestra seudoóptima. Como indicador de la ganancia en precisión calculamos para cada uno de
los tres primeros estimadores de [7.9] el porcentaje (G) que supone su desviación
típica respecto de la del estimador de razón con muestra equilibrada no estratificada (G4=100):
G1 = 100 v(Ŷ1) / v(Ŷ4 ) = 100 H(Ŷ1) / H(Ŷ4 )
G2 = 100 v(Ŷ2 ) / v(Ŷ4 ) = 100 H(Ŷ2 ) / H(Ŷ4 )
G3 = 100 v(Ŷ3 ) / v(Ŷ4 ) = 100 H(Ŷ3 ) / H(Ŷ4 )
denotando simplificadamente los estimadores por:
321
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
Ŷ1 = ŶM (ω^); Ŷ2 = ŶM. str. (ω^ str); Ŷ3 = Ŷraz.str.opt. (ω e.str); Ŷ4 = Ŷraz (ω e )
El siguiente Cuadro 1 muestra la estratificación efectuada con los datos de los
ejemplos considerados en §3.6.1. y en §5.3.
Cuadro 1
Ejemplo
1
2
3
4
5
6
7
8
N
N1
78
52
129
54
109
304
284
45
N2
40
24
63
43
63
165
150
31
N3
24
18
44
11
33
90
90
14
n
nh
14
10
22
--13
49
44
---
24
18
27
18
21
36
33
14
y el Cuadro 2 presenta los valores de G para los tres estimadores que se comparan. En todos los ejemplos se cumple G1<G2<G3<G4=100.
La verificación de las relaciones G2 < G3 , completa la prueba de [7.8].
Cuadro 2
Ejemplo
1
2
3
4
5
6
7
8
G1
G2
G3
66
77
78
41
58
61
59
59
81
87
86
49
73
82
77
71
88
92
90
72
79
88
85
88
8
6
9
9
7
12
11
7
322
7.3.
ESTADÍSTICA ESPAÑOLA
Comparación de las estrategias seudo-óptimas estratificada y no estratificada
Hemos visto en §7.2 que en el caso del estimador de razón con muestras equilibradas, siempre es mejor el empleo del estimador estratificado con afijación óptima,
que sin estratificación. Sin embargo cuando empleamos el estimador ŶM con
muestra seudo-óptima, no necesariamente la estratificación es una opción más
eficiente. Esta afirmación queda probada por los ocho ejemplos de §7.2.2. En todos
ellos tenemos G1 < G2 . Más concretamente: No podemos afirmar que la estrategia
ŶM ; D^ sea mejor que la estrategia ŶM.str ; D^str sino que para un X y una estrati-
{
}
{
}
ficación dados, existen casos en que el estimador no estratificado con muestra
seudo-óptima ŶM(ω^) es más eficiente que el estimador estratificado ŶM.str (ω^ str)
con muestras seudo-óptimas en cada estrato y que podemos comprobar este
hecho a priori y por tanto adoptar la opción más conveniente.
7.4.
Un modelo lineal para cada estrato
Si para una estratificación dada, admitimos un modelo de tipo M2 distinto para
cada estrato, con parámetros ah ; bh ; Kh , que denotamos por M2h , el estimador
ŶM.str =
∑ Ŷ
M.h
también es insesgado con varianza:
h
v(ŶM.str (ω)) =
∑K H(Ŷ
M.h (ωh ))
h
[7.10]
h
Análogamente, la varianza del estimador insesgado de razón con estratificación
y muestra equilibrada en cada estrato,es ahora:
v(Ŷraz.str (ω e.str)) =
∑K H
h 0.h
[7.11]
h
de modo que no es posible efectuar la comparación con estrategias no estratificadas si suponemos que los valores de Kh son desconocidos. Estamos en una
situación análoga si admitimos un modelo M1h , esto es: un modelo de tipo M1
distinto para cada estrato, con parámetros bh ; Kh , en cuyo caso las varianzas son:
v(ŶM.str (ω))1 =
∑K
h
1.hH(ŶM.h (ωh ))
[7.12]
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
v(Ŷraz.str (ω e.str))1 =
∑K
1.hH0.h
323
[7.13]
h
indicando con el subíndice 1 que se refieren a un modelo M1h .
Veamos algunas conclusiones:
7.4.1 (a) No es posible determinar la afijación óptima para el estimador de razón
estratificado ya que ahora en vez de [7.4] será:
nh =
∑
KhNh Xh
(KhNhXh )
n
, o bien
nh =
h
∑
K1.hNh Xh
n
(K1.hNhXh )
h
respectivamente en el modelo M2h o en el modelo M1h , siendo dependientes de
los valores desconocidos Kh o K1.h .
7.4.1 (b).- Sin embargo en presencia de un modelo M2h, o de un modelo M1h ,
para una estratificación y afijación de la muestra dadas, la estrategia seudo-óptima estratificada es mejor que la estrategia que utiliza el estimador
de razón con muestra estratificada equilibrada en cada estrato:
{Ŷ
^
M.str ; Dstr
}f {Ŷ
raz. str. ; De. str
}
Veamos esto: De la definición de la regla D^str se deduce que la primera es al
menos igualmente eficiente que la segunda ya que si en un estrato, cualquiera que
sea, tomamos ωh = ωh e los estimadores del total del estrato: ŶM(ωh e ) y Ŷraz (ωh e )
son iguales y por tanto tienen la misma varianza; por otra parte, para ver que existe
al menos un caso es que es más eficiente, teniendo en cuenta en el modelo M2h
las fórmulas [7.10] y [7.11], o [7.12] y [7.13] en el M1h, hay que comprobar que se
cumple al menos en uno de los estratos la desigualdad estricta:
H(ŶM.h (ω^h)) = HM.h < H0.h
[7.14]
de modo que en dicho estrato v(ŶM.h (ω^h )) < v(Ŷraz.str (ωhe )) . Esta segunda condición
se comprueba con los mismos ocho ejemplos de §7.2.2 utilizando la misma estratificación y los mismos tamaños de muestra. Notemos que en todos los ocho ejemplos se cumple [7.14] no sólo en un estrato, lo que sería suficiente, sino en todos
los estratos. El resultado de los cálculos de HM.h y H0.h se presenta en el siguiente
324
ESTADÍSTICA ESPAÑOLA
Cuadro 3:
Ejemplo
1
2
3
4
5
6
7
8
Estrato-1
Estrato-2
Estrato-3
H-Mh
125.934
123.630
72.567
H-0h
164.952
126.504
83.402
H-Mh
6.709
7.757
2.963
H-0h
7.869
7.902
3.749
H-Mh
200.585
194.727
107.035
H-0h
205.578
205.294
131.514
H-Mh
310.276
92.124
---
H-0h
717.287
143.935
---
H-Mh
845.107
708.132
206.708
H-0h
897.680
760.169
408.927
H-Mh
4.760.177
4.977.673
3.694.051
H-0h
6.041.970
5.211.336
4.438.307
H-Mh
839.829
894.841
530.804
H-0h
962.158
944.373
892.857
H-Mh
12.623
9.782
---
H-0h
20.091
14.345
---
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
325
ANEXO DE DATOS.
Los datos de los ejemplos nº 1, 2 y 8 se presentan a continuación. De los restantes se dan las referencias.
Ejemplo 3. Empresas de Trabajos de Carpintería metálica en Galicia, con Facturación (X) en 2000 mayor de 400 miles de euros. Magnitud Y: Valor añadido en
2001; ambas redondeadas a miles de euros. Fuente: Directorio de Empresas 2003.
Consorcio Zona Franca de Vigo.
Ejemplo 4. Empresas de Conservas de pescado y Frutos de mar en Galicia.
Magnitud X: Facturación en 2000. Magnitud Y: Valor añadido en 2001; ambas
redondeadas a miles de euros. Fuente: Directorio de Empresas 2003. Consorcio
Zona Franca de Vigo.
Ejemplo 5. Municipios de Granada mayores de 1000 habitantes. Magnitud X:
Población en 2003. Magnitud Y: Superficie de las actividades comerciales minoristas, en metros cuadrados. Fuente: Anuario Económico de España 2004. La Caixa.
Ejemplo 6. Datos tomados del libro de Valliant, Dorfman y Royal. (Apéndice B).
Condados de Carolina del Norte, Carolina del Sur y Georgia con menos de 100.000
hogares en 1960. Magnitud X: Nº de hogares en 1960. Magnitud Y: Población en
1970.
Ejemplo 7. Datos tomados del libro de Särndal, Swensson y Wretman. (Apéndice B). Municipios de Suecia. Magnitud X: Nº de empleados municipales en 1984
(ME84). Magnitud Y: Rentas de los Impuestos municipales en 1985 (RMT85) en
millones de coronas.
326
ESTADÍSTICA ESPAÑOLA
EJEMPLO 1. PRINCIPADO DE ASTURIAS 1986
Concejo
X
Y
Concejo
X
Y
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
182
244
261
265
266
311
355
386
439
444
644
655
701
712
733
821
907
298
378
438
574
591
619
889
465
861
605
2.831
1.010
1.228
1.340
1.411
1.474
1.458
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
1.940
1.968
1.999
2.004
2.048
2.048
2.130
2.152
2.180
2.333
2.348
2.421
2.426
2.458
2.588
2.648
2.649
5.331
4.697
2.975
4.386
3.192
3.279
3.928
3.860
4.805
3.485
4.472
7.613
6.542
5.490
3.996
8.050
4.229
18
19
20
21
22
23
24
25
924
948
991
1.093
1.192
1.292
1.333
1.336
1.295
1.910
1.503
1.502
1.580
1.445
1.638
2.814
57
58
59
60
61
62
63
64
2.659
2.948
2.974
3.425
3.428
3.464
3.640
4.314
5.023
4.576
5.759
7.587
5.524
4.983
6.714
8.832
26
27
28
29
30
31
1.367
1.372
1.375
1.397
1.403
1.414
1.987
2.581
3.236
1.720
2.517
2.590
65
66
67
68
69
70
4.388
4.490
5.210
5.510
6.292
6.504
7.811
8.831
4.909
6.435
11.935
13.938
32
33
34
35
36
37
38
39
1.544
1.571
1.580
1.624
1.718
1.763
1.824
1.911
1.948
2.469
2.582
1.999
3.155
3.389
4.296
3.566
71
72
73
74
75
76
77
78
6.568
6.837
7.631
7.809
8.527
10.808
14.876
15.752
9.729
13.605
10.858
12.977
20.055
18.227
16.146
26.161
X: SAU (Superficie Agrícola Utilizada en Hectáreas)
Y: Nº de cabezas de ganado vacuno
Datos publicados por el Gobierno del Principado de Asturias
327
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
EJEMPLO 2. DELEGACIONES PROVINCIALES DEL INSS. 1997
Provincia
X
Y
Provincia
X
Y
1
25
6.515
27
176
117.288
2
3
4
5
6
7
8
9
10
11
12
28
67
76
79
80
83
90
97
100
110
115
6.996
23.162
28.733
42.677
38.690
38.485
31.368
46.617
39.808
54.004
81.470
28
29
30
31
32
33
34
35
36
37
38
177
184
185
194
201
215
215
226
241
248
250
121.361
123.342
98.615
107.835
91.627
118.077
137.109
143.240
119.473
174.254
141.944
13
14
15
16
17
18
19
20
21
22
118
126
127
134
134
135
137
142
150
151
48.007
85.494
70.491
55.865
59.792
81.621
88.369
75.825
81.394
85.258
39
40
41
42
43
44
45
46
47
48
251
263
281
293
312
326
326
336
387
447
147.504
146.869
183.772
139.150
226.625
172.022
188.500
232.899
225.345
264.546
23
24
25
26
152
167
175
176
76.822
109.170
96.183
104.048
49
50
51
52
463
614
1.199
1.214
279.277
383.029
754.556
969.109
X: Plantilla (nº de personas)
Y: Nº de pensiones que gestionan
Datos a 31/12/1997. INS, Informe Estadístico 1997
328
ESTADÍSTICA ESPAÑOLA
EJEMPLO 8. CAJAS DE AHORROS. DATOS A 31.12.2002
(Continúa)
Caja
X
Y1
Y2
Y3
Y4
1
15
2
31
17
67
46.501
198
22
152
61.930
389
3
4
37
43
235
73.137
547
61
60
243
72.429
726
5
6
85
94
418
161.042
1.172
97
113
522
167.073
2.465
7
110
88
435
155.752
1.802
8
112
78
647
213.148
2.451
9
114
189
682
356.844
4.504
10
138
167
681
282.246
2.412
11
142
413
948
710.806
3.439
12
149
217
886
506.218
3.998
13
166
136
604
297.412
2.571
14
175
221
797
373.391
2.989
15
183
424
1.109
589.159
4.724
16
187
211
792
341.008
2.329
17
192
418
1.840
857.071
9.880
18
202
327
1.278
714.357
5.271
19
212
288
1.232
516.320
5.303
20
214
249
1.160
401.406
4.231
21
215
306
1.397
993.858
6.508
22
217
243
855
398.349
3.406
23
234
316
1.325
561.607
7.526
X: Nº de oficinas
Y1: Nº de cajeros automáticos
Y2: Nº de empleados
Y3: Nº de cuentas de acreedores
Y4: Activos (redondeados en millones de euros)
Anuario Estadístico de las Cajas de Ahorros. 2002
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
EJEMPLO 8. CAJAS DE AHORROS. DATOS A 31.12.2002
(Conclusión)
Caja
X
Y1
Y2
Y3
Y4
24
236
196
1.063
630.010
3.868
25
244
316
1.250
416.663
4.583
26
281
318
1.283
455.550
3.626
27
325
735
2.579
1.241.737
14.502
28
350
422
1.683
1.027.806
7.249
29
359
507
2.373
805.789
7.869
30
377
430
2.119
772.066
6.115
31
400
336
2.330
1.159.535
10.356
32
433
482
2.101
844.796
6.492
33
436
474
2.277
1.320.853
8.340
34
448
365
2.399
902.605
8.104
35
536
591
2.128
1.320.149
7.718
36
539
559
2.751
1.035.355
12.691
37
561
666
2.447
950.061
10.775
38
699
840
3.456
1.764.884
24.638
39
764
921
4.292
1.977.118
14.614
40
788
1.169
4.652
2.570.652
23.555
41
810
1.453
5.356
2.687.047
22.183
42
943
801
4.310
2.026.697
16.404
43
961
1.243
4.982
2.478.887
28.243
44
1.874
3.619
11.792
5.347.568
70.156
45
4.553
6.780
21.124
9.559.469
95.845
X: Nº de oficinas
Y1: Nº de cajeros automáticos
Y2: Nº de empleados
Y3: Nº de cuentas de acreedores
Y4: Activos (redondeados en millones de euros)
Anuario Estadístico de las Cajas de Ahorros. 2002
329
330
ESTADÍSTICA ESPAÑOLA
REFERENCIAS
BREWER K. R. W. (1963). «Ratio estimation and finite populations: Some results
deducible from the assumption of an underlyng stochastic process». Aust. J.
Statist. 5. 93-105.
CHAMBERS, R. (2003). «An Introduction to Model-based Survey Sampling». Instituto
vasco de Estadística.
COCHRAN, W. G. (1946). «Relative accuracy of systematic and stratified samples for
a certain class of populations». Ann. Math. Statist. 17. 164-177.
GINI, C. Y GALVANI, L. (1929). «Di una applicazione del metodo rappresentativo
all´ultimo censimento Italiano della popolazione (1º diciembre 1921)». Annali di
Statistica, Serie 6, v. 4. 1-107.
MADOW, W. G. (1953). «On the Theory of Systematic Sampling, III. Comparison of Centered and Random Start Systematic Sampling». Ann. Math. Statist. 24, 101- 106.
MDOW, W. G. (1978). «Comments on papers by Base and Royal and Cumberland».
Survey Sampling and Measurement. Academic Press. Pages. 315- 322.
NEWMAN, J. (1934). «On the two different aspects of the representative method: The
method of stratified sampling and the method of purposive selection». Jour.
Roy. Stat. Soc.,97.Págs. 558-606.
ROYAL, R. M. (1970). «On finite population sampling theory under certain linear
regression models». Biometrica 57, no. 2, 377-387.
ROYAL, R. M. Y HERSON, J. (1973a). «Robust estimation in finite populations I». J.
Amer. Statist. Assoc. 68, Pages. 880-889.
ROYAL, R. M. Y BERNHARD, K. R. (1975). «Variance estimates for the ratio estimator».
Sanilla, ser. C37, PTT. 1, 43-52.
RYAL, R. M. Y CUMBERLAND, W. G. (1978). «An empirical study of prediction theory in
finite population sampling: simple random sampling and the ratio estimator».
Survey Sampling and Measurement. Edited by N. Krishnan Namboidiri. Academic Press. 1978.
ROYAL, R. M. (1988). «The prediction approach to sampling theory». Handbook of
Statistics, vol. 6 . Págs. 399-413.
SÄRNDAL, SWENSSON Y WETMAN (1992). «Model Assisted Survey Sampling». Springer.
VALLIANT, DORFMAN Y ROYAL (2000). «Finite Population Sampling and Inference. A
Prediction Approach». Wiley.
YATES, F. (1949). «Sampling Methods for Census and Surveys». New York: Hafner.
INFERENCIA ESTADÍSTICA SOBRE POBLACIONES FINITAS CON MUESTRAS INTENCIONALES
STATISTICAL INFERENCE ON FINITE POPULATIONS WITH PURPOSIVE SAMPLES
ABSTRACT
In the context of purposive sampling, with previous knowledge of
an auxiliary magnitude X in the stochastic model Yi = a + bXi + εi ;
b>0; E(εi ) = 0 , V(εi ) = KXi , ∀ i ; E(ε i ε j ) = 0 , ∀ i ≠ j , we look for more efficient strategies than these which is made for the ratio estimator with a
balanced sample in mean, in both case: a=0 (M1 model) ; a ≠ 0 (M2
model).
Key words: purposive sampling, superpopulation models.
Clasification AMS: 62D05.
331
Descargar