Simulación de Monte Carlo para comparar estimadores de

Anuncio
Simulación de Monte Carlo para
comparar estimadores de regresión en la
estimación de totales y razones*
JAIRO A. FÚQUENE P.
**
Resumen. Se presenta el concepto de estimador de regresión para la estimación
de un total poblacional bajo el diseño M.A.S. y los modelos heterocedástico sin intercepto y homocedástico con intercepto dados por Särndal, Swensson & Wretman
(1992). Además, se muestra un estimador de razón construido en este trabajo con
dos estimadores de regresión por medio del método de linealización de Taylor. Finalmente, mediante simulación de Monte Carlo, se comparan las propiedades del
estimador propuesto por Horvitz-Thompson, cinco estimadores de regresión para
la estimación de un total y el estimador de razón.
Palabras clave: estimadores de regresión, simulación de Monte Carlo, diseño
M.A.S, método de linealización de Taylor.
1.
Introducción
En la actualidad en la teorı́a de muestreo, los estudios se centran en
la idea de utilizar información auxiliar conocida a nivel poblacional para
disminuir la varianza de las estimaciones obtenidas a partir de muestras
probabilı́sticas. Esta información puede ser aprovechada tanto en la fase
de diseño, en la asignación de las probabilidades de inclusión y/o selección
de los elementos de la población; como en la fase de la estimación, en la
construcción de estimadores. En cualquier caso el objetivo es minimizar el
error de la estimación del parámetro en estudio, utilizando la información
que en lo posible debe estar altamente correlacionada con la variable en estudio.
*
Trabajo presentado en el área de Estadı́stica.
Estudiante de la maestrı́a en Matemáticas. Departamento de Matemáticas. Recinto
de Rı́o Piedras. Universidad de Puerto Rico. E-mail: jairo.a.fuquene@uprrp.edu
**
1
2
JAIRO A. FÚQUENE P.
Por otra parte, existen diseños muestrales con y sin reemplazamiento como el diseño con probabilidad de selección proporcional al tamaño (P.P.T)
y el diseño con probabilidad de inclusión proporcional al tamaño (π-P.T),
que representan alternativas de uso de la información auxiliar en la fase del
diseño. De otro lado los estimadores de regresión mostrados en Särndal et al.
(1992) ofrecen como posibilidad utilizar dicha información auxiliar en la fase
de estimación.
Por lo anterior es de interés estudiar las propiedades de los estimadores
de regresión, de manera teórica y mediante simulación, para la estimación de
totales y razones bajo el diseño de muestreo aleatorio simple (M.A.S)1 . En la
segunda sección se muestran los estimadores de regresión para la estimación
de un total bajo dos diferentes modelos. En la sección tres se encuentra el estimador de una razón construido por medio de dos estimadores de regresión
mediante linealización de Taylor. En la sección cuatro, se muestra el procedimiento de una simulación de Monte Carlo para comparar las propiedades
de los estimadores estudiados. En la quinta sección se muestran los resultados de la simulación mencionada y en la sexta y última sección se dan las
conclusiones de este trabajo.
2.
Estimador de regresión para la estimación de
un total
Para un universo conocido de antemano y conformado por N elementos,
notado por U = {1, 2, ..., N }, sea y la caracterı́stica en estudio y por ende yk
su valor en el k-ésimo elemento. El objetivo muestral es estimar mediante
una muestra de tamaño m el total desconocido:
X
ty =
yk
(2.1)
U
Cuando se observa la variable de interés y para la muestra y un vector
de J-variables auxiliares para la población de estudio que para el k-ésimo
1
La principal razón de hacer un diseño M.A.S. se debe a que es un diseño sencillo que
no utiliza información auxiliar.
3
ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES
elemento se denota por:
0
xk = (x1k , ..., xJk )
(2.2)
En el análisis de regresión es natural utilizar estimadores para los coeficientes de regresión denotados como B̂1 , B̂2 , ..., B̂J . En general el estimador
de regresión para la estimación de un total, t̂yr , es formalmete definido:
t̂yr = t̂yπ +
J
X
B̂j (txj − t̂xjπ )
(2.3)
j=1
donde
t̂yπ =
X yk
πk
m
(2.4)
en donde πk es la probabilidad de inclusión de primer orden del elemento k
en la muestra, t̂yπ es el estimador de Horvitz-Thompson para (2.1) y
X xjπ
t̂xjπ =
(2.5)
πk
m
es el π-estimador del total desconocido para la variable xj :
X
txj =
xj
(2.6)
U
y B̂1 , B̂2 , ..., B̂J son componentes del J - vector
X xk x0
X xk yk
k −1
)
B̂ = (B̂1 , B̂2 , ..., B̂J ) = (
σk2 πk
σk2 πk
m
m
0
(2.7)
la estimación en (2.7) es motivada por un modelo ξ que considera una completa enumeración de la población (censo) donde se observa yk y xk para
todo k U . En este caso el estimador de mı́nimos cuadrados de:
0
β = (β1 , ..., βJ )
(2.8)
sobre el modelo ξ puede darse por:
X xk x0
X xk y 0
0
k −1
k −1
B = (B1 , B2 , ..., BJ ) = (
)
(
)
σk2
σk2
U
U
(2.9)
4
JAIRO A. FÚQUENE P.
En notación más familiar frente al análisis de regresión:
0
B = (XΣ−1 X )−1 XΣ−1 Y
(2.10)
Se tienen los siguientes comentarios del papel del modelo ξ en un estimador
de regresión para la estimación de un total:
1.
No se requiere que el modelo ξ sea cierto en el sentido de que describa
de manera correcta algún proceso real.
2.
Las conclusiones sobre los parámetros de la población de estudio son
independientes de los supuestos del modelo.
3.
Sı́ los datos poblacionales pueden ser descritos por el modelo ξ, el
estimador de regresión tiene por lo general una menor varianza en
comparación al π - estimador. Es decir, la eficiencia del estimador de
regresión en comparación con el π - estimador depende de la calidad
del ajuste.
4.
Por las razones anteriores se dice que el estimador de regresión es
asistido por el modelo ξ pero no depende del modelo ξ.
Para comparar los estimadores estudiados se sigue el trabajo realizado en
Särndal et al. (1992) y Fúquene (2003) y por tanto se consideran los modelos:
1.
Heterocedástico sin intercepto (J = 1)
(
Eξ1 (yk ) = β1 xk
ξ1 =
Vξ1 (yk ) = σ 2 xk
(2.11)
En este caso se asumen (x1 , ..., xN > 0)
2.
Homocedástico con intercepto (J = 2)
(
Eξ2 (yk ) = β1 + β2 xk
ξ2 =
Vξ2 (yk ) = σ 2
(2.12)
5
ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES
Para el modelo ξ1 se tiene que el estimador del total es:
t̂yrc =
X
U
P yk
S
π
xk P xkk
S
πk
(2.13)
Para el modelo ξ2 se tiene que el estimador del total es:
t̂yr = N [ỹs + B̂2 (x̄U − x̃s )]
(2.14)
P
Donde N es el total poblacional y N x̄U = U xk el total de las dos variables
x (La primera variable x es constante e igual a la unidad). donde
P
m
x̃m =
3.
N̂
xk
πk
P
m
; ỹm =
N̂
yk
πk
; N̂ =
X 1
πk
m
(2.15)
Estimación de una razón de totales
En muchos estudios de tipo muestral el interés se centra en la estimación
de la razón de totales, ejemplo tı́pico es la cifra de Desempleo; que se obtiene
como el cociente de los que “buscan”empleo sobre el tamaño de la población
económicamente activa en la región. También es el caso de los resultados
arrojados por las encuestas electorales, pues se trata de la razón entre quienes
apoyan a un determinado candidato sobre la cantidad de quienes votarán en
el comicio electoral. Estudios sobre la estimación de razones con variables
categóricas se muestran en Fúquene (2005a), Fúquene (2005b) y Fúquene
(2005). Por otra parte, la estimación de cuantiles mediante estimadores de
regresión se da en Rao, Kovar & Mantel. (1990) y los resultados teóricos
a nivel general de estimadores de regresión en la estimación de razones se
encuentran en Fúquene (2003). El objetivo de este trabajo es mostrar un
estudio teórico y de simulación para los estimadores de regresión en el caso particular de un diseño M.A.S y, además, la aplicabilidad del estimador
de razón en la estimación de la tasa de favoritismo por un candidato en la
elección presidencial en Colombia en el 2002.
6
JAIRO A. FÚQUENE P.
En esta sección se muestra la aplicabilidad de dos estimadores de regresión bajo el modelo (2.11) en la estimación de una razón. Sean y y z las
variables de interés que definen el parámetro:
R=
ty
tz
(3.1)
y dos variables auxiliares x y w para y y z respectivamente. La estimación
de la razón mediante dos estimadores Horvitz-Thompson se puede realizar,
ası́:
t̂yπ
R̂ =
(3.2)
t̂zπ
La aproximación de la varianza de (3.2) se hace mediante linealización de
Taylor y la variable ûk conocida para la muestra es útil en la estimación de
la varianza y se obtiene mediante:
ûk =
1
t̂zπ
(yk − R̂zk )
(3.3)
que para el caso particular de un diseño M.A.S. dicha estimación de varianza
tiene la siguiente expresión:
V̂M AS (R̂) =
N2 m 2
1−
Sum
m
N
(3.4)
donde
2
Sum
=
3.1.
1 X
¯k )
(ûk − û
m−1 m
(3.5)
Estimador de una razón cuando se utilizan estimadores
de regresión
Los estimadores propuestos para estimar la razón para el denominador
y el numerador son respectivamente:
t̂yrc = tx
t̂yπ
t̂xπ
;
t̂zrc = tw
t̂zπ
t̂wπ
(3.6)
7
ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES
El estimador R̂ es una función no lineal de π-estimadores t̂yπ , t̂wπ , t̂zπ y t̂xπ .
R̂ =
tx t̂yπ t̂wπ
t̂yrc
=
= f (t̂yπ , t̂wπ , t̂zπ , t̂xπ )
t̂zrc
tw t̂zπ t̂xπ
(3.7)
Para AV (R̂) se utiliza la aproximación lineal de Taylor, para aproximar la
varianza se establecen las derivadas y se evaluan en t̂yπ = ty
t̂wπ = tw , t̂zπ = tz y t̂xπ = tx , de la siguiente manera:
a1 =
∂ R̂
1
= ;
tz
∂ t̂yπ
a4 =
ty
∂ R̂
=
tw tz
∂ t̂wπ
a2 =
ty
∂ R̂
= − 2;
tz
∂ t̂zπ
a3 =
ty
∂ R̂
=−
;
t z tx
∂ t̂xπ
En este caso se tiene que:
uk =
4
X
aj yjk = a1 yk + a2 zk + a3 xk + a4 wk
(3.8)
j=1
De esta manera la variable (3.8) queda definida como:
ty
1
tz
uk =
yk − xk
− R zk − wk
tz
tx
tw
(3.9)
En particular para el diseño M.A.S. la aproximación de la varianza es:
AVM AS (R̂) =
donde
2
SuU
=
N2 m 2
1−
SuU
m
N
1 X
¯k )
(ûk − û
m−1
(3.10)
(3.11)
U
4.
Estudio de simulación
Para obtener la distribución exacta de un estimador dado se deben considerar todas las muestras S posibles de un diseño muestral fijo. Sin embargo
8
JAIRO A. FÚQUENE P.
en la práctica el número total de posibles muestras puede ser muy grande;
por esta razón se realiza una simulación de Monte Carlo expuesta en Martı́n,
Rı́os. & Rı́os. (2000) que se usa frecuentemente cuando es difı́cil de obtener
la distribución muestral de un estimador dado. Por tanto se toman 5000
muestras de diferente tamaño de una población y se calcula lo siguiente:
1.
t̂ =
5000
1 X
t̂j
5000
(4.1)
j=1
con t̂j la estimación del total para la j-ésima muestra. Que es una
estimación de E[t̂].
2.
P5000
St̂2
j=1
=
¯2
(t̂j − t̂)
5000 − 1
(4.2)
que es una estimación de la varianza V (t̂)
3.
V̂ =
5000
1 X
V̂ (t̂)J
5000
(4.3)
j=1
que es una estimación del valor esperado de la varianza del estimador
E[V̂ (t̂)].
4.
Para cada muestra se calcula el intervalo de confianza de aproximadamente el 95 %
1
t̂ ± 1,96[V̂ (t̂)] 2
(4.4)
y se cuenta el número de intervalos M que contienen al verdadero valor
del total t, es decir, M/5000 es una estimación del nivel de confianza.
Para el caso de la estimación de la razón se calculan:
1.
ˆ
R̄
M AS =
5000
1 X
R̂j
5000
j=1
(4.5)
9
ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES
con R̂j la estimación de la razón para la j-ésima muestra de tamaño
ˆ es una estimación de E[R̂].
m y R̄
2.
P5000
2
SR̂
M AS
=
j=1
¯
(R̂j − R̂P P T )2
5000 − 1
(4.6)
que es una estimación de la aproximación de la varianza de la razón,
AVM AS (R̂).
Para comparar los estimadores estudiados para la estimación de un total se
pretende estimar el total de ingresos tributarios en Suecia2 en el año 1985
con un diseño M.A.S. y se proponen los siguientes estimadores:
1.
El π-estimador t̂yπ .
2.
El estimador de regresión t̂yrc basado en un modelo univariado, heterocedástico sin intercepto con variable auxiliar x1 la cantidad de concejales conservadores en el municipio.
3.
El estimador de regresión t̂yrc igual al anterior pero con variable x2 la
cantidad de concejales socialistas en el municipio.
4.
El estimador de regresión t̂yr basado en un modelo homocedástico con
intercepto y variable auxiliar x1 .
5.
El estimador de regresión t̂yr igual al anterior pero con variable x2 .
2
Los datos son tomados de Särndal et al. (1992). Por razones administrativas Suecia en
1985 se encontraba dividida en 284 municipios. Los municipios variaban considerablemente
en tamaño y otras caracterı́sticas. Sin embargo, la variable de estudio (ingresos tributarios
por municipio) tan sólo tiene cinco datos extremos y por tanto la población de estudio
resulta ser homogénea y adecuada para utilizar un diseño M.A.S.
10
JAIRO A. FÚQUENE P.
6.
El estimador de regresión t̂yreg basado en un modelo con dos regresores
(x1 , x2 ) homocedástico con intercepto:
(
Eξ3 (yk ) = β1 + β2 x1k + β3 x2k
ξ3 =
Vξ3 (yk ) = σ 2
(4.7)
Para comparar los estimadores para la estimación de una razón la solución práctica, aplicada en general y en particular en este trabajo es utilizar
datos completos de perı́odos anteriores, como si ellos constituyeran los datos
desconocidos del dı́a de hoy. Para realizar estimaciones referentes al 2002 en
Colombia se toman los datos de la elección presidencial de 1998. Se estima
mediante dicha información la razón de personas que apoyaron al candidato
Serpa3 en el 2002 con los siguientes estimadores:
1.
El estimador de razón R̂ con un π-estimador t̂yπ en el numerador para
la variable y (personas que apoyaron al candidato serpa por municipio
en el 2002) y como denominador un π-estimador t̂zπ para la variable
z (personas que participaron en la votación por municipio en el 2002).
2.
Un estimador de razón con un estimador de regresión en el numerador
y denominador respectivamente bajo el modelo heterocedástico sin
intercepto. La variable de interés para el numerador es y y la variable
auxiliar es x1 (personas que apoyaron al candidato serpa por municipio
en 1998) y, para el denominador se tiene como variable de interés a z
y como auxiliar a x2 (personas que participaron por municipio en la
votación en 1998).
3
Debido a que la información censal de Colombia contiene datos por sector, sección y
manzana se deben realizar ajustes en RNEC (1998) y RNEC (2002) para llevar la información a nivel municipal. La base final de datos contiene información de 1081 municipios.
Un dato importante que sugiere un patron de comportamiento electoral, es que el 78.6 %
de los municipios en los que Serpa perdió en 1998 fue también perdedor de forma contundente en el 2002, es decir que existe una alta relación entre los datos 1998 y 2002 lo que
indica que la información auxiliar es útil.
ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES
4.1.
11
Estimadores mı́nimo cuadraticos poblacionales.
Como se dispone de todos los valores para las variables x1 , x2 , y y z se
puede entonces establecer los estimadores mı́nimo cuadráticos poblacionales
de los modelos de regresión. Para los casos dos y tres (recordando que el
diseño muestral es M.A.S.) se tiene que:
P
yk
B1 = P U
(4.8)
x
U k
Para los casos cuatro y cinco:
P
B1 = ȳU − B1 x̄U ; B2 =
− x̄U )(yk − ȳU )
2
U (xk − x̄U )
U (x
Pk
Para el caso seis se debe trabajar con matrices:

 "
#−1 "
#
B1
X
X
0
xk xk
xk yk
B =  B2  =
U
U
B3
(4.9)
(4.10)
donde:
"
#
X
U
4.2.
0
xk xk


P
P
U x2k
PU x1k
P
PN

=  PU x1k P U x21k
U x1k x2k
P
2
U x2k
U x1k x2k
U x2k

"
#  P y
X
P U k
xk yk =  PU yk x1k 
U
U yk x2k
(4.11)
(4.12)
Residuales poblacionales
Los residuales correspondientes para los casos dos y tres son:
Ek = yk − ŷk = yk − B1 xk
(4.13)
para los casos cuatro y cinco se tiene:
Ek = yk − ŷk = yk − (ȳU − B2 x̄U ) − B2 xk
(4.14)
12
JAIRO A. FÚQUENE P.
Para el caso seis se calculan los residuales poblacionales mediante:
Ek = yk − ŷk = yk − B1 − B2 x1k − B3 x2k
(4.15)
Para el caso siete (la estimación de razón) la variable uk de la aproximación
de la varianza se puede definir como:
uk =
1
[Eyk − REzk ]
tz
(4.16)
en donde los residuales Eyk y Ezk están dados por:
Eyk = yk − By1 x1k ; Ezk = zk − Bz1 x2k
(4.17)
Para determinar la calidad del ajuste de regresión se utilizan los
residuales poblacionales Ek , mediante la siguiente expresión:
2
R =1−
2
Ek2
SEU
=
1
−
2
2
(N − 1)SyU
SyU
P
U
(4.18)
Finalmente y para cada caso se puede establecer la aproximación de la
varianza mediante la formula:
AVM AS =
N2 n 2
1−
SEU
n
N
(4.19)
2
para el caso de la razón SEU
es la varianza de la variable uk . En la siguiente
tabla se muestran los resultados poblacionales:
La tabla 1. muestra los resultados del análisis de regresión basado sobre
todos los 281 datos. En dicha tabla se puede observar que, excepto para el
caso 3 en el que el porcentaje es del 30 %, cada variable x1 y x2 explican
aproximadamente el 40 % de la variación de la variable y. De otro lado,
ambas variables explican un 74.7 % de la variación en y. Resulta natural
suponer que puede resultar más eficiente el estimador que usa como información auxiliar las dos variables en comparación del que únicamente tiene
en cuenta una variable auxiliar.
ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES
13
Tabla 1: Estimadores mı́nimo cuadraticos, calidad del ajuste y varianza
aproximada de los casos estudiados en la estimación de un total. Valores
de B1 , B2 y B3 multiplicados por mil. Cálculo de AV para m=100.
Caso
Estimador
B1
B2
B3
R2
AV
1
t̂yπ
.
.
.
.
0,204
2
t̂yrc (x1 )
.
2,12
.
3
t̂yrc (x2 )
.
.
4
t̂yr (x1 )
-6,44
2,84
5
t̂yr (x2 )
-21,30
.
6
4.3.
40.4 0,121
0,86 30,5 0,142
.
43,2 0,116
1,82 42,3 0,117
t̂yreg (x1 , x2 ) -38,32 2,48 1,59 74,7 0,052
Estimaciones muestrales
A continuación se muestran las estimaciones muestrales del total, la
razón y la varianza para cada uno de los casos estudiados. Para el primer
caso el estimador para el total es el siguiente:
NX
yk
n m
t̂yπ =
(4.20)
Y la estimación de la varianza de (4.20) está definida por:
V̂M AS (t̂yπ ) =
N2 n 2
1−
Sym
n
N
(4.21)
Para los casos dos y tres el estimador del total bajo el diseno M.A.S está dado
por:
X P yk
t̂yrc =
xk P m
(4.22)
m xk
U
14
JAIRO A. FÚQUENE P.
En donde la estimación de la varianza de (4.22) es:
n 2
N2 1−
Sem
n
N
(4.23)
P
yk
P
= yk − B̂1 xk ; B̂1 = m
x
m k
(4.24)
V̂M AS (t̂yrc ) =
Donde
ekm
Para los casos cuatro y cinco el estimador de regresión para el total es:
t̂yr = N [ỹm + B̂2 (x̄U − x̃m )]
(4.25)
La varianza estimada de (4.25) se calcula como:
V̂M AS (t̂yr ) =
n 2
N2 1−
Sem
n
N
(4.26)
Donde
P
ekm = yk − ŷm − B̂2 (xk − x̄m ); B̂2 =
− x̄m )(yk − ȳm )
2
m (xk − x̄m )
m (x
Pk
(4.27)
Para el caso seis es necesario trabajar con matrices y se obtiene que el
estimador de regresión para el total es el siguiente:
t̂yreg = N [ȳm + B̂2 (x̄1U − x̄1m ) + B̂3 (x̄2U − x̄2m )]
(4.28)
La estimación de la varianza para (4.28) se obtiene mediante:
V̂M AS (t̂reg ) =
N2 n 2
1−
Sem
n
N
(4.29)
Donde

ekm

B̂0
= yk − (1, x1k , x2k )  B̂1 
B̂2
(4.30)
Y
 
−1  P

P
P
B̂O
m x2k
m yk
Pn
Pm x1k
P
P
2

 B̂1  = 
 
m x1k x2k
Pm x1k P m x1k
P
Pm yk x1k
2
B̂2
m x2k
m x1k x2k
m x2k
m yk x2k

15
ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES
El caso siete, el estimador de una razón con π-estimadores, se mostró en
la sección anterior. Para el caso ocho, la estimación de una razón con estimadores de regresión, se tiene que el estimador bajo el diseno M.A.S. es:
P
P
tx ( m yk )( s wk )
t̂yr
P
P
R̂ =
=
(4.31)
tw ( m xk )( s zk )
t̂zr
y la estimación de la varianza de (4.31) se calcula como:
V̂M AS (R̂) =
Donde
1
[eyk − R̂ezk ]
t̂zπ
y ezk están dados por:
ûk =
en donde los residuales eyk
N2 n 2
1−
Sum
n
N
eyk = yk − B̂y1 x1k ; ezk = zk − B̂z1 x2k
(4.32)
(4.33)
(4.34)
y
B̂y =
5.
t̂yπ
;
t̂xπ
B̂y =
t̂zπ
t̂wπ
(4.35)
Resultados
Para la tabla 2 se tienen los siguientes comentarios:
1.
Los seis estimadores tienen un sesgo relativo siempre menor a 0.1, aún
para un tamaño de muestra de m = 36.
2.
La varianza del estimador t̂yreg con dos regresores es casi la cuarta
parte de la varianza del π - estimador, con cualquier tamaño de muestra.
3.
La varianza del estimador t̂yreg con dos regresores es la mitad de la
varianza del estimador que considera sólo una variable auxiliar.
16
4.
JAIRO A. FÚQUENE P.
El quinto estimador es un 15 % más eficiente que el tercero al considerar un modelo con intercepto.
5. S 2 (t̂y ) y V̂M AS son aproximadamente iguales. Es importante mencionar que S 2 (t̂y ) estima la verdadera varianza con un grado de precisión de 5000 repeticiones y, por ende, la aproximación de la varianza
AVM AS subestimó la varianza en un 15 % con m = 36, en un 4 % cuando m = 100 y se acerco bastante con m = 140.
6.
La subestimación que hace el c.v.e. del verdadero C.V. es muy baja,
aún para tamaños modestos de muestra (m = 36).
7.
La tasa empirica de cobertura, T C, es cercana a la tasa nominal del
95 %, esta cercanı́a aumenta con el tamaño de muestra.
8.
No hay diferencia de resultados si se realizan cinco mil o diez mil iteraciones.
9.
Los resultados son estables a la realización de varias aplicaciones, cada
una con 5000 replicas.
De la tabla 3 se puede observar:
1.
Cada una de las dos estimaciones es muy cercana al verdadero valor
de la razón poblacional que es 0.365. En los dos casos se tiene un sesgo
del estimador que se puede considerar despreciable.
2. S 2 y AVM AS son cercanas ésto indica que AVM AS representa con precisión para un tamaño de muestra pequeño la verdadera varianza.
3.
La varianza del estimador que considera un modelo heterocedástico
sin intercepto es la mitad de la varianza de la estimación de la razón
con π estimadores. Es decir, al considerar dos estimadores de regresión
para la razón se obtiene una eficiencia relativa del 50 %.
17
ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES
Tabla 2: Resultados de una simulación de 5000 muestras M.A.S. de m = 36,
m = 100 y m = 140, el total poblacional es ty = 5,315.
m
Caso
Estimador
t̂y
S 2 (t̂y )
¯
V̂
36
1
t̂yπ
5,30
0,784
0,759
0,766
16,4
16,7
90,4
36
2
t̂yrc (x1 )
5,30
0,462
0,441
0,456
12,5
12,8
90,3
36
3
t̂yrc (x2 )
5,28
0,539
0,519
0,533
13,6
13,9
90,4
36
4
t̂yr (x1 )
5,28
0,463
0,404
0,435
12,0
12,9
89,0
36
5
t̂yr (x2 )
5,24
0,473
0,415
0,442
12,3
13,1
89,3
36
6
t̂yreg (x1 , x2 )
5,28
0,228
0,173
0,194
7,9
9,0
87,3
100
1
t̂yπ
5,31
0,205
0,203
0,204
8,5
8,5
93,4
100
2
t̂yrc (x1 )
5,31
0,122
0,120
0,121
6,5
6,6
93,1
100
3
t̂yrc (x2 )
5,31
0,141
0,141
0,142
7,1
7,1
93,7
100
4
t̂yr (x1 )
5,31
0,119
0,113
0,116
6,3
6,5
93,0
100
5
t̂yr (x2 )
5,30
0,121
0,116
0,117
6,4
6,6
93,2
100
6
t̂yreg (x1 , x2 )
5,30
0,054
0,050
0,052
4,2
4,4
92,1
140
1
t̂yπ
5,33
0,117
0,114
0,113
6,3
6,4
93,9
140
2
t̂yrc (x1 )
5,32
0,069
0,068
0,067
4,9
4,9
94,2
140
3
t̂yrc (x2 )
5,32
0,081
0,079
0,079
5,3
5,4
93,9
140
4
t̂yr (x1 ) 5,32 0,067
0,064
0,064
4,8
4,9
93,6
140
5
t̂yr (x2 )
5,31
0,068
0,065
0,065
4,8
4,9
93,6
140
6
t̂yreg (x1 , x2 )
5,32
0,030
0,029
0,029
3,2
3,3
93,2
AVM AS ( %)cves ( %)CV
Tabla 3: Resultados de una simulación de 5000 muestras M.A.S. de m = 100
y la razón poblacional es R = 0, 365
Estimador Estimación
S2
AVM AS
R̂π
0,36
0,047
0,046
R̂regξ1
0,37
0,024
0,025
TC
18
6.
JAIRO A. FÚQUENE P.
Conclusiones
Como producto de los ejercicios desarrollados en este trabajo para la
estimación de un total y una razón mediante estimadores de regresión se
puede concluir:
1.
El estimador de regresión para la estimación de un total tiene un sesgo relativo menor a 0.1, su eficiencia aumenta con la calidad del ajuste.
2.
La aproximación de la varianza que se obtiene mediante linealización
de Taylor para la estimación del total o de la razón es aproximadamente igual al verdadero valor de la varianza.
3.
El uso de los estimadores de regresión es recomendable sólo en los
casos en los que el sesgo relativo es inferior a 0.1, pues son estimadores
aproximadamente insesgados de los parámetros poblacionales.
Bibliografı́a
Fúquene, J. (2003), La varianza del estimador de una razón cuando en el
numerador y en el denominador se utilizan r-estimadores, in ‘Simposio
Nacional de Estadı́stica’, Universidad Nacional de Colombia.
Fúquene, J. (2005a), Información auxiliar categórica en diseños muestrales
de elementos para la estimación de una razón de totales de variables
dicotomicas., in ‘II Congreso Binacional de Estadı́stica’, Universidad
de los Andes, Mérida (Venezuela).
Fúquene, J. (2005b), ‘Metodologı́a para la estimación de dico-razones con
el uso de información auxiliar en tablas de contingencia 3x3’, Revista
Colombiana de Estadı́stica 28, 141–154.
Fúquene, J. (2005), Estratificación sesgo y eficiencia en la estimación de una
proporción aplicando un diseño estratificado de muestreo, in ‘Tercer
Coloquio Regional de Estadı́stica’, Universidad Nacional de Colombia,
Medellı́n.
ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES
19
Martı́n, J., Rı́os., D. & Rı́os., S. (2000), Simulación, Métodos y
Aplicaciones, Ra-Ma, Madrid.
Rao, J. N. K., Kovar, J. G. & Mantel., H. J. (1990), ‘On estimating distribution functions and quantiles from survey data using auxiliary information’, Biometrika 77.
RNEC (1998), Elecciones presidenciales de 1998 en Colombia, Registradurı́a
Nacional del Estado Civil, Bogotá.
RNEC (2002), Elecciones presidenciales de 2002 en Colombia, Registradurı́a
Nacional del Estado Civil, Bogotá.
Särndal, C.-E., Swensson, B. & Wretman, J. (1992), Model Assisted Survey
Sampling, Springer Verlag, New York.
Descargar