Estimadores de áreas pequeñas basados en modelos para la

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 51, núm. 170, 2009, págs. 133 a 172
Estimadores de áreas pequeñas
basados en modelos para la
Encuesta de Población Activa(*)
por
M. HERRADOR
Instituto Nacional de Estadística. Madrid, España
D. MORALES, M.D. ESTEBAN, A. SÁNCHEZ, L. SANTAMARÍA,
Y. MARHUENDA, A.PÉREZ
Centro de Investigación Operativa. Universidad Miguel Hernández de Elche. Elche, España
e
I. MOLINA
Departamento de Estadística. Universidad Carlos III de Madrid. Getafe, España
RESUMEN
Para algunas características del mercado laboral, como el total de
ocupados o parados y la tasa de paro, se introducen estimadores de
áreas pequeñas basados en modelos y adaptados al diseño muestral
de la Encuesta de Población Activa en las Islas Canarias. Se estiman
los errores cuadráticos medios aplicando fórmulas explícitas e implementando métodos Jackknife y bootstrap que respetan las propiedades del diseño. Finalmente, se comparan tanto los procedimientos de
estimación en áreas pequeñas como los métodos para aproximar los
errores cuadráticos medios.
(*) El trabajo ha sido financiado por el Instituto Nacional de Estadística y por el proyecto
MTM2006-05693.
134
ESTADÍSTICA ESPAÑOLA
Palabras clave: Encuesta de Población Activa, estimación en áreas
pequeñas, modelos de área, modelos mixtos, Jackknife, bootstrap,
total de ocupados, total de parados, tasa de paro.
Clasificación AMS: 62E30, 62J12.
1. INTRODUCCIÓN
El Instituto Nacional de Estadística (INE) realiza la Encuesta de Población Activa
(EPA) para estudiar la actividad económica y laboral de la población. En particular,
interesa evaluar el número de personas ocupadas, paradas e inactivas y analizar
las características de estos grupos. La EPA es un encuesta de panel rotante sobre
aproximadamente 65,000 viviendas por cuatrimestre. Esto supuso entrevistar a casi
200,000 personas en el año 2003.
Actualmente existe una demanda creciente de información socioeconómica para
áreas geográficas pequeñas. Sin embargo, la EPA está diseñada para proporcionar
estimaciones fiables de totales y tasas en los niveles de agregación nacional,
regional y provincial; pero no en niveles más desagregados (áreas pequeñas). En
general, las estimaciones directas de características de áreas pequeñas no son
suficientemente precisas debido a la falta de datos de la encuesta. Usando información extraída de otras áreas, los estimadores indirectos pueden proporcionar
mayor precisión sin aumentar los tamaños muestrales (véase la metodología
publicada por Instituto Canario de Estadística - ISTAC). Entre estos estimadores se
encuentran los estimadores basados en modelos; es decir, estimadores que se
construyen aplicando modelos estadísticos que enlazan una variable de interés con
otras variables auxiliares.
En este trabajo se adaptan dos procedimientos basados en modelos al caso de
la estimación en áreas pequeñas de diversas características de la población activa.
El primer método utiliza estimadores basados en el modelo multinomial mixto
propuesto en Molina y otros (2007). El segundo enfoque emplea estimadores
EBLUP basados en los modelos lineales mixtos introducidos en Fay y Herriot
(1979). Esto se hace aplicando modelos de área que usan estimadores directos
como variables de respuesta. De ese modo se incorpora al modelo información del
diseño muestral. Para ilustrar el proceso se utilizan datos de la EPA de las dos
provincias de la comunidad autónoma de Canarias. Teniendo en cuenta el diseño
muestral, se obtienen estimadores de los errores cuadráticos medios utilizando
fórmulas explícitas y aplicando la metodología Jackknife y bootstrap.
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….135
El artículo está organizado de la siguiente forma. En la Sección 2 se describe la
metodología de la EPA y los estimadores directos de los totales de parados y
ocupados. En la Sección 3 se introducen las variables auxiliares y los diferentes
modelos considerados para la estimación. En la Sección 4 se proponen dos métodos de remuestreo, Jackknife y bootstrap, para estimar las varianzas muestrales.
En la Sección 5 se comparan los resultados obtenidos por los diferentes estimadores y se dan algunas conclusiones. Finalmente, en el Apéndice se incluyen las
estimaciones de los totales de parados y ocupados, las tasas de paro y los coeficientes de variación de estas estimaciones.
2. LA ENCUESTA DE POBLACIÓN ACTIVA
El principal objetivo de este trabajo es estimar el total de parados y ocupados y
las tasas de paro de comarcas (territorios sub-provinciales de carácter no necesariamente oficial) cruzadas con la variable sexo. En concreto, se han utilizado los
datos de la EPA del segundo trimestre de 2003 de las provincias de la comunidad
autónoma de Canarias. En esta sección se describe la metodología de la EPA de
2003 (esta metodología se modificó en el 2005 debido a varias razones, entre la
que se encuentra la de considerar a las comarcas en la distribución geográfica de la
muestra), el cálculo de los estimadores directos de los totales y medias y la aproximación de los errores muestrales. Estos estimadores directos se utilizan como
respuesta en los modelos que se presentan en las secciones 3.2 y 3.3.
La EPA es una encuesta trimestral que utiliza un muestreo aleatorio estratificado
bietápico para extraer muestras de cada provincia española. Las unidades muestrales primarias (UMPs) son las secciones censales, que son áreas geográficas con
un máximo de 500 viviendas o aproximadamente 3,000 personas. Las UMPs se
agrupan en estratos según el tamaño del municipio al que pertenecen y cuya
clasificación se presenta en la Tabla 1. En el segundo trimestre de 2003 se extrajo
una muestra estratificada de cada provincia de las Islas Canarias con un total de
144 UMPs seleccionadas sin reemplazamiento y con probabilidades proporcionales
al número de viviendas. Las unidades muestrales secundarias (UMSs) son las
viviendas, y en la segunda etapa del muestreo se extrajeron 18 viviendas de cada
UMP seleccionada utilizando un muestreo sistemático con arranque aleatorio. En
cada vivienda se entrevistan a todas las personas con edad mayor o igual a 16
años.
136
ESTADÍSTICA ESPAÑOLA
Tabla 1
DESCRIPCIÓN DE LOS ESTRATOS DENTRO DE LAS PROVINCIAS
DE LA EPA-2003
Estrato
Descripción
1
Capital de provincial
2
Municipios representativos que son importantes comparados con la
capital de provincia
3
Otros municipios representativos que son importantes comparados
con la capital de provincia o municipios a partir de 100,000 habitantes
4
Municipios de 50,000 a 99,999 habitantes
5
Municipios de 20,000 a 49,999 habitantes
6
Municipios de 10,000 a 19,999 habitantes
7
Municipios de 5,000 a 9,999 habitantes
8
Municipios de 2,000 a 4,999 habitantes
9
Municipios con menos de 2,000 habitantes
En la Tabla 2 se muestran las UMPs de cada provincia de la Comunidad Autónoma de Canarias
Tabla 2
TAMAÑOS MUESTRALES DE PRIMERA ETAPA DE LA EPA-2003
EN CANARIAS
Estrato
Provincia
Las Palmas (p=1)
Santa Cruz de Tenerife (p=2)
1
36
24
2
0
12
3
0
0
4
6
0
5
12
12
6
9
9
7
6
9
8
3
6
9
0
0
Total
72
72
Sea P la población de individuos con al menos 16 años residiendo en viviendas
familiares de la comunidad autónoma de Canarias. Esta población se divide en dos
provincias Pp ,p = 1,2 . Cada provincia está dividida en 9 estratos, denotados Pph ,
p=1,2, h∈{1,…,9}. En este artículo simplificamos la notación y llamamos Ph a Pph
dado que las muestras EPA se extraen independientemente en cada provincia.
Además, las provincias se dividen en dominios Pd , definidos por grupos de sexo ×
comarcas. Estos dominios no siempre se encuentran anidados en los estratos. Sea
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….137
S la muestra completa y S , S y S las submuestras dentro de la provincia p,
p
h
d
estrato h y dominio d, respectivamente. Sea V
ha
el número de viviendas de la UMP
a en el estrato h, V el número de viviendas del estrato h y m el número de UMPs
h
h
seleccionadas en el estrato h. La probabilidad de seleccionar una vivienda v de la
UMP a en el estrato h se puede aproximar por
P(Vivhav ) = P(UMPha )P(Vivhav | UMPha ) = mh
Vha 18 18mh
=
.
Vh Vha
Vh
Debido a que se entrevistan a todos los miembros con edad mayor o igual a 16
años, la probabilidad π de seleccionar un individuo j (de 16 años o más) de la
j
vivienda v coincide con la probabilidad de seleccionar la vivienda v. A partir de la
fórmula anterior se puede apreciar que esta probabilidad es constante dentro de
cada estrato. Así pues, la probabilidad de selección y los pesos muestrales del
individuo j en el estrato h son respectivamente
πj =
18mh
Vh
y
w (1)
j =
1
Vh
=
 w (1)
h ,
π jrh 18mhr h
∀j ∈ Sh ,
[1]
donde r es la frecuencia relativa de respuesta en el estrato h. Sea N la población
h
h
de edad mayor o igual a 16 años en el estrato h, según las Proyecciones Demográficas de población elaboradas por el INE (véase el Informe del INE), y n el número
h
de individuos de la muestra en el estrato h. Hasta el año 2001, la EPA utilizaba un
estimador de razón separado para estimar el total de la variable Y en una provincia,
ŶpEPA* =
 N̂   w
Nh
h∈Pp
(1)
j y j,
donde
h v∈Sh j∈v
N̂h =
 w
(1)
j
= w h(1)nh .
v∈Sh j∈v
El estimador de razón separado también puede escribirse como suma ponderada de los valores y ,
j
ŶpEPA* =
w
j∈Sp
(2)
j y j,
donde
w (2)
j =
Nh w h(1) Nh
=
, ∀j ∈ Sh.
ˆ
nh
N
h
Desde el año 2002, se aplican técnicas de calibrado a los pesos w (2)
(véase Dej
ville y Särndal (1992)) y se obtienen nuevos pesos w (3)
minimizando la suma de las
j
disparidades ponderadas entre los pesos antiguos w (2)
y los pesos nuevos w (3)
j
j
138
ESTADÍSTICA ESPAÑOLA
 w G(w
(2)
j
j∈S
(3)
j
/ w (2)
j
)
sujeto a
w
(3)
j x jk
= Xk ,
k = 1,…,K ,
[2]
j∈S
donde las Xk son cantidades poblacionales conocidas. Se utiliza la siguiente función de disparidad
(z − 1)2 / 2, si 0.1 ≤ z ≤ 10,
G(z) = 
∞,
en otro caso.

Las restricciones de calibrado en [2] emparejan los totales conocidos de K variables con las correspondientes sumas ponderadas de los elementos de la muestra. En la EPA las variables de calibración son indicadores de clase, de manera que
las restricciones en [2] se utilizan para emparejar la suma de los pesos calibrados a
los tamaños poblacionales de:
• los grupos sexo-edad en la comunidad autónoma, con los grupos de edad 16-19,
20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59, 60-64, y ≥65.
• las provincias.
Para simplificar la notación, a partir de ahora los pesos calibrados finales se denotarán por w j = w (3)
j , j∈S, de manera que la expresión final del estimador EPA de
los totales Y de la provincia p es
p
ŶpEPA =
w y .
j
j
j∈Sp
La EPA no proporciona estimaciones oficiales para los dominios (comarcas ×
sexo). La expresión equivalente para un dominio d es
ŶdEPA =
w y .
j
j
j∈Sd
En el caso particular de que y =1, para todo j∈P , se obtiene el tamaño estimaj
d
do del dominio
=
N̂EPA
d
w .
j
j∈Sd
A partir de esta cantidad, el estimador de la media Yd de un dominio d es
ˆ EPA .
YdEPA = Yˆ dEPA / N
d
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….139
Estos estimadores EPA de dominio se utilizan como respuesta en los modelos
de las Secciones 3.2 y 3.3. Las varianzas de estos estimadores, con respecto a la
distribución del diseño muestral, pueden ser aproximadas por
(
)  w (w
Vˆ Yˆ dEPA =
j
j
− 1)(y j − Yˆ dEPA )2
j∈Sd
y
)
(
(
[3]
)
ˆ 2.
Vˆ Yˆ dEPA = Vˆ Yˆ dEPA / N
d
Las últimas fórmulas se obtienen de Särndal y otros (1992), pp. 43, 185 y 391,
aplicando las simplificaciones w =1/π , π =π y π =π π , i≠j, en las probabilidades de
j
j
jj
j
ij
i j
inclusión de segundo orden.
3. VARIABLES AUXILIARES Y ESTIMACIONES BASADAS EN MODELOS
En esta sección se describen los modelos que se usan para obtener estimaciones de totales de parados y ocupados y de tasas de paro por dominios. Los modelos utilizan datos agregados a nivel de domino (comarca x/sexo). La calidad de los
estimadores basados en modelos depende de la selección cuidadosa de las variables auxiliares y de la especificación adecuada del modelo. En la Sección 3.1 se
describen las variables auxiliares empleadas, analizando las relaciones con la
variable de interés. En la Sección 3.2 se describe la adaptación del modelo multinomial mixto al diseño de la EPA y en la Sección 3.3 se introduce un procedimiento
más sencillo basado en dos modelos Fay-Herriot independientes. Los resultados de
estos dos procedimientos se analizan en la Sección 5.
3.1
Variables auxiliares
Los estimadores de áreas pequeñas basados en modelos de unidad (modelos
establecidos para unidades individuales) suelen tener una precisión alta cuando el
modelo está correctamente especificado. Sin embargo, los estimadores derivados
de estos modelos necesitan combinar los datos auxiliares de las unidades muestrales con los correspondientes datos agregados de los dominios. Ello conlleva una
restricción seria, pues tal combinación no siempre es posible. Los modelos a nivel
de área sólo necesitan los totales de las variables auxiliares por dominios, información que frecuentemente se puede conseguir en los registros administrativos. Otra
ventaja de los modelos de área es que permiten introducir de manera sencilla el
140
ESTADÍSTICA ESPAÑOLA
diseño muestral en el procedimiento de estimación, utilizando los estimadores
directos como variables de respuesta del modelo. Por tales motivos, en este trabajo
sólo se consideran modelos de área que utilizan como variables auxiliares las
proporciones de individuos por dominios en las categorías de las siguientes variables agrupadas:
• SEXOEDAD: Combinaciones de grupos de sexo y edad, con 6 valores. La variable SEXO está codificada por 1 para hombre y por 2 para mujer. La variable EDAD
está categorizada en 3 grupos con valores 1 para 16-24, 2 para 25-54 y 3 para ≥55.
Los valores 1,2,…,6 de la variable SEXOEDAD corresponden a los pares sexoedad (1,1), (1,2),…, (2,3).
• REGISTRADO: SEXOEDAD cruzada con la variable que indica si un individuo
está registrado o no como parado en el registro administrativo de solicitantes de
empleo, con 12 valores (1-6 para registrados y 7-12 para no registrados).
• BIPESTRA: Esta variable se define en función de la variable biestrato que divide
los estratos en dos grupos, y que toma los valores 1 para los estratos 1, 2, 3, 4
(áreas no rurales) y el valor 2 para el resto de estratos (áreas rurales). Los valores
de la variable BIPESTRA se definen a partir de los cruces provincia - biestrato y son
1,…,4 para los pares (1,1), (1,2), (2,1) y (2,2) respectivamente.
En este apartado estudiamos el poder de predicción potencial de las variables
auxiliares a partir del análisis exploratorio de los datos. En la Figura 1 se muestran
las proporciones estimadas por el estimador EPA de ocupados y parados para cada
una de las categorías de SEXOEDAD. Como se puede observar, ambas estimaciones varían considerablemente dependiendo de las categorías.
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….141
Figura 1
PROPORCIONES ESTIMADAS DE OCUPADOS Y PARADOS POR
CATEGORÍAS DE SEXOEDAD
Ocupados
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1
2
3
4
5
6
SEXOEDAD
Parados
0,12
0,1
0,08
0,06
0,04
0,02
0
1
2
3
SEXOEDAD
4
5
6
142
ESTADÍSTICA ESPAÑOLA
En la Figura 2 se muestran las proporciones de dicho estimador para las categorías BIPESTRA × SEXO y también se observan variaciones entre las categorías.
Este comportamiento se corroboró realizando un análisis de la varianza. Por otro
lado, comparando los gráficos de la izquierda y de la derecha, se aprecia que las
líneas distan mucho de ser paralelas, lo que sugiere que las estimaciones de
ambas proporciones varían de forma distinta a lo largo de las categorías de las
variables explicativas. Así pues, las variables SEXOEDAD y BIPESTRA × SEXO
pueden ser buenas variables auxiliares para predecir la probabilidad de estar
ocupado o parado.
Figura 2
PROPORCIONES ESTIMADAS DE OCUPADOS Y PARADOS POR
CATEGORÍAS DE BIPESTRA X SEXO
Ocupados
0,7
0,6
0,5
0,4
0,3
1&1
2&1
3&1
4&1
1&2
2&2
3&2
4&2
Figurax2SEXO
BIPESTRA
PROPORCIONES ESTIMADAS DE OCUPADOS Y PARADOS POR
CATEGORIAS DE BIPESTRA X SEXO
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….143
Figura 2
PROPORCIONES ESTIMADAS DE OCUPADOS Y PARADOS POR
CATEGORÍAS DE BIPESTRA X SEXO
Parados
0,08
0,07
0,06
0,05
1&1
2&1
3&1
4&1
1&2
2&2
3&2
4&2
BIPESTRA x SEXO
Usando el estimador EPA, en la Figura 3 se representan las tasas de ocupados
y parados sobre el total de personas inactivas frente a las proporciones de parados
registrados. A pesar de la gran variabilidad de ambos gráficos, las tasas parecen
crecer linealmente con la proporción de personas registradas como paradas. Con lo
cual, esta variable podría ser una buena covariable para modelar ambas probabilidades. De hecho, tras ajustar los modelos descritos en las Secciones 3.2 y 3.3, se
realizaron contrastes de significatividad para los parámetros de regresión y análisis
de residuos que verificaron el poder explicativo de las variables auxiliares seleccionadas para cada modelo.
144
ESTADÍSTICA ESPAÑOLA
Figura 3
TASAS ESTIMADAS DE OCUPADOS Y PARADOS SOBRE INACTIVOS
FRENTE A LAS PROPORCIONES DE PARADOS REGISTRADOS
Ocupados / Inactivos
4
3,5
3
2,5
2
1,5
1
0,5
0
0
0,02
0,04
0,06
0,08
0,1
prop.REGISTRADO
Parados / Inactivos
0,5
0,45
0,4
0,35
0,3
0,25
0,2
0,15
3.2
0,1
Estimadores basados en un modelo multinomial mixto
0,05
0
0
0,02
0,04
0,06
prop.REGISTRADO
0,08
0,1
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….145
3.2
Estimadores basados en un modelo multinomial mixto
En esta sección se adapta el procedimiento introducido en Molina y otros (2007)
a un diseño muestral genérico, suponiendo que los estimadores directos de totales
de dominios siguen una distribución multinomial. El objetivo final es la obtención de
estimadores de totales de ocupados y parados basados en un modelo multinomial
mixto y utilizables bajo el diseño muestral de la EPA. Para ello se usan los estimadores EPA de totales de dominios como variables de respuesta del modelo. A
continuación se introduce la notación necesaria para definir los estimadores basados en el modelo multinomial mixto.
Los índices i=1,2,3 se utilizan para representar las categorías de parados, ocupados e inactivos respectivamente. Sea y una variable binaria que toma el valor 1
i
para los individuos que pertenecen a la clase i y 0 en caso contrario. Los estimadores EPA de los totales de parados, ocupados e inactivos en un dominio d son
respectivamente
ŶdiEPA =
w y
j dij,
i = 1,2,3.
j∈Sd
Sea N el tamaño real del dominio d, que puede obtenerse a partir de una fuend
te externa, y n el correspondiente tamaño muestral. Se puede estimar N como
d
d
ˆ EPA =
N
d
w
j
EPA
EPA
EPA
=Yˆ d1
+ Yˆ d2
+ Yˆ d3
.
j∈Sd
EPA ˆ EPA
Suponemos que los vectores de estimadores de dominios (Yˆ d1
, Yd2 ) , dado
un efecto aleatorio de dominio u , son independientes con distribuciones de proba-
d
bilidad multinomial
f(y d1, y d2 | ud ) =
donde p , p
d1
d2
y p =1−p −p
d3
d1
d2
N̂EPA
!
d
pd1pd2pd3 ,
y d1 ! y d2 ! y d3 !
son, respectivamente, las probabilidades de estar
parado, ocupado e inactivo en el dominio d. Además, suponemos que las probabilidades (pd1,pd2 ) siguen un modelo bivariante de regresión logística con efectos
aleatorios de dominio y coeficientes específicos de regresión para cada categoría
(parado, ocupado) de la forma
146
ESTADÍSTICA ESPAÑOLA
log(pdi / pd3 ) = x dβi + ud, i = 1,2
con ud ≈iid N(0, ϕ), d = 1,…,D,
donde x d = (x d1,…, x dp ) contiene los valores de p variables explicativas para el
dominio d, u es el efecto aleatorio del dominio d, βi = (β1i,…, βpi )t es el vector de
d
coeficientes de regresión para la categoría i y ϕ es la varianza de u .
d
Para cada dominio, las cantidades poblacionales de interés son los totales Y
Y
d2
d1
e
de parados y ocupados junto con las tasas de paro R , dados respectivamente
d
por
Ydi =
y
dij
+
j∈Sd

y dij, i = 1,2
Rd =
y
j∈Pd −Sd
Yd1
.
Yd1 + Yd2
Para obtener estimadores de estas cantidades se pueden predecir los valores
y para las unidades externas a la muestra j ∈ Pd − Sd a través del modelo introdudij
cido; es decir, tomando
ŷ dij =
exp(x dβˆ i + uˆ d )
1+

2
i =1
exp(x dβˆ i + uˆ d )
,
i = 1,2.
Así, los estimadores finales (llamados estimadores logit) de los totales de parados y ocupados y de las tasas de paro son respectivamente
Yˆ dilogit =

j∈Sd
y dij +

j∈Pd / Sd
it
=
yˆ dij , i=1,2, y R̂log
d
logit
Ŷd1
.
Yˆ logit + Yˆ log it
d1
d2
Las estimaciones de los coeficientes de regresión βi = (β1i,…, βpi )t , i=1,2, y los
predictores de los efectos aleatorios ûd , d=1,…,D, pueden obtenerse aplicando el
método de la máxima verosimilitud penalizada, introducido en Schall (1991), al modelo multinomial mixto de este apartado. Las variables auxiliares utilizadas en este
modelo son BIPESTRA y REGISTRADO para ambas variables de respuesta. Las
fórmulas analíticas y los estimadores de los errores cuadráticos medios de los estimadores logit Ŷdlog it , i=1,2, pueden obtenerse a partir del Apéndice 2 de Molina y
otros (2007), pero teniendo en cuenta las particularidades del modelo aquí asumido.
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….147
La diferencia entre nuestro modelo y el que aparece en Molina y otros (2007)
radica en la definición del vector respuesta multinomial. En Molina y otros (2007),
los totales muestrales de parados y ocupados siguen una distribución multinomial
conjunta con tamaño igual al tamaño muestral del dominio. En este trabajo, las
cantidades que se asumen que siguen una distribución multinomial son las estimaciones EPA de los mismos totales. Estas estimaciones EPA están “elevadas” a la
población a través de los pesos de diseño calibrados (factores de elevación). Por lo
tanto el vector multinomial hace referencia a la población y no a la muestra, y el
tamaño multinomial es aquí el tamaño poblacional (estimado a partir de los factores
de elevación de la EPA). Otras aplicaciones del modelo binomial mixto a la estimación de totales de dominios pueden verse en Saei y Chambers (2003) y GonzálezManteiga y otros (2007).
3.3
EBLUPs basados en los modelos Fay-Herriot independientes
Aplicando modelos Fay-Herriot independientes pueden obtenerse estimadores
sencillos de los totales de parados y ocupados. Sea Yˆ dEPA el estimador EPA de la
media poblacional Yd . Asumimos que
Yˆ dEPA = Yd + ed , donde ed ≈iid N(0, σd2 ) .
[4]
En una segunda etapa, asumimos que Yd está linealmente relacionada con los
valores de p variables auxiliares y con el efecto aleatorio del dominio d; es decir,
Yd = x dβ + ud ,
[5]
donde los errores e y los efectos aleatorios ud ≈iid N(0, σu2 ) son independientes.
d
Las varianzas de los errores σ 2d se asumen conocidas y aquí las sustituimos por
los errores muestrales estimados de los estimadores Yˆ dEPA , dados en la fórmula [3].
Tras ajustar el modelo por máxima verosimilitud, el estimador EBLUP del total del
dominio d, basado en el modelo Fay-Herriot [4] y [5], es
ŶdFH = NdYˆ dFH,
donde el estimador de la media es la composición del estimador EPA y el estimador
sintético; es decir,
148
ESTADÍSTICA ESPAÑOLA
Yˆ dFH = γˆ dYˆ dEPA + (1 − γˆ d )x dβˆ ,
donde
γˆ d =
σˆ u2
σˆ u2
+ σˆ 2d
.
Para más información véase por ejemplo Rao (2003), cap. 5-6. En este trabajo
se ha utilizado el modelo Fay-Herriot con las variables auxiliares BIPESTRA y
REGISTRADO para el caso de parados y las variables BIPESTRA y SEXOEDAD
para los ocupados. Los totales estimados de parados y ocupados se denotan por
FH
ŶdFH
1 e Ŷd 2 , respectivamente. Estas estimaciones se introducen en la fórmula de
R para obtener las tasas de paro. Estimadores analíticos de los errores cuadráti-
d
cos medios de ŶdFH
1 , i=1,2, pueden obtenerse aplicando la fórmula (7.1.22), p. 128, de
Rao (2003), o alternativamente la fórmula (5.15), p. 167, de Prasad y Rao (1990).
Este procedimiento puede dar estimaciones inconsistentes en el sentido de que
FH
ˆ FH ˆ FH
ŶdFH
1 ≥ Nd o Ŷd1 < 0 para algún i, o bien que Yd1 + Yd2 ≥ N d para algún dominio d.
Además, se ignoran las dependencias razonables entre los totales de parados y
ocupados en los dominios. Sin embargo, son más fáciles de calcular que los modelos
logit y la estimación de los errores cuadráticos medios es más sencilla. La comparación de los estimadores FH y logit es interesante de cara a las aplicaciones.
3.4
Consistencia con las estimaciones EPA provinciales
Los tamaños muestrales de las provincias se establecen en la EPA para garantizar que las estimaciones de totales ŶpEPA cumplan los estándares de calidad del
INE, y así las publicaciones oficiales puedan ser consideradas fiables. Por ello, es
conveniente que los totales estimados a nivel de dominio sean consistentes con las
estimaciones provinciales. De manera que si la provincia p contiene D dominios y
p
ˆ ,…, Yˆ
Y
1
Dp son las estimaciones de los totales Y1,…, YDp en estos dominios, es
deseable que se verifique
Yˆ pEPA =
Dp
 Yˆ .
d
d=1
Generalmente, las estimaciones basadas en modelos no cumplen esta propiedad. Para conseguirlo se pueden multiplicar las estimaciones de totales de dominio
por un factor de consistencia de la forma
Yˆ dc = λp Yˆ d ,
donde
λp = Yˆ pEPA /
Dp
 Yˆ
d
d=1
.
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….149
Dado un estimador de la varianza de Ŷd , entonces un estimador naïve de la varianza del estimador transformado Ŷdc es
( )
( )
Vˆ Yˆ dc = λp2 Vˆ Yˆ d .
4. ESTIMACIÓN DE LA VARIANZA CON REMUESTREO
Como se ha mencionado al final de las Secciones 3.2 y 3.3, existen fórmulas
explícitas para calcular los errores cuadráticos medios (ECMs) de los estimadores
basados en los modelos considerados. No obstante, estas fórmulas son aproximaciones que asumen hipótesis fuertes y que son específicas del modelo, en el sentido de que se obtienen bajo el modelo particular considerado. Por consiguiente, los
estimadores de ECMs deducidos de diferentes modelos no son comparables.
Asimismo, es deseable introducir métodos que permitan la comparación de estimadores de áreas pequeñas obtenidos a partir de diferentes modelos y que además
respete las propiedades del diseño muestral. Los métodos de remuestreo pueden
aplicarse de manera similar bajo cualquier modelo estadístico, hacen comparables
los resultados obtenidos por los distintos estimadores y, generalmente, se basan en
condiciones más débiles que las de las aproximaciones analíticas. Sin embargo, no
es fácil encontrar un método computacionalmente factible que tenga en cuenta el
diseño muestral. En este apartado se consideran los métodos Jackknife y bootstrap, respecto a la distribución del diseño, introducidos en Herrador y otros (2008)
para la Encuesta de Población Activa.
4.1
Jackknife
En este apartado, se propone la utilización de un método Jackknife (véase por
ejemplo Shao y Tu (1995)) que preserva las propiedades de diseño de la EPA. Las
muestras Jackknife se obtienen suprimiendo una UMP cada vez, de modo que hay
tantas muestras Jackknife como UMPs estén presentes en la muestra EPA original.
Para cada muestra Jackknife los pesos muestrales se obtienen a partir de los
pesos muestrales de la EPA. Sea w (2)
hik el peso muestral no calibrado del individuo k
*
de la UMP i del estrato h. Considérese la muestra Jackknife S(g,j)
obtenida quitan-
do la UMP j del estrato g. Así, en la muestra Jackknife el número de UMPs del
estrato g es una unidad menos, mg − 1 en lugar de mg . Sin embargo, los tamaños
mh del resto de estratos h≠g no cambian. Con lo cual, sólo hay que modificar los
150
ESTADÍSTICA ESPAÑOLA
pesos muestrales del estrato g, sustituyendo mg por mg − 1 en 1). El nuevo peso
(llamado peso Jackknife) del individuo k de la UMP i del estrato h en la muestra
*
(2)
es el mismo si h≠g y es w (2)
Jackknife S(g,j)
hik(g,j) = w hik mg /(mg − 1) si h=g. Finalmente, se calibran los pesos Jackknife de la misma forma que los de las muestras EPA.
Sea θ un parámetro poblacional que se estima con θ̂ . La estimación de la varianza var( θˆ ) y del ECM ecm ( θˆ ) se hace de la siguiente forma:
J
*
,
Se utiliza la muestra S para la extracción de las muestras Jackknife S(g,j)
g=1,…,L, j=1,…,mg, eliminando una UMP cada vez. Para cada muestra Jackknife
*
, de la misma forma que se calculó θ̂, pero usando la
se calcula el estimador θ̂(g,j)
muestra Jackknife y los pesos Jackknife calibrados. La distribución observada de
*
θˆ (g,j)
: g = 1,...,L; j = 1,...mg imita la distribución del estimador θ̂ .
{
1)
}
El estimador jackknife de la varianza de θ̂ es
varJ (θˆ ) =
L

mg − 1
mg
g=1
mg
 ( θˆ
*
(g,j)
− θˆ *g
j =1
1
θˆ *g =
mg
2)
2
y biasJ (θˆ ) =
L
 (m
g
(
)
− 1) θˆ g* − θˆ ,
g =1
mg
 θˆ
*
(g,j)
.
j=1
El estimador Jackknife del error cuadrático medio de θ̂ y su coeficiente de
variación asociado son
ecmJ ( θˆ ) =
L

g=1
4.2
)
mg − 1
mg
mg
(
j=1
*
θˆ (g,j)
− θˆ
)
2
y
()
cv J θˆ =
( ) ⋅ 100.
ecmJ θˆ
θˆ
Bootstrap
El método bootsrap descrito en Herrador y otros (2008) para la estimación de
errores cuadráticos medios de estimadores de áreas pequeñas en la Encuesta de
Población Activa se resume en los siguientes pasos:
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….151
1. Imitando el diseño muestral de la EPA, generar muestras bootstrap.
2. Para cada muestra boostrap, calcular el estimador θ̂ . Los denotamos por
θ̂1* ,…, θ̂B* .
3. Los estimadores bootstrap del error cuadrático medio y de la varianza y son
()
ecmB θˆ = (B − 1)−1
B

()
(θb* − θˆ )2 varB θˆ = (B − 1)−1
b =1
B

(θˆ b* − θˆ * )2 , θˆ * = B −1
b =1
B
 θˆ
*
b
.
b =1
5. RESULTADOS Y CONCLUSIONES
En las Tablas A.1 y A.2 del Anexo se presentan, para hombres y mujeres respectivamente, las estimaciones EPA, FH y logit de los totales de parados y ocupados y de las tasas de paro por dominios. En las Figuras 4 y 5 se muestran, para
hombres y mujeres respectivamente, las tasas de paro obtenidas por los tres
métodos frente a las áreas ordenadas por tamaño muestral creciente. Observamos
que, tanto en las tablas como en las figuras, los estimadores basados en modelos
obtienen valores similares claramente diferenciados de las estimaciones directas,
siendo estas diferencias mayores para las áreas de menor tamaño.
Figura 4
ESTIMACIONES EPA, FH Y LOGIT DE TASAS DE PARO DE HOMBRES POR
DOMINIOS DE LAS ISLAS CANARIAS
20
Tasas de paro - Hombres
18
EPA
FH
logit
16
14
12
10
8
6
4
2
0
4 25 22 10 3 16 19 2 23 5
8 13 6 26 17 18 14 9
Áreas ordenadas crecientemente por el tamaño muestral
1 11 12 20 15 7
152
ESTADÍSTICA ESPAÑOLA
Figura 5
ESTIMACIONES EPA, FH Y LOGIT DE TASAS DE PARO DE MUJERES POR
DOMINIOS DE LAS ISLAS CANARIAS
45
EPA
FH
logit
40
Tasas de paro - Mujeres
35
30
25
20
15
10
5
0
4 25 22 10 3 16 19 2 23 5
8 13 6 26 17 18 14 9
1 11 12 20 15 7
Áreas ordenadas por el tamaño muestral creciente
En la Figura 6 se puede apreciar mejor este comportamiento. En esta figura se
muestran las diferencias relativas de las estimaciones FH y logit de tasas de paro
de mujeres con respecto a sus correspondientes estimaciones EPA frente a los
tamaños muestrales de los dominios. Claramente, se puede apreciar el decrecimiento de las diferencias relativas conforme aumenta el tamaño muestral. Las
diferencias entre las estimaciones basadas en modelos y las EPA son menores del
50% para los dominios con tamaños muestrales mayores que 100. De hecho, los
dos puntos más alejados a la derecha (con el mayor tamaño muestral) son muy
próximos a cero. Esto significa que para los dominios con un tamaño muestral
suficientemente grande para obtener un estimador EPA fiable (con buenas propiedades de diseño), los estimadores basados en modelos toman casi los mismos
valores. Además, las diferencias parecen distribuirse en torno a cero con ambos
signos, positivos y negativos, indicando que los estimadores basados en modelos
no parecen estar sesgados en una dirección específica.
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….153
Figura 6
DIFERENCIAS RELATIVAS DE LAS ESTIMACIONES FH Y LOGIT DE TASAS
DE PARO DE MUJERES CON RESPECTO A SUS CORRESPONDIENTES
ESTIMACIONES EPA FRENTE A LOS TAMAÑOS MUESTRAL
DE LOS DOMINIOS
3
(FH-EPA)/EPA
(logit-EPA)/EPA
2,5
D iferencias relativas - M ujeres
2
1,5
1
0,5
0
0
200
400
600
800
1.000
1.200
-0,5
-1
-1,5
Tamaño muestral
En las Tablas A.3 y A.4 del Anexo se presentan los valores de los coeficientes
de variación obtenidos por las fórmulas analíticas y por el método Jackknife. Las
columnas encabezadas por la etiqueta “Jackknife” contienen estimaciones Jackknife de ECMs relativos. Las columnas encabezadas por la etiqueta “Fórmula analítica” contienen estimaciones de la varianza relativa (EPA) o del ECM relativo (FH y
logit) obtenidas por los estimadores de fórmula cerrada descritos en la sección 3.
Conviene recordar que el estimador EPA es básicamente insesgado, propiedad que
se ha visto corroborada empíricamente con las estimaciones Jackknife del sesgo.
Las estimaciones de los coeficientes de variación del estimador EPA obtenidas
por ambos métodos presentan algunas discrepancias significativas, como puede
verse al observar por ejemplo las áreas 5, 6 y 8. Ello es debido a varias razones.
154
ESTADÍSTICA ESPAÑOLA
Por una parte, las hipótesis bajo las cuales se obtiene el estimador simplificado
(3) no se verifican en la Encuesta de Población Activa. Lo cual hace que sea poco
recomendable la utilización del estimador de fórmula cerrada. Por otra parte, el
método Jackknife para muestreo bietápico tiene problemas para estimar con precisión la varianza o el ECM de los estimadores directos (aquellos que sólo usan la
información de su área), ya que las secciones censales están contenidas en las
áreas. Obsérvese que si se elimina una sección no contenida en el área, el estimador directo no se ve afectado. En caso contrario se ve afectado drásticamente. El
resultado es que la distribución de los estimadores directos en las muestras Jackknife no imita bien su distribución en la muestra del diseño original. El estimador EPA
es un estimador directo y hereda los problemas descritos. Paradójicamente es más
difícil estimar la varianza o el ECM del estimador EPA que las citadas magnitudes
en estimadores basados en modelos.
Los resultados obtenidos por ambos métodos son similares para los estimadores FH y logit. Puesto que las fórmulas explícitas se obtienen analíticamente para
cada modelo, la similitud observada indica que los dos modelos considerados son
razonables para el análisis de los datos, o alternativamente que las fórmulas de
ECM utilizadas son aceptablemente robustas respecto de desviaciones de las
hipótesis de los modelos.
En la Tabla A.5 (Anexo) se presentan las estimaciones Jackknife y bootstrap de
los coeficientes de variación (en %) de los estimadores logit de totales y tasas de
paro. Los valores obtenidos por ambos métodos tienen un comportamiento análogo
a lo largo de las áreas, proporcionando estimaciones relativamente similares. Así
todo el método bootstrap presenta algunos inconvenientes que lo hacen menos
atractivo. Resumiendo, los inconvenientes principales del método bootstrap son:
• Es un método excesivamente complejo que requiere una gran carga de trabajo.
• Las muestras originales se extraen sin reemplazamiento y el método bootstrap
hay que implementarlo con reemplazamiento. En consecuencia, no hay una proximidad aceptable de las distribuciones de los estimadores en la muestra original y
en las muestras bootstrap.
• El método bootstrap necesita ser corregido, pues tiende a sobrestimar el ECM. La
forma de corregirlo en muestras complejas es un problema que aun no está resuelto en la literatura estadística.
Los errores cuadráticos medios del estimador EPA son generalmente mayores
que los de los estimadores FH y logit, tanto para hombres como para mujeres.
Este comportamiento se puede observar en las Fifuras 7 y 8 donde se representan los coeficientes de variación de los tres estimadores para los totales de parados
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….155
hombres y mujeres respectivamente. Los estimadores basados en modelos producen estimaciones para los dominios sin muestra, véanse los dominios 21 y 24.
También toman información prestada de otros dominios, a través de las variables
auxiliares, para reducir su error cuadrático medio. Así pues, estos estimadores
parecen ser más convenientes que los EPA para la mayoría de dominios.
Figura 7
CV Jacknife (en %) de totales de parados Hombres
COEFICIENTES DE VARIACIÓN JACKKNIFE (EN %) DE LAS ESTIMACIONES EPA, FH Y LOGIT
DE LOS TOTALES DE HOMBRES PARADOS POR DOMINIOS DE LAS ISLAS CANARIAS
140
120
EPA
FH
logit
100
80
60
40
20
0
25 22 10 19
3
16
2
8
23 26
5
6
17 18 13
9
14 11
1
12 20 15
7
Áreas ordenadas por tamaño muestral creciente
Figura 8
CV Jacknife (en %) de totales de parados Mujeres
COEFICIENTES DE VARIACIÓN JACKKNIFE (EN %) DE LAS ESTIMACIONES EPA, FH Y LOGIT
DE LOS TOTALES DE MUJERES PARADAS POR DOMINIOS DE LAS ISLAS CANARIAS
300
EPA
FH
logit
250
200
150
100
50
0
27 4 25 22 10 3 16 19 23 5
8 13 6 26 17 18 14 9
Áreas ordenadas por tamaño muestral creciente
1 11 12 20 15 7
156
ESTADÍSTICA ESPAÑOLA
El estimador FH es ligeramente menos eficiente y robusto que el logit, obteniendo errores cuadráticos medios elevados en algunos dominios; véase por ejemplo el
dominio 2 en la Figura 7 y el dominio 8 en la Figura 8. Puesto que este estimador
está basado en un modelo lineal, también puede dar valores negativos. Por ejemplo, en el dominio 2 de la Tabla A.2 (Anexo)se obtuvo un valor negativo del total de
mujeres paradas que ha sido sustituido por cero. Debido a las ventajas de ganancia
de precisión y a la consistencia de las estimaciones, pensamos que el procedimiento de estimación basado en el modelo multinomial mixto (logit) es preferible al
basado en los dos modelos lineales mixtos independientes.
Como recomendaciones finales, nos gustaría señalar que los modelos a nivel de
unidad no se pueden aplicar siempre porque las variables auxiliares a este nivel
pueden no estar disponibles. Incluso disponiendo de dichas variables a nivel de
unidad y de área, podrían existir inconsistencias entre sus definiciones y en estos
casos podría ser peligroso incluir todas esas variables en el modelo. Los modelos a
nivel de área utilizados en este trabajo (Fay-Herriot y multinomial mixto) sólo necesitan valores agregados de las variables auxiliares y por tanto son más aplicables
en la práctica. Además, estos modelos permiten introducir un estimador directo (en
este trabajo el estimador EPA) como respuesta en el modelo, haciendo que el
estimador final conserve algunas propiedades del diseño. Por ejemplo, el estimador
obtenido a partir del modelo Fay-Herriot es una composición del estimador EPA y el
estimador sintético.
Resumiendo, en este trabajo se proporcionan dos tipos de estimaciones basadas en modelos para totales de parados y ocupados y para tasas de paro en dominios de las Islas Canarias, junto con sus correspondientes estimaciones directas.
Se proporcionan los coeficientes de variación estimados por tres métodos distintos,
las fórmulas analíticas, un procedimiento computacionalmente factible (Jackknife)
que conserva las propiedades del diseño muestral y un procedimiento bootstrap
que conlleva una gran carga de trabajo y que tiende a sobresestimar los ECMs. Los
resultados indican que el estimador logit es más eficiente para estimar el total de
parados, el total de ocupados y la tasa de paro, siendo un procedimiento interesante para estimar estas cantidades en la EPA. Como método para estimar su ECM
respecto del diseño de la EPA, se recomienda el método Jackknife.
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….157
ANEXO: RESULTADOS POR SEXO PARA LOS DOMINIOS DE LAS ISLAS
CANARIAS
Tabla A1
ESTIMACIONES DE LOS TOTALES DE HOMBRES PARADOS, OCUPADOS
Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS
DE LA EPA 2003-2
(Continúa)
HOMBRES
TOTAL PARADOS
Área
n
EPA
FH
logit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
144
60
41
12
80
85
1.149
73
115
35
143
167
99
126
726
44
86
97
37
193
20
73
19
75
13
550
141
526
0
1.131
458
13.544
319
1.239
369
2.451
2.295
343
2.548
9.261
507
1.848
496
966
5.502
210
837
194
1.599
0
1.865
72
196
100
967
260
14.264
695
1.185
275
1.162
1.980
506
1.833
10.389
681
1.328
1.289
1.022
3.848
184
226
911
327
206
1.244
316
1.765
185
242
86
956
337
14.189
583
1.163
233
1.222
2.061
447
1.644
10.372
632
1363
1.479
851
4.195
156
241
880
247
184
1.438
182
158
ESTADÍSTICA ESPAÑOLA
Tabla A1
ESTIMACIONES DE LOS TOTALES DE HOMBRES PARADOS, OCUPADOS
Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS
DE LA EPA 2003-2
(Continuación)
HOMBRES
TOTAL OCUPADOS
Área
n
EPA
FH
logit
1
144
23.352
23.017
22.009
2
60
7.929
5.243
5.862
3
41
5.545
4.135
4.777
4
12
1.048
2.501
2.023
5
80
9.774
10.931
10.474
6
85
11.456
9.679
9.555
7
1.149
116.970
121.885
121.745
8
73
7.204
9.124
8.894
9
115
10.018
9.832
9.404
10
35
2.505
2.647
2.259
11
143
19.363
16.139
17.045
12
167
25.197
25.230
26.316
13
99
15.759
12.581
11.685
14
126
18.673
14.264
14.017
15
726
95.729
96.154
95.099
16
44
4.884
4.084
3.566
17
86
12.085
6.890
7.433
18
97
19.095
33.106
34.816
19
37
4.774
9.605
9.222
20
193
26.709
23.767
25.166
21
-
-
1.326
1.024
22
20
3.242
3.564
3.610
23
73
10.528
7.636
7.645
24
-
-
2.102
1.836
25
19
1.781
1.064
856
26
75
11.529
7.495
8.401
27
13
1.122
2.272
1.534
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….159
Tabla A1
ESTIMACIONES DE LOS TOTALES DE HOMBRES PARADOS, OCUPADOS
Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS
DE LA EPA 2003-2
(Conclusión)
HOMBRES
TASA DE PARO
Área
n
EPA
FH
logit
1
144
2,30
7,50
7,42
2
60
1,75
1,36
3,06
3
41
8,66
4,54
4,83
4
12
0,00
3,86
4,08
5
80
10,37
8,13
8,36
6
85
3,84
2,62
3,41
7
1.149
10,38
10,48
10,44
8
73
4,24
7,08
6,15
9
115
11,01
10,75
11,01
10
35
12,85
9,41
9,35
11
143
11,24
6,72
6,69
12
167
8,35
7,28
7,26
13
99
2,13
3,87
3,69
14
126
12,01
11,39
10,50
15
726
8,82
9,75
9,83
16
44
9,40
14,30
15,05
17
86
13,26
16,16
15,50
18
97
2,53
3,75
4,07
19
37
16,83
9,62
8,45
20
193
17,08
13,93
14,29
21
-
-
12,20
13,20
22
20
6,09
5,96
6,25
23
73
7,37
10,66
10,32
24
-
-
13,46
11,87
25
19
9,81
16,24
17,67
26
75
12,18
14,23
14,61
27
13
0,00
12,20
10,59
160
ESTADÍSTICA ESPAÑOLA
Tabla A2
ESTIMACIONES DE LOS TOTALES DE MUJERES PARADAS, OCUPADAS
Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS
DE LA EPA 2003-2
(Continúa)
MUJERES
TOTAL PARADAS
Área
n
EPA
FH
logit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
152
61
41
18
74
78
1.247
76
143
34
156
160
77
132
859
41
95
111
43
214
20
71
19
79
15
3.168
187
119
229
467
635
15.637
289
1.263
328
959
1.889
787
1.791
11.802
681
2.530
1.253
426
5.054
472
1.528
203
446
545
2.823
0
141
207
638
527
16.118
107
920
345
1.237
2.107
863
1.515
11.422
746
1.302
2.321
998
4.575
334
163
1.350
187
310
1.056
377
2.921
151
190
139
652
547
16.209
245
862
290
1.056
1.908
851
1.385
11.631
885
1.523
2.459
884
4.480
225
135
1.437
146
368
867
242
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….161
Tabla A2
ESTIMACIONES DE LOS TOTALES DE MUJERES PARADAS, OCUPADAS
Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS
DE LA EPA 2003-2
(Continuación)
MUJERES
TOTAL OCUPADAS
Área
n
EPA
FH
logit
1
152
14.836
15.236
14.721
2
61
5.659
3.469
3.972
3
41
3.931
2.151
2.793
4
18
702
1.337
870
5
74
7.096
7.180
7.518
6
78
7.807
5.359
5.810
7
1.247
73.425
78.726
79.615
8
76
3.567
5.550
4.577
9
143
7.688
5.437
6.196
10
34
1.559
1.285
1.341
11
156
12.508
10.597
9.935
12
160
13.755
16.205
15.186
13
77
8.343
8.141
7.881
14
132
11.718
9.344
8.704
15
859
68.788
65.691
66.722
16
41
3.211
2.150
2.460
17
95
7.088
3.970
4.460
18
111
14.857
22.253
23.862
19
43
3.906
6.287
6.008
20
214
14.183
14.796
13.272
21
-
-
390
391
22
20
1.064
2.127
1.615
23
71
5.417
4.394
4.572
24
-
-
1.015
1.114
25
19
1.517
423
507
26
79
5.968
4.222
3.950
27
15
344
1.202
887
162
ESTADÍSTICA ESPAÑOLA
Tabla A2
ESTIMACIONES DE LOS TOTALES DE MUJERES PARADAS, OCUPADAS
Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS
DE LA EPA 2003-2
(Conclusión)
MUJERES
TASA DE PARO
Área
n
EPA
FH
logit
1
152
17,60
15,63
16,56
2
61
3,20
0,00
3,65
3
41
2,94
6,17
6,39
4
18
24,61
13,39
13,75
5
74
6,18
8,16
7,98
6
78
7,52
8,95
8,61
7
1.247
17,56
16,99
16,92
8
76
7,48
1,90
5,09
9
143
14,11
14,47
12,21
10
34
17,37
21,18
17,79
11
156
7,12
10,45
9,61
12
160
12,08
11,51
11,16
13
77
8,62
9,58
9,75
14
132
13,26
13,95
13,73
15
859
14,64
14,81
14,84
16
41
17,50
25,75
26,46
17
95
26,30
24,69
25,46
18
111
7,78
9,45
9,34
19
43
9,84
13,70
12,82
20
214
26,27
23,62
25,24
21
-
-
46,15
36,47
22
20
30,73
7,11
7,72
23
71
22,00
23,50
23,91
24
-
-
15,54
11,59
25
19
11,81
42,32
42,07
26
79
6,95
20,01
18,00
27
15
61,26
23,87
21,46
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….163
Tabla A3
ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS
TOTALES Y TASAS DE PARO DE HOMBRES EN DOMINIOS DE LAS
ISLAS CANARIAS
(Continúa)
HOMBRES
TOTAL PARADOS
FÓRMULA ANALÍTICA
Área
n
EPA
FH
logit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
144
60
41
12
80
85
1.149
73
115
35
143
167
99
126
726
44
86
97
37
193
20
73
19
75
13
72,14
99,17
55,50
40,18
57,63
11,55
70,05
37,12
68,17
31,80
29,59
71,07
29,38
14,78
68,72
34,45
70,27
47,42
21,13
98,05
56,44
97,93
36,58
-
19,28
168,33
47,64
42,44
25,48
63,23
11,23
33,94
24,06
29,12
19,11
25,66
54,46
9,93
12,03
33,28
15,84
45,76
12,77
9,70
75,23
42,95
16,74
37,17
32,77
12,70
26,20
18,47
32,78
21,09
28,10
26,17
26,34
9,87
24,63
22,95
27,11
15,20
21,57
34,79
13,32
11,83
25,15
23,76
28,81
17,81
13,15
57,72
31,06
18,90
33,08
36,33
14,80
34,77
164
ESTADÍSTICA ESPAÑOLA
Tabla A3
ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS
TOTALES Y TASAS DE PARO DE HOMBRES EN DOMINIOS DE LAS
ISLAS CANARIAS
(Continuación)
HOMBRES
TOTAL PARADOS
JACKKNIFE
Área
n
EPA
FH
logit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
144
60
41
12
80
85
1.149
73
115
35
143
167
99
126
726
44
86
97
37
193
20
73
19
75
13
71,05
100,29
66,92
67,56
74,51
15,32
100,15
49,66
71,02
51,95
51,28
71,26
54,60
15,39
70,85
52,22
100,00
75,83
35,87
28,85
58,39
41,90
65,33
-
22,39
132,71
51,05
39,83
29,87
62,66
12,68
34,85
24,72
29,49
20,25
32,16
46,01
13,36
14,38
41,73
17,29
39,58
14,36
15,74
62,33
49,36
17,70
33,55
35,45
17,12
34,01
22,49
29,46
22.10
36,24
33,77
25,18
12,76
28,25
24,54
39,16
18,18
26,32
30,04
16,37
14,35
28,04
19,74
30,87
19,82
17,10
54,95
30,17
17,90
31,08
35,11
16,29
51,85
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….165
Tabla A3
ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS
TOTALES Y TASAS DE PARO DE HOMBRES EN DOMINIOS DE LAS
ISLAS CANARIAS
(Conclusión)
HOMBRES
TASA DE PARO
JACKKNIFE
Área
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
n
EPA
FH
logit
144
60
41
12
80
85
1.149
73
115
35
143
167
99
126
726
44
86
97
37
193
20
73
19
75
13
21,24
131,28
49,00
38,51
27,78
61,36
11,96
32,74
22,89
27,47
19,45
30,72
44,42
12,52
14,04
35,56
16,05
38,34
13,53
14,30
54,68
46,54
16,38
30,01
30,91
15,52
30,56
21,76
28,04
21,25
23,49
30,50
26,37
12,17
22,34
21,99
21,88
15,75
25,53
31,94
12,40
14,17
24,75
22,18
28,72
15,08
15,09
47,17
29,31
18,16
27,48
25,09
13,66
29,32
22,34
26,16
25,90
27,33
24,96
33,24
20,48
26,06
27,60
27,06
19,61
30,81
24,95
22,35
25,14
34,87
35,59
27,54
19,60
24,65
56,56
28,30
19,73
39,68
35,68
27,42
41,54
166
ESTADÍSTICA ESPAÑOLA
Tabla A4
ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS
TOTALES Y TASAS DE PARO DE MUJERES EN DOMINIOS DE LAS
ISLAS CANARIAS
(Continúa)
MUJERES
TOTAL PARADAS
FÓRMULA ANALÍTICA
Área
n
EPA
FH
logit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
152
61
41
18
74
78
1.247
76
143
34
156
160
77
132
859
41
95
111
43
214
20
71
19
79
15
30,03
98,83
98,95
69,00
69,71
56,06
10,14
69,83
34,91
68,53
41,86
35,34
57,50
37,83
12,54
55,83
27,44
40,14
69,34
20,53
66,90
39,37
97,73
70,32
63,59
15,56
58,44
20,24
27,57
24,88
10,25
271,33
32,88
31,64
16,46
23,83
28,41
18,45
11,75
31,74
15,33
26,74
16,24
9,57
35,40
55,79
11,09
86,07
20,51
14,08
22,15
19,77
39,28
32,34
29,47
21,24
21,13
9,07
39,76
26,20
38,00
16,32
22,97
26,25
19,93
11,01
37,36
21,27
25,33
21,26
14,22
52,51
36,85
17,02
52,76
36,09
20,15
36,37
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….167
Tabla A4
ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS
TOTALES Y TASAS DE PARO DE MUJERES EN DOMINIOS DE LAS
ISLAS CANARIAS
(Continuación)
MUJERES
TOTAL PARADAS
JACKKNIFE
Área
n
EPA
FH
logit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
152
61
41
18
74
78
1.247
76
143
34
156
160
77
132
859
41
95
111
43
214
20
71
19
79
15
56,80
100,35
101,82
45,93
68,35
53,96
13,57
70,95
54,11
71,36
58,70
41,14
74,15
56,48
16,02
73,13
49,03
51,86
100,21
25,55
28,25
63,01
41,36
70,64
41,24
24,97
49,01
31,55
33,64
30,93
11,15
258,64
28,58
30,23
17,08
22,91
26,75
21,01
15,52
29,63
16,56
24,71
19,92
12,21
31,89
65,09
16,83
81,87
34,21
18,60
30,18
33,74
55,14
40,56
53,12
23,61
23,96
11,30
43,32
30,50
65,46
15,80
23,66
28,47
23,06
15,02
38,60
15,23
29,16
45,00
14,44
40,28
35,03
27,27
56,72
23,80
20,19
37,95
168
ESTADÍSTICA ESPAÑOLA
Tabla A4
ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS
TOTALES Y TASAS DE PARO DE MUJERES EN DOMINIOS DE LAS
ISLAS CANARIAS
(Conclusión)
MUJERES
TASA DE PARO
JACKKNIFE
Área
n
EPA
FH
logit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
152
61
41
18
74
78
1.247
76
143
34
156
160
77
132
859
41
95
111
43
214
20
71
19
79
15
35,62
106,13
165,25
8,24
78,43
48,96
11,86
63,77
43,54
72,34
53,36
31,61
67,27
48,54
16,06
14,81
28,24
30,56
133,14
14,35
5,43
38,20
8,63
67,84
3,78
21,57
46,69
27,72
32,45
29,70
10,44
253,62
24,42
24,07
16,03
23,23
24,91
19,23
15,12
22,77
16,08
23,30
19.75
11,66
34,73
63,28
15,55
75,07
25,92
18,06
29,85
23,95
39,94
31,30
27,20
24,53
24,22
10,87
40,09
24,57
31,02
14,93
25,44
23,94
21,81
15,00
37,90
19,39
22,68
20.12
13,64
47,15
37,13
20,94
59,12
49,24
18,96
42,08
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….169
Tabla A5
ESTIMACIONES JACKKNIFE Y BOOTSTRAP DE LOS COEFICIENTES DE
VARIACIÓN (EN %) DE LOS ESTIMADORES LOGIT DE TOTALES Y
TASAS DE PARO
(Continúa)
LOGIT
TOTAL PARADOS
HOMBRES
Área
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Jackknife
22,49
29,46
22,10
36,24
33,77
25,18
12,76
28,25
24,54
39,16
18,18
26,32
30,04
16,37
14,35
28,04
19,74
30,87
19,82
17,10
54,95
30,17
17,90
31,08
35,11
16,29
51,85
Bootstrap
26,41
43,26
29,79
42,16
39,92
33,92
16,41
35,06
34,41
47,83
23,17
35,26
45,50
20,94
18,79
41,47
34,58
41,24
23,69
23,04
100,42
42,98
26,19
45,61
55,52
21,64
64,35
MUJERES
Jackknife
33,74
55,14
40,56
53,12
23,61
23,96
11,30
43,32
30,50
65,46
15,80
23,66
28,47
23,06
15,02
38,60
15,23
29,16
45,00
14,44
40,28
35,03
27,27
56,72
23,80
20,19
37,95
Bootstrap
37,12
59,34
53,01
57,14
31,22
32,17
14,81
67,40
40,04
92,71
23,14
32,65
37,19
32,47
17,96
60,22
27,36
38,70
36,90
20,03
83,95
61,96
29,78
94,11
57,02
28,90
64,90
170
ESTADÍSTICA ESPAÑOLA
Tabla A5
ESTIMACIONES JACKKNIFE Y BOOTSTRAP DE LOS COEFICIENTES DE
VARIACIÓN (EN %) DE LOS ESTIMADORES LOGIT DE TOTALES Y
TASAS DE PARO
(Conclusión)
LOGIT
TASAS DE PARO
HOMBRES
Área
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Jackknife
22,34
26,16
25,90
27,33
24,96
33,24
20,48
26,06
27,60
27,06
19,61
30,81
24,95
22,35
25,14
34,87
35,59
27,54
19,60
24,65
56,56
28,30
19,73
39,68
35,68
27,42
41,54
Bootstrap
24,99
42,22
28,41
30,76
37,08
34,71
15,78
31,98
30,51
32,45
20,65
33,32
45,81
18,17
18,61
34,90
34,84
38,68
21,27
20,84
74,79
42,30
25,73
39,28
40,15
18,86
42,35
MUJERES
Jackknife
23,95
39,94
31,30
27,20
24,53
24,22
10,87
40,09
24,57
31,02
14,93
25,44
23,94
21,81
15,00
37,90
19,39
22,68
20,12
13,64
47,15
37,13
20,94
59,12
49,24
18,96
42,08
Bootstrap
30,18
55,52
47,40
35,38
30,89
31,22
13,93
57,53
33,87
55,11
20,31
33,02
33,52
29,21
17,34
55,89
26,71
33,30
25,41
17,96
48,46
50,93
23,21
86,01
45,03
24,88
45,91
ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….171
REFERENCIAS
DEVILLE, J.C. Y SÄRNDAL, C.E. (1992), «Calibration estimators in survey sampling».
Journal of the American Statistical Society, 87, 376-382.
FAY, R.E. Y HERRIOT, R.A. (1979), «Estimates of income for small places: An application of James-Stein procedures to census data». Journal of the American Statistical Association, 74(366), 269-277.
GONZÁLEZ-MANTEIGA W., LOMBARDÍA M.J., MOLINA I., MORALES D. Y SANTAMARÍA L.
(2007), «Estimation of the mean squared error of predictors of small area linear
parameters under a logistic mixed model». Computational Statistics and Data
Analysis, 51(5), 2720-2733.
HERRADOR, M., MORALES, D., ESTEBAN, M.D., SÁNCHEZ, A., SANTAMARÍA, L., MARHUENDA Y. Y PÉREZ, A. (2008), «Sampling design variance estimation of small
area estimators in the Spanish Labour Force survey». SORT, 32(2), 177-198.
MOLINA, I., SAEI, A. Y LOMBARDÍA, M.J. (2007), «Small area estimates of labour force
participation under multinomial logit mixed model». The Journal of the Royal
Statistical Society, series A, 170, 975-1000.
PRASAD, N.G.N. Y RAO, J.N.K. (1990), «The estimation of the mean squared error
of small-area estimators». Journal of the American Statistical Association, 85,
163-171.
RAO, J.N.K. (2003), «Small area estimation». John Wiley.
SAEI, A. Y CHAMBERS, R. (2003), «Small area estimation under linear and generalized linear mixed models with time and area effects». S3RI Methodology Working Paper M03/15, Southampton Statistical Sciences Research Institute, University of Southampton.
SÄRNDAL, C.E., SWENSSON, B.
pling». Springer-Verlag.
Y
WRETMAN J. (1992), «Model assisted survey sam-
SCHALL, R. (1991), «Estimation in Generalized Linear Models with Random Effects».
Biometrika 78, 719-727.
SHAO, J. Y TU, D. (1995), «The Jackknife and the Bootstrap». Springer.
INE (2005), «Informe Técnico de la Encuesta de Población Activa»
ISTAC (2008). «Encuesta de Población Activa. Metodología para la estimación en
pequeñas áreas de Canarias».
172
ESTADÍSTICA ESPAÑOLA
MODEL-BASED SMALL AREA ESTIMATORS FOR THE SPANISH
LABOUR FORCE SURVEY
ABSTRACT
This paper deals with small area estimation of labour force characteristics like totals of employed or unemployed people and unemployment rates under complex sampling designs. Small area estimators of
these quantities are derived from two existing model-based approaches adapted to the Spanish Labour Force Survey in the Canary
Islands. The mean squared errors are estimated both by explicit formulas and by Jackknife and bootstrap methods that respects the design properties of the data. Finally, a comparison of the different approaches for small area estimation and for the approximation of the
mean squared errors is given.
Key words: Labour Force Survey, small area estimation, area level
models, mixed models, Jackknife, unemployment totals, unemployment rates.
AMS subject classification: 62E30, 62J12.
Descargar