ESTADÍSTICA ESPAÑOLA Vol. 51, núm. 170, 2009, págs. 133 a 172 Estimadores de áreas pequeñas basados en modelos para la Encuesta de Población Activa(*) por M. HERRADOR Instituto Nacional de Estadística. Madrid, España D. MORALES, M.D. ESTEBAN, A. SÁNCHEZ, L. SANTAMARÍA, Y. MARHUENDA, A.PÉREZ Centro de Investigación Operativa. Universidad Miguel Hernández de Elche. Elche, España e I. MOLINA Departamento de Estadística. Universidad Carlos III de Madrid. Getafe, España RESUMEN Para algunas características del mercado laboral, como el total de ocupados o parados y la tasa de paro, se introducen estimadores de áreas pequeñas basados en modelos y adaptados al diseño muestral de la Encuesta de Población Activa en las Islas Canarias. Se estiman los errores cuadráticos medios aplicando fórmulas explícitas e implementando métodos Jackknife y bootstrap que respetan las propiedades del diseño. Finalmente, se comparan tanto los procedimientos de estimación en áreas pequeñas como los métodos para aproximar los errores cuadráticos medios. (*) El trabajo ha sido financiado por el Instituto Nacional de Estadística y por el proyecto MTM2006-05693. 134 ESTADÍSTICA ESPAÑOLA Palabras clave: Encuesta de Población Activa, estimación en áreas pequeñas, modelos de área, modelos mixtos, Jackknife, bootstrap, total de ocupados, total de parados, tasa de paro. Clasificación AMS: 62E30, 62J12. 1. INTRODUCCIÓN El Instituto Nacional de Estadística (INE) realiza la Encuesta de Población Activa (EPA) para estudiar la actividad económica y laboral de la población. En particular, interesa evaluar el número de personas ocupadas, paradas e inactivas y analizar las características de estos grupos. La EPA es un encuesta de panel rotante sobre aproximadamente 65,000 viviendas por cuatrimestre. Esto supuso entrevistar a casi 200,000 personas en el año 2003. Actualmente existe una demanda creciente de información socioeconómica para áreas geográficas pequeñas. Sin embargo, la EPA está diseñada para proporcionar estimaciones fiables de totales y tasas en los niveles de agregación nacional, regional y provincial; pero no en niveles más desagregados (áreas pequeñas). En general, las estimaciones directas de características de áreas pequeñas no son suficientemente precisas debido a la falta de datos de la encuesta. Usando información extraída de otras áreas, los estimadores indirectos pueden proporcionar mayor precisión sin aumentar los tamaños muestrales (véase la metodología publicada por Instituto Canario de Estadística - ISTAC). Entre estos estimadores se encuentran los estimadores basados en modelos; es decir, estimadores que se construyen aplicando modelos estadísticos que enlazan una variable de interés con otras variables auxiliares. En este trabajo se adaptan dos procedimientos basados en modelos al caso de la estimación en áreas pequeñas de diversas características de la población activa. El primer método utiliza estimadores basados en el modelo multinomial mixto propuesto en Molina y otros (2007). El segundo enfoque emplea estimadores EBLUP basados en los modelos lineales mixtos introducidos en Fay y Herriot (1979). Esto se hace aplicando modelos de área que usan estimadores directos como variables de respuesta. De ese modo se incorpora al modelo información del diseño muestral. Para ilustrar el proceso se utilizan datos de la EPA de las dos provincias de la comunidad autónoma de Canarias. Teniendo en cuenta el diseño muestral, se obtienen estimadores de los errores cuadráticos medios utilizando fórmulas explícitas y aplicando la metodología Jackknife y bootstrap. ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….135 El artículo está organizado de la siguiente forma. En la Sección 2 se describe la metodología de la EPA y los estimadores directos de los totales de parados y ocupados. En la Sección 3 se introducen las variables auxiliares y los diferentes modelos considerados para la estimación. En la Sección 4 se proponen dos métodos de remuestreo, Jackknife y bootstrap, para estimar las varianzas muestrales. En la Sección 5 se comparan los resultados obtenidos por los diferentes estimadores y se dan algunas conclusiones. Finalmente, en el Apéndice se incluyen las estimaciones de los totales de parados y ocupados, las tasas de paro y los coeficientes de variación de estas estimaciones. 2. LA ENCUESTA DE POBLACIÓN ACTIVA El principal objetivo de este trabajo es estimar el total de parados y ocupados y las tasas de paro de comarcas (territorios sub-provinciales de carácter no necesariamente oficial) cruzadas con la variable sexo. En concreto, se han utilizado los datos de la EPA del segundo trimestre de 2003 de las provincias de la comunidad autónoma de Canarias. En esta sección se describe la metodología de la EPA de 2003 (esta metodología se modificó en el 2005 debido a varias razones, entre la que se encuentra la de considerar a las comarcas en la distribución geográfica de la muestra), el cálculo de los estimadores directos de los totales y medias y la aproximación de los errores muestrales. Estos estimadores directos se utilizan como respuesta en los modelos que se presentan en las secciones 3.2 y 3.3. La EPA es una encuesta trimestral que utiliza un muestreo aleatorio estratificado bietápico para extraer muestras de cada provincia española. Las unidades muestrales primarias (UMPs) son las secciones censales, que son áreas geográficas con un máximo de 500 viviendas o aproximadamente 3,000 personas. Las UMPs se agrupan en estratos según el tamaño del municipio al que pertenecen y cuya clasificación se presenta en la Tabla 1. En el segundo trimestre de 2003 se extrajo una muestra estratificada de cada provincia de las Islas Canarias con un total de 144 UMPs seleccionadas sin reemplazamiento y con probabilidades proporcionales al número de viviendas. Las unidades muestrales secundarias (UMSs) son las viviendas, y en la segunda etapa del muestreo se extrajeron 18 viviendas de cada UMP seleccionada utilizando un muestreo sistemático con arranque aleatorio. En cada vivienda se entrevistan a todas las personas con edad mayor o igual a 16 años. 136 ESTADÍSTICA ESPAÑOLA Tabla 1 DESCRIPCIÓN DE LOS ESTRATOS DENTRO DE LAS PROVINCIAS DE LA EPA-2003 Estrato Descripción 1 Capital de provincial 2 Municipios representativos que son importantes comparados con la capital de provincia 3 Otros municipios representativos que son importantes comparados con la capital de provincia o municipios a partir de 100,000 habitantes 4 Municipios de 50,000 a 99,999 habitantes 5 Municipios de 20,000 a 49,999 habitantes 6 Municipios de 10,000 a 19,999 habitantes 7 Municipios de 5,000 a 9,999 habitantes 8 Municipios de 2,000 a 4,999 habitantes 9 Municipios con menos de 2,000 habitantes En la Tabla 2 se muestran las UMPs de cada provincia de la Comunidad Autónoma de Canarias Tabla 2 TAMAÑOS MUESTRALES DE PRIMERA ETAPA DE LA EPA-2003 EN CANARIAS Estrato Provincia Las Palmas (p=1) Santa Cruz de Tenerife (p=2) 1 36 24 2 0 12 3 0 0 4 6 0 5 12 12 6 9 9 7 6 9 8 3 6 9 0 0 Total 72 72 Sea P la población de individuos con al menos 16 años residiendo en viviendas familiares de la comunidad autónoma de Canarias. Esta población se divide en dos provincias Pp ,p = 1,2 . Cada provincia está dividida en 9 estratos, denotados Pph , p=1,2, h∈{1,…,9}. En este artículo simplificamos la notación y llamamos Ph a Pph dado que las muestras EPA se extraen independientemente en cada provincia. Además, las provincias se dividen en dominios Pd , definidos por grupos de sexo × comarcas. Estos dominios no siempre se encuentran anidados en los estratos. Sea ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….137 S la muestra completa y S , S y S las submuestras dentro de la provincia p, p h d estrato h y dominio d, respectivamente. Sea V ha el número de viviendas de la UMP a en el estrato h, V el número de viviendas del estrato h y m el número de UMPs h h seleccionadas en el estrato h. La probabilidad de seleccionar una vivienda v de la UMP a en el estrato h se puede aproximar por P(Vivhav ) = P(UMPha )P(Vivhav | UMPha ) = mh Vha 18 18mh = . Vh Vha Vh Debido a que se entrevistan a todos los miembros con edad mayor o igual a 16 años, la probabilidad π de seleccionar un individuo j (de 16 años o más) de la j vivienda v coincide con la probabilidad de seleccionar la vivienda v. A partir de la fórmula anterior se puede apreciar que esta probabilidad es constante dentro de cada estrato. Así pues, la probabilidad de selección y los pesos muestrales del individuo j en el estrato h son respectivamente πj = 18mh Vh y w (1) j = 1 Vh = w (1) h , π jrh 18mhr h ∀j ∈ Sh , [1] donde r es la frecuencia relativa de respuesta en el estrato h. Sea N la población h h de edad mayor o igual a 16 años en el estrato h, según las Proyecciones Demográficas de población elaboradas por el INE (véase el Informe del INE), y n el número h de individuos de la muestra en el estrato h. Hasta el año 2001, la EPA utilizaba un estimador de razón separado para estimar el total de la variable Y en una provincia, ŶpEPA* = N̂ w Nh h∈Pp (1) j y j, donde h v∈Sh j∈v N̂h = w (1) j = w h(1)nh . v∈Sh j∈v El estimador de razón separado también puede escribirse como suma ponderada de los valores y , j ŶpEPA* = w j∈Sp (2) j y j, donde w (2) j = Nh w h(1) Nh = , ∀j ∈ Sh. ˆ nh N h Desde el año 2002, se aplican técnicas de calibrado a los pesos w (2) (véase Dej ville y Särndal (1992)) y se obtienen nuevos pesos w (3) minimizando la suma de las j disparidades ponderadas entre los pesos antiguos w (2) y los pesos nuevos w (3) j j 138 ESTADÍSTICA ESPAÑOLA w G(w (2) j j∈S (3) j / w (2) j ) sujeto a w (3) j x jk = Xk , k = 1,…,K , [2] j∈S donde las Xk son cantidades poblacionales conocidas. Se utiliza la siguiente función de disparidad (z − 1)2 / 2, si 0.1 ≤ z ≤ 10, G(z) = ∞, en otro caso. Las restricciones de calibrado en [2] emparejan los totales conocidos de K variables con las correspondientes sumas ponderadas de los elementos de la muestra. En la EPA las variables de calibración son indicadores de clase, de manera que las restricciones en [2] se utilizan para emparejar la suma de los pesos calibrados a los tamaños poblacionales de: • los grupos sexo-edad en la comunidad autónoma, con los grupos de edad 16-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59, 60-64, y ≥65. • las provincias. Para simplificar la notación, a partir de ahora los pesos calibrados finales se denotarán por w j = w (3) j , j∈S, de manera que la expresión final del estimador EPA de los totales Y de la provincia p es p ŶpEPA = w y . j j j∈Sp La EPA no proporciona estimaciones oficiales para los dominios (comarcas × sexo). La expresión equivalente para un dominio d es ŶdEPA = w y . j j j∈Sd En el caso particular de que y =1, para todo j∈P , se obtiene el tamaño estimaj d do del dominio = N̂EPA d w . j j∈Sd A partir de esta cantidad, el estimador de la media Yd de un dominio d es ˆ EPA . YdEPA = Yˆ dEPA / N d ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….139 Estos estimadores EPA de dominio se utilizan como respuesta en los modelos de las Secciones 3.2 y 3.3. Las varianzas de estos estimadores, con respecto a la distribución del diseño muestral, pueden ser aproximadas por ( ) w (w Vˆ Yˆ dEPA = j j − 1)(y j − Yˆ dEPA )2 j∈Sd y ) ( ( [3] ) ˆ 2. Vˆ Yˆ dEPA = Vˆ Yˆ dEPA / N d Las últimas fórmulas se obtienen de Särndal y otros (1992), pp. 43, 185 y 391, aplicando las simplificaciones w =1/π , π =π y π =π π , i≠j, en las probabilidades de j j jj j ij i j inclusión de segundo orden. 3. VARIABLES AUXILIARES Y ESTIMACIONES BASADAS EN MODELOS En esta sección se describen los modelos que se usan para obtener estimaciones de totales de parados y ocupados y de tasas de paro por dominios. Los modelos utilizan datos agregados a nivel de domino (comarca x/sexo). La calidad de los estimadores basados en modelos depende de la selección cuidadosa de las variables auxiliares y de la especificación adecuada del modelo. En la Sección 3.1 se describen las variables auxiliares empleadas, analizando las relaciones con la variable de interés. En la Sección 3.2 se describe la adaptación del modelo multinomial mixto al diseño de la EPA y en la Sección 3.3 se introduce un procedimiento más sencillo basado en dos modelos Fay-Herriot independientes. Los resultados de estos dos procedimientos se analizan en la Sección 5. 3.1 Variables auxiliares Los estimadores de áreas pequeñas basados en modelos de unidad (modelos establecidos para unidades individuales) suelen tener una precisión alta cuando el modelo está correctamente especificado. Sin embargo, los estimadores derivados de estos modelos necesitan combinar los datos auxiliares de las unidades muestrales con los correspondientes datos agregados de los dominios. Ello conlleva una restricción seria, pues tal combinación no siempre es posible. Los modelos a nivel de área sólo necesitan los totales de las variables auxiliares por dominios, información que frecuentemente se puede conseguir en los registros administrativos. Otra ventaja de los modelos de área es que permiten introducir de manera sencilla el 140 ESTADÍSTICA ESPAÑOLA diseño muestral en el procedimiento de estimación, utilizando los estimadores directos como variables de respuesta del modelo. Por tales motivos, en este trabajo sólo se consideran modelos de área que utilizan como variables auxiliares las proporciones de individuos por dominios en las categorías de las siguientes variables agrupadas: • SEXOEDAD: Combinaciones de grupos de sexo y edad, con 6 valores. La variable SEXO está codificada por 1 para hombre y por 2 para mujer. La variable EDAD está categorizada en 3 grupos con valores 1 para 16-24, 2 para 25-54 y 3 para ≥55. Los valores 1,2,…,6 de la variable SEXOEDAD corresponden a los pares sexoedad (1,1), (1,2),…, (2,3). • REGISTRADO: SEXOEDAD cruzada con la variable que indica si un individuo está registrado o no como parado en el registro administrativo de solicitantes de empleo, con 12 valores (1-6 para registrados y 7-12 para no registrados). • BIPESTRA: Esta variable se define en función de la variable biestrato que divide los estratos en dos grupos, y que toma los valores 1 para los estratos 1, 2, 3, 4 (áreas no rurales) y el valor 2 para el resto de estratos (áreas rurales). Los valores de la variable BIPESTRA se definen a partir de los cruces provincia - biestrato y son 1,…,4 para los pares (1,1), (1,2), (2,1) y (2,2) respectivamente. En este apartado estudiamos el poder de predicción potencial de las variables auxiliares a partir del análisis exploratorio de los datos. En la Figura 1 se muestran las proporciones estimadas por el estimador EPA de ocupados y parados para cada una de las categorías de SEXOEDAD. Como se puede observar, ambas estimaciones varían considerablemente dependiendo de las categorías. ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….141 Figura 1 PROPORCIONES ESTIMADAS DE OCUPADOS Y PARADOS POR CATEGORÍAS DE SEXOEDAD Ocupados 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 1 2 3 4 5 6 SEXOEDAD Parados 0,12 0,1 0,08 0,06 0,04 0,02 0 1 2 3 SEXOEDAD 4 5 6 142 ESTADÍSTICA ESPAÑOLA En la Figura 2 se muestran las proporciones de dicho estimador para las categorías BIPESTRA × SEXO y también se observan variaciones entre las categorías. Este comportamiento se corroboró realizando un análisis de la varianza. Por otro lado, comparando los gráficos de la izquierda y de la derecha, se aprecia que las líneas distan mucho de ser paralelas, lo que sugiere que las estimaciones de ambas proporciones varían de forma distinta a lo largo de las categorías de las variables explicativas. Así pues, las variables SEXOEDAD y BIPESTRA × SEXO pueden ser buenas variables auxiliares para predecir la probabilidad de estar ocupado o parado. Figura 2 PROPORCIONES ESTIMADAS DE OCUPADOS Y PARADOS POR CATEGORÍAS DE BIPESTRA X SEXO Ocupados 0,7 0,6 0,5 0,4 0,3 1&1 2&1 3&1 4&1 1&2 2&2 3&2 4&2 Figurax2SEXO BIPESTRA PROPORCIONES ESTIMADAS DE OCUPADOS Y PARADOS POR CATEGORIAS DE BIPESTRA X SEXO ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….143 Figura 2 PROPORCIONES ESTIMADAS DE OCUPADOS Y PARADOS POR CATEGORÍAS DE BIPESTRA X SEXO Parados 0,08 0,07 0,06 0,05 1&1 2&1 3&1 4&1 1&2 2&2 3&2 4&2 BIPESTRA x SEXO Usando el estimador EPA, en la Figura 3 se representan las tasas de ocupados y parados sobre el total de personas inactivas frente a las proporciones de parados registrados. A pesar de la gran variabilidad de ambos gráficos, las tasas parecen crecer linealmente con la proporción de personas registradas como paradas. Con lo cual, esta variable podría ser una buena covariable para modelar ambas probabilidades. De hecho, tras ajustar los modelos descritos en las Secciones 3.2 y 3.3, se realizaron contrastes de significatividad para los parámetros de regresión y análisis de residuos que verificaron el poder explicativo de las variables auxiliares seleccionadas para cada modelo. 144 ESTADÍSTICA ESPAÑOLA Figura 3 TASAS ESTIMADAS DE OCUPADOS Y PARADOS SOBRE INACTIVOS FRENTE A LAS PROPORCIONES DE PARADOS REGISTRADOS Ocupados / Inactivos 4 3,5 3 2,5 2 1,5 1 0,5 0 0 0,02 0,04 0,06 0,08 0,1 prop.REGISTRADO Parados / Inactivos 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 3.2 0,1 Estimadores basados en un modelo multinomial mixto 0,05 0 0 0,02 0,04 0,06 prop.REGISTRADO 0,08 0,1 ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….145 3.2 Estimadores basados en un modelo multinomial mixto En esta sección se adapta el procedimiento introducido en Molina y otros (2007) a un diseño muestral genérico, suponiendo que los estimadores directos de totales de dominios siguen una distribución multinomial. El objetivo final es la obtención de estimadores de totales de ocupados y parados basados en un modelo multinomial mixto y utilizables bajo el diseño muestral de la EPA. Para ello se usan los estimadores EPA de totales de dominios como variables de respuesta del modelo. A continuación se introduce la notación necesaria para definir los estimadores basados en el modelo multinomial mixto. Los índices i=1,2,3 se utilizan para representar las categorías de parados, ocupados e inactivos respectivamente. Sea y una variable binaria que toma el valor 1 i para los individuos que pertenecen a la clase i y 0 en caso contrario. Los estimadores EPA de los totales de parados, ocupados e inactivos en un dominio d son respectivamente ŶdiEPA = w y j dij, i = 1,2,3. j∈Sd Sea N el tamaño real del dominio d, que puede obtenerse a partir de una fuend te externa, y n el correspondiente tamaño muestral. Se puede estimar N como d d ˆ EPA = N d w j EPA EPA EPA =Yˆ d1 + Yˆ d2 + Yˆ d3 . j∈Sd EPA ˆ EPA Suponemos que los vectores de estimadores de dominios (Yˆ d1 , Yd2 ) , dado un efecto aleatorio de dominio u , son independientes con distribuciones de proba- d bilidad multinomial f(y d1, y d2 | ud ) = donde p , p d1 d2 y p =1−p −p d3 d1 d2 N̂EPA ! d pd1pd2pd3 , y d1 ! y d2 ! y d3 ! son, respectivamente, las probabilidades de estar parado, ocupado e inactivo en el dominio d. Además, suponemos que las probabilidades (pd1,pd2 ) siguen un modelo bivariante de regresión logística con efectos aleatorios de dominio y coeficientes específicos de regresión para cada categoría (parado, ocupado) de la forma 146 ESTADÍSTICA ESPAÑOLA log(pdi / pd3 ) = x dβi + ud, i = 1,2 con ud ≈iid N(0, ϕ), d = 1,…,D, donde x d = (x d1,…, x dp ) contiene los valores de p variables explicativas para el dominio d, u es el efecto aleatorio del dominio d, βi = (β1i,…, βpi )t es el vector de d coeficientes de regresión para la categoría i y ϕ es la varianza de u . d Para cada dominio, las cantidades poblacionales de interés son los totales Y Y d2 d1 e de parados y ocupados junto con las tasas de paro R , dados respectivamente d por Ydi = y dij + j∈Sd y dij, i = 1,2 Rd = y j∈Pd −Sd Yd1 . Yd1 + Yd2 Para obtener estimadores de estas cantidades se pueden predecir los valores y para las unidades externas a la muestra j ∈ Pd − Sd a través del modelo introdudij cido; es decir, tomando ŷ dij = exp(x dβˆ i + uˆ d ) 1+ 2 i =1 exp(x dβˆ i + uˆ d ) , i = 1,2. Así, los estimadores finales (llamados estimadores logit) de los totales de parados y ocupados y de las tasas de paro son respectivamente Yˆ dilogit = j∈Sd y dij + j∈Pd / Sd it = yˆ dij , i=1,2, y R̂log d logit Ŷd1 . Yˆ logit + Yˆ log it d1 d2 Las estimaciones de los coeficientes de regresión βi = (β1i,…, βpi )t , i=1,2, y los predictores de los efectos aleatorios ûd , d=1,…,D, pueden obtenerse aplicando el método de la máxima verosimilitud penalizada, introducido en Schall (1991), al modelo multinomial mixto de este apartado. Las variables auxiliares utilizadas en este modelo son BIPESTRA y REGISTRADO para ambas variables de respuesta. Las fórmulas analíticas y los estimadores de los errores cuadráticos medios de los estimadores logit Ŷdlog it , i=1,2, pueden obtenerse a partir del Apéndice 2 de Molina y otros (2007), pero teniendo en cuenta las particularidades del modelo aquí asumido. ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….147 La diferencia entre nuestro modelo y el que aparece en Molina y otros (2007) radica en la definición del vector respuesta multinomial. En Molina y otros (2007), los totales muestrales de parados y ocupados siguen una distribución multinomial conjunta con tamaño igual al tamaño muestral del dominio. En este trabajo, las cantidades que se asumen que siguen una distribución multinomial son las estimaciones EPA de los mismos totales. Estas estimaciones EPA están “elevadas” a la población a través de los pesos de diseño calibrados (factores de elevación). Por lo tanto el vector multinomial hace referencia a la población y no a la muestra, y el tamaño multinomial es aquí el tamaño poblacional (estimado a partir de los factores de elevación de la EPA). Otras aplicaciones del modelo binomial mixto a la estimación de totales de dominios pueden verse en Saei y Chambers (2003) y GonzálezManteiga y otros (2007). 3.3 EBLUPs basados en los modelos Fay-Herriot independientes Aplicando modelos Fay-Herriot independientes pueden obtenerse estimadores sencillos de los totales de parados y ocupados. Sea Yˆ dEPA el estimador EPA de la media poblacional Yd . Asumimos que Yˆ dEPA = Yd + ed , donde ed ≈iid N(0, σd2 ) . [4] En una segunda etapa, asumimos que Yd está linealmente relacionada con los valores de p variables auxiliares y con el efecto aleatorio del dominio d; es decir, Yd = x dβ + ud , [5] donde los errores e y los efectos aleatorios ud ≈iid N(0, σu2 ) son independientes. d Las varianzas de los errores σ 2d se asumen conocidas y aquí las sustituimos por los errores muestrales estimados de los estimadores Yˆ dEPA , dados en la fórmula [3]. Tras ajustar el modelo por máxima verosimilitud, el estimador EBLUP del total del dominio d, basado en el modelo Fay-Herriot [4] y [5], es ŶdFH = NdYˆ dFH, donde el estimador de la media es la composición del estimador EPA y el estimador sintético; es decir, 148 ESTADÍSTICA ESPAÑOLA Yˆ dFH = γˆ dYˆ dEPA + (1 − γˆ d )x dβˆ , donde γˆ d = σˆ u2 σˆ u2 + σˆ 2d . Para más información véase por ejemplo Rao (2003), cap. 5-6. En este trabajo se ha utilizado el modelo Fay-Herriot con las variables auxiliares BIPESTRA y REGISTRADO para el caso de parados y las variables BIPESTRA y SEXOEDAD para los ocupados. Los totales estimados de parados y ocupados se denotan por FH ŶdFH 1 e Ŷd 2 , respectivamente. Estas estimaciones se introducen en la fórmula de R para obtener las tasas de paro. Estimadores analíticos de los errores cuadráti- d cos medios de ŶdFH 1 , i=1,2, pueden obtenerse aplicando la fórmula (7.1.22), p. 128, de Rao (2003), o alternativamente la fórmula (5.15), p. 167, de Prasad y Rao (1990). Este procedimiento puede dar estimaciones inconsistentes en el sentido de que FH ˆ FH ˆ FH ŶdFH 1 ≥ Nd o Ŷd1 < 0 para algún i, o bien que Yd1 + Yd2 ≥ N d para algún dominio d. Además, se ignoran las dependencias razonables entre los totales de parados y ocupados en los dominios. Sin embargo, son más fáciles de calcular que los modelos logit y la estimación de los errores cuadráticos medios es más sencilla. La comparación de los estimadores FH y logit es interesante de cara a las aplicaciones. 3.4 Consistencia con las estimaciones EPA provinciales Los tamaños muestrales de las provincias se establecen en la EPA para garantizar que las estimaciones de totales ŶpEPA cumplan los estándares de calidad del INE, y así las publicaciones oficiales puedan ser consideradas fiables. Por ello, es conveniente que los totales estimados a nivel de dominio sean consistentes con las estimaciones provinciales. De manera que si la provincia p contiene D dominios y p ˆ ,…, Yˆ Y 1 Dp son las estimaciones de los totales Y1,…, YDp en estos dominios, es deseable que se verifique Yˆ pEPA = Dp Yˆ . d d=1 Generalmente, las estimaciones basadas en modelos no cumplen esta propiedad. Para conseguirlo se pueden multiplicar las estimaciones de totales de dominio por un factor de consistencia de la forma Yˆ dc = λp Yˆ d , donde λp = Yˆ pEPA / Dp Yˆ d d=1 . ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….149 Dado un estimador de la varianza de Ŷd , entonces un estimador naïve de la varianza del estimador transformado Ŷdc es ( ) ( ) Vˆ Yˆ dc = λp2 Vˆ Yˆ d . 4. ESTIMACIÓN DE LA VARIANZA CON REMUESTREO Como se ha mencionado al final de las Secciones 3.2 y 3.3, existen fórmulas explícitas para calcular los errores cuadráticos medios (ECMs) de los estimadores basados en los modelos considerados. No obstante, estas fórmulas son aproximaciones que asumen hipótesis fuertes y que son específicas del modelo, en el sentido de que se obtienen bajo el modelo particular considerado. Por consiguiente, los estimadores de ECMs deducidos de diferentes modelos no son comparables. Asimismo, es deseable introducir métodos que permitan la comparación de estimadores de áreas pequeñas obtenidos a partir de diferentes modelos y que además respete las propiedades del diseño muestral. Los métodos de remuestreo pueden aplicarse de manera similar bajo cualquier modelo estadístico, hacen comparables los resultados obtenidos por los distintos estimadores y, generalmente, se basan en condiciones más débiles que las de las aproximaciones analíticas. Sin embargo, no es fácil encontrar un método computacionalmente factible que tenga en cuenta el diseño muestral. En este apartado se consideran los métodos Jackknife y bootstrap, respecto a la distribución del diseño, introducidos en Herrador y otros (2008) para la Encuesta de Población Activa. 4.1 Jackknife En este apartado, se propone la utilización de un método Jackknife (véase por ejemplo Shao y Tu (1995)) que preserva las propiedades de diseño de la EPA. Las muestras Jackknife se obtienen suprimiendo una UMP cada vez, de modo que hay tantas muestras Jackknife como UMPs estén presentes en la muestra EPA original. Para cada muestra Jackknife los pesos muestrales se obtienen a partir de los pesos muestrales de la EPA. Sea w (2) hik el peso muestral no calibrado del individuo k * de la UMP i del estrato h. Considérese la muestra Jackknife S(g,j) obtenida quitan- do la UMP j del estrato g. Así, en la muestra Jackknife el número de UMPs del estrato g es una unidad menos, mg − 1 en lugar de mg . Sin embargo, los tamaños mh del resto de estratos h≠g no cambian. Con lo cual, sólo hay que modificar los 150 ESTADÍSTICA ESPAÑOLA pesos muestrales del estrato g, sustituyendo mg por mg − 1 en 1). El nuevo peso (llamado peso Jackknife) del individuo k de la UMP i del estrato h en la muestra * (2) es el mismo si h≠g y es w (2) Jackknife S(g,j) hik(g,j) = w hik mg /(mg − 1) si h=g. Finalmente, se calibran los pesos Jackknife de la misma forma que los de las muestras EPA. Sea θ un parámetro poblacional que se estima con θ̂ . La estimación de la varianza var( θˆ ) y del ECM ecm ( θˆ ) se hace de la siguiente forma: J * , Se utiliza la muestra S para la extracción de las muestras Jackknife S(g,j) g=1,…,L, j=1,…,mg, eliminando una UMP cada vez. Para cada muestra Jackknife * , de la misma forma que se calculó θ̂, pero usando la se calcula el estimador θ̂(g,j) muestra Jackknife y los pesos Jackknife calibrados. La distribución observada de * θˆ (g,j) : g = 1,...,L; j = 1,...mg imita la distribución del estimador θ̂ . { 1) } El estimador jackknife de la varianza de θ̂ es varJ (θˆ ) = L mg − 1 mg g=1 mg ( θˆ * (g,j) − θˆ *g j =1 1 θˆ *g = mg 2) 2 y biasJ (θˆ ) = L (m g ( ) − 1) θˆ g* − θˆ , g =1 mg θˆ * (g,j) . j=1 El estimador Jackknife del error cuadrático medio de θ̂ y su coeficiente de variación asociado son ecmJ ( θˆ ) = L g=1 4.2 ) mg − 1 mg mg ( j=1 * θˆ (g,j) − θˆ ) 2 y () cv J θˆ = ( ) ⋅ 100. ecmJ θˆ θˆ Bootstrap El método bootsrap descrito en Herrador y otros (2008) para la estimación de errores cuadráticos medios de estimadores de áreas pequeñas en la Encuesta de Población Activa se resume en los siguientes pasos: ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….151 1. Imitando el diseño muestral de la EPA, generar muestras bootstrap. 2. Para cada muestra boostrap, calcular el estimador θ̂ . Los denotamos por θ̂1* ,…, θ̂B* . 3. Los estimadores bootstrap del error cuadrático medio y de la varianza y son () ecmB θˆ = (B − 1)−1 B () (θb* − θˆ )2 varB θˆ = (B − 1)−1 b =1 B (θˆ b* − θˆ * )2 , θˆ * = B −1 b =1 B θˆ * b . b =1 5. RESULTADOS Y CONCLUSIONES En las Tablas A.1 y A.2 del Anexo se presentan, para hombres y mujeres respectivamente, las estimaciones EPA, FH y logit de los totales de parados y ocupados y de las tasas de paro por dominios. En las Figuras 4 y 5 se muestran, para hombres y mujeres respectivamente, las tasas de paro obtenidas por los tres métodos frente a las áreas ordenadas por tamaño muestral creciente. Observamos que, tanto en las tablas como en las figuras, los estimadores basados en modelos obtienen valores similares claramente diferenciados de las estimaciones directas, siendo estas diferencias mayores para las áreas de menor tamaño. Figura 4 ESTIMACIONES EPA, FH Y LOGIT DE TASAS DE PARO DE HOMBRES POR DOMINIOS DE LAS ISLAS CANARIAS 20 Tasas de paro - Hombres 18 EPA FH logit 16 14 12 10 8 6 4 2 0 4 25 22 10 3 16 19 2 23 5 8 13 6 26 17 18 14 9 Áreas ordenadas crecientemente por el tamaño muestral 1 11 12 20 15 7 152 ESTADÍSTICA ESPAÑOLA Figura 5 ESTIMACIONES EPA, FH Y LOGIT DE TASAS DE PARO DE MUJERES POR DOMINIOS DE LAS ISLAS CANARIAS 45 EPA FH logit 40 Tasas de paro - Mujeres 35 30 25 20 15 10 5 0 4 25 22 10 3 16 19 2 23 5 8 13 6 26 17 18 14 9 1 11 12 20 15 7 Áreas ordenadas por el tamaño muestral creciente En la Figura 6 se puede apreciar mejor este comportamiento. En esta figura se muestran las diferencias relativas de las estimaciones FH y logit de tasas de paro de mujeres con respecto a sus correspondientes estimaciones EPA frente a los tamaños muestrales de los dominios. Claramente, se puede apreciar el decrecimiento de las diferencias relativas conforme aumenta el tamaño muestral. Las diferencias entre las estimaciones basadas en modelos y las EPA son menores del 50% para los dominios con tamaños muestrales mayores que 100. De hecho, los dos puntos más alejados a la derecha (con el mayor tamaño muestral) son muy próximos a cero. Esto significa que para los dominios con un tamaño muestral suficientemente grande para obtener un estimador EPA fiable (con buenas propiedades de diseño), los estimadores basados en modelos toman casi los mismos valores. Además, las diferencias parecen distribuirse en torno a cero con ambos signos, positivos y negativos, indicando que los estimadores basados en modelos no parecen estar sesgados en una dirección específica. ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….153 Figura 6 DIFERENCIAS RELATIVAS DE LAS ESTIMACIONES FH Y LOGIT DE TASAS DE PARO DE MUJERES CON RESPECTO A SUS CORRESPONDIENTES ESTIMACIONES EPA FRENTE A LOS TAMAÑOS MUESTRAL DE LOS DOMINIOS 3 (FH-EPA)/EPA (logit-EPA)/EPA 2,5 D iferencias relativas - M ujeres 2 1,5 1 0,5 0 0 200 400 600 800 1.000 1.200 -0,5 -1 -1,5 Tamaño muestral En las Tablas A.3 y A.4 del Anexo se presentan los valores de los coeficientes de variación obtenidos por las fórmulas analíticas y por el método Jackknife. Las columnas encabezadas por la etiqueta “Jackknife” contienen estimaciones Jackknife de ECMs relativos. Las columnas encabezadas por la etiqueta “Fórmula analítica” contienen estimaciones de la varianza relativa (EPA) o del ECM relativo (FH y logit) obtenidas por los estimadores de fórmula cerrada descritos en la sección 3. Conviene recordar que el estimador EPA es básicamente insesgado, propiedad que se ha visto corroborada empíricamente con las estimaciones Jackknife del sesgo. Las estimaciones de los coeficientes de variación del estimador EPA obtenidas por ambos métodos presentan algunas discrepancias significativas, como puede verse al observar por ejemplo las áreas 5, 6 y 8. Ello es debido a varias razones. 154 ESTADÍSTICA ESPAÑOLA Por una parte, las hipótesis bajo las cuales se obtiene el estimador simplificado (3) no se verifican en la Encuesta de Población Activa. Lo cual hace que sea poco recomendable la utilización del estimador de fórmula cerrada. Por otra parte, el método Jackknife para muestreo bietápico tiene problemas para estimar con precisión la varianza o el ECM de los estimadores directos (aquellos que sólo usan la información de su área), ya que las secciones censales están contenidas en las áreas. Obsérvese que si se elimina una sección no contenida en el área, el estimador directo no se ve afectado. En caso contrario se ve afectado drásticamente. El resultado es que la distribución de los estimadores directos en las muestras Jackknife no imita bien su distribución en la muestra del diseño original. El estimador EPA es un estimador directo y hereda los problemas descritos. Paradójicamente es más difícil estimar la varianza o el ECM del estimador EPA que las citadas magnitudes en estimadores basados en modelos. Los resultados obtenidos por ambos métodos son similares para los estimadores FH y logit. Puesto que las fórmulas explícitas se obtienen analíticamente para cada modelo, la similitud observada indica que los dos modelos considerados son razonables para el análisis de los datos, o alternativamente que las fórmulas de ECM utilizadas son aceptablemente robustas respecto de desviaciones de las hipótesis de los modelos. En la Tabla A.5 (Anexo) se presentan las estimaciones Jackknife y bootstrap de los coeficientes de variación (en %) de los estimadores logit de totales y tasas de paro. Los valores obtenidos por ambos métodos tienen un comportamiento análogo a lo largo de las áreas, proporcionando estimaciones relativamente similares. Así todo el método bootstrap presenta algunos inconvenientes que lo hacen menos atractivo. Resumiendo, los inconvenientes principales del método bootstrap son: • Es un método excesivamente complejo que requiere una gran carga de trabajo. • Las muestras originales se extraen sin reemplazamiento y el método bootstrap hay que implementarlo con reemplazamiento. En consecuencia, no hay una proximidad aceptable de las distribuciones de los estimadores en la muestra original y en las muestras bootstrap. • El método bootstrap necesita ser corregido, pues tiende a sobrestimar el ECM. La forma de corregirlo en muestras complejas es un problema que aun no está resuelto en la literatura estadística. Los errores cuadráticos medios del estimador EPA son generalmente mayores que los de los estimadores FH y logit, tanto para hombres como para mujeres. Este comportamiento se puede observar en las Fifuras 7 y 8 donde se representan los coeficientes de variación de los tres estimadores para los totales de parados ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….155 hombres y mujeres respectivamente. Los estimadores basados en modelos producen estimaciones para los dominios sin muestra, véanse los dominios 21 y 24. También toman información prestada de otros dominios, a través de las variables auxiliares, para reducir su error cuadrático medio. Así pues, estos estimadores parecen ser más convenientes que los EPA para la mayoría de dominios. Figura 7 CV Jacknife (en %) de totales de parados Hombres COEFICIENTES DE VARIACIÓN JACKKNIFE (EN %) DE LAS ESTIMACIONES EPA, FH Y LOGIT DE LOS TOTALES DE HOMBRES PARADOS POR DOMINIOS DE LAS ISLAS CANARIAS 140 120 EPA FH logit 100 80 60 40 20 0 25 22 10 19 3 16 2 8 23 26 5 6 17 18 13 9 14 11 1 12 20 15 7 Áreas ordenadas por tamaño muestral creciente Figura 8 CV Jacknife (en %) de totales de parados Mujeres COEFICIENTES DE VARIACIÓN JACKKNIFE (EN %) DE LAS ESTIMACIONES EPA, FH Y LOGIT DE LOS TOTALES DE MUJERES PARADAS POR DOMINIOS DE LAS ISLAS CANARIAS 300 EPA FH logit 250 200 150 100 50 0 27 4 25 22 10 3 16 19 23 5 8 13 6 26 17 18 14 9 Áreas ordenadas por tamaño muestral creciente 1 11 12 20 15 7 156 ESTADÍSTICA ESPAÑOLA El estimador FH es ligeramente menos eficiente y robusto que el logit, obteniendo errores cuadráticos medios elevados en algunos dominios; véase por ejemplo el dominio 2 en la Figura 7 y el dominio 8 en la Figura 8. Puesto que este estimador está basado en un modelo lineal, también puede dar valores negativos. Por ejemplo, en el dominio 2 de la Tabla A.2 (Anexo)se obtuvo un valor negativo del total de mujeres paradas que ha sido sustituido por cero. Debido a las ventajas de ganancia de precisión y a la consistencia de las estimaciones, pensamos que el procedimiento de estimación basado en el modelo multinomial mixto (logit) es preferible al basado en los dos modelos lineales mixtos independientes. Como recomendaciones finales, nos gustaría señalar que los modelos a nivel de unidad no se pueden aplicar siempre porque las variables auxiliares a este nivel pueden no estar disponibles. Incluso disponiendo de dichas variables a nivel de unidad y de área, podrían existir inconsistencias entre sus definiciones y en estos casos podría ser peligroso incluir todas esas variables en el modelo. Los modelos a nivel de área utilizados en este trabajo (Fay-Herriot y multinomial mixto) sólo necesitan valores agregados de las variables auxiliares y por tanto son más aplicables en la práctica. Además, estos modelos permiten introducir un estimador directo (en este trabajo el estimador EPA) como respuesta en el modelo, haciendo que el estimador final conserve algunas propiedades del diseño. Por ejemplo, el estimador obtenido a partir del modelo Fay-Herriot es una composición del estimador EPA y el estimador sintético. Resumiendo, en este trabajo se proporcionan dos tipos de estimaciones basadas en modelos para totales de parados y ocupados y para tasas de paro en dominios de las Islas Canarias, junto con sus correspondientes estimaciones directas. Se proporcionan los coeficientes de variación estimados por tres métodos distintos, las fórmulas analíticas, un procedimiento computacionalmente factible (Jackknife) que conserva las propiedades del diseño muestral y un procedimiento bootstrap que conlleva una gran carga de trabajo y que tiende a sobresestimar los ECMs. Los resultados indican que el estimador logit es más eficiente para estimar el total de parados, el total de ocupados y la tasa de paro, siendo un procedimiento interesante para estimar estas cantidades en la EPA. Como método para estimar su ECM respecto del diseño de la EPA, se recomienda el método Jackknife. ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….157 ANEXO: RESULTADOS POR SEXO PARA LOS DOMINIOS DE LAS ISLAS CANARIAS Tabla A1 ESTIMACIONES DE LOS TOTALES DE HOMBRES PARADOS, OCUPADOS Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS DE LA EPA 2003-2 (Continúa) HOMBRES TOTAL PARADOS Área n EPA FH logit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 144 60 41 12 80 85 1.149 73 115 35 143 167 99 126 726 44 86 97 37 193 20 73 19 75 13 550 141 526 0 1.131 458 13.544 319 1.239 369 2.451 2.295 343 2.548 9.261 507 1.848 496 966 5.502 210 837 194 1.599 0 1.865 72 196 100 967 260 14.264 695 1.185 275 1.162 1.980 506 1.833 10.389 681 1.328 1.289 1.022 3.848 184 226 911 327 206 1.244 316 1.765 185 242 86 956 337 14.189 583 1.163 233 1.222 2.061 447 1.644 10.372 632 1363 1.479 851 4.195 156 241 880 247 184 1.438 182 158 ESTADÍSTICA ESPAÑOLA Tabla A1 ESTIMACIONES DE LOS TOTALES DE HOMBRES PARADOS, OCUPADOS Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS DE LA EPA 2003-2 (Continuación) HOMBRES TOTAL OCUPADOS Área n EPA FH logit 1 144 23.352 23.017 22.009 2 60 7.929 5.243 5.862 3 41 5.545 4.135 4.777 4 12 1.048 2.501 2.023 5 80 9.774 10.931 10.474 6 85 11.456 9.679 9.555 7 1.149 116.970 121.885 121.745 8 73 7.204 9.124 8.894 9 115 10.018 9.832 9.404 10 35 2.505 2.647 2.259 11 143 19.363 16.139 17.045 12 167 25.197 25.230 26.316 13 99 15.759 12.581 11.685 14 126 18.673 14.264 14.017 15 726 95.729 96.154 95.099 16 44 4.884 4.084 3.566 17 86 12.085 6.890 7.433 18 97 19.095 33.106 34.816 19 37 4.774 9.605 9.222 20 193 26.709 23.767 25.166 21 - - 1.326 1.024 22 20 3.242 3.564 3.610 23 73 10.528 7.636 7.645 24 - - 2.102 1.836 25 19 1.781 1.064 856 26 75 11.529 7.495 8.401 27 13 1.122 2.272 1.534 ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….159 Tabla A1 ESTIMACIONES DE LOS TOTALES DE HOMBRES PARADOS, OCUPADOS Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS DE LA EPA 2003-2 (Conclusión) HOMBRES TASA DE PARO Área n EPA FH logit 1 144 2,30 7,50 7,42 2 60 1,75 1,36 3,06 3 41 8,66 4,54 4,83 4 12 0,00 3,86 4,08 5 80 10,37 8,13 8,36 6 85 3,84 2,62 3,41 7 1.149 10,38 10,48 10,44 8 73 4,24 7,08 6,15 9 115 11,01 10,75 11,01 10 35 12,85 9,41 9,35 11 143 11,24 6,72 6,69 12 167 8,35 7,28 7,26 13 99 2,13 3,87 3,69 14 126 12,01 11,39 10,50 15 726 8,82 9,75 9,83 16 44 9,40 14,30 15,05 17 86 13,26 16,16 15,50 18 97 2,53 3,75 4,07 19 37 16,83 9,62 8,45 20 193 17,08 13,93 14,29 21 - - 12,20 13,20 22 20 6,09 5,96 6,25 23 73 7,37 10,66 10,32 24 - - 13,46 11,87 25 19 9,81 16,24 17,67 26 75 12,18 14,23 14,61 27 13 0,00 12,20 10,59 160 ESTADÍSTICA ESPAÑOLA Tabla A2 ESTIMACIONES DE LOS TOTALES DE MUJERES PARADAS, OCUPADAS Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS DE LA EPA 2003-2 (Continúa) MUJERES TOTAL PARADAS Área n EPA FH logit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 152 61 41 18 74 78 1.247 76 143 34 156 160 77 132 859 41 95 111 43 214 20 71 19 79 15 3.168 187 119 229 467 635 15.637 289 1.263 328 959 1.889 787 1.791 11.802 681 2.530 1.253 426 5.054 472 1.528 203 446 545 2.823 0 141 207 638 527 16.118 107 920 345 1.237 2.107 863 1.515 11.422 746 1.302 2.321 998 4.575 334 163 1.350 187 310 1.056 377 2.921 151 190 139 652 547 16.209 245 862 290 1.056 1.908 851 1.385 11.631 885 1.523 2.459 884 4.480 225 135 1.437 146 368 867 242 ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….161 Tabla A2 ESTIMACIONES DE LOS TOTALES DE MUJERES PARADAS, OCUPADAS Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS DE LA EPA 2003-2 (Continuación) MUJERES TOTAL OCUPADAS Área n EPA FH logit 1 152 14.836 15.236 14.721 2 61 5.659 3.469 3.972 3 41 3.931 2.151 2.793 4 18 702 1.337 870 5 74 7.096 7.180 7.518 6 78 7.807 5.359 5.810 7 1.247 73.425 78.726 79.615 8 76 3.567 5.550 4.577 9 143 7.688 5.437 6.196 10 34 1.559 1.285 1.341 11 156 12.508 10.597 9.935 12 160 13.755 16.205 15.186 13 77 8.343 8.141 7.881 14 132 11.718 9.344 8.704 15 859 68.788 65.691 66.722 16 41 3.211 2.150 2.460 17 95 7.088 3.970 4.460 18 111 14.857 22.253 23.862 19 43 3.906 6.287 6.008 20 214 14.183 14.796 13.272 21 - - 390 391 22 20 1.064 2.127 1.615 23 71 5.417 4.394 4.572 24 - - 1.015 1.114 25 19 1.517 423 507 26 79 5.968 4.222 3.950 27 15 344 1.202 887 162 ESTADÍSTICA ESPAÑOLA Tabla A2 ESTIMACIONES DE LOS TOTALES DE MUJERES PARADAS, OCUPADAS Y TASAS DE PARO EN DOMINIOS DE LAS ISLAS CANARIAS, CON DATOS DE LA EPA 2003-2 (Conclusión) MUJERES TASA DE PARO Área n EPA FH logit 1 152 17,60 15,63 16,56 2 61 3,20 0,00 3,65 3 41 2,94 6,17 6,39 4 18 24,61 13,39 13,75 5 74 6,18 8,16 7,98 6 78 7,52 8,95 8,61 7 1.247 17,56 16,99 16,92 8 76 7,48 1,90 5,09 9 143 14,11 14,47 12,21 10 34 17,37 21,18 17,79 11 156 7,12 10,45 9,61 12 160 12,08 11,51 11,16 13 77 8,62 9,58 9,75 14 132 13,26 13,95 13,73 15 859 14,64 14,81 14,84 16 41 17,50 25,75 26,46 17 95 26,30 24,69 25,46 18 111 7,78 9,45 9,34 19 43 9,84 13,70 12,82 20 214 26,27 23,62 25,24 21 - - 46,15 36,47 22 20 30,73 7,11 7,72 23 71 22,00 23,50 23,91 24 - - 15,54 11,59 25 19 11,81 42,32 42,07 26 79 6,95 20,01 18,00 27 15 61,26 23,87 21,46 ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….163 Tabla A3 ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS TOTALES Y TASAS DE PARO DE HOMBRES EN DOMINIOS DE LAS ISLAS CANARIAS (Continúa) HOMBRES TOTAL PARADOS FÓRMULA ANALÍTICA Área n EPA FH logit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 144 60 41 12 80 85 1.149 73 115 35 143 167 99 126 726 44 86 97 37 193 20 73 19 75 13 72,14 99,17 55,50 40,18 57,63 11,55 70,05 37,12 68,17 31,80 29,59 71,07 29,38 14,78 68,72 34,45 70,27 47,42 21,13 98,05 56,44 97,93 36,58 - 19,28 168,33 47,64 42,44 25,48 63,23 11,23 33,94 24,06 29,12 19,11 25,66 54,46 9,93 12,03 33,28 15,84 45,76 12,77 9,70 75,23 42,95 16,74 37,17 32,77 12,70 26,20 18,47 32,78 21,09 28,10 26,17 26,34 9,87 24,63 22,95 27,11 15,20 21,57 34,79 13,32 11,83 25,15 23,76 28,81 17,81 13,15 57,72 31,06 18,90 33,08 36,33 14,80 34,77 164 ESTADÍSTICA ESPAÑOLA Tabla A3 ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS TOTALES Y TASAS DE PARO DE HOMBRES EN DOMINIOS DE LAS ISLAS CANARIAS (Continuación) HOMBRES TOTAL PARADOS JACKKNIFE Área n EPA FH logit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 144 60 41 12 80 85 1.149 73 115 35 143 167 99 126 726 44 86 97 37 193 20 73 19 75 13 71,05 100,29 66,92 67,56 74,51 15,32 100,15 49,66 71,02 51,95 51,28 71,26 54,60 15,39 70,85 52,22 100,00 75,83 35,87 28,85 58,39 41,90 65,33 - 22,39 132,71 51,05 39,83 29,87 62,66 12,68 34,85 24,72 29,49 20,25 32,16 46,01 13,36 14,38 41,73 17,29 39,58 14,36 15,74 62,33 49,36 17,70 33,55 35,45 17,12 34,01 22,49 29,46 22.10 36,24 33,77 25,18 12,76 28,25 24,54 39,16 18,18 26,32 30,04 16,37 14,35 28,04 19,74 30,87 19,82 17,10 54,95 30,17 17,90 31,08 35,11 16,29 51,85 ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….165 Tabla A3 ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS TOTALES Y TASAS DE PARO DE HOMBRES EN DOMINIOS DE LAS ISLAS CANARIAS (Conclusión) HOMBRES TASA DE PARO JACKKNIFE Área 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 n EPA FH logit 144 60 41 12 80 85 1.149 73 115 35 143 167 99 126 726 44 86 97 37 193 20 73 19 75 13 21,24 131,28 49,00 38,51 27,78 61,36 11,96 32,74 22,89 27,47 19,45 30,72 44,42 12,52 14,04 35,56 16,05 38,34 13,53 14,30 54,68 46,54 16,38 30,01 30,91 15,52 30,56 21,76 28,04 21,25 23,49 30,50 26,37 12,17 22,34 21,99 21,88 15,75 25,53 31,94 12,40 14,17 24,75 22,18 28,72 15,08 15,09 47,17 29,31 18,16 27,48 25,09 13,66 29,32 22,34 26,16 25,90 27,33 24,96 33,24 20,48 26,06 27,60 27,06 19,61 30,81 24,95 22,35 25,14 34,87 35,59 27,54 19,60 24,65 56,56 28,30 19,73 39,68 35,68 27,42 41,54 166 ESTADÍSTICA ESPAÑOLA Tabla A4 ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS TOTALES Y TASAS DE PARO DE MUJERES EN DOMINIOS DE LAS ISLAS CANARIAS (Continúa) MUJERES TOTAL PARADAS FÓRMULA ANALÍTICA Área n EPA FH logit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 152 61 41 18 74 78 1.247 76 143 34 156 160 77 132 859 41 95 111 43 214 20 71 19 79 15 30,03 98,83 98,95 69,00 69,71 56,06 10,14 69,83 34,91 68,53 41,86 35,34 57,50 37,83 12,54 55,83 27,44 40,14 69,34 20,53 66,90 39,37 97,73 70,32 63,59 15,56 58,44 20,24 27,57 24,88 10,25 271,33 32,88 31,64 16,46 23,83 28,41 18,45 11,75 31,74 15,33 26,74 16,24 9,57 35,40 55,79 11,09 86,07 20,51 14,08 22,15 19,77 39,28 32,34 29,47 21,24 21,13 9,07 39,76 26,20 38,00 16,32 22,97 26,25 19,93 11,01 37,36 21,27 25,33 21,26 14,22 52,51 36,85 17,02 52,76 36,09 20,15 36,37 ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….167 Tabla A4 ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS TOTALES Y TASAS DE PARO DE MUJERES EN DOMINIOS DE LAS ISLAS CANARIAS (Continuación) MUJERES TOTAL PARADAS JACKKNIFE Área n EPA FH logit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 152 61 41 18 74 78 1.247 76 143 34 156 160 77 132 859 41 95 111 43 214 20 71 19 79 15 56,80 100,35 101,82 45,93 68,35 53,96 13,57 70,95 54,11 71,36 58,70 41,14 74,15 56,48 16,02 73,13 49,03 51,86 100,21 25,55 28,25 63,01 41,36 70,64 41,24 24,97 49,01 31,55 33,64 30,93 11,15 258,64 28,58 30,23 17,08 22,91 26,75 21,01 15,52 29,63 16,56 24,71 19,92 12,21 31,89 65,09 16,83 81,87 34,21 18,60 30,18 33,74 55,14 40,56 53,12 23,61 23,96 11,30 43,32 30,50 65,46 15,80 23,66 28,47 23,06 15,02 38,60 15,23 29,16 45,00 14,44 40,28 35,03 27,27 56,72 23,80 20,19 37,95 168 ESTADÍSTICA ESPAÑOLA Tabla A4 ESTIMACIONES DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS TOTALES Y TASAS DE PARO DE MUJERES EN DOMINIOS DE LAS ISLAS CANARIAS (Conclusión) MUJERES TASA DE PARO JACKKNIFE Área n EPA FH logit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 152 61 41 18 74 78 1.247 76 143 34 156 160 77 132 859 41 95 111 43 214 20 71 19 79 15 35,62 106,13 165,25 8,24 78,43 48,96 11,86 63,77 43,54 72,34 53,36 31,61 67,27 48,54 16,06 14,81 28,24 30,56 133,14 14,35 5,43 38,20 8,63 67,84 3,78 21,57 46,69 27,72 32,45 29,70 10,44 253,62 24,42 24,07 16,03 23,23 24,91 19,23 15,12 22,77 16,08 23,30 19.75 11,66 34,73 63,28 15,55 75,07 25,92 18,06 29,85 23,95 39,94 31,30 27,20 24,53 24,22 10,87 40,09 24,57 31,02 14,93 25,44 23,94 21,81 15,00 37,90 19,39 22,68 20.12 13,64 47,15 37,13 20,94 59,12 49,24 18,96 42,08 ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….169 Tabla A5 ESTIMACIONES JACKKNIFE Y BOOTSTRAP DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS ESTIMADORES LOGIT DE TOTALES Y TASAS DE PARO (Continúa) LOGIT TOTAL PARADOS HOMBRES Área 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Jackknife 22,49 29,46 22,10 36,24 33,77 25,18 12,76 28,25 24,54 39,16 18,18 26,32 30,04 16,37 14,35 28,04 19,74 30,87 19,82 17,10 54,95 30,17 17,90 31,08 35,11 16,29 51,85 Bootstrap 26,41 43,26 29,79 42,16 39,92 33,92 16,41 35,06 34,41 47,83 23,17 35,26 45,50 20,94 18,79 41,47 34,58 41,24 23,69 23,04 100,42 42,98 26,19 45,61 55,52 21,64 64,35 MUJERES Jackknife 33,74 55,14 40,56 53,12 23,61 23,96 11,30 43,32 30,50 65,46 15,80 23,66 28,47 23,06 15,02 38,60 15,23 29,16 45,00 14,44 40,28 35,03 27,27 56,72 23,80 20,19 37,95 Bootstrap 37,12 59,34 53,01 57,14 31,22 32,17 14,81 67,40 40,04 92,71 23,14 32,65 37,19 32,47 17,96 60,22 27,36 38,70 36,90 20,03 83,95 61,96 29,78 94,11 57,02 28,90 64,90 170 ESTADÍSTICA ESPAÑOLA Tabla A5 ESTIMACIONES JACKKNIFE Y BOOTSTRAP DE LOS COEFICIENTES DE VARIACIÓN (EN %) DE LOS ESTIMADORES LOGIT DE TOTALES Y TASAS DE PARO (Conclusión) LOGIT TASAS DE PARO HOMBRES Área 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Jackknife 22,34 26,16 25,90 27,33 24,96 33,24 20,48 26,06 27,60 27,06 19,61 30,81 24,95 22,35 25,14 34,87 35,59 27,54 19,60 24,65 56,56 28,30 19,73 39,68 35,68 27,42 41,54 Bootstrap 24,99 42,22 28,41 30,76 37,08 34,71 15,78 31,98 30,51 32,45 20,65 33,32 45,81 18,17 18,61 34,90 34,84 38,68 21,27 20,84 74,79 42,30 25,73 39,28 40,15 18,86 42,35 MUJERES Jackknife 23,95 39,94 31,30 27,20 24,53 24,22 10,87 40,09 24,57 31,02 14,93 25,44 23,94 21,81 15,00 37,90 19,39 22,68 20,12 13,64 47,15 37,13 20,94 59,12 49,24 18,96 42,08 Bootstrap 30,18 55,52 47,40 35,38 30,89 31,22 13,93 57,53 33,87 55,11 20,31 33,02 33,52 29,21 17,34 55,89 26,71 33,30 25,41 17,96 48,46 50,93 23,21 86,01 45,03 24,88 45,91 ESTIMADORES DE ÁREAS PEQUEÑAS BASADOS EN MODELOS PARA LA ENCUESTA DE ….171 REFERENCIAS DEVILLE, J.C. Y SÄRNDAL, C.E. (1992), «Calibration estimators in survey sampling». Journal of the American Statistical Society, 87, 376-382. FAY, R.E. Y HERRIOT, R.A. (1979), «Estimates of income for small places: An application of James-Stein procedures to census data». Journal of the American Statistical Association, 74(366), 269-277. GONZÁLEZ-MANTEIGA W., LOMBARDÍA M.J., MOLINA I., MORALES D. Y SANTAMARÍA L. (2007), «Estimation of the mean squared error of predictors of small area linear parameters under a logistic mixed model». Computational Statistics and Data Analysis, 51(5), 2720-2733. HERRADOR, M., MORALES, D., ESTEBAN, M.D., SÁNCHEZ, A., SANTAMARÍA, L., MARHUENDA Y. Y PÉREZ, A. (2008), «Sampling design variance estimation of small area estimators in the Spanish Labour Force survey». SORT, 32(2), 177-198. MOLINA, I., SAEI, A. Y LOMBARDÍA, M.J. (2007), «Small area estimates of labour force participation under multinomial logit mixed model». The Journal of the Royal Statistical Society, series A, 170, 975-1000. PRASAD, N.G.N. Y RAO, J.N.K. (1990), «The estimation of the mean squared error of small-area estimators». Journal of the American Statistical Association, 85, 163-171. RAO, J.N.K. (2003), «Small area estimation». John Wiley. SAEI, A. Y CHAMBERS, R. (2003), «Small area estimation under linear and generalized linear mixed models with time and area effects». S3RI Methodology Working Paper M03/15, Southampton Statistical Sciences Research Institute, University of Southampton. SÄRNDAL, C.E., SWENSSON, B. pling». Springer-Verlag. Y WRETMAN J. (1992), «Model assisted survey sam- SCHALL, R. (1991), «Estimation in Generalized Linear Models with Random Effects». Biometrika 78, 719-727. SHAO, J. Y TU, D. (1995), «The Jackknife and the Bootstrap». Springer. INE (2005), «Informe Técnico de la Encuesta de Población Activa» ISTAC (2008). «Encuesta de Población Activa. Metodología para la estimación en pequeñas áreas de Canarias». 172 ESTADÍSTICA ESPAÑOLA MODEL-BASED SMALL AREA ESTIMATORS FOR THE SPANISH LABOUR FORCE SURVEY ABSTRACT This paper deals with small area estimation of labour force characteristics like totals of employed or unemployed people and unemployment rates under complex sampling designs. Small area estimators of these quantities are derived from two existing model-based approaches adapted to the Spanish Labour Force Survey in the Canary Islands. The mean squared errors are estimated both by explicit formulas and by Jackknife and bootstrap methods that respects the design properties of the data. Finally, a comparison of the different approaches for small area estimation and for the approximation of the mean squared errors is given. Key words: Labour Force Survey, small area estimation, area level models, mixed models, Jackknife, unemployment totals, unemployment rates. AMS subject classification: 62E30, 62J12.