DISEÑO MUESTRAL ENCUESTA DE OCUPACIÓN Y DESOCUPACIÓN EN EL GRAN SANTIAGO DICIEMBRE 2006 DOCUMENTO EN PROGRESO NO CITAR PRESENTACION El Centro de Microdatos del Departamento de Economía, Universidad de Chile, presenta el Documento Metodológico de la Encuesta de Ocupación y Desocupación en el Gran Santiago (en adelante, Encuesta). Esta publicación tiene como objetivo dar a conocer a los usuarios de la información de la Encuesta, un panorama sobre la base conceptual y metodológica en que ésta se sustenta, así como también la estructura operativa de la misma. En el presente documento se relata brevemente la historia de esta encuesta, para luego describir los requerimientos y diseño de la muestra, las diferentes etapas de selección, el esquema de rotación, y sus implicancias sobre el cálculo de estimadores (medias y varianzas) de las situación ocupacional. Con base a lo anterior el Departamento de Economía de la Universidad de Chile ofrece a los usuarios de datos, los elementos necesarios para una adecuada interpretación de los resultados obtenidos por la Encuesta y un correcto análisis de la ocupación y desocupación en el Gran Santiago. Este informe consta de un resumen ejecutivo, un cuerpo de ocho capítulos y una sección complementaria de anexos, todos los cuales se distribuyen como sigue. En el primer capítulo se presentan los objetivos de la Encuesta, para en una segunda sección proveer algunos antecedentes históricos de la misma. En el tercer capítulo se caracteriza la población objetivo, el marco muestral, el proceso de selección de la muestra y su tamaño. Seguidamente, se describen los procesos de selección de las unidades primarias y secundarias de muestreo, y el esquema de rotación de la muestra. Finalmente, se detalla el cálculo de estadísticas laborales, explicando como se calculan los ponderadores de le Encuesta y un conjunto de estadísticas ocupacionales. El último capítulo ofrece metodologías alternativas para la estimación de varianzas de los estimadores antes descritos. 2 INDICE Resumen ejecutivo.................................................................................................. 4 1. Introducción......................................................................................................... 6 2. Reseña histórica.................................................................................................. 7 3. Requerimientos y diseño de la muestra .............................................................. 9 3.1 Población objetivo .......................................................................................... 9 3.2. Características generales del muestreo ..................................................... 10 3.3. Tamaño de la muestra................................................................................. 10 4. Selección de unidades primarias de muestreo.................................................. 12 4.1. Estratificación de las UPM........................................................................... 12 4.2. Selección de las UPM ................................................................................. 13 5. Selección de unidades secundarias de muestreo ............................................. 15 5.1. Listado de las USM ..................................................................................... 15 5.2. Selección de las USM ................................................................................. 16 6. Esquema de rotación de la muestra.................................................................. 19 7. Estimación de estadísticas laborales ................................................................ 20 7.1. Calculo de ponderadores ............................................................................ 21 7.2. Estimadores de estadísticas laborales ........................................................ 25 8. Estimación de Varianza.................................................................................... 28 8.1. Estimación con múltiples réplicas................................................................ 28 8.2. Modelos de estimación de varianza ............................................................ 29 ANEXOS ............................................................................................................... 32 3 Resumen ejecutivo La Encuesta de Ocupación y Desocupación del Gran Santiago (EOD), financiada principalmente por el Banco Central de Chile, es en Latinoamérica la fuente de datos más antigua sobre estadísticas laborales de la población chilena. Este informe metodológico se centra en las estadísticas laborales generadas, pues es la recolección de estos datos el principal propósito de la encuesta. La EOD es administrada por el Centro de Microdatos del Departamento de Economía de la Universidad de Chile, utilizando una muestra de aproximadamente 3.060 hogares del Gran Santiago. Las preguntas sobre la situación ocupacional de los entrevistados de 14 años y más se refieren a una semana (desde un domingo hasta el siguiente sabado) comprendida en los meses de Marzo, Junio, Septiembre y Diciembre de cada año. El trabajo de campo comienza el sabado en que finaliza la semana de referencia y se extiende por un período de mínimo una semana y máximocuatro semanas, dependiendo de las dificultades enfrentadas durante el levantamiento (temporales en invierno, fiestas patrias, fiestas de fin de año, etc.). Son seleccionados para participar en la muestra hogares en las 34 comunas del Gran Santiago. Los hogares seleccionados participan en la encuesta por dos períodos consecutivos, dejan la muestra por los dos períodos siguientes y vuelven a participar nuevamente por dos periodos más, al término de los cuales dejan la muestra en forma permanente. Para ser elegible para responder la EOD, la persona entrevistada debe tener 14 años o más. Quienes se encuentran temporal o permanentemente en instituciones tales como cárceles, hospitales y casas de reposo, por definición no son elegibles para participar en la encuesta. En la mayoría de los hogares es una persona solamente quien responde por todos los miembros del hogar. Si la persona que responde no sabe del estatus laboral de los otros miembros del hogar, entonces se realizan esfuerzos adicionales por contactar directamente a estas personas. Hacia fines del mes siguiente a la semana de referencia, el Centro de Microdatos del Departamento de Economía presenta los principales resultados de cada levantamiento de la encuesta, en el correspondiente Informe Trimestral de Empleo. Este informe, presentado en una conferencia de prensa, analiza la coyuntura laboral, a partir de las principales estadísticas ocupacionales derivadas del cuestionario central de la EOD. Asimismo, el Centro de Microdatos elabora trimestralmente el Informe Encuesta de Percepción y Expectativas sobre la Situación Económica, a partir del cuestionario complementario de la EOD sobre este tema. Adicionalmente, en Agosto de cada año, son reportados al Banco Central los resultados de la Encuesta Especial a Desocupados, aplicada un mes 4 antes a quienes fueron categorizados como tales en dos de los cuatro cuartos de la EOD correspondiente al mes de Junio del mismo año. La EOD utiliza como instrumento de recolección de datos la entrevista personal con papel y lápiz, modalidad que se ha mantenido inalterada desde su introducción en 1956. A lo largo de los años, el cuestionario central ha mantenido su estructura y definiciones inalteradas, lo que permite la comparación a través del tiempo de sus variables principales 5 1. Introducción El objetivo general de la EOD es establecer un sistema continuo de información estadística sobre las características sociodemográficas y económicas de la población para los sectores público, privado y social, teniendo como unidad de observación el hogar. Los objetivos específicos de la encuesta son los siguientes: • • • • • • • • • Recolectar datos acerca de las características sociodemográficas de la población y su relación con variables laborales como la “condición de ocupación”; Recolectar y producir información sobre los niveles de ocupación y desocupación en relación con la rama de actividad, la ocupación principal y la posición en el trabajo; Indagar acerca de características ocupacionales, tales como trabajo desempeñado, categoría ocupacional y rama de actividad del último trabajo que tuvieron las personas que dejaron su trabajo, e identificar los motivos principales por los cuales dejaron dicho empleo; Indagar acerca de la heterogeneidad del mercado de trabajo, determinando características de los establecimientos (sector de propiedad, rama de actividad, etc.) en los que se insertan los ocupados. Indagar acerca de las condiciones de trabajo (horas, forma de pago, ingresos y prestaciones laborales) de los ocupados; Indagar acerca de las modalidades de empleo de la población plenamente ocupada, diferenciándola de la población parcialmente ocupada; Recolectar datos que permita estudiar con mayor profundidad el fenómeno del desempleo abierto; Recolectar datos acerca de los inactivos a fin de conocer el grado de disponibilidad para integrarse al mercado de trabajo o los motivos de su no disponibilidad para trabajar; Determinar la presión que ejercen sobre el mercado de trabajo los ocupados que buscan otro empleo. 6 2. Reseña histórica La primera Encuesta de Ocupación en el Gran Santiago fue realizada en Octubre de 1956 y fue financiada por el Banco Central de Chile, ASIMET, la Fundación Rockefeller y el Gobierno de Chile. El diseño metodológico estuvo a cargo del economista estadounidense Joseph Grunwald y tuvo como referente la encuesta de empleo de Estados Unidos (Current Population Survey). La aplicación de la encuesta estuvo a cargo del Instituto de Economía de la Universidad de Chile, bajo la supervisión del experto de las Naciones Unidas Roe Goodman. En esta oportunidad se seleccionaron 2.330 hogares, de los cuales un 98,2 por ciento fueron encuestados. Con posterioridad a Octubre de 1956 la EOD se repitió en Junio de 1957, Junio de 1958, Marzo y Junio de 1959. A partir de 1960, la encuesta se realiza trimestralmente, teniendo como períodos de referencia una semana de Marzo, Junio, Septiembre y Diciembre de cada año. Cronología de los cambios metodológicos más importantes Junio 1958. Introducción de muestras adicionales en las ciudades de Valparaíso y Viña del Mar. Marzo 1959. Introducción de muestra adicional en Gran Concepción. Junio 1959. Introducción de muestras adicionales en las ciudades de Valdivia y Los Lagos. Septiembre 1960. Introducción de muestras adicionales en las ciudades de La Serena y Antofagasta. Cambio de la base muestral utilizada desde 1956. Se introducen los siguientes cambios: 1) aumento del tamaño muestral a 3.500 hogares en el Gran Santiago; 2) división de la muestra total en cuartos, esto es, submuestras del 25 por ciento del total de los hogares a encuestar, en reemplazo de los deciles utilizados previamente; 3) modificación de porcentaje de rotación muestral, de tal forma que, a partir de entonces, el 50 por ciento de los hogares de la muestra cambia entre encuestas sucesivas (en lugar del 20% variable previamente); 4) incorporación de la revisión anual o bianual de los segmentos, con reemplazos trimestrales, en lugar de la base fija mantenida hasta entonces. 7 Diciembre 1960. Introducción de muestras adicionales en las ciudades de Iquique y Coquimbo. Marzo 1961. Introducción de muestras adicionales en las ciudades de Puerto Montt y Castro. Año 1970. El Banco Central de Chile decide financiar solamente las muestras del Gran Valparaíso, Gran Concepción y Gran Santiago. Septiembre 1973. Los sucesos políticos ocurridos en Chile durante Septiembre de 1973 llevan a que los datos correspondientes a la encuesta de este mes no sean procesados, a pesar de que ya había sido entrevistado aproximadamente un 95% de la muestra. La aplicación y procesamiento normal de la encuesta se reanudan en Diciembre de 1973. Año 1974. Reducción del tamaño muestral a 3.400 hogares, distribuidos en 296 segmentos censales (este número de segmentos censales se mantiene inalterado hasta la actualidad). Recodificación de la variable Actividad Económica en las encuestas del periodo 1957-1973. Este proceso estuvo a cargo de los académicos Isabel Heskia y Luis Riveros, fue financiado por el Banco Central de Chile y fue supervisada por los representantes de la Universidad de Chile José Luis Federici y Andrés Sanfuentes. Intento de aplicación de una muestra de direcciones no contiguas (seleccionadas en forma aleatoria) en cada sector de empadronamiento. Este intento fracasó por dificultades políticas de la época - para los encuestadores era más fácil explicar a las personas a encuestar que se estaba intentando contactar a hogares de diez direcciones seguidas que de diez direcciones saltadas. En el intento por realizar las encuestas sorteadas aleatoriamente en cada sector, varios encuestadores fueron detenidos y como resultado se decidió conglomerar geográficamente. Año 1978. Se revisa el diseño muestral y se propone que la distribución de segmentos deje de ser aleatoria (sólo son 74 por cuarto) y pase a ser aleatoria sistemática, permitiendo una mayor dispersión de la muestra. Año 1980. Se agrega pregunta sobre “deseos de trabajar”, que permite medir la oferta potencial de mano de obra (desocupados más inactivos con deseos de trabajar), a solicitud del académico Arnold Harberger. 8 Marzo 1980. Ampliación del tamaño muestral para lograr representatividad a nivel nacional, urbano y rural, en los meses de Marzo y Septiembre de cada año. Año 1982. Se agrega al conjunto de levantamientos del área ocupacion, la “Encuesta Especial a los Desocupados”, que entrevista una vez al año (julio) a una submuestra de los desocupados identificados en la medición de Junio. Esto ocurre a solicitud del académico Arnold Harberger. Año 1983. El Banco Central de Chile disminuye su aporte financiero a la encuesta y como consecuencia el tamaño muestral se reduce en un 10%. A partir de entonces el tamaño muestral de la EOD se ha mantenido en 3.060 hogares. Año 1998. Se amplía de 5 a 7 las categorías definidas para la variable tipo de educación, lo cual permite un conocimiento más detallado del último ciclo y modalidad de educación alcanzado por los miembros de los hogares encuestados. Marzo 2001. Se agrega a la EOD el cuestionario complementario “Encuesta de Percepción y Expectativas sobre la Situación Económica”. El suplemento se aplica en los cuatro levantamientos anuales, a continuación del cuestionario principal. Incluido a solicitud del Banco Central de Chile. 3. Requerimientos y diseño de la muestra 3.1 Población objetivo La población objetivo de la EOD incluye a todas las personas mayores de 14 años que residen en viviendas habitadas (o habitables) ubicadas en las 32 comunas urbanas de la provincia de Santiago, además de las comunas de Puente Alto y San Bernardo. La mayoría de las preguntas del cuestionario principal de la EOD aplican exclusivamente a esta población objetivo, aun cuando existe un conjunto de preguntas (parentesco con jefe del hogar, sexo, edad y educación) que se refieren también a menores de edad que conforman el hogar. Personas que se encuentran viviendo en instituciones (recintos militares, cárceles, hogares de ancianos, hospitales de cuidado permanente, etc.) no forman parte de la población objetivo. 9 3.2. Características generales del muestreo En Chile, como en la mayoría de los países del mundo, no existe un registro con las direcciones de las personas que viven en el país, por lo tanto, no se dispone de un marco muestral a partir del cual seleccionar en forma directa las personas que conforman la muestra de la EOD. La alternativa a la selección directa de personas es la selección de los hogares en que se agrupan las personas. La EOD ha utilizado desde sus inicios el muestreo probabilistico de áreas para seleccionar los hogares que forman parte de la muestra. En general, este diseño muestral puede ser caracterizado como: • probabilístico, porque la probabilidad de selección es conocida y diferente de cero para cada elemento de la población, lo cual permite realizar inferencia estadística a la población de objetivo; • estratificado, porque previo a la selección, las unidades primarias de muestreo son clasificadas en estratos; • con probabilidad de selección proporcional al tamaño, porque la probabilidad de selección de las manzanas censales es función del número de hogares que éstas contienen; • bietápico, porque los elementos pertenecientes a la muestra se seleccionan en dos etapas: 1) Selección de manzanas censales; 2) selección de segmentos compactos de viviendas (a partir de las manzanas censales seleccionadas en la etapa anterior). 3.3. Tamaño de la muestra El tamaño muestral de la EOD ha variado en el tiempo en función de diversos requerimientos de cobertura, precisión de los estimadores y disponibilidad de financiamiento. El tamaño se ha mantenido fijo en 3.060 hogares desde 1983, ocasión en la cual éste se redujo debido a una reducción presupuestaria. El tamaño muestral de 3.060 hogares utilizado en las encuestas del período 1983-2006 es consistente con coeficientes de variación de la tasa de desempleo en el rango [0,053; 0,068]. Para la estimación de estos valores utilizamospromedios mínimos de tasa desempleo y cuasivarianza 10 poblacional de (0.065 y 0.061) y valores promedio máximos de (0.104 y 0.093). Fórmula para la determinación del tamaño muestral Para determinar el tamaño de una muestra se consideran la(s) variable(s) de interés del estudio, el nivel de precisión mínimo ( V0 ) requerido para dichas variables, y el presupuesto disponible. • La variable de mayor interés en la EOD es la tasa de desempleo, por lo tanto el cálculo del tamaño muestral se realizó en función esta variable solamente. • Los requerimientos de precisión ( V0 ) generalmente son expresados a través del coeficiente de variación (CV), el cual se calcula como el error estándar dividido por el valor esperado de la característica bajo estudio. • Para efectos de cálculo se asume que el costo de la muestra es una función de la cantidad de hogares entrevistados (n). La pregunta a contestar entonces es ¿para una varianza objetivo V0 de la tasa de desempleo, cuán grande debe ser la muestra? La fórmula siguiente es utilizada en forma frecuente para el cálculo de tamaños muestrales. n= 1 V0 1 2+ N S ; V0 = VSRS * Deff ; Deff = 1 + ( m − 1) * ρ donde n N S2 V0 VSRS m ρ Deff : número de hogares en la muestra : número de hogares en el universo : cuasivarianza poblacional de la tasa de desempleo : varianza objetivo de la tasa de desempleo (bajo muestreo complejo) : varianza de la tasa de desempleo (bajo muestreo aleatorio simple) : promedio de hogares a entrevistar por manzana : tasa de homogeneidad (Roh) de la tasa de desempleo : efecto diseño de la tasa de desempleo 11 4. Selección de Unidades Primarias de Muestreo 4.1. Estratificación de las UPM Las unidades primarias de muestreo (UPM) de la EOD las conforman manzanas y grupos de manzanas identificadas en el Censo de Población y Vivienda de Abril de 1992. Previo a la selección de las UPM se realiza el proceso de estratificación de la muestra. Los principales objetivos del proceso de formación de estratos son mejorar la precisión de los estimadores y permitir un mejor control de la distribución de la muestra. Para obtener mejoras en la precisión de los estimadores, las variables utilizadas en el proceso de estratificación deben estar relacionadas con la variable bajo estudio de la encuesta. En el caso de la EOD, la variable bajo estudio es la tasa de desempleo y la variable disponible para estratificación es la comuna a la que pertenece cada manzana. Si suponemos que el desempleo está correlacionado con el estatus socioeconómico de las personas, y además asumimos que la comuna es una buena aproximación del estatus socioeconómico, entonces tenemos razones para esperar mejoras en la precisión de los estimadores producto de la estratificación de la muestra de la EOD. Si estos supuestos no son válidos, entonces quedamos sujetos al nivel de precisión del diseño muestral respectivo (sin “mejoras” debido a la estratificación). El mejor control de la distribución de la muestra está garantizado bajo un muestreo estratificado geográficamente, ya que la selección de las UPM se realiza en forma independiente al interior de cada uno de los estratos. Esto implica que tenemos “asegurado” cierto número de selecciones en cada uno de los 8 estratos de la EOD. Si, por ejemplo, no estratificáramos y realizáramos un muestreo aleatorio simple de las UPM podríamos –sólo por azar– obtener una muestra en donde no haya ninguna manzana seleccionada en las comunas de La Florida y Puente Alto (estrato #8). Si bien es cierto esta situación es bastante improbable, podría ocurrir “sólo por azar”. La estratificación, en cambio, nos asegura que habrá selecciones en cada uno de los 8 estratos. Las tres primeras columnas del Cuadro 1 presentan algunas características de los 8 estratos EOD, según el Censo 1992. Las dos últimas columnas ilustran la afijacion proporcional de la muestra EOD. Cada año es 12 recalculada la afijacion de la muestra EOD en los 8 estratos, en función de los crecimientos/decrecimietnos observados en las comunas del Gran Santiago. El proceso de actualización de direcciones (Empadronamiento) que se realiza en forma previa a cada uno de los 4 levantamientos de la encuesta de empleo provee información para estimar la redistribucion de la población entre las comunas del Gran Santiago. Anualmente se realizan 4 empadronamientos de 765 hogares cada uno, lo que implica contar con una muestra de aproximadamente 3,100 hogares para estimar la distribución de los hogares entre los estratos del Gran Santiago. El Anexo B presenta la distribución de la muestra EOD para el período 1996-2006. Detalles del procedimiento de Empadronameinto se presentan en la sección 5.1. Cuadro 1: Ilustración de muestreo estratificado proporcional al número de hogares en cada estrato, según datos del Censo 1992. Estratos Universo Distribución Muestra EOD No. de Hogares No. de manzanas No. Hogares Distrib. 1 146,397 3,615 372 12% 2 193,393 5,145 496 16% 3 123,291 3,748 320 10% 4 182,015 5,808 464 15% 5 155,057 4,416 400 13% 6 116,473 2,985 296 10% 7 131,318 3,073 340 11% 8 145,540 4,598 372 12% Total 1,193,484 33,388 3,060 100% Fuente: Estadísticas del Censo de Población y Vivienda 1992. 4.2. Selección de las UPM El marco muestral con que trabaja la EOD incluye información estadística y cartográfica a nivel Comuna-Distrito-Manzana (CDM). El Instituto Nacional de Estadísticas (INE) subdivide las comunas en Distritos, Zonas y Manzanas censales, las cuales se construyen con los siguientes atributos fundamentales: (a) son perfectamente reconocibles en el terreno al estar delimitadas por rasgos topográficos identificables y perdurables; (b) por lo 13 general, son homogéneas en cuanto a sus características sociales, económicas y geográficas. Con base a esta subdivisión se determinan las UPM que son utilizadas para la posterior selección de hogares en las 34 comunas del Gran Santiago. La selección de las UPM se realiza en forma independiente al interior de cada uno de los 8 estratos de la muestra utilizando probabilidad proporcional al tamaño (PPT) y el algoritmo de selección sistemática. El método PPT consiste en acumular las medidas de tamaño de las UPM (número de hogares en cada manzana) y seleccionar las UPM de acuerdo a este total acumulado. Este procedimiento determina que las UPM de mayor tamaño sean seleccionadas con mayor probabilidad que las UPM más pequeñas. El algoritmo de selección de las UPM utilizado en la EOD es sistemático ya que consiste en tomar cada k-ésima UPM a partir de un arranque aleatorio r*, donde kh es el intervalo de selección en el estrato h y es igual a Nh/nh (Nh=total de hogares en estrato h y nh=muestra de hogares en el estrato h). Este procedimiento se utiliza extensamente en encuestas de hogares porque es fácil de aplicar y permite disponer de una muestra proporcionada cuando la lista es ordenada. En el caso de la EOD, el listado de manzanas censales es ordenado en forma geografica previo a la selección de UPM, por lo tanto, podemos decir que las UPM seleccionadas se encuentran estratificadas geográficamente en forma implícita al interior de cada estrato. Todo el procedimiento descrito es realizado en Gabinete (no en terreno) por personal profesional del CMD Debido al sistema de rotación de la EOD, cada año son seleccionadas aproximadamente 296 nuevas UPM (en total, entre los 8 estratos de la muestra). La fracción de muestreo en cada estrato h de esta primera etapa de selección viene dada por: a M f h1 = ahh hi ∑ M hi i =1 donde ah : número de manzanas (UPM) a seleccionar en el estrato h Mhi : número de hogares en la manzana i en el estrato h (según registros del Censo 1992) 14 5. Selección de Unidades Secundarias de Muestreo 5.1. Listado de las USM Las Unidad Secundarias de Muestreo (USM) están conformadas por bloques contiguos de aproximadamente 10 viviendas particulares (habitadas permanentemente, o aptas para habitarse) que se encuentren ubicadas en las UPM seleccionadas en la muestra. En la sección anterior se explicó cómo la selección de las UPM es realizada sobre la base de los registros del Censo 1992. Para realizar la selección de las USM, en cambio, es necesario contar con información actualizada del número de hogares existentes en las UPM seleccionadas. Dos procedimientos se realizan en forma rutinaria para estos efectos: conteo rápido viviendas y empadronamiento. El conteo rápido del número de viviendas de las manzanas seleccionadas es realizado por supervisores del CMD en forma previa al proceso formal de listado de viviendas (empadronamiento). El objetivo es determinar rápidamente las UPM que presentan crecimientos anormales respecto del Censo 1992. Cuando esto ocurre, la UPM se divide en segmentos de menor tamaño y se sortea en forma aleatoria uno de los segmentos para el proceso de empadronamiento. El sorteo aleatorio de segmentos es realizado en Gabinete por profesionales del CMD. El empadronamiento consiste en visitar las manzanas seleccionadas y realizar un listado con el número de hogares, las direcciones y el tipo de uso de las estructuras existentes (Ej: habitables, en el caso de viviendas, y no habitables, en locales comerciales, sitios eriazos, etc.). Este procedimiento es realizado en terreno por empadronadores del CMD, no por encuestadores. Para actualizar el número de hogares, los empadronadores establecen contacto con las viviendas y preguntan por el número de hogares que vivien en cada vivienda de la manzana seleccionada. Ver ficha de empadronamiento en Anexo C. A partir de este listado se puede actualizar la información censal referente al número de hogares que integran la UPM seleccionada. La utilidad de este procedimiento es doble: • Determinar la cantidad exacta de hogares a seleccionar en cada manzana. 15 • Estimar anualmente la distribución de la población en los estratos del Gran Santiago para informar el recalculo de la afijación proporcional de la muestra a los estratos. El proceso de actualización del marco muestral es desarrollado en Gabinete por personal profesional del CMD. 5.2. Selección de las USM Todos los parámetros de la primera etapa de selección se determinan sobre la base de los datos del Censo 1992 y a un tamaño promedio de 10 viviendas por USM. Cuando los datos utilizados en el proceso de muestreo son exactos, es decir, cuando no existe error de medición (Ej. producdo de la desactualización a medida que pasa el tiempo), entonces la probabilidad de selección de la segunda etapa en cada estrato h es: b f h2 = M hi donde, b : número original de hogares a seleccionar en el estrato h (aprox 10) Mhi : número de hogares en la manzana i en el estrato h (según registros del Censo 1992) Como es de esperar, al momento de realizar el Empadronamiento se producen discrepancias entre el registro censal y lo que se observa en terreno –producto de la obsolescencia del marco muestral a medida que uno se aleja del período censal-. Para mantener fija la probabilidad de selección de las USM se ajusta la cantidad de viviendas a seleccionar en cada manzana de manera de compensar el efecto de los crecimientos/decrecimientos experimentados por la UPM con respecto al Censo 1992. De esta manera, utilizando la información actualizada en el proceso de empadronamiento, la probabilidad de selección de la segunda etapa en el estrato h queda definida por: b b* * M hi* f h2* = * b * = M M hi hi donde, b* : número ajustado de hogares a seleccionar en el estrato h 16 M*hi b Mhi : número de hogares en la manzana i en el estrato h (según Empadronamiento en fecha actual) : número original de hogares a seleccionar en el estrato h (aprox 10) : número de hogares en la manzana i en el estrato h (según registros del Censo 1992) Como resultado de este procedimiento se produce una redistribución de los hogares seleccionados al interior de cada estrato. Por una parte se seleccionan más hogares (por ejemplo 15) en las manzanas que han experimentado crecimiento desde el Censo de 1992, y por otra parte se seleccionan menos hogares (por ejemplo 6) en las manzanas que han decrecido. Finalmente, una vez que se ha determinado la cantidad de hogares a entrevistar en cada manzana se procede a la selección de las USM. Un número aleatorio entre 1 y M*hi (el número actual de viviendas en la manzana) es sorteado para cada UPM y este número determina el hogar que ha sido seleccionado para la entrevista. En forma automática, además, son incluidas en la muestra los b*-1 hogares contiguos al recién sorteado. Como se puede constatar, existe formalmente sólo 1 selección aleatoria que determina la inclusión de un conjunto de b* hogares en la muestra. Esta ultima selección corresponde formalmente a la Unidad Secundaria de Muestreo (USM) y se le conoce también como selección de segmentos compactos, ya que los hogares no son seleccionados en forma independiente, sino en bloques (conglomerados) de b hogares. Ajustes adicionales La simplicidad del diseño descrito se pone en riesgo cuando ocurren crecimientos significativos de las UPM. Por ejemplo, cuando se ha construido un edificio con 80 departamentos en una manzana que registraba 12 hogares en Abril de 1992. Cuando una UPM crece más allá de lo esperable, se realizan dos tipos de “ajuste” en su proceso de selección: se incluye una etapa adicional de selección al nivel de la USM y se pone una cota máxima al número de hogares a seleccionar en una misma manzana. El primer tipo de ajuste fue descrito con anterioridad, y se desarrolla durante el proceso de actualización del conteo de viviendas de las UPM seleccionadas. Las manzanas que actualmente exhiben un gran tamaño son subdivididas en segmentos más pequeños y se sortea en forma 17 aleatoria el segmento que será empadronado para formar parte de la muestra. El segundo ajuste esta relacionado con el acotamiento del número de hogares a entrevistar por manzana. Como se explicó con anterioridad, el número total de hogares a seleccionar al interior del estrato se mantiene fijo, pero el número de hogares a seleccionar por manzana se ajusta en función de los crecimientos/decrecimientos experimentados con respecto al Censo 1992. En un caso extremo podría darse la situación de que, después de realizar esta redistribución, una manzana en especial termine concentrando una parte importante de la muestra debido a su explosivo crecimiento (por ejemplo, que se deba encuestar a 60 de los 120 hogares del estrato en una sola manzana). Para evitar esta situación se definió una cota de 50 para el número máximo de hogares a seleccionar en manzanas en que se descubren crecimientos inesperados. Según los registros disponibles, el acotamiento del tamaño del conglomerado se ha hecho efectivo sólo en tres1 ocasiones en los últimos 10 años (1995-2005). Selección del informante al interior del hogar Una vez identificados los hogares a encuestar se envía a un encuestador del CMD para contactar y obtener la cooperación de los hogares en la encuesta. Al comenzar la entrevista el encuestador elabora un listado de todos los miembros del hogar, desde los infantes hasta los adultos mayores, y les aplica una bateria de preguntas demograficas. Las preguntas sobre situación laboral e ingreso se aplican sólo a los mayores de 14 años. Si las personas listadas se encuentran presentes generalmente se aplica la entrevista a cada uno de ellos; sin embargo, de no estar en el lugar, usualmente se entrevista a un solo miembro del hogar, quien proporciona información acerca del estatus laboral del resto. Si la persona presente desconoce la situación laboral de algún miembro de la familia, entonces se realizan esfuerzos especiales para tratar de entrevistar a esta persona directamente. Ver cuestionario EOD en Anexo D. Esta última etapa de selección es formalmente un “censo”, ya que se entrevista a todas las personas mayores de 14 años en la USM seleccionada. La probabilidad de selección de las personas en la muestra en esta tercera etapa es igual a 1. 1 En Septiembre de 1996 se seleccionaron 50 de 62 hogares que se debian haber seleccionado; en Marzo de 1997 se seleccionaron 50 de 56 hogares; y en Marzo de 1998 se seleccionaron 50 de 67 hogares. 18 6. Esquema de Rotación de la Muestra El esquema de rotación de la EOD es un compromiso entre la mantención de un panel permanente (para el cual es difícil mantener una alta tasa de respuesta) y una muestra de corte transversal completamente nueva cada trimestre (lo que resultaría en estimadores de cambio muy variables). El esquema trata de balancear la minimización de: • • • • Varianza de los estimadores de cambio de trimestre-a-trimestre: dos cuartos de la muestra es la misma de trimestre a trimestre. Varianza de los estimadores de cambio de año-a-año: la mitad de la muestra es la misma en el mes de encuestaje de años consecutivos. Varianza de otros estimadores de cambio: la muestra que sale es reemplazada por una muestra que probablemente tiene las mismas características. Fatiga del informante: las cuatro entrevistas en las que participa cada hogar se dispersan a través de 18 meses. Como se implementa el esquema de rotación? La muestra total de 3.060 hogares se divide en 4 réplicas de 765 hogares cada uno (denominados paneles o cuartos), en donde cada una de las réplicas es una muestra independiente del Gran Santiago. Esto significa que las 4 réplicas son seleccionadas siguiendo el mismo diseño muestral y comparten el mismo nivel de precisión. De esta manera se puede esperar que los hogares que se retiran definitivamente de la muestra sean reemplazados por hogares que provienen de los mismos estratos geográficos y comparten características similares. El esquema de rotación de la EOD se caracteriza como 2-2-2: cada hogar es entrevistado en 2 oportunidades seguidas, se deja de visitar en las siguientes 2 oportunidades, y se vuelve a entrevistar en 2 oportunidades consecutivas en un período que cubre 18 meses en total (Ver Cuadro 2). Para ejemplificar describiremos el ingreso del Cuarto 105 a la muestra. Las aproximadamente 74 nuevas UPM seleccionadas en 2005 pasan a formar el “Cuarto 105” e ingresan por primera vez a la muestra en Marzo de 2005. En la siguiente aplicación de la encuesta (Junio 2005) los hogares del Cuarto 105 son entrevistados por segunda vez. Después de la segunda visita, los hogares del Cuarto 105 no serán contactados durante las 19 próximas dos encuestas del 2005 (Septiembre y Diciembre), pero son contactadas nuevamente en Marzo y Junio de 2006 para participar por tercera y cuarta vez, respectivamente. Después de la cuarta visita, y cuando ya han pasado 18 meses desde la primera entrevista, los hogares del Cuarto 105 dejan de formar parte de la muestra en forma definitiva. Cuadro 2. Estructura de rotación 2-2-2 de la EOD, para los cuartos seleccionados en el período 2004-2006. Submuestra (cuartos) 101 102 103 104 2004 M 1 J S 2005 D M 2 1 3 2 1 J S 2 2 1 106 M J S D 4 3 105 D 4 3 1 2006 4 3 2 1 107 3 2 1 108 2 2 2 2 1 112 4 3 1 111 4 3 1 110 4 3 1 109 4 2 1 Nota: Los números indican la fase del panel en la que se encuentra cada cuarto (1= primera entrevista; 2= segunda entrevista; 3= tercera entrevista; y 4= cuarta entrevista). 7. Estimación de Estadísticas Laborales La EOD es una encuesta probabilística compleja a partir de la cual se producen estadísticas laborales para la población de 14 años y más del Gran Santiago. El proceso de estimación en encuestas complejas usualmente requiere ajustes debido a la presencia de: (1) distintas probabilidades de selección para sub-poblaciones de interés, (2) distintas tasas de respuesta entre sub-poblaciones de interés y (3) distorsión en la distribución de variables demográficas que son informadas por controles poblacionales externos. En la literatura actual, se utiliza un enfoque que combina el uso de ponderadores para la corrección de (1), (2) y (3), junto con el uso de imputación para 20 corregir la no respuesta en las preguntas de interés2 (Kalton y Kasprzyk, 1986). Sin embargo, la metodología de la EOD3 – mantenida inalterada desde hace varias décadas - establece un tratamiento distinto para estos problemas. En la siguiente sección describiremos los ponderadores utilizados en la EOD y en la sección que sigue describiremos su utilización en el cálculo de las estadísticas laborales de mayor interés de la encuesta. 7.1. Cálculo de Ponderadores Ajuste de probabilidades de selección En forma general, los ponderadores corresponden al inverso de la 1 probabilidad de selección de los entrevistados wij = donde wij es el π ij ponderador de las personas seleccionadas en el segmento compacto j (USMj) correspondiente a la manzana i (UPMi) y πij es la correspondiente probabilidad de selección. La estrategia de selección de personas en la muestra EOD determina que todos los segmentos compactos de hogares tengan la misma probabilidad de selección (EPSEM, equal probability selección method). Esto implica además que todas las personas entrevistadas comparten esa misma probabilidad de selección, ya que como se explicó en la sección 5.2, se entrevista a todas las personas mayores de 14 años en cada hogar, lo cual constituye un censo de la población objetivo. De esta manera, la probabilidad de selección final en cada estrato h viene dada por la probabilidad conjunta de la primera y la segunda etapa de selección. fh = f h1 * f h2* a M = ahh hi ∑ M hi α =1 * * b M* hi 2 La imputación es la asignación de una o más respuestas a un campo de datos que previamente no tenía respuestas o que incluía respuestas incorrectas o inverosímiles. La EOD no realiza imputación de valores para corregir la no respuesta de ningún ítem de la encuesta. 3 Ver el Informe Metodológico de la Encuesta de Ocupación del Gran Santiago para una descripción del trato de cada uno de estos elementos en la EOD. 21 = a h M hi ah M ∑ α =1 hi * 1 M hi* b M hi * M hi* = ahb ah M ∑ α =1 hi Como se puede apreciar la última expresión es una constante, lo cual implica que la probabilidad de selección de los segmentos compactos ij es la misma para todos al interior del estrato h. Por otra parte, tenemos que la fracción de muestreo fh correspondiente al estrato h es la misma para todos los estratos de la EOD, ya que la encuesta se encuentra estratificada en forma proporcional al tamaño de los estratos, por lo tanto, fh = f. La implicancia de este resultado es que todos los elementos de la muestra comparten el mismo ponderador de selección, el cual viene dado por la siguiente expresión: ah 1 w = = f b ij M ∑ α =1 hi ah b Por ejemplo, para la encuesta de Junio 2006 el ponderador de selección de todos los hogares de la muestra es 583,15 -lo que se puede interpretar como que cada persona entrevistada en la encuesta se representa a ella misma y a otras 582 personas que viven en viviendas habitadas (o habitables) del Gran Santiago-. Los diseños muestrales con esta característica se denominan autoponderados, ya que todos los hogares tienen el mismo ponderador de selección base. ah w = b ij ∑M α =1 ahb hi = 6.514.400 personas = 583,1528 11.171personas En la expresión anterior, el total de personas (Mhi) corresponde a la proyección del total de la población para el Gran Sanbtiago que realiza la Universidad de Chile, mientras que el total de personas en la muestra (ahb) se obtiene en forma directa a partir de la encuesta. Ver las proyecciones de población utilizadas en la EOD en el Anexo D. 22 Ajuste de No Respuesta Todas las encuestas de hogares están sujetas, en mayor o menor medida, a fallas en el proceso de contactar y lograr la cooperación de los hogares seleccionados para formar parte de la muestra. Esta falla se denomina no respuesta de la unidad seleccionada, y sus principales componentes son: (1) la falla en realizar el contacto con el hogar (ej. no se encuentra nadie al momento de intentar la entrevista); (2) falla en ganar la cooperación del seleccionado (ej. la persona se niega a responder la entrevista). La no respuesta implica que, al final del trabajo de terreno, se logra entrevistar a un número menor de los 3.060 hogares que fueron seleccionados. El efecto de la no respuesta en los estimadores es doble: 1) reduce los niveles de precisión (reducción en el tamaño de la muestra); 2) pone en riesgo la obtención de estimadores insesgados, debido a la “auto selección” de los hogares en la muestra. Por estos motivos, en especial el último, es que se requiere de algún mecanismo que permita corregir el problema de no respuesta a la unidad. A diferencia del proceso de selección de la muestra -el cual es definido por el investigador a través del diseño de las probabilidades de selección de los elementos de la muestra-, el proceso de contacto y participación de los hogares en la encuesta se encuentra fuera del control del investigador y sus probabilidades de “selección” le son desconocidas. De esta forma, se deben desarrollar modelos que expliquen las distintas probabilidades de participación de los hogares y corrijan potenciales sesgos de no respuesta. El modelo de participación más básico es MAR (missing at random) (Rubin, 1987), el cual asume que quienes responden son una muestra aleatoria de los seleccionados. Bajo este modelo, no tiene sentido hacer ajustes de no respuesta y los analistas pueden realizar estimaciones en forma directa utilizando sólo los datos de los participantes de la encuesta (sin realizar ningún ajuste). En la EOD tenemos motivos para pensar que las personas que no responden no son una muestra aleatoria de los seleccionados. El modelo que se aplica para la corrección de la no respuesta se denomina MCAR (missing completely at random) (Rubin, 1987) y asume que al interior de ciertas celdas de ajuste las personas efectivamente entrevistadas son una muestra aleatoria de los seleccionados originalmente en la muestra. 23 Las variables de agrupación a utilizar para formar las celdas de ajuste tienen que cumplir con tres características: (1) tienen que estar disponibles tanto para quienes responden como para quienes no responden la encuesta, (2) tienen que estar relacionadas con el fenómeno de participación, y (3) tienen que estar relacionadas con la variable bajo estudio (desempleo). En el marco muestral de la EOD la única variable que satisface de alguna forma estas características es la ubicación geográfica de las viviendas seleccionadas, por lo tanto se utiliza esta variable para la construcción de las celdas de ajuste para la no respuesta. El proceso de ajuste de no respuesta se realiza de la siguiente manera: (1) se forman 8 celdas de ajuste a partir de los 8 estratos geográficos que utiliza la EOD para la selección de la muestra, (2) se incluye en cada celda los hogares que respondieron y los que no respondieron a la encuesta, (3) para cada hogar que no respondió se sortea en forma probabilística4 un hogar que respondió, (4) cada hogar que no respondió es reemplazado en la base de datos final por un hogar que sí respondió. El procedimiento recién descrito se denomina hot-deck en la literatura especializada y corresponde a una herramienta váalida para la corrección de la no respuesta (Kish, 1990). Aunque no se trata del mecanismo más comúnmente utilizado -que es la utilización de ponderadores que den cuenta de la probabilidad de participación de los individuos- sí provee una solución válida al problema5. Una de las características del mecanismo hot-deck es que –al duplicar encuestas completas- mantiene la estructura de correlación de las variables bajo estudio. Es importante destacar aquí que las tasas de respuesta de la EOD reflejan altos niveles de contacto y cooperación de parte de los entrevistados. La tasa de respuesta por cuarto ha promediado 91% en el periodo 2003-2006 con mínimos de 85% y máximos de 96% de respuesta. La tasa de contacto ha promediado 96% y la tasa de cooperación 95%6. 4 ·El mecanismo de selección utilizado es sistematico. En la EOD se duplican o eliminan encuestas seleccionadas aleatoriamente dentro de cada estrato geografico con la finalidad de mantener el tamaño muestral de 3,060 hogares en cada aplicación. 6 Ver detalles acerca de los calculos de las tasas de respuesta en Reporte de resultados del trabajo de campo Encuesta de Ocupación y Desocupación en el Gran Santiago www.empleo1.microdatos.cl 5 24 Ajuste de post-estratificación Generalmente el ultimo ajuste de ponderadores que se realiza tiene como objetivo que la distribución de ciertas características demográficas de la muestra sean idénticas a la distribución de la población objetivo según una fuente externa de datos considerada como referencia (generalmente el Censo). Este ajuste, denominado también “control de poblaciones externo”, “calibración”, o “post-estratificación” se realiza no sólo con la pretensión de simular la distribución externa, sino también lograr mejoras en la eficiencia estadística y en la cobertura de la población objetivo. Actualmente la EOD no emplea ajustes de post-estratificación como los descritos anteriormente. El único ajuste poblacional que se realiza en la EOD tiene que ver con la estimacion de la población total del Gran Santiago, sin distinguir proyecciones para dominios de interés (postestratos) como sexo o tramos de edad de la población. En el Anexo D se presenta una tabla con las proyecciones de población total para el Gran Santiago utilizadas para el cálculo de los factores de expansión de la muestra EOD. 7.2. Estimadores de Estadísticas Laborales La estadística de mayor interés publicada a partir de la EOD es la tasa de desocupación de la población del Gran Santiago. En esta sección presentaremos la forma de cálculo de este y otros estimadores de interés como totales, proporciones y promedios. Una de las características de la EOD es que es una muestra estratificada, por lo tanto el cálculo de los estimadores de interés debe considerar esta característica de su diseño. Como se verá mas adelante, todos los estimadores de interés de la EOD pueden ser expresados en función del estimador de totales, por lo tanto, en esta ocasión lo utilizaremos de ejemplo para explicar la estimación bajo muestreo estratificado. El estimador de totales para una muestra estratificada viene dada por la siguiente expresión: tˆπ = ∑sh tˆhπ =∑sh N h y sh Donde el total de cada estrato (thπ) es estimado a partir del producto entre el total de la población en cada estrato (Nh) y el promedio muestral de la 25 característica y en cada estrato (ysh). Esta formulación implica que, por ejemplo, para calcular el total de personas desocupadas en el Gran Santiago se debe calcular primero el total de personas desocupadas en cada uno de los 8 estratos (h) de la EOD y después sumar los 8 totales para obtener gran total deseado. Sin embargo -ya que la EOD se encuentra estratificada en forma proporcional al tamaño de los estratos- el estimador del total se puede calcular directamente a través de la muestra completa, sin necesidad de calcular el total para cada estrato en forma independiente. Esta simplificación en el cálculo se produce exclusivamente por la afijación proporcional de la muestra en los estratos. Otro tipo de alocaciones (óptima, proporcional al total y, etc.) no se benefician de esta simplificación. tˆπ = ∑h N h y sh = Ny s En adelante, se presentan las fórmulas de los estimadores de interés sin considerar la estratificación del muestreo. Estimación de Totales Para la estimación de totales se utiliza el estimador Horvitz-Thomson (Horvitz y Thomson, 1952), también conocido como estimador-π. El estimador Horvitz-Thomson es insesgado y produce la expansión de una característica medida a partir de la muestra hacia su valor poblacional. Esto último se logra a traves del cuociente entre el valor de cada variable y su respectiva probabilidad de selección. tˆyπ = ∑s yk πk Es importante recordar que la EOD es una muestra en que todos los elementos tienen la misma probabilidad de selección (πk=π), por lo tanto la 1 formula anterior se simplifica a: tˆyπ = ∑s y k . π Estimación de Tasas y Proporciones 26 El estimador de Tasas, también conocido como estimador de razón, es simplemente el cuociente entre dos totales de interés. Por ejemplo, para estimar la tasa de desempleo, esta razón corresponde al total de personas ocupadas (tyπ) dividido por el total de personas en la fuerza de trabajo (txπ). Rˆ = tˆyπ tˆxπ Esta misma expresión se utiliza para el cálculo de Proporciones cuando la variable de interés (y) es binaria (0,1). Por ejemplo, la proporción de personas de 14 ó más años corresponde al total de personas de 14 ó más años (tyπ) dividido por el total de personas en la muestra (txπ). La expresión simplificada ∑ yk que se obtiene debido al diseño autoponderado de la EOD es R̂ = s ∑s x k Estimación de Promedios Finalmente, el estimador de Promedios se calcula a través del cuociente entre el total de la variable de interés y el total de personas en la muestra. Por ejemplo, el ingreso promedio de la población corresponde al total de los ingresos declarados (tyπ) dividido por el total de personas en la población (N). 1 yˆ yπ = tˆyπ N Esta última fórmula asume que el total de personas en la población (N) es un número conocido. Cuando se desconoce N (o se desconfía de su precisión, debido a desactualizaciones en las estimaciones censales, por ejemplo) se utiliza un estimador del total de la población obtenido a partir de la muestra. La fórmula a utilizar en este caso es: tˆyπ ~ y ys = = Nˆ ∑yπ ∑ 1π k s s k k 27 La expresión simplificada que se obtiene debido al diseño autoponderado de ∑ yk la EOD viene dada por ~ y ys = s . n 8. Estimación de Varianza La EOD utiliza un mecanismo sistemático para la selección de las unidades primarias de muestreo, lo cual complica la estimación de la varianza. En efecto, no existe un estimador insesgado de la varianza bajo muestreo sistemático y no se puede medir la variabilidad muestral de los estimadores puntuales presentados en la sección anterior -ya que en efecto se realiza una sola selección aleatoria por estrato y se necesitan como mínimo dos selecciones aleatorias para estimar la varianza-. En este caso, se dice que la varianza no es medible y no se puede calcular únicamente a partir de los datos de la muestra. Existen dos enfoques para tratar el problema: (1) utilizar modelos para la estimación de la varianza, y (2) utilizar múltiples selecciones aleatorias. En esta sección presentamos brevemente ambas alternativas. La decisión sobre que enfoque utilizar dependerá de los supuestos que asuma el usuario y de la capacidad computacional disponible. 8.1. Estimación con múltiples réplicas Si bien es cierto la selección sistemática implementada en la EOD utiliza un solo arranque aleatorio al interior de cada uno de los 8 estratos, se dispone de 4 réplicas (cuartos) para la estimación de las estadísticas laborales de cada aplicación (ej: Junio 2006). Esto significa que en cada estrato se realizan efectivamente 4 selecciones aleatorias, por lo tanto el cálculo de la varianza es posible. La formula para el cálculo de la varianza cuando se dispone de K replicas independientes viene dado por: VˆREP (θˆ * ) = K 1 ∑ (θˆk − θˆ * ) 2 K (1 − K ) k =1 Donde θˆk es el estimador puntual calculado a partir de la replica k y θˆ * = 1 K K ∑θˆ k es el estimador puntual de la muestra completa calculado como k 28 el promedio de los estimadores puntuales de las K réplicas (Sarndal, Swensson y Wretman, 1992). En teoría, este es el estimador de la varianza que mejor refleja el diseño complejo de la EOD. Sin embargo, la estimación de la varianza puede resultar inestable debido a los pocos grados de libertad (K-1) que implica contar con sólo 4 réplicas. El analista tendrá que ponderar la pérdida en precisión que implica la estimación de la varianza con sólo 4 replicas versus el sesgo que puede introducir la estimación de la varianza a través de los modelos que se presentan en la sección siguiente. 8.2. Modelos de estimación de varianza Modelo Muestreo Aleatorio Simple El modelo más sencillo asume que el muestreo sistemático (SY) es por lo menos tan eficiente como el muestreo aleatorio simple (SI), por lo tanto utiliza la fórmula de estimación de la varianza SI para el cálculo de la estimación de varianza SY. Este es un supuesto razonable cuando, por ejemplo, la lista se encuentra ordenada en forma aleatoria al momento de realizar la selección sistemática. Si se sospecha de la existencia de un ciclo en el orden de la lista, entonces este no es un buen supuesto. La varianza se puede estimar a partir de la siguiente expresión, donde los grados de libertad disponibles son (n-1): VSY (tˆπ ) ≈ VSI (tˆπ ) = N 2 (1 − f ) 2 Sy n Si el muestreo sistemático es mas preciso que el muestreo aleatorio simple, entonces el uso de la formula SI estará sobreestimando VSY (tˆπ ) . En este caso se dice que el enfoque SI es conservador, ya que los intervalos de confianza de 95% que se estimen a partir de VSI (tˆπ ) incluirán el parámetro de interés a una tasa mayor que 95% (en repetidas muestras). (Kish, 1965) Recordar que en la EOD la lista a partir de la cual se seleccionan las UPM se encuentra ordenada en forma geográfica, por lo tanto puede ser 29 discutible que este modelo de estimación sea el más adecuado para la encuesta. Modelo de Diferencias Pareadas A veces es razonable asumir que cada par sucesivo de UPM fue seleccionado en forma aleatoria a partir de una zona implícita. Por ejemplo, para la selección sistemática de 20 manzanas en un estrato con 400 manzanas: (1) se crearon 10 zonas implícitas de 40 manzanas cada, (2) las manzanas se ordenaron en forma aleatoria al interior de cada zona, y (3) se seleccionaron 2 manzanas en forma sistemática de cada zona implícita. Bajo este supuesto, podemos ordenar los pares de UPM según el orden en que fueron seleccionados para la muestra y comparar la primera UPM con la segunda; la tercera UPM con la cuarta, la quinta UPM con la sexta, y hasta la UPM (n-1) con la n (Kish, 1965). La varianza se puede estimar a partir de la siguiente expresión, donde los grados de libertad disponibles son n/2: (1 − f ) n / 2 VˆSY (tˆπ ) ≈ VˆDP (tˆπ ) = N 2 ∑h ( y ha − y hb ) 2 n2 Debido al orden geográfico que presenta la EOD, el modelo de Diferencias Pareadas se presenta como una alternativa bastante cercana al diseño muestral y su implementación es relativamente sencilla en términos computacionales. Se recomienda su uso por sobre el modelo del muestro aleatorio simple y como una alternativa menos compleja a los modelos de replicación que se describen en la siguiente sección. Técnicas de replicación Las técnicas de replicación imitan el proceso descrito en la estimación vía replicas independientes, pero utilizando sub-muestras de la muestra completa. La técnica de Replicaciones Repetidas Jacknife (JRR) define las replicas a través de la eliminación de una UPM a la vez. Si A es el numero de UPM en la muestra, se pueden construir (A-1) réplicas a partir de la muestra y calcular (A-1) estimadores puntuales. Finalmente se estima la varianza utilizando la fórmula presentada en la sección 9.1. El problema de este modelo es que las (A-1) submuestras seleccionadas no son independientes unas de otras (a diferencia de las replicas EOD discutidas 30 en la sección 9.1), por lo tanto se produce sesgo debido a la dependencia de las submuetras. El sesgo es pequeño en encuestas grandes. Otras técnicas de replicación utilizadas son el Bootstrap y las SemiMuestras Balanceadas (Balance Half Samples, BHS). Para una revisión de técnicas de estimación de varianza ver Kovar, Rao y Wu (1988). Un resumen comparativo de técnicas de estimación de varianza se encuentra también en Rust (1985). 31 ANEXOS ANEXO A Tabla A. Comunas integrantes de cada estrato EOD desde 1957 a la fecha. Estrato Jun 1957 – Dic 1997 1 Ñuñoa La Reina La Florida 2 San Miguel 3 La Cisterna La Granja San Bernardo Maipú Quinta Normal Pudahuel 4 Ñuñoa La Reina Macul Peñalolén San Miguel La Cisterna San Joaquín La Granja San Ramón Pedro Aguirre Cerda Lo Espejo El Bosque La Pintana San Bernardo Maipú Cerrillos Pudahuel Lo Prado Cerro Navia Recoleta Independencia Conchalí Renca Quilicura Huechuraba Providencia Vitacura Las Condes Lo Barnechea Santiago E. Central Quinta Normal La Florida Puente Alto 5 Conchalí Renca Quilicura 6 Providencia Santiago Oriente Las Condes 7 Santiago Centro 8 Santiago Poniente Dic 1996 - presente Notas: En Diciembre 1996 se inicio el proceso de traspaso desde la antigua definición de los estratos (17 comunas) hacia la nueva definición (34 camunas). La encuesta de Dic1996 incluyó 1 cuarto con la nueva definición y 3 cuartos con la antigua; Mar1997 incluyó 2 nuevos y 2 antiguos; Jun1997 incluyó 2 nuevos y 2 antiguos; Sep1997 incluyó 2 nuevos y 2 antiguos; y finalmente Dic1997 incluyó 3 nuevos y 1 antiguo. A partir de Mar1998 los 4 cuartos utilizan la nueva definición de estratos (en base a 34 comunas). 32 ANEXO B Tabla B. Distribución de la muestra de los cuartos entrantes a la muestra de cada año, entre 1996 y 2006. Dic96- Dic97- Dic98- Dic99- Dic00- Dic01- Dic02- Dic03- Dic04- Dic05- Estratos Sep97 Sep98 Sep99 Sep00 Sep01 Sep02 Sep03 Sep04 Sep05 Sep06 Estrato 1 93 101 97 97 100 94 100 92 95 106 Estrato 2 124 112 113 114 116 113 112 122 115 104 Estrato 3 80 79 74 88 83 80 84 80 78 74 Estrato 4 116 140 106 107 111 113 114 111 111 108 Estrato 5 100 86 90 89 96 97 93 96 88 87 Estrato 6 74 77 88 97 94 84 83 92 104 126 Estrato 7 85 73 77 83 78 81 73 80 72 65 Estrato 8 93 97 120 90 87 103 106 92 102 95 Total 765 765 765 765 765 765 765 765 765 765 Fuente: Centro de Microdatos. Departamento de Economía, Universidad de Chile. Notas: (*) El año calendario de la Encuesta de Ocupación (EOD) va desde Diciembre a Septiembre del año siguiente. (**) B es el número de nuevos segmentos compactos a seleccionar cada año en cada estrato de cada cuarto; nh es el número de hogares a seleccionar cada año en cada estrato de cada cuarto, y ∑nh es el total de hogares empadronados en cada estrato a traves de los los 4 nuevos cuartos que se introducen cada año. (***) Los cuartos del año año 96-97 son C97, C98, C99 y C100; los cuartos del año 97-98 son C101, C102, C103 y C104; los cuartos del año 98-99 son C105, C106, C107 y C108; los cuartos del año 99-00 son C109, C110, C111 y C112; los cuartos del año 00-01 son C113, C114, C115 y C116; los cuartos del año 01-02 son C117, C118, C119 y C120; los cuartos del año 02-03 son C121, C122, C123 y C124; los cuartos del año 03-04 son C125, C126, C127 y C128; los cuartos del año 04-05 son C129, C130, C131 y C132; los cuartos del año 05-06 son C133, C134, C135 y C136. ANEXO C DIRECCIONES DEL EMPADRONAMIENTO ESTRATO 8 COMUNA La Florida SEGMENTO137.81.05 D: 6 Nombre de la calle Nº de la casa Nº del piso Nº o letra del Depto. 1 /____ Nº de personas en el hogar H M T Z: 1 UPM: 83 Observaciones G.S.E 01 02 03 04 05 06 07 08 09 10 ……………… ……………….. Recuerde que DEBE registrar en cada línea a un hogar distinto. Identificándolo CLARAMENTE, en la columna observaciones, con el nombre del Jefe de Hogar o cónyuge. Podría identificarse por la vivienda según su ubicación en el sitio o tipo de vivienda, NO color. FECHA EMPADRONADOR ____________________________________________________ 1 ANEXO D Tabla D. Proyecciones de Población para el Gran Santiago en base al Censo 1992. Año Proyección INE Proyección U. de Chile 1982 3.897.900 1983 3.986.800 1984 4.076.100 1985 4.165.900 1986 4.255.500 1987 4.347.000 1988 4.440.500 1989 4.536.000 1990 4.649.085 4.633.600 1991 4.736.666 4.733.300 1992 4.826.235 4.835.100 1993 4.916.222 4.939.100 1994 5.004.970 5.045.300 1995 5.090.914 5.153.900 1996 5.173.158 5.264.838 1997 5.253.447 5.378.163 1998 5.332.100 5.493.928 1999 5.409.484 5.612.185 2000 5.485.846 5.732.987 2001 5.560.564 5.856.389 2002 5.633.932 5.982.448 2003 5.706.190 6.111.220 2004 5.777.560 6.242.764 2005 5.848.309 6.377.139 2