MetodologiaDisenoMuestral_EncuestaOcupacion.pdf

Anuncio
DISEÑO MUESTRAL
ENCUESTA DE OCUPACIÓN Y DESOCUPACIÓN EN EL GRAN SANTIAGO
DICIEMBRE 2006
DOCUMENTO EN PROGRESO
NO CITAR
PRESENTACION
El Centro de Microdatos del Departamento de Economía, Universidad de
Chile, presenta el Documento Metodológico de la Encuesta de Ocupación y
Desocupación en el Gran Santiago (en adelante, Encuesta).
Esta publicación tiene como objetivo dar a conocer a los usuarios de la
información de la Encuesta, un panorama sobre la base conceptual y
metodológica en que ésta se sustenta, así como también la estructura
operativa de la misma.
En el presente documento se relata brevemente la historia de esta
encuesta, para luego describir los requerimientos y diseño de la muestra,
las diferentes etapas de selección, el esquema de rotación, y sus
implicancias sobre el cálculo de estimadores (medias y varianzas) de las
situación ocupacional.
Con base a lo anterior el Departamento de Economía de la Universidad de
Chile ofrece a los usuarios de datos, los elementos necesarios para una
adecuada interpretación de los resultados obtenidos por la Encuesta y un
correcto análisis de la ocupación y desocupación en el Gran Santiago.
Este informe consta de un resumen ejecutivo, un cuerpo de ocho capítulos
y una sección complementaria de anexos, todos los cuales se distribuyen
como sigue. En el primer capítulo se presentan los objetivos de la Encuesta,
para en una segunda sección proveer algunos antecedentes históricos de la
misma. En el tercer capítulo se caracteriza la población objetivo, el marco
muestral, el proceso de selección de la muestra y su tamaño.
Seguidamente, se describen los procesos de selección de las unidades
primarias y secundarias de muestreo, y el esquema de rotación de la
muestra. Finalmente, se detalla el cálculo de estadísticas laborales,
explicando como se calculan los ponderadores de le Encuesta y un
conjunto de estadísticas ocupacionales. El último capítulo ofrece
metodologías alternativas para la estimación de varianzas de los
estimadores antes descritos.
2
INDICE
Resumen ejecutivo.................................................................................................. 4
1. Introducción......................................................................................................... 6
2. Reseña histórica.................................................................................................. 7
3. Requerimientos y diseño de la muestra .............................................................. 9
3.1 Población objetivo .......................................................................................... 9
3.2. Características generales del muestreo ..................................................... 10
3.3. Tamaño de la muestra................................................................................. 10
4. Selección de unidades primarias de muestreo.................................................. 12
4.1. Estratificación de las UPM........................................................................... 12
4.2. Selección de las UPM ................................................................................. 13
5. Selección de unidades secundarias de muestreo ............................................. 15
5.1. Listado de las USM ..................................................................................... 15
5.2. Selección de las USM ................................................................................. 16
6. Esquema de rotación de la muestra.................................................................. 19
7. Estimación de estadísticas laborales ................................................................ 20
7.1. Calculo de ponderadores ............................................................................ 21
7.2. Estimadores de estadísticas laborales ........................................................ 25
8. Estimación de Varianza.................................................................................... 28
8.1. Estimación con múltiples réplicas................................................................ 28
8.2. Modelos de estimación de varianza ............................................................ 29
ANEXOS ............................................................................................................... 32
3
Resumen ejecutivo
La Encuesta de Ocupación y Desocupación del Gran Santiago (EOD), financiada
principalmente por el Banco Central de Chile, es en Latinoamérica la fuente de
datos más antigua sobre estadísticas laborales de la población chilena. Este
informe metodológico se centra en las estadísticas laborales generadas, pues es
la recolección de estos datos el principal propósito de la encuesta.
La EOD es administrada por el Centro de Microdatos del Departamento de
Economía de la Universidad de Chile, utilizando una muestra de aproximadamente
3.060 hogares del Gran Santiago. Las preguntas sobre la situación ocupacional de
los entrevistados de 14 años y más se refieren a una semana (desde un domingo
hasta el siguiente sabado) comprendida en los meses de Marzo, Junio,
Septiembre y Diciembre de cada año. El trabajo de campo comienza el sabado en
que finaliza la semana de referencia y se extiende por un período de mínimo una
semana y máximocuatro semanas, dependiendo de las dificultades enfrentadas
durante el levantamiento (temporales en invierno, fiestas patrias, fiestas de fin de
año, etc.). Son seleccionados para participar en la muestra hogares en las 34
comunas del Gran Santiago. Los hogares seleccionados participan en la encuesta
por dos períodos consecutivos, dejan la muestra por los dos períodos siguientes y
vuelven a participar nuevamente por dos periodos más, al término de los cuales
dejan la muestra en forma permanente.
Para ser elegible para responder la EOD, la persona entrevistada debe tener 14
años o más. Quienes se encuentran temporal o permanentemente en instituciones
tales como cárceles, hospitales y casas de reposo, por definición no son elegibles
para participar en la encuesta. En la mayoría de los hogares es una persona
solamente quien responde por todos los miembros del hogar. Si la persona que
responde no sabe del estatus laboral de los otros miembros del hogar, entonces
se realizan esfuerzos adicionales por contactar directamente a estas personas.
Hacia fines del mes siguiente a la semana de referencia, el Centro de Microdatos
del Departamento de Economía presenta los principales resultados de cada
levantamiento de la encuesta, en el correspondiente Informe Trimestral de
Empleo. Este informe, presentado en una conferencia de prensa, analiza la
coyuntura laboral, a partir de las principales estadísticas ocupacionales derivadas
del cuestionario central de la EOD. Asimismo, el Centro de Microdatos elabora
trimestralmente el Informe Encuesta de Percepción y Expectativas sobre la
Situación Económica, a partir del cuestionario complementario de la EOD sobre
este tema. Adicionalmente, en Agosto de cada año, son reportados al Banco
Central los resultados de la Encuesta Especial a Desocupados, aplicada un mes
4
antes a quienes fueron categorizados como tales en dos de los cuatro cuartos de
la EOD correspondiente al mes de Junio del mismo año.
La EOD utiliza como instrumento de recolección de datos la entrevista personal
con papel y lápiz, modalidad que se ha mantenido inalterada desde su
introducción en 1956. A lo largo de los años, el cuestionario central ha mantenido
su estructura y definiciones inalteradas, lo que permite la comparación a través del
tiempo de sus variables principales
5
1. Introducción
El objetivo general de la EOD es establecer un sistema continuo de
información estadística sobre las características sociodemográficas y
económicas de la población para los sectores público, privado y social,
teniendo como unidad de observación el hogar.
Los objetivos específicos de la encuesta son los siguientes:
•
•
•
•
•
•
•
•
•
Recolectar datos acerca de las características sociodemográficas de la
población y su relación con variables laborales como la “condición de
ocupación”;
Recolectar y producir información sobre los niveles de ocupación y
desocupación en relación con la rama de actividad, la ocupación
principal y la posición en el trabajo;
Indagar acerca de características ocupacionales, tales como trabajo
desempeñado, categoría ocupacional y rama de actividad del último
trabajo que tuvieron las personas que dejaron su trabajo, e identificar los
motivos principales por los cuales dejaron dicho empleo;
Indagar acerca de la heterogeneidad del mercado de trabajo,
determinando características de los establecimientos (sector de
propiedad, rama de actividad, etc.) en los que se insertan los ocupados.
Indagar acerca de las condiciones de trabajo (horas, forma de pago,
ingresos y prestaciones laborales) de los ocupados;
Indagar acerca de las modalidades de empleo de la población
plenamente ocupada, diferenciándola de la población parcialmente
ocupada;
Recolectar datos que permita estudiar con mayor profundidad el
fenómeno del desempleo abierto;
Recolectar datos acerca de los inactivos a fin de conocer el grado de
disponibilidad para integrarse al mercado de trabajo o los motivos de su
no disponibilidad para trabajar;
Determinar la presión que ejercen sobre el mercado de trabajo los
ocupados que buscan otro empleo.
6
2. Reseña histórica
La primera Encuesta de Ocupación en el Gran Santiago fue realizada en
Octubre de 1956 y fue financiada por el Banco Central de Chile, ASIMET, la
Fundación Rockefeller y el Gobierno de Chile. El diseño metodológico
estuvo a cargo del economista estadounidense Joseph Grunwald y tuvo
como referente la encuesta de empleo de Estados Unidos (Current
Population Survey). La aplicación de la encuesta estuvo a cargo del Instituto
de Economía de la Universidad de Chile, bajo la supervisión del experto de
las Naciones Unidas Roe Goodman.
En esta oportunidad se seleccionaron 2.330 hogares, de los cuales un 98,2
por ciento fueron encuestados. Con posterioridad a Octubre de 1956 la
EOD se repitió en Junio de 1957, Junio de 1958, Marzo y Junio de 1959. A
partir de 1960, la encuesta se realiza trimestralmente, teniendo como
períodos de referencia una semana de Marzo, Junio, Septiembre y
Diciembre de cada año.
Cronología de los cambios metodológicos más importantes
Junio 1958. Introducción de muestras adicionales en las ciudades de
Valparaíso y Viña del Mar.
Marzo 1959. Introducción de muestra adicional en Gran Concepción.
Junio 1959. Introducción de muestras adicionales en las ciudades de
Valdivia y Los Lagos.
Septiembre 1960. Introducción de muestras adicionales en las ciudades de
La Serena y Antofagasta.
Cambio de la base muestral utilizada desde 1956. Se
introducen los siguientes cambios: 1) aumento del tamaño muestral a 3.500
hogares en el Gran Santiago; 2) división de la muestra total en cuartos, esto
es, submuestras del 25 por ciento del total de los hogares a encuestar, en
reemplazo de los deciles utilizados previamente; 3) modificación de
porcentaje de rotación muestral, de tal forma que, a partir de entonces, el
50 por ciento de los hogares de la muestra cambia entre encuestas
sucesivas (en lugar del 20% variable previamente); 4) incorporación de la
revisión anual o bianual de los segmentos, con reemplazos trimestrales, en
lugar de la base fija mantenida hasta entonces.
7
Diciembre 1960. Introducción de muestras adicionales en las ciudades de
Iquique y Coquimbo.
Marzo 1961. Introducción de muestras adicionales en las ciudades de
Puerto Montt y Castro.
Año 1970. El Banco Central de Chile decide financiar solamente las
muestras del Gran Valparaíso, Gran Concepción y Gran Santiago.
Septiembre 1973. Los sucesos políticos ocurridos en Chile durante
Septiembre de 1973 llevan a que los datos correspondientes a la encuesta
de este mes no sean procesados, a pesar de que ya había sido
entrevistado aproximadamente un 95% de la muestra. La aplicación y
procesamiento normal de la encuesta se reanudan en Diciembre de 1973.
Año 1974. Reducción del tamaño muestral a 3.400 hogares, distribuidos en
296 segmentos censales (este número de segmentos censales se mantiene
inalterado hasta la actualidad).
Recodificación de la variable Actividad Económica en las
encuestas del periodo 1957-1973. Este proceso estuvo a cargo de los
académicos Isabel Heskia y Luis Riveros, fue financiado por el Banco
Central de Chile y fue supervisada por los representantes de la Universidad
de Chile José Luis Federici y Andrés Sanfuentes.
Intento de aplicación de una muestra de direcciones no
contiguas (seleccionadas en forma aleatoria) en cada sector de
empadronamiento. Este intento fracasó por dificultades políticas de la
época - para los encuestadores era más fácil explicar a las personas a
encuestar que se estaba intentando contactar a hogares de diez
direcciones seguidas que de diez direcciones saltadas. En el intento por
realizar las encuestas sorteadas aleatoriamente en cada sector, varios
encuestadores fueron detenidos y como resultado se decidió conglomerar
geográficamente.
Año 1978. Se revisa el diseño muestral y se propone que la distribución de
segmentos deje de ser aleatoria (sólo son 74 por cuarto) y pase a ser
aleatoria sistemática, permitiendo una mayor dispersión de la muestra.
Año 1980. Se agrega pregunta sobre “deseos de trabajar”, que permite
medir la oferta potencial de mano de obra (desocupados más inactivos con
deseos de trabajar), a solicitud del académico Arnold Harberger.
8
Marzo 1980. Ampliación del tamaño muestral para lograr representatividad
a nivel nacional, urbano y rural, en los meses de Marzo y Septiembre de
cada año.
Año 1982. Se agrega al conjunto de levantamientos del área ocupacion, la
“Encuesta Especial a los Desocupados”, que entrevista una vez al año
(julio) a una submuestra de los desocupados identificados en la medición
de Junio. Esto ocurre a solicitud del académico Arnold Harberger.
Año 1983. El Banco Central de Chile disminuye su aporte financiero a la
encuesta y como consecuencia el tamaño muestral se reduce en un 10%. A
partir de entonces el tamaño muestral de la EOD se ha mantenido en 3.060
hogares.
Año 1998. Se amplía de 5 a 7 las categorías definidas para la variable tipo
de educación, lo cual permite un conocimiento más detallado del último
ciclo y modalidad de educación alcanzado por los miembros de los hogares
encuestados.
Marzo 2001. Se agrega a la EOD el cuestionario complementario “Encuesta
de Percepción y Expectativas sobre la Situación Económica”. El suplemento
se aplica en los cuatro levantamientos anuales, a continuación del
cuestionario principal. Incluido a solicitud del Banco Central de Chile.
3. Requerimientos y diseño de la muestra
3.1 Población objetivo
La población objetivo de la EOD incluye a todas las personas mayores de
14 años que residen en viviendas habitadas (o habitables) ubicadas en las
32 comunas urbanas de la provincia de Santiago, además de las comunas
de Puente Alto y San Bernardo. La mayoría de las preguntas del
cuestionario principal de la EOD aplican exclusivamente a esta población
objetivo, aun cuando existe un conjunto de preguntas (parentesco con jefe
del hogar, sexo, edad y educación) que se refieren también a menores de
edad que conforman el hogar.
Personas que se encuentran viviendo en instituciones (recintos militares,
cárceles, hogares de ancianos, hospitales de cuidado permanente, etc.) no
forman parte de la población objetivo.
9
3.2. Características generales del muestreo
En Chile, como en la mayoría de los países del mundo, no existe un registro
con las direcciones de las personas que viven en el país, por lo tanto, no se
dispone de un marco muestral a partir del cual seleccionar en forma directa
las personas que conforman la muestra de la EOD.
La alternativa a la selección directa de personas es la selección de los
hogares en que se agrupan las personas. La EOD ha utilizado desde sus
inicios el muestreo probabilistico de áreas para seleccionar los hogares que
forman parte de la muestra. En general, este diseño muestral puede ser
caracterizado como:
•
probabilístico, porque la probabilidad de selección es conocida y
diferente de cero para cada elemento de la población, lo cual permite
realizar inferencia estadística a la población de objetivo;
•
estratificado, porque previo a la selección, las unidades primarias de
muestreo son clasificadas en estratos;
•
con probabilidad de selección proporcional al tamaño, porque la
probabilidad de selección de las manzanas censales es función del
número de hogares que éstas contienen;
•
bietápico, porque los elementos pertenecientes a la muestra se
seleccionan en dos etapas: 1) Selección de manzanas censales; 2)
selección de segmentos compactos de viviendas (a partir de las
manzanas censales seleccionadas en la etapa anterior).
3.3. Tamaño de la muestra
El tamaño muestral de la EOD ha variado en el tiempo en función de
diversos requerimientos de cobertura, precisión de los estimadores y
disponibilidad de financiamiento. El tamaño se ha mantenido fijo en 3.060
hogares desde 1983, ocasión en la cual éste se redujo debido a una
reducción presupuestaria.
El tamaño muestral de 3.060 hogares utilizado en las encuestas del período
1983-2006 es consistente con coeficientes de variación de la tasa de
desempleo en el rango [0,053; 0,068]. Para la estimación de estos valores
utilizamospromedios mínimos de tasa desempleo y cuasivarianza
10
poblacional de (0.065 y 0.061) y valores promedio máximos de (0.104 y
0.093).
Fórmula para la determinación del tamaño muestral
Para determinar el tamaño de una muestra se consideran la(s) variable(s)
de interés del estudio, el nivel de precisión mínimo ( V0 ) requerido para
dichas variables, y el presupuesto disponible.
• La variable de mayor interés en la EOD es la tasa de desempleo, por
lo tanto el cálculo del tamaño muestral se realizó en función esta
variable solamente.
• Los requerimientos de precisión ( V0 ) generalmente son expresados
a través del coeficiente de variación (CV), el cual se calcula como el
error estándar dividido por el valor esperado de la característica bajo
estudio.
• Para efectos de cálculo se asume que el costo de la muestra es una
función de la cantidad de hogares entrevistados (n).
La pregunta a contestar entonces es ¿para una varianza objetivo V0 de la
tasa de desempleo, cuán grande debe ser la muestra? La fórmula siguiente
es utilizada en forma frecuente para el cálculo de tamaños muestrales.
n=
1
 V0 1 
 2+ 
N
S
; V0 = VSRS * Deff
; Deff = 1 + ( m − 1) * ρ
donde
n
N
S2
V0
VSRS
m
ρ
Deff
: número de hogares en la muestra
: número de hogares en el universo
: cuasivarianza poblacional de la tasa de desempleo
: varianza objetivo de la tasa de desempleo (bajo muestreo complejo)
: varianza de la tasa de desempleo (bajo muestreo aleatorio simple)
: promedio de hogares a entrevistar por manzana
: tasa de homogeneidad (Roh) de la tasa de desempleo
: efecto diseño de la tasa de desempleo
11
4. Selección de Unidades Primarias de Muestreo
4.1. Estratificación de las UPM
Las unidades primarias de muestreo (UPM) de la EOD las conforman
manzanas y grupos de manzanas identificadas en el Censo de Población y
Vivienda de Abril de 1992.
Previo a la selección de las UPM se realiza el proceso de estratificación de
la muestra. Los principales objetivos del proceso de formación de estratos
son mejorar la precisión de los estimadores y permitir un mejor control de la
distribución de la muestra.
Para obtener mejoras en la precisión de los estimadores, las variables
utilizadas en el proceso de estratificación deben estar relacionadas con la
variable bajo estudio de la encuesta. En el caso de la EOD, la variable bajo
estudio es la tasa de desempleo y la variable disponible para estratificación
es la comuna a la que pertenece cada manzana.
Si suponemos que el desempleo está correlacionado con el estatus
socioeconómico de las personas, y además asumimos que la comuna es
una buena aproximación del estatus socioeconómico, entonces tenemos
razones para esperar mejoras en la precisión de los estimadores producto
de la estratificación de la muestra de la EOD. Si estos supuestos no son
válidos, entonces quedamos sujetos al nivel de precisión del diseño
muestral respectivo (sin “mejoras” debido a la estratificación).
El mejor control de la distribución de la muestra está garantizado bajo un
muestreo estratificado geográficamente, ya que la selección de las UPM se
realiza en forma independiente al interior de cada uno de los estratos. Esto
implica que tenemos “asegurado” cierto número de selecciones en cada
uno de los 8 estratos de la EOD. Si, por ejemplo, no estratificáramos y
realizáramos un muestreo aleatorio simple de las UPM podríamos –sólo por
azar– obtener una muestra en donde no haya ninguna manzana
seleccionada en las comunas de La Florida y Puente Alto (estrato #8). Si
bien es cierto esta situación es bastante improbable, podría ocurrir “sólo
por azar”. La estratificación, en cambio, nos asegura que habrá selecciones
en cada uno de los 8 estratos.
Las tres primeras columnas del Cuadro 1 presentan algunas características
de los 8 estratos EOD, según el Censo 1992. Las dos últimas columnas
ilustran la afijacion proporcional de la muestra EOD. Cada año es
12
recalculada la afijacion de la muestra EOD en los 8 estratos, en función de
los crecimientos/decrecimietnos observados en las comunas del Gran
Santiago.
El proceso de actualización de direcciones (Empadronamiento) que se
realiza en forma previa a cada uno de los 4 levantamientos de la encuesta
de empleo provee información para estimar la redistribucion de la población
entre las comunas del Gran Santiago. Anualmente se realizan 4
empadronamientos de 765 hogares cada uno, lo que implica contar con una
muestra de aproximadamente 3,100 hogares para estimar la distribución de
los hogares entre los estratos del Gran Santiago. El Anexo B presenta la
distribución de la muestra EOD para el período 1996-2006. Detalles del
procedimiento de Empadronameinto se presentan en la sección 5.1.
Cuadro 1: Ilustración de muestreo estratificado proporcional al número de
hogares en cada estrato, según datos del Censo 1992.
Estratos
Universo
Distribución Muestra EOD
No. de Hogares
No. de manzanas
No. Hogares
Distrib.
1
146,397
3,615
372
12%
2
193,393
5,145
496
16%
3
123,291
3,748
320
10%
4
182,015
5,808
464
15%
5
155,057
4,416
400
13%
6
116,473
2,985
296
10%
7
131,318
3,073
340
11%
8
145,540
4,598
372
12%
Total
1,193,484
33,388
3,060
100%
Fuente: Estadísticas del Censo de Población y Vivienda 1992.
4.2. Selección de las UPM
El marco muestral con que trabaja la EOD incluye información estadística y
cartográfica a nivel Comuna-Distrito-Manzana (CDM). El Instituto Nacional
de Estadísticas (INE) subdivide las comunas en Distritos, Zonas y
Manzanas censales, las cuales se construyen con los siguientes atributos
fundamentales: (a) son perfectamente reconocibles en el terreno al estar
delimitadas por rasgos topográficos identificables y perdurables; (b) por lo
13
general, son homogéneas en cuanto a sus características sociales,
económicas y geográficas. Con base a esta subdivisión se determinan las
UPM que son utilizadas para la posterior selección de hogares en las 34
comunas del Gran Santiago.
La selección de las UPM se realiza en forma independiente al interior de
cada uno de los 8 estratos de la muestra utilizando probabilidad
proporcional al tamaño (PPT) y el algoritmo de selección sistemática.
El método PPT consiste en acumular las medidas de tamaño de las UPM
(número de hogares en cada manzana) y seleccionar las UPM de acuerdo a
este total acumulado. Este procedimiento determina que las UPM de mayor
tamaño sean seleccionadas con mayor probabilidad que las UPM más
pequeñas.
El algoritmo de selección de las UPM utilizado en la EOD es sistemático ya
que consiste en tomar cada k-ésima UPM a partir de un arranque aleatorio
r*, donde kh es el intervalo de selección en el estrato h y es igual a Nh/nh
(Nh=total de hogares en estrato h y nh=muestra de hogares en el estrato h).
Este procedimiento se utiliza extensamente en encuestas de hogares
porque es fácil de aplicar y permite disponer de una muestra proporcionada
cuando la lista es ordenada. En el caso de la EOD, el listado de manzanas
censales es ordenado en forma geografica previo a la selección de UPM,
por lo tanto, podemos decir que las UPM seleccionadas se encuentran
estratificadas geográficamente en forma implícita al interior de cada estrato.
Todo el procedimiento descrito es realizado en Gabinete (no en terreno) por
personal profesional del CMD
Debido al sistema de rotación de la EOD, cada año son seleccionadas
aproximadamente 296 nuevas UPM (en total, entre los 8 estratos de la
muestra). La fracción de muestreo en cada estrato h de esta primera etapa
de selección viene dada por:
a M
f h1 = ahh hi
∑ M hi
i =1
donde
ah
: número de manzanas (UPM) a seleccionar en el estrato h
Mhi
: número de hogares en la manzana i en el estrato h (según registros
del Censo 1992)
14
5. Selección de Unidades Secundarias de Muestreo
5.1. Listado de las USM
Las Unidad Secundarias de Muestreo (USM) están conformadas por
bloques contiguos de aproximadamente 10 viviendas particulares
(habitadas permanentemente, o aptas para habitarse) que se encuentren
ubicadas en las UPM seleccionadas en la muestra.
En la sección anterior se explicó cómo la selección de las UPM es realizada
sobre la base de los registros del Censo 1992. Para realizar la selección de
las USM, en cambio, es necesario contar con información actualizada del
número de hogares existentes en las UPM seleccionadas. Dos
procedimientos se realizan en forma rutinaria para estos efectos: conteo
rápido viviendas y empadronamiento.
El conteo rápido del número de viviendas de las manzanas seleccionadas
es realizado por supervisores del CMD en forma previa al proceso formal de
listado de viviendas (empadronamiento). El objetivo es determinar
rápidamente las UPM que presentan crecimientos anormales respecto del
Censo 1992. Cuando esto ocurre, la UPM se divide en segmentos de menor
tamaño y se sortea en forma aleatoria uno de los segmentos para el
proceso de empadronamiento. El sorteo aleatorio de segmentos es
realizado en Gabinete por profesionales del CMD.
El empadronamiento consiste en visitar las manzanas seleccionadas y
realizar un listado con el número de hogares, las direcciones y el tipo de
uso de las estructuras existentes (Ej: habitables, en el caso de viviendas, y
no habitables, en locales comerciales, sitios eriazos, etc.). Este
procedimiento es realizado en terreno por empadronadores del CMD, no
por encuestadores. Para actualizar el número de hogares, los
empadronadores establecen contacto con las viviendas y preguntan por el
número de hogares que vivien en cada vivienda de la manzana
seleccionada. Ver ficha de empadronamiento en Anexo C.
A partir de este listado se puede actualizar la información censal referente
al número de hogares que integran la UPM seleccionada. La utilidad de
este procedimiento es doble:
• Determinar la cantidad exacta de hogares a seleccionar en cada
manzana.
15
•
Estimar anualmente la distribución de la población en los estratos
del Gran Santiago para informar el recalculo de la afijación
proporcional de la muestra a los estratos.
El proceso de actualización del marco muestral es desarrollado en Gabinete
por personal profesional del CMD.
5.2. Selección de las USM
Todos los parámetros de la primera etapa de selección se determinan sobre
la base de los datos del Censo 1992 y a un tamaño promedio de 10
viviendas por USM. Cuando los datos utilizados en el proceso de muestreo
son exactos, es decir, cuando no existe error de medición (Ej. producdo de
la desactualización a medida que pasa el tiempo), entonces la probabilidad
de selección de la segunda etapa en cada estrato h es:
b
f h2 =
M hi
donde,
b
: número original de hogares a seleccionar en el estrato h (aprox 10)
Mhi
: número de hogares en la manzana i en el estrato h (según registros
del Censo 1992)
Como es de esperar, al momento de realizar el Empadronamiento se
producen discrepancias entre el registro censal y lo que se observa en
terreno –producto de la obsolescencia del marco muestral a medida que
uno se aleja del período censal-.
Para mantener fija la probabilidad de selección de las USM se ajusta la
cantidad de viviendas a seleccionar en cada manzana de manera de
compensar el efecto de los crecimientos/decrecimientos experimentados
por la UPM con respecto al Censo 1992. De esta manera, utilizando la
información actualizada en el proceso de empadronamiento, la probabilidad
de selección de la segunda etapa en el estrato h queda definida por:
 b 
b*
 * M hi*
f h2* = *
b * = 

M
M hi
 hi 
donde,
b*
: número ajustado de hogares a seleccionar en el estrato h
16
M*hi
b
Mhi
: número de hogares en la manzana i en el estrato h (según
Empadronamiento en fecha actual)
: número original de hogares a seleccionar en el estrato h (aprox 10)
: número de hogares en la manzana i en el estrato h (según registros
del Censo 1992)
Como resultado de este procedimiento se produce una redistribución de los
hogares seleccionados al interior de cada estrato. Por una parte se
seleccionan más hogares (por ejemplo 15) en las manzanas que han
experimentado crecimiento desde el Censo de 1992, y por otra parte se
seleccionan menos hogares (por ejemplo 6) en las manzanas que han
decrecido.
Finalmente, una vez que se ha determinado la cantidad de hogares a
entrevistar en cada manzana se procede a la selección de las USM. Un
número aleatorio entre 1 y M*hi (el número actual de viviendas en la
manzana) es sorteado para cada UPM y este número determina el hogar
que ha sido seleccionado para la entrevista. En forma automática, además,
son incluidas en la muestra los b*-1 hogares contiguos al recién sorteado.
Como se puede constatar, existe formalmente sólo 1 selección aleatoria
que determina la inclusión de un conjunto de b* hogares en la muestra. Esta
ultima selección corresponde formalmente a la Unidad Secundaria de
Muestreo (USM) y se le conoce también como selección de segmentos
compactos, ya que los hogares no son seleccionados en forma
independiente, sino en bloques (conglomerados) de b hogares.
Ajustes adicionales
La simplicidad del diseño descrito se pone en riesgo cuando ocurren
crecimientos significativos de las UPM. Por ejemplo, cuando se ha
construido un edificio con 80 departamentos en una manzana que
registraba 12 hogares en Abril de 1992. Cuando una UPM crece más allá de
lo esperable, se realizan dos tipos de “ajuste” en su proceso de selección:
se incluye una etapa adicional de selección al nivel de la USM y se pone
una cota máxima al número de hogares a seleccionar en una misma
manzana.
El primer tipo de ajuste fue descrito con anterioridad, y se desarrolla durante
el proceso de actualización del conteo de viviendas de las UPM
seleccionadas. Las manzanas que actualmente exhiben un gran tamaño
son subdivididas en segmentos más pequeños y se sortea en forma
17
aleatoria el segmento que será empadronado para formar parte de la
muestra.
El segundo ajuste esta relacionado con el acotamiento del número de
hogares a entrevistar por manzana. Como se explicó con anterioridad, el
número total de hogares a seleccionar al interior del estrato se mantiene fijo,
pero el número de hogares a seleccionar por manzana se ajusta en función
de los crecimientos/decrecimientos experimentados con respecto al Censo
1992. En un caso extremo podría darse la situación de que, después de
realizar esta redistribución, una manzana en especial termine concentrando
una parte importante de la muestra debido a su explosivo crecimiento (por
ejemplo, que se deba encuestar a 60 de los 120 hogares del estrato en una
sola manzana). Para evitar esta situación se definió una cota de 50 para el
número máximo de hogares a seleccionar en manzanas en que se
descubren crecimientos inesperados. Según los registros disponibles, el
acotamiento del tamaño del conglomerado se ha hecho efectivo sólo en
tres1 ocasiones en los últimos 10 años (1995-2005).
Selección del informante al interior del hogar
Una vez identificados los hogares a encuestar se envía a un encuestador
del CMD para contactar y obtener la cooperación de los hogares en la
encuesta. Al comenzar la entrevista el encuestador elabora un listado de
todos los miembros del hogar, desde los infantes hasta los adultos
mayores, y les aplica una bateria de preguntas demograficas. Las
preguntas sobre situación laboral e ingreso se aplican sólo a los mayores
de 14 años. Si las personas listadas se encuentran presentes generalmente
se aplica la entrevista a cada uno de ellos; sin embargo, de no estar en el
lugar, usualmente se entrevista a un solo miembro del hogar, quien
proporciona información acerca del estatus laboral del resto. Si la persona
presente desconoce la situación laboral de algún miembro de la familia,
entonces se realizan esfuerzos especiales para tratar de entrevistar a esta
persona directamente. Ver cuestionario EOD en Anexo D.
Esta última etapa de selección es formalmente un “censo”, ya que se
entrevista a todas las personas mayores de 14 años en la USM
seleccionada. La probabilidad de selección de las personas en la muestra
en esta tercera etapa es igual a 1.
1
En Septiembre de 1996 se seleccionaron 50 de 62 hogares que se debian haber seleccionado; en Marzo de
1997 se seleccionaron 50 de 56 hogares; y en Marzo de 1998 se seleccionaron 50 de 67 hogares.
18
6. Esquema de Rotación de la Muestra
El esquema de rotación de la EOD es un compromiso entre la mantención
de un panel permanente (para el cual es difícil mantener una alta tasa de
respuesta) y una muestra de corte transversal completamente nueva cada
trimestre (lo que resultaría en estimadores de cambio muy variables). El
esquema trata de balancear la minimización de:
•
•
•
•
Varianza de los estimadores de cambio de trimestre-a-trimestre: dos
cuartos de la muestra es la misma de trimestre a trimestre.
Varianza de los estimadores de cambio de año-a-año: la mitad de la
muestra es la misma en el mes de encuestaje de años consecutivos.
Varianza de otros estimadores de cambio: la muestra que sale es
reemplazada por una muestra que probablemente tiene las mismas
características.
Fatiga del informante: las cuatro entrevistas en las que participa
cada hogar se dispersan a través de 18 meses.
Como se implementa el esquema de rotación?
La muestra total de 3.060 hogares se divide en 4 réplicas de 765 hogares
cada uno (denominados paneles o cuartos), en donde cada una de las
réplicas es una muestra independiente del Gran Santiago. Esto significa
que las 4 réplicas son seleccionadas siguiendo el mismo diseño muestral y
comparten el mismo nivel de precisión. De esta manera se puede esperar
que los hogares que se retiran definitivamente de la muestra sean
reemplazados por hogares que provienen de los mismos estratos
geográficos y comparten características similares.
El esquema de rotación de la EOD se caracteriza como 2-2-2: cada hogar
es entrevistado en 2 oportunidades seguidas, se deja de visitar en las
siguientes 2 oportunidades, y se vuelve a entrevistar en 2 oportunidades
consecutivas en un período que cubre 18 meses en total (Ver Cuadro 2).
Para ejemplificar describiremos el ingreso del Cuarto 105 a la muestra. Las
aproximadamente 74 nuevas UPM seleccionadas en 2005 pasan a formar
el “Cuarto 105” e ingresan por primera vez a la muestra en Marzo de 2005.
En la siguiente aplicación de la encuesta (Junio 2005) los hogares del
Cuarto 105 son entrevistados por segunda vez. Después de la segunda
visita, los hogares del Cuarto 105 no serán contactados durante las
19
próximas dos encuestas del 2005 (Septiembre y Diciembre), pero son
contactadas nuevamente en Marzo y Junio de 2006 para participar por
tercera y cuarta vez, respectivamente. Después de la cuarta visita, y cuando
ya han pasado 18 meses desde la primera entrevista, los hogares del
Cuarto 105 dejan de formar parte de la muestra en forma definitiva.
Cuadro 2. Estructura de rotación 2-2-2 de la EOD, para los cuartos seleccionados en
el período 2004-2006.
Submuestra
(cuartos)
101
102
103
104
2004
M
1
J
S
2005
D
M
2
1
3
2
1
J
S
2
2
1
106
M
J
S
D
4
3
105
D
4
3
1
2006
4
3
2
1
107
3
2
1
108
2
2
2
2
1
112
4
3
1
111
4
3
1
110
4
3
1
109
4
2
1
Nota: Los números indican la fase del panel en la que se encuentra cada cuarto (1= primera entrevista; 2=
segunda entrevista; 3= tercera entrevista; y 4= cuarta entrevista).
7. Estimación de Estadísticas Laborales
La EOD es una encuesta probabilística compleja a partir de la cual se
producen estadísticas laborales para la población de 14 años y más del Gran
Santiago. El proceso de estimación en encuestas complejas usualmente
requiere ajustes debido a la presencia de: (1) distintas probabilidades de
selección para sub-poblaciones de interés, (2) distintas tasas de respuesta
entre sub-poblaciones de interés y (3) distorsión en la distribución de variables
demográficas que son informadas por controles poblacionales externos. En la
literatura actual, se utiliza un enfoque que combina el uso de ponderadores
para la corrección de (1), (2) y (3), junto con el uso de imputación para
20
corregir la no respuesta en las preguntas de interés2 (Kalton y Kasprzyk,
1986). Sin embargo, la metodología de la EOD3 – mantenida inalterada desde
hace varias décadas - establece un tratamiento distinto para estos problemas.
En la siguiente sección describiremos los ponderadores utilizados en la EOD y
en la sección que sigue describiremos su utilización en el cálculo de las
estadísticas laborales de mayor interés de la encuesta.
7.1. Cálculo de Ponderadores
Ajuste de probabilidades de selección
En forma general, los ponderadores corresponden al inverso de la
1
probabilidad de selección de los entrevistados wij =
donde wij es el
π ij
ponderador de las personas seleccionadas en el segmento compacto j (USMj)
correspondiente a la manzana i (UPMi) y πij es la correspondiente probabilidad
de selección.
La estrategia de selección de personas en la muestra EOD determina que
todos los segmentos compactos de hogares tengan la misma probabilidad de
selección (EPSEM, equal probability selección method). Esto implica además
que todas las personas entrevistadas comparten esa misma probabilidad de
selección, ya que como se explicó en la sección 5.2, se entrevista a todas las
personas mayores de 14 años en cada hogar, lo cual constituye un censo de
la población objetivo. De esta manera, la probabilidad de selección final en
cada estrato h viene dada por la probabilidad conjunta de la primera y la
segunda etapa de selección.
fh
= f h1 * f h2*


a M
=  ahh hi
 ∑ M hi
 α =1


*
 *  b
 M*
  hi




2
La imputación es la asignación de una o más respuestas a un campo de datos que previamente no tenía
respuestas o que incluía respuestas incorrectas o inverosímiles. La EOD no realiza imputación de valores
para corregir la no respuesta de ningún ítem de la encuesta.
3
Ver el Informe Metodológico de la Encuesta de Ocupación del Gran Santiago para una descripción del trato
de cada uno de estos elementos en la EOD.
21
=
a h M hi
ah
M
∑
α
=1
hi
*
1
M hi*
 b

M
 hi

 * M hi* =


ahb
ah
M
∑
α
=1
hi
Como se puede apreciar la última expresión es una constante, lo cual implica
que la probabilidad de selección de los segmentos compactos ij es la misma
para todos al interior del estrato h. Por otra parte, tenemos que la fracción de
muestreo fh correspondiente al estrato h es la misma para todos los estratos
de la EOD, ya que la encuesta se encuentra estratificada en forma
proporcional al tamaño de los estratos, por lo tanto, fh = f. La implicancia de
este resultado es que todos los elementos de la muestra comparten el mismo
ponderador de selección, el cual viene dado por la siguiente expresión:
ah
1
w = =
f
b
ij
M
∑
α
=1
hi
ah b
Por ejemplo, para la encuesta de Junio 2006 el ponderador de selección de
todos los hogares de la muestra es 583,15 -lo que se puede interpretar como
que cada persona entrevistada en la encuesta se representa a ella misma y a
otras 582 personas que viven en viviendas habitadas (o habitables) del Gran
Santiago-. Los diseños muestrales con esta característica se denominan autoponderados, ya que todos los hogares tienen el mismo ponderador de
selección base.
ah
w =
b
ij
∑M
α =1
ahb
hi
=
6.514.400 personas
= 583,1528
11.171personas
En la expresión anterior, el total de personas (Mhi) corresponde a la
proyección del total de la población para el Gran Sanbtiago que realiza la
Universidad de Chile, mientras que el total de personas en la muestra (ahb)
se obtiene en forma directa a partir de la encuesta. Ver las proyecciones de
población utilizadas en la EOD en el Anexo D.
22
Ajuste de No Respuesta
Todas las encuestas de hogares están sujetas, en mayor o menor medida, a
fallas en el proceso de contactar y lograr la cooperación de los hogares
seleccionados para formar parte de la muestra. Esta falla se denomina no
respuesta de la unidad seleccionada, y sus principales componentes son: (1)
la falla en realizar el contacto con el hogar (ej. no se encuentra nadie al
momento de intentar la entrevista); (2) falla en ganar la cooperación del
seleccionado (ej. la persona se niega a responder la entrevista).
La no respuesta implica que, al final del trabajo de terreno, se logra entrevistar
a un número menor de los 3.060 hogares que fueron seleccionados. El efecto
de la no respuesta en los estimadores es doble: 1) reduce los niveles de
precisión (reducción en el tamaño de la muestra); 2) pone en riesgo la
obtención de estimadores insesgados, debido a la “auto selección” de los
hogares en la muestra. Por estos motivos, en especial el último, es que se
requiere de algún mecanismo que permita corregir el problema de no
respuesta a la unidad.
A diferencia del proceso de selección de la muestra -el cual es definido por el
investigador a través del diseño de las probabilidades de selección de los
elementos de la muestra-, el proceso de contacto y participación de los
hogares en la encuesta se encuentra fuera del control del investigador y sus
probabilidades de “selección” le son desconocidas. De esta forma, se deben
desarrollar modelos que expliquen las distintas probabilidades de participación
de los hogares y corrijan potenciales sesgos de no respuesta.
El modelo de participación más básico es MAR (missing at random) (Rubin,
1987), el cual asume que quienes responden son una muestra aleatoria de los
seleccionados. Bajo este modelo, no tiene sentido hacer ajustes de no
respuesta y los analistas pueden realizar estimaciones en forma directa
utilizando sólo los datos de los participantes de la encuesta (sin realizar
ningún ajuste).
En la EOD tenemos motivos para pensar que las personas que no responden
no son una muestra aleatoria de los seleccionados. El modelo que se aplica
para la corrección de la no respuesta se denomina MCAR (missing completely
at random) (Rubin, 1987) y asume que al interior de ciertas celdas de ajuste
las personas efectivamente entrevistadas son una muestra aleatoria de los
seleccionados originalmente en la muestra.
23
Las variables de agrupación a utilizar para formar las celdas de ajuste tienen
que cumplir con tres características: (1) tienen que estar disponibles tanto
para quienes responden como para quienes no responden la encuesta, (2)
tienen que estar relacionadas con el fenómeno de participación, y (3) tienen
que estar relacionadas con la variable bajo estudio (desempleo). En el marco
muestral de la EOD la única variable que satisface de alguna forma estas
características es la ubicación geográfica de las viviendas seleccionadas, por
lo tanto se utiliza esta variable para la construcción de las celdas de ajuste
para la no respuesta.
El proceso de ajuste de no respuesta se realiza de la siguiente manera:
(1) se forman 8 celdas de ajuste a partir de los 8 estratos geográficos que
utiliza la EOD para la selección de la muestra,
(2) se incluye en cada celda los hogares que respondieron y los que no
respondieron a la encuesta,
(3) para cada hogar que no respondió se sortea en forma probabilística4
un hogar que respondió,
(4) cada hogar que no respondió es reemplazado en la base de datos final
por un hogar que sí respondió.
El procedimiento recién descrito se denomina hot-deck en la literatura
especializada y corresponde a una herramienta váalida para la corrección de
la no respuesta (Kish, 1990). Aunque no se trata del mecanismo más
comúnmente utilizado -que es la utilización de ponderadores que den cuenta
de la probabilidad de participación de los individuos- sí provee una solución
válida al problema5. Una de las características del mecanismo hot-deck es
que –al duplicar encuestas completas- mantiene la estructura de correlación
de las variables bajo estudio.
Es importante destacar aquí que las tasas de respuesta de la EOD reflejan
altos niveles de contacto y cooperación de parte de los entrevistados. La tasa
de respuesta por cuarto ha promediado 91% en el periodo 2003-2006 con
mínimos de 85% y máximos de 96% de respuesta. La tasa de contacto ha
promediado 96% y la tasa de cooperación 95%6.
4
·El mecanismo de selección utilizado es sistematico.
En la EOD se duplican o eliminan encuestas seleccionadas aleatoriamente dentro de cada estrato geografico con la
finalidad de mantener el tamaño muestral de 3,060 hogares en cada aplicación.
6
Ver detalles acerca de los calculos de las tasas de respuesta en Reporte de resultados del trabajo de campo Encuesta de
Ocupación y Desocupación en el Gran Santiago www.empleo1.microdatos.cl
5
24
Ajuste de post-estratificación
Generalmente el ultimo ajuste de ponderadores que se realiza tiene como
objetivo que la distribución de ciertas características demográficas de la
muestra sean idénticas a la distribución de la población objetivo según una
fuente externa de datos considerada como referencia (generalmente el
Censo). Este ajuste, denominado también “control de poblaciones externo”,
“calibración”, o “post-estratificación” se realiza no sólo con la pretensión de
simular la distribución externa, sino también lograr mejoras en la eficiencia
estadística y en la cobertura de la población objetivo.
Actualmente la EOD no emplea ajustes de post-estratificación como los
descritos anteriormente. El único ajuste poblacional que se realiza en la
EOD tiene que ver con la estimacion de la población total del Gran
Santiago, sin distinguir proyecciones para dominios de interés (postestratos) como sexo o tramos de edad de la población.
En el Anexo D se presenta una tabla con las proyecciones de población total
para el Gran Santiago utilizadas para el cálculo de los factores de
expansión de la muestra EOD.
7.2. Estimadores de Estadísticas Laborales
La estadística de mayor interés publicada a partir de la EOD es la tasa de
desocupación de la población del Gran Santiago. En esta sección
presentaremos la forma de cálculo de este y otros estimadores de interés
como totales, proporciones y promedios. Una de las características de la
EOD es que es una muestra estratificada, por lo tanto el cálculo de los
estimadores de interés debe considerar esta característica de su diseño.
Como se verá mas adelante, todos los estimadores de interés de la EOD
pueden ser expresados en función del estimador de totales, por lo tanto, en
esta ocasión lo utilizaremos de ejemplo para explicar la estimación bajo
muestreo estratificado. El estimador de totales para una muestra
estratificada viene dada por la siguiente expresión:
tˆπ = ∑sh tˆhπ =∑sh N h y sh
Donde el total de cada estrato (thπ) es estimado a partir del producto entre el
total de la población en cada estrato (Nh) y el promedio muestral de la
25
característica y en cada estrato (ysh). Esta formulación implica que, por
ejemplo, para calcular el total de personas desocupadas en el Gran
Santiago se debe calcular primero el total de personas desocupadas en
cada uno de los 8 estratos (h) de la EOD y después sumar los 8 totales
para obtener gran total deseado.
Sin embargo -ya que la EOD se encuentra estratificada en forma
proporcional al tamaño de los estratos- el estimador del total se puede
calcular directamente a través de la muestra completa, sin necesidad de
calcular el total para cada estrato en forma independiente. Esta
simplificación en el cálculo se produce exclusivamente por la afijación
proporcional de la muestra en los estratos. Otro tipo de alocaciones (óptima,
proporcional al total y, etc.) no se benefician de esta simplificación.
tˆπ
= ∑h N h y sh = Ny s
En adelante, se presentan las fórmulas de los estimadores de interés sin
considerar la estratificación del muestreo.
Estimación de Totales
Para la estimación de totales se utiliza el estimador Horvitz-Thomson (Horvitz
y Thomson, 1952), también conocido como estimador-π. El estimador
Horvitz-Thomson es insesgado y produce la expansión de una característica
medida a partir de la muestra hacia su valor poblacional. Esto último se logra
a traves del cuociente entre el valor de cada variable y su respectiva
probabilidad de selección.
tˆyπ = ∑s
yk
πk
Es importante recordar que la EOD es una muestra en que todos los
elementos tienen la misma probabilidad de selección (πk=π), por lo tanto la
1
formula anterior se simplifica a: tˆyπ =
∑s y k .
π
Estimación de Tasas y Proporciones
26
El estimador de Tasas, también conocido como estimador de razón, es
simplemente el cuociente entre dos totales de interés. Por ejemplo, para
estimar la tasa de desempleo, esta razón corresponde al total de personas
ocupadas (tyπ) dividido por el total de personas en la fuerza de trabajo (txπ).
Rˆ =
tˆyπ
tˆxπ
Esta misma expresión se utiliza para el cálculo de Proporciones cuando la
variable de interés (y) es binaria (0,1). Por ejemplo, la proporción de personas
de 14 ó más años corresponde al total de personas de 14 ó más años (tyπ)
dividido por el total de personas en la muestra (txπ). La expresión simplificada
∑ yk
que se obtiene debido al diseño autoponderado de la EOD es R̂ = s
∑s x k
Estimación de Promedios
Finalmente, el estimador de Promedios se calcula a través del cuociente entre
el total de la variable de interés y el total de personas en la muestra. Por
ejemplo, el ingreso promedio de la población corresponde al total de los
ingresos declarados (tyπ) dividido por el total de personas en la población (N).
1
yˆ yπ = tˆyπ
N
Esta última fórmula asume que el total de personas en la población (N) es un
número conocido. Cuando se desconoce N (o se desconfía de su precisión,
debido a desactualizaciones en las estimaciones censales, por ejemplo) se
utiliza un estimador del total de la población obtenido a partir de la muestra.
La fórmula a utilizar en este caso es:
tˆyπ
~
y ys =
=
Nˆ
∑yπ
∑ 1π
k
s
s
k
k
27
La expresión simplificada que se obtiene debido al diseño autoponderado de
∑ yk
la EOD viene dada por ~
y ys = s .
n
8. Estimación de Varianza
La EOD utiliza un mecanismo sistemático para la selección de las unidades
primarias de muestreo, lo cual complica la estimación de la varianza. En
efecto, no existe un estimador insesgado de la varianza bajo muestreo
sistemático y no se puede medir la variabilidad muestral de los estimadores
puntuales presentados en la sección anterior -ya que en efecto se realiza
una sola selección aleatoria por estrato y se necesitan como mínimo dos
selecciones aleatorias para estimar la varianza-. En este caso, se dice que
la varianza no es medible y no se puede calcular únicamente a partir de los
datos de la muestra.
Existen dos enfoques para tratar el problema: (1) utilizar modelos para la
estimación de la varianza, y (2) utilizar múltiples selecciones aleatorias. En
esta sección presentamos brevemente ambas alternativas. La decisión
sobre que enfoque utilizar dependerá de los supuestos que asuma el
usuario y de la capacidad computacional disponible.
8.1. Estimación con múltiples réplicas
Si bien es cierto la selección sistemática implementada en la EOD utiliza un
solo arranque aleatorio al interior de cada uno de los 8 estratos, se dispone
de 4 réplicas (cuartos) para la estimación de las estadísticas laborales de
cada aplicación (ej: Junio 2006). Esto significa que en cada estrato se
realizan efectivamente 4 selecciones aleatorias, por lo tanto el cálculo de la
varianza es posible. La formula para el cálculo de la varianza cuando se
dispone de K replicas independientes viene dado por:
VˆREP (θˆ * ) =
K
1
∑ (θˆk − θˆ * ) 2
K (1 − K ) k =1
Donde θˆk es el estimador puntual calculado a partir de la replica k y
θˆ * =
1
K
K
∑θˆ
k
es el estimador puntual de la muestra completa calculado como
k
28
el promedio de los estimadores puntuales de las K réplicas (Sarndal,
Swensson y Wretman, 1992).
En teoría, este es el estimador de la varianza que mejor refleja el diseño
complejo de la EOD. Sin embargo, la estimación de la varianza puede
resultar inestable debido a los pocos grados de libertad (K-1) que implica
contar con sólo 4 réplicas.
El analista tendrá que ponderar la pérdida en precisión que implica la
estimación de la varianza con sólo 4 replicas versus el sesgo que puede
introducir la estimación de la varianza a través de los modelos que se
presentan en la sección siguiente.
8.2. Modelos de estimación de varianza
Modelo Muestreo Aleatorio Simple
El modelo más sencillo asume que el muestreo sistemático (SY) es por lo
menos tan eficiente como el muestreo aleatorio simple (SI), por lo tanto
utiliza la fórmula de estimación de la varianza SI para el cálculo de la
estimación de varianza SY. Este es un supuesto razonable cuando, por
ejemplo, la lista se encuentra ordenada en forma aleatoria al momento de
realizar la selección sistemática.
Si se sospecha de la existencia de un ciclo en el orden de la lista, entonces
este no es un buen supuesto. La varianza se puede estimar a partir de la
siguiente expresión, donde los grados de libertad disponibles son (n-1):
VSY (tˆπ ) ≈ VSI (tˆπ ) = N 2
(1 − f ) 2
Sy
n
Si el muestreo sistemático es mas preciso que el muestreo aleatorio simple,
entonces el uso de la formula SI estará sobreestimando VSY (tˆπ ) . En este
caso se dice que el enfoque SI es conservador, ya que los intervalos de
confianza de 95% que se estimen a partir de VSI (tˆπ ) incluirán el parámetro
de interés a una tasa mayor que 95% (en repetidas muestras). (Kish, 1965)
Recordar que en la EOD la lista a partir de la cual se seleccionan las UPM
se encuentra ordenada en forma geográfica, por lo tanto puede ser
29
discutible que este modelo de estimación sea el más adecuado para la
encuesta.
Modelo de Diferencias Pareadas
A veces es razonable asumir que cada par sucesivo de UPM fue
seleccionado en forma aleatoria a partir de una zona implícita. Por ejemplo,
para la selección sistemática de 20 manzanas en un estrato con 400
manzanas: (1) se crearon 10 zonas implícitas de 40 manzanas cada, (2) las
manzanas se ordenaron en forma aleatoria al interior de cada zona, y (3) se
seleccionaron 2 manzanas en forma sistemática de cada zona implícita.
Bajo este supuesto, podemos ordenar los pares de UPM según el orden en
que fueron seleccionados para la muestra y comparar la primera UPM con
la segunda; la tercera UPM con la cuarta, la quinta UPM con la sexta, y
hasta la UPM (n-1) con la n (Kish, 1965). La varianza se puede estimar a
partir de la siguiente expresión, donde los grados de libertad disponibles
son n/2:
(1 − f ) n / 2
VˆSY (tˆπ ) ≈ VˆDP (tˆπ ) = N 2
∑h ( y ha − y hb ) 2
n2
Debido al orden geográfico que presenta la EOD, el modelo de Diferencias
Pareadas se presenta como una alternativa bastante cercana al diseño
muestral y su implementación es relativamente sencilla en términos
computacionales. Se recomienda su uso por sobre el modelo del muestro
aleatorio simple y como una alternativa menos compleja a los modelos de
replicación que se describen en la siguiente sección.
Técnicas de replicación
Las técnicas de replicación imitan el proceso descrito en la estimación vía
replicas independientes, pero utilizando sub-muestras de la muestra
completa. La técnica de Replicaciones Repetidas Jacknife (JRR) define las
replicas a través de la eliminación de una UPM a la vez. Si A es el numero
de UPM en la muestra, se pueden construir (A-1) réplicas a partir de la
muestra y calcular (A-1) estimadores puntuales. Finalmente se estima la
varianza utilizando la fórmula presentada en la sección 9.1. El problema de
este modelo es que las (A-1) submuestras seleccionadas no son
independientes unas de otras (a diferencia de las replicas EOD discutidas
30
en la sección 9.1), por lo tanto se produce sesgo debido a la dependencia
de las submuetras. El sesgo es pequeño en encuestas grandes.
Otras técnicas de replicación utilizadas son el Bootstrap y las SemiMuestras Balanceadas (Balance Half Samples, BHS). Para una revisión de
técnicas de estimación de varianza ver Kovar, Rao y Wu (1988). Un
resumen comparativo de técnicas de estimación de varianza se encuentra
también en Rust (1985).
31
ANEXOS
ANEXO A
Tabla A. Comunas integrantes de cada estrato EOD desde 1957 a la
fecha.
Estrato
Jun 1957 – Dic 1997
1
Ñuñoa
La Reina
La Florida
2
San Miguel
3
La Cisterna
La Granja
San Bernardo
Maipú
Quinta Normal
Pudahuel
4
Ñuñoa
La Reina
Macul
Peñalolén
San Miguel
La Cisterna
San Joaquín
La Granja
San Ramón
Pedro Aguirre Cerda
Lo Espejo
El Bosque
La Pintana
San Bernardo
Maipú
Cerrillos
Pudahuel
Lo Prado
Cerro Navia
Recoleta
Independencia
Conchalí
Renca
Quilicura
Huechuraba
Providencia
Vitacura
Las Condes
Lo Barnechea
Santiago
E. Central
Quinta Normal
La Florida
Puente Alto
5
Conchalí
Renca
Quilicura
6
Providencia
Santiago Oriente
Las Condes
7
Santiago Centro
8
Santiago Poniente
Dic 1996 - presente
Notas: En Diciembre 1996 se inicio el proceso de traspaso desde la antigua definición de los
estratos (17 comunas) hacia la nueva definición (34 camunas). La encuesta de Dic1996
incluyó 1 cuarto con la nueva definición y 3 cuartos con la antigua; Mar1997 incluyó 2 nuevos
y 2 antiguos; Jun1997 incluyó 2 nuevos y 2 antiguos; Sep1997 incluyó 2 nuevos y 2 antiguos;
y finalmente Dic1997 incluyó 3 nuevos y 1 antiguo. A partir de Mar1998 los 4 cuartos utilizan
la nueva definición de estratos (en base a 34 comunas).
32
ANEXO B
Tabla B. Distribución de la muestra de los cuartos entrantes a la muestra de cada año, entre 1996 y 2006.
Dic96-
Dic97-
Dic98-
Dic99-
Dic00-
Dic01-
Dic02-
Dic03-
Dic04-
Dic05-
Estratos
Sep97
Sep98
Sep99
Sep00
Sep01
Sep02
Sep03
Sep04
Sep05
Sep06
Estrato 1
93
101
97
97
100
94
100
92
95
106
Estrato 2
124
112
113
114
116
113
112
122
115
104
Estrato 3
80
79
74
88
83
80
84
80
78
74
Estrato 4
116
140
106
107
111
113
114
111
111
108
Estrato 5
100
86
90
89
96
97
93
96
88
87
Estrato 6
74
77
88
97
94
84
83
92
104
126
Estrato 7
85
73
77
83
78
81
73
80
72
65
Estrato 8
93
97
120
90
87
103
106
92
102
95
Total
765
765
765
765
765
765
765
765
765
765
Fuente: Centro de Microdatos. Departamento de Economía, Universidad de Chile.
Notas: (*) El año calendario de la Encuesta de Ocupación (EOD) va desde Diciembre a Septiembre del año siguiente. (**) B es el número de nuevos segmentos compactos a
seleccionar cada año en cada estrato de cada cuarto; nh es el número de hogares a seleccionar cada año en cada estrato de cada cuarto, y ∑nh es el total de hogares
empadronados en cada estrato a traves de los los 4 nuevos cuartos que se introducen cada año. (***) Los cuartos del año año 96-97 son C97, C98, C99 y C100; los cuartos
del año 97-98 son C101, C102, C103 y C104; los cuartos del año 98-99 son C105, C106, C107 y C108; los cuartos del año 99-00 son C109, C110, C111 y C112; los cuartos
del año 00-01 son C113, C114, C115 y C116; los cuartos del año 01-02 son C117, C118, C119 y C120; los cuartos del año 02-03 son C121, C122, C123 y C124; los cuartos
del año 03-04 son C125, C126, C127 y C128; los cuartos del año 04-05 son C129, C130, C131 y C132; los cuartos del año 05-06 son C133, C134, C135 y C136.
ANEXO C
DIRECCIONES DEL EMPADRONAMIENTO
ESTRATO 8
COMUNA La Florida
SEGMENTO137.81.05
D: 6
Nombre de la calle
Nº de la
casa
Nº del
piso
Nº o
letra del
Depto.
1 /____
Nº de personas en
el hogar
H
M
T
Z: 1
UPM: 83
Observaciones
G.S.E
01
02
03
04
05
06
07
08
09
10
………………
………………..
Recuerde que DEBE registrar en cada línea a un hogar distinto. Identificándolo CLARAMENTE, en la columna observaciones, con el
nombre del Jefe de Hogar o cónyuge. Podría identificarse por la vivienda según su ubicación en el sitio o tipo de vivienda, NO color.
FECHA
EMPADRONADOR ____________________________________________________
1
ANEXO D
Tabla D. Proyecciones de Población para el Gran Santiago en
base al Censo 1992.
Año
Proyección INE
Proyección U. de Chile
1982
3.897.900
1983
3.986.800
1984
4.076.100
1985
4.165.900
1986
4.255.500
1987
4.347.000
1988
4.440.500
1989
4.536.000
1990
4.649.085
4.633.600
1991
4.736.666
4.733.300
1992
4.826.235
4.835.100
1993
4.916.222
4.939.100
1994
5.004.970
5.045.300
1995
5.090.914
5.153.900
1996
5.173.158
5.264.838
1997
5.253.447
5.378.163
1998
5.332.100
5.493.928
1999
5.409.484
5.612.185
2000
5.485.846
5.732.987
2001
5.560.564
5.856.389
2002
5.633.932
5.982.448
2003
5.706.190
6.111.220
2004
5.777.560
6.242.764
2005
5.848.309
6.377.139
2
Descargar