perú: tamaño de muestra en encuestas de propósitos múltiples

Anuncio
445
PERÚ: TAMAÑO DE MUESTRA EN ENCUESTAS
DE PROPÓSITOS MÚLTIPLES
INSTITUTO NACIONAL DE ESTADÍSTICA E INFORMÁTICA (INEI)
446
Perú: tamaño de muestra en encuestas de...
ÍNDICE
Página
1.
Encuesta Nacional de Hogares, ENAHO 1998 IV............................................................... 447
2.
Encuesta Nacional de Hogares, ENAHO 2001 IV............................................................... 449
2.1 Evaluación de la precisión de los tamaños de muestra ................................................ 450
2.2 Optimización en la asignación de la muestra por departamentos ................................ 451
3.
Métodos para la Estimación de la Varianza ......................................................................... 452
4.
Algoritmos de Estratificación .............................................................................................. 455
4.1 Procedimientos para la estratificación del marco de muestreo.................................... 455
5.
Diseño de Panel.................................................................................................................... 457
5.1 Encuestas por panel ..................................................................................................... 457
5.2 Muestras panel en la Encuesta Nacional de Hogares................................................... 457
Perú: tamaño de muestra en encuestas de...
1.
447
Encuesta Nacional de Hogares, ENAHO 1998 IV
En 1998, el INEI de Perú estableció la necesidad de elaborar una muestra maestra de áreas para el
desarrollo de encuestas de propósitos múltiples como la Encuesta Nacional de Hogares (ENAHO), con el
fin de hacer el seguimiento de un conjunto de variables que cubren diversos temas relacionados con el
empleo y las condiciones de vida.
La muestra maestra fue básicamente una muestra de áreas de empadronamiento censales agrupadas, y
denominadas conglomerados; su propósito fue seleccionar diferentes submuestras para la implementación
de encuestas más reducidas en alcance y cobertura durante el período 1998 – 2000.
La muestra fue diseñada para obtener indicadores relacionados con: la composición del hogar,
características de la vivienda, acceso a servicios, acceso a la educación, acceso a la salud, acceso a
programas sociales, empleo, ingreso, gasto y otros temas libres.
Para el diseño de la muestra se consideró resultados de la ENAHO de 1996 para las variables siguientes:
i.
Ingreso Per Capita por Persona
ii.
Porcentaje de Personas que Acceden a Servicios de Salud
iii. Porcentaje de Hogares con Servicio de Desagüe
iv. Porcentaje de Hogares Beneficiados con Programas Sociales
v.
Tasa de Desempleo Urbana
Se consideraron básicamente ocho (8) regiones o dominios geográficos,
1.
Lima Metropolitana,
2.
Costa Norte,
3.
Costa Centro,
4.
Costa Sur.
5.
Sierra Norte,
6.
Sierra Centro,
7.
Sierra Sur, y
8.
Selva Total.
También se consideró importante la desagregación en cinco niveles de urbanización de las unidades
primarias de muestreo (UPM) agrupados en las siguientes categorías:
i.
Menos de 500 habitantes,
ii.
De 500 a 2 mil habitantes,
iii. De 2 mil a 20 mil habitantes,
iv. De 20 mil a 100 mil habitantes, y
v.
Más de 100 mil habitantes
Para determinar el tamaño global de la muestra maestra se tomó en cuenta la variabilidad de las
características o variables de estudio. Como se sabe, el error muestral para una encuesta del tipo de la
ENAHO tiene dos componentes: el primero corresponde a la variación entre conglomerados y el segundo
a la variación de las viviendas o los hogares dentro de los conglomerados.
448
Perú: tamaño de muestra en encuestas de...
La variabilidad entre conglomerados es mucho mayor para las áreas urbanas que en las áreas rurales,
pero la variabilidad dentro del conglomerado seleccionado es menor en lo urbano que en lo rural.
Por lo tanto, un importante factor para controlar el error muestral es reducir el mayor componente de
variabilidad que es la variación entre conglomerados, el cual es inversamente proporcional al número de
conglomerados (especialmente en el área urbana).
Como consecuencia, para cumplir con los diferentes objetivos de la encuesta se consideró que un tamaño
de muestra de aproximadamente 4 mil conglomerados era el tamaño de muestra más adecuado para
producir con suficiente precisión los principales indicadores para los diferentes niveles de desagregación
requeridos en la ENAHO: regiones o dominios geográficos. Cuando estas áreas varían considerablemente
en sus tamaños totales (habitantes o viviendas), surgen problemas en el uso de asignaciones estándar.
Por un lado se tiene la asignación de la muestra total del país entre sus dominios que minimiza el error
relativo al nivel nacional, la cual es casi igual a la asignación proporcional al tamaño del dominio,
ocasionando que ciertos dominios tengan un mayor error relativo que el tamaño de muestra producido
por la directa minimización del error dentro del dominio.
Por otro lado, cuando se requiere que cada dominio tenga el mismo nivel de error relativo entonces puede
resultar que el error relativo producido para el nivel nacional sea mucho más grande que el calculado con
la respectiva minimización al nivel nacional. Esta asignación con el mismo nivel de error relativo produce
el mismo tamaño de muestra para cada dominio sin consideración del tamaño o de la importancia, es decir
el tamaño de muestra en el dominio es independiente de su tamaño.
Aprovechando el concepto de la importancia (tamaño) del dominio anteriormente discutido y tomando en
consideración el concepto de precisión del indicador estadístico en cada dominio, entonces una mejor
asignación de la muestra total entre sus dominios componentes se obtiene cuando el tamaño de muestra en
el dominio es función de la importancia del dominio y de su correspondiente error relativo (véase
Power Allocations Determining Sample Sizes for Subnational Areas por Michael D. Bankier. The
American Statistician. August 1988 Vol 42 No 3).
Teniéndose el indicador estadístico Y (promedio, proporción o porcentaje) estimado en cada dominio, y
además teniéndose la importancia X (tamaño) de cada dominio entonces se considera la minimización de
la siguiente función en términos de la mejor asignación de muestra entre los dominios (nh ):
2
α
F = ∑h ( X h CV(Y h ) )
(1)
con la restricción de que:
n = ∑ h nh
(2)
donde :
CV(Yh):
es el coeficiente de variación (error relativo) del indicador Y en el dominio h,
Xhα
:
es la potencia α de la importancia (tamaño) X en el dominio h,
nh
:
es la muestra asignada al dominio h,
α
:
es un valor constante entre 0 y 1.
Perú: tamaño de muestra en encuestas de...
449
Se demuestra matemáticamente que la función F es minimizada cuando la asignación por dominio es dada
por la siguiente relación:
α
Sh X h / Yh
nh = n
∑ h S h X hα / Y h
(3)
donde :
:
Sh
esta definido dentro de la fórmula de la varianza del indicador, Var (Yh) = Sh2 / nh , en el
dominio h.
Como quiera que se tenia cinco indicadores, había varias alternativas para utilizar esta información:
i)
Utilizar el indicador más importante de acuerdo a los objetivos de la encuesta y con este
indicador hacer la asignación de la muestra.
ii)
Combinar dos o más indicadores y luego hacer la asignación.
iii)
Obtener un promedio simple de estos cinco indicadores para una encuesta de propósitos
múltiples.
Finalmente, se decidió aplicar el criterio de promedio simple de los cinco indicadores, que vendría a ser el
tamaño de muestra deseado para cada departamento, cuyo objetivo era investigar a las variables
relacionadas con la extrema pobreza.
Se realizó la asignación para cada dominio de cada uno de esos indicadores considerando el tamaño de
muestra total de 3 mil 884 conglomerados.
Tabla 1. Distribución de la Muestra Maestra de Conglomerados por área urbana y rural,
según dominios de estudio
DOMINIOS DE
ESTUDIO
TOTAL
Costa
Costa norte
Costa centro
Costa Sur
Sierra
Sierra norte
Sierra centro
Sierra sur
Selva
Lima Metro.
2.
TOTAL
3884
893
397
301
195
1922
590
764
568
707
362
MUESTRA MAESTRA DE
CONGLOMERADOS
URBANO
2209
702
299
236
167
738
211
272
255
407
362
RURAL
1675
191
98
65
28
1184
379
492
313
300
-
Encuesta Nacional de Hogares, ENAHO 2001 IV
A diferencia de la ENAHO de 1998, los dominios de estudio definidos para este año, estaban referidos a
cada uno de los 24 departamentos que componen el Perú.
El presupuesto sólo permitía ejecutar la encuesta ENAHO 2001 IV Trimestre en 18,000 viviendas. La
asignación de la muestra por departamento se efectuó teniendo en cuenta el promedio de la asignación
proporcional y asignación uniforme. Esta muestra agrupada en 2,782 conglomerados urbanos y rurales, se
presenta en la siguiente tabla:
450
Perú: tamaño de muestra en encuestas de...
Tabla 2. Distribución de la muestra ENAHO 2001 IV por Area Urbana y Rural
DEPARTAMENTO
TOTAL
AMAZONAS
ANCASH
APURIMAC
AREQUIPA
AYACUCHO
CAJAMARCA
CUSCO
HUANCAVELICA
HUANUCO
ICA
JUNIN
LA LIBERTAD
LAMBAYEQUE
LIMA
LORETO
MADRE DE DIOS
MOQUEGUA
PASCO
PIURA
PUNO
SAN MARTIN
TACNA
TUMBES
UCAYALI
TOTAL
AREA URBANA
AREA RURAL
CONG
VIV
CONG
VIVI
CONG
VIV
2782
62
104
60
131
71
106
105
59
77
107
122
141
120
639
102
61
72
65
146
99
95
86
73
79
18179
507
760
525
739
570
903
785
550
649
623
800
910
768
3262
707
410
427
476
920
807
639
476
444
522
2195
32
70
24
120
42
47
68
22
39
98
92
117
104
627
74
48
65
46
124
55
70
79
69
63
11345
161
353
115
621
224
209
356
113
200
529
447
631
579
3124
380
260
348
255
670
285
343
400
398
344
587
30
34
36
11
29
59
37
37
38
9
30
24
16
12
28
13
7
19
22
44
25
7
4
16
6834
346
407
410
118
346
694
429
437
449
94
353
279
189
138
327
150
79
221
250
522
296
76
46
178
La evaluación de estos tamaños muestrales normalmente implica desarrollar dos etapas de trabajo:
2.1 Evaluación de la precisión de los tamaños de muestra.
Para la evaluación de la precisión de los tamaños de muestra se utiliza la fórmula:
CV ( p) = efd
(1 − p)
np
(4)
donde,:
CV(p) es el coeficiente de variación relativo del indicador con un valor de p.
efd
es el efecto del diseño, se asume un valor igual a 2.
P
es el indicador con valores de p 0.3, 0.4 y 0.5.
n
es el número de viviendas de la muestra
Aplicando la fórmula anterior se han construido el cuadro siguiente, que presenta los respectivos
coeficientes de variación para los valores previstos del indicador p, para un número de conglomerados en
la muestra y su respectivo tamaño de muestra de viviendas, con un efecto de diseño igual a 2.
Perú: tamaño de muestra en encuestas de...
451
Se puede afirmar que con un mínimo de 75 conglomerados, el correspondiente error relativo para
cualquier indicador, cuyo valor es mayor a 0.3, puede alcanzar hasta el 12%. En la medida que aumente el
número de conglomerados disminuye el error relativo.
Tabla 3. Precisión del tamaño de muestra: Total departamento
CV(p) % (Conglomerados)
Número
de Conglomerados
Tamaño de
Muestra de
Viviendas
Efecto del
Diseño
(cfd)
p=0.03
p=0.10
p=0.30
p=0.40
p=0.50
25
150
2
92.86
48.99
24.94
20.00
16.33
50
400
2
56.86
30.00
15.28
12.25
10.00
60
500
2
50.86
26.83
13.66
10.95
8.94
75
600
2
46.43
24.49
12.47
10.00
8.16
100
800
2
40.21
21.21
10.80
8.67
7.07
125
850
2
39.00
20.58
10.48
8.40
6.86
150
900
2
37.91
20.00
10.18
8.16
6.67
600
3600
2
18.95
10.00
5.09
4.08
3.33
2700
18000
2
8.48
4.47
2.28
1.83
1.49
2.2 Optimización en la asignación de la muestra por departamentos.
Se ha calculado coeficientes de variación por departamentos a partir de los resultados de la ENAHO 2001
IV para las siguientes variables:
Variable
Indicador
V1. Desempleo Abierto
Tasa de Desempleo Abierto Urbano
V2. Acceso a los Servicios de Salud
Proporción de la Población Que Accede a Servicios de Salud
V3. Servicio de Desagüe a Red Pública
Proporción de Hogares con Servicio de Desagüe Conectado a Red
Pública
Proporción de Niños de 5 a 14 años Que Asisten a un Centro
Educativo
V4. Asistencia Escolar de Niños de 5 a 14 años
V5. Acceso a Programas Sociales
Proporción de Hogares Que Acceden a Programas Sociales
V6. Ingreso Trimestral por Perceptor
Ingreso Promedio Trimestral Por Perceptor
V7. Población en Estado de Pobreza
Proporción de pobres en la Población.
Haciendo uso de la información antes referida, se ha procedido a calcular un tamaño de muestra deseado,
siguiendo el método “Power allocation determining Sample Sizes For Subnational Areas” de Michael
D. Banker, cuya fórmula es la siguiente:
CV ( p) * X 0.5*
nh =
∑ X 0.5 * CV ( p)
Donde :
nh
es el tamaño de muestra óptimo por departamento
X
es el tamaño de cada departamento
CV(p) es el coeficiente de variación relativo del indicador con un valor de p.
(5)
452
p
Perú: tamaño de muestra en encuestas de...
es igual a V1, V2, V3, V4, V5, V6 y V7.
Para mostrar las diferencias entre el tamaño de muestra asignado y el tamaño de muestra deseado, se ha
construido el cuadro que se presenta a continuación. Al analizar la información de este cuadro se observa
que los departamentos de Madre de Dios, Lima, Tumbes, Lambayeque, Ucayali y Loreto tienen tamaño
de muestra sobrestimado, mientras que los departamentos de Puno, Ayacucho, Apurímac, Moquegua,
Cajamarca, Amazonas, y Huancavelica tienen tamaños de muestra subestimados. El resto de
departamentos tienen el tamaño de muestra mäs o menos apropiado.
Tabla 4. Comparación de los tamaños de muestra asignados y deseados para la ENAHO 2001 IV
DEPARTAMENTO
TOTAL
MADRE DE DIOS
TAMAÑO DE
MUESTRA
ASIGNADO
18179
410
DIFERENCIA
(ASIGNADO
/ DESEADO) *100
18000
252
162.64
3262
2038
160.05
LAMBAYEQUE
768
611
125.66
TUMBES
444
355
125.00
UCAYALI
522
430
121.35
LORETO
707
606
116.73
TACNA
476
460
103.58
CUSCO
785
783
100.30
AREQUIPA
739
750
98.55
LIMA
3.
TAMAÑO DE
MUESTRA DESEADO
PIURA
920
936
98.25
JUNIN
800
822
97.30
LA LIBERTAD
910
950
95.76
SAN MARTIN
639
675
94.61
HUANUCO
649
708
91.70
PASCO
476
521
91.33
ANCASH
760
838
90.68
ICA
623
703
88.56
PUNO
807
933
86.54
AYACUCHO
570
671
85.01
APURIMAC
525
635
82.70
MOQUEGUA
427
538
79.41
CAJAMARCA
903
1221
73.96
AMAZONAS
507
697
72.76
HUANCAVELICA
550
867
63.40
Métodos para la Estimación de la Varianza
Para el cálculo de los errores de muestreo se aplica el paquete CENVAR, el cual está basado en los
estimadores de la varianza de los conglomerados últimos, esto vale decir que el referido paquete se ha
aplicado bajo el criterio que el muestreo es bietápico, cuando en la práctica se trata de un muestreo
trietápico. En ese sentido es importante tener especial cuidado en el momento en que se analizan los
correspondientes errores de muestreo. Para facilitar este análisis se puede utilizar la siguiente fórmula:
S a2 / a
(1 + rho ( b − 1 ) )
efd =
S2 /n
(6)
Perú: tamaño de muestra en encuestas de...
453
Donde:
Efd
es el efecto del diseño;
S a2
es la varianza de los promedios de los conglomerados.
S2 / n
rho
es la varianza de una muestra aleatoria simple
es el coeficiente de correlación intraclase
a
es la muestra de conglomerados;
b
es la submuestra dentro de un conglomerado a* b = n
El coeficiente de correlación intraclase mide el grado de homogeneidad de las unidades dentro de un
conglomerado. Si el coeficiente de correlación intraclase es igual a 1, esto significa que todos los
elementos que definen cualquier conglomerado tienen el mismo valor; en este caso, el efecto del diseño
será igual al valor de b. Esto implica que los conglomerados han sido conformados por unidades
altamente correlacionadas y por lo tanto la aplicación del muestreo es deficiente.
En cambio, si el coeficiente de correlación intraclase es igual a cero esto significa que las unidades dentro
de un conglomerado están incorrelacionadas y por lo tanto la eficiencia del muestreo de conglomerados es
óptima, porque el efecto del diseño es igual a 1 y por lo tanto, el muestreo de conglomerados tiene la
misma eficiencia que el muestreo aleatorio simple.
Hay algunos casos donde el coeficiente de correlación intraclase puede asumir valores muy pequeños,
siendo el valor más pequeño cuando rho es –1/b-1, en este caso la varianza entre medias de
conglomerados es igual a cero. Los valores negativos de rho son raros, ocurren cuando las medias de los
conglomerados son más uniformes de lo que se tendría al distribuirlos aleatoriamente
Al analizar los resultados de la ENAHO 2001 IV Trimestre tomando como indicadores la población en
extrema pobreza y la población por debajo de la línea de pobreza pero que no son extremadamente pobres
(pobreza total), observamos que si bien es cierto la mayoría de los departamentos tienen valores de error
de muestreo muy bajos, no es suficiente para tener un panorama completo sobre la precisión de estos
estimadores. De allí que es importante complementar el análisis observando el efecto del diseño y el
coeficiente de correlación intraclase.
A continuación se presenta el cuadro que resume la evaluación de la muestra de la ENAHO 2001 IV
Trimestre. El análisis solamente es válido para las variables relacionadas con la pobreza y extrema
pobreza. Este cuadro podría variar para otro tipo de variables. En ese sentido, si el objetivo principal de la
ENAHO 2002 sigue siendo la medición de la pobreza y extrema pobreza, es necesario dispersar la
muestra en un mayor número de conglomerados, sobre todo en el área rural. Si bien es cierto que esta
propuesta es válida para los departamentos incluidos en las categorías de moderado y pobre, sin embargo,
un diseño diferenciado por departamentos, complicaría el manejo de la muestra a nivel nacional. Ante
esta situación, se sugiere que la muestra esperada por conglomerado en el área rural sea de tamaño igual a
8 viviendas, manteniendo en el área urbana la submuestra por conglomerado se mantenga en 6 viviendas.
454
Perú: tamaño de muestra en encuestas de...
Tabla 5. Rendimiento del muestreo de conglomerados en la ENAHO 2001 IV
Rendimiento del
muestreo de
conglomerados
Eficiente
Efecto del Diseño
Moderado
Mediano
Entre 2 y 4
Entre 0.2 y 0.4
Pobre
Alto
Mayor a 4
Mayor a 0.4
Bajo
Menor a 2
Coeficiente de
correlación
intraclase
Menor a 0.2
Departamento
Amazonas, Apurímac,
Huancavelica, Madre de Dios,
Moquegua, Pasco, Tacna, Tumbes
y Ucayali.
Arequipa, Ayacucho, Cajamarca,
Cusco, Ica, Junín, Lambayeque,
Lima y Callao, Loreto, Puno, San
Martín.
Ancash, Huánuco, La Libertad y
Piura.
Porcentaje de
viviendas
(%)
10.7
70.6
18.7
Tabla 6. Errores de muestreo para la población en extrema pobreza ENAHO IV Trimestre 2001
Departamento
Estimador
Error Estándar
Coef. Var.
Efecto del diseño
Amazonas
41.1%
0.049
11.8%
2.600
Ancash
33.3%
0.052
15.7%
8.488
Apurimac
47.4%
0.041
8.7%
1.950
Arequipa
14.5%
0.028
19.0%
4.197
Ayacucho
45.4%
0.065
14.2%
5.774
Cajamarca
50.8%
0.038
7.5%
5.402
Cusco
51.3%
0.043
8.3%
5.394
Huancavelica
74.4%
0.040
5.4%
2.365
Huánuco
61.9%
0.053
8.6%
6.078
Ica
8.6%
0.019
22.3%
1.989
Junín
24.3%
0.030
12.5%
3.866
La Libertad
18.3%
0.031
16.9%
5.926
Lambayeque
19.9%
0.029
14.7%
3.720
Lima y Callao
3.1%
0.006
19.3%
6.146
Loreto
47.2%
0.038
7.9%
3.204
Madre de Dios
11.5%
0.029
25.1%
0.513
Moquegua
7.6%
0.025
32.8%
0.871
Pasco
33.2%
0.060
18.0%
2.646
Piura
21.4%
0.035
16.2%
7.236
Puno
46.1%
0.036
7.8%
4.134
San Martín
36.2%
0.033
9.1%
2.239
Tacna
5.2%
0.021
40.4%
1.590
Tumbes
7.4%
0.027
36.6%
1.341
Ucayali
44.9%
0.039
8.8%
1.783
TOTAL
24.4%
0.007
2.8%
4.150
Perú: tamaño de muestra en encuestas de...
455
Tabla 7. Errores de muestreo para la población en pobreza (total) ENAHO 2001 IV
FGT0
4.
Efecto del Diseño
Estimador
Error Estándar
Coef. Var.
Amazonas
74.5%
0.033
4.4%
1.524
Ancash
61.1%
0.042
6.8%
5.060
Apurimac
78.0%
0.030
3.9%
1.557
Arequipa
44.1%
0.034
7.7%
3.176
Ayacucho
72.5%
0.049
6.8%
4.186
Cajamarca
77.4%
0.025
3.3%
3.453
Cusco
75.3%
0.030
4.0%
3.613
Huancavelica
88.0%
0.024
2.7%
1.489
Huánuco
78.9%
0.042
5.4%
5.393
Ica
41.7%
0.040
9.5%
2.728
Junín
57.5%
0.028
4.9%
2.510
La Libertad
52.1%
0.034
6.6%
4.365
Lambayeque
63.0%
0.035
5.6%
3.734
Lima y Callao
33.4%
0.011
3.3%
2.792
Loreto
70.0%
0.032
4.6%
2.801
Madre de Dios
36.7%
0.049
13.3%
0.636
Moquegua
29.6%
0.057
19.4%
1.550
Pasco
66.1%
0.038
5.7%
1.049
Piura
63.3%
0.038
6.1%
6.382
Puno
78.0%
0.028
3.6%
3.596
San Martín
66.9%
0.034
5.1%
2.506
Tacna
32.8%
0.039
11.8%
1.226
Tumbes
46.8%
0.043
9.2%
0.933
Ucayali
70.5%
0.031
4.4%
1.288
Total
54.8%
0.007
1.2%
3.120
Algoritmos de Estratificación
4.1 Procedimientos para la estratificación del marco de muestreo
En toda encuesta de hogares en la que se haga uso del muestreo multietápico, la estratificación de las
unidades de muestreo es fundamental e importante para la reducción de la varianza. A fin de mejorar la
eficiencia del marco muestral de la Encuesta Nacional de Hogares (ENAHO) utilizado desde 1995, se
tomaron criterios de estratificación para las unidades de muestreo.
En una primera etapa, las unidades primarias de muestreo (UPM) fueron agrupadas en estratos teniendo
en cuenta su importancia en tamaño de habitantes:
•
Estrato 1: Unidades primarias de muestreo (UPM) urbanas de gran tamaño, tales como ciudades
con 100 mil y más habitantes.
•
Estrato 2: Unidades primarias de muestreo urbanas de mediano tamaño, tales como ciudades con
20 mil a menos de 100 mil habitantes.
•
Estrato 3: Unidades primarias de muestreo urbanas menores, tales como aquellos centros
poblados o localidades con 2 mil a menos de 20 mil habitantes.
456
Perú: tamaño de muestra en encuestas de...
•
Estrato 4: Unidades primarias de muestreo rurales concentradas, tales como centros poblados o
localidades con 500 a menos de 2 mil habitantes.
•
Estrato 5: Áreas rurales pequeñas y dispersas, formadas por centros poblados con menos de 500
habitantes, agrupados en AER (áreas de empadronamiento rural).
Es importante mencionar que los estratos 1,2 y 3, conforman el área urbana mientras que los estratos 4 y
5, el área rural. Así mismo, la ENAHO es comparable con el Censo considerando solamente el estrato 5
como área rural.
La inclusión de conglomerados o unidades secundarias de muestreo (USM) en la muestra, dado el
carácter multitemático de la ENAHO, tiende a incrementar la varianza muestral y el método que se diseña
para minimizar la varianza de una variable, pudiera conducir a resultados no satisfactorios para otra. En
tal sentido, deben buscarse indicadores socio económicos que determinen diferencias que afecten a la
mayor parte de las características.
La mayoría de las variables importantes analizadas en la ENAHO tales como empleo, ingresos, gastos,
educación y salud, están altamente correlacionadas con los niveles socioeconómicos de la población. Por
lo que fue necesario definir subestratos socioeconómicos en los aglomerados urbanos de gran tamaño,
como son las grandes ciudades.
A fin de reducir la varianza de la segunda componente, la estratificación de las USM fue un objetivo
primordial para la ENAHO.
Sobre la base de información de los censos de 1993, el INEI procesó y obtuvo 5 indicadores de
Necesidades Básicas Insatisfechas (NBI) para los hogares peruanos, al nivel de distritos:
•
Hogares en viviendas con características físicas inadecuadas
•
Hogares en viviendas con hacinamiento
•
Hogares en viviendas sin servicio de desagüe de ningún tipo
•
Hogares con niños que no asisten a la escuela
•
Hogares con alta dependencia económica
La medición estaba referida a los hogares que habitaban en viviendas particulares con ocupantes
presentes. Haciendo uso de esta metodología, estos indicadores se procesaron para cada USM del marco
de las UPM, según el procedimiento siguiente:
1. En primer lugar, se identifican a los hogares carentes por cada indicador; luego, para el cálculo de
la proporción de hogares carentes por cada indicador (Ij), se le relaciona con el total de hogares de
la USM correspondiente.
2. Se agrupan los hogares que tienen al menos 1 NBI, de la manera siguiente:
HOG1 : Hogares con 1 necesidad básica insatisfecha.
HOG2: Hogares con 2 necesidades básicas insatisfechas.
HOG3: Hogares con 3 necesidades básicas insatisfechas.
HOG4: Hogares con 4 necesidades básicas insatisfechas.
HOG5: Hogares con 5 necesidades básicas.
3. Basándose en estos cinco grupos de hogares se obtiene por sumatoria y agregación el índice de
necesidades básicas insatisfechas (NBI), que representa el indicador sintético de los hogares con al
menos una necesidad básica insatisfecha para cada USM, resumida en la siguiente expresión
matemática:
Perú: tamaño de muestra en encuestas de...
INBI = Σ (HOGi / HT)
457
(7)
donde:
INBI:
Indice de Necesidades Básicas Insatisfechas para cada USM
HOGi:
Hogares con al menos una necesidad básica insatisfecha
HT:
Total de hogares en la USM
4. Se ordenaron las USM según este indicador para cada UPM. Con esto se obtiene una estratificación
implícita del marco cuando la muestra es seleccionada sistemáticamente con probabilidad
proporcional al tamaño.
El uso de la metodología del NBI, tuvo como propósito obtener muestras estratificadas que aseguren la
representatividad de los diferentes niveles socioeconómicos de la ciudad investigada.
5.
Diseños de Panel
5.1 Encuestas por panel
Muestra Panel es aquélla muestra en la que se miden los mismos elementos en dos o más ocasiones. Las
encuestas por panel permiten hacer estudios de cambios individuales y de la dinámica de las causas y las
relaciones.
Existen dos clases de encuestas por panel. Una es con paneles fijos y la otra es con paneles que rotan. Los
paneles fijos son aquellos en los cuales los individuos que lo componen no cambian.
El uso exclusivo de un panel fijo produce estimaciones muy eficientes de cambios periódicos. En tanto
que los paneles que rotan son utilizados para reducir el agotamiento de los respondientes y provee
estimaciones eficientes de totales del periodo.
5.2 Muestras Panel en la Encuesta Nacional de Hogares
•
Encuesta Permanente de Empleo en Lima Metropolitana – EPE 2001
Población de estudio, la población está definida como el conjunto de todas las viviendas particulares y
sus ocupantes residentes de los 43 distritos de la provincia Lima y 6 distritos de la provincia
constitucional del Callao. Por no formar parte de la población bajo estudio, se excluye a los
establecimientos económicos y viviendas de tipo colectivo. Por tanto, se excluye a los miembros de las
Fuerzas Armadas que viven en cuarteles, campamentos, barcos y a las personas que residen en viviendas
colectivas (hoteles, hospitales, asilos y claustros religiosos, cárceles, etc.).
Marco Muestral, el marco muestral de la Encuesta Permanente de Empleo tiene como fuente la
información básica y cartografía de la Actualización Cartográfica y Registro de Edificios y Viviendas del
Precenso de 1999 –2000 realizada en el ámbito de Lima Metropolitana. Esta información precensal se
encuentra bajo el soporte de una base de datos que ha permitido organizarla adecuadamente a efectos de
la formación del marco muestral y selección automática de la muestra.
Las unidades del marco muestral son:
!
Unidades Primarias de Muestreo (UPM), son las secciones censales denominadas conglomerados.
!
Unidades Secundarias de Muestreo (USM), son las viviendas particulares.
Como paso previo al diseño y selección de la muestra, el marco muestral fue parcialmente actualizado
mediante salidas a campo. Los únicos conglomerados actualizados fueron los seleccionados para la
encuesta permanente.
458
Perú: tamaño de muestra en encuestas de...
Tamaño de Muestra, para la determinación del tamaño de la muestra, se ha tenido en cuenta, además de
los recursos disponibles para ejecutar la encuesta, los requerimientos mínimos de precisión o
confiabilidad de las estimaciones a obtenerse en la investigación.
Se tomó como referencia las estimaciones obtenidas en la Encuesta Especializada de Empleo del Tercer
Trimestre del 2000. Los indicadores estadísticos más importantes a estimarse con la encuesta son:
!
Magnitud del empleo:
Y = Número de ocupados = 3114507
!
Magnitud del desempleo:
Y = Número de desocupados = 268238
!
Desempleo Abierto:
P = Tasa de Desempleo Abierto = 7.9%
!
Duración del desempleo:
P = Porcentaje de desempleados que ha buscado empleo por lo menos 4 semanas = 42.41% .
!
Entradas y salidas del mercado laboral:
P = Porcentaje de personas ocupadas que iniciaron su ocupación en el mes de referencia = 3.7%
P = Porcentaje de personas que perdieron el empleo en el mes de referencia (desocupados e inactivos)
= 3.5%.
!
Composición del empleo por tamaño de la empresa:
De 1 a 10 trabajadores = 2107576 ( P = 67.8%)
De 10 y + trabajadores = 998663 (P = 32.2%)
!
Porcentaje de ocupados que tienen algún seguro de salud:
P = 1103873 ( P = 35.0%)
!
Porcentaje de ocupados que ganan menos de la línea de pobreza (ganancia monetaria):
P = 66.1%
En efecto, la encuesta producirá estimaciones para estos indicadores y existirán diferentes niveles de
confiabilidad, dependiendo de la frecuencia con que se presentan estas característica particulares en la
población. Por ejemplo, el Desempleo, característica infrecuente, tendrá una confiabilidad estadística
mucho menor que la Duración del Desempleo, característica más frecuente en la población de estudio.
Otro objetivo de la encuesta es tener estimativos de los cambios en la magnitud del empleo de una ronda
de encuesta a otra. Es decir, se quiere medir con alguna certeza, un cambio del 2 por ciento o más de una
ronda (trimestre) de encuesta a la siguiente.
Debe determinarse entonces, qué tamaño de muestra se necesita para que las estimaciones de la encuesta
estén dentro del intervalo permisible de error en 95 de cada 100 casos (con 1,96 errores estándar). Una
regla menos rígida sería la de exigir que el margen especificado de error fuera satisfecho en 90 de cada
100 casos ( con 1,6 errores estándar). Este criterio, requiere una muestra más pequeña.
También, como en toda investigación muestral, es de esperar que durante la recopilación de información
en campo se produzca bajas en las unidades seleccionadas debido a la no respuesta, la cual está asociada a
casos de: ausencia de informantes, viviendas desocupadas, viviendas no ubicadas o no localizadas,
viviendas que son establecimientos, direcciones que no corresponden a una vivienda, rechazos a la
entrevista de la vivienda, rechazo de la entrevista por el informante calificado, etc.
Perú: tamaño de muestra en encuestas de...
459
En el caso de la Encuesta Permanente de Empleo, en base a la experiencia de la ENAHO y teniendo en
cuenta que a partir de la siguiente ronda de encuesta (segundo trimestre) los hogares muestrales serán
nuevamente visitados, es de esperar que la pérdida muestral sea de aproximadamente 20 %.
En efecto, al determinar el tamaño de la muestra, se calculó un tamaño de 5 mil viviendas particulares con
las que se espera obtener información de aproximadamente 4 mil viviendas y 12 mil personas
económicamente activas (PEAS).
La muestra fue finalmente ajustada a 4 mil 950 viviendas particulares, tamaño que se ajusta a las
cargas de trabajo por conglomerado establecidas para la operación de campo.
En el cálculo del tamaño de la muestra se utilizó como base información de la Encuesta Nacional de
Hogares:
El error estándar de una diferencia es:
σ( yi -
yi + 1 )
= (σ ²yi + σ ²yi + 1) - 2 ρ σyi * σyi + 1
donde:
yi :
es el número de personas ocupadas en el periodo i.
yi+1:
es el número de personas ocupadas en el periodo (i+1).
σ( yi -
yi + 1 ):error
estándar de cambio en la magnitud del empleo (personas ocupadas) u otra medida
que se seleccione.
σ yi :
error estándar de la magnitud del empleo (personas ocupadas) en la encuesta i.
σ²yi :
varianza de la magnitud del empleo (personas ocupadas) en la encuesta i.
σ yi + 1 :
error estándar de la magnitud del empleo (personas ocupadas) en la encuesta i+1.
σ²yi+1 :
varianza de la magnitud del empleo (personas ocupadas) en la encuesta i+1
ρ:
correlación en la magnitud del empleo entre la encuesta i y la i+1. Esta medida
generalmente se calcula del número estimado de personas en la muestra de las dos
encuestas.
El último término en la expresión (I), indica que la covarianza entre dos estimaciones reduce la varianza
de la diferencia de las estimaciones. Por lo tanto, a mayor correlación entre las dos muestras, menor será
la varianza de la diferencia estimada. La correlación máxima se obtiene incluyendo los mismos hogares
en la muestra en ambas encuestas.
Para efectos prácticos, σyi e σyi+1 pueden considerarse prácticamente iguales, es decir, se considera que
la magnitud del empleo en los periodos i e i+1 no varia.
Además, una estimación de 0.80 puede suponerse para ρ, basándose en la experiencia previa con una
característica tal como el empleo y donde la totalidad de los conglomerados son comunes de trimestre a
trimestre cuando la muestra se alterna:
σ( yi -
yi + 1 )
=
σ( yi - yi + 1 ) =
(2σ ²yi ) - (2 (0,8) σ ²yi
0,4 σyi
460
Perú: tamaño de muestra en encuestas de...
Por tratarse de una variable absoluta:
σ yi =
def ( N ² σ ²/ n)
donde:
def:
es el factor con que se incrementa la varianza del muestreo simple al azar por el uso de
conglomerados. A este factor se le conoce como Efecto de Diseño.
def:
1,5
n:
es el tamaño muestral medido en cantidad de personas económicamente activas.
N:
es el total de personas económicamente activas en la población de estudio.
N=
3 millones 200 mil, según la ENAHO.
También, considerando:
d = z σ( yi -
yi + 1 ):
margen de error en la estimación de la diferencia.
Reemplazando:
d =z
0,4
n =z
0,4
1,5 N² σ ² / n
1,5 N² σ ² / d
n = [z² (0,4) (1,5) (N² σ²) ] / d²
Los valores utilizados fueron:
z=
1,96 , ya que se trabajó con una confianza del 95 por ciento.
d=
75 mil PEAs ocupadas, equivalente a un margen de error del 2 %.
N σ = 172 mil 800 PEAs ocupadas.
Por lo tanto:
n=
12 200 personas económicamente activas para la muestra.
Dado que se espera encontrar en promedio 3 PEAs por vivienda,
m=
4 000 viviendas particulares para la muestra.
Además, teniendo en cuenta una pérdida muestral esperada del 20%,
m = 4 950 viviendas particulares.
En el cuadro siguiente se muestra los principales indicadores estadísticos a obtenerse de la encuesta, los
estimativos, margen de error, intervalo de confianza y los tamaños de muestra calculados para cada
indicador. Puede observarse que el “Desempleo Abierto” es estimado en 7,9%. Según esta variable, el
tamaño de muestra requerido es de 5 mil 400 viviendas particulares.
También, se observa que variables como “Ocupados con Seguro Social”, “Ocupados Que Ganan Por
Debajo de la Línea de Pobreza” y “Ocupados en Empresas con 1 a 10 Trabajadores”, tienen estimaciones
mayores al 30%. El tamaño de muestra requerido para estimar estos indicadores es, en promedio, 2 mil
viviendas particulares, número equivalente a la tercera parte de lo necesario para estimar el Desempleo
Abierto.
Perú: tamaño de muestra en encuestas de...
461
En resumen, el tamaño de muestra de 4 mil 950 viviendas, determinado para la encuesta, satisface las
necesidades de información para el resto de indicadores.
Tabla 8. Tamaño de Muestra Necesario para los Principales Indicadores de la Encuesta
Margen de error
Indicador
Estimación
Intervalo Confidencial
Muestra
viviendas
trimestral
Absoluto
Relativo (%)
Inferior
Superior
3 200 000 ocup.
7,9%
75 000
1,0
2,0
12,6
3 125 000
6,9
3 275 000
8,9
4 950
5 400
3. Desempleados buscan Empleo 4
semanas
42,4%
3,0
7,0
39,4
45,4
2036
4. Personas inician trabajo en mes
de referencia
3,7%
0,7
18,0
3,0
4,4
5 460
1. PEA Ocupada
2. Tasa Desempleo Abierto
5. Ocupad. Pierden empleo en
mes de referencia
6. Ocupa. Con Seguro de S.
3,5%
0,7
18,0
2,8
4,2
5 460
35,0%
3,0
8,6
32,0
36,0
2 000
7. Tamaño de Empresa
01 a 10
67,8%
3,0
4,4
64,8
70,8
2 000
10 y más
32,2%
2,0
6,2
30,2
34,2
4 000
8. Ocupados ganan debajo de línea
de pobreza
66,1%
3,0
4,5
63,1
69,1
2 000
La muestra está diseñada para dar resultados trimestrales para las principales características investigadas
en la encuesta a nivel del Área Metropolitana de Lima y Callao. Para otros niveles de desagregación se
debe prestar atención a los coeficientes de variación de las estimaciones.
Errores de Muestreo de la Encuesta, Los errores de muestreo están en función del diseño de la muestra y
de los procedimientos de estimación utilizados.
Las estimaciones obtenidas mensualmente para la Población Ocupada tienen errores muestrales relativos
(CV) por debajo del 2.0% y en el caso de la Población Desocupada están entre 5.0% y 6.0%.
Las estimaciones obtenidas trimestralmente para la Población Ocupada tienen errores muestrales relativos
(CV) por debajo del 2.0% y en el caso de la Población Desocupada están entre 3.0% y 3.5%.
Las variaciones de los errores relativos entre meses no son significativas pero las estimaciones desde el
punto de vista de eficiencia muestral, poseen márgenes de error mayores con respecto al de las
estimaciones trimestrales.
Tabla 9. Mensual – Población Ocupada
Mes
MARZO
ABRIL
MAYO
JUNIO
JULIO
Estimado
3,627,616
3,446,391
3,514,842
3,453,673
3,442,081
Error
Estándar
59,488
63,169
62,041
59,940
61,678
C. V.
(%)
1.64
1.83
1.77
1.74
1.79
95% Intervalo de Confianza
Inferior
Superior
3,511,019
3,744,212
3,322,581
3,570,202
3,393,243
3,636,442
3,336,190
3,571,155
3,321,193
3,562,969
DEFF
1.72
1.83
1.76
1.73
1.67
Nª de
casos
7398
6844
6933
7215
6554
462
Perú: tamaño de muestra en encuestas de...
Tabla 10. Mensual – Población Desocupada
Mes
Estimado
MARZO
ABRIL
MAYO
JUNIO
349,418
375,108
353,589
363,273
Tabla 11.
Trimestre
Estimado
MARZO - MAYO
ABRIL - JUNIO
MAYO - JULIO
3,529,616
3,471,635
3,470,198
Tabla 12.
Trimestre
Estimado
MARZO - MAYO
ABRIL - JUNIO
MAYO - JULIO
359,372
363,990
351,440
Error
Estándar
19,637
24,984
20,996
22,311
C. V.
(%)
5.62
6.66
5.94
6.14
95% Intervalo de Confianza
Inferior
Superior
310,929
387,907
326,140
424,077
312,437
394,742
319,544
407,003
DEFF
1.09
1.54
1.16
1..33
Nª de
casos
7398
6844
6933
7215
Trimestral - Población Ocupada
Error
Estándar
35,556
35,640
35,810
C. V.
(%)
1.01
1.03
1.03
95% Intervalo de Confianza
Inferior
Superior
3,459,926
3,599,306
3,401,780
3,541,490
3,400,011
3,540,385
DEFF
1.77
1.78
1.77
Nª de
casos
21175
20992
20702
Trimestral - Población Desocupada
Error
Estándar
12,696
13,177
12,674
C. V.
(%)
3.53
3.62
3.61
95% Intervalo de Confianza
Inferior
Superior
334,488
384,256
338,163
389,818
326,599
376,282
DEFF
1.28
1.35
1.27
Nª de
casos
21175
20992
20702
Analizando la población ocupada, el error estándar de la diferencia de las estimaciones de un trimestre
móvil a otro, viene dado por la relación siguiente:
σ( yi -
yi + 1 )
=
0,4 σyi
Por ejemplo, el error estándar de cambio en la magnitud del empleo (personas ocupadas) entre los
trimestres móviles marzo-mayo y abril-junio es:
σ( yi -
yi + 1 )
=
σ( yi -
yi + 1 )
= 22,488
0,4 * (35,556)
El error relativo (cv) de esta estimación es cv = 22,488 / 3 529,616 = 0.006 (menos del 1%)
Descargar