445 PERÚ: TAMAÑO DE MUESTRA EN ENCUESTAS DE PROPÓSITOS MÚLTIPLES INSTITUTO NACIONAL DE ESTADÍSTICA E INFORMÁTICA (INEI) 446 Perú: tamaño de muestra en encuestas de... ÍNDICE Página 1. Encuesta Nacional de Hogares, ENAHO 1998 IV............................................................... 447 2. Encuesta Nacional de Hogares, ENAHO 2001 IV............................................................... 449 2.1 Evaluación de la precisión de los tamaños de muestra ................................................ 450 2.2 Optimización en la asignación de la muestra por departamentos ................................ 451 3. Métodos para la Estimación de la Varianza ......................................................................... 452 4. Algoritmos de Estratificación .............................................................................................. 455 4.1 Procedimientos para la estratificación del marco de muestreo.................................... 455 5. Diseño de Panel.................................................................................................................... 457 5.1 Encuestas por panel ..................................................................................................... 457 5.2 Muestras panel en la Encuesta Nacional de Hogares................................................... 457 Perú: tamaño de muestra en encuestas de... 1. 447 Encuesta Nacional de Hogares, ENAHO 1998 IV En 1998, el INEI de Perú estableció la necesidad de elaborar una muestra maestra de áreas para el desarrollo de encuestas de propósitos múltiples como la Encuesta Nacional de Hogares (ENAHO), con el fin de hacer el seguimiento de un conjunto de variables que cubren diversos temas relacionados con el empleo y las condiciones de vida. La muestra maestra fue básicamente una muestra de áreas de empadronamiento censales agrupadas, y denominadas conglomerados; su propósito fue seleccionar diferentes submuestras para la implementación de encuestas más reducidas en alcance y cobertura durante el período 1998 – 2000. La muestra fue diseñada para obtener indicadores relacionados con: la composición del hogar, características de la vivienda, acceso a servicios, acceso a la educación, acceso a la salud, acceso a programas sociales, empleo, ingreso, gasto y otros temas libres. Para el diseño de la muestra se consideró resultados de la ENAHO de 1996 para las variables siguientes: i. Ingreso Per Capita por Persona ii. Porcentaje de Personas que Acceden a Servicios de Salud iii. Porcentaje de Hogares con Servicio de Desagüe iv. Porcentaje de Hogares Beneficiados con Programas Sociales v. Tasa de Desempleo Urbana Se consideraron básicamente ocho (8) regiones o dominios geográficos, 1. Lima Metropolitana, 2. Costa Norte, 3. Costa Centro, 4. Costa Sur. 5. Sierra Norte, 6. Sierra Centro, 7. Sierra Sur, y 8. Selva Total. También se consideró importante la desagregación en cinco niveles de urbanización de las unidades primarias de muestreo (UPM) agrupados en las siguientes categorías: i. Menos de 500 habitantes, ii. De 500 a 2 mil habitantes, iii. De 2 mil a 20 mil habitantes, iv. De 20 mil a 100 mil habitantes, y v. Más de 100 mil habitantes Para determinar el tamaño global de la muestra maestra se tomó en cuenta la variabilidad de las características o variables de estudio. Como se sabe, el error muestral para una encuesta del tipo de la ENAHO tiene dos componentes: el primero corresponde a la variación entre conglomerados y el segundo a la variación de las viviendas o los hogares dentro de los conglomerados. 448 Perú: tamaño de muestra en encuestas de... La variabilidad entre conglomerados es mucho mayor para las áreas urbanas que en las áreas rurales, pero la variabilidad dentro del conglomerado seleccionado es menor en lo urbano que en lo rural. Por lo tanto, un importante factor para controlar el error muestral es reducir el mayor componente de variabilidad que es la variación entre conglomerados, el cual es inversamente proporcional al número de conglomerados (especialmente en el área urbana). Como consecuencia, para cumplir con los diferentes objetivos de la encuesta se consideró que un tamaño de muestra de aproximadamente 4 mil conglomerados era el tamaño de muestra más adecuado para producir con suficiente precisión los principales indicadores para los diferentes niveles de desagregación requeridos en la ENAHO: regiones o dominios geográficos. Cuando estas áreas varían considerablemente en sus tamaños totales (habitantes o viviendas), surgen problemas en el uso de asignaciones estándar. Por un lado se tiene la asignación de la muestra total del país entre sus dominios que minimiza el error relativo al nivel nacional, la cual es casi igual a la asignación proporcional al tamaño del dominio, ocasionando que ciertos dominios tengan un mayor error relativo que el tamaño de muestra producido por la directa minimización del error dentro del dominio. Por otro lado, cuando se requiere que cada dominio tenga el mismo nivel de error relativo entonces puede resultar que el error relativo producido para el nivel nacional sea mucho más grande que el calculado con la respectiva minimización al nivel nacional. Esta asignación con el mismo nivel de error relativo produce el mismo tamaño de muestra para cada dominio sin consideración del tamaño o de la importancia, es decir el tamaño de muestra en el dominio es independiente de su tamaño. Aprovechando el concepto de la importancia (tamaño) del dominio anteriormente discutido y tomando en consideración el concepto de precisión del indicador estadístico en cada dominio, entonces una mejor asignación de la muestra total entre sus dominios componentes se obtiene cuando el tamaño de muestra en el dominio es función de la importancia del dominio y de su correspondiente error relativo (véase Power Allocations Determining Sample Sizes for Subnational Areas por Michael D. Bankier. The American Statistician. August 1988 Vol 42 No 3). Teniéndose el indicador estadístico Y (promedio, proporción o porcentaje) estimado en cada dominio, y además teniéndose la importancia X (tamaño) de cada dominio entonces se considera la minimización de la siguiente función en términos de la mejor asignación de muestra entre los dominios (nh ): 2 α F = ∑h ( X h CV(Y h ) ) (1) con la restricción de que: n = ∑ h nh (2) donde : CV(Yh): es el coeficiente de variación (error relativo) del indicador Y en el dominio h, Xhα : es la potencia α de la importancia (tamaño) X en el dominio h, nh : es la muestra asignada al dominio h, α : es un valor constante entre 0 y 1. Perú: tamaño de muestra en encuestas de... 449 Se demuestra matemáticamente que la función F es minimizada cuando la asignación por dominio es dada por la siguiente relación: α Sh X h / Yh nh = n ∑ h S h X hα / Y h (3) donde : : Sh esta definido dentro de la fórmula de la varianza del indicador, Var (Yh) = Sh2 / nh , en el dominio h. Como quiera que se tenia cinco indicadores, había varias alternativas para utilizar esta información: i) Utilizar el indicador más importante de acuerdo a los objetivos de la encuesta y con este indicador hacer la asignación de la muestra. ii) Combinar dos o más indicadores y luego hacer la asignación. iii) Obtener un promedio simple de estos cinco indicadores para una encuesta de propósitos múltiples. Finalmente, se decidió aplicar el criterio de promedio simple de los cinco indicadores, que vendría a ser el tamaño de muestra deseado para cada departamento, cuyo objetivo era investigar a las variables relacionadas con la extrema pobreza. Se realizó la asignación para cada dominio de cada uno de esos indicadores considerando el tamaño de muestra total de 3 mil 884 conglomerados. Tabla 1. Distribución de la Muestra Maestra de Conglomerados por área urbana y rural, según dominios de estudio DOMINIOS DE ESTUDIO TOTAL Costa Costa norte Costa centro Costa Sur Sierra Sierra norte Sierra centro Sierra sur Selva Lima Metro. 2. TOTAL 3884 893 397 301 195 1922 590 764 568 707 362 MUESTRA MAESTRA DE CONGLOMERADOS URBANO 2209 702 299 236 167 738 211 272 255 407 362 RURAL 1675 191 98 65 28 1184 379 492 313 300 - Encuesta Nacional de Hogares, ENAHO 2001 IV A diferencia de la ENAHO de 1998, los dominios de estudio definidos para este año, estaban referidos a cada uno de los 24 departamentos que componen el Perú. El presupuesto sólo permitía ejecutar la encuesta ENAHO 2001 IV Trimestre en 18,000 viviendas. La asignación de la muestra por departamento se efectuó teniendo en cuenta el promedio de la asignación proporcional y asignación uniforme. Esta muestra agrupada en 2,782 conglomerados urbanos y rurales, se presenta en la siguiente tabla: 450 Perú: tamaño de muestra en encuestas de... Tabla 2. Distribución de la muestra ENAHO 2001 IV por Area Urbana y Rural DEPARTAMENTO TOTAL AMAZONAS ANCASH APURIMAC AREQUIPA AYACUCHO CAJAMARCA CUSCO HUANCAVELICA HUANUCO ICA JUNIN LA LIBERTAD LAMBAYEQUE LIMA LORETO MADRE DE DIOS MOQUEGUA PASCO PIURA PUNO SAN MARTIN TACNA TUMBES UCAYALI TOTAL AREA URBANA AREA RURAL CONG VIV CONG VIVI CONG VIV 2782 62 104 60 131 71 106 105 59 77 107 122 141 120 639 102 61 72 65 146 99 95 86 73 79 18179 507 760 525 739 570 903 785 550 649 623 800 910 768 3262 707 410 427 476 920 807 639 476 444 522 2195 32 70 24 120 42 47 68 22 39 98 92 117 104 627 74 48 65 46 124 55 70 79 69 63 11345 161 353 115 621 224 209 356 113 200 529 447 631 579 3124 380 260 348 255 670 285 343 400 398 344 587 30 34 36 11 29 59 37 37 38 9 30 24 16 12 28 13 7 19 22 44 25 7 4 16 6834 346 407 410 118 346 694 429 437 449 94 353 279 189 138 327 150 79 221 250 522 296 76 46 178 La evaluación de estos tamaños muestrales normalmente implica desarrollar dos etapas de trabajo: 2.1 Evaluación de la precisión de los tamaños de muestra. Para la evaluación de la precisión de los tamaños de muestra se utiliza la fórmula: CV ( p) = efd (1 − p) np (4) donde,: CV(p) es el coeficiente de variación relativo del indicador con un valor de p. efd es el efecto del diseño, se asume un valor igual a 2. P es el indicador con valores de p 0.3, 0.4 y 0.5. n es el número de viviendas de la muestra Aplicando la fórmula anterior se han construido el cuadro siguiente, que presenta los respectivos coeficientes de variación para los valores previstos del indicador p, para un número de conglomerados en la muestra y su respectivo tamaño de muestra de viviendas, con un efecto de diseño igual a 2. Perú: tamaño de muestra en encuestas de... 451 Se puede afirmar que con un mínimo de 75 conglomerados, el correspondiente error relativo para cualquier indicador, cuyo valor es mayor a 0.3, puede alcanzar hasta el 12%. En la medida que aumente el número de conglomerados disminuye el error relativo. Tabla 3. Precisión del tamaño de muestra: Total departamento CV(p) % (Conglomerados) Número de Conglomerados Tamaño de Muestra de Viviendas Efecto del Diseño (cfd) p=0.03 p=0.10 p=0.30 p=0.40 p=0.50 25 150 2 92.86 48.99 24.94 20.00 16.33 50 400 2 56.86 30.00 15.28 12.25 10.00 60 500 2 50.86 26.83 13.66 10.95 8.94 75 600 2 46.43 24.49 12.47 10.00 8.16 100 800 2 40.21 21.21 10.80 8.67 7.07 125 850 2 39.00 20.58 10.48 8.40 6.86 150 900 2 37.91 20.00 10.18 8.16 6.67 600 3600 2 18.95 10.00 5.09 4.08 3.33 2700 18000 2 8.48 4.47 2.28 1.83 1.49 2.2 Optimización en la asignación de la muestra por departamentos. Se ha calculado coeficientes de variación por departamentos a partir de los resultados de la ENAHO 2001 IV para las siguientes variables: Variable Indicador V1. Desempleo Abierto Tasa de Desempleo Abierto Urbano V2. Acceso a los Servicios de Salud Proporción de la Población Que Accede a Servicios de Salud V3. Servicio de Desagüe a Red Pública Proporción de Hogares con Servicio de Desagüe Conectado a Red Pública Proporción de Niños de 5 a 14 años Que Asisten a un Centro Educativo V4. Asistencia Escolar de Niños de 5 a 14 años V5. Acceso a Programas Sociales Proporción de Hogares Que Acceden a Programas Sociales V6. Ingreso Trimestral por Perceptor Ingreso Promedio Trimestral Por Perceptor V7. Población en Estado de Pobreza Proporción de pobres en la Población. Haciendo uso de la información antes referida, se ha procedido a calcular un tamaño de muestra deseado, siguiendo el método “Power allocation determining Sample Sizes For Subnational Areas” de Michael D. Banker, cuya fórmula es la siguiente: CV ( p) * X 0.5* nh = ∑ X 0.5 * CV ( p) Donde : nh es el tamaño de muestra óptimo por departamento X es el tamaño de cada departamento CV(p) es el coeficiente de variación relativo del indicador con un valor de p. (5) 452 p Perú: tamaño de muestra en encuestas de... es igual a V1, V2, V3, V4, V5, V6 y V7. Para mostrar las diferencias entre el tamaño de muestra asignado y el tamaño de muestra deseado, se ha construido el cuadro que se presenta a continuación. Al analizar la información de este cuadro se observa que los departamentos de Madre de Dios, Lima, Tumbes, Lambayeque, Ucayali y Loreto tienen tamaño de muestra sobrestimado, mientras que los departamentos de Puno, Ayacucho, Apurímac, Moquegua, Cajamarca, Amazonas, y Huancavelica tienen tamaños de muestra subestimados. El resto de departamentos tienen el tamaño de muestra mäs o menos apropiado. Tabla 4. Comparación de los tamaños de muestra asignados y deseados para la ENAHO 2001 IV DEPARTAMENTO TOTAL MADRE DE DIOS TAMAÑO DE MUESTRA ASIGNADO 18179 410 DIFERENCIA (ASIGNADO / DESEADO) *100 18000 252 162.64 3262 2038 160.05 LAMBAYEQUE 768 611 125.66 TUMBES 444 355 125.00 UCAYALI 522 430 121.35 LORETO 707 606 116.73 TACNA 476 460 103.58 CUSCO 785 783 100.30 AREQUIPA 739 750 98.55 LIMA 3. TAMAÑO DE MUESTRA DESEADO PIURA 920 936 98.25 JUNIN 800 822 97.30 LA LIBERTAD 910 950 95.76 SAN MARTIN 639 675 94.61 HUANUCO 649 708 91.70 PASCO 476 521 91.33 ANCASH 760 838 90.68 ICA 623 703 88.56 PUNO 807 933 86.54 AYACUCHO 570 671 85.01 APURIMAC 525 635 82.70 MOQUEGUA 427 538 79.41 CAJAMARCA 903 1221 73.96 AMAZONAS 507 697 72.76 HUANCAVELICA 550 867 63.40 Métodos para la Estimación de la Varianza Para el cálculo de los errores de muestreo se aplica el paquete CENVAR, el cual está basado en los estimadores de la varianza de los conglomerados últimos, esto vale decir que el referido paquete se ha aplicado bajo el criterio que el muestreo es bietápico, cuando en la práctica se trata de un muestreo trietápico. En ese sentido es importante tener especial cuidado en el momento en que se analizan los correspondientes errores de muestreo. Para facilitar este análisis se puede utilizar la siguiente fórmula: S a2 / a (1 + rho ( b − 1 ) ) efd = S2 /n (6) Perú: tamaño de muestra en encuestas de... 453 Donde: Efd es el efecto del diseño; S a2 es la varianza de los promedios de los conglomerados. S2 / n rho es la varianza de una muestra aleatoria simple es el coeficiente de correlación intraclase a es la muestra de conglomerados; b es la submuestra dentro de un conglomerado a* b = n El coeficiente de correlación intraclase mide el grado de homogeneidad de las unidades dentro de un conglomerado. Si el coeficiente de correlación intraclase es igual a 1, esto significa que todos los elementos que definen cualquier conglomerado tienen el mismo valor; en este caso, el efecto del diseño será igual al valor de b. Esto implica que los conglomerados han sido conformados por unidades altamente correlacionadas y por lo tanto la aplicación del muestreo es deficiente. En cambio, si el coeficiente de correlación intraclase es igual a cero esto significa que las unidades dentro de un conglomerado están incorrelacionadas y por lo tanto la eficiencia del muestreo de conglomerados es óptima, porque el efecto del diseño es igual a 1 y por lo tanto, el muestreo de conglomerados tiene la misma eficiencia que el muestreo aleatorio simple. Hay algunos casos donde el coeficiente de correlación intraclase puede asumir valores muy pequeños, siendo el valor más pequeño cuando rho es –1/b-1, en este caso la varianza entre medias de conglomerados es igual a cero. Los valores negativos de rho son raros, ocurren cuando las medias de los conglomerados son más uniformes de lo que se tendría al distribuirlos aleatoriamente Al analizar los resultados de la ENAHO 2001 IV Trimestre tomando como indicadores la población en extrema pobreza y la población por debajo de la línea de pobreza pero que no son extremadamente pobres (pobreza total), observamos que si bien es cierto la mayoría de los departamentos tienen valores de error de muestreo muy bajos, no es suficiente para tener un panorama completo sobre la precisión de estos estimadores. De allí que es importante complementar el análisis observando el efecto del diseño y el coeficiente de correlación intraclase. A continuación se presenta el cuadro que resume la evaluación de la muestra de la ENAHO 2001 IV Trimestre. El análisis solamente es válido para las variables relacionadas con la pobreza y extrema pobreza. Este cuadro podría variar para otro tipo de variables. En ese sentido, si el objetivo principal de la ENAHO 2002 sigue siendo la medición de la pobreza y extrema pobreza, es necesario dispersar la muestra en un mayor número de conglomerados, sobre todo en el área rural. Si bien es cierto que esta propuesta es válida para los departamentos incluidos en las categorías de moderado y pobre, sin embargo, un diseño diferenciado por departamentos, complicaría el manejo de la muestra a nivel nacional. Ante esta situación, se sugiere que la muestra esperada por conglomerado en el área rural sea de tamaño igual a 8 viviendas, manteniendo en el área urbana la submuestra por conglomerado se mantenga en 6 viviendas. 454 Perú: tamaño de muestra en encuestas de... Tabla 5. Rendimiento del muestreo de conglomerados en la ENAHO 2001 IV Rendimiento del muestreo de conglomerados Eficiente Efecto del Diseño Moderado Mediano Entre 2 y 4 Entre 0.2 y 0.4 Pobre Alto Mayor a 4 Mayor a 0.4 Bajo Menor a 2 Coeficiente de correlación intraclase Menor a 0.2 Departamento Amazonas, Apurímac, Huancavelica, Madre de Dios, Moquegua, Pasco, Tacna, Tumbes y Ucayali. Arequipa, Ayacucho, Cajamarca, Cusco, Ica, Junín, Lambayeque, Lima y Callao, Loreto, Puno, San Martín. Ancash, Huánuco, La Libertad y Piura. Porcentaje de viviendas (%) 10.7 70.6 18.7 Tabla 6. Errores de muestreo para la población en extrema pobreza ENAHO IV Trimestre 2001 Departamento Estimador Error Estándar Coef. Var. Efecto del diseño Amazonas 41.1% 0.049 11.8% 2.600 Ancash 33.3% 0.052 15.7% 8.488 Apurimac 47.4% 0.041 8.7% 1.950 Arequipa 14.5% 0.028 19.0% 4.197 Ayacucho 45.4% 0.065 14.2% 5.774 Cajamarca 50.8% 0.038 7.5% 5.402 Cusco 51.3% 0.043 8.3% 5.394 Huancavelica 74.4% 0.040 5.4% 2.365 Huánuco 61.9% 0.053 8.6% 6.078 Ica 8.6% 0.019 22.3% 1.989 Junín 24.3% 0.030 12.5% 3.866 La Libertad 18.3% 0.031 16.9% 5.926 Lambayeque 19.9% 0.029 14.7% 3.720 Lima y Callao 3.1% 0.006 19.3% 6.146 Loreto 47.2% 0.038 7.9% 3.204 Madre de Dios 11.5% 0.029 25.1% 0.513 Moquegua 7.6% 0.025 32.8% 0.871 Pasco 33.2% 0.060 18.0% 2.646 Piura 21.4% 0.035 16.2% 7.236 Puno 46.1% 0.036 7.8% 4.134 San Martín 36.2% 0.033 9.1% 2.239 Tacna 5.2% 0.021 40.4% 1.590 Tumbes 7.4% 0.027 36.6% 1.341 Ucayali 44.9% 0.039 8.8% 1.783 TOTAL 24.4% 0.007 2.8% 4.150 Perú: tamaño de muestra en encuestas de... 455 Tabla 7. Errores de muestreo para la población en pobreza (total) ENAHO 2001 IV FGT0 4. Efecto del Diseño Estimador Error Estándar Coef. Var. Amazonas 74.5% 0.033 4.4% 1.524 Ancash 61.1% 0.042 6.8% 5.060 Apurimac 78.0% 0.030 3.9% 1.557 Arequipa 44.1% 0.034 7.7% 3.176 Ayacucho 72.5% 0.049 6.8% 4.186 Cajamarca 77.4% 0.025 3.3% 3.453 Cusco 75.3% 0.030 4.0% 3.613 Huancavelica 88.0% 0.024 2.7% 1.489 Huánuco 78.9% 0.042 5.4% 5.393 Ica 41.7% 0.040 9.5% 2.728 Junín 57.5% 0.028 4.9% 2.510 La Libertad 52.1% 0.034 6.6% 4.365 Lambayeque 63.0% 0.035 5.6% 3.734 Lima y Callao 33.4% 0.011 3.3% 2.792 Loreto 70.0% 0.032 4.6% 2.801 Madre de Dios 36.7% 0.049 13.3% 0.636 Moquegua 29.6% 0.057 19.4% 1.550 Pasco 66.1% 0.038 5.7% 1.049 Piura 63.3% 0.038 6.1% 6.382 Puno 78.0% 0.028 3.6% 3.596 San Martín 66.9% 0.034 5.1% 2.506 Tacna 32.8% 0.039 11.8% 1.226 Tumbes 46.8% 0.043 9.2% 0.933 Ucayali 70.5% 0.031 4.4% 1.288 Total 54.8% 0.007 1.2% 3.120 Algoritmos de Estratificación 4.1 Procedimientos para la estratificación del marco de muestreo En toda encuesta de hogares en la que se haga uso del muestreo multietápico, la estratificación de las unidades de muestreo es fundamental e importante para la reducción de la varianza. A fin de mejorar la eficiencia del marco muestral de la Encuesta Nacional de Hogares (ENAHO) utilizado desde 1995, se tomaron criterios de estratificación para las unidades de muestreo. En una primera etapa, las unidades primarias de muestreo (UPM) fueron agrupadas en estratos teniendo en cuenta su importancia en tamaño de habitantes: • Estrato 1: Unidades primarias de muestreo (UPM) urbanas de gran tamaño, tales como ciudades con 100 mil y más habitantes. • Estrato 2: Unidades primarias de muestreo urbanas de mediano tamaño, tales como ciudades con 20 mil a menos de 100 mil habitantes. • Estrato 3: Unidades primarias de muestreo urbanas menores, tales como aquellos centros poblados o localidades con 2 mil a menos de 20 mil habitantes. 456 Perú: tamaño de muestra en encuestas de... • Estrato 4: Unidades primarias de muestreo rurales concentradas, tales como centros poblados o localidades con 500 a menos de 2 mil habitantes. • Estrato 5: Áreas rurales pequeñas y dispersas, formadas por centros poblados con menos de 500 habitantes, agrupados en AER (áreas de empadronamiento rural). Es importante mencionar que los estratos 1,2 y 3, conforman el área urbana mientras que los estratos 4 y 5, el área rural. Así mismo, la ENAHO es comparable con el Censo considerando solamente el estrato 5 como área rural. La inclusión de conglomerados o unidades secundarias de muestreo (USM) en la muestra, dado el carácter multitemático de la ENAHO, tiende a incrementar la varianza muestral y el método que se diseña para minimizar la varianza de una variable, pudiera conducir a resultados no satisfactorios para otra. En tal sentido, deben buscarse indicadores socio económicos que determinen diferencias que afecten a la mayor parte de las características. La mayoría de las variables importantes analizadas en la ENAHO tales como empleo, ingresos, gastos, educación y salud, están altamente correlacionadas con los niveles socioeconómicos de la población. Por lo que fue necesario definir subestratos socioeconómicos en los aglomerados urbanos de gran tamaño, como son las grandes ciudades. A fin de reducir la varianza de la segunda componente, la estratificación de las USM fue un objetivo primordial para la ENAHO. Sobre la base de información de los censos de 1993, el INEI procesó y obtuvo 5 indicadores de Necesidades Básicas Insatisfechas (NBI) para los hogares peruanos, al nivel de distritos: • Hogares en viviendas con características físicas inadecuadas • Hogares en viviendas con hacinamiento • Hogares en viviendas sin servicio de desagüe de ningún tipo • Hogares con niños que no asisten a la escuela • Hogares con alta dependencia económica La medición estaba referida a los hogares que habitaban en viviendas particulares con ocupantes presentes. Haciendo uso de esta metodología, estos indicadores se procesaron para cada USM del marco de las UPM, según el procedimiento siguiente: 1. En primer lugar, se identifican a los hogares carentes por cada indicador; luego, para el cálculo de la proporción de hogares carentes por cada indicador (Ij), se le relaciona con el total de hogares de la USM correspondiente. 2. Se agrupan los hogares que tienen al menos 1 NBI, de la manera siguiente: HOG1 : Hogares con 1 necesidad básica insatisfecha. HOG2: Hogares con 2 necesidades básicas insatisfechas. HOG3: Hogares con 3 necesidades básicas insatisfechas. HOG4: Hogares con 4 necesidades básicas insatisfechas. HOG5: Hogares con 5 necesidades básicas. 3. Basándose en estos cinco grupos de hogares se obtiene por sumatoria y agregación el índice de necesidades básicas insatisfechas (NBI), que representa el indicador sintético de los hogares con al menos una necesidad básica insatisfecha para cada USM, resumida en la siguiente expresión matemática: Perú: tamaño de muestra en encuestas de... INBI = Σ (HOGi / HT) 457 (7) donde: INBI: Indice de Necesidades Básicas Insatisfechas para cada USM HOGi: Hogares con al menos una necesidad básica insatisfecha HT: Total de hogares en la USM 4. Se ordenaron las USM según este indicador para cada UPM. Con esto se obtiene una estratificación implícita del marco cuando la muestra es seleccionada sistemáticamente con probabilidad proporcional al tamaño. El uso de la metodología del NBI, tuvo como propósito obtener muestras estratificadas que aseguren la representatividad de los diferentes niveles socioeconómicos de la ciudad investigada. 5. Diseños de Panel 5.1 Encuestas por panel Muestra Panel es aquélla muestra en la que se miden los mismos elementos en dos o más ocasiones. Las encuestas por panel permiten hacer estudios de cambios individuales y de la dinámica de las causas y las relaciones. Existen dos clases de encuestas por panel. Una es con paneles fijos y la otra es con paneles que rotan. Los paneles fijos son aquellos en los cuales los individuos que lo componen no cambian. El uso exclusivo de un panel fijo produce estimaciones muy eficientes de cambios periódicos. En tanto que los paneles que rotan son utilizados para reducir el agotamiento de los respondientes y provee estimaciones eficientes de totales del periodo. 5.2 Muestras Panel en la Encuesta Nacional de Hogares • Encuesta Permanente de Empleo en Lima Metropolitana – EPE 2001 Población de estudio, la población está definida como el conjunto de todas las viviendas particulares y sus ocupantes residentes de los 43 distritos de la provincia Lima y 6 distritos de la provincia constitucional del Callao. Por no formar parte de la población bajo estudio, se excluye a los establecimientos económicos y viviendas de tipo colectivo. Por tanto, se excluye a los miembros de las Fuerzas Armadas que viven en cuarteles, campamentos, barcos y a las personas que residen en viviendas colectivas (hoteles, hospitales, asilos y claustros religiosos, cárceles, etc.). Marco Muestral, el marco muestral de la Encuesta Permanente de Empleo tiene como fuente la información básica y cartografía de la Actualización Cartográfica y Registro de Edificios y Viviendas del Precenso de 1999 –2000 realizada en el ámbito de Lima Metropolitana. Esta información precensal se encuentra bajo el soporte de una base de datos que ha permitido organizarla adecuadamente a efectos de la formación del marco muestral y selección automática de la muestra. Las unidades del marco muestral son: ! Unidades Primarias de Muestreo (UPM), son las secciones censales denominadas conglomerados. ! Unidades Secundarias de Muestreo (USM), son las viviendas particulares. Como paso previo al diseño y selección de la muestra, el marco muestral fue parcialmente actualizado mediante salidas a campo. Los únicos conglomerados actualizados fueron los seleccionados para la encuesta permanente. 458 Perú: tamaño de muestra en encuestas de... Tamaño de Muestra, para la determinación del tamaño de la muestra, se ha tenido en cuenta, además de los recursos disponibles para ejecutar la encuesta, los requerimientos mínimos de precisión o confiabilidad de las estimaciones a obtenerse en la investigación. Se tomó como referencia las estimaciones obtenidas en la Encuesta Especializada de Empleo del Tercer Trimestre del 2000. Los indicadores estadísticos más importantes a estimarse con la encuesta son: ! Magnitud del empleo: Y = Número de ocupados = 3114507 ! Magnitud del desempleo: Y = Número de desocupados = 268238 ! Desempleo Abierto: P = Tasa de Desempleo Abierto = 7.9% ! Duración del desempleo: P = Porcentaje de desempleados que ha buscado empleo por lo menos 4 semanas = 42.41% . ! Entradas y salidas del mercado laboral: P = Porcentaje de personas ocupadas que iniciaron su ocupación en el mes de referencia = 3.7% P = Porcentaje de personas que perdieron el empleo en el mes de referencia (desocupados e inactivos) = 3.5%. ! Composición del empleo por tamaño de la empresa: De 1 a 10 trabajadores = 2107576 ( P = 67.8%) De 10 y + trabajadores = 998663 (P = 32.2%) ! Porcentaje de ocupados que tienen algún seguro de salud: P = 1103873 ( P = 35.0%) ! Porcentaje de ocupados que ganan menos de la línea de pobreza (ganancia monetaria): P = 66.1% En efecto, la encuesta producirá estimaciones para estos indicadores y existirán diferentes niveles de confiabilidad, dependiendo de la frecuencia con que se presentan estas característica particulares en la población. Por ejemplo, el Desempleo, característica infrecuente, tendrá una confiabilidad estadística mucho menor que la Duración del Desempleo, característica más frecuente en la población de estudio. Otro objetivo de la encuesta es tener estimativos de los cambios en la magnitud del empleo de una ronda de encuesta a otra. Es decir, se quiere medir con alguna certeza, un cambio del 2 por ciento o más de una ronda (trimestre) de encuesta a la siguiente. Debe determinarse entonces, qué tamaño de muestra se necesita para que las estimaciones de la encuesta estén dentro del intervalo permisible de error en 95 de cada 100 casos (con 1,96 errores estándar). Una regla menos rígida sería la de exigir que el margen especificado de error fuera satisfecho en 90 de cada 100 casos ( con 1,6 errores estándar). Este criterio, requiere una muestra más pequeña. También, como en toda investigación muestral, es de esperar que durante la recopilación de información en campo se produzca bajas en las unidades seleccionadas debido a la no respuesta, la cual está asociada a casos de: ausencia de informantes, viviendas desocupadas, viviendas no ubicadas o no localizadas, viviendas que son establecimientos, direcciones que no corresponden a una vivienda, rechazos a la entrevista de la vivienda, rechazo de la entrevista por el informante calificado, etc. Perú: tamaño de muestra en encuestas de... 459 En el caso de la Encuesta Permanente de Empleo, en base a la experiencia de la ENAHO y teniendo en cuenta que a partir de la siguiente ronda de encuesta (segundo trimestre) los hogares muestrales serán nuevamente visitados, es de esperar que la pérdida muestral sea de aproximadamente 20 %. En efecto, al determinar el tamaño de la muestra, se calculó un tamaño de 5 mil viviendas particulares con las que se espera obtener información de aproximadamente 4 mil viviendas y 12 mil personas económicamente activas (PEAS). La muestra fue finalmente ajustada a 4 mil 950 viviendas particulares, tamaño que se ajusta a las cargas de trabajo por conglomerado establecidas para la operación de campo. En el cálculo del tamaño de la muestra se utilizó como base información de la Encuesta Nacional de Hogares: El error estándar de una diferencia es: σ( yi - yi + 1 ) = (σ ²yi + σ ²yi + 1) - 2 ρ σyi * σyi + 1 donde: yi : es el número de personas ocupadas en el periodo i. yi+1: es el número de personas ocupadas en el periodo (i+1). σ( yi - yi + 1 ):error estándar de cambio en la magnitud del empleo (personas ocupadas) u otra medida que se seleccione. σ yi : error estándar de la magnitud del empleo (personas ocupadas) en la encuesta i. σ²yi : varianza de la magnitud del empleo (personas ocupadas) en la encuesta i. σ yi + 1 : error estándar de la magnitud del empleo (personas ocupadas) en la encuesta i+1. σ²yi+1 : varianza de la magnitud del empleo (personas ocupadas) en la encuesta i+1 ρ: correlación en la magnitud del empleo entre la encuesta i y la i+1. Esta medida generalmente se calcula del número estimado de personas en la muestra de las dos encuestas. El último término en la expresión (I), indica que la covarianza entre dos estimaciones reduce la varianza de la diferencia de las estimaciones. Por lo tanto, a mayor correlación entre las dos muestras, menor será la varianza de la diferencia estimada. La correlación máxima se obtiene incluyendo los mismos hogares en la muestra en ambas encuestas. Para efectos prácticos, σyi e σyi+1 pueden considerarse prácticamente iguales, es decir, se considera que la magnitud del empleo en los periodos i e i+1 no varia. Además, una estimación de 0.80 puede suponerse para ρ, basándose en la experiencia previa con una característica tal como el empleo y donde la totalidad de los conglomerados son comunes de trimestre a trimestre cuando la muestra se alterna: σ( yi - yi + 1 ) = σ( yi - yi + 1 ) = (2σ ²yi ) - (2 (0,8) σ ²yi 0,4 σyi 460 Perú: tamaño de muestra en encuestas de... Por tratarse de una variable absoluta: σ yi = def ( N ² σ ²/ n) donde: def: es el factor con que se incrementa la varianza del muestreo simple al azar por el uso de conglomerados. A este factor se le conoce como Efecto de Diseño. def: 1,5 n: es el tamaño muestral medido en cantidad de personas económicamente activas. N: es el total de personas económicamente activas en la población de estudio. N= 3 millones 200 mil, según la ENAHO. También, considerando: d = z σ( yi - yi + 1 ): margen de error en la estimación de la diferencia. Reemplazando: d =z 0,4 n =z 0,4 1,5 N² σ ² / n 1,5 N² σ ² / d n = [z² (0,4) (1,5) (N² σ²) ] / d² Los valores utilizados fueron: z= 1,96 , ya que se trabajó con una confianza del 95 por ciento. d= 75 mil PEAs ocupadas, equivalente a un margen de error del 2 %. N σ = 172 mil 800 PEAs ocupadas. Por lo tanto: n= 12 200 personas económicamente activas para la muestra. Dado que se espera encontrar en promedio 3 PEAs por vivienda, m= 4 000 viviendas particulares para la muestra. Además, teniendo en cuenta una pérdida muestral esperada del 20%, m = 4 950 viviendas particulares. En el cuadro siguiente se muestra los principales indicadores estadísticos a obtenerse de la encuesta, los estimativos, margen de error, intervalo de confianza y los tamaños de muestra calculados para cada indicador. Puede observarse que el “Desempleo Abierto” es estimado en 7,9%. Según esta variable, el tamaño de muestra requerido es de 5 mil 400 viviendas particulares. También, se observa que variables como “Ocupados con Seguro Social”, “Ocupados Que Ganan Por Debajo de la Línea de Pobreza” y “Ocupados en Empresas con 1 a 10 Trabajadores”, tienen estimaciones mayores al 30%. El tamaño de muestra requerido para estimar estos indicadores es, en promedio, 2 mil viviendas particulares, número equivalente a la tercera parte de lo necesario para estimar el Desempleo Abierto. Perú: tamaño de muestra en encuestas de... 461 En resumen, el tamaño de muestra de 4 mil 950 viviendas, determinado para la encuesta, satisface las necesidades de información para el resto de indicadores. Tabla 8. Tamaño de Muestra Necesario para los Principales Indicadores de la Encuesta Margen de error Indicador Estimación Intervalo Confidencial Muestra viviendas trimestral Absoluto Relativo (%) Inferior Superior 3 200 000 ocup. 7,9% 75 000 1,0 2,0 12,6 3 125 000 6,9 3 275 000 8,9 4 950 5 400 3. Desempleados buscan Empleo 4 semanas 42,4% 3,0 7,0 39,4 45,4 2036 4. Personas inician trabajo en mes de referencia 3,7% 0,7 18,0 3,0 4,4 5 460 1. PEA Ocupada 2. Tasa Desempleo Abierto 5. Ocupad. Pierden empleo en mes de referencia 6. Ocupa. Con Seguro de S. 3,5% 0,7 18,0 2,8 4,2 5 460 35,0% 3,0 8,6 32,0 36,0 2 000 7. Tamaño de Empresa 01 a 10 67,8% 3,0 4,4 64,8 70,8 2 000 10 y más 32,2% 2,0 6,2 30,2 34,2 4 000 8. Ocupados ganan debajo de línea de pobreza 66,1% 3,0 4,5 63,1 69,1 2 000 La muestra está diseñada para dar resultados trimestrales para las principales características investigadas en la encuesta a nivel del Área Metropolitana de Lima y Callao. Para otros niveles de desagregación se debe prestar atención a los coeficientes de variación de las estimaciones. Errores de Muestreo de la Encuesta, Los errores de muestreo están en función del diseño de la muestra y de los procedimientos de estimación utilizados. Las estimaciones obtenidas mensualmente para la Población Ocupada tienen errores muestrales relativos (CV) por debajo del 2.0% y en el caso de la Población Desocupada están entre 5.0% y 6.0%. Las estimaciones obtenidas trimestralmente para la Población Ocupada tienen errores muestrales relativos (CV) por debajo del 2.0% y en el caso de la Población Desocupada están entre 3.0% y 3.5%. Las variaciones de los errores relativos entre meses no son significativas pero las estimaciones desde el punto de vista de eficiencia muestral, poseen márgenes de error mayores con respecto al de las estimaciones trimestrales. Tabla 9. Mensual – Población Ocupada Mes MARZO ABRIL MAYO JUNIO JULIO Estimado 3,627,616 3,446,391 3,514,842 3,453,673 3,442,081 Error Estándar 59,488 63,169 62,041 59,940 61,678 C. V. (%) 1.64 1.83 1.77 1.74 1.79 95% Intervalo de Confianza Inferior Superior 3,511,019 3,744,212 3,322,581 3,570,202 3,393,243 3,636,442 3,336,190 3,571,155 3,321,193 3,562,969 DEFF 1.72 1.83 1.76 1.73 1.67 Nª de casos 7398 6844 6933 7215 6554 462 Perú: tamaño de muestra en encuestas de... Tabla 10. Mensual – Población Desocupada Mes Estimado MARZO ABRIL MAYO JUNIO 349,418 375,108 353,589 363,273 Tabla 11. Trimestre Estimado MARZO - MAYO ABRIL - JUNIO MAYO - JULIO 3,529,616 3,471,635 3,470,198 Tabla 12. Trimestre Estimado MARZO - MAYO ABRIL - JUNIO MAYO - JULIO 359,372 363,990 351,440 Error Estándar 19,637 24,984 20,996 22,311 C. V. (%) 5.62 6.66 5.94 6.14 95% Intervalo de Confianza Inferior Superior 310,929 387,907 326,140 424,077 312,437 394,742 319,544 407,003 DEFF 1.09 1.54 1.16 1..33 Nª de casos 7398 6844 6933 7215 Trimestral - Población Ocupada Error Estándar 35,556 35,640 35,810 C. V. (%) 1.01 1.03 1.03 95% Intervalo de Confianza Inferior Superior 3,459,926 3,599,306 3,401,780 3,541,490 3,400,011 3,540,385 DEFF 1.77 1.78 1.77 Nª de casos 21175 20992 20702 Trimestral - Población Desocupada Error Estándar 12,696 13,177 12,674 C. V. (%) 3.53 3.62 3.61 95% Intervalo de Confianza Inferior Superior 334,488 384,256 338,163 389,818 326,599 376,282 DEFF 1.28 1.35 1.27 Nª de casos 21175 20992 20702 Analizando la población ocupada, el error estándar de la diferencia de las estimaciones de un trimestre móvil a otro, viene dado por la relación siguiente: σ( yi - yi + 1 ) = 0,4 σyi Por ejemplo, el error estándar de cambio en la magnitud del empleo (personas ocupadas) entre los trimestres móviles marzo-mayo y abril-junio es: σ( yi - yi + 1 ) = σ( yi - yi + 1 ) = 22,488 0,4 * (35,556) El error relativo (cv) de esta estimación es cv = 22,488 / 3 529,616 = 0.006 (menos del 1%)