Aprovechamiento de la información administrativa en la formación del marco para las Encuestas de Hogares en el INE. Juana Porras Francisco Hernández Subdirección General de Metodología y Técnicas Estadísticas. Instituto Nacional de Estadística. Resumen: Tradicionalmente los marcos de las encuestas a hogares se han elaborado a partir de la información procedente de los censos. La existencia de registros administrativos abre la posibilidad de utilizar esta información de fuentes administrativas para mejorar los marcos de las encuestas a hogares. En esta ponencia se presenta cuales son los retos y problemas a los que nos enfrentamos para el uso de estas fuentes, en especial el Padrón Continuo. I. Introducción. El marco en una encuesta por muestreo lo constituye la relación de unidades de donde se va a seleccionar la muestra junto con toda la información adicional que se disponga de dichas unidades de muestreo y que puede ser utilizada para mejorar la eficiencia del diseño muestral. El marco debe ser un reflejo fiel de la población que va a ser investigada, población objetivo de la encuesta. Cuando no se cumple este requisito, es decir, el marco no es una reflejo fiel de la población objetivo, se pueden introducir grandes sesgos en la selección de la muestra con la consiguiente repercusión sobre las estimaciones. Por ello, el marco constituye uno de los elementos esenciales en una encuesta. Dos aspectos relevantes relacionados con el marco son la fuente utilizada para su obtención y los procedimientos necesarios para mantenerlo actualizado. Si la población objetivo resulta ser una población muy dinámica hay que tener diseñados procedimientos ágiles para la actualización del mismo, de forma que la muestra seleccionada en cualquier momento represente adecuadamente a la población. En el apartado siguiente se explica como tradicionalmente se ha formado el marco y a continuación como actualmente se aprovecha la información administrativa para la formación y mejora de los marcos en las encuestas a hogares. 1 II. El Censo de Población en la formación del marco. El tipo de muestreo utilizado en las encuestas de hogares es un muestreo de conglomerados bietápico estratificado. Esta técnica, a pesar de que presenta una cierta pérdida de precisión en relación con el muestreo aleatorio simple, es habitual en la estadística oficial debido a que supone una disminución de los costes de la investigación y facilita la actualización del marco. El marco en las encuestas de hogares es un marco doble formado por: • La relación de secciones censales(unidades de primera etapa) • La relación de las viviendas del país(unidades de segunda etapa) junto con toda la información auxiliar disponible sobre las unidades muestrales 1 Tradicionalmente la Encuesta General de Población(EGP) ha sido el marco utilizado en todas las encuestas de hogares realizadas por el INE. Este marco se forma a partir de los datos censales. Por una parte esta información es fundamental para la preparación de la relación de viviendas de la cual se va a seleccionar la muestra para las encuestas, y por otra , el censo es la única fuente que proporciona información auxiliar detallada de las secciones censales, utilizadas como unidades primarias de muestreo. A este respecto es conveniente señalar que cuanta más información auxiliar de calidad haya disponible, en especial en variables correlacionadas con la información más relevante, más garantías habrá de que los diseños muestrales sean eficientes. La información auxiliar se utiliza en los procesos de estratificación y subestratificación, así como en los de estimación mediante la aplicación de Técnicas de Calibrado. La estratificación de las unidades de primera etapa, se realiza en función del tamaño del municipio a que pertenecen. En el proceso de definición de subestratos se utilizan las siguientes variables: • • • • • • • 1 Relación con la actividad Ocupación y rama de actividad Nacionalidad(proporción de extranjeros) Nivel de estudios terminados Grupos de edad y sexo Condición socioeconómica Variables de renta: a) Renta media imponible por vivienda con perceptores. b) Proporción de renta imponible de actividades agrarias sobre total de renta de la sección. La EPA ha sido la mayor usuaria de este marco 2 c) Proporción de renta imponible del capital mobiliario sobre total de renta de la sección. Las variables de renta imponible han sido proporcionadas al nivel de sección por la AEAT, tras un procedimiento ad hoc de carga sobre el Padrón Continuo, según una línea de colaboración INE-AEAT recientemente iniciada, sin precedentes y con un gran impacto potencial en el sistema estadístico nacional. Esta información ha sido facilitada para todo el país excepto para la comunidad País Vasco. Para la formación de los subestratos se han utilizado técnicas basadas en el análisis de conglomerados (Análisis Cluster) de cara a un mayor aprovechamiento de toda la información disponible para cada sección censal. Estas técnicas son utilizadas por las oficinas de estadística de países como Canadá (Statistics Canadá) o EEUU (Bureau of Census). Respecto a la actualización del marco en la EGP, aprovechando su uso por parte de la EPA, se mantiene un proceso de actualización continua tanto de las unidades de primera etapa, como de las unidades de segunda etapa en la parte del seccionado que forma parte de la muestra de la misma. Ésta representa aproximadamente el diez por ciento del marco de unidades primarias. El marco de unidades de segunda etapa esta formado por viviendas familiares principales clasificadas en el censo como viviendas ocupadas o viviendas vacías. Con objeto de que este marco sea representativo en cualquier periodo intercensal, hay que dar probabilidad de pertenecer a la muestra a la población que en el momento del censo no pertenecía a la sección censal seleccionada para la muestra. La actualización consiste en visitar las viviendas vacías y cualquier otra unidad censable, locales comerciales, viviendas de nueva construcción, etc., para ver si ha cambiado su situación y en este caso incorporarla al marco. Este proceso de actualización se realiza cada año y medio. Con estos procesos de actualización del marco se asegura que éste va adecuándose en cada momento a la realidad, teniendo en cuenta el dinamismo de la población. III. El Padrón Continuo: Información administrativa útil para la formación de un marco de población. El Padrón Continuo se regula la Ley 4/1996, de 10 de enero, por la que se modifica la Ley 7/1985, de 2 de abril, Reguladora de las Bases del Régimen Local, en relación con el Padrón municipal, y su desarrollo reglamentario, aprobado por el Real Decreto 2612/1996, de 20 de diciembre, por el que se modifica el Reglamento de Población y Demarcación Territorial de las Entidades Locales. El Padrón Municipal es el registro administrativo donde constan los vecinos del municipio. Sus datos constituyen prueba de residencia en el municipio y del domicilio habitual en el mismo. 3 Su formación, mantenimiento, revisión y custodia corresponde al Ayuntamiento, de acuerdo con las normas aprobadas conjuntamente por el Ministerio de Economía y Hacienda y el Ministerio para las Administraciones Públicas a propuesta del Consejo de Empadronamiento, obteniéndose la Revisión del Padrón Municipal con referencia al 1 de enero de cada año. Antes se revisaba el Padrón los años terminados en 1 y en 6, y ahora se mantiene de forma continua. La inscripción en el Padrón Municipal contiene como obligatorios sólo los siguientes datos de cada persona: a) Nombre y apellidos b) Sexo c) Domicilio Habitual d) Nacionalidad e) Lugar y Fecha de Nacimiento f) Número de Documento Nacional de Identidad o, tratándose de extranjeros, del Documento que lo sustituya. El artículo 16.3 de la Ley 4/1996 Reguladora de la Ley de Bases de Régimen Local regula el uso del Padrón a efectos estadísticos: “También pueden servir (el padrón continuo) para elaborar estadísticas oficiales sometidas al secreto estadístico, en los términos previstos en la Ley 12/1989, de 9 de mayo, de la Función Estadística Pública y en las leyes de estadística de las comunidades autónomas con competencia en la materia“. La existencia del Padrón Continuo y la oportunidad de su utilización para fines estadísticos ha permitido la posibilidad de disponer de una nueva fuente alternativa para la formación de un marco de encuestas. No obstante y teniendo en cuenta la existencia de dos tipos diferentes de encuestas dirigidas a la población: encuestas continuas y encuestas esporádicas, el INE ha utilizado hasta el momento el Padrón Continuo como marco de muestreo, solamente para las encuestas de tipo estructural. El Padrón Continuo es una relación de los habitantes del país, lo que permite su utilización tanto como marco de personas, facilitando la selección directa de las mismas, como marco de viviendas a partir de una explotación ad-hoc realizada sobre el mismo. Esta explotación consiste en obtener las viviendas como conjunto de personas empadronadas en una misma dirección postal. Al ser un registro vivo de población, una de las principales ventajas que presenta es que permite disponer de una forma rápida y económica de un marco de áreas permanentemente actualizado, sobre el que se puede aplicar el tipo de muestreo bietápico utilizado en las encuestas del INE. Sin embargo, y respecto a la situación actual, existen algunos problemas en el uso del Padrón como marco de las encuestas a hogares que son necesario señalar: 4 • El Padrón es un registro de habitantes. Como se ha expresado anteriormente las viviendas suelen ser las unidades de segunda etapa de muestreo, a través de las cuales se investiga a la población. La obtención de las viviendas a partir de la explotación a medida del mismo plantea dificultades debido a la falta de normalización de las direcciones postales y de los errores en el tratamiento de la numeración de las hojas padronales. No obstante se está aplicando una programación a medida para la obtención de viviendas y aún cuando no está carente de errores, por ejemplo existencia de viviendas duplicadas, los resultados en campo son bastante satisfactorios. • Al ser un documento público, el Padrón tiene una limitada información auxiliar: La única información que dispone es el total de personas por hogar, estructura por edad y sexo, y número de extranjeros. Esta información es importante, pero comparada con la que se obtienen en los censos es muy escasa y no permite la formación de buenos subestratos. No obstante sí permite, y de hecho ya se ha realizado, el análisis de ciertas características de la población en las viviendas seleccionadas y que han presentado algún tipo de incidencias. La experiencia demuestra que el análisis de características de la población en viviendas que han presentado incidencias es muy limitado por la existencia de una elevada falta de respuesta en los cuestionarios especialmente diseñados para este tipo de análisis. • El empadronamiento en un municipio puede llevar asociado una serie de derechos y obligaciones lo que da lugar a la existencia de personas que de forma voluntaria están erróneamente empadronadas. Desde el punto de vista estadístico, esto da lugar a dos tipos de problemas: Por una parte a la selección de viviendas, teóricamente clasificadas como viviendas principales, pero que en la realidad son viviendas vacías, es decir viviendas no encuestables, y por otra parte las personas erróneamente empadronadas y que en la realidad residen en viviendas consideradas vacías, y por lo tanto no tienen probabilidad de ser seleccionadas. Las actualizaciones que se realizan en el marco de la EGP eliminan este último problema, ya que en dichas actualizaciones se investigan las viviendas clasificadas como vacías para comprobar si están o no vacías, y es en ellas donde puede ser localizada la población erróneamente empadronada. IV. Combinación de registros administrativos y su utilización en el diseño de muestras. El INE y la AEAT tienen firmado un convenio mediante el cual se establece un marco estable de colaboración entre ambas instituciones en materia de intercambio de información para fines estadísticos y tributarios. 5 Mediante dicho convenio, la AEAT cede información de naturaleza tributaria al INE para la realización de diferentes operaciones estadísticas, figurando entre estas operaciones la formación del Marco de Áreas de las Encuestas de Población. En este sentido la AEAT facilita información agregada de origen tributario asociada a distintos tipos de unidades territoriales, siendo la mas desagregada la que se facilita a nivel de sección censal, unidad primaria de muestreo en las encuestas de población. La información tributaria se incorpora al Padrón continuo a través del DNI de las personas empadronadas, y permite obtener la información agregada a nivel de sección censal. El objetivo objetivo principal es obtener una clasificación de las secciones censales según el nivel y estructura de renta declarada, agregada para todos los residentes en la sección. Las variables descriptivas de las características de la sección han sido utilizadas para la formación de estratos y subestratos, con el fin de mejorar la eficiencia de los procesos de selección y estimación en encuestas por muestreo. Cuanto más homogéneas sean las citadas agrupaciones de secciones respecto a variables que estén correlacionadas con las que son objeto de la encuesta, más eficientes serán las muestras de hogares residentes en las secciones. En particular, los indicadores de estructura y nivel de renta per cápita en las secciones presentan correlaciones con una gran variedad de características sociales de los hogares objeto de estudio en las encuestas oficiales del INE. Hasta el momento la experiencia del INE en el aprovechamiento de la información procedente de la AEAT ha sido la siguiente: 1. Diseño muestral de la Encuesta Financiera de las Familias, realizada por el Banco de España, en los años 2002 y 2005. En la encuesta del año 2002, a partir de la caracterización de las secciones censales según el nivel de renta se realizó la afijación de la muestra por estratos, definidos según niveles de renta. En dicha muestra , teniendo en cuenta los objetivos propios de la encuesta, estaban sobrerrepresentadas las familias de rentas más altas, considerando éstas como las familias que presentan declaraciones de patrimonio, y además dentro de este grupo se potenciaron de distinta manera los intervalos de patrimonio, ya que se esperaba que a medida que el nivel de renta fuera superior las incidencias fueran más elevadas. Posteriormente y mediante el intercambio de ficheros anonimizados se seleccionó la muestra de 8.000 familias representativas de todo el país. En el año 2005 la muestra utilizada está formada por las 5200 familias colaboradoras de la encuesta del año 2002, a las que se ha añadido una nueva muestra hasta completar de nuevo el total de 8000 familias. En la selección de esta muestra se ha seguido un proceso similar al de la encuesta anterior, teniendo en cuenta el nuevo tamaño afijado en cada estrato obtenido a partir de la distribución de la población según niveles de renta del año 2003. 6 2. Subestratificación de las unidades primarias de muestreo en el marco de las encuestas de hogares. Distintas variables de nivel de renta de las unidades primarias de muestreo, obtenidas a partir de la información tributaria del año 2003, se han utilizado como variables de subestratificación para los nuevos diseños muestrales de la Encuesta de Población Activa-2005 y de la Encuesta Continua de Presupuestos familiares 2006 respectivamente. Teniendo en cuenta los objetivos de ambas encuestas, la formación de los subestratos ha sido diferente en cada una de ellas. Para la formación de los mismos se han aplicado Técnicas de Análisis de Conglomerados a distintos niveles de agregación. V. Conclusiones. • La existencia del Padrón Continuo ha supuesto la posibilidad de utilizar un marco actualizado de muestreo alternativo al tradicionalmente utilizado en las encuesta dirigidas a la población. • El Padrón Continuo, como cualquier fuente administrativa, necesita adaptaciones para su uso estadístico. En especial es indispensable la incorporación al mismo de un código que permita la identificación de las viviendas y personas empadronadas en las mismas, y pueda ser utilizado tanto como marco de personas como de viviendas, sin ningún tipo de error. No obstante será importante estudiar el procedimiento para poder incorporar al mismo toda la información auxiliar posible para no perder eficiencia en los diseños muestrales. • Sería conveniente que existiera un callejero único en la Administración, para facilitar el cruce de información, cuando se utiliza como campo común la dirección postal. • El uso de información auxiliar procedente de datos administrativos permite mejorar la eficiencia de los diseños de encuestas a hogares. En esta línea se ha utilizado la información de renta procedente de la AEAT. Madrid, Enero- 2006 7