Curso sobre el aprovechamiento estadístico INEGI Aguascalientes de los registros administrativos Anders y Britt Wallgren Wallgren, Oficina de Estadística de Suecia y Universidad de Örebro ba.statistik@telia.com abril de 2011 6: Cómo crear un registro – las Variables ________________________________________ 1. Creación de variables derivadas 2 Caso 5 – La creación de Registros Integrados 2. 3. Validación de la información del registro 4. Caso 3 (cont.) – Validación ó de consistencia 1 El papel principal de un registro en el sistema Pág. 57 Tipo de registro Tipos de variable Papel y responsabilidad Registro base Variables de identificación Variables de comunicación Variables de referencia Referencias temporales Recibir datos Admtvos. Crear conjunto de objetos/poblaciones Definir objetos Crear algunas variables básicas de extensión Elaborar estadísticas demográficas Registro primario Variables de identificación Variables estadísticas Variables derivadas Recibir datos Admtvos. Admtvos Crear las variables estadísticas reales Registro R i integrado Variables V i bl iimportadas: t d Variables de identificación Variables estadísticas Variables derivadas, variables colindantes y agregadas Crear nueva información C i f ió con el sistema de registro Compilar información de distintos campos Compilar información de 2 distintos periodos El papel principal de un registro en el sistema Pág. 57 Tipo de registro Tipos de variable Papel y responsabilidad Registro base Variables de identificación Variables de comunicación Variables de referencia Referencias temporales Recibir información Admtva. Crear conjunto de objetos/poblaciones Definir objetos Crear algunas variables básicas de extensión Elaborar estadísticas demográficas Registro primario Variables de identificación Variables estadísticas Variables derivadas Recibir información Admtva. Admtva Crear las variables estadísticas reales Registro R i integrado Variables V i bl iimportadas: t d Variables de identificación Variables estadísticas Variables derivadas, variables colindantes y agregadas Crear nueva información C i f ió con el sistema de registro Compilar información de distintos campos Compilar información de 3 distintos periodos Distinguir entre: • variables administrativas, con definiciones administrativas • variables estadísticas, estadísticas variables derivadas creadas por el INE Distinguir entre: • variables locales, ¡Usted es el responsable! • variables importadas, ¡ la ¡es l responsabilidad bilid d d de sus colegas! l ! Variables locales o variables importadas: Cómo está organizado el trabajo dentro del INE: quienes tienen la responsabilidad sobre un registro, son responsables de sus variables locales: • Mantener el contacto con la autoridad administrativa. • Editar, nombrar y elaborar la documentación correspondiente a sus variables locales. De esta forma se evita la duplicación de labores en el caso de variables importadas. 4 Creación de variables derivadas 1.Cálculo exacto de los valores de las variables utilizando una regla 2.Estimación 2 E ti ió de d los l valores l d de las l variables i bl utilizando tili d una regla 3.Estimación de los valores de las variables utilizando un modelo causal 4.Colindar y agregar valores de registros con distintos tipos p de objetos j ((caso 5)) 5 1. Cálculo exacto de los valores de las variables utilizando una regla a) Variable cualitativa Pág. 94 Cl ifi Clasificación ió de d nacidos id en ell extranjero t j y nacidos id en Suecia S i y= Nacido en el extranjero o en el país X1= Lugar de nacimiento X2= Periodo de residencia X3= Padre: lugar de nacimiento 1.1 Nacido en el extranjero con residencia de 0-4 años Extranjero 0-4 años -- 1.2 Nacido en el extranjero con residencia de 5+ años Extranjero 5 años y más -- 2 1 Nacido en el país con dos 2.1 padres nacidos en el extranjero 2.2 Nacido en el país con un padre d nacido id en ell país í y otro en el extranjero Nacido en el País -- Extranjero Extranjero Nacido en el País -- Extranjero Nacido en el País Nacido en el País Extranjero Nacido en el País Nacido en el País Código: 2.3 Nacido en el país con dos padres nacidos en el país Nacido en el País -- X4= Madre: lugar de nacimiento 1. Cálculo exacto de los valores de las variables utilizando una regla b) Variable cuantitativa Ingreso disponible y = i1 + i2 + i3 + … ‐t1 – t2 – t3 … i1 g p 1 = ingreso del tipo 1 … t1 = impuesto del tipo 1 i d l i 1 7 2. Estimación de los valores de las variables utilizando una regla Pág. 95 Ocupación en el sector público, priorizando las fuentes Los registros de personal del sector público contienen variables que utiliza tili lla Ofi Oficina i d de E Estadística t dí ti d de S Suecia i para clasificar l ifi a llos empleados por ocupación de acuerdo con la clasificación ocupacional (ISCO). Las variables administrativas puesto y código TNS habían sido utilizadas de acuerdo con ciertas reglas. Éstas cambiaron en 2000. A continuación se puede observar cómo aparecen las reglas nuevas y viejas cuando la prioridad de las variables administrativas es distinta. Aun cuando el código ó TNS S y el puesto sean correctos, ocasionalmente la ocupación según ISCO puede ser incorrecta. No hay una relación exacta entre las variables administrativas y la ocupación real. 8 Ocupación en el sector público, priorizando las fuentes Hasta 2000 Desde 2001 1er paso: (ca. 90% de los casos) El código de puesto existe y se utiliza. 1er paso: (ca. 48% de los casos) El código TNS existe y se utiliza. Ejemplo: Código de puesto: 93460 ‘editor web’ se convierte en ISCO: 2451 ‘periodista, autor, funcionario de información, etc.’ Ejemplo: TNS: 1316 ‘redactar, probar y documentar programas’ se convierte en ISCO: 3121 ‘técnico de datos’ 2do paso: (ca. 8% de los casos) No hay un puesto que se pueda aplicar, pero ell código ódi TNS existe i t y se utiliza. tili 2do paso: (ca. 51% de los casos) No hay código TNS pero sí un puesto aplicable li bl que existe i t y se utiliza. tili Ejemplo: TNS: 1316 ‘redactar, probar y documentar programas’ se convierte en ISCO: 3121 ‘técnico de datos’ Ejemplo: Código de puesto: 93460 ‘editor web’ se convierte en ISCO: 2451 ‘periodista, autor, funcionario de información, etc.’ 3er paso: (ca. (ca 2% de los casos) No existe un puesto o código TNS útil. Se convierte en ‘no respuesta’. Falta ISCO. 3er paso: (ca. (ca 1% de los casos) No existe un código TNS o un puesto aplicable. Se convierte en ‘no respuesta’. Falta ISCO. 3. Estimación de los valores de las variables utilizando un modelo causal Una alternativa es analizar la relación ó entre la variable y y las variables administrativas (x1, x2,…) a través de la construcción de un modelo estadístico (causal). Cuando se crean variables derivadas utilizando un modelo estadístico, í hay dos pasos que exigen dos matrices de datos distintas: 1. La primera matriz con datos de prueba que proviene, por ejemplo, de una encuesta por muestreo que contenga tanto la variable y como las x. Con esta matriz de datos, se arma un modelo que indique la mejor manera de estimar y para los valores dados de las variables x. 2. Es entonces cuando el modelo se utiliza en la segunda matriz de datos, la matriz de datos del registro, donde sólo existen las variables x. Con el modelo estimado y con la ayuda de los valores x conocidos de cada uno de los objetos, se calcula un valor y para cada objeto en el registro. Un buen modelo estadístico muestra cómo aprovechar al máximo muchas variables administrativas. En ell registro i d de empleo, l se d da este uso a los l d datos d de lla LFS. S 10 Caso 5 – Creación de un Registros Integrado Utilice el Sistema de Registro, aquí los Registros Base 4 Registros Base 3 vínculos: NIP,, Código g domicilio,, Id Unidad Local Registro de población NIP Id_vivienda C_domicilio 19181 122 98 19182 192 56 19183 254 57 19184 377 65 19185 52 7 19186 113 18 ... Registro de actividades-empleos NIP UnidadLocal Salario 19307 32 27561 19310 22 28404 19311 19 14010 19312 22 11175 19313 44 27457 19315 19 19502 ... Registro de bienes raíces Id B Raíces Id-B.Raíces C domicilio C_domicilio 1 31 2 47 3 93 4 84 5 26 6 87 ... Resgistro empresarial-U. locales UnidadLocal NACE C_domicilio C domicilio 1 6 77 2 4 57 3 6 47 4 3 19 5 4 90 6 9 4 ... Municipio 1 3 1 2 3 3 Case 5 – Creación de un Registros Integrado Registro de población NIP C_domicilio 19307 19310 19311 19312 19313 19315 ... 98 56 57 65 7 18 Registro de bienes raíces Real_Estate_id C_domicilio 1 31 2 47 3 93 4 84 5 26 6 87 ... Municipio Residencia 3 3 1 3 1 1 Registro de actividades - empleos NIP UnidadLocal Municipio Empleo 19307 32 1 19310 22 1 19311 19 2 19312 22 1 19313 44 1 19315 19 2 ... Municipio 1 3 1 2 3 3 Registro empresarial-unidades locales UnidadLocal C_domicilio Municipio 1 77 1 2 57 3 3 47 1 4 19 2 5 90 3 6 4 3 ... Variables colindantes 12 Caso 5 – Creación de un registro integrado Traslados entre localidad de residencia y localidad de empleo en 2001 T l d entre Traslados t localidad l lid d d de residencia id i y llocalidad lid d d de empleo l en 2001 NIP 19307 19310 19311 19312 19313 19315 ... Municipio Residencia 3 3 1 3 1 1 ... Municipio Empleo 1 1 2 1 1 2 ... Traslado 31 31 12 31 11 12 ... GIS: Es posible crearlo para cualquier región geográfica Validación de los datos del registro Recolección propia de datos Pág. 101 Estudio basado en registros Personas o empresas Personas o empresas Personas o empresas Recolección de datos Autoridad administrativa Recolección de datos Validación de datos recabados Fuente 1 Reg. Admtvo. Fuente 2 Reg. Admtvo. Procesamiento de datos Oficina de estadística Oficina de estadística La matriz final de datos Validación de Fuente 1 Validación de Fuente 2 Fuente 3 Registro base Fuente 4 Reg. Estadístico Datos editados de las fuentes 1-4 se p procesan jjuntos Validación de consistencia 14 El registro final Pág. 111 Page 111 Declaraciones de ingresos de 464 567 pequeñas empresas, miles de millones de SEK Income declarations from 464 567 small enterprises, SEK billions gp After editing g corrections Before editing Antes de validar Después de validar Núm. N deof correcciones Receipts R1 31.017 30.793 115 Recibos R2 9.323 9.315 23 R3 0.394 0.392 4 Receipts Receipts, total 40 734 40.734 40 500 40.500 Recibos Recibos, total Costs C1 -8.845 -8.833 22 Costos C2 -0.913 -0.913 0 Only ¡Sólo errores C3 -10.363 -0.961 3 errors en las in C4 -6.871 6 871 -3.110 3 110 13 variables! variables! C5 -628.046 -3.005 7 C6 -2.254 -2.252 6 C7 -7.725 -7.602 23 Costos, Costs, total total -665.016 -26.676 Depreciaciones Depreciations D1 -4.078 -4.097 25 D2 3.880 3.339 4 D3 -3 3.217 217 -3 3.216 216 3 D4 -0.975 -0.957 1 D5 0.905 0.905 1 D6 0.607 0.751 12855 DDepreciations, Depreciaciones, i ii ti total t ttotal D t lt l -2.877 2 877 -3.275 3 275 Ingreso Income -8.825 10.549 Ajustes fiscales 15 Tax adjustments -17.789 -17.628 Ingreso gravable Taxable income -7.053 -7.079 Caso 3 (cont.): Validación de consistencia Pago anual bruto estimado por sector e industria Una persona es responsable de la Fuente 1 Recepción datos cada mes Validación (sin contacto con patrones) I Importa t ell sector t y NACE del d lR Registro i t d de E Empresas Informe: Entrega estimados a Cuentas Nacionales trimestrales Una persona es responsable de la Fuente 2 Recibe datos cada año Validación (sin contacto con patrones) Importa el sector y NACE del Registro de Empresas Informe: Entrega g estimados a Cuentas Nacionales anuales ¿Es una buena práctica? >>> ¡Muestre los datos! 16 Caso 3 cont. Mostrar Registro de Empresas (BR) de patrones en activo Mostrar fuente 1, datos mensuales Mostrar fuente 2, datos anuales, cotejar con BR Todas los datos integrados: exec 'coverage' Ejec. “cobertura” BR 1 2 3 N= Conteo Count 34 574 274 232 57 286 366 092 Subcobertura BRBR Undercoverage genin OK BR OK en in BR Sobre coberturainen Overcoverage BRBR Sub/sobre cobertura en BR => !informar a BR! Under/overcoverage in BR => report to BR! Subcobertura en BR => valores faltantes faltantes, sector y NACE Undercoverage in BR de =>esto! missing values, sector & NACE ¡BR debería ocuparse 17 BR should take care of this! Caso 3 cont. Monthly, anual Yearly, differentpoblaciones populations: Mensual, Mensual anual, diferentes exec “sueldos 'wage' y salarios” Ejec. Grupo Conteo Group Count 1 6 795 2 98 345 3 154 855 4 45 999 5 2 812 6 57 286 N= 366 092 366 092 - Sólo onlyanual Yearly Anual > Mensual Yearly > Monthly AYearly Anual l=M Mensual l = Monthly Anual < Mensual Yearly < Monthly Sólo onlymensual Monthly Sobre cobertura overcoverage g BR BR 57286 = 308 806 Mensual Año Sueldo Anual MonthlyYear Sueldo acumulado YearlyWage Sueldo acumulado Wage sum Mill Wage Millones d desum SEK Mill Millones d de SEK 1 2 3 4 5 6 All Todo Millions SEK Millions SEK 270 535 070 540 242 58 889 58 889 314 326 305 103 732 909 017 904 504 18 Case 3 cont. Millions SEKde SEK Millones NACE SNI LAPS LAPS monthly mensual KU anual yearly abs diff -----------------------------------------------------------------------------------------------------------------Insurance Seguros 66 13075 6672 6402 Business activities Actividades empresariales 74 70261 70719 458 Banks Bancos 65 18937 18515 422 Whole saleal por mayor Comercio 51 48415 48816 400 Transport Transporte 60 22133 22522 389 Labour unions Sindicatos 91 13925 13573 352 Motor vehicles Vehículos motores 34 19875 19609 266 IT TI 72 28790 29045 255 Entertainment Entretenimiento 92 13542 13778 235 Missing due mismatch Faltante por to disparidad -1 4746 4516 230 19