SEGUNDA REUNIÓN REGIONAL SOBRE POTENCIALIDADES Y APLICACIONES DE LOS DATOS CENSALES USO DE REDATAM PARA LA GENERACIÓN DE INDICADORES SOCIO-DEMOGRÁFICOS Santiago de Chile – 23 al 27 de julio 2012 Lunes 23 de julio. Uso de REDATAM+SP para la generación de indicadores MÓDULO 1: ESTRUCTURA Y PROCESAMIENTO DE UNA BASE R+SP Primera sesión: Presentación de REDATAM Origen del Sistema REDATAM Windows constituye el resultado del esfuerzo asumido por el CELADE en la línea de complementar las mejoras que en su momento significaron las versiones implementadas para microcomputadores que usaban el Sistema Operativo DOS (REDATAM 3.1 y REDATAM+), puestas a disposición de los suarios en los años 1987 y 1991, respectivamente. Al igual que sus versiones para DOS, REDATAM+ SP fue desarrollado con el objeto de permitir la REcuperación de DATos para Areas pequeñas por Microcomputador, pero a diferencia de sus antecesores, hace un uso generalizado de las ventajas de operar en ambiente Windows, lo que lo convierte en un instrumento mucho más poderoso y fácil de usar. ¿Qué hace REDATAM+SP? Por una parte, permite procesar información contenida en bases de datos comprimidas (creadas para REDATAM) y muy extensas, como las provenientes de censos de población completos que contienen datos sobre millones de personas, viviendas y hogares. Esto hace que normalmente una base de datos REDATAM contenga microdatos, es decir datos o variables referidas a individuos, viviendas, hogares u otros elemento de información que permiten generar diversas tabulaciones para cualquier área geográfica definida por el usuario. Estos datos, organizados jerárquicamente para permitir un rápido acceso, son procesados en busca de resultados específicos para determinadas áreas de interés geográfico. Pudiendo derivar nuevas variables y procesar rápidamente tabulaciones y otros resultados estadísticos mediante ventanas gráficas y sin mayor asistencia de un programador. Sin embargo, es común que la información existente sea de carácter multisectorial y provenga de fuentes distintas a las de los censos, como encuestas o bases de datos administrativas o estadísticas. Al respecto, REDATAM+SP posee la capacidad de procesar su propia base de datos en conjunto con bases de datos externas cuyo formato corresponda al universalmente conocido como dBase, evitando así la necesidad de incluir bases de datos pequeñas y algunas veces alteradas a la propia de REDATAM SP. Una característica esencial del programa, es su conexión con Sistemas de Información Geográfica (SIG), permitiendo que el usuario despliegue y conduzca análisis espaciales de las estadísticas agregadas que puedan producirse con él, y a cualquier nivel de desagregación y área de interés que permita la base de datos que se esté utilizando. Principales características Selección Geográfica Al igual que en las anteriores versiones de REDATAM para DOS, todos los procesos que se realicen en REDATAM+ SP necesitan que el usuario defina en primer lugar el área geográfica de interés para la cual se producirán las tabulaciones y otros resultados, lo que es conocido como el conjunto o área de selección del usuario y se guarda en un documento de selección que automáticamente pasa a formar parte de los documentos existentes en el espacio de trabajo, permaneciendo ahí hasta que el usuario lo considere pertinente. La creación de este documento puede realizarse fácilmente accionando un botón de la ventana principal del espacio de trabajo, indicando que se desea obtener un nuevo documento, a continuación de lo cual se despliega una ventana gráfica que muestra la estructura geográfica de la base de datos, cuyos distintos niveles se pueden expandir o abrir hasta el nivel más bajo permitido. Utilizando el “ratón”, se marcan las áreas de interés y finalmente se guarda la selección realizada con un nombre apropiado para su posterior utilización. A las características ya señaladas, se agregan varias otras entre las que cabe destacar: la existencia de un nuevo lenguaje de programación, más poderoso y simple que la de sus versiones anteriores, el que está compuesto de sólo tres comandos básicos RUNDEF, DEFINE y TABLE, cada uno de ellos con cláusulas y modificadores; la disponibilidad de una ventana que asiste al usuario en la creación de un conjunto de comandos para la obtención de resultados, con lo que utilizando sólo el “ratón” se establecen las condiciones apropiadas para la obtención de frecuencias, crosstabs, promedios o listas de áreas, obteniendo las salidas requeridas sin que el usuario haya escrito un sólo comando. La velocidad de procesamiento de REDATAM+ SP es mucho más rápida que su anterior versión para DOS. En un computador dado y para el mismo proceso, la actual versión Windows es, a lo menos, dos a cuatro veces más rápida que aquélla y, dependiendo de la tarea ejecutada, puede llegar a ser hasta 20 veces más veloz. Segunda sesión: Estructura y procesamiento de una base R+SP Objetivo Explicar los tipos de archivos que se manejan en REDATAM+ SP PROGRAMAS: Conjunto de instrucciones que el usuario a empleado con el fin de “pedirle” al sistema la obtención de estadísticas provenientes de la base de datos. Estos pueden ser escritos directamente por el usuario en el lenguaje exclusivo de REDATAM+ SP (formato libre), o ser generados por REDATAM+ SP utilizando el asistente de programas. Los programas se guardan en archivos con la extensión .spc. SELECCIONES: Para la ejecución de cualquier programa u obtención de tabulados, REDATAM+ SP requiere que el usuario defina, previamente, el área geográfica a ser procesada. Esta área puede corresponder a todo el país o a cualquier agrupación de entidades geográficas seleccionables, como Provincias, Distritos, Corregimientos o Segmentos (si son seleccionables). De manera predeterminada, REDATAM+ SP tiene seleccionada toda la base de datos con la que se trabaje, el usuario puede hacer referencia a esta selección con la palabra clave “ALL”. El usuario tiene la posibilidad de guardar las selecciones que realice durante su trabajo, en cuyo caso REDATAM+ SP genera un archivo con la extensión .slw el cual se almacena donde el usuario defina, con el fin de que puedan ser utilizados cuando se requieran y sin necesidad de repetir el mismo proceso de selección. COMPOSICIÓN DE MAPAS: Aquí el sistema guarda todas las indicaciones que le entrega el usuario con el fin de utilizar la capacidad de REDATAM+ SP para vincular o empalmar la información de la base de datos con un mapa, permitiendo la obtención de mapas temáticos que faciliten la focalización de sectores o áreas geográficas que presenten características de interés para el investigador. La composición de mapas se guarda en un archivo con la extensión .mxp. Tercera Sesión: Asistentes básicos para tabulación - la manera sencilla REDATAM+ SP incluye unas cuantas herramientas, fáciles de usar, que proveen al usuario de una sencilla y rápida forma para realizar tabulaciones básicas tales como FRECUENCIAS, CRUCES, PROMEDIOS y CONTEOS simples. Estas herramientas se pueden utilizar sin tener la necesidad de definir, verificar y ejecutar un programa. Cada una de estas herramientas es en efecto una interfaz que genera automáticamente un programa “detrás de escena”. El programa se ejecuta y retorna automáticamente los resultados al usuario. Para cargar la herramienta apropiada ya sea para calcular una frecuencia, tabla cruzada, promedio o un simple conteo, haga un clic en el menú de proceso estadístico de la ventana del Espacio de Trabajo. Obteniendo distribuciones de frecuencias. Demostración Identificar como se distribuye la población según su estado civil, edad, y sexo. Desde el menú principal seleccione, bajo el menú Procesador Estadístico, la opción que refleje el proceso que se desea ejecutar: FRECUENCIA Desde la ventana del diccionario seleccione con el ratón la variable que desea procesar Tome la variable (el nombre) y arrástrela hacia el casillero en blanco dentro de la ventana de Proceso Estadístico‐ Frecuencia Llene el (los) casillero (s) con la(s) variable(s) que desee procesar Ejecute el proceso estadístico haciendo un clic sobre el ícono desde la barra de íconos Espere que el proceso finalice y revise los resultados presentados en la ventana de salida. Ejercicios Determine las siguientes distribuciones a nivel de provincias: 1. Viviendas, según el material de construcción predominante en sus pisos. 2. Viviendas, según el material de construcción predominante en sus paredes. Produciendo cruces de variables. Demostración Determinar cómo se distribuye la población según sexo y tipo de vivienda a nivel departamental Desde el menú principal seleccione, bajo el menú Procesador Estadístico, la opción que refleje el proceso que se desea ejecutar: CRUCE DE VARIABLES. Desde la ventana del diccionario seleccione con el ratón la variable que desea procesar. Tome la variable (el nombre) y arrástrela hacia el casillero en blanco dentro de la ventana de Proceso Estadístico‐ Cruce de variables. Llene el (los) casillero (s) con la(s) variable(s) que desee procesar. Ejecute el proceso estadístico haciendo un clic sobre el ícono desde la barra de íconos. Espere que el proceso finalice y revise los resultados presentados en la ventana de salida. Obteniendo promedios. Determinar el promedio de edad de las personas, según su estado conyugal actual Desde el menú principal seleccione, bajo el menú Proceso Estadístico, la opción que refleje el proceso que se desea ejecutar: PROMEDIO Desde la ventana del diccionario seleccione con el ratón la variable que desea promediar. Tome la variable (el nombre) y arrástrela hacia el casillero en blanco dentro de la ventana de Definición del Proceso Estadístico. Llene los otros casilleros con la variable que desea controlar el promedio. Por ejemplo: promedio de edad por la variable sexo o por la variable estado civil. Ejecute el proceso estadístico haciendo un clic sobre el ícono desde la barra de íconos. Espere que el proceso finalice y revise los resultados presentados en la ventana de salida. Ejercicio Utilizando la ventana de Cruces identifique la relación entre las viviendas sin agua potable y disponibilidad de servicio sanitario Obteniendo Listas de áreas Objetivo Producir una tabla por área (entidad) de una o más variables. La entidad para la cual se producirá la lista es denominada la entidad clave y siempre se identifica por su código censal. La entidad clave debe ser seleccionable, es decir, debe ser posible de identificar en un mapa censal. Una Lista de Áreas permite crear una distribución de una variable de nivel inferior al nivel al que se está pidiendo la lista (la entidad clave). Cada valor de la variable ocupa una columna. Cada uno de los registros contiene la distribución de frecuencia de la variable. Demostración Producir una Lista por Áreas para cada división provincial que contenga el número de hombres y mujeres: Ejercicio Producir una Lista por Área por provincias que incluya la distribución de agua potable para todo el país. MÓDULO 2: UTILIZANDO REDATAM COMO APLICACIÓN WEB – El Censo de Población y Viviendas de Colombia 2005 Primera sesión: Estructura de los datos y opciones de procesamiento: Los investigadores y usuarios de información no siempre pueden tener acceso a las bases de datos que quisieran utilizar para la obtención de las tablas y resultados que necesiten, también puede suceder que aún cuando dispongan de las bases de datos que necesiten, se encuentren en la situación de no conocer el lenguaje de programación empleado por REDATAM para obtener el máximo provecho de la información disponible . Para responder a esa situación y facilitar la diseminación y el acceso a información socio‐demográfica, en general, y la proveniente de Censos de Población y Viviendas, en particular, REDATAM cuenta con un módulo que permite el desarrollo de aplicaciones Web que permite accesar a dichos datos a través de redes Internet o Intranet. Estas son aplicaciones que funcionan sobre la base de mantener el acceso a los registros de las bases de datos, de manera que frente a cada solicitud para la obtención de un tabulado se lleva a cabo el procesamiento de los microdatos. Al no existir tabulados procesados con anterioridad la aplicación puede adoptar la forma que mejor responda a las necesidades de quién quiere diseminar la información y de quienes deseen o necesiten acceder a ella para su procesamiento. La siguiente figura permite visualizar la estructura típica que suele adoptar una aplicación REDATAM para Servidoores Web. Fig 1: Pantalla inicial de la aplicación para el Censo General de Colombia 2005 La sección de la izquierda permite ver la estructura temática que se ha definido para esta aplicación. Facilmente se advierteel texto resaltado al inicio de cada sección y opciones de procesamiento y/o indicadores existentes bajo cada enunciado. Así, la sección con el enunciado “Educación” permite al usuario el procesamiento y obtención de “Tablas de Variables de Educación” Dependiendo de la elección de procesamiento que haga el usuario se desplegará un número variable de opciones que le permitirán definir uno o más parámetros que determinarán el contenido y formato de despliegue de los resultados obtenidos. Fig 2: Definición de parámetros para el despliegue de atributos de materialidad de las viviendas a nivel Departamental En la figura precedente se advierte como el usuario ha seleccionado la opción “De Viviendas” de la sección/enunciado “Despliegue de Mapas”. Su elección ha determinado el despliegue de varias opciones en la sección principal de la ventana de aplicación donde cada una de ellas comporta un parámetro que le permite definir atributos más especificos del proceso que desea llevar a cabo. En este caso ha elegido “Departamento” como Nivel geográfico de salida; “Material de pared” como variable a procesar; “Todo el País” para indicar toda la base de datos como selección Geográfica de procesamiento; “Absoluto” como opción de porcentajes; y “Mapa” como Opciones de Salida. El resultado de este procesamiento, después de clicar en el botón “Ejecutar”, se puede ver en la siguiente figura: Fig 3: resultado de un procesamiento de datos vía aplicación Web Segunda sesión: Accediendo al Editor de programas de la aplicación Si bien las aplicaciones responden a la necesidad de facilitar el acceso y procesamiento de las variables de una base por medio de una estructura temática prediseñada, existe la posibilidad –como en el caso de esta aplicación- que quienes diseñen y construyan la aplicación permitan acceder a un editor de programas, de manera que usarios más experimentados pueda escribir sus propios programa en lenguaje REDATAM para obtener tabulados que no se hayan incluido en la estructura de la aplicación. La siguiente figura presenta el acceso al editor de programas de REDATAM Fig 4: Editor de programas REDATAM en una aplicación Web Server Habiendo activado la ventana con el editor de programas, el usuario está en condiciones de digitar un programa, como el que se muestra en la figura siguiente, para obtener la distribución de la población de acuerdo a dos categorías de edad que no se habían incluido en la estructura original. Fig 5: Programa REDATAM para obtener una frecuencia de una nueva variable El resultado de procesar el programa de la figura precedente, se aprecia a continuación: Fig 9: Tabulado para la variable PERSONA.EDANEW definida en el editor de Programas de aplicación Web MÓDULO 3: USO DE FILTROS PARA OPTIMIZAR EL PROCESAMIENTO DE LOS DATOS Primera Sesión: Utilizando Filtros En La Tabla De Salida: For Objetivo Comprender y utilizar correctamente la cláusula FOR para limitar el número de casos a incluir en la obtención de resultados. Introducción: La cláusula FOR es una expresión lógica de tipo BOLEANO, cuyo resultado se evalúa como VERDADERO ó FALSO por el sistema. REDATAM+ SP evalúa el resultado de la expresión para cada caso al que hace referencia y lo incluirá en la tabla de salida sólo si dicha condición se cumple o resulta ser verdadera. La expresión FOR acepta los siguientes operadores lógicos: = igual > mayor que < menor que <> distinto de >= mayor o igual que <= menor o igual que y los operadores de relación: NOT, AND, OR. Sintaxis TABLE t1 AS FREQUENCY OF <lista de variables> OPTIONS <lista de opciones> FOR <expresión lógica> TABLE t2 AS CROSSTABS OF < lista de variables > BY < lista de variables > [BY < lista de variables > [ BY < lista de variables > ]] OPTIONS < lista de opciones > FOR < expresión lógica > TABLE t3 AS AVERAGE OF < lista de variables > BY < lista de variables > [BY < lista de variables > [ BY < lista de variables > ]] OPTIONS <lista de opciones> FOR <expresión lógica> Demostración Calcular el promedio de edad del jefe de hogar por sexo RUNDEF Media SELECTION ALL TABLE t1 AS AVERAGE OF PERSONA.EDAD BY PERSONA.SEXO FOR PERSONA.PARENTES = 1 Ejercicio Calcule el promedio de edad para mujeres que tienen Primaria incompleta o ningún grado de educación. Segunda Sesión: Utilizando Filtros: Universe Introducción La cláusula UNIVERSE, puede ser usada sólo en el comando RUNDEF y su función es la de restringir el total de casos a ser considerados. Tal restricción afecta a TODOS los comandos y salidas incorporadas en la ejecución del programa. Sintaxis RUNDEF <nombre> SELECTION <selection> UNIVERSE <expresión lógica> TABLE table1 AS FREQUENCY OF <lista de variables> TABLE table2 AS CROSSTABS OF < lista de variables > BY < lista de variables > [BY < lista de variables > [BY < lista de variables >]] TABLE table3 AS AVERAGE OF < lista de variables > BY < lista de variables > [BY < lista de variables > [BY < lista de variables > ] ] Demostración Determine la distribución por sexo, sólo de la población que se encontraba trabajando por cuenta propia la semana previa al censo a nivel nacional. RUNDEF CMD22 SELECTION ALL UNIVERSE PERSONA.TRABAJA =… determine la categoría TABLE t1 AS FREQUENCY OF PERSONA.SEXO Notas: La expresión UNIVERSE sólo puede ser usada para variables que existen en la base de datos, sea porque provienen de la boleta censal o porque han sido previamente incorporadas a la base de datos haciendo uso del comando DEFINE/SAVE. No aplica para variables creadas con DEFINE en la misma ventana de comandos. Si además del UNIVERSE usted incorpora la cláusula FOR en uno de los comandos que no sea el RUNDEF, entonces el FOR actúa como una restricción adicional a la establecida por el UNIVERSE. Ejercicio - Determine el nivel de instrucción alcanzado por las mujeres de 20 años y más MÓDULO 4: YENDO MÁS ALLÁ DE LOS DATOS Y VARIABLES EN LA BASE DE DATOS O El uso del Comando DEFINE Primera Sesión: Derivando Nuevas Variables - Recode Objetivo Crear una nueva variable basada en la recodificación de una existente. Sintaxis DEFINE entidad.<nueva variable> AS RECODE <expresión|variable> (…Esquema...) TYPE INTEGER RANGE valorMínimo‐valorMáximo Esquema de recodificación Ejemplo Valor previo = nuevo valor (3=1) Valor previo1 – valor previo2 = nuevo valor (2‐5=3) Valor previo1 TO valor previo2 = nuevo valor (6 TO 10 = 4) LOWEST TO valor previo = nuevo valor (LOWEST TO 4 = 2) Valor previo TO HIGHEST = Nuevo valor (11 TO HIGHEST = 5) ELSE nuevo valor (12 – 20 = 12) ELSE 13 Notas Valores no incluidos en el esquema de recodificación mantienen su valor original La cláusula ELSE reasigna todos los rangos previamente no asignados El tipo de variable es siempre INTEGER (entera) El valor del RANGE (rango) debe estar contenido en los valores mínimos y máximos del esquema de recodificación. Demostración DEFINE PERSONA.grupedad AS RECODE PERSONA.EDAD (0‐14=1) (15 TO 64 =2) ELSE 3 TYPE INTEGER RANGE 1 ‐ 3 Ejercicio: - Recodifique a las personas en tres grupos: solteros, casados/unidos y resto Segunda Sesión: Derivando Nuevas Variables (Expression) Objetivos Comprobar el sentido y función de las expresiones lógicas y aritméticas en REDATAM+ SP Introducción Generalmente el uso de una expresión se revela en el contexto de establecer un determinado tipo de filtro que permita trabajar sólo con los casos que interesen al objetivo del estudio o análisis que el usuario lleva a cabo. Un ejemplo de este tipo lo constituye la cláusula FOR cuyo resultado, al evaluar la condición establecida, devuelve una expresión de tipo BOLEANO: VERDADERO ó FALSO. El lenguaje de REDATAM+ SP extiende este concepto a la cláusula AS haciéndolo compatible con un valor de tipo INTEGER, propio de una expresión aritmética, la convención adoptada para el uso de esta expresión es la siguiente: Una expresión VERDADERA devuelve siempre el valor 1 Una expresión FALSA devuelve siempre el valor 0 La expresión funciona de la siguiente forma: (PERSONA.EDAD > 15) La condición será VERDADERA y el valor devuelto será 1 para todas las personas de 16 años ó más. Será FALSA y el valor devuelto será 0 para todas las personas menores de 16 años de edad. Demostración Clasificar las viviendas según su disponibilidad de servicio higiénico en dos categorías: Carenciada y No Carenciada (VIVIENDA.WC) Ejercicios Clasifique a las personas en dos categorías (Alto y Bajo), según su nivel de instrucción (las personas con estudios superiores a la secundaria calificarán con un alto nivel educativo). Clasifique a las personas en dos categorías, según sus años de edad (jóvenes y adultos), siendo adultas todas las personas que tienen entre 30 y 65 años de edad y jóvenes las que tienen entre 18 y 29 años de edad. Tercera Sesión: Promoviendo Información. El Comando Count Objetivo Apreciar el uso de la estructura jerárquica que posee la base de datos en REDATAM+ SP. Comprender el concepto de promover información a niveles de jerarquía superior Llevar a cabo un conteo simple. Introducción El hecho de que la base de datos en REDATAM+ SP se encuentre organizada jerárquicamente implica que cada elemento perteneciente a una entidad determinada mantiene una relación de dependencia respecto a la entidad a que pertenece. Así, los elementos de la entidad Poblacio se componen por cada uno de las personas que forman parte de la base de datos. Cada uno de ellos tiene una relación de pertenencia respecto a los elementos que forman parte de la entidad Hogar, Vivienda y cada entidad de la base de datos. No existen personas sin referencia a un Hogar y Vivienda. Dada esta condición, debiera ser posible entonces identificar, por ejemplo el número de personas que residen en una vivienda, o el número de viviendas por provincia, o el número de viviendas por distrito censal, etc. Para operacionalizar esta idea, REDATAM+ SP dispone de la instrucción COUNT que permite contar el número de elementos que existen en una determinada entidad. Obviamente que nunca será posible contar elementos de una misma entidad (como personas por persona ó número de viviendas por persona ya que esto no tendría sentido). Sintaxis RUNDEF cuenta SELECTION all DEFINE VIVIENDA.<nueva variable AS COUNT <entidad> TYPE <tipo de variable> RANGE <lista de valores> VARLABEL “mi variable derivada” Demostración DEFINE VIVIENDA.NUMPERS AS COUNT PERSONA TYPE integer RANGE 0‐30 VARLABEL “número de personas por vivienda” Notas La entidad que se cuenta es siempre de un nivel inferior a aquella para la cual se define la nueva variable. Se puede filtrar el tipo de casos a contar. Si en el ejemplo de la demostración se le hubiese incorporado la cláusula “FOR PERSONA.SEXO = 1” el resultado habría sido el número de hombres para cada vivienda. Ejercicio Cuente el número de niños entre 0 y 5 años de edad por hogar. Cuarta Sesión: Promoviendo Información (2) – La Instrucción Sum Objetivo Conocer y usar correctamente esta instrucción para la obtención de resultados a nivel de una entidad superior. Introducción Si usted desea clasificar a los hogares según el promedio de edad de sus integrantes debería crear una nueva variable a nivel de hogar cuyo valor correspondiera a la suma de la edad de cada uno de sus integrantes, para luego dividirla por el total de personas. En este caso puede usar el COUNT para conocer el total de personas en el hogar y la instrucción SUM para averiguar la suma de los años de edad. La instrucción SUM aplica para aquellos casos en que la variable a ser considerada en la instrucción posee valores o categorías que admiten la propiedad de la suma. Por ejemplo la variable sexo no admite esta propiedad ya que se trata de una variable nominal y los números asignados a sus categorías (1 y 2) no tienen otro sentido que el de diferenciar a hombres de mujeres. Demostración RUNDEF instsum SELECTION all DEFINE HOGAR.SUMEDAD AS SUM PERSONA.EDAD Type integer Range 10‐250 DEFINE HOGAR.NUMPERS AS COUNT PERSONA TYPE integer DEFINE HOGAR.PROMEDAD AS HOGAR. SUMEDAD / HOGAR. NUMPERS FOR HOGAR. NUMPERS > 0 TYPE INTEGER RANGE 0‐99 Options default 0 TABLE tabprom AS FREQUENCY OF HOGAR.PROMEDAD Ejercicios Clasifique a las viviendas de la provincias de Ñuble y Parinacota según el número de hijos vivos tenidos por las mujeres con edades entre los 14 y 18 años.